CN105630767B

CN105630767B - 一种文本相似性的比较方法以及装置

Info

Publication number: CN105630767B
Application number: CN201510974716.6A
Authority: CN
Inventors: 张伸正; 魏少俊; 陈培军
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2018-06-15
Anticipated expiration: 2035-12-22
Also published as: CN105630767A

Abstract

本发明公开了一种文本相似性的比较方法以及装置，其中，所述方法包括：提取两个以上文本的初始特征向量；所述初始特征向量中至少一个元素的权重值被赋予最小权重值的倍数值，其他元素的权重值被赋予最小权重值；根据所述倍数在初始特征向量中增加相应元素形成新的特征向量；根据所述新的特征向量，比较所述两个以上文本的相似性。本发明提供的文本相似性的比较方法以及装置，能够提高文本信息表示的准确度，使得相似性的比较结果更符合用户的需要。

Description

一种文本相似性的比较方法以及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种信息的相似性的比较方法和装置。

背景技术

随着互联网技术的不断发展和日益普及，新闻等文本信息用户所面对的信息量正在以惊人的速度增长，对能够方便地获取自己感兴趣的文本信息的需求越来越迫切。

由于文本信息量急速增加，文本类别越发细化，并具有很强的实时性，往往更新迅速，时效极短，因此对文本进行有效的聚类，以提供给不同的用户或者提供给不同的应用是十分重要的。

现有技术中，首先提取文本的特征向量，再根据不同文本特征向量比较文本的相似性。例如某一文本，提取的特征向量为(马伊俐新片尺度大职场御姐范儿就得这么穿)，另一文本提取的特征向量为(欧美风服饰搭配晋级职场御姐范儿)，通过比较两个特征向量可以确定两个文本的相似性。

然而，现有技术比较文本相似性时，并不考虑文本特征向量中字词元素的重要性，因此，可能会将在实际上大众不会同时感兴趣的两个文本信息聚类到一起。

但是，现有的最小哈希算法用于对文本信息进行聚类时，并不考虑文本中每一个字词元素的重要性，因此，可能会将在实际上大众不会同时感兴趣的两个文本信息聚类到一起。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种文本相似性的比较方法和装置。

根据本发明的一个方面，提供了一种文本相似性的比较方法，包括：提取两个以上文本的初始特征向量；初始特征向量中至少一个元素的权重值被赋予最小权重值的倍数值，其他元素的权重值被赋予最小权重值；根据倍数在初始特征向量中增加相应元素形成新的特征向量；根据新的特征向量，比较两个以上文本的相似性。

可选地，在根据本发明的实施例的文本相似性的比较方法中，根据新的特征向量，比较两个以上文本的相似性具体为：对新的特征向量进行最小哈希运算，根据运算结果比较两个以上文本的相似性。

可选地，在根据本发明的实施例的文本相似性的比较方法中，根据新的特征向量，比较两个以上文本的相似性具体为：根据新的特征向量之间的内积或夹角的余弦比较所述两个以上文本的相似性。

可选地，在根据本发明的实施例的文本相似性的比较方法中，将文本进行分词处理，进一步进行去无用信息处理后形成初始特征向量。

可选地，在根据本发明的实施例的文本相似性的比较方法中，将文本进行分词处理并去无用信息形成字词序列，根据字词序列中字词出现频率由高到低的顺序排列字词，由前至后取出预设数量的字词形成初始特征向量。

可选地，在根据本发明的实施例的文本相似性的比较方法中，计算初始特征向量中每一个元素的字词频率，字词频率为元素在文本中出现的次数，根据字词频率确定初始特征向量的最小权重值及其对应的元素，最小权重值的倍数权重值及其对应的元素。

可选地，在根据本发明的实施例的文本相似性的比较方法中，计算初始特征向量中每一个元素的文档频率，文档频率为包括了元素的文本数量，逆文档频率为与文档频率呈反比的函数值，根据逆文档频率确定初始特征向量的最小权重值及其对应的元素，最小权重值的倍数权重值及其对应的元素。

可选地，在根据本发明的实施例的文本相似性的比较方法中，计算初始特征向量中每一个元素的字词频率以及逆文档频率，根据计算得到的字词频率以及逆文档频率确定特征向量的最小权重值及其对应的元素，最小权重值的倍数权重值及其对应的元素。

可选地，在根据本发明的实施例的文本相似性的比较方法中，根据初始特征向量中每一个元素在文本中所处的位置确定元素的权重值。

可选地，在根据本发明的实施例的文本相似性的比较方法中，位置包括文本标题，文本摘要，文本正文。

根据本发明的另一个方面，提供了一种文本相似性的比较装置，包括：提取装置，用于提取两个以上文本的初始特征向量；赋值装置，用于将最小权重值的倍数值作为权重值赋予所述初始特征向量中至少一个元素，其他元素的权重值被赋予最小权重值；特征向量变换装置，用于根据所述倍数在初始特征向量中增加相应元素形成新的特征向量；相似性比较装置，用于根据所述新的特征向量，比较所述两个以上文本的相似性。

可选地，在根据本发明的实施例的文本相似性的比较装置中，相似性比较装置，用于对新的特征向量进行最小哈希运算，根据运算结果比较所述两个以上文本的相似性。

可选地，在根据本发明的实施例的文本相似性的比较装置中，相似性比较装置，用于根据新的特征向量之间的内积或夹角的余弦比较两个以上文本的相似性。

可选地，在根据本发明的实施例的文本相似性的比较装置中，提取装置，用于将文本进行分词处理，进一步进行去无用信息处理后形成初始特征向量。

可选地，在根据本发明的实施例的文本相似性的比较装置中，提取装置，用于将文本进行分词处理并去无用信息形成字词序列，根据字词序列中字词出现频率由高到低的顺序排列字词，由前至后取出预设数量的字词形成初始特征向量。

可选地，在根据本发明的实施例的文本相似性的比较装置中，赋值装置，用于计算初始特征向量中每一个元素的字词频率，字词频率为元素在文本中出现的次数，根据字词频率确定初始特征向量的最小权重值及其对应的元素，最小权重值的倍数权重值及其对应的元素。

可选地，在根据本发明的实施例的文本相似性的比较装置中，赋值装置，用于计算初始特征向量中每一个元素的文档频率，文档频率为包括了元素的文本数量，逆文档频率为与文档频率呈反比的函数值，根据逆文档频率确定初始特征向量的最小权重值及其对应的元素，最小权重值的倍数权重值及其对应的元素。

可选地，在根据本发明的实施例的文本相似性的比较装置中，赋值装置，用于计算初始特征向量中每一个元素的字词频率以及逆文档频率，根据计算得到的字词频率以及逆文档频率确定特征向量的最小权重值及其对应的元素，最小权重值的倍数权重值及其对应的元素。

可选地，在根据本发明的实施例的文本相似性的比较装置中，赋值装置，用于根据初始特征向量中每一个元素在文本中所处的位置确定元素的权重值。

可选地，在根据本发明的实施例的文本相似性的比较装置中，位置包括文本标题，文本摘要，文本正文。

本发明的有益效果为：能够提高文本信息表示的准确度，使得相似性的比较结果更符合用户的需要。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了根据本发明一个实施例的文本相似性的比较方法的流程图；

图2示意性示出了根据本发明一个实施例的提取文本信息的特征向量的流程图；

图3示意性示出了根据本发明一个实施例的文本相似性的比较装置的框图；

图4示意性示出了根据本发明一个实施例的提取装置的框图；

具体实施例

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明中，聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

请参阅图1，其示出了本发明具体实施方式提供的一种文本信息聚类的方法，包括：

步骤110，提取两个以上文本的初始特征向量。

具体地，步骤110可选的包括以下步骤，请参阅图2：

步骤1101，对文本信息进行分词处理。

本具体实施方式可以首先进行分词处理，获得多个字词。经过分词处理后的字词包括了例如“马伊俐”、“新片”、“尺度”等字词，还包括了无用信息。

步骤1102，对分词处理后的字词进行去无用信息处理。

无用信息可以将之分为标点符号，与结构助词虚词等在汉语中无意义的词汇。在本发明具体实施方式中，分词处理后，还可以进一步包括对分词处理后的字词进行去无用信息处理。

步骤1103，选择具有代表性的字词构成新闻的特征向量；

可选的，可以将去无用信息处理后得到的字词作为新闻的特征向量。或者提取去无用信息处理后得到的字词中具有代表性的字词构成新闻的特征向量。

例如，对于一篇新闻报道网页，经过分词以及去无用信息处理后，获得一个字词序列S＝(s₁,s₂,s₃......,s_N),其中s1、s2、s3等表示经过分词以及去无用信息处理后的字词。

字词序列S中可能会出现相同的字词，因此可对字词序列中的字词进行相关词频统计，再进一步按照字词出现次数由高到低的顺序进行排列，由前至后取出预设数量的字符作为该新闻文本的特征向量。

步骤120，特征向量中至少一个元素的权重值被赋予最小权重值的倍数，其他元素的权重值被赋予最小权重值。

例如，某文本信息的特征向量S为(马伊俐新片尺度大职场御姐范儿就得这么穿)，对“马伊俐”的权重赋值0.4，“新片”的权重赋值0.2，其他各元素权重赋值0.1。

其中，其他元素的权重值0.1即为最小权重值，“新片”权重值为2倍的最小权重值，“马伊俐”的权重值为4倍的最小权重值。

在本发明的一实施例中，权重的可以采用以下方法确定：

字词频率TF表示某一字词Ti在某一文档Dj中出现的频率，Ti出现的频率越高，TFi越高，说明这个字词对于整个文档越重要，例如，对于一篇谈论马伊俐的文档Dj，文档里马伊俐出现的频率TFi比较高。

根据特征向量中的每个字词的字词频率，确定特征向量中每一个元素的权重值。

在本发明的某一实施例中，权重的可以采用以下方法确定：

文档频率DF表示包含了某一字词Ti的文档的个数，对于某一字词Ti，包含该字词Ti的文档越多，即DFi越大，Ti用于区分不同的文档的作用越小，属于非焦点词。

逆文档频率IDF，与文档频率DF呈反比关系。例如但不限于，对某一字词而言，可以设定IDFi＝log(N/DFi)，其中N为文档总数。若某一字词仅仅出现在一篇文献中，即DFi为1，则IDFi为logN，此时该字词对于文档之间的区分作用最大。

根据特征向量中的每个字词的逆文档频率，确定特征向量中每一个元素的权重值。

在本发明的某一实施例中，权重的可以采用以下方法确定：

根据特征向量中的每个字词的字词频率以及逆文档频率，确定特征向量中每一个元素的权重值。例如但不限于，可以将IF与IDF的乘积作为参数，确定特征向量中每一个元素的权重值。

在本发明的一具体实施方式中，权重的可以采用以下方法确定：

字词出现在标题，文本摘要，文本正文等不同的位置，其重要程度不同，对文本的代表作用也是不同的。因此，可以根据特征向量中每一个元素在文本中所处的位置确定元素的权重值，位置可以包括但不限于文本标题，文本摘要，文本正文。

在本发明的某一实施例中，权重的可以采用以下方法确定：

根据字词在文本中的位置，以及字词频率和/或逆文档频率确定特征向量中每一个元素的权重值。

步骤130，根据所述倍数在特征向量中增加相应元素形成新的特征向量。

例如，增加3个“马伊俐”，1个“新片”至原特征向量(马伊俐新片尺度大职场御姐范儿就得这么穿)中，形成新的特征向量(马伊俐马伊俐马伊俐马伊俐新片新片尺度大职场御姐范儿就得这么穿)。

本领域技术人员可知，其他根据倍数在特征向量中增加相应元素形成新的特征向量的方法也均是可以的，例如，增加6个“马伊俐”，2个“新片”至原特征向量；或者增加2个“马伊俐”，2个“新片”至原特征向量等。

步骤140，根据新的特征向量，比较两个以上文本的相似性。

在本发明的某一实施例中，假设文本的特征向量分别为A和B，A与B之间的距离如下式所示：

D＝1-|A∩B|/|A∪B| (1)

例如，文本一的特征向量A为(马伊俐新片尺度大职场御姐范儿就得这么穿)，文本二的特征向量B为(马伊琍新片尺度大一集亲热数次)，特征向量A与特征向量B之间的并集为17，交集为4，因此可以计算得到距离为0.76。

特征向量C为(马伊琍最新新片剧照有范儿)，特征向量A与特征向量C之间的交集为3，并集为16，因此可以计算得到距离为0.81。

由此可见，特征向量的距离越大，相似性越小，距离越小，相似性越大。

在本发明的某一实施例中，相似性可以由其他新闻的特征向量与标杆新闻的特征向量的内积或夹角的余弦确定。

在本发明的某一实施例中，若文本A构建的新的特征向量的最小哈希值与文本B构建的新的特征向量的最小哈希值相等，则文本A与文本B相似的文本。

对于特征向量A和B，这两个向量的群落系数J定义为：

J(A,B)＝|A∩B|/|A∪B|

在最小哈希算法(MinHash)中，假设向量A＝(a₁,a₂...a_i...a_N)是一个N维向量，对于向量中每一个元素a_i，H(a_i)为将a_i映射成一个整数的哈希函数，h_min(A)是向量A中的元素经过哈希函数处理后所得的最小哈希值。对于向量A和B，h_min(A)＝h_min(B)成立的条件是A∪B中具有最小哈希值的元素也在A∩B。上式成立的前提是这个H是一个良好的哈希函数，具有很好的均匀性，能够把不同元素映射成不同整数。

因此有：P_r(h_min(A)＝h_min(B))＝J(A,B)。其中Pr表示概率。即向量A最小哈希值与向量B最小哈希值相等的概率等于向量A，B的群落系数。因此，可以将最小哈希值相同的向量作为相似的向量。

在本发明的某一实施例中，选取一哈希函数，h_mink(A)表示A特征向量中哈希值最小的k个元素，k≥2。

同理，确定B特征向量中哈希值最小的k个元素。

根据A特征向量中k个元素与B特征向量中k个元素的相似度，例如交集的个数与并集个数的比值，确定A文本与B文本是否属于相似文本。

在本发明的某一实施例中，选取多个哈希函数，例如M个，M≥2。对A的特征向量以及B的特征向量，用M个哈希函数分别求哈希值。对于每一个向量，每个哈希函数对应一个最小哈希值，M个哈希函数对应M个最小哈希值，确定M个最小哈希值对应M个元素。根据A文本的M个元素与B文本的该M个元素的相似度，例如交集的个数与并集个数的比值，确定A文本与B文本是否属于相似文本。

图3示出了本发明实施例提供的文本指纹信息的生成装置的框图。

根据图3可知，文本指纹信息的生成装置包括提取装置210、赋值装置220、特征向量变换装置230、相似性比较装置240。

提取装置210，用于提取两个以上文本的初始特征向量。

图4示意性示出了根据本发明一个实施例的提取装置的框图。如图所示该实施例中，提取装置包括了分词装置2101，无用信息去除装置2102，初始特征向量生成装置2103。

分词装置2101，用于对文本进行分词处理后形成字词序列。

例如，文本信息经过分词处理后的字词包括了例如“马伊俐”、“新片”、“尺度”等字词。

可选的，提取装置还包括无用信息去除装置2102。

无用信息去除装置，用于对分词处理后的字词进行去无用信息处理。无用信息可以将之分为标点符号，与结构助词虚词等在汉语中无意义的词汇。

初始特征向量生成装置2103，用于生成初始特征向量。

可选的，可以将去无用信息处理后得到的字词作为文本的初始特征向量。或者提取去无用信息处理后得到的字词中具有代表性的字词构成新闻的特征向量。

赋值装置220，用于将最小权重值的倍数值作为权重值赋予初始特征向量中至少一个元素，其他元素的权重值被赋予最小权重值。

在本发明的一实施例中，权重的可以采用以下方法确定：

在本发明的某一实施例中，权重的可以采用以下方法确定：

在本发明的某一实施例中，权重的可以采用以下方法确定：根据字词在文本中的位置，以及字词频率和/或逆文档频率确定特征向量中每一个元素的权重值。

特征向量变换装置230，用于根据最小权重值的倍数在初始特征向量中增加相应元素形成新的特征向量。

相似性比较装置240，用于根据所述新的特征向量，比较所述两个以上文本的相似性。

D＝1-|A∩B|/|A∪B| (1)

对于特征向量A和B，这两个向量的群落系数J定义为：

J(A,B)＝|A∩B|/|A∪B|

同理，确定B特征向量中哈希值最小的k个元素。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文本相似性的比较装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种文本相似性的比较方法，包括：

提取两个以上文本的初始特征向量；

所述初始特征向量中至少一个元素的权重值被赋予最小权重值的倍数值，其他元素的权重值被赋予最小权重值；

根据所述倍数在初始特征向量中增加相应元素形成新的特征向量；

根据所述新的特征向量，比较所述两个以上文本的相似性。

2.根据权利要求1所述的文本相似性的比较方法，其特征在于，根据所述新的特征向量，比较所述两个以上文本的相似性具体为：对所述新的特征向量进行最小哈希运算，根据运算结果比较所述两个以上文本的相似性。

3.根据权利要求1所述的文本相似性的比较方法，其特征在于，根据所述新的特征向量，比较所述两个以上文本的相似性具体为：根据所述新的特征向量之间的内积或夹角的余弦比较所述两个以上文本的相似性。

4.根据权利要求1-3中任一所述的文本相似性的比较方法，其特征在于，将文本进行分词处理，进一步进行去无用信息处理后形成所述初始特征向量。

5.根据权利要求4所述的文本相似性的比较方法，其特征在于，将文本进行分词处理并去无用信息形成字词序列，根据字词序列中字词出现频率由高到低的顺序排列字词，由前至后取出预设数量的字词形成所述初始特征向量。

6.根据权利要求1-3、5中任一所述的文本相似性的比较方法，其特征在于，计算初始特征向量中每一个元素的字词频率，所述字词频率为元素在所述文本中出现的次数，根据所述字词频率确定所述初始特征向量的最小权重值及其对应的元素，最小权重值的倍数权重值及其对应的元素。

7.根据权利要求1-3、5中任一所述的文本相似性的比较方法，其特征在于，计算初始特征向量中每一个元素的文档频率，所述文档频率为包括了所述元素的文本数量，逆文档频率为与所述文档频率呈反比的函数值，根据所述逆文档频率确定所述初始特征向量的最小权重值及其对应的元素，最小权重值的倍数权重值及其对应的元素。

8.根据权利要求1-3、5中任一所述的文本相似性的比较方法，其特征在于，计算初始特征向量中每一个元素的字词频率以及逆文档频率，根据计算得到的所述字词频率以及所述逆文档频率确定特征向量的最小权重值及其对应的元素，最小权重值的倍数权重值及其对应的元素。

9.根据权利要求1-3、5中任一所述的文本相似性的比较方法，其特征在于，根据初始特征向量中每一个元素在文本中所处的位置确定元素的权重值。

10.根据权利要求9所述的文本相似性的比较方法，其特征在于，所述位置包括文本标题，文本摘要，文本正文。