CN103324687A

CN103324687A - 对多篇文档进行相关性检验的方法和装置

Info

Publication number: CN103324687A
Application number: CN2013102178625A
Authority: CN
Inventors: 黄平春
Original assignee: Northern Boundary Of Imagination (beijing) Software Co Ltd
Current assignee: Northern Boundary Of Imagination (beijing) Software Co Ltd
Priority date: 2013-06-03
Filing date: 2013-06-03
Publication date: 2013-09-25

Abstract

本发明提供一种对多篇文档进行相关性检验的方法和装置。该方法包括：确定多篇文档对应的n个主题词，其中N为自然数且n大于等于3；计算n个主题词中每两个主题词的相似度值；以及计算多个相似度值的方差，根据方差确定多篇文档的相关性。在本发明中，通过计算多个相似度值的方差，可以确定多个主题词的相关性大小，从而可以确定多篇文档的相关性是否满足要求。

Description

对多篇文档进行相关性检验的方法和装置

技术领域

本发明涉及互联网领域，特别涉及一种对多篇文档进行相关性检验的方法和装置。

背景技术

在互连网信息急剧增加的环境下，如何有效准确的得到所需的信息成为亟待解决的技术问题。其中，如何对相同类型的网络文档进行准确分类或聚类尤为关键。

现有技术中对文档进行分类或聚类后，无法准确的对分类或聚类得到的某一类文档的相关性进行检验，因此，该类别中可能出现与其它文档相关性不高的文档，用户对该类文档进行针对性阅读时，会被这些相关性不高的文档所干扰，降低了阅读效率和用户体验。

发明内容

本发明实施例提供一种对多篇文档进行相关性检验的方法和装置，通过确定多个主题词的相关性大小，确定多篇文档的相关性是否满足要求。

对多篇文档进行相关性检验的方法包括以下步骤：确定多篇文档对应的n个主题词，其中n为自然数且n大于等于3；计算n个主题词中每两个主题词的相似度值；以及计算多个相似度值的方差，根据方差确定多篇文档的相关性。

在一个实施例中，在计算n个主题词中每两个主题词的相似度值之前，上述方法还包括：按预设顺序构造相似度矩阵，其中，相似度矩阵中的每个元素为上述n个主题词中的两个主题词之间的待计算相似度；将相似度矩阵转换成向量。

在一个实施例中，每个相似度仅在相似度矩阵中出现一次。

在一个实施例中，将矩阵转换成向量包括：将矩阵划分为从上到下依次排列的多个行向量；将多个行向量首尾连接，合并为一个向量。

在一个实施例中，计算n个主题词中每两个主题词的相似度值包括：根据两个主题词的联合文档频和分别对应的单独文档频，计算两个主题词的相似度值，其中，联合文档频为同时包含两个主题词的文档个数，单独文档频为包含一个主题词的文档个数。

在一个实施例中，在单独文档频固定的情况下，两个主题词的相似度与联合文档频成正比。

在一个实施例中，在计算n个主题词中每两个主题词的相似度值之后，上述方法还包括：利用平滑参数将相似度值转换为正规化相似度值。

在一个实施例中，在确定多篇文档对应的n个主题词之后以及计算n个主题词中每两个主题词的相似度值之前，上述方法还包括：将噪音文档过滤，其中，噪音文档为不包含任一主题词的文档。

对多篇文档进行相关性检验的装置包括以下组成部分：确定模块，用于确定多篇文档对应的n个主题词，其中n为自然数且n大于等于3；第一计算模块，用于计算n个主题词中每两个主题词的相似度值；以及第二计算模块，用于计算多个相似度值的方差，根据方差确定多篇文档的相关性。

在一个实施例中，上述装置还包括：构造模块，用于按预设顺序构造相似度矩阵，其中，相似度矩阵中的每个元素为上述n个主题词中的两个主题词之间的待计算相似度；第一转换模块，用于将相似度矩阵转换成向量。

在一个实施例中，每个相似度仅在相似度矩阵中出现一次。

在一个实施例中，第一转换模块包括：划分子模块，用于将矩阵划分为从上到下依次排列的多个行向量；合并子模块，用于将多个行向量首尾连接，合并为一个向量。

在一个实施例中，第一计算模块包括：计算子模块，用于根据两个主题词的联合文档频和分别对应的单独文档频，计算两个主题词的相似度值，其中，联合文档频为同时包含两个主题词的文档个数，单独文档频为包含一个主题词的文档个数。

在一个实施例中，上述装置还包括：第二转换模块，用于利用平滑参数将相似度值转换为正规化相似度值。

在一个实施例中，上述装置还包括：过滤模块，用于将噪音文档过滤，其中，噪音文档为不包含任一主题词的文档。

在本发明中，通过计算多个相似度值的方差，可以确定多个主题词的相关性大小，从而可以确定多篇文档的相关性是否满足要求。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1是根据本发明实施例的对多篇文档进行相关性检验的方法的流程图；

图2是根据本发明优选实施例的多篇文档进行相关性检验的方法的流程图；

图3是根据本发明优选实施例的主题词提取示意图；

图4是根据本发明实施例的对多篇文档进行相关性检验的装置400的结构框图；

图5是根据本发明第一优选实施例的对多篇文档进行相关性检验的装置500的结构框图；

图6是根据本发明第二优选实施例的对多篇文档进行相关性检验的装置600的结构框图；

图7是根据本发明第三优选实施例的对多篇文档进行相关性检验的装置700的结构框图；

图8是根据本发明第四优选实施例的对多篇文档进行相关性检验的装置800的结构框图；以及

图9是根据本发明第五优选实施例的对多篇文档进行相关性检验的装置900的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例作进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

现在将参考附图进一步详细描述本发明。本发明可以许多不同的形式来实现，不应该被理解为仅限于此处所阐述的实施例。这些实施例只作为示例提供，以便为本领域技术人员提供对本发明的完全理解。

图1是根据本发明实施例的对多篇文档进行相关性检验的方法100的流程图。如图1所示，该方法包括步骤102至步骤106。

在步骤102中，确定多篇文档对应的n个主题词，其中n为自然数且n大于等于3。

在步骤104中，计算这n个主题词中每两个主题词的相似度值。

在步骤106中，计算多个相似度值的方差，根据该方差确定多篇文档的相关性。

在本实施例中，通过计算多个相似度值的方差，可以确定多个主题词的相关性大小，从而可以确定多篇文档的相关性是否满足要求。

图2是根据本发明优选实施例的对多篇文档进行相关性检验的方法200的流程图。如图2所示，该方法包括步骤202至步骤216。

在步骤202中，提取多篇文档的主题词。

对该多篇文档进行分词后，可以使用文本主题提取算法从所有的文档中提取n个主题词x1、x2、x3……xn（n为大于等于3的自然数），提取出来的n个主题词组成的组合相当于这多篇文档的中心思想。具体地，可在去除形容词和副词等词语后，使用LDA算法等从名词或名词性短语中提取主题词。本步骤使用的这些算法一般根据词语的出现次数，即词频等进行提取，词频比较高的词语会被提取为主题词，例如，该多篇文档为10篇文档，包括9篇篮球文档和1篇娱乐文档，如果设置主题词的数量为4个，则最后的主题词可能是涉及篮球的词语“总决赛”“科比”“湖人”“冠军”等，娱乐文档中的“选秀”等词语虽然在该文档中出现频率较高，但是在10篇文档中总词频不高，因此一般不会成为主题词。

图3是根据本发明优选实施例的主题词提取示意图，如图3所示，在4篇文档组成的文档集合301中，文档1中“湖人”的词频为2、“选秀”的词频为0；文档2中“湖人”的词频为3、“选秀”的词频为0；文档3中“湖人”的词频为4、“选秀”的词频为0；文档4中“湖人”的词频为0、“选秀”的词频为6，则在该集合301中，“湖人”的总词频为9（2+3+4），“选秀”的总词频为6。当设置的主题词的数量为4个，且“湖人”的总词频在所有词语中排第4时，“湖人”被提取为关键词，而“选秀”的词频低于“湖人”的词频，不能被提取为主题词。主题词的数量可以根据实际需求进行设置，但如前所述，主题词数量不得小于3。

在另一种实现方式中，可以不对主题词的数量进行设置，而仅对主题词的词频进行限制，例如词频高于阈值的词语，都作为主题词。在设置阈值时，需结合前期收集的信息，以免主题词的数量小于3。

在步骤204中，对上述多篇文档进行去噪，过滤与主题词无法匹配的噪音文档。

在本步骤中，首先将多个主题词组成的组合分别与各文档进行匹配，然后将不包含任一主题词的噪音文档过滤。具体地，可以使用搜索工具对所有文档建立索引，例如使用Lucene检索包建立索引，然后将主题词与各文档匹配，对于无法匹配的噪音文档，即不包括任一主题词的文档，进行过滤，实现降噪处理。

上述实施例中，从娱乐文档中无法搜索出“总决赛”“科比”“湖人”“冠军”中任何一个主题词，因此，该娱乐文档无法与主题词匹配，该娱乐文档在本步骤中被作为噪音文档过滤掉。

在步骤206中，按预设顺序构造相似度矩阵。该相似度矩阵中的每个元素为步骤202中得到的n个主题词中的两个主题词的待计算相似度。在本申请书中，待计算相似度/相似度均指两个主题词之间相似程度，并可同时指代未经计算的相似度计算公式；相似度值是指由前述相似度计算公式实际计算得到的数值。另外，以上两个主题词可为某个主题词及该主题词自身。

一般而言，通过某一算法利用多个参数计算多个数值时，会预先规定该多个数值的计算结果以矩阵的形式输出。在本实施例的后续步骤中，需要根据主题词计算多个相似度值，但这多个相似度值中包含重复的数值。因此，本实施例先按预设顺序构造这个相似度矩阵，即通过对以相似度为元素得到的原始矩阵进行变形，滤除重复出现的相似度以达到去重的目的。最后根据此相似度矩阵对去重后的相似度进行计算，从而无须计算出所有的相似度值，达到简化计算的目的。

具体地，首先由步骤202得到n个主题词x1、x2……xn后，确定y1、y2、y3……yn。算法如下：令ｘｎ＝ｙｎ，即，ｘ1＝ｙ1，ｘ2＝ｙ2，……

随后定义原始矩阵中的每个元素为一个待计算的主题词xn和yn的相似度ＮＬＤ（ｘｎ，ｙｎ），其中，ｎ为1,2,3，…。本实施例中原始矩阵的构建方式为：以ＮＬＤ（ｘ1，ｙ1）为矩阵第一行的第一个元素，在矩阵的每一行中，ｙｎ保持不变，ｘｎ从左至右按预设顺序排列；在矩阵的每一列中，ｘｎ保持不变，ｙｎ从上至下按预设顺序排列，ｘｎ的预设顺序为ｘ1、ｘ2、ｘ3，…，ｙｎ的预设顺序为ｙ1、ｙ2、ｙ3，…。基于此，原始矩阵构建为如下形式：

NLD(ｘ1,ｙ1) NLD(ｘ2,ｙ1) NLD(ｘ3,ｙ1)…… NLD(ｘn,ｙ1)

NLD(ｘ1,ｙ2) NLD(ｘ2,ｙ2) NLD(ｘ3,ｙ2)…… NLD(ｘn,ｙ2)

NLD(ｘ1,ｙ3) NLD(ｘ2,ｙ3) NLD(ｘ3,ｙ3)…… NLD(ｘn,ｙ3)

…… …… …… ……

NLD(ｘ1,ｙn) NLD(ｘ2,ｙn) NLD(ｘ3,ｙn)…… NLD(ｘn,ｙn)

从该原始矩阵中可以得出，该原始矩阵是沿主对角线对称的，例如，NLD（ｘ2，ｙ1）=NLD（ｘ1，ｙ2），即该矩阵的上三角矩阵可表明多个相似度之间的关系，因此，进一步取上述原始矩阵的上三角矩阵。

对该上三角矩阵中的各元素进行还原，根据前述算法ｘｎ＝ｙｎ，将全部y1、y2……yn还原为关键词x1、x2……xn。则上述上三角矩阵可以最终简化为如下相似度矩阵：

NLD(x1,x1) NLD(x2,x1) NLD(x3,x1)…… NLD(xn,x1)

NLD(x2,x2) NLD(x3,x2)…… NLD(xn,x2)

NLD(x3,x3)…… NLD(xn,x3)

……

NLD(xn,xn)

在步骤208中，将该相似度矩阵转换成一个向量。

本实施例的后续步骤通过计算多个相似度值的方差来检验多篇文档的相关性，将矩阵转换成向量，可以便于计算方差。本实施例中对该向量进行横向张开，即，将该矩阵划分为从上到下依次排列的n个行向量，将这n个行向量首尾连接，合并成一个向量。在其他实施例中，纵向或其他方式张开也开始达到本实施例的效果，本实施例张开后的向量为：

（NLD(x1,x1)，NLD(x1,x2)，NLD(x1,x3)，……NLD(x1,xn)，NLD(x2,x2)，NLD(x2,x3)，……NLD(x2,xn)，NLD(x3,x3)，……NLD(x3,xn)，……NLD(xn,xn)）。

步骤206和步骤208的目的在于减少参与计算的元素的个数，从而减少下述步骤210的计算量。

在步骤210中，计算向量中的每个相似度值对应的联合文档频和单独文档频。具体地，该值的计算需要根据两个主题词在多篇文档中的联合文档频与各自的单独文档频来得出。联合文档频是指同时包含这两个主题词的文档的个数，例如，有x1、x2两个主题词，和甲、乙、丙三篇文档，甲文档中同时包含x1和x2，乙文档中未同时包含x1和x2，丙文档中同时包含x1和x2，则x1和x2在甲、乙、丙三篇文档中的联合文档频为2。单独文档频是指仅包含1个主题词的文档的个数，仍以上述主题词包括x1、x2及甲、乙、丙三篇文档为例，在甲文档中，包含x1和x2；在乙文档中，不包含x1，但包含x2；在丙文档中，包含x1，但不包含x2，则x1的单独文档频为2，x2的单独文档频为2。

依照上述方式，对所有主题词进行两两计算，可以得出全部主题词中每两个主题词的联合文档频频和各自的单独文档频。

在步骤212中，根据步骤210中求得的单独文档频和联合文档频，计算两个主题词的相似度值。

一般而言，相似度遵循以下规律：在单独文档频固定的情况下，两个主题词的相似度与联合文档频成正比。

具体地，可以根据如下公式计算两个主题词x1与x2之间的相似度：

相似度NLD(x1,x2)=

(max{logf(x1),logf(x2)}-logf(x1,x2))/(logN-min{logf(x1),logf(x2)})。

其中，f(x1)是主题词x1的单独文档频，f(x2)是主题词x2的单独文档频，f(x1,x2)是主题词x1和主题词x2的联合文档频，N是文档总数，max{logf(x1),logf(x2)}为取logf(x1)和logf(x2)中较大的值，min{logf(x1),logf(x2)}取logf(x1)和logf(x2)中较小的值。对各函数取对数log可以减小计算量，在不取log的情况下，也能求出相应的相似度值。

根据上述公式，可以求出主题词x1和x2的相似度值。

同理，根据上述步骤还可以求出其他任意两个主题词的相似度值。

有些情况下，需要计算一个主题词和该主题词自身的相似度，这种情况同样可以根据上述公式进行计算，也可以根据经验，直接赋值0。

为了符合一般的相似度值的定义，还可以将相似度值的范围正规化到一个[0,1]的数值范围，相似度越高，数值越接近1，即100%相似；相似度越低，数值越接近0。因此，可以定义转换公式，转换到[0,1]之间的正规化相似度GR(x1,x2)=a/(NLD(A,B)+a)，其中，a为平滑参数，在本实施例中，可以设定a为0.5。将NLD（x1，x2）的数值代入转换公式中，NLD（x1，x2）的值越小，GR(x1,x2)的值越大，即相似度越高，GR（x1，x2）的值越大。

在步骤214中，计算向量中各相似度值的方差。

首先，计算NLD(x1,x1)，NLD(x1,x2)，…，NLD(xn,xn)的期望值m。

然后，计算方差S=

\frac{1}{N} \cdot [{(NLD (x 1, x 1) - m)}^{2} + {(NLD (x 1, x 2) - m)}^{2} + \cdot \cdot \cdot + {(NLD (xn, xn) - m)}^{2}],

其中，N为文档总数，m为上述期望值。

在步骤216中，根据上述方差判断多篇文档的相关性是否满足要求。

根据先前经验，可以得出方差的阈值，即方差小于阈值，则多篇满足文档的相关性符合要求。在本实施例中，求出方差后，与预设阈值进行比较，则可以判断本实施例中，多篇文档是否满足相关性要求。

本发明实施例还提供了一种对多篇文档进行相关性检验的装置400，图4是根据本发明实施例的对多篇文档进行相关性检验的装置400的结构框图，如图4所示，该装置包括确定模块402、第一计算模块404和第二计算模块406。

具体地，确定模块402用于确定多篇文档对应的n个主题词，其中n为自然数且n大于等于3。第一计算模块404用于计算n个主题词中每两个主题词的相似度值。第二计算模块406用于计算多个相似度值的方差，根据方差确定多篇文档的相关性。

图5是根据本发明第一优选实施例的对多篇文档进行相关性检验的装置500的结构框图，如图5所示，该装置在装置400的基础上还包括构造模块502和第一转换模块504。

具体地，构造模块502用于按预设顺序构造相似度矩阵，其中，相似度矩阵中的每个元素为n个主题词中的两个主题词之间的待计算相似度。第一转换模块504用于将相似度矩阵转换成向量。

每个相似度仅在相似度矩阵中出现一次。

图6是根据本发明第二优选实施例的对多篇文档进行相关性检验的装置600的结构框图，如图6所示，在第一转换模块504中还包括划分子模块602和合并子模块604。

划分子模块602用于将矩阵划分为从上到下依次排列的多个行向量；

合并子模块604用于将多个行向量首尾连接，合并为一个向量。

图7是根据本发明第三优选实施例的对多篇文档进行相关性检验的装置700的结构框图，如图7所示，在第一计算模块404中包括计算子模块702。

计算子模块702用于根据两个主题词的联合文档频和分别对应的单独文档频，计算两个主题词的相似度值，其中，联合文档频为同时包含两个主题词的文档个数，单独文档频为包含一个主题词的文档个数。

在单独文档频固定的情况下，两个主题词的相似度与联合文档频成正比。

图8是根据本发明第四优选实施例的对多篇文档进行相关性检验的装置800的结构框图，如图8所示，该装置在装置700的基础上还包括第二转换模块802。

第二转换模块802用于利用平滑参数将相似度值转换为正规化相似度值。

图9是根据本发明第五优选实施例的对多篇文档进行相关性检验的装置900的结构框图，如图9所示，该装置在装置400的基础上还包括过滤模块902。

过滤模块902用于将噪音文档过滤，其中，噪音文档为不包含任一n个主题词的文档。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对多篇文档进行相关性检验的方法，其特征在于，包括：

确定所述多篇文档对应的n个主题词，其中n为自然数且n大于等于3；

计算所述n个主题词中每两个主题词的相似度值；以及

计算多个所述相似度值的方差，根据所述方差确定所述多篇文档的相关性。

2.根据权利要求1所述的方法，其特征在于，在计算所述n个主题词中每两个主题词的相似度值之前，所述方法还包括：

按预设顺序构造相似度矩阵，其中，所述相似度矩阵中的每个元素为所述n个主题词中的两个主题词之间的待计算相似度；

将所述相似度矩阵转换成向量。

3.根据权利要求2所述的方法，其特征在于，每个相似度仅在所述相似度矩阵中出现一次。

4.根据权利要求2所述的方法，其特征在于，将所述矩阵转换成向量包括：

将所述矩阵划分为从上到下依次排列的多个行向量；

将所述多个行向量首尾连接，合并为一个向量。

5.根据权利要求1所述的方法，其特征在于，计算所述n个主题词中每两个主题词的相似度值包括：

根据所述两个主题词的联合文档频和分别对应的单独文档频，计算所述两个主题词的所述相似度值，其中，所述联合文档频为同时包含所述两个主题词的文档个数，所述单独文档频为包含一个所述主题词的文档个数。

6.根据权利要求5所述的方法，其特征在于，在所述单独文档频固定的情况下，两个所述主题词的相似度与所述联合文档频成正比。

7.根据权利要求6所述的方法，其特征在于，在计算所述n个主题词中每两个主题词的所述相似度值之后，所述方法还包括：

利用平滑参数将所述相似度值转换为正规化相似度值。

8.根据权利要求1所述的方法，其特征在于，在确定所述多篇文档对应的n个主题词之后以及计算所述n个主题词中每两个主题词的相似度值之前，所述方法还包括：

将噪音文档过滤，其中，所述噪音文档为不包含任一所述n个主题词的文档。

9.一种对多篇文档进行相关性检验的装置，其特征在于，包括：

确定模块，用于确定所述多篇文档对应的n个主题词，其中n为自然数且n大于等于3；

第一计算模块，用于计算所述n个主题词中每两个主题词的相似度值；以及

第二计算模块，用于计算多个所述相似度值的方差，根据所述方差确定所述多篇文档的相关性。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

构造模块，用于按预设顺序构造相似度矩阵，其中，所述相似度矩阵中的每个元素为所述n个主题词中的两个主题词之间的待计算相似度；

第一转换模块，用于将所述相似度矩阵转换成向量。

11.根据权利要求10所述的装置，其特征在于，每个相似度仅在所述相似度矩阵中出现一次。

12.根据权利要求10所述的装置，其特征在于，所述第一转换模块包括：

划分子模块，用于将所述矩阵划分为从上到下依次排列的多个行向量；

合并子模块，用于将所述多个行向量首尾连接，合并为一个向量。

13.根据权利要求9所述的装置，其特征在于，所述第一计算模块包括：

计算子模块，用于根据所述两个主题词的联合文档频和分别对应的单独文档频，计算所述两个主题词的所述相似度值，其中，所述联合文档频为同时包含所述两个主题词的文档个数，所述单独文档频为包含一个所述主题词的文档个数。

14.根据权利要求13所述的装置，其特征在于，在所述单独文档频固定的情况下，两个所述主题词的相似度与所述联合文档频成正比。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

第二转换模块，用于利用平滑参数将所述相似度值转换为正规化相似度值。

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

过滤模块，用于将噪音文档过滤，其中，所述噪音文档为不包含任一所述n个主题词的文档。