CN105389297A

CN105389297A - 文本相似度处理方法

Info

Publication number: CN105389297A
Application number: CN201510969370.0A
Authority: CN
Inventors: 梁丰; 王遵义; 翁时锋
Original assignee: Zhejiang Wanli College
Current assignee: Zhejiang Wanli University; Zhejiang Wanli College
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2016-03-09

Abstract

本发明实施例提出一种文本相似度处理方法，包括：采集互联网信息，并生成元数据特征向量；根据生成的元数据特征向量构建概念树，并基于构建的所述概念树生成子树；通过所述子树计算采集的互联网信息中文本之间的相似度。本发明无需人为参与，节约了人力成本，且具有准确性高的优点。

Description

文本相似度处理方法

技术领域

本发明涉及一种信息处理方法，特别涉及一种文本相似度处理方法。

背景技术

随着互联网信息的迅速增长，如何从海量信息中获取用户所需的信息是当前一项重要的研究工作。在国内外对此所开展的文本挖掘、人工智能、信息检索、知识管理等相关研究中，文本相似度计算得到广泛应用。目前，相似度计算方法主要分为基于大规模文本集统计的传统方法和基于语义计算的方法。

基于大规模文本集统计的方法，通常采用向量空间模型(VectorSpaceModel，VSM)和隐性语义索引模型(LatentSemanticIndexing，LSI)等方法。这些方法均基于关键词进行相似度计算，未考虑特征项的语义信息，例如，认为“火车”和“交通工具”没有相关性，相似度为0，而实际上前者相对后者来说是具体概念，后者是前者的抽象类别概念，两词项间有着语义相似关系。由于只考虑词在上下文中的统计特性，而没有考虑词的语义，因此，基于大规模文本集统计方法具有一定的局限性。

基于语义文本相似度计算方法由于过于注重语义概念的结构分布，需要人为参与，人力成本高，计算过程复杂。

发明内容

本发明实施例的目的是提供一种文本相似度处理方法，以解决现有的文本相似度计算方法准确性低、计算过程复杂、人力成本高的问题。

本发明实施例提出一种文本相似度处理方法，包括：

采集互联网信息，并生成元数据特征向量；

根据生成的元数据特征向量构建概念树，并基于构建的所述概念树生成子树；

通过所述子树计算采集的互联网信息中文本之间的相似度。

依照本发明较佳实施例所述的文本相似度处理方法，所述采集互联网信息，并生成元数据特征向量的步骤中，生成元数据特征向量时依照以下规则：

Matrix＝(dt_ik)_m×n，

其中，Matrix表示一个m×n矩阵，元素dt_ik表示第i个文本的第k个元数据特征项。

依照本发明较佳实施例所述的文本相似度处理方法，所述根据生成的元数据特征向量构建概念树的步骤包括：

根据采集到的互联网信息中文本数据结构，构建多个概念节点；

计算各个概念节点之间的相似性；

根据各个概念节点的相似性构建概念树。

依照本发明较佳实施例所述的文本相似度处理方法，所述计算各个概念节点之间的相似性的步骤中，依照以下公式计算各个概念节点之间的相似性：

s i m i l a r i t y (c_{i}, c_{j}) = \frac{2 d e p t h (l s o (c_{i}, c_{j})}{l e n (c_{i}, l s o (c_{i}, c_{j})) + l e n (c_{j}, l s o (c_{i}, c_{j})) + 2 d e p t h (l s o (c_{i}, c_{j})}

其中，lso(ci，cj)是概念ci和概念cj的公共最近父结点，depth(lso(ci，cj))是两个不同的概念ci和概念cj的公共最近父结点在概念树中的深度，len(ci，lso(ci，cj))是概念ci到公共最近父结点的路径上概念结点的个数。

依照本发明较佳实施例所述的文本相似度处理方法，所述基于构建的所述概念树生成子树的步骤包括：根据概念树的概念节点生成对应的子树。

依照本发明较佳实施例所述的文本相似度处理方法，所述通过所述子树计算采集的互联网信息中文本之间的相似度的步骤包括：

分析采集的互联网信息中文本与各个子树之间的匹配关系；

根据所述匹配关系获取与每个文本最相似的子树；

根据子树之间的相似度，计算文本之间的相似度。

依照本发明较佳实施例所述的文本相似度处理方法，所述分析采集的互联网信息中文本与各个子树之间的匹配关系的步骤包括：计算采集的互联网信息中文本与各个子树之间的相似度。

依照本发明较佳实施例所述的文本相似度处理方法，计算文本与匹配子树之间的相似度可以依照以下公式：

s i m (d_{i}, {ST}_{k}) = \frac{Σ_{m = 1}^{L} m a t c h (t_{m}, c_{m}) \cdot W_{m} \cdot w_{m}}{I + K}

其中，文本di与匹配子树STk的相似度记为sim(di，STk)，ST_k是文本di的匹配子树，L表示文本di的元数据特征向量与子树ST_k实现最多匹配概念对的数目，I和K分别表示文本di的元数据特征项的个数及子树STk中概念结点个数，t_m为文本向量di中第m个配对的元数据特征项，W_m是t_m的权重，c_m为子树STk中的第m个配对的概念结点，w_m是c_m的权重。

依照本发明较佳实施例所述的文本相似度处理方法，所述根据子树之间的相似度，计算文本之间的相似度的步骤中，子树与子树的相似度可以依照如下计算公式：

\begin{matrix} t r e e S i m ({ST}_{k}, {ST}_{l}) = \\ \frac{Σ_{n = 1}^{N} m a x (s i m i l a r i t y (c_{n}, C_{n})) \cdot w_{n} \cdot w_{n}^{'}}{K + L} \end{matrix}

其中，子树之间的相似度记为treeSim(STk，STl)，N表示子树STk与子树STl最大匹配的概念对个数，max(similarity(cn，Cn))表示子树STk与子树STl中具有最大相似度值的概念结点对，cn为子树STk中的第n个配对的概念结点，Cn为子树STl中的第n个配对的概念结点，wn及wn'分别是cn和Cn的权重，K和L分别表示子树STk与子树STl中概念结点的总个数。

依照本发明较佳实施例所述的文本相似度处理方法，所述根据子树之间的相似度，计算文本之间的相似度的步骤包括：根据文本与最相似的子树之间的相似度，以及子树之间的相似度，计算文本之间的相似度。

相对于现有技术，本发明的有益效果是：本发明以元数据作为文本中的重要词项，为文本间的语义相似度计算提供了一个合适的表征向量，从降低文本表示时文本向量的维度出发，通过对文本收集元数据及对元数据进行预处理，生成具有少量特征项的元数据特征向量，在不影响文本特征提取的前提下减少文本特征向量的维度。通过生成概念树，设置分层权重并设置对同义词的处理，以子树为中介计算文本向量之间的相似度。本发明概念树的构建是一项基础性的工作，该树一次构建可多次被使用，因而减少算法的时间耗费，另外，基于子树匹配的文本相似度计算提高相似度计算的语义准确性。且无需人为参与，节约了大量的人力成本。

附图说明

图1为本发明实施例的一种文本相似度处理方法的流程图；

图2为本发明实施例的一种概念树的示意图；

图3为本发明实施例的一种文本与子树之间的匹配关系示意图；

图4为本发明实施例的一种子树与子树之间的相似度关系示意图；

图5为本发明实施例的一种基于相同匹配子树文本之间的相似度关系的示意图；

图6为本发明实施例的一种基于不同匹配子树文本之间的相似度关系的示意图。

具体实施方式

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

本发明提出一种文本相似度处理方法，请参见图1，其包括以下步骤：

S11，采集互联网信息，并生成元数据特征向量。

S12，根据生成的元数据特征向量构建概念树，并基于构建的所述概念树生成子树。

S13，通过所述子树计算采集的互联网信息中文本之间的相似度。

由于文本中不同结构的词项对相似度计算的作用大小是不同的，如文本中标题、摘要、关键词等关键结构中的元数据词项，这些元数据蕴含着文本的核心内容，对文本相似度度量计算有着重要作用。元数据是“关于数据的结构化数据”，目前互联网上存在大量具有元数据结构的文本资源，如邮件文档、数字图书馆的仓储、电子期刊等资源，由于元数据的特点，抽取后的元数据特征向量可表征文本，使得元数据特征向量间的相似性可表征其文本之间的相似性。

对于元数据的抽取，本发明优选采用基于规则的抽取方法，抽取的元数据生成矩阵Matrix，Matrix形式化表示如下:

Matrix＝(dt_ik)_m×n

其中，Matrix表示一个m×n矩阵，元素dt_ik表示第i个文本的第k个元数据特征项。以传统的TF-IDF方法为基础，设置元数据的权重为Wk，文本texti形成元数据特征向量为D(t1，W1；t2，W2；…；tk，Wk)。

基于概念树进行文本相似度计算时，往往没有利用整棵树，而是概念树中的部分子树，因此，本申请采用基于子树计算文本之间的相似度。子树不仅提供更精确的领域概念上下文信息，使得后期文本相似度度量时，可提高相似度计算结果的精确度，另一方面，子树也提高了文本相似度计算的速度，减少由于多次基于整棵树计算而带来的时间和内存耗费。

以图2所示的带有权重及同义词集的概念树为例，分析子树的构建过程。图2中，椭圆内c1～c9表示概念结点，w1～w4表示概念结点的权重，方框内syn_ij表示同义词(同义词的权重与其链接概念结点的权重相同)，箭头线从子概念指向父概念，表示父子概念的层次关系。计算树中概念ci与概念cj之间的相似度时，采用概念之间相似度计算公式:

s i m i l a r i t y (c_{i}, c_{j}) = \frac{2 d e p t h (l s o (c_{i}, c_{j})}{l e n (c_{i}, l s o (c_{i}, c_{j})) + l e n (c_{j}, l s o (c_{i}, c_{j})) + 2 d e p t h (l s o (c_{i}, c_{j})}

其中，lso(ci，cj)是概念ci和概念cj的公共最近父结点，depth(lso(ci，cj))是两个不同的概念ci和概念cj的公共最近父结点在概念树中的深度，len(ci，lso(ci，cj))是概念ci到公共最近父结点的路径上概念结点的个数。对于两个不同的概念，该公式既考虑到结点在概念树中的深度，也考虑到两概念结点之间的路径长度，长度相同的结点，它们最近的父结点在树中的层次越深，则概念间的相似度越大；而父结点相同的两个结点之间的长度越大，即len(ci，lso(ci，cj))+len(cj，lso(ci，cj))越大，则两者的相似度越低。

基于概念树，生成子树集的过程如下所示：

getSubTree(ConceptsTree)

输入ConceptsTree/*非空概念树*/

输出subTreeSet/*子树集*/

BEGIN

1.intm＝ConceptsTree.size()；

2.inti＝1；

3.WHILE(i＜＝m)

4.{FOR(EACHConcept[i]intheConceptsTree)

5.{(c1，w1；c2，w2；c3，w3；…，cn，wn)；

获取Concept[i]的子类概念及其权重；

6.subTree[i]←(c1，w1；c2，w2；c3，w3；…，cn，wn)；

7.}ENDFOR.

8.AddsubTree[i]intosubTreeSet；

9.i++；

10.}ENDWHILE

11.返回subTreeSet；

END

读取非空概念树ConceptsTree，采用纵向优先策略，则将ConceptsTree中每个概念的所有子概念形成一个概念集，将该概念子集及其权重保存在子树subTree[i]。当输入具有m个结点的概念树时，将生成m个子树，每个子树是某概念结点下的所有子概念的集合。令n＝ConceptsTree.size()，按深度优先遍历某概念的所有子结点，时间复杂度为O(mn)。

在计算基于子树匹配的文本相似度之前，可以先分析文本与子树之间的匹配关系，如图3所示。图3给出2个文本与1棵子树之间的匹配关系，文本di的元数据特征项与子树概念结点的匹配对为4，文本dj的元数据特征项与子树概念结点的匹配对为3。针对匹配对的多少，给出如下匹配子树的定义：在所有子树中，当文本di与其中的某子树STk的匹配对最多时，称子树STk为文本di的匹配子树。

计算文本与匹配子树之间的相似度可以依照以下公式：

s i m (d_{i}, {ST}_{k}) = \frac{Σ_{m = 1}^{L} m a t c h (t_{m}, c_{m}) \cdot W_{m} \cdot w_{m}}{I + K}

其中，文本di与匹配子树STk的相似度记为sim(di，STk).di∈Matrix(Matrix为文本的元数据矩阵)，STk∈subTreeSet(subTreeSet为概念树的子树集)，STk是文本di的匹配子树，文本di的元数据特征向量为(t1，W1；t2，W2；…；ti，Wi)，子树STk的向量为(c1，w1；c2，w2；…；cK，wK)，L表示文本di的元数据特征向量与子树STk实现最多匹配概念对的数目，I和K分别表示文本di的元数据特征项的个数及子树STk中概念结点个数，L＜＝I且L＜＝K。元数据特征项与子树中概念结点相匹配时(图3中虚线相连的特征项与树概念结点)，match(tm，cm)＝1.tm为文本向量di中第m个配对的元数据特征项，Wm是tm的权重，cm为子树STk中的第m个配对的概念结点(包括该概念结点的同义词)，wm是cm的权重。

子树与子树之间的相似度关系如图4所示，其中空心圆表示概念树的概念节点，实心圆表示有最大相似度的树的概念节点，子树与子树的相似度可以依照如下计算公式：

\begin{matrix} t r e e S i m ({ST}_{k}, {ST}_{l}) = \\ \frac{Σ_{n = 1}^{N} m a x (s i m i l a r i t y (c_{n}, C_{n})) \cdot w_{n} \cdot w_{n}^{'}}{K + L} \end{matrix}

其中，子树之间的相似度，记为treeSim(STk，STl)对于两棵不同的子树STk和STl，STk∈subTreeSet，STl∈subTreeSet，子树STk的向量为(c1，w1；c2，w2；…；cK，wK)，子树STl的向量为(C1，w'1；C2，w'2；…；CL，w'L)，N表示子树STk与子树STl最大匹配的概念对个数，N取K和L中的最小值，max(similarity(cn，Cn))表示子树STk与子树STl中具有最大相似度值的概念结点对，cn为子树STk中的第n个配对的概念结点，Cn为子树STl中的第n个配对的概念结点，wn及wn'分别是cn和Cn的权重，K和L分别表示子树STk与子树STl中概念结点的总个数。基于所构建的概念树，生成的子树个数是确定的，因此，可长期保存计算得到的子树之间的相似度值，在概念树保持不变的情况下，该相似度值可被多次使用，以加快基于子树匹配的文本相似度计算效率。

当子树STk与子树STl是同一棵子树时，treeSim(STk，STl)＝1.对于n个子树而言，计算子树间的相似度的次数为n(n－1)/2。

由于每个文本的匹配子树往往是不相同的，因此设计文本相似度算法时，需要考虑到文本di和文本dj可能具有同一棵匹配子树，也可能具有各自不同的匹配子树的情况。

1)当文本di和文本dj具有相同的匹配子树。

文本di和文本dj具有相同的匹配子树STk时，由匹配子树作为中介，两文本元数据特征向量的语义重叠程度最高，由于文本元数据特征向量可表征文本，因此两文本的相似度高。基于相同匹配子树文本之间的相似度关系如图5所示。图5中，匹配子树在两文本相似度计算时起着中介桥梁作用，相似度1和相似度2分别表示文本di和文本dj与匹配子树的相似度。相似度3是以匹配子树为中介，计算得到的文本di和文本dj之间的相似度。相似度3的计算公式如下：

{textsSim}_{k l} (d_{i,} d_{j}) = \frac{s i m (d_{i}, {ST}_{k}) + s i m (d_{j}, {ST}_{l})}{2}

其中，文本di与文本dj之间的相似度textsSimkl(di，dj)等于文本与匹配子树相似度的平均值。在判断两个文本是否相似时，还要判断文本与匹配子树相似度差值(用Δsimij[k][l]表示)对文本相似度的影响，若差值的绝对值较大，文本相似度会降低。Δsimij[k][l]计算如下:Δsimij[k][l]＝sim(di，STk)-sim(dj，STl)，其中，Δsimij[k][l]的值越大，表示文本之间相似度越低。

2)当文本di和文本dj具有不同的匹配子树。

两文本具有同一棵匹配子树往往是特例，更多时候是两文本di和dj具有不同的匹配子树，文本di和文本dj之间的相似度关系如图6所示。图6中，子树STk是文本di的匹配子树，子树STl是文本dj的匹配子树，匹配子树STk和STl在两文本的相似度计算时起着中介桥梁作用。相似度1表示文本di与子树1的相似度sim(di，STk)，相似度2表示子树1与子树2的相似度treeSim(STk，STl))，相似度3表示文本dj与子树2的相似度sim(dj，STl).在该3个相似度均已知的情况下，算文本di与文本dj的相似度textsSimkl(di，dj)：

\begin{matrix} {textsSim}_{k l} (d_{i,} d_{j}) = \\ \frac{s i m (d_{i}, {ST}_{k}) + s i m (d_{j}, {ST}_{l}) + t r e e S i m ({ST}_{k}, {ST}_{l})}{3} \end{matrix}

与第一种情况类似，此处也需要判断3个相似度之间的差值(用Δsimij[k][l]表示)，对文本di、dj相似度的影响，如下所示：

当文本di和文本dj具有不同的匹配子树时，文本di与文本dj的相似度计算过程主要有3个步骤：

第一，分别计算文本di、文本dj与各自的匹配子树STk、STl的相似度:sim(di，STk)、sim(dj，STl)；

第二，计算匹配子树STk与匹配子树STl之间的相似度treeSim(STk，STl)；

第三，以匹配子树STk、STl为中介，计算两文本之间的相似度textsSimkl(di，dj)。

本发明以元数据作为文本中的重要词项，为文本间的语义相似度计算提供了一个合适的表征向量，从降低文本表示时文本向量的维度出发，通过对文本收集元数据及对元数据进行预处理，生成具有少量特征项的元数据特征向量，在不影响文本特征提取的前提下减少文本特征向量的维度。通过生成概念树，设置分层权重并设置对同义词的处理，以子树为中介计算文本向量之间的相似度。本发明概念树的构建是一项基础性的工作，该树一次构建可多次被使用，因而减少算法的时间耗费，另外，基于子树匹配的文本相似度计算提高相似度计算的语义准确性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或网络设备等)执行本发明实施例各个实施场景所述的方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种文本相似度处理方法，其特征在于，包括：

采集互联网信息，并生成元数据特征向量；

通过所述子树计算采集的互联网信息中文本之间的相似度。

2.如权利要求1所述的文本相似度处理方法，其特征在于，所述采集互联网信息，并生成元数据特征向量的步骤中，生成元数据特征向量时依照以下规则：

Matrix＝(dt_ik)_m×n，

3.如权利要求1所述的文本相似度处理方法，其特征在于，所述根据生成的元数据特征向量构建概念树的步骤包括：

计算各个概念节点之间的相似性；

根据各个概念节点的相似性构建概念树。

4.如权利要求3所述的文本相似度处理方法，其特征在于，所述计算各个概念节点之间的相似性的步骤中，依照以下公式计算各个概念节点之间的相似性：

s i m i l a r i t y (c_{i}, c_{j}) = \frac{2 d e p t h (l s o (c_{i}, c_{j})}{l e n (c_{i}, l s o (c_{i}, c_{j})) + l e n (c_{j}, l s o (c_{i}, c_{j})) + 2 d e p t h (l s o (c_{i}, c_{j})}

5.如权利要求3或4任一项所述的文本相似度处理方法，其特征在于，所述基于构建的所述概念树生成子树的步骤包括：根据概念树的概念节点生成对应的子树。

6.如权利要求1所述的文本相似度处理方法，其特征在于，所述通过所述子树计算采集的互联网信息中文本之间的相似度的步骤包括：

分析采集的互联网信息中文本与各个子树之间的匹配关系；

根据所述匹配关系获取与每个文本最相似的子树；

根据子树之间的相似度，计算文本之间的相似度。

7.如权利要求6所述的文本相似度处理方法，其特征在于，所述分析采集的互联网信息中文本与各个子树之间的匹配关系的步骤包括：计算采集的互联网信息中文本与各个子树之间的相似度。

8.如权利要求7所述的文本相似度处理方法，其特征在于，计算文本与匹配子树之间的相似度可以依照以下公式：

s i m (d_{i}, {ST}_{k}) = \frac{Σ_{m = 1}^{L} m a t c h (t_{m}, c_{m}) \cdot W_{m} \cdot w_{m}}{I + K}

9.如权利要求6所述的文本相似度处理方法，其特征在于，所述根据子树之间的相似度，计算文本之间的相似度的步骤中，子树与子树的相似度可以依照如下计算公式：

\begin{matrix} t r e e S i m ({ST}_{k}, {ST}_{l}) = \\ \frac{Σ_{n = 1}^{N} \max (s i m i l a r i t y (c_{n}, C_{n})) \cdot w_{n} \cdot w_{n}}{K + L} \end{matrix}

10.如权利要求6所述的文本相似度处理方法，其特征在于，所述根据子树之间的相似度，计算文本之间的相似度的步骤包括：根据文本与最相似的子树之间的相似度，以及子树之间的相似度，计算文本之间的相似度。