CN108090077B

CN108090077B - 一种基于自然语言检索的综合相似度计算方法

Info

Publication number: CN108090077B
Application number: CN201611036474.7A
Authority: CN
Inventors: 王宁; 徐浩广; 祁柏林; 张镝; 陈月; 白雪; 徐凯; 王丽丽; 李论; 周晓磊; 宋春梅
Original assignee: Shenyang Institute of Computing Technology of CAS
Current assignee: Shenyang Institute of Computing Technology of CAS
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2021-08-31
Anticipated expiration: 2036-11-23
Also published as: CN108090077A

Abstract

本发明涉及一种基于自然语言检索的综合相似度计算方法。该方法首先将用户的输入条件和被检索文档通过分词系统提取出各自的关键词，构成检索向量和文档向量；对检索向量和文档向量，在统计信息层面给出了词频相似度和词序相似度计算方法，然后在语义信息层面上给出了词频相似度和语义相似度计算方法，最后结合统计信息层面和语义信息层面给出了一种综合相似度计算方法。本发明方法通过相关实验验证了方法的有效性。

Description

一种基于自然语言检索的综合相似度计算方法

技术领域

本发明涉及自然语言处理和信息检索领域,具体的说是一种基于自然语言检索的综合相似度计算方法。

背景技术

在现代信息技术迅猛发展的时代，互联网上的信息呈爆炸式增长，这给信息检索的发展带来了巨大的挑战。一方面对于大规模的文档数据，信息检索算法需要在较短的时间内返回检索结果；另一方面随着人工智能领域的发展，人们对信息检索的要求不仅是停留在对结构化数据的关键词查询，同时基于自然语言层面上的语义检索也逐步得到重视，因为基于概念上的语义匹配更加符合用户的实际检索需求。

针对上述描述的现代信息检索的挑战，本发明需要解决的技术问题是给出一种基于自然语言的信息检索中相似度综合计算方法，以提高现代信息检索的效率和准确度。

发明内容

针对现有技术中存在的上述不足之处，本发明要解决的技术问题是提高现代信息检索的效率和准确度，需要综合考虑统计信息层面和语义信息层面上的相似度。

本发明为实现上述目的所采用的技术方案是：一种基于自然语言检索的综合相似度计算方法，包括以下步骤：

步骤1：用户输入要检索的自然语言；

步骤2：将用户的输入条件和被检索文档通过分词系统提取出各自的关键词，构成检索向量和文档向量；

步骤3：对检索向量和文档向量计算词频相似度SimFreq(S,D_i)；

步骤4：对检索向量和文档向量计算词序相似度SimOrder(S,D_i)；

步骤5：对检索向量进行概念扩展；

步骤6：计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,D_i)；

步骤7：计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,D_i)；

步骤8：根据SimFreq(S,D_i)、SimOrder(S,D_i)、SimCept(S,D_i)、SimSema(S,D_i)计算综合相似度Sim(S,D_i)；

步骤9：将计算获取的最大综合相似度Sim(S,D_i)对应的文章反馈给检索用户。

所述检索向量和文档向量的获取方法如下：

S1：利用自然语言处理技术对用户输入的检索信息利用分词系统进行分词、词性标注、去停用词操作，得到检索向量S＝(s₁,s₂,…,s_n)，其中S_i为第i个关键词，n为用户检索关键词的个数；

S2：从被检索文档中提取出能够表达文档大意的u个关键词，组成文档向量D_i＝(d_i1,d_i2,…,d_iu)；其中，D_i表示数据库中第i个文档，d_iu为第i个文档中第u个文档关键词；则对于含有t篇文档的数据库可以表示成D＝(D₁,D₂,…,D_T)。

所述对检索向量和文档向量计算词频相似度SimFreq(S,D_i)如下：

S1：对检索向量和文档向量，获取包含q个相同关键词的集合，即同词向量(V_K)：V_K＝S∩D_i＝(s₁＝d₁,s₂＝d₂,…，s_m＝d_m,…，s_q＝d_q)；

S2：从而得到，检索向量的同词向量空间和第i篇文档向量的同词向量空间：

V_K(S)＝((s₁,w₁ ^S),(s₂,w₂ ^S),…,(s_m,w_m ^S),…,(s_q,w_q ^S))；

V_K(D)＝((d₁,w₁ ^D),(d₂,w₂ ^D),…,(d_m,w_m ^D),…,(d_q,w_q ^D))；

其中，m＝1,2,……q，w_m ^S为关键词S_m的权重；w_m ^D为关键词d_m的权重；所述w_m ^S与w_m ^D采用传统的tf*idf方法来计算；

S3：采用传统VSM计算方法，通过检索向量的同词向量与文档向量的同词向量之间的夹角大小，来衡量检索向量和文档向量的词频相似度：

所述对检索向量和文档向量计算词序相似度SimOrder(S,D_i)如下：

其中，pos(s_m)表示第m个关键词在检索同词向量中出现的绝对词序；pos(d_m)表示第m个关键词在文档同词向量中出现的绝对词序；InvNum(V_R(V_K(S)))表示检索向量的同词向量V_K(S)的逆序数；InvNum(V_R(V_K(D)))表示文档向量的同词向量V_K(D)的逆序数；Length(S)表示检索向量S＝(S₁,S₂,…,S_n)包含的向量的个数，即n；length(D_i)表示第i篇文档向量D_i＝(d_i1,d_i2,…,d_iu)包含的向量的个数，即u。

所述对检索向量进行概念扩展如下：

S1：通过概念词表HowNet对检索向量S中的关键词进行概念扩展，将概念词表中包含的S中关键词的同义词和近义词扩展到概念扩展后的检索向量C:C＝(c₁,c₂,…c_t)；其中，t表示扩展后的检索向量中有t个关键词。

所述计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,D_i)如下：

S1：对概念扩展后的检索向量和文档向量，获取包含r个相同关键词的集合，即同概向量(V_C)：V_C＝C∩D_i＝(c₁＝d₁,c₂＝d₂,…，c_p＝d_p,…，c_r＝d_r)；

S2：从而得到，概念扩展后的检索向量的同概向量空间和文档向量的同概向量空间：V_C(C)＝((c₁,w₁ ^C),(c₂,w₂ ^C),…,(c_p,w_p ^C),…,(c_r,w_r ^C))；

V_C(D)＝((d₁,w₁ ^D),(d₂,w₂ ^D),…,(d_p,w_p ^D),…,(d_r,w_r ^D))；

其中，p＝1,2,……r，w_p ^C为关键词C_p的权重；w_p ^D为关键词d_p的权重；所述w_p ^C与w_p ^D采用传统的tf*idf方法来计算；

S3：借鉴传统VSM计算方法，通过概念扩展后的检索向量的同概向量空间和文档向量的同概向量之间的夹角大小，来衡量概念扩展后的检索向量与文档向量的词频相似度：

所述计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,D_i)如下：

其中，depth(R(c_j,d_l))表示节点c_j,d_l的最近公共祖先节点距离根节点的语义层次深度；depth(c_j)表示节点c_j距离根节点的语义层次深度；depth(d_l)表示节点d_l距离根节点的语义层次深度；length(c_j,d_l)表示从节点c_j到节点d_l经过的最少的边条数；α+β＝1，r表示概念扩展后的检索向量C有r个关键词，u表示文档向量D_i有u个关键词，SimSema是将向量C和D_i中的关键词一个一个比较来计算语义相似度。

所述根据SimFreq(S,D_i)、SimOrder(S,D_i)、SimCept(S,D_i)、SimSema(S,D_i)计算综合相似度Sim(S,D_i)如下：

Sim(S,D_i)＝μ₁×SimFreq(S,D_i)+μ₂×SimOrder(S,D_i)+μ₃×SimCept(S,D_i)+μ₄×SimSema(S,D_i)其中，μ₁，μ₂，μ₃，μ₄为经验值，且满足μ₁+μ₂+μ₃+μ₄＝1。

本发明具有以下有益效果及优点：

1.本发明通过综合统计信息和语义信息的相似度特征来衡量检索相似度，使得检索结果更加精确，弥补了传统的基于关键词对结构化数据检索结果不精确的不足。

2.本发明设计了基于语义层面的相似度计算算法，能够针对自然语言检索有很好的效果，在一定程度上实现了智能化检索。

3.本发明可以根据不同领域的词表规则定制特定领域的相似度检索算法，具有一定的个性化可扩展性。

附图说明

图1为本发明方法的综合相似度计算方法流程图；

图2为本发明的本体概念结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

如图1所示，一种基于自然语言检索的综合相似度计算方法，包括以下步骤：

步骤1：用户输入要检索的自然语言；

步骤3：对检索向量和文档向量计算词频相似度SimFreq(S,D_i)；

步骤4：对检索向量和文档向量计算词序相似度SimOrder(S,D_i)；

步骤5：对检索向量进行概念扩展；

步骤9：将计算获取最大的综合相似度Sim对应的文章反馈给检索用户。

其中，步骤2：首先定义相关概念如下：

①检索向量(S)：利用自然语言处理技术对用户输入的检索信息进行分词、词性标注、去停用词等操作得到n个检索关键词，即可用来S＝(s₁,s₂,…,s_n)表示用户的检索条件,其中s_i为第i个关键词。

实例：检索文本：我希望以后再北京从事软件开发工作；

检索向量：(希望，以后，北京，从事，软件开发，工作)。

②文档向量(D_i)：从被检索文档中提取出能够表达文档大意的u个关键词，由此就可以使用向量D_i＝(d_i1,d_i2,…,d_iu)来表示数据库中第i个文档，其中d_iu为第i个文档中第u个关键词。则对于含有t篇文档的数据库可以表示成D＝(D₁,D₂,…,D_T)。

实例：文档内容：我表哥在沈阳工作，是做软件开发的；

检索向量：(表哥，沈阳，工作，软件开发)。

步骤3：

③同词向量(V_K)：V_K＝S∩D_i，即被检索文档中包含的用户检索关键词集合。向量V_K＝S∩D_i＝(s₁＝d₁,s₂＝d₂,…，s_m＝d_m,…，s_q＝d_q)表示用户检索条件的同词向量空间，w_m ^S为关键词S_m的权重。V_K(S)＝((s₁,w₁ ^S),(s₂,w₂ ^S),…,(s_m,w_m ^S),…,(s_q,w_q ^S))表示被检索文档同词向量空间，w_m ^D为关键词d_m的权重。

实例：检索文本：我希望以后再北京从事软件开发工作；

文档内容：我表哥在沈阳工作，是做软件开发的；

同词向量：(表哥，沈阳，工作，软件开发)；

V_K(S)和V_K(D)中的内容是相同的，只是向量中的关键词顺序和权重可能会有所不同，式中q表示有q个相同的关键词。

传统的tf*idf方法来计算关键词权重w_i：词频tf_i＝WordCount(k_i)表示关键词k_i在检索条件或被检索文档中出现的次数，

表示关键词k_i的反文档频率，给出权重w_i计算公式如下：

其中，式(1)的分母是为了归一化处理，这样做的目的是为了消除不同文档长度对关键词权重计算的影响。式(1)分子上idf_i的计算公式中分母加1是为了防止没有包含关键词k_m的被检索文档而导致分母为零的情况。

tf表关键词在文章中出现的次数，如果tf越大，说明词语越能代表这篇文章的含义，idf表示的是反文档频率，即在文档库中有多少篇文本包含了该关键词，如果idf越大，说明该词语越普通，不能很好的区分文本的相异度。式(1)中的下标i表示的是i个关键词。PaperNums的定义为文档库中包含文章的篇数；PaperCount(k_i)的定义为关键词出现在第几篇文章中。

借鉴传统VSM计算方法，对于词频相似度则可通过向量之间的夹角大小来衡量：

SimFreq的计算用到了数学中向量夹角的概念，当检索向量和文本向量之间的夹角越小，说明它们的内容越相似，具体的计算公式是根据向量余弦夹角数学定义来计算的。式(2)中的q表示的是向量维度为q，即同词向量中有q个相同的关键词。

步骤4：pos(k_i)表示关键词k_i在文本中的出现的绝对次序(绝对次序指关键词是文章中的第几个词)，V_R(T)表示向量T中关键词的出现的绝对次序序列，InvNum(T)表示向量V_R(T)的逆序数，给出词序相似度计算公式如下：

关键词在文本中出现的先后次序之间的比较同样能够很大程度上衡量相似性的大小，若检索向量和文档向量中的关键词在各自文本中出现的次序比较接近，那么它们之间的相似度也越高，也越符合用户的检索条件。T可以代表检索向量，也可以代表文档向量。

步骤5：首先定义相关概念：

①概念扩展向量(S)：通过概念词表(如HowNet)对向量S中的关键词进行概念扩展，将词表中包含的S中关键词的同义词和近义词扩展到向量C＝(c₁,c₂,…c_t)

,其中，t表示扩展后的检索向量中有t个关键词。

实例：文档内容：我表哥在沈阳工作，是做软件开发的。

检索向量：(表哥，沈阳，工作，软件开发)

概念扩展向量：(表哥，哥哥，沈阳，东北，辽宁，工作，从事，事业，软件开发，程序员，软件工程师，码农…)，t表示扩展后的检索向量中有t个关键词。

步骤6：

②同概向量(V_C)：V_C＝C∩D_i，表示被检索文档中包含的用户检索概念扩展集合中的关键词，向量

V_C＝C∩D_i＝(c₁＝d₁,c₂＝d₂,…，c_p＝d_p,…，c_r＝d_r)表示用户检索条件的同概向量空间，w_p ^C为关键词C_p的权重。V_C(D)＝((d₁,w₁ ^D),(d₂,w₂ ^D),…,(d_p,w_p ^D),…,(d_r,w_r ^D))表示被检索文档同概向量空间，w_p ^D为关键词d_p的权重。

备注：r表示将检索向量进行概念扩展后，检索向量与文档向量有r个相同的关键词。

由此可以对V_C(S)和V_C(D)按照式(1)来计算同概向量中关键词的权重，给出概念扩展后的词频相似度计算公式如下：

SimConc的计算同样是用到了数学中向量夹角的概念，当概念扩展检索向量和文本向量之间的夹角越小，说明它们的内容越相似，具体的计算公式是根据向量余弦夹角数学定义来计算的。

步骤7：如图2所示，depth(C)表示概念节点C距离根节点的语义层次深度depth(C)＝4，depth(Root)＝0。概念节点A与B、C是“上下位关系”，概念节点B和C属于“上下位”关系，它们之间存在一定的继承关系，它们之间体现的相似度。R(B,C)表示概念节点B和C的最近公共祖先节点。概念节点C和D属于“非上下位”关系，它们之间体现的相关度。Length(C,D)表示从节点C到节点D经过的边的条数Length(C,D)＝6。

综合考虑概念之间的相关度和相似度，给出概念扩展语义相似度计算公式如下：

其中，α+β＝1，α和β表示系数，p表示概念扩展后的检索向量C有p个关键词，m表示文档向量D_i有m个关键词，SimSema是将向量C和D_i中的关键词一个一个比较计算语义相似度。

步骤8：为提高相似度的计算精度，本发明综合统计层面和语义层面提出一种基于自然语言检索的综合相似度计算公式，综合相似度计算公式如下：

Sim(S,D_i)＝μ₁×SimFreq(S,D_i)+μ₂×SimOrder(S,D_i)+μ₃×SimCept(S,D_i)+μ₄×SimSema(S,D_i) (6)

其中，μ₁+μ₂+μ₃+μ₄＝1。μ₁，μ₂，μ₃，μ₄表示系数，Sim的计算是将前面计算的几个相似度结果进行综合。

Claims

1.一种基于自然语言检索的综合相似度计算方法，其特征在于，包括以下步骤：

步骤1：用户输入要检索的自然语言；

步骤3：对检索向量和文档向量计算词频相似度SimFreq(S,D_i)；

步骤4：对检索向量和文档向量计算词序相似度SimOrder(S,D_i)；所述对检索向量和文档向量计算词序相似度SimOrder(S,D_i)如下：

其中，pos(s_m)表示第m个关键词在检索同词向量中出现的绝对词序；pos(d_m)表示第m个关键词在文档同词向量中出现的绝对词序，q为关键词的数量；InvNum(V_R(V_K(S)))表示检索向量的同词向量V_K(S)的逆序数；InvNum(V_R(V_K(D)))表示文档向量的同词向量V_K(D)的逆序数；Length(S)表示检索向量S＝(s₁,s₂,…,s_n)包含的向量的个数，即n；length(D_i)表示第i篇文档向量D_i＝(d_i1,d_i2，…，d_iu)包含的向量的个数，即u；

步骤5：对检索向量进行概念扩展；

2.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法，其特征在于，所述检索向量和文档向量的获取方法如下：

S2：从被检索文档中提取出能够表达文档大意的u个关键词，组成文档向量D_i＝(d_i1,d_i2,…,d_iu)；其中，D_i表示数据库中第i个文档，d_iu为第i个文档中第u个文档关键词。

3.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法，其特征在于，所述对检索向量和文档向量计算词频相似度SimFreq(S,D_i)如下：

S1：对检索向量和文档向量，获取包含q个相同关键词的集合，即同词向量(V_K)：

V_K＝S∩D_i＝(s₁＝d₁,s₂＝d₂,…，s_m＝d_m,…，s_q＝d_q)；

V_K(S)＝((s₁,w₁ ^S),(s₂,w₂ ^S),…,(s_m,w_m ^S),…,(s_q,w_q ^S))；

V_K(D)＝((d₁,w₁ ^D),(d₂,w₂ ^D),…,(d_m,w_m ^D),…,(d_q,w_q ^D))；

4.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法，其特征在于，所述对检索向量进行概念扩展如下：

5.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法，其特征在于，所述计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,D_i)如下：

V_C(D)＝((d₁,w₁ ^D),(d₂,w₂ ^D),…,(d_p,w_p ^D),…,(d_r,w_r ^D))；

6.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法，其特征在于，所述计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,D_i)如下：

其中，depth(R(c_j,d_l))表示节点c_j,d_l的最近公共祖先节点距离根节点的语义层次深度；depth(c_j)表示节点c_j距离根节点的语义层次深度；depth(d_l)表示节点d_l距离根节点的语义层次深度；length(c_j,d_l)表示从节点c_j到节点d_l经过的最少的边条数；α+β＝1，r表示概念扩展后的检索向量C有r个关键词，u表示文档向量D_i有u个关键词，SimSema是将向量C和D_i中的关键词一个一个比较计算语义相似度。

7.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法，其特征在于，所述根据SimFreq(S,D_i)、SimOrder(S,D_i)、SimCept(S,D_i)、SimSema(S,D_i)计算综合相似度Sim(S,D_i)如下：

Sim(S,D_i)＝μ₁×SimFreq(S,D_i)+μ₂×SimOrder(S,D_i)+μ₃×SimCept(S,D_i)+μ₄×SimSema(S,D_i)

其中，μ₁，μ₂，μ₃，μ₄为经验值，且满足μ₁+μ₂+μ₃+μ₄＝1。