CN108090077A - 一种基于自然语言检索的综合相似度计算方法 - Google Patents

一种基于自然语言检索的综合相似度计算方法 Download PDF

Info

Publication number
CN108090077A
CN108090077A CN201611036474.7A CN201611036474A CN108090077A CN 108090077 A CN108090077 A CN 108090077A CN 201611036474 A CN201611036474 A CN 201611036474A CN 108090077 A CN108090077 A CN 108090077A
Authority
CN
China
Prior art keywords
mrow
msub
vector
retrieval
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611036474.7A
Other languages
English (en)
Other versions
CN108090077B (zh
Inventor
王宁
徐浩广
祁柏林
张镝
陈月
白雪
徐凯
王丽丽
李论
周晓磊
宋春梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Computing Technology of CAS
Original Assignee
Shenyang Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Computing Technology of CAS filed Critical Shenyang Institute of Computing Technology of CAS
Priority to CN201611036474.7A priority Critical patent/CN108090077B/zh
Publication of CN108090077A publication Critical patent/CN108090077A/zh
Application granted granted Critical
Publication of CN108090077B publication Critical patent/CN108090077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于自然语言检索的综合相似度计算方法。该方法首先将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;对检索向量和文档向量,在统计信息层面给出了词频相似度和词序相似度计算方法,然后在语义信息层面上给出了词频相似度和语义相似度计算方法,最后结合统计信息层面和语义信息层面给出了一种综合相似度计算方法。本发明方法通过相关实验验证了方法的有效性。

Description

一种基于自然语言检索的综合相似度计算方法
技术领域
本发明涉及自然语言处理和信息检索领域,具体的说是一种基于自然语言检索的综合相似度计算方法。
背景技术
在现代信息技术迅猛发展的时代,互联网上的信息呈爆炸式增长,这给信息检索的发展带来了巨大的挑战。一方面对于大规模的文档数据,信息检索算法需要在较短的时间内返回检索结果;另一方面随着人工智能领域的发展,人们对信息检索的要求不仅是停留在对结构化数据的关键词查询,同时基于自然语言层面上的语义检索也逐步得到重视,因为基于概念上的语义匹配更加符合用户的实际检索需求。
针对上述描述的现代信息检索的挑战,本发明需要解决的技术问题是给出一种基于自然语言的信息检索中相似度综合计算方法,以提高现代信息检索的效率和准确度。
发明内容
针对现有技术中存在的上述不足之处,本发明要解决的技术问题是提高现代信息检索的效率和准确度,需要综合考虑统计信息层面和语义信息层面上的相似度。
本发明为实现上述目的所采用的技术方案是:一种基于自然语言检索的综合相似度计算方法,包括以下步骤:
步骤1:用户输入要检索的自然语言;
步骤2:将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;
步骤3:对检索向量和文档向量计算词频相似度SimFreq(S,Di);
步骤4:对检索向量和文档向量计算词序相似度SimOrder(S,Di);
步骤5:对检索向量进行概念扩展;
步骤6:计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di);
步骤7:计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di);
步骤8:根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di);
步骤9:将计算获取的最大综合相似度Sim(S,Di)对应的文章反馈给检索用户。
所述检索向量和文档向量的获取方法如下:
S1:利用自然语言处理技术对用户输入的检索信息利用分词系统进行分词、词性标注、去停用词操作,得到检索向量S=(s1,s2,…,sn),其中Si为第i个关键词,n为用户检索关键词的个数;
S2:从被检索文档中提取出能够表达文档大意的u个关键词,组成文档向量Di=(di1,di2,…,diu);其中,Di表示数据库中第i个文档,diu为第i个文档中第u个文档关键词;则对于含有t篇文档的数据库可以表示成D=(D1,D2,…,DT)。
所述对检索向量和文档向量计算词频相似度SimFreq(S,Di)如下:
S1:对检索向量和文档向量,获取包含q个相同关键词的集合,即同词向量(V_K):V_K=S∩Di=(s1=d1,s2=d2,…,sm=dm,…,sq=dq);
S2:从而得到,检索向量的同词向量空间和第i篇文档向量的同词向量空间:
V_K(S)=((s1,w1 S),(s2,w2 S),…,(sm,wm S),…,(sq,wq S));
V_K(D)=((d1,w1 D),(d2,w2 D),…,(dm,wm D),…,(dq,wq D));
其中,m=1,2,……q,wm S为关键词Sm的权重;wm D为关键词dm的权重;所述wm S与wm D采用传统的tf*idf方法来计算;
S3:采用传统VSM计算方法,通过检索向量的同词向量与文档向量的同词向量之间的夹角大小,来衡量检索向量和文档向量的词频相似度:
所述对检索向量和文档向量计算词序相似度SimOrder(S,Di)如下:
其中,pos(sm)表示第m个关键词在检索同词向量中出现的绝对词序;pos(dm)表示第m个关键词在文档同词向量中出现的绝对词序;InvNum(V_R(V_K(S)))表示检索向量的同词向量V_K(S)的逆序数;InvNum(V_R(V_K(D)))表示文档向量的同词向量V_K(D)的逆序数;Length(S)表示检索向量S=(S1,S2,…,Sn)包含的向量的个数,即n;length(Di)表示第i篇文档向量Di=(di1,di2,…,diu)包含的向量的个数,即u。
所述对检索向量进行概念扩展如下:
S1:通过概念词表HowNet对检索向量S中的关键词进行概念扩展,将概念词表中包含的S中关键词的同义词和近义词扩展到概念扩展后的检索向量C:C=(c1,c2,…ct);其中,t表示扩展后的检索向量中有t个关键词。
所述计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di)如下:
S1:对概念扩展后的检索向量和文档向量,获取包含r个相同关键词的集合,即同概向量(V_C):V_C=C∩Di=(c1=d1,c2=d2,…,cp=dp,…,cr=dr);
S2:从而得到,概念扩展后的检索向量的同概向量空间和文档向量的同概向量空间:V_C(C)=((c1,w1 C),(c2,w2 C),…,(cp,wp C),…,(cr,wr C));
V_C(D)=((d1,w1 D),(d2,w2 D),…,(dp,wp D),…,(dr,wr D));
其中,p=1,2,……r,wp C为关键词Cp的权重;wp D为关键词dp的权重;所述wp C与wp D采用传统的tf*idf方法来计算;
S3:借鉴传统VSM计算方法,通过概念扩展后的检索向量的同概向量空间和文档向量的同概向量之间的夹角大小,来衡量概念扩展后的检索向量与文档向量的词频相似度:
所述计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di)如下:
其中,depth(R(cj,dl))表示节点cj,dl的最近公共祖先节点距离根节点的语义层次深度;depth(cj)表示节点cj距离根节点的语义层次深度;depth(dl)表示节点dl距离根节点的语义层次深度;length(cj,dl)表示从节点cj到节点dl经过的最少的边条数;α+β=1,r表示概念扩展后的检索向量C有r个关键词,u表示文档向量Di有u个关键词,SimSema是将向量C和Di中的关键词一个一个比较来计算语义相似度。
所述根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di)如下:
Sim(S,Di)=μ1×SimFreq(S,Di)+μ2×SimOrder(S,Di)+μ3×SimCept(S,Di)+μ4×SimSema(S,Di)其中,μ1,μ2,μ3,μ4为经验值,且满足μ1234=1。
本发明具有以下有益效果及优点:
1.本发明通过综合统计信息和语义信息的相似度特征来衡量检索相似度,使得检索结果更加精确,弥补了传统的基于关键词对结构化数据检索结果不精确的不足。
2.本发明设计了基于语义层面的相似度计算算法,能够针对自然语言检索有很好的效果,在一定程度上实现了智能化检索。
3.本发明可以根据不同领域的词表规则定制特定领域的相似度检索算法,具有一定的个性化可扩展性。
附图说明
图1为本发明方法的综合相似度计算方法流程图;
图2为本发明的本体概念结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
如图1所示,一种基于自然语言检索的综合相似度计算方法,包括以下步骤:
步骤1:用户输入要检索的自然语言;
步骤2:将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;
步骤3:对检索向量和文档向量计算词频相似度SimFreq(S,Di);
步骤4:对检索向量和文档向量计算词序相似度SimOrder(S,Di);
步骤5:对检索向量进行概念扩展;
步骤6:计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di);
步骤7:计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di);
步骤8:根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di);
步骤9:将计算获取最大的综合相似度Sim对应的文章反馈给检索用户。
其中,步骤2:首先定义相关概念如下:
①检索向量(S):利用自然语言处理技术对用户输入的检索信息进行分词、词性标注、去停用词等操作得到n个检索关键词,即可用来S=(s1,s2,…,sn)表示用户的检索条件,其中si为第i个关键词。
实例:检索文本:我希望以后再北京从事软件开发工作;
检索向量:(希望,以后,北京,从事,软件开发,工作)。
②文档向量(Di):从被检索文档中提取出能够表达文档大意的u个关键词,由此就可以使用向量Di=(di1,di2,…,diu)来表示数据库中第i个文档,其中diu为第i个文档中第u个关键词。则对于含有t篇文档的数据库可以表示成D=(D1,D2,…,DT)。
实例:文档内容:我表哥在沈阳工作,是做软件开发的;
检索向量:(表哥,沈阳,工作,软件开发)。
步骤3:
③同词向量(V_K):V_K=S∩Di,即被检索文档中包含的用户检索关键词集合。向量V_K=S∩Di=(s1=d1,s2=d2,…,sm=dm,…,sq=dq)表示用户检索条件的同词向量空间,wm S为关键词Sm的权重。V_K(S)=((s1,w1 S),(s2,w2 S),…,(sm,wm S),…,(sq,wq S))表示被检索文档同词向量空间,wm D为关键词dm的权重。
实例:检索文本:我希望以后再北京从事软件开发工作;
文档内容:我表哥在沈阳工作,是做软件开发的;
同词向量:(表哥,沈阳,工作,软件开发);
V_K(S)和V_K(D)中的内容是相同的,只是向量中的关键词顺序和权重可能会有所不同,式中q表示有q个相同的关键词。
传统的tf*idf方法来计算关键词权重wi:词频tfi=WordCount(ki)表示关键词ki在检索条件或被检索文档中出现的次数,表示关键词ki的反文档频率,给出权重wi计算公式如下:
其中,式(1)的分母是为了归一化处理,这样做的目的是为了消除不同文档长度对关键词权重计算的影响。式(1)分子上idfi的计算公式中分母加1是为了防止没有包含关键词km的被检索文档而导致分母为零的情况。
tf表关键词在文章中出现的次数,如果tf越大,说明词语越能代表这篇文章的含义,idf表示的是反文档频率,即在文档库中有多少篇文本包含了该关键词,如果idf越大,说明该词语越普通,不能很好的区分文本的相异度。式(1)中的下标i表示的是i个关键词。PaperNums的定义为文档库中包含文章的篇数;PaperCount(ki)的定义为关键词出现在第几篇文章中。
借鉴传统VSM计算方法,对于词频相似度则可通过向量之间的夹角大小来衡量:
SimFreq的计算用到了数学中向量夹角的概念,当检索向量和文本向量之间的夹角越小,说明它们的内容越相似,具体的计算公式是根据向量余弦夹角数学定义来计算的。式(2)中的q表示的是向量维度为q,即同词向量中有q个相同的关键词。
步骤4:pos(ki)表示关键词ki在文本中的出现的绝对次序(绝对次序指关键词是文章中的第几个词),V_R(T)表示向量T中关键词的出现的绝对次序序列,InvNum(T)表示向量V_R(T)的逆序数,给出词序相似度计算公式如下:
关键词在文本中出现的先后次序之间的比较同样能够很大程度上衡量相似性的大小,若检索向量和文档向量中的关键词在各自文本中出现的次序比较接近,那么它们之间的相似度也越高,也越符合用户的检索条件。T可以代表检索向量,也可以代表文档向量。
步骤5:首先定义相关概念:
①概念扩展向量(S):通过概念词表(如HowNet)对向量S中的关键词进行概念扩展,将词表中包含的S中关键词的同义词和近义词扩展到向量C=(c1,c2,…ct),
其中,t表示扩展后的检索向量中有t个关键词。
实例:文档内容:我表哥在沈阳工作,是做软件开发的。
检索向量:(表哥,沈阳,工作,软件开发)
概念扩展向量:(表哥,哥哥,沈阳,东北,辽宁,工作,从事,事业,软件开发,程序员,软件工程师,码农…),t表示扩展后的检索向量中有t个关键词。
步骤6:
②同概向量(V_C):V_C=C∩Di,表示被检索文档中包含的用户检索概念扩展集合中的关键词,向量
V_C=C∩Di=(c1=d1,c2=d2,…,cp=dp,…,cr=dr)表示用户检索条件的同概向量空间,wp C为关键词Cp的权重。V_C(D)=((d1,w1 D),(d2,w2 D),…,(dp,wp D),…,(dr,wr D))表示被检索文档同概向量空间,wp D为关键词dp的权重。
备注:r表示将检索向量进行概念扩展后,检索向量与文档向量有r个相同的关键词。
由此可以对V_C(S)和V_C(D)按照式(1)来计算同概向量中关键词的权重,给出概念扩展后的词频相似度计算公式如下:
SimConc的计算同样是用到了数学中向量夹角的概念,当概念扩展检索向量和文本向量之间的夹角越小,说明它们的内容越相似,具体的计算公式是根据向量余弦夹角数学定义来计算的。
步骤7:如图2所示,depth(C)表示概念节点C距离根节点的语义层次深度depth(C)=4,depth(Root)=0。概念节点A与B、C是“上下位关系”,概念节点B和C属于“上下位”关系,它们之间存在一定的继承关系,它们之间体现的相似度。R(B,C)表示概念节点B和C的最近公共祖先节点。概念节点C和D属于“非上下位”关系,它们之间体现的相关度。Length(C,D)表示从节点C到节点D经过的边的条数Length(C,D)=6。
综合考虑概念之间的相关度和相似度,给出概念扩展语义相似度计算公式如下:
其中,α+β=1,α和β表示系数,p表示概念扩展后的检索向量C有p个关键词,m表示文档向量Di有m个关键词,SimSema是将向量C和Di中的关键词一个一个比较计算语义相似度。
步骤8:为提高相似度的计算精度,本发明综合统计层面和语义层面提出一种基于自然语言检索的综合相似度计算公式,综合相似度计算公式如下:
Sim(S,Di)=μ1×SimFreq(S,Di)+μ2×SimOrder(S,Di)+μ3×SimCept(S,Di)+μ4×SimSema(S,Di) (6)
其中,μ1234=1。μ1,μ2,μ3,μ4表示系数,Sim的计算是将前面计算的几个相似度结果进行综合。

Claims (8)

1.一种基于自然语言检索的综合相似度计算方法,其特征在于,包括以下步骤:
步骤1:用户输入要检索的自然语言;
步骤2:将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;
步骤3:对检索向量和文档向量计算词频相似度SimFreq(S,Di);
步骤4:对检索向量和文档向量计算词序相似度SimOrder(S,Di);
步骤5:对检索向量进行概念扩展;
步骤6:计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di);
步骤7:计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di);
步骤8:根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di);
步骤9:将计算获取的最大综合相似度Sim(S,Di)对应的文章反馈给检索用户。
2.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述检索向量和文档向量的获取方法如下:
S1:利用自然语言处理技术对用户输入的检索信息利用分词系统进行分词、词性标注、去停用词操作,得到检索向量S=(s1,s2,…,Sn),其中si为第i个关键词,n为用户检索关键词的个数;
S2:从被检索文档中提取出能够表达文档大意的u个关键词,组成文档向量Di=(di1,di2,…,diu);其中,Di表示数据库中第i个文档,diu为第i个文档中第u个文档关键词;则对于含有t篇文档的数据库可以表示成D=(D1,D2,…,DT)。
3.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述对检索向量和文档向量计算词频相似度SimFreq(S,Di)如下:
S1:对检索向量和文档向量,获取包含q个相同关键词的集合,即同词向量(V_K):V_K=S∩Di=(s1=d1,s2=d2,…,sm=dm,…,sq=dq);
S2:从而得到,检索向量的同词向量空间和第i篇文档向量的同词向量空间:
V_K(S)=((s1,w1 S),(s2,w2 S),…,(sm,wm S),…,(sq,wq S));
V_K(D)=((d1,w1 D),(d2,w2 D),…,(dm,wm D),…,(dq,wq D));
其中,m=1,2,……q,wm S为关键词Sm的权重;wm D为关键词dm的权重;所述wm S与wm D采用传统的tf*idf方法来计算;
S3:采用传统VSM计算方法,通过检索向量的同词向量与文档向量的同词向量之间的夹角大小,来衡量检索向量和文档向量的词频相似度:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>F</mi> <mi>r</mi> <mi>e</mi> <mi>q</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>,</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>S</mi> <mo>&amp;times;</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> <mo>&amp;times;</mo> <mo>|</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>q</mi> </msubsup> <mi>V</mi> <mo>_</mo> <mi>K</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msup> <msub> <mi>w</mi> <mi>m</mi> </msub> <mi>S</mi> </msup> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mi>V</mi> <mo>_</mo> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msup> <msub> <mi>w</mi> <mi>m</mi> </msub> <mi>D</mi> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>q</mi> </msubsup> <mi>V</mi> <mo>_</mo> <mi>K</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msup> <msub> <mi>w</mi> <mi>m</mi> </msub> <mi>S</mi> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>&amp;times;</mo> <msqrt> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>q</mi> </msubsup> <mi>V</mi> <mo>_</mo> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msup> <msub> <mi>w</mi> <mi>m</mi> </msub> <mi>D</mi> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>.</mo> </mrow>
4.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述对检索向量和文档向量计算词序相似度SimOrder(S,Di)如下:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>O</mi> <mi>r</mi> <mi>d</mi> <mi>e</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>,</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mi>I</mi> <mi>n</mi> <mi>v</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>V</mi> <mo>_</mo> <mi>R</mi> <mo>(</mo> <mrow> <mi>V</mi> <mo>_</mo> <mi>K</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mi>I</mi> <mi>n</mi> <mi>v</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>V</mi> <mo>_</mo> <mi>R</mi> <mo>(</mo> <mrow> <mi>V</mi> <mo>_</mo> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mo>(</mo> <mi>q</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> <mo>&amp;times;</mo> <mi>q</mi> <mo>/</mo> <mn>2</mn> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>q</mi> </msubsup> <mo>|</mo> <mi>p</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>p</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mi>L</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
其中,pos(sm)表示第m个关键词在检索同词向量中出现的绝对词序;pos(dm)表示第m个关键词在文档同词向量中出现的绝对词序;InvNum(V_R(V_K(S)))表示检索向量的同词向量V_K(S)的逆序数;InvNum(V_R(V_K(D)))表示文档向量的同词向量V_K(D)的逆序数;Length(S)表示检索向量S=(s1,S2,…,sn)包含的向量的个数,即n;length(Di)表示第i篇文档向量Di=(di1,di2,…,diu)包含的向量的个数,即u。
5.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述对检索向量进行概念扩展如下:
S1:通过概念词表HowNet对检索向量S中的关键词进行概念扩展,将概念词表中包含的S中关键词的同义词和近义词扩展到概念扩展后的检索向量C:C=(c1,c2,…ct);其中,t表示扩展后的检索向量中有t个关键词。
6.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di)如下:
S1:对概念扩展后的检索向量和文档向量,获取包含r个相同关键词的集合,即同概向量(V_C):V_C=C∩Di=(c1=d1,c2=d2,…,cp=dp,…,cr=dr);
S2:从而得到,概念扩展后的检索向量的同概向量空间和文档向量的同概向量空间:V_C(C)=((c1,w1 C),(c2,w2 C),…,(cp,wp C),…,(cr,wr C));
V_C(D)=((d1,w1 D),(d2,w2 D),…,(dp,wp D),…,(dr,wr D));
其中,p=1,2,……r,wp C为关键词Cp的权重;wp D为关键词dp的权重;所述wp C与wp D采用传统的tf*idf方法来计算;
S3:借鉴传统VSM计算方法,通过概念扩展后的检索向量的同概向量空间和文档向量的同概向量之间的夹角大小,来衡量概念扩展后的检索向量与文档向量的词频相似度:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>C</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>,</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mo>&amp;times;</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> <mrow> <mo>|</mo> <mi>C</mi> <mo>|</mo> <mo>&amp;times;</mo> <mo>|</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>r</mi> </msubsup> <mi>V</mi> <mo>_</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msup> <msub> <mi>w</mi> <mi>p</mi> </msub> <mi>C</mi> </msup> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mi>V</mi> <mo>_</mo> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msup> <msub> <mi>w</mi> <mi>p</mi> </msub> <mi>D</mi> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>r</mi> </msubsup> <mi>V</mi> <mo>_</mo> <mi>C</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msup> <msub> <mi>w</mi> <mi>p</mi> </msub> <mi>C</mi> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>&amp;times;</mo> <msqrt> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>r</mi> </msubsup> <mi>V</mi> <mo>_</mo> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msup> <msub> <mi>w</mi> <mi>p</mi> </msub> <mi>D</mi> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>.</mo> </mrow>
7.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di)如下:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>S</mi> <mi>e</mi> <mi>m</mi> <mi>a</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>,</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>S</mi> <mi>e</mi> <mi>m</mi> <mi>a</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>,</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>r</mi> <mo>&amp;times;</mo> <mi>u</mi> </mrow> </mfrac> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>r</mi> </msubsup> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </msubsup> <mi>&amp;alpha;</mi> <mo>&amp;times;</mo> <mfrac> <mrow> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>R</mi> <mo>(</mo> <mrow> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>l</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>&amp;beta;</mi> <mo>&amp;times;</mo> <mfrac> <mn>1</mn> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>h</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>d</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,depth(R(cj,dl))表示节点cj,dl的最近公共祖先节点距离根节点的语义层次深度;depth(cj)表示节点cj距离根节点的语义层次深度;depth(dl)表示节点dl距离根节点的语义层次深度;length(cj,dl)表示从节点cj到节点dl经过的最少的边条数;α+β=1,r表示概念扩展后的检索向量C有r个关键词,u表示文档向量Di有u个关键词,SimSema是将向量C和Di中的关键词一个一个比较计算语义相似度。
8.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di)如下:
Sim(S,Di)=μ1×SimFreq(S,Di)+μ2×SimOrder(S,Di)+μ3×SimCept(S,Di)+μ4×SimSema(S,Di)
其中,μ1,μ2,μ3,μ4为经验值,且满足μ1234=1。
CN201611036474.7A 2016-11-23 2016-11-23 一种基于自然语言检索的综合相似度计算方法 Active CN108090077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611036474.7A CN108090077B (zh) 2016-11-23 2016-11-23 一种基于自然语言检索的综合相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611036474.7A CN108090077B (zh) 2016-11-23 2016-11-23 一种基于自然语言检索的综合相似度计算方法

Publications (2)

Publication Number Publication Date
CN108090077A true CN108090077A (zh) 2018-05-29
CN108090077B CN108090077B (zh) 2021-08-31

Family

ID=62168229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611036474.7A Active CN108090077B (zh) 2016-11-23 2016-11-23 一种基于自然语言检索的综合相似度计算方法

Country Status (1)

Country Link
CN (1) CN108090077B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033162A (zh) * 2018-06-19 2018-12-18 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109033222A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 兴趣点poi与检索关键字的相关性分析方法和装置
CN109062977A (zh) * 2018-06-29 2018-12-21 厦门快商通信息技术有限公司 一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法
CN110232185A (zh) * 2019-01-07 2019-09-13 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法
CN111159401A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 基于短会的关联信息提方法、装置、电子设备及存储介质
CN111274783A (zh) * 2020-01-14 2020-06-12 广州供电局有限公司 一种基于语义相似分析的围串标智能识别方法
CN111625621A (zh) * 2020-04-27 2020-09-04 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质
CN112837041A (zh) * 2021-02-22 2021-05-25 辽宁科技学院 一种基于工业云平台的项目管理系统及实施方法
CN114417811A (zh) * 2021-12-30 2022-04-29 北京杰思安全科技有限公司 一种基于语义的相似度计算方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010109404A (ko) * 2000-05-31 2001-12-10 정영미 의미망 지식베이스를 이용한 개념기반 정보검색시스템
CN101114291A (zh) * 2007-08-24 2008-01-30 西安交通大学 一种基于多样性xml文档近似查询方法
CN101251841A (zh) * 2007-05-17 2008-08-27 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
CN101436201A (zh) * 2008-11-26 2009-05-20 哈尔滨工业大学 一种变粒度文本聚类的特征量化方法
CN102637163A (zh) * 2011-01-09 2012-08-15 华东师范大学 一种基于语义的多层次本体匹配的控制方法及系统
US20130103664A1 (en) * 2011-10-25 2013-04-25 Sap Ag Searches for Similar Documents
CN103455535A (zh) * 2013-05-08 2013-12-18 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010109404A (ko) * 2000-05-31 2001-12-10 정영미 의미망 지식베이스를 이용한 개념기반 정보검색시스템
CN101251841A (zh) * 2007-05-17 2008-08-27 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
CN101114291A (zh) * 2007-08-24 2008-01-30 西安交通大学 一种基于多样性xml文档近似查询方法
CN101436201A (zh) * 2008-11-26 2009-05-20 哈尔滨工业大学 一种变粒度文本聚类的特征量化方法
CN102637163A (zh) * 2011-01-09 2012-08-15 华东师范大学 一种基于语义的多层次本体匹配的控制方法及系统
US20130103664A1 (en) * 2011-10-25 2013-04-25 Sap Ag Searches for Similar Documents
CN103455535A (zh) * 2013-05-08 2013-12-18 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BASTIAANSEN,MARCEL等: "Frequency-based Segregation of Syntactic and Semantic Unification during Online Sentence Level Language Comprehension", 《JOURNAL OF COGNITIVE NEUROSCIENCE》 *
XIAO-BO JIN等: "Ranking Entity Based on Both of Word Frequency and Word Sematic Features", 《ARXIV》 *
林鸿飞等: "基于概念扩充和综合评价的文本综述", 《郑州大学学报(理学版)》 *
赵臻等: "基于多特征融合的句子语义相似度计算", 《计算机工程》 *
郝文宁等: "基于领域本体的文档向量空间模型构建", 《计算机应用研究》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033162A (zh) * 2018-06-19 2018-12-18 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109033222A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 兴趣点poi与检索关键字的相关性分析方法和装置
CN109062977A (zh) * 2018-06-29 2018-12-21 厦门快商通信息技术有限公司 一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统
CN109766547B (zh) * 2018-12-26 2022-10-18 重庆邮电大学 一种句子相似度计算方法
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法
CN110232185A (zh) * 2019-01-07 2019-09-13 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法
CN110232185B (zh) * 2019-01-07 2023-09-19 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法
CN111159401A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 基于短会的关联信息提方法、装置、电子设备及存储介质
CN111274783A (zh) * 2020-01-14 2020-06-12 广州供电局有限公司 一种基于语义相似分析的围串标智能识别方法
CN111274783B (zh) * 2020-01-14 2022-12-06 广东电网有限责任公司广州供电局 一种基于语义相似分析的围串标智能识别方法
CN111625621A (zh) * 2020-04-27 2020-09-04 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质
CN112837041A (zh) * 2021-02-22 2021-05-25 辽宁科技学院 一种基于工业云平台的项目管理系统及实施方法
CN114417811A (zh) * 2021-12-30 2022-04-29 北京杰思安全科技有限公司 一种基于语义的相似度计算方法、装置及存储介质

Also Published As

Publication number Publication date
CN108090077B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN108090077A (zh) 一种基于自然语言检索的综合相似度计算方法
CN105243152A (zh) 一种基于图模型的自动文摘方法
CN106547864B (zh) 一种基于查询扩展的个性化信息检索方法
CN106844350A (zh) 一种短文本语义相似度的计算方法
CN106970910A (zh) 一种基于图模型的关键词提取方法及装置
CN104615767A (zh) 搜索排序模型的训练方法、搜索处理方法及装置
Froud et al. Stemming and similarity measures for Arabic Documents Clustering
CN104008171A (zh) 一种法律数据库构建方法及法律检索服务方法
CN112988980B (zh) 目标产品查询方法、装置、计算机设备和存储介质
Lee Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams
CN105320772A (zh) 一种专利查重的关联论文查询方法
CN106484829A (zh) 一种微博排序模型的建立及微博多样性检索方法
Xiong et al. New Generation Model of Word Vector Representation Based on CBOW or Skip-Gram.
CN102279843A (zh) 处理短语数据的方法以及装置
Raviv et al. A ranking framework for entity oriented search using markov random fields
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
CN111858830B (zh) 基于自然语言处理的卫生监督执法数据检索系统及其方法
CN103838854B (zh) 用于发现文本词间关联规则的完全加权模式挖掘方法
CN104133913B (zh) 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN106570196A (zh) 视频节目的搜索方法和装置
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法
CN103793474B (zh) 一种面向知识管理的自定义知识分类方法
CN109543001A (zh) 一种表征科研论文研究内容的科技词条抽取方法
Dahir et al. Query expansion using DBpedia and WordNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant