CN108090077B - 一种基于自然语言检索的综合相似度计算方法 - Google Patents

一种基于自然语言检索的综合相似度计算方法 Download PDF

Info

Publication number
CN108090077B
CN108090077B CN201611036474.7A CN201611036474A CN108090077B CN 108090077 B CN108090077 B CN 108090077B CN 201611036474 A CN201611036474 A CN 201611036474A CN 108090077 B CN108090077 B CN 108090077B
Authority
CN
China
Prior art keywords
vector
document
retrieval
similarity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611036474.7A
Other languages
English (en)
Other versions
CN108090077A (zh
Inventor
王宁
徐浩广
祁柏林
张镝
陈月
白雪
徐凯
王丽丽
李论
周晓磊
宋春梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Computing Technology of CAS
Original Assignee
Shenyang Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Computing Technology of CAS filed Critical Shenyang Institute of Computing Technology of CAS
Priority to CN201611036474.7A priority Critical patent/CN108090077B/zh
Publication of CN108090077A publication Critical patent/CN108090077A/zh
Application granted granted Critical
Publication of CN108090077B publication Critical patent/CN108090077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于自然语言检索的综合相似度计算方法。该方法首先将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;对检索向量和文档向量,在统计信息层面给出了词频相似度和词序相似度计算方法,然后在语义信息层面上给出了词频相似度和语义相似度计算方法,最后结合统计信息层面和语义信息层面给出了一种综合相似度计算方法。本发明方法通过相关实验验证了方法的有效性。

Description

一种基于自然语言检索的综合相似度计算方法
技术领域
本发明涉及自然语言处理和信息检索领域,具体的说是一种基于自然语言检索的综合相似度计算方法。
背景技术
在现代信息技术迅猛发展的时代,互联网上的信息呈爆炸式增长,这给信息检索的发展带来了巨大的挑战。一方面对于大规模的文档数据,信息检索算法需要在较短的时间内返回检索结果;另一方面随着人工智能领域的发展,人们对信息检索的要求不仅是停留在对结构化数据的关键词查询,同时基于自然语言层面上的语义检索也逐步得到重视,因为基于概念上的语义匹配更加符合用户的实际检索需求。
针对上述描述的现代信息检索的挑战,本发明需要解决的技术问题是给出一种基于自然语言的信息检索中相似度综合计算方法,以提高现代信息检索的效率和准确度。
发明内容
针对现有技术中存在的上述不足之处,本发明要解决的技术问题是提高现代信息检索的效率和准确度,需要综合考虑统计信息层面和语义信息层面上的相似度。
本发明为实现上述目的所采用的技术方案是:一种基于自然语言检索的综合相似度计算方法,包括以下步骤:
步骤1:用户输入要检索的自然语言;
步骤2:将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;
步骤3:对检索向量和文档向量计算词频相似度SimFreq(S,Di);
步骤4:对检索向量和文档向量计算词序相似度SimOrder(S,Di);
步骤5:对检索向量进行概念扩展;
步骤6:计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di);
步骤7:计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di);
步骤8:根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di);
步骤9:将计算获取的最大综合相似度Sim(S,Di)对应的文章反馈给检索用户。
所述检索向量和文档向量的获取方法如下:
S1:利用自然语言处理技术对用户输入的检索信息利用分词系统进行分词、词性标注、去停用词操作,得到检索向量S=(s1,s2,…,sn),其中Si为第i个关键词,n为用户检索关键词的个数;
S2:从被检索文档中提取出能够表达文档大意的u个关键词,组成文档向量Di=(di1,di2,…,diu);其中,Di表示数据库中第i个文档,diu为第i个文档中第u个文档关键词;则对于含有t篇文档的数据库可以表示成D=(D1,D2,…,DT)。
所述对检索向量和文档向量计算词频相似度SimFreq(S,Di)如下:
S1:对检索向量和文档向量,获取包含q个相同关键词的集合,即同词向量(V_K):V_K=S∩Di=(s1=d1,s2=d2,…,sm=dm,…,sq=dq);
S2:从而得到,检索向量的同词向量空间和第i篇文档向量的同词向量空间:
V_K(S)=((s1,w1 S),(s2,w2 S),…,(sm,wm S),…,(sq,wq S));
V_K(D)=((d1,w1 D),(d2,w2 D),…,(dm,wm D),…,(dq,wq D));
其中,m=1,2,……q,wm S为关键词Sm的权重;wm D为关键词dm的权重;所述wm S与wm D采用传统的tf*idf方法来计算;
S3:采用传统VSM计算方法,通过检索向量的同词向量与文档向量的同词向量之间的夹角大小,来衡量检索向量和文档向量的词频相似度:
Figure BDA0001159772160000031
所述对检索向量和文档向量计算词序相似度SimOrder(S,Di)如下:
Figure BDA0001159772160000032
其中,pos(sm)表示第m个关键词在检索同词向量中出现的绝对词序;pos(dm)表示第m个关键词在文档同词向量中出现的绝对词序;InvNum(V_R(V_K(S)))表示检索向量的同词向量V_K(S)的逆序数;InvNum(V_R(V_K(D)))表示文档向量的同词向量V_K(D)的逆序数;Length(S)表示检索向量S=(S1,S2,…,Sn)包含的向量的个数,即n;length(Di)表示第i篇文档向量Di=(di1,di2,…,diu)包含的向量的个数,即u。
所述对检索向量进行概念扩展如下:
S1:通过概念词表HowNet对检索向量S中的关键词进行概念扩展,将概念词表中包含的S中关键词的同义词和近义词扩展到概念扩展后的检索向量C:C=(c1,c2,…ct);其中,t表示扩展后的检索向量中有t个关键词。
所述计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di)如下:
S1:对概念扩展后的检索向量和文档向量,获取包含r个相同关键词的集合,即同概向量(V_C):V_C=C∩Di=(c1=d1,c2=d2,…,cp=dp,…,cr=dr);
S2:从而得到,概念扩展后的检索向量的同概向量空间和文档向量的同概向量空间:V_C(C)=((c1,w1 C),(c2,w2 C),…,(cp,wp C),…,(cr,wr C));
V_C(D)=((d1,w1 D),(d2,w2 D),…,(dp,wp D),…,(dr,wr D));
其中,p=1,2,……r,wp C为关键词Cp的权重;wp D为关键词dp的权重;所述wp C与wp D采用传统的tf*idf方法来计算;
S3:借鉴传统VSM计算方法,通过概念扩展后的检索向量的同概向量空间和文档向量的同概向量之间的夹角大小,来衡量概念扩展后的检索向量与文档向量的词频相似度:
Figure BDA0001159772160000041
所述计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di)如下:
Figure BDA0001159772160000042
其中,depth(R(cj,dl))表示节点cj,dl的最近公共祖先节点距离根节点的语义层次深度;depth(cj)表示节点cj距离根节点的语义层次深度;depth(dl)表示节点dl距离根节点的语义层次深度;length(cj,dl)表示从节点cj到节点dl经过的最少的边条数;α+β=1,r表示概念扩展后的检索向量C有r个关键词,u表示文档向量Di有u个关键词,SimSema是将向量C和Di中的关键词一个一个比较来计算语义相似度。
所述根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di)如下:
Sim(S,Di)=μ1×SimFreq(S,Di)+μ2×SimOrder(S,Di)+μ3×SimCept(S,Di)+μ4×SimSema(S,Di)其中,μ1,μ2,μ3,μ4为经验值,且满足μ1234=1。
本发明具有以下有益效果及优点:
1.本发明通过综合统计信息和语义信息的相似度特征来衡量检索相似度,使得检索结果更加精确,弥补了传统的基于关键词对结构化数据检索结果不精确的不足。
2.本发明设计了基于语义层面的相似度计算算法,能够针对自然语言检索有很好的效果,在一定程度上实现了智能化检索。
3.本发明可以根据不同领域的词表规则定制特定领域的相似度检索算法,具有一定的个性化可扩展性。
附图说明
图1为本发明方法的综合相似度计算方法流程图;
图2为本发明的本体概念结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
如图1所示,一种基于自然语言检索的综合相似度计算方法,包括以下步骤:
步骤1:用户输入要检索的自然语言;
步骤2:将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;
步骤3:对检索向量和文档向量计算词频相似度SimFreq(S,Di);
步骤4:对检索向量和文档向量计算词序相似度SimOrder(S,Di);
步骤5:对检索向量进行概念扩展;
步骤6:计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di);
步骤7:计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di);
步骤8:根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di);
步骤9:将计算获取最大的综合相似度Sim对应的文章反馈给检索用户。
其中,步骤2:首先定义相关概念如下:
①检索向量(S):利用自然语言处理技术对用户输入的检索信息进行分词、词性标注、去停用词等操作得到n个检索关键词,即可用来S=(s1,s2,…,sn)表示用户的检索条件,其中si为第i个关键词。
实例:检索文本:我希望以后再北京从事软件开发工作;
检索向量:(希望,以后,北京,从事,软件开发,工作)。
②文档向量(Di):从被检索文档中提取出能够表达文档大意的u个关键词,由此就可以使用向量Di=(di1,di2,…,diu)来表示数据库中第i个文档,其中diu为第i个文档中第u个关键词。则对于含有t篇文档的数据库可以表示成D=(D1,D2,…,DT)。
实例:文档内容:我表哥在沈阳工作,是做软件开发的;
检索向量:(表哥,沈阳,工作,软件开发)。
步骤3:
③同词向量(V_K):V_K=S∩Di,即被检索文档中包含的用户检索关键词集合。向量V_K=S∩Di=(s1=d1,s2=d2,…,sm=dm,…,sq=dq)表示用户检索条件的同词向量空间,wm S为关键词Sm的权重。V_K(S)=((s1,w1 S),(s2,w2 S),…,(sm,wm S),…,(sq,wq S))表示被检索文档同词向量空间,wm D为关键词dm的权重。
实例:检索文本:我希望以后再北京从事软件开发工作;
文档内容:我表哥在沈阳工作,是做软件开发的;
同词向量:(表哥,沈阳,工作,软件开发);
V_K(S)和V_K(D)中的内容是相同的,只是向量中的关键词顺序和权重可能会有所不同,式中q表示有q个相同的关键词。
传统的tf*idf方法来计算关键词权重wi:词频tfi=WordCount(ki)表示关键词ki在检索条件或被检索文档中出现的次数,
Figure BDA0001159772160000061
表示关键词ki的反文档频率,给出权重wi计算公式如下:
Figure BDA0001159772160000071
其中,式(1)的分母是为了归一化处理,这样做的目的是为了消除不同文档长度对关键词权重计算的影响。式(1)分子上idfi的计算公式中分母加1是为了防止没有包含关键词km的被检索文档而导致分母为零的情况。
tf表关键词在文章中出现的次数,如果tf越大,说明词语越能代表这篇文章的含义,idf表示的是反文档频率,即在文档库中有多少篇文本包含了该关键词,如果idf越大,说明该词语越普通,不能很好的区分文本的相异度。式(1)中的下标i表示的是i个关键词。PaperNums的定义为文档库中包含文章的篇数;PaperCount(ki)的定义为关键词出现在第几篇文章中。
借鉴传统VSM计算方法,对于词频相似度则可通过向量之间的夹角大小来衡量:
Figure BDA0001159772160000072
SimFreq的计算用到了数学中向量夹角的概念,当检索向量和文本向量之间的夹角越小,说明它们的内容越相似,具体的计算公式是根据向量余弦夹角数学定义来计算的。式(2)中的q表示的是向量维度为q,即同词向量中有q个相同的关键词。
步骤4:pos(ki)表示关键词ki在文本中的出现的绝对次序(绝对次序指关键词是文章中的第几个词),V_R(T)表示向量T中关键词的出现的绝对次序序列,InvNum(T)表示向量V_R(T)的逆序数,给出词序相似度计算公式如下:
Figure BDA0001159772160000081
关键词在文本中出现的先后次序之间的比较同样能够很大程度上衡量相似性的大小,若检索向量和文档向量中的关键词在各自文本中出现的次序比较接近,那么它们之间的相似度也越高,也越符合用户的检索条件。T可以代表检索向量,也可以代表文档向量。
步骤5:首先定义相关概念:
①概念扩展向量(S):通过概念词表(如HowNet)对向量S中的关键词进行概念扩展,将词表中包含的S中关键词的同义词和近义词扩展到向量C=(c1,c2,…ct)
,其中,t表示扩展后的检索向量中有t个关键词。
实例:文档内容:我表哥在沈阳工作,是做软件开发的。
检索向量:(表哥,沈阳,工作,软件开发)
概念扩展向量:(表哥,哥哥,沈阳,东北,辽宁,工作,从事,事业,软件开发,程序员,软件工程师,码农…),t表示扩展后的检索向量中有t个关键词。
步骤6:
②同概向量(V_C):V_C=C∩Di,表示被检索文档中包含的用户检索概念扩展集合中的关键词,向量
V_C=C∩Di=(c1=d1,c2=d2,…,cp=dp,…,cr=dr)表示用户检索条件的同概向量空间,wp C为关键词Cp的权重。V_C(D)=((d1,w1 D),(d2,w2 D),…,(dp,wp D),…,(dr,wr D))表示被检索文档同概向量空间,wp D为关键词dp的权重。
备注:r表示将检索向量进行概念扩展后,检索向量与文档向量有r个相同的关键词。
由此可以对V_C(S)和V_C(D)按照式(1)来计算同概向量中关键词的权重,给出概念扩展后的词频相似度计算公式如下:
Figure BDA0001159772160000091
SimConc的计算同样是用到了数学中向量夹角的概念,当概念扩展检索向量和文本向量之间的夹角越小,说明它们的内容越相似,具体的计算公式是根据向量余弦夹角数学定义来计算的。
步骤7:如图2所示,depth(C)表示概念节点C距离根节点的语义层次深度depth(C)=4,depth(Root)=0。概念节点A与B、C是“上下位关系”,概念节点B和C属于“上下位”关系,它们之间存在一定的继承关系,它们之间体现的相似度。R(B,C)表示概念节点B和C的最近公共祖先节点。概念节点C和D属于“非上下位”关系,它们之间体现的相关度。Length(C,D)表示从节点C到节点D经过的边的条数Length(C,D)=6。
综合考虑概念之间的相关度和相似度,给出概念扩展语义相似度计算公式如下:
Figure BDA0001159772160000092
其中,α+β=1,α和β表示系数,p表示概念扩展后的检索向量C有p个关键词,m表示文档向量Di有m个关键词,SimSema是将向量C和Di中的关键词一个一个比较计算语义相似度。
步骤8:为提高相似度的计算精度,本发明综合统计层面和语义层面提出一种基于自然语言检索的综合相似度计算公式,综合相似度计算公式如下:
Sim(S,Di)=μ1×SimFreq(S,Di)+μ2×SimOrder(S,Di)+μ3×SimCept(S,Di)+μ4×SimSema(S,Di) (6)
其中,μ1234=1。μ1,μ2,μ3,μ4表示系数,Sim的计算是将前面计算的几个相似度结果进行综合。

Claims (7)

1.一种基于自然语言检索的综合相似度计算方法,其特征在于,包括以下步骤:
步骤1:用户输入要检索的自然语言;
步骤2:将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;
步骤3:对检索向量和文档向量计算词频相似度SimFreq(S,Di);
步骤4:对检索向量和文档向量计算词序相似度SimOrder(S,Di);所述对检索向量和文档向量计算词序相似度SimOrder(S,Di)如下:
Figure FDA0003119081480000011
其中,pos(sm)表示第m个关键词在检索同词向量中出现的绝对词序;pos(dm)表示第m个关键词在文档同词向量中出现的绝对词序,q为关键词的数量;InvNum(V_R(V_K(S)))表示检索向量的同词向量V_K(S)的逆序数;InvNum(V_R(V_K(D)))表示文档向量的同词向量V_K(D)的逆序数;Length(S)表示检索向量S=(s1,s2,…,sn)包含的向量的个数,即n;length(Di)表示第i篇文档向量Di=(di1,di2,…,diu)包含的向量的个数,即u;
步骤5:对检索向量进行概念扩展;
步骤6:计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di);
步骤7:计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di);
步骤8:根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di);
步骤9:将计算获取的最大综合相似度Sim(S,Di)对应的文章反馈给检索用户。
2.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述检索向量和文档向量的获取方法如下:
S1:利用自然语言处理技术对用户输入的检索信息利用分词系统进行分词、词性标注、去停用词操作,得到检索向量S=(s1,s2,…,sn),其中si为第i个关键词,n为用户检索关键词的个数;
S2:从被检索文档中提取出能够表达文档大意的u个关键词,组成文档向量Di=(di1,di2,…,diu);其中,Di表示数据库中第i个文档,diu为第i个文档中第u个文档关键词。
3.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述对检索向量和文档向量计算词频相似度SimFreq(S,Di)如下:
S1:对检索向量和文档向量,获取包含q个相同关键词的集合,即同词向量(V_K):
V_K=S∩Di=(s1=d1,s2=d2,…,sm=dm,…,sq=dq);
S2:从而得到,检索向量的同词向量空间和第i篇文档向量的同词向量空间:
V_K(S)=((s1,w1 S),(s2,w2 S),…,(sm,wm S),…,(sq,wq S));
V_K(D)=((d1,w1 D),(d2,w2 D),…,(dm,wm D),…,(dq,wq D));
其中,m=1,2,……q,wm S为关键词Sm的权重;wm D为关键词dm的权重;所述wm S与wm D采用传统的tf*idf方法来计算;
S3:采用传统VSM计算方法,通过检索向量的同词向量与文档向量的同词向量之间的夹角大小,来衡量检索向量和文档向量的词频相似度:
Figure FDA0003119081480000021
4.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述对检索向量进行概念扩展如下:
S1:通过概念词表HowNet对检索向量S中的关键词进行概念扩展,将概念词表中包含的S中关键词的同义词和近义词扩展到概念扩展后的检索向量C:C=(c1,c2,…ct);其中,t表示扩展后的检索向量中有t个关键词。
5.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di)如下:
S1:对概念扩展后的检索向量和文档向量,获取包含r个相同关键词的集合,即同概向量(V_C):V_C=C∩Di=(c1=d1,c2=d2,…,cp=dp,…,cr=dr);
S2:从而得到,概念扩展后的检索向量的同概向量空间和文档向量的同概向量空间:V_C(C)=((c1,w1 C),(c2,w2 C),…,(cp,wp C),…,(cr,wr C));
V_C(D)=((d1,w1 D),(d2,w2 D),…,(dp,wp D),…,(dr,wr D));
其中,p=1,2,……r,wp C为关键词Cp的权重;wp D为关键词dp的权重;所述wp C与wp D采用传统的tf*idf方法来计算;
S3:借鉴传统VSM计算方法,通过概念扩展后的检索向量的同概向量空间和文档向量的同概向量之间的夹角大小,来衡量概念扩展后的检索向量与文档向量的词频相似度:
Figure FDA0003119081480000031
6.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di)如下:
Figure FDA0003119081480000032
其中,depth(R(cj,dl))表示节点cj,dl的最近公共祖先节点距离根节点的语义层次深度;depth(cj)表示节点cj距离根节点的语义层次深度;depth(dl)表示节点dl距离根节点的语义层次深度;length(cj,dl)表示从节点cj到节点dl经过的最少的边条数;α+β=1,r表示概念扩展后的检索向量C有r个关键词,u表示文档向量Di有u个关键词,SimSema是将向量C和Di中的关键词一个一个比较计算语义相似度。
7.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di)如下:
Sim(S,Di)=μ1×SimFreq(S,Di)+μ2×SimOrder(S,Di)+μ3×SimCept(S,Di)+μ4×SimSema(S,Di)
其中,μ1,μ2,μ3,μ4为经验值,且满足μ1234=1。
CN201611036474.7A 2016-11-23 2016-11-23 一种基于自然语言检索的综合相似度计算方法 Active CN108090077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611036474.7A CN108090077B (zh) 2016-11-23 2016-11-23 一种基于自然语言检索的综合相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611036474.7A CN108090077B (zh) 2016-11-23 2016-11-23 一种基于自然语言检索的综合相似度计算方法

Publications (2)

Publication Number Publication Date
CN108090077A CN108090077A (zh) 2018-05-29
CN108090077B true CN108090077B (zh) 2021-08-31

Family

ID=62168229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611036474.7A Active CN108090077B (zh) 2016-11-23 2016-11-23 一种基于自然语言检索的综合相似度计算方法

Country Status (1)

Country Link
CN (1) CN108090077B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033162A (zh) * 2018-06-19 2018-12-18 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109033222B (zh) * 2018-06-29 2021-07-13 北京奇虎科技有限公司 兴趣点poi与检索关键字的相关性分析方法和装置
CN109062977A (zh) * 2018-06-29 2018-12-21 厦门快商通信息技术有限公司 一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统
CN109766547B (zh) * 2018-12-26 2022-10-18 重庆邮电大学 一种句子相似度计算方法
CN110232185B (zh) * 2019-01-07 2023-09-19 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法
CN111159401A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 基于短会的关联信息提方法、装置、电子设备及存储介质
CN111274783B (zh) * 2020-01-14 2022-12-06 广东电网有限责任公司广州供电局 一种基于语义相似分析的围串标智能识别方法
CN111625621B (zh) * 2020-04-27 2023-05-09 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质
CN112837041A (zh) * 2021-02-22 2021-05-25 辽宁科技学院 一种基于工业云平台的项目管理系统及实施方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010109404A (ko) * 2000-05-31 2001-12-10 정영미 의미망 지식베이스를 이용한 개념기반 정보검색시스템
CN101114291A (zh) * 2007-08-24 2008-01-30 西安交通大学 一种基于多样性xml文档近似查询方法
CN101251841A (zh) * 2007-05-17 2008-08-27 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
CN101436201A (zh) * 2008-11-26 2009-05-20 哈尔滨工业大学 一种变粒度文本聚类的特征量化方法
CN102637163A (zh) * 2011-01-09 2012-08-15 华东师范大学 一种基于语义的多层次本体匹配的控制方法及系统
CN103455535A (zh) * 2013-05-08 2013-12-18 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792355B2 (en) * 2011-10-25 2017-10-17 Intelligent Views Gmbh Searches for similar documents

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010109404A (ko) * 2000-05-31 2001-12-10 정영미 의미망 지식베이스를 이용한 개념기반 정보검색시스템
CN101251841A (zh) * 2007-05-17 2008-08-27 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
CN101114291A (zh) * 2007-08-24 2008-01-30 西安交通大学 一种基于多样性xml文档近似查询方法
CN101436201A (zh) * 2008-11-26 2009-05-20 哈尔滨工业大学 一种变粒度文本聚类的特征量化方法
CN102637163A (zh) * 2011-01-09 2012-08-15 华东师范大学 一种基于语义的多层次本体匹配的控制方法及系统
CN103455535A (zh) * 2013-05-08 2013-12-18 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Frequency-based Segregation of Syntactic and Semantic Unification during Online Sentence Level Language Comprehension;Bastiaansen,Marcel等;《JOURNAL OF COGNITIVE NEUROSCIENCE》;20151130;第27卷(第11期);全文 *
Ranking Entity Based on Both of Word Frequency and Word Sematic Features;Xiao-Bo Jin等;《arXiv》;20160802;全文 *
基于多特征融合的句子语义相似度计算;赵臻等;《计算机工程》;20120131;第38卷(第1期);第171-172页 *
基于概念扩充和综合评价的文本综述;林鸿飞等;《郑州大学学报(理学版)》;20070630;第39卷(第2期);全文 *
基于领域本体的文档向量空间模型构建;郝文宁等;《计算机应用研究》;20130331;第30卷(第3期);全文 *

Also Published As

Publication number Publication date
CN108090077A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN108090077B (zh) 一种基于自然语言检索的综合相似度计算方法
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
CN105095204B (zh) 同义词的获取方法及装置
CN106502994B (zh) 一种文本的关键词提取的方法和装置
CN107423282B (zh) 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
WO2018049960A1 (zh) 一种为文本信息匹配资源的方法及装置
CN107562772B (zh) 事件抽取方法、装置、系统和存储介质
CN104199965B (zh) 一种语义信息检索方法
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN108614897B (zh) 一种面向自然语言的内容多样化搜索方法
Mowafy et al. An efficient classification model for unstructured text document
US20200073890A1 (en) Intelligent search platforms
Yang et al. Ordering-sensitive and semantic-aware topic modeling
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN110866102A (zh) 检索处理方法
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Wongchaisuwat Automatic keyword extraction using textrank
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Juncal-Martínez et al. GTI at SemEval-2016 Task 4: Training a naive Bayes classifier using features of an unsupervised system
CN112800243A (zh) 一种基于知识图谱的项目预算分析方法及系统
Ma et al. Chinese Text Similarity Algorithm Based on Part-of-Speech Tagging and Word Vector Model.
Wang Query Segmentation and Tagging

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant