CN107992472A - 句子相似度计算方法及装置、计算机存储介质和终端 - Google Patents
句子相似度计算方法及装置、计算机存储介质和终端 Download PDFInfo
- Publication number
- CN107992472A CN107992472A CN201711178245.3A CN201711178245A CN107992472A CN 107992472 A CN107992472 A CN 107992472A CN 201711178245 A CN201711178245 A CN 201711178245A CN 107992472 A CN107992472 A CN 107992472A
- Authority
- CN
- China
- Prior art keywords
- sentence
- mrow
- numerical value
- msub
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
一种句子相似度计算方法及装置、计算机存储介质和终端,所述方法包括:计算第一语句与第二语句之间的浅层语义分析数值和词语语义分析数值;基于计算得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值。上述的方案,可以提高语句相似度计算的准确性。
Description
技术领域
本发明涉及语句识别技术领域,特别是涉及一种句子相似度计算方法及装置、计算机存储介质和终端。
背景技术
基于金融领域的自助机器人问答系统主要是通过检索预先准备的金融专业知识库,获取问题答案。其关键技术是将用户问题与问答库中的问题进行一一匹配,计算问题-问题之间的相似度,然后根据截断阈值,返回结果。由于中文表达方式灵活多样,相同语义可以对应不同表达方式,因此,如何有效的计算相同语义问题之间相似度,就成为了亟待一个重要问题。
传统语句相似度计算方法,包括基于关键字重叠的方法,基于词语语义的方法,基于词语向量空间的方法和基于表层语法分析的方法等。
因此,现有的句子相似度计算方法存在着准确性差的问题,严重影响了用户的使用体验。
发明内容
本发明实施例解决的技术问题是如何提高句子相似度计算的准确性。
为解决上述问题,本发明实施例提供了一种句子相似度计算方法,包括:
计算第一语句与第二语句之间的浅层语义分析数值和词语语义分析数值;
基于计算得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值。
可选地,所述计算第一语句与第二语句之间的浅层语义分析数值,包括:
分别计算所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值;
基于计算得到的所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值,计算得到所述第一语句与所述第二语句之间的浅层语义分析数值。
可选地,所述基于计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值,计算得到所述第一语句与所述第二语句之间的浅层语义分析数值,包括:
将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均,得到所述第一语句与所述第二语句之间的浅层语义分析数值。
可选地,所述计算所述第一语句与所述第二语句之间的词语语义分析数值,包括:
计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值;
基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词对语句相似度数值;
基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词语语义分析数值。
可选地,所述计算所述第一语句与所述第二语句之间的同义词词林相似度数值,包括:
且:
N=5-H;
其中,S(w1,w2)表示所述第一语句与所述第二语句之间的同义词词林相似度数值,w1、w2分别表示待识别的语句与第二语句,c1和c2分别表示w1、w2在词林中编号,H表示w1、w2之间的深度,sub(c1,n)、sub(c2,n)分别表示c1、c2编号的前n位,N表示w1、w2在同义词词林中的距离。
可选地,所述基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词对语句相似度数值,包括:
其中,M(S1,S2)表示所述第一语句与所述第二语句之间词对相似度矩阵。
可选地,所述基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词语语义分析数值,包括:
且:
其中,SematicSim(S1,S2)表示与所述第一语句与所述第二语句之间的词语语义分析数值,max_row(i)表示矩阵M(S1,S2)中的第i行的最大值,max_col(j)表示矩阵M(S1,S2)中的第j列的最大值,Sim(S1,S2)表示所述第一语句与所述第二语句之间的语义相似度数值,Sim(S2,S1)表示所述第一语句与第二语句之间的语义相似度数值,m、n分别表示语句S1,S2中的关键词的数量。
可选地,所述基于所得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值,包括:
TotalSim(S1,S2)=λ·SyntaxSim(S1,S2)+μ·SematicSim(S1,S2);
其中,所述TotalSim(S1,S2)表示所述第一语句与第二语句之间的相似度数值,SyntaxSim(S1,S2)表示所述第一语句与第二语句之间浅层语义相似度分析数值。
本发明实施例还提供了一种句子相似度计算装置,包括:
第一计算单元,适于计算第一语句与第二语句之间的浅层语义分析数值和词语语义分析数值;
第二计算单元,适于基于计算得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值。
可选地,所述第一计算单元,适于分别计算所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值;基于计算得到的所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值,计算得到所述第一语句与所述第二语句之间的浅层语义分析数值。
可选地,所述第一计算单元,适于将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均,得到所述第一语句与所述第二语句之间的浅层语义分析数值。
可选地,所述第一计算单元,适于计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值;基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词对语句相似度数值;基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词语语义分析数值。
可选地,所述第一计算单元,适于采用如下的公式计算所述第一语句与所述第二语句之间的同义词词林相似度数值:
且:
N=5-H;
其中,S(w1,w2)表示所述第一语句与所述第二语句之间的同义词词林相似度数值,w1、w2分别表示待识别的语句与第二语句,c1和c2分别表示w1、w2在词林中编号,H表示w1、w2之间的深度,sub(c1,n)、sub(c2,n)分别表示c1、c2编号的前n位,N表示w1、w2在同义词词林中的距离。
可选地,所述第一计算单元,适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词对语句相似度数值:
其中,M(S1,S2)表示所述第一语句与所述第二语句之间词对相似度矩阵。
可选地,所述第一计算单元,适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词语语义分析数值:
且:
其中,SematicSim(S1,S2)表示与所述第一语句与所述第二语句之间的词语语义分析数值,max_row(i)表示矩阵M(S1,S2)中的第i行的最大值,max_col(j)表示矩阵M(S1,S2)中的第j列的最大值,Sim(S1,S2)表示所述第一语句与所述第二语句之间的语义相似度数值,Sim(S2,S1)表示所述第一语句与第二语句之间的语义相似度数值,m、n分别表示语句S1,S2中的关键词的数量。
可选地,所述第二计算单元,适于采用如下的公式计算得到所述第一语句与第二语句之间的相似度数值:
TotalSim(S1,S2)=λ·SyntaxSim(S1,S2)+μ·SematicSim(S1,S2);
其中,所述TotalSim(S1,S2)表示所述第一语句与第二语句之间的相似度数值,SyntaxSim(S1,S2)表示所述第一语句与第二语句之间浅层语义相似度分析数值。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述的句子相似度计算方法的步骤。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一项所述的句子相似度计算方法的步骤。
与现有技术相比,本发明的技术方案具有以下的优点:
上述的方案,在计算第一语句与第二语句的相似性时,分别计算所述第一语句与所述第二语句之间的浅层语义分析数值和词语语义分析数值,并基于所得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值,既能够分析语句中关键词之间的顺序关联和语法成分,又可以增强同义词的处理能力,故可以提语句相似度计算的准确性,进而可以提高语句识别的准确性。
附图说明
图1是本发明实施例中的一种句子相似度计算方法的流程图;
图2是本发明实施例中的一种句子相似度装置的结构示意图。
具体实施方式
为解决现有技术中存在的上述问题,本发明实施例采用的技术方案在计算第一语句与第二语句的相似性时,分别计算所述第一语句与所述第二语句之间的浅层语义分析数值和词语语义分析数值,并基于所得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值,既能够分析语句中关键词之间的顺序关联和语法成分,又可以增强同义词的处理能力,故可以提语句相似度计算的准确性,进而可以提高语句识别的准确性。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1示出了本发明实施例中的一种句子相似度计算方法的流程图。如图1所示的句子相似度计算方法,具体可以包括如下的操作:
步骤S101:获取第一语句和对应的第二语句。
在具体实施中,所述第一语句和第二语句为需要进行相似度计算的两个句子。
步骤S102:分别计算所述第一语句与所述第二语句之间的浅层语义分析数值和词语语义分析数值。
在具体实施中,计算第二语句与第一语句之间的浅层语义分析数值,包括:
(1)首先,分别计算所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值,其中:
A、所述计算所述第一语句与所述第二语句之间的词形相似度数值,主要是计算两个语句中相同关键词所占的比例,重点考察两个语句在形态上的相似性。在本发明一实施例中,采用如下的公式计算所述第一语句与所述第二语句之间的词形相似度数值:
其中,word(S1)、word(S2)分别表示语句S1、S2所含关键词的个数,sameWord(S1,S2)表示语句S1、S2具有的相同关键词的数目,wordSim(S1,S2)表示两个语句的词形相似度。
这里需要指出的时,在上述计算过程中,如果语句中关键词重复出现,则只进行一次计数。在实际应用中发现,关键词的词性对语句语义影响较大。因此具体操作上并不直接统计关键词出现的次数,而是统计关键词词性所对应的权重。对于名词,权重为5,即名词出现一次加5;动词权重为3,其他词性的关键词权重赋为1。
B、所述第一语句与所述第二语句之间的词形相似度数值,词序相似度计算主要是计算语句中关键词出现的顺序,这反映了两个语句相同关键词在位置上的相似程度,其计算公式如下:
其中,ordSim(S1,S2)表示语句S1、S2的词序相似度,Inv(S1,S2)表示语句S1中关键词在S2中的逆序数,maxInv(S1,S2)表示语句S1、S2中相同关键词的最大逆序数。
C、所述第一语句与所述第二语句之间的语句长度相似数值,主要从语句所含词语个数来衡量两个语句的相似性,其实质还是衡量语句的形态相似性。在本发明一实施例中,采用如下的公式计算遍历到的所述第一语句与所述第二语句之间的语句长度相似数值:
其中,lenSim(S1,S2)表示语句的长度相似度,abs代表绝对值函数,len(S1)、len(S2)代表语句S1,S2所含词汇的个数。
D、所述第一语句与所述第二语句之间的语句距离相似数值,主要通过所述第一语句与所述第二语句之间的关键词的距离来衡量语句的相似度。在本发明一实施例中,采用如下的公式计算所述第一语句与所述第二语句之间的语句距离相似数值:
其中,disSim(S1,S2)代表语句距离相似度,sameDis代表语句S1和S2中共同出现的关键词之间的最大距离,dis(S1)、dis(S2)分别代表S1、S2中出现的关键词之间的最大距离。
当计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值时,可以基于计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值,计算得到的所述第一语句与所述第二语句之间的浅层语义分析数值。
在本发明一实施例中,将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均,得到所述第一语句与所述第二语句之间的浅层语义分析数值,即:
SyntaxSim(S1,S2)=α·wordSame(S1,S2)+β·lenSame(S1,S2)+γ·ordSame(S1,S2)+δ·disSim(S1,S2) (5)
其中,syntaxSim(S1,S2)代表语句S1、S2的表层语法相似度,α、β、γ、δ分别代表每种相似度所对应权重,在本发明一实施例中中,α、β、γ、δ的值分别取0.6,0.2,0.1和0.1。
在具体实施中,所述计算所述第一语句与所述第二语句之间的词语语义分析数值,可以包括:
A、首先,计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值。在本发明一实施例中,采用如下的公式计算所述第一语句与所述第二语句之间的同义词词林相似度数值,包括:
其中:
N=5-H (8)
其中,S(w1,w2)表示所述第一语句与所述第二语句之间的同义词词林相似度数值,w1、w2分别表示待识别的语句与第二语句,c1和c2分别表示w1、w2在词林中编号,H表示w1、w2之间的深度,sub(c1,n)、sub(c2,n)分别表示c1、c2编号的前n位,N表示w1、w2在同义词词林中的距离。
B、当计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值时,可以基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值,计算得到所述第一语句与所述第二语句之间的词对语句相似度数值。在本发明一实施例中,采用如下的公式基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值,计算得到所述第一语句与所述第二语句之间的词对语句相似度数值:
其中,
其中,SematicSim(S1,S2)表示与所述第一语句与所述第二语句之间的词语语义分析数值,S1,S2分别表示所述第一语句与所述第二语句,M(S1,S2)表示所述第一语句与所述第二语句之间任意词对相似度矩阵,max_row(i)表示矩阵M(S1,S2)中的第i行的最大值,max_col(j)表示矩阵M(S1,S2)中的第j列的最大值,Sim(S1,S2)表示所述第一语句与所述第二语句之间的语义相似度数值,Sim(S2,S1)表示所述第一语句与第二语句之间的语义相似度数值,m、n分别表示语句S1,S2中的关键词的数量。
步骤S103:基于计算得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值。
在本发明一实施例中,采用如下的公式计算第一语句与第二语句之间的相似度数值:
TotalSim(S1,S2)=λ·SyntaxSim(S1,S2)+μ·SematicSim(S1,S2) (13)
其中,所述TotalSim(S1,S2)表示所述第一语句与第二语句之间的相似度数值,SyntaxSim(S1,S2)表示所述第一语句与第二语句之间浅层语义相似度分析数值。
上述的方案,在计算第一语句与原始语句集中的原始语句的相似性时,分别计算所述第一语句与所述第二语句之间的浅层语义分析数值和词语语义分析数值,并基于所得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值,,既能够分析语句中关键词之间的顺序关联和语法成分,也增强了同义词的处理能力,因而可以提语句相似度计算的准确性,进而可以提高语句识别的准确性。
图2示出了本发明实施例中的一种句子相似度计算装置的结构。参见图2,一种句子相似度计算装置20,可以包括第一计算单元201和第二计算单元202,其中:
第一计算单元201,适于计算第一语句与第二语句之间的浅层语义分析数值和词语语义分析数值;
第二计算单元202,适于基于计算得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值。
在具体实施中,所述第一计算单元201,适于分别计算所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值;基于计算得到的所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值,计算得到所述第一语句与所述第二语句之间的浅层语义分析数值。
在具体实施中,所述第一计算单元201,适于将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均,得到所述第一语句与所述第二语句之间的浅层语义分析数值。
在具体实施中,所述第一计算单元201,适于计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值;基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词对语句相似度数值;基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词语语义分析数值。
在本发明一实施例中,所述第一计算单元201,适于采用如下的公式计算所述第一语句与所述第二语句之间的同义词词林相似度数值:
且:
N=5-H;
其中,S(w1,w2)表示所述第一语句与所述第二语句之间的同义词词林相似度数值,w1、w2分别表示待识别的语句与第二语句,c1和c2分别表示w1、w2在词林中编号,H表示w1、w2之间的深度,sub(c1,n)、sub(c2,n)分别表示c1、c2编号的前n位,N表示w1、w2在同义词词林中的距离。
在本发明一实施例中,所述第一计算单元201,适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词对语句相似度数值:
其中,M(S1,S2)表示所述第一语句与所述第二语句之间词对相似度矩阵。
在本发明一实施例中,所述第一计算单元201,适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词语语义分析数值:
且:
其中,SematicSim(S1,S2)表示与所述第一语句与所述第二语句之间的词语语义分析数值,max_row(i)表示矩阵M(S1,S2)中的第i行的最大值,max_col(j)表示矩阵M(S1,S2)中的第j列的最大值,Sim(S1,S2)表示所述第一语句与所述第二语句之间的语义相似度数值,Sim(S2,S1)表示所述第一语句与第二语句之间的语义相似度数值,m、n分别表示语句S1,S2中的关键词的数量。
在本发明一实施例中,所述第二计算单元202,适于采用如下的公式计算得到所述第一语句与第二语句之间的相似度数值:
TotalSim(S1,S2)=λ·SyntaxSim(S1,S2)+μ·SematicSim(S1,S2);
其中,所述TotalSim(S1,S2)表示所述第一语句与第二语句之间的相似度数值,SyntaxSim(S1,S2)表示所述第一语句与第二语句之间浅层语义相似度分析数值。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的句子相似度计算方法的步骤。其中,所述的句子相似度计算方法的步骤请参见前述部分的介绍,不再赘述。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的句子相似度计算方法的步骤。其中,所述的句子相似度计算方法的步骤请参见前述部分的介绍,不再赘述。
采用本发明实施例中上述方案,在计算第一语句与原始语句集中的原始语句的相似性时,分别计算所述第一语句与所述第二语句之间的浅层语义分析数值和词语语义分析数值,并基于所得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值,既能够分析语句中关键词之间的顺序关联和语法成分,又可以增强同义词的处理能力,故可以提语句相似度计算的准确性,进而可以提高语句识别的准确性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (18)
1.一种句子相似度计算方法,其特征在于,包括:
计算第一语句与第二语句之间的浅层语义分析数值和词语语义分析数值;
基于计算得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值。
2.根据权利要求1所述的句子相似度计算方法,其特征在于,所述计算第一语句与第二语句之间的浅层语义分析数值,包括:
分别计算所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值;
基于计算得到的所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值,计算得到所述第一语句与所述第二语句之间的浅层语义分析数值。
3.根据权利要求2所述的句子相似度计算方法,其特征在于,所述基于计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值,计算得到所述第一语句与所述第二语句之间的浅层语义分析数值,包括:
将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均,得到所述第一语句与所述第二语句之间的浅层语义分析数值。
4.根据权利要求1-3任一项所述的句子相似度计算方法,其特征在于,所述计算所述第一语句与所述第二语句之间的词语语义分析数值,包括:
计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值;
基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词对语句相似度数值;
基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词语语义分析数值。
5.根据权利要求4所述的句子相似度计算方法,其特征在于,所述计算所述第一语句与所述第二语句之间的同义词词林相似度数值,包括:
且:
<mrow>
<mi>H</mi>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>5</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>4</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>3</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>2</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>&NotEqual;</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>;</mo>
</mrow>
N=5-H;
其中,S(w1,w2)表示所述第一语句与所述第二语句之间的同义词词林相似度数值,w1、w2分别表示待识别的语句与第二语句,c1和c2分别表示w1、w2在词林中编号,H表示w1、w2之间的深度,sub(c1,n)、sub(c2,n)分别表示c1、c2编号的前n位,N表示w1、w2在同义词词林中的距离。
6.根据权利要求5所述的句子相似度计算方法,其特征在于,所述基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词对语句相似度数值,包括:
其中,M(S1,S2)表示所述第一语句与所述第二语句之间词对相似度矩阵。
7.根据权利要求6所述的语句相似度计算方法,其特征在于,所述基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词语语义分析数值,包括:
且:
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<msub>
<mo>&Sigma;</mo>
<mi>i</mi>
</msub>
<mi>max</mi>
<mo>_</mo>
<mi>r</mi>
<mi>o</mi>
<mi>w</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<msub>
<mo>&Sigma;</mo>
<mi>j</mi>
</msub>
<mi>max</mi>
<mo>_</mo>
<mi>c</mi>
<mi>o</mi>
<mi>l</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,SematicSim(S1,S2)表示与所述第一语句与所述第二语句之间的词语语义分析数值,max_row(i)表示矩阵M(S1,S2)中的第i行的最大值,max_col(j)表示矩阵M(S1,S2)中的第j列的最大值,Sim(S1,S2)表示所述第一语句与所述第二语句之间的语义相似度数值,Sim(S2,S1)表示所述第一语句与第二语句之间的语义相似度数值,m、n分别表示语句S1,S2中的关键词的数量。
8.根据权利要求1所述的句子相似度计算方法,其特征在于,所述基于所得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值,包括:
TotalSim(S1,S2)=λ·SyntaxSim(S1,S2)+μ·SematicSim(S1,S2);
其中,所述TotalSim(S1,S2)表示所述第一语句与第二语句之间的相似度数值,SyntaxSim(S1,S2)表示所述第一语句与第二语句之间浅层语义相似度分析数值。
9.一种句子相似度计算装置,其特征在于,包括:
第一计算单元,适于计算第一语句与第二语句之间的浅层语义分析数值和词语语义分析数值;
第二计算单元,适于基于计算得到的浅层语义分析数值和词语语义分析数值,计算得到所述第一语句与第二语句之间的相似度数值。
10.根据权利要求9所述的句子相似度计算装置,其特征在于,所述第一计算单元,适于分别计算所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值;基于计算得到的所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值,计算得到所述第一语句与所述第二语句之间的浅层语义分析数值。
11.根据权利要求10所述的句子相似度计算装置,其特征在于,所述第一计算单元,适于将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均,得到所述第一语句与所述第二语句之间的浅层语义分析数值。
12.根据权利要求9-11任一项所述的句子相似度计算装置,其特征在于,所述第一计算单元,适于计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值;基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词对语句相似度数值;基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值,计算得到所述第一语句与所述第二语句之间的词语语义分析数值。
13.根据权利要求12所述的句子相似度计算装置,其特征在于,所述第一计算单元,适于采用如下的公式计算所述第一语句与所述第二语句之间的同义词词林相似度数值:
且:
<mrow>
<mi>H</mi>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>5</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>4</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>3</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>2</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>&NotEqual;</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>;</mo>
</mrow>
N=5-H;
其中,S(w1,w2)表示所述第一语句与所述第二语句之间的同义词词林相似度数值,w1、w2分别表示待识别的语句与第二语句,c1和c2分别表示w1、w2在词林中编号,H表示w1、w2之间的深度,sub(c1,n)、sub(c2,n)分别表示c1、c2编号的前n位,N表示w1、w2在同义词词林中的距离。
14.根据权利要求13所述的句子相似度计算装置,其特征在于,所述第一计算单元,适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词对语句相似度数值:
其中,M(S1,S2)表示所述第一语句与所述第二语句之间词对相似度矩阵。
15.根据权利要求14所述的语句相似度计算装置,其特征在于,所述第一计算单元,适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词语语义分析数值:
且:
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<msub>
<mi>&Sigma;</mi>
<mi>i</mi>
</msub>
<mi>max</mi>
<mo>_</mo>
<mi>r</mi>
<mi>o</mi>
<mi>w</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<msub>
<mo>&Sigma;</mo>
<mi>j</mi>
</msub>
<mi>max</mi>
<mo>_</mo>
<mi>c</mi>
<mi>o</mi>
<mi>l</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,SematicSim(S1,S2)表示与所述第一语句与所述第二语句之间的词语语义分析数值,max_row(i)表示矩阵M(S1,S2)中的第i行的最大值,max_col(j)表示矩阵M(S1,S2)中的第j列的最大值,Sim(S1,S2)表示所述第一语句与所述第二语句之间的语义相似度数值,Sim(S2,S1)表示所述第一语句与第二语句之间的语义相似度数值,m、n分别表示语句S1,S2中的关键词的数量。
16.根据权利要求9所述的句子相似度计算装置,其特征在于,所述第二计算单元,适于采用如下的公式计算得到所述第一语句与第二语句之间的相似度数值:
TotalSim(S1,S2)=λ·SyntaxSim(S1,S2)+μ·SematicSim(S1,S2);
其中,所述TotalSim(S1,S2)表示所述第一语句与第二语句之间的相似度数值,SyntaxSim(S1,S2)表示所述第一语句与第二语句之间浅层语义相似度分析数值。
17.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至8任一项所述的句子相似度计算方法的步骤。
18.一种终端,其特征在于,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行权利要求1至8任一项所述的句子相似度计算方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711178245.3A CN107992472A (zh) | 2017-11-23 | 2017-11-23 | 句子相似度计算方法及装置、计算机存储介质和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711178245.3A CN107992472A (zh) | 2017-11-23 | 2017-11-23 | 句子相似度计算方法及装置、计算机存储介质和终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107992472A true CN107992472A (zh) | 2018-05-04 |
Family
ID=62032861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711178245.3A Pending CN107992472A (zh) | 2017-11-23 | 2017-11-23 | 句子相似度计算方法及装置、计算机存储介质和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107992472A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102809A (zh) * | 2018-06-22 | 2018-12-28 | 北京光年无限科技有限公司 | 一种用于智能机器人的对话方法及系统 |
CN109460457A (zh) * | 2018-10-25 | 2019-03-12 | 北京奥法科技有限公司 | 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法 |
CN109766547A (zh) * | 2018-12-26 | 2019-05-17 | 重庆邮电大学 | 一种句子相似度计算方法 |
CN110889118A (zh) * | 2018-09-07 | 2020-03-17 | 广州视源电子科技股份有限公司 | 异常sql语句检测方法、装置、计算机设备和存储介质 |
CN111400584A (zh) * | 2020-03-16 | 2020-07-10 | 南方科技大学 | 联想词的推荐方法、装置、计算机设备和存储介质 |
CN112380830A (zh) * | 2020-06-18 | 2021-02-19 | 达而观信息科技(上海)有限公司 | 不同文档中相关句子的匹配方法、系统和计算机可读存储介质 |
CN112380830B (zh) * | 2020-06-18 | 2024-05-17 | 达观数据有限公司 | 不同文档中相关句子的匹配方法、系统和计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216875A (zh) * | 2014-09-26 | 2014-12-17 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
CN104516986A (zh) * | 2015-01-16 | 2015-04-15 | 青岛理工大学 | 一种语句识别方法及装置 |
US20150227505A1 (en) * | 2012-08-27 | 2015-08-13 | Hitachi, Ltd. | Word meaning relationship extraction device |
CN106649849A (zh) * | 2016-12-30 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 文本信息库建立方法和装置、以及搜索方法、装置和系统 |
US20170154052A1 (en) * | 2015-11-30 | 2017-06-01 | International Business Machines Corporation | Method and apparatus for identifying semantically related records |
-
2017
- 2017-11-23 CN CN201711178245.3A patent/CN107992472A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150227505A1 (en) * | 2012-08-27 | 2015-08-13 | Hitachi, Ltd. | Word meaning relationship extraction device |
CN104216875A (zh) * | 2014-09-26 | 2014-12-17 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
CN104516986A (zh) * | 2015-01-16 | 2015-04-15 | 青岛理工大学 | 一种语句识别方法及装置 |
US20170154052A1 (en) * | 2015-11-30 | 2017-06-01 | International Business Machines Corporation | Method and apparatus for identifying semantically related records |
CN106649849A (zh) * | 2016-12-30 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 文本信息库建立方法和装置、以及搜索方法、装置和系统 |
Non-Patent Citations (1)
Title |
---|
张培颖: "多特征融合的语句相似度计算模型", 《计算机工程与应用》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102809A (zh) * | 2018-06-22 | 2018-12-28 | 北京光年无限科技有限公司 | 一种用于智能机器人的对话方法及系统 |
CN110889118A (zh) * | 2018-09-07 | 2020-03-17 | 广州视源电子科技股份有限公司 | 异常sql语句检测方法、装置、计算机设备和存储介质 |
CN109460457A (zh) * | 2018-10-25 | 2019-03-12 | 北京奥法科技有限公司 | 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法 |
CN109766547A (zh) * | 2018-12-26 | 2019-05-17 | 重庆邮电大学 | 一种句子相似度计算方法 |
CN109766547B (zh) * | 2018-12-26 | 2022-10-18 | 重庆邮电大学 | 一种句子相似度计算方法 |
CN111400584A (zh) * | 2020-03-16 | 2020-07-10 | 南方科技大学 | 联想词的推荐方法、装置、计算机设备和存储介质 |
CN112380830A (zh) * | 2020-06-18 | 2021-02-19 | 达而观信息科技(上海)有限公司 | 不同文档中相关句子的匹配方法、系统和计算机可读存储介质 |
CN112380830B (zh) * | 2020-06-18 | 2024-05-17 | 达观数据有限公司 | 不同文档中相关句子的匹配方法、系统和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992472A (zh) | 句子相似度计算方法及装置、计算机存储介质和终端 | |
Thavareesan et al. | Sentiment lexicon expansion using Word2vec and fastText for sentiment prediction in Tamil texts | |
CN105302794B (zh) | 一种中文同指事件识别方法及系统 | |
US9710547B2 (en) | Natural language semantic search system and method using weighted global semantic representations | |
Hamdan et al. | lsislif: Feature extraction and label weighting for sentiment analysis in twitter | |
US20160224622A1 (en) | Method for detecting the similarity of the patent documents on the basis of new kernel function luke kernel | |
Chen et al. | Jointly modeling inter-slot relations by random walk on knowledge graphs for unsupervised spoken language understanding | |
Sravanthi et al. | Semantic similarity between sentences | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
Ezzeldin et al. | ALQASIM: Arabic language question answer selection in machines | |
Ettinger et al. | Retrofitting sense-specific word vectors using parallel text | |
Zhang et al. | Natural language processing: a machine learning perspective | |
CN107977358A (zh) | 语句识别方法及装置、计算机存储介质和终端 | |
CN111428031A (zh) | 一种融合浅层语义信息的图模型过滤方法 | |
Farokhian et al. | Fake news detection using parallel BERT deep neural networks | |
US20190012388A1 (en) | Method and system for a semantic search engine using an underlying knowledge base | |
CN105786794A (zh) | 一种问答对检索方法及社区问答检索系统 | |
Damani et al. | Appropriately incorporating statistical significance in PMI | |
CN110929501B (zh) | 文本分析方法和装置 | |
Pakray et al. | Answer validation using textual entailment | |
Arukgoda et al. | A word sense disambiguation technique for sinhala | |
Scholz et al. | Linguistic sentiment features for newspaper opinion mining | |
Motameni et al. | Morphology of composition functions in Persian sentences through a newly proposed classified fuzzy method and center of gravity defuzzification method | |
TWI603320B (zh) | 全域對話系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180504 |
|
RJ01 | Rejection of invention patent application after publication |