CN107992472A

CN107992472A - 句子相似度计算方法及装置、计算机存储介质和终端

Info

Publication number: CN107992472A
Application number: CN201711178245.3A
Authority: CN
Inventors: 张家重; 赵亚欧; 王玉奎
Original assignee: Inspur Financial Information Technology Co Ltd
Current assignee: Inspur Financial Information Technology Co Ltd
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-05-04

Abstract

一种句子相似度计算方法及装置、计算机存储介质和终端，所述方法包括：计算第一语句与第二语句之间的浅层语义分析数值和词语语义分析数值；基于计算得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值。上述的方案，可以提高语句相似度计算的准确性。

Description

句子相似度计算方法及装置、计算机存储介质和终端

技术领域

本发明涉及语句识别技术领域，特别是涉及一种句子相似度计算方法及装置、计算机存储介质和终端。

背景技术

基于金融领域的自助机器人问答系统主要是通过检索预先准备的金融专业知识库，获取问题答案。其关键技术是将用户问题与问答库中的问题进行一一匹配，计算问题-问题之间的相似度，然后根据截断阈值，返回结果。由于中文表达方式灵活多样，相同语义可以对应不同表达方式，因此，如何有效的计算相同语义问题之间相似度，就成为了亟待一个重要问题。

传统语句相似度计算方法，包括基于关键字重叠的方法，基于词语语义的方法，基于词语向量空间的方法和基于表层语法分析的方法等。

因此，现有的句子相似度计算方法存在着准确性差的问题，严重影响了用户的使用体验。

发明内容

本发明实施例解决的技术问题是如何提高句子相似度计算的准确性。

为解决上述问题，本发明实施例提供了一种句子相似度计算方法，包括：

计算第一语句与第二语句之间的浅层语义分析数值和词语语义分析数值；

基于计算得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值。

可选地，所述计算第一语句与第二语句之间的浅层语义分析数值，包括：

分别计算所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值；

基于计算得到的所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到所述第一语句与所述第二语句之间的浅层语义分析数值。

可选地，所述基于计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到所述第一语句与所述第二语句之间的浅层语义分析数值，包括：

将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均，得到所述第一语句与所述第二语句之间的浅层语义分析数值。

可选地，所述计算所述第一语句与所述第二语句之间的词语语义分析数值，包括：

计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值；

基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词对语句相似度数值；

基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词语语义分析数值。

可选地，所述计算所述第一语句与所述第二语句之间的同义词词林相似度数值，包括：

且：

N＝5-H；

其中，S(w₁,w₂)表示所述第一语句与所述第二语句之间的同义词词林相似度数值，w1、w2分别表示待识别的语句与第二语句，c1和c2分别表示w1、w2在词林中编号，H表示w1、w2之间的深度，sub(c1，n)、sub(c2，n)分别表示c1、c2编号的前n位，N表示w1、w2在同义词词林中的距离。

可选地，所述基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词对语句相似度数值，包括：

其中，M(S₁,S₂)表示所述第一语句与所述第二语句之间词对相似度矩阵。

可选地，所述基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词语语义分析数值，包括：

且：

其中，SematicSim(S₁,S₂)表示与所述第一语句与所述第二语句之间的词语语义分析数值，max_row(i)表示矩阵M(S₁,S₂)中的第i行的最大值，max_col(j)表示矩阵M(S₁,S₂)中的第j列的最大值，Sim(S₁,S₂)表示所述第一语句与所述第二语句之间的语义相似度数值，Sim(S₂,S₁)表示所述第一语句与第二语句之间的语义相似度数值，m、n分别表示语句S₁,S₂中的关键词的数量。

可选地，所述基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值，包括：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)；

其中，所述TotalSim(S1,S2)表示所述第一语句与第二语句之间的相似度数值，SyntaxSim(S₁,S₂)表示所述第一语句与第二语句之间浅层语义相似度分析数值。

本发明实施例还提供了一种句子相似度计算装置，包括：

第一计算单元，适于计算第一语句与第二语句之间的浅层语义分析数值和词语语义分析数值；

第二计算单元，适于基于计算得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值。

可选地，所述第一计算单元，适于分别计算所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值；基于计算得到的所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到所述第一语句与所述第二语句之间的浅层语义分析数值。

可选地，所述第一计算单元，适于将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均，得到所述第一语句与所述第二语句之间的浅层语义分析数值。

可选地，所述第一计算单元，适于计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值；基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词对语句相似度数值；基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词语语义分析数值。

可选地，所述第一计算单元，适于采用如下的公式计算所述第一语句与所述第二语句之间的同义词词林相似度数值：

且：

N＝5-H；

可选地，所述第一计算单元，适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词对语句相似度数值：

可选地，所述第一计算单元，适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词语语义分析数值：

且：

可选地，所述第二计算单元，适于采用如下的公式计算得到所述第一语句与第二语句之间的相似度数值：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)；

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一项所述的句子相似度计算方法的步骤。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一项所述的句子相似度计算方法的步骤。

与现有技术相比，本发明的技术方案具有以下的优点：

上述的方案，在计算第一语句与第二语句的相似性时，分别计算所述第一语句与所述第二语句之间的浅层语义分析数值和词语语义分析数值，并基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值，既能够分析语句中关键词之间的顺序关联和语法成分，又可以增强同义词的处理能力，故可以提语句相似度计算的准确性，进而可以提高语句识别的准确性。

附图说明

图1是本发明实施例中的一种句子相似度计算方法的流程图；

图2是本发明实施例中的一种句子相似度装置的结构示意图。

具体实施方式

为解决现有技术中存在的上述问题，本发明实施例采用的技术方案在计算第一语句与第二语句的相似性时，分别计算所述第一语句与所述第二语句之间的浅层语义分析数值和词语语义分析数值，并基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值，既能够分析语句中关键词之间的顺序关联和语法成分，又可以增强同义词的处理能力，故可以提语句相似度计算的准确性，进而可以提高语句识别的准确性。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1示出了本发明实施例中的一种句子相似度计算方法的流程图。如图1所示的句子相似度计算方法，具体可以包括如下的操作：

步骤S101：获取第一语句和对应的第二语句。

在具体实施中，所述第一语句和第二语句为需要进行相似度计算的两个句子。

步骤S102：分别计算所述第一语句与所述第二语句之间的浅层语义分析数值和词语语义分析数值。

在具体实施中，计算第二语句与第一语句之间的浅层语义分析数值，包括：

(1)首先，分别计算所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，其中：

A、所述计算所述第一语句与所述第二语句之间的词形相似度数值，主要是计算两个语句中相同关键词所占的比例，重点考察两个语句在形态上的相似性。在本发明一实施例中，采用如下的公式计算所述第一语句与所述第二语句之间的词形相似度数值：

其中，word(S1)、word(S2)分别表示语句S1、S2所含关键词的个数，sameWord(S1，S2)表示语句S1、S2具有的相同关键词的数目，wordSim(S1,S2)表示两个语句的词形相似度。

这里需要指出的时，在上述计算过程中，如果语句中关键词重复出现，则只进行一次计数。在实际应用中发现，关键词的词性对语句语义影响较大。因此具体操作上并不直接统计关键词出现的次数，而是统计关键词词性所对应的权重。对于名词，权重为5，即名词出现一次加5；动词权重为3，其他词性的关键词权重赋为1。

B、所述第一语句与所述第二语句之间的词形相似度数值，词序相似度计算主要是计算语句中关键词出现的顺序，这反映了两个语句相同关键词在位置上的相似程度，其计算公式如下：

其中，ordSim(S1，S2)表示语句S1、S2的词序相似度，Inv(S1,S2)表示语句S1中关键词在S2中的逆序数，maxInv(S1,S2)表示语句S1、S2中相同关键词的最大逆序数。

C、所述第一语句与所述第二语句之间的语句长度相似数值，主要从语句所含词语个数来衡量两个语句的相似性，其实质还是衡量语句的形态相似性。在本发明一实施例中，采用如下的公式计算遍历到的所述第一语句与所述第二语句之间的语句长度相似数值：

其中，lenSim(S1,S2)表示语句的长度相似度，abs代表绝对值函数，len(S1)、len(S2)代表语句S1，S2所含词汇的个数。

D、所述第一语句与所述第二语句之间的语句距离相似数值，主要通过所述第一语句与所述第二语句之间的关键词的距离来衡量语句的相似度。在本发明一实施例中，采用如下的公式计算所述第一语句与所述第二语句之间的语句距离相似数值：

其中，disSim(S1,S2)代表语句距离相似度，sameDis代表语句S1和S2中共同出现的关键词之间的最大距离，dis(S1)、dis(S2)分别代表S1、S2中出现的关键词之间的最大距离。

当计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值时，可以基于计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到的所述第一语句与所述第二语句之间的浅层语义分析数值。

在本发明一实施例中，将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均，得到所述第一语句与所述第二语句之间的浅层语义分析数值，即：

SyntaxSim(S₁,S₂)＝α·wordSame(S₁,S₂)+β·lenSame(S₁,S₂)+γ·ordSame(S₁,S₂)+δ·disSim(S₁,S₂) (5)

其中，syntaxSim(S1,S2)代表语句S1、S2的表层语法相似度，α、β、γ、δ分别代表每种相似度所对应权重，在本发明一实施例中中，α、β、γ、δ的值分别取0.6，0.2，0.1和0.1。

在具体实施中，所述计算所述第一语句与所述第二语句之间的词语语义分析数值，可以包括：

A、首先，计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值。在本发明一实施例中，采用如下的公式计算所述第一语句与所述第二语句之间的同义词词林相似度数值，包括：

其中：

N＝5-H (8)

B、当计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值时，可以基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值，计算得到所述第一语句与所述第二语句之间的词对语句相似度数值。在本发明一实施例中，采用如下的公式基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值，计算得到所述第一语句与所述第二语句之间的词对语句相似度数值：

其中，

其中，SematicSim(S₁,S₂)表示与所述第一语句与所述第二语句之间的词语语义分析数值，S₁,S₂分别表示所述第一语句与所述第二语句，M(S₁,S₂)表示所述第一语句与所述第二语句之间任意词对相似度矩阵，max_row(i)表示矩阵M(S₁,S₂)中的第i行的最大值，max_col(j)表示矩阵M(S₁,S₂)中的第j列的最大值，Sim(S₁,S₂)表示所述第一语句与所述第二语句之间的语义相似度数值，Sim(S₂,S₁)表示所述第一语句与第二语句之间的语义相似度数值，m、n分别表示语句S₁,S₂中的关键词的数量。

步骤S103：基于计算得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值。

在本发明一实施例中，采用如下的公式计算第一语句与第二语句之间的相似度数值：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂) (13)

上述的方案，在计算第一语句与原始语句集中的原始语句的相似性时，分别计算所述第一语句与所述第二语句之间的浅层语义分析数值和词语语义分析数值，并基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值，，既能够分析语句中关键词之间的顺序关联和语法成分，也增强了同义词的处理能力，因而可以提语句相似度计算的准确性，进而可以提高语句识别的准确性。

图2示出了本发明实施例中的一种句子相似度计算装置的结构。参见图2，一种句子相似度计算装置20，可以包括第一计算单元201和第二计算单元202，其中：

第一计算单元201，适于计算第一语句与第二语句之间的浅层语义分析数值和词语语义分析数值；

第二计算单元202，适于基于计算得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值。

在具体实施中，所述第一计算单元201，适于分别计算所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值；基于计算得到的所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到所述第一语句与所述第二语句之间的浅层语义分析数值。

在具体实施中，所述第一计算单元201，适于将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均，得到所述第一语句与所述第二语句之间的浅层语义分析数值。

在具体实施中，所述第一计算单元201，适于计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值；基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词对语句相似度数值；基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词语语义分析数值。

在本发明一实施例中，所述第一计算单元201，适于采用如下的公式计算所述第一语句与所述第二语句之间的同义词词林相似度数值：

且：

N＝5-H；

在本发明一实施例中，所述第一计算单元201，适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词对语句相似度数值：

在本发明一实施例中，所述第一计算单元201，适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词语语义分析数值：

且：

在本发明一实施例中，所述第二计算单元202，适于采用如下的公式计算得到所述第一语句与第二语句之间的相似度数值：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)；

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的句子相似度计算方法的步骤。其中，所述的句子相似度计算方法的步骤请参见前述部分的介绍，不再赘述。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的句子相似度计算方法的步骤。其中，所述的句子相似度计算方法的步骤请参见前述部分的介绍，不再赘述。

采用本发明实施例中上述方案，在计算第一语句与原始语句集中的原始语句的相似性时，分别计算所述第一语句与所述第二语句之间的浅层语义分析数值和词语语义分析数值，并基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值，既能够分析语句中关键词之间的顺序关联和语法成分，又可以增强同义词的处理能力，故可以提语句相似度计算的准确性，进而可以提高语句识别的准确性。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例的方法及系统做了详细的介绍，本发明并不限于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种句子相似度计算方法，其特征在于，包括：

2.根据权利要求1所述的句子相似度计算方法，其特征在于，所述计算第一语句与第二语句之间的浅层语义分析数值，包括：

3.根据权利要求2所述的句子相似度计算方法，其特征在于，所述基于计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到所述第一语句与所述第二语句之间的浅层语义分析数值，包括：

4.根据权利要求1-3任一项所述的句子相似度计算方法，其特征在于，所述计算所述第一语句与所述第二语句之间的词语语义分析数值，包括：

5.根据权利要求4所述的句子相似度计算方法，其特征在于，所述计算所述第一语句与所述第二语句之间的同义词词林相似度数值，包括：

且：

<mrow> <mi>H</mi> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>5</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>8</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>4</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>3</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>2</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&NotEqual;</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>

N＝5-H；

6.根据权利要求5所述的句子相似度计算方法，其特征在于，所述基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词对语句相似度数值，包括：

7.根据权利要求6所述的语句相似度计算方法，其特征在于，所述基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词语语义分析数值，包括：

且：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <msub> <mo>&Sigma;</mo> <mi>i</mi> </msub> <mi>max</mi> <mo>_</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msub> <mo>&Sigma;</mo> <mi>j</mi> </msub> <mi>max</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

8.根据权利要求1所述的句子相似度计算方法，其特征在于，所述基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述第一语句与第二语句之间的相似度数值，包括：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)；

9.一种句子相似度计算装置，其特征在于，包括：

10.根据权利要求9所述的句子相似度计算装置，其特征在于，所述第一计算单元，适于分别计算所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值；基于计算得到的所述第一语句与所述第二语句所述之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到所述第一语句与所述第二语句之间的浅层语义分析数值。

11.根据权利要求10所述的句子相似度计算装置，其特征在于，所述第一计算单元，适于将计算得到的所述第一语句与所述第二语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均，得到所述第一语句与所述第二语句之间的浅层语义分析数值。

12.根据权利要求9-11任一项所述的句子相似度计算装置，其特征在于，所述第一计算单元，适于计算所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值；基于计算得到的所述第一语句与所述第二语句之间的同义词词林相似度数值和词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词对语句相似度数值；基于计算得到的所述第一语句与所述第二语句之间的词对语句相似度数值，计算得到所述第一语句与所述第二语句之间的词语语义分析数值。

13.根据权利要求12所述的句子相似度计算装置，其特征在于，所述第一计算单元，适于采用如下的公式计算所述第一语句与所述第二语句之间的同义词词林相似度数值：

且：

N＝5-H；

14.根据权利要求13所述的句子相似度计算装置，其特征在于，所述第一计算单元，适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词对语句相似度数值：

15.根据权利要求14所述的语句相似度计算装置，其特征在于，所述第一计算单元，适于采用如下的公式计算得到所述第一语句与所述第二语句之间的词语语义分析数值：

且：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <mi>max</mi> <mo>_</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

16.根据权利要求9所述的句子相似度计算装置，其特征在于，所述第二计算单元，适于采用如下的公式计算得到所述第一语句与第二语句之间的相似度数值：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)；

17.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至8任一项所述的句子相似度计算方法的步骤。

18.一种终端，其特征在于，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行权利要求1至8任一项所述的句子相似度计算方法的步骤。