CN108108449A

CN108108449A - 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法

Info

Publication number: CN108108449A
Application number: CN201711448417.4A
Authority: CN
Inventors: 赵铁军; 关毅; 李岳; 朱聪慧
Original assignee: Harbin Fuman Science And Technology Co Ltd
Current assignee: Harbin Fuman Science And Technology Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-06-01

Abstract

一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法，属于医疗健康领域，本发明为解决现有医疗健康问答系统中数据来源单一、算法单一、考虑的语义信息少的问题。本发明所述一种面向医疗领域的基于多源异构数据问答系统，包括客户端和服务器，客户端向服务器发起获取答案的请求，服务器从结构化数据库、医疗健康问答对数据和开放知识图谱中获取答案，并将答案进行处理和合成后返回至客户端。本发明用于医疗健康领域的数据问答系统。

Description

一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法

技术领域

本发明涉及一种基于多源异构数据问答系统及该系统的实现方法，属于医疗健康领域。

背景技术

随着互联网的发展，互联网累积了海量的医疗健康信息资源，并且多以文本问答对、文本数据等方式呈现。然而传统的搜索引擎网页搜索结果较多，而且可能有许多重复和无关的内容。尤其对于医疗健康的相关问题，用户使用搜索引擎难以区分可靠和不可靠的答案。因此，医疗健康领域急需一个专业可靠的知识获取系统，以尽可能充分利用网络健康信息资源。

问答系统作为自然语言处理的重要分支，对提高人们获取知识的效率、改善人机交互体验具有重大作用。相对于传统的信息检索系统，自动问答系统返回用户的不再是基于关键词匹配排序的文档列表，而是精准的自然语言答案。近年来，随着人工智能的飞速发展，自动问答已经成为倍受关注且发展前景广泛的研究方向。与此同时，海量的在线健康问答数据和自然语言处理技术的发展，这些都给医疗健康自动问答系统提供了有利的环境。

从用户的角度，医疗健康自动问答系统可以缓解医患之间信息不对称的矛盾，极大地降低用户的使用门槛，方便大家的生活。用户可以随时使用医疗健康自动问答系统，方便快捷地咨询医疗健康相关问题，如疾病的症状、并发症、治疗方法等，随时解决日常中基本的健康问题。从研究的角度，自动问答作为自然语言处理领域的热门研究方向，在国外医学领域的应用已有了初步发展，但在国内尚未引起充分重视。同时，网络健康信息资源往往以文本问答对、文本数据等多种方式呈现。

近年来，随着深度学习算法的不断发展，越来越多的深度学习算法应用于自然语言处理，例如使用词向量对词进行表示、基于双向LSTM(Long Short-Term Memory，长短期记忆网络)结合CRF算法(Conditional Random Field Algorithm，条件随机场算法)的命名实体识别、端到端的语言生成模型等。

词向量是近年来常用来替代传统词袋的词表示方法，解决了词袋表示带来的维数灾难问题。研究人员还发现，通过训练语言模型得到的词向量蕴含了词汇的语义信息，还可以通过一些算法能够在一定程度上得到词汇的相似度等数据，可以用于计算问句的相似度。

命名实体识别作为信息抽取的基本任务之一，在问答系统、句法分析、机器翻译等领域中都有重要应用。命名实体识别任务使用的模型主要有以CRF为代表的传统模型和深度神经网络模型两类，而在医疗领域一般还在使用传统的CRF模型。研究表明，使用双向LSTM结合CRF的方法能够有效提高命名实体识别的精度。

序列到序列的语言生成模型可以有效用于基于问答对的问答系统。序列到序列的记忆神经网络模型并应用于自动问答的优点是把传统的问句解析、文本检索、答案抽取与生成等复杂步骤转变成了一个可学习的过程。

现有的面向医疗健康领域的自动问答系统多是基于文档检索的方法，这些方法很难考虑语义的信息；虽然也存在一些基于知识库的问答系统，但是面向医疗健康领域的较少，而中文领域的医疗健康问答系统更是非常少见，并且这些系统的数据源往往是单一的。

发明内容

本发明是为了解决现有医疗健康问答系统中数据来源单一、算法单一、考虑的语义信息少的问题，提出的一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法。

本发明所述一种面向医疗领域的基于多源异构数据问答系统，该问答系统包括客户端和服务器，客户端向服务器发起获取答案的请求，服务器从结构化数据库、医疗健康问答对数据和开放知识图谱中获取答案，并将答案进行处理和合成后返回至客户端。

本发明所述一种面向医疗领域的基于多源异构数据问答系统的实现方法，该问答系统的实现方法的具体过程为：

步骤1、收集中文语料库；

收集医疗健康问答对数据；

收集具有结构化特征的医疗健康文本数据，并将医疗健康文本数据转化成结构化数据库；

步骤2、将步骤1收集的中文语料库中的语料数据进行词向量训练，并保存模型，作为深度学习模型的预训练词向量；

步骤3、利用步骤2的预训练词向量对步骤1收集的医疗健康问答对数据进行带注意力机制的序列到序列网络的训练，训练生成的模型用于获得医疗健康问答对中的答案；

步骤4、利用步骤1生成的结构化数据库获取结构化数据库中对应的答案：

获取结构化数据库中对应答案的具体过程为：

步骤4-1、通过步骤1生成的结构化数据库构建病名词典、症状词典和用户意图特征词典；

步骤4-2、基于病名词典、症状词典和用户意图特征词典对用户问句进行槽填充，槽填充后的用户问句为已标记的词典用户问句；

步骤4-3、将已标记的词典用户问句转换生成SQL查询语句；

步骤4-4、使用生成的SQL查询语句从结构化数据库中查询答案；从结构化数据库中获取的答案如果过长，对答案进行自动摘要；

步骤5、收集步骤4中的已标记用户问句作为训练数据；基于带条件随机场算法解码的双向长短期记忆单元网络模型，对已标记的用户问句进行训练；使用训练好的带条件随机场算法解码的双向长短期记忆单元网络模型，对用户问句再次进行槽填充，获得已标记的双向长短期记忆单元网络模型用户问句；

将已标记的双向长短期记忆单元网络模型用户问句转换成开放知识图谱查询API；

发起API请求获取相应开放知识图谱答案；

将从开放知识图谱中获取的答案根据已标记的双向长短期记忆单元网络模型用户问句和相应模版转换成自然语言形式的答案；

步骤6、对步骤3中获取的医疗健康问答对中的答案、步骤4中获取的结构化数据库中的答案和步骤5中获取的开放知识图谱中的答案进行合并；

对所有的答案进行合并的具体过程为：将所有的答案按照句子级别划分，从语法和语义两个层面计算句子之间的相似度，当有相似的句子时，随机除去一个，最后将所有的答案合并为一个答案；

步骤7、根据用户问句，采用步骤6的计算句子之间相似度的方法，从历史问答对中查找与当前用户问句相似的问句，进行相似问句的推荐。

本发明所述一种面向医疗领域的基于多源异构数据问答系统的实现方法的有益效果为：

本发明涉及序列到序列的语言生成模型，所属自然语言生成领域，相关研究和应用对序列到序列模型有促进作用。本发明通过使用深度学习方法，进一步挖掘语料所蕴含的信息；同时引入大规模语料信息来防止模型在测试中，由于出现了过多没有经过训练的开放领域常规词而降低效果的问题。

本发明能够缓解医疗领域的实体识别又缺乏标注语料的问题，研究在医疗领域如何利用基于结构化数据库和规则的方法获取答案的同时，对用户问句进行自动标注，从而自动生成医疗领域的问句标注语料。

本发明能够缓解医疗健康领域的问答系统数据来源单一，算法精度不足的问题，研究在医疗领域如何利用互联网上不同形式的数据，采用最新的算法，提高问答系统答案的准确性和丰富性。

本发明的基于多源异构数据的医疗健康自动问答系统不仅可以有效利用网络健康信息资源，还对推动中文领域医学自动问答研究和应用的发展有重大意义。

附图说明

图1为本发明所述的一种面向医疗领域的基于多源异构数据问答系统的拓扑架构图；

图2为本发明所述的一种面向医疗领域的基于多源异构数据问答系统的流程示意图。

具体实施方式

具体实施方式一、结合图1说明本实施方式，本实施方式所述一种面向医疗领域的基于多源异构数据问答系统，该问答系统包括客户端和服务器，客户端向服务器发起获取答案的请求，服务器从结构化数据库、医疗健康问答对数据和开放知识图谱中获取答案，并将答案进行处理和合成后返回至客户端。

本实施方式中，客户端包括Web端和移动端。

具体实施方式二、结合图2说明本实施方式，本实施方式所述一种面向医疗领域的基于多源异构数据问答系统的实现方法，该问答系统的实现方法的具体过程为：

步骤1、收集中文语料库；

收集医疗健康问答对数据；

获取结构化数据库中对应答案的具体过程为：

步骤4-3、将已标记的词典用户问句转换生成SQL查询语句；

发起API请求获取相应开放知识图谱答案；

本实施方式中，步骤3中所述注意力为Attention，序列到序列为Sequence toSequence，Seq2Seq。

本实施方式中，SQL，Structured Query Language，结构化查询语言。API，Application Programming Interface，应用程序编程接口。

本实施方式中，带条件随机场算法解码的双向长短期记忆单元网络模型，双向长短期记忆单元网络为Bi-LSTM-CRF。

具体实施方式三、本实施方式是对具体实施方式二作进一步说明，步骤3所述对数据进行带注意力机制的序列到序列网络的训练的具体过程为：

步骤3-1、采用步骤2的预训练词向量对医疗健康问答对数据中的所有词进行初始化；

步骤3-2、采用记忆网络模型对用户问句进行编码，获得编码后的输出值和隐状态；

步骤3-3、采用记忆网络模型，结合注意力机制，对编码后的输出值、隐状态和用户问句的输入值进行解码，获得预测后的答案；

步骤3-4、根据解码后的答案和真实答案计算损失函数；

步骤3-5、判断损失参数是否收敛，如果否，则执行步骤3-6，如果是，则执行步骤3-7；

步骤3-6、根据损失函数进行反向传播，更新参数，然后返回执行步骤3-2；

步骤3-7、带注意力机制的序列到序列网络的训练完成。

本实施方式中，记忆网络模型为GRU模型。

具体实施方式四、本实施方式是对具体实施方式二作进一步说明，步骤4-4所述对从结构化数据库中获取的答案进行自动摘要的具体过程为：

步骤4-4-1、将过长答案的每个段落作为一篇文档，采用词频-逆文档频率方法计算每篇文档中每个词的权重，当一个词出现在用户问句中时，该词的权重为词频-逆文档频率方法计算获得的权重加一；

步骤4-4-2、根据步骤4-4-1获得的每个词的权重，计算每个段落的平均权重，将段落的平均权重作为该段落的重要度；

步骤4-4-3、将所有段落按照步骤4-4-2获得的段落重要度降序排列，当段落重要度相同时，将靠前的段落排在前面，最终选取前三个排名的段落；

步骤4-4-4、将前三个排名的段落按照句子级别进行划分，根据步骤4-4-1获得的每个词的权重，计算划分后每个句子的词的平均权重，将词的平均权重作为句子的重要度；

步骤4-4-5、将步骤4-4-4划分的所有句子按照句子重要度降序排列，当句子重要度相同时，将靠前的句子排在前面，最终选取前五个排名的句子作为摘要出的答案。

本实施方式中，词频-逆文档频率方法为TF-IDF方法。

具体实施方式五、本实施方式是对具体实施方式二作进一步说明，步骤5所述基于带条件随机场算法解码的双向长短期记忆单元网络模型，对已标记的用户问句进行训练的具体过程为：

步骤5-1、采用步骤2的预训练词向量对已标记的用户问句中的所有词进行初始化；

步骤5-2、从输入层向输出层正向传播，从左向右计算长短期记忆单元网络的状态值；

步骤5-3、从输入层向输出层正向传播，从右向左计算长短期记忆单元网络的状态值；

步骤5-4、将步骤5-2的正向长短期记忆单元网络的状态值和步骤5-3的反向长短期记忆单元网络的状态值输入条件随机场层进行解码；

步骤5-5、根据条件随机场解码后的命名实体识别答案和已标记答案计算损失函数；

步骤5-6、判断损失函数是否收敛，如果否，则执行步骤5-7，如果是，则执行步骤5-8；

步骤5-7、根据损失函数对双向长短期记忆单元网络进行反向传播，更新参数，然后返回执行步骤5-2；

步骤5-8、基于带条件随机场算法解码的双向长短期记忆单元网络模型训练完成。

具体实施方式六、本实施方式是对具体实施方式二作进一步说明，步骤6所述从语法和语义两个层面计算句子之间的相似度的具体过程为：

步骤6-1、两个句子分别表示为S₁和S₂，wordSim(S₁,S₂)表示句子S₁和句子S₂的词形相似度，则词形相似度为：

其中，same(S₁,S₂)表示句子S₁和句子S₂中共同词的个数，当一个词在句子S₁和句子S₂中出现的次数不同时，按照出现次数少的计数，len(S₁)表示句子S₁中词的个数，len(S₂)表示句子S₂中词的个数；

步骤6-2、orderSim(S₁,S₂)表示句子S₁和句子S₂的词序相似度，则词序相似度为：

其中，orderOcc(S₁,S₂)表示在句子S₁和句子S₂中都出现且只出现一次的词，orderOcc(S₁,S₂)中的词在句子S₁中位置序号构成的向量表示为PFirst(S₁,S₂)，PFirst(S₁,S₂)中的分量按对应词在句子S₂中的词序排序生成的向量表示为PSecond(S₁,S₂)，PSecond(S₁,S₂)各相邻分量的逆序数表示为reWord(S₁,S₂)；

步骤6-3、lenSim(S₁,S₂)表示句子S₁和句子S₂的句长相似度，则句长相似度为：

其中，abs表示绝对值；

步骤6-4、根据步骤6-1获得的词形相似度wordSim(S₁,S₂)、步骤6-2获得的词序相似度reWord(S₁,S₂)和步骤6-3获得的句长相似度lenSim(S₁,S₂)进行加权，获得句子S₁和句子S₂的语法相似度syntaxSim(S₁,S₂)，语法相似度为：

syntaxSim(S₁,S₂)＝α×wordSim(S₁,S₂)+β×orderSim(S₁,S₂)+γ×lenSim(S₁,S₂)，其中，α、β、γ为常数，α＞＞β,α＞＞γ，且满足α+β+γ＝1，使得syntaxSim(S₁,S₂)∈[0,1]，

步骤6-5、句子S₁包含的词表示为w₁₁,w₁₂,…,w_1n，句子S₂包含的词表示为w₂₁,w₂₂,…,w_2m，则词w_1i(1≤i≤)n和w_2j(1≤j≤m)之间的相似度表示为sim(w_1i,w_2j)，句子S₁和句子S₂之间的语义相似度为：

步骤6-6、根据语法相似度和语义相似度计算句子S₁和句子S₂之间的相似度结果为：

sim(S₁,S₂)＝φ×syntaxSim(S₁,S₂)+ψ×semanticSim(S₁,S₂)；

其中，φ和ψ为常数，φ＞ψ，且满足φ+ψ＝1。

本实施方式中，词形相似度wordSim(S₁,S₂)反映两个句子S₁和S₂中的词在形态上的相似程度；词序相似度reWord(S₁,S₂)反映两个句子S₁和S₂中词在位置关系上的相似度；句长相似度lenSim(S₁,S₂)反映两个句子S₁和S₂在长度形态上的相似程度。

具体实施方式七、结合图2说明本实施方式，本实施方式所述一种面向医疗领域的基于多源异构数据问答系统的使用方法，该使用方法的具体过程为：

步骤7-1、客户端接收用户输入的用户问句，然后将用户问句输出至服务器；

步骤7-2、服务器接收用户问句，对用户问句进行预处理，预处理包括分词、停用词过滤和同义词扩展；

步骤7-3、服务器根据预处理后的用户问句获取结构化数据库中的答案；

具体过程为：

步骤7-3-1、通过生成的结构化数据库构建病名词典、症状词典和用户意图特征词典；

步骤7-3-2、基于病名词典、症状词典和用户意图特征词典对用户问句进行槽填充，槽填充后的用户问句为已标记的词典用户问句；

步骤7-3-3、将已标记的词典用户问句转换生成SQL查询语句，使用生成的SQL查询语句从结构化数据库中查询答案；

步骤7-3-4、判断答案是否过长。如果是，将过长答案的每个段落作为一篇文档，采用词频-逆文档频率方法计算每篇文档中每个词的权重，当一个词出现在用户问句中时，该词的权重为词频-逆文档频率方法计算获得的权重加一；

步骤7-3-5、根据每个词的权重，计算每个段落的平均权重，将段落的平均权重作为该段落的重要度；将所有段落按照段落重要度降序排列，当段落重要度相同时，将靠前的段落排在前面，最终选取前三个排名的段落；

步骤7-3-6、将前三个排名的段落按照句子级别进行划分，根据每个词的权重，计算划分后每个句子的词的平均权重，将词的平均权重作为句子的重要度；将划分的所有句子按照句子重要度降序排列，当句子重要度相同时，将靠前的句子排在前面，最终选取前五个排名的句子作为摘要出的答案。

步骤7-4、步骤7-3的同时，服务器根据预处理后的用户问句获取医疗健康问答对中的答案；具体过程为：

步骤7-4-1、根据已经训练好的序列到序列模型，对问句进行词向量表示；

步骤7-4-2、将词向量表示后的问句输入的序列到序列模型中的编码器，对问句进行编码；

步骤7-4-3、将编码后的输出值、状态值以及问句的词向量表示输入到序列到序列模型中的解码器，解码生成的答案作为问答对中的最终答案。

步骤7-5、步骤7-3的同时，服务器根据预处理后的用户问句获取开放知识图谱中的答案；具体过程为：

步骤7-5-1、使用训练好的Bi-LSTM-CRF模型，对用户问句进行词向量表示；

步骤7-5-2、将词向量表示后的问句输入Bi-LSTM-CRF模型，从输入层向输出层正向传播，从左往右计算LSTM的状态值；从输入层向输出层正向传播，从右往左计算LSTM的状态值；

步骤7-5-3、将计算得到的正反两个方向的LSTM状态值输入的CRF层进行解码；

步骤7-5-4、根据CRF解码后的命名实体识别答案，对用户输入的问句进行标记(槽填充)；

步骤7-5-5、将标记后的用户问句转换生成开放知识图谱查询API；发起API请求获取相应开放知识图谱答案；

步骤7-5-6、将从开放知识图谱中的答案根据标记好的问句和相应模板转成自然语言形式的答案，作为开放知识图谱中的最终答案；

步骤7-6、将基于结构化数据库获取的最终答案、基于问答对获取的最终答案以及基于开放知识图谱获取的最终答案进行答案合成；具体过程为：

步骤7-6-1、将所有获取的答案以句子级别划分，

步骤7-6-2、从语法和语义两个层面计算两个句子之间的相似度：

两个句子分别表示为S₁和S₂，wordSim(S₁,S₂)表示句子S₁和句子S₂的词形相似度，则词形相似度为：

orderSim(S₁,S₂)表示句子S₁和句子S₂的词序相似度，则词序相似度为：

lenSim(S₁,S₂)表示句子S₁和句子S₂的句长相似度，则句长相似度为：

其中，abs表示绝对值；

根据步骤词形相似度wordSim(S₁,S₂)、词序相似度reWord(S₁,S₂)和句长相似度lenSim(S₁,S₂)进行加权，获得句子S₁和句子S₂的语法相似度syntaxSim(S₁,S₂)，语法相似度为：

syntaxSim(S₁,S₂)＝α×wordSim(S₁,S₂)+β×orderSim(S₁,S₂)+γ×lenSim(S₁,S₂)，其中，α、β、γ为常数，α＞＞β,α＞＞γ，且满足α+β+γ＝1，使得syntaxSim(S₁,S₂)∈[0,1]；

实验证明，α＝0.8，β＝0.1，γ＝0.1是比较好的常数选择；

句子S₁包含的词表示为w₁₁,w₁₂,…,w_1n，句子S₂包含的词表示为w₂₁,w₂₂,…,w_2m，则词w_1i(1≤i≤n)和w_2j(1≤j≤m)之间的相似度表示为sim(w_i,w_2j)，句子S₁和句子S₂之间的语义相似度为：

根据语法相似度和语义相似度计算句子S₁和句子S₂之间的相似度结果为：

sim(S₁,S₂)＝φ×syntaxSim(S₁,S₂)+ψ×semanticSim(S₁,S₂)；

其中，φ和ψ为常数，φ＞ψ，且满足φ+ψ＝1；

实验证明，φ＝0.65，ψ＝0.35是比较好的常数选择；

步骤7-6-3、若发现有两个句子大于阈值δ，则随机除去一个，实验表明，δ＝0.85是一个较好的设置；最终将来自多源异构数据的答案合并为一个答案。

本发明将记录用户历史问句和对应的答案，并保存到历史问句数据库中，然后，根据用户的问句，通过句子相似度的计算，从系统历史问答对中查找与当前用户问句相似的问句，进行相似问句的推荐。

本发明提供一个用户反馈入口，让用户可以反馈答案的质量。根据用户的反馈可以判定历史问答对的质量，挑选质量高的融入训练Seq2Seq模型的问答对中，对Seq2Seq进行增量训练，从而优化系统。图2展示了本发明的处理流程。

系统提供用户界面，供用户选择数据来源、输入查询问句、查看答案、查看推荐问句以及反馈答案质量等。

Claims

1.一种面向医疗领域的基于多源异构数据问答系统，其特征在于，该问答系统包括客户端和服务器，客户端向服务器发起获取答案的请求，服务器从结构化数据库、医疗健康问答对数据和开放知识图谱中获取答案，并将答案进行处理和合成后返回至客户端。

2.基于权利要求1所述一种面向医疗领域的基于多源异构数据问答系统的实现方法，其特征在于，该问答系统的实现方法的具体过程为：

步骤1、收集中文语料库；

收集医疗健康问答对数据；

获取结构化数据库中对应答案的具体过程为：

步骤4-3、将已标记的词典用户问句转换生成SQL查询语句；

发起API请求获取相应开放知识图谱答案；

3.根据权利要求2所述的一种面向医疗领域的基于多源异构数据问答系统的实现方法，其特征在于，步骤3所述对数据进行带注意力机制的序列到序列网络的训练的具体过程为：

步骤3-4、根据解码后的答案和真实答案计算损失函数；

步骤3-7、带注意力机制的序列到序列网络的训练完成。

4.根据权利要求2所述的一种面向医疗领域的基于多源异构数据问答系统的实现方法，其特征在于，步骤4-4所述对从结构化数据库中获取的答案进行自动摘要的具体过程为：

5.根据权利要求2所述的一种面向医疗领域的基于多源异构数据问答系统的实现方法，其特征在于，步骤5所述基于带条件随机场算法解码的双向长短期记忆单元网络模型，对已标记的用户问句进行训练的具体过程为：

6.根据权利要求2所述的一种面向医疗领域的基于多源异构数据问答系统的实现方法，其特征在于，步骤6所述从语法和语义两个层面计算句子之间的相似度的具体过程为：

<mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>2</mn> <mo>&times;</mo> <mfrac> <mrow> <mi>s</mi> <mi>a</mi> <mi>m</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

其中，abs表示绝对值；

步骤6-5、句子S₁包含的词表示为w₁₁,w₁₂,…,w_1n，句子S₂包含的词表示为w₂₁,w₂₂,…,w_2m，则词w_1i(1≤i≤n)和w_2j(1≤j≤m)之间的相似度表示为sim(w_1i,w_2j)，句子S₁和句子S₂之间的语义相似度为：

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mi>e</mi> <mi>m</mi> <mi>a</mi> <mi>n</mi> <mi>t</mi> <mi>i</mi> <mi>c</mi> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>max</mi> <mo>{</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>w</mi> <mrow> <mn>2</mn> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mn>1</mn> <mo>&le;</mo> <mi>j</mi> <mo>&le;</mo> <mi>m</mi> <mo>}</mo> <mo>+</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>max</mi> <mo>{</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>w</mi> <mrow> <mn>2</mn> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>n</mi> <mo>}</mo> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> <mo>;</mo> </mrow>

sim(S₁,S₂)＝φ×syntaxSim(S₁,S₂)+ψ×semanticSim(S₁,S₂)；

其中，φ和ψ为常数，φ＞ψ，且满足φ+ψ＝1。