CN109145085A

CN109145085A - 语义相似度的计算方法及系统

Info

Publication number: CN109145085A
Application number: CN201810790941.8A
Authority: CN
Inventors: 罗长寿; 余军; 魏清凤; 郑亚明; 王富荣; 于维水; 曹承忠; 陆阳; 郭强; 王静宇
Original assignee: Beijing Academy of Agriculture and Forestry Sciences
Current assignee: Beijing Academy of Agriculture and Forestry Sciences
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2019-01-04
Anticipated expiration: 2038-07-18
Also published as: CN109145085B

Abstract

本发明提供一种语义相似度的计算方法及系统，其中方法包括：获取第一文本和第二文本；对所述第一文本和第二文本进行分词处理；确定用于进行语义相似度判断的语境，根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文本集；对所述样本文本集中的各样本文本进行分词处理，根据所述样本文本集的分词结果建立所述样本文本集的语境图；根据所述第一文本的分词结果、第二文本的分词结果以及所述语境图，计算所述第一文本和第二文本的语义相似度。本发明实施例能够提升文本间的差异精度，使得语义相似度计算的准确性更高。

Description

语义相似度的计算方法及系统

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及语义相似度的计算方法及系统。

背景技术

在问答系统中，通用聊天答案推送随机性强。但在专业应用领域，回复内容需要精准。利用计算机识别“用户提问”与句库中已存在句子进行语义比较的研究称为句子相似度研究。其作为自然语言处理中一个关键性问题，一直是研究的热点和难点。句子相似度研究除了挖掘句子本身词间关系及重叠度计算句子相似度外(如依赖于WordNet 架构和依赖于知网架构与语料库)，基于神经网络的特征提取也开始得到发展。

基于词语语义相似度的计算方法专家学者已进行了广泛的研究。例如：基于词语共现的统计方法。该方法主要通过句中词频进行统计，如TF-IDF算法、JaccardSimilarity Coefficient方法及Metzler基于 overlap的改进方法等。这些方法实现简单、高效，但完全忽略了句子的词法及语义信息。另一种是基于词法和语义信息的方法。该方法考虑了语义信息相关要素，但构建相对复杂，如基于本体的语义相似度计算等。第三种，基于神经网络语料训练特征提取法，近年来也得到了大力发展，如基于Word2vec的句子语义相似度计算研究等，其依赖于语料的质量与数量，注重特征提取，忽略了句义的理解，不能实现真正对语义的挖掘。第四种则是采用综合性融合手段的方法，如基于多特征融合的句子语义相似度计算等。随着研究的深入，结合应用体验发现，在实际应用中各种方法如果脱离了应用场景，其算法要么实现复杂、要么效率低，不确定因素干扰多，有一定的操作局限性。因此，现有技术提供了“一种基于语境的词语相似度计算方法”。该方法，在相似度计算方法的基础上，通过引入词语的上下文，采用模糊数学的概念来评估词义相似度计算方法。该方法借鉴隶属度的相关定，构造词语在上下文语境中的模糊重要度，提升了词的句义相似程度，但在句子整体句义相似度上有不足。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的语义相似度的计算方法及系统。

根据本发明的第一个方面，提供一种一种语义相似度的计算方法，包括：

获取第一文本和第二文本；

对所述第一文本和第二文本进行分词处理；

确定用于进行语义相似度判断的语境，根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文本集；

对所述各样本文本进行分词处理，根据所述样本文本集的分词结果建立所述样本文本集的语境图；

根据所述第一文本的分词结果、第二文本的分词结果以及所述语境图，计算所述第一文本和第二文本的语义相似度；

其中，所述确定用于进行语义相似度判断的语境具体为：根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境，或者由所述第一文本的语境和第二文本的语境结合而成；所述语境图为表示样本文本集中各分词间组合关系的无向图。

根据本发明的第二个方面，提供一种语义相似度的计算系统，包括：

文本获取模块，用于获取第一文本和第二文本；

分词处理模块，用于对所述第一文本和第二文本进行分词处理；

样本文本集获取模块，用于确定用于进行语义相似度判断的语境，根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文本集，所述用于进行语义相似度判断的语境具体为：根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境，或者由所述第一文本的语境和第二文本的语境结合而成；

语境图获取模块，用于对所述各样本文本进行分词处理，根据所述样本文本集的分词结果建立所述样本文本集的语境图，所述语境图为表示样本文本集中各分词间组合关系的无向图；

语义相似度计算模块，用于根据所述第一文本的分词结果、第二文本的分词结果以及所述语境图，计算所述第一文本和第二文本的语义相似度。

根据本发明的第三个方面，还提供一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语义相似度的计算方法。

根据本发明的第四个方面，还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语义相似度的计算方法。

本发明提出的语义相似度的计算方法及系统，通过对获取的两个文本进行分词，根据两个文本的分词结果获取样本文本集，以将两个文本的语义相似度计算映射到与该两个文本相关的语境中进行分析，以提升文本间的差异精度，使得语义相似度计算的准确性更高。需要注意的是，本发明实施例的语境是基于一定数量的与第一文本和第二文本相关的样本文本构建的，与现有的基于待比较语义相似度的一个或两个文本中词语的上下文构建的语境完全不同，本发明实施例的语境考虑到了大数据结构，是宏观上的语境。

附图说明

图1为根据本发明实施例的语义相似度的计算方法的流程示意图；

图2为根据本发明实施例的语境图；

图3为根据本发明实施例的根据第一文本的分词结果、第二文本的分词结果以及语境图，计算第一文本和第二文本的语义相似度的流程示意图；

图4为根据本发明实施例的根据语境图获得第一文本的任意一个分词和第二文本的任意一个分词的相似度，以计算第一文本和第二文本的偏移量相似度的流程示意图；

图5为根据本发明实施例的语义相似度的计算系统的功能框图；

图6为根据本发明实施例的电子设备的框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

现有技术中关于词语语义相似度的计算方法有以下几种：第一种：基于词语共现的统计方法。该方法主要通过句中词频进行统计，如 TF-IDF算法、Jaccard SimilarityCoefficient方法及Metzler基于overlap 的改进方法等。这些方法实现简单、高效，但完全忽略了句子的词法及语义信息。第二种是基于词法和语义信息的方法。该方法考虑了语义信息相关要素，但构建相对复杂，如基于本体的语义相似度计算等。第三种是基于神经网络语料训练特征提取法，近年来也得到了大力发展，如基于Word2vec的句子语义相似度计算研究等，其依赖于语料的质量与数量，注重特征提取，忽略了句义的理解，不能实现真正对语义的挖掘。第四种则是采用综合性融合手段的方法，如基于多特征融合的句子语义相似度计算等。随着研究的深入，结合应用体验发现，在实际应用中各种方法如果脱离了应用场景，其算法要么实现复杂、要么效率低，不确定因素干扰多，有一定的操作局限性。因此，现有技术提供了“一种基于语境的词语相似度计算方法”。该方法，在相似度计算方法的基础上，通过引入词语的上下文，采用模糊数学的概念来评估词义相以度计算方法。该方法借鉴隶属度的相关定，构造词语在上下文语境中的模糊重要度，提升了词的句义相似程度，但在句子整体句义相似度上有不足。

为了克服现有技术的上述问题，本发明实施例提供一种语义相似度的计算方法，其发明构思是，分别对获取的两个文本进行分词，根据两个文本的分词结果获取样本文本集，以将两个文本的语义相似度计算映射到与一个或两个文本相关的语境中进行分析，以提升文本间的差异精度，使得语义相似度计算的准确性更高。需要注意的是，本发明实施例的语境图是基于一定数量的与第一文本和/或第二文本相关的样本文本构建的，体现了大数据的特性，与现有的基于待比较语义相似度的一个或两个文本中词语的上下文构建的语境完全不同，本发明实施例的语境是宏观上的语境。

图1示出了本发明实施例的语义相似度的计算方法的流程示意图，如图所示，包括：

S101、获取第一文本和第二文本；

在本发明实施例中，获取第一文本和第二文本的过程可以为：

接收文本数据，并从文本数据中选取第一文本和第二文本。

接收语音数据，对语音数据进行语音识别得到经过语音识别的文本数据，并从经过语音识别的文本数据选取第一文本和第二文本。

接收文本数据和语言数据，从文本数据和经过语音识别的文本数据中分别选取第一文本和第二文本。

应当理解的是，上述获取第一文本和第二文本过程仅为几种可能的实现方式，而不应对本发明实施例构成任何限定。

S102、对第一文本和第二文本进行分词处理。

为了更方便的描述本发明实施例的基本原理，分别用p1和p2表示第一文本和第二文本，根据已有的分词技术，将p1和p₂分别分词为S₁、 S₂、…S_m和W₁、W₂、…W_n，其中m是从p₁分词得到的分词个数，n 是从p₂分词得到的分词个数，这样便得到了第一文本的分词和第二文本的分词，显然也得到了第一文本和第二文本各自的分词个数。

S103、确定用于进行语义相似度判断的语境，根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文本集，用于进行语义相似度判断的语境具体为：根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境，或者由所述第一文本的语境和第二文本的语境结合而成。

需要说明的是，本发明实施例获取样本文本集可以根据第一文本和/或第二文本中体现的语境来选取，即可以单独以第一文本的语境作为相似度判断的语境并构建样本文本集，也可以单独以第二文本的语境作为相似度判断的语境并构建样本文本集，还可以将第一文本的语句与第二文本的语境进行结合，形成一个统一的语境作为相似度判断的语境并构建样本文本集。例如根据第一文本和第二文本中涉及的技术领域/环境/语气的分词来选取，例如，第一文本为：番茄在温室进行育苗的方法，第二文本为：番茄进行育苗的方法，经过分词，第一文本的分词结果为：番茄、温室、育苗、方法；第二文本的分词结果为：番茄、育苗、方法，通过分析分词结果，可知第一文本和第二文本的语境均为农业养殖，特别是番茄养殖领域，因此，可以选取带有番茄、育苗、育种等词汇的样本文本组合成样本文本集，需要说明的是，样本文本的获取可以通过网络爬虫处理方法，从互联网中收集，也可以通过预建一个包含一定数量的样本文本的数据库，从数据库中进行收集。还比如，第一文本为：你今天的早餐吃番茄了吗？第二文本为：我早上买的番茄好吃吗？通过分析可知第一文本和第二文本属于日常对话的语境，因此可以选取与饮食相关的文本组合成样本文本集。

应当理解的是，上述获取样本文本集的过程仅为可能的实现方式，而不应对本申请构成任何限定。

S104、对样本文本集中的各样本文本进行分词处理，根据样本文本集的分词结果建立样本文本集的语境图。语境图为表示样本文本集中各分词间组合关系的无向图。

需要说明的是，本发明实施例的语境图是一个网图，网图中的顶点为分词，连接词与词的边或弧表示两个词之间存在组合关系(也可以是权重关系，本发明实施例对此不作限定)。本发明实施例中语境图为无向图，设语境关系无向图G有n个顶点(即n个不同的词)，则邻接矩阵是一个n*n的方阵，定义为：

上式中，g[i][j]表示分词i和分词j构成的词对在邻接矩阵中的值， E表示两个词存在组合关系。

例如，样本文本集中具有两个样本文本：样本文本1：番茄在温室进行育苗的方法；样本文本2：番茄进行育苗的方法。通过分词、去停用词和特征词提取后，将提出四个词：番茄、温室、育苗、方法在这里为了表述方便，分别设为：V1(番茄)，V2(温室)，V3(育苗)， V4(方法)；存在边关系(V1V2)，(V1V3)，(V2V3)，(V3V4)则生成的语境图(本发明实施例不考虑位置方向性，所以为无向图)如图2 所示，对应的邻接矩阵如下：

语境图转化为邻接矩阵后，可获得任意顶点(词)的度(即相当于与其相关词的个数)，其实就是这个顶点V_i在邻接矩阵中第i行的元素之和。例：V₁度为2，V₂度为2，V₃度为3，V₄度为1；求顶点V_i的所有邻接点就是将邻接矩阵中第i行元素扫描一遍，元素为1就是邻接点，所有邻接点组成的词集则为该词的语境词集：V₁词的语境词集包括V₂和V₃；V₂词的语境词集包括V₁和V₃,V₃词的语境词集包括V₁、 V₂和V₄，V₄词的语境词集包括V₃。

S105、根据第一文本的分词结果、第二文本的分词结果以及语境图，计算第一文本和第二文本的语义相似度。

需要说明的是，本发明实施例在计算语义相似度时，通过将第一文本和第二文本的分词结果映射至相应的语境中进行计算，以提升文本间的差异精度，使得语义相似度计算的准确性更高。

基于上述实施例的内容，作为一种可选实施例，根据第一文本的分词结果、第二文本的分词结果以及语境图，计算第一文本和第二文本的语义相似度的过程涉及两个层面的计算：表示层相似度和语义层相似度，所谓表示层相似度指的是两个句子形态上的相似程度，以两个句子中所含相同词或同义词的个数及在句中的相对位置来衡量。语义层指的是字面不能直接反应出来，需要理解的句面隐含语义。表层相似度计算方法有多种，如余弦相似度、广义Jaccard相似度等。而语义层相似度则可以采用语义词典和词义上下文。

图3示出了本发明实施例根据第一文本的分词结果、第二文本的分词结果以及语境图，计算第一文本和第二文本的语义相似度的流程示意图，如图3所示，具体为：

S301、根据语境图计算第一文本和第二文本的余弦相似度。

需要说明的是，余弦相似度即两个向量之间的夹角的余弦值，余弦相似度用来表示两个句子间的差异程度；余弦相似度侧重于向量在方向上的异同，也就是趋势的异同，而不是绝对距离的大小。其公式如下：

其中，x_i表示第一文本p₁中第i个分词的TF-IDF权重，y_i表示第二文本p₂中第i个分词的TF-IDF权重，TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。 TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。由于语境图是一个词集关系图，因此在句子分词后，能够很好的利用TF-IDF计算句子中词的权重进行句子取词，取词后利用空间向量余弦夹角的相似度度量不会受指标刻度的影响，余弦值落于区间[0,1]，值越大，则差异越小。

S302、根据语境图获得第一文本的任意一个分词和第二文本的任意一个分词的相似度，以计算第一文本和第二文本的偏移量相似度。

需要说明的是，在计算偏移量相似度时，本发明实施例是根据两个文本中的分词在语境图中的相似度获得的，由于语境图记录了每一个分词的邻接点(即语境词集)，通过比对两两分词间邻接点的近似情况，即可判断两个文本在词语位置关系上的相似程度。

S303、根据语境图获得第一文本中不存在于第二文本的所有分词的语境词集以及第二文本中不存在于第一文本的所有分词的语境词集，以计算第一文本和第二文本的语义层相似度。

需要说明的是，语义层相似度体现的两个文本隐含语义的关系，既然是字面上不能直接翻译的信息，本发明实施例通过语境图分别获得每个文本中不存在于另一个文本的所有分词的语境词集，通过上述两个语境词集来计算语义层相似度。

S304、根据第一文本和第二文本的余弦相似度、偏移量相似度以及语义层相似度，计算第一文本和第二文本的语义相似度。

本发明实施例提供的方法，通过语境图分别获得第一文本和第二文本的余弦相似度、偏移量相似度以及语义层相似度，获得两个文本的分词在空间向量余弦夹角和位置关系的相似度以及互不包含词在语义层的相似度，最终获得语义相似度，从而可提高相似度判断的可靠性和准确性。

基于上述实施例的内容，作为一种可选实施例，获取第一/二文本中分词的TF-IDF权重的方法具体为：

将第一文本中所有分词在语境图上的邻接点构成词集A，将第二文本中所有分词在语境图上的邻接点构成词集B；

将词集A和词集B中的所有分词构成词集T，T＝A∪B；

将第一文本中的在第二文本中不存在的分词在语境图上的邻接点构成词集C；

将第二文本中的在第一文本中不存在的分词在语境图上的邻接点构成词集D。

对于第一/二文本中的分词x_i，获取分词x_i在语境图上的邻接点，构成词集E，将词集E中的分词与词集T中的重合度作为分词x_i的TF 值；以lg(n_T/n_E∩T)作为分词x_i的IDF值，将TF值与IDF值的乘积作为分词x_i的TF-IDF权重，其中，n_T表示词集T中分词的总数，n_E∩T表示词集E和词集T共有的分词的总数。

本发明实施例的获取第一/二文本中分词的IF-IDF权重的方法，结合分词在语境图中的组合关系，即结合了文本所处的语境获得IF-IDF 权重，能够进一步提高文本的余弦相似度的精度。

基于上述实施例的内容，作为一种可选实施例，根据语境图获得第一文本的任意一个分词和第二文本的任意一个分词的相似度，以计算第一文本和第二文本的偏移量相似度，如图4所示，具体为：

S401、根据第一文本p₁的分词结果，获得第一文本中分词总数m、第一文本的长度len(P₁)以及分词S_i在第一文本中的相对位置pos(S_i)。

需要说明的是，分词S_i在第一文本中的相对位置pos(S_i)通过公式计算，其中i表示分词在第一文本中的位置。

S402、根据第二文本p₂的分词结果，获得第二文本中分词总数n、第二文本的长度len(P₂)以及分词W_j在第二文本中的相对位置pos(W_j)；。

需要说明的是，分词W_j在第二文本中的相对位置pos(W_j)通过公式计算，其中j表示分词在第二文本中的位置。需要说明的是，本发明实施例对步骤S401与S402的先后顺序不作限定。

S403、根据语境图计算分词S_i和分词W_j的相似度sim(S_i,W_j)。

需要说明的是，区别于现有技术只针对分词的上下文计算分词间的相似度，本发明实施例具体通过语境图获得分词S_i和分词W_j的邻接点，通过比较邻接点数据获得相似度sim(S_i,W_j)，即实现了分词在宏观语境上的相似度判断。

S404、根据公式计算第一文本p₁和第二文本p₂的偏移量相似度Sim_p(p₁,p₂)。

需要说明的是，由偏移量相似度的公式可知，当两个分词的相似度一致时，该两个分词的相对位置越一致，则总的偏移量相似度越大，而当两个分词的相对位置一致时，分词的相似度越大则总的偏移量相似度越大。

本发明实施例提供的计算偏移量相似度的方法，从语境图中获取两个文本的偏移量相似度，相比现有技术仅仅考虑分词的上下文关系获得的偏移量相似度，进一步提升文本间的差异精度，使得语义相似度计算的准确性更高。

基于上述实施例的内容，作为一种可选实施例，根据所述语境图计算分词S_i和分词W_j的相似度sim(S_i,W_j)，具体为：

在语境图上获取分词S_i的邻接点π(S_i)和度len(π(S_i))；

在语境图上获取分词W_j的邻接点π(W_j)和度len(π(W_j))；

根据公式计算相似度sim(S_i,W_j)；

其中，T(π(S_i)∩π(W_j))表示分词S_i和分词W_j共有的邻接点。

本发明实施例提供的计算偏移量相似度的方法，从语境图中获取两个文本的分词间的相似度，相比现有技术仅仅考虑分词的上下文关系，进一步提升文本间的差异精度，使得语义相似度计算的准确性更高。

基于上述实施例的内容，作为一种可选实施例，根据语境图获得第一文本中不存在于第二文本的所有分词的语境词集以及第二文本中不存在于第一文本的所有分词的语境词集，以计算第一文本和第二文本的语义层相似度，具体为：

在第一文本p₁中获取第二文本p₂中不存在的分词，构成第一分词集，在语境图上获取第一分词集中所有分词的语境词，构成第一语境词集π(P₁)，在第二文本p2中获取第一文本p₁中不存在的分词，构成第二分词集，在语境图上获取第二分词集中所有分词的语境词，构成第二语境词集π(P₂)。

以第一文本为：番茄在温室进行育苗的方法，第二文本为：美国番茄进行育苗的方法，进行举例，第一文本分词结果为：番茄、温室、育苗、方法，第二文本的分词结果为：美国、番茄、育苗、方法，那么第一文本中的第二文本不存在的分词为温室，在语境图中获取分词：温室的语境词集。同理，第二文本中的第一文本补充的分词为美国，在语境图中获取分词：美国的语境词集。

根据公式计算第一文本和第二文本的语义层相似度Sim_L(p₁,p₂)；

其中，当p1和p2中不存在反义词时，α＝1；当p₁和p₂中存在反义词时，α＝-1；T(π(P₁)∩π(P₂))表示π(P₁)和π(P₂)中共有的语境词； T(π(P₁)∪π(P₂))表示π(P₁)和π(P₂)中所有的语境词。

需要说明的是，在利用上述公式计算语义层相似度时，还需要预先对第一文本和第二文本中是否含有反义词进行检索。当含有反义词时，两个文本的语义具有较大概率是相反的。根据π(P₁)和π(P₂)中共有的语境词占π(P₁)和π(P₂)中所有的语境词的比例以及是否含有反义词的状态，本发明实施例实现了对语义层相似度的计算。本发明实施例提供的方法在结合语境图的情况下，分析在两个句子中互不包含词在语义层的相似度具有更高的精度。

基于上述实施例的内容，作为一种可选实施例，根据第一文本和第二文本的余弦相似度、偏移量相似度以及语义层相似度，计算第一文本和第二文本的语义相似度，具体为：

根据公式：Sim_b(p₁,p₂)＝Cosin(p₁,p₂)+α₁×Sim_p(p₁,p₂)获得第一文本p₁和第二文本p₂的表示层相似度Sim_b(p₁,p₂)；

根据公式：m(p₁,p₂)＝Sim_b(p₁,p₂)+β₁×Sim_L(p₁,p₂)获得第一文本p₁和第二文本p₂的语义相似度m(p₁,p₂)；

其中，Cosin(p₁,p₂)、Sim_p(p₁,p₂)和Sim_L(p₁,p₂)分别表示第一文本p₁和第二文本p₂的余弦相似度、偏移量相似度和语义层相似度，α₁表示偏移量相似度对于表示层相似度的影响因子，β₁表示语义层相似度对于语义相似度的影响因子。

需要说明的是，本发明实施例将余弦相似度与偏移量相似度共同构成表示层相似度，再根据表示层相似度与语义层相似度综合获得语义像素点。本发明实施例充分考虑了宏观语境对语义的影像，对语义进行了更深程度的挖掘。

基于上述实施例的内容，作为一种可选实施例，通过实践分析α₁取值应保证与偏移量相似度的积小于余弦相似度值，同时保证α₁与偏移量相似度的积随着余弦相似度值由0开始变大而变大，达到某一值时开始随着余弦相似度值由变大而变小。因此，根据公式：α₁＝ (1-Cosin(p₁,p₂))×Cosin(p₁,p₂)获得影响因子α₁；

通过实践分析β₁取值应保证与语义层相似度的积小于表示层相似度值，同时保证β₁与语义层相似度的积随着表示层相似度值由0开始变大而变大，达到某一值邻界点时开始随着表示层相似度值由变大而变小。因此，根据公式：β₁＝(1-Sim_b(p₁,p₂))×Sim_b(p₁,p₂)获得影响因子β₁。

根据本发明的另一个方面，本发明实施例还提供一种语义相似度的计算系统，参见图5，图5示出了本发明实施例的计算系统的功能框图，该系统用于在前述各实施例中比较文本间的语义相似度。因此，在前述各实施例中的语义相似度的计算方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

如图所示，该计算系统包括：

文本获取模块501，用于获取第一文本和第二文本；

分词处理模块502，用于对第一文本和第二文本进行分词处理；

样本文本集获取模块503，用于确定用于进行语义相似度判断的语境，根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文本集；用于进行语义相似度判断的语境具体为：根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境，或者由所述第一文本的语境和第二文本的语境结合而成；

语境图获取模块504，用于对样本文本集中的各样本文本进行分词处理，根据样本文本集的分词结果建立样本文本集的语境图；

语义相似度计算模块505，用于根据第一文本的分词结果、第二文本的分词结果以及语境图，计算第一文本和第二文本的语义相似度；

其中，语境图为表示样本文本集中各分词间组合关系的无向图。

本发明实施例的通过文本获取模块获取待比较语义相似度的第一文本和第二文本，通过分词处理模块对第一文本和第二文本进行分词处理，通过样本文本集获取模块根据第一文本的分词结果和第二文本的分词结果获得样本文本集，以将两个文本的语义相似度计算映射到与该两个文本相关的语境中进行分析，通过语句图获取模块建立样本文本集的语境图，最后通过语义相似度计算模块计算语义相似度，能够提升文本间的差异精度，使得语义相似度计算的准确性更高。

本发明实施例提供了一种电子设备。参见图6，该设备包括：处理器(processor)601、存储器(memory)602和总线603；

其中，处理器601及存储器602分别通过总线603完成相互间的通信；处理器601用于调用存储器602中的程序指令，以执行上述实施例所提供的语义相似度的计算方法，例如包括：获取第一文本和第二文本；对第一文本和第二文本进行分词处理；确定用于进行语义相似度判断的语境，根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文本集；对样本文本集中的各样本文本进行分词处理，根据样本文本集的分词结果建立样本文本集的语境图；根据第一文本的分词结果、第二文本的分词结果以及语境图，计算第一文本和第二文本的语义相似度；其中，用于进行语义相似度判断的语境具体为：根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境，或者由所述第一文本的语境和第二文本的语境结合而成；语境图为表示样本文本集中各分词间组合关系的无向图。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的语义相似度的计算方法，例如包括：获取第一文本和第二文本；对第一文本和第二文本进行分词处理；确定用于进行语义相似度判断的语境，根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文本集；对样本文本集中的各样本文本进行分词处理，根据样本文本集的分词结果建立样本文本集的语境图；根据第一文本的分词结果、第二文本的分词结果以及语境图，计算第一文本和第二文本的语义相似度；其中，用于进行语义相似度判断的语境具体为：根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境，或者由所述第一文本的语境和第二文本的语境结合而成；语境图为表示样本文本集中各分词间组合关系的无向图。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语义相似度的计算方法，其特征在于，包括：

获取第一文本和第二文本；

对所述第一文本和第二文本进行分词处理；

对所述各样本文本进行分词处理，根据所述样本文本集的分词结果建立语境图；

其中，所述用于进行语义相似度判断的语境具体为：根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境，或者由所述第一文本的语境和第二文本的语境结合而成；

所述语境图为表示样本文本集中各分词间组合关系的无向图。

2.根据权利要求1所述的计算方法，其特征在于，所述根据所述第一文本的分词结果、第二文本的分词结果以及所述语境图，计算所述第一文本和第二文本的语义相似度，具体为：

根据所述语境图计算所述第一文本和第二文本的余弦相似度；

根据所述语境图获得所述第一文本的任意一个分词和第二文本的任意一个分词的相似度，以计算所述第一文本和第二文本的偏移量相似度；

根据所述语境图获得所述第一文本中不存在于所述第二文本的所有分词的语境词集，以及所述第二文本中不存在于所述第一文本的所有分词的语境词集，以计算所述第一文本和第二文本的语义层相似度；

根据所述第一文本和第二文本的余弦相似度、偏移量相似度以及语义层相似度，计算所述第一文本和第二文本的语义相似度。

3.根据权利要求2所述的计算方法，其特征在于，所述根据所述语境图获得所述第一文本的任意一个分词和第二文本的任意一个分词的相似度，以计算所述第一文本和第二文本的偏移量相似度，具体为：

根据所述第一文本p₁的分词结果，获得所述第一文本中分词总数m、第一文本的长度len(P₁)以及分词S_i在第一文本中的相对位置pos(S_i)；

根据所述第二文本p₂的分词结果，获得所述第二文本中分词总数n、第二文本的长度len(P₂)以及分词W_j在第二文本中的相对位置pos(W_j)；

根据所述语境图计算分词S_i和分词W_j的相似度sim(S_i，W_j)；

根据公式计算第一文本p₁和第二文本p₂的偏移量相似度Sim_p(p₁，p₂)。

4.根据权利要求3所述的计算方法，其特征在于，所述根据所述语境图计算分词S_i和分词W_j的相似度sim(S_i，W_j)，具体为：

在所述语境图上获取分词S_i的邻接点π(S_i)和度len(π(S_i))；

在所述语境图上获取分词W_j的邻接点π(W_j)和度len(π(W_j))；

根据公式计算相似度sim(S_i，W_j)；

其中，T(π(S_i)∩π(W_j))表示分词S_i和分词W_j共有的邻接点。

5.根据权利要求2所述的计算方法，其特征在于，所述根据所述语境图获得所述第一文本中不存在于所述第二文本的所有分词的语境词集以及所述第二文本中不存在于所述第一文本的所有分词的语境词集，以计算所述第一文本和第二文本的语义层相似度，具体为：

在第一文本p₁中获取所述第二文本p₂中不存在的分词，构成第一分词集，在所述语境图上获取所述第一分词集中所有分词的语境词，构成第一语境词集π(P₁)；

在所述第二文本p₂中获取所述第一文本p₁中不存在的分词，构成第二分词集，在所述语境图上获取所述第二分词集中所有分词的语境词，构成第二语境词集π(P₂)；

根据公式计算所述第一文本和第二文本的语义层相似度Sim_L(p₁，p₂)；

其中，当p₁和p₂中不存在反义词时，α＝1；当p₁和p₂中存在反义词时，α＝-1；T(π(P₁)∩π(P₂))表示所述π(P₁)和π(P₂)中共有的语境词；T(π(P₁)∪π(P₂))表示π(P₁)和π(P₂)中所有的语境词。

6.根据权利要求2所述的计算方法，其特征在于，所述根据所述第一文本和第二文本的余弦相似度、偏移量相似度以及语义层相似度，计算所述第一文本和第二文本的语义相似度，具体为：

根据公式：Sim_b(p₁，p₂)＝Cosin(p₁，p₂)+α₁×Sim_p(p₁，p₂)获得第一文本p₁和第二文本p₂的表示层相似度Sim_b(p₁，p₂)；

根据公式：m(p₁，p₂)＝Sim_b(p₁，p₂)+β₁×Sim_L(p₁，p₂)获得第一文本p₁和第二文本p₂的语义相似度m(p₁，p₂)；

其中，Cosin(p₁，p₂)、Sim_p(p₁，p₂)和Sim_L(p₁，p₂)分别表示第一文本p₁和第二文本p₂的余弦相似度、偏移量相似度和语义层相似度，α₁表示偏移量相似度对于表示层相似度的影响因子，β₁表示语义层相似度对于语义相似度的影响因子。

7.根据权利要求6所述的计算方法，其特征在于，

根据公式：α₁＝(1-Cosin(p₁，p₂))×Cosin(p₁，p₂)获得影响因子α₁；

根据公式：β₁＝(1-Sim_b(p₁，p₂))×Sim_b(p₁，p₂)获得影响因子β₁。

8.一种语义相似度的计算系统，其特征在于，包括：

文本获取模块，用于获取第一文本和第二文本；

样本文本集获取模块，用于确定用于进行语义相似度判断的语境，根据所述用于进行语义相似度判断的语境收集样本文本并构成获取样本文本集；所述用于进行语义相似度判断的语境具体为：根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境，或者由所述第一文本的语境和第二文本的语境结合而成；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。