CN107329949B

CN107329949B - 一种语义匹配方法和系统

Info

Publication number: CN107329949B
Application number: CN201710375390.4A
Authority: CN
Inventors: 殷子墨; 李健; 张连毅; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2021-01-01
Anticipated expiration: 2037-05-24
Also published as: CN107329949A

Abstract

本发明提供了一种语义匹配方法和系统，该方法包括：对至少一个领域内的任意一个第一语句、第二语句、第三语句作向量转换处理，得到第一语句句向量、第二语句句向量、第三语句句向量；第一语句句向量和第二语句句向量作为正样本、第一语句句向量和第三语句句向量作为负样本分别输入至循环神经网络模型进行训练，得到用于至少一个领域的语义判断模型；将至少一个领域内任意一个目标领域的待识别语句的句向量以及目标领域内的候选语句的句向量输入至语义判断模型；依次计算待识别语句的句向量与目标领域内的每个候选语句的句向量之间的相似度；将相似度最高的候选语句确定为与待识别语句的语义相近的目标语句。

Description

一种语义匹配方法和系统

技术领域

本发明涉及信息技术领域，特别是涉及一种语义匹配方法和系统。

背景技术

在智能问答、智能客服、问题答案检索等含有QA需求的信息技术服务中往往存在着语义匹配任务。例如，在使用基于问答库的问答系统时，对用户提出的问题，需要系统理解语义并找到问答库内与之语义相同的问题，并返回答案。然而，由于自然语言的灵活性，用户可能的提问方式多种多样，使得搜索匹配的问题成为一个难题。在现有技术中，给出的解决方案是：已有问答库QASet＝(<Q_i,A_i>),1≤i≤n(n为问答库内问题总数)，其中，Q_i为问题库中的问题，A_i为对应的答案。对于用户提出的新问题Q_a，需要构造如下函数f：

将Q_i与Q_A分别转化为向量，并比较两个向量的夹角余弦值。两个向量夹角的余弦值通常代表它们之间的差异性。句向量的夹角余弦值越大，则认为这两句话的相关程度越高，以此来确定与用户的新问题语义相近的问题库中的问题，从而给出答案。

对于传统技术中以向量夹角余弦值的方式判断两个语句的语义相似度的方案，由于不同问题(或语句)中包含的词语范围很大，那么单纯的计算句向量之间的夹角余弦值，会使语义并不相关的句子仍得到较高的相似度得分，存在语义匹配准确率低的问题。

发明内容

本发明提供了一种语义匹配方法和系统，以解决现有技术中的语义匹配方案所存在的语义匹配准确率低的问题。

为了解决上述问题，根据本发明的一个方面，本发明公开了一种语义匹配方法，包括：

对至少一个领域内的任意一个第一语句、第二语句、第三语句分别作向量转换处理，得到所述至少一个领域内的第一语句句向量、第二语句句向量、第三语句句向量，其中，所述第二语句与所述第一语句语义相同，所述第三语句与所述第一语句语义不同；

将所述至少一个领域内的正样本、负样本分别作为训练样本输入至循环神经网络模型进行语义判断训练，得到用于所述至少一个领域的语义判断模型，其中，所述第一语句句向量和所述第二语句句向量作为一组正样本、所述第一语句句向量和所述第三语句句向量作为一组负样本；

将所述至少一个领域内任意一个目标领域的待识别语句的句向量以及所述目标领域内的目标候选语句的句向量作为一组待判断的句向量输入至所述语义判断模型，其中，所述目标领域内的每个候选语句的句向量轮流作为所述一组待判断的句向量中的所述目标候选语句的句向量；

依次计算所述待识别语句的句向量与所述目标领域内的每个候选语句的句向量之间的相似度；

将与所述待识别语句的句向量相似度最高的候选语句，确定为与所述待识别语句的语义相近的目标语句。

根据本发明的另一方面，本发明还公开了一种语义匹配系统，包括：

转换模块，用于对至少一个领域内的任意一个第一语句、第二语句、第三语句分别作向量转换处理，得到所述至少一个领域内的第一语句句向量、第二语句句向量、第三语句句向量，其中，所述第二语句与所述第一语句语义相同，所述第三语句与所述第一语句语义不同；

训练模块，用于将所述至少一个领域内的正样本、负样本分别作为训练样本输入至循环神经网络模型进行语义判断训练，得到用于所述至少一个领域的语义判断模型，其中，所述第一语句句向量和所述第二语句句向量作为一组正样本、所述第一语句句向量和所述第三语句句向量作为一组负样本；

输入模块，用于将所述至少一个领域内任意一个目标领域的待识别语句的句向量以及所述目标领域内的目标候选语句的句向量作为一组待判断的句向量输入至所述语义判断模型，其中，所述目标领域内的每个候选语句的句向量轮流作为所述一组待判断的句向量中的所述目标候选语句的句向量；

计算模块，用于依次计算所述待识别语句的句向量与所述目标领域内的每个候选语句的句向量之间的相似度；

确定模块，用于将与所述待识别语句的句向量相似度最高的候选语句，确定为与所述待识别语句的语义相近的目标语句。

与现有技术相比，本发明包括以下优点：

本发明实施例利用某个领域内的语义相似的一组语句和语义不相似的一组语句分别作为训练样本来训练循环神经网络模型，就能够使训练后的循环神经网络模型实现准确度较高的语义判断，这样，将经过训练的某个领域内任意两个语句的句向量输入至该循环神经网络模型，就能够快速而准确的计算出它们之间的语义相近程度，从而可以准确的输出与待识别语句语义最相近的目标语句，提升了语义匹配准确度。

附图说明

图1是本发明的一种语义匹配方法实施例的步骤流程图；

图2是本发明的一种语义匹配系统实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种语义匹配方法实施例的步骤流程图，具体可以包括如下步骤：

为了避免通过计算语句向量之间的夹角余弦值来确定语句之间的相似度，所造成的语义匹配准确度低的问题，本发明实施例利用循环神经网络模型在序列预测相关的任务中表现良好的特性，通过足够的训练数据对循环神经网络模型进行训练，得到语句相似度的语义判断模型。然后通过该语义判断模型来对两个语句进行相似度计算，从而确定它们是否语义匹配，即相似，能够提升对语义匹配的准确率。

具体的训练步骤包括如下的步骤101～102。

步骤101，对至少一个领域内的任意一个第一语句、第二语句、第三语句分别作向量转换处理，得到所述至少一个领域内的第一语句句向量、第二语句句向量、第三语句句向量；

其中，所述第二语句与所述第一语句语义相同，所述第三语句与所述第一语句语义不同；

其中，每个领域(例如体育领域、财经领域等)都有很多语料，每个领域的语料中都有语义相同或相似的语句和语义不同的语句，那么针对某个领域(例如体育领域)中的任意一个语句，以及该领域内与该语句语义相同和不同的两个语句，可以分别作向量转换处理，从而得到相应的三个句向量。

本例中语料涉及的领域可以是一个或多个领域(例如教育、经济、体育、财经等等领域)。

步骤102，将所述至少一个领域内的正样本、负样本分别作为训练样本输入至循环神经网络模型进行语义判断训练，得到用于所述至少一个领域的语义判断模型；

其中，所述第一语句句向量和所述第二语句句向量作为一组正样本、所述第一语句句向量和所述第三语句句向量作为一组负样本；

以体育领域的语料为例，可以将步骤101中得到的该领域内的所述第一语句句向量和所述第二语句句向量作为一组正样本输入至该循环神经网络模型进行语义判断训练，其中，这两个句向量是语义相同的句向量，因此，可以训练该模型对该领域内的对第一语句的语义相同的判断训练；

同样的，还可以将步骤101中得到的该领域内的所述第一语句句向量和所述第三语句句向量作为一组负样本再次输入至该循环神经网络模型进行语义判断训练，其中，这两个句向量是语义不同的句向量，因此，可以训练该模型对该领域内的第一语句的语义不同的判断训练；

但是，需要注意的是，虽然本步骤中是以某个领域内的任意第一语句以及与其语义相同的第二语句和语义不同的第三语句来进行模型训练的，但是本领域的技术任意应当理解，在该领域内与第一语句语义相同的语句并不限于第二语句，对于第三语句同理，因此，为了使循环神经网络模型能够对该领域的该第一语句的相同语义和不同语义的语句进行判断，还可以有更多的该领域内的第二语句和第三语句，从而构成新的正样本和负样本来对该模型进行训练，从而使训练后的模型能够判断与第一语句语义相同的语句和语义不同的语句。

同理，上述只是针对某个领域内的某个第一语句进行的训练说明，同样的，由于某个领域的语句数量很多，还需要对该某个领域的其他的任意新的第一语句进行如上述第一语句的语义训练，具体方法同上，在此不再赘述。

此外，对某个领域的语义判断训练如上，对其他领域的语句的语义判断训练也是同理，因此，经过训练的循环神经网络模型(例如时间递归神经网络，Long Short-TermMemory，LSTM模型)能够实现对不同领域内语句的语义判断，这里称作语义判断模型。

步骤103，将所述至少一个领域内任意一个目标领域的待识别语句的句向量以及所述目标领域内的目标候选语句的句向量作为一组待判断的句向量输入至所述语义判断模型；

其中，所述目标领域内的每个候选语句的句向量轮流作为所述一组待判断的句向量中的所述目标候选语句的句向量；

例如，这里需要判断体育领域(目标领域)内的某个待识别语句与体育领域内所有候选语句中哪个候选语句的语义最相近，即是一组语义相似的语句。

那么可以将该体育领域内的每个候选语句的句向量依次与该待识别语句的句向量构成一组待判断的句向量，输入至该语义判断模型。

步骤104，依次计算所述待识别语句的句向量与所述目标领域内的每个候选语句的句向量之间的相似度；

这样，语义判断模型就可以依次计算该待识别语句的句向量与该体育领域内的每个候选语句的句向量之间的相似度。

步骤105，将与所述待识别语句的句向量相似度最高的候选语句，确定为与所述待识别语句的语义相近的目标语句。

最后，可以将与该待识别语句的句向量相似度最高的候选语句，确定为与该待识别语句语义最相近的目标语句。

由于循环神经网络模型在序列预测相关的任务中表现良好，因此，本发明实施例利用某个领域内的语义相似的一组语句和语义不相似的一组语句分别作为训练样本来训练循环神经网络模型，就能够使训练后的循环神经网络模型实现准确度较高的语义判断，这样，将经过训练的某个领域内任意两个语句的句向量输入至该循环神经网络模型，就能够快速而准确的计算出它们之间的语义相近程度，从而可以准确的输出与待识别语句语义最相近的目标语句，提升了语义匹配准确度。

可选地，在一个实施例中，在步骤101之前，根据本发明实施例的方法还可以包括：

获取不同领域的中文语料；

将不同领域的中文语料按领域划分至不同的文档中，使得一个文档包含一个领域的所有语料；

对每个文档内的中文语料作分词处理，得到多个分词；

计算每个分词在不同领域内的TF-IDF权重。

具体而言，可以获取多个领域(例如财经、体育、教育、经济、娱乐等等)的中文语料，其中，每个领域可以有一份或多份中文语料；然后，将不同领域的中文语料按领域划分至不同的文档中，使得一个文档包含一个领域内的所有语料，进而使得文档的总数与领域的总数相同(其中，获取到的中文语料的所有领域的总数即为下述公式中的K)；接着，对每个文档内的中文语料均作分词处理，得到多个分词。其中，分词处理技术可以是现有技术中的任意一种分词技术。另外，需要注意的是，这里分词处理得到的分词可以是字、词语、短语等任意形式的分词。由于不同领域的文档之间可能存在相同的分词，但是这相同的分词在不同领域中的重要程度又存在差异，因此，这里可以对得到的多个分词中的每个分词，计算其在上述多个领域中每个领域的TF-IDF权重。

举例来说，例如多个分词包括分词1、分词2、分词3，需要注意的是，本发明实施例作分词处理后得到的多个分词默认已经将重复的分词去掉，例如领域A和领域B中都有分词1，这里的多个分词只包括一个分词1，而不是两个分词1。这多个分词中，以分词1为例，需要计算分词1在上述每个领域中的TF-IDF权重。

由于语句中不同的分词在不同领域中的重要程度不同，而重要的分词对语句的语义又起到关键性作用，因此，本发明实施例需要提前可以确定语料中每个分词在不同领域中的重要程度，从而进一步确保对语句语义匹配的准确率。

可选地，在一个实施例中，在执行步骤101时，可以通过以下可选的方式来实现：

在至少一个领域内的中文语料中获取任意一个第一语句、与所述第一语句语义相同的第二语句、与所述第一语句语义不同的第三语句；

对所述第一语句、所述第二语句、所述第三语句分别作分词处理，得到多个分词；

将所述多个分词均作向量转换处理，得到多个分词向量；

采用如下公式计算得到所述至少一个领域中的第一语句句向量、第二语句句向量，以及第三语句句向量；

其中，a_k为某个语句中第k个分词在某领域中的TF-IDF权重，v_k为所述语句中第k个分词对应的分词向量，N为所述语句中包含的分词总数，V_Q为某领域中语句的句向量。

也就是说，本发明实施例在将某个领域中的一个语句转换成句向量时，首先，将语句作分词处理，然后再将分词转换为分词向量，最后，再利用分词向量以及对应分词在该领域中的TF-IDF权重来将该语句转换为句向量。

具体来说，如公式(1)所示，例如领域A中的某个语句包括分词1、分词2和分词3，分词1对应的分词向量为V1，分词2对应的分词向量为V2，分词3对应的分词向量为V3；分词1在该领域A的TF-IDF权重为a1，分词2在该领域A的TF-IDF权重为a2，分词3在该领域A的TF-IDF权重为a3，而该某个语句包含的分词总数为N，那么该语句的句向量V_Q为(V1*a1+V2*a2+V3*a3)/N。

这样，本发明实施例通过对某个语句中的不同分词给予不同的权重，从而可以保证语句中的关键信息不会被掩盖，使得针对某个语句所转化得到的句向量能够表现出该语句中不同分词在该领域中的重要程度，从而使得所转换的句向量能够体现其在该领域中的语义，利于后续的语义判断。

例如，财经领域的某个问题语句为“我怎样才能激活我的XX银行信用卡？”，那么该语句中“激活”和“信用卡”在对语义表达起到关键作用，应该被赋予更高的权重，而“我怎么才能”、“我的XX银行”则对语义表达起到次要的作用，权重可以相对较低，这样，再利用各个分词在各领域中的权重来辅助进行语句向句向量的转换时，能够使所转化得到的句向量体现出语义。

可选地，在一个实施例中，在计算每个分词在不同领域内的TF-IDF权重时，可以采用如下公式进行计算：采用如下公式计算每个分词在不同领域内的TF-IDF权重：

其中，由于不同领域的语料按领域划分至不同的文档中，使得每个文档包含一个领域的所有语料，领域总数等于文档总数；

因此，n_i,j表示分词t_i在j领域的文档中出现的总次数，分母

表示分词t_i在k个领域的k个文档中出现次数的总和，tf_i,j为分词t_i在j领域的词频；

其中，公式(2)中的k和公式(3)中的K表示相同的意义。

idf_i公式中的K表示领域总数，k_i表示包含分词t_i的领域总数；

tfidf_i,j＝tf_i,j×idf_i

(4)；

其中，tfidf_i,j表示当前计算的分词t_i在当前计算的j领域内的TF-IDF权重。

上述公式(2)～公式(4)以j领域中的某个分词t_i为例来对本发明的分词在某个领域中的TF-IDF权重进行说明的，实质上，可以根据需要来计算不同的分词在各个领域中的TF-IDF权重，具体根据需要灵活选择，方法同上，在此不再赘述。

可选地，在一个实施例中，在步骤105之后，根据本发明实施例的方法还包括：在数据库中查找与所述目标语句配套的答案语句；将所述答案语句返回至用户。

具体而言，在QA系统中，用户提出的问题多种多样，这里用户提出的问题语句即为上述实施例中的待识别语句，而问题数据库中有很多候选问题语句(即上述目标领域内的候选语句)，通过上述训练过的循环神经网络模型来将问题数据库中的候选问题语句依次与问题语句进行语义判断，从而可以将与问题语句的相似度最高的候选问题语句确定出来，即目标语句。那么本实施例中就可以在答案数据库中查找与该目标语句配套的答案语句，从而将答案语句返回给用户。

这样，通过将本发明实施例的方法应用到QA系统中，无论用户提出的问题花样怎样变化，但是作为问题核心的关键词的变化是有限的，而关键性信息对语句的语义起到关键性作用，这样，本发明实施例就可以确定出用户输入的问题是数据库中已存在的哪个问题语句，从而搜索出该问题语句的答案语句，来解决用户的疑难问题。

综上，本发明通过使用tf-idf算法对某个领域内的关键词和非关键词进行检索，并在句向量中对领域内关键词给予更高的权重，从而获得加重了关键词的重要程度的句向量，然后，将加重了关键词重要程度的句向量作为训练后的循环神经网络模型的输入，从而能够精确的判断任意两个语句之间的相似度为推荐匹配问题的判断提供重要依据。

另外，在另一个实施例中，上述循环神经网络模型可以为LSTM模型，也可以为BLSTM模型(一种常用的LSTM模型的变体，功能类似，相比于LSTM模型可以更好的学习上下文信息)，或者现有技术中的在序列预测相关任务中表现良好的其他训练神经网络模型。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

与上述本发明实施例所提供的方法相对应，参照图2，示出了本发明一种语义匹配系统实施例的结构框图，具体可以包括如下模块：

转换模块21，用于对至少一个领域内的任意一个第一语句、第二语句、第三语句分别作向量转换处理，得到所述至少一个领域内的第一语句句向量、第二语句句向量、第三语句句向量，其中，所述第二语句与所述第一语句语义相同，所述第三语句与所述第一语句语义不同；

训练模块22，用于将所述至少一个领域内的正样本、负样本分别作为训练样本输入至循环神经网络模型进行语义判断训练，得到用于所述至少一个领域的语义判断模型，其中，所述第一语句句向量和所述第二语句句向量作为一组正样本、所述第一语句句向量和所述第三语句句向量作为一组负样本；

输入模块23，用于将所述至少一个领域内任意一个目标领域的待识别语句的句向量以及所述目标领域内的目标候选语句的句向量作为一组待判断的句向量输入至所述语义判断模型，其中，所述目标领域内的每个候选语句的句向量轮流作为所述一组待判断的句向量中的所述目标候选语句的句向量；

计算模块24，用于依次计算所述待识别语句的句向量与所述目标领域内的每个候选语句的句向量之间的相似度；

确定模块25，用于将与所述待识别语句的句向量相似度最高的候选语句，确定为与所述待识别语句的语义相近的目标语句。

可选地，所述系统还包括：

获取模块，用于获取不同领域的中文语料；

划分模块，用于将不同领域的中文语料按领域划分至不同的文档中，使得一个文档包含一个领域的所有语料；

分词模块，用于对每个文档内的中文语料作分词处理，得到多个分词；

权重计算模块，用于计算每个分词在不同领域内的TF-IDF权重。

可选地，所述转换模块21包括：

获取子模块，用于在至少一个领域内的中文语料中获取任意一个第一语句、与所述第一语句语义相同的第二语句、与所述第一语句语义不同的第三语句；

分词子模块，用于对第一语句、所述第二语句、所述第三语句分别作分词处理，得到多个分词；

转换子模块，用于将所述多个分词均作向量转换处理，得到多个分词向量；

计算子模块，用于采用如下公式计算得到所述至少一个领域中的第一语句句向量、第二语句句向量，以及第三语句句向量；

可选地，所述计算子模块，还用于采用如下公式计算每个分词在不同领域内的TF-IDF权重：

其中，n_i,j表示分词t_i在j领域的文档中出现的总次数，分母

tfidf_i,j＝tf_i,j×idf_i

(4)；

可选地，所述系统还包括：

查找模块，用于在数据库中查找与所述目标语句配套的答案语句；

返回模块，用于将所述答案语句返回至用户。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语义匹配方法和一种语义匹配装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。