CN112966524B

CN112966524B - 基于多粒度孪生网络的中文句子语义匹配方法及系统

Info

Publication number: CN112966524B
Application number: CN202110323155.9A
Authority: CN
Inventors: 陈建峡; 文轩; 陈煜�; 张�杰; 程玉; 刘琦; 刘畅
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2024-01-26
Anticipated expiration: 2041-03-26
Also published as: CN112966524A

Abstract

本发明属于语义匹配技术领域，公开了一种基于多粒度孪生网络的中文句子语义匹配方法及系统，使用Word2Vec获得到预先训练的词向量，通过嵌入层将输入的中文句子序列将被转换为向量表示；其次，进入多粒度编码层分别从字符和单词视角捕捉句子的复杂语义特征；然后，将上一层输出的特征向量，输入语义交互层，进行语义交互；最后，将语义交互结果送入输出层，获得句子语义是否相似的结果。本发明提出来一种新的多粒度编码方式，从字符和单词两个角度捕捉句子中更丰富的语义信息，获得了更多的特征。本发明采用的孪生结构，从理论上减少了参数的数量，使模型获得了更快的训练速度。

Description

基于多粒度孪生网络的中文句子语义匹配方法及系统

技术领域

本发明属于语义匹配技术领域，尤其涉及一种基于多粒度孪生网络的中文句子语义匹配方法及系统。

背景技术

目前，句子语义匹配(Short text semantic matching)在很多自然语言处理任务中起着关键作用，例如问答(QA),机器翻译(MT),信息检索(information retrieval)等等。并且随着句子数据研究的不断深入，句子作为互联网中广泛存在的一种句子数据，正逐步展现出强大的数据价值。如何对句子进行有效挖掘和分析，成为一个研究热点。

随着对于句子语义匹配的不断研究，人们发现句子内容简短，特征稀疏，于是如何更好的挖掘句子中的特征，便成为了人们研究的方向。早期人们有的利用使用外部词汇资源，如WordNet，也有的人利用语法信息，建模两个句子之间依赖句法的差异，利用分布模型，如潜在语义分析，获得特征，但是以上方法由于对外部信息的需要和采用复杂的数学模型都不能有效且高效的解决句子语义的问题。

而随着深度学习的不断发展，越来越多的人选择使用深度学习的方法进行句子语义匹配，而在进入深度学习的模型之前，语句需要先进行分词，于是由于中文的特殊性，中文句子语义匹配经常会受到分词的影响，就有研究人员从句子的粒度这个角度获取更多的特征。现有技术1提出来一种同时捕获长距离和短距离依赖项的模型MV-LSTM，现有技术2提出来的模型在每个句子使用一个卷积神经网络，它在多个粒度级别上提取特征，并使用多种类型的池。Wang想要摆脱以前要么从一个方向匹配句子，要么只应用单个颗粒(逐词或逐句)匹配的方法。现有技术3提出了一个双边多视角匹配(BiMPM)模型。虽然上述方法或多或少的利用了多种粒度，但它们仍然忽略了个中粒度的作用。

通过上述分析，现有技术存在的问题及缺陷为：现有句子语义匹配方法忽略了粒度，导致语义匹配不准确，或者有的方法虽然利用了句子的粒度但是却忽略了部分粒度的作用，导致结果出现误差。

解决以上问题及缺陷的难度为：

句子内容简短，特征稀疏，如何更好的挖掘句子中的特征是主要的难点。如何合理的有效的提取特征，并同时提高模型的性能，避免由于新的特征给原始特征带来噪声。同时在对于多特征的利用时，需要合理的利用特征之间的共性和异性，在引入新的特征时，需要考虑使用参数量更少，更迅速的网络结构，提高模型整体的效率。

解决以上问题及缺陷的意义为：

句子-句子的语义匹配在工业界的应用场景非常广泛。对于句子-句子的语义匹配的研究和优化是具有十分重要的应用前景以及理论需求，一个优秀的句子-句子的语义匹配算法可以为自然语言处理领域的多种应用领域带了非常大的提升。

发明内容

针对现有技术存在的问题，本发明提供了一种基于多粒度孪生网络的中文句子语义匹配方法及系统。

本发明是这样实现的，一种基于多粒度孪生网络的中文句子语义匹配方法，包括：

首先，使用Word2Vec获得到预先训练的词向量，通过嵌入层将输入的中文句子序列将被转换为向量表示；其次，进入多粒度编码层分别从字符和单词视角捕捉句子的复杂语义特征；然后，将上一层输出的特征向量，输入语义交互层，进行语义交互；最后，将语义交互结果送入输出层，获得句子语义是否相似的结果。

进一步，所述基于多粒度孪生网络的中文句子语义匹配方法包括以下步骤：

步骤一，对句子进行预处理，基于预处理完的句子利用word2vec训练获得预训练的词向量；

步骤二，基于预处理完的句子利用word2vec方法获得预训练好的嵌入层转换成词向量；

步骤三，从字符和单词视角捕捉句子的复杂语义特征；并基于得到的复杂语义特征获得语义交互结果；判断句子语义是否匹配。

进一步，步骤一中，所述对句子进行预处理，包括：进行词粒度的分词和字粒度的分词；

具体包括：

分别读取训练集，测试集，验证集；将训练集，测试集，验证集利用jieba分词工具进行词粒度的分词；将训练集，测试集，验证集利用jieba分词工具进行字粒度的分词；将处理完的数据使用pickle工具保存到本地。

进一步，步骤一中，所述基于预处理完的句子利用word2vec训练获得预训练的词向量包括：

设定Word2vec预训练算法的各项参数；将预处理完的句子输入设定好参数的Word2vec算法中，进行训练；将预训练获得的词向量利用pickle工具保存到本地。

进一步，步骤三中，所述从字符和单词视角捕捉句子的复杂语义特征包括：

(1)获得转换向量，并分为字粒度的向量表示和词粒度的向量表示；

(2)提取向量中的局部特征，并将所有特征进行融合，得到句子的复杂语义特征。

进一步，所述提取向量特征公式如下：

a_t＝Attention(m_t,m_s)＝softmax(f(m_t,m_s))m_v (5)

c₁＝Conv(a_t) (6)

m₁＝MaxPool(c₁) (7)

c₂＝Conv(m₁) (8)

m₂＝MaxPool(c₂) (9)

进一步，步骤三中，所述基于得到的复杂语义特征获得语义交互结果包括：

1)进行句子Q1和Q2的语义特征向量的相似性比较；

2)将两个句子的语义特征向量进行连接；将连接后的向量输入全连接层；

3)将输出的向量继续输入全连接层，将原始句子Q1和Q2的语义特征向量分别输入全连接层；

4)将语义交互的特征向量通过步骤(3)后的向量，并与原始句子Q1和Q2的语义特征向量通过全连接层输出的特征向量相加。

进一步，所述相似性比较公式如下：

进一步，所述将两个句子的语义特征向量进行连接包括：

进一步，所述判断句子语义是否匹配包括：

将得到向量输入sigmoid中，通过sigmoid激活函数，确定中文句子语义是否匹配。

本发明的另一目的在于提供一种实施所述基于多粒度孪生网络的中文句子语义匹配方法的基于多粒度孪生网络的中文句子语义匹配系统，所述基于多粒度孪生网络的中文句子语义匹配系统包括：

嵌入层，用于将输入的中文句子序列将被转换为向量表示；

多粒度编码层，用于分别从字符和单词视角捕捉句子的复杂语义特征；

语义交互层，用于将特征向量进行语义交互；

输出层，用于获得句子语义是否相似的结果。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述基于多粒度孪生网络的中文句子语义匹配方法。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端执行所述基于多粒度孪生网络的中文句子语义匹配方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明的可以更显著的改善句子特征稀疏的问题，并通过从字符和单词两个角度获取语义特征可以减少中文分词的弊病。

本发明丰富了中文句子的特征，减少了中文句子语义匹配受分词的影响，本发明建立在“孪生”结构之上的，具有更少的参数和更快的训练速度。本发明句子的语义特征分别从字符和单词两个角度中获得，通过两个特征的连接捕捉到句子中更丰富的语义信息。

与现有技术相比，本发明的优点体现在：

1)本发明提出来一种新的多粒度编码方式，从字符和单词两个角度捕捉句子中更丰富的语义信息，获得了更多的特征。

2)本发明提出来一种新的网络架构，从输入层，嵌入层，多粒度编码层，语义交互层，输出层，更利于中文句子的语义匹配。

3)本发明采用的“孪生”结构，从理论上减少了参数的数量，使模型获得了更快的训练速度。

针对句子内容简短，特征稀疏，与现今大多数方法忽略了粒度的问题，本发明融合多粒度的语义特征，提出一种基于多粒度孪生网络的中文句子语义匹配方法，该方法分别从字符和单词两个角度中获得句子的语义特征，通过两个特征的连接捕捉到句子中更丰富的语义信息。实验表明可以显著的改善句子特征稀疏的问题，并通过从字符和单词两个角度获取语义特征可以减少中文分词的弊病。

对比的技术效果或者实验效果。包括：

与无监督的方法相比如表3,WMDchar,WMDword,Cwo,Cngram,Dedt,Scos,ourmodel SGFC improves the precision metric by 14.25％,16.85％,20.15％,28.95％,34.75％,21.15％,recall by 8.27％,10.87％,5.87％,0.17％,3.07％,0.77％,F1-scoreby 11.77％,14.37％,14.57％,19.17％,24.67％,13.57％and accuracy by13.81％,24.41％,13.71％,23.21％,32.11％,14.11％.相对于无监督的方法，本发明可以利用真实标签和预测之间的误差进行反向传播，以纠正和优化神经网络中的海量参数。而且由于本发明利用了多粒度，所以具有更多的特征利于相似度的判断，因此本发明相较于无监督的方法获得了很大的进步。

与有监督的并且采用神经网络方法相比如表3，CBOWchar,CBOWword,CNNchar,CNNword,BiLSTMchar,BiLSTMword,BiMPMchar,BiMPMword,our model SGFC improves theprecision metric by 14.75％,13.35％,14.15％,12.85％,13.85％,10.65％,3.65％,3.55％,recall by 6.67％,-0.43％,3.87％,4.87％,-1.53％,0.17％,-4.43％,-4.03％,F1-score by 11.37％,7.77％,9.97％,9.47％,7.67％,6.25％,0.17％,0.27％,andaccuracy by 13.81％,10.71％,12.61％,11.61％,10.91％,8.31％,1.01％,1.11％.相对于以上有监督的并且采用神经网络方法，本发明的方法不仅利用了多粒度，具有了更为丰富的特征，同时相较于以上大部分网络具有更深的网络结构可以提取更丰富和更深层次的语义特征。从而获得了比其他网络在F1-score和accuracy两个主要指标上更好的表现。不同模型在LCQMC的实验数据对比表3。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于多粒度孪生网络的中文句子语义匹配方法流程图。

图2是本发明实施例提供的基于多粒度孪生网络的中文句子语义匹配系统结构示意图；

图中：1、嵌入层；2、多粒度编码层；3、语义交互层；4、输出层。

图3是本发明实施例提供的多粒度孪生网络的中文句子语义匹配模型体系结构图。

图4是本发明实施例提供的多粒度编码层流程图。

图5是本发明实施例提供的语义交互层流程图。

图6是本发明实施例提供的最大池化的效果示意图。

图7是本发明实施例提供的Flatten层效果示意图。

图8是本发明实施例提供的不同算法在通用数据集上的实验对比结果示意图。

图9是本发明实施例提供的不同算法在通用数据集上的实验对比结果柱状图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于多粒度孪生网络的中文句子语义匹配方法，下面结合附图对本发明作详细的描述。

本发明实施例提供的基于多粒度孪生网络的中文句子语义匹配方法包括：

如图1所示，本发明实施例提供的基于多粒度孪生网络的中文句子语义匹配方法包括以下步骤：

S101，对句子进行预处理，基于预处理完的句子利用word2vec训练获得预训练的词向量；

S102，基于预处理完的句子利用word2vec方法获得预训练好的嵌入层转换成词向量；

S103，从字符和单词视角捕捉句子的复杂语义特征；并基于得到的复杂语义特征获得语义交互结果；判断句子语义是否匹配。

本发明实施例提供的对句子进行预处理，包括：进行词粒度的分词和字粒度的分词；

具体包括：

本发明实施例提供的基于预处理完的句子利用word2vec训练获得预训练的词向量包括：

本发明实施例提供的从字符和单词视角捕捉句子的复杂语义特征包括：

本发明实施例提供的特征提取公式如下：

a_t＝Attention(m_t,m_s)＝softmax(f(m_t,m_s))m_v (5)

c₁＝Conv(a_t) (6)

m₁＝MaxPool(c₁) (7)

c₂＝Conv(m₁) (8)

m₂＝MaxPool(c₂) (9)

本发明实施例提供的基于得到的复杂语义特征获得语义交互结果包括：

1)进行句子Q1和Q2的语义特征向量的相似性比较；

本发明实施例提供的相似性比较公式如下：

本发明实施例提供的将两个句子的语义特征向量进行连接包括：

本发明实施例提供的判断句子语义是否匹配包括：

如图2-图3所示，本发明实施例提供的基于多粒度孪生网络的中文句子语义匹配系统包括：

嵌入层1，用于将输入的中文句子序列将被转换为向量表示；

多粒度编码层2，用于分别从字符和单词视角捕捉句子的复杂语义特征；

语义交互层3，用于将特征向量进行语义交互；

输出层4，用于获得句子语义是否相似的结果。

下面结合具体实施例对本发明的技术方案作进一步描述。

实施例1：

本发明对句子语义匹配进行相关实验，以验证基于多粒度孪生网络的中文句子语义匹配模型的有效性.实验环境主要采用了Ubuntu 18.04，Tensorflow-GPU2.1，PyCharm2020.1，开发语言是Python3.7.

1.数据来源与评估标准

本发明所用的数据集是公开数据集LCQMC，数据集本身是着重于语义的匹配而非段落的匹配，语料库包含260,068个具有手动注释的问题对，本发明将其分为三个部分与数据集原论文中相同的比例，即包含238,766个问题对的训练集，包含8,802个问题对的开发集和包含12,500个问题对的测试集。

每个数据样本都有三个属性：“sentence1”，“sentence2”和“Label”，句子1和句子2是句子对，Label是1说明对于句子1的语义和句子2是相似的，0表示两个句子的意思不同，为了更利于理解，本发明从LCQMC中选择了两组例子来说明如表1所示。

表1样本示例

本发明使用Accuracy,Precision,Recall,F1进行评估.在计算之前，定义：TruePositive可以缩写为TP，False Positive可以缩写为FP，TN简称True Negative,FN简称False Negative.得到计算公式如下：

Accuracy＝(TP+TN)/(TP+FP+TN+FN) (10)

Precision＝TP/(TP+FP) (11)

Recall＝TP/(TP+FN) (12)

F1-score＝2*Precision*Recall/(Precision+Recall) (13)

因为较高的精度和F1分值表明模型的性能更好，本发明使用了(10)和(13)的评价标准。

2基于多粒度孪生网络的中文句子语义匹配模型实验结果与分析

句子语义匹配是自然语言理解任务的基础。它的改进将有助于推进自然语言理解任务的进展。句子语义匹配的研究任务一般为给定两个句子作为输入，判定两个句子语义是否相同，即提出一个有效的方法和模型来学习和计算两个句子的相似性。

本发明使用基于多粒度孪生网络的中文句子语义匹配模型.实验参数设置如表2所示：

表2模型参数

本发明训练模型使用Adom方法而且学习率初始设置为0.0001，并采用学习率减少机制，如果验证集正确率在五个epochs后没有增加就减少学习率。epochs大小为100，批次大小为512。本发明训练模型时建立了早期停止机制。在10个epochs之后，如果验证集上的正确率没有提高，训练过程将自动停止并验证模型在测试集上的性能。

本发明研发的多粒度孪生网络的中文句子语义匹配模型MGFSN(Multi-Granularity Fusion Siamese neural Network，简称MGFSN)所用的数据集是LCQMC，语料库包含260,068个具有手动注释的问题对，本发明将其分为三个部分与中相同的比例，即包含238,766个问题对的训练集，包含8,802个问题对的开发集和包含12,500个问题对的测试集。表2是不同模型在LCQMC数据集上的Accuracy,Precision,Recall,F1值。

与有监督的并且采用神经网络方法相比如表3,CBOWchar,CBOWword,CNNchar,CNNword,BiLSTMchar,BiLSTMword,BiMPMchar,BiMPMword,our model SGFC improves theprecision metric by 14.75％,13.35％,14.15％,12.85％,13.85％,10.65％,3.65％,3.55％,recall by 6.67％,-0.43％,3.87％,4.87％,-1.53％,0.17％,-4.43％,-4.03％,F1-score by 11.37％,7.77％,9.97％,9.47％,7.67％,6.25％,0.17％,0.27％,andaccuracy by 13.81％,10.71％,12.61％,11.61％,10.91％,8.31％,1.01％,1.11％.相对于以上有监督的并且采用神经网络方法，本发明的方法不仅利用了多粒度，具有了更为丰富的特征，同时相较于以上大部分网络具有更深的网络结构可以提取更丰富和更深层次的语义特征。从而获得了比其他网络在F1-score和accuracy两个主要指标上更好的表现。

表3不同模型在LCQMC的实验

如图1所示的多粒度孪生网络的中文句子语义匹配模型MGFSN体系结构图，首先本发明将输入的语句从字和词两种粒度，进行嵌入，然后嵌入之后的结果分为字和词两种粒度进行编码，分别提取字和词两种粒度的特征，然后将将生成的特征进行交互，与原始特征叠加，并得到最终的匹配表示，输入sigmoid中判断匹配程度。

如图2所示的是多粒度编码层流程图：

对于输入的句子，先将其转换为字向量和词向量。首先针对词向量，利用attention机制，然后通过两层卷积神经网络，提取其特征。同时对于字向量，相仿对于词向量的编码方式，采用相同的网络结构，最后将上述两个关于字符粒度的编码结果，最后将它们相连，以获得更丰富的语义表示信息。

利用多粒度编码层，分别从字符和单词视角捕捉句子的复杂语义特征，通过两个特征的连接，获得更丰富的语义信息。本发明可以显著提高句子特征的表示。

如图3所示的是语义交互层流程图，首先将结合字词两种粒度的特征向量通过运算转换为S向量和M向量，然后送入两层全连接层，尺寸为256和512，用来提取特征，同时Q1feature和Q2feature分别通过尺寸为256的全连接层提取特征，然后将其连接。最后将上述操作获得的两个向量进行相加，利用叠加效应获得最终的特征向量，输入sigmoid。

如图4到5所示是本发明部分术语的效果展示

本发明提供的多粒度孪生网络的中文句子语义匹配模型MGFSN模型，由实验可看出，在相对于无监督的方法上的F1值最高提升了24.67％，最低提升了11.77％；accuracy值最高提升了24.41％，最低提升了13.71％。在有监督的并且采用神经网络方法上，F1值最高提升了11.37％，最低提升了0.17％；accuracy值最高提升了13.81％，最低提升了1.01％。可见本发明的基于多粒度孪生网络的中文句子语义匹配模型型对比其他模型效果更佳。

图6是本发明实施例提供的最大池化的效果示意图。即压平操作过程，其中左边方框为最大池化特征图一，向右第二方框为最大池化特征图二。

图7是本发明实施例提供的Flatten层效果示意图。图8是本发明实施例提供的不同算法在通用数据集上的实验对比结果示意图。图9是本发明实施例提供的不同算法在通用数据集上的实验对比结果柱状图。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多粒度孪生网络的中文句子语义匹配方法，其特征在于，所述基于多粒度孪生网络的中文句子语义匹配方法包括：

使用Word2Vec获得到预先训练的词向量，通过嵌入层将输入的中文句子序列转换为向量表示；

进入多粒度编码层分别从字符和单词视角捕捉句子的复杂语义特征；将上一层输出的特征向量，输入语义交互层，进行语义交互；

将语义交互结果送入输出层，获得句子语义是否相似的结果；

所述基于多粒度孪生网络的中文句子语义匹配方法具体包括以下步骤：

步骤三，从字符和单词视角捕捉句子的复杂语义特征；并基于得到的复杂语义特征获得语义交互结果；判断句子语义是否匹配；

步骤三中，所述从字符和单词视角捕捉句子的复杂语义特征包括：

(2)提取向量中的局部特征，并将所有特征进行融合，得到句子的复杂语义特征；

所述基于得到的复杂语义特征获得语义交互结果包括：

1)进行句子Q1和Q2的语义特征向量的相似性比较；

2.如权利要求1所述基于多粒度孪生网络的中文句子语义匹配方法，其特征在于，步骤一中，所述对句子进行预处理，包括：进行词粒度的分词和字粒度的分词；

具体包括：

分别读取训练集，测试集，验证集；将训练集，测试集，验证集利用jieba分词工具进行词粒度的分词；将训练集，测试集，验证集利用jieba分词工具进行字粒度的分词；将处理完的数据使用pickle工具保存到本地；

所述基于预处理完的句子利用word2vec训练获得预训练的词向量包括：

3.如权利要求1所述基于多粒度孪生网络的中文句子语义匹配方法，其特征在于，所述步骤1)相似性比较公式如下：

所述步骤2)将两个句子的语义特征向量进行连接包括：

4.如权利要求1所述基于多粒度孪生网络的中文句子语义匹配方法，其特征在于，所述步骤2)复杂语义提取公式如下：

a_t＝Attention(m_t,m_s)＝softmax(f(m_t,m_s))m_v (5)

c₁＝Conv(a_t) (6)

m₁＝MaxPool(c₁) (7)

c₂＝Conv(m₁) (8)

m₂＝MaxPool(c₂) (9)。

5.如权利要求1所述基于多粒度孪生网络的中文句子语义匹配方法，其特征在于，所述判断句子语义是否匹配包括：

6.一种实施如权利要求1-5任意一项所述基于多粒度孪生网络的中文句子语义匹配方法的基于多粒度孪生网络的中文句子语义匹配系统，其特征在于，所述基于多粒度孪生网络的中文句子语义匹配系统包括：

嵌入层，用于将输入的中文句子序列将被转换为向量表示；

语义交互层，用于将特征向量进行语义交互；

输出层，用于获得句子语义是否相似的结果。

7.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1-5任意一项所述基于多粒度孪生网络的中文句子语义匹配方法。

8.一种信息数据处理终端，其特征在于，所述信息数据处理终端执行权利要求1-5任意一项所述基于多粒度孪生网络的中文句子语义匹配方法。