CN113254616B

CN113254616B - 面向智能问答系统的句向量生成方法及系统

Info

Publication number: CN113254616B
Application number: CN202110628620.XA
Authority: CN
Inventors: 杨钊; 何慧
Original assignee: Brilliant Data Analytics Inc
Current assignee: Brilliant Data Analytics Inc
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-10-19
Anticipated expiration: 2041-06-07
Also published as: CN113254616A

Abstract

本发明涉及面向智能问答系统的句向量生成方法及系统，其方法包括：对给定的中文句子进行中文分词；根据分词结果为每个词生成对应的中文词向量；对句子进行语义角色标注，生成句子的语义关系图；以词向量作为输入，对句子进行编码，输出每个词向量的隐状态向量；对语义关系图进行编码，生成语义关系图的邻接矩阵；将语义关系图的邻接矩阵及词向量的隐状态向量输入图卷积网络GCN后，与BERT预训练模型的中间层各输出进行逐层融合迭代，获得最终编码后的句向量。相较于一般的句向量生成方法，本发明由于融入了句子的语义结构编码，拥有更丰富、更有指导性的信息，为相似问句语义匹配提供更高质量的输入，提高查询的精度。

Description

面向智能问答系统的句向量生成方法及系统

技术领域

本发明属于人工智能中的自然语言处理技术(NLP)，具体为面向智能问答系统的句向量生成方法及系统。

背景技术

智能问答系统(Question-Answering)是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛应用前景的研究方向，而面向常用问题集（Frequently AskedQuestions, FAQ）的检索型问答系统是目前最广泛使用的一种智能问答系统。FAQ检索型问答是根据用户提交的问询，在FAQ库中查找语义上最接近的一个对应问题，并把相应的回答反馈给用户。

FAQ问答系统的核心任务可以抽象为相似问句语义匹配任务，即根据用户提交的问句与FAQ库中的标准问句进行语义相似性度量。传统文本匹配方法，如信息检索中的BM25、向量空间模型VSM等方法，主要解决字面相似度问题。然而由于中文含义的丰富性，通常很难直接根据关键字匹配或者基于机器学习的浅层模型来确定两个句子之间的语义相似度。

衡量句子语义相似度的基础是句向量的生成，首先是将相似问句映射到一个高维度的语义空间中，然后才可以定义他们的相似性度量，如余弦相似度，使得语义上越接近的问句，其度量值越大。

传统的句向量生成主要依靠预训练模型，而目前NLP中的预训练模型是在大规模语料上进行无监督训练，学习得到通用的语言组合的规律和模式，有助于解决下游任务；目前的预训练模型主要使用神经网络，其中最有影响力的是2013年谷歌提出的word2vec，随后在2018年谷歌进一步提出了更高级的BERT模型。但是目前的预训练模型主要是根据词语和句子的共现（co-occurrence）关系来生成编码，没有进一步显示地融合词语和词语之间的语义关系信息，因此需要进一步的改善和提升。

发明内容

为了解决现有技术所存在的问题，本发明提供面向智能问答系统的句向量生成方法，通过引入SRL(Semantic Role Labeling，语义角色标注）浅层语义分析技术生成对应的语义关系图，利用图卷积网络GCN（Graph Convolutional Network）进行编码，然后通过与中文BERT预训练模型中不同层的输出进行抽取和融合，生成融合了语义关系信息的句向量，能够为相似问句的语义匹配问题提供更高质量的输入，有效提高检索式问答系统中的查询精度。

本发明还提供面向智能问答系统的句向量生成系统。

本发明的面向智能问答系统的句向量生成方法，包括以下步骤：

（1）、对给定的中文句子进行中文分词；

（2）、根据分词结果，为每个词生成对应的中文词向量；

（3）、对句子进行语义角色标注，生成句子的语义关系图；

（4）、以词向量作为输入，对句子进行编码，以隐状态向量的方式输出每个词对应的隐状态信息；

（5）、对语义关系图中每个节点进行初始编码，同时生成语义关系图的邻接矩阵；在语义关系图的邻接矩阵中，矩阵元素

的取值为：

其中，将步骤（4）中生成的隐状态向量赋值给每个节点，作为语义关系图中每个节点的初始编码；

（6）、将步骤（5）中语义关系图的邻接矩阵及步骤（4）中词向量的隐状态向量输入图卷积网络GCN后，与BERT预训练模型的中间层各输出进行逐层融合迭代，获得最终编码后的句向量。

相应地，本发明的面向智能问答系统的句向量生成系统，包括：

中文分词模块，用于对给定的中文句子进行中文分词；

词向量生成模块，用于根据中文分词模块的分词结果，为每个词生成对应的中文词向量；

语义关系图生成模块，用于对句子进行语义角色标注，生成句子的语义关系图；

词向量编码模块，以词向量作为输入，对句子进行编码，以隐状态向量的方式输出每个词对应的隐状态信息；

语义关系图编码模块，对语义关系图中每个节点进行初始编码，同时生成语义关系图的邻接矩阵；在语义关系图的邻接矩阵中，矩阵元素

的取值为：

融合迭代模块，用于将语义关系图的邻接矩阵及词向量的隐状态向量输入图卷积网络GCN后，与BERT预训练模型的中间层各输出进行逐层融合迭代，获得最终编码后的句向量。

从以上技术方案可知，本发明由于融合了语义关系信息，所生成的句子向量编码比普通的基于共现（co-occurrence）关系的预训练模型生成的编码拥有更丰富、更有指导性的信息，能为相似问句的语义匹配问题提供更高质量的输入，可以有效提高检索式问答系统中的查询精度。与现有技术相比，本发明取得的技术效果具体包括：

1、充分利用了句子的语义关系信息。本发明对句子应用了语义角色标注SRL这种浅层语义分析技术，生成对应的语义关系图（本发明称为SRL图），融合到句向量的生成中，丰富了句向量蕴含的指导性信息，为相似问句语义匹配提供了高质量的输入。

2、利用图卷积网络GCN这种学术界最前沿的模型进行SRL图嵌入编码。GCN将卷积神经网络（Convolutional Neural Network, CNN）这种强大的模型从图像处理领域拓展到了非欧式空间数据，通过保留图的网络拓扑结构和节点内容信息，将图中节点表示为向量。而本发明将图卷积网络GCN应用于SRL图，并通过与中文BERT预训练模型中不同层的输出进行抽取和融合，以生成对应的句向量，可以生成高效高质量的编码。

3、充分利用了BERT预训练模型的中间层输出，并与图卷积网络GCN的各层输出进行了融合，并通过迭代优化，实现了优势互补。自BERT预训练模型提出以来，大量工作都是使用其最后一层输出作为上下文相关的编码，而忽略了中间层输出。实际上，BERT预训练模型不同层学习到的知识有显著偏好：低层偏向学习短语结构信息，中层偏向学习句法信息，高层偏向学习语义信息；本发明将BERT预训练模型中间几层的数据进行了抽取和利用，充分融合了低、中、高各层信息，可以显著提高所生成句向量的质量，为相似问句的语义匹配问题提供更高质量的输入，提高智能问答场景中的相似问句语义匹配的精准度，有效提高检索式问答系统中的查询精度。

附图说明

图1是本发明实施例中对中文问句进行SRL图编码的流程图；

图2是本发明实施例中所生成的SRL图；

图3是本发明实施例中BiLSTM网络对词向量进行编码的流程图；

图4是本发明实施例中通过逐层融合迭代生成句向量的流程图；

图5是本发明实施例的模型训练过程中利用反向传播算法进行参数更新的流程图；

图6是本发明实施例中应用模型进行智能问答的处理流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

在本实施例中，面向智能问答系统的句向量生成方法包括以下步骤：

S1、对给定的中文句子进行中文分词；

如图1所示，给定一个中文句子，首先进行中文分词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。目前有非常多的开源中文分词工具，本实施例使用HanLP分词技术,可以直接高效地完成对中文句子的自动分词。

比如句子：“他是研究生命的起源”，正确的分词结果为：

他/是/研究/生命/的/起源。

而错误的分词结果为：

他/是/研究生/命/的/起源。

S2、根据分词结果，为每个词生成对应的中文词向量；

本实施例中采用腾讯词向量（Tencent AI Lab Embedding Corpus for ChineseWords and Phrases），腾讯词向量提供了预训练好的800万中文词汇的word embedding（200维词向量），可以应用于很多自然语言处理技术NLP的下游任务。在腾讯中文词向量中，通过直接查找中文词语列表，就可以检索出对应句子中每个词语的词向量。

S3、对句子进行语义角色标注(Semantic Role Labeling, SRL)，生成句子的语义关系图（SRL图）；

语义角色标注(SRL)是一种浅层语义分析技术，以句子为单位，分析句子核心-论元结构，例如句子的谓词-论元结构。语义角色标注的本质是针对句子核心（例如句子中的谓词）来确定其它论元以及其它论元与句子核心之间的角色关系。

具体来说，本实施例中语义角色标注的任务就是以句子的谓词为中心，研究句子中各成分与谓词之间的关系，并且用语义角色来描述它们之间的关系。例如句子: “领导上午在礼堂举行了欢迎仪式”，这个句子中包括的语义角色如表1所示：

本实施例中语义角色标注SRL涵盖的关系标签含义如下表2所示：

本实施例可以利用HanLP分词技术,直接生成句子的SRL图，如图2所示。

S4、以词向量作为输入，使用双向长短时记忆网络(BiLSTM)对句子进行编码，以隐状态向量的方式输出每个词对应的隐状态信息；

如图3所示，在词向量基础上，本实施例应用双向长短时记忆网络(BiLSTM)，对句子进行前向和后向编码，输出每个词对应的隐状态向量，该隐状态向量表达了每个词对应的隐状态信息，而隐状态信息在一定程度上蕴含词语的上下文信息，为了方便后续和BERT预训练模型的中间层输出结果进行融合，隐状态向量的维度设定为768维。图3中带箭头的八个时间参数表示前一时刻或后一时刻，因为BiLSTM的计算与时序有关，会计算不同时刻（前一时刻或后一时刻）的有用记忆信息进行传递，并在每个时间步输出隐状态向量。

S5、对SRL图中每个节点进行初始编码，同时生成SRL图的邻接矩阵；

在步骤S5中首先需要对SRL图中的每个节点（词）进行初始编码。上述步骤S3生成的SRL图被当作无向图，每个节点(词)的初始化向量即为步骤S4中BiLSTM网络输出的隐状态信息(768维)，因此将步骤S4中利用BiLSTM网络生成的隐状态向量P_i赋值给每个节点(词x_i)，作为SRL图中每个节点的初始编码。

为了进行步骤S6的迭代训练，本步骤还需要生成SRL图的邻接矩阵，作为迭代训练输入的参数，具体的邻接矩阵形式如表3所示：

在SRL图的邻接矩阵中，矩阵元素

的取值如下：

S6、将步骤S5中SRL图的邻接矩阵及步骤S4中词向量的隐状态向量输入图卷积网络（Graph Convolutional Network，GCN）后，与BERT预训练模型的中间层各输出进行逐层融合迭代，获得最终编码后的句向量；

在步骤S5完成SRL图中节点的初始编码赋值后，就可以利用图卷积网络GCN进行后续优化。图卷积网络GCN是一种高效编码图结构数据的强大模型。对于一张图，图中的每个节点都能用一个向量来表示其特征，图卷积网络GCN的目标就是学习出图中每个节点的向量特征；对于每个节点，它的特征由它的邻居决定，GCN用图中每个节点的一跳邻居节点来迭代更新所有节点的向量特征；在开始时，每个节点被初始化为初始状态，而后GCN对图中每个节点的表示进行更新，这时图中每个节点即可获得它们所有一跳邻居节点的信息。本实施例中，叠加使用L层图卷积网络GCN，每个节点最后可以获得L跳邻居节点的信息。

图卷积网络GCN对整个句子的编码，就是对整个图的编码，可以定义为各个节点向量的和。本实施例中，图卷积网络GCN设有四个图卷积层。在本步骤中，首先把中文句子输入到BERT预训练模型中，利用其四个中间层（例如第1层、第4层、第8层和第12层）的输出，分别与GCN四个图卷积层的各节点向量输出进行点积操作，并将点积操作的结果输入GCN下一层图卷积层进行迭代；将GCN最后一层图卷积层的各节点向量之和(句子编码)，与BERT预训练模型的输出进行点积操作，作为最终句子向量编码的结果，如图4所示。

GCN中每层图卷积层的节点向量经过以下卷积操作进行更新：

其中，

是非线性激活函数，

是图卷积网络第k层的可学习参数，

是补充了节点自我连接的SRL图邻接矩阵

的增强版，即

，

表示节点的自我连接特征，

是

的度矩阵。在本实施例中，

是一个单位矩阵，用以表示节点的自我连接特征，该矩阵是一个方阵，从左上角到右下角的对角线（称为主对角线）上的元素均为1，其他全都为0；加上矩阵

之后，原来邻接矩阵的对角元素从0变为1。

S7、训练模型

作为优选的实施例，在进行逐层融合迭代之前，还进行训练模型。本实施例所采用模型中，可学习参数都在GCN的图卷积层，因此需要使用训练数据集去训练模型。训练数据集的格式如表4所示。

对于FAQ问答中每个问题的标准问句，训练数据集中需要有对应的多个不同提问方式的用户端个性化问句；针对多个不同提问方式的用户端个性化问句，分别用标签“1”表示句子向量的语义相同，标签“0”表示句子向量的语义不相同。

在本实施例，使用余弦相似度去度量句子向量的语义相似性。余弦相似度是计算两个向量相似度的一种常见方法。向量

、

的相似度，可以通过向量

、

对应的夹角来度量，计算方法如下：

通过数学知识可以知道，当向量

、

之间的余弦值为1时，相似度达到最大值1；向量当

、

之间的余弦值为0时，相似度达到最小值0；因此余弦值是在

之间取值来表示不同向量之间相似度。

本实施例的模型训练过程中使用的损失函数定义如下：

其中，W是模型参数；Y是成对标签，如果向量X ₁ 、X ₂这对样本句子语义相同，则Y=1，如果向量X ₁ 、X ₂的语义不相同则 Y=0；S（X ₁，X ₂ ）是向量X ₁与向量X ₂的余弦相似度。

当Y=0时，调整参数，最小化向量X ₁与X ₂之间的余弦相似性（使得它们越来越不相似）。当Y=1时，为了减少损失函数的值，则需要增大向量X ₁与X ₂两者之间距离（使得它们越来越相似）。

最后，模型训练过程中利用反向传播算法（Back Propagation，BP）进行参数更新，直至收敛，流程如图5所示。

S8、应用模型

训练好模型后，就可以部署应用。如图6所示，首先将FAQ库中问题的标准问句作为给定的句子，使用模型（通过步骤S1-S6）为FAQ库中问题的标准问句生成对应的句向量，并形成相应的索引表，如表5所示，索引表包括FAQ问题编号、问题的标准问句、句向量及问题的回答。

接着，对于每一个用户提交的查询问句，首先输入本实施例模型，生成对应的句向量，然后与索引表中标准问句的向量计算余弦相似度，选取语义最相似的标准问句；如果余弦相似度大于某个预设阈值，则直接输出该问题对应的回答，否则表明FAQ库中没有语义上相似的问题，建议用户转人工服务。

基于相同的发明构思，本实施例还提供面向智能问答系统的句向量生成系统，具体包括：

中文分词模块，用于实现上述步骤S1，对给定的中文句子进行中文分词；

词向量生成模块，用于实现上述步骤S2，根据中文分词模块的分词结果，为每个词生成对应的中文词向量；

语义关系图生成模块，用于实现上述步骤S3，对句子进行语义角色标注，生成句子的语义关系图；

词向量编码模块，用于实现上述步骤S4，以词向量作为输入，对句子进行编码，以隐状态向量的方式输出每个词对应的隐状态信息；

语义关系图编码模块，用于实现上述步骤S5，对语义关系图进行编码，生成语义关系图的邻接矩阵，并得到语义关系图中每个节点的初始编码；在语义关系图的邻接矩阵中，矩阵元素

的取值为：

每个节点的初始编码为对词向量编码后生成的隐状态向量；

融合迭代模块，用于实现上述步骤S6，将语义关系图的邻接矩阵及词向量的隐状态向量输入图卷积网络GCN后，与BERT预训练模型的中间层各输出进行逐层融合迭代，获得最终编码后的句向量。

在句向量生成系统中，在融合迭代模块进行逐层融合迭代之前，也进行训练模型，训练过程如上述步骤S7所述；此外，训练好模型后，如上述步骤S8应用模型，首先将FAQ库中问题的标准问句作为给定的句子，使用模型为FAQ库中问题的标准问句生成对应的句向量，并形成相应的索引表，索引表如表5所示。

总的来说，本发明通过对句子应用语义角色标注SRL这种浅层语义分析技术，生成对应的语义关系图，接着利用图卷积网络GCN进行图节点编码，然后通过与中文BERT预训练模型中不同层的输出进行抽取和融合，生成句向量，以便后续进行相似问句语义匹配。相较于一般的句向量生成方法，本发明由于融入了句子的语义结构编码，因此比单纯的预训练模型拥有更丰富、更有指导性的信息，可以为智能问答系统中的相似问句语义匹配提供更高质量的输入，从而提高查询的精度。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.面向智能问答系统的句向量生成方法，其特征在于，包括以下步骤：

（1）、对给定的中文句子进行中文分词；

（2）、根据分词结果，为每个词生成对应的中文词向量；

（3）、对句子进行语义角色标注，生成句子的语义关系图；

的取值为：

2.根据权利要求1所述的句向量生成方法，其特征在于，步骤（1）给定的句子为FAQ库中问题的标准问句，通过步骤（1）-（6）生成对应的句向量后，形成相应的索引表，所述索引表包括FAQ问题编号、问题的标准问句、句向量及问题的回答。

3.根据权利要求1所述的句向量生成方法，其特征在于，步骤（3）中进行语义角色标注时，以句子的谓词为中心，研究句子中各成分与谓词之间的关系，并用语义角色描述句子中各成分与谓词之间的关系。

4.根据权利要求1所述的句向量生成方法，其特征在于，步骤（4）采用双向长短时记忆网络对句子进行前向和后向编码，输出每个词对应的隐状态向量；隐状态信息蕴含词语的上下文信息。

5.根据权利要求1所述的句向量生成方法，其特征在于，步骤（6）中图卷积网络GCN设有四个图卷积层，首先把中文句子输入到BERT预训练模型中，利用BERT预训练模型四个中间层的输出，分别与图卷积网络GCN四个图卷积层的各节点向量输出进行点积操作，并将点积操作的结果输入图卷积网络GCN下一层图卷积层进行迭代；将图卷积网络GCN最后一层图卷积层的各节点向量之和，与BERT预训练模型的输出进行点积操作，作为最终句子向量编码的结果。

6.根据权利要求5所述的句向量生成方法，其特征在于，图卷积网络GCN中每层图卷积层的节点向量经过以下卷积操作进行更新：

其中，

是非线性激活函数，

是图卷积网络第k层的可学习参数，

是补充了节点自我连接的语义关系图邻接矩阵

的增强版：

其中

为单位矩阵，表示节点的自我连接特征，

是

的度矩阵。

7.根据权利要求6所述的句向量生成方法，其特征在于，单位矩阵

是一个方阵，主对角线上的元素均为1，其他全都为0。

8.面向智能问答系统的句向量生成系统，其特征在于，包括：

中文分词模块，用于对给定的中文句子进行中文分词；

的取值为：

9.根据权利要求8所述的句向量生成系统，其特征在于，语义关系图生成模块进行语义角色标注时，以句子的谓词为中心，研究句子中各成分与谓词之间的关系，并用语义角色描述句子中各成分与谓词之间的关系。

10.根据权利要求8所述的句向量生成系统，其特征在于，融合迭代模块中图卷积网络GCN设有四个图卷积层，首先把中文句子输入到BERT预训练模型中，利用BERT预训练模型四个中间层的输出，分别与图卷积网络GCN四个图卷积层的各节点向量输出进行点积操作，并将点积操作的结果输入图卷积网络GCN下一层图卷积层进行迭代；将图卷积网络GCN最后一层图卷积层的各节点向量之和，与BERT预训练模型的输出进行点积操作，作为最终句子向量编码的结果；

图卷积网络GCN中每层图卷积层的节点向量经过以下卷积操作进行更新：