CN112417884A

CN112417884A - 一种基于知识增强和知识迁移的句子语义相关度判断方法

Info

Publication number: CN112417884A
Application number: CN202011221328.8A
Authority: CN
Inventors: 徐玲; 苏锦钿
Original assignee: Guangzhou Pingyun Information Technology Co ltd
Current assignee: Guangzhou Pingyun Information Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-26

Abstract

本发明公开了一种基于知识增强和知识迁移的句子语义相关度判断方法，根据语料集中已标注的训练数据和验证数据构造相应的无监督训练语料，并利用该语料对预训练BERT进行再次训练，从而得到包含任务相关领域知识的预训练语言模型TBERT；一方面根据BERT的输入要求将待判断的两个句子构造成句子对作为TBERT的输入，通过多层Transformer模型的学习句子对的全局上下文信息及其关系，从而得到句子对的全局语义相关信息；另一方面通过一个孪生BERT网络分别学习各个句子的局部语义信息，然后结合距离函数计算它们之间的语义相关度信息，从而得到包含句子局部语义及距离信息的语义向量，并最后合并得到最终的句子语义相关度表示。

Description

一种基于知识增强和知识迁移的句子语义相关度判断方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种基于知识增强和知识迁移的句子语义相关度判断方法。

背景技术

句子的语义相关度判断是文本挖掘及自然语言处理领域中的一个重要子任务，在问答系统、搜索引擎、文本分类等领域中有着广泛的应用。句子语义相似度的主要研究目标是通过机器学习的方式判断两个句子之间的语义相似性。早期的研究主要侧重于结合传统的机器学习方法从语法的角度研究句子之间的相关度。近年来，随着深度学习以及各种预训练语言模型（如BERT和XLNet等）的快速发展，学术界和工业界开始在基于大规模通用文本语料的基础上训练所得的预训练语言模型基础上，进一步结合微调的方式学习任务相关的知识，并在多个句子语义相关度语料任务上取得了新的最好效果。

近两年来，许多相关工作证明了利用大规模无标注文本语料学习通用语言表示，并根据具体任务进行微调的方式是非常有效的，其中以BERT为主要代表。基于预训练语言模型+微调的两阶段模型在多个自然语言处理任务上取得了新的最好结果。由于预训练语言模型BERT是在海量的通用无监督文本上结合MLM和NSP目标训练所得，往往缺乏任务相关的领域知识。虽然在微调的过程中可以学习任务相关的知识，但容易因缺乏足够的训练语料而导致模型训练不足，难以更好地学习任务相关的知识和提升模型的效果。另一方面，在基于BERT的句子语义相关度研究中通常将待判断的两个句子构造成一个句子对作为预训练语言模型BERT的输入，并将[CLS]标志所对应的词向量作为最终的语义进行相关度的判断，没有进一步考虑句子之间的语义距离信息，为此，我们提出一种基于知识增强和知识迁移的句子语义相关度判断方法。

发明内容

本发明的目的是针对上述现有研究的不足，提出一种基于知识增强和知识迁移的句子语义相关度判断方法，首先，通过利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料，并对预训练语言模型BERT进行再训练，目的是进一步增强任务相关的知识，并得到相应的包含任务相关知识的TBERT模型；接着，一方面利用TBERT学习句子对之间的关系，另一方面利用孪生TBERT网络学习各个句子的语义向量，并结合距离函数给出句子之间的语义关系，最后合并得到最终的句子语义相关度词向量，将结果通过一个全连接网络和一个sigmoid网络进行计算及输出。

为实现上述目的，本发明提供如下技术方案：一种基于知识增强和知识迁移的句子语义相关度判断方法，判断方法的具体步骤为；

步骤一：对目标任务语料集中的所有句子语义相关度进行归一化处理，使得统一为区间[0，1]中的值，具体的归一化公式为：round((y-min)/(max-min)，4)，其中：round表示四舍五入并取小数点后4位，y表示具体某一个句子对的原始相关度，max和min分别表示该任务语料集中所有句子相关度的最大值和最小值；

步骤二：根据目标任务语料集中已标注的训练数据和验证数据，通过一定的策略构造相应的无标注训练语料，具体来说，若已标注的数据中句子对的语义相关度在区间(0.5，1]中，则在待训练语料中该句子对为相邻关系，即为同一段落，同时按50%的概率对调两个句子的先后顺序；若语义相关度在区间[0，0.5]，则在待训练语料中将句子对划分为两个独立的段落，并通过空白行进行相隔，同时按50%的概率对调句子的先后顺序；

步骤三：在预训练BERT模型的基础上，利用步骤二中构造的任务相关语料及BERT中的MLM（MaskedLanguageModel）和NSP（NextSentencePrediction）训练目标对BERT进行训练，目的是在预训练BERT的基础上进一步增强任务相关的领域知识，并得到相应的TBERT模型；

步骤四：对于待判断的两个句子，一方面构造句子对作步骤三中TBERT的输入，并将TBERT中最后一层的[CLS]标志所对应的词向量作为句子对的全局上下文信息及语义关系的词向量表示；

步骤五：使用一个孪生TBERT网络分别单独学习各个句子的语义表示，并将TBERT中最后一层的[CLS]标志所对应的词向量作为各个句子的局部语义向量表示，同时通过绝对值运算和对应元素相乘运算等距离函数分别计算两个句子的语义距离关系，从而得到包含两个句子之间距离关系的词向量，并与步骤四中句子对的语义词向量表示进行合并，从而得到最终的句子语义相关度表示词向量；

步骤六：通过一个全连接网络层对步骤五中的句子语义相关度词向量进行维度转换，并最后利用sigmoid函数得到最终的句子相关度结果，同时根据均方误差MSE（MeanSquared Error）作为损失函数对模型中的待训练参数进行反向调整。

优选的，基于知识增强和知识迁移的句子语义相关度判断方法是在一个任务相关预训练方法及一个多层神经网络中完成的，步骤一和步骤二在该预训练方法中完成，步骤三在该多层网络的第一层输入层中完成，步骤四在第二层BERT层中完成，步骤五在第三层距离层中完成，步骤六在第四层输出层中完成。

优选的，基于知识增强和知识迁移的句子语义相关度判断方法为一个三阶段的方法，即预训练-任务相关预训练-微调，任务相关预训练方法通过充分利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料，并对预训练BERT语言进行再训练，目的是进一步增强任务相关的知识并得到包含领域知识的TBERT模型；多层网络模型通过利用TBERT一方面学习句子对的全局上下文信息以及相关性；另一方面通过一个孪生TBERT分别学习各个句子的局部语义，并结合距离函数计算句子之间的相关性，最后合并得到最终的句子语义相关度表示。

优选的，步骤一中针对不同语料集中可能存在的多种不同语义相关度表示，利用归一化公式将语义相关度表示统一转化为区间[0，1]上的实数表示，其中0表示完全不相关，1表示完全相同，数值越大，表示相关度越强。

优选的，步骤二为任务相关的预训练方法，通过利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料后，对预训练语言模型BERT进行再训练，从而得到了增强任务知识的预训练语言模型TBERT。

优选的，步骤三为句子对的全局上下文信息及相关性学习，利用一个TBERT学习句子对的上下文信息及相关性，并将最后一层中的[CLS]标志所对应的词向量作为相应的全局语义表示。

优选的，步骤四为各个句子的语义词向量表示及语义距离信息学习，通过一个共享的孪生TBERT网络分别学习各个句子的语义，并结合绝对值运算、对应元素相乘运算等距离函数分别计算两个句子的语义距离，最后串联合并得到最终的句子语义相关度向量表示。

优选的，步骤五为通过一个全连接网络和一个sigmoid层进行相似度判别，步骤五的输出结果为区间[0，1]的某个值，表示两个句子之间的相似度，其值越大表示越相关，其值越小表示越不相关。

与现有技术相比，本发明的有益效果是：本发明通过在现有预训练+微调的两阶段方法基础上，结合目标任务中的训练集及验证集构造相应的无监督训练语料，提出一种基于预训练+任务相关预训练+微调的三阶段方法，同时给出相应的句子语义相关度判断模型，目的是更好地利用知识增强和知识迁移提升模型的效果，实验结果证明，该方法可以进一步提高句子语义相关判别模型的皮尔逊相关系数（Pearson correlation coefficient）和斯皮尔曼相关系数（Spearson correlation coefficient），并具有较好的通用性，在测试的SICK和STS等多个相关语料库上都取得了优于经典BERT及之前各相关方法的效果，并应用于党建问答及党建文本识别等相关系统中。

附图说明

图1为本发明多层神经网络模型的总体架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于知识增强和知识迁移的句子语义相关度判断方法，判断方法的具体步骤为；

基于知识增强和知识迁移的句子语义相关度判断方法是在一个任务相关预训练方法及一个多层神经网络中完成的，步骤一和步骤二在该预训练方法中完成，步骤三在该多层网络的第一层输入层中完成，步骤四在第二层BERT层中完成，步骤五在第三层距离层中完成，步骤六在第四层输出层中完成；

基于知识增强和知识迁移的句子语义相关度判断方法为一个三阶段的方法，即预训练-任务相关预训练-微调，任务相关预训练方法通过充分利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料，并对预训练BERT语言进行再训练，目的是进一步增强任务相关的知识并得到包含领域知识的TBERT模型；多层网络模型通过利用TBERT一方面学习句子对的全局上下文信息以及相关性；另一方面通过一个孪生TBERT分别学习各个句子的局部语义，并结合距离函数计算句子之间的相关性，最后合并得到最终的句子语义相关度表示；

步骤一中针对不同语料集中可能存在的多种不同语义相关度表示，利用归一化公式将语义相关度表示统一转化为区间[0，1]上的实数表示，其中0表示完全不相关，1表示完全相同，数值越大，表示相关度越强；

步骤二为任务相关的预训练方法，通过利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料后，对预训练语言模型BERT进行再训练，从而得到了增强任务知识的预训练语言模型TBERT；

步骤三为句子对的全局上下文信息及相关性学习，利用一个TBERT学习句子对的上下文信息及相关性，并将最后一层中的[CLS]标志所对应的词向量作为相应的全局语义表示；

步骤四为各个句子的语义词向量表示及语义距离信息学习，通过一个共享的孪生TBERT网络分别学习各个句子的语义，并结合绝对值运算、对应元素相乘运算等距离函数分别计算两个句子的语义距离，最后串联合并得到最终的句子语义相关度向量表示；

步骤五为通过一个全连接网络和一个sigmoid层进行相似度判别，步骤五的输出结果为区间[0，1]的某个值，表示两个句子之间的相似度，其值越大表示越相关，其值越小表示越不相关。

上面所述的基于知识增强和知识迁移的句子语义相关度判断方法中的语义相关度判断模型是在一个多层神经网络中完成的，多层神经网络的架构图如图1所示，步骤一在第一层输入层中完成；步骤二在第二层BERT层中完成，其中各单元词向量的输出维度为768维；步骤三在第三层距离层中完成，对于合并策略主要采用串联的方式；步骤四在第四层输出层中完成，最后通过一个sigmoid函数进行相关度计算。模型训练过程中采用均方误差定义损失函数，并结合了Adam优化器，其学习率统一为2e-05，句子长度取128，并采用全词掩码的方式。为避免过拟合，采用基于Dropout的正则化策略，值统一设置为0.1，通过在现有预训练+微调的两阶段方法基础上，结合目标任务中的训练集及验证集构造相应的无监督训练语料，提出一种基于预训练+任务相关预训练+微调的三阶段方法，同时给出相应的句子语义相关度判断模型，目的是更好地利用知识增强和知识迁移提升模型的效果，实验结果证明，该方法可以进一步提高句子语义相关判别模型的皮尔逊相关系数（Pearsoncorrelation coefficient）和斯皮尔曼相关系数（Spearson correlation coefficient），并具有较好的通用性，在测试的SICK和STS等多个相关语料库上都取得了优于经典BERT及之前各相关方法的效果，并应用于党建问答及党建文本识别等相关系统中。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于知识增强和知识迁移的句子语义相关度判断方法，其特征在于：判断方法的具体步骤为；

2.根据权利要求1所述的一种基于知识增强和知识迁移的句子语义相关度判断方法，其特征在于：基于知识增强和知识迁移的句子语义相关度判断方法是在一个任务相关预训练方法及一个多层神经网络中完成的，步骤一和步骤二在该预训练方法中完成，步骤三在该多层网络的第一层输入层中完成，步骤四在第二层BERT层中完成，步骤五在第三层距离层中完成，步骤六在第四层输出层中完成。

3.根据权利要求2所述的一种基于知识增强和知识迁移的句子语义相关度判断方法，其特征在于：基于知识增强和知识迁移的句子语义相关度判断方法为一个三阶段的方法，即预训练-任务相关预训练-微调，任务相关预训练方法通过充分利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料，并对预训练BERT语言进行再训练，目的是进一步增强任务相关的知识并得到包含领域知识的TBERT模型；多层网络模型通过利用TBERT一方面学习句子对的全局上下文信息以及相关性；另一方面通过一个孪生TBERT分别学习各个句子的局部语义，并结合距离函数计算句子之间的相关性，最后合并得到最终的句子语义相关度表示。

4.根据权利要求3所述的一种基于知识增强和知识迁移的句子语义相关度判断方法，其特征在于：步骤一中针对不同语料集中可能存在的多种不同语义相关度表示，利用归一化公式将语义相关度表示统一转化为区间[0，1]上的实数表示，其中0表示完全不相关，1表示完全相同，数值越大，表示相关度越强。

5.根据权利要求3所述的一种基于知识增强和知识迁移的句子语义相关度判断方法，其特征在于：步骤二为任务相关的预训练方法，通过利用目标任务集中已标注的训练数据及验证数据构造无监督的待训练语料后，对预训练语言模型BERT进行再训练，从而得到了增强任务知识的预训练语言模型TBERT。

6.根据权利要求3所述的一种基于知识增强和知识迁移的句子语义相关度判断方法，其特征在于：步骤三为句子对的全局上下文信息及相关性学习，利用一个TBERT学习句子对的上下文信息及相关性，并将最后一层中的[CLS]标志所对应的词向量作为相应的全局语义表示。

7.根据权利要求3所述的一种基于知识增强和知识迁移的句子语义相关度判断方法，其特征在于：步骤四为各个句子的语义词向量表示及语义距离信息学习，通过一个共享的孪生TBERT网络分别学习各个句子的语义，并结合绝对值运算、对应元素相乘运算等距离函数分别计算两个句子的语义距离，最后串联合并得到最终的句子语义相关度向量表示。

8.根据权利要求3所述的一种基于知识增强和知识迁移的句子语义相关度判断方法，其特征在于：步骤五为通过一个全连接网络和一个sigmoid层进行相似度判别，步骤五的输出结果为区间[0，1]的某个值，表示两个句子之间的相似度，其值越大表示越相关，其值越小表示越不相关。