CN111310411A

CN111310411A - 一种基于多样性模型的文本相关性判定方法、装置和设备

Info

Publication number: CN111310411A
Application number: CN202010155810.XA
Authority: CN
Inventors: 林智敏; 邓蔚; 雷大江; 黄媛; 李子杨
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-06-19
Anticipated expiration: 2040-03-09
Also published as: CN111310411B

Abstract

本发明涉及一种基于多样性模型的文本相关性判定方法，包括：获取第一文档与第二文档，分别进行预处理，其中，所述预处理包括去除特殊符号和乱码；将预处理后的第一文档和第二文档合并转化为数字序列，输入至少两个预训练模型中；所述至少两个预训练模型分别获取合并后数字序列的向量，并加入噪声层分别获得对应的特征向量；将所述特征向量分别送入softmax函数，获得各自的相关性矩阵；将所述各自的相关性矩阵加权求和，获得相关性判断结果。本发明提高了判定文本相关性的有效性和准确性。

Description

一种基于多样性模型的文本相关性判定方法、装置和设备

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于多样性模型的文本相关性判定方法和设备。

背景技术

随着互联网技术的不断发展，网络上充斥着海量的数据，比如各种图片、文本等内容，丰富着人们的生活。但是，伴随这些信息的，还有各种无价值的垃圾信息，比如人们不想看到的广告、新闻等。如何从海量的数据中判定信息的相关性，获得用户所期望的信息，减少无价值信息的干扰就变得十分重要。

文本作为自然语言的载体，通常以一种非结构化或半结构化的形式存在，两个文本相关性的判定是自然语言处理中的文本语义匹配问题。例如，信息检索可以归结为查询项和文档的匹配，问答系统可以归结为问题和候选答案的匹配。针对不同的任务选取合适的匹配模型，提高匹配的准确率成为自然语言处理任务的重要挑战。

随着近年来深度学习在自然语言处理领域的发展，学者们逐渐将深度学习应用到文本相关度判定任务中。深度学习应用在文本相关性判定可以总结为以下四个阶段：1、单语义模型，单语义模型只是简单的用全连接网络、卷积神经网络或递归神经网络编码两个句子然后计算句子之间的匹配度，没有考虑到句子中短语的局部结构。2、多语义模型，多语义模型从多颗粒的角度解读句子，考虑到和句子的局部结构。3、匹配矩阵模型，匹配矩阵模型更多的考虑待匹配的句子间不同单词的交互，计算两两之间的匹配度，再用深度网络提取特征，更精细的处理句子中的联系。以及4、深层次的句子间模型。随着注意力机制(attention)等交互机制论文的发表，研究人员采用更精细的结构去挖掘句子内和句子间不同单词之间的联系，得到更好的效果。

本发明引入多样性的深度预训练模型，结合注意力机制判定文本相关性，能够有效提升判定结果的准确性。

发明内容

有鉴于此，本发明的目的在于提供一种自然语言处理方法，尤其涉及一种基于多样性模型的文本相关性判定方法、装置和设备，来提升判定结果的准确性。

为达到上述目的，本发明提供如下技术方案：

一种基于多样性模型的文本相关性判定方法，包括：获取第一文档与第二文档，分别进行预处理，其中，所述预处理包括去除特殊符号和乱码；将预处理后的第一文档和第二文档合并转化为数字序列，输入至少两个预训练模型；所述至少两个预训练模型分别获取合并后数字序列的向量，并加入噪声层分别获得对应的特征向量；将所述特征向量分别送入softmax函数，获得各自的相关性矩阵；将所述各自的相关性矩阵加权求和，获得相关性判断结果。

优选地，所述对第一文档和第二文档分别进行预处理还包括，分别根据所要输入的所述至少两个预训练模型的各自的要求，截取部分内容。

优选地，所述至少两个预训练模型包括BERT、BERT-wwm、RoBERTa-large和RoBERTa-large-wwm中的任意两个或多个。

优选地，所述至少两个预训练模型分别获取合并后数字序列的向量包括合并后数字序列的句向量和字向量。

优选地，所述加入噪声层分别获得一特征向量包括以下步骤：从合并后文档的向量中得到CLS位置的句向量H₀，以及序列的隐藏向量H₁,H₂,...,H_K，对序列的隐藏向量进行平均池化和最大池化操作，得到平均池化后的向量H_ave和最大池化后的向量H_max；使用前馈神经网络和softmax函数求取隐藏向量H₁,H₂,...,H_K的权重α₁,α₂,...α_K，其中，所述

g_i＝linear(H_i)，linear为前馈神经网络；对各个隐藏向量加权求和

将H₀、H_ave、H_max和H_att拼接为一特征向量H＝[H₀,H_ave,H_max,H_att]。

优选地，所述相关性矩阵是四列概率矩阵，每列概率分别表示相关性大小。

优选地，将所述各自的相关性矩阵加权求和为

其中，N为预训练模型的种类数，N≥2，j是预训练模型序号，S_j表示预训练模型j的相关性矩阵，w_j是预训练模型j的先验权值，并且

本公开中的方法利用多个预训练模型结合噪声层的处理，有效地提升了文本相关性判断的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明提出的方法流程图；

图2为本发明实施例中的神经网络模型结构；

图3是本发明实施例提供的文本相关性判定装置。

具体实施方式

下面结合说明书附图对本发明进行进一步的说明。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，本发明的第一优选实施例中，包括以下步骤：步骤102中，对需要对比的文档D1和D2进行数据预处理。其中，预处理包括去除文档中存在的特殊符号，或者可能存在的乱码，以及一些可能无实际意义的字、词等。更进一步地，由于后续处理文档的数据模型所要求，只能输入限定范围内的字符，比如BERT模型允许最大的输入长度为512字，因此在文档长度超过限定时，需要进行截断处理。所谓截断处理是指，将文档D1和D2各自去掉开头和结尾的部分或全部，保留满足模型允许最大值的字符数的文档内容。在步骤104中，经过预处理后的文档D1’和D2’进行顺序拼接，形成合并文档，并进一步转化为数字序列。比如在BERT模型中，参考图2中所示出的例子，在202处，处理后的文档D1’和D2’拼接为[CLS,D1’,SEP,D2’,SEP]的自然语言文档，将其转化为数字序列，其中，D1’和D2’分别与图2中202处的Sentence 1或Sentence 2对应。随后，将数字序列输入至少两个预训练模型中。在步骤106，所述至少两个预训练模型分别获得数字序列在该模型内对应的向量，并加入噪声层获得对应的特征向量；进而在步骤108中，将所述特征向量分别送入softmax函数，获得各自的相关性多分类概率矩阵，矩阵中每列概率分别表示相关性大小；最后在步骤110中，将所述各自的相关性多分类概率矩阵加权求和，获得相关性判断结果，概率值最大的元素所对应的标签即为最终的相关性判断结果。

根据本发明的又一实施例，在图1中步骤104中，至少两个预训练模型包括了BERT模型、BERT-wwm模型、RoBERTa-large模型和RoBERTa-large-wwm模型。所述的至少两个预训练模型为其中的至少两个模型的组合。

根据本发明的又一实施例，在图1中步骤106中，至少两个预训练模型分别获得数字序列在该模型内对应的向量包括获取数字序列中对应的句向量和字向量。将数字序列输入到任一模型，参考图2，在204处，在CLS位置输出句向量H₀，在其他位置输出序列的隐藏向量为字向量，H₁,H₂,...,H_K。针对其中的隐藏向量，进行平均池化和最大池化操作，分别得到平均池化后的向量H_ave和最大池化后的向量H_max。同时，引入前馈神经网络计算每个字的重要程度。前馈神经网络采用g_i＝linear(H_i)表示，并将字向量H₁,H₂,...,H_K中的每一个字H_i对应的g_i通过公式

计算对应的重要性α_i，再引入单词级别的注意力机制，对每个字的重要性参数加权求和，获得注意力特征向量

最后，将句向量H₀，平均池化后的向量H_ave，最大池化后的向量H_max，以及注意力特征向量H_att拼接，获得最终的特征向量H＝[H₀,H_ave,H_max,H_att]。

根据本发明的又一实施例，在步骤108中，将前述最终的特征向量输入softmax函数，取得各自的相关性多分类概率矩阵，所述多分类概率矩阵均为1×4的行矩阵，从左至右的元素列分别表示不相关、弱相关、较强相关和强相关。

根据本发明的又一实施例，在步骤110中，将所述各自的相关性多分类概率矩阵加权求和，获得相关性判断结果包括，使用各预训练模型的先验权值，与前述步骤108中获得的对应模型输出的概率矩阵进行加权求和。为便于说明，在此假定有N＝4种预训练模型，经过前述步骤108，例如第一预训练模型的输出概率矩阵为S₁＝[0.1,0.2,0.3,0.4],第二预训练模型的输出概率矩阵为S₂＝[0.3,0.3,0.2,0.2],第三预训练模型的输出概率矩阵为S₃＝[0.2,0.2,0.2,0.4],第四预训练模型的输出概率矩阵为S₄＝[0.1,0.3,0.3,0.3]，再假定各模型的先验权值分别为第一预训练模型w₁＝0.2，第二预训练模型w₂＝0.2，第三预训练模型w₃＝0.3，第四预训练模型w₄＝0.3，则取加权和为

其中，

w_j为各预训练模型的先验权值。最后，得出假定条件的判定结果矩阵为[0.23,0.25,0.22,0.30]。根据前述多分类概率矩阵从左至右的元素列分别表示不相关、弱相关、较强相关和强相关，并且所得加权和S中0.30为最大概率值，其对应的标签是强相关，因此，所假设内容的判定为强相关。

在本发明的又一个实施例中，提供了一种基于多样性模型的文本相关性判定的装置，如图3所示，包括：数据预处理模块，用于对文档先进行数据预处理；序列转化模块，用于将合并文档转化为数字序列，并将序列送入预训练模型；预训练模块，用于获取数字序列中的向量，并加入噪声层获取对应的特征向量；分类模块，用于通过softmax函数获取相关性矩阵；模型加权融合模块，对相关性矩阵加权求和，获得相关性结果。

在本发明的又一个实施例中，还提供了一种基于多样性模型的文本相关性判定终端，包括处理器和存储器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时如上述的基于多样性模型的文本相关性判定方法，以及包括前述的装置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多样性模型的文本相关性判定方法，其特征在于，包括：获取第一文档与第二文档，分别进行预处理，其中，所述预处理包括去除特殊符号和乱码；将预处理后的第一文档和第二文档合并转化为数字序列，输入至少两个预训练模型中；所述至少两个预训练模型分别获取合并后数字序列的向量，并加入噪声层分别获得对应的特征向量；将所述特征向量分别送入softmax函数，获得各自的相关性矩阵；将所述各自的相关性矩阵加权求和，获得相关性判断结果。

2.根据权利要求1所述的方法，其特征还在于，所述对第一文档和第二文档分别进行预处理还包括，分别根据所要输入的所述至少两个预训练模型的各自的要求，截取部分内容。

3.根据权利要求1所述的方法，其特征还在于，所述至少两个预训练模型包括BERT、BERT-wwm、RoBERTa-large和RoBERTa-large-wwm中的任意两个或多个。

4.根据权利要求1所述的方法，其特征还在于，所述至少两个预训练模型分别获取合并后数字序列的向量包括合并后数字序列的句向量和字向量。

5.根据权利要求1所述的方法，其特征还在于，所述加入噪声层分别获得一特征向量包括以下步骤：从合并后文档的向量中得到CLS位置的句向量H₀，以及序列的隐藏向量H₁,H₂,...,H_K，对序列的隐藏向量进行平均池化和最大池化操作，得到平均池化后的向量H_ave和最大池化后的向量H_max；使用前馈神经网络和softmax函数求取隐藏向量H₁,H₂,...,H_K的权重α₁,α₂,...α_K，其中，所述

6.根据权利要求1所述的方法，其特征还在于，所述相关性矩阵是四列概率矩阵，每列概率分别表示相关性大小。

7.根据权利要求1所述的方法，其特征还在于，将所述各自的相关性矩阵加权求和为

8.一种基于多样性模型的文本相关性判定的装置，其特征在于，包括：数据预处理模块，用于对文档先进行数据预处理；序列转化模块，用于将合并文档转化为数字序列，并将序列送入预训练模型；预训练模块，用于获取数字序列中的向量，并加入噪声层获取对应的特征向量；分类模块，用于获取相关性矩阵；模型加权融合模块，对相关性矩阵加权求和，获得相关性结果。

9.一种基于多样性模型的文本相关性判定方法的终端，其特征在于，包含权利要求8中所述的模块。