CN113312452A

CN113312452A - 基于多任务学习的篇章级文本连贯性分类方法

Info

Publication number: CN113312452A
Application number: CN202110667388.0A
Authority: CN
Inventors: 赵铁军; 夏名宏; 朱聪慧; 徐冰; 杨沐昀; 曹海龙
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-08-27
Anticipated expiration: 2041-06-16
Also published as: CN113312452B

Abstract

本发明提出基于多任务学习的篇章级文本连贯性分类方法，所述方法包括：步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示；步骤2、将句子向量作为输入，使用Transformer模型，得到篇章级文本的整体向量表示；步骤3、构建句子排序任务，使用该任务对篇章级文本的整体向量表示进行调整；步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类。通过上述方法解决了现有技术中的问题，所述方法对信息检索以及自然语言处理中的多任务学习、作文自动评分、文档向量化等方向有着重要作用。

Description

基于多任务学习的篇章级文本连贯性分类方法

技术领域

本发明属于自然语言处理领域技术领域，特别是涉及基于多任务学习的篇章级文本连贯性分类方法。

背景技术

篇章连贯性建模是自然语言处理中的一个基础问题，它在多语言即时机器翻译、文本自动摘要等方面均有广泛的应用前景。篇章语义连贯性是衡量篇章中句子间语义是否通顺和形式是否衔接的一个重要因素。语篇连贯性反映了语篇局部与整体的建构关系。尤其在较长片段文本中，其中句子之间的形式是否衔接，句子结构是否合理，以及句子的主旨和所表达的语义是否一致是决定了该文本是否具有可读性、是否可以被正确理解。

目前国内外对于篇章级文本连贯性的研究，主要包括传统机器学习方法和神经网络方法。传统机器学习方法包括基于实体的网络模型、基于实体转移的连贯性判别模型以及基于潜在语义的篇章级文本连贯性模型等。神经网络方法包括使用循环神经网络、卷积神经网络等对人工提取的文章特征进行建模，例如文本长度、经过序列标注产生的实体转移、文本主题等。

对于篇章级文本连贯性分类，目前存在着以下问题：首先虽然预训练模型在文本向量化已经取得了不错的效果，但篇章级文本长度过长，大部分预训练模型无法很好学到其语义信息；其次，篇章级文本句子主题转变较大，很难识别篇章级文本的主题；最后，影响文本连贯性的特征较多，如实体词、过渡词和句子顺序等，单一特征提取器很难将特征提取完全。

发明内容

本发明目的是解决现有技术中的问题，提出了基于多任务学习的篇章级文本连贯性分类方法。

本发明是通过以下技术方案实现的，本发明提出基于多任务学习的篇章级文本连贯性分类方法，具体包括以下步骤：

步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示；

步骤2、将句子向量作为输入，使用Transformer模型，得到篇章级文本的整体向量表示；

步骤3、构建句子排序任务，使用该任务对篇章级文本的整体向量表示进行调整；

步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类。

进一步地，所述步骤1具体为：

将篇章级文本按照句子粒度进行划分，得到单个句子，记为{s₁,s₂,…,s_n}，n表示句子个数，将每个句子依次通过分词、词的id化和生成位置编码步骤，输入到XLNet预训练模型中，取XLNet模型最后一层的输出作为句子中每个词的向量化表示，即句s_i的输出为{w₁,w₂,…,w_m}，i＝1,2,…,n；其中，w_j为句s_i中第j个位置词的向量表示，m表示第i个句子里面词的个数；j＝1,2，…，m；为了得到句向量表示，将句中词向量进行平均池化，即

其中，v_i为句s_i的向量表示；由此，即可得到篇章中每个句子的向量表示，为{v₁,v₂,…,v_n}。

进一步地，所述步骤2具体为：使用6层sub-layer组成的编码器进行文本编码；首先将篇章中每个句子的句子向量输入到Transformer模型中，进入自注意力模块，在自注意力模块中，每个输入向量通过神经网络计算得到三个不同向量：Query向量，Key向量和Value向量，三个向量分别用Q，K和V表示，随后，通过自注意力的计算公式计算每个向量的自注意力分数，并对其进行归一化，将自注意力分数通过Softmax激活函数，与对应向量相乘，得到自注意力模块的结果：

其中，d_k为归一化过程中使用的模型向量维度；

随后，通过残差模块，解决深度学习中的退化问题；最后，通过前馈神经网络，即将自注意力模块的输出作为前馈神经网络的输入，与前馈神经网络的权重矩阵相乘，便得到sub-layer的输出；最终，通过6层sub-layer，得到每个句子向量通过Transformer编码器的对应输出；在更新每个句子向量之后，使用平均池化来得到篇章级文本的整体向量表示，其维度与每个句子向量相同，但同时包含了篇章中每个句子信息与句子间的上下文信息。

进一步地，所述步骤3具体为：首先，由XLNet预训练模型和Transformer编码器获得每个句子的句子向量表示，然后将由句子向量构成的数组sent_list随机打乱，记为shuffled_sent_list，遍历打乱后的数组，依次取出相邻的两个句子，并与原数组中的顺序进行对比，若与原数组中相对顺序相同，则其标签为1，若与原数组中相对顺序不同，则其标签为0；

将两个句子的向量表示拼接起来，输入到分类层中，得到分类结果，与其标签计算交叉熵损失，训练模型；

其中，针对每个句子及其标签，使用交叉熵损失进行损失计算，即在句子分数通过Sigmoid函数映射到0到1范围内后，使用公式(3)计算每个句子的句子排序损失；

loss_order＝∑_i(-y_ilogscore_i-(1-y_i)log(1-score_i)) (3)

其中，i表示第i个句子，y_i表示第i个句子的标签，score_i表示第i个句子的分数。

进一步地，所述步骤4具体为：得到篇章级文本整体向量表示后，使用三层前馈神经网络组成分类器，得到最后一层的输出后，通过Sigmoid函数计算篇章级文本的连贯性分数，从而得到该篇章级文本连贯性分类结果。

进一步地，所述多任务学习的优化过程具体步骤如下：

步骤一、将整个连贯性分类模型网络中参数初始化，并将每个loss的权重初始化为1；

步骤二、根据每个loss的权重，计算loss的加权和；

步骤三、计算梯度标准化的值，并计算每个参数的更新速度；

步骤四、根据更新速度，计算全局梯度标准化的值；

步骤五、计算梯度loss；

步骤六、计算loss对每个参数的导数；

步骤七、利用步骤六的结果更新；

步骤八、利用步骤二的结果更新整个网络的参数。

附图说明

图1为本发明所述基于多任务学习的篇章级文本连贯性分类方法的流程图；

图2为篇章级文本连贯性分类模型整体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1-2，本发明提出基于多任务学习的篇章级文本连贯性分类方法，具体包括以下步骤：

Transformer是2017年由谷歌提出的特征提取器，自面世以来因其在实验中的优异表现逐渐受到学者们的关注和青睐，而其后以Transformer模型为基础的BERT及其改进模型被证明是极其有效的文本特征抽取器。其通过在大量语料上的预训练任务，使模型学得对应语言中的先验知识，从而在下游任务中取得优异的效果。而基于BERT进行改进的XLNet预训练模型不仅通过预训练任务和大量语料将先验知识注入到模型中，而且通过位置编码捕捉到词的相对顺序，这种方法得到的句子向量在下游任务的表现远远好于传统方法。

所述步骤1具体为：

在传统方法中，生成篇章文本整体向量表示的方法通常由词向量生成句向量的方法扩展而来，即通过最大池化或者平均池化的方法，得到整体的向量表示。但是此方法存在的问题为，平均池化或最大池化的方法与人的阅读习惯相悖，即通常情况下阅读是有顺序的，应该建立时序模型来生成篇章级文本的整体向量表示。而循环神经网络(RNN)相关算法只能从左向右依次计算或从右向左依次计算，会限制模型的并行能力并造成信息丢失。因此，使用Transformer模型来生成篇章文本整体向量表示。

Transformer模型的基础为自注意力机制。Transformer中不再使用卷积神经网络和循环神经网络，仅使用注意力机制构成整个网络。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer层的形式进行搭建，在该过程中，本发明仅使用Transformer的编码器部分进行神经网络的搭建。即使用6层sub-layer组成的编码器进行文本编码；首先将篇章中每个句子的句子向量输入到Transformer模型中，进入自注意力模块，在自注意力模块中，每个输入向量通过神经网络计算得到三个不同向量：Query向量，Key向量和Value向量，三个向量分别用Q，K和V表示，随后，通过自注意力的计算公式计算每个向量的自注意力分数，并对其进行归一化，将自注意力分数通过Softmax激活函数，与对应向量相乘，得到自注意力模块的结果：

其中，d_k为归一化过程中使用的模型向量维度；

语篇连贯性反映了语篇局部与整体的建构关系。尤其在较长片段文本中，句子之间的顺序对于文本连贯性的重要是不言而喻的。由于Transformer中使用绝对位置编码生成固定的位置表示，其只能反映句子间相对距离，但是无法反映方向性，故使用句子排序任务与文本连贯性任务构成多任务共同学习训练。

所述步骤3具体为：首先，由XLNet预训练模型和Transformer编码器获得每个句子的句子向量表示，然后将由句子向量构成的数组sent_list随机打乱，记为shuffled_sent_list，遍历打乱后的数组，依次取出相邻的两个句子，并与原数组中的顺序进行对比，若与原数组中相对顺序相同，则其标签为1，若与原数组中相对顺序不同，则其标签为0；例如：假设原句顺序为{s₁,s₂,s₃,s₄}，打乱后顺序为{s₄,s₂,s₃,s₁}，则遍历结果与标签如表1所示。

表1遍历结果及标签

loss_order＝∑_i(-y_ilogscore_i-(1-y_i)log(1-score_i)) (3)

所述步骤4具体为：得到篇章级文本整体向量表示后，使用三层前馈神经网络组成分类器，得到最后一层的输出后，通过Sigmoid函数计算篇章级文本的连贯性分数，从而得到该篇章级文本连贯性分类结果。

若目标为分类(如标签为高文本连贯性，中文本连贯性和低文本连贯性)，则使用交叉熵损失函数计算。针对文档中每个句子得到其句子排序损失之后，多任务学习loss的策略如下：根据所应用场景，针对每一个篇章文本的连贯性分数，分别对句子排序损失进行加权。由于高文本连贯性的文档，句子间相对顺序应该保持得更好，也应该更多地被模型学到，低文本连贯性的文档句子间相对顺序可能不准确，其应该尽量少地被模型学到。

基于以上方法步骤所述多任务学习的优化过程具体步骤如下：

步骤二、根据每个loss的权重，计算loss的加权和；

步骤四、根据更新速度，计算全局梯度标准化的值；

步骤五、计算梯度loss；

步骤六、计算loss对每个参数的导数；

步骤七、利用步骤六的结果更新；

步骤八、利用步骤二的结果更新整个网络的参数。

在篇章级文本连贯性分类模块中，在用户输入文档之后，首先将文档进行文本预处理，去除特殊字符、数字等于文本表达无关的字符，方便模型进行文本向量化。随后，使用XLNet预训练模型针对每个句子中的词进行向量化，然后进行平均池化，得到每个句子的句子向量表示。随后，利用句子排序任务与Transformer结构对句子向量进行更新。最后，根据训练好的分类器，根据句子向量与文档向量，计算得到文档的连贯性得分。将文档的连贯性得分通过Web网页前端反馈给用户，随后结束。

以上对本发明所提出的基于多任务学习的篇章级文本连贯性分类方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.基于多任务学习的篇章级文本连贯性分类方法，其特征在于：具体包括以下步骤：

2.根据权利要求1所述的方法，其特征在于：所述步骤1具体为：

将篇章级文本按照句子粒度进行划分，得到单个句子，记为{s₁，s₂，...，s_n}，n表示句子个数，将每个句子依次通过分词、词的id化和生成位置编码步骤，输入到XLNet预训练模型中，取XLNet模型最后一层的输出作为句子中每个词的向量化表示，即句s_i的输出为{w₁，w₂，...，w_m}，i＝1，2，...，n；其中，w_j为句s_i中第j个位置词的向量表示，m表示第i个句子里面词的个数；j＝1，2，...，m；为了得到句向量表示，将句中词向量进行平均池化，即

其中，v_i为句s_i的向量表示；由此，即可得到篇章中每个句子的向量表示，为{v₁，v₂，...，v_n}。

3.根据权利要求2所述的方法，其特征在于：所述步骤2具体为：使用6层sub-layer组成的编码器进行文本编码；首先将篇章中每个句子的句子向量输入到Transformer模型中，进入自注意力模块，在自注意力模块中，每个输入向量通过神经网络计算得到三个不同向量：Query向量，Key向量和Value向量，三个向量分别用Q，K和V表示，随后，通过自注意力的计算公式计算每个向量的自注意力分数，并对其进行归一化，将自注意力分数通过Softmax激活函数，与对应向量相乘，得到自注意力模块的结果：

其中，d_k为归一化过程中使用的模型向量维度；

4.根据权利要求3所述的方法，其特征在于：所述步骤3具体为：首先，由XLNet预训练模型和Transformer编码器获得每个句子的句子向量表示，然后将由句子向量构成的数组sent_list随机打乱，记为shuffled_sent_list，遍历打乱后的数组，依次取出相邻的两个句子，并与原数组中的顺序进行对比，若与原数组中相对顺序相同，则其标签为1，若与原数组中相对顺序不同，则其标签为0；

loss_order＝∑_i(-y_ilogscore_i-(1-y_i)log(1-score_i)) (3)

5.根据权利要求4所述的方法，其特征在于：所述步骤4具体为：得到篇章级文本整体向量表示后，使用三层前馈神经网络组成分类器，得到最后一层的输出后，通过Sigmoid函数计算篇章级文本的连贯性分数，从而得到该篇章级文本连贯性分类结果。

6.根据权利要求5所述的方法，其特征在于：所述多任务学习的优化过程具体步骤如下：

步骤二、根据每个loss的权重，计算loss的加权和；

步骤四、根据更新速度，计算全局梯度标准化的值；

步骤五、计算梯度loss；

步骤六、计算loss对每个参数的导数；

步骤七、利用步骤六的结果更新；

步骤八、利用步骤二的结果更新整个网络的参数。