CN115114436A

CN115114436A - 融合段落信息的篇章级文本连贯性分类方法

Info

Publication number: CN115114436A
Application number: CN202210688843.XA
Authority: CN
Inventors: 赵铁军; 朱聪慧; 夏名宏; 曹海龙; 徐冰; 杨沐昀
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-27

Abstract

本发明公开融合段落信息的篇章级文本连贯性分类方法，属于自然语言处理技术领域，解决现有方法得到的篇章向量普遍缺少上下文信息并且普遍忽略了篇章的段落结构信息的问题。本发明的方法包括：对篇章级文本进行分句，获取篇章级文本的句子；利用XLNet预训练模型，根据篇章级文本的句子，获取句向量；根据段落的关系，构建篇章级文本的篇章结构矩阵；利用篇章结构矩阵，对Tree‑Transformer构建模型进行初始化；利用初始化后的Tree‑Transformer构建模型，对句向量进行更新；根据更新后的句向量，获取篇章级文本的篇章级语义向量表示；将篇章级语义向量表示输入分类层，获取篇章级语义连贯性分类结果。本发明对信息检索和自然语言处理中的多任务学习、文档向量化等方向有重要作用。

Description

融合段落信息的篇章级文本连贯性分类方法

技术领域

本申请涉及自然语言处理技术领域，尤其涉及融合段落信息的篇章级文本连贯性分类方法。

背景技术

要利用神经网络进行篇章级语篇连贯性的研究，第一步便是要将语言转化为计算机可识别的形式，即将语言数字化。而语言向量即是将语言进行数字化的一种方式。最基本的向量化层级便是词向量，其中包括独热表示、分布式表示等，而获得词向量的方式有传统的字典序方式、矩阵奇异值分解方法、Skip-gram算法以及基于神经网络的方法等。进一步的向量化层级便是句向量，其将不定长的句子表示为定长的向量，为以句子层级为研究目的的自然语言处理任务提供服务。对于篇章级任务，则需要使用篇章级的向量概括整个篇章的语义信息。传统方法中，篇章级语义向量的计算方式为：先通过Word2Vec或BERT等词向量模型得到每个句子的对应句向量，然后通过直接平均或加权平均的方法得到篇章向量。

对于篇章级语义向量抽取，目前存在着以下的问题：预训练模型已经在文本向量化方面取得了不错的效果，但使用直接平均或者加权平均的方法得到的篇章向量普遍缺少上下文信息，当前方法普遍忽略了篇章的段落结构信息，因此获取的篇章级语义向量在篇章级语义连贯性任务上的效果不尽人意。

发明内容

本发明目的是为了解决现有方法得到的篇章向量普遍缺少上下文信息并且普遍忽略了篇章的段落结构信息的问题，提供了融合段落信息的篇章级文本连贯性分类方法。

本发明是通过以下技术方案实现的，本发明一方面，提供融合段落信息的篇章级文本连贯性分类方法，所述方法包括：

对篇章级文本进行分句，获取所述篇章级文本的句子；

利用XLNet预训练模型，根据所述所述篇章级文本的句子，获取句向量；

根据段落的关系，构建所述篇章级文本的篇章结构矩阵；

利用所述篇章结构矩阵，对Tree-Transformer构建模型进行初始化；

利用所述初始化后的Tree-Transformer构建模型，对所述句向量进行更新；

根据所述更新后的句向量，获取所述篇章级文本的篇章级语义向量表示；

将所述篇章级语义向量表示输入分类层，获取篇章级语义连贯性分类结果。

进一步地，所述对篇章级文本进行分句，具体为：对所述篇章级文本按照句子粒度进行分句。

进一步地，所述利用XLNet预训练模型，获取所述句子的句向量，具体包括：

对所述句子进行分词，获取所述句子的单词；

对所述单词进行id化处理，获取所述单词的id矩阵；

将所述id矩阵，输入到所述XLNet预训练模型，获取所述单词的词向量；

根据所述词向量获取所述句子的句向量。

进一步地，所述根据所述词向量获取所述句子的句向量，具体为：

对所述句子的全部所述词向量进行平均池化，获取所述句子的句向量。

进一步地，所述根据段落的关系，构建所述篇章级文本的篇章结构矩阵，具体包括：

将所述篇章级文本的所有句子按顺序进行编号,；

根据所述所有句子的个数，初始化所述篇章结构矩阵；

根据两个句子是否属于同一个段落，建立所述两个句子之间的关系值；

当所述两个句子属于同一个段落时，所述关系值设为第一关系值；

当所述两个句子不属于同一个段落时，所述关系值设为第二关系值；

按根据所述编号，遍历所述篇章级文本的所有句子，根据所述关系值构建所述篇章结构矩阵。

进一步地，所述根据所述所有句子的个数，初始化篇章结构矩阵，具体为：所述篇章结构矩阵的行数和列数均为所述篇章级文本的所有句子的个数。

进一步地，所述按根据所述编号，遍历所述篇章级文本的所有句子，根据所述关系值构建所述篇章结构矩阵，具体为：

所述篇章结构矩阵中的元素为编号为所述元素对应的行数的句子和编号为所述元素对应的列数的句子所对应的关系值。

进一步地，所述利用所述篇章结构矩阵，对Tree-Transformer构建模型进行初始化，具体包括：

所述Tree-Transformer构建模型的自注意力计算中，增加成分先验矩阵；

根据所述篇章结构矩阵，初始化所述成分先验矩阵；

根据所述初始化后的成分先验矩阵，对Tree-Transformer构建模型进行初始化。

进一步地，所述利用所述初始化后的Tree-Transformer构建模型，对所述句向量进行更新，具体包括：

所述Tree-Transformer构建模型是多层结构，根据低一层的两个成分先验矩阵，更新下一层的成分先验矩阵；

根据更新后的成分先验矩阵，对所述句向量进行更新。

另一方面，本发明提供一种计算机设备，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现如上文所述的融合段落信息的篇章级文本连贯性分类方法的步骤。

本发明的有益效果：

1.本发明利用预训练语言模型生成的句向量，解决了传统词向量方法无法解决一词多义问题，进而适应不同语境下同词不同义的情况；

2.本发明考虑到篇章中包含天然的段落结构信息这一因素，即同一段落中句子语义较为连贯，不同段落之间句子语义通常不连贯，使用段落结构矩阵和Tree-Transformer可以将篇章段落结构信息融入到更新后的句子向量中的技术，解决了当前方法普遍忽略了篇章的段落结构信息的问题；

3.本发明采用Tree-Transformer模型，解决了传统Transformer模型的自注意力机制对序列中每个元素进行相同的注意力计算，忽略了输入序列的结构信息的问题，进而考虑序列结构信息可以将结构信息融合在模型输出向量中，提高向量所含信息量和准确性。

本发明获取的篇章级语义连贯性分类结果可以应用于信息检索以及自然语言处理中的文档向量化等，可以更准确衡量信息检索中文章的连贯性等指标，提高文档向量化的准确性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的XLNet模型示意图；

图2为本发明实施方式中的段落结构矩阵示意图

图3本发明方法的融合段落信息的篇章级文本连贯性分类模型的示意图。

具体实施方式

实施方式一、参见图1-3所示，融合段落信息的篇章级文本连贯性分类方法，所述方法包括：

对篇章级文本进行分句，获取所述篇章级文本的句子；

根据段落的关系，构建所述篇章级文本的篇章结构矩阵；

本实施方式主要针对垂直领域任务型问题，提出了在篇章级文本连贯性打分方法。提出篇章段落结构矩阵构建和利用段落结构矩阵和Tree-Transformer进行句子向量更新的两个方面技术发明和改进。构建篇章段落结构矩阵可以将篇章结构信息进行数字化表示，使用段落结构矩阵和Tree-Transformer可以将篇章段落结构信息融入到更新后的句子向量中。本实施方式设计的多任务学习的篇章级文本连贯性打分方法分为三个过程，即通过预训练语言模型提取句子的表示向量、构建篇章段落结构矩阵，使用段落结构矩阵和Tree-Transformer进行句子向量更新，并得到文章的整体向量表示。该方法能够更好的针对文本文档结构进行向量化，弥补过去方法文本特征忽略篇章结构信息，造成连贯性判断不准确的问题。

实施方式二，本实施方式是对实施方式一所述的融合段落信息的篇章级文本连贯性分类方法的进一步限定，本实施方式中，对所述对篇章级文本进行分句这一步骤做了进一步限定，具体为：

对所述篇章级文本按照句子粒度进行分句，可以准确地获取句向量。

实施方式三，本实施方式是对实施方式一所述的融合段落信息的篇章级文本连贯性分类方法的进一步限定，本实施方式中，对所述对所述利用XLNet预训练模型，获取所述句子的句向量这一步骤做了进一步限定，具体包括：

对所述句子进行分词，获取所述句子的单词；

对所述单词进行id化处理，获取所述单词的id矩阵；

根据所述词向量获取所述句子的句向量。

使用预训练模型得到篇章级文本中每一句话的句子向量表示：

句子嵌入向量生成方式，一般为通过句子中词向量的叠加、直接求平均或加权平均等方式来生成。虽然其简单直接，但是采用由词向量通过各种处理后得到句向量有弊端，即没有考虑上下文的语义信息，相同的单词在不同的上下文语境意思可能是不同的，但是按照经典方法却会生成同样的词向量，由此计算句子嵌入向量会对含多义词句子产生不利的影响，从而影响下游任务的效果。而预训练语言模型生成的句向量没有上述的缺陷，因为相同词语在不同语境下可以产生不同的向量，多义词因为上下文语境的不同而生成不同的向量，这样预训练语言模型生成的句子嵌入向量更高效地进行语义信息的表示。在本实施方式中我们使用XLNet模型进行语义表示。XLNet是一种可以从双向的上下文中学习语义信息的自回归语言模型。在预训练阶段，它较之前的BERT不同，提出了一个新的训练目标，称为重排列语言模型。与此同时，与BERT等基于Transformer编码器的预训练模型不同的是，XLNet使用Transformer-XL结构进行模型搭建。

实施方式四，本实施方式是对实施方式三所述的融合段落信息的篇章级文本连贯性分类方法的进一步限定，本实施方式中，对所述根据所述词向量获取所述句子的句向量这一步骤做了进一步限定，具体为：

如图1所示，图中，Tok为单个句子中的每个词，E为词对应的模型输入，T为词对应的向量表示，C、CLS均为模型的表示占位符，XLNet为使用的预训练语言模型。

本实施方式将XLNet模型最后一层各个隐状态向量作为最终每个单词的词向量表示，随后将其进行向量平均，该平均后的向量蕴含了丰富的句子语义信息。使用预训练模型得到句子表示的具体步骤为：将包含n个句子的篇章进行分句，得到单个句子，记为{s₁，s₂，...，s_n}。将每个句子依次通过分词、词的id化、生成位置编码步骤，输入到XLNet预训练模型中。取XLNet模型最后一层的输出得到句子中每个词的向量化表示，即句s_i的输出为{w₁，w₂，...，w_m}，其中，w_i为句子中第i个位置词的向量表示。为了得到句向量表示，将句中词向量进行平均池化，即

其中，v_i为句s_i的向量表示。对篇章中其他句子重复以上操作，即可得到篇章中每个句子的向量表示，为{v₁，v₂，...，v_n}。

实施方式五，本实施方式是对实施方式一所述的融合段落信息的篇章级文本连贯性分类方法的进一步限定，本实施方式中，对所述根据段落的关系，构建所述篇章级文本的篇章结构矩阵这一步骤做了进一步限定，具体包括：

将所述篇章级文本的所有句子按顺序进行编号，；

根据所述所有句子的个数，初始化所述篇章结构矩阵；

构建篇章结构矩阵，作为篇章结构信息的数字化表示：

在一个完整的篇章中，是以段落为基本粒度进行篇章组织的。其中，段落由篇章中的句子构成，通常认为段落中的连续句子之间存在的局部的连贯关系，同时在段落与段落之间也存在着宏观上的整体连贯与组织。在本实施方式中，我们使用矩阵来进行篇章结构信息的数字化表示。

例如，假设篇章中共有9个句子，句子编号依次从0到8。其中段落分布为：第0句和第1句在第一个段落中，第2、3、4、5句在第二个段落中，第6、7、8句在第三个段落中，则其篇章结构矩阵如图2所示，深色小方块的值为1，空白小方块的值为0。

需要说明的是，图3中，word表示文章中的词，XLNet为预训练语言模型，h为词的向量表示，sentence为由词构成的句子的向量表示，Tree-Transformer为上文使用的结构化的transformer模型，Fully Connected Layer为全连接层构成的分类器，最后ModelOutput为模型输出。

实施方式六，本实施方式是对实施方式五所述的融合段落信息的篇章级文本连贯性分类方法的进一步限定，本实施方式中，对所述根据所述所有句子的个数，初始化篇章结构矩阵这一步骤做了进一步限定，具体为：

所述篇章结构矩阵的行数和列数均为所述篇章级文本的所有句子的个数。

例如，将包含n个句子的篇章按照句子粒度进行划分，得到句子序列，记为{s₁，s₂，...，s_n}·

初始化包含n行n列的段落结构矩阵C^n×n。

本实施方式可以获取篇章级文本中每一个句子与其他句子的关系值，进而完整地构建篇章结构矩阵。

实施方式七，本实施方式是对实施方式五所述的融合段落信息的篇章级文本连贯性分类方法的进一步限定，本实施方式中，对所述按根据所述编号，遍历所述篇章级文本的所有句子，根据所述关系值构建所述篇章结构矩阵这一步骤做了进一步限定，具体为：

例如，选取文章中的句子s_i，遍历文章中每个句子s_j，若句子s_i与s_j属于同一个段落，则段落结构矩阵C中C_i，j＝1，若不属于同一个段落，则C_i，j＝0。

本实施方式中，对篇章级文本中每两个句子间的关系值进行了区分设置。

实施方式八，本实施方式是对实施方式一所述的融合段落信息的篇章级文本连贯性分类方法的进一步限定，本实施方式中，对所述利用所述篇章结构矩阵，对Tree-Transformer构建模型进行初始化这一步骤做了进一步限定，具体包括：

根据所述篇章结构矩阵，初始化所述成分先验矩阵；

采用Tree-Transformer构建模型，并利用篇章结构矩阵初始化模型：

Transformer编码器是由多个结构完全相同的编码器堆叠构成。编码器分为两个子层：自注意力层和前馈神经网络层。其输入为句子中单词向量构成的序列(即XLNet预训练模型得到的句向量)，随后，自注意力层将这些向量(即前面获取的序列)通过自注意力机制相互作用，得到每个位置向量的更新。在自注意力层中，针对序列当前位置的句子向量x，首先通过3个不同的权重矩阵W^Q，W^k，W^v，得到对应的Query向量(q)，Key向量(k)和Value向量(v)；随后，计算当前句子向量的注意力分数：score＝q·k；同时为了梯度的稳定，对注意力分数进行归一化并施以softmax激活函数；最后，将注意力分数与Value值相乘，得到当前位置句子向量的最终输出结果。自注意力层的具体公式为：

其中，d_k为模型中k的向量维度。

为了融入段落结构信息，本实施方式使用Tree-Transformer替代经典的Transformer编码器进行篇章级嵌入向量的生成。Tree-Transformer是一种结构化的Transformer结构，在传统结构的基础上添加了一个偏置归纳，使其计算的注意力机制呈现一个树状结构，正好与篇章中段落的结构性质相契合。在Tree-Transformer中，在多头自注意力机制的基础上新增了一个成分注意力，其代表了一定范围内的词语是否为一个相对更大的语言粒度，比如短语。相比于传统的Transformer，Tree-Transformer将层级结构融入到了自注意力机制，用来隐式建模文档结构与语法结构，并显著提高Transformer结构的合理性。

在Tree-Transformer的自注意力计算中，增加了成分先验矩阵C，其中C_i，j表示单词w_i与w_j在同一个短语中的概率，此概率由可学习的线性层生成。本实施方式中，推广到文档级成分先验矩阵，即我们希望同一个段落中的句子之间的注意力分数较大。定义一个序列sequencea＝{a₁，a₂，...，a_n}，其中a_i为句子sent_i和句子sent_j之间可以相互注意的概率。定义C_i，j的计算公式为：

其自注意力计算公式为：

使用由篇章段落信息构建的篇章结构矩阵来初始化成分先验矩阵C。

实施方式九，本实施方式是对实施方式八所述的融合段落信息的篇章级文本连贯性分类方法的进一步限定，本实施方式中，对所述利用所述初始化后的Tree-Transformer构建模型，对所述句向量进行更新这一步骤做了进一步限定，具体包括：

根据更新后的成分先验矩阵，对所述句向量进行更新。

由于Tree-Transformer是多层结构，每一层的成分先验矩阵的更新方法如下：较高一层的成分先验矩阵会合并低一层的两个成分先验矩阵，并遵循在低层处于同一个段落span的两个句子，在高层更应该处于同一个span。即，限制第l层的第k个句子的

总要大于第l-1层的第k个句子的

根据以上更新规则，使用公式计算

得到

后，依然根据公式1-3得到第l层的C^l，从而完成成分先验矩阵的更新，并用于下一层的自注意力层的计算，进行句子向量的更新。

本发明在具体训练过程中，首先将文档进行分句，每个句子通过分词，填充与词的id化，生成词id矩阵。依次输入到XLNet预训练模型中得到其句向量。生成句子向量矩阵后，输入到Tree-Transformer中，进行文档级向量的生成。得到篇章向量后，使用得到篇章级语义向量表示通过分类层，即使其通过由全连接层构成的分类器进行语篇连贯性打分，得到篇章级语义连贯性分类结果。其中，每一层中使用ReLU激活函数增加其非线性拟合能力。

同时，将篇章级向量输入到分类器中，利用分类器和连贯性标签进行训练，使用篇章连贯性标签对篇章级向量进行训练，其训练目标为多分类任务的交叉熵。

实施方式十，本实施方式是基于如上文所述的融合段落信息的篇章级文本连贯性分类方法的系统，并给出相应的操作方式。

基于本发明的方法，创建使用本发明中的融合了段落信息的篇章级向量进行文本连贯性分类的系统，用于展示本发明在文本连贯性分类技术上的效果。该系统按照web网页的形式，以前端，中间控制层以及后台系统三个层次分布。Web网页前端主要负责接收用户输入的文档送入文本连贯性分类模块，同时把系统生成相应的分数回复展示用户，实现用户和机器的交互。中间层是负责连接前端和后台的，根据前端的输入和信号量控制后台的系统，同时接受后台的运行结果反馈给前端界面。后台的系统主要是篇章级文本连贯性分类技术。

本实施方式的系统的操作方法为：在篇章级文本连贯性分类模块中，在用户输入文档之后，我们首先将文档进行文本预处理，去除特殊字符、数字等于文本表达无关的字符，方便模型进行文本向量化。随后，使用XLNet预训练模型针对每个句子中的词进行向量化，然后进行平均池化，得到每个句子的句子向量表示。随后，构建篇章的段落信息矩阵，并输入到Tree-Transformer结构对句子向量进行更新。最后，根据训练好的分类器，根据句子向量与文档向量，计算得到文档的连贯性得分。将文档的连贯性得分通过Web网页前端反馈给用户，随后系统结束。

Claims

1.融合段落信息的篇章级文本连贯性分类方法，其特征在于，所述方法包括：

对篇章级文本进行分句，获取所述篇章级文本的句子；

根据段落的关系，构建所述篇章级文本的篇章结构矩阵；

2.根据权利要求1所述的融合段落信息的篇章级文本连贯性分类方法，其特征在于：所述对篇章级文本进行分句，具体为：对所述篇章级文本按照句子粒度进行分句。

3.根据权利要求1所述的融合段落信息的篇章级文本连贯性分类方法，其特征在于：

所述利用XLNet预训练模型，获取所述句子的句向量，具体包括：

对所述句子进行分词，获取所述句子的单词；

对所述单词进行id化处理，获取所述单词的id矩阵；

根据所述词向量获取所述句子的句向量。

4.根据权利要求3所述的融合段落信息的篇章级文本连贯性分类方法，其特征在于：所述根据所述词向量获取所述句子的句向量，具体为：

5.根据权利要求1所述的融合段落信息的篇章级文本连贯性分类方法，其特征在于：所述根据段落的关系，构建所述篇章级文本的篇章结构矩阵，具体包括：

将所述篇章级文本的所有句子按顺序进行编号,；

根据所述所有句子的个数，初始化所述篇章结构矩阵；

6.根据权利要求5所述的融合段落信息的篇章级文本连贯性分类方法，其特征在于：

所述根据所述所有句子的个数，初始化篇章结构矩阵，具体为：所述篇章结构矩阵的行数和列数均为所述篇章级文本的所有句子的个数。

7.根据权利要求5所述的融合段落信息的篇章级文本连贯性分类方法，其特征在于：所述按根据所述编号，遍历所述篇章级文本的所有句子，根据所述关系值构建所述篇章结构矩阵，具体为：

8.根据权利要求1所述的融合段落信息的篇章级文本连贯性分类方法，其特征在于：所述利用所述篇章结构矩阵，对Tree-Transformer构建模型进行初始化，具体包括：

根据所述篇章结构矩阵，初始化所述成分先验矩阵；

9.根据权利要求8所述的融合段落信息的篇章级文本连贯性分类方法，其特征在于：所述利用所述初始化后的Tree-Transformer构建模型，对所述句向量进行更新，具体包括：

根据更新后的成分先验矩阵，对所述句向量进行更新。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现权利要求1至9中任一项所述的方法的步骤。