CN118013962A

CN118013962A - 一种基于双向序列生成的汉语篇章连接词识别方法

Info

Publication number: CN118013962A
Application number: CN202410417577.6A
Authority: CN
Inventors: 邬昌兴; 揭梦瑶; 熊丹; 杨亚连
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2024-04-09
Filing date: 2024-04-09
Publication date: 2024-05-10
Anticipated expiration: 2044-04-09
Also published as: CN118013962B

Abstract

本发明提供一种基于双向序列生成的汉语篇章连接词识别方法，通过句子预处理及编码模块学习候选篇章连接词的初始语义向量表示，基于Longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息，计算候选篇章连接词的最终语义向量表示，基于双向序列生成的预测模块包括正向生成层和反向生成层，分别使用两个长短时记忆网络从左至右和从右至左预测篇章连接词序列，实现篇章连接词的识别，此外，通过后处理模块处理复合连接词的识别问题，并通过互学习代价增强的训练模块使正向生成层和反向生成层能相互学习，提升识别的性能，本发明能够充分捕获篇章连接词之间双向长距离的依赖关系，显著地提高汉语篇章连接词识别的性能。

Description

一种基于双向序列生成的汉语篇章连接词识别方法

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种基于双向序列生成的汉语篇章连接词识别方法。

背景技术

篇章连接词是指在句子或子句之间起连接作用，并能表示它们之间的语义关系的语言单位（例如，“但是”）。准确识别篇章连接词是后续篇章关系分类和篇章结构树构建的前提和基础。现有研究表明，英语篇章连接词识别的准确率可达到95%以上，已经能够满足实用的要求；然而，汉语篇章连接词识别的准确率则低得多，在给定句法树的情况下准确率尚不到90%。在端到端的汉语篇章结构分析系统中，由于汉语篇章连接词识别的准确率不高，导致后续篇章关系分类的性能下降超过10%，目前尚不能满足实际应用的需要。

汉语篇章连接词识别准确率不高的原因主要有：1）篇章连接词的数量较多，例如，常用的中文CDTB语料中共标注了274个篇章连接词，而常用的英文PDTB语料中仅有102个篇章连接词；2）复合篇章连接词（例如，“同时……也”）所占比例较高，增加了识别的难度。因此，汉语篇章连接词识别依然是值得研究的基础问题之一。

现有的汉语篇章连接词识别方法可以大致分为以下两大类：1）基于分类的方法，其通常基于人工抽取的特征或自动学习的特征对侯选篇章连接词进行分类。这类方法的优点是模型比较简单，时间效率高，缺点是性能相对低。2）基于序列标注的方法，其通常基于条件随机场等模型建模相邻篇章连接词之间的依赖关系，取得了比基于分类的方法稍好的识别性能。然而，不管是基于分类的方法还是基于序列标注的方法，都没有考虑篇章连接词之间的长距离依赖关系。具体地，多个篇章连接词之间可能存在长距离依赖关系，不相邻的复合篇章连接词之间也存在长距离依赖关系，影响了识别性能。

发明内容

为此，本发明的实施例提出一种基于双向序列生成的汉语篇章连接词识别方法，以充分捕获篇章连接词之间双向长距离的依赖关系，提升识别性能。

根据本发明一实施例的基于双向序列生成的汉语篇章连接词识别方法，应用于汉语篇章连接词识别模型，所述汉语篇章连接词识别模型包括句子预处理及编码模块、基于Longformer的段落编码模块、基于双向序列生成的预测模块、后处理模块和互学习代价增强的训练模块；

所述方法包括：

通过句子预处理及编码模块对输入段落中的每个句子进行预处理，得到预处理后的句子，预处理过程包括中文分词、标记候选篇章连接词和拼接预定义占位符，然后通过预训练语言模型得到预处理后的句子中所有词条的初始语义向量表示；

基于Longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息，在所有词条的初始语义向量表示的基础上，计算候选篇章连接词的最终语义向量表示；

基于双向序列生成的预测模块包括正向生成层和反向生成层，以候选篇章连接词的最终语义向量表示为输入，正向生成层基于长短时记忆网络从左到右生成篇章连接词序列，以计算正向预测时每个候选篇章连接词为篇章连接词的概率分布，反向生成层基于长短时记忆网络从右到左生成篇章连接词序列，以计算反向预测时每个候选篇章连接词为篇章连接词的概率分布，并通过互学习代价增强的训练模块使正向生成层和反向生成层相互学习，然后对正向生成层和反向生成层计算的概率分布求平均值，将平均值作为每个候选篇章连接词为篇章连接词的最终预测结果，从而识别出篇章连接词；

在后处理模块中，以基于双向序列生成的预测模块识别出的篇章连接词为输入，利用预定义的启发式规则对篇章连接词进行配对，以识别出输入段落中的复合篇章连接词。

根据本发明实施例的基于双向序列生成的汉语篇章连接词识别方法，通过句子预处理及编码模块学习候选篇章连接词的初始语义向量表示，然后基于Longformer的段落编码模块引入段落级别的上下文信息，学习候选篇章连接词的最终语义向量表示，基于双向序列生成的预测模块包括正向生成层和反向生成层，分别使用两个长短时记忆网络从左至右和从右至左预测篇章连接词序列，实现篇章连接词的识别，此外，通过后处理模块处理复合连接词的识别问题，并通过互学习代价增强的训练模块使正向生成层和反向生成层能相互学习，提升识别的性能，本发明提出的方法能够充分捕获篇章连接词之间双向长距离的依赖关系，显著地提高汉语篇章连接词识别的性能。

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一实施例的汉语篇章连接词识别模型的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出一种基于双向序列生成的汉语篇章连接词识别方法，应用于汉语篇章连接词识别模型，请参阅图1，所述汉语篇章连接词识别模型包括句子预处理及编码模块、基于Longformer的段落编码模块、基于双向序列生成的预测模块、后处理模块和互学习代价增强的训练模块。

所述方法包括步骤1~步骤4：

步骤1，通过句子预处理及编码模块对输入段落中的每个句子进行预处理，得到预处理后的句子，预处理过程包括中文分词、标记候选篇章连接词和拼接预定义占位符，然后通过预训练语言模型得到预处理后的句子中所有词条的初始语义向量表示。

其中，句子预处理及编码模块用于学习候选篇章连接词的初始语义向量表示。句子预处理及编码模块对输入段落中的每个句子进行预处理，具体包括中文分词、标记候选篇章连接词和拼接预定义占位符三个步骤。中文分词可以选用JIEBA、NLPIR和THULAC等常用的分词工具。分词后，基于汉语篇章连接词集合找出句子中所有的候选篇章连接词，并使用<cand></cand>进行标记。最后，在句子的首尾分别拼接预训练的语言模型中定义的全局占位符[CLS]和分割占位符[SEP]。例如，句子“这是一项影响深远的工程，也是我们最迫切要办的事。”经过预处理后的结果为：“[CLS] 这是一项影响深远的工程，<cand> 也是 </cand> 我们最迫切要办的事 [SEP]”。

编码阶段基于预训练语言模型学习句子中所有词条（token）的初始语义向量表示，这里的词条包括句子中一般的词、候选篇章连接词、标记<cand>和</cand>、以及占位符[CLS]和[SEP]。预训练语言模型基于大量无标注的文本进行训练，具有丰富的语义表示能力和强大的上下文理解能力，在文本分类、情感分析、问答系统和文本生成等众多自然语言处理任务上表现出色。具体地，给定输入段落P中第个句子/>预处理后的句子/>，计算其中所有词条的初始语义向量表示，具体如下：

其中，为RoBERTa或XLNet等预训练语言模型，/>为预处理后的第/>个句子，为/>中所有词条的初始语义向量表示构成的矩阵，/>，/>为输入段落P中句子的数量。

需要说明的是：预处理后的每个句子中的第一个词条为全局占位符[CLS]，其对应的语义向量可看作该句子的全局语义向量表示；使用<cand>和</cand>标记候选篇章连接词后，可使预训练语言模型重点关注这些词，从而更好地学习它们的初始语义向量表示；预训练语言模型通常基于句子级的语料进行训练，所以本发明中句子预处理和编码模块分别对段落中的每个句子进行预处理和编码。

步骤2，基于Longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息，在所有词条的初始语义向量表示的基础上，计算候选篇章连接词的最终语义向量表示。

其中，经典Transformer中自注意力机制的计算时间随着序列长度呈二次方增长，当序列较长时（例如，段落）计算比较慢。与之相比，Longformer通过引入全局注意力机制和局部注意力机制，可以有效地学习长序列中的上下文信息，同时较大幅度地降低计算量。具体地，给定输入段落P经过句子预处理和编码模块后的输出结果，计算该段落中所有词条的最终语义向量表示如下：

其中，为由输入段落P中所有词条的最终语义向量表示构成的矩阵，Longformer表示使用Longformer模型进行编码，/>为预处理后的第1个句子中所有词条的初始语义向量表示构成的矩阵，/>为预处理后的第/>个句子中所有词条的初始语义向量表示构成的矩阵，符号/>表示矩阵或向量的拼接操作，/>表示掩码矩阵，K为输入段落中候选篇章连接词的总数，/>为输入段落中句子的总数。

Longformer是自然语言处理领域常用于处理长序列输入的神经网络模块，主要包括全局和局部注意力机制的计算，其计算过程这里不再赘述，下面重点介绍计算中关键的掩码矩阵。

为由0和1构成的/>矩阵，/>为输入段落P中词条的总数，/>用于指示输入段落中的哪些词条之间需要进行信息交互。例如，/>表明输入段落中第/>个词条和第/>个词条之间需要进行信息交互，/>表示掩码矩阵/>中第/>行和第/>列对应的元素的值。为了建模输入段落中的全局上下文信息，Longformer中引入了全局注意力机制，其中涉及的全局词条与输入段落中的每个词条进行信息交互。相应地，掩码矩阵/>中这些词条对应的行和列上的值均为1。本发明中，为了更好地学习候选篇章连接词的语义向量表示，除了把每个句子中开头的全局占位符[CLS]定义为全局词条外，还把输入段落中所有的候选篇章连接词定义为全局词条。为了建模输入段落中的局部上下文信息，Longformer中引入了局部注意力机制，其中涉及的局部词条只与其前后/>个词条以及全局词条进行信息交互，/>，其中<<表示远小于。相应地，假设输入段落中的第/>个词条被定义为局部词条，那么掩码矩阵/>中相应元素的值/>。本发明中，把输入段落中除全局词条外的其他词条定义为局部词条。掩码矩阵/>中其他元素（无信息交互的词条对应的元素）的值为0。

然后，基于Longformer的段落编码模块输出候选篇章连接词的最终语义向量表示，具体计算如下所示：

其中，分别为输入段落P中第1个、第/>个、第K个候选篇章连接词的最终语义向量表示；/>为候选篇章连接词在输入段落P中位置的指示矩阵（维度为/>），其中每列均为独热编码的向量（仅有一个元素为1，其余元素均为0）。例如，假设第一个候选篇章连接词为段落中的第3个词条，那么/>中的第一列为[0,0,1,0,…,0]。

步骤3，基于双向序列生成的预测模块包括正向生成层和反向生成层，以候选篇章连接词的最终语义向量表示为输入，正向生成层基于长短时记忆网络从左到右生成篇章连接词序列，以计算正向预测时每个候选篇章连接词为篇章连接词的概率分布，反向生成层基于长短时记忆网络从右到左生成篇章连接词序列，以计算反向预测时每个候选篇章连接词为篇章连接词的概率分布，并通过互学习代价增强的训练模块使正向生成层和反向生成层相互学习，然后对正向生成层和反向生成层计算的概率分布求平均值，将平均值作为每个候选篇章连接词为篇章连接词的最终预测结果，从而识别出篇章连接词。

其中，基于双向序列生成的预测模块包括正向生成层和反向生成层，分别使用两个长短时记忆网络（LSTM）从左至右和从右至左预测篇章连接词序列，以有效地建模段落中的篇章连接词之间的双向长距离依赖关系。长短时记忆网络是循环神经网络的一种变种，是处理序列数据的常用神经网络，其通过门机制（遗忘门、输入门和输出门）更新和遗忘信息，有效地缓解了循环神经网络在处理长序列时容易产生的梯度消失和梯度爆炸的问题。在发明实施的过程中，循环神经网络的另一变种门控循环神经网络（GRU）也可用于代替LSTM。

具体地，正向生成层基于长短时记忆网络从左到右生成篇章连接词序列，即计算正向预测时第个候选篇章连接词为篇章连接词的概率分布/>，按如下公式计算：

其中，表示归一化指数函数，/>和/>为正向生成层中需要学习的参数，/>为从左至右的长短时记忆网络，/>和/>为/>中的隐状态，/>是正向预测时基于注意力机制计算的输入段落中与第/>个候选篇章连接词相关的上下文信息的向量表示，/>表示正向预测时前一预测结果的向量表示，如果预测为“真”，则为对应候选篇章连接词的向量表示/>，否则为零向量。

类似地，反向生成层基于长短时记忆网络从右到左生成篇章连接词序列，即计算反向预测时第个候选篇章连接词为篇章连接词的概率分布/>，按如下公式计算：

其中，和/>为反向生成层中需要学习的参数，/>为从右至左的长短时记忆网络，/>和/>为/>中的隐状态，/>是反向预测时基于注意力机制计算的输入段落中与第/>个候选篇章连接词相关的上下文信息的向量表示，/>表示反向预测时前一预测结果的向量表示，如果预测为“真”，则为对应候选篇章连接词的向量表示，否则为零向量。

最后对和/>求平均值，如下所示：

本实施例中，表示第/>个候选篇章连接词为篇章连接词的最终预测结果，/>中的两个元素/>和/>分别表示正向预测时第/>个候选篇章连接词是否为篇章连接词序列的概率值；/>中的两个元素/>和/>分别表示反向预测时第/>个候选篇章连接词是否为篇章连接词序列的概率值；本实施例中，定义/>表示其为篇章连接词，否则不是篇章连接词，/>是/>中的第一个值。

此外，基于双向序列生成的预测模块中的正向生成层和反向生成层分别从不同的方向建模了篇章连接词之间的长距离依赖关系，它们学到的知识是可以互补的。本发明采用互学习代价增强的训练模块在正向生成层和反向生成层之间迁移知识，以达到相互促进、共同提高的目的。互学习的基本思想是使正向生成层和反向生成层计算的特征或概率分布尽量趋于一致。本发明中，对候选篇章连接词的预测是个二分类问题，计算的概率分布均为二维的向量，其蕴含的知识比较少，用于互学习效果并不理想。因此，本发明基于特征进行互学习，并把正向生成层和反向生成层中的长短时记忆网络的隐状态用作特征。具体地，分别定义训练模型的两个代价函数如下：

为训练基于Longformer的段落编码模块和正向生成层的代价函数，/>为训练反向生成层的代价函数，/>为基于Longformer的段落编码模块和正向生成层中的参数的集合，/>为反向生成层中的参数的集合，D为人工标注的训练数据集，CE为交叉熵代价计算函数，/>为第/>个候选篇章连接词为篇章连接词的真实概率分布，/>和/>为权重系数，MSE为基于均方误差的互学习代价计算函数。

需要说明的是：1）句子预处理和编码模块中预训练语言模型的参数固定不变，不参与模型的训练过程，以节省模型训练的时间。2）模型训练的过程中，从训练数据集D中依次取出段落，首先计算J ₁并更新相应模块的参数，然后计算J ₂并更新相应模块的参数，循环执行上述过程直到模型收敛。3）训练结束后得到的基于双向序列生成的汉语篇章连接词识别模型，可用于识别新输入段落中的篇章连接词。4）在使用模型进行汉语篇章连接词识别的过程中，不再需要互学习代价增强的训练模块。

步骤4，在后处理模块中，以基于双向序列生成的预测模块识别出的篇章连接词为输入，利用预定义的启发式规则对篇章连接词进行配对，以识别出输入段落中的复合篇章连接词。

其中，后处理模块基于预定义的启发式规则对识别出的篇章连接词进行配对，以确定是否能构成复合篇章连接词。例如，基于双向序列生成的预测模块能识别出"因为"和"所以"为篇章连接词，但无法判断它们是否能构成一个复合篇章连接词。本发明中，预定义的启发式规则包括以下三个规则：

规则1：如果一个句子中的两个或多个篇章连接词可以配对，即在篇章连接词集合中存在相应的复合篇章连接词，则确定这两个或多个篇章连接词构成一个复合篇章连接词；

规则2：如果相邻句子中的两个或多个篇章连接词可以配对，且各自位于相应句子的句首，则确定这个两个或多个篇章连接词构成一个复合篇章连接词；

规则3：如果两个复合篇章连接词覆盖的文本片段有部分重合（两个复合篇章连接词不能交叉，但可以是相互嵌套的），则舍弃位于后面的复合篇章连接词。

后处理模块以基于双向序列生成的预测模块识别出的篇章连接词为输入，依次利用规则1和规则2找出复合篇章连接词，然后利用规则3舍去不合要求的复合篇章连接词。启发式规则还可以进一步扩充，以更准确地找出段落中的复合篇章连接词。

根据上述的基于双向序列生成的汉语篇章连接词识别方法，通过句子预处理及编码模块学习候选篇章连接词的初始语义向量表示，然后基于Longformer的段落编码模块引入段落级别的上下文信息，学习候选篇章连接词的最终语义向量表示，基于双向序列生成的预测模块包括正向生成层和反向生成层，分别使用两个长短时记忆网络从左至右和从右至左预测篇章连接词序列，实现篇章连接词的识别，此外，通过后处理模块处理复合连接词的识别问题，并通过互学习代价增强的训练模块使正向生成层和反向生成层能相互学习，提升识别的性能，本发明提出的方法能够充分捕获篇章连接词之间双向长距离的依赖关系，显著地提高汉语篇章连接词识别的性能。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于双向序列生成的汉语篇章连接词识别方法，其特征在于，应用于汉语篇章连接词识别模型，所述汉语篇章连接词识别模型包括句子预处理及编码模块、基于Longformer的段落编码模块、基于双向序列生成的预测模块、后处理模块和互学习代价增强的训练模块；

所述方法包括：

2.根据权利要求1所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，句子预处理及编码模块满足以下条件式：

；

其中，为预训练语言模型，/>为预处理后的第/>个句子，/>为/>中所有词条的初始语义向量表示构成的矩阵。

3.根据权利要求2所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，基于Longformer的段落编码模块满足以下条件式：

；

其中，分别为输入段落P中第1个、第/>个、第K个候选篇章连接词的最终语义向量表示，/>为由输入段落P中所有词条的最终语义向量表示构成的矩阵，/>为候选篇章连接词在输入段落P中位置的指示矩阵，Longformer表示使用Longformer模型进行编码，/>为预处理后的第1个句子中所有词条的初始语义向量表示构成的矩阵，/>为预处理后的第/>个句子中所有词条的初始语义向量表示构成的矩阵，符号/>表示矩阵或向量的拼接操作，/>表示掩码矩阵，/>为由0和1构成的/>矩阵，/>为输入段落P中词条的总数，K为输入段落中候选篇章连接词的总数，I为输入段落中句子的总数。

4.根据权利要求3所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，在基于Longformer的段落编码模块中，将预处理后的每个句子中开头的全局占位符定义为全局词条，并将输入段落中所有的候选篇章连接词定义为全局词条，将输入段落中除全局词条外的其他词条定义为局部词条，其中，全局词条与输入段落中的每个词条进行信息交互，局部词条只与其前后个词条以及全局词条进行信息交互。

5.根据权利要求3所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，基于双向序列生成的预测模块满足以下条件式：

；

其中，表示正向预测时第/>个候选篇章连接词为篇章连接词的概率分布，/>表示反向预测时第/>个候选篇章连接词为篇章连接词的概率分布，/>表示第/>个候选篇章连接词为篇章连接词的最终预测结果，/>表示归一化指数函数，/>和/>为正向生成层中需要学习的参数，/>为从左至右的长短时记忆网络，/>和/>为/>中的隐状态，/>是正向预测时基于注意力机制计算的输入段落中与第/>个候选篇章连接词相关的上下文信息的向量表示，/>表示正向预测时前一预测结果的向量表示，/>和/>为反向生成层中需要学习的参数，/>为从右至左的长短时记忆网络，/>和为/>中的隐状态，/>是反向预测时基于注意力机制计算的输入段落中与第/>个候选篇章连接词相关的上下文信息的向量表示，/>表示反向预测时前一预测结果的向量表示。

6.根据权利要求1所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，预定义的启发式规则包括以下三个规则：

规则3：如果两个复合篇章连接词覆盖的文本片段有部分重合，则舍弃位于后面的复合篇章连接词。

7.根据权利要求5所述的基于双向序列生成的汉语篇章连接词识别方法，其特征在于，通过互学习代价增强的训练模块满足以下条件式：

；

为训练基于Longformer的段落编码模块和正向生成层的代价函数，/>为训练反向生成层的代价函数，/>为基于Longformer的段落编码模块和正向生成层中的参数的集合，为反向生成层中的参数的集合，D为人工标注的训练数据集，CE为交叉熵代价计算函数，为第/>个候选篇章连接词为篇章连接词的真实概率分布，/>和/>为权重系数，MSE为基于均方误差的互学习代价计算函数。