CN113255371A

CN113255371A - 一种半监督的中英文隐式篇章关系识别方法与系统

Info

Publication number: CN113255371A
Application number: CN202110796271.2A
Authority: CN
Inventors: 邬昌兴; 胡明昆; 俞亮
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-08-13
Anticipated expiration: 2041-07-14
Also published as: CN113255371B

Abstract

本发明提出一种半监督的中英文隐式篇章关系识别方法与系统，该方法包括如下步骤：步骤一、数据集准备；步骤二、模型构建：在基于注意力机制的隐式篇章关系识别模型的基础上，分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型；步骤三、无监督的模型训练；步骤四、有监督的模型训练；步骤五、预测结果输出。本发明提出的半监督的中英文隐式篇章关系识别方法，基于两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集联合训练中文和英文隐式篇章关系识别模型，可充分有效地利用两种语言中未标注的和标注的数据集，以同时提高中英文隐式篇章关系识别的性能。

Description

一种半监督的中英文隐式篇章关系识别方法与系统

技术领域

本发明涉及计算机语言处理技术领域，特别涉及一种半监督的中英文隐式篇章关系识别方法与系统。

背景技术

隐式篇章关系识别旨在自动推断缺少篇章连接词的两个论元(句子或子句)之间的语义关系，例如，转折和因果。在不同的语言中，通常都有少量人工标注的篇章关系数据集，例如，中文CDTB数据集和英文PDTB数据集。由于人工标注篇章关系数据集非常困难，导致不管是CDTB数据集还是PDTB数据集的规模都比较小。其中，CDTB数据集中标注的隐式篇章关系实例有5500个左右，而目前规模最大的PDTB数据集中也仅包含16000个左右的实例。这些人工标注的语料虽然数量不多，但质量非常高。因此，如何充分有效地利用不同语言中标注的篇章关系数据集是一个非常值得研究的问题，能有效地缓解训练数据短缺的问题，从而提升隐式篇章关系识别模型的性能。

中文和英文中都具有少量标注的篇章关系数据集，虽然他们各自定义的篇章关系类别有一定的差异，不存在一一对应关系，但两种不同语言的数据集显然是可以相互增强的。如图1所示，对于本发明提出的中文和英文隐式篇章关系实例示意图，其中，中文篇章实例中的“转折关系”和英文篇章实例中的“Contrast”关系是相互对应的。因此，隐式篇章关系识别模型应该具备从这些不同语言中具有相同语义关系的实例中学习知识的能力。

然而，现有技术中，缺少同时利用中英两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集进行隐式篇章关系识别的方法，在一定程度上限制了中英文隐式篇章关系的识别性能的提高。

发明内容

鉴于上述状况，有必要解决现有技术中，缺少同时利用中英两种语言中人工标注的篇章关系数据集进行隐式篇章关系识别的方法，在一定程度上限制了中英文隐式篇章关系的识别性能的提高的问题。

本发明实施例提出一种半监督的中英文隐式篇章关系识别方法，其中，所述方法包括如下步骤：

步骤一、数据集准备：

给定人工标注的中文篇章关系数据集

和英文篇章关系数据集

，以及未标注的中文篇章关系数据集

和英文篇章关系数据集

，基于中英互译机器翻译系统进行翻译以分别得到

的译文数据集

，

的译文数据集

，

的译文数据集

以及

的译文数据集

；

步骤二、模型构建：

在基于注意力机制的隐式篇章关系识别模型的基础上，分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型；

步骤三、无监督的模型训练：

基于未标注的中文篇章关系数据集

、未标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，随机初始化中文隐式篇章关系识别模型的参数

以及英文隐式篇章关系识别模型的参数

，对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行无监督训练直至达到最大训练轮数以得到无监督训练后参数

以及参数

的值；

其中，在训练过程中，基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数，分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数，以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移；

步骤四、有监督的模型训练：

基于人工标注的中文篇章关系数据集

、人工标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，以无监督训练后得到的参数

以及参数

的值作为初始值，对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行有监督训练，直至收敛以分别得到训练好的中文隐式篇章关系识别模型以及训练好的英文隐式篇章关系识别模型；

其中，在训练过程中，基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数，并结合各自定义的交叉熵分类代价函数，以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数，分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练；

步骤五、预测结果输出：

基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结果，基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。

本发明提出一种半监督的中英文隐式篇章关系识别方法，具有如下优点：（1）基于大量未标注的中英文篇章关系数据集学习跨语言的元篇章关系知识，可解决跨语言数据集共享的问题。该过程还可看作是模型预训练的过程，有利于缓解标注数据集不足的问题；（2）采用的中英两种语言中未标注的和人工标注的数据集都需要翻译成相应的译文数据集(即中文数据集需翻译成英文，英文数据集需翻译成中文)，由于译文数据集也参与上述两个训练过程，因此可认为是某种意义上的数据增强；（3）基于两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集联合训练中文和英文隐式篇章关系识别模型，可充分有效地利用两种语言中标注的数据集，同时提高中英文隐式篇章关系识别的性能。

所述半监督的中英文隐式篇章关系识别方法，其中，所述基于注意力机制的隐式篇章关系识别模型包括编码层、基于注意力机制的特征层以及分类层；

其中，所述编码层用于学习论元中的词在上下文中的表示，具体表示为：

其中，

分别为论元1中第

个词的词向量及其在上下文中的表示，

分别为论元2中第

个词的词向量及其在上下文中的表示，

与

分别是论元1与论元2中词的个数，BiLSTM₁和BiLSTM₂均为双向长短时记忆网络。

所述半监督的中英文隐式篇章关系识别方法，其中，所述基于注意力机制的特征层用于建模论元1与论元2之间的交互，具体表示为：

其中，

和

分别为基于最大池化操作得到的论元1与论元2的语义表示；

表示最大池化操作，

为基于论元2的语义表示

计算的论元1中的词的权重，

为基于论元1的语义表示

计算的论元2中的词的权重，

为向量的转置，

为归一化操作；

和

分别为语义交互后得到的论元1和论元2的语义表示，

为拼接

和

得到特征层的输出；

所述分类层用于输出模型预测的结果，具体表示为：

其中，

是隐式篇章关系预测结果，

表示多层感知机，由多个全连接的非线性神经网络层和一个

层组成。

所述半监督的中英文隐式篇章关系识别方法，其中，对所述中文隐式篇章关系识别模型进行无监督训练的步骤中，对应的基于知识迁移的代价函数表示为：

其中，

为中文隐式篇章关系识别模型进行无监督训练对应的基于知识迁移的代价函数，

为中文隐式篇章关系识别模型的参数，

为未标注的中文隐式篇章关系实例

的元篇章关系预测结果，

为

的英文译文实例

的元篇章关系预测结果，

表示两个概率分布之间的KL (Kullback-Leibler)距离，

，

。

所述半监督的中英文隐式篇章关系识别方法，其中，对所述英文隐式篇章关系识别模型进行无监督训练的步骤中，对应的基于知识迁移的代价函数表示为：

其中，

为英文隐式篇章关系识别模型进行无监督训练对应的基于知识迁移的代价函数，

为英文隐式篇章关系识别模型的参数，

为未标注的英文隐式篇章实例

的元篇章关系预测结果，

为

的中文译文实例

的元篇章关系预测结果，

，

。

所述半监督的中英文隐式篇章关系识别方法，其中，对所述中文隐式篇章关系识别模型进行有监督训练直至收敛以得到训练好的中文模型的步骤中，对应的第一总体代价函数表示为：

其中，

为对应于基于知识迁移的代价函数的第一权重系数；

其中，

表示在人工标注的中文篇章关系数据集

上定义的交叉熵分类代价函数，

是中文隐式篇章关系识别模型的参数，

是中文实例

的隐式篇章关系预测结果，

是

的真实类别基于One-hot编码的表示，

表示预测结果对于真实类别的期望值；

其中，

为基于中文篇章关系数据集

及其译文数据集

所定义的基于知识迁移的代价函数，

是中文隐式篇章关系实例

的元篇章关系预测结果，

是

的英文译文实例

的元篇章关系预测结果，

，

。

所述半监督的中英文隐式篇章关系识别方法，其中，对所述英文隐式篇章关系识别模型进行有监督训练直至收敛以得到训练好的英文模型的步骤中，对应的第二总体代价函数表示为：

其中，

为对应于基于知识迁移的代价函数的第二权重系数；

其中，

表示在人工标注的英文篇章关系数据集

上定义的交叉熵分类代价函数，

是英文隐式篇章关系识别模型的参数，

是英文隐式篇章关系实例

的隐式篇章关系预测结果，

是

的真实类别基于One-hot编码的表示，

表示预测结果对于真实标记的期望值；

其中，

为基于英文篇章关系数据集

及其译文数据集

所定义的基于知识迁移的代价函数，

是英文隐式篇章关系实例

的元篇章关系预测结果，

是

的中文译文实例

的元篇章关系预测结果，

，

。

本发明还提出一种半监督的中英文隐式篇章关系识别系统，其中，所述系统包括依次连接的数据集预处理模块、模型构建模块、第一训练模块、第二训练模块以及结果输出模块：

所述数据集预处理模块用于：

给定人工标注的中文篇章关系数据集

和英文篇章关系数据集

，以及未标注的中文篇章关系数据集

和英文篇章关系数据集

，基于中英互译机器翻译系统进行翻译以分别得到

的译文数据集

，

的译文数据集

，

的译文数据集

以及

的译文数据集

；

所述模型构建模块用于：

所述第一训练模块用于：

基于未标注的中文篇章关系数据集

、未标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，随机初始化中文隐式篇章关系识别模型的参数

以及英文隐式篇章关系识别模型的参数

以及参数

的值；

所述第二训练模块用于：

基于人工标注的中文篇章关系数据集

、人工标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，以无监督训练后得到的参数

以及参数

的值作为初始值，对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行有监督训练直至收敛以分别得到训练好的中文隐式篇章关系识别模型以及训练好的英文隐式篇章关系识别模型；

所述结果输出模块用于：

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明的中文和英文隐式篇章关系实例示意图；

图2为本发明提出的半监督的中英文隐式篇章关系识别方法的原理图；

图3为本发明提出的半监督的中英文隐式篇章关系识别方法的流程图；

图4为本发明中基于注意力机制隐式篇章关系识别模型的结构示意图；

图5为本发明提出的半监督的中英文隐式篇章关系识别系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

为了解决这一技术问题，请参阅图1至图4，其中，图1为本发明的中文和英文隐式篇章关系实例示意图，图2为本发明提出的半监督的中英文隐式篇章关系识别方法的原理图，图4为本发明中基于注意力机制隐式篇章关系识别模型的结构示意图，本发明提出一种半监督的中英文隐式篇章关系识别方法，其中，所述方法包括如下步骤：

S101，数据集准备：

给定人工标注的中文篇章关系数据集

和英文篇章关系数据集

，以及未标注的中文篇章关系数据集

和英文篇章关系数据集

，基于中英互译机器翻译系统进行翻译以分别得到

的译文数据集

，

的译文数据集

，

的译文数据集

以及

的译文数据集

。

S102，模型构建：

在基于注意力机制的隐式篇章关系识别模型的基础上，分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型。

如图2所示，基于注意力机制的隐式篇章关系识别模型包括编码层（包括编码层1以及编码层2）、基于注意力机制的特征层以及分类层。

其中，编码层用于学习论元中的词在上下文中的表示，采用双向长短时记忆网络(BiLSTM)，具体表示为：

其中，

分别为论元1中第

个词的词向量及其在上下文中的表示，

分别为论元2中第

个词的词向量及其上下文中的表示，

与

分别是论元1与论元2中词的个数，BiLSTM ₁和BiLSTM ₂均为双向长短时记忆网络，用于论元1和论元2的编码层。

基于注意力机制的特征层用于建模论元1与论元2之间的交互，即学习篇章语义关系的特征表示，具体表示为：

其中，

和

分别为基于最大池化操作得到的论元1与论元2的语义表示；

表示最大池化操作，

为基于论元2的语义表示

计算的论元1中的词的权重，

为基于论元1的语义表示

计算的论元2中的词的权重，

为向量的转置，

为归一化操作；

和

分别为语义交互后得到的论元1和论元2的语义表示，

为拼接

和

得到特征层的输出。

分类层（MLP层）由多个全连接的非线性神经网络层和一个

层组成，用于输出模型预测的结果，具体表示为：

其中，

是隐式篇章关系预测结果，

表示多层感知机。

在本发明中，构建中文隐式篇章关系识别模型，仅需简单扩展上述隐式篇章关系识别模型。具体地，在基于注意力机制的特征层上叠加两个分类层（MLP层）：

用于输出中文隐式篇章关系预测结果，

用于输出元篇章关系预测结果。

同理，构建英文隐式篇章关系识别模型，同样仅需简单扩展上述隐式篇章关系识别模型。具体地，在基于注意力机制的特征层上叠加两个分类层（MLP层）：

用于输出英文隐式篇章关系预测结果，

用于输出元篇章关系预测结果。

S103，无监督的模型训练：

基于未标注的中文篇章关系数据集

、未标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，随机初始化中文隐式篇章关系识别模型的参数

以及英文隐式篇章关系识别模型的参数

以及参数

的值。

其中，在训练过程中，基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数，分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数，以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移。

对所述中文隐式篇章关系识别模型进行无监督训练的过程中，对

中的任一中文隐式篇章实例与其对应的

中的英文译文实例，分别基于中文和英文隐式篇章关系识别模型预测其元篇章关系，以尽可能使二者的预测结果是一致的，对应的基于知识迁移的代价函数表示为：

其中，

为中文隐式篇章关系识别模型的参数，

为未标注的中文隐式篇章关系实例

的元篇章关系预测结果（中文隐式篇章关系识别模型的输出），

为

的英文译文实例

的元篇章关系预测结果，

表示两个概率分布之间的KL (Kullback-Leibler)距离，

，

。

类似地，在英文隐式篇章关系识别模型进行无监督训练的过程中，对

中的任一英文隐式篇章关系实例与其对应的

中的中文译文实例，分别基于英文和中文隐式篇章关系识别模型预测其元篇章关系，以尽可能使二者的预测结果是一致的，对应的基于知识迁移的代价函数表示为：

其中，

为英文隐式篇章关系识别模型的参数，

为未标注的英文隐式篇章实例

的元篇章关系预测结果（英文隐式篇章关系识别模型的输出），

为

的中文译文实例

，

。

总体而言，无监督训练使两个不同语言的模型学到的知识趋于一致，这些知识可认为是跨语言的篇章关系知识，在本发明中具体体现为中英文中通用的元篇章关系类别。

S104，有监督的模型训练：

基于人工标注的中文篇章关系数据集

、人工标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，以无监督训练后得到的参数

以及参数

的值作为初始值，对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行有监督训练，直至收敛以分别得到训练好的中文隐式篇章关系识别模型以及训练好的英文隐式篇章关系识别模型。

其中，在训练过程中，基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数，并结合各自定义的交叉熵分类代价函数，以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数，分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练。

在有监督的训练阶段，基于少量人工标注的两种语言的篇章关系训练集，联合训练中文和英文隐式篇章关系识别模型，通过知识的双向迁移，以达到共同提高的目的。

在中文隐式篇章关系识别模型的有监督训练过程中，一方面在人工标注的中文篇章数据集

上最小化交叉熵分类代价函数，代价函数定义如下所示：

其中，

表示在人工标注的中文篇章关系数据集

上定义的交叉熵分类代价函数，

是中文隐式篇章关系识别模型的参数，

是中文实例

的隐式篇章关系预测结果，

是

的真实类别基于One-hot编码的表示，

表示预测结果对于真实类别的期望值。

另一方面，为了学习英文隐式篇章关系识别模型中的知识，基于中文篇章数据集

及其译文数据集

定义基于知识迁移的代价函数，如下所示：

其中，

为基于中文篇章关系数据集

及其译文数据集

所定义的基于知识迁移的代价函数，

是中文隐式篇章关系实例

的元篇章关系预测结果，

是

的英文译文实例

的元篇章关系预测结果，

，

。

在进行训练时，通过最小化基于知识迁移的代价函数，可以迫使中文和英文模型的元篇章关系预测结果趋于一致，从而达到知识迁移的目的。也即，中文隐式篇章关系识别模型吸收了来自英文隐式篇章关系识别模型中的知识。

最后，有监督训练中文隐式篇章关系识别模型的总体代价函数定义为上述交叉熵分类代价函数和基于知识迁移的代价函数的线性求和，如下所示：

其中，

为对应于基于知识迁移的代价函数的第一权重系数。

在英文隐式篇章关系识别模型有监督的训练过程中，一方面在数据集

上最小化交叉熵分类代价函数，代价函数定义如下所示：

其中，

表示在人工标注的英文篇章关系数据集

上定义的交叉熵分类代价函数，

是英文隐式篇章关系识别模型的参数，

是英文隐式篇章关系实例

的隐式篇章关系预测结果，

是

的真实类别基于One-hot编码的表示，

表示预测结果对于真实标记的期望值。

另一方面，为了学习中文隐式篇章关系识别模型中的知识，定义基于知识迁移的代价函数，如下所示：

其中，

是英文隐式篇章关系实例

的元篇章关系预测结果，

是

的中文译文实例

的元篇章关系预测结果，

，

。

通过最小化上述基于知识迁移的代价函数，可以迫使英文和中文模型的元篇章关系预测结果趋于相同，从而达到知识迁移的目的。也即，英文隐式篇章关系识别模型吸收了来自中文隐式篇章关系识别模型中的知识。

最后，有监督训练英文隐式篇章关系模型的总体代价函数定义为上述交叉熵分类代价函数和基于知识迁移的代价函数的线性求和，如下所示：

其中，

为对应于基于知识迁移的代价函数的第二权重系数。

如下所述，算法1描述了半监督的中英文隐式篇章关系识别方法的训练过程。整个训练过程是一个两阶段的训练过程：第一阶段，基于未标注的中英文隐式篇章关系数据无监督训练两个模型的过程（步骤2~9）；第二阶段，基于标注的中英文隐式篇章关系数据有监督训练两个模型的过程（步骤10~17）。为了简洁，算法1中省略了基于验证数据集判断模型是否收敛的过程。最终训练得到的中文模型和英文模型即为需要的隐式篇章关系识别模型。

算法1：训练算法

输入：标注数据集

及对应的译文数据集

，无标注数据集

及对应的译文数据集

，最大训练轮数

输出：训练好的中文模型与英文模型

1.构造中文模型和英文模型，并分别随机初始化对应模型参数

2.重复以下步骤：

/* 无监督训练中文隐式篇章关系识别模型 */

3.取一批无标注的中文实例

，并取其对应的译文实例

4.计算元篇章关系预测结果

和

5.最小化中文模型无监督代价函数

，更新参数

/* 无监督训练英文隐式篇章关系识别模型 */

6.取一批无标注的英文实例

，并取其对应的译文实例

7.计算元篇章关系预测结果

和

8.最小化英文模型无监督代价函数

，更新参数

9.直到：达到最大训练轮数

10.重复以下步骤：

/* 有监督训练中文隐式篇章关系识别模型 */

11.取一批中文实例

，并取其对应的一批译文实例

12.计算中文篇章关系预测结果

，并计算元篇章关系预测结果

和

13.最小化中文模型有监督代价函数

，更新参数

/* 有监督训练英文隐式篇章关系识别模型 */

14.取一批英文实例

，并取其对应的一批译文实例

15. 计算英文篇章关系预测结果

，并计算元篇章关系预测结果

和

16. 最小化中文模型有监督代价函数

，更新参数

17.直到：模型收敛或达到最大训练轮数

。

一方面，在中文隐式篇章关系识别模型的训练过程中，给定中文篇章关系数据集

中标注的中文隐式篇章关系实例

，经过基于注意力机制的特征层后得到的特征表示为

，分别计算中文隐式篇章关系预测结果

和中文元篇章关系预测结果

，具体如下：

类似地，对于给定

的译文数据集

中经翻译得到的中文隐式篇章关系实例

，可计算其对应的元篇章关系预测结果为

。对于给定未标注的中文篇章关系数据集

中的中文隐式篇章关系实例

，可计算其对应的元篇章关系预测结果为

；对于给定

的译文数据集

中经翻译得到的中文隐式篇章关系实例

，可计算其对应的元篇章关系预测结果为

。

从中文隐式篇章关系识别的角度看，数据集

和

都是未标注的数据集，模型训练的过程中只需要计算其中实例对应的元篇章关系预测结果即可。

另一方面，在英文隐式篇章关系识别模型的训练过程中，给定英文篇章关系数据集

中标注的英文隐式篇章关系实例

，经过基于注意力机制的特征层后得到的特征表示为

，分别计算英文隐式篇章关系预测结果

和英文元篇章关系预测结果

，具体如下：

类似地，对于给定

的译文数据集

中经翻译得到的英文隐式篇章关系实例

，可计算其对应的元篇章关系预测结果为

。

对于给定未标注的英文篇章数据集

中的英文隐式篇章关系实例

，可计算其对应的元篇章关系预测结果为

；对于给定未标注的中文隐式篇章关系数据集

的译文数据集

中经翻译得到的英文隐式篇章关系实例

，可计算其对应的元篇章关系预测结果为

。

从英文隐式篇章关系识别的角度看，数据集

和

S105，预测结果输出：

基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结，基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。

在本步骤中，在模型训练好之后，即用于预测实际中的篇章关系实例的类别。即根据训练好的中文隐式篇章关系识别模型输出中文隐式篇章关系预测结果

，根据训练好的英文隐式篇章关系识别模型输出英文隐式篇章关系预测结果

。

需要说明的，上述的中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型虽然均有两个输出，但元篇章关系预测结果输出只用于训练模型。当模型训练好之后，便只输出中文篇章关系类别或英文篇章关系类别了。

请参阅图5，本发明还提出一种半监督的中英文隐式篇章关系识别系统，其中，所述系统包括依次连接的数据集预处理模11、模型构建模块12、第一训练模块13、第二训练模块14以及结果输出模块15：

所述数据集预处理模块11用于：

给定人工标注的中文篇章关系数据集

和英文篇章关系数据集

，以及未标注的中文篇章关系数据集

和英文篇章关系数据集

，基于中英互译机器翻译系统进行翻译以分别得到

的译文数据集

，

的译文数据集

，

的译文数据集

以及

的译文数据集

；

所述模型构建模块12用于：

所述第一训练模块13用于：

基于未标注的中文篇章关系数据集

、未标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，随机初始化中文隐式篇章关系识别模型的参数

以及英文隐式篇章关系识别模型的参数

以及参数

的值；

所述第二训练模块14用于：

基于人工标注的中文篇章关系数据集

、人工标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，以无监督训练后得到的参数

以及参数

其中，在训练过程中，基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数，并结合各自定义的交叉熵分类代价函数，以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数，分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练

所述结果输出模块15用于：

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种半监督的中英文隐式篇章关系识别方法，其特征在于，所述方法包括如下步骤：

步骤一、数据集准备：

给定人工标注的中文篇章关系数据集

和英文篇章关系数据集

以及未标注的中文篇章关系数据集

和英文篇章关系数据集

，基于中英互译机器翻译系统进行翻译以分别得到

的译文数据集

，

的译文数据集

，

的译文数据集

以及

的译文数据集

；

步骤二、模型构建：

步骤三、无监督的模型训练：

基于未标注的中文篇章关系数据集

、未标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，随机初始化中文隐式篇章关系识别模型的参数

以及英文隐式篇章关系识别模型的参数

以及参数

的值；

步骤四、有监督的模型训练：

基于人工标注的中文篇章关系数据集

、人工标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，以无监督训练后得到的参数

以及参数

步骤五、预测结果输出：

2.根据权利要求1所述的半监督的中英文隐式篇章关系识别方法，其特征在于，所述基于注意力机制的隐式篇章关系识别模型包括编码层、基于注意力机制的特征层以及分类层；

其中，

分别为论元1中第

个词的词向量及其在上下文中的表示，

分别为论元2中第

个词的词向量及其在上下文中的表示，

与

分别是论元1与论元2中词的个数，BiLSTM ₁和BiLSTM ₂均为双向长短时记忆网络。

3.根据权利要求2所述的半监督的中英文隐式篇章关系识别方法，其特征在于，所述基于注意力机制的特征层用于建模论元1与论元2之间的交互，具体表示为：

其中，

和

分别为基于最大池化操作得到的论元1与论元2的语义表示；

表示最大池化操作，

为基于论元2的语义表示

计算的论元1中的词的权重，

为基于论元1的语义表示

计算的论元2中的词的权重，

为向量的转置，

为归一化操作；

和

分别为语义交互后得到的论元1和论元2的语义表示，

为拼接

和

得到特征层的输出；

所述分类层用于输出模型预测的结果，具体表示为：

其中，

是隐式篇章关系预测结果，

表示多层感知机，由多个全连接的非线性神经网络层和一个

层组成。

4.根据权利要求1所述的半监督的中英文隐式篇章关系识别方法，其特征在于，对所述中文隐式篇章关系识别模型进行无监督训练的步骤中，对应的基于知识迁移的代价函数表示为：

其中，

为中文隐式篇章关系识别模型的参数，

为未标注的中文隐式篇章关系实例

的元篇章关系预测结果，

为

的英文译文实例

的元篇章关系预测结果，

表示两个概率分布之间的KL距离，

，

。

5.根据权利要求4所述的半监督的中英文隐式篇章关系识别方法，其特征在于，对所述英文隐式篇章关系识别模型进行无监督训练的步骤中，对应的基于知识迁移的代价函数表示为：

其中，

为英文隐式篇章关系识别模型的参数，

为未标注的英文隐式篇章关系实例

的元篇章关系预测结果，

为

的中文译文实例

的元篇章关系预测结果，

，

。

6.根据权利要求4所述的半监督的中英文隐式篇章关系识别方法，其特征在于，对所述中文隐式篇章关系识别模型进行有监督训练直至收敛以得到训练好的中文模型的步骤中，对应的第一总体代价函数表示为：

其中，

为对应于基于知识迁移的代价函数的第一权重系数；

其中，

表示在人工标注的中文篇章关系数据集

上定义的交叉熵分类代价函数，

是中文隐式篇章关系识别模型的参数，

是中文实例

的隐式篇章关系预测结果，

是

的真实类别基于One-hot编码的表示，

表示预测结果对于真实类别的期望值；

其中，

为基于中文篇章关系数据集

及其译文数据集

所定义的基于知识迁移的代价函数，

是中文隐式篇章关系实例

的元篇章关系预测结果，

是

的英文译文实例

的元篇章关系预测结果，

，

。

7.根据权利要求4所述的半监督的中英文隐式篇章关系识别方法，其特征在于，对所述英文隐式篇章关系识别模型进行有监督训练直至收敛以得到训练好的英文模型的步骤中，对应的第二总体代价函数表示为：

其中，

为对应于基于知识迁移的代价函数的第二权重系数；

其中，

表示在人工标注的英文篇章关系数据集

上定义的交叉熵分类代价函数，

是英文隐式篇章关系识别模型的参数，

是英文隐式篇章关系实例

的隐式篇章关系预测结果，

是

的真实类别基于One-hot编码的表示，

表示预测结果对于真实标记的期望值；

其中，

为基于英文篇章关系数据集

及其译文数据集

所定义的基于知识迁移的代价函数，

是英文隐式篇章关系实例

的元篇章关系预测结果，

是

的中文译文实例

的元篇章关系预测结果，

，

。

8.一种半监督的中英文隐式篇章关系识别系统，其特征在于，所述系统包括依次连接的数据集预处理模块、模型构建模块、第一训练模块、第二训练模块以及结果输出模块：

所述数据集预处理模块用于：

给定人工标注的中文篇章关系数据集

和英文篇章关系数据集

，以及未标注的中文篇章关系数据集

和英文篇章关系数据集

，基于中英互译机器翻译系统进行翻译以分别得到

的译文数据集

，

的译文数据集

，

的译文数据集

以及

的译文数据集

；

所述模型构建模块用于：

所述第一训练模块用于：

基于未标注的中文篇章关系数据集

、未标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，随机初始化中文隐式篇章关系识别模型的参数

以及英文隐式篇章关系识别模型的参数

以及参数

的值；

所述第二训练模块用于：

基于人工标注的中文篇章关系数据集

、人工标注的英文篇章关系数据集

、

的译文数据集

以及

的译文数据集

，以无监督训练后得到的参数

以及参数

所述结果输出模块用于：