CN113255371B - 一种半监督的中英文隐式篇章关系识别方法与系统 - Google Patents
一种半监督的中英文隐式篇章关系识别方法与系统 Download PDFInfo
- Publication number
- CN113255371B CN113255371B CN202110796271.2A CN202110796271A CN113255371B CN 113255371 B CN113255371 B CN 113255371B CN 202110796271 A CN202110796271 A CN 202110796271A CN 113255371 B CN113255371 B CN 113255371B
- Authority
- CN
- China
- Prior art keywords
- discourse relation
- english
- chinese
- implicit
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 119
- 238000010276 construction Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 87
- 238000013508 migration Methods 0.000 claims description 55
- 230000005012 migration Effects 0.000 claims description 54
- 238000013519 translation Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 30
- 230000007246 mechanism Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种半监督的中英文隐式篇章关系识别方法与系统,该方法包括如下步骤:步骤一、数据集准备;步骤二、模型构建:在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型;步骤三、无监督的模型训练;步骤四、有监督的模型训练;步骤五、预测结果输出。本发明提出的半监督的中英文隐式篇章关系识别方法,基于两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集联合训练中文和英文隐式篇章关系识别模型,可充分有效地利用两种语言中未标注的和标注的数据集,以同时提高中英文隐式篇章关系识别的性能。
Description
技术领域
本发明涉及计算机语言处理技术领域,特别涉及一种半监督的中英文隐式篇章关系识别方法与系统。
背景技术
隐式篇章关系识别旨在自动推断缺少篇章连接词的两个论元(句子或子句)之间的语义关系,例如,转折和因果。在不同的语言中,通常都有少量人工标注的篇章关系数据集,例如,中文CDTB数据集和英文PDTB数据集。由于人工标注篇章关系数据集非常困难,导致不管是CDTB数据集还是PDTB数据集的规模都比较小。其中,CDTB数据集中标注的隐式篇章关系实例有5500个左右,而目前规模最大的PDTB数据集中也仅包含16000个左右的实例。这些人工标注的语料虽然数量不多,但质量非常高。因此,如何充分有效地利用不同语言中标注的篇章关系数据集是一个非常值得研究的问题,能有效地缓解训练数据短缺的问题,从而提升隐式篇章关系识别模型的性能。
中文和英文中都具有少量标注的篇章关系数据集,虽然他们各自定义的篇章关系类别有一定的差异,不存在一一对应关系,但两种不同语言的数据集显然是可以相互增强的。如图1所示,对于本发明提出的中文和英文隐式篇章关系实例示意图,其中,中文篇章实例中的“转折关系”和英文篇章实例中的“Contrast”关系是相互对应的。因此,隐式篇章关系识别模型应该具备从这些不同语言中具有相同语义关系的实例中学习知识的能力。
然而,现有技术中,缺少同时利用中英两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集进行隐式篇章关系识别的方法,在一定程度上限制了中英文隐式篇章关系的识别性能的提高。
发明内容
鉴于上述状况,有必要解决现有技术中,缺少同时利用中英两种语言中人工标注的篇章关系数据集进行隐式篇章关系识别的方法,在一定程度上限制了中英文隐式篇章关系的识别性能的提高的问题。
本发明实施例提出一种半监督的中英文隐式篇章关系识别方法,其中,所述方法包括如下步骤:
步骤一、数据集准备:
给定人工标注的中文篇章关系数据集和英文篇章关系数据集,以及未标注的中文篇章关系数据集和英文篇章关系数据集,基于中英互译机器翻译系统进行翻译以分别得到的译文数据集,的译文数据集,的译文数据集以及的译文数据集;
步骤二、模型构建:
在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型;
步骤三、无监督的模型训练:
基于未标注的中文篇章关系数据集、未标注的英文篇章关系数据集、的译文数据集以及的译文数据集,随机初始化中文隐式篇章关系识别模型的参数以及英文隐式篇章关系识别模型的参数,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行无监督训练直至达到最大训练轮数以得到无监督训练后参数以及参数的值;
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数,以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移;
步骤四、有监督的模型训练:
基于人工标注的中文篇章关系数据集、人工标注的英文篇章关系数据集、的译文数据集以及的译文数据集,以无监督训练后得到的参数以及参数的值作为初始值,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行有监督训练,直至收敛以分别得到训练好的中文隐式篇章关系识别模型以及训练好的英文隐式篇章关系识别模型;
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,并结合各自定义的交叉熵分类代价函数,以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数,分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练;
步骤五、预测结果输出:
基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结果,基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。
本发明提出一种半监督的中英文隐式篇章关系识别方法,具有如下优点:(1)基于大量未标注的中英文篇章关系数据集学习跨语言的元篇章关系知识,可解决跨语言数据集共享的问题。该过程还可看作是模型预训练的过程,有利于缓解标注数据集不足的问题;(2)采用的中英两种语言中未标注的和人工标注的数据集都需要翻译成相应的译文数据集(即中文数据集需翻译成英文,英文数据集需翻译成中文),由于译文数据集也参与上述两个训练过程,因此可认为是某种意义上的数据增强;(3)基于两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集联合训练中文和英文隐式篇章关系识别模型,可充分有效地利用两种语言中标注的数据集,同时提高中英文隐式篇章关系识别的性能。
所述半监督的中英文隐式篇章关系识别方法,其中,所述基于注意力机制的隐式篇章关系识别模型包括编码层、基于注意力机制的特征层以及分类层;
其中,所述编码层用于学习论元中的词在上下文中的表示,具体表示为:
所述半监督的中英文隐式篇章关系识别方法,其中,所述基于注意力机制的特征层用于建模论元1与论元2之间的交互,具体表示为:
其中,和分别为基于最大池化操作得到的论元1与论元2的语义表示;表示最大池化操作,为基于论元2的语义表示计算的论元1中的词的权重,为基于论元1的语义表示计算的论元2中的词的权重,为向量的转置,为归一化操作;和分别为语义交互后得到的论元1和论元2的语义表示,为拼接和得到特征层的输出;
所述分类层用于输出模型预测的结果,具体表示为:
所述半监督的中英文隐式篇章关系识别方法,其中,对所述中文隐式篇章关系识别模型进行无监督训练的步骤中,对应的基于知识迁移的代价函数表示为:
其中,为中文隐式篇章关系识别模型进行无监督训练对应的基于知识迁移的代价函数,为中文隐式篇章关系识别模型的参数,为未标注的中文隐式篇章关系实例的元篇章关系预测结果,为的英文译文实例的元篇章关系预测结果,表示两个概率分布之间的KL (Kullback-Leibler)距离,,。
所述半监督的中英文隐式篇章关系识别方法,其中,对所述英文隐式篇章关系识别模型进行无监督训练的步骤中,对应的基于知识迁移的代价函数表示为:
其中,为英文隐式篇章关系识别模型进行无监督训练对应的基于知识迁移的代价函数,为英文隐式篇章关系识别模型的参数,为未标注的英文隐式篇章实例的元篇章关系预测结果,为的中文译文实例的元篇章关系预测结果,,。
所述半监督的中英文隐式篇章关系识别方法,其中,对所述中文隐式篇章关系识别模型进行有监督训练直至收敛以得到训练好的中文模型的步骤中,对应的第一总体代价函数表示为:
其中,表示在人工标注的中文篇章关系数据集上定义的交叉熵分类代价函数,是中文隐式篇章关系识别模型的参数,是中文实例的隐式篇章关系预测结果,是的真实类别基于One-hot编码的表示,表示预测结果对于真实类别的期望值;
所述半监督的中英文隐式篇章关系识别方法,其中,对所述英文隐式篇章关系识别模型进行有监督训练直至收敛以得到训练好的英文模型的步骤中,对应的第二总体代价函数表示为:
其中,表示在人工标注的英文篇章关系数据集上定义的交叉熵分类代价函数,是英文隐式篇章关系识别模型的参数,是英文隐式篇章关系实例的隐式篇章关系预测结果,是的真实类别基于One-hot编码的表示,表示预测结果对于真实标记的期望值;
本发明还提出一种半监督的中英文隐式篇章关系识别系统,其中,所述系统包括依次连接的数据集预处理模块、模型构建模块、第一训练模块、第二训练模块以及结果输出模块:
所述数据集预处理模块用于:
给定人工标注的中文篇章关系数据集和英文篇章关系数据集,以及未标注的中文篇章关系数据集和英文篇章关系数据集,基于中英互译机器翻译系统进行翻译以分别得到的译文数据集,的译文数据集,的译文数据集以及的译文数据集;
所述模型构建模块用于:
在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型;
所述第一训练模块用于:
基于未标注的中文篇章关系数据集、未标注的英文篇章关系数据集、的译文数据集以及的译文数据集,随机初始化中文隐式篇章关系识别模型的参数以及英文隐式篇章关系识别模型的参数,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行无监督训练直至达到最大训练轮数以得到无监督训练后参数以及参数的值;
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数,以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移;
所述第二训练模块用于:
基于人工标注的中文篇章关系数据集、人工标注的英文篇章关系数据集、的译文数据集以及的译文数据集,以无监督训练后得到的参数以及参数的值作为初始值,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行有监督训练直至收敛以分别得到训练好的中文隐式篇章关系识别模型以及训练好的英文隐式篇章关系识别模型;
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,并结合各自定义的交叉熵分类代价函数,以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数,分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练;
所述结果输出模块用于:
基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结果,基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明的中文和英文隐式篇章关系实例示意图;
图2为本发明提出的半监督的中英文隐式篇章关系识别方法的原理图;
图3为本发明提出的半监督的中英文隐式篇章关系识别方法的流程图;
图4为本发明中基于注意力机制隐式篇章关系识别模型的结构示意图;
图5为本发明提出的半监督的中英文隐式篇章关系识别系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
为了解决这一技术问题,请参阅图1至图4,其中,图1为本发明的中文和英文隐式篇章关系实例示意图,图2为本发明提出的半监督的中英文隐式篇章关系识别方法的原理图,图4为本发明中基于注意力机制隐式篇章关系识别模型的结构示意图,本发明提出一种半监督的中英文隐式篇章关系识别方法,其中,所述方法包括如下步骤:
S101,数据集准备:
给定人工标注的中文篇章关系数据集和英文篇章关系数据集,以及未标注的中文篇章关系数据集和英文篇章关系数据集,基于中英互译机器翻译系统进行翻译以分别得到的译文数据集,的译文数据集,的译文数据集以及的译文数据集。
S102,模型构建:
在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型。
如图2所示,基于注意力机制的隐式篇章关系识别模型包括编码层(包括编码层1以及编码层2)、基于注意力机制的特征层以及分类层。
其中,编码层用于学习论元中的词在上下文中的表示,采用双向长短时记忆网络(BiLSTM),具体表示为:
其中,分别为论元1中第个词的词向量及其在上下文中的表示,分别为论元2中第个词的词向量及其上下文中的表示,与分别是论元1与论元2中词的个数,BiLSTM 1和BiLSTM 2均为双向长短时记忆网络,用于论元1和论元2的编码层。
基于注意力机制的特征层用于建模论元1与论元2之间的交互,即学习篇章语义关系的特征表示,具体表示为:
其中,和分别为基于最大池化操作得到的论元1与论元2的语义表示;表示最大池化操作,为基于论元2的语义表示计算的论元1中的词的权重,为基于论元1的语义表示计算的论元2中的词的权重,为向量的转置,为归一化操作;和分别为语义交互后得到的论元1和论元2的语义表示,为拼接和得到特征层的输出。
在本发明中,构建中文隐式篇章关系识别模型,仅需简单扩展上述隐式篇章关系识别模型。具体地,在基于注意力机制的特征层上叠加两个分类层(MLP层):用于输出中文隐式篇章关系预测结果,用于输出元篇章关系预测结果。
同理,构建英文隐式篇章关系识别模型,同样仅需简单扩展上述隐式篇章关系识别模型。具体地,在基于注意力机制的特征层上叠加两个分类层(MLP层):用于输出英文隐式篇章关系预测结果,用于输出元篇章关系预测结果。
S103,无监督的模型训练:
基于未标注的中文篇章关系数据集、未标注的英文篇章关系数据集、的译文数据集以及的译文数据集,随机初始化中文隐式篇章关系识别模型的参数以及英文隐式篇章关系识别模型的参数,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行无监督训练直至达到最大训练轮数以得到无监督训练后参数以及参数的值。
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数,以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移。
对所述中文隐式篇章关系识别模型进行无监督训练的过程中,对中的任一中文隐式篇章实例与其对应的中的英文译文实例,分别基于中文和英文隐式篇章关系识别模型预测其元篇章关系,以尽可能使二者的预测结果是一致的,对应的基于知识迁移的代价函数表示为:
其中,为中文隐式篇章关系识别模型进行无监督训练对应的基于知识迁移的代价函数,为中文隐式篇章关系识别模型的参数,为未标注的中文隐式篇章关系实例的元篇章关系预测结果(中文隐式篇章关系识别模型的输出),为的英文译文实例的元篇章关系预测结果,表示两个概率分布之间的KL(Kullback-Leibler)距离,,。
类似地,在英文隐式篇章关系识别模型进行无监督训练的过程中,对中的任一英文隐式篇章关系实例与其对应的中的中文译文实例,分别基于英文和中文隐式篇章关系识别模型预测其元篇章关系,以尽可能使二者的预测结果是一致的,对应的基于知识迁移的代价函数表示为:
其中,为英文隐式篇章关系识别模型进行无监督训练对应的基于知识迁移的代价函数,为英文隐式篇章关系识别模型的参数,为未标注的英文隐式篇章实例的元篇章关系预测结果(英文隐式篇章关系识别模型的输出),为的中文译文实例的元篇章关系预测结果(中文隐式篇章关系识别模型的输出),,。
总体而言,无监督训练使两个不同语言的模型学到的知识趋于一致,这些知识可认为是跨语言的篇章关系知识,在本发明中具体体现为中英文中通用的元篇章关系类别。
S104,有监督的模型训练:
基于人工标注的中文篇章关系数据集、人工标注的英文篇章关系数据集、的译文数据集以及的译文数据集,以无监督训练后得到的参数以及参数的值作为初始值,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行有监督训练,直至收敛以分别得到训练好的中文隐式篇章关系识别模型以及训练好的英文隐式篇章关系识别模型。
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,并结合各自定义的交叉熵分类代价函数,以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数,分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练。
在有监督的训练阶段,基于少量人工标注的两种语言的篇章关系训练集,联合训练中文和英文隐式篇章关系识别模型,通过知识的双向迁移,以达到共同提高的目的。
其中,表示在人工标注的中文篇章关系数据集上定义的交叉熵分类代价函数,是中文隐式篇章关系识别模型的参数,是中文实例的隐式篇章关系预测结果,是的真实类别基于One-hot编码的表示,表示预测结果对于真实类别的期望值。
在进行训练时,通过最小化基于知识迁移的代价函数,可以迫使中文和英文模型的元篇章关系预测结果趋于一致,从而达到知识迁移的目的。也即,中文隐式篇章关系识别模型吸收了来自英文隐式篇章关系识别模型中的知识。
最后,有监督训练中文隐式篇章关系识别模型的总体代价函数定义为上述交叉熵分类代价函数和基于知识迁移的代价函数的线性求和,如下所示:
其中,表示在人工标注的英文篇章关系数据集上定义的交叉熵分类代价函数,是英文隐式篇章关系识别模型的参数,是英文隐式篇章关系实例的隐式篇章关系预测结果,是的真实类别基于One-hot编码的表示,表示预测结果对于真实标记的期望值。
另一方面,为了学习中文隐式篇章关系识别模型中的知识,定义基于知识迁移的代价函数,如下所示:
通过最小化上述基于知识迁移的代价函数,可以迫使英文和中文模型的元篇章关系预测结果趋于相同,从而达到知识迁移的目的。也即,英文隐式篇章关系识别模型吸收了来自中文隐式篇章关系识别模型中的知识。
最后,有监督训练英文隐式篇章关系模型的总体代价函数定义为上述交叉熵分类代价函数和基于知识迁移的代价函数的线性求和,如下所示:
如下所述,算法1描述了半监督的中英文隐式篇章关系识别方法的训练过程。整个训练过程是一个两阶段的训练过程:第一阶段,基于未标注的中英文隐式篇章关系数据无监督训练两个模型的过程(步骤2~9);第二阶段,基于标注的中英文隐式篇章关系数据有监督训练两个模型的过程(步骤10~17)。为了简洁,算法1中省略了基于验证数据集判断模型是否收敛的过程。最终训练得到的中文模型和英文模型即为需要的隐式篇章关系识别模型。
算法1:训练算法
输出:训练好的中文模型与英文模型
2.重复以下步骤:
/* 无监督训练中文隐式篇章关系识别模型 */
/* 无监督训练英文隐式篇章关系识别模型 */
10.重复以下步骤:
/* 有监督训练中文隐式篇章关系识别模型 */
/* 有监督训练英文隐式篇章关系识别模型 */
一方面,在中文隐式篇章关系识别模型的训练过程中,给定中文篇章关系数据集中标注的中文隐式篇章关系实例,经过基于注意力机制的特征层后得到的特征表示为,分别计算中文隐式篇章关系预测结果和中文元篇章关系预测结果,具体如下:
类似地,对于给定的译文数据集中经翻译得到的中文隐式篇章关系实例,可计算其对应的元篇章关系预测结果为。对于给定未标注的中文篇章关系数据集中的中文隐式篇章关系实例,可计算其对应的元篇章关系预测结果为;对于给定的译文数据集中经翻译得到的中文隐式篇章关系实例,可计算其对应的元篇章关系预测结果为。
另一方面,在英文隐式篇章关系识别模型的训练过程中,给定英文篇章关系数据集中标注的英文隐式篇章关系实例,经过基于注意力机制的特征层后得到的特征表示为,分别计算英文隐式篇章关系预测结果和英文元篇章关系预测结果,具体如下:
对于给定未标注的英文篇章数据集中的英文隐式篇章关系实例,可计算其对应的元篇章关系预测结果为;对于给定未标注的中文隐式篇章关系数据集的译文数据集中经翻译得到的英文隐式篇章关系实例,可计算其对应的元篇章关系预测结果为。
S105,预测结果输出:
基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结,基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。
在本步骤中,在模型训练好之后,即用于预测实际中的篇章关系实例的类别。即根据训练好的中文隐式篇章关系识别模型输出中文隐式篇章关系预测结果,根据训练好的英文隐式篇章关系识别模型输出英文隐式篇章关系预测结果。
需要说明的,上述的中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型虽然均有两个输出,但元篇章关系预测结果输出只用于训练模型。当模型训练好之后,便只输出中文篇章关系类别或英文篇章关系类别了。
本发明提出一种半监督的中英文隐式篇章关系识别方法,具有如下优点:(1)基于大量未标注的中英文篇章关系数据集学习跨语言的元篇章关系知识,可解决跨语言数据集共享的问题。该过程还可看作是模型预训练的过程,有利于缓解标注数据集不足的问题;(2)采用的中英两种语言中未标注的和人工标注的数据集都需要翻译成相应的译文数据集(即中文数据集需翻译成英文,英文数据集需翻译成中文),由于译文数据集也参与上述两个训练过程,因此可认为是某种意义上的数据增强;(3)基于两种语言中大量未标注的篇章关系数据集和少量人工标注的篇章关系数据集联合训练中文和英文隐式篇章关系识别模型,可充分有效地利用两种语言中标注的数据集,同时提高中英文隐式篇章关系识别的性能。
请参阅图5,本发明还提出一种半监督的中英文隐式篇章关系识别系统,其中,所述系统包括依次连接的数据集预处理模11、模型构建模块12、第一训练模块13、第二训练模块14以及结果输出模块15:
所述数据集预处理模块11用于:
给定人工标注的中文篇章关系数据集和英文篇章关系数据集,以及未标注的中文篇章关系数据集和英文篇章关系数据集,基于中英互译机器翻译系统进行翻译以分别得到的译文数据集,的译文数据集,的译文数据集以及的译文数据集;
所述模型构建模块12用于:
在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型;
所述第一训练模块13用于:
基于未标注的中文篇章关系数据集、未标注的英文篇章关系数据集、的译文数据集以及的译文数据集,随机初始化中文隐式篇章关系识别模型的参数以及英文隐式篇章关系识别模型的参数,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行无监督训练直至达到最大训练轮数以得到无监督训练后参数以及参数的值;
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数,以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移;
所述第二训练模块14用于:
基于人工标注的中文篇章关系数据集、人工标注的英文篇章关系数据集、的译文数据集以及的译文数据集,以无监督训练后得到的参数以及参数的值作为初始值,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行有监督训练直至收敛以分别得到训练好的中文隐式篇章关系识别模型以及训练好的英文隐式篇章关系识别模型;
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,并结合各自定义的交叉熵分类代价函数,以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数,分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练
所述结果输出模块15用于:
基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结果,基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种半监督的中英文隐式篇章关系识别方法,其特征在于,所述方法包括如下步骤:
步骤一、数据集准备:
给定人工标注的中文篇章关系数据集和英文篇章关系数据集以及未标注的中文篇章关系数据集和英文篇章关系数据集,基于中英互译机器翻译系统进行翻译以分别得到的译文数据集,的译文数据集,的译文数据集以及的译文数据集;
步骤二、模型构建:
在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型;
步骤三、无监督的模型训练:
基于未标注的中文篇章关系数据集、未标注的英文篇章关系数据集、的译文数据集以及的译文数据集,随机初始化中文隐式篇章关系识别模型的参数以及英文隐式篇章关系识别模型的参数,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行无监督训练直至达到最大训练轮数以得到无监督训练后参数以及参数的值;
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数,以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移;
步骤四、有监督的模型训练:
基于人工标注的中文篇章关系数据集、人工标注的英文篇章关系数据集、的译文数据集以及的译文数据集,以无监督训练后得到的参数以及参数的值作为初始值,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行有监督训练,直至收敛以分别得到训练好的中文隐式篇章关系识别模型以及训练好的英文隐式篇章关系识别模型;
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,并结合各自定义的交叉熵分类代价函数,以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数,分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练;
步骤五、预测结果输出:
基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结果,基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。
6.根据权利要求4所述的半监督的中英文隐式篇章关系识别方法,其特征在于,对所述中文隐式篇章关系识别模型进行有监督训练直至收敛以得到训练好的中文模型的步骤中,对应的第一总体代价函数表示为:
其中,表示在人工标注的中文篇章关系数据集上定义的交叉熵分类代价函数,是中文隐式篇章关系识别模型的参数,是中文实例的隐式篇章关系预测结果,是的真实类别基于One-hot编码的表示, 表示预测结果对于真实类别的期望值;
7.根据权利要求4所述的半监督的中英文隐式篇章关系识别方法,其特征在于,对所述英文隐式篇章关系识别模型进行有监督训练直至收敛以得到训练好的英文模型的步骤中,对应的第二总体代价函数表示为:
其中,表示在人工标注的英文篇章关系数据集上定义的交叉熵分类代价函数,是英文隐式篇章关系识别模型的参数,是英文隐式篇章关系实例的隐式篇章关系预测结果,是的真实类别基于One-hot编码的表示,表示预测结果对于真实标记的期望值;
8.一种半监督的中英文隐式篇章关系识别系统,其特征在于,所述系统包括依次连接的数据集预处理模块、模型构建模块、第一训练模块、第二训练模块以及结果输出模块:
所述数据集预处理模块用于:
给定人工标注的中文篇章关系数据集和英文篇章关系数据集,以及未标注的中文篇章关系数据集和英文篇章关系数据集,基于中英互译机器翻译系统进行翻译以分别得到的译文数据集,的译文数据集,的译文数据集以及的译文数据集;
所述模型构建模块用于:
在基于注意力机制的隐式篇章关系识别模型的基础上,分别构建得到中文隐式篇章关系识别模型以及英文隐式篇章关系识别模型;
所述第一训练模块用于:
基于未标注的中文篇章关系数据集、未标注的英文篇章关系数据集、的译文数据集以及的译文数据集,随机初始化中文隐式篇章关系识别模型的参数以及英文隐式篇章关系识别模型的参数,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行无监督训练直至达到最大训练轮数以得到无监督训练后参数以及参数的值;
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,分别在未标注的中文篇章关系数据集以及未标注的英文篇章关系数据集上最小化对应的基于知识迁移的代价函数,以实现中文隐式篇章关系识别模型与英文隐式篇章关系识别模型之间的知识迁移;
所述第二训练模块用于:
基于人工标注的中文篇章关系数据集、人工标注的英文篇章关系数据集、的译文数据集以及的译文数据集,以无监督训练后得到的参数以及参数的值作为初始值,对所述中文隐式篇章关系识别模型以及所述英文隐式篇章关系识别模型进行有监督训练直至收敛以分别得到训练好的中文隐式篇章关系识别模型以及训练好的英文隐式篇章关系识别模型;
其中,在训练过程中,基于中文隐式篇章关系识别模型与英文隐式篇章关系识别模型的元篇章关系预测结果分别定义基于知识迁移的代价函数,并结合各自定义的交叉熵分类代价函数,以分别得到中文隐式篇章关系识别模型与英文隐式篇章关系识别模型各自对应的总代价函数,分别在标注的中文篇章关系数据集以及标注的英文篇章关系数据集上最小化对应的所述总代价函数以进行模型训练;
所述结果输出模块用于:
基于所述训练好的中文隐式篇章关系识别模型计算得到中文隐式篇章关系预测结果,基于所述训练好的英文隐式篇章关系识别模型计算得到英文隐式篇章关系预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110796271.2A CN113255371B (zh) | 2021-07-14 | 2021-07-14 | 一种半监督的中英文隐式篇章关系识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110796271.2A CN113255371B (zh) | 2021-07-14 | 2021-07-14 | 一种半监督的中英文隐式篇章关系识别方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255371A CN113255371A (zh) | 2021-08-13 |
CN113255371B true CN113255371B (zh) | 2021-09-24 |
Family
ID=77191262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110796271.2A Active CN113255371B (zh) | 2021-07-14 | 2021-07-14 | 一种半监督的中英文隐式篇章关系识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255371B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160717A (ja) * | 1993-12-13 | 1995-06-23 | Matsushita Electric Ind Co Ltd | 隣接発話間関係認識装置 |
CN103605781A (zh) * | 2013-11-29 | 2014-02-26 | 苏州大学 | 一种隐式篇章关系类型推理方法及系统 |
CN108171198A (zh) * | 2018-01-11 | 2018-06-15 | 合肥工业大学 | 基于非对称多层lstm的连续手语视频自动翻译方法 |
CN109460466A (zh) * | 2018-09-20 | 2019-03-12 | 电子科技大学 | 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法 |
CN109598000A (zh) * | 2018-12-28 | 2019-04-09 | 百度在线网络技术(北京)有限公司 | 语义关系识别方法、装置、计算机设备和存储介质 |
CN110888980A (zh) * | 2019-10-10 | 2020-03-17 | 天津大学 | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183102A (zh) * | 2020-10-15 | 2021-01-05 | 上海明略人工智能(集团)有限公司 | 基于注意力机制与图注意力网络的命名实体识别方法 |
-
2021
- 2021-07-14 CN CN202110796271.2A patent/CN113255371B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160717A (ja) * | 1993-12-13 | 1995-06-23 | Matsushita Electric Ind Co Ltd | 隣接発話間関係認識装置 |
CN103605781A (zh) * | 2013-11-29 | 2014-02-26 | 苏州大学 | 一种隐式篇章关系类型推理方法及系统 |
CN108171198A (zh) * | 2018-01-11 | 2018-06-15 | 合肥工业大学 | 基于非对称多层lstm的连续手语视频自动翻译方法 |
CN109460466A (zh) * | 2018-09-20 | 2019-03-12 | 电子科技大学 | 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法 |
CN109598000A (zh) * | 2018-12-28 | 2019-04-09 | 百度在线网络技术(北京)有限公司 | 语义关系识别方法、装置、计算机设备和存储介质 |
CN110888980A (zh) * | 2019-10-10 | 2020-03-17 | 天津大学 | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
Implicit Discourse Relation Recognition for English and Chinese with Multiview Modeling and Effective Representation Learning;Haoran Li 等;《ACM Transactions on Asian and Low-Resource Language Information Processing》;20170430;第1-21页 * |
基于堆叠式注意力机制的隐式篇章关系识别;RUAN Huibin等;《Journal of Shanxi University(Natural Science Edition)》;20201221;第508-516页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255371A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413785B (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN111611377B (zh) | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
Xiang et al. | A convolutional neural network-based linguistic steganalysis for synonym substitution steganography | |
CN112395876B (zh) | 基于知识蒸馏和多任务学习的篇章关系识别方法与装置 | |
CN111274375B (zh) | 一种基于双向gru网络的多轮对话方法及系统 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN112613308A (zh) | 用户意图识别方法、装置、终端设备及存储介质 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN109492202A (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN112069811A (zh) | 多任务交互增强的电子文本事件抽取方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN110633473B (zh) | 基于条件随机场的隐式篇章关系识别方法与系统 | |
CN113868425B (zh) | 一种方面级情感分类方法 | |
CN112380835B (zh) | 融合实体和句子推理信息的问题答案提取方法及电子装置 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN114926150A (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN117313716A (zh) | 一种自然语言关联特征的记忆增强方法、装置及存储介质 | |
CN116049387A (zh) | 一种基于图卷积的短文本分类方法、装置、介质 | |
CN112989833A (zh) | 一种基于多层lstm的远程监督实体关系联合抽取方法和系统 | |
CN114881042A (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
CN112528168B (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN113901758A (zh) | 一种面向知识图谱自动构建系统的关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |