CN110427629A

CN110427629A - 半监督文本简化模型训练方法和系统

Info

Publication number: CN110427629A
Application number: CN201910744141.7A
Authority: CN
Inventors: 俞凯; 赵晏彬
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-11-08
Anticipated expiration: 2039-08-13
Also published as: CN110427629B

Abstract

本发明公开半监督文本简化模型训练方法和系统，其中，方法包括：建立复杂句到简单句的转化模型Comp2Simp和简单句到复杂句的回译模型Simp2Comp；分别对Comp2Simp和Simp2Comp进行初始化；利用初始化后的Simp2Comp构造第一平行语料对，利用初始化后的Comp2Simp构造第二平行语料对；利用第一平行语料对对初始化后的Comp2Simp的进行有监督训练，利用第二平行语料对对初始化后的Simp2Comp的进行有监督训练，从而完成第一轮迭代；分别利用参数更新后的Simp2Comp和Comp2Simp重复执行上述构造平行语料对和更新模型参数的过程完成后续迭代。

Description

半监督文本简化模型训练方法和系统

技术领域

本发明属于文本简化技术领域，尤其涉及半监督文本简化模型训练方法和系统。

背景技术

相关技术中，文本简化是一项自然语言处理任务，目的是减少文本的复杂性，将结构复杂，难以理解的文本改写为简单易懂的句子。简化后的句子更加利于语言的初学者以及非母语的读者更好地理解文本表达的含义，可以广泛地应用于教育以及新闻出版领域。同时，句子简化可以作为一个预处理过程应用在下游的自然语言处理任务上，例如文本分类，关系提取，语义解析等等，对这些任务有一定的促进作用。文本分类作为一个序列到序列的任务，主要的内容有两个：1)将语句中的高级词汇、高级短语表达替换为常见的、易懂的文字。2)修改句子结构，将复杂的句法结构(如从句、复合句)转化为直接的表达结构。目前的文本简化技术主要有三类:基于规则的文本简化系统，基于统计学习的简化系统以及基于端到端框架的神经网络文本简化系统。

相关技术中，主要存在以下文本简化技术：

1.基于规则的模型：制定相应的简化规则来完成相应的简化任务。这种模型需要大量的语法结构简化规则，并使用相应的知识库(词典、同义词库)以及句法解析器进行辅助。例如对于文本“Flower which is very pretty”,通过句法分析可以得知Flower是主语，而“which is very pretty”是一个定语从句，则可以指定规则：当检测到定语从句后，将从句替换为简单定语放置在主语前，根据规则可以将文本简化为“pretty flower”。

2.基于统计学习的模型：统计文本简化的基本思想是对大量的平行语料进行统计分析，以此来构建统计简化模型，并在这模型的基础上定义要估计的模型参数，并设计参数估计算法。简而言之，统计型文本简化就是让机器通过大量分析平行语料库中的内容，根据这些内容类比出对于新内容最恰当的简化方式。

3.基于神经网络的端到端模型：近年来，随着神经网络的盛行和端到端模型(Seq2Seq)框架在各个领域上的观法应用。神经网络文本简化也逐渐崭露头角。该方法同样采用了大规模平行语料训练，将复杂的文本通过编码器(Encoder)进行编码，通过解码器(Decoder)将编码后的文本解码为相对简单的文本。

发明人在实现本申请的过程中发现，现有技术中主要存在以下方案：

(1)没有通用的简化规则

由于语言的丰富性和复杂性，常见的简化规则往往不能覆盖到所有的领域。同时规则系统往往需要大量人为定制的规则，增加了系统的开发成本和维护成本。从效果上看，基于规则的系统忽略了语言本身和上下文的语义信息，简化结果的可读性、流畅性都会有一定的损失。

(2)对大规模平行语料有很强的依赖

统计学习和神经网络都可以获取文本的上下文信息，在文本简化的流畅性和可读性上都有一定的提升。然而，这两种方法需要从大规模的平行语料中获取统计信息，人们需要构造大量的复杂句--简单句文本对来进行训练。而这些训练语料的构造往往需要很大的时间成本和金钱成本。

(3)后续任务的领域迁移困难

文本简化可以作为其他自然语言处理任务的预处理阶段，例如文本分类，关系提取等。现有的简化模型往往存后续任务领域迁移困难的问题，对于特定领域的文本无法有效的简化。

发明内容

本发明实施例提供一种半监督文本简化模型训练方法和系统，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种半监督文本简化模型训练方法，包括：建立复杂句到简单句的转化模型Comp2Simp和简单句到复杂句的回译模型Simp2Comp；分别对Comp2Simp和Simp2Comp进行初始化；利用初始化后的模型Simp2Comp将简单句x转化为复杂句C(x)以构造第一平行语料对(C(x),x)，利用初始化后的模型Comp2Simp将复杂句y转化为对应的简单句S(y)以构造第二平行语料对(S(y),y)；利用所述第一平行语料对(C(x),x)对初始化后的模型Comp2Simp的进行有监督训练以更新模型Comp2Simp的参数，利用所述第二平行语料对(S(y),y)对初始化后的模型Simp2Comp的进行有监督训练以更新模型Simp2Comp的参数，从而完成第一轮迭代；分别利用参数更新后的Simp2Comp和参数更新后的Comp2Simp重复执行上述构造平行语料对和更新模型参数的过程完成后续迭代。

第二方面，本发明实施例提供一种半监督文本简化模型训练系统，包括：模型建立单元，配置为建立复杂句到简单句的转化模型Comp2Simp和简单句到复杂句的回译模型Simp2Comp；初始化单元，配置为分别对Comp2Simp和Simp2Comp进行初始化；平行语料构造单元，配置为利用初始化后的模型Simp2Comp将简单句x转化为复杂句C(x)以构造第一平行语料对(C(x),x)，利用初始化后的模型Comp2Simp将复杂句y转化为对应的简单句S(y)以构造第二平行语料对(S(y),y)；参数更新单元，配置为利用所述第一平行语料对(C(x),x)对初始化后的模型Comp2Simp的进行有监督训练以更新模型Comp2Simp的参数，利用所述第二平行语料对(S(y),y)对初始化后的模型Simp2Comp的进行有监督训练以更新模型Simp2Comp的参数，从而完成第一轮迭代；迭代单元，配置为分别利用参数更新后的Simp2Comp和参数更新后的Comp2Simp重复执行上述构造平行语料对和更新模型参数的过程完成后续迭代。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的半监督文本简化模型训练方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的半监督文本简化模型训练方法的步骤。

本申请的方法和系统提供的方案通过不仅仅建立复杂句到简单句的转化模型，还建立相应的回译模型，分别生成相应的平行语料，之后又能互为对方的输出，对两个模型进行迭代训练，从而两个模型可以分别为对方构造训练语料，并相互促进彼此性能的提升，用极少的语料训练出性能更好地模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的半监督文本简化模型训练方法的流程图；

图2为本发明实施例提供的系统框架图；

图3为本发明实施例提供的基于非对称降噪自编码器的模型初始化流程图；

图4为本发明实施例提供的模型的训练流程图；

图5为本发明实施例提供的系统概述；

图6为本发明实施例提供的模型的具体训练流程图；

图7为本发明实施例提供的算法示意图；

图8为本发明实施例提供的不同类型噪声下半监督训练过程中的语料库级SARI变化示意图；

图9为本发明实施例提供的半监督文本简化模型训练系统的框图；

图10是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的半监督文本简化模型训练方法一实施例的流程图，本实施例的半监督文本简化方法可以适用于具备智能语音对话唤醒功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的支持语音唤醒,的智能终端等。

如图1所示，在步骤101中，建立复杂句到简单句的转化模型Comp2Simp和简单句到复杂句的回译模型Simp2Comp；

在步骤102中，分别对Comp2Simp和Simp2Comp进行初始化；

在步骤103中，利用初始化后的模型Simp2Comp将简单句x转化为复杂句C(x)以构造第一平行语料对(C(x),x)，利用初始化后的模型Comp2Simp将复杂句y转化为对应的简单句S(y)以构造第二平行语料对(S(y),y)；

在步骤104中，利用所述第一平行语料对(C(x),x)对初始化后的模型Comp2Simp的进行有监督训练以更新模型Comp2Simp的参数，利用所述第二平行语料对(S(y),y)对初始化后的模型Simp2Comp的进行有监督训练以更新模型Simp2Comp的参数，从而完成第一轮迭代；

在步骤105中，分别利用参数更新后的Simp2Comp和参数更新后的Comp2Simp重复执行上述构造平行语料对和更新模型参数的过程完成后续迭代。

在本实施例中，通过不仅仅建立复杂句到简单句的转化模型，还建立相应的回译模型，分别生成相应的平行语料，之后又能互为对方的输出，对两个模型进行迭代训练，从而两个模型可以分别为对方构造训练语料，并相互促进彼此性能的提升，用极少的语料训练出性能更好地模型。

在一些可选的实施例中，Simp2Comp和Comp2Simp采用编码器-译码器架构，共享相同的编码器，使用各自独立的译码器，所述分别对Simp2Comp和Comp2Simp进行初始化包括：采用第一降噪自编码方式对Comp2Simp进行训练，对x进行第一加噪处理得到x’，并使用编码器将x’编入语义空间，而使用第一译码器将x从所述语义空间中进行解码和恢复；采用第二降噪自编码方式对Simp2Comp进行训练，对y进行第二加噪处理得到y’，并使用所述编码器将y’编入所述语义空间，而使用第二译码器将y从所述语义空间中进行解码和恢复。

在一些可选的实施例中，所述对x进行第一加噪处理得到x’包括将不属于x的额外词汇混合到x中并进行重排序得到加噪输入x’，所述对y进行第二加噪处理得到y’包括对于输入y随机去除y中的数个单词得到y’。

在一些可选的实施例中，所述更新模型Simp2Comp的参数和所述更新模型Comp2Simp的参数包括：使用交叉熵损失和策略梯度损失来更新模型Simp2Comp的参数和模型Comp2Simp的参数。

在一些可选的实施例中，上述交叉熵损失为最小化交叉熵损失L_ce，计算公式如下：

其中，E表示共享的相同的编码器，P_c→s表示复杂句到简单句的转换模型，P_s→c表示简单句到复杂句的转换模型，S表示x的句子空间，C表示y的句子空间。

在一些可选的实施例中，上述策略梯度损失L_pg的计算公式如下：

其中，为将C(x)输入模型Comp2Simp之后对输出进行概率采样后得到的简单句，为将S(y)输入模型Simp2Comp之后对输出进行概率采样后得到的复杂句，为通过贪心算法最大化概率后得到的简单句，为通过贪心算法最大化概率后得到的复杂句，R_s和R_c分别表示与S和C对应的调和平均函数。普通的x是在训练语料中真实的简单句，而C(x)为经过回译后所生成的、对应x的复杂句。通过(C(x),x)训练comp2simp模型时，输入C(x)，模型通过每个词概率采样得到的句子为而通过贪心算法最大化每个词概率得到的句子为同理，普通y是在训练语料中真实的复杂句，而S(y)为经过回译后所生成的、对应y的简单句。通过(S(y),y)徐莲Simp2Comp模型时，输入S(y)，模型通过每个词概率采样得到的句子为而通过贪心算法最大化每个词概率得到的句子为

在一些可选的实施例中，最终损失是交叉熵损失L_ce和策略梯度损失L_pg的加权和，计算公式如下：

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人对现有技术进行仔细研究后发现，现有技术方案的缺陷主要是由于以下原因导致的：

(1)对于基于规则的简化模型，由于规则完全是由人手工定制，缺少对上下文和语义信息的提取，其缺点是显而易见的。

(2)对于统计模型和端到端模型，这些模型是完全的监督模型，因此需要大量的文本标注。对于文本简化任务来说，标注就是指复杂句--简单句的平行文本对。由于端到端模型中普遍存在的注意力机制(Attention)需要大量的文本对进行训练，对文本的质量也有很高的要求。而大规模、高质量的训练文本在现实生活中是很难获得的，因此需要耗费很大的人力物力。

(3)在后续任务上，由于这些后续任务往往处在不同的领域，与简化模型的训练语料的分布存在差异。例如，简化模型可以在大规模的百科、书本这样的开放式语料中进行训练，但后续任务可能会在电影评价分类、任务型对话这样的特定领域上展开。另外，训练语料和测试语料的不匹配也会对简化模型的领域迁移造成困难，从而大大影响了简化模型乃至后续任务的性能。

本领域技术人员为了解决上述缺陷，可能会采用以下方案：

(1)对于规则的简化模型，主要的提升手段为不断的细化和完善规则，同时在规则的基础上加以数据驱动，例如使用词向量等。

(2)对于神经网络模型数据量不足的问题，最直接的方式就是使用人工进行数据标注，并采用外部知识辅助的手段，例如与同义词库，词典结合，达到使用少量资源进行训练的目的。同时，在训练过程中，辅助以多样化的训练手段以及评测手段，例如强化学习等，可以进一步提升模型的性能。

(3)对于后续任务的自适应问题，目前没有很好的解决方案。

可以看到，对于训练数据不足的问题，以上方法更多地专注于构造更多的训练数据，并通过改进模型和引入外部知识的方法使得模型可以在较少数据资源下取得较好的性能。这些方法极大限度地利用了平行语料的优势，但是忽略了无标注的非平行语料的作用以及对不同复杂程度语料本身的建模和学习，因此无法大规模使用廉价的非平行语料对模型进行进一步的优化。

本申请的方案提出了一种半监督文本简化模型训练系统：

(1)对单边语料进行建模。传统的神经网络模型学习到的是从复杂句到简单句的映射关系，并没有对语料本身进行挖掘建模。通过对单边语料的挖掘学习，模型可以更好的学习到不同复杂度句子的特点与结构。例如，特定单词出现的频率，特定的语句顺序等等。通过这样的方式增强了模型本身对语言的理解，也使得模型更少的依赖于平行语料的训练。

(2)由于平行语料昂贵且难以获得，采用了迭代回译(Iterative Back-Translation)的方式进行数据增强。不仅训练复杂句到简化句的转化模型Comp2Simp，同时也训练一个从简单句到复杂句的回译模型Simp2Comp。这样通过回译模型Simp2Comp可以将大量的简单句转化为与其对应的复杂句，生成的语料对可以进一步的运用到模型Comp2Simp的训练中。同时，运用Comp2Simp也可以将大量复杂句转化为简单句，生成的语料可以用在模型Simp2Comp的训练中。模型Comp2Simp以及Simp2Comp分别为对方构造训练语料，并相互促进彼此性能的提升。

(1)系统框架

图2为系统框架图，整个系统由两部分组成，分别为复杂句→简单句的模型Comp2Simp以及简单句→复杂句的模型Simp2Comp。模型的训练需要大规模的简单句和复杂句。由于这些语句不需要平行对应，因此可以以极低的成本获得。在训练的过程中，首先初始化两个模型，使其具有初步的语句转化能力(初始化过程见模型细节)。初始化完毕后，通过初始模型Simp2Comp可以将大量的简单句x转化为复杂句C(x),这样我们就构造出了平行语料对(C(x),x)，通过这个平行语料对可以进行复杂句→简单句模型Comp2Simp的有监督训练。同理，模型A可以将大量复杂句y转化为对应的简单句S(y),构造出平行语料对(S(y),y)完成简单句→复杂句模型Simp2Comp的训练。通过构造的平行语料进行训练后，模型Comp2Simp、Simp2Comp分别更新自己的参数，得到能力更强的模型Comp2Simp’和Simp2Comp’。这样就完成了一轮迭代。在下一轮迭代中，通过更新后的模型Comp2Simp’和Simp2Comp’可以生成出质量更高的平行语料对，并可以应用在各自的训练过程中。通过这样的迭代过程，模型的能力便会得到逐步的提升。

(2)模型细节

图3示出了基于非对称降噪自编码器的模型初始化。

在仅有非平行语料时，我们采用对单语言建模的方式使得模型Comp2Simp(复杂句→简单句)以及模型Simp2Comp(简单句→复杂句)具有初步的能力。两个模型均采用基于Transformer的Encoder-Decoder架构。特殊的地方在于两个模型共享相同的Encoder。这样做的可以将不同复杂度的语句编码到相同语义空间中去。两个模型的Decoder是独立的，因此可以将相同语义空间的向量解码为不同复杂度的句子。整个初始化过程采用降噪自编码(Denoising Autoencoder)的方式进行训练，将语句x进行加噪，并使用Encoder将其编入语义空间，而使用Decoder将x从语义空间中进行解码和恢复。通过自编码的方式来对简单语句和复杂语句进行分别建模。

语义空间，即语言意义的世界，一般来说，信息是意义和符号的统一体，内在的意义只有通过一定的外在形式(动作、表情、文字、音声、图画、影像等符号)才能表达出来。

对语句进行加噪可以使得模型更好的发掘语句中有用的信息，常用的加噪手段有替换句子中词语的顺序、去除句子中部分词语等等。在本系统中，我们针对复杂句和简单句的建模采用不同的加噪方案。这也是“非对称降噪自编码器”中“非对称”名称的由来。对于简单句，我们的目的是使模型尽可能的学习到简单句中的结构，因此在简单句的降噪自编码过程中，我们对输入x加入了加性噪声，将不属于x的额外词汇混合到x中并进行重排序得到加噪输入x’,使得Decoder可以在冗余的噪声中将x提取出来。而对于复杂句，我们希望模型可以学习到复杂句中尽可能丰富的信息，因此对输入y，我们随机去除了y中的数个单词得到y’，使得Decoder可以根据y’的剩余信息将y完整的恢复出来。通过这样非对称的加噪建模，可以使系统更好地学习不同复杂度语句中的特征信息。

(3)训练过程

模型的训练流程图如图4所示。

发明人在实现本申请的过程中，还采用过如下备选方案，并总结了该备选方案的优点和缺点。

在对模型进行初始化的过程中，可以使用同样的加噪方式对不同复杂度的语料进行建模，而不是采用非对称的结构。

优点：可以简化训练过程，降低实现的难度并一定程度上提升速度。

缺点：使用相同的加噪方式使模型不能完全学习出复杂语句和简单语句中各自的语料特点和结构，降低了对语言建模的能力，对最后的模型性能会有一定的影响。

上述实施例至少能够实现如下技术效果：

本方案采用单边语料建模以及迭代回译的方法将非平行语料应用在了文本简化中，在没有对应数据标注的情况下取得了和监督模型可比的效果。通过少量的监督信息可以得到显著的性能提升。解决了神经网络Seq2Seq模型对于平行语料的依赖问题。

本方案将无监督数据应用在了文本简化的过程中。由于无监督数据的更为廉价，容易获得，因此可以借助超大规模的无监督数据对模型进行进一步的优化。大量数据也对模型的通用性以及泛化能力有所帮助。为以后在特定领域上的模型迁移提供了参考。

文本简化旨在将复杂的语句改写为更简单的形式，同时保留原句的基本语义。传统的Seq2Seq模型在很大程度上依赖于大规模、高质量的平行语料，这限制了这些模型在不同语言，不同领域的适用性。因此，在本文中，我们通过网络收集了大量的非平行语料并使用迭代回译的方式来自动生成额外的平行语料。与无监督机器翻译类似，我们使用降噪自编码器对语言进行建模。但与NMT(Neural Network Machine，神经网络机器翻译)中对称的降噪模型不同，我们提出了非对称的降噪自编码器，在建模不同复杂度的文本时采用不同的加噪手段。这种方式可以显著提高简化模型的性能，自动指标和人类评测的结果表明，在仅有少量平行语料的情况下，我们的模型可以达到很好的测试性能。

文本简化降低了词汇和结构方面的句子的复杂性，以增加其可理解性。它为语言能力较低的个人带来了好处，并且在教育和新闻领域拥有丰富的使用场景。此外，文本的简化版本更易于下游任务的处理，例如解析，语义角色标记和信息提取。

大多数先前的工作将此任务视为单语机器翻译问题，并利用序列到序列架构来模拟该过程。这些系统依赖于包含不同复杂度的文本的大型语料库，这严重限制了它们在不同语言中的使用以及对不同领域中的下游任务的适应。因此，探索可以有效处理非平行语料的无监督或半监督学习范式至关重要。

在这项工作中，我们采用回译框架来执行无监督和半监督的文本简化。回译通过即时句子对生成将无监督任务转换为受监督任务。它已成功用于无监督神经机器翻译。降噪自编码器(DAE)在回译模型中起着重要作用。它对语言进行建模并帮助系统从单语数据中学习有用的结构和特征。在NMT任务中，不同语言之间的翻译是对等的，并且降噪自编码器具有对称结构，这意味着不同语言使用相同类型的噪声(主要是字丢失和随机播放)。然而，如果我们将不同复杂度的文本的集合视为两种不同的语言，翻译过程是不对称的：从简单到复杂的翻译是一个需要额外信息生成的过程，而从复杂句到简单句的变化往往需要对信息进行抽取和提炼。因此，对称降噪自编码器在对具有不同复杂度的句子进行建模时可能没有多大帮助，并且使得生成适当的平行语料变得比较困难。

为了解决这个问题，我们为不同复杂度的句子提出了非对称降噪自编码器。我们分析了降噪类型对简化性能的影响，并表明单独的降噪方法使得解码器更容易生成具有不同复杂度的句子。此外，我们制定了几个标准来评估生成的句子并使用策略梯度来优化这些度量。我们使用它作为提高生成句子质量的另一种方法。我们的方法依赖于两个非平行的语料库-一个在统计上比另一个更简单。我们从英语维基百科中提取这些句子，并通过自动指标将它们分成两部分。总之，我们的贡献包括：

我们采用回译框架来利用大量的非平行语料来简化文本。

我们为不同复杂度的句子提出了非对称降噪自编码器，并分析了相应的效果。

我们开发了用于评估从回译得到的不同复杂度的文本的方法，并使用强化算法来提高回译句子的质量。

相关工作

作为单语翻译任务，早期文本简化系统通常基于统计机器翻译。一些技术通过利用从双语文本中提取的释义规则，实现了最先进的表现。最近，神经网络模型已被广泛用于简化系统中。此架构还提出了几种扩展，例如增强内存和多任务学习。此外，还提出了一种受过训练的Seq2Seq模型强化学习框架。在训练过程中，流畅，简单和充分的句子会得到回报。有些反感利用Transformer与外部知识相结合，并在自动评估中实现了最先进的性能。另一些方案提出了复杂性加权损失和重新排序系统，以提高句子的简单性。以上系统都需要大量的平行语料。

在无监督简化方面，几个系统只执行词汇简化，用简单的同义词替换复杂的词，忽略其他操作，如重新排序和重新表述。有一些方案提出了一种用于神经模型的无监督方法。他们利用对抗训练来强化复杂和简单句子之间的注意向量的类似分布。他们还尝试了回译和正常降噪技术，但没有取得更好的结果。我们认为将回译框架机械地应用于简化任务是不合适的。因此，在这项工作中，我们做了一些改进，最终取得了可喜的成果。

我们的简化系统的体系结构如图1所示。该系统由共享编码器E和一对独立解码器组成：简单句子的解码器Ds和复杂句子的解码器Dc。用S和C表示相应的句子空间。编码器和解码器首先通过降噪自编码器的方式在各自的语料上进行训练(参见后文)。接下来，该模型将经历一个迭代过程。在每次迭代中，通过当前模型E和Dc将简单句子x∈s转换为相对复杂的句子类似地，通过E和Ds将复杂句子y∈c转换为相对简单的版本对和是自动生成的平行语料，其可用于以交叉熵损失的监督方式训练模型。在监督训练期间，我们当前的模型也可以被视为翻译策略。让表示从当前策略中采样的不同复杂度的文本。相应的回报Rs和Rc根据其质量计算。使用交叉熵损失和策略梯度更新模型参数。

图5：我们提出的系统概述。回译句子及其原始输入x，y形成句子对。用于训练复杂句到简单句模型，用于训练简单句到复杂句模型。使用交叉熵损失和策略梯度更新模型参数。

回译框架

在回译框架中，共享编码器旨在在相同的语义空间中表示不同复杂度的文本，并且解码器需要将该表示分解成具有相应类型的句子。我们通过最小化交叉熵损失来更新模型：

其中P_c→s和P_s→c代表从复杂到简单的翻译模型，反之亦然。更新的模型倾向于为下一个训练过程生成更好的合成句子对。通过这样的迭代，模型和回译过程可以相互促进并最终导致良好的性能。

降噪

某些研究表明，诸如随机的文本删除和顺序交换等降噪策略对NMT系统具有重要影响。我们认为NMT中的这些对称噪声在简化任务中可能不是非常有效。

低复杂度的句子往往具有简单的单词和结构。我们引入了三种类型的噪声来帮助模型捕获这些特征。

替换：我们在Simple PPDB的指导下将相对简单的单词替换为高级表达式。SimplePPDB是适用于简化任务的复述数据库(PPDB)的子集。它包含450万对复杂和简化的短语。每对构成简化规则并具有表示置信度的分数。

表1示出了几个示例，其中诸如“疲劳”和“疲惫”的高级表达可以简化为“累”。但是，在这种情况下，我们在反方向上使用这些规则，这意味着如果句子中出现“累”，则可以用概率Prep替换上述候选之一。在我们的实验中，Prep设置为0.9。分数低于0.5的规则将被丢弃，我们只选择具有最高置信度分数的前五个短语作为每个单词的候选者。在替换过程中，从候选者中随机抽取替代表达并替换原始短语。

分数	规则
		0.95516	completely exhaust→tired
0.82977	fatigued→tired
		0.79654	weary→tired
0.57126	tiring→tired

表1：Simple PPDB中的示例

替换有助于模型从单一类型语料库中学习单词分布。在某种程度上，它还模拟了词汇简化过程，这可以促使解码器D从共享语义空间生成更简单的单词。

加性噪声：在句子外插入单词的附加噪声。有些研究人员使用具有加性噪声的自编码器来执行句子压缩，并生成不完美但有效的句子摘要。加性噪声迫使模型对加噪后的输入中的单词进行降采样并生成合理的句子。它可以帮助模型在简化任务中捕获句子主干。

对于原始输入，我们从训练集中随机选择一个附加句子并从中取样子序列而不进行替换。然后我们将子序列插入到原始输入中。我们不是对独立单词进行抽样，而是从附加句子中抽取bi-gram。子序列长度取决于原始输入的长度。在我们的实验中，作为噪声的采样序列占整个噪声句的25％-35％。

Shuffle：Word shuffling是自动编码器中常见的噪声方法。事实证明，该模型有助于学习句子中的有用结构。对于简单的句子，我们在句子中完全改变单词双字母，将所有单词对保持在一起。表2中说明了噪声过程的一个例子。

表2：简单句子的噪声过程示例。有下划线的词是从另一个句子中采样的加性噪声。

复杂句子的噪音

对复杂的句子也进行替换。在这里，我们通常使用Simple PPDB中的规则将复杂的单词重写为更简单的版本。其余的过程与简单句子的替换方法相同。除此之外，我们采用了其他两种噪音方法。

丢弃：将句子中的单词进行随机的丢弃。在重建期间，解码器必须通过上下文恢复移除的单词。从简单到复杂的翻译通常包括句子扩展，这需要解码器生成额外的单词和短语。单词删除可以使自动编码任务与句子扩展更接近，并提高生成句子的质量。

由于频率较低的单词通常包含更多的语义信息，我们只删除概率为Pdel的“常用单词”。

我们将“常用词”定义为整个语料库中出现超过100次的词。类似的方法也被用于无监督语言生成并且优于随机丢弃方法。我们在实验中设置Pdel＝0.6。

Shuffle：与简单句子的完整shuffle过程不同。我们只是略微改变输入句子。改组后的单词与其原始位置之间的最大距离k与Lample等人类似。

图6示出了非对称降噪自编码器的训练过程。

我们通过最小化损失函数来训练降噪自编码器：

其中Ns和Nc是不同复杂度的文本的噪声函数。P_s→s和P_c→c表示相应的自动编码器。图6显示了训练过程。

回译回报

为了进一步改进训练流程并为后续迭代生成更合适的句子，我们提出了三个评价指标作为回报，并通过策略梯度直接优化这些指标：

流畅性：句子的流畅性是通过语言模型来衡量的。我们为两种类型的句子训练了两种LSTM语言模型。对于句子x，流畅性回报rf通过困惑度进行计算并且缩放为[0 1]：

相关性：相关性得分rs表示翻译期间保留语义的程度。对于输入和采样句子，我们通过采用词嵌入的加权平均值来生成句子向量并计算余弦相似度。

复杂性：复杂性回报rc源自FleschKincaid等级指数(FKGL)。FKGL指的是理解特定文本必须达到的水平。通常，FKGL得分与句子复杂度正相关。我们使用从训练数据计算的均值和方差对得分进行标准化。对于复杂的句子，rc等于标准化的FKGL，而对于简单的句子，rc＝1-FKGL，因为鼓励模型生成低复杂度的句子。将P_s→c和P_c→s视为翻译策略。让和表示通过从当前策略中抽样获得的不同复杂度的文本。抽样句子的总回报可以计算如下：

其中H()是调和平均函数。与算术平均值相比，调和平均数值可以更公平地优化这些度量。为了减少方差，通过贪心解码获得的句子和用作训练过程中的基线：

损失函数是抽样句子和的负预期回报的总和：

为了优化这个目标函数，我们用REINFORCE算法估算梯度：

最终损失是交叉熵损失和策略梯度损失的加权和：

其中γ是平衡两个损失的参数。

图7中示出了算法1，在算法1中描述了完整的训练过程。

实验及数据

为了训练我们的模型，我们从英语维基百科收集了大量的句子。我们使用FleschReadability Ease(FE)作为自动度量来衡量数据的简单性和分区.FE分数与复杂性负相关。FE分数低于10的句子被分类为复杂的部分，FE分数高于70的句子被归类为简单。

表3列出了收集数据的基本统计数据

表3：收集的数据的统计，包括句子数，每个句子的平均单词和平均FE分数。

对于模型选择和评估，我们还使用两个平行数据集：Turk和Newsela数据集。Turk是一个测试集，包含来自Wiki-Large语料库的359个测试句子和2000个验证句子。每个源句有8个简化参考。Newsela是从新闻文章中提取并由专业编辑简化的语料库，被认为具有比Wiki-Large更高的质量。我们放弃了具有相邻复杂性的句子对。前1070篇文章用于训练，接下来30篇用于开发，其他用于测试。

训练细节

我们的模型建立在Transformer之上。编码器和解码器都有3层，带有8个多注意头。为了减少词汇量并限制未知单词的频率，我们将单词分成具有字节对编码(BPE)的子单元。子词嵌入是使用FastText在整个收集的数据上预训练的512维向量。在训练过程中，我们使用Adam优化器；第一个动量设置为0.5，批量大小设置为16，对于强化训练，我们动态调整平衡参数。在训练过程开始时，设置为零，这可以帮助模型快速收敛并缩小搜索空间。随着训练的进行，逐渐增加并最终收敛到0.9。我们使用sigmoid函数来执行此过程。

该系统以无人监督和半监督的方式进行训练。我们预先训练降噪自编码器200000步，学习率为1e-4。之后，我们添加了回译训练，学习率为5e-5。对于半监督训练，我们从相应的平行语料库中随机选择10％的数据，并且在降噪自编码器，回译和平行语料之间交替训练模型。

评价准则和模型选择

在之前的研究之后，我们使用SARI作为我们的主要指标。SARI测量系统输出是否可以在复杂句子的基础上正确地保留，删除和添加。它计算系统输出和参考句子之间这三个方面的重叠。我们在句子级别1(SARI发送)和语料库级别2(SARI-corp)中呈现SARI得分。与SARI-sent不同，SARI-corp计算删除的F1分数而不是精确度。因此，在某种程度上，语料库级别的SARI鼓励更多的删除，而句子级别的SARI往往是保守的。我们还使用BLEU得分作为辅助指标。虽然之前有研究表明BLEU往往与句子的简洁性成负相关性(Sulem等人)，但它通常与语法和充分性正相关。这可以帮助我们对不同系统进行全面评估。

对于模型选择，我们主要使用SARI来选择我们的模型。然而，SARI指标鼓励模型去删除单词，这意味着即使输出是不合理的或不相关的，大的差异也可能导致非常好的SARI。为了解决这个问题，我们引入类似于BLEU评分阈值。BLEU得分低于阈值的时期将被忽略。我们在Newsela数据集上设置为18，在Wiki-Large数据集上设置为70。

比较系统

我们将我们的系统与几个基线进行比较。对于无监督模型，我们考虑了UNTS-基于对抗训练的神经编码器解码器模型；以及一个名为LIGHT-LS的基于规则的词汇简化系统。多个监督系统也被用作基线，包括Hybrid和DRESS3。我们还训练了基于香草变压器的Seq2Seq模型。我们将基本的回译模型表示为BackTrans，将模型与策略梯度结合为BackTransRL。

结果：以下我们将介绍标准自动评估和人工评估的比较结果。我们还通过模型简化测试分析了不同噪声类型在回译中的作用。

自动评估

我们在表4中报告了结果。对于无监督系统，我们的基本回译模型优于以前的无监督基线，通过语料库级SARI测量。LIGHTLS仅使用几个单词替换执行词汇简化，这可以在删除时获得高精度(删除的单词几乎正确)但是其召回率却很低(无法找到应删除的大多数单词)。这可以导致SARI-sent良好，但SARI-corp评分较差。结果还表明，强化训练对无监督系统有一定帮助。它在Newsela上获得0.2分BLEU分数改进，在Wiki-Large语料库上获得1.4分的改进。SARI也略有改善。

表4：Newsela和Wiki-Large数据集的结果

此外，半监督系统的结果表明，我们的模型可以从少量的平行语料中获得显著的提升。用10％的平行语料训练的模型可以在两个数据集上与最先进的监督系统竞争。随着平行语料的增加，Newsela语料库可以进一步提高所有指标。我们获得了使用完全平行语料训练的语料库级SARI的最高分数。在Wiki-Large数据集中，BLEU分数在完全平行语料中有9.9分的改善，但我们无法观察到其他两个指标的任何促销。这可能是因为Wiki-Large中的简单句子通常对源语句过于封闭，甚至根本不简单。数据集的这个缺陷可能促使系统直接从源句复制，这导致SARI-corp的下降。

表5：Newsela和Wiki-Large的人体评估。与我们的模型显着不同的评级标有(p<0:05)和(p<0:01)。我们使用学生t检验进行重要性测试

人的评价

由于自动度量的限制，我们还对两个数据集进行人工评估。我们随机选择系统生成的100个句子和基线作为测试样本。与之前的工作类似，我们要求母语为英语的人通过Amazon的众包平台评估测试样本的流畅性，充分性和简单性。这三个方面的评分从1分到5分。我们使用我们的半监督模型-具有10％平行语料库的BackTransRL来执行人类评估。结果如表5所示。

在Newsela数据集上，我们的模型与DRESS获得了可比较的结果，并且基本上优于Hybrid和完全监督的序列到序列模型。尽管序列到序列模型在SARI上获得了有希望的分数(参见表4)，但它在充分性方面表现最差，同时在流畅性方面表现较差。这也证明了SARI与流畅性和充分性的判断只有微弱的相关性。我们在Wiki-Large数据集上有类似的结果，我们的模型在充足性方面取得了最高分。

表6：具有不同噪声的模型的句子级SARI。所有模型均采用半监督方式进行训练，并使用10％平行语料库。

模型简化测试

我们进行模型简化测试以分析降噪类型对简化性能的影响。我们测试了三种类型的噪声：

A机器翻译中的原始噪音，包括字丢失和随机播放(表示为Origin)

B原始噪音加上简单句子上的加性噪音。

C在(b)之上引入的替代噪声，这是我们提出的噪声类型。注意，具有不同噪声类型的降噪自编码器可具有不同的收敛速率。

为了更好地进行比较，我们使用不同的训练步数对这些自动编码器进行预训练，直到他们获得类似的训练损失。在我们的实验中，我们预先为具有噪声类型(a)的自动编码器，针对噪声类型(b)的50,000步和针对噪声类型(c)的200,000步执行20,000步。图3显示了随着半监督训练中回译时期的变化，语料库SARI对发展集的变化。在训练过程中，只有单词丢失和随机播放的模型仍处于低分，而我们提出的模型已经取得了显着的进步。

此外，我们详细分析了SARI得分的各个部分。表6说明了不同类型噪声下的SARI得分及其成分。简单句子中的加法噪声可以显着促进删除和添加操作。替换也具有类似的效果并且进一步改善。具有原始噪声的模型倾向于直接从源句复制，导致保持操作中相对较高的F得分，但是在其他方面得分低得多。

请参考图8，其示出了不同类型噪声下半监督训练过程中的语料库级SARI变化。

在本申请中，我们采用回译架构来执行无监督和半监督的文本简化。我们提出了一种新颖的非对称降噪自编码器，可以分别对简单和复杂的语料库进行建模，有助于系统从不同复杂度的句子中学习结构和特征。模型简化测试表明，与基本降噪方法相比，我们提出的噪声类型可以显着提升系统性能。我们还将强化学习融入无人监督训练，并获得BLEU评分的晋升。自动评估和人工判断表明，在有限的监督下，我们的模型可以与多个全监督系统竞争。我们还发现自动度量与人类评价的相关性尚有一定的差距。我们计划在未来的工作中研究更好的方法。

请参考图9，其示出了本发明一实施例提供的半监督文本简化模型训练系统的框图。

如图9所示，半监督文本简化模型训练系统，包括模型建立单元910、初始化单元920、平行语料构造单元930、参数更新单元940和迭代单元950。

其中，模型建立单元910，配置为建立复杂句到简单句的转化模型Comp2Simp和简单句到复杂句的回译模型Simp2Comp；初始化单元920，配置为分别对Comp2Simp和Simp2Comp进行初始化；平行语料构造单元930，配置为利用初始化后的模型Simp2Comp将简单句x转化为复杂句C(x)以构造第一平行语料对(C(x),x)，利用初始化后的模型Comp2Simp将复杂句y转化为对应的简单句S(y)以构造第二平行语料对(S(y),y)；参数更新单元940，配置为利用所述第一平行语料对(C(x),x)对初始化后的模型Comp2Simp的进行有监督训练以更新模型Comp2Simp的参数，利用所述第二平行语料对(S(y),y)对初始化后的模型Simp2Comp的进行有监督训练以更新模型Simp2Comp的参数，从而完成第一轮迭代；迭代单元950，配置为分别利用参数更新后的Simp2Comp和参数更新后的Comp2Simp重复执行上述构造平行语料对和更新模型参数的过程完成后续迭代。

应当理解，图9中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图9中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如XX模块可以描述为…的模块。另外，还可以通过硬件处理器来实现相关功能模块，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的半监督文本简化模型训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

建立复杂句到简单句的转化模型Comp2Simp和简单句到复杂句的回译模型Simp2Comp；

分别对Comp2Simp和Simp2Comp进行初始化；

利用初始化后的模型Simp2Comp将简单句x转化为复杂句C(x)以构造第一平行语料对(C(x),x)，利用初始化后的模型Comp2Simp将复杂句y转化为对应的简单句S(y)以构造第二平行语料对(S(y),y)；

利用所述第一平行语料对(C(x),x)对初始化后的模型Comp2Simp的进行有监督训练以更新模型Comp2Simp的参数，利用所述第二平行语料对(S(y),y)对初始化后的模型Simp2Comp的进行有监督训练以更新模型Simp2Comp的参数，从而完成第一轮迭代；

分别利用参数更新后的Simp2Comp和参数更新后的Comp2Simp重复执行上述构造平行语料对和更新模型参数的过程完成后续迭代。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据半监督文本简化模型训练系统的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至半监督文本简化装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项半监督文本简化模型训练方法。

图9是本发明实施例提供的电子设备的结构示意图，如图9所示，该设备包括：一个或多个处理器910以及存储器920，图9中以一个处理器910为例。半监督文本简化模型训练方法的设备还可以包括：输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。存储器920为上述的非易失性计算机可读存储介质。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例半监督文本简化模型训练方法。输入装置930可接收输入的数字或字符信息，以及产生与半监督文本简化装置的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于半监督文本简化模型训练系统中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

分别对Comp2Simp和Simp2Comp进行初始化；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

Claims

1.一种半监督文本简化模型训练方法，包括：

分别对Comp2Simp和Simp2Comp进行初始化；

2.根据权利要求1所述的方法，其中，Simp2Comp和Comp2Simp采用编码器-译码器架构，共享相同的编码器，使用各自独立的译码器，所述分别对Simp2Comp和Comp2Simp进行初始化包括：

采用第一降噪自编码方式对Comp2Simp进行训练，对x进行第一加噪处理得到x’，并使用编码器将x’编入语义空间，而使用第一译码器将x从所述语义空间中进行解码和恢复；

采用第二降噪自编码方式对Simp2Comp进行训练，对y进行第二加噪处理得到y’，并使用所述编码器将y’编入所述语义空间，而使用第二译码器将y从所述语义空间中进行解码和恢复。

3.根据权利要求2所述的方法，其中，所述对x进行第一加噪处理得到x’包括将不属于x的额外词汇混合到x中并进行重排序得到加噪输入x’，所述对y进行第二加噪处理得到y’包括对于输入y随机去除y中的数个单词得到y’。

4.根据权利要求2所述的方法，其中，所述更新模型Simp2Comp的参数和所述更新模型Comp2Simp的参数包括：

使用交叉熵损失和策略梯度损失来更新模型Simp2Comp的参数和模型Comp2Simp的参数。

5.根据权利要求4所述的方法，其中，所述交叉熵损失为最小化交叉熵损失L_ce，计算公式如下：

其中，E表示在各自句子空间中交叉熵的期望值，P_c→s表示复杂句到简单句的转换模型，P_s→c表示简单句到复杂句的转换模型，S表示简单句x的句子空间，C表示复杂句y的句子空间。

6.根据权利要求5所述的方法，其中，所述策略梯度损失L_pg的计算公式如下：

其中，为将C(x)输入模型Comp2Simp之后对输出进行概率采样后得到的简单句，为将S(y)输入模型Simp2Comp之后对输出进行概率采样后得到的复杂句，为通过贪心算法最大化概率后得到的简单句，为通过贪心算法最大化概率后得到的复杂句，R_s和R_c分别表示与S和C对应的调和平均函数。

7.根据权利要求6所述的方法，其中，最终损失是交叉熵损失和策略梯度损失的加权和，计算公式如下：

8.一种半监督文本简化模型训练系统，包括：

模型建立单元，配置为建立复杂句到简单句的转化模型Comp2Simp和简单句到复杂句的回译模型Simp2Comp；

初始化单元，配置为分别对Comp2Simp和Simp2Comp进行初始化；

平行语料构造单元，配置为利用初始化后的模型Simp2Comp将简单句x转化为复杂句C(x)以构造第一平行语料对(C(x),x)，利用初始化后的模型Comp2Simp将复杂句y转化为对应的简单句S(y)以构造第二平行语料对(S(y),y)；

参数更新单元，配置为利用所述第一平行语料对(C(x),x)对初始化后的模型Comp2Simp的进行有监督训练以更新模型Comp2Simp的参数，利用所述第二平行语料对(S(y),y)对初始化后的模型Simp2Comp的进行有监督训练以更新模型Simp2Comp的参数，从而完成第一轮迭代；

迭代单元，配置为分别利用参数更新后的Simp2Comp和参数更新后的Comp2Simp重复执行上述构造平行语料对和更新模型参数的过程完成后续迭代。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。