CN110287461B

CN110287461B - 文本转换方法、装置及存储介质

Info

Publication number: CN110287461B
Application number: CN201910437690.XA
Authority: CN
Inventors: 陈亮宇; 周楚伦; 刘家辰; 肖欣延
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2023-04-18
Anticipated expiration: 2039-05-24
Also published as: CN110287461A

Abstract

本申请提供一种文本转换方法、装置及存储介质，其中，该方法包括：获取书面风格的待处理文本，该待处理文本包括多个待处理语句，将多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句，多个目标语句组成目标文本；其中，该语句风格转换模型是预先根据多个神经网络模型训练得到的，该语句风格转换模型用于将书面风格的语句转换为口语风格的语句。该技术方案中的语句风格转换模型是预先根据多个神经网络模型训练得到的，其能够准确的将书面风格的语句转换为口语风格的语句，提高了转换准确度。

Description

文本转换方法、装置及存储介质

技术领域

本申请涉及信息处理技术领域，尤其涉及一种文本转换方法、装置及存储介质。

背景技术

文本是一种为人所知的广泛的惯例、规则，而这些惯例和规则又能决定特定文本类型的语言和结构。通常情况下，文本具有书面化文本和口语化文本两种风格。由于口语比书面语亲切自然，容易理解，因而，在语音技术发达的时代，将书面化的文本转换为口语化文本播放时会让听众有种亲切感，提高听众的兴趣。

现有技术的文本转换方法中，文本转换规则是人工设计的规则，例如，在将书面化文本转换为口语化文本时在书面化风格的文本语句中加入一些语气词、将长语句改成短语句等方式，得到具有口语化风格的文本语句。

然而，上述文本转换规则需要专业人员设计，不但耗费人力，而且设计好的规则存在准确性和完整性问题时，会导致得到的口语化风格的文本语句与实际语义不符或者不符合语言习惯，存在转换不准确的问题。

发明内容

本申请提供一种文本转换方法、装置及存储介质，以克服现有文本方法中转换不准确的问题。

本申请第一方面提供的一种文本转换方法，包括：

获取书面风格的待处理文本，所述待处理文本包括多个待处理语句；

将所述多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句，所述多个目标语句组成目标文本；其中，所述语句风格转换模型是预先根据多个神经网络模型训练得到的，所述语句风格转换模型用于将书面风格的语句转换为口语风格的语句。

在第一方面的一种可能设计中，所述方法还包括：

通过预设的输出方式依次输出所述目标文本，所述预设的输出方式包括：语音播报、文本输出。

在第一方面的另一种可能设计中，所述将所述多个待处理语句依次输入语句风格转换模型进行转换处理之前，所述方法还包括：

根据预设的第一文本集、第二文本集和所述多个神经网络模型对所述多个神经网络模型中的第一神经网络模型进行训练，得到所述语句风格转换模型；

其中，所述第一文本集包括多个书面风格的语句，所述第二文本集包括所述多个书面风格的语句中的每个语句对应的口语风格的语句。

在第一方面的上述可能设计中，所述根据预设的第一文本集、第二文本集和所述多个神经网络模型对所述多个神经网络模型中的第一神经网络模型进行训练，得到所述语句风格转换模型，包括：

根据所述第一神经网络模型，获取初始转换模型，所述初始转换模型用于对语句进行序列到序列翻译；

根据第一文本集和第二文本集对所述多个神经网络模型中的第二神经网络模型进行训练，得到风格分类器，所述风格分类器用于确定每个语句的风格和每个语句中每个词语的风格强度；

根据所述第一文本集和所述第二文本集对所述多个神经网络模型中的第三神经网络模型进行训练，得到语法分类器，所述语法分类器用于判断输入的语句是否符合语法规则；

根据所述第一文本集、所述第二文本集、所述风格分类器和所述语法分类器对所述初始转换模型进行训练，得到所述语句风格转换模型。

在第一方面的上述可能设计中，所述根据所述第一文本集、所述第二文本集、所述风格分类器和所述语法分类器对所述初始转换模型进行训练，得到所述语句风格转换模型，包括：

将所述第一文本集、所述第二文本集输入所述初始转换模型，得到负例样本集；

从所述第一文本集和所述第二文本集中取样出正例样本集；

根据所述风格分类器和所述正例样本集对所述初始转换模型进行更新，得到中间转换模型；

根据所述正例样本集、所述负例样本集，对所述语法分类器和所述中间转换模型进行对抗训练，得到所述语句风格转换模型。

本申请第二方面提供一种文本转换装置，包括：获取模块和处理模块；

所述获取模块，用于获取书面风格的待处理文本，所述待处理文本包括多个待处理语句；

所述处理模块，用于将所述多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句，所述多个目标语句组成目标文本；其中，所述语句风格转换模型是预先根据多个神经网络模型训练得到的，所述语句风格转换模型用于将书面风格的语句转换为口语风格的语句。

在第二方面的一种可能设计中，所述装置还包括：输出模块；

所述输出模块，还用于通过预设的输出方式依次输出所述目标文本，所述预设的输出方式包括：语音播报、文本输出。

在第二方面的另一种可能设计中，所述装置还包括：训练模块；

所述训练模块，用于在所述处理模块将所述多个待处理语句依次输入语句风格转换模型进行转换处理之前，根据预设的第一文本集、第二文本集和所述多个神经网络模型对所述多个神经网络模型中的第一神经网络模型进行训练，得到所述语句风格转换模型；

在第二方面的上述可能设计中，所述训练模块，包括：获取单元、训练单元；

所述获取单元，用于根据所述第一神经网络模型，获取初始转换模型，所述初始转换模型用于对语句进行序列到序列翻译；

所述训练单元，用于根据第一文本集和第二文本集对所述多个神经网络模型中的第二神经网络模型进行训练，得到风格分类器，所述风格分类器用于确定每个语句的风格和每个语句中每个词语的风格强度，根据所述第一文本集和所述第二文本集对所述多个神经网络模型中的第三神经网络模型进行训练，得到语法分类器，所述语法分类器用于判断输入的语句是否符合语法规则，根据所述第一文本集、所述第二文本集、所述风格分类器和所述语法分类器对所述初始转换模型进行训练，得到所述语句风格转换模型。

在第二方面的上述可能设计中，所述训练单元，具体用于将所述第一文本集、所述第二文本集输入所述初始转换模型，得到负例样本集，从所述第一文本集和所述第二文本集中取样出正例样本集，根据所述风格分类器和所述正例样本集对所述初始转换模型进行更新，得到中间转换模型，以及根据所述正例样本集、所述负例样本集，对所述语法分类器和所述中间转换模型进行对抗训练，得到所述语句风格转换模型。

本申请第三方面提供一种文本转换装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面以及第一方面各可能设计所述的方法。

本申请第四方面提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如第一方面以及第一方面各可能设计所述的方法。

本申请实施例提供的文本转换方法、装置及存储介质，通过获取书面风格的待处理文本，该待处理文本包括多个待处理语句，将该多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句，该多个目标语句组成目标文本；其中，该语句风格转换模型是预先根据多个神经网络模型训练得到的，该语句风格转换模型用于将书面风格的语句转换为口语风格的语句。该技术方案中的语句风格转换模型是预先根据多个神经网络模型训练得到的，其能够准确的将书面风格的语句转换为口语风格的语句，提高了转换准确度。

附图说明

图1为本申请实施例提供的一种文本转换系统的结构示意图；

图2为本申请实施例提供的文本转换方法实施例一的流程示意图；

图3为本申请实施例提供的文件转换方法实施例二的流程示意图；

图4为本申请实施例提供的文本转换方法实施例三的流程示意图；

图5为本申请实施例中初始转换模型的工作原理示意图；

图6为本申请实施例中风格分类器的结构示意图；

图7为本申请实施例提供的文本转换方法实施例四的流程示意图；

图8为本实施例中利用风格分类器训练初始转换模型的示意图；

图9为本申请实施例中对语法分类器和中间转换模型进行对抗训练的示意图；

图10为本申请实施例提供的文本转换装置实施例一的结构示意图；

图11为本申请实施例提供的文本转换装置实施例二的结构示意图；

图12为本申请实施例提供的文本转换装置实施例三的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

语言是人们用来交际的系统，通常有两种不同的表现形式，即口语和书面语。一般来说，口语比书面语灵活简短，对语境的依赖性比较强，表达时常伴有副语言现象，如喘息、拖音、停顿等，适得其听起来比书面语亲切自然，更容易理解，因此，书面化风格的文本适合用于新闻、严肃文学、说明类文章等等，而口语化文本适合于脱口秀讲稿、杂文等。

在语音技术发达的时代，用户可以通过智能设备或网络直播等方式观看或收听一些节目，当将书面化风格的文本转换为口语化风格的文本播报时，更容易引起用户的兴趣，提高观看或收听率。

本申请实施例针对现有文本转换方法存在的转换不准确问题，提出了一种文本转换方法、装置及存储介质，通过获取书面风格的待处理文本，该待处理文本包括多个待处理语句，将该多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句，该多个目标语句组成目标文本；其中，该语句风格转换模型是预先根据多个神经网络模型训练得到的，该语句风格转换模型用于将书面风格的语句转换为口语风格的语句。该技术方案中的语句风格转换模型是预先根据多个神经网络模型训练得到的，其能够准确的将书面风格的语句转换为口语风格的语句，提高了转换准确度。

下面结合图1介绍本申请实施例设计的一种系统结构。图1为本申请实施例提供的一种文本转换系统的结构示意图。如图1所示，该文本转换系统可以包括：训练设备11、转换设备12和存储设备13。示例性的，在图1所示的文本转换系统中，用于训练语句风格转换模型的第一文本集和第二文本集、书面风格的待处理文本均存储在存储设备13中。

在本申请的实施例中，第一文本集和第二文本集是不同风格的文本集，例如，第一文本集为书面风格的文本集，第二文本集为口语风格的文本集，或者，第一文本集为口语风格的文本集，第二文本集为书面风格的文本集等。

值得说明的是，本申请实施例并不限定文本集的数量、各文本集的具体风格类型以及各文本集的获取方式，其可以根据实际需要确定，此处不再赘述。

在本实施例中，训练设备11可以基于存储设备13存储的第一文本集和第二文本集执行模型训练方法的程序代码，以训练语句风格转换模型；转换设备12用于基于存储设备13中存储的待处理文本和训练得到的语句风格转换模型执行文本转换方法的程序代码，得到口语风格的目标文本。

可选的，本实施例中的存储设备13可以是用于存储数据的数据库，其可以是一个独立的设备，也可以集成在训练设备11或转换设备12中。

关于训练设备11训练语句风格转换模型的方法可以参见下述实施例中的相关描述，此处不再赘述。训练设备11可以将训练出的语句风格转换模型发送至转换设备12，由转换设备12基于书面风格的待处理文本和语句风格转换模型执行文本转换方法，关于具体的文本转换方法可以参见下述实施例中的相关描述，此处不再赘述。

在本实施例中，转换设备12由一个或多个服务器实现，也可以与其它计算设备配合，例如：数据存储、路由器、负载均衡器等设备；转换设备12可以布置在一个物理站点上，或者分布在多个物理站点上。转换设备12可以使用存储设备13中存储的数据，或者调用存储设备13中的程序代码实现本申请实施例所述的文本转换方法。

需要说明的是，附图1仅是本申请实施例提供的一种系统架构的示意图，图1中所示设备之间的位置关系不构成任何限制，例如，在附图1中，存储设备13相对于转换设备12可以是外部存储器，在其它情况下，也可以将存储设备13置于转换设备12中。

还需要说明的是，本申请实施例中训练设备11和转换设备12可以是同一设备，或者不同设备。训练设备11和/或转换设备12可以是终端设备，也可以是服务器或虚拟机等，还可以是由一个或多个服务器和/或计算机等组成的分布式计算机系统等，本申请实施例不作限定。

值得说明的是，本申请的产品实现形态是包含在机器学习、深度学习平台软件中，并部署在服务器(也可以是计算云或移动终端等具有计算能力的硬件)上的程序代码。在图1所示的系统结构图中，本申请的程序代码可以存储在转换设备和训练设备内部。运行时，程序代码运行于服务器的主机内存和/或GPU内存。

下面，通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本申请实施例提供的文本转换方法实施例一的流程示意图。该文本转换方法可以由转换设备执行，也可以由转换设备中的处理器执行。本实施例中以转换设备执行该方法进行说明。如图2所示，该文本转换方法可以包括如下步骤：

步骤21：获取书面风格的待处理文本，该待处理文本包括多个待处理语句。

可选的，在本实施例中，转换设备可以在外部应用的触发下执行该文本转换方法。具体的，转换设备首先获取书面风格的待处理文本。具体的，转换设备可以直接从存储设备获取待处理文本，也可以直接从客户设备获取待处理文本，本申请实施例并不对待处理文本的获取方式进行限定，其可以根据实际情况确定。

示例性的，在本实施例中，该待处理文本可以包括多个待处理语句，每个待处理语句包括多个词语，本申请实施例并不限定每个待处理文本包括的语句个数以及每个语句包括的词语个数，其可以根据实际情况确定。

步骤22：将多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句，该多个目标语句组成目标文本；其中，该语句风格转换模型是预先根据多个神经网络模型训练得到的，该语句风格转换模型用于将书面风格的语句转换为口语风格的语句。

本申请实施例的目标是将书面风格的待处理文本转换成口语风格的目标文本。可选的，转换设备利用获取到的待处理文本和训练设备训练好的语句风格转换模型得到口语风格的目标文本。

具体的，转换设备将待处理文本的每个语句作为语句风格转换模型的输入，利用该语句风格转换模型对每个语句进行语句风格转换，从而得到多条口语风格的目标语句，最终得到口语风格的目标文本。

值得说明的是，为了使的本方案的语句风格文本转换结果更合理，训练设备是基于多个神经网络模型对其中的一个神经网络模型进行训练得到的，训练的过程例如可以包括：语句风格一致性训练和对抗训练，本申请实施例并不训练过程包括的具体步骤进行限定。

在本实施例中，该语句风格转换模型可以是训练设备利用第一文本集和第二文本集具有的不同风格进行得到的。关于训练设备训练得到语句风格转换模型的具体实现方式可以参见下述实施例中的描述，此处不再赘述。

示例性的，该训练网络可以是深度神经网络，例如，循环神经网络(recurrentneural network，RNN)，长短期记忆网络(long short-term memory，LSTM)等，本申请实施例并不对用于训练语句风格转换模型的网络进行限定。

本申请实施例以将书面风格的待处理文本转换成口语风格的目标文本进行说明，在实际应用中，当该语句风格转换模型为用于将口语风格的语句转换为书面风格的语句时，本实施例的文本转换方法还可以用于将口语风格的待处理文本转换成书面风格的目标文本，本申请并不对此进行限定。

本申请实施例提供的文本转换方法，通过获取书面风格的待处理文本，该待处理文本包括多个待处理语句，将多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句，该多个目标语句组成目标文本；其中，该语句风格转换模型是预先根据多个神经网络模型训练得到的，且该语句风格转换模型用于将书面风格的语句转换为口语风格的语句。该技术方案中，语句风格转换模型是预先根据多个神经网络模型训练得到的，其能够准确的将书面风格的语句转换为口语风格的语句，提升了语句风格转换精度。

示例性的，在上述实施例的基础上，图3为本申请实施例提供的文件转换方法实施例二的流程示意图。如图3所示，在上述步骤22之后，该文本转换方法还可以包括如下步骤：

步骤31：通过预设的输出方式依次输出上述目标文本，该预设的输出方式包括：语音播报、文本输出。

在本申请的实施例中，转换设备得到目标文本后，可以通过预设的输出方式输出口语风格的多个目标语句。示例性的，对于智能音响、智能故事机等具有语音播放功能的设备，可以通过语音播放方式输出得到的口语风格的目标文本，这样可以提高听众的兴趣。再比如，对于具有输出功能但没有语音播放功能的设备，可以通过文本输出，进而可以将其发送至具有语音播放功能的设备从而实现播放或者供用户查看。

值得说明的是，本申请实施例并不限定目标文本的预设输出方式，其可以根据实际需要确定，此处不再赘述。

示例性的，在本实施例中，如图3所示，若本实施例中的转换设备和训练设备通过同一个设备实现时，在上述步骤32的将多个待处理语句依次输入语句风格转换模型进行转换处理之前，该方法还可以包括如下步骤：

步骤30：根据预设的第一文本集、第二文本集和多个神经网络模型对该多个神经网络模型中的第一神经网络模型进行训练，得到语句风格转换模型。

其中，该第一文本集包括多个书面风格的语句，该第二文本集包括多个书面风格的语句中的每个语句对应的口语风格的语句。

在本申请的实施例中，构建并训练语句风格转换模型是实现文本转换的核心，该语句风格转换模型可以基于预设的第一文本集、第二文本集和多个神经网络模型进行在线或离线训练得到。

具体的，该第一文本集和第二文本集是风格不同的两个文本集合，例如，第一文本集包括多个书面风格的语句，该第二文本集包括多个书面风格的语句中的每个语句对应的口语风格的语句，这样将每个书面风格的语句作为第一神经网络模型的输入，将每个语句对应的口语风格的语句作为第一神经网络模型的输出，训练该模型的参数，从而得到该语句风格转换模型的初始转换模型，然后利用上述预设的第一文本集、第二文本集以及多个神经网络模型中的第二神经网络模型和第三神经网络模型对该初始转换模型进行更新，从而得到该语句风格转换模型。

下面通过具体的实施例介绍上述语句风格转换模型的训练方法，关于本步骤的具体实现可参见下述实施例中的记载，此处不再赘述。

本申请实施例提供的文本转换方法，将多个待处理语句依次输入语句风格转换模型进行转换处理之前，根据预设的第一文本集、第二文本集和多个神经网络模型对该多个神经网络模型中的第一神经网络模型进行训练，得到语句风格转换模型，并且在将多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句后，通过预设的输出方式依次输出上述目标文本，该预设的输出方式包括：语音播报、文本输出。该技术方案中，得到的语句风格转换模型精度高，转换处理后得到的目标文本其具有的风格精度高，并可以基于预设的输出方式输出，使得设备的智能化程度高，提高了产品的竞争力。

示例性的，在上述图3所示实施例的基础上，图4为本申请实施例提供的文本转换方法实施例三的流程示意图。如图4所示，上述步骤30可以通过如下步骤实现：

步骤41：根据第一神经网络模型，获取初始转换模型，该初始转换模型用于对语句进行序列到序列翻译。

可选的，在本申请的实施例中，利用多个神经网络模型中的第一神经网络模型作为语句风格转换模型的雏形。具体的，利用第一神经网络模型获取用于对语句进行序列到序列翻译的初始转换模型。

值得说明的是，对于输入语句，在将该输入语句输入该初始转换模型之前，可以首先对该输入语句进行编码处理得到语句向量，该语句向量中的分量个数与该语句包括的词语个数一致，因此，在本实施例中，该初始转换模型可以根据输入语句包括的词语个数产生对应数量的隐层单元，每个隐层单元可以输出对应词语的风格强度。

示例性的，图5为本申请实施例中初始转换模型的工作原理示意图。如图5所示，在本实施例中，假设输入语句x包括T个词语，该输入语句对应的语句向量为z＝(x₁,x₂,…,x_T)，则将该语句向量z＝(x₁,x₂,…,x_T)输入到该初始转换模型时，该初始转换模型首先根据该语句向量z＝(x₁,x₂,…,x_T)包含的分量个数产生相应数量的隐层单元h₁～h_T。每个隐层单元既可以对与其对应的词语进行风格预测，还可以根据预测得到的风格、该词语的词义以及前一个转换词语得到当前词语的转换词语。

值得说明的是，第一个隐层单元h₁的输入包括开始触发条件<sos>、语句向量z，输出第一个词语的风格

以及第一个转换词语

相应的，如图5所示，第二个隐层单元h₂的输入包括第一个转换词语

传递过来的语句向量z，可以输出第二个词语的风格

以及第二个转换词语

依次类推，第T个隐层单元h_T的输入包括第T-1个转换词语

传递过来的语句向量z，可以输出第T个词语的风格

以及第T个转换词语

最后得到该输入语句对应转换语句的向量

值得说明的是，在本实施例中，隐层单元可以通过第一神经网络模型中的前馈神经网络来实现，例如，全连接层。该第一神经网络模型可以结合隐层单元预测的风格强度和隐层单元预测当前词语对应的转换词语，具体的，可以通过前馈神经网络的全连接层来实现。

示例性的，在本实施例中，该第一神经网络模型的架构可以是语言转换器(Transformer)，也可以是深度神经网络，例如，循环神经网络(recurrent neuralnetwork，RNN)，长短期记忆网络(long short-term memory，LSTM)等，本申请实施例并不对上述第一神经网络模型的架构进行限定。

步骤42：根据第一文本集和第二文本集对多个神经网络模型中的第二神经网络模型进行训练，得到风格分类器，该风格分类器用于确定每个语句的风格和每个语句中每个词语的风格强度。

可选的，在本实施例中，通过预设的第一文本集和第二文本集和多个神经网络模型中的第二神经网络可以训练风格分类器，以用于判别一个语句的风格s(取值为0或者1，取值为0表示初始风格，取值为1表示目标风格)，并且输出该语句中每个词语的风格强度。可选的，该风格分类器包括多个隐层单元。

在本实施例中，当将第一文本集和第二文本集中每个训练语句的语句向量分别输入到第二神经网络模型中，训练得到该风格分类器。该神经网络模型的隐层单元首先对该语句向量中的每个训练词语进行风格分类，输出每个训练词语的风格强度，最后确定出该训练语句的风格。

值得说明的是，每个隐层单元输出的风格强度还可以认为是训练词语对其所属语句最后分类的贡献度或权重值。

示例性的，图6为本申请实施例中风格分类器的结构示意图。如图6所示，将训练语句对应语句向量

输入到语句分类器之后，语句分类器的第一个隐层单元h₁对第一个训练词语

进行风格分类，得到该第一个训练词语

的风格强度α₁，类似的，语句分类器的第T个隐层单元h_T对第T个训练词语

进行风格分类，得到该第T个训练词语

的风格强度α_T。风格强度α₁～α_T经过总隐层单元

的处理后，输入到分类器中，最后输出该训练语句的风格。

可以理解的是，在本申请的实施例中，风格分类器处于通过图6所示的结构实现外，还可以使用CNN或者其他神经网络来实现，并用神经网络可视化的相关算法来计算每个训练词语的风格强度α。

步骤43：根据该第一文本集和第二文本集对该多个神经网络模型中的第三神经网络模型进行训练，得到语法分类器，该语法分类器用于判断输入的语句是否符合语法规则。

可选的，在本申请的实施例中，多神经网络模型中的第三神经网络是一个神经网络二类分类器，其可以通过预设的第一文本集和/或第二文本集训练得到。该语法分类器用于判定一个语句是否是机器生成的，也可以认为用于判断语句是否符合语法规则。

示例性的，在本实施例中，语法分类器的输出为0或1。可选的，0代表该语句不符合语法规则，认为其是机器生成的句子，1代表该语句符合语法规则，认为是一个真实的句子。

值得说明的是，该语法分类器的训练可以采用常规方法实现，此处不再赘述。

步骤44：根据上述第一文本集、第二文本集、风格分类器和语法分类器对初始转换模型进行训练，得到语句风格转换模型。

可选的，在本申请的实施例中，利用第一文本集、第二文本集和初始转换模型训练语句风格转换模型时，将初始转换模型输出的转换语句利用风格转换器进行风格反馈更新，利用语法分类器进行语法反馈更新，以保证得到的语句风格转换模型具有较高的风格转换精度，且符合语法的规则，提高了目标语句的可读性和可听性，相应的，提高了用户兴趣。

关于本步骤的具体实现原理可以参见下述实施例中的记载，此处不再赘述。

本申请实施例提供的文本转换方法，根据第一神经网络模型，获取用于对语句进行序列到序列翻译的初始转换模型，根据第一文本集和第二文本集对多个神经网络模型中的第二神经网络模型进行训练，得到用于确定每个语句的风格和每个语句中每个词语的风格强度的风格分类器，根据第一文本集和第二文本集对多个神经网络模型中的第三神经网络模型进行训练，得到用于判断输入的语句是否符合语法规则的语法分类器，最后根据第一文本集、第二文本集、风格分类器和语法分类器对初始转换模型进行训练，得到语句风格转换模型。该技术方案通过训练初始转换模型、风格分类器以及语法分类器，其可以实现自动训练语句风格转换模型的目的，而且使得训练得到的语句风格转换模型转换精度高。

示例性的，在上述图4所示实施例的基础上，图7为本申请实施例提供的文本转换方法实施例四的流程示意图。如图7所示，上述步骤44可以通过如下步骤实现：

步骤71：将第一文本集、第二文本集输入初始转换模型，得到负例样本集。

示例性的，在本实施例中，根据第一神经网络模型获取的初始转换模型，其精度低，其仅能实现一些简单的语句风格转换，在训练刚开始阶段，将第一文本集输入到初始转换模型后，得到的转换文本，可能非目标风格的文本。通过将转换文本与表示目标文本的第二文本集进行比较，确定出转换错误的文本语句，即对抗语句或负例语句，多个对抗语句或负例语句组成负例样本集。

步骤72：从第一文本集和第二文本集中取样出正例样本集。

可选的，在本实施例中，由于预设的第一文本集和第二文本集是用于模型训练的样本集，因而，第一文本集和第二文本集是风格分类正确且语句符合语法规则的语句，故直接从第一文本集和第二文本集中采样得到的是正例样本集。

步骤73：根据该风格分类器和正例样本集对初始转换模型进行更新，得到中间转换模型。

可选的，在本实施例中，可以通过自动编码的方式由风格分类器提供正例样本集的风格强度α，将正例样本集的风格强度α作为初始转换模型得到的风格强度

的学习目标。

示例性的，图8为本实施例中利用风格分类器训练初始转换模型的示意图。如图8所示，在本实施例中，正例样本集中的正例语句x经过编码器的编码处理得到语句向量z，语句向量z经过初始转换模型中解码器的解码转换处理预测得到每个转换词语的风格强度

以及输出每个转换词语

每个转换词语输入到风格分类器中，经过风格分类器的处理输出转换词语的风格强度α。

在本实施例中，通过误差函数的方式确定出初始转换模型输出风格强度

的学习目标。具体的，误差函数如下：

其中，x_t表示正例语句x中的第t个词语，α_t表示正例语句x中的第t个词语的目标风格强度，λ_t表示正例语句x中的第t个词语的预测风格强度，

表示正例语句x的重构误差，其由每个正例语句中参与风格转换的所有词语的概率取对数后的总和得到，

表示每个正例语句中参与风格转换的所有词语的风格强度的误差的平方和。

步骤74：根据上述正例样本集、负例样本集，对语法分类器和中间转换模型进行对抗训练，得到语句风格转换模型。

可选的，在本实施例中，利用语法分类器对中间转换模型进行训练的方式可以为对抗训练，也即，利用上述得到的正例样本集和负例样本集对语法分类器和中间转换模型进行对抗训练，最后得到语句风格转换模型。

示例性的，图9为本申请实施例中对语法分类器和中间转换模型进行对抗训练的示意图。如图9所示，在本实施例中，该示意图在图8所示示意图的基础上，在每个转换词语

的后面增加了语法分类器，利用该语法分类器进行语法规则的合法性判断。

具体的，在本实施例中，利用风格分类器和语法分类器输出的反馈信号来更新和优化初始转换模型。在本实施例中，对抗训练中的误差函数可以用如下公式表示：

其中，D_LM表示语法分类器的分类结果为正例语句符合语法规则的概率，D_Se为风格分类器的分类结果为正例语句为书面风格语句的概率，α_t表示正例语句x中的第t个词语的目标风格强度，λ_t表示正例语句x中的第t个词语的预测风格强度，

表示初始转换模型基于正例语句的语法规则判断结果与语法分类器的语法规则判断结果之间的误差，

表示初始转换模型对正例语句的风格预测结果与风格分类器的分类结果之间的误差，且D_LM和D_Se均为大于或等于0且小于1的正数，

本申请实施例提供的文本转换方法，将第一文本集、第二文本集输入初始转换模型得到负例样本集，从第一文本集和第二文本集中取样出正例样本集，根据该风格分类器和正例样本集对初始转换模型进行更新，得到中间转换模型，最后根据正例样本集、负例样本集，对语法分类器和中间转换模型进行对抗训练，得到语句风格转换模型。该技术方案中，通过目标学习方法和对抗训练方式训练得到语句风格转换模型，不需要人工设计规则，可以自动训练生成，不但降低了人力消耗，而且提高了转换准确度。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图10为本申请实施例提供的文本转换装置实施例一的结构示意图。该装置可以集成在终端设备或服务器中，也可以通过终端设备或服务器实现。如图10所示，该文本转换装置，可以包括：获取模块101和处理模块102。

其中，该获取模块101，用于获取书面风格的待处理文本，所述待处理文本包括多个待处理语句；

该处理模块102，用于将所述多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句，所述多个目标语句组成目标文本；其中，所述语句风格转换模型是预先根据多个神经网络模型训练得到的，所述语句风格转换模型用于将书面风格的语句转换为口语风格的语句。

示例性的，如图10所示，在本实施例中，该装置还包括：输出模块103；

该输出模块103，还用于通过预设的输出方式依次输出所述目标文本，所述预设的输出方式包括：语音播报、文本输出。

示例性的，在上述实施例的基础上，图11为本申请实施例提供的文本转换装置实施例二的结构示意图。如图11所示，该装置还可以包括：训练模块110。

该训练模块110，用于在上述处理模块102将所述多个待处理语句依次输入语句风格转换模型进行转换处理之前，根据预设的第一文本集、第二文本集和所述多个神经网络模型对所述多个神经网络模型中的第一神经网络模型进行训练，得到所述语句风格转换模型；

示例性的，在本实施例中，该训练模块110可以包括：获取单元1101、训练单元1102。

其中，该获取单元1101，用于根据所述第一神经网络模型，获取初始转换模型，所述初始转换模型用于对语句进行序列到序列翻译；

该训练单元1102，用于根据第一文本集和第二文本集对所述多个神经网络模型中的第二神经网络模型进行训练，得到风格分类器，所述风格分类器用于确定每个语句的风格和每个语句中每个词语的风格强度，根据所述第一文本集和所述第二文本集对所述多个神经网络模型中的第三神经网络模型进行训练，得到语法分类器，所述语法分类器用于判断输入的语句是否符合语法规则，根据所述第一文本集、所述第二文本集、所述风格分类器和所述语法分类器对所述初始转换模型进行训练，得到所述语句风格转换模型。

在本实施例的一种可能设计中，该训练单元1102，具体用于将所述第一文本集、所述第二文本集输入所述初始转换模型，得到负例样本集，从所述第一文本集和所述第二文本集中取样出正例样本集，根据所述风格分类器和所述正例样本集对所述初始转换模型进行更新，得到中间转换模型，以及根据所述正例样本集、所述负例样本集，对所述语法分类器和所述中间转换模型进行对抗训练，得到所述语句风格转换模型。

本申请实施例提供的装置，可用于执行图2至图7所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，确定模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

图12为本申请实施例提供的文本转换装置实施例三的结构示意图。如图12所示，该装置可以包括：处理器121、存储器122、通信接口123和系统总线124，所述存储器122和所述通信接口123通过所述系统总线124与所述处理器121连接并完成相互间的通信，所述存储器122用于存储计算机执行指令，所述通信接口123用于和其他设备进行通信，所述处理器121执行所述计算机执行指令时实现如上述图2至图7所示实施例的方案。

该图12中提到的系统总线可以是外设部件互连标准(peripheral componentinterconnect，PCI)总线或扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。所述系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器CPU、网络处理器(networkprocessor，NP)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选的，本申请实施例还提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上述图2至图7所示实施例的方法。

可选的，本申请实施例还提供一种运行指令的芯片，所述芯片用于执行上述图2至图7所示实施例的方法。

本申请实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在存储介质中，至少一个处理器可以从所述存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述图2至图7所示实施例的方法。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中，a，b，c可以是单个，也可以是多个。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

可以理解的是，在本申请的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种文本转换方法，其特征在于，包括：

将所述多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句，所述多个目标语句组成目标文本；其中，所述语句风格转换模型用于将书面风格的语句转换为口语风格的语句；

所述将所述多个待处理语句依次输入语句风格转换模型进行转换处理之前，所述方法还包括：

根据第一文本集和第二文本集对第一神经网络模型进行训练，获取初始转换模型，所述初始转换模型用于对语句进行序列到序列翻译；

根据所述第一文本集和所述第二文本集对第二神经网络模型进行训练，得到风格分类器，所述风格分类器用于确定每个语句的风格和每个语句中每个词语的风格强度；

根据所述第一文本集和所述第二文本集对第三神经网络模型进行训练，得到语法分类器，所述语法分类器用于判断输入的语句是否符合语法规则；

根据所述第一文本集、所述第二文本集、所述风格分类器和所述语法分类器对所述初始转换模型进行训练，得到所述语句风格转换模型；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本集、所述第二文本集、所述风格分类器和所述语法分类器对所述初始转换模型进行训练，得到所述语句风格转换模型，包括：

从所述第一文本集和所述第二文本集中取样出正例样本集；

4.一种文本转换装置，其特征在于，包括：获取模块和处理模块；

所述处理模块，用于将所述多个待处理语句依次输入语句风格转换模型进行转换处理，得到多个目标语句，所述多个目标语句组成目标文本；其中，所述语句风格转换模型是预先根据多个神经网络模型训练得到的，所述语句风格转换模型用于将书面风格的语句转换为口语风格的语句；

所述装置还包括：训练模块；

所述训练模块，用于在所述处理模块将所述多个待处理语句依次输入语句风格转换模型进行转换处理之前，根据第一文本集和第二文本集对第一神经网络模型进行训练，获取初始转换模型，所述初始转换模型用于对语句进行序列到序列翻译；

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：输出模块；

6.根据权利要求4所述的装置，其特征在于，所述训练模块，具体用于将所述第一文本集、所述第二文本集输入所述初始转换模型，得到负例样本集，从所述第一文本集和所述第二文本集中取样出正例样本集，根据所述风格分类器和所述正例样本集对所述初始转换模型进行更新，得到中间转换模型，以及根据所述正例样本集、所述负例样本集，对所述语法分类器和所述中间转换模型进行对抗训练，得到所述语句风格转换模型。

7.一种文本转换装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述权利要求1-3任一项所述的方法。

8.一种存储介质，其特征在于，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-3任一项所述的方法。