CN107844480B

CN107844480B - 将书面文本转换为口语文本的方法及系统

Info

Publication number: CN107844480B
Application number: CN201710987858.5A
Authority: CN
Inventors: 周明; 江源; 胡国平; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-10-21
Filing date: 2017-10-21
Publication date: 2021-04-30
Anticipated expiration: 2037-10-21
Also published as: CN107844480A

Abstract

本发明公开了一种将书面文本转换为口语文本的方法，所述方法包括：接收待转换的源文本数据；对所述源文本数据进行分词及向量化处理，得到每句源文本数据的词向量序列；依次将每句源文本数据的词向量序列输入预先构建的文本转换模型，根据所述文本转换模型的输出得到所述源文本数据对应的目标文本数据；在所述目标文本数据中插入副语言信息，得到带有副语言信息的口语化文本数据。利用本发明，可以使转换后的口语文本更符合口语表达的习惯。

Description

将书面文本转换为口语文本的方法及系统

技术领域

本发明涉及自然语言处理领域，具体涉及一种将书面文本转换为口语文本的方法及系统。

背景技术

语言是人们用来进行交际的系统，通常有两种不同的表现形式，即口语和书面语。口语即口头语言，书面语即用文字书写的语言，二者有着不同的特点。一般来说，口语比书面语灵活简短，对语境的依赖性比较强，表达时常伴有副语言现象，如喘息、拖音、停顿等，从而使口语听起来比书面语亲切自然，更容易理解，因此，为了便于人们理解，研究人员提出，可以将书面文本转换成口语化文本。

现有的文本转换方法在将书面语转换为口语时，一般是直接在书面语上加入一些口语中经常出现的副语言信息。具体加入时，通过预先设定的规则，对书面文本进行文本分析后，确定副语言信息加入的位置，直接将副语言信息添加到相应书面语上；如对书面文本“中国社会和经济已发生翻天覆地的变化”添加停顿后得到转换后的口语化文本“中国社会和经济#已发生翻天覆地的变化”，其中，“#”为停顿标识符。

现有的文本转换方法直接对书面文本进行分析添加相应副语言后得到转换后的口语化文本，转换后的口语化文本只是简单地在书面文本上添加了口语中常见的副语言信息，转换后的口语化文本并不符合语言的表达习惯，有时在书面文本中出现了口语化的副语言信息反而会让用户感觉到生硬、拗口，表达不流畅等感觉，严重影响用户体验。

发明内容

本发明实施例提供一种将书面文本转换为口语文本的方法及系统，以使转换后的口语文本更符合口语表达的习惯。

为此，本发明提供如下技术方案：

一种将书面文本转换为口语文本的方法，所述方法包括：

接收待转换的源文本数据；

对所述源文本数据进行分词及向量化处理，得到每句源文本数据的词向量序列；

依次将每句源文本数据的词向量序列输入预先通过收集书面语文本数据及与其对应的口语化本数据构建的文本转换模型，根据所述文本转换模型的输出得到所述源文本数据对应的目标文本数据；所述文本转换模型包括编码网络和解码网络，在训练过程中利用所述书面语文本数据输入所述编码网络后，所述解码网络输出的目标文本序列与所述书面语文本数据对应的口语化文本数据之间的差值对模型参数进行更新；

在所述目标文本数据中插入副语言信息，得到带有副语言信息的口语化文本数据。

优选地，所述方法还包括：所述文本转换模型的构建过程包括：

确定文本转换模型的拓扑结构，所述拓扑结构包括编码网络和解码网络，所述编码网络的输入为词向量序列、输出为词编码向量；所述解码网络的输入为所述编码网络输出的词编码向量及当前待转换词之前的历史词向量、输出为目标文本序列；

收集大量文本数据，所述文本数据包括书面语文本数据及与其对应的口语化文本数据；

对所述书面语文本数据进行分词及向量化处理，得到每句书面语文本数据的词向量序列；

根据所述词向量序列及对应的目标文本数据训练模型参数，在训练过程中依次将每句源文本数据的词向量序列输入所述编码网络，利用所述解码网络输出的目标文本序列与所述源文本数据对应的目标文本数据之间的差值对模型参数进行更新；并在训练结束后，得到模型参数。

优选地，所述方法还包括：

在所述目标文本数据中插入副语言信息之前，确定所述目标文本数据是否需要进行词序调整；

如果需要，则对所述目标文本数据进行词序调整。

优选地，所述确定所述目标文本数据是否需要进行词序调整包括：

计算所述目标文本数据的语言模型得分；

如果所述得分低于设定阈值，则根据预先构建的词序调整判断模型依次判断所述目标文本数据中相邻词的词序是否需要调整。

优选地，所述根据预先构建的词序调整判断模型依次判断所述目标文本数据中相邻词的词序是否需要调整包括：

依次将所述目标文本数据中的各词作为当前待判断词，将所述当前待判断词及其上下文信息输入所述词序调整判断模型，根据所述词序调整判断模型的输出确定是否对当前待判断词及其相邻词的词序进行调整。

优选地，所述待判断词的上下文信息包括以下任意一项或多项：所述待判断词的前、后一个或多个词，所述待判断词所属句子的语义信息，所述待判断词所属句子的语言模型得分。

优选地，所述在所述目标文本数据中插入副语言信息包括：

将所述目标文本数据的词序列输入预先构建的位置预测模型，根据所述位置预测模型的输出确定每种副语言信息的插入位置；

在每种副语言信息的插入位置插入对应的副语言信息。

优选地，所述位置预测模型的输出为：副语言信息的类型和位置，或者副语言信息的位置。

优选地，所述位置预测模型的构建过程包括：

确定位置预测模型的拓扑结构；

收集大量文本数据，所述文本数据包括：不带副语言信息的文本数据及与其对应的带副语言信息的文本数据；

对所述不带副语言信息的文本数据进行分词及向量化处理，得到每句不带副语言信息的文本数据的词向量序列；

根据所述词向量序列及对应的带副语言信息的文本数据训练模型参数，在训练过程中，以每种副语言信息的预测插入位置与对应的带副语言信息的文本数据中所述副语言信息的实际位置的差值最小化为目标，对模型参数进行更新；并在训练结束后，得到模型参数。

一种将书面文本转换为口语文本的系统，所述系统包括：

接收模块，用于接收待转换的源文本数据；

分词处理模块，用于对所述源文本数据进行分词及向量化处理，得到每句源文本数据的词向量序列；

文本转换模块，用于依次将每句源文本数据的词向量序列输入预先通过收集书面语文本数据及与其对应的口语化本数据构建的文本转换模型，根据所述文本转换模型的输出得到所述源文本数据对应的目标文本数据；所述文本转换模型包括编码网络和解码网络，在训练过程中利用所述书面语文本数据输入所述编码网络后，所述解码网络输出的目标文本序列与所述书面语文本数据对应的口语化文本数据之间的差值对模型参数进行更新；

信息插入模块，用于在所述目标文本数据中插入副语言信息，得到带有副语言信息的口语化文本数据。

优选地，所述系统还包括：文本转换模型构建模块，用于构建所述文本转换模型；所述文本转换模型构建模块包括：

第一结构确定单元，用于确定文本转换模型的拓扑结构，所述拓扑结构包括编码网络和解码网络，所述编码网络的输入为词向量序列、输出为词编码向量；所述解码网络的输入为所述编码网络输出的词编码向量及当前待转换词之前的历史词向量、输出为目标文本序列；

第一数据收集单元，用于收集大量文本数据，所述文本数据包括书面语文本数据及与其对应的口语化文本数据；

第一分词处理单元，用于对所述书面语文本数据进行分词及向量化处理，得到每句书面语文本数据的词向量序列；

第一训练单元，用于根据所述词向量序列及对应的目标文本数据训练模型参数，在训练过程中依次将每句源文本数据的词向量序列输入所述编码网络，利用所述解码网络输出的目标文本序列与所述源文本数据对应的目标文本数据之间的差值对模型参数进行更新；并在训练结束后，得到模型参数。

优选地，所述系统还包括：

词序调整模块，用于在所述目标文本数据中插入副语言信息之前，确定所述目标文本数据是否需要进行词序调整；如果需要，则对所述目标文本数据进行词序调整。

优选地，所述词序调整模块包括：

计算单元，用于计算所述目标文本数据的语言模型得分；

判断单元，用于在所述语言模型得分低于设定阈值时，根据预先构建的词序调整判断模型依次判断所述目标文本数据中相邻词的词序是否需要调整；

调整单元，用于在所述判断单元判断所述目标文本数据中相邻词的词序需要调整时，对所述目标文本数据进行词序调整。

优选地，所述判断单元，具体用于依次将所述目标文本数据中的各词作为当前待判断词，将所述当前待判断词及其上下文信息输入所述词序调整判断模型，根据所述词序调整判断模型的输出确定是否对当前待判断词及其相邻词的词序进行调整。

优选地，所述信息插入模块包括：

位置预测单元，用于将所述目标文本数据的词序列输入预先构建的位置预测模型，根据所述位置预测模型的输出确定每种副语言信息的插入位置；

插入单元，用于在每种副语言信息的插入位置插入对应的副语言信息。

优选地，所述系统还包括：位置预测模型构建模块，用于构建位置预测模型；所述位置预测模型构建模块包括：

第二结构确定单元，用于确定位置预测模型的拓扑结构；

第二数据收集单元，用于收集大量文本数据，所述文本数据包括：不带副语言信息的文本数据及与其对应的带副语言信息的文本数据；

第二分词处理单元，用于对所述不带副语言信息的文本数据进行分词及向量化处理，得到每句不带副语言信息的文本数据的词向量序列；

第二训练单元，用于根据所述词向量序列及对应的带副语言信息的文本数据训练模型参数，在训练过程中，以每种副语言信息的预测插入位置与对应的带副语言信息的文本数据中所述副语言信息的实际位置的差值最小化为目标，对模型参数进行更新；并在训练结束后，得到模型参数。

本发明实施例提供的将书面文本转换为口语文本的方法及系统，将书面语文本转换为口语化文本时，先从语义层面将书面语文本数据转换为更适合口语表达的口语化文本数据，再将副语言信息添加到转换后的目标文本数据中，从而使添加的副语言信息的位置更准确，并且更符合口语表达的习惯，进而使最终得到的口语化文本数据更自然，提升用户体验。

进一步地，在插入副语言信息之前，判定所述目标文本数据是否需要进行词序调整，如果需要，则对目标文本数据进行词序调整，使调整后的目标文本数据更适合口语表达习惯。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例将书面文本转换为口语文本的方法的一种流程图；

图2是本发明实施例中文本转换模型的构建流程图；

图3是本发明实施例将书面文本转换为口语文本的方法的另一种流程图；

图4是本发明实施例将书面文本转换为口语文本的系统的一种结构示意图；

图5是本发明实施例中文本转换模型构建模块的结构示意图；

图6是本发明实施例中位置预测模型构建模块的结构示意图；

图7是本发明实施例将书面文本转换为口语文本的系统的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例将书面文本转换为口语文本的方法的流程图，包括以下步骤：

步骤101，接收待转换的源文本数据。

所述源文本数据为书面语文本数据，如新闻稿数据、较正式的会议记录数据等。

步骤102，对所述源文本数据进行分词及向量化处理，得到每句源文本数据的词向量序列。

分词方法可以采用现有技术，如基于条件随机场模型进行分词，所述向量化处理同样可以采用现有技术，如基于Word2Vec方法等。

步骤103，依次将每句源文本数据的词向量序列输入预先构建的文本转换模型，根据所述文本转换模型的输出得到所述源文本数据对应的目标文本数据。

所述目标文本数据为更方便用户理解的口语化文本数据。

所述文本转换模型用于将书面语文本数据中书面化的用词转换为口语化用词，即从语义层面将书面文本数据转换为更适合口语表达的口语化文本数据，以使其更符合口语化语言的表达习惯。

所述文本转换模型可以通过预先收集大量书面语文本数据及与其对应的口语化本数据构建得到，其构建过程如图2所示，包括以下步骤：

步骤201，确定文本转换模型的拓扑结构，所述拓扑结构包括编码网络和解码网络，所述编码网络的输入为待转换的书面语文本数据的词向量序列、输出为词编码向量；所述解码网络的输入为所述编码网络输出的词编码向量及当前待转换词之前的历史词向量、输出为目标文本序列。

步骤202，收集大量文本数据，所述文本数据包括书面语文本数据及与其对应的口语化文本数据。

步骤203，对所述书面语文本数据进行分词及向量化处理，得到每句书面语文本数据的词向量序列。

需要说明的是，在文本转换模型训练过程中对训练数据中的书面语文本数据进行分词及向量化处理的方法与前面图1的步骤102中对所述源文本数据进行分词及向量化处理的方法可以相同，也可以不同，对此本发明实施例不做限定。

步骤204，根据所述词向量序列及对应的口语化文本数据训练模型参数，在训练过程中依次将每句书面语文本数据的词向量序列输入所述编码网络，利用所述解码网络输出的目标文本序列与所述书面语文本数据对应的口语化文本数据之间的差值对模型参数进行更新；在训练结束后，得到模型参数。

所述目标文本序列与对应的口语化文本数据之间的差值的计算可以采用现有技术，在此不作限定。

在进行文本转换时，可以依次将每句源文本数据的词向量序列输入该文本转换模型，根据所述文本转换模型的输出即可得到所述源文本数据对应的目标文本数据。

如待转换的源文本数据为“中国/社会/和/经济/已/发生/翻天覆地/的/变化”，其中“/”表示分词符。具体转换时，将所述源文本数据作为文本转换模型的输入序列，进行编码，得到输入序列的表达向量V；解码时，由V生成目标文本数据第一个词“中国”，再由V和“中国”生成目标文本数据的第二个词“社会”；再由V、“中国”和“社会”生成目标文本数据的第三个词“和”以此类推，得到目标文本数据所有词，即“中国/社会/和/经济/这个嘛/发生/的/太大/变化/了”。

步骤104，在所述目标文本数据中插入副语言信息，得到带有副语言信息的口语化文本数据。

为了使转换后的目标文本数据更自然，在转换后的目标文本数据中还需要插入副语言信息，所述副语言信息一般出现在较为口语化的语流中，是由发音人的说话习惯表现出的无语义的语言现象，如常见的副语言现象为喘息、拖音、停顿等。

具体地，插入副语言信息的方法可以有多种。比如，可以根据设定规则，将副语言信息插入相应的位置中，得到带有副语言信息的口语化文本数据。再比如，可以先根据目标文本数据预测每种副语言信息出现的位置，然后在该位置插入相应的副语言信息，具体过程如下所述：将所述目标文本数据的词序列输入预先构建的位置预测模型，根据所述位置预测模型的输出确定每种副语言信息的插入位置；然后在每种副语言信息的插入位置插入对应的副语言信息。

需要说明的是，对目标文本数据插入副语言信息时，可以同时插入多种类型的副语言信息，如同时插入喘息、停顿两种不同类型的副语言信息，相应地，在构建位置预测模型时，需要将所述副语言信息的类型和位置作为模型的输出；当然，也可以每次只插入一种特定类型的副语言信息，如插入停顿这种类型的副语言信息，相应地，在构建位置预测模型时，只需要构建针对停顿这一类型的位置预测模型，模型输出时，只需要输出待预测文本数据中停顿出现的位置即可。也就是说，在实际应用中，所述位置预测模型可以是针对特定副语言信息的位置预测模型，也就是说，针对每个特定副语言信息有一个对应的位置预测模型，相应地，该位置预测模型的输出为该副语言信息的位置；所述位置预测模型还可以是针对所有副语言信息的位置预测模型，相应地，该位置预测模型的输出为副语言信息的类型和位置。

所述位置预测模型的构建过程如下：

(1)确定位置预测模型的拓扑结构；位置预测模型具体可以采用深度神经网络模型描述，如循环神经网络模型、深度神经网络模型等；模型的输入为待预测文本数据的词序列，输出为预测得到的文本数据中每种副语言信息的插入位置；

(2收集大量文本数据，所述文本数据包括：不带副语言信息的文本数据及与其对应的带副语言信息的文本数据；

(3)对所述不带副语言信息的文本数据进行分词及向量化处理，得到每句不带副语言信息的文本数据的词向量序列；

(4)根据所述词向量序列及对应的带副语言信息的文本数据训练模型参数，在训练过程中，以每种副语言信息的预测插入位置与对应的带副语言信息的文本数据中所述副语言信息的实际位置的差值最小化为目标，对模型参数进行更新；并在训练结束后，得到模型参数。

下面以预测“停顿”这类副语言信息为例，位置预测过程如下：

首先利用收集的大量不带停顿信息的文本数据与带有停顿信息的文本数据构建停顿位置预测模型；

然后将所述目标文本数据的词向量序列作为所述停顿位置预测模型的输入，根据所述停顿位置预测模型的输出得到所述目标文本数据的停顿位置。如所述目标文本数据为“中国/社会/和/经济/发生/的/变化/太/大/了”，停顿位置预测结果为“中国/B社会/I和/I经济/E发生/B的/I变化/I太/I大 /I了/I”，其中，符号B表示当前词位于短语的开始位置，I表示当前词位于短语中间位置，E表示当前词位于短语结束位置，即停顿位置。

最后根据预测得到的停顿位置，将停顿标识符插入到所述目标文本数据中。如插入停顿标识符后的目标文本数据为“中国社会和经济#发生的变化太大了”，其中“#”为停顿标识符。

为了使得到的目标文本数据更符合口语的表达习惯，如图3所示，在本发明方法另一实施例中，还可以在所述目标文本数据中插入副语言信息之前，根据预先构建的词序调整判断模型确定所述目标文本数据中相邻词的词序是否需要调整。图3所示实施例的具体流程如下：

步骤301，接收待转换的源文本数据。

步骤302，对所述源文本数据进行分词及向量化处理，得到每句源文本数据的词向量序列。

步骤303，依次将每句源文本数据的词向量序列输入预先构建的文本转换模型，根据所述文本转换模型的输出得到所述源文本数据对应的目标文本数据。

步骤304，确定所述目标文本数据是否需要进行词序调整；如果是，则执行步骤305；否则，执行步骤306。

具体地，在确定所述目标文本数据是否需要进行词序调整时，可以首先根据所述目标文本数据的语言模型得分判断是否需要进行词序调整，比如，使用预先训练的N元语言模型计算转换后目标文本的语言模型得分，如果所述语言模型得分低于预先设定的阈值，则确定对所述目标文本数据进行词序调整，否则不需要进行词序调整；如果需要进行词序调整，再根据预先构建的词序调整判断模型依次判断所述目标文本数据中哪些相邻词的词序需要调整。

所述词序调整判断模型可以采用分类模型，具体可以使用支持向量机、神经网络等分类模型描述，模型的构建方式可以采用常规的构建方式，在此不再赘述。

在利用所述词序调整判断模型进行词序调整判断时，依次将所述目标文本数据中的各词作为当前待判断词，将所述当前待判断词及其上下文信息输入所述词序调整判断模型，根据所述词序调整判断模型的输出确定是否对当前待判断词及其相邻词的词序进行调整。所述待判断词的上下文信息包括所述待判断词的前、后一个或多个词，所述待判断词所属句子的语义信息，所述待判断词所属句子的语言模型得分；所述待判断词所属句子的语义信息可以使用所述句子的整句向量表示，具体可以将所述句子中每个词向量相加得到的和向量作为所述句子的整句向量。

步骤305，对所述目标文本数据进行词序调整。然后执行步骤306。

如上例中得到的目标文本数据“中国/社会/和/经济/这个嘛/发生/的/太大/变化/了”利用N元语言模型计算得到的整句语言模型得分低于阈值，所以该目标文本数据需要进行词序调整，利用词序调整判定模型判定，相邻词“太大”与词“变化”的顺序需要调整，即不符合当前语境下人的表达习惯；调整后得到的目标文本数据为“中国/社会/和/经济/这个嘛/发生/的/变化/太大/了”，调整后的目标文本数据更符合人的表达习惯。

步骤306，在所述目标文本数据中插入副语言信息，得到口语化文本数据。

插入副语言信息的方法在前面已有详细说明，在此不再赘述。

本发明实施例提供的将书面文本转换为口语文本的方法，将书面语文本转换为口语化文本时，先从语义层面将书面语文本数据转换为更适合口语表达的口语化文本数据，再将副语言信息添加到转换后的目标文本数据中，从而使添加的副语言信息的位置更准确，并且更符合口语表达的习惯，进而使最终得到的口语化文本数据更自然，提升用户体验。

进一步地，在插入副语言信息之前，判定所述目标文本数据是否需要进行词序调整，如果需要，则对目标文本数据进行词序调整，从而可以得到更适合口语表达的目标文本数据。

相应地，本发明实施例还提供一种将书面文本转换为口语文本的系统，如图4所示，是本发明实施例将书面文本转换为口语文本的系统的一种结构示意图。

在该实施例中，所述系统包括：

接收模块401，用于接收待转换的源文本数据；

分词处理模块402，用于对所述源文本数据进行分词及向量化处理，得到每句源文本数据的词向量序列；具体的分词方法可以采用现有技术，如基于条件随机场模型进行分词，所述向量化处理同样可以采用现有技术，如基于Word2Vec方法等；

文本转换模块403，用于依次将每句源文本数据的词向量序列输入预先构建的文本转换模型400，根据所述文本转换模型的输出得到所述源文本数据对应的目标文本数据；

信息插入模块404，用于在所述目标文本数据中插入副语言信息，得到带有副语言信息的口语化文本数据。

所述文本转换模型400可以由相应的文本转换模型构建模块通过预先收集大量书面语文本数据及与其对应的口语化本数据构建得到，所述文本转换模型构建模块可以作为本发明系统的一部分，也可以独立于本发明系统，对此不做限定。

如图5所示，是本发明实施例中文本转换模型构建模块的结构示意图。

所述文本转换模型构建模块包括：

第一结构确定单元51，用于确定文本转换模型的拓扑结构，所述拓扑结构包括编码网络和解码网络，所述编码网络的输入为词向量序列、输出为词编码向量；所述解码网络的输入为所述编码网络输出的词编码向量及当前待转换词之前的历史词向量、输出为目标文本序列；

第一数据收集单元52，用于收集大量文本数据，所述文本数据包括书面语文本数据及与其对应的口语化文本数据；

第一分词处理单元53，用于对所述书面语文本数据进行分词及向量化处理，得到每句书面语文本数据的词向量序列；

第一训练单元54，用于根据所述词向量序列及对应的目标文本数据训练模型参数，在训练过程中依次将每句源文本数据的词向量序列输入所述编码网络，利用所述解码网络输出的目标文本序列与所述源文本数据对应的目标文本数据之间的差值对模型参数进行更新；并在训练结束后，得到模型参数。所述目标文本序列与对应的口语化文本数据之间的差值的计算可以采用现有技术，在此不作限定。

所述信息插入模块404插入副语言信息的具体方法可以有多种。比如，可以根据设定规则，将副语言信息插入相应的位置中，得到带有副语言信息的口语化文本数据。再比如，可以先根据目标文本数据预测每种副语言信息出现的位置，然后在该位置插入相应的副语言信息，相应地，该信息插入模块404的一种具体结构可以包括以下各单元：

所述位置预测模型可以是针对特定副语言信息的位置预测模型，可以是针对所有副语言信息的位置预测模型；相应地，所述位置预测模型的输出为：副语言信息的位置，或者副语言信息的类型和位置。

所述位置预测模型可以由相应的位置预测模型构建模块来构建，所述文本转换模型构建模块可以作为本发明系统的一部分，也可以独立于本发明系统，对此不做限定。如图6所示，是本发明实施例中位置预测模型构建模块的结构示意图。

所述位置预测模型构建模块包括以下各单元：

第二结构确定单元61，用于确定位置预测模型的拓扑结构；

第二数据收集单元62，用于收集大量文本数据，所述文本数据包括：不带副语言信息的文本数据及与其对应的带副语言信息的文本数据；

第二分词处理单元63，用于对所述不带副语言信息的文本数据进行分词及向量化处理，得到每句不带副语言信息的文本数据的词向量序列；

第二训练单元64，用于根据所述词向量序列及对应的带副语言信息的文本数据训练模型参数，在训练过程中，以每种副语言信息的预测插入位置与对应的带副语言信息的文本数据中所述副语言信息的实际位置的差值最小化为目标，对模型参数进行更新；并在训练结束后，得到模型参数。

如图7所示，是本发明实施例将书面文本转换为口语文本的系统的另一种结构示意图。

与图4所示实施例的区别在于，在该实施例中，所述系统还包括：词序调整模块405，设置在文本转换模块403和信息插入模块404之间，用于在所述目标文本数据中插入副语言信息之前，确定所述目标文本数据是否需要进行词序调整；如果需要，则对所述目标文本数据进行词序调整，从而可以使得到的目标文本数据更符合口语的表达习惯。如图3所示，在本发明方法另一实施例中，还可以在所述目标文本数据中插入副语言信息之前，根据预先构建的词序调整判断模型确定所述目标文本数据中相邻词的词序是否需要调整。

所述词序调整模块405包括以下各单元：

计算单元，用于计算所述目标文本数据的语言模型得分；

判断单元，用于在所述语言模型得分低于设定阈值时，根据预先构建的词序调整判断模型依次判断所述目标文本数据中相邻词的词序是否需要调整；具体地，可以依次将所述目标文本数据中的各词作为当前待判断词，将所述当前待判断词及其上下文信息输入所述词序调整判断模型，根据所述词序调整判断模型的输出确定是否对当前待判断词及其相邻词的词序进行调整；所述待判断词的上下文信息包括以下任意一项或多项：所述待判断词的前、后一个或多个词，所述待判断词所属句子的语义信息，所述待判断词所属句子的语言模型得分；

本发明实施例提供的将书面文本转换为口语文本的系统，将书面语文本转换为口语化文本时，先从语义层面将书面语文本数据转换为更适合口语表达的口语化文本数据，再将副语言信息添加到转换后的目标文本数据中，从而使添加的副语言信息的位置更准确，并且更符合口语表达的习惯，进而使最终得到的口语化文本数据更自然，提升用户体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。而且，以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及装置；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种将书面文本转换为口语文本的方法，其特征在于，所述方法包括：

接收待转换的源文本数据；

依次将每句源文本数据的词向量序列输入预先通过收集书面语文本数据及与其对应的口语化本数据构建的文本转换模型，根据所述文本转换模型的输出得到所述源文本数据对应的目标文本数据；所述文本转换模型包括编码网络和解码网络，在训练过程中利用所述书面语文本数据输入所述编码网络后，所述解码网络输出的目标文本序列与所述书面语文本数据对应的口语化文本数据之间的差值对模型参数进行更新；在所述目标文本数据中插入副语言信息，得到带有副语言信息的口语化文本数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：所述文本转换模型的构建过程包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果需要，则对所述目标文本数据进行词序调整。

4.根据权利要求3所述的方法，其特征在于，所述确定所述目标文本数据是否需要进行词序调整包括：

计算所述目标文本数据的语言模型得分；

5.根据权利要求4所述的方法，其特征在于，所述根据预先构建的词序调整判断模型依次判断所述目标文本数据中相邻词的词序是否需要调整包括：

6.根据权利要求5所述的方法，其特征在于，所述待判断词的上下文信息包括以下任意一项或多项：所述待判断词的前、后一个或多个词，所述待判断词所属句子的语义信息，所述待判断词所属句子的语言模型得分。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述在所述目标文本数据中插入副语言信息包括：

在每种副语言信息的插入位置插入对应的副语言信息。

8.根据权利要求7所述的方法，其特征在于，所述位置预测模型的输出为：副语言信息的类型和位置，或者副语言信息的位置。

9.根据权利要求7所述的方法，其特征在于，所述位置预测模型的构建过程包括：

确定位置预测模型的拓扑结构；

10.一种将书面文本转换为口语文本的系统，其特征在于，所述系统包括：

接收模块，用于接收待转换的源文本数据；

11.根据权利要求10所述的系统，其特征在于，所述系统还包括：文本转换模型构建模块，用于构建所述文本转换模型；所述文本转换模型构建模块包括：

12.根据权利要求10所述的系统，其特征在于，所述系统还包括：

13.根据权利要求12所述的系统，其特征在于，所述词序调整模块包括：

计算单元，用于计算所述目标文本数据的语言模型得分；

14.根据权利要求13所述的系统，其特征在于，

所述判断单元，具体用于依次将所述目标文本数据中的各词作为当前待判断词，将所述当前待判断词及其上下文信息输入所述词序调整判断模型，根据所述词序调整判断模型的输出确定是否对当前待判断词及其相邻词的词序进行调整。

15.根据权利要求14所述的系统，其特征在于，所述待判断词的上下文信息包括以下任意一项或多项：所述待判断词的前、后一个或多个词，所述待判断词所属句子的语义信息，所述待判断词所属句子的语言模型得分。

16.根据权利要求10至15任一项所述的系统，其特征在于，所述信息插入模块包括：

17.根据权利要求16所述的系统，其特征在于，所述位置预测模型的输出为：副语言信息的类型和位置，或者副语言信息的位置。

18.根据权利要求16所述的系统，其特征在于，所述系统还包括：位置预测模型构建模块，用于构建位置预测模型；所述位置预测模型构建模块包括：

第二结构确定单元，用于确定位置预测模型的拓扑结构；