CN110858268B

CN110858268B - 一种检测语音翻译系统中不流畅现象的方法及系统

Info

Publication number: CN110858268B
Application number: CN201810949635.4A
Authority: CN
Inventors: 王峰
Original assignee: Beijing Zidong Cognitive Technology Co ltd
Current assignee: Beijing Zidong Cognitive Technology Co ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2024-03-08
Anticipated expiration: 2038-08-20
Also published as: CN110858268A

Abstract

本发明实施例提供的一种检测语音翻译系统中不流畅现象的方法及系统，通过训练的不流畅检测模型对待检测的源文本数据中的不流畅现象进行标注，从语义层面将不流畅的文本数据转换为更适合书面表达的流畅的目标文本数据，以使其更符合书面语的表达习惯，更方便下游机器翻译任务的处理。

Description

一种检测语音翻译系统中不流畅现象的方法及系统

技术领域

本发明涉及自然语言处理及语音信号处理领域，具体涉及一种检测语音翻译系统中不流畅现象的方法及系统。

背景技术

语音信号系统作为一项将语音信号转化为文本信号的技术，是移动互联网时代智能终端的重要组成部分。随着世界一体化，语言逐渐成为阻碍不同国家人们获取实时信息的一大障碍，因此语音翻译应运而生。

典型的语音翻译系统的结构，由语音识别模块，机器翻译模块，语音合成模块三部分串联组成。通常情况下，这些语音信号通过语音识别系统识别出来的文本与规范化书面文本有很大差别，而基于书面文本训练的机器翻译系统在处理口语文本时会遇到诸多问题，主要体现在口语文本还有很多不流畅因素。

不流畅检测任务的主要内容是识别出大多数口语文本中含有的重复，停顿，修正，冗余等口语现象，保留口语文本的主干内容，从而使口语文本更加贴近于书面语文本。为后续的自然语言处理任务(机器翻译，句法分析等)带来便利，提升性能。

发明内容

本发明实施例提供一种检测语音翻译中不流畅现象的方法及系统，提高语音翻译的性能。

为此，本发明提供如下技术方案：

第一方面，本发明实施例提供一种检测语音翻译系统中不流畅现象的方法，所述方法包括：

获取待检测的源文本数据；

对所述源文本数据进行预处理及向量化处理，得到每句源文本数据的词向量序列；

将所述源文本数据的词向量序列输入预先训练好的不流畅检测模型，得到不流畅检测模型的输出结果；

根据所述不流畅检测模型的输出结果，得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果。

可选的，所述不流畅检测模型的网络结构包括编码器和解码器；

所述不流畅检测模型的训练包括：

获取带不流畅标注的文本数据样本和与所述文本数据样本对应的流畅文本数据；

分别对所述文本数据样本和流畅文本数据进行预处理及向量化处理，得到所述文本数据样本的词向量序列和所述流畅文本数据的词向量序列；

将所述文本数据样本的词向量序列输入所述编码器，得到所述文本数据样本的词编码向量；

将所述文本数据样本的词编码向量及对应的流畅文本数据输入所述解码器，得到目标文本序列；

利用所述目标文本序列与对应的流畅文本数据的词向量序列之间的损失函数对不流畅检测模型进行训练。

可选的，所述获取带不流畅标注的文本数据样本和与所述文本数据样本对应的流畅文本数据，包括：

收集大量真实训练数据，所述真实训练数据包括带不流畅标注的文本数据及对应的流畅文本数据；

收集大量流畅的无标注文本数据，对所述无标注文本数据进行预处理及向量化处理，得到每句无标注文本数据的词向量序列；

将每句无标注文本数据的词向量序列输入预先训练好的反翻译模型，输出不流畅的目标文本数据；

对所述不流畅的目标文本数据进行筛选，得到增广训练数据；

将所述真实训练数据和所述增广训练数据组合成训练数据，所述训练数据包括带不流畅标注的文本数据样本和对应的流畅文本数据。

可选的，根据所述不流畅检测模型的输出结果，得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果，包括：

将不流畅检测模型的输出结果输入预先训练好的流畅端语言模型，计算所述不流畅检测模型的输出结果的得分；

比较所述不流畅检测模型的输出结果的得分，得到得分最高的不流畅检测模型的输出结果；

根据所述得分最高的不流畅检测模型的输出结果，得到最终的所述源文本数据对应流畅目标文本数据和不流畅标注结果。

可选的，所述流畅端语言模型的训练包括：

以所述训练数据中的所述流畅文本数据作为训练语料，利用所述训练语料和kenlm工具训练流畅端语言模型。

可选的，所述反翻译模型的网络结构包括编码器和解码器，所述反翻译模型的训练包括：

获取流畅的文本数据样本和与所述流畅的文本数据样本对应的带不流畅标注的文本数据；

分别对所述流畅的文本数据样本和带不流畅标注的文本数据进行预处理及向量化处理，得到所述流畅的文本数据样本的词向量序列和所述带不流畅标注的文本数据的词向量序列；

将所述流畅的文本数据样本的词向量序列输入编码器，得到所述流畅的文本数据样本的词编码向量；

将所述流畅的文本数据样本的词编码向量及对应的带不流畅标注的文本数据输入解码器，得到不流畅的目标文本序列；

利用所述不流畅的目标文本序列与对应的所述带不流畅标注的文本数据的词向量序列之间的损失函数对反翻译模型进行训练。

可选的，所述对所述源文本数据进行预处理包括：

对所述源文本数据按字切分，提取所述源文本数据的二元语法及三元语法特征；

根据所述源文本数据对应的语音信号提取韵律特征。

可选的，所述不流畅检测模型的输出结果包括：所述源文本数据对应的流畅目标文本数据和相应的不流畅标注结果。

可选的，所述流畅的无标注本文数据包括：新闻数据集和/或对话数据集。

可选的，对所述不流畅的目标文本数据进行筛选，得到增广训练数据，包括：

将所述不流畅的目标文本数据输入预先训练好的不流畅端语言模型，计算所述不流畅的目标文本数据的得分；

将所述不流畅的目标文本数据的得分与预设的阈值进行比较，舍弃低于所述阈值的不流畅的目标文本数据。

可选的，所述不流畅端语言模型的训练包括：

以所述训练语料中的带不流畅标注的文本数据样本作为训练语料，利用kenlm工具训练不流畅端语言模型。

可选的，所述损失函数采用交叉熵作为衡量指标。

可选的，所述真实训练数据包括：

会议语音数据、演讲语音数据和/或个人陈述语音数据；

使用语音识别工具处理所述会议语音数据、演讲语音数据和/或个人陈述语音数据，得到带不流畅因素的文本数据；

人工标注所述带不流畅因素的文本数据中的不流畅因素，得到带不流畅标注的文本数据及对应的流畅文本数据。

第二方面，本发明实施例提供一种检测语音翻译系统中不流畅现象的系统，所述系统包括：

获取模块，用于获取待检测的源文本数据；

词向量模块，用于对所述源文本数据进行预处理及向量化处理，得到每句源文本数据的词向量序列；

不流畅检测模块，用于将所述源文本数据的词向量序列输入预先训练好的不流畅检测模型，得到不流畅检测模型的输出结果；

结果确定模块，用于根据所述不流畅检测模型的输出结果，得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果。

第三方面，本发明实施例提供一种终端，所述终端包括处理器、存储器和总线；所述处理器和存储器通过所述总线进行通信连接，所述存储器存储有检测语音翻译系统中不流畅现象的方法程序，所述处理器执行所述存储器中的程序，以实现第一方面的步骤。

本发明实施例提供的一种检测语音翻译系统中不流畅现象的方法，通过训练的不流畅检测模型对待检测的源文本数据中的不流畅现象进行标注，从语义层面将不流畅的文本数据转换为更适合书面表达的流畅的目标文本数据，以使其更符合书面语的表达习惯，更方便下游机器翻译任务的处理。

附图说明

为了更清晰地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例检测语音翻译系统中不流畅现象的方法的流程图；

图2是本发明实施例中不流畅检测模型的训练流程图；

图3是本发明实施例中反翻译模型的训练流程图；

图4是本发明实施例中通过反翻译模型增加不流畅检测模型的训练数据的流程图；

图5是本发明实施例中检测语音翻译系统中不流畅现象的系统的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

实施例一

参照图1，图1是本发明实施例提供一种检测语音翻译系统中不流畅现象的方法的流程图，所述方法包括：

S101.获取待检测的源文本数据；

所述源文本数据为语音识别装置得到的文本数据，如演讲、会议的转录数据等。

S102.对所述源文本数据进行预处理及向量化处理，得到每句源文本数据的词向量序列；

所述预处理包括：对所述源文本数据按字切分，提取所述源文本数据的二元语法及三元语法特征，根据所述源文本数据对应的语音信号提取韵律特征。预处理中的特征提取可以采用现有技术，如基于支持向量机等进行建模，所述向量化处理同样可以采用现有技术，如基于Word2Vec方法等。

S103.将所述源文本数据的词向量序列输入预先训练好的不流畅检测模型，得到不流畅检测模型的输出结果；

例如：待检测的源文本数据为“我/要/去/北京/呃/是/去/上海”,其中“/”表示分词符。具体检测时，将所述源文本数据的词向量序列作为不流畅检测模型的输入序列，进行编码，得到输入序列的表达向量V；解码时，由V生成目标文本数据第一个词“我”，再由V和“我”生成目标文本数据的第二个词“要”；再由V、“我”和“要”生成目标文本数据的第三词“去”，以此类推，得到目标文本数据所有词，即“我/要/去/上海”。

S104.根据所述不流畅检测模型的输出结果，得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果。

所述流畅目标文本数据为更方便机器翻译处理的流畅的文本数据。

在本申请实施例中，所述不流畅检测模型的网络结构包括编码器和解码器；

参照图2，所述不流畅检测模型的训练包括：

S201.获取带不流畅标注的文本数据样本和与所述文本数据样本对应的流畅文本数据作为训练数据；

S202.分别对所述文本数据样本和流畅文本数据进行预处理及向量化处理，得到所述文本数据样本的词向量序列和所述流畅文本数据的词向量序列；

需要说明的是，在不流畅检测模型训练过程中对训练数据中的带不流畅标注的文本数据样本和流畅文本数据进行预处理及向量化处理的方法与前面步骤120中对所述源文本数据进行预处理及向量化处理的方法可以相同，也可以不同，对此本发明实施例不做限定。

S203.将所述文本数据样本的词向量序列输入所述编码器，得到所述文本数据样本的词编码向量；

S204.将所述文本数据样本的词编码向量及对应的流畅文本数据输入所述解码器，得到目标文本序列；

S205.利用所述目标文本序列与对应的流畅文本数据的词向量序列之间的损失函数对不流畅检测模型进行训练。

所述训练包括：利用所述目标文本序列与对应的流畅文本数据的词向量序列之间的损失函数对不流畅检测模型的参数进行更新；在训练结束后，得到不流畅检测模型的参数。

所述损失函数采用交叉熵作为衡量指标。

在本申请实施例中，为了增加不流畅检测模型的训练数据，可以通过反翻译模型得到增广数据。

所述反翻译模型的网络结构包括编码器和解码器。

参照图3，所述反翻译模型的训练包括：

S301.获取流畅的文本数据样本和与所述流畅的文本数据样本对应的带不流畅标注的文本数据；

S302.分别对所述流畅的文本数据样本和带不流畅标注的文本数据进行预处理及向量化处理，得到所述流畅的文本数据样本的词向量序列和所述带不流畅标注的文本数据的词向量序列；

S303.将所述流畅的文本数据样本的词向量序列输入编码器，得到所述流畅的文本数据样本的词编码向量；

S304.将所述流畅的文本数据样本的词编码向量及对应的带不流畅标注的文本数据输入解码器，得到不流畅的目标文本序列；

S305.利用所述不流畅的目标文本序列与对应的所述带不流畅标注的文本数据的词向量序列之间的损失函数对反翻译模型进行训练。

所述训练包括：利用所述不流畅的目标文本序列与对应的所述带不流畅标注的文本数据的词向量序列之间的损失函数对反翻译模型的参数进行更新；在训练结束后，得到反翻译模型的参数。

所述损失函数采用交叉熵作为衡量指标。

参照图4，通过反翻译模型增加不流畅检测模型的训练数据，包括：

S401.收集大量真实训练数据，所述真实训练数据包括带不流畅标注的文本数据及对应的流畅文本数据；

所述真实训练数据可以包括但不局限于会议语音数据、演讲语音数据和个人陈述语音数据；

S402.收集大量流畅的无标注文本数据，对所述无标注文本数据进行预处理及向量化处理，得到每句无标注文本数据的词向量序列；

S403.将每句无标注文本数据的词向量序列输入预先训练好的反翻译模型，输出不流畅的目标文本数据；

S404.对所述不流畅的目标文本数据进行筛选，得到增广训练数据；

S405.将所述真实训练数据和所述增广训练数据组合成训练数据，所述训练数据包括带不流畅标注的文本数据样本和对应的流畅文本数据。

在本申请实施例中，根据所述不流畅检测模型的输出结果，得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果，包括：

在本申请实施例中，所述流畅端语言模型的训练包括：

在本申请实施例中，所述不流畅检测模型的输出结果包括：所述源文本数据对应的流畅目标文本数据和相应的不流畅标注结果。

所述流畅的无标注本文数据可以包括但不局限于新闻数据集和对话数据集。

在本申请实施例中，对所述不流畅的目标文本数据进行筛选，得到增广训练数据，包括：

在本申请实施例中，所述不流畅端语言模型的训练包括：

图5为本发明实施例提供的一种检测语音翻译系统中不流畅现象的系统，如图所示，所述系统包括：

获取模块，用于获取待检测的源文本数据；

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见实施例一的相关描述，在此不再详细说明。

在本实施例中，通过大规模单语语料来训练得到高性能的翻译模型，降低或者避免了对双语语料的依赖。从而大大降低了构建高性能神经机器翻译模型的人力和物力成本，降低了神经机器翻译的应用门槛，为神经机器翻译的商业应用提供了方法支撑。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明各个实施例所述的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法或者实施例的某些部分所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种检测语音翻译系统中不流畅现象的方法，其特征在于，所述方法包括：

获取待检测的源文本数据；

对所述源文本数据进行预处理及向量化处理，得到每句源文本数据的词向量序列，其中，所述预处理包括：对所述源文本数据按字切分，提取所述源文本数据的二元语法及三元语法特征，根据所述源文本数据对应的语音信号提取韵律特征；

2.根据权利要求1所述的方法，其特征在于，所述不流畅检测模型的网络结构包括编码器和解码器；

所述不流畅检测模型的训练包括：

3.根据权利要求2所述的方法，其特征在于，所述获取带不流畅标注的文本数据样本和与所述文本数据样本对应的流畅文本数据，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述不流畅检测模型的输出结果，得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述流畅端语言模型的训练包括：

6.根据权利要求3所述的方法，其特征在于，所述反翻译模型的网络结构包括编码器和解码器，所述反翻译模型的训练包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述源文本数据进行预处理包括：

根据所述源文本数据对应的语音信号提取韵律特征。

8.根据权利要求1所述的方法，其特征在于，所述不流畅检测模型的输出结果包括：所述源文本数据对应的流畅目标文本数据和相应的不流畅标注结果。

9.根据权利要求3所述的方法，其特征在于，所述流畅的无标注本文数据包括：新闻数据集和/或对话数据集。

10.根据权利要求3所述的方法，其特征在于，对所述不流畅的目标文本数据进行筛选，得到增广训练数据，包括：

11.根据权利要求10所述的方法，其特征在于，所述不流畅端语言模型的训练包括：

以训练语料中的带不流畅标注的文本数据样本作为训练语料，利用

kenlm工具训练不流畅端语言模型。

12.根据权利要求2或6所述的方法，其特征在于，所述损失函数采用交叉熵作为衡量指标。

13.根据权利要求3所述的方法，其特征在于，所述真实训练数据包括：

会议语音数据、演讲语音数据和/或个人陈述语音数据；

14.一种检测语音翻译系统中不流畅现象的系统，其特征在于，所述系统包括：

获取模块，用于获取待检测的源文本数据；

词向量模块，用于对所述源文本数据进行预处理及向量化处理，得到每句源文本数据的词向量序列，其中，所述预处理包括：

对所述源文本数据按字切分，提取所述源文本数据的二元语法及三元语法特征，根据所述源文本数据对应的语音信号提取韵律特征；