CN114550693A

CN114550693A - 一种多语种语音翻译方法及系统

Info

Publication number: CN114550693A
Application number: CN202210204940.7A
Authority: CN
Inventors: 陈倩
Original assignee: Zhengzhou University of Science and Technology
Current assignee: Zhengzhou University of Science and Technology
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-05-27

Abstract

本发明公开了一种多语种语音翻译方法及系统，涉及语音翻译技术领域，首先获取源语音音频和目标语种类别；对源语音音频进行音频预处理，得到预处理后的源语音音频；对于预处理后的源语音音频，进行语种识别，得到待翻译的源语种类别；依据源语种类别，采用对应的语音识别模型，将预处理后的源语音音频转换成源语音文本；将源语音文本输入文本翻译模型中，得到目标语种文本。本发明能够克服源语音的噪声影响，提高模型识别的准确率，并且能够对多种不同的语言类型进行准确的识别和翻译，提高用户的使用体验感。

Description

一种多语种语音翻译方法及系统

技术领域

本发明涉及语音翻译技术领域，更具体的说是涉及一种多语种语音翻译方法及系统。

背景技术

随着人工智能、自然语言处理等技术的发展，语音翻译技术在同传、外语教学等场景中得到了广泛的应用。语音翻译的目的是将一种语言的语音转化为另一种语言的文本。

语音翻译过程通常包括两个步骤，即，由语音翻译模型实现语音识别和文本翻译。具体地，首先，将一段语音经过语音识别技术，识别成与之同一语种的文本，然后，利用文本翻译技术将该识别文本翻译成另一语种的文本，从而实现语音翻译过程。

但是，联合语音识别技术和文本翻译技术进行语音翻译，存在错误累积的缺点，尤其对于初始的语音识别这一环节，容易受到源语音的噪声影响，导致识别结果准确率较低，并且由于大多的语音翻译仅支持单一的语种翻译，对于不同语种的音频进行翻译时，由于模型的单一性限制，导致语音识别不准确，因此，如何提高语音翻译过程，尤其是语音识别环节的准确性，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种多语种语音翻译方法及系统。

为了实现上述目的，本发明提供如下技术方案：

一种多语种语音翻译方法，包括以下步骤：

步骤1、获取源语音音频和目标语种类别；

步骤2、对源语音音频进行音频预处理，得到预处理后的源语音音频；

步骤3、对于预处理后的源语音音频，进行语种识别，得到待翻译的源语种类别；

步骤4、依据源语种类别，采用对应的语音识别模型，将预处理后的源语音音频转换成源语音文本；

步骤5、将源语音文本输入文本翻译模型中，得到目标语种文本。

可选的，所述步骤2中，所述预处理包括语音增强和噪声过滤。通过语音预处理，消除源语音音频中的噪声信息，提高后续进行特征提取和语音识别的准确率。

可选的，所述步骤3中，进行语种识别的具体过程为：

步骤3.1、对于待识别的语音音频，进行特征提取，得到多个音频特征；

步骤3.2、基于神经网络的注意力机制，选出主要音频特征；

步骤3.3、基于所述主要音频特征，确定语种识别结果。

基于音频中的主要音频特征来确定该音频的语种类别，克服了部分音频中掺杂其他语言而无法准确确定待翻译音频语种的问题。

可选的，所述步骤3.1中，进行特征提取的具体过程为：

对待识别的语音音频进行分段，对于每段语音音频，提取其ZCPA特征作为音频特征。选用ZCPA特征作为音频特征，能够更好地反映音频的特点，克服音频中的噪声影响，提高系统鲁棒性。

可选的，所述步骤3.3中，需调用预设的语种特征库，根据音频特征，确定语种识别结果。

可选的，所述步骤4中，预设有多个语音识别模型，用于对不同语种的语音音频进行语音识别。

可选的，所述步骤4中，对语音识别模型进行训练的方法为：

使用网络爬虫获取不同语种的训练数据，所述训练数据中至少包括语音音频和对应的语音文本；

使用对应语种的训练数据，训练对应的神经网络模型，得到多个语音识别模型。

可选的，所述步骤5中，进行文本翻译的过程为：

调取目标语种类别的词向量库和语法规则库；

将源语音文本输入文本翻译模型中，依据对应的词向量库和语法规则库，进行词向量整合，得到目标语种文本。

一种多语种语音翻译系统，包括语音采集装置、交互装置、存储器和处理器、文本显示装置；所述处理器分别与语音采集装置、交互装置、存储器、文本显示装置连接；

所述语音采集装置用于采集源语音音频；

所述交互装置用于获取目标语种类别；

所述处理器内存储有计算机程序，用于对源语音音频进行处理，得到目标语种文本；所述处理器执行所述计算机程序时实现如上任一所述的一种多语种语音翻译方法；

所述存储器，包含有多个数据库；

所述文本显示装置用于显示目标语种文本。

可选的，所述交互装置和文本显示装置集成于一体，通过显示屏的方式进行交互和文本显示。

经由上述的技术方案可知，本发明公开提供了一种多语种语音翻译方法及系统，与现有技术相比，具有以下有益效果：

本发明对源语音音频进行预处理操作，进行增强和噪声过滤，提高后续进行特征提取和语音识别的准确率。基于ZCPA特征进行语种识别，准确识别出待翻译音频语种类别，进而选取对应的语音识别模型进行语音识别，将源语音音频转换成源语音文本，并对该文本进行翻译，得到最终的目标语种文本。本发明能够克服源语音的噪声影响，提高模型识别的准确率，并且能够对多种不同的语言类型进行准确的识别和翻译，提高用户的使用体验感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法步骤示意图；

图2为本发明的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种多语种语音翻译方法，参见图1，包括以下步骤：

步骤1、获取源语音音频和目标语种类别；

其中，预处理包括语音增强和噪声过滤。在具体实施例中，音频的预处理包括自适应滤波器法、谱减法、维纳滤波法等。

步骤3、对于预处理后的源语音音频，进行语种识别，得到待翻译的源语种类别。

在具体实施例中，进行语种识别的具体过程为：

步骤3.1、对待识别的语音音频进行分段，对于每段语音音频，提取其ZCPA特征作为音频特征，进而得到多个音频特征；

步骤3.2、基于神经网络的注意力机制，选出多个音频特征中的主要音频特征；

步骤3.3、基于所述主要音频特征，调用预设的语种特征库，确定最终的语种识别结果。所述语种特征库中存储有多个语种类别标签及其对应的音频特征。

值得注意的是，对于待识别的源语音音频，识别其音频语种类别尤为重要。例如，对于一段音频中，英文中包含了少部分的中文，该音频主要内容是英文，目的是将英文音频转化为中文文本，如果使用普通的特征识别，容易将中文部分的特征识别为音频的语种，进而将待翻译音频作为中文文本，后续调用语音识别模型时调取错误，影响音频的识别，因此识别一段音频的主要特征尤为重要。

步骤4、依据源语种类别，采用对应的语音识别模型，将预处理后的源语音音频转换成源语音文本。所述语音识别模型设置有多个，用于对不同语种的音频进行语音识别，转换成文本。

所述语音识别模型的训练过程为：

具体的，进行文本翻译的过程为：

调取目标语种类别的词向量库和语法规则库；

在具体实施例中，所述文本翻译模型的训练过程还可以使用其他现有方法，本发明对此不做限制。

本发明实施例还公开一种多语种语音翻译系统，参加图2，包括语音采集装置、交互装置、存储器和处理器、文本显示装置；所述处理器分别与语音采集装置、交互装置、存储器、文本显示装置连接；

所述语音采集装置用于采集源语音音频；具体实施情形中，语音采集装置可以是麦克风等，也可以通过无线数据传输的方式将待处理音频进行传输。

所述交互装置用于获取目标语种类别；

所述存储器，包含有多个数据库；

所述文本显示装置用于显示目标语种文本。

可选的，所述交互装置和文本显示装置集成于一体，通过显示屏(或触摸屏，或网页)的方式进行交互和文本显示。

用户首先通过交互装置进行操作，设置目标语种类别，并输入待翻译的源语音音频，所述处理器处理用户输入的源语音音频，将其转化为目标语种文本，并将目标语种文本显示在显示屏上。用户可以通过无线数据传输的方式下载目标语种文本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多语种语音翻译方法，其特征在于，包括以下步骤：

步骤1、获取源语音音频和目标语种类别；

2.根据权利要求1所述的一种多语种语音翻译方法，其特征在于，所述步骤2中，所述预处理包括语音增强和噪声过滤。

3.根据权利要求1所述的一种多语种语音翻译方法，其特征在于，所述步骤3中，进行语种识别的具体过程为：

步骤3.2、基于神经网络的注意力机制，选出主要音频特征；

步骤3.3、基于所述主要音频特征，确定语种识别结果。

4.根据权利要求3所述的一种多语种语音翻译方法，其特征在于，所述步骤3.1中，进行特征提取的具体过程为：

对待识别的语音音频进行分段，对于每段语音音频，提取其ZCPA特征作为音频特征。

5.根据权利要求3所述的一种多语种语音翻译方法，其特征在于，所述步骤3.3中，需调用预设的语种特征库，根据音频特征，确定语种识别结果。

6.根据权利要求1所述的一种多语种语音翻译方法，其特征在于，所述步骤4中，预设有多个语音识别模型，用于对不同语种的语音音频进行语音识别。

7.根据权利要求6所述的一种多语种语音翻译方法，其特征在于，所述步骤4中，对语音识别模型进行训练的方法为：

8.根据权利要求1所述的一种多语种语音翻译方法，其特征在于，所述步骤5中，进行文本翻译的过程为：

调取目标语种类别的词向量库和语法规则库；

9.一种多语种语音翻译系统，其特征在于，包括语音采集装置、交互装置、存储器和处理器、文本显示装置；所述处理器分别与语音采集装置、交互装置、存储器、文本显示装置连接；

所述语音采集装置用于采集源语音音频；

所述交互装置用于获取目标语种类别；

所述处理器内存储有计算机程序，用于对源语音音频进行处理，得到目标语种文本；所述处理器执行所述计算机程序时实现如权利要求1-8任一所述的一种多语种语音翻译方法；

所述存储器，包含有多个数据库；

所述文本显示装置用于显示目标语种文本。

10.根据权利要求9所述的一种多语种语音翻译系统，其特征在于，所述交互装置和文本显示装置集成于一体，通过显示屏的方式进行交互和文本显示。