CN115099244A

CN115099244A - 一种语音翻译的方法、训练语音翻译模型的方法及装置

Info

Publication number: CN115099244A
Application number: CN202210698493.5A
Authority: CN
Inventors: 蔡岩松; 杜新凯; 邓钊; 李亚楠; 牛国扬
Original assignee: Sunshine Insurance Group Co Ltd
Current assignee: Sunshine Insurance Group Co Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-23

Abstract

本申请提供一种语音翻译的方法、训练语音翻译模型的方法及装置，该方法包括，获取目标领域的待翻译语音；将待翻译语音输入预先训练好的语音翻译模型中，得到待翻译语音对应的目标语种的文本信息，其中，待翻译语音对应的初始语种和目标语种不同，语音翻译模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的，基础模型是通过基础语音样本对初始模型训练得到的。通过该方法可以达到使语音翻译的结果更加准确的效果。

Description

一种语音翻译的方法、训练语音翻译模型的方法及装置

技术领域

本申请涉及语音翻译的领域，具体而言，涉及一种语音翻译的方法、训练语音翻译模型的方法及装置。

背景技术

目前，随着人工智能技术的大力发展，语音识别技术和翻译技术已经广泛应用，在语音翻译中将语音转换成与该语音不同语言的文本，需要串联多个模型来实现语音的翻译。

上述串联多个模型实现语音翻译的过程中存在很大的误差，并且需要大量的数据进行串联模型的训练，导致翻译系统的性能急剧下降。

因此，如何使语音翻译的结果更加准确，是一个需要解决的技术问题。

发明内容

本申请实施例的目的在于提供一种语音翻译的方法和训练语音翻译模型的方法，通过本申请的实施例的技术方案可以达到使语音翻译的结果更加准确的效果。

第一方面，本申请实施例提供了一种语音翻译的方法，包括，获取目标领域的待翻译语音；将待翻译语音输入预先训练好的语音翻译模型中，得到待翻译语音对应的目标语种的文本信息，其中，待翻译语音对应的初始语种和目标语种不同，语音翻译模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的，基础模型是通过基础语音样本对初始模型训练得到的，混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本，基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。

在上述过程中，在目标领域利用目标领域的语音和通用领域的语音对基础模型的训练，使模型实现了跨语种翻译的同时，可以快速的迭代出目标领域的语音翻译模型，通过控制目标领域和通用领域的样本比例，使训练出的语音翻译模型在对待翻译语音进行翻译时，也可以达到使语音翻译的结果更加准确的效果。

一种实施例中，语音翻译模型包括音频转换模块、嵌入模块、编码器模块和解码器模块；

音频转换模块，用于将语音转换成频谱；

嵌入模块，用于将频谱嵌入矩阵，得到频谱矩阵或者将混合文本和基础文本嵌入矩阵，得到文本矩阵；

编码器模块，用于对频谱矩阵进行数据的处理，得到待翻译语音对应的第一特征向量；

解码器模块，用于对文本矩阵进行数据的处理，得到文本对应的第二特征向量，并将第一特征向量和第二特征向量进特征的交互，得到文本信息。

在上述过程中，通过语音翻译模型的各个模块对待翻译语音的处理，实现了目标领域中语音跨语种翻译的同时，使翻译的结果更加准确。

一种实施例中，编码器模块包括第一自注意力模块、空洞卷积模块和第一向量转换模块，解码器模块包括第二自注意力模块、多注意力模块和第二向量转换模块；

第一自注意力模块，用于对频谱矩阵进行全部特征的提取，得到全部频谱特征；

空洞卷积模块，用于对频谱矩阵进行预设部分的特征提取，得到部分频谱特征；

第一向量转换模块，用于将全部频谱特征和部分频谱特征转化成向量，得到第一特征向量；

第二自注意力模块用于对文本矩阵进行全部特征的提取，得到全部文本特征；

第二向量转换模块，用于将全部文本特征转化成向量，得到第二特征向量；

多注意力模块，用于将第一特征向量和第二特征向量进行特征的交互，得到文本信息。

在上述过程中，在基础的模型架构中加入了新的空洞卷积模块和向量转换模块，使模型在对数据处理时处理的速度更快，得到的处理结果更加准确。

第二方面，本申请实施例提供了一种训练语音翻译模型的方法，包括，利用基础语音样本对初始语音模型进行训练，得到基础模型；将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练，得到语音翻译模型，其中，混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本，基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。

在上述过程中，在目标领域利用目标领域的语音和通用领域的语音对基础模型的训练，使模型能够实现跨语种翻译的同时，可以快速的迭代出目标领域的语音翻译模型，通过控制目标领域和通用领域的样本比例，使训练出的语音翻译模型在对待翻译语音进行翻译时，也可以达到使语音翻译的结果更加准确的效果。

一种实施例中，在利用基础语音样本对初始语音模型进行训练，得到基础模型之前，还包括：

将基础语音样本以句子为单位切分成多条语音，得到基础语音样本。

在上述过程中，通过对语音的切分，可以得到多个单位更小的样本，再利用切分后的样本对模型进行训练，可以使模型训练的结果更加准确。

一种实施例中，在将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练，得到语音翻译模型之前，还包括：

将目标领域的语音和通用领域的语音对应的翻译文本分别进行分词，得到第一分词集合和第二分词集合；

计算第一分词在第二分词中的复杂度；

基于复杂度，确定目标领域的语音样本和通用领域的语音样本的预设比例。

在上述过程中，利用算法精确的计算出预设比例的目标领域的语音样本和通用领域的语音样本对基础模型进行训练，使模型在实现跨语种翻译的同时，使翻译的结果更加准确。

第三方面，本申请实施例提供了一种语音翻译的装置，包括：

获取模块，用于获取目标领域的待翻译语音；

翻译模块，用于将待翻译语音输入预先训练好的语音翻译模型中，得到待翻译语音对应的目标语种的文本信息，其中，待翻译语音对应的初始语种和目标语种不同，语音翻译模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的，基础模型是通过基础语音样本对初始模型训练得到的，混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本，基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。

可选的，语音翻译模型包括音频转换模块、嵌入模块、编码器模块和解码器模块；

音频转换模块，用于将语音转换成频谱；

可选的，编码器模块包括第一自注意力模块、空洞卷积模块和第一向量转换模块，解码器模块包括第二自注意力模块、多注意力模块和第二向量转换模块；

第四方面，本申请实施例提供了一种训练语音翻译模型的装置，包括：

第一训练模块，用于利用基础语音样本对初始语音模型进行训练，得到基础模型；

第二训练模块，用于将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练，得到语音翻译模型，其中，混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本，基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。

可选的，所述装置还包括：

切分模块，用于所述第一训练模块在利用基础语音样本对初始语音模型进行训练，得到基础模型之前，将基础语音样本以句子为单位切分成多条语音，得到基础语音样本。

可选的，所述装置还包括：

计算模块，用于所述第二训练模块在将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练，得到语音翻译模型之前，将目标领域的语音和通用领域的语音对应的翻译文本分别进行分词，得到第一分词集合和第二分词集合；

计算第一分词在第二分词中的复杂度；

第五方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面或第二方面提供的所述方法中的步骤。

第六方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面或第二方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种语音翻译的方法的流程图；

图2为本申请实施例提供的一种语音翻译模型的结构示意图；

图3为本申请实施例提供的一种训练语音翻译模型的方法的流程图；

图4为本申请实施例提供的一种训练语音翻译模型的方法的示意框图；

图5为本申请实施例提供的一种语音翻译的装置的示意框图；

图6为本申请实施例提供的一种训练语音翻译模型的装置的示意框图；

图7为本申请实施例提供的一种语音翻译的装置的结构示意框图；

图8为本申请实施例提供的一种训练语音翻译模型的装置的结构示意框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(InverseDocument。

空洞卷积：扩大感受野，让原本3x3的卷积核，在相同参数量和计算量下拥有5x5(dilated rate＝2)或者更大的感受野，从而无需下采样。

孪生神经网络(Siamese neural network)：又名双生神经网络，是基于两个人工神经网络建立的耦合构架[1-2]。孪生神经网络以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度。

编码器(encoder)：将信号(如比特流)或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。编码器把角位移或直线位移转换成电信号，前者称为码盘，后者称为码尺。按照读出方式编码器可以分为接触式和非接触式两种；按照工作原理编码器可分为增量式和绝对式两类。

解码器(decoder)：一种将信息从编码的形式恢复到其原来形式的器件，能将数字视音频数据流解码还原成模拟视音频信号的硬件/软件设备。

本申请应用于语音翻译的场景，具体场景为在特定的领域将一条语音跨语种翻译成文本，例如，英文语音翻译成汉语文字。

但是目前在语音翻译中将语音转换成与该语音不同语言的文本时，需要串联多个模型来实现语音的翻译。上述串联多个模型实现语音翻译的过程中存在很大的误差，并且需要大量的数据进行串联模型的训练，导致翻译系统的性能急剧下降。

为此本申请通过获取目标领域的待翻译语音；将待翻译语音输入预先训练好的语音翻译模型中，得到待翻译语音对应的目标语种的文本信息，其中，待翻译语音对应的初始语种和目标语种不同，语音翻译模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的，基础模型是通过基础语音样本对初始模型训练得到的，混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本，基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。通过该方法可以达到使语音翻译的结果更加准确的效果。

本申请实施例中，执行主体可以为语音翻译系统中的语音翻译设备，实际应用中，语音翻译设备可以为终端设备和服务器等电子设备，在此不做限制。

下面结合图1对本申请实施例的语音翻译的方法进行详细描述。

请参看图1，图1为本申请实施例提供的一种语音翻译的方法的流程图，如图1所示的语音翻译的方法包括：

步骤110：获取目标领域的待翻译语音。

其中，待翻译语音与模型训练时语音样本的语种相同，目标领域可以为金融保险、医疗、法律和餐饮等领域，针对不同的领域对应着不同的语音翻译模型，通过语音翻译模型可以实现特定领域的语音跨语种的翻译。

步骤120：将待翻译语音输入预先训练好的语音翻译模型中，得到待翻译语音对应的目标语种的文本信息。

其中，待翻译语音对应的初始语种和目标语种不同，语音翻译模型可以通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的，基础模型可以通过基础语音样本对初始模型训练得到的，混合语音样本可以包括初始语种的混合语音和混合语音对应的目标语种的混合文本，基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。将待翻译语音翻译成目标语种的文本信息，例如，将英语语音翻译成汉语文字和将日语语音翻译成英语单词等。通用领域的语音可以是包括目标领域和一些词频多得一些字词组成的语音，词频多的一些字词例如，“的”、“和”、“好的”和“可以”等。目标领域的语音可以是目标领域的一些字词组成的语音，例如，医疗领域中出现的一些字词可以是“肿瘤”、“心脏病”、“化疗”和“癌症”等。初始语种和目标语种可以根据需求自行设置的任意语种。

在对模型进行训练时，使用的神经网络架构也需要进行不同的调整，本申请所使用的模型中包括如下图2中所示的各个模块。

请参看图2，图2为本申请提供的一种语音翻译模型的结构示意图，如图2所示的结构如下：

音频转换模块，用于将语音转换成频谱；

其中，语音翻译模型的神经网络架构总体可以采用端到端的encoder-decoder“编码器-解码器”架构，基础架构借鉴transformer(一种语音翻译模型)，此外本申请也可以采用其它语音翻译模型中用到的神经网络架构，本申请不限于此。音频音频转换模块可以将语音转换成频谱，例如mel普，才可以嵌入矩阵进行编码器的编码，此处本申请实施例采用4层的编码器模块和解码器模块中的步骤，实际应用时，本申请可以根据模型需求设置，本申请不限于此。

其中，编码器模块，Encoder部分的结构可以由空洞卷积模块和自注意力模块中的attention孪生结构组成，本申请通过更少层数编码和解码步骤，例如4层的编码模块对数据进行处理的效果相比传统翻译模型(transformer)的更多层数，例如，6层的编码模块对数据进行处理的效果更好一些，并且可以节省更多的时间。第一自主力模块(muti-head-self-attention(1))可以对矩阵中全部的特征进行提取，矩阵中所有的数据可以都进行交互对矩阵中全部的特征进行提取。新增的空洞卷积模块(空洞卷积)可以对矩阵中部分的数据进行交互并提取特征，例如，矩阵边和角中的数据。第一向量转换模块还包括add&norm和dense组成的全连接层，用于将从矩阵中提取的特征转化成向量。第二自主力模块(muti-head-self-attention(2))可以对矩阵中全部的特征进行提取。第二向量转换模块由dense&softmax(全连接层)组成，用于将从矩阵中提取的特征转化成向量，其中还包括3*3卷积，用于加速对数据进行处理。多注意力模块(muti-head-attention)用于对第一向量转换模块和第二向量转换模块转换的向量进行特征的交互，得到文本信息，也就是说通过多注意力模块之后可以将待翻译语音翻译成目标语种的文本信息。此外，本申请新增的卷积层几乎不占用数据处理的空间和时间，但是可以大大提升数据处理的速度。在模型中用到的激活函数由relu(线性函数)换为gelu(高误差函数)可以大大减少数据处理出现的错误。

本申请实施例中，执行主体可以为训练语音翻译模型系统中的训练语音翻译模型设备，实际应用中，训练语音翻译模型设备可以为终端设备和服务器等电子设备，在此不做限制。

下面结合图3对本申请实施例的训练语音翻译模型的方法进行详细描述。

请参看图3，图3为本申请实施例提供的一种训练语音翻译模型的方法的流程图，如图3所示的训练语音翻译模型的方法包括：

步骤310：利用基础语音样本对初始语音模型进行训练，得到基础模型。

步骤320：将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练，得到语音翻译模型。

其中，混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本，基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。

具体的训练语音翻译模型的方法可参看图4中的方法步骤。

请参看图4，图4为本申请实施例提供的一种训练语音翻译模型的方法的示意框图，如图4所示的训练语音翻译模型的方法包括：

步骤410：获取基础语音样本。

具体的，可以将基础音频数据以及其最终翻译文本按照翻译文本的自然句(末尾遇到句号、问号、感叹号等表示句子结束的符号)切分，每一条语音以及一个句子为一个基础语音样本。数据准备可以为120-400小时数据(忽略成本情况越多越好)。

步骤420：训练基础模型。

具体的，利用基础语音样本对初始语音模型进行训练，得到基础模型。

步骤440：获取混合语音样本。

具体的，按照步骤410获取目标领域内语音样本，时间可以为10小时或者根据需求选取，本申请不限于此，并将目标领域内的语音样本和通用领域内的语音样本按照预设比例进行混合得到所述混合语音样本，具体的按照预设比例进行混合得到所述混合语音样本可参照下文对应实施例具体得知，此处不再过多赘述。

步骤440：训练语音翻译模型。

具体的，将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练，得到语音翻译模型。

计算第一分词在第二分词中的复杂度；

具体的可通过如下确定目标领域的语音样本和通用领域的语音样本的预设比例进行详细说明。

1.收集大量各个领域内语音样本(不低于1000万字的语音)。

2.进行分词，将目标领域的语音和通用领域的语音对应的翻译文本分别进行分词，得到第一分词集合和第二分词集合。其中分词方法可利用维护自定义词库后的jieba分词进行分词。

3.TF-IDF(检索工具)来排序top100词，从各个领域内抽取出现和领域相关的词频较多的前100个词，得到目标领域的语音的第一分词集合和通用领域的语音的第二分词集合。

4.复杂度的计算可通过如下公式获得：

其中，N_命中为目标领域的第一分词集合中的词在通用领域的第二分词中的词的命中数量。

5.预设比例，即目标领域的复杂度：1。

例如，如金融保险为1.82，按照该领域复杂度：1配比，如金融保险领域的语音样本和通用领域的语音样本的配比方式为1.82:1。

此外，通过本申请的方法获取其他领域的语音数据的复杂度可通过计算，可得如下表1。

表1

领域	通用	金融保险	医疗	法律	餐饮
						复杂度	1	1.82	1.98	2.26	1.21

前文通过图1-图4描述了语音翻译的方法和训练语音翻译模型的方法，下面结合图5-图8描述语音翻译的装置和训练语音翻译模型的装置。

请参照图5，为本申请实施例中提供的一种语音翻译的装置500的示意框图，该装置500可以是电子设备上的模块、程序段或代码。该装置500与上述图1方法实施例对应，能够执行图1方法实施例涉及的各个步骤，该装置500具体的功能可以参见下文中的描述，为避免重复，此处适当省略详细描述。

可选的，所述装置500包括：

获取模块510，用于获取目标领域的待翻译语音；

翻译模块520，用于将待翻译语音输入预先训练好的语音翻译模型中，得到待翻译语音对应的目标语种的文本信息，其中，待翻译语音对应的初始语种和目标语种不同，语音翻译模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的，基础模型是通过基础语音样本对初始模型训练得到的，混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本，基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。

音频转换模块，用于将语音转换成频谱；

请参照图6，为本申请实施例中提供的一种训练语音翻译模型的装置600的示意框图，该装置600可以是电子设备上的模块、程序段或代码。该装置600与上述图3方法实施例对应，能够执行图3方法实施例涉及的各个步骤，该装置600具体的功能可以参见下文中的描述，为避免重复，此处适当省略详细描述。

可选的，所述装置600包括：

第一训练模块610，用于利用基础语音样本对初始语音模型进行训练，得到基础模型；

第二训练模块620，用于将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练，得到语音翻译模型，其中，混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本，基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。

可选的，所述装置还包括：

计算第一分词在第二分词中的复杂度；

请参照图7为本申请实施例中提供的一种语音翻译的装置700的结构示意框图，该装置可以包括存储器710和处理器720。可选的，该装置还可以包括：通信接口730和通信总线740。该装置与上述图1方法实施例对应，能够执行图1方法实施例涉及的各个步骤，该装置具体的功能可以参见下文中的描述。

具体的，存储器710，用于存储计算机可读指令。

处理器720，用于处理存储器存储的可读指令，能够执行图1方法中的各个步骤。

通信接口730，用于与其他节点设备进行信令或数据的通信。例如：用于与服务器或者终端的通信，或者与其它设备节点进行通信，本申请实施例并不限于此。

通信总线740，用于实现上述组件直接的连接通信。

其中，本申请实施例中设备的通信接口730用于与其他节点设备进行信令或数据的通信。存储器710可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器710可选的还可以是至少一个位于远离前述处理器的存储装置。存储器710中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器720执行时，电子设备执行上述图1所示方法过程。处理器720可以用于装置500上，并且用于执行本申请中的功能。示例性地，上述的处理器720可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，本申请实施例并不局限于此。

请参照图8为本申请实施例中提供的一种训练语音翻译模型的装置800的结构示意框图，该装置可以包括存储器810和处理器820。可选的，该装置还可以包括：通信接口830和通信总线840。该装置与上述图3方法实施例对应，能够执行图3方法实施例涉及的各个步骤，该装置具体的功能可以参见下文中的描述。

具体的，存储器810，用于存储计算机可读指令。

处理器820，用于处理存储器存储的可读指令，能够执行图3方法中的各个步骤。

通信接口830，用于与其他节点设备进行信令或数据的通信。例如：用于与服务器或者终端的通信，或者与其它设备节点进行通信，本申请实施例并不限于此。

通信总线840，用于实现上述组件直接的连接通信。

其中，本申请实施例中设备的通信接口830用于与其他节点设备进行信令或数据的通信。存储器810可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器810可选的还可以是至少一个位于远离前述处理器的存储装置。存储器810中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器820执行时，电子设备执行上述图3所示方法过程。处理器820可以用于装置600上，并且用于执行本申请中的功能。示例性地，上述的处理器820可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，本申请实施例并不局限于此。

本申请实施例还提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图1或图3所示方法实施例中电子设备所执行的方法过程。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

综上，本申请实施例提供一种语音翻译的方法、训练语音翻译模型的方法及装置，该方法包括，获取目标领域的待翻译语音；将待翻译语音输入预先训练好的语音翻译模型中，得到待翻译语音对应的目标语种的文本信息，其中，待翻译语音对应的初始语种和目标语种不同，语音翻译模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的，基础模型是通过基础语音样本对初始模型训练得到的，混合语音样本包括初始语种的混合语音和混合语音对应的目标语种的混合文本，基础语音样本包括初始语种对应的基础语音和基础语音对应的目标语种的基础文本。通过该方法可以达到使语音翻译的结果更加准确的效果。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种语音翻译的方法，其特征在于，包括：

获取目标领域的待翻译语音；

将所述待翻译语音输入预先训练好的语音翻译模型中，得到所述待翻译语音对应的目标语种的文本信息，其中，所述待翻译语音对应的初始语种和所述目标语种不同，所述语音翻译模型是通过所述目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的，所述基础模型是通过基础语音样本对初始模型训练得到的，所述混合语音样本包括所述初始语种的混合语音和所述混合语音对应的所述目标语种的混合文本，所述基础语音样本包括所述初始语种对应的基础语音和所述基础语音对应的所述目标语种的基础文本。

2.根据权利要求1所述的方法，其特征在于，所述语音翻译模型包括音频转换模块、嵌入模块、编码器模块和解码器模块；

所述音频转换模块，用于将所述语音转换成频谱；

所述嵌入模块，用于将所述频谱嵌入矩阵，得到频谱矩阵或者将所述混合文本和所述基础文本嵌入矩阵，得到文本矩阵；

所述编码器模块，用于对所述频谱矩阵进行数据的处理，得到所述待翻译语音对应的第一特征向量；

所述解码器模块，用于对所述文本矩阵进行数据的处理，得到所述文本对应的第二特征向量，并将所述第一特征向量和所述第二特征向量进特征的交互，得到所述文本信息。

3.根据权利要求2所述的方法，其特征在于，所述编码器模块包括第一自注意力模块、空洞卷积模块和第一向量转换模块，所述解码器模块包括第二自注意力模块、多注意力模块和第二向量转换模块；

所述第一自注意力模块，用于对所述频谱矩阵进行全部特征的提取，得到全部频谱特征；

所述空洞卷积模块，用于对所述频谱矩阵进行预设部分的特征提取，得到部分频谱特征；

所述第一向量转换模块，用于将所述全部频谱特征和所述部分频谱特征转化成向量，得到所述第一特征向量；

所述第二自注意力模块用于对所述文本矩阵进行全部特征的提取，得到全部文本特征；

第二向量转换模块，用于将所述全部文本特征转化成向量，得到所述第二特征向量；

所述多注意力模块，用于将所述第一特征向量和所述第二特征向量进行特征的交互，得到所述文本信息。

4.一种训练语音翻译模型的方法，其特征在于，包括：

利用基础语音样本对初始语音模型进行训练，得到基础模型；

将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练，得到语音翻译模型，其中，所述混合语音样本包括初始语种的混合语音和所述混合语音对应的目标语种的混合文本，所述基础语音样本包括所述初始语种对应的基础语音和所述基础语音对应的所述目标语种的基础文本。

5.根据权利要求4所述的方法，其特征在于，在所述利用基础语音样本对初始语音模型进行训练，得到所述基础模型之前，所述方法还包括：

将基础语音样本以句子为单位切分成多条语音，得到所述基础语音样本。

6.根据权利要求4或5所述的方法，其特征在于，在所述将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练，得到所述语音翻译模型之前，所述方法还包括：

计算所述第一分词在所述第二分词中的复杂度；

基于所述复杂度，确定所述目标领域的语音样本和通用领域的语音样本的预设比例。

7.一种语音翻译的装置，其特征在于，包括：

获取模块，用于获取目标领域的待翻译语音；

翻译模块，用于将所述待翻译语音输入预先训练好的语音翻译模型中，得到所述待翻译语音对应的目标语种的文本信息，其中，所述待翻译语音对应的初始语种和所述目标语种不同，所述语音翻译模型是通过所述目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对基础模型进行训练得到的，所述基础模型是通过基础语音样本对初始模型训练得到的，所述混合语音样本包括所述初始语种的混合语音和所述混合语音对应的所述目标语种的混合文本，所述基础语音样本包括所述初始语种对应的基础语音和所述基础语音对应的所述目标语种的基础文本。

8.一种训练语音模型的装置，其特征在于，包括：

第二训练模块，用于将目标领域的语音样本和通用领域的语音样本按照预设比例混合得到的混合语音样本对基础模型进行训练，得到语音翻译模型，其中，所述混合语音样本包括初始语种的混合语音和所述混合语音对应的所述目标语种的混合文本，所述基础语音样本包括所述初始语种对应的基础语音和所述基础语音对应的所述目标语种的基础文本。

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-3或4-6中任一项所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，包括：

计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-3或4-6中任一项所述的方法。