CN109979432A

CN109979432A - 一种方言翻译方法及装置

Info

Publication number: CN109979432A
Application number: CN201910262128.8A
Authority: CN
Inventors: 许丽; 潘嘉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-07-05
Anticipated expiration: 2039-04-02
Also published as: CN109979432B

Abstract

本申请公开了一种方言翻译方法及装置，该方法包括：在获取到待翻译的目标语音后，可以先生成目标语音的语音特征，然后，利用该语音特征、以及预置的各种方言的方言表征向量，对目标语音进行翻译。可见，本申请采用的翻译依据是目标语音的语音特征和各种方言的方言表征向量，由于该语音特征包含了目标语音所属方言的特点信息，而各种方言的方言表征向量又表征了各种方言的特点信息，由此，本申请将目标语音的语音特征和各种方言的方言表征向量相结合作为翻译依据时，可以更方便、准确地对不同方言类型的目标语音进行翻译，而无需人工频繁手动切换不同的方言翻译模式进行翻译，从而提升了用户翻译体验。

Description

一种方言翻译方法及装置

技术领域

本申请涉及翻译技术领域，尤其涉及一种方言翻译方法及装置。

背景技术

随着人工智能技术的快速发展，使得其在人们的生活和工作中扮演着越来越重要的角色。通常情况下，在一些国内外旅行、对外贸易、国际文化交流等场景中，不同国家的人们语言不通，这将会造成人们交流的障碍，即使在一些国际会议等多语言交流的场景可以通过同声传译或者借助翻译产品等方法解决语言不通问题，但是人工同声传译往往会受限于记忆、听说速度等因素且费用不菲。另外，若用户或演讲者使用方言说话或演讲，则使用上述两种方法解决语言障碍的代价相当之大，因此，如何解决不同方言的翻译问题是亟需解决的问题。

现有的翻译方法，通常只支持一种方言的翻译，而当用户需要翻译另一种方言时，则需要手动切换到相应方言翻译模式，如果涉及多人多方言场景，则需要频繁切换，导致用户体验很差。

发明内容

本申请实施例的主要目的在于提供一种方言翻译方法及装置，能够提升用户的翻译体验。

本申请实施例提供了一种文本标点确定方法，包括：

获取待翻译的目标语音；

生成所述目标语音的语音特征，所述语音特征中包含了所述目标语音的方言特征；

根据所述目标语音的语音特征、以及预置的各种方言的方言表征向量，对所述目标语音进行翻译。

可选的，所述方言特征包括以下一项或多项：

所述目标语音的方言表征向量；

所述目标语音的方言表征向量与所述各个方言的方言表征向量之间的相似度；

所述目标语音经各个不同方言语音识别模型进行识别得到的识别结果的置信度；

所述目标语音所属用户的用户位置信息；

所述目标语音的语音基频特征。

可选的，所述对所述目标语音进行翻译，包括：

利用预先构建的方言语音翻译模型，对所述目标语音进行翻译。

可选的，所述生成所述目标语音的语音特征之前，还包括：

判断所述方言语音翻译模型是否支持对所述目标语音的翻译；

若所述方言语音翻译模型支持对所述目标语音的翻译，则执行所述生成所述目标语音的语音特征的步骤。

可选的，所述判断所述方言语音翻译模型是否支持对所述目标语音的翻译，包括：

根据所述目标语音的方言表征向量、以及所述各种方言的方言表征向量，判断所述方言语音翻译模型是否支持对所述目标语音的翻译。

可选的，所述根据所述目标语音的方言表征向量、以及所述各种方言的方言表征向量，判断所述方言语音翻译模型是否支持对所述目标语音的翻译，包括：

判断所述目标语音的方言表征向量是否满足第一条件和/或第二条件；

若是，则判定所述方言语音翻译模型支持对所述目标语音的翻译；

若否，则判定所述方言语音翻译模型不支持对所述目标语音的翻译。

其中，所述第一条件为最大相似度大于第一阈值，所述最大相似度为所述目标语音的方言表征向量与所述各种方言的方言表征向量之间的各个相似度中的最大值；所述第二条件为所述各个相似度的均值不小于第二阈值以及所述各个相似度的方差不小于第三阈值。

可选的，所述方言语音翻译模型包括编码层、注意力层和解码层；

则，所述利用预先构建的方言语音翻译模型，对所述目标语音进行翻译，包括：

利用所述编码层对所述目标语音的语音特征进行编码，得到语音编码结果；

利用所述注意力层对所述语音编码结果和所述各种方言的方言表征向量进行关注，得到中间处理结果；

利用所述解码层对所述中间处理结果进行解码，得到所述目标语音的翻译结果。

本申请实施例还提供了一种方言翻译装置，包括：

目标语音获取单元，用于获取待翻译的目标语音；

语音特征生成单元，用于生成所述目标语音的语音特征，所述语音特征中包含了所述目标语音的方言特征；

目标语音翻译单元，用于根据所述目标语音的语音特征、以及预置的各种方言的方言表征向量，对所述目标语音进行翻译。

可选的，所述方言特征包括以下一项或多项：

所述目标语音的方言表征向量；

所述目标语音所属用户的用户位置信息；

所述目标语音的语音基频特征。

可选的，所述目标语音翻译单元具体用于：

可选的，所述装置还包括：

支持结果判断单元，用于在生成所述目标语音的语音特征之前，判断所述方言语音翻译模型是否支持对所述目标语音的翻译；若所述方言语音翻译模型支持对所述目标语音的翻译，则调用所述语音特征生成单元生成所述目标语音的语音特征。

可选的，所述支持结果判断单元具体用于：

可选的，所述支持结果判断单元包括：

表征向量判断子单元，用于判断所述目标语音的方言表征向量是否满足第一条件和/或第二条件；

第一结果判定子单元，用于若判断出所述目标语音的方言表征向量满足第一条件和/或第二条件，则判定所述方言语音翻译模型支持对所述目标语音的翻译；

第二结果判定子单元，用于若判断出所述目标语音的方言表征向量不满足第一条件和/或第二条件，则判定所述方言语音翻译模型不支持对所述目标语音的翻译。

则，所述目标语音翻译单元包括：

编码结果获得子单元，用于利用所述编码层对所述目标语音的语音特征进行编码，得到语音编码结果；

中间结果获得子单元，用于利用所述注意力层对所述语音编码结果和所述各种方言的方言表征向量进行关注，得到中间处理结果；

翻译结果获得子单元，用于利用所述解码层对所述中间处理结果进行解码，得到所述目标语音的翻译结果。

本申请实施例还提供了一种方言翻译设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述方言翻译方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述方言翻译方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述方言翻译方法中的任意一种实现方式。

本申请实施例提供的一种方言翻译方法及装置，在获取到待翻译的目标语音后，可以先生成目标语音的语音特征，然后，利用该语音特征、以及预置的各种方言的方言表征向量，对目标语音进行翻译，得到翻译结果。可见，本申请实施例采用的翻译依据是目标语音的语音特征和各种方言的方言表征向量，由于该语音特征包含了目标语音所属方言的特点信息，而各种方言的方言表征向量又表征了各种方言的特点信息，由此，本申请实施例将目标语音的语音特征和各种方言的方言表征向量相结合作为翻译依据，可以更方便、准确地对不同方言类型的目标语音进行翻译，而无需人工频繁手动切换不同的方言翻译模式进行翻译，从而提升了用户翻译体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种方言翻译方法的流程示意图；

图2为本申请实施例提供的利用预先构建的方言语音翻译模型对目标语音进行翻译的流程示意图；

图3为本申请实施例提供的方言语音翻译模型的结构示意图；

图4为本申请实施例提供的构建方言语音翻译模型的流程示意图；

图5为本申请实施例提供的一种方言翻译装置的组成示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种方言翻译方法的流程示意图，该方法包括以下步骤：

S101：获取待翻译的目标语音。

在本实施例中，将采用本实施例进行语音翻译的任一语音定义为目标语音。并且，本实施例不限制目标语音的语种类型，比如，目标语音可以是中文语音、或英文语音等，进一步地，该目标语音具体可以是某语种类型下的一种方言或多种方言混合的语音，比如，目标语音是中文普通话、或四川话、或者四川话中混合着普通话，需要说明的是，普通话(即官方语言)也是一种方言；同时，本实施例也不限制目标语音的长度，比如，目标语音可以是一句话、或多句话等。

可以理解的是，目标语音可以根据实际需要，通过录音等方式获得，例如，人们日常生活中的电话通话语音、或者会议录音等均可作为目标语音，在利用智能手机、电脑等电子设备获取到目标语音后，可以利用本实施例实现对该目标语音的翻译。

需要说明的是，在后续内容的举例中，本实施例将以目标语音为中文语音为例，来介绍如何对目标语音进行翻译，而其它语种(如英文)的目标语音的处理方式与之类似，不再一一赘述。

S102：生成目标语音的语音特征，其中，该语音特征中包含了目标语音的方言特征。

在本实施例中，通过步骤S101获取到待翻译的目标语音后，可以对目标语音进行语音分析，生成目标语音的语音特征，该语音特征包含了目标语音的方言特征和语义信息等特征数据。其中，语义信息可以是表征目标语音的语义内容的向量数据，比如可以是目标语音包含的字向量或词向量等；而方言特征则指的是能够反映目标语音所具有的方言特点的特征数据，其可以采用向量或其它形式进行表示。

在本实施例中，一种可选的实现方式是，关于目标语音的语音特征中包含的方言特征，可以包括以下特征数据中的一项或多项：

目标语音的方言表征向量、目标语音的方言表征向量与各个方言的方言表征向量之间的相似度、目标语音经各个不同方言语音识别模型进行识别得到的识别结果的置信度、目标语音所属用户的用户位置信息、目标语音的语音基频特征。

接下来，将对上述5项特征进行一一介绍：

1、目标语音的方言表征向量

“目标语音的方言表征向量”指的是表征目标语音所属方言的特点信息的向量数据，该向量可以利用预先构建的方言种类检测模型来获得。

具体来讲，首先可以提取出目标语音的音频特征，比如，目标语音的转移差分倒谱(Shifted delta cepstral,简称SDC)特征、感知线性预测(Perceptual LinearPredictive，简称PLP)特征、瓶颈(Bottleneck，BN)特征等，然后，将这些特征数据输入至预先构建的方言种类检测模型，通过该方言种类检测模型输出目标语音的方言表征向量，并可以将该方言表征向量定义为f'。

其中，方言种类检测模型是基于反映说话人特征的身份认证向量(IdentityVector，简称i-vector)构建的。

具体来讲，首先可以收集各种方言类型的语音数据，比如收集普通话、四川话、东北话等各种方言类型的语音数据，构成训练数据集；然后，提取出这些训练数据中每一条语音数据的SDC特征、PLP特征以及BN特征等；接着，利用这些音频特征，训练出一个全局背景模型(Universal Background Model，简称UBM)，同时，基于该模型估计出全局差异空间矩阵，并将其定义为T，利用该矩阵T来表征每一条语音数据之间的差异性。

然后，利用该全局背景模型UBM以及全局差异空间矩阵T，可以计算出训练数据集中每一条语音数据对应的i-vector，并且，根据每一条语音数据所属的方言种类，可以将属于同一种方言的每一条语音数据对应的i-vector取平均，并将得到的平均值作为该种方言对应的i-vector，最后，可以利用线性判别分析(Linear Discriminant Analysis，简称LDA)方法，对各种方言类型对应的i-vector进行处理，得到各个i-vector分别对应的方言表征向量，并将其中的每一方言表征向量定义为f，用以表征对应方言类型的特点信息，即，每一方言类型对应一个方言表征向量f。

最后，可以将训练数据集中每一条语音数据的SDC特征、PLP特征以及BN特征等作为方言种类检测模型的输入数据，利用该方言种类检测模型输出每一条语音数据的方言表征向量，基于模型输出的每一条语音数据的方言表征向量与上述各个方言类型对应的方言表征向量f，对方言种类检测模型进行参数更新，以训练得到最终的方言种类检测模型，该方言种类检测模型用于预测输入语音的方言表征向量，具体训练方法与现有方法一致，在此不再赘述。

进而，可以将目标语音的SDC特征、PLP特征以及BN特征等作为输入数据，输入至该方言种类检测模型后，即可通过该模型输出目标语音的方言表征向量f'。

2、目标语音的方言表征向量与各个方言的方言表征向量之间的相似度

“目标语音的方言表征向量与各个方言的方言表征向量之间的相似度”指的是目标语音的方言表征向量f'与各个方言类型对应的方言表征向量f之间的余弦相似度，该相似度可以采用多维向量的形式进行表示，具体可以计算目标语音的方言表征向量f'与每一方言类型对应的方言表征向量f之间的余弦相似度，作为相似度向量，使该相似度向量的维数与方言类型的总数相同。

在另一种实现方式中，也可以先确定出目标语音属于哪个方言类型(具体确定方法请参见后续第二实施例步骤A所述内容)，使该相似度向量的维数为除了目标语音所属方言之外的其他方言(包含普通话)的类型总数，而该向量中每个值指的是目标语音的方言表征向量f'与其他各个方言(包含普通话)的方言表征向量f之间的余弦相似度。

举例说明：假设目标语音为湖南话语音，即，目标语音所属方言为湘方言，且假设除了湘方言外，其他方言分别为北方方言、吴方言、赣方言、客家方言、粤方言、闽方言，则除了目标语音所属的湘方言之外的其他方言(包含普通话)的类型总数为7，因此，用于表示目标语音的方言表征向量与各个方言的方言表征向量之间的相似度的向量的维数即为7维，且该向量中每一维的值分别为：目标语音的方言表征向量f'与北方方言的方言表征向量f之间的余弦相似度、与吴方言的方言表征向量f之间的余弦相似度、与赣方言的方言表征向量f之间的余弦相似度、与客家方言的方言表征向量f之间的余弦相似度、与粤方言的方言表征向量f之间的余弦相似度、与闽方言的方言表征向量f之间的余弦相似度、与普通话的方言表征向量f之间的余弦相似度。

需要说明的是，方言表征向量f'与f的生成方式，请参见上述第1条中的介绍，此处不再赘述。

3、目标语音经各个不同方言语音识别模型进行识别得到的识别结果的置信度

“目标语音经各个不同方言语音识别模型进行识别得到的识别结果的置信度”指的是将目标语音作为输入数据，输入至现有的各个不同方言语音识别模型(每一方言语音识别模型用于对应识别一种方言语音)进行识别后，得到的各个识别结果的置信度。该置信度可以采用多维向量的形式进行表示，该向量的维数为方言语音识别模型的总数，而向量中的每个值指的是各个不同方言语音识别模型对目标语音进行识别后得到的置信度得分。

具体来讲，首先可以提取出目标语音的声学特征，比如，目标语音的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，简称MFCC)，然后，将该声学特征分别输入至各个不同的方言语音识别模型，即可通过各个模型输出对目标语音进行识别后得到的置信度得分，用以构成置信度得分向量，具体识别过程与现有方式一致，在此不再赘述。

其中，每一方言语音识别模型是基于对应方言的语音数据、文本语料和专家设计的发音字典训练得到的声学模型和语言模型。具体来讲，首先可以收集大量对应方言的语音数据构成训练数据集；然后，利用从训练数据集中提取的每一条语音数据的声学特征，对初始构建的声学模型和语言模型进行训练，以得到训练完成的声学模型和语言模型，作为方言语音识别模型，具体模型训练过程可以与现有方式一致，在此不再赘述。

其中，初始构建的声学模型可以采用传统的隐马尔科夫模型-高斯混合模型(Hidden Markov Model-Gaussian Mixed Model，简称HMM-GMM)或隐马尔科夫模型-神经网络模型(Hidden Markov Model-Neural Network，简称HMM-NN)等，其中的神经网络模型可以采用深度神经网络(Deep Neural Network，简称DNN)、循环神经网络(Recurrent NeuralNetwork，简称RNN)、或卷积神经网络(Convolutional Neural Network，简称CNN)等，而初始构建的语言模型可以采用N-gram统计语言模型、卷积神经网络语言模型(RecurrentNeural Network-Language model，简称RNNLM)或端到端建模等。

需要说明的是，上述介绍的声学模型和语言模型的网络构成仅是一种示例，也可以采取其他网络结构，具体的模型网络结构可以根据实际情况进行选取，本申请实施例对此不进行限制。

举例说明：假设现有四种方言语音识别模型，分别用于对普通话、粤语、四川话、上海话进行识别，并且将目标语音的声学特征作为输入数据，分别输入至这四种方言语音识别模型进行识别后，得到的置信度得分分别为-1、21、12、-2，进而可以利用这四个置信度得分构成表征“目标语音经这四种方言语音识别模型进行识别得到的识别结果的置信度”的向量(-1,21,12,-2)。

4、目标语音所属用户的用户位置信息

“目标语音所属用户的用户位置信息”指的是目标语音所属的说话人说话时所在的地理位置信息，其可以通过采用全球定位系统(Global Positioning System，简称GPS)来获得。该地理位置信息可以采用一个独热编码(one hot)向量的形式进行表示。

其中，该向量的维数可以是方言片区总数、或者是省份总数，再或者是方言片区总数与省份总数组合后的数目等，具体取值在此不进行限定，而在该onehot向量中，每一维向量值分别依次对应了各个方言片区、或各个省份、或各个方言片区以及各个省份。并且，目标语音所属的说话人说话时所在的地理位置所属的片区和/或省份对应位置上的向量值为1，其他片区和/或省份对应位置的向量值为0。

举例说明：假设方言片区总数为8个，分别为北方方言地区、吴方言地区、湘方言地区、赣方言地区、客家方言地区、粤方言地区、闽方言地区、普通话地区。则表示目标语音所属用户的用户位置信息的one hot向量的维数为8，且每一维向量值分别依次对应了北方方言地区、吴方言地区、湘方言地区、赣方言地区、客家方言地区、粤方言地区、闽方言地区、普通话地区。又假设利用GPS定位到目标语音所属用户在说话时位于广东地区，而由于广东地区隶属于粤方言地区，则表示目标语音所属用户的用户位置信息的one hot向量为(0,0,0,0,0,1,0,0)。

同理，由于我国有34个省份，则也可以将表示目标语音所属用户的用户位置信息的one hot向量的维数设置为34，且每一维向量值分别依次对应了这34个省份。进而，在利用GPS定位到目标语音所属用户在说话时的地理位置后，可确定出表示目标语音所属用户的用户位置信息的34维one hot向量，在该向量中，目标语音所属用户所在的省份对应的向量值为1，其他向量值为0。当然，也可以将上述维度为8的向量与该维度为34的向量进行组合，用于表示目标语音所属用户的用户位置信息。

5、目标语音的语音基频特征

“目标语音的语音基频特征”指的是目标语音的基音的频率特征。

具体来讲，目标语音可能是一种有声调的语言，比如汉语，且声调是由调值和调型组成，其中，调值的大小取决于语音基音的频率数值大小，调型则取决于调值的走向。可见，语音基频与语音声调的相关性很高，由此，可以根据目标语音的声调，利用比如自相关算法、平行处理法、倒谱法和简化逆滤波法等方法，提取出目标语音的基频特征。

需要说明的是，由于不同方言的声调差异较大，例如，南方方言的声调种类通常较多，而北方方言的声调种类通常较少，具体地，普通话一般有四个声调，西北有些方言甚至只有三个声调，而南方的吴方言一般有七个声调、粤方言一般有十个声调。因此，可以根据目标语音的声调，采用相应的基频特征提取方法，提取出目标语音的基频特征。

此外，关于目标语音的语音特征，除了包括方言特征和语义信息以外，还可以包括目标语音的声学特征。

其中，目标语音的声学特征指的是用于表征目标语音的声学信息的频谱特征，如MFCC或者FBank等特征。具体来讲，在提取目标语音的声学特征时，首先需要对目标语音进行分帧处理，得到对应的语音帧序列，然后可以提取出每一语音帧的声学特征，作为目标语音的声学特征，具体提取方式与现有方式一致，在此不再赘述。

S103：根据目标语音的语音特征、以及预置的各种方言的方言表征向量，对目标语音进行翻译。

在本实施例中，通过步骤S102生成目标语音的语音特征后，可以对目标语音的语音特征、以及预置的各种方言的方言表征向量进行数据处理，并根据处理结果，对目标语音进行翻译。具体实现时，可以利用预先构建的方言语音翻译模型，对目标语音进行翻译，即，将目标语音的语音特征、以及各种方言的方言表征向量作为模型的输入数据，利用该模型输出目标语音的翻译结果，该具体实现方式将在第二实施例中介绍，而该方言语音翻译模型的具体构建过程可参见第三实施例。

综上，本实施例提供的方言翻译方法，在获取到待翻译的目标语音后，可以先生成目标语音的语音特征，然后，利用该语音特征、以及预置的各种方言的方言表征向量，对目标语音进行翻译，得到翻译结果。可见，本实施例采用的翻译依据是目标语音的语音特征和各种方言的方言表征向量，由于该语音特征包含了目标语音所属方言的特点信息，而各种方言的方言表征向量又表征了各种方言的特点信息，由此，本实施例将目标语音的语音特征和各种方言的方言表征向量相结合作为翻译依据，可以更方便、准确地对不同方言类型的目标语音进行翻译，而无需人工频繁手动切换不同的方言翻译模式进行翻译，从而提升了用户翻译体验。

第二实施例

需要说明的是，现有的方言翻译方法通常可以分为两步：第一步是根据用户设置的翻译模式，将目标语音输入对应的方言识别模型中，得到目标语音的识别文本；第二步是将得到的识别文本输入对应的方言翻译模型中，得到识别文本对应的翻译结果。其中，方言识别模型和方言翻译模型均是预先通过大量的方言数据训练得到的独立的语音识别模型和文本翻译模型，即二者只支持对应方言的语音识别和文本翻译，并且二者的执行顺序是固定的，如果需要进行N种方言的翻译，则需要训练得到N个方言语音识别模型和N个方言文本翻译模型，共2N个模型，当N取值较大时，模型数量规模也较大。

同时，对目标语音的翻译效果也依赖于方言识别模型的识别准确率，如果出现方言识别的错误，则将会直接影响目标语音翻译结果的准确率。

为解决上述缺陷，本实施例提出利用预先构建的方言语音翻译模型来对目标语音进行翻译，即，只需要一个方言语音翻译模型，便可对不同方言类型下的目标语音进行翻译，从而可以大大减少翻译模型的数量及模型训练的复杂度，进而提高了翻译结果的准确率。

接下来，本实施例将对如何利用预先构建的方言语音翻译模型来对目标语音进行翻译的具体过程进行介绍。

需要说明的是，本实施例中利用预先构建的方言语音翻译模型对目标语音进行翻译的依据包括目标语音的语音特征，而为了获得更准确的翻译结果、减少不必要的翻译，在生成目标语音的语音特征之前，本实施例还可以执行下述步骤A-B：

步骤A：判断方言语音翻译模型是否支持对目标语音的翻译。

在本实施例中，在利用方言语音翻译模型对目标语音进行翻译之前，首先需要判断该方言语音翻译模型是否支持对目标语音的翻译。

具体来讲，由于本实施例在利用方言语音翻译模型对目标语音进行翻译时的翻译依据包括目标语音的语音特征，且语音特征中包含的目标语音的方言表征向量f'是利用预先构建的方言种类检测模型来获得的，由此，方言语音翻译模型具体支持的翻译的方言种类是基于方言种类检测模型来决定的，即，由哪些类型的方言训练得到方言种类检测模型，那么方言语音翻译模型即可支持属于这些方言类型的目标语音的翻译，其中，方言种类检测模型的构建过程可参见第一实施例步骤102所述内容。

基于此，一种可选的实现方式是，本步骤A具体可以包括：根据目标语音的方言表征向量、以及各种方言的方言表征向量，判断方言语音翻译模型是否支持对目标语音的翻译。

在本实现方式中，在利用预先构建的方言种类检测模型获得目标语音的方言表征向量f'后，可以计算出该目标语音的方言表征向量f'和在训练方言种类检测模型时采用的各种方言对应的方言表征向量f之间的相似度，比如余弦相似度等，并可以根据计算结果来判断方言语音翻译模型是否支持对目标语音的翻译。

具体来讲，若计算出目标语音的方言表征向量f'与某一种方言对应的方言表征向量f之间的相似度越高，则表明f'与该f越相似，即表明目标语音属于f对应的那种方言的可能性越大，进而可以判断出方言语音翻译模型是支持对该目标语音的翻译的；反之，若计算出目标语音的方言表征向量f'与各种方言对应的方言表征向量f之间的相似度均较小，则表明f'与各种方言对应的方言表征向量f均不相似，即表明目标语音属于各种方言的可能性均较小，进而可以判断出方言语音翻译模型是不支持对该目标语音的翻译的。具体判断过程可以包括下述步骤A1-A3：

步骤A1：判断目标语音的方言表征向量是否满足第一条件和/或第二条件。

其中，第一条件为最大相似度大于第一阈值，而最大相似度指的是计算出来的目标语音的方言表征向量f'与各种方言的方言表征向量f之间的各个相似度中的最大值；第二条件为计算出来的各个相似度的均值不小于第二阈值以及各个相似度的方差不小于第三阈值。

具体来讲，第一种判断方式是，在计算出目标语音的方言表征向量f'与各种方言对应的方言表征向量f之间的相似度后，可以从得到的各个相似度中，选择出最大相似度，并判断出该最大相似度是否大于第一阈值。其中，第一阈值指的是用来判断方言语音翻译模型是否支持对目标语音进行翻译的临界值，可以将其定义为T1，具体取值可通过实验结果或经验来确定。

若判断出最大相似度大于该临界值T1，则表明目标语音的方言表征向量f'与该最大相似度对应的方言表征向量f之间是相似的，进而表明目标语音属于该f对应的那种方言的可能性很大，由此可以判断出目标语音的方言表征向量f'是满足第一条件的，则可以继续执行后续步骤A2。否则，表明目标语音属于每种方言的可能性均很小，则可以继续执行后续步骤A3。

第二种判断方式是，在计算出目标语音的方言表征向量f'与各种方言对应的方言表征向量f之间的相似度后，进一步可以计算出各个相似度的均值，以及各个相似度的方差，并判断出该均值是否不小于第二阈值，以及该方差是否不小于第三阈值。其中，第二阈值和第三阈值指的是用来判断方言语音翻译模型是否支持对目标语音进行翻译的临界值，可以将二者分别定义为T2和T3，二者的具体取值可通过实验结果或经验来确定。

若判断出各个相似度的均值不小于临界值T2，且各个相似度的方差不小于临界值T3，则可以判断出目标语音的方言表征向量f'是满足第二条件的，进而可以继续执行后续步骤A2；否则，表明目标语音属于每种方言的可能性均很小，则可以继续执行后续步骤A3。

第三种判断方式是，在计算出目标语音的方言表征向量f'与各种方言对应的方言表征向量f之间的相似度后，进一步可以从得到的各个相似度中，选择出最大相似度，并判断出该最大相似度是否大于第一阈值。同时，还可以计算出各个相似度的均值，以及各个相似度的方差，并判断出该均值是否不小于第二阈值，以及该方差是否不小于第三阈值。其中，第一阈值、第二阈值以及第三阈值均指的是用来判断方言语音翻译模型是否支持对目标语音进行翻译的临界值，可以将三者分别定义为T1、T2、T3，三者的具体取值可通过实验结果或经验来确定。

若判断出最大相似度大于临界值T1，且各个相似度的均值不小于临界值T2，以及各个相似度的方差不小于临界值T3，则可以判断出目标语音的方言表征向量f'是满足第一条件和第二条件的，进而可以继续执行后续步骤A2；否则，表明目标语音属于每种方言的可能性均很小，则可以继续执行后续步骤A3。

步骤A2：若判断出目标语音的方言表征向量满足第一条件和/或第二条件，则判定方言语音翻译模型支持对目标语音的翻译。

若通过步骤A1判断出目标语音的方言表征向量f'满足第一条件和/或第二条件，即最大相似度大于第一阈值，和/或，计算出来的各个相似度的均值不小于第二阈值以及各个相似度的方差不小于第三阈值，则可以判定出方言语音翻译模型是支持对目标语音进行翻译的。

举例说明：假设预先构建方言种类检测模型时，采用的训练数据包含的方言种类为4种，分别为普通话、粤方言、闽方言以及赣方言，则方言语音翻译模型支持的方言种类即为这四类。又假设根据实验结果确定出第一阈值T1＝0.6、第二阈值T2＝0、第三阈值T3＝0.01。

假设将目标语音的音频特征输入方言种类检测模型后，得到了目标语音的方言表征向量f'，且计算得到了f'与普通话、粤方言、闽方言以及赣方言这四类方言对应的方言表征向量f之间的相似度。

以该相似度为余弦相似度为例，若计算出f'与普通话对应的方言表征向量f之间的余弦相似度为-0.1、与粤方言对应的方言表征向量f之间的余弦相似度为0.93、与闽方言对应的方言表征向量f之间的余弦相似度为-0.18、与赣方言对应的方言表征向量f之间的余弦相似度为-0.31，则其中最大的余弦相似度即为0.93，且该最大的余弦相似度大于第一阈值0.6，从而表明目标语音属于粤方言的可能性很大，进而可以判定出方言语音翻译模型是支持对该目标语音的翻译的。

或者，基于计算出的f'与普通话、粤方言、闽方言以及赣方言这四种方言对应的方言表征向量f之间的余弦相似度，还可以计算出这四个余弦相似度的均值为0.085，即(-01+0.93-0.18-0.31)/4＝0.085，可见，该均值大于第二阈值0。同时，还可以计算出这四个余弦相似度的方差为0.45，具体计算过程为：[(0.93-0.085)²+(-0.1-0.085)²+(-0.18-0.085)²+(-0.31-0.085)²]/4＝0.45，可见，该方差值也大于第三阈值0.01。基于此，也可以判定出方言语音翻译模型是支持对该目标语音进行翻译的。

再或者，在判断出最大的余弦相似度0.93大于第一阈值0.6，且这四个余弦相似度的均值0.085大于第二阈值0，以及这四个余弦相似度方差0.45也大于第三阈值0.01后，可以判定出方言语音翻译模型是支持对该目标语音进行翻译的。

步骤A3：若判断出目标语音的方言表征向量不满足第一条件和/或第二条件，则判定方言语音翻译模型支持对目标语音的翻译。

若通过步骤A1判断出目标语音的方言表征向量f'不满足第一条件和/或第二条件，即最大相似度不大于第一阈值，和/或，计算出来的各个相似度的均值小于第二阈值以及各个相似度的方差小于第三阈值，则可以判定出方言语音翻译模型是不支持对目标语音进行翻译的。

此时，一种可选的实现方式是，当方言语音翻译模型不支持对目标语音的翻译时，则可以通过语音播报或者文本显示等方式告知用户，并可以将方言语音翻译模型所支持的方言类型告知用户，以便用户使用方言语音翻译模型所支持的方言类型给出目标语音。

步骤B：若方言语音翻译模型支持对目标语音的翻译，则执行生成目标语音的语音特征的步骤。

在本实施例中，若通过步骤A判断出方言语音翻译模型支持对目标语音的翻译，则可通过执行上述第一实施例步骤S102，生成目标语音的语音特征，用以作为本实施例中利用方言语音翻译模型对目标语音进行翻译的翻译依据。

接下来，本实施例将通过下述步骤S201-S203，对利用预先构建的方言语音翻译模型对目标语音进行翻译的具体实施方式进行介绍。

在本实施例中，预先构建的方言语音翻译模型可以包括由编码层(Encode)、注意力层(Attention)以及解码层(Decode)，如图3所示。

参见图2，其示出了本实施例提供的利用预先构建的方言语音翻译模型对目标语音进行翻译的流程示意图(结合图3进行介绍)，该流程包括以下步骤：

S201：利用编码层对目标语音的语音特征进行编码，得到语音编码结果。

如图3所示，在将生成的目标语音的语音特征作为输入数据，输入至编码层后，可以利用编码层对目标语音的语音特征进行编码，得到语音编码结果，并将该编码结果定义为H。其中，X表示的是目标语音的语音特征中包含的声学特征，L表示的是目标语音的语音特征中包含的方言特征。

可以理解的是，为了实现语音翻译，需要将目标语音的语义信息作为输入数据，输入至编码层进行编码，比如，可以将目标语音的识别文本的各个字向量或各个词向量作为输入数据。

需要说明的是，编码层的具体结构可以采用倒金字塔结构的双向RNN，或CNN，本实施例对此不进行限制，并且，编码层中的模型参数可通过对模型进行训练来确定，具体的参数确定过程可参见第三实施例。

S202：利用注意力层对语音编码结果和各种方言的方言表征向量进行关注，得到中间处理结果。

在本实施例中，通过步骤S201利用编码层对目标语音的语音特征进行编码，得到语音编码结果H后，可以利用注意力层对该语音编码结果H进行注意力(attention)运算，以便关注到语音编码结果H中有助于准确生成目标语音的翻译结果的编码信息。

同时，还可以将各种方言对应的方言表征向量f，作为输入数据，输入至注意力层，如图3所示，并将各种方言对应的方言表征向量f构成的集合定义为V，即，V＝(f₁,f₂,...,f_N)，其中，N表示的是方言种类的总个数(该方言种类与上述方言种类检测模型所涉及的方言种类相同)。利用注意力层对各种方言对应的方言表征向量f进行注意力(attention)运算后，可以关注到各种方言对应的方言表征向量f中与目标语音的方言类型相关的向量信息。

需要说明的是，注意力层的具体结构可以采用单向或双向RNN等，本实施例对此不进行限制。

基于此，利用注意力层对语音编码结果H和各种方言的方言表征向量f进行关注后，可以更好的关注到目标语音所属的方言种类，并可以根据该种方言对应的方言表征向量，得到模型的中间处理结果s_i、c_i、s'_i、c'_i，用以通过后续解码步骤得到更准确的翻译结果，该部分得到的各中间处理结果具体计算公式如下：

s_i＝RNN(s_i-1,y_i-1,c_i-1) (1)

其中，s_i表示注意力层中的RNN在第i时刻的输出结果；s_i-1表示注意力层中的RNN在第i-1时刻的输出结果；y_i-1表示目标语音的翻译文本中的第i-1个词；c_i-1表示c_i上一时刻的状态，c_i的计算公式请参见后续公式(4)，c_i-1的计算公式与c_i的计算公式类似，只需将公式(4)中的i替换成i-1进行计算即可。

需要说明的是，图3所示的语音编码结果H可以采用向量的形式进行表示，即，H＝(h₁,h₂,…,h_j,…h_J,)，其中，J表示向量H包含的列向量个数，h₁,h₂,…,h_j,…h_J向量各个列向量。

基于此，注意力层的RNN在第i时刻的输出结果s_i与语音编码结果H中第j个列向量的相关度计算公式如下：

e_i,j＝<Φ(s_i),Ψ(h_j)> (2)

其中，h_j表示语音编码结果H中的第j个列向量；Φ(s_i)和Ψ(h_j)表示注意力层的RNN的网络参数；e_i,j表示s_i与h_j的相关程度。

通过对上述公式(2)进行归一化处理后，可以得到注意力层在第i时刻对语音编码结果H中第j个列向量的关注系数，并将其定义为α_i,j，具体计算公式如下：

需要说明的是，当系数值α_i,j越大时，表明注意力层中的RNN在第i时刻的输出结果s_i与语音编码结果H中第j个列向量h_j的相关程度越高，因此，为了获得第i时刻更准确的翻译结果，应当对语音编码结果H中第j个列向量h_j给予更多的关注。

还需要说明的是，在第i时刻，语音编码结果H中每一个列向量均对应了一个注意力层的关注系数，且该关注系数越大，表明对应的那个列向量更有助于模型输出准确的翻译词语(即目标语音的翻译结果中的第i词)；反之，若该关注系数越小，则表明对应的那个列向量对输出准确翻译词语的作用较小。

因此，可以利用注意力层在第i时刻生成的关注系数α_i,j，对语音编码结果H的每一个列向量h_j进行加权，具体计算公式如下：

c_i＝∑_jα_i,jh_j (4)

其中，c_i表示语音编码结果H在第i时刻的加权编码结果。

从上述公式(4)可知，通过加权系数α_i,j可以关注到语音编码结果H中更有助于实现准确翻译的列向量。从而利用该加权编码结果c_i，通过后续步骤S203，可以准确得到目标语音的翻译文本中的第i个词。

需要说明的是，还可以利用注意力层对各种方言的方言表征向量f进行关注，同样可以得到第i时刻模型的中间处理结果s'_i和c'_i，如图3所示，具体计算过程与上述计算s_i和c_i的过程类似，不同之处在于，将“语音编码结果H”替换为“各种方言的方言表征向量f构成的集合V”即可，具体过程在此不再赘述。

S203：利用解码层对中间处理结果进行解码，得到目标语音的翻译结果。

在本实施例中，通过步骤S202得到中间处理结果s_i、c_i、s'_i、c'_i后，可将这四个中间处理结果作为输入数据，输入至解码层，通过编码层对这四个中间处理结果进行解码，即解码可得到目标语音的翻译文本中的第i个词。按照上述方式，可以解码得到目标语音的翻译文本中的各个词，即，得到如图3所示的翻译文本y。

具体来讲，解码层的具体结构可以采用带有分类器softmax的单层神经网络等，本实施例对此不进行限制。并且在基于attention的作用，关注到利于得到第i时刻翻译结果的中间处理结果数据s_i、c_i、s'_i、c'_i后，可以利用这些中间处理结果数据，生成目标语音的翻译文本中的第i个词y_i，具体计算公式如下：

y_i＝Decode(s_i,c_i,s_i',c_i') (5)

其中，y_i表示模型在第i时刻输出的目标语音的翻译结果，即，目标语音的翻译文本中的第i个词。

综上，本实施例首先利用方言种类检测模型判断出方言语音翻译模型是否支持对目标语音的翻译，当方言语音翻译模型支持对目标语音进行翻译时，则可以利用该方言语音翻译模型，对目标语音的语音特征进行编码，得到语音编码结果，再基于注意力层对该语音编码结果和各种方言的方言特征向量进行关注，得到中间处理结果，再对这些中间处理结果进行解码，以得到目标语音的翻译结果，从而实现了仅利用预先构建的一个方言语音翻译模型对各种方言类型下的目标语音进行准确翻译，相比于现有方法来说，可以有效减少翻译模型的数量以及模型训练的复杂度。

第三实施例

本实施例将对上述实施例中提及的方言语音翻译模型的构建过程进行介绍。具体可以包括以下步骤S401-S403：

S401：收集大量的训练样本数据。

在本实施例中，为了构建方言语音翻译模型，需要预先收集大量属于各种方言类型的语音数据，并将每一条语音数据作为训练样本数据。需要说明的是，每一条训练样本数据可以按照第一实施例中S101中介绍的方式进行获取。

在收集到大量的训练样本数据后，可以由人工根据具体的实际情况，对各个训练样本数据进行整理、分类和标注，即，人工标注出每一个训练样本数据的翻译结果，即，将属于源语种的每一个训练样本数据翻译成目标语种的翻译文本，作为翻译结果。比如，假设某一个训练样本数据为一句广东话，则可以人工标注出该训练样本数据所属的方言种类为粤方言，对应翻译结果为英文翻译文本。

S402：构建方言语音翻译模型。

可以构建一个初始的方言语音翻译模型，并初始化模型参数。

需要说明的是，本实施例不限制步骤S401与步骤S402的执行顺序。

S403：利用预先收集的大量训练样本数据，对方言语音翻译模型进行训练。

在本实施例中，通过步骤S401收集到大量的训练样本数据并对每一训练样本数据进行人工标注后，可以利用这些数据对步骤S402构建的方言语音翻译模型进行训练，通过多轮模型训练，直到满足训练结束条件为止，此时，即训练得到方言语音翻译模型。

具体地，在进行本轮训练时，需要选择一个训练样本数据进行模型训练，可以将上述实施例中的目标语音替换为本轮使用的这一训练样本数据，通过当前的方言语音翻译模型，按照第二实施例中的执行过程，便可以实现对该训练样本数据的翻译预测。然后，根据预测翻译结果与人工标注的翻译结果之间的差异对模型参数进行更新，即完成了方言语音翻译模型的本轮训练。

以编码层的模型参数的更新过程为例，假设编码层中某一网络层的参数为E，则E的具体计算公式如下：

其中，E₀表示基参数，是一个w矩阵，用来表征与方言种类无关的参数；N表示方言种类的总个数；E_n表示对应于第n种方言的偏移参数；w_n为E_n的权重，与E_n共同组成了与第n种方言相关的参数，则在利用属于不同方言种类的训练样本数据对方言语音翻译模型进行训练时，可以根据预测翻译结果与人工标注的翻译结果之间的差异对模型参数w_n和E_n进行更新，进而实现对编码层中某一网络层的参数E的更新，同理可以实现对编码层中其他网络层的参数E的更新，使得整个编码层的模型参数能够实现更好的编码效果。

第四实施例

本实施例将对一种方言翻译装置进行介绍，相关内容请参见上述方法实施例。

参见图5，为本实施例提供的一种方言翻译装置的组成示意图，该装置500包括：

目标语音获取单元501，用于获取待翻译的目标语音；

语音特征生成单元502，用于生成所述目标语音的语音特征，所述语音特征中包含了所述目标语音的方言特征；

目标语音翻译单元503，用于根据所述目标语音的语音特征、以及预置的各种方言的方言表征向量，对所述目标语音进行翻译。

在本实施例的一种实现方式中，所述方言特征包括以下一项或多项：

所述目标语音的方言表征向量；

所述目标语音所属用户的用户位置信息；

所述目标语音的语音基频特征。

在本实施例的一种实现方式中，所述目标语音翻译单元具体用于：

在本实施例的一种实现方式中，所述装置500还包括：

支持结果判断单元，用于在生成所述目标语音的语音特征之前，判断所述方言语音翻译模型是否支持对所述目标语音的翻译；若所述方言语音翻译模型支持对所述目标语音的翻译，则调用所述语音特征生成单元502生成所述目标语音的语音特征。

在本实施例的一种实现方式中，所述支持结果判断单元具体用于：

在本实施例的一种实现方式中，所述支持结果判断单元包括：

在本实施例的一种实现方式中，所述方言语音翻译模型包括编码层、注意力层和解码层；

则，所述目标语音翻译单元503包括：

进一步地，本申请实施例还提供了一种方言翻译设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述方言翻译方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述方言翻译方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述方言翻译方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种方言翻译方法，其特征在于，包括：

获取待翻译的目标语音；

2.根据权利要求1所述的方法，其特征在于，所述方言特征包括以下一项或多项：

所述目标语音的方言表征向量；

所述目标语音所属用户的用户位置信息；

所述目标语音的语音基频特征。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述目标语音进行翻译，包括：

4.根据权利要求3所述的方法，其特征在于，所述生成所述目标语音的语音特征之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述判断所述方言语音翻译模型是否支持对所述目标语音的翻译，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标语音的方言表征向量、以及所述各种方言的方言表征向量，判断所述方言语音翻译模型是否支持对所述目标语音的翻译，包括：

7.根据权利要求3所述的方法，其特征在于，所述方言语音翻译模型包括编码层、注意力层和解码层；

8.一种方言翻译装置，其特征在于，包括：

目标语音获取单元，用于获取待翻译的目标语音；

9.根据权利要求8所述的装置，其特征在于，所述方言特征包括以下一项或多项：

所述目标语音的方言表征向量；

所述目标语音所属用户的用户位置信息；

所述目标语音的语音基频特征。

10.一种方言翻译设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的方法。