CN112309370A

CN112309370A - 语音翻译方法、装置及设备、翻译机

Info

Publication number: CN112309370A
Application number: CN202011205126.4A
Authority: CN
Inventors: 张明; 关磊
Original assignee: Beijing Babel Technology Co ltd
Current assignee: Beijing Babel Technology Co ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-02

Abstract

本申请涉及一种语音翻译方法、装置及设备、翻译机，语音翻译方法包括：获取语音信息，通过语音信息确定说话人的声纹特征；通过说话人的声纹特征判断说话人是否是第一用户；若说话人是第一用户，确定第一用户的第一语言，基于第一语言识别语音信息，基于预先设置的第二语言，将识别后的信息转换成第二语言的信息；若说话人不是第一用户，确定预先设置的第二语言，基于第二语言识别语音信息，基于第一用户的第一语言，将识别后的信息转换成第一语言的信息。如此，无需建立语种识别模型，通过声纹识别即可解决多语种间的双语种识别问题以及双语种间的自动语音翻译选择问题，降低了翻译训练复杂度，有效提高了翻译效率。

Description

语音翻译方法、装置及设备、翻译机

技术领域

本申请涉及语音翻译技术领域，具体涉及一种语音翻译方法、装置及设备、翻译机。

背景技术

语种识别在语音翻译场景中具有强烈的应用需求，如果没有语种识别，那么在利用翻译机翻译的过程中就需要人工干预语音识别引擎才能对语音进行识别。例如，在中英对话过程中，中文说话人需要人工通过实体或虚拟按键的方式触发中文识别引擎，利用中文识别引擎对说话音频进行语音识别，将语音信息转变为文本信息，继而通过中文到英文的翻译引擎将中文文本信息翻译成英文文本信息，最后再通过英文语音合成信息将英文文本信息转换为语音信息播放出来，让懂英文的人听清。

相关技术中，通过语种识别可以避免用户人工干预语音识别引擎的操作过程，但是如果要在多个语种内识别出指定说话音频的对应语种，其识别结果的准确率往往较低，且需要的音频时长也比较长。而如果采用两两语种进行识别，其识别准确度会有所上升，但是针对不同的两两语种都要进行语种识别模型的训练，而且训练的语音数据也不容易收集，可行性比较差。

发明内容

有鉴于此，本申请的目的在于克服现有技术的不足，提供一种语音翻译方法、装置及设备、翻译机。

为实现以上目的，本申请采用如下技术方案：

本申请的第一方面提供一种语音翻译方法，包括：

获取语音信息，通过所述语音信息确定说话人的声纹特征；

通过所述说话人的声纹特征判断所述说话人是否是第一用户；

若所述说话人是第一用户，确定所述第一用户的第一语言，基于所述第一语言识别所述语音信息，基于预先设置的第二语言，将识别后的信息转换成第二语言的信息；

若所述说话人不是第一用户，确定预先设置的第二语言，基于所述第二语言识别所述语音信息，基于所述第一用户的第一语言，将识别后的信息转换成第一语言的信息。

可选的，所述获取语音信息之前，所述方法还包括：

采集所述第一用户的语音样本信息；

对所述语音样本信息进行特征提取，判断提取到的特征是否符合预设要求；

若符合，将所述特征输入到预先训练好的声纹模型中，得到特征向量；

将所述特征向量作为所述第一用户的声纹特征进行存储。

可选的，所述预设要求包括：

采集到的语音样本信息的时长符合预设时长；

和/或，采集到的语音样本信息的内容符合预设内容。

可选的，所述基于所述第一语言识别所述语音信息，基于预先设置的第二语言，将识别后的信息转换成第二语言的信息，包括：

基于所述第一语言，将所述语音信息转换为第一语言的文本信息，基于预先设置的第二语言，将第一语言的文本信息转换成第二语言的文本信息；

所述基于所述第二语言识别所述语音信息，基于所述第一用户的第一语言，将识别后的信息转换成第一语言的信息，包括：

基于所述第二语言，将所述语音信息转换为第二语言的文本信息，基于预先设置的第一语言，将第二语言的文本信息转换成第一语言的文本信息。

可选的，所述将识别后的信息转换成第二语言的信息之后，所述方法还包括：

播放所述第二语言的信息；

所述将识别后的信息转换成第一语言的信息之后，所述方法还包括：

播放所述第一语言的信息。

可选的，所述通过所述说话人的声纹特征判断所述说话人是否是第一用户，包括：

从预先建立的所述声纹特征与所述第一用户的对应关系中，查找是否存在与所述说话人的声纹特征对应的所述声纹特征；

若存在，则确定所述说话人是第一用户；若不存在，则确定所述说话人不是第一用户。

可选的，所述通过所述语音信息确定说话人的声纹特征，包括：

提取所述语音信息的FBANK特征，并将提取到的FBANK特征输入到预先训练好的声纹模型中，得到特征向量；

将得到的特征向量作为所述说话人的声纹特征。

本申请的第二方面提供一种语音翻译装置，包括：

获取模块，用于获取语音信息，通过所述语音信息确定说话人的声纹特征；

判断模块，用于通过所述说话人的声纹特征判断所述说话人是否是第一用户；

第一转换模块，用于若所述说话人是第一用户，确定所述第一用户的第一语言，基于所述第一语言识别所述语音信息，基于预先设置的第二语言，将识别后的信息转换成第二语言的信息；

第二转换模块，用于若所述说话人不是第一用户，确定预先设置的第二语言，基于所述第二语言识别所述语音信息，基于所述第一用户的第一语言，将识别后的信息转换成第一语言的信息。

本申请的第三方面提供一种语音翻译设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如本申请的第一方面所述的方法。

本申请的第四方面提供一种翻译机，包括如本申请的第三方面所述的语音翻译设备。

本申请提供的技术方案可以包括以下有益效果：

本申请的方案中，在获取到语音信息后，通过获取到的语音信息，可以提取到说话人的声纹特征；通过说话人的声纹特征，可以判断出当前说话人是否是第一用户，从而确定出说话人的身份；若说话人是第一用户，则可以确定第一用户的第一语言，基于第一语言可以识别出语音信息的内容，然后基于预先设置的第二语言，可以将识别后的信息转换成第二语言的信息，如此，即可以将第一语言的语音信息翻译成第二语言的语音信息；相应的，若说话人不是第一用户，则可以确定语音信息的语言为预先设置的第二语言，基于第二语言可以识别出语音信息的内容，然后基于第一用户的第一语言，可以将识别后的信息转换成第二语言的信息，如此，即可将第二语言的语音信息翻译成第一语言的信息。通过上述方法，避免了对传统的语种识别模型的训练，解决了多语种间的双语种识别问题以及双语种间的自动语音翻译选择问题，降低了语音翻译的训练复杂度，有效提高了语音翻译效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的一种语音翻译方法的流程图。

图2是本申请另一个实施例提供的一种语音翻译装置的结构示意图。

图3是本申请另一个实施例提供的一种语音翻译设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

图1是本申请一个实施例提供的一种语音翻译方法的流程图。如图所示，本申请的实施例提出的语音翻译方法具体可以包括如下操作步骤：

步骤11、获取语音信息，通过语音信息确定说话人的声纹特征。

具体实施时，在获取到语音信息后，可以对获取到的语音信息进行FBANK特征提取，并将提取到的特征输入到预先训练好的声纹模型中，得到一组预设维度的特征向量，将得到的特征向量作为说话人的声纹特征。其中，预设维度可以是150维度，也可以是200维度，此处不做具体限定。

步骤12、通过说话人的声纹特征判断说话人是否是第一用户。

在确定了说话人的声纹特征后，可以将说话人的声纹特征与预先存储的第一用户的声纹特征作比较，从而判断出说话人是否是第一用户。

若确定说话人是第一用户，则执行步骤13；若确定说话人不是第一用户，则执行步骤14。

步骤13、确定第一用户的第一语言，基于第一语言识别语音信息，基于预先设置的第二语言，将识别后的信息转换成第二语言的信息。

在确定当前说话人是第一用户后，可以确定说话人的第一语言，第一语言可以是第一用户的母语，也可以是第一用户预先设置的其他语言；在确定第一用户的第一语言后，即可确定出获取到的第一用户发出的语音信息和第一用户的第一语言为相同的语言，则基于该第一语言可以识别出语音信息的内容；并且，基于预先设置的第二语言，可以将识别出的语音信息的内容转换为第二语言形式的信息，以完成对语音信息的翻译，便于与第一用户对话的第二用户理解。

步骤14、确定预先设置的第二语言，基于第二语言识别语音信息，基于第一用户的第一语言，将识别后的信息转换成第一语言的信息。

在确定当前说话人不是第一用户后，可以确定当前说话人是与第一用户进行对话的第二用户，那么，获取到的语音信息即为第二语言的语音信息，基于第二语言就可以识别出语音信息的内容；并且，由于第二用户正在与第一用户进行对话，那么可以确定当前的任务是将第二语言的语音信息转换为第一语言的语音信息，则基于第一用户的第一语言，可以将识别出的语音信息的内容转换为第一语言形式的信息，以完成对语音信息的翻译，便于与第二用户对话的第一用户理解。

本实施例中，在获取到语音信息后，通过获取到的语音信息，可以提取到说话人的声纹特征；通过说话人的声纹特征，可以判断出当前说话人是否是第一用户，从而确定出说话人的身份；若说话人是第一用户，则可以确定第一用户的第一语言，基于第一语言可以识别出语音信息的内容，然后基于预先设置的第二语言，可以将识别后的信息转换成第二语言的信息，如此，即可以将第一语言的语音信息翻译成第二语言的语音信息；相应的，若说话人不是第一用户，则可以确定语音信息的语言为预先设置的第二语言，基于第二语言可以识别出语音信息的内容，然后基于第一用户的第一语言，可以将识别后的信息转换成第二语言的信息，如此，即可将第二语言的语音信息翻译成第一语言的信息。通过上述方法，避免了对传统的语种识别模型的训练，解决了多语种间的双语种识别问题以及双语种间的自动语音翻译选择问题，降低了语音翻译的训练复杂度，有效提高了语音翻译效率。

本申请的执行主体可以是智能终端，也可以是智能终端中基于软件和/或硬件的功能模块，还可以是其他的设备，等等。

一些实施例中，为了能够更好地判断出说话人是否是第一用户，在执行步骤11之前，可以对第一用户的声纹信息进行注册，其注册流程具体可以包括：采集第一用户的语音样本信息；对语音样本信息进行特征提取，判断提取到的特征是否符合预设要求；若符合，将特征输入到预先训练好的声纹模型中，得到特征向量；将特征向量作为第一用户的声纹特征进行存储。

实际应用中，智能终端可以是翻译机，在翻译机上对第一用户的声纹信息进行注册时，需要首先获取第一用户按照预设文本提供的至少一个语音样本信息，例如，第一用户按照翻译机的界面提示文本，依顺序读取5遍文本内容。针对获取到的语音样本信息，可以提取FBANK特征，并判断提取到的特征是否符合预设要求。如果提取到的特征符合预设要求，则可把特征输入到预先训练好的声纹模型中，经过计算得到一组预设维度的特征向量，如此，即可将该特征向量作为第一用户的声纹特征进行存储；相应的，如果提取到的特征不符合预设要求，则需要重新提示第一用户按要求读预设文本。

为了能够更加准确地提取到语音样本信息的声纹特征，上述预设要求具体可以包括：判断采集到的语音样本信息的时长是否符合预设时长；和/或，采集到的语音样本信息的内容是否符合预设内容；和/或，采集到的语音样本信息是否是有效音频，等。

一些实施例中，通过说话人的声纹特征判断说话人是否是第一用户，具体可以包括：从预先建立的声纹特征与第一用户的对应关系中，查找是否存在与说话人的声纹特征对应的声纹特征；若存在，则可以确定说话人是第一用户；若不存在，则确定说话人不是第一用户。

具体实施时，可以通过声纹注册的方式建立声纹特征与第一用户的对应关系，同时，也可以建立第一用户与第一语言的对应关系，如此，在获取到语音信息并提取到声纹特征后，可以从声纹特征与第一用户的对应关系中查找是否存在与提取到的声纹特征一致的声纹特征，若声纹特征与第一用户的对应关系中存在与说话人的声纹特征一致的声纹特征，说明第一用户中存在一个第一用户与说话人为同一人，那么，通过第一用户与第一语言的对应关系，可以确定该第一用户的第一语言，继而可以确定语音信息为该第一语言的信息；若声纹特征与第一用户的对应关系中不存在与说话人的声纹特征一致的声纹特征，则可以确定说话人不是第一用户，语音信息应该为第二语言的信息。

一些实施例中，上述步骤13中，基于第一语言识别语音信息，基于预先设置的第二语言，将识别后的信息转换成第二语言的信息，具体可以包括：基于第一语言，将语音信息转换为第一语言的文本信息，基于预先设置的第二语言，将第一语言的文本信息转换成第二语言的文本信息。

相应的，步骤14中，基于第二语言识别语音信息，基于第一用户的第一语言，将识别后的信息转换成第一语言的信息，具体可以包括：基于第二语言，将语音信息转换为第二语言的文本信息，基于预先设置的第一语言，将第二语言的文本信息转换成第一语言的文本信息。

一些实施例中，在将识别后的信息转换成第二语言的信息之后，语音翻译方法还可以包括：播放第二语言的信息，以便于实现对语音信息的音译，使得第二用户能够理解第一用户的说话内容。

相应的，在将识别后的信息转换成第一语言的信息之后，语音翻译方法还可以包括：播放第一语言的信息，以便于实现对语音信息的音译，使得第一用户能够理解第二用户的说话内容。

下面以实际应用场景为例，对本申请的实施例提供的的语音翻译方法进行解释说明：

翻译机的持有人A(其对应的语种为a)与外国人B(其对应的语种为b)进行对话，事前A已经按照注册流程在翻译机上进行了注册，并设置了第二用户对应的语种为b。在翻译机开启后，对A和B的对话进行采集，在采集到语音后，对采集到的语音提取特征FBANK，并将提取的特征输入到预先训练好的声纹模型中，得到一组150维度的特征向量。将得到的150维度的特征向量与已存储的A注册时得到的150维度的特征向量进行比对，计算两个维度之间的距离，如果距离小于预先设定好的阈值，则可以认为采集到的这段语音为A的声音，则翻译机上的语音识别系统自动切换为对应A语种的语音识别系统，并对这段A发出的语音进行识别，得到文本信息，得到的文本信息经过机器翻译，翻译为b语种的文字，然后通过语音合成，可以将译得的b语种的文字播放出来，使得外国人B可以理解A的说话内容；同样的，如果计算的两个维度之间的距离大于预先设定好的阈值，则可以认为这段语音为B的声音，则翻译机上的语音识别系统自动切换为对应b语种的语音识别系统，并对这段B发出的语音进行识别，得到文本信息，得到的文本信息经过机器翻译，翻译为a语种的文字，然后通过语音合成，可以将译得的a语种的文字播放出来，使得A可以理解外国人B的说话内容。

本申请的实施例提供一种语音翻译装置，如图2所示，该装置具体可以包括：获取模块201，用于获取语音信息，通过语音信息确定说话人的声纹特征；判断模块202，用于通过说话人的声纹特征判断说话人是否是第一用户；第一转换模块203，用于若说话人是第一用户，确定第一用户的第一语言，基于第一语言识别语音信息，基于预先设置的第二语言，将识别后的信息转换成第二语言的信息；第二转换模块204，用于若说话人不是第一用户，确定预先设置的第二语言，基于第二语言识别语音信息，基于第一用户的第一语言，将识别后的信息转换成第一语言的信息。

可选的，语音翻译装置还可以包括注册模块，注册模块，具体用于：采集第一用户的语音样本信息；对语音样本信息进行特征提取，判断提取到的特征是否符合预设要求；若符合，将特征输入到预先训练好的声纹模型中，得到特征向量；将特征向量作为第一用户的声纹特征进行存储。

可选的，上述预设要求具体可以包括：采集到的语音样本信息的时长符合预设时长；和/或，采集到的语音样本信息的内容符合预设内容。

可选的，上述基于第一语言识别语音信息，基于预先设置的第二语言，将识别后的信息转换成第二语言的信息，第一转换模块203，具体可以用于：基于第一语言，将语音信息转换为第一语言的文本信息，基于预先设置的第二语言，将第一语言的文本信息转换成第二语言的文本信息；

相应的，基于第二语言识别语音信息，基于第一用户的第一语言，将识别后的信息转换成第一语言的信息，第二转换模块204，具体可以用于：基于第二语言，将语音信息转换为第二语言的文本信息，基于预先设置的第一语言，将第二语言的文本信息转换成第一语言的文本信息。

可选的，将识别后的信息转换成第二语言的信息之后，语音翻译装置还可以包括播放模块，播放模块，具体用于：播放第二语言的信息；

相应的，将识别后的信息转换成第一语言的信息之后，播放模块，具体用于：播放第一语言的信息。

可选的，通过说话人的声纹特征判断说话人是否是第一用户，判断模块202，具体可以用于：从预先建立的声纹特征与第一用户的对应关系中，查找是否存在与说话人的声纹特征对应的声纹特征；若存在，则确定说话人是第一用户；若不存在，则确定说话人不是第一用户。

可选的，通过语音信息确定说话人的声纹特征，获取模块201，具体可以用于：提取语音信息的FBANK特征，并将提取到的FBANK特征输入到预先训练好的声纹模型中，得到特征向量；将得到的特征向量作为说话人的声纹特征。

本申请实施例提供的语音翻译装置的具体实施方案可以参考以上任意例所述的语音翻译方法的实施方式，此处不再赘述。

本申请的实施例提供一种语音翻译设备，如图3所示，该设备具体可以包括：处理器301，以及与处理器301相连接的存储器302；存储器302用于存储计算机程序；处理器301用于调用并执行存储器302中的计算机程序，以执行如以上任意实施例所述的语音翻译方法。

本申请的实施例提供一种翻译机，具体可以包括如以上任意实施例所述的语音翻译设备。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音翻译方法，其特征在于，包括：

获取语音信息，通过所述语音信息确定说话人的声纹特征；

2.根据权利要求1所述的语音翻译方法，其特征在于，所述获取语音信息之前，所述方法还包括：

采集所述第一用户的语音样本信息；

将所述特征向量作为所述第一用户的声纹特征进行存储。

3.根据权利要求2所述的语音翻译方法，其特征在于，所述预设要求包括：

采集到的语音样本信息的时长符合预设时长；

和/或，采集到的语音样本信息的内容符合预设内容。

4.根据权利要求1所述的语音翻译方法，其特征在于，所述基于所述第一语言识别所述语音信息，基于预先设置的第二语言，将识别后的信息转换成第二语言的信息，包括：

5.根据权利要求1所述的语音翻译方法，其特征在于，所述将识别后的信息转换成第二语言的信息之后，所述方法还包括：

播放所述第二语言的信息；

播放所述第一语言的信息。

6.根据权利要求1所述的语音翻译方法，其特征在于，所述通过所述说话人的声纹特征判断所述说话人是否是第一用户，包括：

7.根据权利要求1所述的语音翻译方法，其特征在于，所述通过所述语音信息确定说话人的声纹特征，包括：

将得到的特征向量作为所述说话人的声纹特征。

8.一种语种翻译装置，其特征在于，包括：

9.一种语音翻译设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如权利要求1-7任一项所述的方法。

10.一种翻译机，其特征在于，包括如权利要求9所述的语音翻译设备。