CN109117484B

CN109117484B - 一种语音翻译方法和语音翻译设备

Info

Publication number: CN109117484B
Application number: CN201810917296.1A
Authority: CN
Inventors: 牛歌
Original assignee: Beijing Dipai Intelligent Technology Co Ltd
Current assignee: Beijing Dipai Intelligent Technology Co Ltd
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2019-08-06
Anticipated expiration: 2038-08-13
Also published as: CN109117484A

Abstract

本申请实施例提供了一种语音翻译方法和语音翻译设备，通过用户语音成分对齐获取两路语音信号中同一个用户的用户语音成分的时间差，根据时间差将两路语音信号进行信号叠加，将其中一个用户的用户语音成分的语音能量进行增强，得到属于该用户的语音增强信号，当两个用户同时说话时，可分别获取两个用户各自的用户语音成分的时间差，并根据时间差得到分别对应两个用户的语音增强信号，然后，根据增强语音信号就能够分别生成两个用户的译文语音信号。因此，本申请实施例提供的技术方案，能够全双工地翻译对话双方的说话内容，且一方说话不会导致另一方的译文信号输出中断，从而，在保证输出完整翻译语音的同时，提高对话双方的交流效率。

Description

一种语音翻译方法和语音翻译设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音翻译方法和语音翻译设备。

背景技术

语言不通的两个对话者在进行语音交流时，可以使用翻译机对双方的对话内容进行翻译，从而实现对话双方的有效交流。在现有技术中，一种翻译机的工作方式是：对话一方在说话时按压一次(或保持按住)翻译机的特定按键，使翻译机开始采集对话一方的语音信息，在对话一方再次按压(或松开)翻译机的特定按键时，翻译机停止采集语音信息，同时对已采集到的语音信息进行翻译，并输出翻译后的语音。可见，现有技术中，翻译机采集语音信息和输出翻译语音要通过两个步骤进行，且无法同时接受并翻译对话双方的语音信息，从而导致对话双方交流效率过低，使对话缺乏连贯性。

为了尝试提高对话双方通过翻译机进行对话交流时的效率，现有技术对翻译机提供了一种改良的工作方式，采用语音激活检测的方式检测对话者是否在说话，并采集有对话一方说话时的语音信息，从而，使用户无需通过按压特定按键的方式操作翻译机采集信息，这种方法仅简化了翻译机的操作过程，接收采集语音信息和输出翻译语音依然是需要通过两个步骤进行，对话双方交流依然效率过低。现有技术对翻译机还提供了另一种改良的工作方式，在翻译机输出翻译语音时，可以在接收到任何一方对话内容后中断当前输出，并转换为采集语音信息的状态，从而一定程度上提高对话双方的交流效率，但是，中断翻译机的语音输出会导致翻译语音的不完整，造成对话双方交流信息丢失。

由此可见，现有技术中翻译机的工作方式无法保证输出完整翻译语音的同时，提高对话双方的交流效率。

发明内容

本申请实施例提供了一种语音翻译方法和语音翻译设备，以解决现有技术翻译机的工作方式无法保证输出完整翻译语音的同时，提高对话双方的交流效率的问题。

第一方面，根据本申请实施例，提供了一种语音翻译方法，包括：

通过在翻译设备上分布设置的两个拾音单元采集包含用户语音成分的两路语音信号；

对两路所述语音信号进行用户语音成分对齐，以获取两路所述语音信号的时间差；

根据所述时间差，将两路所述语音信号进行信号对齐，并生成增强语音信号；

根据增强语音信号生成译文信号，所述译文信号包括译文语音信号和译文文本信号的至少一个。

第二方面，根据本申请实施例，提供了一种语音翻译设备，包括：

设备本体；

分布设置在所述设备本体两端的两个拾音单元，用于采集包含用户语音成分的两路语音信号；

设置在所述设备本体中心处的播放单元，用于输出译文语音信号；

设置于设备本体内部的信号处理模块，用于执行以下程序步骤：

由以上技术方案可知，本申请实施例提供了一种语音翻译方法和语音翻译设备，其中，所述方法包括：通过在翻译设备上分布设置的两个拾音单元采集包含用户语音成分的两路语音信号；对两路所述语音信号进行用户语音成分对齐，以获取两路所述语音信号的时间差；根据所述时间差，将两路所述语音信号进行信号对齐，并生成增强语音信号；根据增强语音信号生成译文信号，所述译文信号包括译文语音信号和译文文本信号的至少一个。用户语音成分对齐能够获取两路语音信号中同一个用户的用户语音成分的时间差，根据时间差将两路语音信号进行信号叠加，就能够将其中一个用户的用户语音成分的语音能量进行增强，得到属于该用户的语音增强信号，当两个用户同时说话时，可分别获取两个用户各自的用户语音成分的时间差，并根据时间差得到分别对应两个用户的语音增强信号，然后，根据增强语音信号就能够分别生成两个用户的译文语音信号。因此，本申请实施例提供的语音翻译方法和语音翻译设备，能够全双工地翻译对话双方的说话内容，且一方说话不会导致另一方的译文信号输出中断，从而，在保证输出完整翻译语音的同时，提高对话双方的交流效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例示出的一种语音翻译方法的流程图；

图2是本申请一示例性实施例示出的一种语音翻译方法步骤S130的流程图；

图3是本申请一示例性实施例示出的一种语音翻译方法步骤S140的流程图；

图4是本申请一示例性实施例示出的一种语音翻译方法更新时间差的流程图；

图5是本申请一示例性实施例示出的设置翻译设备工作状态的流程图；

图6是本申请一示例性实施例示出的一种语音翻译设备的结构示意图；

图7是本申请一示例性实施例示出的一种语音翻译设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了解决现有技术翻译机的工作方式无法保证输出完整翻译语音的同时，提高对话双方的交流效率的问题，本申请实施例提供了一种语音翻译方法和语音翻译设备。

下面是本申请的方法实施例。

图1是本申请一示例性实施例示出的一种语音翻译方法的流程图。该方法可应用于翻译机、机器人等设备中。

参见图1所示，该方法可以包括以下步骤：

步骤S110，通过在翻译设备上分布设置的两个拾音单元采集包含用户语音成分的两路语音信号；

本申请实施例中，翻译设备设置有两个拾音单元。为了便于描述本申请的技术方案，本申请实施例中将两个拾音单元分别称作第一拾音单元和第二拾音单元。翻译设备在使用时，对话双方各自位于靠近第一拾音单元一侧和靠近第二拾音单元一侧，其中，靠近第一拾音单元一侧的用户称作第一用户，靠近第二拾音单元一侧的用户称作第二用户。当第一用户和第二用户的其中之一说话时，两个拾音单元会分别采集包含用户语音成分的语音信号，从而得到两路语音信号，本申请实施例中将第一拾音单元采集的语音信号称作第一路语音信号，将第二拾音单元采集的语音信号称作第二路语音信号。优选地，第一拾音单元和第二拾音单元在翻译设备上的距离应尽量远，例如设置在翻译设备的两端，以减小两个拾音单元之间可能出现的电磁干扰。

本申请实施例中，每个拾音单元可以包含一个麦克风或者是包含多个麦克风组成的麦克风阵列。如果拾音单元只包含一个麦克风，那么这两个拾音单元的麦克风型号或性能参数应该相同，如果拾音单元包含一个麦克风阵列，那么这两个麦克风阵列中麦克风的布局、型号或性能参数应该相同，使两个拾音单元不存在硬件上的差异，消除硬件差异对采集语音信号造成的影响。

步骤S120，对两路所述语音信号进行用户语音成分对齐，以获取两路所述语音信号的时间差；

由于第一拾音单元和第二拾音单元在翻译设备上分布设置，用户到每个拾音单元的距离不同而产生距离差，当其中一个用户说话时，用户语音经过空气传输后会在不同的时刻先后被两个拾音单元采集到(例如：当第一用户说话时，第一用户的用户语音会先传输到第一拾音单元，并经过一个时间差后，传输到第二拾音单元)，从而使两个拾音单元采集到的两路语音信号中的用户语音成分存在时间差。

本申请实施例中，可以根据语音信号的波形对两路语音信号进行用户语音成分对齐。具体地，用户语音被拾音单元采集后，通过AD转换和采样后形成语音信号，这种语音信号可以是波形信号，由于，两个拾音单元采集到的两路语音信号中的用户语音成分存在时间差，两路语音信号的波形是不同步的，因此，以一路语音信号为基准信号，另一路语音信号为测试信号，将测试信号进行时间轴上的移位，就可以将两路语音信号的用户语音成分对齐，并根据语音信号在时间轴上移位的距离得到两路语音信号的时间差。

在一种可选择的实施方式中，步骤S120可以通过使用DTW(动态时间规整)来实现。通过使用时间规整函数来描述基准信号和测试信号之间的时间对应关系，计算两路信号累计距离最小时，测试信号的移位距离，从而得到两路信号的时间差。

步骤S130，根据所述时间差，将两路所述语音信号进行信号对齐，并生成增强语音信号；

本申请实施例中，基本思路是：当用户说话时，通过将两个拾音单元采集到的两路语音信号进行叠加，使这两路语音信号中共同包含的相同用户的用户语音成分得到增强，即产生了增强语音信号，增强语音信号用于产生用户的译文语音信号。

图2是本申请一示例性实施例示出的一种语音翻译方法步骤S130的流程图。

如图2所示，在一种可选择的实施方式中，步骤S130可以包括以下步骤：

步骤S131，根据用户位置确定两个拾音单元中的近端拾音单元和远端拾音单元；所述近端拾音单元获取两路所述语音信号中的近端语音信号，所述远端拾音单元获取两路所述语音信号中的远端语音信号；

具体地，可根据两路语音信号的时间差确定说话的用户的位置，进而确定相对用户位置的近端拾音单元和远端拾音单元。例如，如果第一路语音信号先于第二路语音信号出现了用户语音成分，说明用户的位置更靠近第一拾音单元，即可确定用户为第一用户，那么相对于第一用户而言，第一路语音信号就是近端语音信号，第二路语音信号就是远端信号。

可以理解的是，本申请实施例中的近端语音信号和远端语音信号是一个相对概念，即对于第一用户来说，第一路语音信号是近端语音信号，第二路语音信号是远端语音信号；而对于第二用户来说，第二路语音信号是近端语音信号，第一路语音信号是远端语音信号。

步骤S132，根据所述时间差，对所述远端语音信号向前移位修正，生成远端移位语音信号；

示例地，当第一用户说话时，第一路语音信号为近端信号，第二路语音信号为远端信号，在步骤S132中根据第一路语音信号和第二路语音信号的时间差，将第二路语音信号在时间轴上向前移动一个时间差的距离，生成远端移位语音信号，远端移位语音信号和第一路语音信号中包含的第一用户的用户语音成分在时间轴上是同步的。当第二用户说话时，第二路语音信号为近端信号，第一路语音信号为远端信号，在步骤S132中根据第一路语音信号和第二路语音信号的时间差，将第一路语音信号在时间轴上向前移动一个时间差的距离，生成远端移位语音信号，远端移位语音信号和第二路语音信号中包含的第二用户的用户语音成分在时间轴上是同步的。

步骤S133，将所述远端移位语音信号与所述近端语音信号进行信号叠加，生成所述增强语音信号。

本申请实施例中，基本思路是通过将远端移位语音信号与近端语音信号进行信号叠加，以增强近端路语音信号中所包含的近端用户(第一拾音单元的近端用户是第一用户，第二拾音单元的近端用户是第二用户)的用户语音成分，生成增强语音信号。本申请生成的增强语音信号中，近端用户的用户语音成分的语音能量得到增强，从而能都削弱语音信号中的噪音和远端用户(第一拾音单元的远端用户是第二用户，第二拾音单元的远端用户是第一用户)的用户语音成分的干扰。

示例地，当第一用户说话时，远端移位语音信号由第二路语音信号经过移位后获得，近端语音信号为第一路语音信号，在步骤S133中，需要将远端移位语音信号与第一路语音信号进行叠加，生成第一用户的增强语音信号。当第二用户说话时，远端移位语音信号由第一路语音信号经过移位后获得，近端语音信号为第二路语音信号，在步骤S133中，需要将远端移位语音信号与第二路语音信号进行叠加，生成第二用户的增强语音信号。

步骤S140，根据增强语音信号生成译文信号，所述译文信号包括译文语音信号和译文文本信号的至少一个。

本申请实施例中，基本思路是：对增强语音信号进行语音识别，得到待翻译文本，并对待翻译文本进行翻译，生成译文信号，该译文信号可以是译文语音信号，通过翻译设备的播放单元输出，也可以是译文文本信号，通过在播放设备上设置的显示屏输出。

图3是本申请一示例性实施例示出的一种语音翻译方法步骤S140的流程图。

如图3所示，在一种可选择的实施方式中，当所述译文信号包括译文语音信号时，步骤S140可以包括以下步骤：

步骤S141，使用预设的语种识别模型，获取所述增强语音信号的语种；

本申请实施例中，基本思路是：首先，通过VAD(语音激活检测)去除增强语音信号中位于信号首尾端的静音部分；然后，然后对增强语音信号的波形进行分帧，即按照预设的帧长和帧移将增强语音信号的波形切分成带有交叠的波形片段，每个波形片段为一帧；然后，对分帧后的波形片段进行声学特征提取，例如提取波形的MFCC(梅尔频率倒谱系数)特征等，把每一帧语音转化成一个多维向量，从而增强语音信号就转化成了一个特征矩阵；最后，将特征矩阵输入到预设的语种识别模型中，以获取增强语音信号对应的语种，该语种识别模型可以包含多个音素识别器，每个音素识别器对应一个语种，并使用该语种对应的音素集合训练而成，这些音素识别器分别对输入的特征矩阵进行语种的预测，并给出预测的似然值，最大似然值所对应的语种就是增强语音信号的语种。

步骤S142，使用对应语种的语音识别模型将所述增强语音信号识别成待翻译文本；

本申请对增强语音信号的波形进行分帧后，每一帧语音对应一个状态，每几个状态组合成一个音素，几个音素组合成一个字或词，也就是说，只要知道每一帧语音对应哪一个状态，语音识别的结果也就出来了。本申请实施例中，可使用隐马尔可夫模型结合维特比算法(Viterbi)将增强语音信号识别成待翻译文本，隐马尔科夫模型中包含观察概率、发射概率、语言概率三个参数构成的增强语音信号全部帧语音的状态网络。其中，观察概率表示每一帧语音和每个状态对应的概率；转移概率表示每个状态转移到自身或转移到下个状态的概率；语言概率表示根据语言统计规律得到的概率。观察概率和转移概率可以从声学模型中获取，声学模型可以通过大量的语音数据进行训练获得；语言概率可以从语言模型中获得，语言模型可以使用大量的文本训练获得，并利用语种自身的统计规律提升语言模型的准确率。

步骤S143，将所述待翻译文本翻译成预设语种的译制文本；

本申请实施例中，可以使用对应语种的翻译引擎将待翻译文本翻译成译制文本，此时，如果翻译设备上设置有显示屏，可将该译制文本转化成译文文本信号，并发送给显示屏显示。

可选地，翻译设备上可设置有两个显示屏，分别为设置在第一拾音单元一侧的第一显示屏和设置在第二拾音单元一侧的第二显示屏。当第一用户说话时，将译文文本信号发送给第二显示屏，由第二显示屏将译制文本显示给第二用户，当第二用户说话时，将译文文本信号发送给第一显示屏，由第一显示屏将译制文本显示给第一用户。

步骤S144，根据所述译制文本生成译文语音信号，并将所述译文语音信号通过翻译设备的播放单元输出。

本申请实施例中，播放单元可设置在翻译设备的中心处，与每个拾音单元的距离相等，从而，当播放单元播放译文语音时，译文语音能够以相同的波形和能量同步被两个拾音单元采集到，便于两个拾音单元将译文语音从语音信号中采集到的语音信号中滤除。

对话双方在进行语言交流时，情绪也是一种重要的信息表达方式，应该让说话双方均能够从译文语音中体会到对方的情绪，例如：严肃、喜悦、怀疑等，以便对对方的说话内容进行更好的理解。但是，现有技术中的语音翻译方法生成的译文语音只是对译制文本的简单播报，即译文语音没有表达出用户的情绪，或者说，用户情绪所表达的信息在翻译的过程中丢失了。本申请实施例中，为了使翻译设备输出的译文语音能够表达出用户的情绪，可以使用情绪分类模型从增强语音信号中提取出用户的情绪特征并确定当前用户的情绪，然后，根据用户的情绪，在生成译文语音信号时，在译文语音信号中渲染进用户的情绪特征，使播放设备输出的译文语音的语气与用户的情绪相同。

现有技术的在一种可选择的实施方式中，本申请实施例还可以使用声纹模型获取用户的性别特征，从而使用与用户性别相同的配音去播放译文语音，即当用户为男性时，使用男生配音播放译文语音，当用户为女性时，使用女生配音播放译文语音。

在一种可选择的实施方式中，本申请实施例提供的一种语音翻译方法还包括：

步骤S134，根据所述时间差，对所述远端语音信号向后移位修正，生成近端移位语音信号。

本申请实施例中，基本思路是根据近端语音信号和远端语音信号的时间差，将近端语音信号在时间轴上向后移动一个时间差的距离，生成近端移位语音信号，近端移位语音信号和远端语音信号中包含的远端用户的用户语音成分在时间轴上是同步的。

步骤S135，使用所述近端移位语音信号抵消所述远端语音信号。

示例地，当第一用户说话时，近端移位语音信号由第一路语音信号经过移位后获得，远端语音信号为第二路语音信号，在步骤S134中，需要使用近端移位语音信号对第二路语音信号进行消除，以从第二路语音信号中去除掉第一用户的用户语音成分。当第二用户说话时，近端移位语音信号由第二路语音信号经过移位后获得，远端语音信号为第一路语音信号，在步骤S134中，需要使用近端移位语音信号对第一路语音信号进行消除，以从第一路语音信号中去除掉第二用户的用户语音成分。

通过使用近端移位语音信号抵消远端语音信号，使第一拾音单元最终采集到的第一语音信号中的第二用户的用户语音成分被去除，也使第二拾音单元最终采集到的第二语音信号中的第一用户的用户语音成分被去除，从而，当第一用户和第二用户同时说话时，每个用户的用户语音成分只存在于其对应的近端语音信号中，而不存在于远端语音信号中，从而实现了对用户双方用户语音成分的全双工采集。

图4是本申请一示例性实施例示出的一种语音翻译方法更新时间差的流程图。

参见图4所示，在一种可选择的实施方式中，更新时间差可以包括以下步骤：

步骤S210，获取信号对齐后的两路所述语音信号的相关度。

其中，相关度表示两路语音信号对齐后的同步程度。相关度例如可以通过计算两路语音信号在频域上的频点幅度的相近程度获得。

步骤S220，分析所述相关度是否低于预设阈值。

步骤S230，如果低于预设阈值，则重新获取所述时间差。

本申请实施例中考虑到用户使用翻译设备时，由于肢体动作等原因，用户相对于翻译设备的距离会实时变化，从而导致相关度也发生波动，但是，当用户不进行行走等大幅度位移的动作时，用户相对翻译设备的为之变化是有限的，相关度的波动很小，也不会影响到语音信号的叠加或抵消。因此，本申请实施例为相关度预设了一个阈值，当相关度低于预设的阈值时，重新获取时间差，并使用重新获取的时间差再次进行语音信号的对齐，当相关度不低于预设的阈值时，不重新获取时间差，以降低资源的消耗。

图5是本申请一示例性实施例示出的设置翻译设备工作状态的流程图。

在一种可选择的实施方式中，本申请实施例设置翻译设备工作状态可以包括以下步骤：

步骤S310，获取所述翻译设备的工作状态，所述工作状态包括语音激活状态和待机状态；

步骤S311，如果所述翻译设备处于待机状态，监测是否获取到语音激活信号；

步骤S3111，如果获取到语音激活信号，将所述翻译设备的工作状态设置为语音激活状态；

步骤S312，如果所述翻译设备处于语音激活状态，分析两路所述语音信号是否在持续的预设时长内不包含用户语音成分；

步骤S3121，如果不包含用户语音成分，将所述翻译设备的工作状态设置为待机状态。

本申请实施例中，当翻译设备处于语音激活状态时，两个拾音单元均工作，以在用户说话时能够采集到语音信号，并且，如果翻译设备上有显示屏，显示屏处于亮屏状态，用于显示译制文本。当翻译设备处于待机状态时，两个拾音单元均不工作或者仅有一个工作，以实现节能，此外，如果翻译设备上有显示屏，显示屏处于熄屏状态。当翻译设备处于待机状态时，如果两个拾音单元均不工作，可以使用翻译设备上的按键发出语音激活信号，设置翻译设备进入激活状态，如果有一个拾音单元工作，则用户可以通过预设的语音口令使翻译设备进入语音激活状态，示例地，用户说：“开始翻译”，翻译设备通过拾音单元采集到包含用户语音成分的语音信号，并通过语音识别模型识别用户说话内容为“开始翻译”此时，翻译设备产生语音激活信号使自身进入语音激活状态；当翻译设备处于语音激活状态时，分析两路所述语音信号是否在持续的预设时长内不包含用户语音成分，当持续的预设时长内不包含用户语音成分，说明用户已经使用完翻译设备，此时，为了节能，可将翻译设备的工作状态设置为待机状态。

步骤S410，分析所述增强语音信号识别得到的文本中是否包含预设指令文本；

本申请实施例中，可以对翻译设备预设一些指令文本，以实现用户通过说话的方式向翻译设备施加指令，使翻译设备根据用户施加的指令完成各种指令操作。其中，指令操作至少包括中断播放单元的语音输出和改变翻译设备的输出语种。示例地，预设指令文本可以是：“停止语音输出”“开启文本输出”“关闭麦克风”“将输出语种修改为法语”等。

步骤S420，如果包含所述预设指令文本，根据所述预设指令文本对所述翻译设备执行指令操作；

示例地，当播放单元正在输出译文语音信号时，如果用户说“停止语音输出”，那么，翻译设备会马上中断播放译文语音。

由以上技术方案可知，本申请实施例提供了一种语音翻译方法，包括：通过在翻译设备上分布设置的两个拾音单元采集包含用户语音成分的两路语音信号；对两路所述语音信号进行用户语音成分对齐，以获取两路所述语音信号的时间差；根据所述时间差，将两路所述语音信号进行信号对齐，并生成增强语音信号；根据增强语音信号生成译文信号，所述译文信号包括译文语音信号和译文文本信号的至少一个。用户语音成分对齐能够获取两路语音信号中同一个用户的用户语音成分的时间差，根据时间差将两路语音信号进行信号叠加，就能够将其中一个用户的用户语音成分的语音能量进行增强，得到属于该用户的语音增强信号，当两个用户同时说话时，可分别获取两个用户各自的用户语音成分的时间差，并根据时间差得到分别对应两个用户的语音增强信号，然后，根据增强语音信号就能够分别生成两个用户的译文语音信号。因此，本申请实施例提供的语音翻译方法，能够全双工地翻译对话双方的说话内容，且一方说话不会导致另一方的译文信号输出中断，从而，在保证输出完整翻译语音的同时，提高对话双方的交流效率。

下面是本申请的设备实施例，可用于执行本申请的方法实施例。对于本申请设备实施例中未披露的细节，请参照本申请方法实施例。

图6和图7是本申请一示例性实施例示出的一种语音翻译设备的结构示意图。

如图6和图7所示，本申请实施例提供的语音翻译设备，包括：

设备本体50；

分布设置在所述设备本体50两端的两个拾音单元51，用于采集包含用户语音成分的两路语音信号；

设置在所述设备本体50中心处的播放单元52，用于输出译文语音信号；

设置于设备本体50内部的信号处理模块53，用于执行以下程序步骤：

本申请实施例中，在设备本体50上设置两个拾音单元51的作用是：通过两个拾音单元51的协作能够将用户的语音信号从环境噪音中分离；并且，当两个用户同时说话时，两个拾音单元51可根据用户语音进入拾音单元51的时间差判断出声音来自哪个用户，这样，就能够实现在用户对话过程中，用户不再需要指定翻译设备的翻译方向(例如：从中文翻译到英文，或者，从英文翻译到中文)，并且，两个拾音单元51可同时有分工地处理两个用户的语音信号，互不干扰，实现全双工翻译。

本申请实施例中的设备本体50可以是一个近似的长方体，两个拾音单元51分布设置在设备本体50的近似长方体的长边的两端，使两个拾音单元51的距离最远。播放单元52设置于设备本体50的中心位置，优选播放单元52与每个拾音单元51的距离相等，使播放单元52输出的译文语音(对拾音单元来说属于噪音)能够同时进入拾音单元51，便于拾音单元51进行抵消；并且，优选播放单元52与两个拾音单元51布置在相反的方向，即：如果两个拾音单元51是朝上布置，那么，播放单元52就朝下布置，使播放单元52输出的译文语音朝着与拾音单元51相反的方向传播，减少进入到拾音单元51的语音能量，以降低播放单元52对拾音单元51采集用户语音成分的干扰。

在一种可选择的实施方式中，翻译设备上设置有拾音单元51的两端可以分别设置一块显示屏54，显示屏54可支持触摸功能，用于用户通过在显示屏54上执行触摸操作对翻译设备进行设置，以及在翻译设备进行语音翻译的过程中显示译制文本。此外，设备本体50上还可以设置多个按键，例如：强制停止按键55、电源/激活键56和音量控制键57等。其中，用户可使用强制停止按键55中断播放单元52播放译文语音的过程；可使用电源/激活键56更改翻译设备的播放状态，例如当翻译设备处于待机状态时，点击或长按一次电源/激活键56使翻译设备进入语音激活状态，当翻译设备处于语音激活状态时，点击或长按一次电源/激活键56使翻译设备进入待机状态；还可使用音量控制键57调整播放单元52的输出音量。此外，还可以在设备本体50上设置一个或多个信号灯58，用于显示翻译设备工作状态。

本申请实施例中，每个拾音单元51可以包含一个麦克风或者是包含多个麦克风组成的麦克风阵列。如果每个拾音单元包含一个麦克风，那么这两个拾音单元的麦克风的型号或性能参数应该相同，如果每个拾音单元包含一个麦克风阵列，那么这两个麦克风阵列中麦克风的布局、型号或性能参数应该相同，使两个拾音单元不存在硬件上的差异，消除硬件差异对语音信号的影响。

本申请实施例中，播放单元52可以包含一个或多个扬声器，这些扬声器可分别或共同输出对应不同用户的译文语音信号。此外，设备本体50还可设置有音频接口59，用于连接耳机或其他外放设备，实现将译文语音信号通过用户佩戴的有线耳机输出或通过其他外放设备输出。此外，设备本体50还可内置蓝牙模块或其他数据传输模块，使播放设备可以与蓝牙耳机或蓝牙音箱无线连接，实现将译文语音信号通过用户佩戴的蓝牙耳机输出或蓝牙音箱输出。

在一种可选择的实施方式中，本申请实施例提供的翻译设备可以有以下使用方式：首先，长按电源/激活键56开启翻译设备，并通过显示屏54和按键设置对话双方的语言，使翻译设备进入语音激活状态；然后翻译设备可以使用多种工作模式进行语音翻译，例如：全双工模式，即同时播放用户双方的译文语音；单方连续模式，即用户一方可连续说话，翻译设备连续播放一方的译文语音，直到对方用户说话或者通过强制停止按键55实施强制停止操作；打断模式，当翻译设备正在播放译文语音时，任何一方用户说话或者通过强制停止按键55实施强制停止操作，翻译设备都会停止播放；单工模式，除非有用户通过强制停止按键55实施强制停止操作，否则翻译设备的播放过程不会停止。

需要补充说明的是，用户除了通过按键操作的方式改变翻译设备的工作状态以外，还可以通过说出预设的语音口令的方式改变翻译设备的工作状态，例如，当用户说“开始翻译”时，翻译设备产生语音激活信号使自身进入语音激活状态。

在一种可选择的实施方式中，信号处理模块53执行的全部或部分程序步骤可以移交给云端服务器执行。由于云端服务器的计算能力更强，将信号处理模块53执行的全部或部分程序步骤移交给云端服务器执行有利于提高语音翻译的准确性和翻译速度，此时，设备本体上还需设置RJ45等网络接口或内置Wi-Fi通信模块，使设备本体50能够通过有线网络传输或无线网络传输的方式连接到云端服务器。

由以上技术方案可知，本申请实施例提供了一种语音翻译设备，包括，设备本体；分布设置在所述设备本体两端的两个拾音单元，用于采集包含用户语音成分的两路语音信号；设置在所述设备本体中心处的播放单元，用于输出译文语音信号；设置于设备本体内部的信号处理模块，用于执行以下程序步骤：对两路所述语音信号进行用户语音成分对齐，以获取两路所述语音信号的时间差；根据所述时间差，将两路所述语音信号进行信号对齐，并生成增强语音信号；根据增强语音信号生成译文信号，所述译文信号包括译文语音信号和译文文本信号的至少一个。用户语音成分对齐能够获取两路语音信号中同一个用户的用户语音成分的时间差，根据时间差将两路语音信号进行信号叠加，就能够将其中一个用户的用户语音成分的语音能量进行增强，得到属于该用户的语音增强信号，当两个用户同时说话时，可分别获取两个用户各自的用户语音成分的时间差，并根据时间差得到分别对应两个用户的语音增强信号，然后，根据增强语音信号就能够分别生成两个用户的译文语音信号。因此，本申请实施例提供的语音翻译设备，能够全双工地翻译对话双方的说话内容，且一方说话不会导致另一方的译文信号输出中断，从而，在保证输出完整翻译语音的同时，提高对话双方的交流效率。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语音翻译方法，其特征在于，包括：

根据增强语音信号生成译文信号，所述译文信号包括译文语音信号和译文文本信号的至少一个；

所述根据时间差，将两路所述语音信号进行信号对齐，并生成增强语音信号，包括：

根据用户位置确定两个拾音单元中的近端拾音单元和远端拾音单元；所述近端拾音单元获取两路所述语音信号中的近端语音信号，所述远端拾音单元获取两路所述语音信号中的远端语音信号；

根据所述时间差，对所述远端语音信号向前移位修正，生成远端移位语音信号；

将所述远端移位语音信号与所述近端语音信号进行信号叠加，生成所述增强语音信号。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述时间差，对所述近端语音信号向后移位修正，生成近端移位语音信号；

使用所述近端移位语音信号抵消所述远端语音信号。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取信号对齐后的两路所述语音信号的相关度；

分析所述相关度是否低于预设阈值；

如果低于预设阈值，则重新获取所述时间差。

4.根据权利要求1所述的方法，其特征在于，当所述译文信号包括译文语音信号时，所述根据增强语音信号生成译文信号，包括：

使用预设的语种识别模型，获取所述增强语音信号对应的语种；

使用对应语种的语音识别模型将所述增强语音信号识别成待翻译文本；

将所述待翻译文本翻译成预设语种的译制文本；

根据所述译制文本生成译文语音信号，并将所述译文语音信号通过翻译设备的播放单元输出。

5.根据权利要求1所述的方法，其特征在于，还包括：

获取所述翻译设备的工作状态，所述工作状态包括语音激活状态和待机状态；

如果所述翻译设备处于待机状态，监测是否获取到语音激活信号；

如果获取到语音激活信号，将所述翻译设备的工作状态设置为语音激活状态。

6.根据权利要求5所述的方法，其特征在于，还包括：

如果所述翻译设备处于语音激活状态，分析两路所述语音信号是否在持续的预设时长内不包含用户语音成分；

如果不包含用户语音成分，将所述翻译设备的工作状态设置为待机状态。

7.根据权利要求4所述的方法，其特征在于，还包括：

分析所述增强语音信号识别得到的文本中是否包含预设指令文本；

如果包含所述预设指令文本，根据所述预设指令文本对所述翻译设备执行指令操作；

其中，所述指令操作至少包括中断所述播放单元的语音输出和改变所述翻译设备的输出语种。

8.一种语音翻译设备，其特征在于，包括：

设备本体；

9.根据权利要求8所述的语音翻译设备，其特征在于，

所述播放单元与每个所述拾音单元的距离相等。