CN113299309A

CN113299309A - 语音翻译方法及装置、计算机可读介质和电子设备

Info

Publication number: CN113299309A
Application number: CN202110573627.6A
Authority: CN
Inventors: 江忠泽; 徐若愚; 邓春龙
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-24

Abstract

本公开提供一种语音翻译方法、语音翻译装置、计算机可读介质和电子设备，涉及音频处理技术领域。该方法包括：采集原始语音数据，并对原始语音数据进行语音人数检测；在语音人数为多个时，对原始语音数据进行语音分离，以获取多个单人语音数据；分别将多个单人语音数据翻译为目标语言，并播放翻译结果。本公开通过在语音人数为多个时，对原始语音数据进行语言分离，并对分离得到的多个单人语音数据进行翻译，可以避免多人同时讲话时无法翻译或者翻译结果不准确等问题。

Description

语音翻译方法及装置、计算机可读介质和电子设备

技术领域

本公开涉及音频处理技术领域，具体涉及一种语音翻译方法、语音翻译装置、计算机可读介质和电子设备。

背景技术

随着社会的不断发展，尤其是交通运输等行业的快速发展，世界变得越来越“小”，出国旅游或者跨国洽谈等情况出现的越来越频繁。由于各国公民所使用的母语不同，因此常常出现交流障碍等问题。针对这种问题，人们常借助翻译机进行交流。在相关技术中，翻译机的使用过程通常如下：当用户A讲话时需要按住按键录音，录音结束松开录音按键后由翻译机将翻译结果以语音/文字的形式给用户B听/看，用户B讲话时按住另一个按键录音，录音结束后由翻译机将翻译结果以语音/文字的形式给用户A听/看。

发明内容

本公开的目的在于提供一种语音翻译方法、语音翻译装置、计算机可读介质和电子设备，进而至少在一定程度上避免多人同时讲话时无法翻译或翻译结果不准确的问题。

根据本公开的第一方面，提供一种语音翻译方法，包括：采集原始语音数据，并对原始语音数据进行语音人数检测；在语音人数为多个时，对原始语音数据进行语音分离，以获取多个单人语音数据；分别将多个单人语音数据翻译为目标语言，并播放翻译结果。

根据本公开的第二方面，提供一种语音翻译装置，包括：语音检测模块，用于采集原始语音数据，并对原始语音数据进行语音人数检测；语音分离模块，用于在语音人数为多个时，对原始语音数据进行语音分离，以获取多个单人语音数据；语音翻译模块，用于分别将多个单人语音数据翻译为目标语言，并播放翻译结果。

根据本公开的第三方面，提供一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法。

根据本公开的第四方面，提供一种电子设备，其特征在于，包括：处理器；以及存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

本公开的一种实施例所提供的语音翻译方法，在采集到原始语音数据后，通过对原始语音数据进行语音人数检测确定原始语音数据中的同时说话的人数；在语音人数为多个，即存在多个人同时说话的情况时，可以通过对原始语音数据进行语言分离，以获取多个单人语音数据，然后分别将多个单人语音翻译为目标语音并播放翻译结果，以实现语音翻译的目的。通过在语音人数为多个时，对原始语音数据进行语言分离，并对分离得到的多个单人语音数据进行翻译，可以避免多人同时讲话时无法翻译或者翻译结果不准确等问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的一种示例性系统架构的示意图；

图2示出了可以应用本公开实施例的一种电子设备的示意图；

图3示意性示出本公开示例性实施例中一种语音翻译方法的流程图；

图4示意性示出本公开示例性实施例中一种将多个单人语音数据翻译为目标语言的方法的流程图；

图5示意性示出本公开示例性实施例中一种应用场景的示意图；

图6示意性示出本公开示例性实施例中另一种语音翻译方法的流程图；

图7示意性示出本公开示例性实施例中一种语音翻译装置的组成示意图；

图8示意性示出本公开示例性实施例中另一种语音翻译装置的组成示意图；

图9示意性示出本公开示例性实施例中又一种语音翻译装置的组成示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种语音翻译方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是各种具有音频处理功能的电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的语音翻译方法一般由终端设备101、102、103中执行，相应地，语音翻译装置一般设置于终端设备101、102、103中。但本领域技术人员容易理解的是，本公开实施例所提供的语音翻译方法也可以由服务器105执行，相应的，语音翻译装置也可以设置于服务器105中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，可以通过终端设备101、102、103采集原始语音数据，并对原始语音数据进行人数检测；在语音人数为多个时，终端设备101、102、103可以直接对原始语音数据进行语音分离，并将得到的多个单人语音数据翻译为目标语音，然后播放翻译结果。

本公开的示例性实施方式提供一种用于实现语音翻译方法的电子设备，其可以是图1中的终端设备101、102、103或服务器105。该电子设备至少包括处理器和存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行语音翻译方法。

下面以图2中的移动终端200为例，对电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图2中的构造也能够应用于固定类型的设备。在另一些实施方式中，移动终端200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出，并不构成对移动终端200的结构限定。在另一些实施方式中，移动终端200也可以采用与图2不同的接口连接方式，或多种接口连接方式的组合。

如图2所示，移动终端200具体可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(subscriber identification module，SIM)卡接口295等。其中传感器模块280可以包括骨传导传感器2801、深度传感器2802、压力传感器2803等。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-Network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

NPU为神经网络(Neural-Network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现移动终端200的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。在一示例性实施例中，NPU可以用于执行语音人数检测、语音分离以及语音翻译等步骤。

处理器210中设置有存储器。存储器可以存储用于实现六个模块化功能的指令：检测指令、连接指令、信息管理指令、分析指令、数据传输指令和通知指令，并由处理器210来控制执行。

移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。其中，天线1和天线2用于发射和接收电磁波信号；移动通信模块250可以提供应用在移动终端200上的包括2G/3G/4G/5G等无线通信的解决方案；调制解调处理器可以包括调制器和解调器；无线通信模块260可以提供应用在移动终端200上的包括无线局域网(Wireless Local Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)、蓝牙(Bluetooth，BT)等无线通信的解决方案。在一些实施例中，移动终端200的天线1和移动通信模块250耦合，天线2和无线通信模块260耦合，使得移动终端200可以通过无线通信技术与网络以及其他设备通信。在一些实施例中，可以通过无线通信方式连接多个无线耳机，并通过无线耳机采集原始语音数据。

移动终端200通过GPU、显示屏290及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏290和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。在一些实施例中，还可以通过文字的形式播放翻译结果，因此可以通过GPU、显示屏290及应用处理器等将翻译结果显示于显示屏290上。

移动终端200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。

音频模块270用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中，音频模块270可以设置于处理器210中，或将音频模块270的部分功能模块设置于处理器210中。

扬声器271，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备200可以通过扬声器271收听音乐，或收听免提通话。在一示例性实施例中，可以通过扬声器播放翻译结果。

受话器272，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备200接听电话或语音信息时，可以通过将受话器272靠近人耳接听语音。在一示例性实施例中，可以通过受话器采集原始语音数据。

麦克风273，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风273发声，将声音信号输入到麦克风273。电子设备200可以设置至少一个麦克风273。在另一些实施例中，电子设备200可以设置两个麦克风273，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备200还可以设置三个，四个或更多麦克风273，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。在一示例性实施例中，也可以通过麦克风来采集原始语音数据。

骨传导传感器2801可以获取振动信号。在一些实施例中，骨传导传感器2801可以获取人体声部振动骨块的振动信号。骨传导传感器2801也可以接触人体脉搏，接收血压跳动信号。在一示例性实施例中，骨传导传感器2801也可以设置于耳机中，结合成骨传导耳机，并通过骨传导耳机播放翻译结果。

深度传感器2802用于获取景物的深度信息。压力传感器2803用于感受压力信号，可以将压力信号转换成电信号。此外，还可以根据实际需要在传感器模块280中设置其他功能的传感器，例如陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器等。

在相关技术中，为了实现同声传译，通常直接对采集到的语音数据进行翻译，以得到翻译结果。然而，这种方法没有考虑多人同时说话的情形，比如在辩论等场景中，同一语音数据中可能同时包括多个发出语音的人，此时，由于采集到的语音数据同时掺杂了多个声音，因此在直接对采集的语音数据进行翻译时，多个声音的互相干扰可能会导致无法翻译或者翻译结果不准确等问题。

基于上述一个或多个问题，本示例实施方式提供了一种语音翻译方法。该语音翻译方法可以应用于上述终端设备101、102、103中的一个或多个，也可以应用于上述服务器105，本示例性实施例中对此不做特殊限定。参考图3所示，该语音翻译方法可以包括以下步骤S310至S330：

在步骤S310中，采集原始语音数据，并对原始语音数据进行语音人数检测。

其中，原始语音数据可以包括通过终端设备本身配置的语音采集设备，例如麦克风、受话器等设备，采集得到的原始语音数据；此外，原始语音数据也可以是终端设备接收的其他终端设备采集的语音数据，本公开对此不做特殊限定。例如，终端设备可以接收蓝牙耳机采集的语音数据作为原始语音数据。

需要说明的是，由于原始语音数据是通过语音采集设备采集到的，因此原始语音数据中可以包括一个或多个用户发出的语音，同时还可能包括终端设备所处环境中的声音。例如，终端设备处于汽车上，则还可以采集到汽车喇叭、汽车行驶噪音等声音。

在一示例性实施例中，由于采集到的原始语音数据中可能包括用户发出的人声以外的声音，例如终端设备所处环境中的声音。此时，为了避免原始语音数据中人声以外声音的噪音干扰，可以先对原始语音数据进行语音增强处理，以消除原始语音数据中的噪音。其中，对原始语音数据进行语音增强时，可以根据需求选择不通的语音增强算法，以消除噪声，保留更加清晰的人声。需要说明的是，由于在翻译过程中通常是对人声进行翻译，因此可以将人声以外的所有声音定义为噪声。在进行语音增强时，可以消除原始语音数据中所有的噪声。

在一示例性实施例中，在得到原始语音数据后，可以对原始语音数据进行语音人数检测，以确定原始语音数据中包括的语音人数。其中，对原始语音数据进行语音人数检测时，可以选择人个数判别算法，用于判断原始语音数据或经过语音增强后的原始语音数据中包括一个还是多个用户说话的语音。

需要说明的是，若在语音采集设备采集该原始语音数据的时间段内，语音采集设备的采集范围内，存在至少2个用户同时发出语音的情况，此时原始语音数据中可以同时包括至少2个用户发出的语音。此时，对该原始语音数据进行语音人数检测时，则可以检测该原始语音数据中包括多少个用户发出的语音。例如，在用户A和用户B同时说话时，采集的原始语音数据中则同时包括用户A说话的语音数据和用户B说话的语音数据。因此，针对原始语音数据进行语音人数检测时，可以判断原始语音数据的语音人数为2个。

通过进行语音人数的检测，可以针对多人语音和单人语音进行不同的处理，避免在原始语音数据仅包括一个用户的语音数据时，仍然对原始语音数据进行语音分离导致的计算资源的浪费。

在步骤S320中，在语音人数为多个时，对原始语音数据进行语音分离，以获取多个单人语音数据。

在一示例性实施例中，在对原始语音数据进行语音人数检测之后可以得到原始语音数据中的语音人数。在语音人数为多个时，可以说明在采集原始语音数据中，存在多个用户同时说话的情况，此时需要对原始语音数据进行语音分类，以获取多个单人语音数据。其中，在对原始语音数据进行语音分离时，可以按照需求选择语音分离算法进行语音分离。例如，在得到包含n(n大于等于2)个用户语音数据的原始语音数据后，可以通过语音分离算法将包含的n个用户语音数据的原始语音数据分离成为n个单人语音数据。

在步骤S330中，分别将多个单人语音数据翻译为目标语言，并播放翻译结果。

在一示例性实施例中，在对原始语音数据进行语音分离得到多个单人语音数据之后，可以针对每个单人语音数据，分别将单人语音数据翻译为目标语言，并播放翻译结果。其中，在进行翻译时，可以先对将单人语音数据转换为待译语言文字，然后将待译语言文字翻译成目标语言文字作为翻译结果；还可以对目标语言文字进行进一步转换，将其转换为目标语言语音，然后将目标语言语音作为翻译结果。

需要说明的是，在进行翻译时，翻译结果可以包括目标语言对应的语音或文字。对应的，在播放翻译结果时，可以通过蓝牙耳机、扬声器等语音播放设备实现对语音版翻译结果的语音播放；也可以通过屏幕等显示设备实现对文字版翻译结果的文字播放。

此外，由于翻译结果可以包括目标语言对应的文字，因此可以通过导出翻译结果的方式实现翻译历史记录，进而实现将对话、辩论、会议等内容记录下来的效果。

在一示例性实施例中，在语音人数为多个时，将多个单人语音数据翻译为目标语言，可参照图4所示，以包括以下步骤S410至S430：

在步骤S410中，针对每个单人语音数据，分别识别单人语音数据对应的待译语言。

其中，待译语言是指单人语音数据中所使用的语音。例如，在用户A以英文发出语音并被采集时，英文即为用户A对应的单人语音数据对应的待译语言。

在步骤S420中，针对每个待译语言，根据待译语言和目标语言确定目标翻译模型。

其中，目标翻译模型是指可以将待译语言翻译为目标语言的翻译模型。需要说明的是，为了能够满足不同待译语言和目标语言之间的翻译，可以提前配置不同的翻译模型，然后根据待译语言和目标语言在翻译模型中选择相应的目标翻译模型，以对单人语音数据进行翻译。

在步骤S430中，根据目标翻译模型将待译语言对应的单人语音数据翻译为目标语言。

在一示例性实施例中，在得到多个单人语音数据后，针对每一个单人语音数据，可以先识别该单人语音数据对应的待译语言，然后根据待译语言和需要翻译的目标语言在提前配置的翻译模型中选择相应的目标翻译模型，然后根据目标翻译模型将该待译语言对应的单人语音数据翻译为目标语言。

在一示例性实施例中，为了提高终端设备的隐私性，可能需要仅对特定用户的语音数据进行翻译。在这种情况下，在对单人语音数据进行翻译之前，还可以先对多个单人语音数据进行声纹验证。在存在至少一个单人语音数据可以通过声纹验证时，可以直接将通过声纹验证的单人语音数据翻译为目标语言，并播放翻译结果。

具体的，在进行声纹验证时，可以先提取单人语音数据中的声纹特征，然后将该声纹特征与提前存储的参考声纹特征进行比对，在该声纹特征与参考声纹特征之间的相似度最大，且相似度满足预设条件时，可以认为该声纹特征对应的单人语音数据通过声纹验证；反之，在该声纹特征与参考声纹特征之间的相似度不满足预设条件时，可以认为该声纹特征对应的单人语音数据没有通过声纹验证。其中，预设条件可以根据表征相似度所使用的参数不同进行不同的设定，例如在选择欧式距离、曼哈顿距离、余弦相似度等参数表征相似度时，可以选择不同的预设条件对这些参数进行限定，本公开对此不做特殊限定。

其中，由于某一参考声纹特征只可能对应一个用户，因此在确认单人语音数据是否通过声纹验证时，需要选中相似度最大的声纹特征，并判断该声纹特征是否满足预设条件。

例如，在一示例性实施例中，可以通过声纹特征与参考声纹特征之间的欧式距离表征其相似度。具体的，假设存在n个单人语音数据，则可以分别提取n个单人语音数据的声纹特征，然后分别计算n个声纹特征和参考声纹特征之间的欧式距离，然后将其中与参考声纹特征之间的欧式距离最小的声纹特征对应的欧式距离与预设距离阈值进行比较，如果小于预设距离阈值，则可以认为该声纹特征对应的单人语音数据通过声纹验证，即该发出该单人语音数据的用户与发出提取参考声纹特征的语音数据的用户为同一人；否则，则无法通过声纹验证。

需要说明的是，也可以预先存储多个参考声纹特征。此时，可以分别将多个单人语音数据对应的声纹特征与每一个参考声纹特征进行相似度计算，并在满足预设条件时确定单人语音数据通过声纹验证。

此外，若所有的单人语音数据均没有通过声纹验证时，表明当前原始语音数据中不存在特定用户发出的单人语音数据。对应的，则不需要对原始语音数据中包含的所有单人语音数据进行翻译。通过设定声纹验证，可以在多个单人语音数据中有选择性的进行翻译，不需要对无需翻译的语音数据进行处理，减少了语音翻译的计算量。

在一示例性实施例中，在对原始语音数据进行语音人数检测时，还可能出现检测到语音人数为一个。对应的，可以说明原始语音数据中仅包括一个用户的单人语音数据。此时，可以直接对原始语音数据进行翻译，并播放翻译结果。

需要说明的是，为了提高设备的隐私性，还可以先对原始语音数据进行声纹验证，并在原始语音数据通过声纹验证时，直接将原始语音数据翻译为目标语言，并播放翻译结果；反之，在原始语音数据未通过声纹验证时，不翻译原始语音数据。其中，在进行声纹验证时，可以直接提取原始语音数据对应的声纹特征，然后直接计算该声纹特征与参考声纹特征之间的相似度，并通过相似度是否满足预设条件确定该声纹特征是否通过声纹验证。

以下参照图5和图6对本公开实施例的技术方案进行详细阐述：

参照图5所示，用于采集原始语音数据的语音采集设备，可以是移动终端的麦克风，但更建议采用带有麦克风模块的耳机。因为移动终端一般只有一路麦克风和扬声器，在实现同声传译时，需要用户A说完，用户B才能说，只适用于一问一答。如果用户都带上耳机，这些耳机可以和带有多个通信通道的移动终端相连接，比如，用户A通过耳机A的麦克风实时采集用户A的语音，并以数据流的形式实时传给移动终端，移动终端进行实时翻译，并将翻译后的语音以数据流的形式实时传到用户B的耳机B进行播放，且此过程中用户B也可以讲话，通过耳机B采集用户B的语音，然后利用移动终端将用户B的语音翻译后传到用户A的耳机进行播放，这样的交流过程实时性非常高，用户体验更加自然流畅。需要说明的是，在一示例性实施例中，还可以通过连接跟那个多耳机的方式，实现多方会谈等场景下的语言翻译。

参照图6所示，步骤S601，采集原始语音数据；步骤S603，对原始语音数据进行语音增强处理；步骤S605，对原始语音数据进行语音人数检测，并判断语音人数是否为多个；步骤S607，在语音人数为1个时，判断是否进行声纹验证；步骤S609，判断原始语音数据是否通过声纹验证；步骤S611，在语音人数为多个时，对原始语音数据进行语音分离；步骤S613，是否进行声纹验证；步骤S615，在不进行声纹验证时，对所有单人语音数据或原始语音数据进行翻译；步骤S617，是否存在至少一个单人语音数据通过声纹验证；步骤S619，对通过声纹验证的单人语音数据或原始语音数据进行翻译；步骤S621，通过语音播放设备或显示设备播放翻译结果；步骤S623，不做翻译处理。

此外，在一示例性实施例中，根据原始语音数据或单人语音数据的难易程度、语言类型、终端设备的网络状态等因素，上述对原始语音数据或单人语音数据进行翻译的过程，既可以由终端设备本身完成，也可以将待翻译语音上传到云端服务器进行翻译。例如，在终端设备网络状态不佳时，可以通过终端设备本身完成翻译的过程；再如，当终端设备本地没有存储待译语言和目标语言对应的目标翻译模型时，终端设备可将原始语音数据或单人语音数据上传到云端服务器，由云端服务器进行翻译，然后将翻译结果传回终端设备进行播放。

综上，本示例性实施方式中，将翻译的过程与语音分离、声纹验证相结合，能够解决在面对多人同时讲话时翻译失败或翻译准确性差的问题；同时，可以有选择地只翻译特定用户的语音或翻译多个用户的语音，让不同语言的人们交流更加自然流畅，提升用户的体验。此外，该方案可以通过移动终端等设备，可选地加上蓝牙耳机即可实现同声传译，无需专业的翻译设备，成本低，易于实现，便于携带。

此外，由于本实施例可以应用到移动终端，例如手机、平板、智能手表等设备，同时可以结合蓝牙耳机，因此应用场景多为面对面交谈，比如街头问询、跨语言辩论、跨语言商务恰谈、国家会议等场景，具有便携性和成本低的特点。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图7所示，本示例的实施方式中还提供一种语音翻译装置700，包括语音检测模块710、语音分离模块720和语音翻译模块730。其中：

语音检测模块710可以用于采集原始语音数据，并对原始语音数据进行语音人数检测

语音分离模块720可以用于在语音人数为多个时，对原始语音数据进行语音分离，以获取多个单人语音数据

语音翻译模块730可以用于分别将多个单人语音数据翻译为目标语言，并播放翻译结果。

在一示例性实施例中，语音翻译模块730可以用于针对每个单人语音数据，分别识别单人语音数据对应的待译语言；针对每个待译语言，根据待译语言和目标语言确定目标翻译模型；根据目标翻译模型将待译语言对应的单人语音数据翻译为目标语言。

在一示例性实施例中，参照图8所示，语音翻译装置800还可以包括声纹验证模块810，可以用于对多个单人语音数据进行声纹验证；此时，语音翻译模块730还可以用于在存在至少一个单人语音数据通过声纹验证时，将通过声纹验证的单人语音数据翻译为目标语言，并播放翻译结果。

在一示例性实施例中，声纹验证模块810可以用于在所有单人语音数据均未通过声纹验证时，不翻译多个单人语音数据。

在一示例性实施例中，语音翻译模块730可以用于在语音人数为一个时，对原始语音数据进行翻译，并对翻译结果进行播放。

在一示例性实施例中，声纹验证模块810可以用于对原始语音数据进行声纹验证；此时，语音翻译模块730还可以用于在原始语音数据通过声纹验证时，将原始语音数据翻译为目标语言，并播放翻译结果。

在一示例性实施例中，声纹验证模块810可以用于在原始语音数据未通过声纹验证时，不翻译原始语音数据。

在一示例性实施例中，参照图9所示，语音翻译装置900还可以包括语音增强模块910，可以用于对原始语音数据进行语音增强处理，以消除原始语音数据中的噪音。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图3至图4、图6中任意一个或多个步骤。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

此外，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种语音翻译方法，其特征在于，包括：

采集原始语音数据，并对所述原始语音数据进行语音人数检测；

在所述语音人数为多个时，对所述原始语音数据进行语音分离，以获取多个单人语音数据；

分别将所述多个单人语音数据翻译为目标语言，并播放翻译结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述多个单人语音数据翻译为目标语言，包括：

针对每个所述单人语音数据，分别识别所述单人语音数据对应的待译语言；

针对每个所述待译语言，根据所述待译语言和所述目标语言确定目标翻译模型；

根据所述目标翻译模型将所述待译语言对应的单人语音数据翻译为目标语言。

3.根据权利要求1所述的方法，其特征在于，在声纹验证模式开启时，所述方法还包括：

对所述多个单人语音数据进行声纹验证；

在存在至少一个所述单人语音数据通过所述声纹验证时，将通过所述声纹验证的所述单人语音数据翻译为目标语言，并播放翻译结果。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所有所述单人语音数据均未通过所述声纹验证时，不翻译所述多个单人语音数据。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述语音人数为一个时，对所述原始语音数据进行翻译，并对翻译结果进行播放。

6.根据权利要求5所述的方法，其特征在于，在声纹验证模式开启时，在所述对所述原始语音数据进行翻译之前，所述方法还包括：

对所述原始语音数据进行声纹验证；

在所述原始语音数据通过所述声纹验证时，将所述原始语音数据翻译为目标语言，并播放翻译结果。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在所述原始语音数据未通过所述声纹验证时，不翻译所述原始语音数据。

8.根据权利要求1所述的方法，其特征在于，在所述对所述原始语音数据进行语音人数检测之前，所述方法还包括：

对所述原始语音数据进行语音增强处理，以消除所述原始语音数据中的噪音。

9.一种语音翻译装置，其特征在于，包括：

语音检测模块，用于采集原始语音数据，并对所述原始语音数据进行语音人数检测；

语音分离模块，用于在所述语音人数为多个时，对所述原始语音数据进行语音分离，以获取多个单人语音数据；

语音翻译模块，用于分别将所述多个单人语音数据翻译为目标语言，并播放翻译结果。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至8任一项所述的方法。