CN107391498B

CN107391498B - 语音翻译方法和装置

Info

Publication number: CN107391498B
Application number: CN201710629306.7A
Authority: CN
Inventors: 蒋壮; 郑勇; 张立新; 王文琪; 温平
Original assignee: Shenzhen Water World Co Ltd
Current assignee: Shenzhen Waterward Information Co Ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2020-10-27
Anticipated expiration: 2037-07-28
Also published as: CN107391498A

Abstract

本发明揭示了一种语音翻译方法和装置，所述方法包括以下步骤：获取原始语音信息；从原始语音信息中提取出背景噪声帧；对原始语音信息进行翻译处理，得到翻译后的语音信息；识别出翻译后的语音信息中的哑音帧；将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，以使翻译后的语音信息中包含背景噪声的信息。从而使得用户不但能够听到清晰的语音，还能够听到实时环境下的背景音，增加了双方对话的真实性，增强了用户体验。

Description

语音翻译方法和装置

技术领域

本发明涉及通信技术领域，特别是涉及到一种语音翻译方法和装置。

背景技术

随着通信终端的使用日益广泛，人们利用通信终端可以实现多种功能，例如利用通信终端听音乐，看视频以及进行语音通话等等。语音通话是通信终端的一个基本的和常用的功能，即使人们远隔千里，也能够通过通信终端实现远程语音交流，无形中缩短了人与人之间的距离。

同时，随着经济的全球化和国际化发展，不同国家之间的人们的交往也越来越密切。不同国家的人通常使用不同的语言，当两个用户中至少一个用户听不懂对方的语言，另一个用户也不会说对方的语言时，两个用户则需要借助通信终端的翻译功能来听懂对方的语音。

现有技术中，通信终端对语音信息的翻译处理，主要包括识别、翻译和合成三个流程，翻译后的语音信息由语音帧和哑音帧组成，哑音帧实为空白帧，是语音帧的间断点。因此翻译后的语音信息中只有语音，没有实时环境的背景音，大大降低了双方对话的真实性，影响用户体验。

发明内容

本发明的主要目的为提供一种语音翻译方法和装置，旨在解决翻译后的语音信息中缺失背景音而降低了对话真实性的技术问题。

为达以上目的，本发明实施例提出一种语音翻译方法，所述方法包括以下步骤：

获取原始语音信息；

从所述原始语音信息中提取出背景噪声帧；

对所述原始语音信息进行翻译处理，得到翻译后的语音信息；

识别出所述翻译后的语音信息中的哑音帧；

将所述背景噪声帧叠加到所述翻译后的语音信息中的哑音帧上，以使所述翻译后的语音信息中包含背景噪声的信息。

可选地，所述从所述原始语音信息中提取出背景噪声帧的步骤包括：

识别出所述原始语音信息中的背景噪声帧；

按时间先后顺序对所述背景噪声帧添加时间戳标记；

保存所述背景噪声帧。

可选地，所述识别出所述原始语音信息中的背景噪声帧的步骤包括：

对所述原始语音信息进行语音活动检测，获取每一帧语音信息帧的参数特征值；

判断所述参数特征值是否小于或等于门限值；

当所述参数特征值小于或等于门限值时，判决所述语音信息帧为背景噪声帧。

可选地，所述识别出所述翻译后的语音信息中的哑音帧的步骤包括：

对所述翻译后的语音信息进行语音活动检测，获取每一帧语音信息帧的参数特征值；

判断所述参数特征值是否小于或等于门限值；

当所述参数特征值小于或等于门限值时，判决所述语音信息帧为哑音帧。

可选地，所述将所述背景噪声帧叠加到所述翻译后的语音信息中的哑音帧上的步骤包括：

按时间先后顺序对所述哑音声帧添加时间戳标记；

根据所述背景噪声帧的时间戳标记与所述哑音帧的时间戳标记，将所述背景噪声帧叠加到所述翻译后的语音信息中对应的哑音帧上。

可选地，所述将所述背景噪声帧叠加到所述翻译后的语音信息中对应的哑音帧上的步骤包括：

根据时间先后顺序合并所述背景噪声帧和所述哑音帧；

当有多余的背景噪声帧时，清除所述多余的背景噪声帧。

可选地，所述获取原始语音信息的步骤包括：采集原始语音信息。

可选地，所述将所述噪声帧叠加到所述翻译后的语音信息中的哑音帧的位置的步骤之后还包括：

将所述翻译后的语音信息发送给对端。

可选地，所述获取原始语音信息的步骤包括：接收对端发送的原始语音信息。

可选地，所述将所述噪声帧叠加到所述翻译后的语音信息中的哑音帧的位置的步骤之后还包括：输出所述翻译后的语音信息。

本发明实施例同时提出一种语音翻译装置，所述装置包括：

语音信息获取模块，用于获取原始语音信息；

背景噪声提取模块，用于从所述原始语音信息中提取出背景噪声帧；

语音翻译处理模块，用于对所述原始语音信息进行翻译处理，得到翻译后的语音信息；

哑音识别模块，用于识别出所述翻译后的语音信息中的哑音帧；

背景噪声叠加模块，用于将所述背景噪声帧叠加到所述翻译后的语音信息中的哑音帧上，以使所述翻译后的语音信息中包含背景噪声的信息。

可选地，所述背景噪声提取模块包括：

识别单元，用于识别出所述原始语音信息中背景噪声帧；

标记单元，用于按时间先后顺序对所述背景噪声帧添加时间戳标记；

保存单元，用于保存所述背景噪声帧。

可选地，所述识别单元包括：

第一获取单元，用于对所述原始语音信息进行语音活动检测，获取每一帧语音信息帧的参数特征值；

第一判断单元，用于判断所述参数特征值是否小于或等于门限值；

第一判决单元，用于当所述参数特征值小于或等于门限值时，判决所述语音信息帧为背景噪声帧。

可选地，所述哑音识别模块包括：

第二获取单元，用于对所述翻译后的语音信息进行语音活动检测，获取每一帧语音信息帧的参数特征值；

第二判断单元，用于判断所述参数特征值是否小于或等于门限值；

第二判决单元，用于当所述参数特征值小于或等于门限值时，判决所述语音信息帧为哑音帧。

可选地，所述背景噪声叠加模块包括：

标记添加单元，用于按时间先后顺序对所述哑音声帧添加时间戳标记；

噪声叠加单元，用于根据所述背景噪声帧的时间戳标记与所述哑音帧的时间戳标记，将所述背景噪声帧叠加到所述翻译后的语音信息中对应的哑音帧上。

可选地，所述噪声叠加单元包括：

合并单元，用于根据时间先后顺序合并所述背景噪声帧和所述哑音帧；

清除单元，用于当有多余的背景噪声帧时，清除所述多余的背景噪声帧。

可选地，所述语音信息获取模块包括采集单元，所述采集单元用于采集原始语音信息。

可选地，所述装置还包括语音信息发送模块，所述语音信息发送模块用于：将所述翻译后的语音信息发送给对端。

可选地，所述语音信息获取模块包括接收单元，所述接收单元用于：接收对端发送的原始语音信息。

可选地，所述装置还包括语音信息输出模块，所述语音信息输出模块用于：输出所述翻译后的语音信息。

本发明实施例还提出一种终端设备，所述终端设备包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行前述语音翻译方法。

本发明实施例所提供的一种语音翻译方法，通过从原始语音信息中提取出背景噪声帧，再识别出翻译后的语音信息中的哑音帧，最后将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，使得翻译后的语音信息中包含背景噪声的信息。从而用户不但能够听到清晰的语音，还能够听到实时环境下的背景音，增加了双方对话的真实性，增强了用户体验。

附图说明

图1是本发明的语音翻译方法一实施例的流程图；

图2是本发明实施例中原始语音信息的片段的示意图；

图3是本发明实施例中从图2中的原始语音信息中提取出的背景噪声帧的示意图；

图4是本发明实施例中原始语音信息的片段的又一示意图；

图5是本发明实施例中对原始语音信息进行翻译处理的具体流程图；

图6是本发明实施例中翻译后的语音信息的片段的示意图；

图7是本发明实施例中添加了背景噪声的翻译后的语音信息的示意图；

图8是实现本发明实施例的语音翻译方法一应用场景的系统框图；

图9是实现本发明实施例的语音翻译方法又一应用场景的系统框图；

图10是实现本发明实施例的语音翻译方法又一应用场景的系统框图；

图11是实现本发明实施例的语音翻译方法又一应用场景的系统框图；

图12是本发明的语音翻译装置一实施例的模块示意图；

图13是图12中的语音获取模块的模块示意图；

图14是图12中的背景噪声提取模块的模块示意图；

图15是图14中的识别单元的模块示意图；

图16是图12中的哑音识别模块的模块示意图；

图17是图12中的背景噪声叠加模块的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal DigitalAssistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本技术领域技术人员可以理解，这里所使用的服务器，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，服务器、终端设备与WNS服务器之间可通过任何通信方式实现通信，包括但不限于，基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。

本发明实施例的语音翻译方法和装置，可以应用于各种终端设备，尤其适用于VOLTE终端，该VOLTE终端即基于VOLTE(Voice overLTE)技术的通信终端。VoLTE是一种IP数据传输技术，无需2G/3G网络，全部业务承载于4G网络上，可实现数据与语音业务在同一网络下的统一。当然，也可以应用于其它的终端设备，本发明对此不作限定。

参照图1，提出本发明的语音翻译方法一实施例，所述方法包括以下步骤：

S11、获取原始语音信息。

本步骤S11中，终端设备可以通过声音采集装置如麦克风采集原始语音信息，也可以接收对端发送的原始语音信息。

以VOLTE终端为例，VOLTE终端与对端建立语音通信连接。上行时，VOLTE终端通过麦克风采集原始语音信息并缓存。下行时，VOLTE终端接收对端发送的原始语音信息并缓存。

S12、从原始语音信息中提取出背景噪声帧。

原始语音信息由多个语音信息帧组成，该语音信息帧包括语音帧和背景噪声帧，如图2所示，示意性的示出了原始语音信息的片段，包括1～m帧背景噪声帧和1～n帧语音帧。

本步骤S12中，终端设备首先识别出原始语音信息中的背景噪声帧，然后按时间先后顺序对背景噪声帧添加时间戳标记，最后保存该背景噪声帧。如图3所示，示意性的示出了从图2中提取出的1～m帧背景噪声帧。

本发明实施例中，终端设备通过语音活动检测(VAD)来识别原始语音信息中的背景噪声帧。

具体的，终端设备对原始语音信息进行语音活动检测，采取按帧处理，获取每一帧语音信息帧的参数特征值。每帧语音信息帧的时长可以根据原始语音信息的信号特点来设定，比如全球移动通信系统(Global System for Mobile Communication，GSM)的语音信号，以20ms作为每帧语音信息帧的帧长度，语音活动检测算法可以采用GSM的ETSIVAD算法或者G.729Annex B VAD算法。

当获得每一帧语音信息帧的参数特征值后，终端设备则比较该参数特征值与预设的门限值的大小，判断参数特征值是否小于或等于门限值；当参数特征值小于或等于门限值时，判决该帧语音信息帧为背景噪声帧；当参数特征值大于门限值时，判决该帧语音信息帧为语音帧。遍历原始语音信息中的每一帧，识别出原始语音信息中的所有语音帧和背景噪声帧。这里的参数特征值是指语音信号每一帧的能量值，通常以电平幅度值来衡量。门限值可以根据实际需要设定，如根据经验数据、实验数据进行设定。

可选地，当终端设备接收到对端发送的原始语音信息，且该原始语音信息已经由对端进行了去噪处理时，此时的原始语音信息则由语音帧和静默指示符(SilenceDescriptor，SID)帧组成，该SID帧即对背景噪声帧进行去噪处理后的结果。如图4所示，示意性的示出了去噪处理后的原始语音信息的片段，包括1～m帧SID帧和1～n帧语音帧。

终端设备对该原始语音信息进行解析，通过帧特征信息，识别出原始语音信息中的SID帧，然后将预设的噪声信息加入到SID帧中，从而还原成背景噪声帧，并对该背景噪声帧的帧格式进行转换处理，处理成与后期翻译处理后的语音信息的帧格式一样，并按照时间先后顺序对背景噪声帧添加时间戳标记后予以保存。当然，此时的背景噪声只是模拟的背景噪声，并非对端用户真实环境下的背景噪声。

S13、对原始语音信息进行翻译处理，得到翻译后的语音信息。

本发明实施例对步骤S12和S13的先后顺序不做限定，在某些实施例中，步骤S12和S13也可以同时进行。

本发明实施例中，终端设备可以在本地进行翻译处理后获得翻译后的语音信息，也可以将原始语音信息发送给服务器，由服务器进行翻译处理后返回翻译后的语音信息。

举例而言，以VOLTE终端通过服务器进行翻译处理为例。VOLTE终端将原始语音信息发送给服务器进行翻译处理，以使服务器将原始语音信息从一种语言翻译为另一种语言，获得翻译后的语音信息并发送给VOLTE终端，VOLTE终端接收翻译后的语音信息。

VOLTE终端可以将原始语音信息直接以语音数据流的方式发送给服务器，作为优选，VOLTE终端将原始语音信息以数据包的形式分包发送给服务器。例如，VOLTE终端首先将原始第一语言的语音信息进行录音处理，录制为一个个的语音文件并缓存，然后将缓存的每个语音文件以数据包的形式依次发送给服务器。

翻译处理主要包括识别、翻译和合成三个流程，这三个流程可以由一个服务器完成，也可以由两个或三个服务器完成。

本发明实施例中，服务器包括语音识别服务器、翻译服务器和语音合成服务器。VOLTE终端与语音识别服务器建立基于IP通信的连接，设置识别信息，即需要识别的语言类型，包括本端的语言类型，还可以进一步包括对端的语言类型；与翻译服务器建立基于IP通信的连接，设置翻译信息，即要翻译的语种，包括本端对对端的映射，还可以进一步包括对端对本端的映射；与语音合成服务器建立基于IP通信的连接，设置合成信息，即语音合成的类型，比如男女声、语速等。

如图5所示，VOLTE终端将原始语音信息发送给服务器进行翻译处理的具体流程如下：

S131、将原始语音信息发送给语音识别服务器，以使语音识别服务器将原始语音信息识别为第一字符串。

VOLTE终端首先将原始语音信息进行录音处理，录制为一语音文件并缓存，然后将缓存的每个语音文件以数据包的形式依次发送给语音识别服务器。语音识别服务器接收到语音文件后，根据预设的识别信息对语音文件进行识别处理，识别为第一字符串，并将第一字符串返回给VOLTE终端。

S132、接收语音识别服务器返回的第一字符串。

S133、将第一字符串发送给翻译服务器，以使翻译服务器将第一字符串翻译为第二字符串。

VOLTE终端接收到第一字符串后，将第一字符串发送给翻译服务器。翻译服务器接收到第一字符串后，根据预设的翻译信息对该第一字符串进行翻译处理，翻译为第二字符串(即另一种语音的字符串)，并将第二字符串返回给VOLTE终端。

S134、接收翻译服务器返回的第二字符串。

S135、将第二字符串发送给语音合成服务器，以使语音合成服务器将第二字符串合成为语音信息。

VOLTE终端接收到第二字符串后，将第二字符串发送给语音合成服务器。语音合成服务器接收到第二字符串后，根据预设的合成信息对第二字符串进行合成处理，合成为另一种语言的语音信息，该语音信息即为翻译后的语音信息。

S136、接收语音合成服务器返回的语音信息，该语音信息即为翻译后的语音信息。

语音合成服务器将该翻译后的语音信息以语音码流的形式返回给VOLTE终端。

在其它实施例中，也可以由一个服务器完成原始语音信息的识别、翻译和合成处理。例如，VOLTE终端将原始语音信息发送给服务器，服务器将该语音信息进行识别、翻译和合成处理后返回给VOLTE终端。

在另一些实施例中，也可以由两个服务器完成原始语音信息的识别、翻译和合成处理。例如，VOLTE终端将原始语音信息发送给第一服务器，第一服务器将该原始语音信息进行识别和翻译处理后返回给VOLTE终端，VOLTE终端再将识别和翻译处理后的语音信息发送给第二服务器，第二服务器将该语音信息进行合成处理后返回给VOLTE终端。又如，VOLTE终端将原始语音信息发送给第一服务器，第一服务器将该原始语音信息进行识别处理后返回给VOLTE终端，VOLTE终端再将识别处理后的语音信息发送给第二服务器，第二服务器将该语音信息进行翻译和合成处理后返回给VOLTE终端。

终端设备获得翻译后的语音信息后，则进入下一步骤S14。

S14、识别出翻译后的语音信息中的哑音帧。

翻译后的语音信息也由多个语音信息帧组成，该语音信息帧包括语音帧和哑音帧。如图6所示，示意性的示出了翻译后的语音信息的片段，其包括1～k帧哑音帧和1～L帧语音帧。

本步骤S14中，终端设备对翻译后的语音信息进行语音活动检测，采取按帧处理，获取每一帧语音信息帧的参数特征值。语音活动检测算法可以采用GSM的ETSI VAD算法或者G.729Annex B VAD算法，当然也可以采用其它的算法，本发明对此不作限定。

当获得每一帧语音信息帧的参数特征值后，终端设备则比较该参数特征值与预设的门限值的大小，判断参数特征值是否小于或等于门限值；当参数特征值小于或等于门限值时，判决该帧语音信息帧为哑音帧；当参数特征值大于门限值时，判决该帧语音信息帧为语音帧。遍历原始语音信息中的每一帧，识别出原始语音信息中的所有语音帧和哑音帧，得到每一帧语音帧和哑音帧的起点。这里的参数特征值是指语音信号每一帧的能量值，通常以电平幅度值来衡量。门限值可以根据实际需要设定，如根据经验数据、实验数据进行设定。

S15、将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，以使翻译后的语音信息中包含背景噪声的信息。

本步骤S15中，终端设备首先按时间先后顺序对哑音声帧添加时间戳标记，然后根据背景噪声帧的时间戳标记与哑音帧的时间戳标记，将背景噪声帧叠加到翻译后的语音信息中对应的哑音帧上，也就是说，根据时间先后顺序合并背景噪声帧和哑音帧，从而使得翻译后的语音信息中包含了背景噪声的信息。如图7所示，示意性的示出了添加了背景噪声的翻译后的语音信息的片段，其包括1～k帧背景噪声帧(因哑音帧实为空白帧，故背景噪声帧叠加于哑音帧后实际只有背景噪声帧)和1～L帧语音帧。

优选地，终端设备判断是否有多余的背景噪声帧，当有多余的背景噪声帧时(即背景噪声帧的数量多余哑音帧的数量时)，终端设备则清除多余的背景噪声帧，以避免影响语音帧，保证语音效果。

终端设备将背景噪声帧叠加到翻译后的语音信息中的哑音帧上之后，可以输出翻译后的语音信息，也可以将翻译后的语音信息发送给对端，由对端输出该翻译后的语音信息。从而用户不但能够听到语音，还能听到背景音，使得双方的对话更加真实。并且，背景噪声帧与语音帧不重叠，因此不会影响语音帧，用户能够听清语音。

例如：VOLTE终端上行通话时，通过语音通道将翻译后的语音信息发送给对端。对端接收到语音信息后，通过音频通路对该语音信息进行处理，最后通过发声装置(听筒、扬声器等)输出该语音信息，对端用户就能够听到VOLTE终端用户的语音和其所处环境的背景音。VOLTE终端下行通话时，通过音频通路对翻译后的语音信息进行处理，最后通过发声装置(听筒、扬声器等)输出该语音信息，VOLTE终端用户就能够听到对端用户的语音和其所处环境的背景音或模拟的背景音。

本发明实施例的语音翻译方法，通过从原始语音信息中提取出背景噪声帧，再识别出翻译后的语音信息中的哑音帧，最后将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，使得翻译后的语音信息中包含背景噪声的信息。从而用户不但能够听到清晰的语音，还能够听到实时环境下的背景音，增加了双方对话的真实性，增强了用户体验。

本发明实施例可以应用于如图8所示的应用场景，其中，VOLTE终端A与VOLTE终端B通过IP多媒体系统(IP Multimedia Subsystem，IMS)网络建立连接，且VOLTE终端A和VOLTE终端B均分别连接语音识别服务器、翻译服务器和语音合成服务器，VOLTE终端A和VOLTE终端B均采用本发明实施例的语音翻译方法对本端采集的原始语音信息进行处理，处理后再发送给对端，对端则直接输出处理后的语音信息。

本发明实施例也可以应用于如图9-图11所示的应用场景。图8中，VOLTE终端A与语音终端B通过IMS网络建立连接，且VOLTE终端A分别连接语音识别服务器、翻译服务器和语音合成服务器。VOLTE终端A在上行通话时，采用本发明实施例的语音翻译方法对本端采集的原始语音信息进行处理，处理后再发送给对端，对端则直接输出。VOLTE终端A在下行通话时，采用本发明实施例的语音翻译方法对对端发送的原始语音信息进行处理，并输出处理的语音信息。

图10中，VOLTE终端A通过IMS网络连接IMS网络与2G/3G网络的网关，语音终端B通过2G/3G网络连接IMS网络与2G/3G网络的网关，且VOLTE终端A分别连接语音识别服务器、翻译服务器和语音合成服务器。VOLTE终端A在上行通话时，采用本发明实施例的语音翻译方法对本端采集的原始语音信息进行处理，处理后再发送给语音终端B，语音终端B则直接输出处理后的语音信息即可。VOLTE终端A在下行通话时，采用本发明实施例的语音翻译方法对语音终端B发送的原始语音信息进行处理，并输出处理的语音信息。

图11中，VOLTE终端A通过IMS网络连接IMS网络与公共交换电话网络(PublicSwitched Telephone Network，PSTN)的网关，语音终端B通过PSTN连接IMS网络与PSTN的网关，且VOLTE终端A分别连接语音识别服务器、翻译服务器和语音合成服务器。VOLTE终端A在上行通话时，采用本发明实施例的语音翻译方法对本端采集的原始语音信息进行处理，处理后再发送给语音终端B，语音终端B则直接输出处理后的语音信息。VOLTE终端A在下行通话时，采用本发明实施例的语音翻译方法对语音终端B发送的原始语音信息进行处理，并输出处理后的语音信息。

语音识别服务器的处理时延一般小于3秒，翻译服务器的处理时延一般小于200毫秒，语音合成服务器的处理时延一般小于200毫秒，IMS网络传输的时延一般为秒级。利用LTE通信的高速率低时延的特点，在VOLTE终端上实现语音通话时的多语言实时翻译功能，语音翻译处理的速度快，时延小，不会对用户的通话造成影响。

参照图12，提出本发明的语音翻译装置一实施例，所述装置包括语音信息获取模块10、背景噪声提取模块20、语音翻译处理模块30、哑音识别模块40和背景噪声叠加模块50。

语音信息获取模块10：用于获取原始语音信息。

语音信息获取模块10可以通过声音采集装置如麦克风采集原始语音信息，也可以接收对端发送的原始语音信息。

如图13所示，语音信息获取模块10包括采集单元11和接收单元12，其中：采集单元11用于采集原始语音信息，接收单元12用于接收对端发送的原始语音信息。

以应用于VOLTE终端为例，VOLTE终端与对端建立语音通信连接。上行时，采集单元11通过麦克风采集原始语音信息并缓存。下行时，接收单元12接收对端发送的原始语音信息并缓存。

背景噪声提取模块20：用于从原始语音信息中提取出背景噪声帧。

背景噪声提取模块20如图14所示，包括识别单元21、标记单元22和保存单元23，其中：识别单元21，用于识别出原始语音信息中背景噪声帧；标记单元22，用于按时间先后顺序对背景噪声帧添加时间戳标记；保存单元23，用于保存背景噪声帧。如图3所示，示意性的示出了从图2中提取出的1-m帧背景噪声帧。

本发明实施例中，识别单元21通过语音活动检测(VAD)来识别原始语音信息中的背景噪声帧。

如图15所示，识别单元21包括第一获取单元211、第一判断单元212和第一判决单元213，其中：第一获取单元211，用于对原始语音信息进行语音活动检测，采取按帧处理，获取每一帧语音信息帧的参数特征值；第一判断单元212，用于判断参数特征值是否小于或等于门限值；第一判决单元213，用于当参数特征值小于或等于门限值时，判决语音信息帧为背景噪声帧；当参数特征值大于门限值时，判决该帧语音信息帧为语音帧。

遍历原始语音信息中的每一帧，识别单元21就识别出原始语音信息中的所有语音帧和背景噪声帧。这里的参数特征值是指语音信号每一帧的能量值，通常以电平幅度值来衡量。门限值可以根据实际需要设定，如根据经验数据、实验数据进行设定。

每帧语音信息帧的时长可以根据原始语音信息的信号特点来设定，比如全球移动通信系统(Global System forMobile Communication，GSM)的语音信号，以20ms作为每帧语音信息帧的帧长度，语音活动检测算法可以采用GSM的ETSIVAD算法或者G.729AnnexBVAD算法。

可选地，当语音信息获取模块10接收到对端发送的原始语音信息，且该原始语音信息已经由对端进行了去噪处理时，此时的原始语音信息则由语音帧和静默指示符(Silence Descriptor，SID)帧组成，该SID帧即对背景噪声帧进行去噪处理后的结果。如图4所示，示意性的示出了去噪处理后的原始语音信息的片段，包括1～m帧SID帧和1～n帧语音帧。

此时，背景噪声提取模块20对该原始语音信息进行解析，通过帧特征信息，识别出原始语音信息中的SID帧，然后将预设的噪声信息加入到SID帧中，从而还原成背景噪声帧，并对该背景噪声帧的帧格式进行转换处理，处理成与后期翻译处理后的语音信息的帧格式一样，并按照时间先后顺序对背景噪声帧添加时间戳标记后予以保存。当然，此时的背景噪声只是模拟的背景噪声，并非对端用户真实环境下的背景噪声。

语音翻译处理模块30：用于对原始语音信息进行翻译处理，得到翻译后的语音信息。

本发明实施例中，语音翻译处理模块30可以在本地进行翻译处理后获得翻译后的语音信息，也可以将原始语音信息发送给服务器，由服务器进行翻译处理后返回翻译后的语音信息。

举例而言，以语音翻译处理模块30通过服务器进行翻译处理为例。语音翻译处理模块30将原始语音信息发送给服务器进行翻译处理，以使服务器将原始语音信息从一种语言翻译为另一种语言，获得翻译后的语音信息并发送给语音翻译处理模块30，语音翻译处理模块30接收翻译后的语音信息。

语音翻译处理模块30可以将原始语音信息直接以语音数据流的方式发送给服务器，作为优选，语音翻译处理模块30将原始语音信息以数据包的形式分包发送给服务器。例如，语音翻译处理模块30首先将原始第一语言的语音信息进行录音处理，录制为一个个的语音文件并缓存，然后将缓存的每个语音文件以数据包的形式依次发送给服务器。

本发明实施例中，服务器包括语音识别服务器、翻译服务器和语音合成服务器。以本发明实施例的装置应用于VOLTE终端为例，VOLTE终端与语音识别服务器建立基于IP通信的连接，设置识别信息，即需要识别的语言类型，包括本端的语言类型，还可以进一步包括对端的语言类型；与翻译服务器建立基于IP通信的连接，设置翻译信息，即要翻译的语种，包括本端对对端的映射，还可以进一步包括对端对本端的映射；与语音合成服务器建立基于IP通信的连接，设置合成信息，即语音合成的类型，比如男女声、语速等。

哑音识别模块40：用于识别出翻译后的语音信息中的哑音帧。

如图16所示，哑音识别模块40包括第二获取单元41、第二判断单元42和第二判决单元43，其中：第二获取单元41，用于对翻译后的语音信息进行语音活动检测，采取按帧处理，获取每一帧语音信息帧的参数特征值；第二判断单元42，用于判断参数特征值是否小于或等于门限值；第二判决单元43，用于当参数特征值小于或等于门限值时，判决语音信息帧为哑音帧。

遍历原始语音信息中的每一帧，哑音识别模块40就能识别出原始语音信息中的所有语音帧和哑音帧。这里的参数特征值是指语音信号每一帧的能量值，通常以电平幅度值来衡量。门限值可以根据实际需要设定，如根据经验数据、实验数据进行设定。

背景噪声叠加模块50：用于将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，以使翻译后的语音信息中包含背景噪声的信息。

如图17所示，背景噪声叠加模块50包括标记添加单元51和噪声叠加单元52，其中：标记添加单元51，用于按时间先后顺序对哑音声帧添加时间戳标记；噪声叠加单元52，用于根据背景噪声帧的时间戳标记与哑音帧的时间戳标记，将背景噪声帧叠加到翻译后的语音信息中对应的哑音帧上，从而使得翻译后的语音信息中包含了背景噪声的信息。如图7所示，示意性的示出了添加了背景噪声的翻译后的语音信息的片段，其包括1～k帧背景噪声帧(因哑音帧实为空白帧，故背景噪声帧叠加于哑音帧后实际只有背景噪声帧)和1～L帧语音帧。

优选地，噪声叠加单元52包括合并单元和清除单元，其中：合并单元，用于根据时间先后顺序合并背景噪声帧和哑音帧；清除单元，用于判断是否有多余的背景噪声帧，当有多余的背景噪声帧时(即背景噪声帧的数量多余哑音帧的数量时)，则清除多余的背景噪声帧，以避免影响语音帧，保证语音效果。

进一步地，该装置还包括语音信息发送模块，其用于将翻译后的语音信息发送给对端。使得对端用户不但能够听到语音，还能听到背景音，使得双方的对话更加真实。并且，背景噪声帧与语音帧不重叠，因此不会影响语音帧，对端用户能够听清语音。

进一步地，该装置还包括语音信息输出模块，其用于输出翻译后的语音信息。使得本端用户不但能够听到语音，还能听到背景音，使得双方的对话更加真实。并且，背景噪声帧与语音帧不重叠，因此不会影响语音帧，本段用户能够听清语音。

例如：VOLTE终端上行通话时，语音信息发送模块通过语音通道将翻译后的语音信息发送给对端。对端接收到语音信息后，通过音频通路对该语音信息进行处理，最后通过发声装置(听筒、扬声器等)输出该语音信息，对端用户就能够听到VOLTE终端用户的语音和其所处环境的背景音。VOLTE终端下行通话时，语音信息输出模块通过音频通路对翻译后的语音信息进行处理，最后通过发声装置(听筒、扬声器等)输出该语音信息，VOLTE终端用户就能够听到对端用户的语音和其所处环境的背景音或模拟的背景音。

本发明实施例的语音翻译装置，通过从原始语音信息中提取出背景噪声帧，再识别出翻译后的语音信息中的哑音帧，最后将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，使得翻译后的语音信息中包含背景噪声的信息。从而用户不但能够听到清晰的语音，还能够听到实时环境下的背景音，增加了双方对话的真实性，增强了用户体验。

本发明实施例同时提出一种终端设备，所述终端设备包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序，所述应用程序被配置为用于执行语音翻译方法。所述语音翻译方法包括以下步骤：获取原始语音信息；从原始语音信息中提取出背景噪声帧；对原始语音信息进行翻译处理，得到翻译后的语音信息；识别出翻译后的语音信息中的哑音帧；将背景噪声帧叠加到翻译后的语音信息中的哑音帧上，以使翻译后的语音信息中包含背景噪声的信息。

本领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(RandomAccess Memory，随机存储器)、EPROM(Erasable Programmable Read-OnlyMemory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-OnlyMemory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种语音翻译方法，其特征在于，包括以下步骤：

获取原始语音信息；

从所述原始语音信息中提取出背景噪声帧；

识别出所述翻译后的语音信息中的哑音帧；

2.根据权利要求1所述的语音翻译方法，其特征在于，所述从所述原始语音信息中提取出背景噪声帧的步骤包括：

识别出所述原始语音信息中的背景噪声帧；

按时间先后顺序对所述背景噪声帧添加时间戳标记；

保存所述背景噪声帧。

3.根据权利要求2所述的语音翻译方法，其特征在于，所述识别出所述原始语音信息中的背景噪声帧的步骤包括：

判断所述参数特征值是否小于或等于门限值；

4.根据权利要求1所述的语音翻译方法，其特征在于，所述识别出所述翻译后的语音信息中的哑音帧的步骤包括：

判断所述参数特征值是否小于或等于门限值；

5.根据权利要求2所述的语音翻译方法，其特征在于，所述将所述背景噪声帧叠加到所述翻译后的语音信息中的哑音帧上的步骤包括：

按时间先后顺序对所述哑音声帧添加时间戳标记；

6.一种语音翻译装置，其特征在于，包括：

语音信息获取模块，用于获取原始语音信息；

7.根据权利要求6所述的语音翻译装置，其特征在于，所述背景噪声提取模块包括：

识别单元，用于识别出所述原始语音信息中背景噪声帧；

保存单元，用于保存所述背景噪声帧。

8.根据权利要求7所述的语音翻译装置，其特征在于，所述识别单元包括：

9.根据权利要求6所述的语音翻译装置，其特征在于，所述哑音识别模块包括：

10.根据权利要求7所述的语音翻译装置，其特征在于，所述背景噪声叠加模块包括：