CN108141498B

CN108141498B - 一种翻译方法及终端

Info

Publication number: CN108141498B
Application number: CN201580083781.8A
Authority: CN
Inventors: 李想; 李朋; 甘强; 陈天雄; 何永光
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2020-07-07
Anticipated expiration: 2035-11-25
Also published as: CN108141498A; WO2017088136A1

Abstract

本发明公开一种翻译方法及终端，涉及语音智能翻译技术。解决了现有翻译方法翻译准确性较低的问题。本发明实施例提供的方法包括：获取用户发出的音频信号；所述音频信号包含语音段信号；对所述音频信号中的语音段信号进行语义分析，若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；将所述至少一个子语音段信号翻译成符合目标用户语种的语音信号，将翻译后的语音信号发送给目标终端。

Description

一种翻译方法及终端

技术领域

本发明涉及语音智能翻译技术，尤其涉及一种翻译方法及终端。

背景技术

随着国家同国家的贸易、交流的不断发展和进步，用户国际化的趋势必然导致不同语种的人们在使用手机进行沟通时存在问题，以中、英文母语用户通话为例，使用中文的用户需要熟练使用英语才能和英文用户进行交流，而英文用户也很少有人懂汉语，于是语言成为国际化交流的最大障碍，使得通话过程中的即时语言翻译需求显得越来越重要。

目前的翻译技术主要基于语音端点检测(英文全称：voice activity detection，英文缩写：VAD)技术，检测出连续语句中的静音段，以静音段为分割点，将连续的语句划分为多个短句，来实现通话过程中的实时翻译。然而，这种从物理层出发，判断用户停顿时间较长时才进行断句、翻译的方法，完全脱离了翻译场景，由于用户通话过程中可能存在环境噪音、背景音、以及口头禅“恩～啊～这个”等这些无法提供VAD检测需要的静音时间但又不具有明显语义的语音信号，导致断句失败或者断句不合理，从而造成翻译失真，降低了翻译的准确性。

发明内容

本发明的实施例提供一种翻译方法及终端，以解决现有翻译方法翻译准确性较低的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供一种翻译方法，应用于正在进行语音通话的终端，所述终端可以为正在将本端语音发送至目标终端的发送端，所述方法可以包括：

获取用户输入的包含语音段信号的音频信号；

对所述语音段信号进行语义分析，若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；

将所述至少一个子语音段信号翻译成符合目标用户语种的语音，将翻译后的语音信号发送给目标终端。

如此，可以将语音段信号中不具有完整语义的语音剔除，同时，保证划分的子语音段为一具有完整语义的语音段，与现有翻译方法相比，提高了翻译准确性。

同时，为了实现同声翻译以及提高翻译效率的目的，本发明通过一个完整语义的语句翻译完成后即进行播放的流水线模式、以及在该语句翻译后的语音播放的同时，下一完整语义的语音叠加在该语音中进行播放的语音合成技术，使原始语音和翻译后的语音合成叠加在一起，原声音量降低作为背景音，翻译后的语音作为主音量，发送至目标终端，具体实现如下：

向所述目标终端发送第一子语音信号；

在将第一子语音信号播放给所述目标用户后，合成所述第一子语音信号翻译后的语音信号和第二子语音信号；

将合成后的语音信号发送给目标终端。

如此，不需要等到全部语句播放完成后，再将翻译后的语句逐句播放，与现有播放模式相比，翻译播放时间提前，减少了翻译等待时延，提高了翻译效率，增强用户体验。

由于在双发通话过程中，发送端和接收端为相对概念，通常根据通话双发正在通话的情况而定，将说话方确定为发送端，将收听方确定为接收端；因此，在某一时刻，上述发送端可以作为接收端。当上述发送端作为接收端，执行翻译功能时，所述方法还可以包括：

接收源终端发送的音频信号；所述音频信号包含语音段信号；所述语音段信号为功率值大于预设门限值的一段语音信号；

对所述音频信号中的语音段信号进行语义分析；

若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；所述特征点为不具有完整语义的语音信号所处的时间点；

将所述至少一个子语音段信号翻译成预设语种的语音信号；

播放翻译后的语音信号。

同理，为了实现同声翻译以及提高翻译效率的目的，所述方法还可以包括：

播放第一子语音信号；

合成所述第一子语音信号翻译后的语音信号和第二子语音信号；

播放合成后的语音信号。

第二方面，本发明实施例还提供了一种终端，所述终端可以为集成有翻译功能的发送端，用于执行上述翻译方法，所述终端可以包括：

音频处理模块，用于获取用户输入的音频信号；所述音频信号包含语音段信号；所述语音段信号为功率值大于预设门限值的一段语音信号；

语音端点检测模块，用于对所述音频处理模块获取到的音频信号中的语音段信号进行语义分析；若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；所述特征点为不具有完整语义的语音信号所处的时间点；

翻译模块，用于将所述语音端点检测模块检测出的至少一个子语音段信号翻译成符合目标用户语种的语音信号；

语音合成模块，用于将所述翻译模块翻译后的语音信号发送给目标终端。

同时，为了实现同声翻译以及提高翻译效率的目的，本发明通过一个完整语义的语句翻译完成后即进行播放的流水线模式、以及在该语句翻译后的语音播放的同时，下一完整语义的语音叠加在该语音中进行播放的语音合成技术，原声音量降低作为背景音，翻译后的语音作为主音量，进行播放，具体的，所述语音合成模块用于：

在将第一子语音信号播放给所述目标用户后，将所述第一子语音信号翻译后的语音信号和所述第二子语音信号进行语音合成；

将合成后的语音播放给所述目标用户。

由于发送端和接收端为相对概念，通常根据通话双发正在通话的情况而定，将说话方确定为发送端，将收听方确定为接收端，因此，在某一时刻，上述终端可以作为接收端，当上述终端作为接收端时，所述音频处理模块，还可以用于：

所述语音端点检测模块，还可以用于对所述音频处理模块获取到的音频信号中的语音段信号进行语义分析；若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；所述特征点为不具有完整语义的语音信号所处的时间点；

所述翻译模块，还可以用于将所述语音端点检测模块检测出的至少一个子语音段信号翻译成预设语种的语音信号；

所述语音合成模块，还可以用于播放所述翻译模块翻译后的语音信号。

同理，为了实现同声翻译以及提高翻译效率的目的，所述语音合成模块，还可以用于：

播放第一子语音信号；

在播放第一子语音信号后，合成所述第一子语音信号翻译后的语音信号和第二子语音信号；

播放合成后的语音信号。

第三方面，本发明实施例还提供了一种终端，所述终端可以为集成有翻译功能的发送端，用于执行上述翻译方法，所述终端可以包括：

输入设备，用于获取用户输入的音频信号；所述音频信号包含语音段信号；所述语音段信号为功率值大于预设门限值的一段语音信号；

处理器，用于对所述输入设备获取到的音频信号中的语音段信号进行语义分析；若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；所述特征点为不具有完整语义的语音信号所处的时间点；

将所述至少一个子语音段信号翻译成符合目标用户语种的语音信号；

发送器，用于将所述处理器翻译后的语音信号发送给目标终端。

同时，为了实现同声翻译以及提高翻译效率的目的，本发明通过一个完整语义的语句翻译完成后即进行播放的流水线模式、以及在该语句翻译后的语音播放的同时，下一完整语义的语音叠加在该语音中进行播放的语音合成技术，原声音量降低作为背景音，翻译后的语音作为主音量，进行播放，具体的，所述处理器，还用于：

在所述发送器将所述处理器翻译后的语音信号发送给目标终端之前，合成第一子语音信号翻译后的语音信号和第二子语音信号；

所述发送器，具体用于：

将所述第一子语音信号发送给目标终端；

将所述合成后的语音信号发送给目标终端。

由于发送端和接收端为相对概念，通常根据通话双发正在通话的情况而定，将说话方确定为发送端，将收听方确定为接收端，因此，在某一时刻，上述终端也可以作为接收端，当上述终端作为接收端时，所述终端，还可以包括：

接收器，用于接收源终端发送的音频信号；所述音频信号包含语音段信号；所述语音段信号为功率值大于预设门限值的一段语音信号；

所述处理器，还可以用于对所述接收器获取到的音频信号中的语音段信号进行语义分析；若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；所述特征点为不具有完整语义的语音信号所处的时间点；

将所述至少一个子语音段信号翻译成预设语种的语音信号；

输出设备，用于播放所述处理器翻译后的语音信号。

同理，为了实现同声翻译以及提高翻译效率的目的，所述处理器，还用于：

在所述输出设备播放所述处理器翻译后的语音信号之前，合成第一子语音信号翻译后的语音信号和第二子语音信号；

所述输出设备，具体用于：

播放所述第一子语音信号；

播放所述合成后的语音信号。

由上可知，本发明实施例提供一种翻译方法及终端，获取源用户发出的一帧音频信号；所述音频信号包含语音段信号；对所述音频信号中的语音段信号进行语义分析，检测所述语音段信号中是否存在特征点；所述特征点为：不具有完整语义的语音信号所处的时间点；若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；将至少一个子语音段信号翻译成符合目标用户语种的语音，将翻译后的语音播放给所述目标用户。如此，基于语义分析把经VAD端点检测的语句中不具有完整语义的语音剔除，切分为更短的且具有完整语义的语句，完整的表达了说话者的语句含义，避免出现断句或半句的情况，有效地提高了通话中即时翻译的准确性；同时，通过流水线模式+两路音频叠加的语音合成技术，不需要等到全部语句播放完成后，再将翻译后的语句逐句播放，与现有播放模式相比，翻译播放时间提前，减少了翻译等待时延，提高了翻译效率，增强用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种终端的结构示意图；

图2为本发明实施例提供的一种翻译方法的流程示意图；

图3为本发明实施例提供的一种翻译方法的流程示意图；

图4为本发明实施例提供的实时翻译的时序图；

图5为本发明实施例提供的终端的结构图示意图。

具体实施方式

本发明的核心思想是：在现有手机中集成不同语种间的实时语音翻译功能，基于语义分析将主叫用户录入的语音信息或对被叫用户发来的语音信息进行分割，剔除语音信息中基本不具有任何语义的语音，将语音信息划分为更短的且具有完整语义的短句，同时，采用将一个完整语义的语句翻译完成后即进行播放的流水线模式、以及在该语句翻译后的语音播放的同时，下一完整语义的语音叠加在该语音中进行播放的语音合成技术将翻译后的语音播放给目标用户，来实现对不同语种的手机用户进行通话的支持。

可以理解的是，本发明实施例所述的主叫和被叫为相对概念，根据通话双发的发起顺序而定，通常将通话发起者称之为“主叫”，相应的，将通话接收者称之为“被叫”；所述的语音信息可以为包含多个语义的但无静音段信号的一段语音段信号，每个语句可以表达一个意思，且语句之间的时间间隔比较短(基本采用现有端点检测技术是区分不开的)；比如，根据人们的通话习惯，通常会将表达不同意思的语言基本不间断地说完，如：“吃什么好呢～嗯～额～哪个～吃面条吧”虽然为不间断的一段语音信号，但是“～嗯～额～哪个～”不具有任何特殊的含义，因此可以根据语义分析将该语音信息分为两个意思的语句：一、吃什么好呢；二、吃面条吧。需要说明的是，所述静音段信号为用户当前给对端待发出的一段完整语句中，语音信号的功率值低于预设门限值，且持续时间大于预设时间值的一段信号，如语音信号的功率值低于0dB，且持续时间大于500ms的一段语音信号可以作为静音段信号；相对应的，语音信号的功率值大于预设门限值的数据为语音段信号；其中，预设门限值和预设时间值可以根据需要进行设定，本发明实施例对比不进行限定。

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，为本发明实施例提供的集成有翻译功能的终端10的结构示意图，用于实现用户通话过程中的实时翻译，如图1所示，所述终端10可以由如下模块组成：音频处理模块101、语音端点检测模块102、语音识别模块103、翻译模块104、语音合成模块105；

音频处理模块101：可以包含音频驱动、数字信号处理器(Digital SignalProcessing，DSP)、调制解调器(Modem)、编译码器(Codec)、麦克风(MIC)、扬声器(Specker，简称：SPK)等子模块；主要提供录音放音功能，用于接收主叫用户发出的音频信号，将音频信号发送至语音端点检测模块102进行后续翻译工作，将翻译成被叫语种的语音经模数转换、调制、编码等处理后播放给通话被叫，或接收被叫用户发出的音频信号，将该音频信号经过数模转换、解调、译码等处理后发送至语音端点检测模块102进行后续翻译工作，将翻译成主叫语种的被叫语音播放给主叫用户；其中，音频驱动、DSP、Modem、Codec、MIC、SPK等子模块为现有音频处理中常用模块，在此不再详细赘述。

语音端点检测模块102：主要根据语音识别模块103中的语义数据库，检测出语音段信号中语义独立的语句，并将检测出的语句提供给语音识别模块103进行文字转换。

语音识别模块103：可以包含语义数据库，主要为语音端点检测模块102的语句检测提供判断依据，并将语音端点检测模块102检测到的语句转换为文字信息。

翻译模块104：主要用于将语音识别模块103转换后的文字信息翻译成符合目标(主叫或被叫)语种的文字信息。

语音合成模块105，主要用于将翻译模块104翻译后的文字信息转换为语音信息发送至音频处理模块101，由音频处理模块101播放给目标用户。

其中，为了使翻译后的语音不影响原始语音，所述语音合成模块105，还可以用于将原声和语音合成模块105翻译后的声音叠加在一起，原声音量降低作为背景音，翻译后的语音作为主音量，达到类似现场同声翻译的效果。

可理解的是，对于手机通话过程中实现即时语音翻译的任意两个手机用户而言，上述执行翻译功能的模块可以集成在一个终端中，也可以分别集成在通话的两个终端中，即在本发明中，任意一个通话终端都可以采用图2所示的结构来实现通话过程中的即时翻译功能。具体来说，本发明的终端应用在实际应用中可采用以下几种基本架构：①主叫终端采用图2所示结构，被叫终端保持不变；②主叫终端保持不变，被叫终端采用图2所示结构；③主叫终端和被叫终端均采用图2所示的结构，即每个通讯终端都能支持第一语言到第二语言的翻译、以及第二语言到第一语言的翻译；具体采用哪种架构，本发明实施例不进行限定，本发明仅以将执行翻译功能的模块集中在一端终端内为例进行说明。

为了便于描述，以下实施例一以步骤的形式示出并详细描述了本发明终端10执行自动翻译的过程，其中，示出的步骤也可以在除终端10之外的诸如一组可执行指令的计算机系统中执行。此外，虽然在图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

图2为本发明实施例提供的一种翻译方法的流程图，应用于如图1所示的终端，且所述终端和对端终端正在进行语音通话，当前时刻正在将本端语音发送至目标终端(即对端终端)，如图2所示，所述方法可以包括：

步骤101：获取用户输入的音频信号；所述音频信号包含语音段信号；所述语音段信号为功率值大于预设门限值的一段语音信号。

其中，所述用户为当前通话过程中正在说话的用户，为手持所述终端的本端用户。

其中，所述音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息的载体，根据声波的特征，可以为一种连续变化的模拟信号，从时间上来划分，可以分为多段语音信号，通常情况下，音频信号有三个重要参数：频率、幅度和相位，来决定音频信号的特征；可以将音频信号的信号幅度的平方值确定为语音信号的功率值(以dB为单位)，用于表示该语音信号的强度大小，即音量大小。

所述静音段信号为用户当前给对端待发出的一段完整语句中，语音信号的功率值低于预设门限值，且持续时间大于预设时间值的一段信号，如语音信号的功率值低于0dB，且持续时间大于500ms的一段语音信号可以称之为静音段信号；相对应的，语音信号的功率值大于预设门限值的数据为语音段信号；其中，预设门限值和预设时间值可以根据需要进行设定，本发明实施例对比不进行限定。

可选的，在本发明实施例中，可以采用现有语音端点检测(voice activitydetection，VAD)技术对所述音频信号进行检测，先将语音信号的功率值小于预设门限值，且持续时间大于预设时间值的语音信号确定为静音段信号，然后，以所述静音段信号为分割点，对所述音频信号进行分割，获取至少一个语音段信号。

例如，对端用户说：“今天天气很好，咱们去吃饭吧，吃什么好呢～嗯～额～哪个～吃面条吧”，其中，“今天天气很好”和“咱们去吃饭吧”之间的语音信号的功率值低于预设门限值，且持续时间大于预设时间值，则确定这两句话之间发出的语音信号为静音段信号，同理，若“咱们去吃饭吧”和“吃什么好呢～嗯～额～哪个～吃面条吧”之间的语音信号的功率值也低于预设门限值，且持续时间也大于预设时间值，可以确定“咱们去吃饭吧”和“吃什么好呢～嗯～额～哪个～吃面条吧”之间的语音信号为静音段信号，因此，可以将对端用户说的该段话“今天天气很好，咱们去吃饭吧，吃什么好呢～嗯～额～哪个～吃面条吧”划分为三个语音段信号“今天天气很好”、“咱们去吃饭吧”、“吃什么好呢～嗯～额～哪个～吃面条吧”。

步骤102：对所述音频信号中的语音段信号进行语义分析，若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号，所述特征点为：不具有完整语义的语音信号所处的时间点。

在本发明实施例中，可以预先将实际当中常用的一些不具有完整语义的词语或词的特征值作为语义特征值存储在语义数据库中，然后，可以查询所述语义数据库，对所述音频信号中的语音段信号进行语义分析；若所述语音段信号中存在第一语音信号，所述第一语音信号的特征值包含在所述语义数据库中，则确定所述第一语音信号为所述特征点；若所述语音段信号中所有语音信号的特征值均未包含在所述语义数据库中，则确定所述语音段信号中未包含特征点。其中，所述第一语音信号可以为所述语音段信号中的任一语音信号。

例如，在实际通话过程中，按照人们的习惯，通常会将“另外、还有、首先、其次、嗯、额、哪个”等过渡词前后的语句作为两个不同意思的语句同时讲给对方，但是，这些过渡词却不具有完整的语义，此时，在本发明实施例中，可以根据该习惯应用，将这些过渡词的特征值作为语义特征值，预先存在在语义特征库中，以便后续对语音段信号进行语义分析。

可理解的是，在本发明实施例中，还可以将“噪声、背景音”等非静音但又不具有任何语义的语音的特征值作为语义特征值存储在语义数据库中，以便匹配语音段信号中该部分语音。

可选的，所述以所述特征点为分割点，将所述子语音段信号分割为至少一个子语音段信号具体可以包括：对于任一特征点，将所述特征点和所述特征点相邻的上一特征点间的语音信号作为一个子语音段信号，将所述特征点和所述特征点相邻的下一特征点之间的语音信号作为另外一个语音段信号。

如此，可以将语音段信号中不具有完整语义的语音剔除，同时，保证划分的子语音段为一具有完整语义的语音段。

仍以步骤101中的例子为例，分别对音频信号中的三个语音段信号进行语义分析，发现语音段信号“吃什么好呢～嗯～额～哪个～吃面条吧”中“嗯～额～哪个”语音信号的特征值包含在语义特征库中，则可以以“嗯～额～哪个”为间隔将该语音段信号分为两个完整语义的子语音段“吃什么好呢”和“吃面条吧”。

当然，子语音段信号的获取还可以是多个特征点之间的语音段信号。例如，某一语音段之间包括10个特征点，可提取第1特征点和第4特征点之间的语音段信号作为子语音段信号。该子语音段信号的提取规则可根据终端的处理能力等确定。

可理解的是，若语音段信号中不存在特征点，则表示该语音段信号不能分割成至少两个完整语义的语句，需直接对该语音段信号进行翻译。

步骤103：将所述至少一个子语音段信号翻译成符合目标用户语种的语音信号，将翻译后的语音信号发送给目标终端。

其中，所述目标用户为当前通话过程中正在收听语音的用户，且本端用户和所述目标用户所支持的通话语种是不同的；例如，本端用户可以用汉语打电话，而目标用户则可以用英文通话。

可选的，所述将所述至少一个子语音段信号翻译为符合目标用户语种的语音具体可以包括：

所述终端中的语音识别模块将每个子语音段信号转换为符合源用户语种的文本；

所述终端中的翻译模块将转换后的文本翻译成符合目标用户语种的文本；

所述终端中的语音合成模块将翻译后的文本转换为语音信号。

相应的，可以将翻译后的语音信号按照时间顺序依次播放给所述目标用户。由于在实际应用中，完全过滤掉原始语音，仅播放翻译后的语音信号的播放方式会让用户感到疑惑，不自然，为解决该问题，目前，人们基本上会将用户发出的原始语音信号和翻译后的语音信号均播放为目标用户，此时，为了使翻译后的语音信号不影响原始语音信号的播放，现有常规做法是在一段语音信号完全停止播放后，再将该段音频信号中每段子音频信号翻译后的语音信号依次播放出去，这导致目标用户需要长时间等待，为避免目标用户等待翻译的时间过长，本发明通过流水线模式+两路音频叠加的语音合成技术，使原始语音和翻译后的语音合成叠加在一起，原声音量降低作为背景音，翻译后的语音作为主音量，进行播放，具体实现如下：

向所述目标终端发送第一子语音信号；

将合成的语音信号发送给目标终端。

同理，将第二子语音信号播放给所述目标终端后，可以将所述第二子语音信号翻译后的语音信号和所述第三子语音信号合成后播放给所述目标终端，按照这种方式，直至将子语音信号和翻译后的语音信号完全播放给所述目标终端，如此，实现了边播放边翻译的效果，降低了翻译的等待时延。

需要说明的是，第一子语音信号、第二子语音信号、第三子语音信号可以为步骤102中获得的至少一个子语音信号中的任一子语音信号，但是，从时间顺序上来看，第二子语音信号为：在第一子语音信号的时间之后且与第一子语音信号相邻的语音信号，第三子语音信号为：在第二子语音信号的时间之后且与第二子语音信号相邻的语音信号。

例如，如图3所示，为本发明实施例提供的实时翻译的时序图，本端基于语义分析将语音信息划分为三个完整语义的语音信息，且逐句翻译后，现有技术通常会这三个原始语句完全播放后，才将翻译后的语音按照时间顺序逐句播放给目标用户，由此导致了时间迟延。而本申请采用流水线模式，一个语句播放之后即进行翻译后的语音播放，同时，为了使下一语句的原始播放不影响当前翻译后的语音播放，将二者进行了音频合成处理，如此，不需要等到全部语句播放完成后，再将翻译后的语句逐句播放，从图3可以看出，本申请的流水线模式与现有播放模式相比，翻译播放时间提前，减少了翻译等待时延，提高了翻译效率，增强用户体验。

可选的，本发明实施例中，所述合成所述第一子语音信号翻译后的语音信号和第二子语音信号具体可以包括：

对所述第一子语音信号翻译后的语音信号和所述第二子语音信号进行加权求和；

其中，在加权求和过程中，所述第一子语音信号翻译后的语音信号的权值和所述第二子语音信号的权值，可以根据需要进行设定，本发明实施例对比不进行限定，所述权值可以理解为加权求和过程中，多个语音信号在总的语音信号中所占据的比重。但是，为了使原始语音不影响到翻译后的语音信号的播放，本发明实施例中，在对所述第一子语音信号翻译后的语音信号的权值和所述第二子语音信号的权值的设定过程中，需要使所述第一子语音信号翻译后的语音信号的权值大于所述第二子语音信号的权值。

例如，假设A是第二子语音信号的原始语音，B是第一子语音信号翻译后的语音，令A的权值为第二为10％，B的权值为90％，则合成后的语音为：10％*A+90％*B，即可得到A和B混音效果，由于B的权重大于A，则可将A认为背景音，B为用户主要听到的声音。需要说明的是，本发明实施例包含但不限于上述加权方式的语音合成。

进一步的，为了识别出对端支持的语种，在将所述至少一个子语音段信号翻译成符合目标用户语种的语音信号之前，所述方法还包括：

接收所述目标终端发送的指示信息，其中，所述指示信息用于：指示所述目标终端所支持的语种。

例如，通话双方分别为中国人和美国人，即通话双方所使用的语种为中文和英文，通过通话双方最初相互发送的指示消息(中国人说“中文”，美国人说“英文”)，确定通话双方作用的语种为中文和英文。这样，在后续的处理过程中，如果输入语音信号为中文的语音信号，则源语种为中文，目标语种为英文；反之，如果输入语音信号为英文的语音信号，则源语种为英文，目标语种为中文。

进一步的，在获取用户输入的音频信号之前，所述方法还包括：

和所述目标终端建立语音通话；

接收所述目标终端发送的翻译请求，所述翻译请求用于请求向所述目标终端发送翻译后的语音信号。

其中，本发明实例所述语音通话可以包括正常的通过数据网络进行的通话，也可以包括通过APP或语音聊天软件等进行的语音通话。

由于在双方通话过程中，发送端和接收端为相对概念，通常根据通话双发正在通话的情况而定，将说话方确定为发送端，将收听方确定为接收端，因此，在某一时刻，上述正在发送语音信号的终端也可以作为接收端。相应的，当上述终端作为接收端时，所述终端还可以执行如图4所示的几个方法步骤，以实现对接收到的语音信号进行翻译播放：

步骤201：接收源终端发送的音频信号；所述音频信号包含语音段信号；所述语音段信号为功率值大于预设门限值的一段语音信号。

步骤202：对所述音频信号中的语音段信号进行语义分析；

若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；所述特征点为不具有完整语义的语音信号所处的时间点。

步骤203：将所述至少一个子语音段信号翻译成预设语种的语音信号，播放翻译后的语音信号。

其中，预设语种为本端用户所支持的语种，在此不再进行限定。步骤202和步骤102的具体实现过程相同，步骤203中将子语音信号翻译成预设语种的语音信号与步骤103中将子语音信号翻译成符合目标语种的具体实现过程相同，在此不再一一详细赘述。

可选的，步骤204播放翻译后的语音信号具体是指：

将翻译后的语音信号通过终端自身的音频处理模块播放给本端用户收听。

播放第一子语音信号；

播放合成后的语音信号。

具体的，可以通过上述加权求和的方法合成语音信号，在此不再详细赘述。

进一步的，在步骤202之前，所述方法还可以包括：

和所述源终端建立语音通话；

在所述终端的用户界面上显示提示信息；所述提示信息用于提示用户是否启动翻译功能；

接收所述用户发送的确认信息，启动翻译功能。

由上可知，本发明实施例提供一种翻译方法，应用于正在进行语音通话的终端，包括：获取用户发出的音频信号；所述音频信号包含语音段信号；对所述音频信号中的语音段信号进行语义分析，若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；将至少一个子语音段信号翻译成符合目标用户语种的语音，将翻译后的语音发送给目标终端。如此，基于语义分析把经VAD端点检测的语句中不具有完整语义的语音剔除，切分为更短的且具有完整语义的语句，完整的表达了说话者的语句含义，避免出现断句或半句的情况，有效地提高了通话中即时翻译的准确性。

需要说明的是，上述过程可以由图1所示终端中的各单元执行，具体不再赘述。此外，本发明图1所示终端中的音频处理模块可以为终端的输入设备或发送器；语音端点检测模块、语音识别模块、翻译模块、语音合成模块可以为单独设立的处理器，也可以集成在终端的某一个处理器中实现，此外，也可以以程序代码的形式存储于终端的存储器中，由终端的某一个处理器调用并执行以上翻译功能。这里所述的处理器可以是一个中央处理器(Central Processing Unit，CPU)，或者是特定集成电路(Application SpecificIntegrated Circuit，ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。具体的，如实施例二所述，本发明还提供了一种终端，优选地用于实现上述方法实施例中的方法。

实施例二

图5为本发明实施例提供的一种终端20的结构图，本发明实施例提供的终端20可以用于实施上述方法实施例所示的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照上述方法实施例中的描述。

该终端可以为手机、平板电脑、笔记本电脑、UMPC(Ultra-mobile PersonalComputer，超级移动个人计算机)、上网本、PDA(Personal Digital Assistant，个人数字助理)等即时通话工具，本发明实施例以终端为手机为例进行说明，图5示出的是与本发明各实施例相关的手机20的部分结构的框图。

如图5所示，手机20包括：输入设备201、存储器202、处理器203、发送器204、输出设备205、接收器206等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机20的各个构成部件进行具体的介绍：

输入设备201，可以包括触摸屏，也可以包括音频电路中的麦克风，用于实现手机20的输入功能。可收集用户在其上或附近发出的语音信号，并根据预先设定的程式驱动相应的连接装置，将收集的声音信号转换为电信号，由音频电路接收后转换为音频信号，再将音频信号发送给另一手机，或者将音频信号输出至存储器202以便进一步处理。

存储器202可用于存储数据、软件程序以及模块；主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机20的使用所创建的数据(比如音频数据、图像数据、电话本等)等。此外，存储器202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器203是手机20的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器202内的软件程序和/或模块，以及调用存储在存储器202内的数据，执行手机20的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器203可包括一个或多个处理单元；优选的，处理器203可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器203中。

发送器204，可以包括射频电路(Radio Frequency，RF)，可用于通话过程中语音信号的发送，特别地，将处理器203处理后的语音信号通过无线通道发送至另一手机；通常，发送器204包括但不限于天线、至少一个放大器、收发信机、耦合器、LNA(low noiseamplifier，低噪声放大器)、双工器等。

接收器205，可以包括RF电路，所述RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、LNA(low noise amplifier，低噪声放大器)、双工器等，可通过无线通信与网络和其他设备通信，接收其他设备发送的语音信号；通常情况下，由于天线具有互易功能，通常情况下，可以将上述发送器204和接收器205集成在一起，作为收发器。

输出设备206，可以包括音频电路中的扬声器，也可以包括触摸屏，可提供用户与手机20之间的音频接口，可将接收到的音频信号转换后的电信号，传输到扬声器，由扬声器转换为声音信号播放给本端用户。

尽管未示出，手机20还可以包括：WiFi(wireless fidelity，无线保真)模块、蓝牙模块、各个部件供电的电源(比如电池)等，在此不再赘述。

在本发明实施例中，若手机20当前时刻正在将本端语音发送至目标终端(即对端终端)，则输入设备201，还可以用于获取用户输入的音频信号；所述音频信号包含语音段信号；所述语音段信号为功率值大于预设门限值的一段语音信号。

处理器203，还可以用于对所述输入设备201获取到的音频信号中的语音段信号进行语义分析，若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；所述特征点为：不具有完整语义的语音信号所处的时间点；

以及，将所述至少一个子语音段信号翻译成符合目标用户语种的语音；

发送器204，还可以用于将翻译后的语音信号发送给目标终端。

在本发明实施例中，为了实现语义分析，可以预先将实际当中常用的一些不具有完整语义的词语或词的特征值作为语义特征值存储在存储器202语义数据库中，然后，所述处理器203具体用于：

查询所述存储器202中的语义数据库；其中，所述语义数据库包含至少一个语义特征值，所述语义特征值为：不具有完整语义的词语或词的特征值；

若所述语音段信号中存在第一语音信号，所述第一语音信号的特征值包含在所述语义数据库中，则确定所述第一语音信号为所述特征点；

若所述语音段信号中所有语音信号的特征值均未包含在所述语义数据库中，则确定所述语音段信号中未包含特征点。

进一步的，为避免目标用户等待翻译的时间过长，本发明通过流水线模式+两路音频叠加的语音合成技术，使原始语音和翻译后的语音合成叠加在一起，原声音量降低作为背景音，翻译后的语音作为主音量，进行播放，具体的，所述处理器203，还用于：

在发送器204将翻译后的语音信号发送给目标终端合成第一子语音信号翻译后的语音信号和第二子语音信号；

所述发送器204，具体用于：

将所述第一子语音信号发送给目标终端；

将所述合成的语音信号发送给目标终端。

可选的，本发明实施例中，所述处理器203具体用于：

进一步的，为了识别出对端支持的语种，所述接收器205还可以用于：

在处理器203将所述至少一个子语音段信号翻译成符合目标用户语种的语音信号之前，接收所述目标终端发送的指示信息，其中，所述指示信息用于：指示所述目标终端所支持的语种。

进一步的，所述接收器205，还可以用于：

在输入设备201获取用户输入的音频信号之前，所述终端与所述目标终端建立语音通话之后，接收所述目标终端发送的翻译请求，所述翻译请求用于请求向所述目标终端发送翻译后的语音信号。

由于在双方通话过程中，发送端和接收端为相对概念，通常根据通话双发正在通话的情况而定，将说话方确定为发送端，将收听方确定为接收端，因此，在某一时刻，上述正在发送语音信号的手机20也可以作为接收端。相应的，当上述手机20作为接收端时，所述手机20中的接收器205，还可以用于：

接收源终端发送的音频信号；所述音频信号包含语音段信号；所述语音段信号为功率值大于预设门限值的一段语音信号。

处理器203，还可以用于对所述接收器205接收到的音频信号中的语音段信号进行语义分析；

将所述至少一个子语音段信号翻译成预设语种的语音信号。

输出设备206，还可以用于播放所述处理器203翻译后的语音信号。

其中，处理器203执行翻译功能的详细步骤如前所述，在此不再详细赘述。

同理，为了实现同声翻译以及提高翻译效率的目的，所述处理器203，还用于：

在所述输出设备203播放所述处理器203翻译后的语音信号之前，合成第一子语音信号翻译后的语音信号和第二子语音信号；

所述输出设备206，具体可以用于：

播放所述第一子语音信号；

播放所述合成后的语音信号。

进一步的，所述输出设备206，还可以用于：

在所述终端和所述源终端建立语音通话后，在所述终端的用户界面上显示提示信息；所述提示信息用于提示用户是否启动翻译功能；

所述输入设备201，还可以用于接收所述用户发送的确认信息，

所述处理器203，还可以用于启动翻译功能。

由上可知，本发明实施例提供一种终端，获取用户发出的音频信号；所述音频信号包含语音段信号；对所述音频信号中的语音段信号进行语义分析，若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音段信号；将至少一个子语音段信号翻译成符合目标用户语种的语音，将翻译后的语音发送给目标终端。如此，基于语义分析把经VAD端点检测的语句中不具有完整语义的语音剔除，切分为更短的且具有完整语义的语句，完整的表达了说话者的语句含义，避免出现断句或半句的情况，有效地提高了通话中即时翻译的准确性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种翻译方法，应用于正在进行语音通话的终端，其特征在于，包括：

获取用户输入的音频信号；所述音频信号包含语音段信号；所述语音段信号为功率值大于预设门限值的一段语音信号；

对所述音频信号中的语音段信号进行语义分析，具体包括：若所述语音段信号中存在第一语音信号，所述第一语音信号的特征值包含在语义数据库中，则确定所述第一语音信号为特征点；若所述语音段信号中所有语音信号的特征值均未包含在所述语义数据库中，则确定所述语音段信号中未包含特征点；其中，所述语义数据库包含至少一个语义特征值，所述语义特征值为：不具有完整语义的词语或词的特征值；

若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音信号；所述特征点为不具有完整语义的语音信号所处的时间点；

将所述至少一个子语音信号翻译成符合目标用户语种的语音信号，将翻译后的所述符合目标用户语种的语音信号发送给目标终端。

2.根据权利要求1所述的方法，其特征在于，在将翻译后的所述符合目标用户语种的语音信号发送给目标终端之前，所述方法还包括：

合成第一子语音信号翻译后的语音信号和第二子语音信号；

所述将翻译后的所述符合目标用户语种的语音信号发送给目标终端具体包括：

将所述第一子语音信号发送给所述目标终端；

将合成的所述第一子语音信号翻译后的语音信号和第二子语音信号发送给目标终端；所述第二子语音信号为：在所述第一子语音信号的时间之后、且与所述第一子语音信号相邻的语音信号。

3.根据权利要求2所述的方法，其特征在于，所述合成所述第一子语音信号翻译后的语音信号和第二子语音信号具体包括：

其中，所述第一子语音信号翻译后的语音信号的权值大于所述第二子语音信号的权值。

4.根据权利要求1-3任一项所述的方法，其特征在于，在将所述至少一个子语音信号翻译成符合目标用户语种的语音信号之前，所述方法还包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，在获取用户输入的音频信号之前，所述方法还包括：

和所述目标终端建立语音通话；

接收所述目标终端发送的翻译请求，所述翻译请求用于请求向所述目标终端发送翻译后的所述符合目标用户语种的语音信号。

6.一种翻译方法，应用于正在进行语音通话的终端，其特征在于，包括：

对所述音频信号中的语音段信号进行语义分析，具体包括：若所述语音段信号中存在第一语音信号，第一语音信号的特征值包含在语义数据库中，则确定所述第一语音信号为特征点；若所述语音段信号中所有语音信号的特征值均未包含在所述语义数据库中，则确定所述语音段信号中未包含特征点；其中，所述语义数据库包含至少一个语义特征值，所述语义特征值为：不具有完整语义的词语或词的特征值；

将所述至少一个子语音信号翻译成预设语种的语音信号；

播放翻译后的所述预设语种的语音信号。

7.根据权利要求6所述的方法，其特征在于，在播放翻译后的所述预设语种的语音信号之前，所述方法还包括：

合成第一子语音信号翻译后的语音信号和第二子语音信号；

所述播放翻译后的所述预设语种的语音信号具体包括：

播放所述第一子语音信号；

播放合成后的所述第一子语音信号翻译后的语音信号和第二子语音信号；所述第二子语音信号为：在所述第一子语音信号的时间之后且与所述第一子语音信号相邻的语音信号。

8.根据权利要求7所述的方法，其特征在于，所述合成所述第一子语音信号翻译后的语音信号和第二子语音信号具体包括：

9.根据权利要求6-8任一项所述的方法，其特征在于，在接收源终端发送的音频信号之前，所述方法还包括：

和所述源终端建立语音通话；

接收所述用户发送的确认信息，启动翻译功能。

10.一种终端，其特征在于，包括：

语音端点检测模块，用于对所述音频处理模块获取到的音频信号中的语音段信号进行语义分析；若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音信号；所述特征点为不具有完整语义的语音信号所处的时间点；

翻译模块，用于将所述语音端点检测模块检测出的至少一个子语音信号翻译成符合目标用户语种的语音信号；

语音合成模块，用于将所述翻译模块翻译后的所述符合目标用户语种的语音信号发送给目标终端；

所述语音端点检测模块，具体用于若所述语音段信号中存在第一语音信号，所述第一语音信号的特征值包含在语义数据库中，则确定所述第一语音信号为所述特征点；若所述语音段信号中所有语音信号的特征值均未包含在所述语义数据库中，则确定所述语音段信号中未包含特征点；所述语义数据库包含至少一个语义特征值，所述语义特征值为：不具有完整语义的词语或词的特征值。

11.根据权利要求10所述的终端，其特征在于，所述语音合成模块具体用于：

将第一子语音信号发送给所述目标终端；

12.根据权利要求11所述的终端，其特征在于，所述语音合成模块具体用于：

13.根据权利要求10-12任一项所述的终端，其特征在于，所述音频处理模块还用于：

在所述语音合成模块将所述至少一个子语音信号翻译成符合目标用户语种的语音信号之前，接收所述目标终端发送的指示信息，所述指示信息用于：指示所述目标终端所支持的语种。

14.根据权利要求10-12任一项所述的终端，其特征在于，所述音频处理模块还用于：

在获取用户输入的音频信号之前，接收所述目标终端发送的翻译请求，所述翻译请求用于请求向所述目标终端发送翻译后的所述符合目标用户语种的语音信号。

15.一种终端，其特征在于，包括：

音频处理模块，用于接收源终端发送的音频信号；所述音频信号包含语音段信号；所述语音段信号为功率值大于预设门限值的一段语音信号；

翻译模块，用于将所述语音端点检测模块检测出的至少一个子语音信号翻译成预设语种的语音信号；

语音合成模块，用于播放所述翻译模块翻译后的所述预设语种的语音信号；

所述语音端点检测模块，具体用于若所述语音段信号中存在第一语音信号，所述第一语音信号的特征值包含在语义数据库中，则确定所述第一语音信号为所述特征点；若所述语音段信号中所有语音信号的特征值均未包含在所述语义数据库中，则确定所述语音段信号中未包含特征点；语义数据库包含至少一个语义特征值，所述语义特征值为：不具有完整语义的词语或词的特征值。

16.根据权利要求15所述的终端，其特征在于，所述语音合成模块具体用于：

播放第一子语音信号；

17.根据权利要求16所述的终端，其特征在于，所述语音合成模块具体用于：

18.根据权利要求15-17任一项所述的终端，其特征在于，在接收源终端发送的音频信号之前，所述音频处理模块还用于：

在接收源终端发送的音频信号之前，所述终端和所述源终端建立语音通话之后，接收用户发送的确认信息，启动翻译功能。

19.一种终端，其特征在于，包括：

处理器，用于对所述输入设备获取到的音频信号中的语音段信号进行语义分析；若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音信号；所述特征点为不具有完整语义的语音信号所处的时间点；

将所述至少一个子语音信号翻译成符合目标用户语种的语音信号；

发送器，用于将所述处理器翻译后的所述预设语种的语音信号发送给目标终端；

所述处理器，具体用于若所述语音段信号中存在第一语音信号，所述第一语音信号的特征值包含在语义数据库中，则确定所述第一语音信号为所述特征点；若所述语音段信号中所有语音信号的特征值均未包含在所述语义数据库中，则确定所述语音段信号中未包含特征点；所述语义数据库包含至少一个语义特征值，所述语义特征值为：不具有完整语义的词语或词的特征值。

20.根据权利要求19所述的终端，其特征在于，所述发送器，还用于：

在所述处理器将翻译后的所述预设语种的语音信号发送给目标终端之前，合成第一子语音信号翻译后的语音信号和第二子语音信号；

所述发送器，具体用于：

将所述第一子语音信号发送给所述目标终端；

将所述合成的所述第一子语音信号翻译后的语音信号和第二子语音信号发送给目标终端；所述第二子语音信号为：在所述第一子语音信号的时间之后、且与所述第一子语音信号相邻的语音信号。

21.根据权利要求20所述的终端，其特征在于，所述处理器，具体用于：

22.根据权利要求19-21任一项所述的终端，其特征在于，所述终端还包括接收器，

所述接收器，用于在所述发送器将所述至少一个子语音信号翻译成符合目标用户语种的语音信号之前，接收所述目标终端发送的指示信息，所述指示信息用于：指示所述目标终端所支持的语种。

23.根据权利要求22所述的终端，其特征在于，所述接收器，还用于：

在所述输入设备获取用户输入的音频信号之前，所述终端和所述目标终端建立语音通话之后，接收所述目标终端发送的翻译请求，所述翻译请求用于请求向所述目标终端发送翻译后的所述预设语种的语音信号。

24.一种终端，其特征在于，包括：

处理器，用于对所述接收器获取到的音频信号中的语音段信号进行语义分析；若所述语音段信号中存在特征点，则以所述特征点为分割点，将所述语音段信号分割为至少一个子语音信号；所述特征点为不具有完整语义的语音信号所处的时间点；

将所述至少一个子语音信号翻译成预设语种的语音信号；

输出设备，用于播放所述处理器翻译后的所述预设语种的语音信号；

25.根据权利要求24所述的终端，其特征在于，所述处理器，还用于：

在所述输出设备播放所述处理器翻译后的所述预设语种的语音信号之前，合成第一子语音信号翻译后的语音信号和第二子语音信号；

所述输出设备，具体用于：

播放所述第一子语音信号；

26.根据权利要求25所述的终端，其特征在于，所述处理器，具体用于：

27.根据权利要求24-26任一项所述的终端，其特征在于，所述终端，还包括输出设备、输入设备；

所述输出设备，用于在所述终端和所述源终端建立语音通话后，在所述终端的用户界面上显示提示信息；所述提示信息用于提示用户是否启动翻译功能；

所述输入设备，还用于接收所述用户发送的确认信息，

所述处理器，还用于启动翻译功能。