CN110008481B

CN110008481B - 翻译语音生成方法、装置、计算机设备和存储介质

Info

Publication number: CN110008481B
Application number: CN201910285061.XA
Authority: CN
Inventors: 蔡永军
Original assignee: Nanjing Imohoo Information Technology Co ltd
Current assignee: Nanjing Imohoo Information Technology Co ltd
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2023-04-28
Anticipated expiration: 2039-04-10
Also published as: CN110008481A

Abstract

本发明实施例公开了一种翻译语音生成方法、装置、计算机设备和存储介质。所述方法包括：获取指导语音和待调整翻译语音；其中，所述指导语音的语义与所述待调整翻译语音的语义相同，所述指导语音的语言体系与所述待调整翻译语音的语言体系不同；提取所述指导语音的情感特征信息，并根据所述指导语音、所述情感特征信息和所述待调整翻译语音确定语音调整信息；其中，所述语音调整信息包括：待调整情感音素以及与所述情感特征信息匹配的情感调整信息；根据所述语音调整信息，生成目标翻译语音。本发明实施例可以丰富翻译语音的情感信息，增加语音的丰富度。

Description

翻译语音生成方法、装置、计算机设备和存储介质

技术领域

本发明实施例涉及语音处理技术，尤其涉及一种翻译语音生成方法、装置、计算机设备和存储介质。

背景技术

体育竞技项目中，为了提高运动的指导专业程度，通常聘请外籍教练员对运动员进行训练指导。

但由于外籍教练员与运动员之间会存在语言沟通上的问题，通常会配备翻译员。其中，翻译员是指经过相关项目的专业术语训练的翻译人员。在训练中，翻译员将外籍教练员发出的指示信息翻译成运动员理解的语言体系。例如，在滑雪运动的训练过程中，外籍教练员通常伴随运动员一起在场地中滑雪。当外籍教练员需要纠正运动员动作时，可以通过呼喊直接向运动员发出指示。然而，翻译员通常为仅掌握语言技能的人员，几乎不可能在现场进行翻译。

目前，由运动员和外籍教练员各自携带移动终端，分别与设置在训练场地外的控制中心进行语音通讯或视频通讯，由翻译员接受外籍教练员发出的指令，并以运动员能够理解的语言向运动员转述指令。但由于翻译员不在现场，无法基于现场情况判断教练员发出指令时，训练现场的具体情况，因此转述给运动员的指令只能在文字上转述教练指令，由此，运动员在接收到教练指令后无法基于教练员的情绪而准确知道教练指令的重要(或紧急)程度，甚至由于无法及时提示运动员造成运动员受伤等后果。

发明内容

本发明实施例提供一种翻译语音生成方法、装置、计算机设备和存储介质，可以丰富翻译语音的情感信息，增加语音的丰富度，提高用户体验。

第一方面，本发明实施例提供了一种翻译语音生成方法，包括：

获取指导语音和待调整翻译语音；其中，所述指导语音的语义与所述待调整翻译语音的语义相同，所述指导语音的语言体系与所述待调整翻译语音的语言体系不同；

提取所述指导语音的情感特征信息，并根据所述指导语音、所述情感特征信息和所述待调整翻译语音确定语音调整信息；其中，所述语音调整信息包括：待调整情感音素以及与所述情感特征信息匹配的情感调整信息；

根据所述语音调整信息，生成目标翻译语音。

第二方面，本发明实施例还提供了一种翻译语音生成装置，包括：

语音获取模块，用于获取指导语音和待调整翻译语音；其中，所述指导语音的语义与所述待调整翻译语音的语义相同，所述指导语音的语言体系与所述待调整翻译语音的语言体系不同；

语音调整信息获取模块，用于提取所述指导语音的情感特征信息，并根据所述指导语音、所述情感特征信息和所述待调整翻译语音确定语音调整信息；其中，所述语音调整信息包括：待调整情感音素以及与所述情感特征信息匹配的情感调整信息；

目标翻译语音生成模块，用于根据所述语音调整信息，生成目标翻译语音。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例中任一所述的翻译语音生成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的翻译语音生成方法。

本发明实施例通过获取指导语音，并提取情感特征信息，同时根据指导语音和获取的待调整翻译语音确定语音调整信息，语音调整信息中包括待调整情感音素和对应的与情感特征信息匹配的情感调整信息，根据语音调整信息，生成目标翻译语音，以使目标翻译语音中包括与指导语音情感特征信息匹配的情感特征，从而实现在目标翻译语音中添加与指导用户情感匹配的情感信息，解决了现有技术中翻译员远程翻译仅能文字转述教练指令，忽略教练的情感信息，导致运动员无法准确获取重点指令并及时做出反应的问题，突出目标翻译语音的情感信息，增加语音的丰富度，使运动员可以快速明确翻译语音中的重点信息，提高用户体验。

附图说明

图1是本发明实施例一中的一种翻译语音生成方法的流程图；

图2是本发明实施例二中的一种翻译语音生成方法的流程图；

图3是本发明实施例三中的一种翻译语音生成方法的流程图；

图4a是本发明实施例四中所适用应用场景的示意图；

图4b是本发明实施例四中的一种翻译语音生成方法的流程图；

图5是本发明实施例五中的一种翻译语音生成装置的结构示意图；

图6是本发明实施例六中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中的一种翻译语音生成方法的流程图，本实施例可应用于针对不同语言体系的指导语音和翻译语音，生成符合指导语音情感匹配的翻译语音情况。该方法可以由本发明实施例提供的翻译语音生成装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在提供声音采集功能的计算机设备中，例如智能手机、平板电脑、车载终端或服务器等。如图1所示，本实施例的方法具体包括：

S110，获取指导语音和待调整翻译语音；其中，所述指导语音的语义与所述待调整翻译语音的语义相同，所述指导语音的语言体系与所述待调整翻译语音的语言体系不同。

其中，指导语音用于教导待指导用户的行为，具体可以是指导用户使用指导终端设备发送的语音。待调整翻译语音用于将指导语音翻译为待指导用户能听懂的语言体系，具体可以是除外籍指导用户和待指导用户之外的翻译用户，通过集成有翻译语音生成装置的计算机设备采集的语音，或者也可以是对指导语音进行机械翻译，生成的翻译文本，并对应生成的机器语音。也即，指导语音与待调整翻译语音的文本语义相同，但语言体系不同。通常，翻译用户或机器语音是不包含情感特征，甚至翻译用户发出语音的感情色彩与外籍指导用户的感情色彩相反。

需要说明的是，语言体系不同，可以是指语种不同，也可以是指方言与标准语言的不同。示例性的，指导语音为粤语，待调整翻译语言为普通话；或者指导语音为中文普通话，待调整翻译语言为美式英语。

S120，提取所述指导语音的情感特征信息，提取所述指导语音的情感特征信息，并根据所述指导语音、所述情感特征信息和所述待调整翻译语音确定语音调整信息；其中，所述语音调整信息包括：待调整情感音素以及与所述情感特征信息匹配的情感调整信息。

其中，情感特征信息用于表示发出指导语音的情感，例如，激动、愤怒、平静、悲伤、惊讶或高兴等。示例性的，具体可以通过指导用户的语速、音量和声调等参数中的至少一项体现。情感特征信息可以包括下述至少一项：基于韵律学特征、基于音质特征和基于频谱特征。具体的，基于韵律学特征包括下述至少一项：基频特征、时长特征和能量特征等；基于音质特征包括；共振峰参数。基于频谱特征包括：梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)和/或线性预测倒谱系数(Linear Prediction CepstrumCoefficient，LPCC)等。其中，基频特征可以通过自相关函数法提取；共振峰参数可以通过线性预测分析方法获取；梅尔频率倒谱系数可以通过预加重加窗、离散傅里叶变换、Mel滤波器、Log对数能量和离散余弦变换等步骤获取。此外，还可以通过其他方式获取情感特征信息，对此，本发明实施例不做具体限制。

其中，语音调整信息用于在待调整翻译语音中添加情感信息，以生成目标翻译语音。需要说明的是，添加情感信息可以是指强化预设情感信息或弱化预设情感信息。

待调整情感音素可以是指需要进行情感特征信息调整的音素，而且调整效果为强化或弱化情感特征，例如强化愤怒情感。情感调整信息用于调整待调整情感音素的参数，以实现调整待调整情感音素的情感特征信息。在本实施例中，音素是指语音的基本单元，例如，音素可以是指单词。

在本实施例中，待调整情感音素可以是指指导语音中部分或全部音素和/或待调整翻译语音中部分或全部音素。根据不同类型，情感调整信息的具体内容可以包括下述至少一项：基频特征、时长特征、能量特征、共振峰参数、MFCC和LPCC等。或者情感调整信息的具体内容可以包括语音的音调(频率)和响度(信号强度)等参数。示例性的，可以通过滤波调整语音的频率实现调整音调，通过提高设定音素的强度(或者振幅)实现提高响度；此外还可以综合调整频率以及信号强度。情感调整信息用于调整待调整情感音素的参数，与情感特征信息匹配，具体包括每个待调整的参数的调整数值和调整方式，其中，调整数值可以根据用户需要进行设定，或者根据经验值确定，例如，增加信号强度，对应的调整方式为调幅。

在一个具体的例子中，待调整情感音素可以是待调整翻译语音中查询语义为设定语义信息的音素，例如，语义为板尾滑行(Bluntslide，BL)的音素为待调整情感音素。又如，待调整情感音素可以是指导语音中满足设定情感特征条件的音素，例如，愤怒情感的语速快，持续时长短，可以将持续时长低于阈值(语速超过阈值)的音素作为待调整情感音素，例如持续时长低于10ms。而后通过增加待调整情感音素的信号强度，实现突出待调整情感音素中的情感信息。

可选的，所述语音调整信息还包括：待调整语义音素以及与从所述待调整翻译语音中提取的语义特征信息匹配的语义调整信息。

其中，待调整语义音素可以是指需要进行调整的音素，而且调整效果为强化或弱化语义特征。具体的，待调整语义音素可以是指具有设定语义的音素，例如语义为指令的音素，或者语义为语气词的音素。语义调整信息用于调整待调整语义音素的参数，实现强化或弱化待调整语义音素的语义信息。

语义特征信息用于表示待调整翻译语音的文本含义。通过对待调整翻译语音进行语音识别，实现获取语义特征信息，示例性的，可以采用基于隐马尔科夫模型(HiddenMarkov Model，HMM)实现语音识别。具体过程为：获取语音信号，将首尾端的静音切除，并进行分帧处理，将切分后的每一帧波形转变为对应的多维向量，将多维向量输入到预先训练的HMM模型，得到输出的识别结果。其中，该HMM模型用于实现将每帧识别成状态，并将状态组合成音素。

此外，还有其他方式可实现语音识别，如高斯混合模型、神经网络模型、和受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)等方式，其中，神经网络模型具体可以包括循环神经网络(Recurrent Neural Network,RNN)模型或卷积神经网络(ConvolutionalNeural Network，CNN)模型，对此，本发明实施例不作具体限制。

需要说明的是，提取指导语音的情感特征信息是指提取指导语音中各音素的情感特征信息，以及提取待调整翻译语音的语义特征信息是指提取待调整翻译语音中各音素的语义特征信息。

通过语音调整信息设置有待调整语义音素和语义调整信息，实现强化或弱化目标翻译语音中的设定语义信息，增加语音的丰富度，使运动员可以快速明确翻译语音中的重点信息，提高用户体验。

S130，根据所述语音调整信息，生成目标翻译语音。

在本实施例中，根据所述语音调整信息，生成目标翻译语音，具体是通过在待调整翻译语音中添加用于突出与指导语音的情感信息匹配的信息，从而实现对待调整翻译语音中添加情感信息，生成调整后的待调整翻译语音，作为目标翻译语音。

示例性的，可以通过混音方式，将增强情感特征的指导语音与待调整翻译语音进行混音，或者在待调整翻译语音中添加与指导语音的情感特征信息匹配的情感特征，如根据情感调整信息对待调整翻译语音中具有指令语义的音素的参数进行调整。

此外，当语音调整信息包括待调整语义音素以及语义调整信息时，可以通过调整待调整翻译语音中的待调整语义音素的参数，实现突出待调整翻译语音中的设定语义信息。

在一个具体的例子中，在待调整翻译语音中查询语义为指导信息的待调整语义音素，例如，板尾滑行(Bluntslide，BL)对应的音素为待调整语义音素，语义调整信息包括增加待调整语义音素的信号强度，实现突出待调整翻译语音中的指导信息。

实施例二

图2为本发明实施例二中的一种翻译语音生成方法的流程图，本实施例以上述实施例为基础进一步具体化，将根据所述语音调整信息，生成目标调整语音，具体化为：按照第一预设频段对所述指导语音进行滤波处理，得到目标指导语音；按照第二预设频段对所述待调整翻译语音进行滤波处理，得到目标待调整翻译语音；其中，所述第一预设频段与所述第二预设频段不同；根据所述语音调整信息对所述目标指导语音和目标待调整翻译语音进行调整，并进行混音，生成混合语音作为所述目标翻译语音。该方法具体包括：

S210，获取指导语音和待调整翻译语音；其中，所述指导语音的语义与所述待调整翻译语音的语义相同，所述指导语音的语言体系与所述待调整翻译语音的语言体系不同。

本实施例中指导语音、待调整翻译语音、情感特征信息、语音调整信息、待调整情感音素、情感调整信息和目标翻译语音等具体可以参考上述实施例的描述。

S220，提取所述指导语音的情感特征信息，并根据所述指导语音、所述情感特征信息和所述待调整翻译语音确定语音调整信息；其中，所述语音调整信息包括：待调整情感音素以及与所述情感特征信息匹配的情感调整信息。

其中，语音调整信息还可以包括待调整语义音素以及语义调整信息。

S230，按照第一预设频段对所述指导语音进行滤波处理，得到目标指导语音。

S240，按照第二预设频段对所述待调整翻译语音进行滤波处理，得到目标待调整翻译语音；其中，所述第一预设频段与所述第二预设频段不同；

第一预设频段和第二预设频段用于将指导语音和待调整翻译语音调整为频段不同的两个语音，由此，在后续进行混音处理时，可以避免指导语音和待调整翻译语音重叠在一起，而导致运动员无法听清楚，从而，提高混音形成的目标翻译语音的清晰度。示例性的，第一预设频段包括700Hz～1kHz，第二预设频段包括500Hz～650Hz，通常滤波后需要经过降噪处理，经降噪的指导语音及待调整翻译语音的各音素的平均频率差值为65Hz以上。此外，第一预设频段和第二预设频段还可以是其他范围，对此，本发明实施例不做具体限制。

S250，根据所述语音调整信息对所述目标指导语音和目标待调整翻译语音进行调整，并进行混音，生成混合语音作为所述目标翻译语音。

混音用于将目标指导语音和目标调整翻译语音相互叠加，以使待指导用户同时听到翻译语音和指导语音。从而实现待指导用户同时获取指导语音的情感信息，以及翻译语音中的设定语义信息。

可选的，所述语音调整信息包括：所述待调整情感音素包括所述目标指导语音中满足预设情感特征条件的音素，所述待调整语义音素包括所述目标待调整翻译语音中满足预设语义特征条件的音素；所述根据所述语音调整信息对所述目标指导语音和目标待调整翻译语音进行调整，并进行混音，包括：根据所述情感调整信息，调整所述目标指导语音中待调整情感音素的声压级，生成调整处理后的目标指导语音；根据所述语义调整信息，调整所述目标待调整翻译语音中待调整语义音素的声压级，生成调整处理后的目标待调整翻译语音；将所述调整处理后的目标指导语音和所述调整处理后的目标待调整翻译语音进行混音。

其中，预设情感特征条件用于在目标指导语音中确定情感变化的音素，情感突变可以是指不同于平静情感的情感。例如，愤怒情感的音素的音量提高、持续时间减小、共振峰的数量增加或共振峰最大值提高等。示例性的，可以通过时长特征、MFCC系数和共振峰参数等中的至少一项表示。从而，预设情感特征条件具体可以是确定产生情感变化的音素的情感特征信息的参数阈值，例如，持续时长低于10ms。满足预设情感特征条件的待调整情感音素用于表示情感变化的音素。

预设语义特征条件用于在目标待调整翻译语音中确定语义为指导信息的音素。示例性的，语义为指导信息的音素可以是指指令或动作，如倒滑(Fakie)、平地(Flatground)、外转/内转(Frontside/Backside)和内转背向横板滑行(Frontside boardslide)等。预设语义特征条件具体可以是预先建立的指令数据库中存储的指令信息。满足预设语义特征条件的待调整语义音素用于表示语义为设定语义信息的音素。

情感调整信息包括待调整情感音素的声压级调整值，同时，语义调整信息包括待调整语义音素的声压级调整值。

分别调整待调整情感音素和待调整语义音素的声压级，以突出待调整情感音素和待调整语义音素，从而实现突出设定语义信息和情感信息。示例性的，声压级调整方式为增加或减小声压级3db-12dB。

通过获取情感变化的待调整情感音素，并调整声压级，突出待调整情感音素，从而实现突出情感信息，并通过获取语义为设定语义信息的待调整语义音素，并调整声压级，突出待调整语义音素，从而实现突出设定语义信息，并将突出情感信息的指导语音与突出设定语义信息的翻译语音进行混音，生成目标翻译语音，从而，实现在目标翻译语音中突出情感信息和设定语义信息，增加目标翻译语音的丰富度。

在上述实施例的基础上，可选的，翻译语音生成方法还可以包括：获取待指导用户的反应时间；其中，所述反应时间通过待指导用户的身体参数确定，所述身体参数包括：运动参数和/或生理参数；根据所述反应时间确定所述第一预设频段、所述第二预设频段、所述待调整情感音素的声压级调整值和所述待调整语义音素的声压级调整值。

其中，所述运动参数包括下述至少一项：身体活动轨迹、运动轨迹、肌电图、加速度和速度，所述生理参数包括下述至少一项：心率、心电图、脉搏、皮质醇水平和多巴胺水平。示例性的，通过获取待指导用户的速度变化情况，将目标翻译语音发送的时间点与待指导用户的速度突变的时间点之间的时间作为反应时间，此外，还可以通过其他参数和其他方式确定反应时间，对此，本发明实施例不做具体限制。

具体的，声压级调整值可以通过预先构建的模型进行确定，滤取频段(第一预设频段和第二预设频段)可以通过预先构建的模型确定。示例性的，将语音的声压级调整值以及对应的反应时间作为训练样本，训练机器学习模型，该机器学习模型可以是神经网络模型，用于根据反应时间获取匹配的声压级调整值。同样，可以将语音的滤取频段和对应的反应时间作为训练样本，训练机器学习模型以确定与反应时间匹配的滤取频段。此外，还可以通过网络抓取或经验值确定声压级调整值与反应时间的对应关系以及滤取频段和反应时间的对应关系，从而确定与待指导用户的反应时间匹配的声压级调整值以及滤取频段。

通过获取与反应时间匹配的滤取频段与声压级调整值作为指导语音和翻译语音的调整数值，实现针对不同待指导用户分别采用不同调整数值进行语音调整，提高语音调整的针对性和灵活性，增加目标翻译语音的个体适用性，提高用户体验。

本发明实施例通过将指导语音和待调整翻译语音分别设置为不同频段，并进行叠加，将指导语音的情感信息融合到待调整翻译语音中，并生成目标翻译语音，实现目标翻译语音中同时包括情感信息，增加语音的丰富度，提高用户体验。

实施例三

图3为本发明实施例三中的一种翻译语音生成方法的流程图，本实施例以上述实施例为基础进一步具体化，所述语音调整信息包括：所述待调整情感音素、所述情感调整信息、所述待调整语义音素和所述语义调整信息，所述待调整语义音素包括所述待调整翻译语音中满足预设语义特征条件的音素，所述待调整情感音素与所述待调整语义音素相同，同时将根据所述语音调整信息，生成目标翻译语音，具体化为：根据所述语音调整信息，对所述待调整翻译语音中的待调整情感音素进行调整，生成目标调整语音。该方法具体包括：

S310，获取指导语音和待调整翻译语音；其中，所述指导语音的语义与所述待调整翻译语音的语义相同，所述指导语音的语言体系与所述待调整翻译语音的语言体系不同。

本实施例中指导语音、待调整翻译语音、情感特征信息、语音调整信息、待调整情感音素、情感调整信息、待调整语义音素、语义调整信息和目标翻译语音等具体可以参考上述实施例的描述。

S320，提取所述指导语音的情感特征信息，并根据所述指导语音、所述情感特征信息和所述待调整翻译语音确定语音调整信息；其中，所述语音调整信息包括：待调整情感音素、与所述情感特征信息匹配的情感调整信息、待调整语义音素和与从所述待调整翻译语音中提取的语义特征信息匹配的语义调整信息，所述待调整情感音素包括所述待调整翻译语音中满足预设语义特征条件的音素，所述待调整情感音素与所述待调整语义音素相同。

S330，根据所述语音调整信息，对所述待调整翻译语音中的待调整情感音素进行调整，生成目标调整语音。

对待调整情感音素进行调整实际上是从语义信息和情感信息两方面进行调整，同时实现将情感信息添加到翻译语音中以及强化或弱化翻译语音中的设定语义信息。

具体的，可以根据待调整语义音素的内容关联信息，从指导语音中确定与待调整语义音素匹配的音素，从而获取该音素的情感特征信息，并调整匹配的待调整语义音素的情感参数，以使该音素的情感信息迁移到匹配的待调整语义音素。其中，内容关联信息可以包括下述至少一项：语义特征信息、上下文信息和待调整语义音素在待调整翻译语音中的时间信息等。示例性的，根据待调整语义音素在在待调整翻译语音中的起始时间点为第10秒，同时待调整语义音素的语义为内转起跳旋转540°。在指导语音中第10秒确定的时间区域中，例如，第8秒-第15秒的时间段内，查询与内转起跳旋转540°语义相同的音素，例如，该音素是McEgg。根据指导语音的情感特征信息，确定McEgg的情感参数，并对应调整内转起跳旋转540°的情感参数，以将McEgg的情感信息迁移到内转起跳旋转540°上。

或者，可以根据获取指导语音中部分语句或全部语句(一个音素或多个音素)的情感特征信息，对待调整语义音素的进行调整。部分语句可以是一个语句，还可以是至少两个语句，语句的筛选可以根据待调整语义音素的关联内容信息确定。例如，根据待调整语义音素在待调整翻译语音中的时间信息，在指导语音中找到与该时间信息匹配的语句的情感特征信息作为该待调整语义音素的调整依据。

所述情感调整信息包括所述指导语音中各音素的情感特征平均调整值；其中，所述情感特征平均调整值包括情感特征平均值和情感特征修正值，所述情感特征修正值根据待指导用户的反应时间确定；可选的，所述根据所述情感调整信息，对所述待调整翻译语音中的待调整语义音素的进行调整，包括：根据所述情感特征平均调整值调整所述待调整语义音素的情感参数。

其中，情感特征平均调整值用于调整情感参数。具体的，情感特征平均调整值包括情感特征平均值和情感特征修正值。情感特征平均值用于表示指导语音的整体情感状态。情感特征修正值用于修正情感特征平均值，具体可以通过待指导用户的反应时间确定。反应时间可以参考上述实施例的描述。具体是，反应时间通过待指导用户的身体参数确定，所述身体参数包括：运动参数和/或生理参数。

情感参数用于表示情感特征信息，具体可以包括用于调整情感特征信息的属性参数，包括下述至少一项：基于韵律学特征、基于音质特征和基于频谱特征；或者包括频率和/或信号强度。具体的，调整方式可以是，基于情感特征平均值确定情感参数调整值，示例性的，在情感特征平均值上添加或减少预设调整值，将计算结果作为参数调整值，其中，预设调整值可以根据经验值或需要进行设置。而后根据情感参数调整值确定音素调整方式，例如，确定参数调整值为信号强度增加1倍，可以通过调幅实现。

在一个具体的例子中，参数调整值为待调整语义音素的持续时长增加1ms，可以将待调整语义音素中的最后一帧复制添加到最后一帧后面，或者将待调整语义音素的最后连续多帧分别复制并添加到匹配帧的后面，以使该待调整语义音素的持续时长达到增加1ms的目的。其中，一个音素包括至少一帧。

通过获取情感特征平均值对待调整语义音素的参数进行调整，以使待调整语义音素的情感特征信息符合指导语音的情感状态，实现将指导语音的情感信息添加到待调整翻译语音中，增加待调整翻译语音的情感特征，提高待调整翻译语音的丰富度。

本发明实施例通过从待调整翻译语音中筛选出满足设定语义特征条件的待调整语义音素，同时作为待调整情感音素，并根据情感调整信息和语义调整信息分别对该待调整语义音素进行调整，以使待调整语义音素的情感特征信息调整成与指导语音中情感特征信息匹配的信息，实现为待调整翻译语音添加情感特征，增加语音的丰富度，提高用户体验。

实施例四

图4a为本发明实施例四中的一种应用场景的示意图，该应用场景可适用于上述实施例所提供的翻译语音生成方法。具体的，如图4a所示，一种多语言教练系统，包括：指导终端设备410、待指导终端设备420和集成有翻译语音生成装置的翻译语音生成设备430。其中，指导终端设备、待指导终端设备和翻译语音生成设备均可以包括上下行端口、AD/DA转换器、音频编解码器、听筒及话筒等模块。

具体的，指导终端设备用于指导用户携带，采集指导用户输入的指导语音；待指导终端设备用于待指导用户携带，接收目标翻译语音，并根据目标翻译语音中的设定语义信息做出反应；翻译语音生成设备用于采集翻译用户输入的待调整翻译语音，或者用于根据指导语音机器生成待调整翻译语音，以及并根据接收到的指导语音生成目标翻译语音发送给待指导终端设备。

指导终端设备和待指导终端设备分别通过无线公共通讯线路与翻译语音生成设备进行通讯，还可以另外设置专用基站进行通讯。

需要说明的是，指导语音需经过滤波处理，可以是在指导终端设备进行滤波处理，并将滤波处理后的指导语音发送给翻译语音生成设备进行后续处理，或者可以由翻译语音生成设备接收初始指导语音，并进行滤波处理。

此外，翻译语音生成设备可以是用于翻译用户携带的终端设备，也可以是服务器，用于直接通过语音采集模块(如麦克风)获取翻译用户的翻译语音。

具体的，如图4b所示，该多语言教练系统应用的方法具体包括：

S401，指导用户通过指导终端设备采集指导语音并发送至翻译语音生成设备；

S402，翻译用户在翻译语音生成设备听取教练语音，通过翻译语音生成设备采集待调整翻译语音；

S403，翻译语音生成设备根据指导语音和待调整翻译语音，生成目标翻译语音；

具体的，具体是保留并强化指导语音的情感特征且使待调整翻译语音的语义特征更清晰的方式加以混音，生成目标翻译语音。或者

S404，翻译语音生成设备将目标翻译语音发送给待指导终端设备；

S405，待指导用户通过待指导终端设备听取目标翻译语音，并根据目标翻译语音指示做出相应动作。

本发明实施例通过提供一种多语言教练系统，提供翻译语音生成方法的具体应用场景，实现待指导用户接收到强化指导语音的情感特征且清晰化待调整翻译语音的语义特征的目标翻译语音，增加目标翻译语音的情感信息，增加目标翻译语音的丰富度。

实施例五

图5是本发明实施例五中的一种翻译语音生成装置的结构示意图，如图5所示，所述装置具体包括：

语音获取模块510，用于获取指导语音和待调整翻译语音；其中，所述指导语音的语义与所述待调整翻译语音的语义相同，所述指导语音的语言体系与所述待调整翻译语音的语言体系不同；

语音调整信息获取模块520，用于提取所述指导语音的情感特征信息，并根据所述指导语音、所述情感特征信息和所述待调整翻译语音确定语音调整信息；其中，所述语音调整信息包括：待调整情感音素以及与所述情感特征信息匹配的情感调整信息；

目标翻译语音生成模块530，用于根据所述语音调整信息，生成目标翻译语音。

进一步的，所述语音调整信息还包括：待调整语义音素以及与从所述待调整翻译语音中提取的语义特征信息匹配的语义调整信息。

所述目标翻译语音生成模块530，包括：指导语音滤波单元，用于按照第一预设频段对所述指导语音进行滤波处理，得到目标指导语音；待调整翻译语音滤波单元，用于按照第二预设频段对所述待调整翻译语音进行滤波处理，得到目标待调整翻译语音；其中，所述第一预设频段与所述第二预设频段不同；混音处理单元，用于根据所述语音调整信息分别对所述目标指导语音和目标待调整翻译语音进行调整，并进行混音，生成混合语音作为所述目标翻译语音。

进一步的，所述待调整情感音素包括所述目标指导语音中满足预设情感特征条件的音素，所述待调整语义音素包括所述目标待调整翻译语音中满足预设语义特征条件的音素；所述混音处理单元，具体用于：根据所述情感调整信息，调整所述目标指导语音中待调整情感音素的声压级，生成调整处理后的目标指导语音；根据所述语义调整信息，调整所述目标待调整翻译语音中待调整语义音素的声压级，生成调整处理后的目标待调整翻译语音；将所述调整处理后的目标指导语音和所述调整处理后的目标待调整翻译语音进行混音。

进一步的，所述翻译语音生成装置，还包括：反应时间获取模块，用于获取待指导用户的反应时间；其中，所述反应时间通过待指导用户的身体参数确定，所述身体参数包括：运动参数和/或生理参数；根据所述反应时间确定所述第一预设频段、所述第二预设频段、所述待调整情感音素的声压级调整值和所述待调整语义音素的声压级调整值。

进一步的，所述语音调整信息包括：所述待调整情感音素包括所述待调整翻译语音中满足预设语义特征条件的音素，所述待调整情感音素与所述待调整语义音素相同；所述目标翻译语音生成模块530，包括：根据所述语音调整信息，对所述待调整翻译语音中的待调整情感音素进行调整，生成目标调整语音。

进一步的，所述情感调整信息包括所述指导语音中各音素的情感特征平均调整值；其中，所述情感特征平均调整值包括情感特征平均值和情感特征修正值，所述情感特征修正值根据待指导用户的反应时间确定；所述待调整语义音素调整单元，具体用于：根据所述情感特征平均调整值调整所述待调整语义音素的情感参数。

上述翻译语音生成装置可执行本发明任意实施例所提供的翻译语音生成方法，具备执行的翻译语音生成方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例六提供的一种计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备612的框图。图6显示的计算机设备612仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备612以通用计算设备的形式表现。计算机设备612的组件可以包括但不限于：一个或者多个处理器或者处理单元616，系统存储器628，连接不同系统组件(包括系统存储器628和处理单元616)的总线618。计算机设备612可以是车载设备。

总线618表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备612访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器628可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)630和/或高速缓存存储器632。计算机设备612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统634可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)，数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储器628可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块642的程序/实用工具640，可以存储在例如存储器628中，这样的程序模块642包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等)通信，还可与一个或者多个使得用户能与该计算机设备612交互的设备通信，和/或与使得该计算机设备612能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口622进行。并且，计算机设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(LocalArea Network，LAN)，广域网(Wide Area Network，WAN)通信。如图所示，网络适配器620通过总线618与计算机设备612的其它模块通信。应当明白，尽管图6中未示出，可以结合计算机设备612使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、(Redundant Arrays of Inexpensive Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理单元616通过运行存储在系统存储器628中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种翻译语音生成方法。

也即，所述处理单元执行所述程序时实现：获取指导语音和待调整翻译语音；其中，所述指导语音的语义与所述待调整翻译语音的语义相同，所述指导语音的语言体系与所述待调整翻译语音的语言体系不同；提取所述指导语音的情感特征信息，并根据所述指导语音、所述情感特征信息和所述待调整翻译语音确定语音调整信息；其中，所述语音调整信息包括：待调整情感音素以及与所述情感特征信息匹配的情感调整信息；根据所述语音调整信息，生成目标翻译语音。

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的翻译语音生成方法：所述方法包括：获取指导语音和待调整翻译语音；其中，所述指导语音的语义与所述待调整翻译语音的语义相同，所述指导语音的语言体系与所述待调整翻译语音的语言体系不同；提取所述指导语音的情感特征信息，并根据所述指导语音、所述情感特征信息和所述待调整翻译语音确定语音调整信息；其中，所述语音调整信息包括：待调整情感音素以及与所述情感特征信息匹配的情感调整信息；根据所述语音调整信息，生成目标翻译语音。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种翻译语音生成方法，其特征在于，包括：

根据所述语音调整信息，生成目标翻译语音；

所述语音调整信息还包括：待调整语义音素以及与从所述待调整翻译语音中提取的语义特征信息匹配的语义调整信息；

所述根据所述语音调整信息，生成目标调整语音，包括：

按照第一预设频段对所述指导语音进行滤波处理，得到目标指导语音；

按照第二预设频段对所述待调整翻译语音进行滤波处理，得到目标待调整翻译语音；其中，所述第一预设频段与所述第二预设频段不同；

根据所述语音调整信息对所述目标指导语音和目标待调整翻译语音进行调整，并进行混音，生成混合语音作为所述目标翻译语音；

所述待调整情感音素包括所述目标指导语音中满足预设情感特征条件的音素，所述待调整语义音素包括所述目标待调整翻译语音中满足预设语义特征条件的音素；

所述根据所述语音调整信息对所述目标指导语音和目标待调整翻译语音进行调整，并进行混音，包括：

根据所述情感调整信息，调整所述目标指导语音中待调整情感音素的声压级，生成调整处理后的目标指导语音；

根据所述语义调整信息，调整所述目标待调整翻译语音中待调整语义音素的声压级，生成调整处理后的目标待调整翻译语音；

将所述调整处理后的目标指导语音和所述调整处理后的目标待调整翻译语音进行混音；

还包括：

获取待指导用户的反应时间；其中，所述反应时间通过待指导用户的身体参数确定，所述身体参数包括：运动参数和/或生理参数；

根据所述反应时间确定所述第一预设频段、所述第二预设频段、所述待调整情感音素的声压级调整值和所述待调整语义音素的声压级调整值。

2.根据权利要求1所述的方法，其特征在于，所述待调整情感音素包括所述待调整翻译语音中满足预设语义特征条件的音素，所述待调整情感音素与所述待调整语义音素相同；

所述根据所述语音调整信息，生成目标翻译语音，包括：

根据所述语音调整信息，对所述待调整翻译语音中的待调整情感音素进行调整，生成目标调整语音。

3.根据权利要求2所述的方法，其特征在于，所述情感调整信息包括所述指导语音中各音素的情感特征平均调整值；其中，所述情感特征平均调整值包括情感特征平均值和情感特征修正值，所述情感特征修正值根据待指导用户的反应时间确定；

所述根据所述情感调整信息，对所述待调整翻译语音中的待调整语义音素的进行调整，包括：

根据所述情感特征平均调整值调整所述待调整语义音素的情感参数。

4.一种翻译语音生成装置，其特征在于，包括：

目标翻译语音生成模块，用于根据所述语音调整信息，生成目标翻译语音；

所述目标翻译语音生成模块包括：指导语音滤波单元，用于按照第一预设频段对所述指导语音进行滤波处理，得到目标指导语音；待调整翻译语音滤波单元，用于按照第二预设频段对所述待调整翻译语音进行滤波处理，得到目标待调整翻译语音；其中，所述第一预设频段与所述第二预设频段不同；混音处理单元，用于根据所述语音调整信息分别对所述目标指导语音和目标待调整翻译语音进行调整，并进行混音，生成混合语音作为所述目标翻译语音；

所述待调整情感音素包括所述目标指导语音中满足预设情感特征条件的音素，所述待调整语义音素包括所述目标待调整翻译语音中满足预设语义特征条件的音素；所述混音处理单元，具体用于：根据所述情感调整信息，调整所述目标指导语音中待调整情感音素的声压级，生成调整处理后的目标指导语音；根据所述语义调整信息，调整所述目标待调整翻译语音中待调整语义音素的声压级，生成调整处理后的目标待调整翻译语音；将所述调整处理后的目标指导语音和所述调整处理后的目标待调整翻译语音进行混音；

反应时间获取模块，用于获取待指导用户的反应时间；其中，所述反应时间通过待指导用户的身体参数确定，所述身体参数包括：运动参数和/或生理参数；根据所述反应时间确定所述第一预设频段、所述第二预设频段、所述待调整情感音素的声压级调整值和所述待调整语义音素的声压级调整值。

5.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3中任一所述的翻译语音生成方法。

6.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一所述的翻译语音生成方法。