CN110415680B

CN110415680B - 一种同声传译方法、同声传译装置以及一种电子设备

Info

Publication number: CN110415680B
Application number: CN201910832130.4A
Authority: CN
Inventors: 梁志军
Original assignee: Individual
Current assignee: Liang Zhijun
Priority date: 2018-09-05
Filing date: 2019-09-04
Publication date: 2022-10-04
Anticipated expiration: 2039-09-04
Also published as: WO2020048143A1; CN109300469A; CN110415680A; EP3620939A1

Abstract

本发明属于同声传译技术领域，具体公开了一种同声传译方法、同声传译装置以及一种电子设备，其中，同声传译方法包括采集目标人讲话音频的讲话内容及讲话特征；分析并学习目标人的讲话特征；按照指定语言翻译目标人的讲话内容，得到翻译后的讲话内容；以及模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出，其中，目标人的语言与指定语言为不同语种。本发明通过采集目标人的讲话音频，一方面将讲话内容翻译成指定语言，另一方面通过模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出，使对话人获取到的翻译音频具有目标人的讲话特征，翻译结果更加真切，具有更佳的听觉体验。

Description

一种同声传译方法、同声传译装置以及一种电子设备

技术领域

本发明涉及同声传译技术领域，尤其涉及一种同声传译方法、同声传译装置以及一种电子设备。

背景技术

同声传译是指在讲话人讲话的同时将讲话人的语言翻译成不同的语言。现有技术的同声传译大都通过人工来实现，然而，人为同声传译往往对译员有很高的要求，导致这部分人才稀缺，另一方面，译员的词汇量掌握情况至关重要，且翻译过程多会掺入个人因素，或多或少会产生影响翻译的准确度。目前越来越多的场合，例如国际会议，均需要同声传译来实现不同语种的人们交流想法，人工的同声传译已经无法满足市场的需求。

近年来，市面上也存在一些翻译产品，如翻译机，利用翻译机可以将讲话翻译成各种语言，但翻译的时间较长，输出机器语言较呆板，导致用户的体验效果差。

有鉴于此，有必要对同声传译技术进行进一步的改进。

发明内容

为解决上述技术问题，本发明的主要目的是提供一种同声传译方法、同声传译装置以及一种电子设备。

本发明采用的一个技术方案为：

一种同声传译方法，该方法包括：

采集目标人讲话音频的讲话内容及讲话特征；

分析并学习目标人的讲话特征；

按照指定语言翻译目标人的讲话内容，得到翻译后的讲话内容；以及

模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出，其中，目标人的语言与指定语言为不同语种。

进一步的，分析并学习目标人的讲话特征包括：

将目标人的讲话音频拆解成多个词语音素和/或多个发音特征音素；

根据多个词语音素和/或多个发音特征音素生成与目标人讲话特征相对应的数据因子源；

随着拆解的词语音素和/或发音特征音素越多而优化数据因子源；以及，

根据拆解的多个词语音素和/或多个发音特征音素在数据因子源中确定出目标人的讲话特征。

进一步的，根据拆解的多个词语音素和/或多个发音特征音素在数据因子源中确定出目标人的讲话特征，包括：

从多个词语音素和/或多个发音特征音素中选出至少一个关键词语音素和/或关键发音特征音素；

根据关键词语音素和/或关键发音特征音素在数据因子源中确定出目标人的讲话特征。

进一步的，方法还包括分析并学习对话人的讲话特征，其中：

分析并学习对话人的讲话特征包括：

将对话人的讲话音频拆解成多个词语音素和/或多个发音特征音素；

根据多个词语音素和/或多个发音特征音素生成与对话人讲话特征相对应的数据因子源；

随着拆解的词语音素和/或发音特征音素越多而优化数据因子源。

进一步的，在采集目标人讲话音频的讲话内容及讲话特征之前，还包括：

获取对话人的讲话音频并识别对话人的讲话语种。

进一步的，按照指定语言翻译目标人的讲话内容，得到翻译后的讲话内容中，指定语言为识别的对话人的讲话语种。

进一步的，按照指定语言翻译目标人的讲话内容，包括：

响应语言切换操作；

以切换后的语言作为指定语言并翻译目标人的讲话内容。

为实现上述目的，本发明采用的另一个技术方案为：

一种同声传译装置，该装置包括：

采集模块，用于采集目标人讲话音频的讲话内容及讲话特征；

分析模块，用于分析并学习目标人的讲话特征；

翻译模块，用于按照指定语言翻译目标人的讲话内容；

输出模块，用于模仿目标人的讲话特征，以及将翻译模块翻译后的讲话内容转化为翻译音频并输出。

为实现上述目的，本发明还采用了一个技术方案为：

一种电子设备，包括处理器以及存储器，

存储器，存储有计算机指令；

处理器，配置为执行计算机指令以实现上述同声传译方法。

进一步的，电子设备为手机、电脑或PAD。

本发明的同声传译方法、同声传译装置以及电子设备通过采集目标人的讲话音频，一方面将讲话内容翻译成指定语言，另一方面通过模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出，使对话人获取到的翻译音频具有目标人的讲话特征，翻译结果更加真切，具有更佳的听觉体验。另外，本发明的设计完全取代了人工的同声传译，应用范围更加广泛，使用更加方便快捷。

附图说明

图1为本发明第一实施例的同声传译方法的步骤流程图；

图2为本发明第二实施例的同声传译方法的步骤流程图；

图3为本发明第三实施例的同声传译方法的步骤流程图；

图4为本发明第四实施例的同声传译方法的步骤流程图；

图5为本发明第五实施例的同声传译方法的步骤流程图；

图6为本发明第六实施例的同声传译方法的步骤流程图；

图7为本发明第七实施例的同声传译方法的步骤流程图；

图8为本发明第八实施例的同声传译方法的步骤流程图；

图9为本发明第九实施例的同声传译方法的步骤流程图；

图10为本发明实施例的同声传译装置的模块组成图；

图11为本发明实施例的电子设备的模块组成图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种同声传译方法，如图1所示，为本发明实施例的步骤流程图，该方法包括以下步骤：

步骤S10：采集目标人讲话音频的讲话内容及讲话特征；

步骤S20：分析并学习目标人的讲话特征；

步骤S30：按照指定语言翻译目标人的讲话内容，得到翻译后的讲话内容；

步骤S40：模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出。

在本实施例中，针对目标人的讲话音频，采集得到目标人的讲话内容及讲话特征，讲话内容为目标人的语言文字，例如采集到目标人的讲话内容为“长江发源于"世界屋脊"——青藏高原的唐古拉山脉各拉丹冬峰西南侧。”，而讲话特征则为语音特征，例如音色(声音的频谱，基音与各次谐音的组成情况)、音调高低、音量大小、词语的发音特点等。通过对目标人的讲话特征进行分析及学习，获取到目标人所发出的是女性中音区的声音，音色略偏浑厚，略带地区口音，讲话语速缓慢、部分词语有重点强调等等。指定语言与目标人的语言不同，假设指定语言为英语，则将讲话内容“长江发源于"世界屋脊"——青藏高原的唐古拉山脉各拉丹冬峰西南侧。”翻译成英文，再模仿目标人的讲话特征(女性中音区的声音，音色略偏浑厚，讲话语速缓慢等)生成对应的翻译音频，输出后由对话人收听即可，对话人根据翻译音频能够感受到目标人讲话的语音特征，不再是现有技术中机器人内置的单一音色、平淡语调，如此能够将对话的氛围营造的更加真实，能够有更佳的听觉体验，也更好理解目标人的讲话语气。

具体的，如图2所示，为本发明另一实施例的步骤流程图，本发明实施例在上述实施例的基础上，步骤S20具体包括：

S201：将目标人的讲话音频拆解成多个词语音素和/或多个发音特征音素；

S202：根据多个词语音素和/或多个发音特征音素生成与目标人讲话特征相对应的数据因子源；

S203：随着拆解的词语音素和/或发音特征音素越多而优化数据因子源；

S204：根据拆解的多个词语音素和/或多个发音特征音素在数据因子源中确定出目标人的讲话特征。

本实施例中，将目标人的讲话音频可以拆解成多个词语音素，和/或多个发音特征音素，和/或词语音素与发音特征音素的组合，例如对“长江发源于"世界屋脊"——青藏高原的唐古拉山脉各拉丹冬峰西南侧。”这句话进行拆解，得到“长江”、“青藏高原”、“唐古拉山脉”等词语因素，目标人对“长江”的发音是“cang(二声)jiang(一声)”，对“青藏高原”的发音是“qing(一声)zhang(四声)gao(三声)yuan(二声)”，由于地方口音以及讲话习惯的影响，目标人的断句方式以及对某些特定词语的发音有其特别之处，这些均可以作为词语因素和发音特征音素。以及通过词语音素、发音特征音素或者词语音素与发音特征音素的组合可以比较准确的识别出目标人的讲话主题或者讲话语境也便于后续的翻译过程。结合前面示例，识别出的目标人的讲话主题应该是“长江”，在后面翻译的过程中，应多考虑与“长江”相关的词汇，特别是遇到一些多义词时，更容易确定出该词在讲话语境下的准确含义，从而进一步提高翻译的准确度。根据以上拆解得到的词语因素和发音特征音素生成与目标人讲话特征对应的数据因子源，随着目标人讲话内容越多，所拆解到的词语因素和发音特征音素就越多，从而对数据因子源进行优化，增加更多不同的词语因素和发音特征音素，同时也删除部分口误因素，令目标人对应的数据因子源更加丰富与准确。伴随着目标人的讲话越多，能够根据拆解到多个词语音素和/或多个发音特征音素在数据因子源中查找，也就能够确定出目标人的讲话特征。

具体的，如图3所示为本发明又一实施例，在上述实施例的基础上，本实施例中步骤S204又具体包括：

S2041：从多个词语音素和/或多个发音特征音素中选出至少一个关键词语音素和/或关键发音特征音素；

S2042：根据关键词语音素和/或关键发音特征音素在数据因子源中确定出目标人的讲话特征。

在前述实施例中已经列举了一些词语音素和发音特征音素，从这些词语音素和发音特征音素中挑选出一个或多个，作为关键词语音素和关键发音特征音素。在生成数据因子源的过程中，可能会因为目标人的切换而建立出具有不同讲话特征的数据因子源，随着拆解的词语音素和/或发音特征音素越多，数据因子源也会越来越优化。所以将选定的关键词语音素和/或关键发音特征音素在数据因子源中进行检索、筛选，就能够确定出关键词语音素和/或关键发音特征音素所对应的目标人的讲话特征。

具体的，如图4所示，本发明实施例的另一种实现方法，包括步骤：

步骤S10′：采集目标人讲话音频的讲话内容及讲话特征；

步骤S20′：分析并学习目标人的讲话特征；

步骤S30′：分析并学习对话人的讲话特征；

步骤S40′：按照指定语言翻译目标人的讲话内容，得到翻译后的讲话内容；

步骤S50′：模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出。

在本发明实施例中的步骤S30′中，如图5所示，分析并学习对话人的讲话特征这一步骤又具体包括：

步骤S301′：将对话人的讲话音频拆解成多个词语音素和/或多个发音特征音素；

步骤S302′：根据多个词语音素和/或多个发音特征音素生成与对话人讲话特征相对应的数据因子源；

步骤S303′：随着拆解的词语音素和/或发音特征音素越多而优化数据因子源。

本实施例对对话人的讲话特征进行分析并学习，这与步骤S20′中分析并学习目标人的讲话特征实现过程近似，目的在于生成与对讲人相对应的数据因子源，并进行进一步的优化。此处对于对讲人的讲话特征的分析与学习不再做详细的解释，本领域技术人员可参照前述实施例中对目标人讲话特征的分析与学习过程进行实现。

需要说明的是，本实施例中步骤S30′的执行还可调整至步骤步骤S20′或者步骤S10′之前进行，其只要保证在步骤S40′之前进行就可以满足本发明实施例的设计，所以步骤S30′与步骤S20′或步骤S10′调整顺序执行的技术方案均属于本发明实施例的保护范围。

具体的，如图6和图7所示，本发明实施例在步骤S10(或者步骤S10′)进行之前，还包括步骤S00(或步骤S00′)：

步骤S00(或步骤S00′)：获取对话人的讲话音频并识别对话人的讲话语种。

通过执行步骤S00(或步骤S00′)，可以确定出对话人的讲话语种，也是同声传译中的“指定语言”，即步骤S30(或步骤S40′)按照指定语言翻译目标人的讲话内容中的“指定语言”。例如对话人讲话的语种为英语，目标人的讲话语种为汉语，则先执行步骤S00(或步骤S00′)，确定出同声传译的指定语言为英语，再执行后面步骤，将目标人的汉语翻译成英语并模仿目标人的讲话特征生成翻译音频。

具体的，如图8与图9所示，本实施例中步骤S30(或步骤S40′)按照指定语言翻译目标人的讲话内容还包括：

步骤S301(或步骤S401′)：响应语言切换操作；

步骤S302(或步骤S402′)：以切换后的语言作为指定语言并翻译目标人的讲话内容。

本实施例扩展了指定语言的另一种确定方式，除前述实施例中通过识别对话人的讲话语种来确定出“指定语言”，本实施例还可以响应语言切换操作，通过接收外部对于指定语言的切换操作，将切换后的语言作为“指定语言”再进行翻译。需要说明的是，本发明中的“指定语言”可以是一种，也可以是多种，视具体使用环境确定，以满足不同语种人群的需求。

如图10所示，本发明实施例还提供一种同声传译装置100，该同声传译装置100包括：

采集模块101，用于采集目标人讲话音频的讲话内容及讲话特征；

分析模块102，用于分析并学习目标人的讲话特征；

翻译模块103，用于按照指定语言翻译目标人的讲话内容；

输出模块104，用于模仿目标人的讲话特征，以及将翻译模块翻译后的讲话内容转化为翻译音频并输出。

本实施例中的采集模块101还可以获取对话人的讲话音频并识别对话人的讲话语种，本实施例中的分析模块102还能够分析并学习对话人的讲话特征。本实施例中的翻译模块103还用于响应语言切换操作，并以切换后的语言作为指定语言翻译目标人的讲话内容。本实施例的同声传译装置100所实现的功能与前述同声传译方法的实施例中所实现的功能相互一致，具体实现过程此处不做赘述。

本发明的同声传译装置，采集模块采集目标人的讲话音频，翻译模块将讲话内容翻译成指定语言，输出模块通过模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出，使对话人获取到的翻译音频具有目标人的讲话特征，翻译结果更加真切，具有更佳的听觉体验。本发明的同声传译装置完全取代了人工的同声传译方式，应用范围更加广泛，使用更加方便快捷。

如图11所示，本发明实施例还提供一种电子设备110，包括存储器111以及处理器112，存储器111，存储有计算机指令；处理器112，配置为执行计算机指令以实现上述实施例中的同声传译方法。本实施例的电子设备110可以为手机、电脑、PAD或者其他的智能电子产品，也可以结合音响实现更好的同声传译效果。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种同声传译方法，其特征在于，所述方法包括：

采集目标人讲话音频的讲话内容及讲话特征；所述讲话特征至少包括音色、音调、音量、词语的发音特点；

分析并学习目标人的讲话特征；包括：将目标人的讲话音频拆解成多个词语音素和多个发音特征音素；根据多个词语音素和多个发音特征音素生成与目标人讲话特征相对应的数据因子源；根据词语音素与发音特征音素的组合识别出目标人的讲话主题或讲话语境；随着拆解的词语音素和发音特征音素越多而优化数据因子源，具体包括：增加多种不同的词语音素和发音特征音素，删除口误音素；以及，根据拆解的多个词语音素和多个发音特征音素在数据因子源中确定出目标人的讲话特征；

按照指定语言翻译目标人的讲话内容，得到翻译后的讲话内容；以及模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出，其中，目标人的语言与指定语言为不同语种；

分析并学习对话人的讲话特征，包括：将对话人的讲话音频拆解成多个词语音素和多个发音特征音素；根据多个词语音素和多个发音特征音素生成与对话人讲话特征相对应的数据因子源；随着拆解的词语音素和发音特征音素越多而优化数据因子源；

所述根据拆解的多个词语音素和多个发音特征音素在数据因子源中确定出目标人的讲话特征，包括：从多个词语音素和多个发音特征音素中选出至少一个关键词语音素和关键发音特征音素；根据关键词语音素和关键发音特征音素在数据因子源中确定出目标人的讲话特征。

2.如权利要求1所述的同声传译方法，其特征在于，在所述采集目标人讲话音频的讲话内容及讲话特征之前，还包括：

获取对话人的讲话音频并识别对话人的讲话语种。

3.如权利要求2所述的同声传译方法，其特征在于，所述按照指定语言翻译目标人的讲话内容，得到翻译后的讲话内容中，所述指定语言为识别的对话人的讲话语种。

4.如权利要求1至3任一项所述的同声传译方法，其特征在于，所述按照指定语言翻译目标人的讲话内容，包括：

响应语言切换操作；

以切换后的语言作为指定语言并翻译目标人的讲话内容。

5.一种同声传译装置，其特征在于，所述装置包括：

采集模块，用于采集目标人讲话音频的讲话内容及讲话特征；所述讲话特征至少包括音色、音调、音量、词语的发音特点；

分析模块，用于分析并学习目标人的讲话特征；包括：将目标人的讲话音频拆解成多个词语音素和多个发音特征音素；根据多个词语音素和多个发音特征音素生成与目标人讲话特征相对应的数据因子源；根据词语音素与发音特征音素的组合识别出目标人的讲话主题或讲话语境；随着拆解的词语音素和发音特征音素越多而优化数据因子源，具体包括：增加多种不同的词语音素和发音特征音素，删除口误音素；以及，根据拆解的多个词语音素和多个发音特征音素在数据因子源中确定出目标人的讲话特征；

翻译模块，用于按照指定语言翻译目标人的讲话内容；

输出模块，用于模仿目标人的讲话特征，以及将翻译模块翻译后的讲话内容转化为翻译音频并输出；

所述分析模块，还用于分析并学习对话人的讲话特征，包括：将对话人的讲话音频拆解成多个词语音素和多个发音特征音素；根据多个词语音素和多个发音特征音素生成与对话人讲话特征相对应的数据因子源；随着拆解的词语音素和发音特征音素越多而优化数据因子源；

其中，所述根据拆解的多个词语音素和多个发音特征音素在数据因子源中确定出目标人的讲话特征，包括：从多个词语音素和多个发音特征音素中选出至少一个关键词语音素和关键发音特征音素；根据关键词语音素和关键发音特征音素在数据因子源中确定出目标人的讲话特征。

6.一种电子设备，包括处理器以及存储器，其特征在于，

所述存储器，存储有计算机指令；

所述处理器，配置为执行所述计算机指令以实现权利要求1至4任一项所述的方法。

7.如权利要求6所述的一种电子设备，其特征在于，所述电子设备为手机、电脑或PAD。