CN110415680B - 一种同声传译方法、同声传译装置以及一种电子设备 - Google Patents
一种同声传译方法、同声传译装置以及一种电子设备 Download PDFInfo
- Publication number
- CN110415680B CN110415680B CN201910832130.4A CN201910832130A CN110415680B CN 110415680 B CN110415680 B CN 110415680B CN 201910832130 A CN201910832130 A CN 201910832130A CN 110415680 B CN110415680 B CN 110415680B
- Authority
- CN
- China
- Prior art keywords
- phonemes
- target person
- speaking
- speech
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013519 translation Methods 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 description 7
- 206010071299 Slow speech Diseases 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明属于同声传译技术领域,具体公开了一种同声传译方法、同声传译装置以及一种电子设备,其中,同声传译方法包括采集目标人讲话音频的讲话内容及讲话特征;分析并学习目标人的讲话特征;按照指定语言翻译目标人的讲话内容,得到翻译后的讲话内容;以及模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出,其中,目标人的语言与指定语言为不同语种。本发明通过采集目标人的讲话音频,一方面将讲话内容翻译成指定语言,另一方面通过模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出,使对话人获取到的翻译音频具有目标人的讲话特征,翻译结果更加真切,具有更佳的听觉体验。
Description
技术领域
本发明涉及同声传译技术领域,尤其涉及一种同声传译方法、同声传译装置以及一种电子设备。
背景技术
同声传译是指在讲话人讲话的同时将讲话人的语言翻译成不同的语言。现有技术的同声传译大都通过人工来实现,然而,人为同声传译往往对译员有很高的要求,导致这部分人才稀缺,另一方面,译员的词汇量掌握情况至关重要,且翻译过程多会掺入个人因素,或多或少会产生影响翻译的准确度。目前越来越多的场合,例如国际会议,均需要同声传译来实现不同语种的人们交流想法,人工的同声传译已经无法满足市场的需求。
近年来,市面上也存在一些翻译产品,如翻译机,利用翻译机可以将讲话翻译成各种语言,但翻译的时间较长,输出机器语言较呆板,导致用户的体验效果差。
有鉴于此,有必要对同声传译技术进行进一步的改进。
发明内容
为解决上述技术问题,本发明的主要目的是提供一种同声传译方法、同声传译装置以及一种电子设备。
本发明采用的一个技术方案为:
一种同声传译方法,该方法包括:
采集目标人讲话音频的讲话内容及讲话特征;
分析并学习目标人的讲话特征;
按照指定语言翻译目标人的讲话内容,得到翻译后的讲话内容;以及
模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出,其中,目标人的语言与指定语言为不同语种。
进一步的,分析并学习目标人的讲话特征包括:
将目标人的讲话音频拆解成多个词语音素和/或多个发音特征音素;
根据多个词语音素和/或多个发音特征音素生成与目标人讲话特征相对应的数据因子源;
随着拆解的词语音素和/或发音特征音素越多而优化数据因子源;以及,
根据拆解的多个词语音素和/或多个发音特征音素在数据因子源中确定出目标人的讲话特征。
进一步的,根据拆解的多个词语音素和/或多个发音特征音素在数据因子源中确定出目标人的讲话特征,包括:
从多个词语音素和/或多个发音特征音素中选出至少一个关键词语音素和/或关键发音特征音素;
根据关键词语音素和/或关键发音特征音素在数据因子源中确定出目标人的讲话特征。
进一步的,方法还包括分析并学习对话人的讲话特征,其中:
分析并学习对话人的讲话特征包括:
将对话人的讲话音频拆解成多个词语音素和/或多个发音特征音素;
根据多个词语音素和/或多个发音特征音素生成与对话人讲话特征相对应的数据因子源;
随着拆解的词语音素和/或发音特征音素越多而优化数据因子源。
进一步的,在采集目标人讲话音频的讲话内容及讲话特征之前,还包括:
获取对话人的讲话音频并识别对话人的讲话语种。
进一步的,按照指定语言翻译目标人的讲话内容,得到翻译后的讲话内容中,指定语言为识别的对话人的讲话语种。
进一步的,按照指定语言翻译目标人的讲话内容,包括:
响应语言切换操作;
以切换后的语言作为指定语言并翻译目标人的讲话内容。
为实现上述目的,本发明采用的另一个技术方案为:
一种同声传译装置,该装置包括:
采集模块,用于采集目标人讲话音频的讲话内容及讲话特征;
分析模块,用于分析并学习目标人的讲话特征;
翻译模块,用于按照指定语言翻译目标人的讲话内容;
输出模块,用于模仿目标人的讲话特征,以及将翻译模块翻译后的讲话内容转化为翻译音频并输出。
为实现上述目的,本发明还采用了一个技术方案为:
一种电子设备,包括处理器以及存储器,
存储器,存储有计算机指令;
处理器,配置为执行计算机指令以实现上述同声传译方法。
进一步的,电子设备为手机、电脑或PAD。
本发明的同声传译方法、同声传译装置以及电子设备通过采集目标人的讲话音频,一方面将讲话内容翻译成指定语言,另一方面通过模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出,使对话人获取到的翻译音频具有目标人的讲话特征,翻译结果更加真切,具有更佳的听觉体验。另外,本发明的设计完全取代了人工的同声传译,应用范围更加广泛,使用更加方便快捷。
附图说明
图1为本发明第一实施例的同声传译方法的步骤流程图;
图2为本发明第二实施例的同声传译方法的步骤流程图;
图3为本发明第三实施例的同声传译方法的步骤流程图;
图4为本发明第四实施例的同声传译方法的步骤流程图;
图5为本发明第五实施例的同声传译方法的步骤流程图;
图6为本发明第六实施例的同声传译方法的步骤流程图;
图7为本发明第七实施例的同声传译方法的步骤流程图;
图8为本发明第八实施例的同声传译方法的步骤流程图;
图9为本发明第九实施例的同声传译方法的步骤流程图;
图10为本发明实施例的同声传译装置的模块组成图;
图11为本发明实施例的电子设备的模块组成图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种同声传译方法,如图1所示,为本发明实施例的步骤流程图,该方法包括以下步骤:
步骤S10:采集目标人讲话音频的讲话内容及讲话特征;
步骤S20:分析并学习目标人的讲话特征;
步骤S30:按照指定语言翻译目标人的讲话内容,得到翻译后的讲话内容;
步骤S40:模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出。
在本实施例中,针对目标人的讲话音频,采集得到目标人的讲话内容及讲话特征,讲话内容为目标人的语言文字,例如采集到目标人的讲话内容为“长江发源于"世界屋脊"——青藏高原的唐古拉山脉各拉丹冬峰西南侧。”,而讲话特征则为语音特征,例如音色(声音的频谱,基音与各次谐音的组成情况)、音调高低、音量大小、词语的发音特点等。通过对目标人的讲话特征进行分析及学习,获取到目标人所发出的是女性中音区的声音,音色略偏浑厚,略带地区口音,讲话语速缓慢、部分词语有重点强调等等。指定语言与目标人的语言不同,假设指定语言为英语,则将讲话内容“长江发源于"世界屋脊"——青藏高原的唐古拉山脉各拉丹冬峰西南侧。”翻译成英文,再模仿目标人的讲话特征(女性中音区的声音,音色略偏浑厚,讲话语速缓慢等)生成对应的翻译音频,输出后由对话人收听即可,对话人根据翻译音频能够感受到目标人讲话的语音特征,不再是现有技术中机器人内置的单一音色、平淡语调,如此能够将对话的氛围营造的更加真实,能够有更佳的听觉体验,也更好理解目标人的讲话语气。
具体的,如图2所示,为本发明另一实施例的步骤流程图,本发明实施例在上述实施例的基础上,步骤S20具体包括:
S201:将目标人的讲话音频拆解成多个词语音素和/或多个发音特征音素;
S202:根据多个词语音素和/或多个发音特征音素生成与目标人讲话特征相对应的数据因子源;
S203:随着拆解的词语音素和/或发音特征音素越多而优化数据因子源;
S204:根据拆解的多个词语音素和/或多个发音特征音素在数据因子源中确定出目标人的讲话特征。
本实施例中,将目标人的讲话音频可以拆解成多个词语音素,和/或多个发音特征音素,和/或词语音素与发音特征音素的组合,例如对“长江发源于"世界屋脊"——青藏高原的唐古拉山脉各拉丹冬峰西南侧。”这句话进行拆解,得到“长江”、“青藏高原”、“唐古拉山脉”等词语因素,目标人对“长江”的发音是“cang(二声)jiang(一声)”,对“青藏高原”的发音是“qing(一声)zhang(四声)gao(三声)yuan(二声)”,由于地方口音以及讲话习惯的影响,目标人的断句方式以及对某些特定词语的发音有其特别之处,这些均可以作为词语因素和发音特征音素。以及通过词语音素、发音特征音素或者词语音素与发音特征音素的组合可以比较准确的识别出目标人的讲话主题或者讲话语境也便于后续的翻译过程。结合前面示例,识别出的目标人的讲话主题应该是“长江”,在后面翻译的过程中,应多考虑与“长江”相关的词汇,特别是遇到一些多义词时,更容易确定出该词在讲话语境下的准确含义,从而进一步提高翻译的准确度。根据以上拆解得到的词语因素和发音特征音素生成与目标人讲话特征对应的数据因子源,随着目标人讲话内容越多,所拆解到的词语因素和发音特征音素就越多,从而对数据因子源进行优化,增加更多不同的词语因素和发音特征音素,同时也删除部分口误因素,令目标人对应的数据因子源更加丰富与准确。伴随着目标人的讲话越多,能够根据拆解到多个词语音素和/或多个发音特征音素在数据因子源中查找,也就能够确定出目标人的讲话特征。
具体的,如图3所示为本发明又一实施例,在上述实施例的基础上,本实施例中步骤S204又具体包括:
S2041:从多个词语音素和/或多个发音特征音素中选出至少一个关键词语音素和/或关键发音特征音素;
S2042:根据关键词语音素和/或关键发音特征音素在数据因子源中确定出目标人的讲话特征。
在前述实施例中已经列举了一些词语音素和发音特征音素,从这些词语音素和发音特征音素中挑选出一个或多个,作为关键词语音素和关键发音特征音素。在生成数据因子源的过程中,可能会因为目标人的切换而建立出具有不同讲话特征的数据因子源,随着拆解的词语音素和/或发音特征音素越多,数据因子源也会越来越优化。所以将选定的关键词语音素和/或关键发音特征音素在数据因子源中进行检索、筛选,就能够确定出关键词语音素和/或关键发音特征音素所对应的目标人的讲话特征。
具体的,如图4所示,本发明实施例的另一种实现方法,包括步骤:
步骤S10′:采集目标人讲话音频的讲话内容及讲话特征;
步骤S20′:分析并学习目标人的讲话特征;
步骤S30′:分析并学习对话人的讲话特征;
步骤S40′:按照指定语言翻译目标人的讲话内容,得到翻译后的讲话内容;
步骤S50′:模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出。
在本发明实施例中的步骤S30′中,如图5所示,分析并学习对话人的讲话特征这一步骤又具体包括:
步骤S301′:将对话人的讲话音频拆解成多个词语音素和/或多个发音特征音素;
步骤S302′:根据多个词语音素和/或多个发音特征音素生成与对话人讲话特征相对应的数据因子源;
步骤S303′:随着拆解的词语音素和/或发音特征音素越多而优化数据因子源。
本实施例对对话人的讲话特征进行分析并学习,这与步骤S20′中分析并学习目标人的讲话特征实现过程近似,目的在于生成与对讲人相对应的数据因子源,并进行进一步的优化。此处对于对讲人的讲话特征的分析与学习不再做详细的解释,本领域技术人员可参照前述实施例中对目标人讲话特征的分析与学习过程进行实现。
需要说明的是,本实施例中步骤S30′的执行还可调整至步骤步骤S20′或者步骤S10′之前进行,其只要保证在步骤S40′之前进行就可以满足本发明实施例的设计,所以步骤S30′与步骤S20′或步骤S10′调整顺序执行的技术方案均属于本发明实施例的保护范围。
具体的,如图6和图7所示,本发明实施例在步骤S10(或者步骤S10′)进行之前,还包括步骤S00(或步骤S00′):
步骤S00(或步骤S00′):获取对话人的讲话音频并识别对话人的讲话语种。
通过执行步骤S00(或步骤S00′),可以确定出对话人的讲话语种,也是同声传译中的“指定语言”,即步骤S30(或步骤S40′)按照指定语言翻译目标人的讲话内容中的“指定语言”。例如对话人讲话的语种为英语,目标人的讲话语种为汉语,则先执行步骤S00(或步骤S00′),确定出同声传译的指定语言为英语,再执行后面步骤,将目标人的汉语翻译成英语并模仿目标人的讲话特征生成翻译音频。
具体的,如图8与图9所示,本实施例中步骤S30(或步骤S40′)按照指定语言翻译目标人的讲话内容还包括:
步骤S301(或步骤S401′):响应语言切换操作;
步骤S302(或步骤S402′):以切换后的语言作为指定语言并翻译目标人的讲话内容。
本实施例扩展了指定语言的另一种确定方式,除前述实施例中通过识别对话人的讲话语种来确定出“指定语言”,本实施例还可以响应语言切换操作,通过接收外部对于指定语言的切换操作,将切换后的语言作为“指定语言”再进行翻译。需要说明的是,本发明中的“指定语言”可以是一种,也可以是多种,视具体使用环境确定,以满足不同语种人群的需求。
如图10所示,本发明实施例还提供一种同声传译装置100,该同声传译装置100包括:
采集模块101,用于采集目标人讲话音频的讲话内容及讲话特征;
分析模块102,用于分析并学习目标人的讲话特征;
翻译模块103,用于按照指定语言翻译目标人的讲话内容;
输出模块104,用于模仿目标人的讲话特征,以及将翻译模块翻译后的讲话内容转化为翻译音频并输出。
本实施例中的采集模块101还可以获取对话人的讲话音频并识别对话人的讲话语种,本实施例中的分析模块102还能够分析并学习对话人的讲话特征。本实施例中的翻译模块103还用于响应语言切换操作,并以切换后的语言作为指定语言翻译目标人的讲话内容。本实施例的同声传译装置100所实现的功能与前述同声传译方法的实施例中所实现的功能相互一致,具体实现过程此处不做赘述。
本发明的同声传译装置,采集模块采集目标人的讲话音频,翻译模块将讲话内容翻译成指定语言,输出模块通过模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出,使对话人获取到的翻译音频具有目标人的讲话特征,翻译结果更加真切,具有更佳的听觉体验。本发明的同声传译装置完全取代了人工的同声传译方式,应用范围更加广泛,使用更加方便快捷。
如图11所示,本发明实施例还提供一种电子设备110,包括存储器111以及处理器112,存储器111,存储有计算机指令;处理器112,配置为执行计算机指令以实现上述实施例中的同声传译方法。本实施例的电子设备110可以为手机、电脑、PAD或者其他的智能电子产品,也可以结合音响实现更好的同声传译效果。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (7)
1.一种同声传译方法,其特征在于,所述方法包括:
采集目标人讲话音频的讲话内容及讲话特征;所述讲话特征至少包括音色、音调、音量、词语的发音特点;
分析并学习目标人的讲话特征;包括:将目标人的讲话音频拆解成多个词语音素和多个发音特征音素;根据多个词语音素和多个发音特征音素生成与目标人讲话特征相对应的数据因子源;根据词语音素与发音特征音素的组合识别出目标人的讲话主题或讲话语境;随着拆解的词语音素和发音特征音素越多而优化数据因子源,具体包括:增加多种不同的词语音素和发音特征音素,删除口误音素;以及,根据拆解的多个词语音素和多个发音特征音素在数据因子源中确定出目标人的讲话特征;
按照指定语言翻译目标人的讲话内容,得到翻译后的讲话内容;以及模仿目标人的讲话特征将翻译后的讲话内容转化为翻译音频并输出,其中,目标人的语言与指定语言为不同语种;
分析并学习对话人的讲话特征,包括:将对话人的讲话音频拆解成多个词语音素和多个发音特征音素;根据多个词语音素和多个发音特征音素生成与对话人讲话特征相对应的数据因子源;随着拆解的词语音素和发音特征音素越多而优化数据因子源;
所述根据拆解的多个词语音素和多个发音特征音素在数据因子源中确定出目标人的讲话特征,包括:从多个词语音素和多个发音特征音素中选出至少一个关键词语音素和关键发音特征音素;根据关键词语音素和关键发音特征音素在数据因子源中确定出目标人的讲话特征。
2.如权利要求1所述的同声传译方法,其特征在于,在所述采集目标人讲话音频的讲话内容及讲话特征之前,还包括:
获取对话人的讲话音频并识别对话人的讲话语种。
3.如权利要求2所述的同声传译方法,其特征在于,所述按照指定语言翻译目标人的讲话内容,得到翻译后的讲话内容中,所述指定语言为识别的对话人的讲话语种。
4.如权利要求1至3任一项所述的同声传译方法,其特征在于,所述按照指定语言翻译目标人的讲话内容,包括:
响应语言切换操作;
以切换后的语言作为指定语言并翻译目标人的讲话内容。
5.一种同声传译装置,其特征在于,所述装置包括:
采集模块,用于采集目标人讲话音频的讲话内容及讲话特征;所述讲话特征至少包括音色、音调、音量、词语的发音特点;
分析模块,用于分析并学习目标人的讲话特征;包括:将目标人的讲话音频拆解成多个词语音素和多个发音特征音素;根据多个词语音素和多个发音特征音素生成与目标人讲话特征相对应的数据因子源;根据词语音素与发音特征音素的组合识别出目标人的讲话主题或讲话语境;随着拆解的词语音素和发音特征音素越多而优化数据因子源,具体包括:增加多种不同的词语音素和发音特征音素,删除口误音素;以及,根据拆解的多个词语音素和多个发音特征音素在数据因子源中确定出目标人的讲话特征;
翻译模块,用于按照指定语言翻译目标人的讲话内容;
输出模块,用于模仿目标人的讲话特征,以及将翻译模块翻译后的讲话内容转化为翻译音频并输出;
所述分析模块,还用于分析并学习对话人的讲话特征,包括:将对话人的讲话音频拆解成多个词语音素和多个发音特征音素;根据多个词语音素和多个发音特征音素生成与对话人讲话特征相对应的数据因子源;随着拆解的词语音素和发音特征音素越多而优化数据因子源;
其中,所述根据拆解的多个词语音素和多个发音特征音素在数据因子源中确定出目标人的讲话特征,包括:从多个词语音素和多个发音特征音素中选出至少一个关键词语音素和关键发音特征音素;根据关键词语音素和关键发音特征音素在数据因子源中确定出目标人的讲话特征。
6.一种电子设备,包括处理器以及存储器,其特征在于,
所述存储器,存储有计算机指令;
所述处理器,配置为执行所述计算机指令以实现权利要求1至4任一项所述的方法。
7.如权利要求6所述的一种电子设备,其特征在于,所述电子设备为手机、电脑或PAD。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811030459.0A CN109300469A (zh) | 2018-09-05 | 2018-09-05 | 基于机器学习的同声传译方法及装置 |
CN2018110304590 | 2018-09-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110415680A CN110415680A (zh) | 2019-11-05 |
CN110415680B true CN110415680B (zh) | 2022-10-04 |
Family
ID=65166022
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811030459.0A Pending CN109300469A (zh) | 2018-09-05 | 2018-09-05 | 基于机器学习的同声传译方法及装置 |
CN201910832130.4A Active CN110415680B (zh) | 2018-09-05 | 2019-09-04 | 一种同声传译方法、同声传译装置以及一种电子设备 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811030459.0A Pending CN109300469A (zh) | 2018-09-05 | 2018-09-05 | 基于机器学习的同声传译方法及装置 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3620939A1 (zh) |
CN (2) | CN109300469A (zh) |
WO (1) | WO2020048143A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109300469A (zh) * | 2018-09-05 | 2019-02-01 | 满金坝(深圳)科技有限公司 | 基于机器学习的同声传译方法及装置 |
KR102312798B1 (ko) * | 2019-04-17 | 2021-10-13 | 신한대학교 산학협력단 | 강의통역 서비스장치 및 그 장치의 구동방법 |
WO2021102647A1 (zh) * | 2019-11-25 | 2021-06-03 | 深圳市欢太科技有限公司 | 数据处理方法、装置和存储介质 |
CN113539233A (zh) * | 2020-04-16 | 2021-10-22 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN112201224A (zh) * | 2020-10-09 | 2021-01-08 | 北京分音塔科技有限公司 | 用于即时通话同声翻译的方法、设备及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009186820A (ja) * | 2008-02-07 | 2009-08-20 | Hitachi Ltd | 音声処理システム、音声処理プログラム及び音声処理方法 |
CN102117614A (zh) * | 2010-01-05 | 2011-07-06 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
CN102354494A (zh) * | 2011-08-17 | 2012-02-15 | 无敌科技(西安)有限公司 | 一种实现阿拉伯文tts发音的方法 |
CN107093421A (zh) * | 2017-04-20 | 2017-08-25 | 深圳易方数码科技股份有限公司 | 一种语音模拟方法和装置 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN107992485A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种同声传译方法及装置 |
CN108009159A (zh) * | 2017-11-30 | 2018-05-08 | 上海与德科技有限公司 | 一种同声传译方法和移动终端 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE500277C2 (sv) * | 1993-05-10 | 1994-05-24 | Televerket | Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk |
CN101008942A (zh) * | 2006-01-25 | 2007-08-01 | 北京金远见电脑技术有限公司 | 机器翻译装置和机器翻译方法 |
US8571849B2 (en) * | 2008-09-30 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with prosodic information |
KR101589433B1 (ko) * | 2009-03-11 | 2016-01-28 | 삼성전자주식회사 | 동시 통역 시스템 |
TWI413105B (zh) * | 2010-12-30 | 2013-10-21 | Ind Tech Res Inst | 多語言之文字轉語音合成系統與方法 |
CN103020048A (zh) * | 2013-01-08 | 2013-04-03 | 深圳大学 | 一种语言翻译方法及系统 |
CN104427294A (zh) * | 2013-08-29 | 2015-03-18 | 中兴通讯股份有限公司 | 支持电视会议同声传译的方法及云端服务器 |
KR102525209B1 (ko) * | 2016-03-03 | 2023-04-25 | 한국전자통신연구원 | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 |
CN106486125A (zh) * | 2016-09-29 | 2017-03-08 | 安徽声讯信息技术有限公司 | 一种基于语音识别技术的同声传译系统 |
CN108447473A (zh) * | 2018-03-06 | 2018-08-24 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
CN109300469A (zh) * | 2018-09-05 | 2019-02-01 | 满金坝(深圳)科技有限公司 | 基于机器学习的同声传译方法及装置 |
-
2018
- 2018-09-05 CN CN201811030459.0A patent/CN109300469A/zh active Pending
-
2019
- 2019-04-23 WO PCT/CN2019/083763 patent/WO2020048143A1/zh active Application Filing
- 2019-05-23 EP EP19176058.6A patent/EP3620939A1/en not_active Withdrawn
- 2019-09-04 CN CN201910832130.4A patent/CN110415680B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009186820A (ja) * | 2008-02-07 | 2009-08-20 | Hitachi Ltd | 音声処理システム、音声処理プログラム及び音声処理方法 |
CN102117614A (zh) * | 2010-01-05 | 2011-07-06 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
CN102354494A (zh) * | 2011-08-17 | 2012-02-15 | 无敌科技(西安)有限公司 | 一种实现阿拉伯文tts发音的方法 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN107093421A (zh) * | 2017-04-20 | 2017-08-25 | 深圳易方数码科技股份有限公司 | 一种语音模拟方法和装置 |
CN107992485A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种同声传译方法及装置 |
CN108009159A (zh) * | 2017-11-30 | 2018-05-08 | 上海与德科技有限公司 | 一种同声传译方法和移动终端 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020048143A1 (zh) | 2020-03-12 |
CN109300469A (zh) | 2019-02-01 |
CN110415680A (zh) | 2019-11-05 |
EP3620939A1 (en) | 2020-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415680B (zh) | 一种同声传译方法、同声传译装置以及一种电子设备 | |
US10108606B2 (en) | Automatic interpretation system and method for generating synthetic sound having characteristics similar to those of original speaker's voice | |
WO2019165748A1 (zh) | 一种语音翻译方法及装置 | |
CN103971686B (zh) | 自动语音识别方法和系统 | |
US7593842B2 (en) | Device and method for translating language | |
US11586831B2 (en) | Speech translation method electronic device and computer-readable storage medium using SEQ2SEQ for determining alternative translated speech segments | |
CN111477216B (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
CN100347741C (zh) | 移动语音合成方法 | |
CN106875949B (zh) | 一种语音识别的校正方法及装置 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
WO2020087655A1 (zh) | 一种翻译方法、装置、设备及可读存储介质 | |
KR20170041105A (ko) | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 | |
CN109256133A (zh) | 一种语音交互方法、装置、设备及存储介质 | |
WO2021179910A1 (zh) | 文本语音的前端转换方法、装置、设备和存储介质 | |
CN101064103A (zh) | 基于音节韵律约束关系的汉语语音合成方法及系统 | |
WO2020077868A1 (zh) | 同声传译方法、装置、计算机设备和存储介质 | |
CN109710949A (zh) | 一种翻译方法及翻译机 | |
CN112420050B (zh) | 一种语音识别方法、装置和电子设备 | |
RU2419142C2 (ru) | Способ организации синхронного перевода устной речи с одного языка на другой посредством электронной приемопередающей системы | |
CN114495905A (zh) | 语音识别方法、装置及存储介质 | |
CN113505609A (zh) | 一种一键式多语言会议辅助翻译方法及具有该方法的设备 | |
CN111738023A (zh) | 一种图文音频自动翻译方法及其系统 | |
KR102564008B1 (ko) | 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법 | |
CN112802460B (zh) | 一种基于语音处理的空间环境预报系统 | |
CN115019787A (zh) | 一种交互式同音异义词消歧方法、系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220916 Address after: Room 203, Building 11, Yitian Garden, Fuqiang Road, Futian District, Shenzhen, Guangdong 518100 Applicant after: Liang Zhijun Address before: 24th Floor, Block A, Qunxing Plaza, Huaqiangbei Street, Futian District, Shenzhen, Guangdong 518100 Applicant before: MANJINBA (SHENZHEN) TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |