CN108829687A - 语音翻译方法及其装置 - Google Patents
语音翻译方法及其装置 Download PDFInfo
- Publication number
- CN108829687A CN108829687A CN201810550273.1A CN201810550273A CN108829687A CN 108829687 A CN108829687 A CN 108829687A CN 201810550273 A CN201810550273 A CN 201810550273A CN 108829687 A CN108829687 A CN 108829687A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- meaning
- gain
- words
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000008901 benefit Effects 0.000 claims description 8
- 108010001267 Protein Subunits Proteins 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 6
- 230000003321 amplification Effects 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明揭示了一种语音翻译方法及其装置,包括:分别获取在不同预设增益下对第一语音信号进行翻译得到的第二语音信号;分别比较各第二语音信号与预先设置的第三语音信号的语意关联度,第一语音信号为第三语音信号的回复信号,且第二语音信号与第三语音信号为同一语种;获取与第三语音信号语意关联度最高的第二语音信号以及所对应的第二增益;判断第二增益是否与前一次翻译时使用的第一增益相同,第一增益和第二增益属于预设增益;若相同,则记录并播放语意关联度最高的第二语音信号。通过不同增益分别进行放大翻译及之前语句的语意关联度,获取到最佳翻译,极大的方便了用户使用翻译机,提升用户使用翻译机的体验。
Description
技术领域
本发明涉及到翻译设备的技术领域,特别是涉及到一种语音翻译方法及其装置。
背景技术
随着当今社会的快速发展,对外交流越来越多,但是对于许多人来说语言交流不畅是个不小的障碍,于是市场上出现了各式各样的语言翻译机。
翻译机凭借着小巧便携的外观、强大的语言翻译功能等深受受到广大有语言翻译需求的人士,特别是出国人士的欢迎,同时也是学习外语的好帮手。语言翻译机可以在你学习或者对话的过程中帮你朗读,帮你翻译,使得普通人与国际友人、国际客户的交流没有障碍。
现在市面上的翻译机结合现代电子技术、通讯技术及网络技术达到了不错的实用效果,但是目前的翻译机存在着一些不足,比如,用户说话的时候,要求用户离翻译机的距离要越近越好,距离稍微远一点,识别用户说话的准确率下降,导致翻译的效果变差。
发明内容
本发明的主要目的为提供一种获取最佳翻译的语音翻译方法及其装置。
本发明提出一种语音翻译方法,包括:
分别获取在不同预设增益下对第一语音信号进行翻译得到的第二语音信号;
分别比较各所述第二语音信号与预先设置的第三语音信号的语意关联度,其中,所述第一语音信号为所述第三语音信号的回复信号,且所述第二语音信号与所述第三语音信号为同一语种;
获取与所述第三语音信号语意关联度最高的第二语音信号以及所对应的第二增益;
判断所述第二增益是否与前一次翻译时使用的第一增益相同,其中,所述第一增益和所述第二增益属于所述预设增益;
若相同,则记录并播放语意关联度最高的第二语音信号。
进一步地,所述分别获取在不同预设增益下对第一语音信号进行翻译得到的第二语音信号步骤,包括:
获取翻译机当前所在环境的信噪比;
根据所述信噪比设置多个不同的增益;
分别获取在不同增益下对所述第一语音信号进行翻译得到的所述第二语音信号。
进一步地,所述分别比较各所述第二语音信号与预先设置的第三语音信号的语意关联度的步骤,包括:
根据时间从晚到早的顺序逐次往前回溯所述第三语音信号的历史信息,其中,所述历史信息包括对话信息或者一段话语信息;
比较所述历史信息与各所述第二语音信号的语意关联度。
进一步地,所述判断所述第二增益是否与前一次翻译时使用的第一增益相同的步骤之后,还包括:
若所述第二增益与前一次翻译时使用的所述第一增益不同,则判断语意关联度最高的第二语音信号的语意,是否与所述第一增益所放大的第二语音信号的语意相同;
若语意不同,则记录并播放语意关联度最高的第二语音信号与所对应的增益;
若语意相同,则记录并播放前一次翻译时使用的第一增益所放大的第二语音信号。
进一步地,所述判断语意关联度最高的第二语音信号的语意,是否与所述第一增益所放大的第二语音信号的语意相同的步骤,包括:
获取语意关联度最高的第二语音信号对应文字文本中的各第一关键词以及各第一关键词之间的衔接关系,获取所述第一增益所放大的第二语音信号对应文字文本中的各第二关键词以及各第二关键词之间的衔接关系;
判断各所述第一关键字以及各第一关键词之间的衔接关系,与各所述第二关键词以及各第二关键词之间的衔接关系的匹配度是否在预设范围内;
若是,则判定语意关联度最高的第二语音信号的语意,与所述第一增益所放大的第二语音信号的语意相同;否则,则判定语意关联度最高的第二语音信号的语意,与所述第一增益所放大的第二语音信号的语意不相同。
本发明还提出了一种语音翻译装置,包括:
第一获取模块,用于分别获取在不同预设增益下翻译第一用户的第一语音信号一一对应的第二语音信号;
对比模块,用于分别比较各所述第二语音信号与预先设置于翻译机内的第三语音信号的语意关联度,其中,所述第一语音信号为所述第三语音信号的回复信号,且所述第二语音信号与所述第三语音信号为同一语种;
第二获取模块,用于获取与所述第三语音信号语意关联度最高的第二语音信号以及所对应的第二增益;
判断模块,用于判断所述第二增益是否与前一次翻译时使用的第一增益相同,其中,所述第一增益和所述第二增益属于所述预设增益;
执行模块,若所述第二增益与前一次翻译时使用的第一增益相同,则记录并播放语意关联度最高的第二语音信号。
进一步地,所述第一获取模块包括:
第一获取单元,用于获取翻译机当前所在环境的信噪比;
预设单元,用于根据所述信噪比设置多个不同的增益;
第二获取单元,用于分别获取在不同增益下对所述第一语音信号进行翻译得到的所述第二语音信号。
进一步地,所述对比模块包括:
回溯单元,用于根据时间从晚到早的顺序逐次往前回溯所述第三语音信号的历史信息,其中,所述历史信息包括对话信息或者一段话语信息;
对比单元,用于比较所述历史信息与各所述第二语音信号的语意关联度。
进一步地,所述判断模块还包括:
第二判断单元,用于若所述第二增益与前一次翻译时使用的所述第一增益不同,则判断语意关联度最高的第二语音信号的语意,是否与所述第一增益所放大的第二语音信号的语意相同;
第一记录单元,用于若语意不同,则记录并播放语意关联度最高的第二语音信号与所对应的增益;
第二记录单元,若语意相同,则记录并播放前一次翻译时使用的第一增益所放大的第二语音信号。
进一步地,第二判断单元包括:
获取子单元,用于获取语意关联度最高的第二语音信号对应文字文本中的各第一关键词以及各第一关键词之间的衔接关系,获取所述第一增益所放大的第二语音信号对应文字文本中的各第二关键词以及各第二关键词之间的衔接关系;
判断子单元,用于判断各所述第一关键字以及各第一关键词之间的衔接关系,与各所述第二关键词以及各第二关键词之间的衔接关系的匹配度是否在预设范围内;
判定子单元,用于若是在预设范围内,则判定语意关联度最高的第二语音信号的语意,与所述第一增益所放大的第二语音信号的语意相同;否则,则判定语意关联度最高的第二语音信号的语意,与所述第一增益所放大的第二语音信号的语意不相同。
本发明的一种语音翻译方法及其装置的有益效果,通过预设在翻译装置上的多个不同增益分别进行放大翻译,并根据之前的语句的语意关联度,获取到最佳翻译,极大的方便了用户使用翻译机,提升用户使用翻译机的体验。
附图说明
图1是本发明一实施例中语音翻译方法的流程示意图;
图2是本发明一实施例中步骤S1的具体流程示意图;
图3是本发明一实施例中步骤S2的具体流程示意图;
图4是本发明另一实施例中步骤S4之后的具体流程示意图;
图5是本发明另一实施例中步骤S41的具体流程示意图;
图6是本发明一实施例中语音翻译装置的结构示意图;
图7是本发明一实施例中第一获取模块的结构示意图;
图8是本发明一实施例中对比模块的结构示意图;
图9是本发明另一实施例中判断模块的结构示意图;
图10是本发明另一实施例中第二判断单元的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1所示,本发明提供了一种语音翻译方法,包括:
S1、分别获取在不同预设增益下对第一语音信号进行翻译得到的第二语音信号;
S2、分别比较各第二语音信号与预先设置的第三语音信号的语意关联度,其中,第一语音信号为第三语音信号的回复信号,且第二语音信号与第三语音信号为同一语种;
S3、获取与第三语音信号语意关联度最高的第二语音信号以及所对应的第二增益;
S4、判断第二增益是否与前一次翻译时使用的第一增益相同,其中,第一增益和第二增益属于预设增益;
S5、若相同,则记录并播放语意关联度最高的第二语音信号。
增益,就是放大倍数,在电子学上,通常为一个系统的讯号输出与讯号输入的比率,增益一般指对元器件、电路、设备或系统,其电流、电压或功率增加的程度,以分贝(dB)数来规定,即增益的单位一般是分贝(dB),是一个相对值。放大器增益是放大器输出功率与输入功率比值的对数,用以表示功率放大的程度。
在本实施例中,应用于翻译机上,翻译机包括麦克风、语音识别单元、处理器、翻译机射频部分。语音识别单元可以设置进入麦克风的语音信号的增益;翻译机射频部分并可通过无线网络、如WIFI、BT、2G、3G、4G、EMTC、NB-IoT等与后台云端服务器相连接,根据翻译机所在环境下的信噪比,对进入麦克风的语音信号的增益进行设置,预先设置多个不同的增益,根据不同的增益翻译第一用户的第一语音信号,获取到一一对应的第二语音信号,预先设置第三语音信号于翻译机内,其中,第二语音信号与第三语音信号为同一语种,第一语音信号为第三语音信号的回复信号;获取到与第三语音信号语意关联度最高的第二语音信号以及所对应的第二增益,再对比第二增益是否与前一次翻译时使用的第一增益相同,其中,第一增益、第二增益均属于预先设置的增益,如果第一增益与第二增益为同一增益,则将该语意关联度最高的第二语音信号储存下来,并播放。
在一具体实施例中,预先把使用A语言的用户1或/和使用B语言的用户2进入麦克风的语音信号存储下来,作为第三语音信号,然后按照第一增益(最佳增益)分别放大该语音信号,再把该语音信号上传给服务器识别翻译,服务器分别存储为A语言和B语言,用于存储在翻译机内作为历史对话信息,用来判断下一待翻译的语音信号(第一语音信号)的语意关联度;根据预设的不同的增益对接收到的第一语音信号(新的语音信号)进行放大,上传至翻译机服务器上识别翻译成对应的第二语音信号,将第二语音信号一一与第三语音信号比对,也即同语种的语音信号(A或B语言)的语意关联度进行对比,获取到与待翻译的第一语音信号的语境最相关最贴合的第二语音信号,存储于翻译机的云端服务器上并播放,在其他实施例中,还可以存储于本地存储空间。
如图2所示,在本实施例中,分别获取在不同预设增益下对第一语音信号进行翻译得到的第二语音信号S1的步骤,包括:
S11、获取翻译机当前所在环境的信噪比;
S12、根据信噪比设置多个不同的增益;
S13、分别获取在不同增益下对第一语音信号一一对应的第二语音信号。
信噪比,英文名称叫做SNR或S/N(SIGNAL-NOISE RATIO),又称为讯噪比,是指一个电子设备或者电子系统中信号与噪声的比例。该信号指的是来自设备外部需要通过这台设备进行处理的电子信号,噪声是指经过该设备后产生的原信号中并不存在的无规则的额外信号(或信息),并且该种信号并不随原信号的变化而变化。信号与噪声的比例,信噪比越大,说明混在信号里的噪声越小,声音回放的音质量越高,否则相反。
在使用翻译机的过程中,预先获取翻译机当前所在环境的信噪比,根据该信噪比设置多个不同的增益,根据不同的增益,获取到第一语音信号一一对应的第二语音信号。当翻译机识别用户说话的距离远而且准确,需要在干扰源或者噪音源小时,加大进入麦克风的语音信号的增益;在干扰源或者噪音源大时,减小进入麦克风的语音信号的增益。外界的干扰源或者噪音源不是固定的,很多噪音本身就是人声,或者说频率跟人声的频率重合,互相叠加,在实际使用过程中,根据干扰源或者噪音源的大小来调整进入麦克风的语音信号的增益以使翻译机识别翻译用户说话的距离远而且准确。如:当翻译机识别获取到用户说话的距离远而且准确时,设置进入麦克风的语音信号的增益加大,这在翻译机周围的噪声比较小,进入麦克风的语音信号的信噪比较大,加大进入麦克风的语音信号的增益可以提高识别翻译的准确率。
如图3所示,在本实施例中,根据分别比较各第二语音信号与预先设置的第三语音信号的语意关联度S2的步骤,包括:
S21、根据时间从晚到早的顺序逐次往前回溯第三语音信号的历史信息,其中,历史信息包括对话信息或者一段话语信息;
S22、比较历史信息与各第二语音信号的语意关联度。
在本实施中,历史信息指的是翻译机在翻译过程中记录和存储的两个用户轮流交谈时的完整对话信息或某一用户的一段话语信息。翻译机可以按照时间从早到晚的顺序或按照记录信息的次数对历史对话记录中的每一段话或者每一句话进行排序,并可以对每一段话进行顺序标记。
在一些实施例中,历史信息包括两种语言的历史对话记录,每种语言的历史对话记录都包含了两个用户的完整对话信息。A语言的历史对话记录和B语言的历史对话记录,每种语言的对话记录中都有N段话,包含了A用户和B用户的完整对话信息,其中,A语言的历史对话记录中包括A用户输入的原始信息,以及将B用户输入的原始信息翻译为A语言后的信息;B语言的历史对话记录中包括B用户输入的原始信息,以及将A用户输入的原始信息翻译为B语言后的信息。
根据时间从晚到早的顺序逐次往前回溯第三语音信号的历史信息的语意关联度,分别与各第二语音信号比较,可获得根据历史信息的语意关联度由高至低或者由低至高的排列顺序。
如图4所示,在本实施例中,判断第二增益是否与前一次翻译时使用的第一增益相同的步骤S4的步骤之后,还包括:
S41、若第二增益与前一次翻译时使用的第一增益不同,则判断语意关联度最高的第二语音信号的语意,是否与第一增益所放大的第二语音信号的语意相同;
S421、若语意不同,则记录并播放语意关联度最高的第二语音信号与所对应的增益;
S422、若语意相同,则记录并播放前一次翻译时使用的第一增益所放大的第二语音信号。
当判断第二增益与前一次翻译时使用的第一增益不同,则需要进行下一步的判断,对语意关联度最高的第二语音信号的语意与第一增益所放大的第二语音信号的语意进行判断,若判断以上的第二语音信号的语意不同,则记录语意关联度最高的第二语音信号以及所对应的增益,该增益作为下一次翻译时的第一增益,并对第二语音信号进行播放;若判断以上的第二语音信号的语意相同,则依然保留前一次翻译时使用的第一增益作为下一次翻译时的第一增益,记录前一次翻译时使用的第一增益所放大的第二语音信号,并进行播放。
如图5所示,在本实施例中,判断语意关联度最高的第二语音信号的语意,是否与第一增益所放大的第二语音信号的语意相同S41的步骤,包括:
S411、获取语意关联度最高的第二语音信号对应文字文本中的各第一关键词以及各第一关键词之间的衔接关系,获取第一增益所放大的第二语音信号对应文字文本中的各第二关键词以及各第二关键词之间的衔接关系;
S412、判断各第一关键词以及各第一关键词之间的衔接关系,与各第二关键词以及各第二关键词之间的衔接关系的匹配度是否在预设范围内;
S413、若是,则判定语意关联度最高的第二语音信号的语意,与第一增益所放大的第二语音信号的语意相同;否则,则判定语意关联度最高的第二语音信号的语意,与第一增益所放大的第二语音信号的语意不相同。
在本实施例中,获取语意关联度最高的第二语音信号对应文字文本中的各第一关键词以及各第一关键词之间的衔接关系,同时也获取第一增益所放大的第二语音信号对应文字文本中的各第二关键词以及各第二关键词之间的衔接关系;预先设置一个匹配范围值,判断各第一关键词以及各第一关键词之间的衔接关系,与各第二关键词以及各第二关键词之间的衔接关系的匹配度是否在范围值内;如:预设匹配范围值在90%-100%,当各第一关键词以及各第一关键词之间的衔接关系,与各第二关键词以及各第二关键词之间的衔接关系的匹配度在预设匹配范围值90%-100%之间,则判断两句语音信号的语意相同;若两句语音信号的匹配度低于90%,则判断该两句语音信号的语意不相同。
如图6所示,本发明还提出了一种语音翻译装置,包括:
第一获取模块1,用于分别获取在不同预设增益下对第一语音信号进行翻译得到的第二语音信号;
对比模块2,用于分别比较各第二语音信号与预先设置于翻译机内的第三语音信号的语意关联度,其中,第一语音信号为第三语音信号的回复信号,且第二语音信号与第三语音信号为同一语种;
第二获取模块3,用于获取与第三语音信号语意关联度最高的第二语音信号以及所对应的第二增益;
判断模块4,用于判断第二增益是否与前一次翻译时使用的第一增益相同,其中,第一增益和第二增益属于预设增益;
执行模块5,若第二增益与前一次翻译时使用的第一增益相同,则记录并播放语意关联度最高的第二语音信号。
增益,就是放大倍数,在电子学上,通常为一个系统的讯号输出与讯号输入的比率,增益一般指对元器件、电路、设备或系统,其电流、电压或功率增加的程度,以分贝(dB)数来规定,即增益的单位一般是分贝(dB),是一个相对值。放大器增益是放大器输出功率与输入功率比值的对数,用以表示功率放大的程度。
在本实施例中,应用于翻译机上,翻译机包括麦克风、语音识别单元、处理器、翻译机射频部分。语音识别单元可以设置进入麦克风的语音信号的增益;翻译机射频部分并可通过无线网络、如WIFI、BT、2G、3G、4G、EMTC、NB-IoT等与后台云端服务器相连接,根据翻译机所在环境下的信噪比,对进入麦克风的语音信号的增益进行设置,预先设置多个不同的增益,第一获取模块1根据不同的增益翻译第一用户的第一语音信号,获取到一一对应的第二语音信号,预先设置第三语音信号于翻译机内,其中,第二语音信号与第三语音信号为同一语种,第一语音信号为第三语音信号的回复信号;第二获取模块3获取到与第三语音信号语意关联度最高的第二语音信号以及所对应的第二增益,再通过判断模块4判断第二增益是否与前一次翻译时使用的第一增益相同,其中,第一增益、第二增益均属于预先设置的增益,如果第一增益与第二增益为同一增益,则执行模块将该语意关联度最高的第二语音信号储存下来,并播放。
在一具体实施例中,预先把使用A语言的用户1或/和使用B语言的用户2进入麦克风的语音信号存储下来,作为第三语意信号,然后按照第一增益(最佳增益)分别放大该语音信号,再把该语音信号上传给服务器识别翻译,服务器分别存储为A语言和B语言,用于存储在翻译机内作为历史对话信息,用来判断下一待翻译的语音信号(第一语音信号)的语意关联度;根据预设的不同的增益对接收到的第一语音信号(新的语音信号)进行放大,上传至翻译机服务器上识别翻译成对应的第二语音信号,将第二语音信号一一与第三语音信号对比,也即同语种的语音信号(A或B语言)的语意关联度进行对比,获取到与待翻译的第一语音信号的语境最相关最贴合的第二语音信号,存储于翻译机云端服务器上并播放,在其他实施例中,还可以存储于本地存储空间。
如图7所示,在本实施例中,第一获取模块1包括:
第一获取单元11,用于获取翻译机当前所在环境的信噪比;
预设单元12,用于根据信噪比设置多个不同的增益;
第二获取单元13,用于分别获取在不同增益下对第一语音信号一一对应的第二语音信号。
信噪比,英文名称叫做SNR或S/N(SIGNAL-NOISE RATIO),又称为讯噪比,是指一个电子设备或者电子系统中信号与噪声的比例。该信号指的是来自设备外部需要通过这台设备进行处理的电子信号,噪声是指经过该设备后产生的原信号中并不存在的无规则的额外信号(或信息),并且该种信号并不随原信号的变化而变化。信号与噪声的比例,信噪比越大,说明混在信号里的噪声越小,声音回放的音质量越高,否则相反。
在使用翻译机的过程中,第一获取单元11获取到翻译机当前所在环境的信噪比,预设单元12根据信噪比设置多个不同的增益,设置的增益用于第二获取单元13分别获取翻译第一语音信号对应的第二语音信号。当获取到翻译机识别用户说话的距离远而且准确,需要在干扰源或者噪音源小时,加大进入麦克风的语音信号的增益;在干扰源或者噪音源大时,减小进入麦克风的语音信号的增益。外界的干扰源或者噪音源不是固定的,而且很多噪音本身就是人声,或者说频率跟人声的频率重合,互相叠加,在实际使用过程中,根据干扰源或者噪音源的大小来调整进入麦克风的语音信号的增益以使翻译机识别翻译用户说话的距离远而且准确。如:当翻译机识别获取到用户说话的距离远而且准确时,设置进入麦克风的语音信号的增益加大,这在翻译机周围的噪声比较小,进入麦克风的语音信号的信噪比较大,加大进入麦克风的语音信号的增益可以提高识别翻译的准确率。
如图8所示,在本实施例中,对比模块2包括:
回溯单元21,用于根据时间从晚到早的顺序逐次往前回溯第三语音信号的历史信息,其中,历史信息包括对话信息或者一段话语;
对比单元22,用于比较历史信息与各第二语音信号的语意关联度。
在本实施中,历史信息指的是翻译机在翻译过程中记录和存储的两个用户轮流交谈时的完整对话信息或某一用户的一段话语信息。翻译机可以按照时间从早到晚的顺序或按照记录信息的次数对历史对话记录中的每一段话或者每一句话进行排序,并可以对每一段话进行顺序标记。
在一些实施例中,历史信息包括两种语言的历史对话记录,每种语言的历史对话记录都包含了两个用户的完整对话信息。A语言的历史对话记录和B语言的历史对话记录,每种语言的对话记录中都有N段话,包含了A用户和B用户的完整对话信息,其中,A语言的历史对话记录中包括A用户输入的原始信息,以及将B用户输入的原始信息翻译为A语言后的信息;B语言的历史对话记录中包括B用户输入的原始信息,以及将A用户输入的原始信息翻译为B语言后的信息。
根据时间从晚到早的顺序逐次往前回溯第三语音信号的历史信息的语意关联度,分别与各第二语音信号比较,可获得根据历史信息的语意关联度由高至低或者由低至高的排列顺序。
如图9所示,在本实施例中,判断模块4还包括:
第二判断单元41,用于若第二增益与前一次翻译时使用的第一增益不同,则判断语意关联度最高的第二语音信号的语意,是否与第一增益所放大的第二语音信号的语意相同;
第一记录单元421,用于若语意不同,则记录并播放语意关联度最高的第二语音信号与所对应的增益;
第二记录单元422,若语意相同,则记录并播放前一次翻译时使用的第一增益所放大的第二语音信号。
判断第二增益与前一次翻译时使用的第一增益不同,第二判断单元42需要进行下一步的判断,对语意关联度最高的第二语音信号的语意与第一增益所放大的第二语音信号的语意进行判断,若判断以上的第二语音信号的语意不同,则第一记录单元431记录语意关联度最高的第二语音信号以及所对应的增益,该增益作为下一次翻译时的第一增益,并对第二语音信号进行播放;若判断以上的第二语音信号的语意相同,则依然保留前一次翻译时使用的第一增益作为下一次翻译时的第一增益,第二记录单元432记录前一次翻译时使用的第一增益所放大的第二语音信号,并进行播放。
如图10所示,在本实施例中,第二判断单元41包括:
获取子单元411,用于获取语意关联度最高的第二语音信号对应文字文本中的各第一关键词以及各第一关键词之间的衔接关系,获取第一增益所放大的第二语音信号对应文字文本中的各第二关键词以及各第二关键词之间的衔接关系;
判断子单元412,用于判断各第一关键字以及各第一关键词之间的衔接关系,与各第二关键词以及各第二关键词之间的衔接关系的匹配度是否在预设范围内;
判定子单元413,用于若是在预设范围内,则判定语意关联度最高的第二语音信号的语意,与第一增益所放大的第二语音信号的语意相同;否则,则判定语意关联度最高的第二语音信号的语意,与第一增益所放大的第二语音信号的语意不相同。
在本实施例中,获取子单元421获取语意关联度最高的第二语音信号对应文字文本中的各第一关键词以及各第一关键词之间的衔接关系,同时也获取第一增益所放大的第二语音信号对应文字文本中的各第二关键词以及各第二关键词之间的衔接关系;预先设置一个匹配范围值,判断子单元422判断各第一关键词以及各第一关键词之间的衔接关系,与各第二关键词以及各第二关键词之间的衔接关系的匹配度是否在范围值内。
在一具体实施例中,预设匹配范围值在90%-100%,当各第一关键词以及各第一关键词之间的衔接关系,与各第二关键词以及各第二关键词之间的衔接关系的匹配度在预设匹配范围值90%-100%之间,则判定子单元423判定两句语音信号的语意相同;若两句语音信号的匹配度低于90%,则判定子单元423判定判断该两句语音信号的语意不相同。
本发明的一种语音翻译方法及其装置,通过预设在翻译装置上的多个不同增益分别进行放大翻译,并根据之前的语句的语意关联度,获取到最佳翻译,极大的方便了用户使用翻译机,提升用户使用翻译机的体验。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音翻译方法,其特征在于,包括:
分别获取在不同预设增益下对第一语音信号进行翻译得到的第二语音信号;
分别比较各所述第二语音信号与预先设置的第三语音信号的语意关联度,其中,所述第一语音信号为所述第三语音信号的回复信号,且所述第二语音信号与所述第三语音信号为同一语种;
获取与所述第三语音信号语意关联度最高的第二语音信号以及所对应的第二增益;
判断所述第二增益是否与前一次翻译时使用的第一增益相同,其中,所述第一增益和所述第二增益属于所述预设增益;
若相同,则记录并播放语意关联度最高的第二语音信号。
2.根据权利要求1所述的语音翻译方法,其特征在于,所述分别获取在不同预设增益下对第一语音信号进行翻译得到的第二语音信号步骤,包括:
获取翻译机当前所在环境的信噪比;
根据所述信噪比设置多个不同的增益;
分别获取在不同增益下对所述第一语音信号进行翻译得到的所述第二语音信号。
3.根据权利要求1所述的语音翻译方法,其特征在于,所述分别比较各所述第二语音信号与预先设置的第三语音信号的语意关联度的步骤,包括:
根据时间从晚到早的顺序逐次往前回溯所述第三语音信号的历史信息,其中,所述历史信息包括对话信息或者一段话语信息;
比较所述历史信息与各所述第二语音信号的语意关联度。
4.根据权利要求1所述的语音翻译方法,其特征在于,所述判断所述第二增益是否与前一次翻译时使用的第一增益相同的步骤之后,还包括:
若所述第二增益与前一次翻译时使用的所述第一增益不同,则判断语意关联度最高的第二语音信号的语意,是否与所述第一增益所放大的第二语音信号的语意相同;
若语意不同,则记录并播放语意关联度最高的第二语音信号与所对应的增益;
若语意相同,则记录并播放前一次翻译时使用的第一增益所放大的第二语音信号。
5.根据权利要求4所述的语音翻译方法,其特征在于,所述判断语意关联度最高的第二语音信号的语意,是否与所述第一增益所放大的第二语音信号的语意相同的步骤,包括:
获取语意关联度最高的第二语音信号对应文字文本中的各第一关键词以及各第一关键词之间的衔接关系,获取所述第一增益所放大的第二语音信号对应文字文本中的各第二关键词以及各第二关键词之间的衔接关系;
判断各所述第一关键字以及各第一关键词之间的衔接关系,与各所述第二关键词以及各第二关键词之间的衔接关系的匹配度是否在预设范围内;
若是,则判定语意关联度最高的第二语音信号的语意,与所述第一增益所放大的第二语音信号的语意相同;否则,则判定语意关联度最高的第二语音信号的语意,与所述第一增益所放大的第二语音信号的语意不相同。
6.一种语音翻译装置,其特征在于,包括:
第一获取模块,用于分别获取在不同预设增益下对第一语音信号进行翻译得到的第二语音信号;
对比模块,用于分别比较各所述第二语音信号与预先设置于翻译机内的第三语音信号的语意关联度,其中,所述第一语音信号为所述第三语音信号的回复信号,且所述第二语音信号与所述第三语音信号为同一语种;
第二获取模块,用于获取与所述第三语音信号语意关联度最高的第二语音信号以及所对应的第二增益;
判断模块,用于判断所述第二增益是否与前一次翻译时使用的第一增益相同,其中,所述第一增益和所述第二增益属于所述预设增益;
执行模块,若所述第二增益与前一次翻译时使用的第一增益相同,则记录并播放语意关联度最高的第二语音信号。
7.根据权利要求6所述的一种语音翻译装置,其特征在于,所述第一获取模块包括:
第一获取单元,用于获取翻译机当前所在环境的信噪比;
预设单元,用于根据所述信噪比设置多个不同的增益;
第二获取单元,用于分别获取在不同增益下对所述第一语音信号进行翻译得到所述第二语音信号。
8.根据权利要求6所述的一种语音翻译装置,其特征在于,所述对比模块包括:
回溯单元,用于根据时间从晚到早的顺序逐次往前回溯所述第三语音信号的历史信息,其中,所述历史信息包括对话信息或者一段话语信息;
对比单元,用于根据所述历史信息的语意关联度与各所述第二语音信号的比较;
第一判断单元,用于判断与所述历史信息的语意广联度最高的所述第二语音信息。
9.根据权利要求6所述的语音翻译装置,其特征在于,所述判断模块还包括:
第二判断单元,用于若所述第二增益与前一次翻译时使用的所述第一增益不同,则判断语意关联度最高的第二语音信号的语意,是否与所述第一增益所放大的第二语音信号的语意相同;
第一记录单元,用于若语意不同,则记录并播放语意关联度最高的第二语音信号与所对应的增益;
第二记录单元,若语意相同,则记录并播放前一次翻译时使用的第一增益所放大的第二语音信号。
10.根据权利要求9所述的语音翻译装置,其特征在于,第二判断单元包括:
获取子单元,用于获取语意关联度最高的第二语音信号对应文字文本中的各第一关键词以及各第一关键词之间的衔接关系,获取所述第一增益所放大的第二语音信号对应文字文本中的各第二关键词以及各第二关键词之间的衔接关系;
判断子单元,用于判断各所述第一关键字以及各第一关键词之间的衔接关系,与各所述第二关键词以及各第二关键词之间的衔接关系的匹配度是否在预设范围内;
判定子单元,用于若是在预设范围内,则判定语意关联度最高的第二语音信号的语意,与所述第一增益所放大的第二语音信号的语意相同;否则,则判定语意关联度最高的第二语音信号的语意,与所述第一增益所放大的第二语音信号的语意不相同。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810550273.1A CN108829687B (zh) | 2018-05-31 | 2018-05-31 | 语音翻译方法及其装置 |
PCT/CN2018/093456 WO2019227562A1 (zh) | 2018-05-31 | 2018-06-28 | 语音翻译方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810550273.1A CN108829687B (zh) | 2018-05-31 | 2018-05-31 | 语音翻译方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108829687A true CN108829687A (zh) | 2018-11-16 |
CN108829687B CN108829687B (zh) | 2021-04-13 |
Family
ID=64147107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810550273.1A Active CN108829687B (zh) | 2018-05-31 | 2018-05-31 | 语音翻译方法及其装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108829687B (zh) |
WO (1) | WO2019227562A1 (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095318A1 (en) * | 2013-09-27 | 2015-04-02 | Labor Genome, Ltd. | System for scoring an organational role capability |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别系统 |
CN107863102A (zh) * | 2017-12-25 | 2018-03-30 | 青岛冠义科技有限公司 | 一种语音识别电路及翻译系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844470B (zh) * | 2016-09-18 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法及其设备 |
-
2018
- 2018-05-31 CN CN201810550273.1A patent/CN108829687B/zh active Active
- 2018-06-28 WO PCT/CN2018/093456 patent/WO2019227562A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095318A1 (en) * | 2013-09-27 | 2015-04-02 | Labor Genome, Ltd. | System for scoring an organational role capability |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别系统 |
CN107863102A (zh) * | 2017-12-25 | 2018-03-30 | 青岛冠义科技有限公司 | 一种语音识别电路及翻译系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2019227562A1 (zh) | 2019-12-05 |
CN108829687B (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8755494B2 (en) | Method and apparatus for voice interactive messaging | |
KR100804855B1 (ko) | 음성으로 제어되는 외국어 번역기용 방법 및 장치 | |
US8032383B1 (en) | Speech controlled services and devices using internet | |
US5444768A (en) | Portable computer device for audible processing of remotely stored messages | |
US20040176114A1 (en) | Multimedia and text messaging with speech-to-text assistance | |
US20070249406A1 (en) | Method and system for retrieving information | |
US20090164218A1 (en) | Method and apparatus for uniterm discovery and voice-to-voice search on mobile device | |
MX2008016354A (es) | Deteccion de una maquina contestadora utilizando reconocimiento de dialogo. | |
JPH09106296A (ja) | 音声認識装置及び方法 | |
KR102056330B1 (ko) | 통역장치 및 그 방법 | |
WO2019033987A1 (zh) | 提示方法、装置、存储介质及终端 | |
CN102903361A (zh) | 一种通话即时翻译系统和方法 | |
JPH0782351B2 (ja) | 音声コマンドによりデジットシーケンスを入力するための方法 | |
CN106920559B (zh) | 通话音的优化方法、装置及通话终端 | |
JP3000999B1 (ja) | 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 | |
JP2011248025A (ja) | チャネル統合方法、チャネル統合装置、プログラム | |
CN102984666A (zh) | 一种通话过程中的通讯录语音信息处理方法及系统 | |
CN111325039A (zh) | 基于实时通话的语言翻译方法、系统、程序和手持终端 | |
CN103856602A (zh) | 一种通话转录系统和方法 | |
WO2023109129A1 (zh) | 语音数据的处理方法及装置 | |
CN103067579A (zh) | 辅助在线语音聊天方法和装置 | |
JP2006501788A (ja) | コンピュータとのワイヤレス音声通信用システム及び方法 | |
CN108829687A (zh) | 语音翻译方法及其装置 | |
CN203278958U (zh) | 一种通话转录系统 | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220520 Address after: 518000 floor 1, building 3, Dexin Chang wisdom Park, No. 23 Heping Road, Qinghua community, Longhua street, Longhua District, Shenzhen, Guangdong Patentee after: Shenzhen waterward Information Co.,Ltd. Address before: 518000, block B, huayuancheng digital building, 1079 Nanhai Avenue, Shekou, Nanshan District, Shenzhen City, Guangdong Province Patentee before: SHENZHEN WATER WORLD Co.,Ltd. |
|
TR01 | Transfer of patent right |