CN109522564B - 语音翻译方法和装置 - Google Patents

语音翻译方法和装置 Download PDF

Info

Publication number
CN109522564B
CN109522564B CN201811541295.8A CN201811541295A CN109522564B CN 109522564 B CN109522564 B CN 109522564B CN 201811541295 A CN201811541295 A CN 201811541295A CN 109522564 B CN109522564 B CN 109522564B
Authority
CN
China
Prior art keywords
input
information
language
languages
participating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811541295.8A
Other languages
English (en)
Other versions
CN109522564A (zh
Inventor
曲宇涛
熊皓
何中军
李芝
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811541295.8A priority Critical patent/CN109522564B/zh
Publication of CN109522564A publication Critical patent/CN109522564A/zh
Application granted granted Critical
Publication of CN109522564B publication Critical patent/CN109522564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种语音翻译方法和装置,其中,方法包括:获取当前的输入语音信息和预设的多个参与语种;根据预设的与多个参与语种分别对应的各特征模型对输入语音信息进行处理,获取输入语音信息与各特征模型对应的特征评分;根据输入语音信息与各特征模型对应的特征评分,在多个参与语种中确定与输入语音信息匹配的输入语种,以及待翻译的输出语种;将输入语音信息从输入语种翻译成输出语种。由此,在具有多个语种交互的场景中,无需进行语种切换相关操作,实现了输入语音的语种自动识别,实现了翻译智能化。

Description

语音翻译方法和装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音翻译方法和装置。
背景技术
随着社会的发展和科学技术的进步,翻译机在旅游、商务等场景下正发挥着越来越重要的作用。翻译机主要工作原理是首先进行语音识别,然后调用机器翻译系统得到译文,最后调用语音合成输出。
相关技术中,需要用户在翻译机中人工设置当前输入语音的语种,在翻译完成后,需要人工设置翻译后的输出语种,操作较为复杂,尤其是当存在多种语种的翻译场景中,需要多次切换翻译机的输入语种和输出语种,操作繁琐。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音翻译方法,以实现在具有多个语种交互的场景中,无需进行语种切换相关操作,实现了输入语音的语种自动识别,实现了翻译智能化。。
本发明的第二个目的在于提出一种语音翻译装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种语音翻译方法,包括:获取当前的输入语音信息和预设的多个参与语种;根据预设的与所述多个参与语种分别对应的各特征模型对所述输入语音信息进行处理,获取所述输入语音信息与所述各特征模型对应的特征评分;根据所述输入语音信息与所述各特征模型对应的特征评分,在所述多个参与语种中确定与所述输入语音信息匹配的输入语种,以及待翻译的输出语种;将所述输入语音信息从所述输入语种翻译成所述输出语种。
本发明第二方面实施例提出了一种语音翻译装置,包括:第一获取模块,用于获取当前的输入语音信息和预设的多个参与语种;第二获取模块,用于根据预设的与所述多个参与语种分别对应的各特征模型对所述输入语音信息进行处理,获取所述输入语音信息与所述各特征模型对应的特征评分;确定模块,用于根据所述输入语音信息与所述各特征模型对应的特征评分,在所述多个参与语种中确定与所述输入语音信息匹配的输入语种,以及待翻译的输出语种;翻译模块,用于将所述输入语音信息从所述输入语种翻译成所述输出语种。
本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如前述实施例描述的语音翻译方法。
本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的语音翻译方法。
本发明实施例提供的技术方案可以包含如下的有益效果:
获取当前的输入语音信息和预设的多个参与语种,根据预设的与多个参与语种分别对应的各特征模型对输入语音信息进行处理,获取输入语音信息与各特征模型对应的特征评分,根据输入语音信息与各特征模型对应的特征评分,在多个参与语种中确定与输入语音信息匹配的输入语种,以及待翻译的输出语种,进而,将输入语音信息从输入语种翻译成输出语种。由此,在具有多个语种交互的场景中,无需进行语种切换相关操作,实现了输入语音的语种自动识别,实现了翻译智能化。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种语音翻译方法的流程示意图;
图2为本发明实施例所提供的另一种语音翻译方法的流程示意图;
图3为本发明实施例所提供的又一种语音翻译方法的流程示意图;
图4-A为本发明实施例所提供的一种语音交互场景示意图;
图4-B为本发明实施例所提供的另一种语音交互场景示意图;
图5为本发明实施例所提供的一种语音翻译方法的应用流程示意图;以及
图6是根据本发明一个实施例的语音翻译装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的语音翻译方法和装置。其中,本发明实施例的语音翻译方法的执行主体可以是具有翻译功能的终端设备,该终端设备可以是翻译机、手机等,在此不作限制。
图1为本发明实施例所提供的一种语音翻译方法的流程示意图。如图1所示,该方法包括:
步骤101,获取当前的输入语音信息和预设的多个参与语种。
应当理解的是,多个参与语种对应于当前语音交互场景中的所有参与语种,比如,当前场景是中英文语音交互场景,则对应的参与语种包括中文和英文,又比如,当前场景是中、日、英语音交互场景,则对应的参与语种包括中文、日文和英文。
具体地,获取输入语音的方式可以通过终端设备中的麦克风设备采集,或者,当多个用户共用一个终端设备翻译时,每个用户可以在自己的手持终端上输入语音信息,进而,将语音信息发送至共用的终端设备,另外,多个参与语种的设置方式可以是人工输入的,也可以是根据用户输入的会议信息或者场景信息自动识别的,比如,当前用户输入的会议信息为亚洲峰会,则对应的参与语种可以识别为所有亚洲国家使用的语种等。
步骤102,根据预设的与多个参与语种分别对应的各特征模型对输入语音信息进行处理,获取输入语音信息与对应的特征评分。
在获取输入语音后,并不需要人工设置输入各特征模型语音对应的输入语种,而是获取输入语音对应于多个参与语种的每个参与语种上的特征评分,以便于基于特征评分自动确定输入语音对应的输入语种,减降低操作难度。
需要说明的是,根据应用场景的不同,各特征模型不同,下面以在一些可能的示例中可能的特征模型为例,说明特征评分的获取过程,示例说明如下:
在本发明的一个实施例中,特征模型包括声纹识别模型,该声纹识别模型用于识别输入语音的声纹与当前声纹识别模型对应的语种在声纹上的相似度,并根据相似度生成声纹特征评分,在本实施例中,提取输入语音信息的输入声纹特征,根据预设的与多个参与语种分别对应的各声纹识别模型对输入声纹特征进行识别,获取输入声纹特征与各声纹识别模型对应的声纹特征评分,其中,声纹特征评分的高低表示输入声纹特征与声纹识别模型对应的声纹特征的相似度的高低。
在本发明的另一个实施例中,特征模型包括语言模型,语言模型用于识别输入语音的语义流畅度、字符结构以及字符连接特征(比如形容词、名词之间的连接顺序等)与当前语言模型对应的语种在语义流畅度、字符结构以及字符连接特征等字符组成结构上的相似度,并根据相似度生成文本语义特征评分,在本实施例中,根据预设的与多个参与语种分别对应的各语音识别模型识别输入语音信息,获取与多个参与语种分别对应目标输入文本信息,进而,根据预设的与多个参与语种分别对应的各语言模型对相应的目标输入文本信息内容进行分析,获取目标输入文本信息与各语言模型对应的文本语义特征评分,其中,文本语义特征评分的高低表示输入文本信息与声纹识别模型对应的语种的文本信息在字符结构特征以及语义流畅度上的相似度的高低。
在本实施例中,考虑到在将语音翻译成文本时,通常发生误差的方式为漏翻译,即翻译出的文本长度相对较短,通常将翻译出的文本信息较长的文本长度确定为较为可靠的翻译,因而,还可以基于文本长度确定文本长度特征评分,即根据预设的与多个参与语种分别对应的各语言模型对相应的目标输入文本信息长度进行分析,获取目标输入文本信息与各语言模型对应的文本长度特征评分。
比如,在中英文交互场景中,对用户输入语音:“请问这附近有卖药的地方吗?”,翻译为中文输入文本信息为“请问这附近有卖药的地方吗?”,确定对应的文本长度评分为10,翻译为英文输入文本信息为“do you want to do my yoga?”确定对应的文本长度评分为8。
在本发明的又一个实施例中,如图2所示,获取输入语音信息与各特征模型对应的特征评分,包括:
步骤201,根据预设的与多个参与语种分别对应的各语音识别模型识别输入语音信息,获取与多个参与语种分别对应多个候选输入文本信息。
应当理解的是,各语音输入模型可以将输入语音翻译成对应的输入文本信息,每个语音输入模型在实际执行过程中,可以将输入语言翻译成多个输入文本信息,进而,根据一套评分标准筛选出评分较高的一个输入文本信息作为最终的输入,在本实施例中,考虑到与输入语音信息输入的语种较为吻合的语音输入模型翻译出的多个输入文本信息之间的相似度,必然相比于其他非吻合的语音输入模型翻译出的多个输入文本信息之间的相似度较高,比如,当输入语音信息为“我是中国人”时,则对应的中文语音识别模型识别获取的输入文本信息为“我是中国人”、“喔是中国人”、“我四中国人”等相似度较高的结果,对应的英文识别模型识别获取的输入文本信息为“word is”、“world strong”等相似度较低的结果,因而,可根据多个候选输入文本信息之间的相似度进一步确定对应的文本倾向特征评分。其中,多个候选输入文本信息可为对应语音识别模型对应的评分标准中评分较高的前几个侯选输入文本信息。
步骤202,计算多个候选输入文本信息之间的相似度,获取多个候选输入文本信息与各语音识别模型对应的文本倾向特征评分。
具体地,计算多个候选输入文本信息之间的相似度,获取多个候选输入文本信息与各语音识别模型对应的文本倾向特征评分,其中,文本倾向特征评分越高,代表多个候选输入文本信息之间的相似度越高。
在本发明的一个实施例中,考虑到识别的稳定性,在计算多个候选输入文本信息之间的相似度时,还可将输入语音信息转换为较为稳定的形式,比如,对于中文识别结果先转成拼音,然后再计算相似度。
步骤103,根据输入语音信息与各特征模型对应的特征评分,在多个参与语种中确定与输入语音信息匹配的输入语种,以及待翻译的输出语种。
具体地,综合考量输入语音信息与各特征模型对应的特征评分,在多个参与语种中确定与输入语音信息匹配的输入语种,以及待翻译的输出语种,其中,将参与语种中的非输入语种确定为输出语种。
在本发明的一个实施例中,获取与各特征模型对应的权重信息,该权重信息根据特征评分对输入语种确定的可靠性的贡献设置,进而,根据输入语音信息与各特征模型对应的特征评分,以及与各特征模型对应的权重信息,在多个参与语种中确定与输入语音信息匹配的输入语种。比如,将输入语音信息与各特征模型对应的特征评分于对应权重乘积之和,作为输入语音对应于每个语种的得分,将分值最高的语种作为输入语种。
当然,在实际执行过程中,为了提高翻译的灵活性,对于一些识别错误的情况,提供了自动纠错机制,在本实施例中,如图3所示,该方法还包括:
步骤301,获取与输入语音信息与输入语种对应的第一历史翻译信息和第一当前翻译信息。
步骤302,获取与输入语音信息与输出语种对应的第二历史翻译信息和第二当前翻译信息。
其中,输出语种应当理解为参与语种出除了输入语种之外的所有其他语种,即获取输入语音信息与其他语种对应的每个语种的第二历史翻译信息和第二当前翻译信息。
步骤303,计算第一历史翻译信息和第一当前翻译信息的第一相似度。
步骤304,计算第二历史翻译信息和第二当前翻译信息的第二相似度。
步骤305,比较第一相似度是否大于第二相似度,当第一相似度小于第二相似度,且第二相似度大于预设阈值时,在多个参与语种中与输入语音信息匹配的输入语种修正为与第二当前翻译信息对应的目标语种,并将待翻译的输出语种修正为多个参与语种中的除目标语种之外的其他语种。
不难理解的是,对于同样的输入语言,在确定的输入语种是正确的前提下,每一次的翻译结果应当是较为类似的,即相似度是接近于1的,而当确定的输入语种是错误时,当前翻译结果与历史翻译结果显然差距较大,在错误的输入语种的基础上,确定的翻译结果只能是错误的,而错误的翻译结果之间由于翻译更加不稳定,差距较大,因而,相似度较低,在本实施例中,基于当前翻译信息与历史翻译信息之间的相似度,确定输入语种的确定是否正确。
即获取与输入语音信息与输入语种对应的第一历史翻译信息和第一当前翻译信息,其中,第一历史翻译信息对应的输入语音信息与第一当前翻译信息对应的输入语音信息是否为同一个输入语音,可基于声纹比对发现,当相似度大于一定阈值时即认为是同一个输入语音,并获取与输入语音信息与输出语种对应的第二历史翻译信息和第二当前翻译信息,计算第一历史翻译信息和第一当前翻译信息的第一相似度,第二历史翻译信息和第二当前翻译信息的第二相似度,比较第一相似度是否大于第二相似度,当第一相似度小于第二相似度,且第二相似度大于预设阈值时,表明输入语种确定错误,从而,在多个参与语种中与输入语音信息匹配的输入语种修正为与第二当前翻译信息对应的目标语种,并将待翻译的输出语种修正为多个参与语种中的除目标语种之外的其他语种。
在本实施例中,当第一相似度大于第二相似度,且第一相似度大于预设阈值时,则确定输入语种确定正确,其中,本实施例中的预设阈值可以为接近于1的一个数值。
另外,需要说明的是,通常用户对翻译结果不翻译时,会在短时间内再次输入语音信息,因而,本发明实施例的纠错机制的触发条件可以设置为连续两次输入的输入语音信息较为相似的情况。
举例而言,当输入语音信息为“爱马仕lv。”,输入语种为中文,输出语种确定为英文时,确定的第一历史翻译信息和第一当前翻译信息为“爱马仕lv。”和“爱马仕lv。”,确定的第二历史翻译信息和第二当前翻译信息为“i'm not sure i will.”和“oh,i don't.”,则显然第一相似度大于第二相似度,且第一相似度为1,确定当前输入语音信息的输入语种为中文。
步骤104,将输入语音信息从输入语种翻译成输出语种。
具体地,在确定输入语种后,将输入语种翻译成输出语种,其中,展示输出语种的方式不同,作为一种可能的实现方式,如图4-A所示,在当前语言交互场景为中、英、日三种语言交互时,直接在当前翻译机界面上翻译出三种语言的翻译结果展示给用户1-3,或,如图4-B所示,在当前翻译机界面上翻译出当前输入语音信息对应的翻译结果后,根据其他用户设置的使用语种向对应的用户终端发送对对应语种的翻译结果,其中,获取其他用户使用语种的方式可以为其他用户人工设置,也可以为根据其他用户的聊天信息等历史使用信息分析得到。
由此,本发明实施例的语音翻译方法,可以自动确定用户输入语音信息对应的输入语种,无需用户手动设置输入语言和输出语言,大大提高了相关产品的使用便捷度,举例而言,在中英文语言交互场景中,如图5所示,获取用户输入的语音信息后,分别将输入语音信息输入中文语种对应的各特征模型和英文语种对应的各特征模型,基于中文语种对应的各特征模型的特征评分和英文语种对应的各特征模型的特征评分,进行输入语种的自动判断,当确定输入语种为中文时,进入中英翻译系统,将中文翻译成英文,当输入语种确定为英文时,进入英中翻译系统,将英文翻译成中文,其中,翻译结果包括文本翻译和语音翻译,可以将翻译的文本信息和语音信息语音合成输出。
综上,本发明实施例的语音翻译方法,获取当前的输入语音信息和预设的多个参与语种,根据预设的与多个参与语种分别对应的各特征模型对输入语音信息进行处理,获取输入语音信息与各特征模型对应的特征评分,根据输入语音信息与各特征模型对应的特征评分,在多个参与语种中确定与输入语音信息匹配的输入语种,以及待翻译的输出语种,进而,将输入语音信息从输入语种翻译成输出语种。由此,在具有多个语种交互的场景中,无需进行语种切换相关操作,实现了输入语音的语种自动识别,实现了翻译智能化。
为了实现上述实施例,本发明提供了一种语音翻译装置,图6是根据本发明一个实施例的语音翻译装置的结构示意图,如图6所示,该语音翻译装置包括:第一获取模块10、第二获取模块20、确定模块30和翻译模块40,其中,
第一获取模块10,用于获取当前的输入语音信息和预设的多个参与语种。
第二获取模块20,用于根据预设的与多个参与语种分别对应的各特征模型对输入语音信息进行处理,获取输入语音信息与各特征模型对应的特征评分。
确定模块30,用于根据输入语音信息与各特征模型对应的特征评分,在多个参与语种中确定与输入语音信息匹配的输入语种,以及待翻译的输出语种。
翻译模块40,用于将输入语音信息从输入语种翻译成输出语种。
需要说明的是,前述对语音翻译方法实施例的解释说明,也适用于本发明实施例的语音翻译装置,其实现原理类似,此处不再赘述。
综上,本发明实施例的语音翻译装置,获取当前的输入语音信息和预设的多个参与语种,根据预设的与多个参与语种分别对应的各特征模型对输入语音信息进行处理,获取输入语音信息与各特征模型对应的特征评分,根据输入语音信息与各特征模型对应的特征评分,在多个参与语种中确定与输入语音信息匹配的输入语种,以及待翻译的输出语种,进而,将输入语音信息从输入语种翻译成输出语种。由此,在具有多个语种交互的场景中,无需进行语种切换相关操作,实现了输入语音的语种自动识别,实现了翻译智能化。
为了实现上述实施例,本发明还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现如前述实施例描述的语音翻译方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所描述的语音翻译方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种语音翻译方法,其特征在于,包括以下步骤:
获取当前的输入语音信息和预设的多个参与语种;
根据预设的与所述多个参与语种分别对应的各特征模型对所述输入语音信息进行处理,获取所述输入语音信息与所述各特征模型对应的特征评分;
根据所述输入语音信息与所述各特征模型对应的特征评分,在所述多个参与语种中确定与所述输入语音信息匹配的输入语种,以及待翻译的输出语种;
将所述输入语音信息从所述输入语种翻译成所述输出语种;
其中,所述根据所述输入语音信息与所述各特征模型对应的特征评分,在所述多个参与语种中确定与所述输入语音信息匹配的输入语种,包括:
获取与所述各特征模型对应的权重信息;
根据所述输入语音信息与所述各特征模型对应的特征评分,以及与所述各特征模型对应的权重信息,在所述多个参与语种中确定与所述输入语音信息匹配的输入语种。
2.如权利要求1所述的方法,其特征在于,所述根据预设的与所述多个参与语种分别对应的各特征模型对所述输入语音信息进行处理,获取所述输入语音信息与所述各特征模型对应的特征评分,包括:
提取所述输入语音信息的输入声纹特征;
根据预设的与所述多个参与语种分别对应的各声纹识别模型对所述输入声纹特征进行识别,获取所述输入声纹特征与所述各声纹识别模型对应的声纹特征评分。
3.如权利要求1所述的方法,其特征在于,所述根据预设的与所述多个参与语种分别对应的各特征模型对所述输入语音信息进行处理,获取所述输入语音信息与所述各特征模型对应的特征评分,包括:
根据预设的与所述多个参与语种分别对应的各语音识别模型识别所述输入语音信息,获取与所述多个参与语种分别对应的目标输入文本信息;
根据预设的与所述多个参与语种分别对应的各语言模型对相应的所述目标输入文本信息的内容进行分析,获取所述目标输入文本信息与所述各语言模型对应的文本语义特征评分。
4.如权利要求3所述的方法,其特征在于,在所述获取与所述多个参与语种分别对应的目标输入文本信息之后,还包括:
根据预设的与所述多个参与语种分别对应的各语言模型对相应的所述目标输入文本信息的长度进行分析,获取所述目标输入文本信息与所述各语言模型对应的文本长度特征评分。
5.如权利要求1所述的方法,其特征在于,所述根据预设的与所述多个参与语种分别对应的各特征模型对所述输入语音信息进行处理,获取所述输入语音信息与所述各特征模型对应的特征评分,包括:
根据预设的与所述多个参与语种分别对应的各语音识别模型识别所述输入语音信息,获取与所述多个参与语种分别对应的多个候选输入文本信息;
计算所述多个候选输入文本信息之间的相似度,获取所述多个候选输入文本信息与所述各语音识别模型对应的文本倾向特征评分。
6.如权利要求1所述的方法,其特征在于,还包括:
获取与所述输入语音信息与所述输入语种对应的第一历史翻译信息和第一当前翻译信息;
获取与所述输入语音信息与所述输出语种对应的第二历史翻译信息和第二当前翻译信息;
计算所述第一历史翻译信息和所述第一当前翻译信息的第一相似度;
计算所述第二历史翻译信息和所述第二当前翻译信息的第二相似度;
比较所述第一相似度是否大于所述第二相似度,当所述第一相似度小于所述第二相似度,且所述第二相似度大于预设阈值时,在所述多个参与语种中与所述输入语音信息匹配的输入语种修正为与所述第二当前翻译信息对应的目标语种,并将待翻译的输出语种修正为所述多个参与语种中的除所述目标语种之外的其他语种。
7.一种语音翻译装置,其特征在于,包括:
第一获取模块,用于获取当前的输入语音信息和预设的多个参与语种;
第二获取模块,用于根据预设的与所述多个参与语种分别对应的各特征模型对所述输入语音信息进行处理,获取所述输入语音信息与所述各特征模型对应的特征评分;
确定模块,用于根据所述输入语音信息与所述各特征模型对应的特征评分,在所述多个参与语种中确定与所述输入语音信息匹配的输入语种,以及待翻译的输出语种;
翻译模块,用于将所述输入语音信息从所述输入语种翻译成所述输出语种;
其中,所述根据所述输入语音信息与所述各特征模型对应的特征评分,在所述多个参与语种中确定与所述输入语音信息匹配的输入语种,包括:
获取与所述各特征模型对应的权重信息;
根据所述输入语音信息与所述各特征模型对应的特征评分,以及与所述各特征模型对应的权重信息,在所述多个参与语种中确定与所述输入语音信息匹配的输入语种。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6中任一所述的语音翻译方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的语音翻译方法。
CN201811541295.8A 2018-12-17 2018-12-17 语音翻译方法和装置 Active CN109522564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811541295.8A CN109522564B (zh) 2018-12-17 2018-12-17 语音翻译方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811541295.8A CN109522564B (zh) 2018-12-17 2018-12-17 语音翻译方法和装置

Publications (2)

Publication Number Publication Date
CN109522564A CN109522564A (zh) 2019-03-26
CN109522564B true CN109522564B (zh) 2022-05-31

Family

ID=65795484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811541295.8A Active CN109522564B (zh) 2018-12-17 2018-12-17 语音翻译方法和装置

Country Status (1)

Country Link
CN (1) CN109522564B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183117B (zh) * 2019-06-14 2022-12-30 上海流利说信息技术有限公司 一种翻译评价的方法、装置、存储介质及电子设备
CN111369973A (zh) * 2020-02-28 2020-07-03 广州三星通信技术研究有限公司 用于在电子终端中选择翻译工具的方法和设备
CN111245460B (zh) * 2020-03-25 2020-10-27 广州锐格信息技术科技有限公司 一种具有人工智能翻译的无线对讲机
CN111627432B (zh) * 2020-04-21 2023-10-20 升智信息科技(南京)有限公司 主动式外呼智能语音机器人多语种交互方法及装置
CN112818706B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 基于逆向结果稳定性的语音翻译实时争端记录系统与方法
CN112818707B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 基于逆向文本共识的多翻引擎协作语音翻译系统与方法
CN112818709B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 用于多用户语音会议记录标记的语音翻译系统与方法
CN113377276A (zh) * 2021-05-19 2021-09-10 深圳云译科技有限公司 速录转译的系统、方法、装置、电子设备以及存储介质
WO2022266825A1 (zh) * 2021-06-22 2022-12-29 华为技术有限公司 语音处理方法、装置及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60310785T2 (de) * 2002-02-21 2007-10-25 Mitel Networks Corporation, Ottawa Verfahren und Vorrichtung zur Übersetzung von gesprochener Sprache
CN106935240A (zh) * 2017-03-24 2017-07-07 百度在线网络技术(北京)有限公司 基于人工智能的语音翻译方法、装置、终端设备和云端服务器
CN107515862A (zh) * 2017-09-01 2017-12-26 北京百度网讯科技有限公司 语音翻译方法、装置及服务器
CN108595443A (zh) * 2018-03-30 2018-09-28 浙江吉利控股集团有限公司 同声翻译方法、装置、智能车载终端及存储介质
CN108628859A (zh) * 2018-04-25 2018-10-09 合肥上城信息技术有限公司 一种实时语音翻译系统
CN108766414A (zh) * 2018-06-29 2018-11-06 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60310785T2 (de) * 2002-02-21 2007-10-25 Mitel Networks Corporation, Ottawa Verfahren und Vorrichtung zur Übersetzung von gesprochener Sprache
CN106935240A (zh) * 2017-03-24 2017-07-07 百度在线网络技术(北京)有限公司 基于人工智能的语音翻译方法、装置、终端设备和云端服务器
CN107515862A (zh) * 2017-09-01 2017-12-26 北京百度网讯科技有限公司 语音翻译方法、装置及服务器
CN108595443A (zh) * 2018-03-30 2018-09-28 浙江吉利控股集团有限公司 同声翻译方法、装置、智能车载终端及存储介质
CN108628859A (zh) * 2018-04-25 2018-10-09 合肥上城信息技术有限公司 一种实时语音翻译系统
CN108766414A (zh) * 2018-06-29 2018-11-06 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN109522564A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109522564B (zh) 语音翻译方法和装置
US11322153B2 (en) Conversation interaction method, apparatus and computer readable storage medium
US10438586B2 (en) Voice dialog device and voice dialog method
US10460029B2 (en) Reply information recommendation method and apparatus
CN107679033B (zh) 文本断句位置识别方法和装置
US20190279622A1 (en) Method for speech recognition dictation and correction, and system
KR102222317B1 (ko) 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
CN110164435B (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN106534548B (zh) 语音纠错方法和装置
CN107622054B (zh) 文本数据的纠错方法及装置
JP6677419B2 (ja) 音声対話方法及び装置
CN112262430A (zh) 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
CN111177359A (zh) 多轮对话方法和装置
CN107844470B (zh) 一种语音数据处理方法及其设备
CN109710087B (zh) 输入法模型生成方法及装置
CN103853703A (zh) 一种信息处理方法及电子设备
US20220358297A1 (en) Method for human-machine dialogue, computing device and computer-readable storage medium
CN116737908A (zh) 知识问答方法、装置、设备和存储介质
US20190213998A1 (en) Method and device for processing data visualization information
CN109165286A (zh) 自动问答方法、装置及计算机可读存储介质
CN110473543B (zh) 一种语音识别方法、装置
CN113743102B (zh) 识别字符的方法、装置以及电子设备
CN117370512A (zh) 回复对话的方法、装置、设备及存储介质
US20190279623A1 (en) Method for speech recognition dictation and correction by spelling input, system and storage medium
CN110991155A (zh) 文本修正方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant