CN107515862A - 语音翻译方法、装置及服务器 - Google Patents

语音翻译方法、装置及服务器 Download PDF

Info

Publication number
CN107515862A
CN107515862A CN201710780647.4A CN201710780647A CN107515862A CN 107515862 A CN107515862 A CN 107515862A CN 201710780647 A CN201710780647 A CN 201710780647A CN 107515862 A CN107515862 A CN 107515862A
Authority
CN
China
Prior art keywords
speech data
translation
identification information
terminal
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710780647.4A
Other languages
English (en)
Inventor
杜念冬
马赛
谢延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710780647.4A priority Critical patent/CN107515862A/zh
Publication of CN107515862A publication Critical patent/CN107515862A/zh
Priority to US16/044,659 priority patent/US20190073358A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明提出一种语音翻译方法、装置及服务器,其中,该方法包括:确定获取到终端发送的语音数据所属的语言类型;根据所述确定的语言类型,对所述语音数据进行识别,获取与所述语音数据对应的第一识别信息;对所述第一识别信息进行翻译处理,获取与所述语音数据对应的翻译结果。由此,无需终端与服务器进行多次交互即可实现对语音数据的翻译,减少了网络资源的占用,提高了翻译效率,改善了用户体验。

Description

语音翻译方法、装置及服务器
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音翻译方法、装置及服务器。
背景技术
现有的语音翻译方法,终端在获取到用户输入的语音后,首先将语音数据发送给语音识别服务器进行语音识别,然后将识别服务器返回的文本呈现给用户,确认用户触发了翻译操作后,再向翻译服务器发送翻译请求,以获取翻译服务器返回的翻译结果,进而将翻译结果呈现给用户。
这种翻译方式,需要终端与服务器间多次进行数据交互,不仅占用网络资源,而且翻译过程耗时较长,效率低,用户体验差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明提出一种语音翻译方法,无需终端与服务器进行多次交互即可实现对语音数据的翻译,减少了网络资源的占用,提高了翻译效率,改善了用户体验。
本发明还提出一种语音翻译装置。
本发明还提出一种服务器。
本发明还提出一种计算机可读存储介质。
本发明第一方面实施例提出了一种语音翻译方法,包括:确定获取到终端发送的语音数据所属的语言类型;根据所述确定的语言类型,对所述语音数据进行识别,获取与所述语音数据对应的第一识别信息;对所述第一识别信息进行翻译处理,获取与所述语音数据对应的翻译结果。
本发明实施例的语音翻译方法,首先确定获取到终端发送的语音数据所属的语言类型,然后根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的第一识别信息,再对第一识别信息进行翻译处理,获取与语音数据对应的翻译结果。由此,无需终端与服务器进行多次交互即可实现对语音数据的翻译,减少了网络资源的占用,提高了翻译效率,改善了用户体验。
本发明第二方面实施例提出了一种语音翻译装置,包括:第一确定模块,用于确定获取到终端发送的语音数据所属的语言类型;第一获取模块,用于根据所述确定的语言类型,对所述语音数据进行识别,获取与所述语音数据对应的第一识别信息;第二获取模块,用于对所述第一识别信息进行翻译处理,获取与所述语音数据对应的翻译结果。
本发明实施例的语音翻译装置,首先确定获取到终端发送的语音数据所属的语言类型,然后根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的第一识别信息,再对第一识别信息进行翻译处理,获取与语音数据对应的翻译结果。由此,无需终端与服务器进行多次交互即可实现对语音数据的翻译,减少了网络资源的占用,提高了翻译效率,改善了用户体验。
本发明第三方面实施例提出了一种服务器,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当所述处理器执行所述程序时实现如第一方面所述的语音翻译方法。
本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如第一方面所述的语音翻译方法。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的语音翻译方法的流程图;
图2是本发明另一个实施例的语音翻译方法的流程图;
图3是本发明一个实施例的语音翻译装置的结构示意图;
图4是本发明另一个实施例的语音翻译装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
目前,现有的语音翻译方法,终端在获取到用户输入的语音后,首先将语音数据发送给语音识别服务器进行语音识别,然后将识别服务器返回的文本呈现给用户,确认用户触发了翻译操作后,再向翻译服务器发送翻译请求,以获取翻译服务器返回的翻译结果,进而将翻译结果呈现给用户。这种翻译方式,需要终端与服务器间多次进行数据交互,不仅占用网络资源,而且翻译过程耗时较长,效率低,用户体验差。
本发明各实施例针对上述问题,提出一种语音翻译方法,在获取到终端发送语音数据后,首先确定语音数据所属的语言类型,然后根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的识别信息,再对识别信息进行翻译处理,获取与语音数据对应的翻译结果。由此,无需终端与服务器进行多次交互即可实现对语音数据的翻译,减少了网络资源的占用,提高了翻译效率,改善了用户体验。
下面参考附图描述本发明实施例的语音翻译方法、装置及服务器。
图1是本发明一个实施例的语音翻译方法的流程图。
如图1所示,该语音翻译方法包括:
步骤101,确定获取到终端发送的语音数据所属的语言类型。
其中,本发明实施例提供的语音翻译方法的执行主体为本发明实施例提供的语音翻译装置,该装置可以被配置在任意服务器中,以对终端发送的语音数据进行翻译。
具体的,可以在终端中预先设置麦克风等语音输入设备,从而在用户需要翻译时,终端可以通过语音输入设备,获取用户输入的语音数据,并将获取的语音数据发送给语音翻译装置。
具体实现时,步骤101可以通过以下步骤101a-101b实现。
步骤101a,确定获取到终端发送的语音数据的特征向量。
其中,特征向量,用来表征获取到终端发送的语音数据的特征。
具体的,语音翻译装置获取到终端发送的语音数据后,可以通过梅尔倒谱系数、线性预测倒谱系数、多媒体内容描述接口等等多种方法,确定获取到终端发送的语音数据的特征向量。
步骤101b,根据特征向量与预设的各语言类型模型的匹配度,确定语音数据所属的语言类型。
具体的,可以预先根据大量的各种类型语言的历史语料,分别训练得到各语言类型模型,从而在确定获取到的语音数据的特征向量后,可以将特征向量输入各语言类型模型进行校验打分,并将得分最高的语言类型模型,即与特征向量的匹配度最高的语言类型模型对应的语言类型,确定为语音数据所属的语言类型。
步骤102,根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的第一识别信息。
具体的,可以预先训练不同的语言类型分别对应的语言模型,从而在确定了终端发送的语音数据所属的语言类型后,可以利用与语言类型对应的语言模型,对语音数据进行识别,获取与语音数据对应的第一识别信息。
步骤103,对第一识别信息进行翻译处理,获取与语音数据对应的翻译结果。
具体的,在获取了终端发送的语音数据后,可以确定语音数据对应的目标语言类型,从而根据目标语言类型,对第一识别信息进行翻译处理,以获取与语音数据对应的翻译结果。
需要说明的是,翻译结果,可以是文字形式的翻译结果,也可以是语音形式的翻译结果,此处不作限制。
更具体的,可以预先设置将某种语言类型的语音数据翻译为不同目标语言类型的数据时,分别对应不同的翻译模型。比如,将中文类型的语音数据分别翻译为英文和韩语时,分别对应不同的翻译模型。从而在确定语音数据对应的目标语言类型后,可以根据目标语言类型对应的翻译模型,对第一识别信息进行翻译处理。
需要说明的是,终端发送的语音数据中,可以仅包括待翻译的语音数据,也可以同时包括待翻译的语音数据及待翻译的语音的目标语言类型,此处不作限制。另外,终端发送的语音数据中,同时包括待翻译的语音数据及待翻译的语音的目标语言类型时,对第一识别信息进行翻译处理时,可以仅对待翻译的语音数据进行翻译处理。
进一步的,语音翻译装置获取了与语音数据对应的翻译结果后,还可以将第一识别信息及翻译结果发送给终端,以使终端呈现给用户,从而用户可以根据第一识别信息,确定语音翻译装置对语音数据的识别结果是否准确,进而判断翻译结果是否准确。即,在步骤103之后,还可以包括:
将第一识别信息及翻译结果发送给终端。
具体的,终端获取到第一识别信息及翻译结果后,可以以任意方式呈现给用户,此处不作限制。比如,终端可以先显示第一识别信息,用户确认后,再显示翻译结果;或者,可以同时显示第一识别信息及翻译结果;或者,终端可以在显示第一识别信息的同时,将翻译结果进行语音播放,等等。
另外,用户的意图不同时,同一识别信息对应的翻译结果可能会有差别,为了使翻译结果更准确,在本发明实施例中,还可以根据用户的意图,对第一识别信息进行翻译处理。即,步骤206具体可以通过以下方式实现:
确定第一识别信息对应的意图;
根据意图,对第一识别信息进行翻译处理。
具体的,可以预先训练不同意图分别对应的翻译模型,从而在获取第一识别信息及对获取的第一识别信息进行意图识别后,可以根据识别的意图对应的翻译模型,对第一识别信息进行翻译处理。
举例来说,假设预先设置旅游类意图,对应翻译模型A,影视类意图,对应翻译模型B。若根据获取的语音数据,确定的第一识别信息为“去故宫怎么走”,由于通过对第一识别信息进行意图识别,可以确定对应的意图为询问到旅游景点“故宫”的路线,即旅游类意图,而旅游类意图对应翻译模型A,则可以根据翻译模型A,对第一识别信息进行翻译处理。
可以理解的是,本发明实施例提供的语音翻译方法,终端获取到语音数据,并将语音数据发送给语音翻译装置后,语音翻译装置可以在对语音数据进行识别后,直接对识别信息进行翻译处理,获取翻译结果后再将翻译结果及识别信息发送给终端,由此,语音翻译装置所在的服务器无需与终端进行多次交互,即可实现对获取的语音数据的翻译。
需要说明的是,本发明实施例中,语音翻译装置获取了与语音数据对应的第一识别信息后,也可以先将第一识别信息发送给终端,同时对第一识别结果进行翻译处理,在获取翻译结果后,再将翻译结果发送给终端。
本发明实施例的语音翻译方法,首先确定获取到终端发送的语音数据所属的语言类型,然后根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的第一识别信息,再对第一识别信息进行翻译处理,获取与语音数据对应的翻译结果。由此,无需终端与服务器进行多次交互即可实现对语音数据的翻译,减少了网络资源的占用,提高了翻译效率,改善了用户体验。
通过上述分析可知,确定获取到终端发送的语音数据所属的语言类型后,可以根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的第一识别信息,再对第一识别信息进行翻译处理,获取与语音数据对应的翻译结果。在实际运用中,对语音数据进行识别的识别结果可能会不准确,下面结合图2,针对上述情况进行具体说明。
图2是本发明另一个实施例的语音翻译方法的流程图。
如图2所示,该方法包括:
步骤201,确定获取到终端发送的语音数据的特征向量。
步骤202,根据特征向量与预设的各语言类型模型的匹配度,确定语音数据所属的语言类型。
步骤203,根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的第一识别信息。
其中,上述步骤201-203的具体实现过程及原理,可以参照上述实施例的详细描述,此处不作赘述。
步骤204,对第一识别信息进行后处理,生成第二识别信息。
步骤205,对第二识别信息进行翻译处理,获取与语音数据对应的翻译结果。
具体的,可以通过切词、词性标注、加标点、根据热词纠错、改写等等方式,对第一识别信息进行后处理,从而生成第二识别信息。
具体实现时,在获取了终端发送的语音数据后,可以确定语音数据对应的目标语言类型,从而根据目标语言类型,对第二识别信息进行翻译处理,以获取与语音数据对应的翻译结果,并将翻译结果和识别信息返回给终端。
需要说明的是,翻译结果,可以是文字形式的翻译结果,也可以是语音形式的翻译结果,此处不作限制。
更具体的,可以预先设置将某种语言类型的语音数据翻译为不同目标语言类型的数据时,分别对应不同的翻译模型。比如,将中文类型的语音数据分别翻译为英文和韩语时,分别对应不同的翻译模型。从而在确定语音数据对应的目标语言类型后,可以根据目标语言类型对应的翻译模型,对第二识别信息进行翻译处理。
通过对后处理后的第二识别信息进行翻译处理,可以使翻译结果更准确可靠。
举例来说,假设用户输入的语音数据为“我想看三生三世十里桃花”,通过对语音数据进行识别,确定的第一识别信息可能为“我想看三声三是十里桃花”,而通过热词纠错,可以将第一识别信息纠正为“我想看三生三世十里桃花”,从而可以对“我想看三生三世十里桃花”进行翻译处理。由此,可以使翻译结果更符合用户的需求,准确性和可靠性更高。
需要说明的是,终端发送的语音数据中,可以仅包括待翻译的语音数据,也可以同时包括待翻译的语音数据及待翻译的语音的目标语言类型,此处不作限制。另外,终端发送的语音数据中,同时包括待翻译的语音数据及待翻译的语音的目标语言类型时,对第二识别信息进行翻译处理时,可以仅对待翻译的语音数据进行翻译处理。
具体实现时,可以通过多种方式,确定获取的语音数据对应的目标语言类型。
比如,若用户输入的语音数据中,同时包括待翻译的语音数据及待翻译的语音的目标语言类型,则在获取了第二识别信息后,可以直接根据获取的语音数据中包括的待翻译语音的目标语言类型,对第二识别信息进行翻译处理,获取与语音数据对应的翻译结果。
举例来说,用户需要翻译时,可以直接输入语音“去白宫怎么走的英文翻译”,其中,“去白宫怎么走”即为待翻译的语音数据,“英文”即为待翻译的语音的目标语言类型。从而语音翻译装置获取了识别信息“去白宫怎么走”后,可以根据目标语言类型“英文”,将“去白宫怎么走”翻译为英文形式。
或者,若用户输入的语音数据中,仅包括待翻译的语音数据,此时,用户可以通过点击、长按、滑动等操作触控具有目标语言类型选择功能的按钮,以确定待翻译的语音数据对应的目标语言类型。从而语音翻译装置在获取了第二识别信息后,可以根据用户确定的目标语言类型,对第二识别信息进行翻译处理,获取与语音数据对应的翻译结果。
或者,可以通过GPS、WIFI定准、基站定位等多种方式对终端进行定位,以确定终端当前的位置信息,从而将终端所在位置对应的用户的常用语言类型,确定为目标语言类型,以对第二识别信息进行翻译处理,获取与语音数据对应的翻译结果。
举例来说,假设通过定位,确定终端位于韩国,而韩国人常用的语言类型为韩语,则可以将韩语确定为目标语言类型,从而将第二识别信息翻译为韩语。
或者,可以根据终端的历史使用信息,确定终端所属的用户经常将语音数据翻译为哪种语言类型,从而将历史翻译频率最高的目标语言类型,确定为当前获取的语音数据对应的目标语言类型;或者将上次翻译时的目标语言类型,确定为当前获取的语音数据对应的目标语言类型,等等。
其中,历史使用信息,可以是用户利用终端进行语音翻译的历史翻译记录或其它历史使用信息,此处不作限制。
相应的,在步骤205之前,还可以包括:
根据终端当前的位置信息,确定目标语言类型;
或者,根据终端的历史使用信息,确定目标语言类型。
其中,目标语言类型,可以是中文、韩文、英文、日文等等任意类型。
本发明实施例的语音翻译方法,在确定获取到终端发送的语音数据的特征向量,可以根据特征向量与预设的各语言类型模型的匹配度,确定语音数据所属的语言类型,然后根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的第一识别信息,再对第一识别信息进行后处理,生成第二识别信息,从而对第二识别信息进行翻译处理,获取与语音数据对应的翻译结果。由此,无需终端与服务器进行多次交互即可实现对语音数据的翻译,减少了网络资源的占用,提高了翻译效率,改善了用户体验。
图3是本发明一个实施例的语音翻译装置的结构示意图。
如图3所示,该语音翻译装置包括:
第一确定模块31,用于确定获取到终端发送的语音数据所属的语言类型;
第一获取模块32,用于根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的第一识别信息;
第二获取模块33,用于对第一识别信息进行翻译处理,获取与语音数据对应的翻译结果。
具体的,本实施例提供的语音翻译装置,可以被配置在任何服务器中,用于执行如上述实施例所示的语音翻译方法,以对终端发送的语音数据进行翻译。
在本申请实施例一种可能的实现形式中,上述第一确定模块31,具体用于:
确定获取到终端发送的语音数据的特征向量;
根据特征向量与预设的各语言类型模型的匹配度,确定语音数据所属的语言类型。
在本申请实施例另一种可能的实现形式中,上述第二获取模块33,还用于:
确定第一识别信息对应的意图;
根据意图,对第一识别信息进行翻译处理。
需要说明的是,前述对语音翻译方法实施例的解释说明也适用于该实施例的语音翻译装置,此处不再赘述。
本发明实施例的语音翻译装置,首先确定获取到终端发送的语音数据所属的语言类型,然后根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的第一识别信息,再对第一识别信息进行翻译处理,获取与语音数据对应的翻译结果。由此,无需终端与服务器进行多次交互即可实现对语音数据的翻译,减少了网络资源的占用,提高了翻译效率,改善了用户体验。
图4是本发明另一个实施例的语音翻译装置的结构示意图。
如图4所示,在图3的基础上,该语音翻译装置,还包括:
生成模块41,用于对第一识别信息进行后处理,生成第二识别信息。
相应的,上述第二获取模块33,具体用于:
对第二识别信息进行翻译处理。
在本发明一种可能的实现形式中,该装置,还包括:
第二确定模块42,用于根据终端当前的位置信息,确定目标语言类型;
或者,用于根据终端的历史使用信息,确定目标语言类型。
在本发明另一种可能的实现形式中,该装置,还包括:
发送模块43,用于将所述第一识别信息及所述翻译结果发送给所述终端。
需要说明的是,前述对语音翻译方法实施例的解释说明也适用于该实施例的语音翻译装置,此处不再赘述。
本发明实施例的语音翻译装置,首先确定获取到终端发送的语音数据所属的语言类型,然后根据确定的语言类型,对语音数据进行识别,获取与语音数据对应的第一识别信息,再对第一识别信息进行翻译处理,获取与语音数据对应的翻译结果。由此,无需终端与服务器进行多次交互即可实现对语音数据的翻译,减少了网络资源的占用,提高了翻译效率,改善了用户体验。
本发明第三方面实施例提出了一种服务器,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当上述处理器执行所述程序时实现如前述实施例中的语音翻译方法。
本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,当该程序被处理器执行时实现如前述实施例中的语音翻译方法。
本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如前述实施例中的语音翻译方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种语音翻译方法,其特征在于,包括:
确定获取到终端发送的语音数据所属的语言类型;
根据所述确定的语言类型,对所述语音数据进行识别,获取与所述语音数据对应的第一识别信息;
对所述第一识别信息进行翻译处理,获取与所述语音数据对应的翻译结果。
2.如权利要求1所述的方法,其特征在于,所述确定获取到终端发送的语音数据所属的语言类型,包括:
确定所述获取到终端发送的语音数据的特征向量;
根据所述特征向量与预设的各语言类型模型的匹配度,确定所述语音数据所属的语言类型。
3.如权利要求1所述的方法,其特征在于,所述对所述第一识别信息进行翻译处理之前,还包括:
对所述第一识别信息进行后处理,生成第二识别信息;
所述对所述第一识别信息进行翻译处理,包括:
对所述第二识别信息进行翻译处理。
4.如权利要求1-3任一所述的方法,其特征在于,所述对所述第一识别信息进行翻译处理,包括:
确定所述第一识别信息对应的意图;
根据所述意图,对所述第一识别信息进行翻译处理。
5.如权利要求1-3任一所述的方法,其特征在于,所述获取与所述语音数据对应的翻译结果之前,还包括:
根据终端当前的位置信息,确定目标语言类型;
或者,根据所述终端的历史使用信息,确定目标语言类型。
6.如权利要求5所述的方法,其特征在于,所述获取与所述语音数据对应的翻译结果之后,还包括:
将所述第一识别信息及所述翻译结果发送给所述终端。
7.一种语音翻译装置,其特征在于,包括:
第一确定模块,用于确定获取到终端发送的语音数据所属的语言类型;
第一获取模块,用于根据所述确定的语言类型,对所述语音数据进行识别,获取与所述语音数据对应的第一识别信息;
第二获取模块,用于对所述第一识别信息进行翻译处理,获取与所述语音数据对应的翻译结果。
8.如权利要求7所述的装置,其特征在于,所述第一确定模块,具体用于:
确定所述获取到终端发送的语音数据的特征向量;
根据所述特征向量与预设的各语言类型模型的匹配度,确定所述语音数据所属的语言类型。
9.如权利要求7所述的装置,其特征在于,还包括:
生成模块,用于对所述第一识别信息进行后处理,生成第二识别信息;
所述第二获取模块,具体用于:
对所述第二识别信息进行翻译处理。
10.如权利要求7-9任一所述的装置,其特征在于,所述第二获取模块,还用于:
确定所述第一识别信息对应的意图;
根据所述意图,对所述第一识别信息进行翻译处理。
11.如权利要求7-9任一所述的装置,其特征在于,还包括:
第二确定模块,用于根据终端当前的位置信息,确定目标语言类型;
或者,用于根据所述终端的历史使用信息,确定目标语言类型。
12.如权利要求11所述的装置,其特征在于,还包括:
发送模块,用于将所述第一识别信息及所述翻译结果发送给所述终端。
13.一种服务器,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的语音翻译方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的语音翻译方法。
CN201710780647.4A 2017-09-01 2017-09-01 语音翻译方法、装置及服务器 Pending CN107515862A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710780647.4A CN107515862A (zh) 2017-09-01 2017-09-01 语音翻译方法、装置及服务器
US16/044,659 US20190073358A1 (en) 2017-09-01 2018-07-25 Voice translation method, voice translation device and server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710780647.4A CN107515862A (zh) 2017-09-01 2017-09-01 语音翻译方法、装置及服务器

Publications (1)

Publication Number Publication Date
CN107515862A true CN107515862A (zh) 2017-12-26

Family

ID=60724792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710780647.4A Pending CN107515862A (zh) 2017-09-01 2017-09-01 语音翻译方法、装置及服务器

Country Status (2)

Country Link
US (1) US20190073358A1 (zh)
CN (1) CN107515862A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108923810A (zh) * 2018-06-15 2018-11-30 Oppo广东移动通信有限公司 翻译方法及相关设备
CN109165392A (zh) * 2018-08-30 2019-01-08 深圳市有钱科技有限公司 语言翻译方法和装置
CN109522564A (zh) * 2018-12-17 2019-03-26 北京百度网讯科技有限公司 语音翻译方法和装置
CN109949793A (zh) * 2019-03-06 2019-06-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110119514A (zh) * 2019-04-02 2019-08-13 杭州灵沃盛智能科技有限公司 信息的即时翻译方法、装置和系统
CN110428805A (zh) * 2019-09-04 2019-11-08 福建省立医院 非普通话与普通话互译方法、装置和设备
CN110459203A (zh) * 2018-05-03 2019-11-15 百度在线网络技术(北京)有限公司 一种智能语音导游方法、装置、设备及存储介质
CN110659387A (zh) * 2019-09-20 2020-01-07 上海掌门科技有限公司 用于提供视频的方法和设备
CN111126081A (zh) * 2018-10-31 2020-05-08 永德利硅橡胶科技(深圳)有限公司 全球通用语言终端及方法
CN111245460A (zh) * 2020-03-25 2020-06-05 广州锐格信息技术科技有限公司 一种具有人工智能翻译的无线对讲机
CN111563388A (zh) * 2019-02-14 2020-08-21 阿里巴巴集团控股有限公司 信息处理方法及装置
CN112687271A (zh) * 2020-12-16 2021-04-20 北京百度网讯科技有限公司 语音翻译方法、装置、电子设备和存储介质
CN113687860A (zh) * 2021-08-20 2021-11-23 北京达佳互联信息技术有限公司 一种动态配置方法、装置、设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784552B (zh) * 2020-06-05 2023-10-27 珠海金山办公软件有限公司 一种表格编辑方法及装置
CN114179083B (zh) * 2021-12-10 2024-03-15 北京云迹科技股份有限公司 一种引领机器人语音信息的生成方法、装置和引领机器人
US20230419958A1 (en) * 2022-06-27 2023-12-28 Samsung Electronics Co., Ltd. Personalized multi-modal spoken language identification

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131673A1 (en) * 1999-01-07 2005-06-16 Hitachi, Ltd. Speech translation device and computer readable medium
CN103299361A (zh) * 2010-08-05 2013-09-11 谷歌公司 翻译语言
CN104754536A (zh) * 2013-12-27 2015-07-01 中国移动通信集团公司 一种不同语言间实现通信的方法和系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US20080262827A1 (en) * 2007-03-26 2008-10-23 Telestic Llc Real-Time Translation Of Text, Voice And Ideograms
US20100057435A1 (en) * 2008-08-29 2010-03-04 Kent Justin R System and method for speech-to-speech translation
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
US20120010886A1 (en) * 2010-07-06 2012-01-12 Javad Razavilar Language Identification
US9235567B2 (en) * 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
KR102108500B1 (ko) * 2013-02-22 2020-05-08 삼성전자 주식회사 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
US20140365202A1 (en) * 2013-06-11 2014-12-11 Facebook, Inc. Translation and integration of presentation materials in cross-lingual lecture support
US9547641B2 (en) * 2013-09-26 2017-01-17 International Business Machines Corporation Domain specific salient point translation
US9734820B2 (en) * 2013-11-14 2017-08-15 Nuance Communications, Inc. System and method for translating real-time speech using segmentation based on conjunction locations
US20150364129A1 (en) * 2014-06-17 2015-12-17 Google Inc. Language Identification
KR101861006B1 (ko) * 2016-08-18 2018-05-28 주식회사 하이퍼커넥트 통역 장치 및 방법
WO2018055983A1 (ja) * 2016-09-23 2018-03-29 パナソニックIpマネジメント株式会社 翻訳装置、翻訳システム、および評価サーバ
US20180137109A1 (en) * 2016-11-11 2018-05-17 The Charles Stark Draper Laboratory, Inc. Methodology for automatic multilingual speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131673A1 (en) * 1999-01-07 2005-06-16 Hitachi, Ltd. Speech translation device and computer readable medium
CN103299361A (zh) * 2010-08-05 2013-09-11 谷歌公司 翻译语言
CN104754536A (zh) * 2013-12-27 2015-07-01 中国移动通信集团公司 一种不同语言间实现通信的方法和系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459203A (zh) * 2018-05-03 2019-11-15 百度在线网络技术(北京)有限公司 一种智能语音导游方法、装置、设备及存储介质
CN108923810A (zh) * 2018-06-15 2018-11-30 Oppo广东移动通信有限公司 翻译方法及相关设备
CN109165392A (zh) * 2018-08-30 2019-01-08 深圳市有钱科技有限公司 语言翻译方法和装置
CN111126081B (zh) * 2018-10-31 2023-07-21 深圳永德利科技股份有限公司 全球通用语言终端及方法
CN111126081A (zh) * 2018-10-31 2020-05-08 永德利硅橡胶科技(深圳)有限公司 全球通用语言终端及方法
CN109522564A (zh) * 2018-12-17 2019-03-26 北京百度网讯科技有限公司 语音翻译方法和装置
CN109522564B (zh) * 2018-12-17 2022-05-31 北京百度网讯科技有限公司 语音翻译方法和装置
CN111563388A (zh) * 2019-02-14 2020-08-21 阿里巴巴集团控股有限公司 信息处理方法及装置
CN109949793A (zh) * 2019-03-06 2019-06-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110119514A (zh) * 2019-04-02 2019-08-13 杭州灵沃盛智能科技有限公司 信息的即时翻译方法、装置和系统
CN110428805A (zh) * 2019-09-04 2019-11-08 福建省立医院 非普通话与普通话互译方法、装置和设备
CN110659387A (zh) * 2019-09-20 2020-01-07 上海掌门科技有限公司 用于提供视频的方法和设备
CN111245460A (zh) * 2020-03-25 2020-06-05 广州锐格信息技术科技有限公司 一种具有人工智能翻译的无线对讲机
CN111245460B (zh) * 2020-03-25 2020-10-27 广州锐格信息技术科技有限公司 一种具有人工智能翻译的无线对讲机
CN112687271A (zh) * 2020-12-16 2021-04-20 北京百度网讯科技有限公司 语音翻译方法、装置、电子设备和存储介质
CN112687271B (zh) * 2020-12-16 2023-04-11 北京百度网讯科技有限公司 语音翻译方法、装置、电子设备和存储介质
CN113687860A (zh) * 2021-08-20 2021-11-23 北京达佳互联信息技术有限公司 一种动态配置方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20190073358A1 (en) 2019-03-07

Similar Documents

Publication Publication Date Title
CN107515862A (zh) 语音翻译方法、装置及服务器
JP7029613B2 (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
CN108985358B (zh) 情绪识别方法、装置、设备及存储介质
US8972265B1 (en) Multiple voices in audio content
CN107945792A (zh) 语音处理方法和装置
CN108986793A (zh) 翻译处理方法、装置及设备
US20140172411A1 (en) Apparatus and method for verifying context
CN109616096A (zh) 多语种语音解码图的构建方法、装置、服务器和介质
CN107679032A (zh) 语音转换纠错方法和装置
CN109491902A (zh) 交互测试方法、装置及系统
CN109887497A (zh) 语音识别的建模方法、装置及设备
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN109599095A (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
CN104090871A (zh) 图像翻译方法及系统
JP7158217B2 (ja) 音声認識方法、装置及びサーバ
CN109448704A (zh) 语音解码图的构建方法、装置、服务器和存储介质
CN107437413A (zh) 语音播报方法及装置
CN110276023A (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN110211570A (zh) 同声传译处理方法、装置及设备
CN111178056A (zh) 基于深度学习的文案生成方法、装置及电子设备
CN110008476A (zh) 语义解析方法、装置、设备及存储介质
CN106557554A (zh) 基于人工智能的搜索结果的显示方法和装置
CN115223428A (zh) 转换手语
CN107704549A (zh) 语音搜索方法、装置及计算机设备
CN105389021B (zh) 输入框信息的显示方法和显示装置

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination