CN103744843B - 一种在线语音翻译方法及装置 - Google Patents

一种在线语音翻译方法及装置 Download PDF

Info

Publication number
CN103744843B
CN103744843B CN201310728312.XA CN201310728312A CN103744843B CN 103744843 B CN103744843 B CN 103744843B CN 201310728312 A CN201310728312 A CN 201310728312A CN 103744843 B CN103744843 B CN 103744843B
Authority
CN
China
Prior art keywords
information
user
translation
identification information
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310728312.XA
Other languages
English (en)
Other versions
CN103744843A (zh
Inventor
王海峰
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310728312.XA priority Critical patent/CN103744843B/zh
Publication of CN103744843A publication Critical patent/CN103744843A/zh
Priority to JP2016526445A priority patent/JP6484236B2/ja
Priority to KR1020157033318A priority patent/KR101768509B1/ko
Priority to PCT/CN2014/090937 priority patent/WO2015096564A1/zh
Priority to US14/893,008 priority patent/US9910851B2/en
Application granted granted Critical
Publication of CN103744843B publication Critical patent/CN103744843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种在线语音翻译方法及装置,所述方法包括:对第一用户输入的第一语音信息进行语音识别,获得第一识别信息;确定第一识别信息的置信度;根据第一识别信息的置信度提示第一用户对第一识别信息进行确认;对确认的第一识别信息进行翻译,获得第一翻译信息并输出;根据第二用户反馈的第二信息,提取第一翻译信息的关联信息;根据关联信息对第一翻译信息进行修正并输出。通过本发明公开的一种在线语音翻译方法及装置,可以保证在跨语言交流中沟通顺畅。

Description

一种在线语音翻译方法及装置
技术领域
本发明实施例涉及在线翻译技术,尤其涉及一种在线语音翻译方法及装置。
背景技术
随着国际性交流的增加,使用不同语种的语言沟通越来越频繁。为克服语言障碍,基于客户端进行在线语音翻译得到广泛的应用。
在线语音翻译一般涉及两个环节,第一是进行语音识别,即将第一用户输入的第一语种语音识别为文字信息;第二是将文字信息基于翻译语料库进行翻译,再生成第二语种的语音信息或文字信息,提供给第二用户。通过在线语音翻译,可以为使用不同语言的用户双方提供翻译服务,使双方进行顺利沟通。
目前,在在线语音翻译过程中,在语音识别和翻译的过程中都可能会出现错误,导致在跨语言交流中沟通不畅,最终使得跨语言沟通无法进行。
发明内容
本发明提供一种在线语音翻译方法及装置,以实现提高在线语音翻译的准确率,保证沟通顺畅。
一方面,本发明实施例提供了一种在线语音翻译方法,包括:
对第一用户输入的第一语音信息进行语音识别,获得第一识别信息;
提示所述第一用户对所述第一识别信息进行确认;
对确认的所述第一识别信息进行翻译,获得第一翻译信息并输出;
根据第二用户反馈的第二信息,提取第一翻译信息的关联信息;
根据所述关联信息对提取第一翻译信息的关联信息。
优选地,提示所述第一用户对所述第一识别信息进行确认包括:
确定第一识别信息的置信度;
根据所述第一识别信息的置信度提示所述第一用户对所述第一识别信息进行确认。
优选地,所述确定第一识别信息的置信度,包括:
根据当前对话场景中的关键词和/或语言规则,确定所述第一识别信息的置信度。
优选地,所述根据所述第一识别信息的置信度提示所述第一用户对所述第一识别信息进行确认,包括:
如果所述第一识别信息的置信度低于第一预设门限值,将第一识别信息显示供所述第一用户进行确认;或
如果第一识别信息中至少一个关键词的置信度低于第二预设门限值,将所述关键词显示供所述第一用户进行确认。
优选地,所述根据第二用户反馈的第二信息,提取第一翻译信息的关联信息,包括:
将所述第二用户反馈的所述第二信息与所述第一翻译信息,进行关键词相似度匹配,提取匹配的关键词作为第一翻译信息的关联信息。
优选地,所述根据第二用户反馈的第二信息,提取第一翻译信息的关联信息,包括:
根据当前对话场景中的关键词和/或语言规则,从所述第二信息中提取第一翻译信息的关联信息。
优选地,所述方法还包括:
根据所述第一识别信息确定当前对话场景,或根据第一用户已确认的历史识别信息中的关键词识别当前对话场景。
另一方面,本发明实施例还提供了一种在线语音翻译装置,包括:
第一识别信息模块,用于对第一用户输入的第一语音信息进行语音识别,获得第一识别信息;
确认提示模块,用于提示所述第一用户对所述第一识别信息进行确认;
信息翻译模块,用于对确认的所述第一识别信息进行翻译,获得第一翻译信息并输出;
关联信息提取模块,用于根据第二用户反馈的第二信息,提取第一翻译信息的关联信息;
信息修正模块,用于根据所述关联信息对所述第一翻译信息进行修正并输出。
优选地,所述确认提示模块包括:
置信度确定模块,用于确定第一识别信息的置信度;
用户确认模块,用于根据所述第一识别信息的置信度提示所述第一用户对所述第一识别信息进行确认。
优选地,所述置信度确定模块具体用于:根据当前对话场景中的关键词和/或语言规则,确定所述第一识别信息的置信度。
优选地,所述确认提示模块具体用于:
如果所述第一识别信息的置信度低于第一预设门限值,将第一识别信息显示供所述第一用户进行确认;或
如果第一识别信息中至少一个关键词的置信度低于第二预设门限值,将所述关键词显示供所述第一用户进行确认。
优选地,所述关联信息提取模块包括:
关键词匹配子模块,用于将所述第二用户反馈的所述第二信息与所述第一翻译信息,进行关键词相似度匹配,提取匹配的关键词作为第一翻译信息的关联信息。
优选地,所述关联信息提取模块包括:
语言规则子模块,用于根据当前对话场景中的关键词和、或语言规则,从所述第二信息中提取第一翻译信息的关联信息。
优选地,所述装置还包括:
对话场景确定模块,用于根据所述第一识别信息确定当前对话场景,或根据第一用户已确认的历史识别信息中的关键词识别当前对话场景。
本发明实施例通过提示第一用户对第一识别信息识别结果进行确认,避免了识别语音过程中会出现错误,提高了识别信息准确率;并且,通过依据在第二用户反馈的第二信息,提取第一翻译信息的关联信息,对第一翻译信息进行修正并输出,从而提高了跨语言翻译的准确率。
附图说明
图1为本发明实施例一提供的一种在线语音翻译方法的流程图;
图2为本发明实施例二提供的一种在线语音翻译方法的流程图;
图3为本发明实施例三提供的一种在线语音翻译方法的流程图;
图4为本发明实施例四提供的一种在线语音翻译装置的结构示意图;
图5为本发明实施例五提供的一种在线语音翻译装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种在线语音翻译方法的流程图。本实施例可适用于双方跨语言进行语音交流时进行语音识别和翻译的情况,该方法可以由在线语音翻译装置来执行,该装置可以由硬件和/或软件来实现,该装置可以配置在任意终端或网元中。该方法具体包括如下:
S101,对第一用户输入的第一语音信息进行语音识别,获得第一识别信息。
在上述操作中,第一用户和第二用户进行跨语种的语言交流,第一用户可以采用第一语音输入第一语音信息,在线语音翻译装置可以对其进行语音识别,得到第一识别信息。
S102,提示第一用户对第一识别信息进行确认。
在上述操作中,可以将第一识别信息显示在显示屏上,第一用户通过触摸屏、键盘和鼠标等输入设备对第一识别信息进行确认。
该操作可以是获取的第一识别信息全部提示给用户进行确认,但优选是按照设定触发条件,有选择地提供给用户进行确认,优选是:确定第一识别信息的置信度;根据第一识别信息的置信度提示第一用户对第一识别信息进行确认。
置信度可以是表示第一识别信息的正确率,例如与第一用户输入的第一语音信息原意的误差度,第一识别信息的可识别率,与词库中标准词汇的误差度。置信度的确定可以是将第一识别信息在标准词库中进行匹配,以判断正确识别的词汇率是否达到设定限制,或者判断第一识别信息是否满足设定规则,例如语法要求。在实际使用过程中,可以确定全部第一识别信息的置信度;也可以是选取第一识别信息中的至少一个关键词,确定各关键词的置信度。
根据第一识别信息的置信度对用户进行的提示,优选是,如果第一识别信息的置信度低于第一预设门限值,将第一识别信息显示供第一用户进行确认。或者,如果第一识别信息中至少一个关键词的置信度低于第二预设门限值,将关键词显示供第一用户进行确认。
S103,对确认的第一识别信息进行翻译,获得第一翻译信息并输出。
在上述操作中,将第一识别信息由第一用户所使用的语种翻译成为第二用户使用的语种,例如,对中文的第一识别信息进行翻译,获得英文的第一翻译信息。两个用户可以分别使用两个配置有在线语音翻译装置的终端,则第一用户的终端可以通过有线网络或无线网络输出第一翻译信息给第二用户的终端。
S104,根据第二用户反馈的第二信息,提取第一翻译信息的关联信息。
在上述操作中,第二用户反馈的第二信息仍然可以通过终端之间的交互返回给第一用户的终端。第一翻译信息的关联信息是能够矫正第一翻译信息正确性的信息。例如,与第一翻译信息满足设定相似度的单字、词组,或者,与第一翻译信息具备设定逻辑关联的信息,如针对第一翻译信息的反问信息。
获取关联信息的方式,例如可以为:将第二用户反馈的第二信息与第一翻译信息,进行关键词相似度匹配,提取匹配的关键词作为第一翻译信息的关联信息。例如,第一用户说“从北京到天津怎么走?”,若第二用户反问“去哪”,就说明此处对天津的翻译可能有误,使得第二用户无法理解,则通过将第二信息“去哪”与第一翻译信息“从北京到天津怎么走?”进行相似度匹配,获取第二用户更为关注的信息,作为需纠正的信息。
S105,根据关联信息对第一翻译信息进行修正并输出。
在上述操作中,可以对全部第一翻译信息进行修正并输出,确保不会遗漏信息。也可以将第一翻译信息中的一部分进行修正并输出,例如,其中的一些关键词,相对于翻译一段信息而言,翻译关键词的准确率较高,从而可以提高修正的正确率。而且处理部分字或者词的数据处理量较小,可以提高对第一翻译信息进行修正并输出的效率。具体的可以通过有线网络或者无线网络向第二用户进行输出。本操作中,无需再将第一翻译信息显示给第一用户进行确认,而是可以由装置自动完成翻译信息的修正,提高了翻译的准确性。
本实施例公开的在线语音翻译方法,通过提示第一用户对第一识别信息识别结果进行确认,避免了识别语音过程中会出现错误,提高了识别信息准确率;并且,通过依据在第二用户反馈的第二信息,提取第一翻译信息的关联信息,对第一翻译信息进行修正并输出,从而提高了跨语言翻译的准确率。
实施例二
图2为本发明实施例二提供的一种在线语音翻译方法的流程图。在实际双方交流的过程中,对话内容是基于一定的对话场景以及对话规则产生的。所以,本发明实施例二在本发明实施例一的基础上,基于对话场景及对话规则对在线语音翻译过程进行优化,本实施例提供的一种在线语音翻译方法,包括:
S201,对第一用户输入的第一语音信息进行语音识别,获得第一识别信息。
S202,根据第一识别信息确定当前对话场景,或根据第一用户已确认的历史识别信息中的关键词识别当前对话场景;
在上述操作中,可以预先设定一些对话场景,及其确定规则。例如,娱乐信息场景、商务会谈场景、学术讨论场景、火车站交谈场景、飞机场交谈场景等。可以根据第一识别信息中的关键词确定当前对话场景,例如关键词为景点地名时,确定当前对话场景为旅游场景。也可以根据第一用户在预设时间段内确认的历史识别信息中的关键词识别当前对话场景。在第一用户对第一识别信息进行确认之前确认的信息为历史识别信息。当然,对话场景也可以由用户进行选择。
S203,根据当前对话场景中的关键词和/或语言规则,确定第一识别信息的置信度。
在上述操作中,当前对话场景中关键词是在该场景下的常用词汇,或是该场景下的罕见词汇。所以,可以将第一识别信息与当前对话场景的关键词进行比对。根据所包括的常用词汇和/或罕见词汇的概率确定置信度。语言规则可以是语法规则,语言规则可以包括但不限于时间、地点、人物和事件。
S204,根据第一识别信息的置信度提示第一用户对第一识别信息进行确认。
在上述操作中,可以通过视觉方式提示第一用户对第一识别信息进行确认,例如在显示界面上弹出窗口和显示确定键等方式,也可以通过听觉方式提示第一用户对第一识别信息进行确认,例如播放提示语音信息。
S205,对确认的第一识别信息进行翻译,获得第一翻译信息并输出。
S206,根据当前对话场景中的关键词和/或语言规则,从第二信息中提取第一翻译信息的关联信息。
S207,根据关联信息对提取第一翻译信息的关联信息。
通过本实施例二公开的在线语音翻译方法,增加了对话的场景管理,进一步优化了置信度确定和关联信息确定的准确率。
实施例三
图3为本发明实施例三提供的一种在线语音翻译方法的流程图。基于本发明前述提供的实施例,本实施例提供一种在线语音翻译方法的优选实施方案,以第一用户为中文用户,第二用户为法文用户进行举例说明。该方法包括:
S301、第一用户使用中文通过麦克风输入“今天下午从尼斯去巴黎的火车票”,作为第一语音信息,对其进行语音识别,得到第一识别信息,由于口音、环境噪声等多方面原因,识别信息可能为“京天下午从14去巴黎的火车票”。
S302、确定“京天下午从14去巴黎的火车票”置信度,若置信度低于设定门限值,则执行S303,否则继续执行S305。
由于在“京天下午从14去巴黎的火车票”中出现“下午”、“巴黎”和“火车票”,按照常规语法规则推断应为从一地去另一地的语法规则,“京天”既不是时间名词也不是地址名词,在“从14去巴黎”这一表达出发地和目的地的语法规则中,“14”也不是地址细腻,因此,“京天”和“14”的置信度较低,应执行S303。
S303、将“京天下午从14去巴黎的火车票”以文字的方式显示于显示屏上,提示第一用户进行确认。
S304、用户选择删除并重新输入,返回执行S301。
直至得到置信度较高的第一识别信息为“今天下午从尼斯去巴黎的火车票”。
S305、将第一识别信息“今天下午从尼斯去巴黎的火车票”翻译为法语“今天下午从你斯去巴黎的火车票”,即第一翻译信息,输出给第二用户;
此处可能会由于词汇的生僻或者有多种语义,而导致翻译信息有误。
S306、接收第二用户输入的法语反馈信息,将反馈信息翻译成中文,反馈的信息为“你从哪里去巴黎”,作为第二信息;
可以直接将法语反馈信息作为第二信息,也可以将其翻译成中文后作为第二信息。
S307、根据语言规则,从第二信息中提取第一翻译信息的关联信息。
本实例中,第二信息为“你从哪里去巴黎”,基于语言规则识别出是在询问出发地点,而第一识别信息中“今天下午从尼斯去巴黎的火车票”中,“从尼斯去巴黎”按照常规语法可反映出发地和目的地,据此,提取出“尼斯”作为关联信息。
S308、根据关联信息修正第一翻译信息,并输出给第二用户。
依据关联信息“尼斯”将第一翻译信息修正为法语的“尼斯”,并输出给第二用户。通常情况下,翻译系统对单个词和短语的翻译相对于语句的翻译会比较准确,因此能在一定程度上降低翻译错误概率。
本实施例三的技术方案,可以避免向第二用户方输出“京天”的翻译结果,造成双方沟通不顺畅,而且可以修正对“尼斯”的翻译结果并重新输出,保证了跨语言双方的沟通顺畅。
实施例四
图4为本发明实施例四提供的一种在线语音翻译装置的结构示意图。本实施例可适用于双方跨语言进行语音交流时进行语音识别和翻译的情况,该装置可以配置在任意终端或网元中。该装置具体包括:
第一识别信息模块41、确认提示模块42、信息翻译模块43、关联信息提取模块44和信息修正模块45。
第一识别信息模块41,用于对第一用户输入的第一语音信息进行语音识别,获得第一识别信息;确认提示模块42,用于提示第一用户对第一识别信息进行确认;信息翻译模块43,用于对确认的第一识别信息进行翻译,获得第一翻译信息并输出;关联信息提取模块44,用于根据第二用户反馈的第二信息,提取第一翻译信息的关联信息;信息修正模块45,用于根据关联信息对第一翻译信息进行修正并输出。
在第一识别信息模块41中,第一用户和第二用户进行跨语种的语言交流,第一用户可以采用第一语音输入第一语音信息,在线语音翻译装置可以对其进行语音识别,得到第一识别信息。
在确认提示模块42中,可以将第一识别信息显示在显示屏上,第一用户通过触摸屏、键盘和鼠标等输入设备对第一识别信息进行确认。
可以是获取的第一识别信息全部提示给用户进行确认,但优选是按照设定触发条件,有选择地提供给用户进行确认。
确认提示模块42包括置信度确定模块421和用户确认模块422。
置信度确定模块421,用于确定第一识别信息的置信度;
用户确认模块422,用于根据第一识别信息的置信度提示第一用户对第一识别信息进行确认。
在置信度确定模块421中,置信度可以是表示第一识别信息的正确率,例如与第一用户输入的第一语音信息原意的误差度,第一识别信息的可识别率,与词库中标准词汇的误差度。置信度的确定可以是将第一识别信息在标准词库中进行匹配,以判断正确识别的词汇率是否达到设定限制,或者判断第一识别信息是否满足设定规则,例如语法要求。在实际使用过程中,可以确定全部第一识别信息的置信度;也可以是选取第一识别信息中的至少一个关键词,确定各关键词的置信度。
在用户确认模块422中,根据第一识别信息的置信度对用户进行的提示,优选是,如果第一识别信息的置信度低于第一预设门限值,将第一识别信息显示供第一用户进行确认。或者,如果第一识别信息中至少一个关键词的置信度低于第二预设门限值,将关键词显示供第一用户进行确认。
在信息翻译模块43中,将第一识别信息由第一用户所使用的语种翻译成为第二用户使用的语种,例如,对中文的第一识别信息进行翻译,获得英文的第一翻译信息。两个用户可以分别使用两个配置有在线语音翻译装置的终端,则第一用户的终端可以通过有线网络或无线网络输出第一翻译信息给第二用户的终端。
在关联信息提取模块44中,第二用户反馈的第二信息仍然可以通过终端之间的交互返回给第一用户的终端。第一翻译信息的关联信息是能够矫正第一翻译信息正确性的信息。例如,与第一翻译信息满足设定相似度的单字、词组,或者,与第一翻译信息具备设定逻辑关联的信息,如针对第一翻译信息的反问信息。
在关联信息提取模块44中,包括关键词匹配子模块441,用于将第二用户反馈的第二信息与第一翻译信息,进行关键词相似度匹配,提取匹配的关键词作为第一翻译信息的关联信息。例如,第一用户说“从北京到天津怎么走?”,若第二用户反问“去哪”,就说明此处对天津的翻译可能有误,使得第二用户无法理解,则通过将第二信息“去哪”与第一翻译信息“从北京到天津怎么走?”进行相似度匹配,获取第二用户更为关注的信息,作为需纠正的信息。
在信息修正模块45中,可以对全部第一翻译信息进行修正并输出,确保不会遗漏信息。也可以将第一翻译信息中的一部分进行修正并输出,例如,其中的一些关键词,相对于翻译一段信息而言,翻译关键词的准确率较高,从而可以提高修正的正确率。而且处理部分字或者词的数据处理量较小,可以提高对第一翻译信息进行修正并输出的效率。具体的可以通过有线网络或者无线网络向第二用户进行输出。从而,无需再将第一翻译信息显示给第一用户进行确认,而是可以由装置自动完成翻译信息的修正,提高了翻译的准确性。
本实施例四公开的在线语音翻译装置,通过提示第一用户对第一识别信息识别结果进行确认,避免了识别语音过程中会出现错误,提高了识别信息准确率;并且,通过依据在第二用户反馈的第二信息,提取第一翻译信息的关联信息,对第一翻译信息进行修正并输出,从而提高了跨语言翻译的准确率。
实施例五
图5为本发明实施例五提供的一种在线语音翻译装置的结构示意图。在实际双方交流的过程中,对话内容是基于一定的对话场景以及对话规则产生的。所以,本发明实施例五在本发明实施例四的基础上,基于对话场景及对话规则对在线语音翻译过程进行优化,本实施例提供的一种在线语音翻译装置,包括:
第一识别信息模块51、对话场景确定模块52、置信度确定模块53、用户确认模块54、信息翻译模块55、语言规则子模块56和信息修正模块57。
第一识别信息模块51,用于对第一用户输入的第一语音信息进行语音识别,获得第一识别信息;对话场景确定模块52,用于根据第一识别信息确定当前对话场景,或根据第一用户已确认的历史识别信息中的关键词识别当前对话场景;置信度确定模块53,用于确定第一识别信息的置信度;用户确认模块54,用于根据第一识别信息的置信度提示第一用户对第一识别信息进行确认;信息翻译模块55,用于对确认的第一识别信息进行翻译,获得第一翻译信息并输出;语言规则子模块56,用于根据当前对话场景中的关键词和、或语言规则,从第二信息中提取第一翻译信息的关联信息;信息修正模块57,用于根据关联信息对第一翻译信息进行修正并输出。
在对话场景确定模块52中,可以预先设定一些对话场景,及其确定规则。例如,娱乐信息场景、商务会谈场景、学术讨论场景、火车站交谈场景、飞机场交谈场景等。可以根据第一识别信息中的关键词确定当前对话场景,例如关键词为景点地名时,确定当前对话场景为旅游场景。也可以根据第一用户在预设时间段内确认的历史识别信息中的关键词识别当前对话场景。在第一用户对第一识别信息进行确认之前确认的信息为历史识别信息。当然,对话场景也可以由用户进行选择。
在置信度确定模块53中,当前对话场景中关键词是在该场景下的常用词汇,或是该场景下的罕见词汇。所以,可以将第一识别信息与当前对话场景的关键词进行比对。根据所包括的常用词汇和/或罕见词汇的概率确定置信度。语言规则可以是语法规则,语言规则可以包括但不限于时间、地点、人物和事件。
在用户确认模块54中,可以通过视觉方式提示第一用户对第一识别信息进行确认,例如在显示界面上弹出窗口和显示确定键等方式,也可以通过听觉方式提示第一用户对第一识别信息进行确认,例如播放提示语音信息。
通过本实施例五公开的在线语音翻译装置,增加了对话的场景管理,进一步优化了置信度确定和关联信息确定的准确率。
上述在线语音翻译装置可执行本发明任意实施例所提供的在线语音翻译方法,具备相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种在线语音翻译方法,其特征在于,包括:
对第一用户输入的第一语音信息进行语音识别,获得第一识别信息;
提示所述第一用户对所述第一识别信息进行确认;
对确认的所述第一识别信息进行翻译,获得第一翻译信息并输出;
根据第二用户反馈的第二信息,提取第一翻译信息的关联信息;
根据所述关联信息对所述第一翻译信息进行修正并输出。
2.根据权利要求1所述的方法,其特征在于,提示所述第一用户对所述第一识别信息进行确认包括:
确定第一识别信息的置信度;
根据所述第一识别信息的置信度提示所述第一用户对所述第一识别信息进行确认。
3.根据权利要求2所述的方法,其特征在于,所述确定第一识别信息的置信度,包括:
根据当前对话场景中的关键词和/或语言规则,确定所述第一识别信息的置信度。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一识别信息的置信度提示所述第一用户对所述第一识别信息进行确认,包括:
如果所述第一识别信息的置信度低于第一预设门限值,将第一识别信息显示供所述第一用户进行确认;或
如果第一识别信息中至少一个关键词的置信度低于第二预设门限值,将所述关键词显示供所述第一用户进行确认。
5.根据权利要求1所述的方法,其特征在于,所述根据第二用户反馈的第二信息,提取第一翻译信息的关联信息,包括:
将所述第二用户反馈的所述第二信息与所述第一翻译信息,进行关键词相似度匹配,提取匹配的关键词作为第一翻译信息的关联信息。
6.根据权利要求1所述的方法,其特征在于,所述根据第二用户反馈的第二信息,提取第一翻译信息的关联信息,包括:
根据当前对话场景中的关键词和/或语言规则,从所述第二信息中提取第一翻译信息的关联信息。
7.根据权利要求3或6所述的方法,其特征在于,还包括:
根据所述第一识别信息确定当前对话场景,或根据第一用户已确认的历史识别信息中的关键词识别当前对话场景。
8.一种在线语音翻译装置,其特征在于,包括:
第一识别信息模块,用于对第一用户输入的第一语音信息进行语音识别,获得第一识别信息;
确认提示模块,用于提示所述第一用户对所述第一识别信息进行确认;
信息翻译模块,用于对确认的所述第一识别信息进行翻译,获得第一翻译信息并输出;
关联信息提取模块,用于根据第二用户反馈的第二信息,提取第一翻译信息的关联信息;
信息修正模块,用于根据所述关联信息对所述第一翻译信息进行修正并输出。
9.根据权利要求8所述的装置,其特征在于,所述确认提示模块包括:
置信度确定模块,用于确定第一识别信息的置信度;
用户确认模块,用于根据所述第一识别信息的置信度提示所述第一用户对所述第一识别信息进行确认。
10.根据权利要求9所述的装置,其特征在于,所述置信度确定模块具体用于:根据当前对话场景中的关键词和/或语言规则,确定所述第一识别信息的置信度。
11.根据权利要求8所述的装置,其特征在于,所述确认提示模块具体用于:
如果所述第一识别信息的置信度低于第一预设门限值,将第一识别信息显示供所述第一用户进行确认;或
如果第一识别信息中至少一个关键词的置信度低于第二预设门限值,将所述关键词显示供所述第一用户进行确认。
12.根据权利要求8所述的装置,其特征在于,所述关联信息提取模块包括:
关键词匹配子模块,用于将所述第二用户反馈的所述第二信息与所述第一翻译信息,进行关键词相似度匹配,提取匹配的关键词作为第一翻译信息的关联信息。
13.根据权利要求8所述的装置,其特征在于,所述关联信息提取模块包括:
语言规则子模块,用于根据当前对话场景中的关键词和、或语言规则,从所述第二信息中提取第一翻译信息的关联信息。
14.根据权利要求8或13所述的装置,其特征在于,还包括:
对话场景确定模块,用于根据所述第一识别信息确定当前对话场景,或根据第一用户已确认的历史识别信息中的关键词识别当前对话场景。
CN201310728312.XA 2013-12-25 2013-12-25 一种在线语音翻译方法及装置 Active CN103744843B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201310728312.XA CN103744843B (zh) 2013-12-25 2013-12-25 一种在线语音翻译方法及装置
JP2016526445A JP6484236B2 (ja) 2013-12-25 2014-11-12 オンライン音声翻訳方法及び装置
KR1020157033318A KR101768509B1 (ko) 2013-12-25 2014-11-12 온라인 음성 번역 방법 및 장치
PCT/CN2014/090937 WO2015096564A1 (zh) 2013-12-25 2014-11-12 一种在线语音翻译方法和装置
US14/893,008 US9910851B2 (en) 2013-12-25 2014-11-12 On-line voice translation method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310728312.XA CN103744843B (zh) 2013-12-25 2013-12-25 一种在线语音翻译方法及装置

Publications (2)

Publication Number Publication Date
CN103744843A CN103744843A (zh) 2014-04-23
CN103744843B true CN103744843B (zh) 2017-01-04

Family

ID=50501861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310728312.XA Active CN103744843B (zh) 2013-12-25 2013-12-25 一种在线语音翻译方法及装置

Country Status (5)

Country Link
US (1) US9910851B2 (zh)
JP (1) JP6484236B2 (zh)
KR (1) KR101768509B1 (zh)
CN (1) CN103744843B (zh)
WO (1) WO2015096564A1 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744843B (zh) * 2013-12-25 2017-01-04 北京百度网讯科技有限公司 一种在线语音翻译方法及装置
US9501264B2 (en) * 2014-09-04 2016-11-22 Tg Llc User corrections in translation
CN104991892B (zh) * 2015-07-09 2018-10-23 百度在线网络技术(北京)有限公司 语音翻译方法和装置
US10394963B2 (en) * 2015-10-22 2019-08-27 International Business Machines Corporation Natural language processor for providing natural language signals in a natural language output
CN107291702A (zh) * 2016-04-12 2017-10-24 阿里巴巴集团控股有限公司 一种进行翻译的方法和系统
CN106020825A (zh) * 2016-05-20 2016-10-12 珠海市魅族科技有限公司 一种信息展示方法以及移动终端
CN106663128A (zh) * 2016-06-29 2017-05-10 深圳狗尾草智能科技有限公司 一种聊天对话系统的扩充学习方法及聊天对话系统
KR102637337B1 (ko) * 2016-12-09 2024-02-16 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법
CN107315742A (zh) * 2017-07-03 2017-11-03 中国科学院自动化研究所 具有人机对话功能的拟人化口语翻译方法及系统
CN107609092B (zh) * 2017-09-08 2021-03-09 北京百度网讯科技有限公司 智能应答方法和装置
WO2019090781A1 (zh) * 2017-11-13 2019-05-16 深圳市沃特沃德股份有限公司 语言翻译方法、装置和翻译设备
CN107885734B (zh) * 2017-11-13 2021-07-20 深圳市沃特沃德股份有限公司 语言翻译方法和装置
CN108228574B (zh) * 2017-12-07 2020-07-28 科大讯飞股份有限公司 文本翻译处理方法及装置
CN108304389B (zh) * 2017-12-07 2021-06-08 科大讯飞股份有限公司 交互式语音翻译方法及装置
US20190221208A1 (en) * 2018-01-12 2019-07-18 Kika Tech (Cayman) Holdings Co., Limited Method, user interface, and device for audio-based emoji input
CN110209774B (zh) * 2018-02-11 2024-09-20 北京三星通信技术研究有限公司 处理会话信息的方法、装置及终端设备
JP6678764B1 (ja) 2018-03-07 2020-04-08 グーグル エルエルシー 多言語での自動化されたアシスタントを用いたエンドツーエンドコミュニケーションの促進
US11354521B2 (en) 2018-03-07 2022-06-07 Google Llc Facilitating communications with automated assistants in multiple languages
CN108710616A (zh) * 2018-05-23 2018-10-26 科大讯飞股份有限公司 一种语音翻译方法及装置
CN109166594A (zh) * 2018-07-24 2019-01-08 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN118711577A (zh) 2018-12-14 2024-09-27 谷歌有限责任公司 用于联网系统的基于语音的接口
CN111081245A (zh) * 2019-12-24 2020-04-28 杭州纪元通信设备有限公司 一种基于语音识别的呼叫中心的菜单系统
CN111581373B (zh) * 2020-05-11 2021-06-01 武林强 基于对话的语言自助学习方法及系统
FR3111467B1 (fr) * 2020-06-16 2023-11-17 Sncf Reseau Procédé de communication parlée entre agents ferroviaires
CN111752437B (zh) * 2020-06-29 2021-07-16 上海寻梦信息技术有限公司 评论方法、装置、电子设备及存储介质
CN112150866A (zh) * 2020-09-04 2020-12-29 温州职业技术学院 一种多语言文化互动交流系统
CN112489649B (zh) * 2020-11-25 2024-10-18 上海世茂物联网科技有限公司 一种无线语音控制装置、系统及方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US6345253B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Method and apparatus for retrieving audio information using primary and supplemental indexes
JP2001101187A (ja) * 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US7177798B2 (en) * 2000-04-07 2007-02-13 Rensselaer Polytechnic Institute Natural language interface using constrained intermediate dictionary of results
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
JP4042360B2 (ja) * 2001-07-18 2008-02-06 日本電気株式会社 自動通訳システム及びその方法並びにプログラム
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
KR20050052943A (ko) 2003-12-01 2005-06-07 한국전자통신연구원 여행자용 키워드 기반 음성번역 시스템 및 그 방법
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
WO2007070558A2 (en) * 2005-12-12 2007-06-21 Meadan, Inc. Language translation using a hybrid network of human and machine translators
JP4786384B2 (ja) * 2006-03-27 2011-10-05 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
US20090192782A1 (en) * 2008-01-28 2009-07-30 William Drewes Method for increasing the accuracy of statistical machine translation (SMT)
CN102055855A (zh) 2009-11-02 2011-05-11 万国通翻译(北京)有限公司 一种基于多种通信平台的即时语音翻译系统
JP5014449B2 (ja) * 2010-02-26 2012-08-29 シャープ株式会社 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム
US8165878B2 (en) * 2010-04-26 2012-04-24 Cyberpulse L.L.C. System and methods for matching an utterance to a template hierarchy
CN101937431A (zh) * 2010-08-18 2011-01-05 华南理工大学 情感语音翻译装置及处理方法
CN102467908B (zh) * 2010-11-17 2016-01-06 英业达股份有限公司 多语语音控制系统及其方法
JP2012203066A (ja) * 2011-03-24 2012-10-22 Toshiba Corp 音声認識装置及び音声認識処理方法
US9218339B2 (en) * 2011-11-29 2015-12-22 Educational Testing Service Computer-implemented systems and methods for content scoring of spoken responses
US9257115B2 (en) 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
US8983840B2 (en) * 2012-06-19 2015-03-17 International Business Machines Corporation Intent discovery in audio or text-based conversation
US9710463B2 (en) * 2012-12-06 2017-07-18 Raytheon Bbn Technologies Corp. Active error detection and resolution for linguistic translation
US20140222435A1 (en) * 2013-02-01 2014-08-07 Telenav, Inc. Navigation system with user dependent language mechanism and method of operation thereof
US8694305B1 (en) * 2013-03-15 2014-04-08 Ask Ziggy, Inc. Natural language processing (NLP) portal for third party applications
US9594542B2 (en) * 2013-06-20 2017-03-14 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on training by third-party developers
CN103744843B (zh) * 2013-12-25 2017-01-04 北京百度网讯科技有限公司 一种在线语音翻译方法及装置
US10191999B2 (en) * 2014-04-30 2019-01-29 Microsoft Technology Licensing, Llc Transferring information across language understanding model domains
US9947320B2 (en) * 2014-11-12 2018-04-17 Nice-Systems Ltd Script compliance in spoken documents based on number of words between key terms

Also Published As

Publication number Publication date
JP2016529603A (ja) 2016-09-23
US9910851B2 (en) 2018-03-06
US20160147744A1 (en) 2016-05-26
JP6484236B2 (ja) 2019-03-13
CN103744843A (zh) 2014-04-23
KR101768509B1 (ko) 2017-08-17
KR20160015218A (ko) 2016-02-12
WO2015096564A1 (zh) 2015-07-02

Similar Documents

Publication Publication Date Title
CN103744843B (zh) 一种在线语音翻译方法及装置
JP6675463B2 (ja) 自然言語の双方向確率的な書換えおよび選択
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
Li et al. Code-switch language model with inversion constraints for mixed language speech recognition
US8364487B2 (en) Speech recognition system with display information
CN111177324B (zh) 基于语音识别结果进行意图分类的方法和装置
CN110517668B (zh) 一种中英文混合语音识别系统及方法
CN108228574B (zh) 文本翻译处理方法及装置
WO2016125031A1 (en) Modifying a tokenizer based on pseudo data for natural language processing
KR20150085145A (ko) 사용자 반응 기반 통역 시스템 및 그 방법
CN111916062B (zh) 语音识别方法、装置和系统
CN103177721A (zh) 语音识别方法和系统
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN108074577A (zh) 身份认证方法及身份认证系统
US20190005950A1 (en) Intention estimation device and intention estimation method
Hori et al. Statistical dialog management applied to WFST-based dialog systems
CN113268981A (zh) 一种信息处理方法、装置及电子设备
CN105323392A (zh) 一种快速进入ivr菜单的方法及装置
CN108304389B (zh) 交互式语音翻译方法及装置
CN113470625A (zh) 语音对话处理方法、装置、设备及存储介质
KR20110065916A (ko) 통역오류 정정 및 오류 자동추출 절차를 수행하는 통역시스템
López-Cózar et al. Combining language models in the input interface of a spoken dialogue system
KR20210068790A (ko) 수화통역 시스템
CN112002325B (zh) 多语种语音交互方法和装置
CN109035896B (zh) 一种口语训练方法及学习设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant