CN108228574B - 文本翻译处理方法及装置 - Google Patents

文本翻译处理方法及装置 Download PDF

Info

Publication number
CN108228574B
CN108228574B CN201711288979.7A CN201711288979A CN108228574B CN 108228574 B CN108228574 B CN 108228574B CN 201711288979 A CN201711288979 A CN 201711288979A CN 108228574 B CN108228574 B CN 108228574B
Authority
CN
China
Prior art keywords
text
recognition
translation
key
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711288979.7A
Other languages
English (en)
Other versions
CN108228574A (zh
Inventor
刘俊华
孟廷
魏思
胡国平
柳林
王建社
方昕
李永超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201711288979.7A priority Critical patent/CN108228574B/zh
Publication of CN108228574A publication Critical patent/CN108228574A/zh
Application granted granted Critical
Publication of CN108228574B publication Critical patent/CN108228574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种文本翻译处理方法及装置,属于语言处理技术领域。该方法包括:若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值,则对第一目标语言文本进行翻译,得到第二识别文本;若第一识别文本与第二识别文本之间语义不等价,获取关键名词及关键名词的类型;基于关键名词的类型对关键名词进行翻译,得到第一翻译结果,对第一识别文本中除关键名词之外的其它内容进行翻译,得到第二翻译结果,将第一翻译结果与第二翻译结果进行合并得到第二目标语言文本。由于可将第一识别文本中的关键名词作为一个整体分词,按照关键名词类型对关键名词进行翻译,从而可使得翻译结果更加准确。

Description

文本翻译处理方法及装置
技术领域
本发明实施例涉及语言处理技术领域,更具体地,涉及一种文本 翻译处理方法及装置。
背景技术
语言沟通成为不同语言种族群体相互交流面临的一个重要课题。 传统语言服务行业采用人工陪同口译、交替口译以及同声传译等解决 语言沟通障碍问题,但受限于人力不足以及成本限制,无法满足普通 人对不同语言沟通交流的需求。语音翻译技术的发展对传统语言口译 服务行业做出了有益补充,为普通人日常沟通交流提供了另一条途径, 并在成本、时效性等方面更具优势。
语音翻译过程一般由三部分组成,分别是语音识别、机器翻译和 语音合成。语音翻译时通常采用翻译结果单向传递模式,也即当语音 识别或者机器翻译出错时,会引发错误信息的传递。尤其是对于一些 人名、地名及机构名,由于这些实体名词大都属于稀有词汇,在语音 识别和机器翻译的训练语料中出现比例较少,甚至从未出现过,从而 在识别和翻译过程中比较容易出错,影响了在实际应用中语音翻译的 效果。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至 少部分地解决上述问题的文本翻译处理方法及装置。
根据本发明实施例的第一方面,提供了一种文本翻译处理方法, 该方法包括:
若第一识别文本的识别置信度大于第一预设阈值且第一目标语言 文本的翻译置信度不大于第二预设阈值,则对第一目标语言文本进行 翻译,得到第二识别文本,第一识别文本与第二识别文本对应相同的 语种,第一目标语言文本由第一识别文本经过翻译后得到;
若第一识别文本与第二识别文本之间语义不等价,获取关键名词 及关键名词的类型,第一识别文本中包含关键名词;
基于关键名词的类型对关键名词进行翻译,得到第一翻译结果, 对第一识别文本中除关键名词之外的其它内容进行翻译,得到第二翻 译结果,将第一翻译结果与第二翻译结果进行合并得到第二目标语言 文本。
本发明实施例提供的方法,通过在第一识别文本的识别置信度大 于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈 值时,对第一目标语言文本进行翻译,得到第二识别文本。若第一识 别文本与第二识别文本之间语义不等价,获取关键名词及关键名词的 类型。基于关键名词的类型对关键名词进行翻译,得到第一翻译结果, 对第一识别文本中除关键名词之外的其它内容进行翻译,得到第二翻 译结果,将第一翻译结果与第二翻译结果进行合并得到第二目标语言 文本。由于在识别正确而翻译错误的情况下,可对第一目标语言文本 进行反向翻译得到第二识别文本,在第一识别文本与第二识别文本之 间语义不等价的情况下,可将第一识别文本中的关键名词作为一个整 体分词,并按照关键名词的类型对关键名词进行翻译,从而可使得翻 译结果更加准确。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方 式中,获取关键名词及关键名词的类型之前,还包括:
分别将第一识别文本及第二识别文本进行向量化,得到第一词向 量序列以及第二词向量序列,并计算第一词向量序列与第二词向量序 列之间的距离;
若第一词向量序列与第二词向量序列之间的距离不小于第三预设 阈值,则确定第一识别文本与第二识别文本之间语义不等价。
结合第一方面的第一种可能的实现方式,在第三种可能的实现方 式中,基于关键名词的类型对关键名词进行翻译,得到第一翻译结果, 包括:
根据关键名词的类型确定对应的占位符,将占位符转化成翻译后 的目标语言名词,并作为第一翻译结果。
结合第一方面的第一种可能的实现方式,在第四种可能的实现方 式中,获取关键名词及关键名词的类型,包括:
获取关键文本,对关键文本进行语义解析,得到关键文本中的关 键名词以及每一关键名词的类型。
结合第一方面的第一种可能的实现方式,在第五种可能的实现方 式中,对第一目标语言文本进行翻译,得到第二识别文本之后,还包 括:
若第一识别文本与第二识别文本之间语义不等价,则获取第三识 别文本,并基于第三识别文本,重新执行文本翻译处理流程;其中, 第三识别文本为重新输入的语音信号对应的识别文本,第一识别文本 与第三识别文本之间文本数据不同且语义等价。
结合第一方面的第一种可能的实现方式,在第六种可能的实现方 式中,该方法还包括:
若第一识别文本的识别置信度不大于第一预设阈值且检测到第一 识别文本的确认无误指令,则将第一识别文本的识别置信度重置为识 别置信度的最大取值,并重新执行文本翻译处理流程;
若第一识别文本的识别置信度不大于第一预设阈值且检测到第一 识别文本的确认有误指令,获取文本修改指令,根据文本修改指令对 第一识别文本进行修改,并重新执行文本翻译处理流程。
结合第一方面的第一种可能的实现方式,在第七种可能的实现方 式中,对第一目标语言文本进行翻译,得到第二识别文本之前,还包 括:
根据第一识别文本中每一分词出现的后验概率以及分词数量,计 算第一识别文本的识别置信度;
根据第一目标语言文本中每一目标分词出现的翻译概率以及目标 分词数量,计算第一目标语言文本的翻译置信度。
根据本发明实施例的第二方面,提供了一种文本翻译处理装置, 该装置包括:
第一翻译模块,用于当第一识别文本的识别置信度大于第一预设 阈值且第一目标语言文本的翻译置信度不大于第二预设阈值时,则对 第一目标语言文本进行翻译,得到第二识别文本,第一识别文本与第 二识别文本对应相同的语种,第一目标语言文本由第一识别文本经过 翻译后得到;
获取模块,用于当第一识别文本与第二识别文本之间语义不等价 时,获取关键名词及关键名词的类型,第一识别文本中包含关键名词;
第二翻译模块,用于基于关键名词的类型对关键名词进行翻译, 得到第一翻译结果,对第一识别文本中除关键名词之外的其它内容进 行翻译,得到第二翻译结果,将第一翻译结果与第二翻译结果进行合 并得到第二目标语言文本。
根据本发明实施例的第三方面,提供了一种文本翻译处理设备, 包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令 能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所 提供的文本翻译处理方法。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介 质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算 机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提 供的文本翻译处理方法。
应当理解的是,以上的一般描述和后文的细节描述是示例性和解 释性的,并不能限制本发明实施例。
附图说明
图1为本发明实施例的一种文本翻译处理方法的流程示意图;
图2为本发明实施例的一种语音翻译过程示意图;
图3为本发明实施例的一种文本翻译处理方法的流程示意图;
图4为本发明实施例的一种文本翻译处理方法的流程示意图;
图5为本发明实施例的一种文本翻译处理装置的框图;
图6为本发明实施例的一种文本翻译处理设备的框图。
具体实施方式
下面结合附图和实施例,对本发明实施例的具体实施方式作进一 步详细描述。以下实施例用于说明本发明实施例,但不用来限制本发 明实施例的范围。
语言沟通成为不同语言种族群体相互交流面临的一个重要课题。 传统语言服务行业采用人工陪同口译、交替口译以及同声传译等解决 语言沟通障碍问题,但受限于人力不足以及成本限制,无法满足普通 人对不同语言沟通交流的需求。语音翻译技术的发展对传统语言口译 服务行业做出了有益的补充,为普通人日常沟通交流提供了另一条途 径,并在成本、时效性等方面更具优势。
语音翻译是指将源语言的语音信号自动翻译成目标语言的语音信 号的过程。语音翻译一般包括语音识别、机器翻译和语音合成三个主 要组成部分。具体地,在给定源语言的语音信号时,首先通过语音识 别系统得到源语言的识别文本,其次通过机器翻译系统将识别文本翻 译成目标语言文本,最后通过语音合成系统将目标语言文本合成为目 标语言的语音信号。语音翻译时通常采用翻译结果单向传递模式,也 即当语音识别或者机器翻译出错时,会引发错误信息的传递。尤其是 对于一些人名、地名及机构名,由于这些实体名词大都属于稀有词汇, 在语音识别和机器翻译的训练语料中出现比例较少,甚至从未出现过, 从而在识别和翻译过程中比较容易出错,影响了在实际应用中语音翻 译的效果。另外,在目前的人工翻译过程中,通常是由翻译人员进行 多轮沟通以翻译上述实体名词,翻译效率也不高。
针对上述情形,本发明实施例提供了一种文本翻译处理方法。该 方法可用于语音翻译场景,即先通过语音识别得到识别文本,再对识 别文本进行翻译得到目标语言文本。当然,还可直接应用于文本翻译 场景,本发明实施例对此不作具体限定。参见图1,该方法包括:101、 若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本 的翻译置信度不大于第二预设阈值,则对第一目标语言文本进行翻译, 得到第二识别文本,第一识别文本与第二识别文本对应相同的语种, 第一目标语言文本由第一识别文本经过翻译后得到;102、若第一识别 文本与第二识别文本之间语义不等价,获取关键名词及关键名词的类 型,第一识别文本中包含关键名词;103、基于关键名词的类型对关键 名词进行翻译,得到第一翻译结果,对第一识别文本中除关键名词之 外的其它内容进行翻译,得到第二翻译结果,将第一翻译结果与第二 翻译结果进行合并得到第二目标语言文本。
在执行上述步骤101之前,可先通过音频采集模块接收源语言的 语音信号,再对源语言的语音信号进行语音识别得到第一识别文本。 在对第一识别文本进行翻译时,可将第一识别文本输入至翻译编解码 循环神经网络,从而输出得到第一目标语言文本。上述过程可通过如 下示例说明,用户A(中文)需要向用户B(英文)传递信息,由于A 和B语言不通,从而需要借助机器进行中间翻译。如图2所示,正常 情况下,用户A直接向机器用语音说中文“请问布鲁克林该怎么走?”, 机器进行语音识别,得到第一识别文本后,将第一识别文本翻译成目 标语言英文,如“How can I get to Brooklyn?”,再将翻译得到的第一目 标语言文本传递给用户B,单项翻译结束。其中,在将第一目标语言 文本传递给用户B时,可通过界面显示的方式传递,还可以通过语音 合成并播报的方式传递,本发明实施例对此不作具体限定。
在上述示例中,地名“布鲁克林”作为稀有的实体名词,在对“布鲁 克林”进行语音识别时,可能会识别错误。另外,即使在识别正确的情 况下也可能会翻译错误。基于上述情形,对于语音翻译场景,在执行 步骤101之前,可先分别判断是否出现识别错误以及翻译错误,并依 据判断结果顺序执行步骤101、步骤102及步骤103。
而对于直接进行文本翻译的场景,针对的是翻译前的第一初始文 本(与第一识别文本对应),此时不用判断是否出现识别错误,而可直 接判断是否出现翻译错误,并在确定出现翻译错误后,对第一目标语 言文本(由第一初始文本经翻译后得到)进行翻译,得到第二初始文 本(与第二识别文本对应),并按照步骤102及步骤103的过程顺序执 行文本翻译处理流程。本发明实施例以语音翻译场景为例,对文本翻 译处理的过程进行说明。而对于文本翻译场景,其文本翻译处理流程 可参考本发明实施例中语音翻译场景下的文本翻译处理流程,本发明 实施例对此不作具体限定。
由上述内容可知,对于语音翻译场景,在执行步骤101之前,可 先分别判断是否出现识别错误以及翻译错误。具体地,可先获取第一 识别文本的识别置信度scoreasr以及第一目标语言文本的翻译置信度 scoremt。其中,识别置信度scoreasr用于表示第一识别文本作为语音识 别结果的可信程度,翻译置信度scoremt用于表示第一目标语言文本作为 翻译结果的可信程度。当第一识别文本的识别置信度scoreasr大于第一 预设阈值Tasr时(即scoreasr>Tasr),则可认为第一识别文本识别正确。 反之,则可认为第一识别文本识别错误。当第一目标语言文本的翻译 置信度scoremt大于第二预设阈值Tmt时(即scoremt>Tmt),则可认为第 一目标语言文本翻译正确。反之,则可认为第一目标语言文本翻译错 误。
在上述步骤101中,若第一识别文本的识别置信度大于第一预设 阈值且第一目标语言文本的翻译置信度不大于第二预设阈值,则说明 识别正确但翻译错误。此时,可将第一目标语言文本作为机器翻译的 输入,对第一目标语言文本进行反向翻译,得到第二识别文本。由于 是反向翻译,从而第一识别文本与第二识别文本对应相同的语种。在 得到第一识别文本以及第二识别文本后,可判断第一识别文本与第二 识别文本在语义上是否等价。若两者在语义上不等价,则说明翻译出 错,而翻译出错的原因可能是如下两种情况,第一种情况是第一识别 文本的表达形式不利于正确翻译,第二种情况是第一识别文本中存在一些难以翻译的关键名词。其中,关键名词的类型可以为人名、地名、 或机构名等,也可以是一些名词性短语,本发明实施例对此不作具体 限定。另外,第一识别文本中包含的关键名词数量可以为一个,也可 以为多个。当第一识别文本中包含多个关键名词时,包含的多个关键 字可以为多种类型的关键名词,本发明实施例对此不作具体。
对于上述第二种情况,也即第一识别文本中存在一些难以翻译的 关键名词,在对第一识别文本进行翻译时,可先确定关键名词以及关 键名词的类型,从而后续可将关键名词作为一个整体分词,并按照关 键名词的类型对关键名词进行翻译,得到第一翻译结果。对第一识别 文本中除关键名词之外的其它内容进行翻译,得到第二翻译结果,将 第一翻译结果与第二翻译结果进行合并得到第二目标语言文本。需要 说明的是,对于汉语而言,词可能由多个字构成,从而需要通过分词 的方式将关键名词作为一个整体分词。对于其它语言而言,如英语, 其关键名词可能就是一个单词或者名词短语(如Los Angeles)。当关键名词为名词短语时,也可通过分词的方式将名词短语作为一个整体分 词。
本发明实施例提供的方法,通过在第一识别文本的识别置信度大 于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈 值时,对第一目标语言文本进行翻译,得到第二识别文本。若第一识 别文本与第二识别文本之间语义不等价,获取关键名词及关键名词的 类型。基于关键名词的类型对关键名词进行翻译,得到第一翻译结果, 对第一识别文本中除关键名词之外的其它内容进行翻译,得到第二翻 译结果,将第一翻译结果与第二翻译结果进行合并得到第二目标语言 文本。由于在识别正确而翻译错误的情况下,可对第一目标语言文本 进行反向翻译得到第二识别文本,在第一识别文本与第二识别文本之 间语义不等价的情况下,可将第一识别文本中的关键名词作为一个整 体分词,并按照关键名词的类型对关键名词进行翻译,从而可使得翻 译结果更加准确。
基于上述实施例的内容,在获取关键名词及关键名词的类型之前, 还可判断第一识别文本与第二识别文本之间语义是否等价。相应地, 作为一种可选实施例,本发明实施例还提供了一种判断文本语义是否 等价的方法。参见图3,该方法包括:301、分别将第一识别文本及第 二识别文本进行向量化,得到第一词向量序列以及第二词向量序列, 并计算第一词向量序列与第二词向量序列之间的距离;302、若第一词 向量序列与第二词向量序列之间的距离不小于第三预设阈值,则确定 第一识别文本与第二识别文本之间语义不等价。
在上述步骤301中,在对第一识别文本及第二识别文本进行向量 化时,可基于循环神经网络的翻译系统中编码模块,分别对第一识别 文本和第二识别文本进行编码,并将循环神经网络中最后一个时刻的 隐含状态输出值分别作为第一识别文本及第二识别文本的向量化表 征,从而得到第一识别文本对应的第一词向量序列以及第二识别文本 对应的第二词向量序列。在计算第一词向量序列与第二词向量序列之 间的距离时,可采用动态时间归整(DTW,Dynamic Time Warping) 算法进行计算,还可以计算两者之间余弦距离,或者还可以采用 CNN/RNN对两个词向量序列进行抽象表征后再进行距离计算,本发明 实施例对此不作具体限定。另外,在上述步骤302中,若第一词向量 序列与第二词向量序列之间的距离小于第三预设阈值,则确定第一识 别文本与第二识别文本之间语义等价。若确定第一识别文本与第二识 别文本之间语义等价,则说明第一目标语言文本作为翻译结果的可信程度较高。此时,可直接将第一目标语言文本作为最终的翻译结果。 若第一词向量序列与第二词向量序列之间的距离不小于第三预设阈 值,则确定第一识别文本与第二识别文本之间语义不等价。此时,则 说明第一目标语言文本作为翻译结果的可信程度较低。
本发明实施例提供的方法,通过分别将第一识别文本及第二识别 文本进行向量化,得到第一词向量序列以及第二词向量序列,并计算 第一词向量序列与第二词向量序列之间的距离。若第一词向量序列与 第二词向量序列之间的距离不小于第三预设阈值,则确定第一识别文 本与第二识别文本之间语义不等价。由于在确定识别正确而翻译错误 后,可根据第一识别文本与第二识别文本之间语义是否等价的判断结 果,对第一目标语言文本作为翻译结果是否可信进行二次判断,从而 减小了语音翻译过程中错误信息传递的概率,并可使得翻译结果更加 准确。
在上述实施例中,在基于关键名词及关键名词的类型,对第一识 别文本进行翻译时,可将关键名词作为一个整体分词单独进行翻译, 并同时对第一识别文本中除关键名词之外的其它内容进行翻译,最后 将两部分的翻译结果进行合并,从而得到完整的翻译结果。但考虑到 关键名词的翻译结果通常是固定的,如人名、地名、机构名以及名词 性短语等,翻译结果不会受到文本中其它内容的影响。基于上述原理, 可将翻译过程区分开,也即具体翻译时,可在翻译完第一识别文本中 的其它内容后,再对关键名词进行翻译。相应地,作为一种可选实施 例,本发明实施例不对基于关键名词的类型对关键名词进行翻译,得到第一翻译结果的方法作具体限定,包括但不限于:根据关键名词的 类型确定对应的占位符,将占位符转化成翻译后的目标语言名词,并 作为第一翻译结果。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不 对基于占位符对第一识别文本进行翻译的方法作具体限定。参见图4, 该方法包括:1031、根据关键名词的类型确定对应的占位符,并根据 关键名词在第一识别文本中的所处位置,将关键名词替换成关键名词 对应的占位符替换,得到替换后的第一识别文本;1032、将替换后的 第一识别文本输入至翻译系统中,输出第三目标语言文本,第三目标 语言文本中包含有关键名词对应的占位符;1033、将第三目标语言文 本中包含的占位符转化成翻译后的目标语言名词,以得到第二目标语 言文本。
在上述步骤1031中,占位符可以为预先定义的字符串,或者用户 还可以根据需求自行定制占位符,本发明实施例对此不作具体限定。 例如,关键名词“布鲁克林”为地名,其占位符可以为“$_LOC_”。需要说 明的是,从占位符的命名可以看出该占位符对应的关键名词类型为地 名。另外,当第一识别文本中出现两个为地名的关键名词时,如“布鲁 克林”以及“波士顿”,两者的占位符可以分别为“$_LOC_1”及“$_LOC_2” 以作区分。
以第一识别文本为“请问布鲁克林该怎么走?”为例,可先确定关 键名词“布鲁克林”在第一识别文本“请问布鲁克林该怎么走?”中的所 处位置,再根据关键名词的所处位置,可将占位符替换关键名词,从 而可得到替换后的第一识别文本“请问$_LOC_该怎么走?”。在对替换 后的第一识别文本进行翻译后,可得到包含有占位符的第三目标语言 文本。例如,上述第一识别文本经过翻译后,可得到第三目标语言文 本为“How can I get to$_LOC_?”。
需要说明的是,对于汉语而言,词可能由多个字构成,从而需要 通过分词的方式将关键名词作为一个整体分词,并通过占位符替换整 体分词。对于其它语言而言,如英语,其关键名词一般是一个单词, 有可能是一个名词短语(如Los Angeles)。当关键名词为名词短语时, 也可通过分词的方式将名词短语作为一个整体分词,并通过占位符替 换。例如,可通过占位符替换整体分词Los Angeles。
在得到第三目标语言文本后,可将第三目标语言文本转化为翻译 后的目标名词。具体地,可根据预先训练的关键名词翻译模型对第三 目标语言文本中的占位符进行翻译,并将翻译得到的目标语言名词替 换第三目标语言文本中的占位符,以得到第二目标语言文本。需要说 明的是,在训练关键名词翻译模型时,可以采用比词更小的建模单元 如单字、音素等进行模型构建,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过根据关键名词的类型确定对应的 占位符,并根据关键名词在第一识别文本中的所处位置,将关键名词 对应的占位符替换关键名词,得到替换后的第一识别文本。将替换后 的第一识别文本输入至翻译系统中,输出第三目标语言文本。将第三 目标语言文本中包含的占位符转化成翻译后的目标语言名词,以得到 第二目标语言文本。由于在对第一识别文本进行翻译时,可针对性地 先将翻译中容易出错的关键名词替换为占位符,并单独对占位符对应 的关键名词进行翻译,从而提高了关键名词的翻译效果,并可使得翻 译结果更加准确。与此同时,由于关键名词对应的占位符可以由用户自定义,从而可满足用户在语音翻译过程中的个性化定制需求。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不 对获取关键名词及关键名词的类型的方法作具体限定,包括但不限于: 获取关键文本,对关键文本进行语义解析,得到关键文本中的关键名 词以及每一关键名词的类型。
其中,关键文本可以由用户输入,如语音输入或文本输入等,本 发明实施例对此不作具体限定。例如,用户通过语音输入关键文本为 “布鲁克林是一个地名”,通过语义解析工具可将“布鲁克林”解析为一个 地名,从而可确定关键名词为“布鲁克林”且类型为“地名”。
需要说明的是,用户在输入关键文本时,可按照“XXX是个XXX” 的表达形式输入,如“布鲁克林是个地名”、“克林顿是个人名”、“世界 环保组织是个机构名”等。当然,还可以采用其它表达形式输入,如“句 中地名为布鲁克林”,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过获取关键文本,对关键文本进行 语义解析,得到关键文本中的关键名词以及每一关键名词的类型。由 于用户可按照自定义的表达形式输入关键文本,从而在基于关键文本 获取关键名词以及关键名词的类型的同时,还可满足用户个性化定制 的需求。
基于上述实施例的内容,在对第一目标语言文本进行翻译,得到 第二识别文本后,若第一识别文本与第二识别文本之间语义不等价, 则说明第一识别文本中可能存在一些难以翻译的关键名词,从而导致 第一目标语言文本作为翻译结果可信程度不高。该情形即对应上述实 施例中的第二种情况。
若第一识别文本与第二识别文本之间语义不等价,则说明第一识 别文本的表达形式可能不利于正确翻译,从而基于第一识别文本进行 翻译后得到的第一目标语言文本,其作为翻译结果可信程度不高。该 情形即对应上述实施例中的第一种情况,
针对上述第二种情况,可按照上述实施例中的内容进行处理。针 对上述第一种情况,作为一种可选实施例,在对第一目标语言文本进 行翻译,得到第二识别文本之后,本发明实施例还提供了一种语音翻 译处理方法,该方法包括:若第一识别文本与第二识别文本之间语义 不等价,则获取第三识别文本,并基于第三识别文本,重新执行文本 翻译处理流程;其中,第三识别文本为重新输入的语音信号对应的识 别文本,第一识别文本与第三识别文本之间文本数据不同且语义等价。
具体地,用户可重新输入语音信号,在对重新输入的语音信号进 行识别得到第三识别文本后,可对第三识别文本进行翻译并得到相应 的目标语言文本,从而基于第三识别文本以及相应的目标语言文本, 从上述实施例中步骤101开始,重新执行文本翻译处理流程。其中, 相比于第一识别文本对应的语音信号,用户在重新输入语音信号时可 变化语句表达形式或者缩短句子长度,从而使得识别得到的第三识别 文本与第一识别文本在表现形式上不同(文本数据不同),但实质内容 相同(也即语义等价),以便于后续翻译。
本发明实施例提供的方法,通过在第一识别文本与第二识别文本 之间语义不等价时,获取第三识别文本,并基于第三识别文本,重新 执行文本翻译处理流程。由于可由用户通过调整表达形式或句子长度 的方式重新输入语音信号,并重新执行语音翻译流程,从而在第一识 别文本与第二识别文本之间语义不等价时,提供了一种新的语音翻译 交互模式,以使得翻译结果更加准确。
上述实施例中的文本翻译流程,主要针对的是识别正确而翻译错 误的情形。然而,在实际语音翻译场景中,可能会出现识别出错的情 形。为了避免引发错误信息的传递,需要对第一识别文本作进一步处 理。相应地,作为一种可选实施例,本发明实施例还提供了文本翻译 处理方法,该方法包括:若第一识别文本的识别置信度不大于第一预 设阈值且检测到第一识别文本的确认无误指令,则将第一识别文本的 识别置信度重置为识别置信度的最大取值,并重新执行文本翻译处理 流程;
若第一识别文本的识别置信度不大于第一预设阈值且检测到第一 识别文本的确认有误指令,获取文本修改指令,根据文本修改指令对 第一识别文本进行修改,并重新执行文本翻译处理流程。
具体地,若第一识别文本的识别置信度不大于第一预设阈值,则 说明识别可能出错。为了确定第一识别文本作为语音信号的识别结果 是否真的出错,可通过语音或界面提示的方式,提示用户对第一识别 文本进行再次确认,以确定第一识别文本是否无误。若检测到第一识 别文本的确认无误指令,则说明用户确定第一识别文本无误。此时, 可将第一识别文本的识别置信度重置为识别置信度的最大取值,并从 上述实施例中的步骤101起,重新执行文本翻译处理流程。
例如,以识别置信度的取值范围为[0,1]为例。若第一识别文本的 识别置信度为0.3,而第一预设阈值为0.6,则第一识别文本的识别置 信度0.3小于第一预设阈值0.6。若检测到第一识别文本的确认无误指 令,则可将第一识别文本的识别置信度0.3重置为1,并重新执行步骤 101。由于第一识别文本重置后的识别置信度为1大于第一预设阈值0.6,从而可继续判断第一目标语言文本的翻译置信度是否大于第二预 设阈值。若第一识别文本的识别置信度大于第一预设阈值且第一目标 语言文本的翻译置信度小于第二预设阈值,则可按照上述实施例的内 容继续执行文本翻译处理流程。
若第一识别文本的识别置信度不大于第一预设阈值且检测到第一 识别文本的确认有误指令,则说明用户确定第一识别文本有误。此时, 可获取文本修改指令,并根据文本修改指令对第一识别文本进行修改。 其中,文本修改指令可以为用户输入的语音指令。例如,若第一识别 文本为“请问不熟克林该怎么走?”,用户可输入语音指令“将不熟改 为布鲁,棉布的布,鲁班的鲁”以修改第一识别文本。
当然,除了通过语音指令修改第一识别文本之外,还可以采用手 动修改等方式,本发明实施例对此不作具体限定。另外,除了通过文 本修改指令修改第一识别文本之外,还可由用户重新输入语音信号, 并基于重新输入的语音信号,从上述实施例中步骤101起,按照上述 实施例中的内容重新执行文本翻译处理流程,本发明实施例对此不作 具体限定。
本发明实施例提供的方法,通过在第一识别文本的识别置信度不 大于第一预设阈值且检测到第一识别文本的确认无误指令时,则将第 一识别文本的识别置信度重置为识别置信度的最大取值,并重新执行 文本翻译处理流程。在第一识别文本的识别置信度不大于第一预设阈 值且检测到第一识别文本的确认有误指令时,获取文本修改指令,根 据文本修改指令对第一识别文本进行修改,并重新执行文本翻译处理 流程。由于在识别错误的情况下,提供了一种新的语音翻译交互模式 进行文本翻译,从而使得翻译结果更加准确。
基于上述实施例的内容,作为一种可选实施例,在对第一目标语 言文本进行翻译之前,本发明实施例还提供了一种计算识别置信度以 及翻译置信度的方法,该方法包括:根据第一识别文本中每一分词出 现的后验概率以及分词数量,计算第一识别文本的识别置信度;根据 第一目标语言文本中每一目标分词出现的翻译概率以及目标分词数 量,计算第一目标语言文本的翻译置信度。
其中,第一识别文本中每一分词出现的后验概率用于表示每一分 词作为识别结果的可能性。第一目标语言文本中每一目标分词的翻译 概率用于表示每一目标分词作为翻译结果的可能性。
在计算第一识别文本的识别置信度时,可基于第一识别文本中的 分词数量,对第一识别文本中每一分词出现的后验概率取平均值,具 体计算过程可参考如下公式:
Figure BDA0001499033030000161
在上述公式中,第一识别文本可以表示为x=(x1,x2,x3,...,xn)。 scoreasr表示第一识别文本的识别置信度,N表示第一识别文本中的分 词数量。O表示第一识别文本对应的语音信号,P(xn|O)表示第n个分 词xn出现的后验概率。
在计算第一目标语言文本的翻译置信度时,可基于第一目标语言 文本中的目标分词数量,对第一目标语言文本中每一目标分词的后验 概率取平均值,具体计算过程可参考如下公式:
Figure BDA0001499033030000162
在上述公式中,第一目标语言文本可以表示为 y=(y1,y2,y3,...,ym)。scoremt表示第一目标语言文本的翻译置信度, M表示第一目标语言文本中的目标分词数量。x表示第一识别文本, P(ym|x)表示第m个分词ym出现的翻译概率。
另外,在通过上述实施例得到第二目标语言文本后,可将第二目 标语言文本作为翻译结果传递至目标语言用户,并可检测目标语言用 户的反馈信息,以确定目标语言用户是否能够理解第二目标语言文本。 当目标语言用户不能理解第二目标语言文本时,则说明识别正确但翻 译还是错误,从而可按照上述实施例中“第一识别文本的识别置信度 大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设 阈值”对应的分支逻辑继续进行文本翻译处理。当然,也可根据需求选 择上述实施例中的不同分支逻辑或不同处理方式以继续进行文本翻译 处理,本发明实施例对此不作具体限定。例如,以目标语言为英语为 例。当目标语言用户反馈“Pardon”或者“I can’t understand”时,即可确定 目标语言用户不能够正确理解第二目标语言文本。
本发明实施例提供的方法,通过在第一识别文本的识别置信度大 于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈 值时,对第一目标语言文本进行翻译,得到第二识别文本。若第一识 别文本与第二识别文本之间语义不等价,获取关键名词及关键名词的 类型。基于关键名词的类型对关键名词进行翻译,得到第一翻译结果, 对第一识别文本中除关键名词之外的其它内容进行翻译,得到第二翻 译结果,将第一翻译结果与第二翻译结果进行合并得到第二目标语言 文本。由于在识别正确而翻译错误的情况下,可对第一目标语言文本 进行反向翻译得到第二识别文本,在第一识别文本与第二识别文本之 间语义不等价的情况下,可将第一识别文本中的关键名词作为一个整 体分词,并按照关键名词的类型对关键名词进行翻译,从而可使得翻 译结果更加准确。
其次,通过分别将第一识别文本及第二识别文本进行向量化,得 到第一词向量序列以及第二词向量序列,并计算第一词向量序列与第 二词向量序列之间的距离。若第一词向量序列与第二词向量序列之间 的距离不小于第三预设阈值,则确定第一识别文本与第二识别文本之 间语义不等价。由于在确定识别正确而翻译错误后,可根据第一识别 文本与第二识别文本之间语义是否等价的判断结果,对第一目标语言 文本作为翻译结果是否可信进行二次判断,从而减小了语音翻译过程 中错误信息传递的概率,并可使得翻译结果更加准确。
从次,通过根据关键名词的类型确定对应的占位符,并根据关键 名词在第一识别文本中的所处位置,将关键名词对应的占位符替换关 键名词,得到替换后的第一识别文本。将替换后的第一识别文本输入 至翻译系统中,输出第三目标语言文本。将第三目标语言文本中包含 的占位符转化成翻译后的目标语言名词,以得到第二目标语言文本。 由于在对第一识别文本进行翻译时,可针对性地先将翻译中容易出错 的关键名词替换为占位符,并单独对占位符对应的关键名词进行翻译, 从而提高了关键名词的翻译效果,并可使得翻译结果更加准确。与此 同时,由于关键名词对应的占位符可以由用户自定义,从而可满足用 户在语音翻译过程中的个性化定制需求。
再次,通过获取关键文本,对关键文本进行语义解析,得到关键 文本中的关键名词以及每一关键名词的类型。由于用户可按照自定义 的表达形式输入关键文本,从而在基于关键文本获取关键名词以及关 键名词的类型的同时,还可满足用户个性化定制的需求。
另外,通过在第一识别文本与第二识别文本之间语义不等价时, 获取第三识别文本,并基于第三识别文本,重新执行文本翻译处理流 程。由于可由用户通过调整表达形式或句子长度的方式重新输入语音 信号,并重新执行语音翻译流程,从而在第一识别文本与第二识别文 本之间语义不等价时,提供了一种新的语音翻译交互模式,以使得翻 译结果更加准确。
最后,通过在第一识别文本的识别置信度不大于第一预设阈值且 检测到第一识别文本的确认无误指令时,则将第一识别文本的识别置 信度重置为识别置信度的最大取值,并重新执行文本翻译处理流程。 在第一识别文本的识别置信度不大于第一预设阈值且检测到第一识别 文本的确认有误指令时,获取文本修改指令,根据文本修改指令对第 一识别文本进行修改,并重新执行文本翻译处理流程。由于在识别错 误的情况下,提供了一种新的语音翻译交互模式进行文本翻译,从而 使得翻译结果更加准确。
需要说明的是,上述所有可选实施例,可以采用任意结合形成本 发明的可选实施例,在此不再一一赘述。
基于上述实施例的内容,本发明实施例提供了一种文本翻译处理 装置,该文本翻译处理装置用于执行上述方法实施例中提供的文本翻 译处理方法。参见图5,该装置包括:
第一翻译模块501,用于当第一识别文本的识别置信度大于第一预 设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值时,则 对第一目标语言文本进行翻译,得到第二识别文本,第一识别文本与 第二识别文本对应相同的语种,第一目标语言文本由第一识别文本经 过翻译后得到;
获取模块502,用于当第一识别文本与第二识别文本之间语义不等 价时,获取关键名词及关键名词的类型,第一识别文本中包含关键名 词;
第二翻译模块503,用于基于关键名词的类型对关键名词进行翻 译,得到第一翻译结果,对第一识别文本中除关键名词之外的其它内 容进行翻译,得到第二翻译结果,将第一翻译结果与第二翻译结果进 行合并得到第二目标语言文本。
作为一种可选实施例,该装置还包括:
第一计算模块,用于分别将第一识别文本及第二识别文本进行向 量化,得到第一词向量序列以及第二词向量序列,并计算第一词向量 序列与第二词向量序列之间的距离;
确定模块,用于当第一词向量序列与第二词向量序列之间的距离 不小于第三预设阈值时,则确定第一识别文本与第二识别文本之间语 义不等价。
作为一种可选实施例,第二翻译模块503,用于根据关键名词的类 型确定对应的占位符,将占位符转化成翻译后的目标语言名词,并作 为第一翻译结果。
作为一种可选实施例,获取模块502,用于获取关键文本,对关键 文本进行语义解析,得到关键文本中的关键名词以及每一关键名词的 类型。
作为一种可选实施例,该装置还包括:
第一文本翻译处理模块,用于当第一识别文本与第二识别文本之 间语义不等价时,则获取第三识别文本,并基于第三识别文本,重新 执行文本翻译处理流程;其中,第三识别文本为重新输入的语音信号 对应的识别文本,第一识别文本与第三识别文本之间文本数据不同且 语义等价。
作为一种可选实施例,该装置还包括:
第二文本翻译处理模块,用于当第一识别文本的识别置信度不大 于第一预设阈值且检测到第一识别文本的确认无误指令时,则将第一 识别文本的识别置信度重置为识别置信度的最大取值,并重新执行文 本翻译处理流程;
第三文本翻译处理模块,用于当第一识别文本的识别置信度不大 于第一预设阈值且检测到第一识别文本的确认有误指令时,获取文本 修改指令,根据文本修改指令对第一识别文本进行修改,并重新执行 文本翻译处理流程。
作为一种可选实施例,该装置还包括:
第三计算模块,用于根据第一识别文本中每一分词出现的后验概 率以及分词数量,计算第一识别文本的识别置信度;
第四计算模块,用于根据第一目标语言文本中每一目标分词出现 的翻译概率以及目标分词数量,计算第一目标语言文本的翻译置信度。
本发明实施例提供的装置,通过在第一识别文本的识别置信度大 于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈 值时,对第一目标语言文本进行翻译,得到第二识别文本。若第一识 别文本与第二识别文本之间语义不等价,获取关键名词及关键名词的 类型。基于关键名词的类型对关键名词进行翻译,得到第一翻译结果, 对第一识别文本中除关键名词之外的其它内容进行翻译,得到第二翻 译结果,将第一翻译结果与第二翻译结果进行合并得到第二目标语言 文本。由于在识别正确而翻译错误的情况下,可对第一目标语言文本 进行反向翻译得到第二识别文本,在第一识别文本与第二识别文本之 间语义不等价的情况下,可将第一识别文本中的关键名词作为一个整 体分词,并按照关键名词的类型对关键名词进行翻译,从而可使得翻 译结果更加准确。
其次,通过分别将第一识别文本及第二识别文本进行向量化,得 到第一词向量序列以及第二词向量序列,并计算第一词向量序列与第 二词向量序列之间的距离。若第一词向量序列与第二词向量序列之间 的距离不小于第三预设阈值,则确定第一识别文本与第二识别文本之 间语义不等价。由于在确定识别正确而翻译错误后,可根据第一识别 文本与第二识别文本之间语义是否等价的判断结果,对第一目标语言 文本作为翻译结果是否可信进行二次判断,从而减小了语音翻译过程 中错误信息传递的概率,并可使得翻译结果更加准确。
从次,通过根据关键名词的类型确定对应的占位符,并根据关键 名词在第一识别文本中的所处位置,将关键名词对应的占位符替换关 键名词,得到替换后的第一识别文本。将替换后的第一识别文本输入 至翻译系统中,输出第三目标语言文本。将第三目标语言文本中包含 的占位符转化成翻译后的目标语言名词,以得到第二目标语言文本。 由于在对第一识别文本进行翻译时,可针对性地先将翻译中容易出错 的关键名词替换为占位符,并单独对占位符对应的关键名词进行翻译, 从而提高了关键名词的翻译效果,并可使得翻译结果更加准确。与此 同时,由于关键名词对应的占位符可以由用户自定义,从而可满足用 户在语音翻译过程中的个性化定制需求。
再次,通过获取关键文本,对关键文本进行语义解析,得到关键 文本中的关键名词以及每一关键名词的类型。由于用户可按照自定义 的表达形式输入关键文本,从而在基于关键文本获取关键名词以及关 键名词的类型的同时,还可满足用户个性化定制的需求。
另外,通过在第一识别文本与第二识别文本之间语义不等价时, 获取第三识别文本,并基于第三识别文本,重新执行文本翻译处理流 程。由于可由用户通过调整表达形式或句子长度的方式重新输入语音 信号,并重新执行语音翻译流程,从而在第一识别文本与第二识别文 本之间语义不等价时,提供了一种新的语音翻译交互模式,以使得翻 译结果更加准确。
最后,通过在第一识别文本的识别置信度不大于第一预设阈值且 检测到第一识别文本的确认无误指令时,则将第一识别文本的识别置 信度重置为识别置信度的最大取值,并重新执行文本翻译处理流程。 在第一识别文本的识别置信度不大于第一预设阈值且检测到第一识别 文本的确认有误指令时,获取文本修改指令,根据文本修改指令对第 一识别文本进行修改,并重新执行文本翻译处理流程。由于在识别错 误的情况下,提供了一种新的语音翻译交互模式进行文本翻译,从而 使得翻译结果更加准确。
本发明实施例提供了一种文本翻译处理设备。参见图6,该设备 包括:处理器(processor)601、存储器(memory)602和总线603;
其中,处理器601及存储器602分别通过总线603完成相互间的 通信;
处理器601用于调用存储器602中的程序指令,以执行上述实施 例所提供的文本翻译处理方法,例如包括:若第一识别文本的识别置 信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二 预设阈值,则对第一目标语言文本进行翻译,得到第二识别文本,第 一识别文本与第二识别文本对应相同的语种,第一目标语言文本由第 一识别文本经过翻译后得到;若第一识别文本与第二识别文本之间语 义不等价,获取关键名词及关键名词的类型,第一识别文本中包含关 键名词;基于关键名词的类型对关键名词进行翻译,得到第一翻译结 果,对第一识别文本中除关键名词之外的其它内容进行翻译,得到第二翻译结果,将第一翻译结果与第二翻译结果进行合并得到第二目标 语言文本。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计 算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述 实施例所提供的文本翻译处理方法,例如包括:若第一识别文本的识 别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于 第二预设阈值,则对第一目标语言文本进行翻译,得到第二识别文本, 第一识别文本与第二识别文本对应相同的语种,第一目标语言文本由 第一识别文本经过翻译后得到;若第一识别文本与第二识别文本之间 语义不等价,获取关键名词及关键名词的类型,第一识别文本中包含 关键名词;基于关键名词的类型对关键名词进行翻译,得到第一翻译 结果,对第一识别文本中除关键名词之外的其它内容进行翻译,得到 第二翻译结果,将第一翻译结果与第二翻译结果进行合并得到第二目 标语言文本。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部 分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于 一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实 施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘 等各种可以存储程序代码的介质。
以上所描述的文本翻译处理设备等实施例仅仅是示意性的,其中 作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其 中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术 人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然 也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光 盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行各个实施例或者实施例的某些部分方 法。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明 实施例的保护范围。凡在本发明实施例的精神和原则之内,所作的任 何修改、等同替换、改进等,均应包含在本发明实施例的保护范围之 内。

Claims (10)

1.一种文本翻译处理方法,其特征在于,包括:
若第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值,则对所述第一目标语言文本进行翻译,得到第二识别文本,所述第一识别文本与所述第二识别文本对应相同的语种,所述第一目标语言文本由所述第一识别文本经过翻译后得到;
若所述第一识别文本与所述第二识别文本之间语义不等价,获取关键名词及所述关键名词的类型,所述第一识别文本中包含所述关键名词;其中,所述关键名词为一个整体分词;
基于所述关键名词的类型对所述关键名词进行翻译,得到第一翻译结果,对所述第一识别文本中除所述关键名词之外的其它内容进行翻译,得到第二翻译结果,将所述第一翻译结果与所述第二翻译结果进行合并得到第二目标语言文本。
2.根据权利要求1所述的方法,其特征在于,所述获取关键名词及所述关键名词的类型之前,还包括:
分别将所述第一识别文本及所述第二识别文本进行向量化,得到第一词向量序列以及第二词向量序列,并计算所述第一词向量序列与所述第二词向量序列之间的距离;
若所述第一词向量序列与所述第二词向量序列之间的距离不小于第三预设阈值,则确定所述第一识别文本与所述第二识别文本之间语义不等价。
3.根据权利要求1所述的方法,其特征在于,所述基于所述关键名词的类型对所述关键名词进行翻译,得到第一翻译结果,包括:
根据所述关键名词的类型确定对应的占位符,将所述占位符转化成翻译后的目标语言名词,并作为所述第一翻译结果。
4.根据权利要求1所述的方法,其特征在于,所述获取关键名词及所述关键名词的类型,包括:
获取关键文本,对所述关键文本进行语义解析,得到所述关键文本中的关键名词以及每一关键名词的类型。
5.根据权利要求1所述的方法,其特征在于,所述对所述第一目标语言文本进行翻译,得到第二识别文本之后,还包括:
若所述第一识别文本与所述第二识别文本之间语义不等价,则获取第三识别文本,并基于所述第三识别文本,重新执行文本翻译处理流程;其中,所述第三识别文本为重新输入的语音信号对应的识别文本,所述第一识别文本与所述第三识别文本之间文本数据不同且语义等价。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述第一识别文本的识别置信度不大于第一预设阈值且检测到所述第一识别文本的确认无误指令,则将所述第一识别文本的识别置信度重置为识别置信度的最大取值,并重新执行文本翻译处理流程;
若所述第一识别文本的识别置信度不大于第一预设阈值且检测到所述第一识别文本的确认有误指令,获取文本修改指令,根据所述文本修改指令对所述第一识别文本进行修改,并重新执行文本翻译处理流程。
7.根据权利要求1所述的方法,其特征在于,所述对所述第一目标语言文本进行翻译,得到第二识别文本之前,还包括:
根据所述第一识别文本中每一分词出现的后验概率以及分词数量,计算所述第一识别文本的识别置信度;
根据所述第一目标语言文本中每一目标分词出现的翻译概率以及目标分词数量,计算所述第一目标语言文本的翻译置信度。
8.一种文本翻译处理装置,其特征在于,包括:
第一翻译模块,用于当第一识别文本的识别置信度大于第一预设阈值且第一目标语言文本的翻译置信度不大于第二预设阈值时,则对所述第一目标语言文本进行翻译,得到第二识别文本,所述第一识别文本与所述第二识别文本对应相同的语种,所述第一目标语言文本由所述第一识别文本经过翻译后得到;
获取模块,用于当所述第一识别文本与所述第二识别文本之间语义不等价时,获取关键名词及所述关键名词的类型,所述第一识别文本中包含所述关键名词;其中,所述关键名词为一个整体分词;
第二翻译模块,用于基于所述关键名词的类型对所述关键名词进行翻译,得到第一翻译结果,对所述第一识别文本中除所述关键名词之外的其它内容进行翻译,得到第二翻译结果,将所述第一翻译结果与所述第二翻译结果进行合并得到第二目标语言文本。
9.一种文本翻译处理设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201711288979.7A 2017-12-07 2017-12-07 文本翻译处理方法及装置 Active CN108228574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711288979.7A CN108228574B (zh) 2017-12-07 2017-12-07 文本翻译处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711288979.7A CN108228574B (zh) 2017-12-07 2017-12-07 文本翻译处理方法及装置

Publications (2)

Publication Number Publication Date
CN108228574A CN108228574A (zh) 2018-06-29
CN108228574B true CN108228574B (zh) 2020-07-28

Family

ID=62653992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711288979.7A Active CN108228574B (zh) 2017-12-07 2017-12-07 文本翻译处理方法及装置

Country Status (1)

Country Link
CN (1) CN108228574B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062909A (zh) * 2018-07-23 2018-12-21 传神语联网网络科技股份有限公司 一种可插拔组件
CN109166594A (zh) * 2018-07-24 2019-01-08 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111428518B (zh) * 2019-01-09 2023-11-21 科大讯飞股份有限公司 一种低频词翻译方法及装置
CN111950303B (zh) * 2020-10-19 2021-01-08 平安科技(深圳)有限公司 医疗文本翻译方法、装置及存储介质
CN112579760B (zh) * 2020-12-29 2024-01-19 深圳市优必选科技股份有限公司 人机对话方法、装置、计算机设备及可读存储介质
CN112766001A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 企业名称翻译方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101714136A (zh) * 2008-10-06 2010-05-26 株式会社东芝 将基于语料库的机器翻译系统适应到新领域的方法和装置
CN102662934A (zh) * 2012-04-01 2012-09-12 百度在线网络技术(北京)有限公司 一种在跨语言交流中对译文进行验证的方法和装置
CN103744843A (zh) * 2013-12-25 2014-04-23 北京百度网讯科技有限公司 一种在线语音翻译方法及装置
CN107066451A (zh) * 2016-12-16 2017-08-18 中国科学院自动化研究所 人机交互翻译模型的更新方法及更新系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10133738B2 (en) * 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101714136A (zh) * 2008-10-06 2010-05-26 株式会社东芝 将基于语料库的机器翻译系统适应到新领域的方法和装置
CN102662934A (zh) * 2012-04-01 2012-09-12 百度在线网络技术(北京)有限公司 一种在跨语言交流中对译文进行验证的方法和装置
CN103744843A (zh) * 2013-12-25 2014-04-23 北京百度网讯科技有限公司 一种在线语音翻译方法及装置
CN107066451A (zh) * 2016-12-16 2017-08-18 中国科学院自动化研究所 人机交互翻译模型的更新方法及更新系统

Also Published As

Publication number Publication date
CN108228574A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108228574B (zh) 文本翻译处理方法及装置
US11217236B2 (en) Method and apparatus for extracting information
US9620122B2 (en) Hybrid speech recognition
US11295092B2 (en) Automatic post-editing model for neural machine translation
CN107622054B (zh) 文本数据的纠错方法及装置
WO2015096564A1 (zh) 一种在线语音翻译方法和装置
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN111177324B (zh) 基于语音识别结果进行意图分类的方法和装置
CN111209740B (zh) 文本模型训练方法、文本纠错方法、电子设备及存储介质
KR20180019342A (ko) 기계 번역 방법 및 장치
WO2021143206A1 (zh) 单语句自然语言处理方法、装置、计算机设备及可读存储介质
CN110517668B (zh) 一种中英文混合语音识别系统及方法
CN109785829B (zh) 一种基于语音控制的客服辅助方法和系统
CN108304389B (zh) 交互式语音翻译方法及装置
CN111613214A (zh) 一种用于提升语音识别能力的语言模型纠错方法
CN111985234B (zh) 语音文本纠错方法
KR20240006688A (ko) 다국어 문법 오류 정정
KR101740671B1 (ko) 다국어 번역 방법
CN113362815A (zh) 语音交互方法、系统、电子设备及存储介质
CN112863518B (zh) 一种语音数据主题识别的方法及装置
CN112002325B (zh) 多语种语音交互方法和装置
CN114519358A (zh) 翻译质量评估方法、装置、电子设备和存储介质
CN114358026A (zh) 语音翻译方法、装置、设备和计算机可读存储介质
CN113656566A (zh) 智能对话处理方法、装置、计算机设备及存储介质
CN112000767A (zh) 一种基于文本的信息抽取方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant