CN102799579A - 具有错误自诊断和自纠错功能的统计机器翻译方法 - Google Patents

具有错误自诊断和自纠错功能的统计机器翻译方法 Download PDF

Info

Publication number
CN102799579A
CN102799579A CN2012102492232A CN201210249223A CN102799579A CN 102799579 A CN102799579 A CN 102799579A CN 2012102492232 A CN2012102492232 A CN 2012102492232A CN 201210249223 A CN201210249223 A CN 201210249223A CN 102799579 A CN102799579 A CN 102799579A
Authority
CN
China
Prior art keywords
translation
speech
error
network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102492232A
Other languages
English (en)
Other versions
CN102799579B (zh
Inventor
杜金华
王莎
郭华
张萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Chinese Translation Association Polytron Technologies Inc
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201210249223.2A priority Critical patent/CN102799579B/zh
Publication of CN102799579A publication Critical patent/CN102799579A/zh
Application granted granted Critical
Publication of CN102799579B publication Critical patent/CN102799579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种具有错误自诊断和自纠错功能的统计机器翻译方法,首先定义翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。本发明与现有统计机器翻译方法相比,有效降低翻译错误率,提高翻译性能。

Description

具有错误自诊断和自纠错功能的统计机器翻译方法
技术领域
本发明属于统计机器翻译方法技术领域,具体涉及一种具有错误自诊断和自纠错功能的统计机器翻译方法。
背景技术
软件本地化是指当软件在不同文化和语言背景的地区与国家移植时,需要融合与特定区域设置有关的信息和信息翻译有关的过程,以适应本地的文化与使用习惯。而翻译在本地化过程中扮演着至关重要的角色,对当地文化与语言适应的好坏直接影响该软件在该地区或国家的推广。在软件本地化行业,传统的做法是首先使用翻译记忆库(Translation Memory,TM)对软件界面、术语、手册或者技术文档等按模糊匹配值(fuzzy match)进行翻译实例查找并输出,然后再由后编辑人员(post-editor)参照源语言输入句子对翻译结果进行修正。因此,这种方式又被称为计算机辅助翻译(computer-assisted translation,CAT)。
统计机器翻译服务于软件本地化的关键技术研究是统计机器翻译研究的热点方向之一。随着统计机器翻译技术的不断成熟,越来越多的研究机构和国际大公司逐步开始将统计机器翻译系统引入其产品服务之中。自从20世纪90年代初IBM的研究人员Peter Brown等提出IBM模型以来,基于统计的机器翻译方法逐渐成为机器翻译研究的主流。基于统计方法的思想大大推动了机器翻译技术的发展,并涌现出了多种类型的统计机器翻译模型,如基于短语的翻译模型、层次短语的翻译模型及基于句法的翻译模型等等,其翻译质量也在日益提高。2002年之后,伴随着翻译质量自动评估方法BLEU的出现,统计机器翻译技术不仅在系统性能上获得了长足的进步,并且有效地降低了人工评价的成本。近些年来,随着统计机器翻译尤其是基于短语的机器翻译在技术上的日趋成熟与鲁棒,统计机器翻译技术不断地向实用化和商业化迈出有力的步伐。
但是,目前面向工业界应用的统计机器翻译系统因翻译准确度仍然无法真正满足翻译要求,所以大多作为人工翻译的辅助工具,而无法独立提供具有高置信度的翻译结果,主要表现在两个方面:
1、翻译错误的预测能力不足:难以准确地对翻译结果中潜在的翻译错误进行诊断和预报,而这种功能对于后编辑人员进行高效率、低消耗的查找、判断和更正该错误具有重要的意义。对于错误预测,目前主要有两种解决方案。第一种是反向翻译的方法。该方法利用反向的机器翻译系统对翻译结果(目标句子)重新翻成源语言句子S',然后把原始源语言句子S与S'以某种方式(如TER)进行对齐,根据对齐信息如插入、删除、替换等编辑操作的多少来判定源语言端哪些片段存在问题,然后通过重定向映射到目标端,从而获得对于潜在翻译错误的判定。这种方法的缺点是正向的翻译错误和反向的翻译错误叠加后,某些原文所表达的意思全部丢失,从而翻译错误诊断精度较低。第二种方案是基于置信度估计的方法,通常作为分类问题来解决。该方案通过对译文进行置信度估计,综合判断错误发生的位置。目前该方法的置信估计准确率有待进一步提高。
2、翻译错误自校正能力差:对于系统自动诊断出的翻译错误,目前有两种方案可以提供自校正功能。第一种是以目标端为对象,通过利用一些特征建立校正模型,对错误部分进行重新生成或替换。该方法的缺点是缺少有效的源语言知识,并且没有考虑源端的翻译难度。第二种是以源端为对象,通过使用外部资源以降低源端的翻译难度,例如使用复述(paraphrase)、同义词(synonym)或者词干(stem)等对源端进行扩展或替换。但是,这些方法的效果都不尽如人意。
因此,设计和开发具有一定自诊断与自纠错功能的统计机器翻译系统,不仅能够促进机器翻译在社会经济发展中的应用,而且能够进一步增强人们对机器翻译的信心,这对于该学科乃至该行业的进步起着关键性的作用。
发明内容
本发明的目的是提供一种具有错误自诊断和自纠错功能的统计机器翻译方法,与现有统计机器翻译方法相比,有效降低翻译错误率,提高翻译性能。
本发明所采用的技术方案是,一种具有错误自诊断和自纠错功能的统计机器翻译方法,首先定义翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。
进一步地,具体实现步骤如下:
步骤1、定义翻译错误类别:
具体包括五种翻译错误类别:正确、一般错误、词序错误、集外词错误、其他错误;
步骤2、训练错误分类器:
步骤2.1、采用基于动态概率潜变量模型的分类器,计算公式如下:
P ( y | x , θ ) = Σ h P ( y | h , x , θ ) P ( h | x , θ ) ,
其中,P(y|x,θ)表示翻译假设被标注为序列y的概率;θ是模型参数;x是观察序列,具体指翻译译文中的词序列;y是标注序列,具体指步骤1中定义的翻译错误类别;h表示隐含变量序列;
将系统特征、语料库特征和外部知识源特征作为模型参数θ加入到动态概率潜变量模型中,得到初始模型;
步骤2.2、选定模型参数训练开发集,按照步骤1定义的翻译错误类别对开发集中的翻译假设进行错误类型标注,得到监督学习的训练样本数据;
步骤2.3、利用步骤2.2得到的训练样本数据对步骤2.1得到的初始模型进行训练,公式如下:
L ( θ ) = Σ i = 1 n log P ( y i | x i , θ ) - R ( θ ) ,
其中,L(θ)表示未知参数的最大似然估计,n表示样本向量个数,i表示某一样本向量,P(yi|xi,θ)表示样本xi在参数为θ条件下标注为序列yi的概率,R(θ)表示调控因子,主要防止训练过拟合;
迭代收敛后得到训练后的错误分类器;
步骤3、对测试集进行翻译错误分类:
利用步骤2得到的训练后的错误分类器,采用如下公式对测试集翻译假设进行错误识别和分类:
y * = arg max y P ( y | x , θ * ) ,
其中,arg max表示参数最大化运算;θ*表示步骤2得到训练后错误分类器的参数;y*表示分类结果;P(y|x,θ*)表示在已知模型参数θ*和样本x时,标注为序列y的概率;
步骤4、目标语言端翻译错误映射到源语言端,并构建复述词图网络:
对步骤3得到的翻译错误分类后的翻译假设通过词对齐信息映射到源语言端,确定相应源语言短语或词Si的位置及边界,然后从源语言复述库中查找Si的复述,并取前多个作为Si的复述候选,以源语言输入初始句子为主干,构建复述词图网络;
构建复述词图网络过程中,对翻译假设中的词根据其翻译错误类别标识进行复述构建,即:1)对于分类为“正确”的词,不进行复述词图构建;2)对于分类为“一般错误”、“集外词错误”和“其他错误”的词,直接从复述库中查找复述候选,然后构建词图;3)对于分类为“词序错误”的词,在构建词图时,将所对应的边进行调序标记,供解码时调序惩罚约束使用;
步骤5、源语言复述词图网络优化:
采用基于混淆网络的方法对步骤4得到的复述词图网络进行压缩和合并重复的路径,具体是将原词图中的结点按边进行对齐,若两结点间的边上的词是相同的,则按概率大小保留较大的边,删除概率较小的边;
第六步,词图解码,得到自校正结果:
具体是对步骤5得到的优化后的源语言复述词图网络进行词图解码,最终得到错误校正后的翻译结果。
本发明的有益效果是:本发明使得统计机器翻译具有一定的翻译错误自诊断和自校正功能,有效提高自动翻译性能和后编辑人员的工作效率。本发明综合考虑到前端翻译难度与后端翻译错误的直接的因果关系,将翻译难度和置信度估计相结合,以提高统计机器翻译系统的实用性。本发明采用对翻译结果进行词级、短语级和句子级置信度估计的方法,综合三种置信得分及其他特征采用基于动态概率潜变量模型的分类器判断译文中翻译错误的位置和置信分数,然后根据词对齐信息及翻译系统输出的源端与目标端对应的翻译跨度(span)信息将翻译错误映射到源语言端,从而实现错误诊断。此外,自纠错功能利用双语或多语言平行语料库中自动抽取的复述库,对源语言端所映射的片段进行复述查找,并将原始源语言端片段及其复述构建为词图网络,再通过词图解码产生最终结果以实现错误自校正。
本发明方法将翻译错误识别和源语言复述词图解码进行有机结合从而使统计机器翻译具有一定的智能性,测试结果表明相比于不具备错误自校正功能的统计机器翻译系统,本发明的方法能有效提高机器翻译性能。
附图说明
图1是本发明中的构建复述词图网络示意图;
图2是本发明中优化前的源语言复述词图网络超图;
图3是本发明中优化后的源语言复述词图网络超图。
具体实施方式
本发明具有错误自诊断和自纠错功能的统计机器翻译方法,首先,定义翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。
本发明方法具体实现步骤如下:
步骤1、定义翻译错误类别:
具体包括五种翻译错误类别:正确(correct)、一般错误(generalincorrect)、词序错误(order incorrect)、集外词错误(OOV)、其他错误(others)。其中,一般错误包括翻译不准确(如汉英短语意思不对应)、时态(例如英语中过去时、现在时等)、语态(如英语中主动/被动结构,汉语中把/被字结构等)等。
步骤2、训练错误分类器:
步骤2.1、为提高分类准确率,本发明采用基于动态概率潜变量模型的分类器,该分类器采用三个潜变量以表示输入和输出之间的隐含状态,其计算公式如下:
P ( y | x , θ ) = Σ h P ( y | h , x , θ ) P ( h | x , θ ) ,
其中,P(y|x,θ)表示翻译假设被标注为序列y的概率;θ是模型参数;x是观察序列,具体指翻译译文中的词序列;y是标注序列,具体指步骤1中定义的翻译错误类别;h表示隐含变量序列。
模型训练的特征主要来自三个方面,即:1、系统特征:指的是翻译过程中翻译模型、语言模型等反映机器翻译系统本质特性的特征;2、语料库特征:大规模平行或多语语料库所抽取的与具体语言相关的字、词、词性标注、句法、语法、语义等特征;3、外部知识源特征:与具体语言相关或者不相关的多知识源特征。
将系统特征、语料库特征和外部知识源特征作为模型参数θ加入到动态概率潜变量模型中,得到带未知参数的初始模型。初始未知参数主要为各特征函数的权重。
步骤2.2、选定模型参数训练开发集,按照步骤1定义的翻译错误类别对开发集中的翻译假设进行错误类型标注,得到监督学习的训练样本数据。
步骤2.3、利用步骤2.2得到的训练样本数据对步骤2.1得到的初始模型进行训练,公式如下:
L ( θ ) = Σ i = 1 n log P ( y i | x i , θ ) - R ( θ ) ,
其中,L(θ)表示未知参数的最大似然估计,n表示样本向量个数,i表示某一样本向量,P(yi|xi,θ)表示样本xi在参数为θ条件下标注为序列yi的概率,R(θ)表示调控因子,主要防止训练过拟合;
迭代收敛后得到训练后的错误分类器。
步骤3、对测试集进行翻译错误分类:
利用步骤2得到的训练后的错误分类器,采用如下公式对测试集翻译假设进行错误识别和分类:
y * = arg max y P ( y | x , θ * ) ,
其中,arg max表示参数最大化运算;θ*表示步骤2得到训练后错误分类器的参数;y*表示分类结果;P(y|x,θ*)表示在已知模型参数θ*和样本x时,标注为序列y的概率。
步骤4、目标语言端翻译错误映射到源语言端,并构建复述词图网络:
对步骤3得到的翻译错误分类后的翻译假设通过词对齐信息映射到源语言端,确定相应源语言短语或词Si的位置及边界,然后从源语言复述库中查找Si的复述,并取前多个作为Si的复述候选,以源语言输入初始句子为主干,构建复述词图网络。
构建复述词图网络过程中,对翻译假设中的词根据其翻译错误类别标识进行复述构建,即:1)对于分类为“正确”的词,不进行复述词图构建;2)对于分类为“一般错误”、“集外词错误”和“其他错误”的词,直接从复述库中查找复述候选,然后构建词图;3)对于分类为“词序错误”的词,在构建词图时,将所对应的边进行调序标记,供解码时调序惩罚约束使用。
如图1所示,其中{w1,...,wn}表示源语言原始词序列,其用于构成词图基本网络。词序列{α1,...,αp}是词序列{wx,...,wy}的复述,而词序列{β1,...,βq}是词序列{wm,...,wn}的复述。从图中可以看出,根据与原始词序列的对应关系,复述被作为扩充边加入到基本网络中,特别注意的是复述中的每个词都作为边插入到网络中并与对应结点连接起来。
如图2所示,图中节点之间实现所表示的边为源语言句子输入中的原始词,虚线所表示的为所加入的对应复述。可以看出,该词图网络为有向无环的超图,相对于基本的输入字串,要复杂的多。同时可以看出,加入复述后,原始词语或短语所对应同一意思的表达种类多样化,在一定程度上解决了数据稀疏问题,从源语言端降低了翻译难度,从而确保在解码过程中增加正确翻译候选的概率。
观察图2中的路径“0-1-2”上的“the training”和路径“0-8-2”上的“thetraining”。这两条路径尽管到结点2的概率不同,但其所构成的短语是一样的,因此,如何合并或者去除重复边,减小搜索复杂度,提高解码速度,减小权重的不一致性,对本发明的性能影响也较大。
步骤5、源语言复述词图网络优化:
采用基于混淆网络的方法对步骤4得到的复述词图网络进行压缩和合并重复的路径,具体是将原词图中的结点按边进行对齐,若两结点间的边上的词是相同的,则按概率大小保留较大的边,删除概率较小的边,从而在一定程度上减少重复路径。如图3所示,采用被方法优化后重复路径都被合并,并对边所表示的词权重或概率进行了更新。
第六步,词图解码,得到自校正结果:
具体是对步骤5得到的优化后的源语言复述词图网络进行词图解码,最终得到错误校正后的翻译结果。
实施例
以开源统计机器翻译系统摩西(Moses)为基线系统,分别利用其短语解码器和词图解码器对输入源语言字串和词图网络进行解码得到输出的翻译假设。实验数据如下:翻译句对为汉英,翻译方向为英译汉。统计机器翻译模型使用的训练语料为LDC提供的FBIS 200K句对,开发集和测试集分别为NIST 2005和2003数据集。复述短语集合使用开源工具TER-plus所提供的复述,使用时对其进行了过滤和后处理。
表1说明了基于以上数据,采用本发明方法与现有的基线系统相对于测试集的翻译性能对比结果。
表1
  系统   BLEU4   TER
  现有的基线系统   23.60   63.56
  本发明方法   24.80   62.00
表中“BLEU”列表示采用自动评价准则4元BLEU对翻译结果进行评价,取值为0~1之间,越高表示性能越好;“TER”列表示采用自动评价准则TER(翻译错误率)对翻译结果进行评价,取值通常在0~100之间,越低表示性能越好。基线系统表示输入为基本字串,解码为基于短语的解码器,不含任何错误识别和错误校正环节;本发明表示首先对基线系统的输出结果进行错误识别和分类,映射到源语言端后针对性地重构输入为词图网络,解码为词图解码器,含错误分类和校正环节。
可以看出,相比于基线系统,本发明方法提高了1.20个BLEU点,降低了1.56个TER点,大大提高了系统的翻译性能。因此,本发明方法是有效的和可行的。

Claims (2)

1.一种具有错误自诊断和自纠错功能的统计机器翻译方法,其特征在于,首先定义翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。
2.按照权利要求1所述的具有错误自诊断和自纠错功能的统计机器翻译方法,其特征在于,具体实现步骤如下:
步骤1、定义翻译错误类别:
具体包括五种翻译错误类别:正确、一般错误、词序错误、集外词错误、其他错误;
步骤2、训练错误分类器:
步骤2.1、采用基于动态概率潜变量模型的分类器,计算公式如下:
P ( y | x , θ ) = Σ h P ( y | h , x , θ ) P ( h | x , θ ) ,
其中,P(y|x,θ)表示翻译假设被标注为序列y的概率;θ是模型参数;x是观察序列,具体指翻译译文中的词序列;y是标注序列,具体指步骤1中定义的翻译错误类别;h表示隐含变量序列;
将系统特征、语料库特征和外部知识源特征作为模型参数θ加入到动态概率潜变量模型中,得到初始模型;
步骤2.2、选定模型参数训练开发集,按照步骤1定义的翻译错误类别对开发集中的翻译假设进行错误类型标注,得到监督学习的训练样本数据;
步骤2.3、利用步骤2.2得到的训练样本数据对步骤2.1得到的初始模型进行训练,公式如下:
L ( θ ) = Σ i = 1 n log P ( y i | x i , θ ) - R ( θ ) ,
其中,L(θ)表示未知参数的最大似然估计,n表示样本向量个数,i表示某一样本向量,P(yi|xi,θ)表示样本xi在参数为θ条件下标注为序列yi的概率,R(θ)表示调控因子,主要防止训练过拟合;
迭代收敛后得到训练后的错误分类器;
步骤3、对测试集进行翻译错误分类:
利用步骤2得到的训练后的错误分类器,采用如下公式对测试集翻译假设进行错误识别和分类:
y * = arg max y P ( y | x , θ * ) ,
其中,argmax表示参数最大化运算;θ*表示步骤2得到训练后错误分类器的参数;y*表示分类结果;P(y|x,θ*)表示在已知模型参数θ*和样本x时,标注为序列y的概率;
步骤4、目标语言端翻译错误映射到源语言端,并构建复述词图网络:
对步骤3得到的翻译错误分类后的翻译假设通过词对齐信息映射到源语言端,确定相应源语言短语或词Si的位置及边界,然后从源语言复述库中查找Si的复述,并取前多个作为Si的复述候选,以源语言输入初始句子为主干,构建复述词图网络;
构建复述词图网络过程中,对翻译假设中的词根据其翻译错误类别标识进行复述构建,即:1)对于分类为“正确”的词,不进行复述词图构建;2)对于分类为“一般错误”、“集外词错误”和“其他错误”的词,直接从复述库中查找复述候选,然后构建词图;3)对于分类为“词序错误”的词,在构建词图时,将所对应的边进行调序标记,供解码时调序惩罚约束使用;
步骤5、源语言复述词图网络优化:
采用基于混淆网络的方法对步骤4得到的复述词图网络进行压缩和合并重复的路径,具体是将原词图中的结点按边进行对齐,若两结点间的边上的词是相同的,则按概率大小保留较大的边,删除概率较小的边;
第六步,词图解码,得到自校正结果:
具体是对步骤5得到的优化后的源语言复述词图网络进行词图解码,最终得到错误校正后的翻译结果。
CN201210249223.2A 2012-07-18 2012-07-18 具有错误自诊断和自纠错功能的统计机器翻译方法 Active CN102799579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210249223.2A CN102799579B (zh) 2012-07-18 2012-07-18 具有错误自诊断和自纠错功能的统计机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210249223.2A CN102799579B (zh) 2012-07-18 2012-07-18 具有错误自诊断和自纠错功能的统计机器翻译方法

Publications (2)

Publication Number Publication Date
CN102799579A true CN102799579A (zh) 2012-11-28
CN102799579B CN102799579B (zh) 2015-01-21

Family

ID=47198691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210249223.2A Active CN102799579B (zh) 2012-07-18 2012-07-18 具有错误自诊断和自纠错功能的统计机器翻译方法

Country Status (1)

Country Link
CN (1) CN102799579B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092831A (zh) * 2013-01-25 2013-05-08 哈尔滨工业大学 一种用于统计机器翻译的参数调整方法
CN105550174A (zh) * 2015-12-30 2016-05-04 哈尔滨工业大学 基于样本重要性的自动机器翻译领域自适应方法
CN105701089A (zh) * 2015-12-31 2016-06-22 成都数联铭品科技有限公司 一种机器翻译错词修正的后编辑处理方法
CN103871407B (zh) * 2012-12-07 2017-04-19 浦项工科大学校产学协力团 语音识别错误的纠正方法及装置
CN107168950A (zh) * 2017-05-02 2017-09-15 苏州大学 一种基于双语语义映射的事件短语学习方法及装置
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN108491388A (zh) * 2018-03-22 2018-09-04 平安科技(深圳)有限公司 数据集获取方法、分类方法、装置、设备及存储介质
CN109062908A (zh) * 2018-07-20 2018-12-21 北京雅信诚医学信息科技有限公司 一种专用翻译器
CN109145300A (zh) * 2018-08-17 2019-01-04 武汉斗鱼网络科技有限公司 一种搜索文本的纠正方法、装置及终端
CN110462730A (zh) * 2018-03-07 2019-11-15 谷歌有限责任公司 促进以多种语言与自动化助理的端到端沟通
CN110472251A (zh) * 2018-05-10 2019-11-19 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
CN110546634A (zh) * 2017-04-27 2019-12-06 松下知识产权经营株式会社 翻译装置
CN110705318A (zh) * 2019-09-04 2020-01-17 南京题麦壳斯信息科技有限公司 一种机器翻译引擎测评优选方法及系统
CN110929504A (zh) * 2018-09-20 2020-03-27 阿里巴巴集团控股有限公司 语句诊断方法、装置和系统
CN111539231A (zh) * 2020-04-29 2020-08-14 北京金山安全软件有限公司 一种翻译方法、装置、服务器及计算机可读存储介质
CN112215018A (zh) * 2020-08-28 2021-01-12 北京中科凡语科技有限公司 校正术语对的自动定位方法、装置、电子设备及存储介质
CN112528683A (zh) * 2020-12-23 2021-03-19 深圳市爱科云通科技有限公司 文本翻译校正方法、装置、系统、服务器及可读存储介质
CN114049528A (zh) * 2022-01-12 2022-02-15 上海蜜度信息技术有限公司 一种品牌名称识别的方法及设备
US11354521B2 (en) 2018-03-07 2022-06-07 Google Llc Facilitating communications with automated assistants in multiple languages

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221576A (zh) * 2008-01-23 2008-07-16 腾讯科技(深圳)有限公司 一种能够实现自动翻译的输入方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221576A (zh) * 2008-01-23 2008-07-16 腾讯科技(深圳)有限公司 一种能够实现自动翻译的输入方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NICOLA UEFFING , KLAUS MACHEREY , HERMANN NEY: "Confidence Measures for Statistical Machine Translation", 《PROC. MT SUMMIT IX》 *
NICOLA UEFFING,HERMANN NEY: "Word-Level Confidence Estimation for Machine Translation", 《2007 ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
SIMONA GANDRABUR,GEORGE FOSTER: "Confidence estimation for translation prediction", 《CONLL 03 PROCEEDINGS OF THE SEVENTH CONFERENCE ON NATURAL LANGUAGE LEARNING》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871407B (zh) * 2012-12-07 2017-04-19 浦项工科大学校产学协力团 语音识别错误的纠正方法及装置
WO2014114140A1 (zh) * 2013-01-25 2014-07-31 哈尔滨工业大学 一种用于统计机器翻译的参数调整方法
CN103092831A (zh) * 2013-01-25 2013-05-08 哈尔滨工业大学 一种用于统计机器翻译的参数调整方法
CN105550174A (zh) * 2015-12-30 2016-05-04 哈尔滨工业大学 基于样本重要性的自动机器翻译领域自适应方法
CN105701089A (zh) * 2015-12-31 2016-06-22 成都数联铭品科技有限公司 一种机器翻译错词修正的后编辑处理方法
CN110546634A (zh) * 2017-04-27 2019-12-06 松下知识产权经营株式会社 翻译装置
CN107168950A (zh) * 2017-05-02 2017-09-15 苏州大学 一种基于双语语义映射的事件短语学习方法及装置
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN110462730A (zh) * 2018-03-07 2019-11-15 谷歌有限责任公司 促进以多种语言与自动化助理的端到端沟通
US11354521B2 (en) 2018-03-07 2022-06-07 Google Llc Facilitating communications with automated assistants in multiple languages
US10984784B2 (en) 2018-03-07 2021-04-20 Google Llc Facilitating end-to-end communications with automated assistants in multiple languages
CN110462730B (zh) * 2018-03-07 2021-03-30 谷歌有限责任公司 促进以多种语言与自动化助理的端到端沟通
US11942082B2 (en) 2018-03-07 2024-03-26 Google Llc Facilitating communications with automated assistants in multiple languages
US11915692B2 (en) 2018-03-07 2024-02-27 Google Llc Facilitating end-to-end communications with automated assistants in multiple languages
CN108491388B (zh) * 2018-03-22 2021-02-23 平安科技(深圳)有限公司 数据集获取方法、分类方法、装置、设备及存储介质
CN108491388A (zh) * 2018-03-22 2018-09-04 平安科技(深圳)有限公司 数据集获取方法、分类方法、装置、设备及存储介质
CN110472251B (zh) * 2018-05-10 2023-05-30 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
CN110472251A (zh) * 2018-05-10 2019-11-19 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
CN109062908B (zh) * 2018-07-20 2023-07-14 北京雅信诚医学信息科技有限公司 一种专用翻译器
CN109062908A (zh) * 2018-07-20 2018-12-21 北京雅信诚医学信息科技有限公司 一种专用翻译器
CN109145300A (zh) * 2018-08-17 2019-01-04 武汉斗鱼网络科技有限公司 一种搜索文本的纠正方法、装置及终端
CN109145300B (zh) * 2018-08-17 2022-08-16 武汉斗鱼网络科技有限公司 一种搜索文本的纠正方法、装置及终端
CN110929504A (zh) * 2018-09-20 2020-03-27 阿里巴巴集团控股有限公司 语句诊断方法、装置和系统
CN110929504B (zh) * 2018-09-20 2023-05-30 阿里巴巴集团控股有限公司 语句诊断方法、装置和系统
CN110705318B (zh) * 2019-09-04 2023-06-30 南京题麦壳斯信息科技有限公司 一种机器翻译引擎测评优选方法及系统
CN110705318A (zh) * 2019-09-04 2020-01-17 南京题麦壳斯信息科技有限公司 一种机器翻译引擎测评优选方法及系统
CN111539231A (zh) * 2020-04-29 2020-08-14 北京金山安全软件有限公司 一种翻译方法、装置、服务器及计算机可读存储介质
CN112215018B (zh) * 2020-08-28 2021-08-13 北京中科凡语科技有限公司 校正术语对的自动定位方法、装置、电子设备及存储介质
CN112215018A (zh) * 2020-08-28 2021-01-12 北京中科凡语科技有限公司 校正术语对的自动定位方法、装置、电子设备及存储介质
CN112528683A (zh) * 2020-12-23 2021-03-19 深圳市爱科云通科技有限公司 文本翻译校正方法、装置、系统、服务器及可读存储介质
CN114049528A (zh) * 2022-01-12 2022-02-15 上海蜜度信息技术有限公司 一种品牌名称识别的方法及设备

Also Published As

Publication number Publication date
CN102799579B (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN102799579B (zh) 具有错误自诊断和自纠错功能的统计机器翻译方法
CN103154936B (zh) 用于自动化文本校正的方法和系统
CN101908042B (zh) 一种双语联合语义角色的标注方法
CN113436698B (zh) 融合自监督和主动学习的医学术语自动标准化系统及方法
CN101866337B (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN103593352B (zh) 一种海量数据清洗方法及装置
US8229728B2 (en) Methods for using manual phrase alignment data to generate translation models for statistical machine translation
CN110297913A (zh) 一种电子公文实体抽取方法
CN103500160B (zh) 一种基于滑动语义串匹配的句法分析方法
CN105988990A (zh) 用于汉语中的零指代消解的装置和方法以及模型训练方法
CN104915337B (zh) 基于双语篇章结构信息的译文篇章完整性评估方法
CN105279252A (zh) 挖掘相关词的方法、搜索方法、搜索系统
CN108664269A (zh) 一种基于深度学习的特征依恋代码异味检测方法
CN108959258A (zh) 一种基于表示学习的特定领域集成实体链接方法
CN108491459B (zh) 一种软件代码摘要自动生成模型的优化方法
CN110287482A (zh) 半自动化分词语料标注训练装置
CN109492106A (zh) 一种文本代码相结合的缺陷原因自动分类方法
Maru et al. Nibbling at the hard core of Word Sense Disambiguation
CN104731774A (zh) 面向通用机译引擎的个性化翻译方法及装置
CN103186658B (zh) 用于英语口语考试自动评分的参考语法生成方法和设备
CN108460150A (zh) 新闻标题的处理方法及装置
CN105389303B (zh) 一种异源语料自动融合方法
CN106484676A (zh) 基于句法树和领域特征的生物文本蛋白质指代消解方法
Zhou et al. Improving distantly supervised relation extraction by natural language inference
CN103019924B (zh) 输入法智能性评测系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151029

Address after: 300450 Tanggu street, Binhai New Area, Haining, Tianjin

Patentee after: Liu Zhikuan

Address before: 710048 Shaanxi city of Xi'an Province Jinhua Road No. 5

Patentee before: Xi'an University of Technology

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160214

Address after: The 300457 Tianjin economic and Technological Development Zone, Third Street No. 8 Building 2 Room 101 Howell

Patentee after: Tianjin Development Zone China Translation Co., Ltd.

Address before: 300450 Tanggu street, Binhai New Area, Haining, Tianjin

Patentee before: Liu Zhikuan

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: The 300457 Tianjin economic and Technological Development Zone, Third Street No. 8 Building 2 Room 101 Howell

Patentee after: Tianjin Chinese Translation Association Polytron Technologies Inc

Address before: The 300457 Tianjin economic and Technological Development Zone, Third Street No. 8 Building 2 Room 101 Howell

Patentee before: Tianjin Development Zone China Translation Co., Ltd.