CN111680527A - 基于专属机翻引擎训练的人机共译系统与方法 - Google Patents

基于专属机翻引擎训练的人机共译系统与方法 Download PDF

Info

Publication number
CN111680527A
CN111680527A CN202010508347.2A CN202010508347A CN111680527A CN 111680527 A CN111680527 A CN 111680527A CN 202010508347 A CN202010508347 A CN 202010508347A CN 111680527 A CN111680527 A CN 111680527A
Authority
CN
China
Prior art keywords
translation
machine
difference
engine
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010508347.2A
Other languages
English (en)
Other versions
CN111680527B (zh
Inventor
王莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN202010508347.2A priority Critical patent/CN111680527B/zh
Publication of CN111680527A publication Critical patent/CN111680527A/zh
Application granted granted Critical
Publication of CN111680527B publication Critical patent/CN111680527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于专属机翻引擎训练的人机共译系统、基于反馈训练环信号的人机共译方法以及实现该方法的计算机可读存储介质。本发明的技术方案包括源文输入组件以及与所述源文输入组件连接的语义识别模块、专属机翻引擎训练环、人机共译窗口、差异比对界面以及反向比对翻译引擎。本发明的技术方案能够最大程度的利用机器翻译的结果,同时最大可能的针对可能错误的翻译结果进行人工校对,在保证效率的同时,提高了准确度,从而提供人工翻译介入的准确时机,使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率,同时确保翻译的准确性。

Description

基于专属机翻引擎训练的人机共译系统与方法
技术领域
本发明属于翻译技术领域,尤其涉及一种基于专属机翻引擎训练的人机共译系统、基于反馈训练环信号的人机共译方法以及实现该方法的计算机可读存储介质。
背景技术
实现高质量机器翻译的梦想已经存在了很多年,很多科学家都为这一梦想贡献了自己的时间和心力。从早期的基于规则的机器翻译到如今广泛应用的神经机器翻译,机器翻译的水平不断提升,已经能满足很多场景的基本应用需求。
目前最重要的两种机器翻译方式:规则法和统计法。规则法(rule based machinetranslation,RBMT),依据语言规则对文本进行分析,再借助计算机程序进行翻译。多数商用机器翻译系统采用规则法。统计法(statistical machine translation,SMT),通过对大量的平行语料进行统计分析,构建统计翻译模型(词汇、比对或是语言模式),进而使用此模型进行翻译,一般会选取统计中出现概率最高的词条作为翻译,概率算法依据贝叶斯定理。假设要把一个英语句子A翻译成汉语,所有汉语句子B,都是A的可能或是非可能的潜在翻译。Pr(A)是类似A表达出现的概率,Pr(B|A)是A翻译成B出现的概率。找到两个参数的最大值,就能缩小句子及其对应翻译检索的范围,从而找出最合适的翻译。SMT根据文本分析程度级别的不同分为两种:基于词的SMT和基于短语的SMT,后一个是目前普遍使用的,Google用的就是这种。翻译文本被自动分为固定长度的词语序列,再对各词语序列在语料库里进行统计分析,以查找到出现对应概率最高的翻译。
申请号为CN201910772953.2的中国发明专利申请提出一种基于句对的机器翻译引擎测评优选方法及系统,其通过根据选择的语言对、句的领域,对各机器翻译引擎进行多个维度的评分,再对上述评分进行加权求和得到各机器翻译引擎在句上的加权和值,选择加权和值最高的机器翻译引擎输出句的翻译结果,从而整合得到整篇翻译文本。通过上述方法可以使得在众多复杂的、翻译质量参差不齐、擅长领域和语言对各有不同的各类机器翻译引擎中为用户提供机器翻译引擎自动优选服务,能够让用户在翻译文件等长文本时每句话都得到目前最优秀的机器翻译引擎服务,提高翻译效率,减少用户的后续工作量,提供优质的机器翻译服务。
申请号为CN201910542364.5的中国发明专利申请提出一种基于统计机器学习算法的实体共指消解方法,首先确定实体共指消解的特征,接着进行表述检测,建立分类模型,并通过对分类模型的反复训练和校正,在统计机器学习算法的基础上最终实现对实体共指消解,使得对实体共指消解的准确性高,从而保证了工作在机器翻译,信息抽取以及问答等领域的顺利进行,利于工作的普及和开展。
然而,机器翻译虽然快速,但是其准确度依然不能完全满足实际需要。尤其是对于一些重大的涉及敏感问题的待译文档,单纯的仅仅依靠机器翻译的结果是无法满足客户要求的。不管机器翻译或者计算机辅助翻译的方案如何改进,人工编辑校对甚至翻译都不可缺少。
目前机器翻译的前沿应用主要体现在两个方面:首先,机器翻译模式进展迅速,以神经网络为基础的翻译模型准确度不断提升,已带给专业译员至少30%的效率提升;其次,交互式机器翻译概念开始被业界接受,人机协作模式正加速落地。在机器思维里,语言的复杂多意性,导致难以实现标准化和一致性。因此,人工智能介入翻译产业比较简单,但做好做精却很不易。机器翻译还会出现遗漏翻译和过度翻译,虽然有多种方法可以解决这类问题,但没有一种方法能做到百分之百纠错。
因此,如何平衡人工编辑翻译和机器翻译的工作时间、人工翻译何时接介入、以何种方式介入并且在保证准确度的同时能够满足大规模语义翻译的需要,现有技术并未给出有效的解决方案。
发明内容
为解决上述技术问题,本发明提出一种基于专属机翻引擎训练的人机共译系统、基于反馈训练环信号的人机共译方法以及实现该方法的计算机可读存储介质。本发明的技术方案包括源文输入组件以及与所述源文输入组件连接的语义识别模块、专属机翻引擎训练环、人机共译窗口、差异比对界面以及反向比对翻译引擎。所述差异比对界面通过反向比对翻译引擎连接至所述专属机翻引擎训练环,并接收所述语义识别模块的输出结果后,将反向比对翻译引擎的输出结果与所述语义识别模块的输出结果进行差异比对,并将差异比对结果显示在所述人机共译窗口。本发明的技术方案能够最大程度的利用机器翻译的结果,同时最大可能的针对可能错误的翻译结果进行人工校对,在保证效率的同时,提高了准确度,从而提供人工翻译介入的准确时机,使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率,同时确保翻译的准确性。
具体而言,在本发明的第一个方面,提供一种基于专属机翻引擎训练的人机共译系统,所述人机共译系统包括源文输入组件以及与所述源文输入组件连接的语义识别模块。
更具体的,作为体现本发明不同于现有技术的关键技术手段之一,所述人机共译系统还包括专属机翻引擎训练环,所述专属机翻引擎训练环接收来自人机共译窗口的反馈训练环信号;
所述人机共译窗口分别连接差异比对界面与所述专属机翻引擎训练环,所述专属机翻引擎训练环输出对应于所述源译文的至少一个翻译结果并显示在所述人机共译窗口;
所述差异比对界面通过反向比对翻译引擎连接至所述专属机翻引擎训练环,并接收所述语义识别模块的输出结果后,将反向比对翻译引擎的输出结果与所述语义识别模块的输出结果进行差异比对,并将差异比对结果显示在所述人机共译窗口;
其中,所述专属机翻引擎训练环包括多个机器翻译引擎与差异训练核心组件,所述差异训练核心组件选择所述多个机器翻译引擎的其中之一作为所述反向比对翻译引擎,并接收所述反馈训练环信号。
作为体现本发明不同于现有技术的关键技术手段之一,所述专属机翻引擎训练环包括第一机翻引擎、第二机翻引擎与第三机翻引擎,所述专属机翻引擎接收经过所述语义识别模块分析处理的源文后,通过所述第一机翻引擎、第二机翻引擎与第三机翻引擎分别输出第一目标文、第二目标文以及第三目标文;所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度。
更具体的,所述专属机翻引擎训练环基于所述差异度与相似度,输出对应于所述源文的翻译结果至所述人机共译窗口。
所述差异训练核心组件基于所述差异度与相似度选择所述多个机器翻译引擎的其中之一作为所述反向比对翻译引擎。
值得指出的是,在本发明中,能够基于所述人机共译窗口的编辑操作,自动生成所述反馈训练环信号。
为了获得更好的翻译效果,所述语义识别模块接收所述源文输入组件输入的待译源文后,对其进行语义识别,将其拆分为以段落为单位的待译段落子集和/或以句子为单位的待译句子子集。
作为体现本发明创造性的关键技术手段,所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度,得到相似度矩阵与差异度矩阵,基于所述相似度矩阵与差异度矩阵的组合计算结果,选择所述第一目标文、第二目标文以及第三目标文之一作为所述对应于所述源文的翻译结果。
与之相组合的配置实现,所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度,得到相似度矩阵与差异度矩阵,基于所述相似度矩阵与差异度矩阵的组合计算结果,选择所述第一目标文、第二目标文以及第三目标文之一对应的机器翻译引擎作为所述反向比对翻译引擎,所述反向比对翻译引擎将所述选择的所述第一目标文、第二目标文以及第三目标文之一反向翻译为所述源文对应的语种,并输出至所述差异比对界面。
在本发明的第二个方面,还提供一种人机共译方法,所述方法可以采用前述的人机共译系统实现。
具体来说,所述方法基于反馈训练环信号,并包括如下实现步骤:
S101:接收待译源文Tobe;
S102:对所述待译源文Tobe进行语义识别,得到段落子集Grap和/或句子子集Sen;
S103:对于所述段落子集Grap和/或句子子集Sen中的每一个段落Grapi或者每一个句子Seni,执行如下训练过程,直到所有段落子集和/或句子子集Sen均训练完成:
X001:针对每一个段落Grapi或者每一个句子Seni,利用所述专属机翻引擎训练环得到至少三个目译文A1、A2、A3;
X002:分别计算三个目译文A1、A2、A3两两之间的相似度Sij与差异度Dij,从而得到相似度矩阵与差异度矩阵;
其中,i,j∈{1,2,3},Sij表示目译文Ai和目译文Aj之间的相似度,Dij表示目译文Ai和目译文Aj之间的差异度;
X003:基于所述相似度矩阵与差异度矩阵,选择三个目译文A1、A2、A3之一作为每一个段落Grapi或者每一个句子Seni的翻译结果;
X004:基于所述相似度矩阵与差异度矩阵,选择所述三个目译文A1、A2、A3之一对应的机器翻译引擎作为所述反向比对翻译引擎,所述反向比对翻译引擎将所述选择的三个目译文A1、A2、A3之一反向翻译为所述源文对应语种的反向翻译结果-A;
X005:将所述反向翻译结果-A与所述段落Grapi或者句子Seni的差异度对比显示在所述差异比对界面上,并输出给所述人机共译界面。
本发明的上述方法可以通过计算机指令形式的程序代码实现,因此,本发明还提供计算机可读存储介质,其上存储有计算机可执行指令,通过包含存储器和处理器的通信终端,执行所述可执行指令,用于实现前述基于反馈训练环信号的人机共译方法。
本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的人机共译系统的整体架构图。
图2是图1所述人机共译系统中专属机翻引擎训练环的工作架构图。
图3是利用图1所述系统实现的人机共译方法流程图。
图4是图3所述方法的进一步实现细节图。
图5是现有技术的普通机器翻译引擎的效果示意图
图6是利用本发明的技术方案对于图5所述实例的翻译效果示意图
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述。
参照图1,本发明一个实施例的基于专属机翻引擎训练的人机共译系统的整体架构图。
图1中,所述人机共译系统包括源文输入组件以及与所述源文输入组件连接的语义识别模块、专属机翻引擎训练环、人机共译窗口、差异比对界面以及反向比对翻译引擎。
在图1中,所述专属机翻引擎训练环接收来自人机共译窗口的反馈训练环信号;
所述人机共译窗口分别连接差异比对界面与所述专属机翻引擎训练环,所述专属机翻引擎训练环输出对应于所述源译文的至少一个翻译结果并显示在所述人机共译窗口;
所述差异比对界面通过反向比对翻译引擎连接至所述专属机翻引擎训练环,并接收所述语义识别模块的输出结果后,将反向比对翻译引擎的输出结果与所述语义识别模块的输出结果进行差异比对,并将差异比对结果显示在所述人机共译窗口;
其中,所述专属机翻引擎训练环包括多个机器翻译引擎与差异训练核心组件,所述差异训练核心组件选择所述多个机器翻译引擎的其中之一作为所述反向比对翻译引擎,并接收所述反馈训练环信号。
在图1基础上,进一步参见图2,是图1所述人机共译系统中专属机翻引擎训练环的工作架构图。
所述专属机翻引擎训练环包括第一机翻引擎、第二机翻引擎与第三机翻引擎,所述专属机翻引擎接收经过所述语义识别模块分析处理的源文后,通过所述第一机翻引擎、第二机翻引擎与第三机翻引擎分别输出第一目标文、第二目标文以及第三目标文;所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度。
具体来说,所述专属机翻引擎训练环基于所述差异度与相似度,输出对应于所述源文的翻译结果至所述人机共译窗口。
作为一个示意性的例子,所述第一机翻引擎、第二机翻引擎与第三机翻引擎分别输出第一目标文A1、第二目标文A2以及第三目标文A3;
分别计算A1-A3两两之间的相似度Sij以及差异度Dij(i,j∈{1.2.3}),从而得到如下相似度矩阵S与差异度矩阵D:
Figure BDA0002528491470000071
其中,Sij表示Ai和Aj之间的相似度,Dij表示Ai和Aj之间的差异度。
如何计算差异度或者相似度,本领域有多种常见的方法和数值标准,本发明对此不作限制,最后计算出来的相似度或者差异度值均归一化为[0,1]之间,例如,相似度为1表示二者完全相同,差异度为1表示二者完全不同。
在本实施例中,所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度,得到相似度矩阵与差异度矩阵,基于所述相似度矩阵与差异度矩阵的组合计算结果,选择所述第一目标文、第二目标文以及第三目标文之一作为所述对应于所述源文的翻译结果。
具体来说,按照如下方式进行组合计算:
查找所述相似度矩阵S中最大元素值Smax;
查找所述差异度矩阵D中最小元素值Dmin;
将所述最大元素值Smax与最小元素值Dmin对应的共同目标文作为所述所述源文的翻译结果。
作为一个非限制性的例子,假设Smax=S21,Dmin=D32,二者共同的下表为2,则Smax与Dmin对应的共同目标文为A2,因此将A2作为所述源文的翻译结果。
进一步的,在本实施例中,所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度,得到相似度矩阵与差异度矩阵,基于所述相似度矩阵与差异度矩阵的组合计算结果,选择所述第一目标文、第二目标文以及第三目标文之一对应的机器翻译引擎作为所述反向比对翻译引擎,所述反向比对翻译引擎将所述选择的所述第一目标文、第二目标文以及第三目标文之一反向翻译为所述源文对应的语种,并输出至所述差异比对界面。
具体来说,按照如下方式进行组合计算:
查找所述相似度矩阵S中最小元素值Smin;
查找所述差异度矩阵D中最大元素值Dmax;
将输出所述最小元素值Smin与最大元素值Dmax对应的共同目标译文的机器翻译引擎作为所述反向比对翻译引擎。
作为一个非限制性的例子,假设Smin=S31,Dmax=D32,二者共同的下表为3,则Smin与Dmax对应的共同目标文为A3,由于A3对应第三机翻引擎,则将第三机翻引擎作为所述反向比对翻译引擎。
在图1-图2基础上,图3是利用图1所述系统实现的人机共译方法流程图。
所述方法包括步骤S101与S103,各个步骤具体实现如下:
S101:接收待译源文Tobe;
S102:对所述待译源文Tobe进行语义识别,得到段落子集Grap和/或句子子集Sen;
S103:对于所述段落子集Grap和/或句子子集Sen中的每一个段落Grapi或者每一个句子Seni,执行如下训练过程,直到所有段落子集和/或句子子集Sen均训练完成。
所述训练过程的具体流程参见图4:
X001:针对每一个段落Grapi或者每一个句子Seni,利用所述专属机翻引擎训练环得到至少三个目译文A1、A2、A3;
X002:分别计算三个目译文A1、A2、A3两两之间的相似度Sij与差异度Dij,从而得到相似度矩阵与差异度矩阵;
其中,i,j∈{1,2,3},Sij表示目译文Ai和目译文Aj之间的相似度,Dij表示目译文Ai和目译文Aj之间的差异度;
X003:基于所述相似度矩阵与差异度矩阵,选择三个目译文A1、A2、A3之一作为每一个段落Grapi或者每一个句子Seni的翻译结果;
X004:基于所述相似度矩阵与差异度矩阵,选择所述三个目译文A1、A2、A3之一对应的机器翻译引擎作为所述反向比对翻译引擎,所述反向比对翻译引擎将所述选择的三个目译文A1、A2、A3之一反向翻译为所述源文对应语种的反向翻译结果-A;
X005:将所述反向翻译结果-A与所述段落Grapi或者句子Seni的差异度对比显示在所述差异比对界面上,并输出给所述人机共译界面。
本发明中,所述相似度矩阵与差异度矩阵的每一个元素可设置可调节的权重值,作为反馈环信号,在每次选择出目译文以及反向比对翻译引擎后,降低所述反向比对翻译引擎对应的相似度矩阵元素的权重;相对应的,提升输出所述最大元素值Smax与最小元素值Dmin对应的共同目标译文的机器翻译引擎对应的差异度矩阵元素的权重。
接下来参见图5-6,是本发明上述实施例在具体一个翻译过程的效果图。
图5-6中,待译语段为:
“对于执行税收协定如何鉴别对方国家居民身仹和给予税收协定待遇,总局以[86]财税协字第14号文通知并印发了外国居民享受税收协定待遇申请表及填表须知,其中要求该表由受益所有人填写。”
现有技术某常规机翻引擎的翻译结果见图5,其中,将将“受益所有人”翻译成“Benefit from everyone”,将“[86]财税协字”翻译为“[86]Caishui Association”;
而利用本发明的技术方案,通过反馈训练与人工调整,将“受益所有人”正确翻译成“beneficiaries”,将“[86]财税协字”正确翻译的译文为“Cai Shui Xie Zi[1986]”其中86-1986的修正,代表了本发明中反馈训练环信号的自动优化与人机共译系统的智能学习结果,具体参见图6。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于专属机翻引擎训练的人机共译系统,所述人机共译系统包括源文输入组件以及与所述源文输入组件连接的语义识别模块,
其特征在于:
所述人机共译系统还包括专属机翻引擎训练环,所述专属机翻引擎训练环接收来自人机共译窗口的反馈训练环信号;
所述人机共译窗口分别连接差异比对界面与所述专属机翻引擎训练环,所述专属机翻引擎训练环输出对应于所述源译文的至少一个翻译结果并显示在所述人机共译窗口;
所述差异比对界面通过反向比对翻译引擎连接至所述专属机翻引擎训练环,并接收所述语义识别模块的输出结果后,将反向比对翻译引擎的输出结果与所述语义识别模块的输出结果进行差异比对,并将差异比对结果显示在所述人机共译窗口;
其中,所述专属机翻引擎训练环包括多个机器翻译引擎与差异训练核心组件,所述差异训练核心组件选择所述多个机器翻译引擎的其中之一作为所述反向比对翻译引擎,并接收所述反馈训练环信号。
2.如权利要求1所述的人机共译系统,其特征在于:所述专属机翻引擎训练环包括第一机翻引擎、第二机翻引擎与第三机翻引擎,所述专属机翻引擎接收经过所述语义识别模块分析处理的源文后,通过所述第一机翻引擎、第二机翻引擎与第三机翻引擎分别输出第一目标文、第二目标文以及第三目标文;所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度。
3.如权利要求2所述的人机共译系统,其特征在于:所述专属机翻引擎训练环基于所述差异度与相似度,输出对应于所述源文的翻译结果至所述人机共译窗口。
4.如权利要求2所述的人机共译系统,其特征在于:所述差异训练核心组件基于所述差异度与相似度选择所述多个机器翻译引擎的其中之一作为所述反向比对翻译引擎。
5.如权利要求1所述的人机共译系统,其特征在于:基于所述人机共译窗口的编辑操作,自动生成所述反馈训练环信号。
6.如权利要求1所述的人机共译系统,其特征在于:所述语义识别模块接收所述源文输入组件输入的待译源文后,对其进行语义识别,将其拆分为以段落为单位的待译段落子集和/或以句子为单位的待译句子子集。
7.如权利要求3或4所述的人机共译系统,其特征在于:所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度,得到相似度矩阵与差异度矩阵,基于所述相似度矩阵与差异度矩阵的组合计算结果,选择所述第一目标文、第二目标文以及第三目标文之一作为所述对应于所述源文的翻译结果。
8.如权利要求3或4所述的人机共译系统,其特征在于:所述差异训练核心组件计算所述第一目标文、第二目标文以及第三目标文两两之间的差异度与相似度,得到相似度矩阵与差异度矩阵,基于所述相似度矩阵与差异度矩阵的组合计算结果,选择所述第一目标文、第二目标文以及第三目标文之一对应的机器翻译引擎作为所述反向比对翻译引擎,所述反向比对翻译引擎将所述选择的所述第一目标文、第二目标文以及第三目标文之一反向翻译为所述源文对应的语种,并输出至所述差异比对界面。
9.一种基于反馈训练环信号的人机共译方法,所述方法包括如下步骤:
S101:接收待译源文Tobe;
S102:对所述待译源文Tobe进行语义识别,得到段落子集Grap和/或句子子集Sen;
S103:对于所述段落子集Grap和/或句子子集Sen中的每一个段落Grapi或者每一个句子Seni,执行如下训练过程,直到所有段落子集和/或句子子集Sen均训练完成:
X001:针对每一个段落Grapi或者每一个句子Seni,利用所述专属机翻引擎训练环得到至少三个目译文A1、A2、A3;
X002:分别计算三个目译文A1、A2、A3两两之间的相似度Sij与差异度Dij,从而得到相似度矩阵与差异度矩阵;
其中,i,j∈{1,2,3},Sij表示目译文Ai和目译文Aj之间的相似度,Dij表示目译文Ai和目译文Aj之间的差异度;
X003:基于所述相似度矩阵与差异度矩阵,选择三个目译文A1、A2、A3之一作为每一个段落Grapi或者每一个句子Seni的翻译结果;
X004:基于所述相似度矩阵与差异度矩阵,选择所述三个目译文A1、A2、A3之一对应的机器翻译引擎作为所述反向比对翻译引擎,所述反向比对翻译引擎将所述选择的三个目译文A1、A2、A3之一反向翻译为所述源文对应语种的反向翻译结果-A;
X005:将所述反向翻译结果-A与所述段落Grapi或者句子Seni的差异度对比显示在所述差异比对界面上,并输出给所述人机共译界面。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,通过存储器和处理器执行所述可执行指令,用于实现权利要求9所述的方法。
CN202010508347.2A 2020-06-09 2020-06-09 基于专属机翻引擎训练的人机共译系统与方法 Active CN111680527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010508347.2A CN111680527B (zh) 2020-06-09 2020-06-09 基于专属机翻引擎训练的人机共译系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010508347.2A CN111680527B (zh) 2020-06-09 2020-06-09 基于专属机翻引擎训练的人机共译系统与方法

Publications (2)

Publication Number Publication Date
CN111680527A true CN111680527A (zh) 2020-09-18
CN111680527B CN111680527B (zh) 2023-09-19

Family

ID=72454338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010508347.2A Active CN111680527B (zh) 2020-06-09 2020-06-09 基于专属机翻引擎训练的人机共译系统与方法

Country Status (1)

Country Link
CN (1) CN111680527B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818707A (zh) * 2021-01-19 2021-05-18 传神语联网网络科技股份有限公司 基于逆向文本共识的多翻引擎协作语音翻译系统与方法
CN114282551A (zh) * 2021-11-15 2022-04-05 北京百度网讯科技有限公司 翻译方法、装置、电子设备及存储介质
CN117195922A (zh) * 2023-11-07 2023-12-08 四川语言桥信息技术有限公司 一种人在回路的神经机器翻译方法、系统及可读存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220616A (ja) * 2003-01-14 2004-08-05 Cross Language Inc 3つ以上の対訳画面を同時に表示し編集可能にする機械翻訳装置
US20070124263A1 (en) * 2005-11-30 2007-05-31 Microsoft Corporation Adaptive semantic reasoning engine
US20090248422A1 (en) * 2008-03-28 2009-10-01 Microsoft Corporation Intra-language statistical machine translation
US20090326912A1 (en) * 2006-08-18 2009-12-31 Nicola Ueffing Means and a method for training a statistical machine translation system
US20120158621A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Structured cross-lingual relevance feedback for enhancing search results
US20140358524A1 (en) * 2011-11-03 2014-12-04 Rex Partners Oy Machine translation quality measurement
US20160092427A1 (en) * 2014-09-30 2016-03-31 Accenture Global Services Limited Language Identification
US20160147740A1 (en) * 2014-11-24 2016-05-26 Microsoft Technology Licensing, Llc Adapting machine translation data using damaging channel model
EP3026614A1 (en) * 2014-11-25 2016-06-01 Lionbridge Technologies, Inc. Information technology platform for language translations and task management
US9922029B1 (en) * 2016-06-30 2018-03-20 Facebook, Inc. User feedback for low-confidence translations
US20180314689A1 (en) * 2015-12-22 2018-11-01 Sri International Multi-lingual virtual personal assistant
CN109460558A (zh) * 2018-12-06 2019-03-12 云知声(上海)智能科技有限公司 一种语音翻译系统的效果评判方法
WO2019237806A1 (zh) * 2018-06-12 2019-12-19 深圳市合言信息科技有限公司 语音识别及翻译方法以及翻译装置
CN110874535A (zh) * 2018-08-28 2020-03-10 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质
WO2020062392A1 (zh) * 2018-09-28 2020-04-02 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220616A (ja) * 2003-01-14 2004-08-05 Cross Language Inc 3つ以上の対訳画面を同時に表示し編集可能にする機械翻訳装置
US20070124263A1 (en) * 2005-11-30 2007-05-31 Microsoft Corporation Adaptive semantic reasoning engine
US20090326912A1 (en) * 2006-08-18 2009-12-31 Nicola Ueffing Means and a method for training a statistical machine translation system
US20090248422A1 (en) * 2008-03-28 2009-10-01 Microsoft Corporation Intra-language statistical machine translation
US20120158621A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Structured cross-lingual relevance feedback for enhancing search results
US20140358524A1 (en) * 2011-11-03 2014-12-04 Rex Partners Oy Machine translation quality measurement
US20160092427A1 (en) * 2014-09-30 2016-03-31 Accenture Global Services Limited Language Identification
US20160147740A1 (en) * 2014-11-24 2016-05-26 Microsoft Technology Licensing, Llc Adapting machine translation data using damaging channel model
EP3026614A1 (en) * 2014-11-25 2016-06-01 Lionbridge Technologies, Inc. Information technology platform for language translations and task management
US20180314689A1 (en) * 2015-12-22 2018-11-01 Sri International Multi-lingual virtual personal assistant
US9922029B1 (en) * 2016-06-30 2018-03-20 Facebook, Inc. User feedback for low-confidence translations
WO2019237806A1 (zh) * 2018-06-12 2019-12-19 深圳市合言信息科技有限公司 语音识别及翻译方法以及翻译装置
CN110874535A (zh) * 2018-08-28 2020-03-10 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质
WO2020062392A1 (zh) * 2018-09-28 2020-04-02 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品
CN109460558A (zh) * 2018-12-06 2019-03-12 云知声(上海)智能科技有限公司 一种语音翻译系统的效果评判方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
于惠;谢军;熊皓;吕雅娟;刘群;林守勋;: "基于篇章上下文的统计机器翻译方法", 中文信息学报, no. 02, pages 86 - 90 *
尹瑞程;叶娜;蔡东风;: "基于用户反馈的统计机器翻译短语表优化方法" *
尹瑞程;叶娜;蔡东风;: "基于用户反馈的统计机器翻译短语表优化方法", 沈阳航空航天大学学报, no. 03, pages 75 - 80 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818707A (zh) * 2021-01-19 2021-05-18 传神语联网网络科技股份有限公司 基于逆向文本共识的多翻引擎协作语音翻译系统与方法
CN112818707B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 基于逆向文本共识的多翻引擎协作语音翻译系统与方法
CN114282551A (zh) * 2021-11-15 2022-04-05 北京百度网讯科技有限公司 翻译方法、装置、电子设备及存储介质
CN114282551B (zh) * 2021-11-15 2023-02-24 北京百度网讯科技有限公司 翻译方法、装置、电子设备及存储介质
CN117195922A (zh) * 2023-11-07 2023-12-08 四川语言桥信息技术有限公司 一种人在回路的神经机器翻译方法、系统及可读存储介质
CN117195922B (zh) * 2023-11-07 2024-01-26 四川语言桥信息技术有限公司 一种人在回路的神经机器翻译方法、系统及可读存储介质

Also Published As

Publication number Publication date
CN111680527B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
US20210209313A1 (en) Translation methods and systems
CN111680527A (zh) 基于专属机翻引擎训练的人机共译系统与方法
CN105279149A (zh) 一种中文文本自动校正方法
KR20110028123A (ko) 모바일 기기에서 사용자 상호작용을 이용한 자동 번역 장치 및 그 방법
CN111680524B (zh) 基于逆向矩阵分析的人机反馈翻译方法与系统
CN114297987B (zh) 基于文本分类和阅读理解的文档信息抽取方法及系统
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
Talafha et al. ATAR: Attention-based LSTM for Arabizi transliteration
Tursun et al. Noisy Uyghur text normalization
Liu Research on the development of computer intelligent proofreading system based on the perspective of English translation application
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
CN106844357B (zh) 大句库翻译方法
CN102135957A (zh) 一种翻译短句的方法及装置
Granell et al. Study of the influence of lexicon and language restrictions on computer assisted transcription of historical manuscripts
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
CN111680523B (zh) 基于上下文语义比对的人机协同翻译系统与方法
Verma et al. A Novel Framework for Ancient Text Translation Using Artificial Intelligence
CN113705223A (zh) 以读者为中心的个性化英文文本简化方法
CN106844355A (zh) 一种日期时间自动翻译控制方法
Duan et al. Research on Chinese Text Error Correction Based on Sequence Model
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
Carvalho et al. Bootstrapping a data-set and model for question-answering in Portuguese (short paper)
CN116738984B (zh) 一种基于提示学习的自动化数据标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant