CN109344408A - 一种译文检测方法、装置及电子设备 - Google Patents

一种译文检测方法、装置及电子设备 Download PDF

Info

Publication number
CN109344408A
CN109344408A CN201810971782.1A CN201810971782A CN109344408A CN 109344408 A CN109344408 A CN 109344408A CN 201810971782 A CN201810971782 A CN 201810971782A CN 109344408 A CN109344408 A CN 109344408A
Authority
CN
China
Prior art keywords
translation
sentence
detected
target
testing result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810971782.1A
Other languages
English (en)
Other versions
CN109344408B (zh
Inventor
冯博渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810971782.1A priority Critical patent/CN109344408B/zh
Publication of CN109344408A publication Critical patent/CN109344408A/zh
Application granted granted Critical
Publication of CN109344408B publication Critical patent/CN109344408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种译文检测方法、装置及电子设备,属于语言处理技术领域,所述译文检测方法包括:获取第一译文,所述第一译文是由译员针对原文翻译得到;获取多个第二译文,所述多个第二译文是由不同机器翻译引擎针对所述原文翻译得到;计算所述第一译文与所述多个第二译文的匹配度;根据所述匹配度,确定目标第二译文;根据所述目标第二译文,确定所述第一译文的检测结果。本发明根据目标第二译文来确定第一译文是否有参考机器翻译引擎的翻译结果,从而可以有效的提高翻译测评集中的译文的可靠性,避免翻译评测集中出现不合格译文,有利于节约成本,实现对译员翻译的译文的批量检测。

Description

一种译文检测方法、装置及电子设备
技术领域
本发明涉及语言处理技术领域,特别涉及一种译文检测方法、装置及电子设备。
背景技术
随着计算机技术的发展,机器翻译(Machine Translation)的应用越来越广泛,机器翻译为采用机器翻译引擎(例如,百度翻译、Google翻译、有道翻译等等)将输入的源语言语句转换成目标语言语句,其中,机器翻译引擎决定了翻译得到的目标语言语句的质量高低,因此,需要对各个机器翻译引擎进行评价。
在对机器翻译引擎进行评价时,需要用到翻译评测集,该翻译评测集中包括原文和译文,其中,该译文一般是由专业的译员根据原文翻译获得。在制作翻译测评集时经常需要雇佣一些译员和翻译公司进行原文的翻译工作,由于制作的翻译测评集用来评价机器翻译引擎,因此,该翻译测评集中的译文是不是参考了机器翻译引擎的翻译结果,会影响对于机器翻译引擎评价的准确性。那么,如何确定翻译评测集中译员翻译的译文是否有参考机器翻译引擎的翻译结果就成了一个非常重要的问题。
因此,需要提供一种可靠或者有效的方案,以确定翻译评测集中的译文是否有参考机器翻译引擎的翻译结果,避免出现不合格译文导致的成本的增加。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种译文检测方法、装置及电子设备。所述技术方案如下:
一方面,提供了一种译文检测方法,所述方法包括:
获取第一译文,所述第一译文是由译员针对原文翻译得到;
获取多个第二译文,所述多个第二译文是由不同机器翻译引擎针对所述原文翻译得到;
计算所述第一译文与所述多个第二译文的匹配度;
根据所述匹配度,确定目标第二译文;
根据所述目标第二译文,确定所述第一译文的检测结果。
另一方面,提供了一种译文检测装置,所述装置包括:
第一获取模块,用于获取第一译文,所述第一译文是由译员针对原文翻译得到;
第二获取模块,用于获取多个第二译文,所述多个第二译文是由不同机器翻译引擎针对所述原文翻译得到;
第一计算模块,用于计算所述第一译文与所述多个第二译文的匹配度;
第一确定模块,用于根据所述匹配度,确定目标第二译文;
第二确定模块,用于根据所述目标第二译文,确定所述第一译文的检测结果。
另一方面,提供了一种电子设备,包括:
处理器,适于实现一条或一条以上指令;以及,
存储器,所述存储器存储有一条或一条以上指令,所述一条或一条以上指令适于由所述处理器加载并执行上述的译文检测方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明通过计算译员翻译的第一译文与不同机器翻译引擎翻译的第二译文的匹配度,根据该匹配度确定目标第二译文,并根据该目标第二译文来确定第一译文的检测结果是否为合格译文,即根据目标第二译文来确定第一译文是否有参考机器翻译引擎的翻译结果,从而可以有效的提高翻译评测集中的译文的可靠性,避免翻译评测集中出现不合格译文,有利于节约成本,实现对译员翻译的译文的批量检测。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种译文检测方法的流程示意图;
图2是本发明实施例提供的根据所述目标第二译文确定所述第一译文的检测结果的一种流程示意图;
图3是本发明实施例提供的根据所述待检测语句集合确定所述第一译文的检测结果的一种流程示意图;
图4是本发明实施例提供的一种译文检测装置的结构示意图;
图5是本发明实施例提供的第一确定模块的一种结构示意图;
图6是本发明实施例提供的第二确定模块的一种结构示意图;
图7是本发明实施例提供的第三确定模块的一种结构示意图;
图8是本发明实施例提供的第四确定子模块的一种结构示意图;
图9是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
一般用于机器翻译引擎评价用的翻译评测集中包含由专业译员翻译的译文,这些译文的可靠性对于机器翻译引擎评价的准确性至关重要,因此需要对翻译评测集中译员翻译的译文进行检测,以避免译员翻译的译文参考了机器翻译引擎的翻译结果导致的影响对于机器翻译引擎评价的准确性的问题。此外,目前专业译员翻译的成本一般在千字120-150元人民币,若译员的译文参考了机器翻译引擎的翻译结果,那么该译文可能会是不合格译文,不合格译文的存在将会大大增加成本,因此,需要及时发现翻译评测集中的这类不合格译文,以返回给负责该译文的译员进行重新翻译。
针对上述问题,本发明提供了一种译文检测方法,该方法将译员针对原文翻译的译文与不同机器翻译引擎针对同样的原文翻译的翻译结果进行相似程度计算,然后根据相似程度计算结果确定与译员翻译的译文最为接近的机器翻译引擎的翻译结果,并进一步根据该最为接近的机器翻译引擎的翻译结果来确定译员翻译的译文是否有参考该机器翻译引擎的翻译结果,从而可以有效的提高翻译评测集中译文的可靠性,避免翻译评测集中出现不合格译文,有利于节约成本,实现对译员翻译的译文的批量检测。
下面将参考图1对本发明实施例的译文检测方法进行详细的描述。图1所示为本发明实施例提供的一种译文检测方法的流程示意图。具体的所述方法可以包括:
S102,获取第一译文,所述第一译文是由译员针对原文翻译得到。
在制作翻译评测集时,可以将准备好的待翻译的原文递交给翻译公司,由翻译公司分配给译员进行人工翻译,或者直接将准备好的待翻译的原文递交给译员进行人工翻译,一般进行翻译的译员为专业译员。在译员完成对原文的翻译得到对应的译文后,可以获取该译员针对上述原文翻译的译文,作为第一译文。
需要说明的是,本说明书实施例中提及的译文检测方法即为针对该第一译文即译员翻译的译文进行的检测。
S104,获取多个第二译文,所述多个第二译文是由不同机器翻译引擎针对所述原文翻译得到。
在本说明书实施例中,在将上述待翻译的原文分配给译员进行人工翻译后,还可以采用多个不同的机器翻译引擎对该原文进行机器翻译,得到对应的机器翻译结果,作为第二译文。机器翻译引擎可以是现有技术中的已有机器翻译引擎,例如可以是百度翻译、Google翻译、有道翻译、Bing翻译、小牛翻译、搜狗翻译、腾讯翻译君等等。当然,为了确保对所述第一译文检测结果的可靠性,上述不同的机器翻译引擎应尽量包含已有的所有机器翻译引擎。
需要说明的是,在执行步骤S102和步骤S104时,也可以先执行步骤S104,然后执行步骤S102,本说明书实施例不对步骤S102和步骤S104的执行顺序进行限定。
S106,计算所述第一译文与所述多个第二译文的匹配度。
在本说明书实施例中,匹配度用于表征第一译文与第二译文的相似程度,可以分别计算第一译文与每个第二译文的匹配度。
具体的,在进行第一译文与每个第二译文的匹配度的计算时,可以基于预设多阶语言模型来计算第一译文与第二译文的每一阶重合精度;对所述第一译文与第二译文的每一阶重合精度进行加权平均,得到组合精度;根据所述第一译文的长度和第二译文的长度,计算惩罚因子,然后根据所述组合精度和惩罚因子,计算所述第一译文与第二译文的匹配度。
在一个具体实施例中,可以采用如下公式来计算第一译文与第二译文的匹配度:
其中,BLEU表示第一译文与所述多个第二译文中任意一个第二译文间的匹配度;一般BLEU的取值范围为[0,1],BLEU的取值越接近0,则表示第一译文与第二译文的匹配度越不好,即相似程度越低;反之,BLEU的取值越接近1,则表示第一译文与第二译文的匹配度越好,即相似程度越高。
Pn表示基于预设多阶语言模型计算的重合精度,所述预设多阶语言模型可以为n-gram语言模型,该n-gram语言模型可以将一句话表示为“n个连续的单词”序列,其中的n还代表了该语言模型的阶数,例如,1-gram的阶数为1,其可以将一句话表示为“1个连续的单词”序列,2-gram的阶数为2,其可以将一句话表示为“2个连续的单词”序列。
举例而言,句子“Today is a nice day”采用n-gram语言模型处理时,考虑阶数为1即1-gram时,可以表示为“Today,is,a,nice,day”;考虑阶数为2即2-gram时,可以表示为“Today is,is a,a nice,nice day”。
相对应的,
其中,ci表示第二译文中的第i个句子;sj表示第一译文中的第j个句子,且ci和sj对应于原文中的同一语句;hk(ci)表示第k组“n个连续的单词”在第二译文中的第i个句子中出现的次数,hk(sj))表示第k组“n个连续的单词”在第一译文中的第j个句子中出现的次数。
举例而言,原文中的语句为“今天天气不错”,第一译文针对该语句的翻译sj为“Today is a nice day”,第二译文针对该语句的翻译ci为“It is a nice day today”,则,考虑阶数为1即1-gram时,第二译文针对该语句的翻译ci可以表示为“it,is,a,nice,day,today”,第一译文针对该语句的翻译sj可以表示为“Today,is,a,nice,day”,则,∑k(hk(ci))=1+1+1+1+1+1=6;∑kmin(hk(ci),hk(sj))=0+1+1+1+1+1+0=5;考虑阶数为2即2-gram时,第二译文针对该语句的翻译ci可以表示为“it is,is a,a nice,nice day,daytoday”,第一译文针对该语句的翻译sj可以表示为“Today is,is a,a nice,nice day”,则,∑k(hk(ci))=1+1+1+1+1=5;∑k min(hk(ci),hk(sj))=0+1+1+1+0=3;考虑阶数为3即3-gram时,第二译文针对该语句的翻译ci可以表示为“it is a,is a nice,a nice day,nice day today”,第一译文针对该语句的翻译sj可以表示为“Today is a,is anice,anice day”,则,∑k(hk(ci))=1+1+1+1=4;∑kmin(hk(ci),hk(sj))=0+1+1+0=2;考虑阶数为4即4-gram时,第二译文针对该语句的翻译ci可以表示为“it is a nice,is a niceday,a nice day today”,第一译文针对该语句的翻译sj可以表示为“Today is a nice,isa nice day”,则,∑k(hk(ci))=1+1+1=3;∑kmin(hk(ci),hk(sj))=0+1+0=1;基于上述n-gram语言模型计算的各阶重合精度Pn如下表所示:
表1
∑<sub>k</sub>(h<sub>k</sub>(c<sub>i</sub>)) ∑<sub>k</sub>min(h<sub>k</sub>(c<sub>i</sub>),h<sub>k</sub>(s<sub>j</sub>)) P<sub>n</sub>
1-gram 6 5 5/6
2-gram 5 3 3/5
3-gram 4 2 2/4
4-gram 3 1 1/3
需要说明的是,以上所述为基于n-gram语言模型计算第一译文与每个第二译文的各阶重合精度的一个示例,实际应用中,可以根据需要计算更多或者更少阶数的重合精度;另外,还可以基于其他的预设多阶语言模型计算第一译文与第二译文的各阶重合精度,本发明对此不作具体限制。
在本说明书实施例中,由于基于n-gram语言模型计算的重合精度存在随着阶数的升高而呈指数形式递减,为了平衡各阶重合精度的作用,对第一译文与第二译文的每一阶重合精度采用加权平均,得到组合精度。
在上述计算匹配度的公式中,对第一译文与第二译文的每一阶重合精度可以采用几何加权平均,并取各阶重合精度的权重wn服从均匀分布,得到组合精度Pz,即:其中,N表示n-gram语言模型的最大阶数,wn=1/N。
于前述举例中,组合精度
此外,在基于n-gram语言模型计算重合精度时,可能会存在为了尽量减少翻译错误,而只翻译原文语句中的一部分,为了避免这种现象的出现,在计算第一译文与第二译文的匹配度时,引入了惩罚因子BP,以用于对译句较短的惩罚。
其中,表示第二译文中的第i个句子的长度,表示第一译文中的第j个句子的长度,且ci和sj对应于原文中的同一语句。该式表明,当第二译文中的第i个句子的长度大于第一译文中的第j个句子的长度时,惩罚因子为1,即不惩罚;当第二译文中的第i个句子的长度小于或者等于第一译文中的第j个句子的长度时,计算惩罚因子,即进行惩罚。
于前述举例中,第二译文的长度为6,第一译文的长度为5,即因此,惩罚因子BP为1。
则在前述举例中,第一译文与第二译文的匹配度BLEU=1*exp(-0.2698)=0.7635。
需要说明的是,上述仅仅是计算第一译文与第二译文的匹配度的一个可选示例,并非对本发明的限制。
S108,根据所述匹配度,确定目标第二译文。
在本说明书实施例中,目标第二译文是指与第一译文的相似程度最高的第二译文。具体的,在上述步骤S106中,可以计算得到第一译文与各个第二译文的匹配度,在本步骤中,可以按照计算的匹配度由高到低对多个第二译文进行降序排列,将排序在第一位的第二译文确定为目标第二译文;当然,也可以按照匹配度由低至高对多个第二译文进行升序排列,将排序在最后第一位的第二译文确定为目标第二译文。
需要说明的是,当相似程度最高的第二译文存在多个时,可以随机从所述相似程度最高的多个第二译文中选取一个作为目标第二译文;当然,也可以将该多个相似程度最高的第二译文均确定为目标第二译文。
S110,根据所述目标第二译文,确定所述第一译文的检测结果。
在本说明书实施例中,第一译文的检测结果包括为合格译文和不合格译文,当确定第一译文有参考目标第二译文所对应的机器翻译引擎的翻译结果时,可以认为该第一译文为不合格译文,此时可以将该不合格的第一译文返回给负责该译文的译员以使得重新针对原文进行翻译。
具体的,根据所述目标第二译文,确定所述第一译文的检测结果可以采用图2所示的方法。图2所示为本发明实施例提供的根据所述目标第二译文确定所述第一译文的检测结果的一种流程示意图,如图2所示,该方法可以包括:
S202,计算所述第一译文中的语句与所述目标第二译文中对应的语句之间的相似度。
在本说明书实施例中,由于目标第二译文是与第一译文相似程度最高的第二译文,那么第一译文很有可能就参考了目标第二译文。在判断第一译文是否有参考目标第二译文时,可以计算第一译文中的语句i与目标第二译文中对应的语句j之间的相似度。此处的语句i与语句j为针对待翻译的原文中的同一语句的翻译结果。语句i可以是第一译文的开头语句至末尾语句中的任意一个语句。
具体的,可以用第一译文中的语句i与目标第二译文中对应的语句j之间的编辑距离来表征相似度。编辑距离是指两个字符串之间,由一个转成另一个字符串所需的最少编辑操作次数。字符串许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,再删除一个字符。例如,将字符串abe替换成字符串a需要有两2个操作,abe替换成字符串ab需要有一个操作,abe替换成字符串abc需要有一个操作。
一般而言,编辑距离越小,两个字符串的相似程度越大;反之,编辑距离越大,两个字符串的相似程度越小。计算相似度时,可以先取两个字符串长度的最大值Lmax,利用得到相似度。例如,abe替换成字符串abc需要有一个操作,这两个字符串最大长度为3,相似度为
需要说明的是,上述仅仅是计算相似度的一个可选示例,并非对本发明的限制,实际应用中,还可以采用其他的相似度计算方法来确定语句i与语句j的相似度,例如欧氏距离、余弦相似度、Jaccard距离等等。
S204,判断所述相似度是否大于或者等于第一预设阈值,在所述相似度大于或者等于第一预设阈值时,确定所述第一译文中的语句为待检测语句。
在本说明书实施例中,当计算出第一译文中的语句i与目标第二译文中的对应语句j的相似度之后,可以判断该相似度是否大于或者等于第一预设阈值,例如,第一预设阈值为0.95或者第一预设阈值为1。在计算的相似度大于或者等于第一预设阈值时,说明第一译文中的语句i可能参考了目标第二译文中的语句j,此时,将第一译文中的语句i确定为待检测语句。
在实际应用中,可以从第一译文的开头语句开始计算,直至第一译文的末尾语句,如此可以确定出第一译文中的所有待检测语句。
S206,获取所述待检测语句,得到待检测语句集合。
在通过上述步骤S204确定出待检测语句后,可以获取第一译文中的所有待检测语句,以形成一个待检测语句集合,该待检测语句集合可以用于后续的对于第一译文的检测。
S208,根据所述待检测语句集合,确定所述第一译文的检测结果。
由于待检测语句集合中的待检测语句均为可能参考了目标第二译文中的翻译结果,因此,后续根据对该待检测语句集合的评判,可以确定第一译文的检测结果。
具体的,根据所述待检测语句集合,确定所述第一译文的检测结果可以参考图3所示的方法。图3所示为本发明实施例提供的根据所述待检测语句集合确定所述第一译文的检测结果的一种流程示意图。如图3所示,该方法可以包括:
S302,判断所述待检测语句集合中是否包含连续的待检测语句;所述连续的待检测语句为在第一译文中连续出现的语句。
在本说明书实施例中,可以从第一译文的开头至末尾为各个语句设置连续的编号,在前述获取待检测语句时,同时获取该待检测语句的编号。那么在本步骤中,通过待检测语句的编号就可以确定待检测语句集合中是否包含连续的待检测语句。
当判断结果为是时,可以执行步骤S304;当判断结果为否时,可以执行步骤S310。
S304,在所述待检测语句集合中包含连续的待检测语句时,获取所述连续的待检测语句的第一数量。
在本说明书实施例中,当判断结果为待检测语句集合中包含连续的待检测语句时,可以获取该连续的待检测语句所述包含的待检测语句的第一数量。例如,连续的待检测语句的编号为10,11,12,13,则该连续的待检测语句所述包含的待检测语句的第一数量为4。
当然,待检测语句集合中可能包含多个连续的待检测语句,在待检测语句集合中包含多个连续的待检测语句时,可以分别获取各个连续的待检测语句所包含的待检测语句的数量,然后将最大数量确定为第一数量。例如,待检测语句集合中包含编号为10,11,12,13的连续的待检测语句,以及编号为101,102,103,104……,110的连续的待检测语句,其中,二者所包含的待检测语句的数量分别为4和10,则本步骤确定的第一数量为最大数量10。
S306,判断所述第一数量是否大于或者等于第二预设阈值。
在本说明书实施例中,第二预设阈值可以根据历史检测结果进行设置,例如第二预设阈值可以设置为100等等。
当判断结果为是时,可以执行步骤S308;当判断结果为否时,可以执行步骤S310。
S308,在所述第一数量大于或者等于第二预设阈值时,确定所述第一译文的检测结果为不合格译文。
当第一数量大于第二预设阈值,则表明第一译文中有大量的连续翻译语句与目标第二译文中的翻译语句极其相似,即可以认为第一译文中的该部分连续翻译语句参考了目标第二译文,即第一译文参考了该目标第二译文所对应的机器翻译引擎的翻译结果,其为不合格译文。
S310,根据所述待检测语句集合中各待检测语句的流畅度和/或翻译忠实度,确定所述第一译文的检测结果。
在本说明书实施例中,当待检测语句集合中不包含连续的待检测语句时,或者,当第一数量小于第二预设阈值时,可以通过人工对待检测语句集合中的待检测语句进行检测。具体的,人工在对待检测语句进行检测时可以考虑待检测语句的流畅度和/或翻译忠实度,此处的流畅度是指待检测语句的流畅程度,可以采用能够表征语句流畅程度的数值表示,一般该数值越大,则语句的流畅程度越好;反之,该数值越小,则语句的流畅程度越差;翻译忠实度是指待检测语句所表达的语义与原文中对应的语句的语义一致性程度,该翻译忠实度也可以采用能够表征语义一致性程度的数值表示,一般该数值越大,则语义一致性程度越高;反之,该数值越小,则语义一致性程度越小。
在实际应用中,通过对待检测语句集合中的各条待检测语句进行流畅度和/或翻译忠实度进行检测,可以将不满足预设要求的待检测语句进行标记。此处的预设要求可以人为根据需要进行设置,例如,只对流畅度和/或翻译忠实度极差的待检测语句进行标记。然后,统计待检测语句集合中,流畅度和/或翻译忠实度不满足预设要求的待检测语句的第二数量;判断该第二数量是否大于或者等于第三预设阈值,此处的第三预设阈值也可以根据历史检测结果进行设置;在第二数量大于或者等于第三预设阈值时,可以确定该第一译文的检测结果为不合格译文。
综上,本发明实施例通过计算译员翻译的第一译文与不同机器翻译引擎翻译的第二译文的匹配度,根据该匹配度确定目标第二译文,并根据该目标第二译文来确定第一译文的检测结果是否为合格译文,即根据目标第二译文来确定第一译文是否有参考机器翻译引擎的翻译结果,从而可以有效的提高翻译评测集中的译文的可靠性,避免翻译评测集中出现不合格译文,有利于节约成本,能够实现对译员翻译的译文的批量检测。
与上述几种实施例提供的译文检测方法相对应,本发明实施例还提供一种译文检测装置,由于本发明实施例提供的译文检测装置与上述几种实施例提供的译文检测方法相对应,因此前述译文检测方法的实施方式也适用于本实施例提供的译文检测装置,在本实施例中不再详细描述。
请参阅图4,其所示为本发明实施提供的一种译文检测装置的结构示意图,如图4所示,该装置可以包括:第一获取模块410,第二获取模块420,第一计算模块430,第一确定模块440和第二确定模块450。
第一获取模块410,可以用于获取第一译文,所述第一译文是由译员针对原文翻译得到;
第二获取模块420,可以用于获取多个第二译文,所述多个第二译文是由不同机器翻译引擎针对所述原文翻译得到;
第一计算模块430,可以用于计算所述第一译文与所述多个第二译文的匹配度;
第一确定模块440,可以用于根据所述匹配度,确定目标第二译文;
第二确定模块450,可以用于根据所述目标第二译文,确定所述第一译文的检测结果。
在一具体实施方式中,第一计算模块430可以包括:
第一计算子模块4310,可以用于基于预设多阶语言模型,计算所述第一译文与第二译文的每一阶重合精度;
第二计算子模块4320,可以用于对所述第一译文与第二译文的每一阶重合精度进行加权平均,得到组合精度;
第三计算子模块4330,可以用于根据所述第一译文的长度和第二译文的长度,计算惩罚因子;
第四计算子模块4340,可以用于根据所述组合精度和惩罚因子,计算所述第一译文与第二译文的匹配度。
可选的,如图5所示,第一确定模块440可以包括:
排序模块4410,可以用于按照匹配度由高到低,对所述多个第二译文进行排序;
第一确定子模块4420,可以用于将排序在第一位的第二译文确定为所述目标第二译文。
在一具体实施方式中,如图6所示,第二确定模块450可以包括:
第二计算模块4510,可以用于计算所述第一译文中的语句与所述目标第二译文中对应的语句之间的相似度;
第二确定子模块4520,可以用于在所述相似度大于或者等于第一预设阈值时,确定所述第一译文中的语句为待检测语句;
第三获取模块4530,可以用于获取所述待检测语句,得到待检测语句集合;
第三确定模块4540,可以用于根据所述待检测语句集合,确定所述第一译文的检测结果。
在一具体实施方式中,如图7所示,第三确定模块4540可以包括:
第一判断模块4541,可以用于判断所述待检测语句集合中是否包含连续的待检测语句;所述连续的待检测语句为在第一译文中连续出现的语句;
第四获取模块4542,可以用于在所述待检测语句集合中包含连续的待检测语句时,获取所述连续的待检测语句的第一数量;
第二判断模块4543,可以用于判断所述第一数量是否大于或者等于第二预设阈值;
第三确定子模块4544,可以用于在所述第一数量大于或者等于第二预设阈值时,确定所述第一译文的检测结果为不合格译文。
在另一具体实施方式中,第三确定模块4540还可以包括:
第四确定子模块4545,可以用于在所述待检测语句集合中不包含连续的待检测语句时;或者,在所述第一数量小于第二预设阈值时,根据所述待检测语句集合中各待检测语句的流畅度和/或翻译忠实度,确定所述第一译文的检测结果。
可选的,如图8所示,第四确定子模块4545可以包括:
第五获取模块810,用于获取所述待检测语句集合中,流畅度和/或翻译忠实度不满足预设要求的待检测语句的第二数量;
第五确定子模块820,用于在所述第二数量大于或者等于第三预设阈值时,确定所述第一译文的检测结果为不合格译文。
综上,本发明实施例提供的译文检测装置通过计算译员翻译的第一译文与不同机器翻译引擎翻译的第二译文的匹配度,根据该匹配度确定目标第二译文,并根据该目标第二译文来确定第一译文的检测结果是否为合格译文,即根据目标第二译文来确定第一译文是否有参考机器翻译引擎的翻译结果,从而可以有效的提高翻译评测集中的译文的可靠性,避免翻译评测集中出现不合格译文,有利于节约成本,能够实现对译员翻译的译文的批量检测。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
请参阅图9,其所示为本发明实施例提供的一种电子设备的结构示意图,该电子设备用于实施上述实施例中提供的译文检测方法。该电子设备可以是诸如PC(PersonalComputer,个人计算机)、手机、PDA(平板电脑)等终端设备,也可以是诸如应用服务器、集群服务器等服务设备。请参见图9,该电子设备的内部结构可包括但不限于:处理器、网络接口及存储器。其中,电子设备内的处理器、网络接口及存储器可通过总线或其他方式连接,在本说明书实施例所示图9中以通过总线连接为例。
其中,处理器(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。存储器(Memory)是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器可以是高速RAM存储设备,也可以是非不稳定的存储设备(non-volatile memory),例如至少一个磁盘存储设备;可选的还可以是至少一个位于远离前述处理器的存储装置。存储器提供存储空间,该存储空间存储了电子设备的操作系统,可包括但不限于:Windows系统(一种操作系统),Linux(一种操作系统),Android(安卓,一种移动操作系统)系统、IOS(一种移动操作系统)系统等等,本发明对此并不作限定;并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。在本说明书实施例中,处理器加载并执行存储器中存放的一条或一条以上指令,以实现上述方法实施例提供的译文检测方法。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于电子设备之中以保存用于实现方法实施例中的一种译文检测方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集可由电子设备的处理器加载并执行以实现上述方法实施例提供的译文检测方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种译文检测方法,其特征在于,所述方法包括:
获取第一译文,所述第一译文是由译员针对原文翻译得到;
获取多个第二译文,所述多个第二译文是由不同机器翻译引擎针对所述原文翻译得到;
计算所述第一译文与所述多个第二译文的匹配度;
根据所述匹配度,确定目标第二译文;
根据所述目标第二译文,确定所述第一译文的检测结果。
2.根据权利要求1所述的译文检测方法,其特征在于,所述计算所述第一译文与所述多个第二译文的匹配度包括:
基于预设多阶语言模型,计算所述第一译文与第二译文的每一阶重合精度;
对所述第一译文与第二译文的每一阶重合精度进行加权平均,得到组合精度;
根据所述第一译文的长度和第二译文的长度,计算惩罚因子;
根据所述组合精度和惩罚因子,计算所述第一译文与第二译文的匹配度。
3.根据权利要求2所述的译文检测方法,其特征在于,所述根据所述匹配度,确定目标第二译文包括:
按照匹配度由高到低,对所述多个第二译文进行排序;
将排序在第一位的第二译文确定为所述目标第二译文。
4.根据权利要求1所述的译文检测方法,其特征在于,所述根据所述目标第二译文,确定所述第一译文的检测结果包括:
计算所述第一译文中的语句与所述目标第二译文中对应的语句之间的相似度;
在所述相似度大于或者等于第一预设阈值时,确定所述第一译文中的语句为待检测语句;
获取所述待检测语句,得到待检测语句集合;
根据所述待检测语句集合,确定所述第一译文的检测结果。
5.根据权利要求4所述的译文检测方法,其特征在于,所述根据所述待检测语句集合,确定所述第一译文的检测结果包括:
判断所述待检测语句集合中是否包含连续的待检测语句;所述连续的待检测语句为在第一译文中连续出现的语句;
在所述待检测语句集合中包含连续的待检测语句时,获取所述连续的待检测语句的第一数量;
判断所述第一数量是否大于或者等于第二预设阈值;
在所述第一数量大于或者等于第二预设阈值时,确定所述第一译文的检测结果为不合格译文。
6.根据权利要求5所述的译文检测方法,其特征在于,在判断所述待检测语句集合中是否包含连续的待检测语句之后,所述方法还包括:
在所述待检测语句集合中不包含连续的待检测语句时;或者,
在所述第一数量小于第二预设阈值时,根据所述待检测语句集合中各待检测语句的流畅度和/或翻译忠实度,确定所述第一译文的检测结果。
7.根据权利要求6所述的译文检测方法,其特征在于,所述根据所述待检测语句集合中各待检测语句的流畅度和/或翻译忠实度,确定所述第一译文的检测结果包括:
获取所述待检测语句集合中,流畅度和/或翻译忠实度不满足预设要求的待检测语句的第二数量;
在所述第二数量大于或者等于第三预设阈值时,确定所述第一译文的检测结果为不合格译文。
8.一种译文检测装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一译文,所述第一译文是由译员针对原文翻译得到;
第二获取模块,用于获取多个第二译文,所述多个第二译文是由不同机器翻译引擎针对所述原文翻译得到;
第一计算模块,用于计算所述第一译文与所述多个第二译文的匹配度;
第一确定模块,用于根据所述匹配度,确定目标第二译文;
第二确定模块,用于根据所述目标第二译文,确定所述第一译文的检测结果。
9.根据权利要求8所述的译文检测装置,其特征在于,所述第一计算模块包括:
第一计算子模块,用于基于预设多阶语言模型,计算所述第一译文与第二译文的每一阶重合精度;
第二计算子模块,用于对所述第一译文与第二译文的每一阶重合精度进行加权平均,得到组合精度;
第三计算子模块,用于根据所述第一译文的长度和第二译文的长度,计算惩罚因子;
第四计算子模块,用于根据所述组合精度和惩罚因子,计算所述第一译文与第二译文的匹配度。
10.根据权利要求9所述的译文检测装置,其特征在于,所述第一确定模块包括:
排序模块,用于按照匹配度由高到低,对所述多个第二译文进行排序;
第一确定子模块,用于将排序在第一位的第二译文确定为所述目标第二译文。
11.根据权利要求8所述的译文检测装置,其特征在于,所述第二确定模块包括:
第二计算模块,用于计算所述第一译文中的语句与所述目标第二译文中对应的语句之间的相似度;
第二确定子模块,用于在所述相似度大于或者等于第一预设阈值时,确定所述第一译文中的语句为待检测语句;
第三获取模块,用于获取所述待检测语句,得到待检测语句集合;
第三确定模块,用于根据所述待检测语句集合,确定所述第一译文的检测结果。
12.根据权利要求11所述的译文检测装置,其特征在于,所述第三确定模块包括:
第一判断模块,用于判断所述待检测语句集合中是否包含连续的待检测语句;所述连续的待检测语句为在第一译文中连续出现的语句;
第四获取模块,用于在所述待检测语句集合中包含连续的待检测语句时,获取所述连续的待检测语句的第一数量;
第二判断模块,用于判断所述第一数量是否大于或者等于第二预设阈值;
第三确定子模块,用于在所述第一数量大于或者等于第二预设阈值时,确定所述第一译文的检测结果为不合格译文。
13.根据权利要求12所述的译文检测装置,其特征在于,所述第三确定模块还包括:
第四确定子模块,用于在所述待检测语句集合中不包含连续的待检测语句时;或者,在所述第一数量小于第二预设阈值时,根据所述待检测语句集合中各待检测语句的流畅度和/或翻译忠实度,确定所述第一译文的检测结果。
14.根据权利要求13所述的译文检测装置,其特征在于,所述第四确定子模块包括:
第五获取模块,用于获取所述待检测语句集合中,流畅度和/或翻译忠实度不满足预设要求的待检测语句的第二数量;
第五确定子模块,用于在所述第二数量大于或者等于第三预设阈值时,确定所述第一译文的检测结果为不合格译文。
15.一种电子设备,其特征在于,包括:
处理器,适于实现一条或一条以上指令;以及,
存储器,所述存储器存储有一条或一条以上指令,所述一条或一条以上指令适于由所述处理器加载并执行如权利要求1-7任一项所述的译文检测方法。
CN201810971782.1A 2018-08-24 2018-08-24 一种译文检测方法、装置及电子设备 Active CN109344408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810971782.1A CN109344408B (zh) 2018-08-24 2018-08-24 一种译文检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810971782.1A CN109344408B (zh) 2018-08-24 2018-08-24 一种译文检测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109344408A true CN109344408A (zh) 2019-02-15
CN109344408B CN109344408B (zh) 2022-02-18

Family

ID=65296957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810971782.1A Active CN109344408B (zh) 2018-08-24 2018-08-24 一种译文检测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109344408B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626066A (zh) * 2020-05-27 2020-09-04 辛钧意 一种基于大数据的段落翻译系统及其方法
CN112052693A (zh) * 2020-09-15 2020-12-08 科大讯飞股份有限公司 机器翻译效果评测方法、装置、设备及存储介质
CN112434537A (zh) * 2020-11-24 2021-03-02 掌阅科技股份有限公司 翻译文本一致性校验方法、计算设备及存储介质
CN116701961A (zh) * 2023-08-04 2023-09-05 北京语言大学 一种对文言文机器翻译结果自动评估的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641631A (zh) * 2004-01-13 2005-07-20 中国科学院计算技术研究所 一种机器翻译自动评测方法及其系统
CN104090870A (zh) * 2014-06-26 2014-10-08 武汉传神信息技术有限公司 一种在线翻译引擎的推送方法
CN107133223A (zh) * 2017-04-20 2017-09-05 南京大学 一种自动探索更多参考译文信息的机器翻译优化方法
CN107480147A (zh) * 2017-08-15 2017-12-15 中译语通科技(北京)有限公司 一种对比评价机器翻译系统的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641631A (zh) * 2004-01-13 2005-07-20 中国科学院计算技术研究所 一种机器翻译自动评测方法及其系统
CN100555270C (zh) * 2004-01-13 2009-10-28 中国科学院计算技术研究所 一种机器翻译自动评测方法及其系统
CN104090870A (zh) * 2014-06-26 2014-10-08 武汉传神信息技术有限公司 一种在线翻译引擎的推送方法
CN107133223A (zh) * 2017-04-20 2017-09-05 南京大学 一种自动探索更多参考译文信息的机器翻译优化方法
CN107480147A (zh) * 2017-08-15 2017-12-15 中译语通科技(北京)有限公司 一种对比评价机器翻译系统的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胖喵~: "机器翻译评测——一种检测批量译文是否参考机器翻译的方法", 《博客园HTTPS://WWW.CNBLOGS.COM/BY-DREAM/P/7669139.HTML》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626066A (zh) * 2020-05-27 2020-09-04 辛钧意 一种基于大数据的段落翻译系统及其方法
CN112052693A (zh) * 2020-09-15 2020-12-08 科大讯飞股份有限公司 机器翻译效果评测方法、装置、设备及存储介质
CN112434537A (zh) * 2020-11-24 2021-03-02 掌阅科技股份有限公司 翻译文本一致性校验方法、计算设备及存储介质
CN116701961A (zh) * 2023-08-04 2023-09-05 北京语言大学 一种对文言文机器翻译结果自动评估的方法和系统
CN116701961B (zh) * 2023-08-04 2023-10-20 北京语言大学 一种对文言文机器翻译结果自动评估的方法和系统

Also Published As

Publication number Publication date
CN109344408B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
US11409813B2 (en) Method and apparatus for mining general tag, server, and medium
CN109344408A (zh) 一种译文检测方法、装置及电子设备
CN109240901B (zh) 性能分析方法、性能分析装置、存储介质和电子设备
CN105808526A (zh) 商品短文本核心词提取方法和装置
US11521603B2 (en) Automatically generating conference minutes
CN106202380B (zh) 一种分类语料库的构建方法、系统及具有该系统的服务器
CN109299865B (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN106874441A (zh) 智能问答方法和装置
CN113590776B (zh) 基于知识图谱的文本处理方法、装置、电子设备及介质
CN105608113B (zh) 判断文本中poi数据的方法及装置
CN105956095B (zh) 一种基于细粒度情感词典的心理预警模型构建方法
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN107798622A (zh) 一种识别用户意图的方法和装置
CN109783353A (zh) 一种程序分析方法及终端设备
CN108319586B (zh) 一种信息提取规则的生成和语义解析方法及装置
US20180068017A1 (en) Providing known distribution patterns associated with specific measures and metrics
CN112507198A (zh) 用于处理查询文本的方法、装置、设备、介质和程序
CN104750609B (zh) 确定界面布局兼容度的方法及装置
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN109299353A (zh) 一种网页信息搜索方法及装置
CN110852077B (zh) 动态调整Word2Vec模型词典的方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant