CN111046676A - 一种基于gmm的机翻引擎测试方法与翻译工具包 - Google Patents

一种基于gmm的机翻引擎测试方法与翻译工具包 Download PDF

Info

Publication number
CN111046676A
CN111046676A CN201911161479.6A CN201911161479A CN111046676A CN 111046676 A CN111046676 A CN 111046676A CN 201911161479 A CN201911161479 A CN 201911161479A CN 111046676 A CN111046676 A CN 111046676A
Authority
CN
China
Prior art keywords
translation
evaluation
engine
matrix
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911161479.6A
Other languages
English (en)
Other versions
CN111046676B (zh
Inventor
何征宇
夏菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN201911161479.6A priority Critical patent/CN111046676B/zh
Publication of CN111046676A publication Critical patent/CN111046676A/zh
Application granted granted Critical
Publication of CN111046676B publication Critical patent/CN111046676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出一种基于GMM的机翻引擎测试方法与翻译工具包。所述测试方法使用基于Openkiwi的评测引擎;所述评测引擎包括基于句子级别的评测引擎和基于词语级别的评测引擎;基于句子级别评分数值以及词语级别评分数值,构建评测矩阵PN,基于所述评测矩阵PN的迭代计算结果,判断是否通过人工反馈输入接口输入人工反馈参数。本发明还提出一种包含评测引擎的翻译工具包,所述翻译工具包包含至少一个翻译工具,并内置所述的基于Openkiwi的评测引擎,从而实现所述测试方法。

Description

一种基于GMM的机翻引擎测试方法与翻译工具包
技术领域
本发明属于测试技术领域,尤其涉及一种基于GMM的机翻引擎测试方法与翻译工具包。
背景技术
机器翻译(Machine Translation,MT),又称为自动翻译,是利用计算机程序将文字从一种自然语言(源语言)翻译成另一种自然语言(目标语言)。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(ComputationalLinguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。
在人工智能火热的时代,当下的机器翻译引擎众多,译员应该如何选择适合自己的翻译引擎,成为一个亟待解决的技术问题;同时,已有的翻译引擎如何根据实际翻译结果以及人工反馈不断进化选择,已经成为制约翻译效率的重要因素。
机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。由于机器翻译所处理的对象——语言本身存在某种程度的歧义,无法像数学公式或者物理模型那样简单客观地描述出来,这使得为机器翻译结果进行客观的打分变得非常困难。最早的方法是人工评测,这种方法得到的结果一般是十分准确的,但评测的成本太高,周期过长(评测过程可能长达几周甚至数月),评价结果也会随着评价人的变化和时间的推移而不同,这使得评价结果不可重复,缺乏客观性。
例如,申请号为CN201611186415.8的中国发明专利申请提出的一种基于众投的译文评价方法及系统,从同一译文文档中提取所有译句;从译文文档对应的原文文档中,提取与每一译句对应的原句;将译句和原句推送给至少一个评价用户;获取至少一个评价用户对每一译句的翻译质量评价;统计所有译句的翻译质量评价,根据翻译质量评价,确定译文文档的翻译质量。然而,人工评测耗时费力,效率低下,而且由于人的主观因素,对于同一篇译文不同的评测人员可能给出不同的判断。
现有的各种翻译工具都至少内置了多种翻译引擎,例如将谷歌翻译、搜狗翻译、有道翻译、百度翻译等组合成一个包含对外接口的翻译引擎矩阵,实际翻译时,翻译引擎矩阵将会从中选择一个或者多个翻译引擎进行翻译,从而输出对应的翻译结果。评价的目的通常是对于给定的待译文档选择最合适的翻译引擎。现有技术对于翻译引擎的自动评测通常都是直接进行,其评测过程虽然是自动化进行,但是评测结果很大程度上取决于自动评测过程所采用的的标准和算法,而这些标准和算法大部分都是通过先验规则阈值的,事实上使得评测结果带有较强的主观性,导致选择结果准确度不高,客观性存疑。
例如,传统的基于参考译文的自动评测方法就是如此,已很难满足技术发展和广大用户的需求。目前著名的自动评测方法主要有IBM提出的BLEU(Bilingual EvaluationUnderstudy)方法和美国国家标准与技术局(NIST:National Instituteof Standards andTechnology)在BLUE方法上改进提出的NIST评测标准。这类自动评测方法重点在于评价机器翻译系统的性能,而对翻译结果的评价却依赖于给定的参考译文。这在实际的翻译工作中是不现实的,因为不可能要求所有的资料都事先给出参考译文。例如,申请号为CN201810898744.8的中国发明专利申请提出一种翻译质量评价方法及装置,在获取到对给定文本进行正确翻译后的文本后,可以将其作为参考翻译文本,并将其按照预设文本单位进行切分,得到各个参考单位文本,然后,可以确定出每一参考单位文本在该参考翻译文本中的重要度,接着,关于对给定文本进行翻译后的待评价文本即目标翻译文本,便可以根据每一参考单位文本对应的重要度,确定出目标翻译文本的翻译质量。该技术方案不再只进行目标翻译文本与参考翻译文本中词语的遍历式匹配,而是根据该参考翻译文本中每一参考单位文本对应的重要度,确定出目标翻译文本的翻译质量。
发明内容
为解决上述技术问题,本发明提出一种基于GMM的机翻引擎测试方法与翻译工具包。所述测试方法使用基于Openkiwi的评测引擎;所述评测引擎包括基于句子级别的评测引擎和基于词语级别的评测引擎;基于句子级别评分数值以及词语级别评分数值,构建评测矩阵PN,基于所述评测矩阵PN的迭代计算结果,判断是否通过人工反馈输入接口输入人工反馈参数。本发明还提出一种包含评测引擎的翻译工具包,所述翻译工具包包含至少一个翻译工具,并内置所述的基于Openkiwi的评测引擎,从而实现所述测试方法。
在本发明的第一个方面,提供一种基于GMM的机翻引擎测试方法,所述方法包括如下步骤:
C100:输入测试源文档;
C200:采用GMM聚类模型对所述测试源文档进行聚类分类,并输出测试源文档所在类别;
C300:基于所述测试源文档所在类别以及类别到最佳引擎映射表进行映射计算,从翻译矩阵中得出所在类别对应的翻译引擎;
C400:输出所有翻译引擎对应的翻译结果;
作为本发明的创新点之一,在所述步骤C400之后,还包括如下步骤:C500:将所述翻译结果输入自动评测模型,得出质量评测得分;
并且,基于所述质量评测得分,对基础数据进行更新后,反馈给所述聚类模型;
其中,所述自动评测模型还连接人工反馈输入接口;
所述自动评测模型是基于Openkiwi的评测引擎;所述评测引擎包括基于句子级别的评测引擎和基于词语级别的评测引擎。
作为实现本发明创新点的关键技术手段,所述类别到最佳引擎映射表,是将某个类别的最佳翻译引擎,或者最后几个翻译引擎的排序进行映射的表。
所述翻译矩阵将多个引擎集中整合到一起,形成一个统一对外的调用产品。
其中,Openkiwi是以pytorch为基础开发的一个深度翻译质量评测框架。
作为本发明区别于现有技术仅仅是选择单一翻译引擎的做法,本发明中,输出测试源文档所在类别,包括,输出所述测试源文档聚类后所述的多个类别;所述从翻译矩阵中得出所在类别对应的翻译引擎,包括,得出每一个类别对应的多个翻译引擎。
作为本发明的另一个创新点,所述将所述翻译结果输入自动评测模型,得出质量评测得分,具体包括:
基于所述测试源文档的多个类别,从翻译矩阵中选择对应的多个翻译引擎,对所述测试源文档进行翻译,并输出多个翻译结果,所述翻译结果包括每一种类别Ji(i=1,……,N)对应的N个翻译引擎的翻译结果TRi1,TRi2,……TRiN
采用所述基于Openkiwi的评测引擎的基于句子级别的评测引擎对所述多个翻译结果进行评测,得到得到每一种类别Ji(i=1,……,N)对应的N个翻译引擎的翻译结果TRi1,TRi2,……TRiN的句子级别评分数值SFi1,SFi2,……SFiN
采用所述基于Openkiwi的评测引擎的基于词语级别的评测引擎对所述多个翻译结果进行评测,得到得到每一种类别Ji(i=1,……,N)对应的N个翻译引擎的翻译结果TRi1,TRi2,……TRiN的词语级别评分数值CFi1,CFi2,……CFiN
基于以上创新点,本发明的关键技术手段还包括:基于所述句子级别评分数值以及词语级别评分数值,构建评测矩阵PN,基于所述评测矩阵PN的迭代计算结果,判断是否通过所述人工反馈输入接口输入人工反馈参数。如此,不需要总是引入人工反馈。
本发明的上述方法可以通过计算机自动化实现,因此,本发明还提供一种计算机可读存储介质,其上存储有计算机可执行指令,通过存储器和处理器执行所述可执行指令,用于前述的方法步骤。
在本发明的另一个方面,还提供一种包含评测引擎的翻译工具包,所述翻译工具包包含至少一个翻译工具,并内置前述的基于Openkiwi的评测引擎,从而可以在翻译结果输出的同时,输出评测结果。
本发明的进一步优点将结合说明书附图,通过具体的实施例进一步体现。
附图说明
图1是本发明一个实施例的机翻引擎测试方法流程图
图2是图1所述方法的一个另外实施例。
图3是图1所述方法得出质量评测得分的具体实施例
图4是图2所述方法得出评测矩阵的示意图
图5是图3所述评测矩阵的迭代计算具体实现方式
图6是图5所述迭代计算中所述M阶子矩阵的一个示意图
具体实施例
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例对本发明做进一步说明。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
参见图1,是本发明一个实施例的机翻引擎测试方法流程图。在本实施例中,所述测试方法主要包括步骤C100-C500;各个步骤具体执行内容如下:
C100:输入测试源文档;
C200:采用GMM聚类模型对所述测试源文档进行聚类分类,并输出测试源文档所在类别;
C300:基于所述测试源文档所在类别以及类别到最佳引擎映射表进行映射计算,从翻译矩阵中得出所在类别对应的翻译引擎;
C400:输出所有翻译引擎对应的翻译结果;
C500:将所述翻译结果输入自动评测模型,得出质量评测得分。
进一步结合图2,所述方法的一个另外实施例中,基于所述质量评测得分,对基础数据进行更新后,反馈给所述聚类模型;
其中,所述自动评测模型还连接人工反馈输入接口;
所述自动评测模型是基于Openkiwi的评测引擎;所述评测引擎包括基于句子级别的评测引擎和基于词语级别的评测引擎。
结合图1-2,所述类别到最佳引擎映射表,是将某个类别的最佳翻译引擎,或者最后几个翻译引擎的排序进行映射的表。
所述翻译矩阵为将多个引擎集中整合到一起,形成一个统一对外的调用产品。
作为一个非限制性的实施例,翻译矩阵包括包括谷歌、新译、有道、百度、小牛、搜狗六大主流引擎。对应于某一个类别的预料,可以,得出对应的六条机翻结果。
在本实施例中,Openkiwi是以pytorch为基础开发的一个深度翻译质量评测框架。
图3是图1所述方法得出质量评测得分的具体实施例。
具体而言,在聚类结果输出时,输出所述测试源文档聚类后所述的多个类别,从翻译矩阵中得出所在每一个类别对应的多个翻译引擎;在翻译结果输出时,输出每一种类别Ji(i=1,……,N)对应的N个翻译引擎的翻译结果TRi1,TRi2,……TRiN
采用所述基于Openkiwi的评测引擎的基于句子级别的评测引擎对所述多个翻译结果进行评测,得到得到每一种类别Ji(i=1,……,N)对应的N个翻译引擎的翻译结果TRi1,TRi2,……TRiN的句子级别评分数值SFi1,S Fi2,……SFiN
作为体现本申请重要改进的关键技术,本实施例进一步包括:采用所述基于Openkiwi的评测引擎的基于词语级别的评测引擎对所述多个翻译结果进行评测,得到得到每一种类别Ji(i=1,……,N)对应的N个翻译引擎的翻译结果TRi1,TRi2,……TRiN的词语级别评分数值CFi1,CFi2,……CFiN之后,所述方法还包括:
基于所述句子级别评分数值以及词语级别评分数值,构建评测矩阵PN,基于所述评测矩阵PN的迭代计算结果,判断是否通过所述人工反馈输入接口输入人工反馈参数;所述人工反馈参数用于对所述GMM进行重新训练。
图4是图2所述方法得出评测矩阵的示意图。
基于所述句子级别评分数值以及词语级别评分数值,构建评测矩阵PN,具体包括:
将句子级别评分数值SFi1,SFi2,……SFiN以及词语级别评分数值CFi1,CFi2,……CFiN均进行归一化;得到归一化的句子级别评分数值序列{Si1,Si2,……,SiN}和词语级别评分数值序列{Ci1,Ci2,……CiN};
则得到N阶评测矩阵:
Figure BDA0002286049960000091
即矩阵中第(i,j)个元素为(Sij-Cij)。图5是图3所述评测矩阵的迭代计算具体实现方式,并基于所述评测矩阵PN的迭代计算结果,判断是否通过所述人工反馈输入接口输入人工反馈参数,具体实现如下:
判断所述N阶评测矩阵PN是否符合矩阵赫尔维兹稳定性判据的充分必要条件,如果否,继续判断其N-1阶评测矩阵PN-1是否符合上述矩阵赫尔维兹稳定性判据的充分必要条件;如果整个过程均不符合,则通过所述人工反馈输入接口输入人工反馈参数。
上述流程可以采用计算机程序的流程指令代码的形式实现,具体如下:
令K=N,执行如下步骤:
S500:判断矩阵PK是否符合矩阵赫尔维兹稳定性判据的充分必要条件;如果是,则退出;否则;进入进入下一步;
S501;K=K-1;
S502:判断K是否大于1;如果是,返回步骤S500;否则,进入步骤S503:
S503:通过所述人工反馈输入接口输入人工反馈参数。
其中,N-1阶评测矩阵PN-1是指所述N阶评测矩阵PN中连续M行M列元素组成的子矩阵,N>M>1,一个示意性的实施例参见图6.
值得指出的是,在图1-6所述的实施方式中,选用聚类而不是分类的主要原因是聚类是按照数据内部自身的属性进行内聚划分,而分类则需要人为的预先制定类别。机翻的翻译质量不一定是对某个人认为的类别效果就好,而聚类直接使用数据内部性质,有助于提升引擎的翻译准确度。高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。GMM多个高斯模型线性叠加混合而成。
在本发明中,GMM以数据内部性质为基础进行聚类,数据的质量非常重要,但是数据量不宜太多,太多造成离线训练时间比较长,也不好控制其质量,基础数据会保持一定范围内进行迭代。基础数据的迭代初步采用译员按照实际中使用效果较好的翻译语料进行积累,同时会按照时间的逆排序进行检查后删除。
总而言之,本发明引入评测矩阵,并首次将矩阵赫尔维兹稳定性判据的性质应用到翻译领域的评测中。根据赫尔维兹稳定性判据,当矩阵主行列式及其对角线上各子行列式均具有正值时,系统稳定有效。
上述实施例中,判断所述N阶评测矩阵PN是否符合矩阵赫尔维兹稳定性判据的充分必要条件,就是判断矩阵主行列式及其对角线上各子行列式是否均具有正值。
本发明首次将这一论据结合翻译评测评分矩阵应用到基于句子级别和词语级别翻译评测过程中;同时引入openkiwi和人工反馈干预,能够使得整个评测过程客观准确,优化进化无需先验规则。

Claims (9)

1.一种基于GMM的机翻引擎测试方法,所述方法包括如下步骤:
C100:输入测试源文档;
C200:采用GMM聚类模型对所述测试源文档进行聚类分类,并输出测试源文档所在类别;
C300:基于所述测试源文档所在类别以及类别到最佳引擎映射表进行映射计算,从翻译矩阵中得出所在类别对应的翻译引擎;
C400:输出所有翻译引擎对应的翻译结果;
其特征在于,在所述步骤C400之后,还包括如下步骤:
C500:将所述翻译结果输入自动评测模型,得出质量评测得分;
并且,基于所述质量评测得分,对基础数据进行更新后,反馈给所述聚类模型;
其中,所述自动评测模型还连接人工反馈输入接口;
所述自动评测模型是基于Openkiwi的评测引擎;所述评测引擎包括基于句子级别的评测引擎和基于词语级别的评测引擎。
2.如权利要求1所述的测试方法,其特征在于:所述类别到最佳引擎映射表,是将某个类别的最佳翻译引擎,或者最后几个翻译引擎的排序进行映射的表。
3.如权利要求1所述的测试方法,其中,所述翻译矩阵将多个引擎集中整合到一起,形成一个统一对外的调用产品。
4.如权利要求1所述的测试方法,其中,Openkiwi是以pytorch为基础开发的一个深度翻译质量评测框架。
5.如权利要求1所述的测试方法,其中,输出测试源文档所在类别,包括,输出所述测试源文档聚类后所述的多个类别;所述从翻译矩阵中得出所在类别对应的翻译引擎,包括,得出每一个类别对应的多个翻译引擎。
6.如权利要求5所述的测试方法,所述将所述翻译结果输入自动评测模型,得出质量评测得分,具体包括:
基于所述测试源文档的多个类别,从翻译矩阵中选择对应的多个翻译引擎,对所述测试源文档进行翻译,并输出多个翻译结果,所述翻译结果包括每一种类别Ji(i=1,……,N)对应的N个翻译引擎的翻译结果TRi1,TRi2,……TRiN
采用所述基于Openkiwi的评测引擎的基于句子级别的评测引擎对所述多个翻译结果进行评测,得到得到每一种类别Ji(i=1,……,N)对应的N个翻译引擎的翻译结果TRi1,TRi2,……TRiN的句子级别评分数值SFi1,SFi2,……SFiN
采用所述基于Openkiwi的评测引擎的基于词语级别的评测引擎对所述多个翻译结果进行评测,得到得到每一种类别Ji(i=1,……,N)对应的N个翻译引擎的翻译结果TRi1,TRi2,……TRiN的词语级别评分数值CFi1,CFi2,……CFiN
7.如权利要求6所述的测试方法,其特征在于,基于所述句子级别评分数值以及词语级别评分数值,构建评测矩阵PN,基于所述评测矩阵PN的迭代计算结果,判断是否通过所述人工反馈输入接口输入人工反馈参数。
8.一种计算机可读存储介质,其上存储有计算机可执行指令,通过存储器和处理器执行所述可执行指令,用于实现权利要求1-7任一项所述的方法。
9.一种包含评测引擎的翻译工具包,所述翻译工具包包含至少一个翻译工具,并内置权利要求1-7任一项所述的基于Openkiwi的评测引擎。
CN201911161479.6A 2019-11-27 2019-11-27 一种基于gmm的机翻引擎测试方法与翻译工具包 Active CN111046676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911161479.6A CN111046676B (zh) 2019-11-27 2019-11-27 一种基于gmm的机翻引擎测试方法与翻译工具包

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911161479.6A CN111046676B (zh) 2019-11-27 2019-11-27 一种基于gmm的机翻引擎测试方法与翻译工具包

Publications (2)

Publication Number Publication Date
CN111046676A true CN111046676A (zh) 2020-04-21
CN111046676B CN111046676B (zh) 2023-05-16

Family

ID=70233257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911161479.6A Active CN111046676B (zh) 2019-11-27 2019-11-27 一种基于gmm的机翻引擎测试方法与翻译工具包

Country Status (1)

Country Link
CN (1) CN111046676B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122660A1 (en) * 2002-12-20 2004-06-24 International Business Machines Corporation Creating taxonomies and training data in multiple languages
US20110082683A1 (en) * 2009-10-01 2011-04-07 Radu Soricut Providing Machine-Generated Translations and Corresponding Trust Levels
WO2015063536A1 (en) * 2013-10-28 2015-05-07 Translation Management Systems Ltd. Networked language translation system and method
US20160124944A1 (en) * 2014-11-04 2016-05-05 Xerox Corporation Predicting the quality of automatic translation of an entire document
US20170169015A1 (en) * 2015-12-14 2017-06-15 Facebook, Inc. Translation confidence scores
US9959271B1 (en) * 2015-09-28 2018-05-01 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
CN109710948A (zh) * 2018-11-27 2019-05-03 语联网(武汉)信息技术有限公司 机器翻译引擎推荐方法及装置
CN110472257A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于句对的机器翻译引擎测评优选方法及系统
CN110472256A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于篇章的机器翻译引擎测评优选方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122660A1 (en) * 2002-12-20 2004-06-24 International Business Machines Corporation Creating taxonomies and training data in multiple languages
US20110082683A1 (en) * 2009-10-01 2011-04-07 Radu Soricut Providing Machine-Generated Translations and Corresponding Trust Levels
WO2015063536A1 (en) * 2013-10-28 2015-05-07 Translation Management Systems Ltd. Networked language translation system and method
US20160124944A1 (en) * 2014-11-04 2016-05-05 Xerox Corporation Predicting the quality of automatic translation of an entire document
US9959271B1 (en) * 2015-09-28 2018-05-01 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US20170169015A1 (en) * 2015-12-14 2017-06-15 Facebook, Inc. Translation confidence scores
CN109710948A (zh) * 2018-11-27 2019-05-03 语联网(武汉)信息技术有限公司 机器翻译引擎推荐方法及装置
CN110472257A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于句对的机器翻译引擎测评优选方法及系统
CN110472256A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于篇章的机器翻译引擎测评优选方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
F KEPLER: "OpenKiwi: An Open Source Framework for Quality Estimation" *

Also Published As

Publication number Publication date
CN111046676B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN108021560B (zh) 一种数据增强方法、系统、装置及计算机可读存储介质
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN107329995A (zh) 一种语义受控的答案生成方法、装置及系统
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
CN110147552B (zh) 基于自然语言处理的教育资源质量评价挖掘方法及系统
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN110991193B (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN109508460A (zh) 基于主题聚类的无监督作文跑题检测方法及系统
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
KR102531114B1 (ko) 마스크 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
CN111144134B (zh) 基于OpenKiWi的翻译引擎自动化评测系统
KR102517971B1 (ko) 자동회귀 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
JP2011243147A (ja) 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム
JP2014010634A (ja) 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム
CN111046676A (zh) 一种基于gmm的机翻引擎测试方法与翻译工具包
CN111160048B (zh) 一种基于聚类进化的翻译引擎优化系统及方法
WO2019200625A1 (zh) 基于人工智能的电子产品建模系统及方法
CN115270802B (zh) 一种问题语句的处理方法、电子设备及存储介质
CN117909492B (zh) 一种电网非结构化信息抽取方法、系统、设备及介质
CN117151247B (zh) 机器学习任务建模的方法、装置、计算机设备和存储介质
CN117688354B (zh) 一种基于进化算法的文本特征选择方法及系统
Ratna et al. Hybrid deep learning cnn-bidirectional lstm and manhattan distance for japanese automated short answer grading: Use case in japanese language studies
Yang Multilingual Information Retrieval Using Graph Neural Networks: Practical Applications in English Translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant