CN107885730A - 多译员模式下翻译知识有效性判别方法 - Google Patents

多译员模式下翻译知识有效性判别方法 Download PDF

Info

Publication number
CN107885730A
CN107885730A CN201710877029.1A CN201710877029A CN107885730A CN 107885730 A CN107885730 A CN 107885730A CN 201710877029 A CN201710877029 A CN 201710877029A CN 107885730 A CN107885730 A CN 107885730A
Authority
CN
China
Prior art keywords
translation
translator
knowledge
effectiveness
translation knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710877029.1A
Other languages
English (en)
Inventor
叶娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aerospace University
Original Assignee
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aerospace University filed Critical Shenyang Aerospace University
Priority to CN201710877029.1A priority Critical patent/CN107885730A/zh
Publication of CN107885730A publication Critical patent/CN107885730A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种多译员模式下翻译知识有效性判别方法,包括以下步骤:实时采集译员翻译过程中的任务接受时间、任务提交时间、翻译行为、翻译实例以及质检结果基础数据;从基础数据中统计出译员翻译过程中的平均翻译速度、翻译速度波动系数、平均翻译质量、翻译质量波动系数、翻译总量、常用句式、常用词汇/短语、常用工具、常用行为、检索记录和错误类别特征;考察上述各类特征与翻译知识有效性之间的关联情况,筛选出具有最高关联度的m个特征;对译员的翻译知识有效性进行打分。本发明有助于解决来自不同译员反馈的翻译知识存在冲突的问题,实现不同译员翻译知识的有效融合,改善翻译引擎的优化效果,降低人机交互代价,提高翻译效率。

Description

多译员模式下翻译知识有效性判别方法
技术领域
本发明涉及一种翻译知识有效性判别技术,具体为一种多译员模式下翻译知识有效性判别方法。
背景技术
随着信息技术的进步和全球一体化步伐的加快,跨语种交流的语言障碍问题日益突出,对高效翻译方法的需求愈加紧迫。为了解决这一问题,人们开展了机器翻译的研究,旨在使计算机能够代替人类进行全自动翻译。
经过数十年的探索,尽管机器翻译技术取得了长足进展,目前的机器翻译系统所产生的译文仍然无法达到直接可用的程度。在这样的背景下,一些研究人员开始寻求翻译思想的改变,由全自动翻译转向人机交互翻译。在该模式下,机器翻译引擎产生的译文作为辅助译文提供给人类译员,译员通过各种交互行为,对系统进行反馈指导,直至产生正确译文。
在交互式机器翻译系统中,根据译员对辅助译文的反馈,自动学习翻译知识,来优化机器翻译引擎,是一种普遍采用的技术。近年来,随着翻译规模的扩大,译员数量不断增加。不同译员面对相同的源语句可能做出不同的反馈和指导,导致机器翻译引擎学习到相互冲突的翻译知识。现有方法通过基于频度的概率估计来解决这一问题,对出现频度较高的翻译知识赋予更高的概率值,隐性假设不同译员的翻译知识具有相同的有效性。
实际上,译员的翻译水平和经验存在很大差别,他们所提供指导的有效性也应有所区别。而现有方法无法判别来自不同译员的翻译知识的有效性,使机器翻译引擎的优化效果受到限制。
发明内容
针对现有技术中交互式机器翻译系统存在的多译员翻译决策冲突导致机器翻译引擎的优化效果受到限制等不足,本发明要解决的问题是提供一种可实现不同译员翻译知识的有效融合、改善翻译引擎的优化效果的多译员模式下翻译知识有效性判别方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种多译员模式下翻译知识有效性判别方法,包括以下步骤:
1)数据采集,实时采集译员翻译过程中的任务接受时间、任务提交时间、翻译行为、翻译实例以及质检结果基础数据;
2)统计分析,从基础数据中统计出译员翻译过程中的平均翻译速度、翻译速度波动系数、平均翻译质量、翻译质量波动系数、翻译总量、常用句式、常用词汇/短语、常用工具、常用行为、检索记录和错误类别特征;
3)特征选择,考察上述各类特征与翻译知识有效性之间的关联情况,筛选出具有最高关联度的m个特征;
4)翻译知识有效性评估,对译员的翻译知识有效性进行打分。
步骤3)中,特征选择包括以下步骤:
31)从步骤2)中统计出的特征里提取影响译员翻译知识有效性的特征集合F;
32)以翻译质量Q为评价指标,计算特征集合F中各因素与Q之间的关联度;
33)从特征集合F中筛选出具有最高关联度的m个特征。
计算特征集合F中各因素与Q之间的关联度为:采用点式互信息、DICE系数、卡方统计值或对数可能性分值度量方法。
采用加权求和的方法评价译员u在时刻t的翻译知识有效性分数,评价公式为:
其中,m为影响翻译知识有效性的特征数量,Dj(u,t)为t时刻译员u的特征值,λ为特征的权重,通过最小化错误率训练得到。
最小化错误率训练为:
401)构建训练数据集,提取译员在某一时刻t的各项特征值,组成特征向量Vt,人工标注译员当时的翻译有效性分数St,构成一个训练实例<Vt,St>,多个训练实例构成训练数据集;
402)在该训练数据集上进行参数训练,确定每个特征的最优权重
403)根据译员的特征向量及其对应的最优权重,对译员的翻译知识有效性进行打分。
本发明具有以下有益效果及优点:
1.本发明为多译员模式下翻译知识的有效性判别提供了方法,通过分析译员的翻译状态,来评价系统从译员反馈中学到的翻译知识的有效性,有助于解决来自不同译员反馈的翻译知识存在冲突的问题,实现不同译员翻译知识的有效融合,改善翻译引擎的优化效果,降低人机交互代价,提高翻译效率。
附图说明
图1为本发明翻译知识有效性判别及应用过程图示。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
如图1所示,本发明提出一种多译员模式下翻译知识有效性判别方法,通过分析译员的翻译状态,来评价系统从译员反馈中学到的翻译知识的有效性,包括以下步骤:
1)数据采集,实时采集译员翻译过程中的任务接受时间、任务提交时间、翻译行为、翻译实例以及质检结果基础数据;
2)统计分析,从基础数据中统计出译员翻译过程中的平均翻译速度、翻译速度波动系数、平均翻译质量、翻译质量波动系数、翻译总量、常用句式、常用词汇/短语、常用工具、常用行为、检索记录和错误类别特征;
3)特征选择,考察上述各类特征与翻译知识有效性之间的关联情况,筛选出具有最高关联度的m个关联度的特征;
4)翻译知识有效性评估,对译员的翻译知识有效性进行打分。
步骤2)中统计分析得到的各类特征数据,体现了译员的翻译状态。例如,平均翻译速度、平均翻译质量和翻译总量等,反映了译员的翻译能力和水平;翻译速度波动系数和翻译质量波动系数等反映了译员翻译的稳定性;常用句式、常用词汇/短语、常用工具、常用行为等反映了译员的翻译习惯;检索记录和错误类别等反映了译员对翻译知识的需求。
统计分析得到的各类特征数据是通过任务接收时间和任务提交时间,算出完成任务的总时间,用任务总字数除以任务总时间就可以算出平均翻译速度等。
为了识别哪些特征数据能够显著影响翻译知识有效性,需要考察各类特征与翻译知识有效性之间的关联情况,具体为:
31)从各类中提取影响译员翻译知识有效性的特征集合F;
32)以翻译质量Q为评价指标,计算特征集合F中各因素与Q之间的关联度(可采用点式互信息、DICE系数、卡方统计值或对数可能性分值等度量方法);
33)从特征集合F中筛选出具有最高关联度的m个特征。
本发明采用加权求和的方法评价译员u在时刻t的翻译知识有效性分数:
其中m为影响翻译知识有效性的特征数量,Dj(u,t)为t时刻译员u的特征值,j为第j个特征,λ为特征的权重,可通过最小化错误率训练得到。具体步骤如下:
401)构建训练数据集,提取译员在某一时刻t的各项特征值,组成特征向量Vt,人工标注译员当时的翻译有效性分数St,构成一个训练实例<Vt,St>,多个训练实例构成训练数据集;
402)在该训练数据集上进行参数训练,确定每个特征的最优权重
403)根据译员的特征向量及其对应的最优权重,对译员的翻译知识有效性通过公式(1)进行打分。
如图1所示,给出了系统从译员对辅助译文的反馈中学习翻译知识,并在翻译知识出现冲突的情况下利用本方法更有效地判别翻译知识,改善机器翻译引擎的过程。
例如,在统计机器翻译系统中,通过以下公式来估计n-gram语言模型概率:
其中,
式中,Dn为固定的折扣值,n为n元语言模型,为e中第i-n+1个词语到第i-1个词语组成的字符串,i为e中第i个词语,后面出现的不同词语的数量,c(·)表示频率。
n元语言模型(n-gram model)根据一个词语的前n-1个词语,来计算这个词语的概率,即一个词的概率由前面n-1个词决定。
当交互式机器翻译系统得到k个新的反馈实例时,传统在线学习算法通过以下公式来更新n-gram中各运算单元的值:
而基于本发明提出的翻译知识有效性判别方法,在k个反馈实例存在冲突时,通过以下公式来更新n-gram中各运算单元的值:
其中l为第l个实例,ul为第l个实例对应的译员,tl为第l个实例对应的时刻。
可见,本发明方法与传统方法相比,由于采用了翻译知识有效性判别方法,使不同译员反馈的翻译实例对语言模型优化时贡献的权重有所不同,能够使语言模型的概率估计更准确。

Claims (5)

1.一种多译员模式下翻译知识有效性判别方法,其特征在于包括以下步骤:
1)数据采集,实时采集译员翻译过程中的任务接受时间、任务提交时间、翻译行为、翻译实例以及质检结果基础数据;
2)统计分析,从基础数据中统计出译员翻译过程中的平均翻译速度、翻译速度波动系数、平均翻译质量、翻译质量波动系数、翻译总量、常用句式、常用词汇/短语、常用工具、常用行为、检索记录和错误类别特征;
3)特征选择,考察上述各类特征与翻译知识有效性之间的关联情况,筛选出具有最高关联度的m个特征;
4)翻译知识有效性评估,对译员的翻译知识有效性进行打分。
2.根据权利要求1所述的多译员模式下翻译知识有效性判别方法,其特征在于步骤3)中,特征选择包括以下步骤:
31)从步骤2)中统计出的特征里提取影响译员翻译知识有效性的特征集合F;
32)以翻译质量Q为评价指标,计算特征集合F中各因素与Q之间的关联度;
33)从特征集合F中筛选出具有最高关联度的m个特征。
3.根据权利要求2所述的多译员模式下翻译知识有效性判别方法,其特征在于:计算特征集合F中各因素与Q之间的关联度为:采用点式互信息、DICE系数、卡方统计值或对数可能性分值度量方法。
4.根据权利要求2所述的多译员模式下翻译知识有效性判别方法,其特征在于:采用加权求和的方法评价译员u在时刻t的翻译知识有效性分数,评价公式为:
<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>&amp;lambda;</mi> <mi>j</mi> </msub> <msub> <mi>D</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>
其中,m为影响翻译知识有效性的特征数量,Dj(u,t)为t时刻译员u的特征值,λ为特征的权重,通过最小化错误率训练得到。
5.根据权利要求4所述的多译员模式下翻译知识有效性判别方法,其特征在于最小化错误率训练为:
401)构建训练数据集,提取译员在某一时刻t的各项特征值,组成特征向量Vt,人工标注译员当时的翻译有效性分数St,构成一个训练实例<Vt,St>,多个训练实例构成训练数据集;
402)在该训练数据集上进行参数训练,确定每个特征的最优权重
403)根据译员的特征向量及其对应的最优权重,对译员的翻译知识有效性进行打分。
CN201710877029.1A 2017-09-25 2017-09-25 多译员模式下翻译知识有效性判别方法 Pending CN107885730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710877029.1A CN107885730A (zh) 2017-09-25 2017-09-25 多译员模式下翻译知识有效性判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710877029.1A CN107885730A (zh) 2017-09-25 2017-09-25 多译员模式下翻译知识有效性判别方法

Publications (1)

Publication Number Publication Date
CN107885730A true CN107885730A (zh) 2018-04-06

Family

ID=61780790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710877029.1A Pending CN107885730A (zh) 2017-09-25 2017-09-25 多译员模式下翻译知识有效性判别方法

Country Status (1)

Country Link
CN (1) CN107885730A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118113A (zh) * 2018-08-31 2019-01-01 传神语联网网络科技股份有限公司 Etm架构及词移距离
CN109448792A (zh) * 2018-09-19 2019-03-08 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739867A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 运用计算机对口语翻译质量进行评分的方法
CN103077630A (zh) * 2012-12-31 2013-05-01 武汉传神信息技术有限公司 译员专业翻译能力的量化方法
CN103092827A (zh) * 2012-12-31 2013-05-08 武汉传神信息技术有限公司 多策略译员稿件自动匹配的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739867A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 运用计算机对口语翻译质量进行评分的方法
CN103077630A (zh) * 2012-12-31 2013-05-01 武汉传神信息技术有限公司 译员专业翻译能力的量化方法
CN103092827A (zh) * 2012-12-31 2013-05-08 武汉传神信息技术有限公司 多策略译员稿件自动匹配的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118113A (zh) * 2018-08-31 2019-01-01 传神语联网网络科技股份有限公司 Etm架构及词移距离
CN109448792A (zh) * 2018-09-19 2019-03-08 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109448792B (zh) * 2018-09-19 2021-11-05 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备

Similar Documents

Publication Publication Date Title
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN104573028B (zh) 实现智能问答的方法和系统
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN110263166A (zh) 基于深度学习的舆情文本分类方法
CN109408743A (zh) 文本链接嵌入方法
CN113672931B (zh) 一种基于预训练的软件漏洞自动检测方法及装置
CN109960727A (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
CN104317882B (zh) 一种决策级中文分词融合方法
CN112183117A (zh) 一种翻译评价的方法、装置、存储介质及电子设备
CN107885730A (zh) 多译员模式下翻译知识有效性判别方法
CN111680476B (zh) 一种用于智能生成类文本的业务热词识别转换的方法
CN116578989B (zh) 基于深度预训练神经网络的智能合约漏洞检测系统及方法
CN117370570A (zh) 一种提升大语言模型回复可靠性的方法和系统
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
CN116050419A (zh) 一种面向科学文献知识实体的无监督识别方法及系统
CN113590821B (zh) 一种隐含语篇关系的分类方法
CN113869194B (zh) 基于深度学习的变参数铣削加工过程信号标记方法及系统
CN112784587B (zh) 一种基于多模型融合的文本相似性度量方法及装置
CN115496630A (zh) 一种基于自然语言算法的专利撰写质量核检方法以及系统
Li et al. Chinese grammatical error diagnosis based on policy gradient lstm model
CN114239539A (zh) 一种英语作文离题检测方法及装置
CN111274404B (zh) 一种基于人机协同的小样本实体多领域分类方法
CN112634947A (zh) 一种动物声音情感特征集合排序识别方法及系统
CN105426464B (zh) 一种识别命名实体的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180406

RJ01 Rejection of invention patent application after publication