CN109359294A - 一种基于神经机器翻译的古汉语翻译方法 - Google Patents
一种基于神经机器翻译的古汉语翻译方法 Download PDFInfo
- Publication number
- CN109359294A CN109359294A CN201811085217.1A CN201811085217A CN109359294A CN 109359294 A CN109359294 A CN 109359294A CN 201811085217 A CN201811085217 A CN 201811085217A CN 109359294 A CN109359294 A CN 109359294A
- Authority
- CN
- China
- Prior art keywords
- translation
- corpus
- word
- chinese
- neural machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于神经机器翻译的古汉语翻译方法,首先将经过标准化处理的古汉语语料进行语料标注;然后将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;最后对古汉语进行神经机器翻译。本发明不仅使先进的神经机器翻译技术的理论研究得以扩展,而且使得该技术可高效应用于古代汉语向现代汉语的实际应用中。本专利将神经机器翻译与古汉语的翻译工作相结合的研究思路,从而使这项研究成为古汉语翻译研究领域中的一大亮点。
Description
技术领域
本发明属于计算机技术领域,涉及一种机器翻译方法,具体涉及一种基于神经机器翻译的古汉语翻译方法。
背景技术
神经机器翻译是一种通过神经网络直接实现自然语言之间端到端的自动翻译,通常采用编码器-解码器框架实现序列到序列的转换([文献1、2、9])。相对于传统的统计机器翻译,基于编码器-解码器框架的神经机器翻译具有2个优点:
(1)直接从生数据中学习特征;
编码器-解码器框架学习到的句子向量表示可将句法不同、语义相同的句子聚在一起,同时能将通过调换主语和宾语产生的句法相同、语义不同的句子区分开。
(2)能够捕获长距离依赖;
神经机器翻译通过基于长短时记忆的递归神经网络能有效捕获长距离依赖,同时通过向量表示缓解数据稀疏问题,显著提升译文的流利度和可读性([文献3])。
相对于非古汉语研究专家而言,不同时期的古代汉语的语句中,存在不少生数据(包括生字、生词以及生疏句法结构等),这些生数据的存在对古汉语翻译为现代汉语的过程造成了不少困扰,同时也引出了不少值得研究的挑战性问题([文献4、8])。同时,古代汉语的语法结构同样也存在长距离依赖的问题。例如,在翻译成现代汉语时需要补词,需要结合字词的上下文语义,需要结合被翻译字词在语句中存在的语法结构和位置等。而生数据特征学习和长距离依赖的问题是传统机器学习的方法无法予以较好解决的([文献5])。
当前,神经机器翻译中的主要代表性研究工作主要包括:为了解决神经机器翻译带来的严重未登录词问题和缺乏一种保证翻译源词既流畅又完整的翻译机制问题,Wei He等人([文献6])将统计机器翻译中的N元语言模型与神经机器翻译中的log-linear线性框架进行优势结合。为了同时改进统计机器翻译SMT的劣势(完整但不流畅)和神经机器翻译NMT的劣势(流畅但不完整)Xing Wang等人提出将SMT融入到NMT中([文献7]),即在每个解码步骤中,通过来自基于NMT的解码信息,SMT提供已生成词额外的推荐词汇,然后利用辅助分类器对SMT的推荐进行打分,并利用门阀函数将SMT推荐和NMT推荐相结合共同在NMT架构中进行端到端的训练。上述两类代表性方法具有其翻译优势,且在中英文翻译过程中取得了较好的翻译效果,但却未在古汉语到现代汉语的翻译应用中进行尝试。因此,其中的研究思路和方法值得本专利在进行古汉语翻译研究中进行部分借鉴。由于现代英语和不同时期的古汉语,不同时期的古汉语之间均存在语法和语义结构上的差异性,因此在做古汉语翻译研究时仍有特有问题需单独加以解决。
[文献1]Dzmitry Bahdanau,Kyunghyun Cho,Yoshua Bengio.Neural MachineTranslation by Jointly Learning to Align and Translate.CoRR abs/1409.0473(2014).
[文献2]刘洋.神经机器翻译前沿进展[J].计算机研究发展,2017,54(6):1144-1149.
[文献3]Hochreiter S,Schmidhuber J.Long Short-Term Memory[J].NeuralComputation,1997,9(8):1735-1780.
[文献4]孙良明.据历代专书注释语法分析谈高校古汉语语法教学(上)——兼说古汉语语法四大特点及其对语法教学的实用意义[J].语文研究,2008(3):24-30.
[文献5]孙良明.据历代专书注释语法分析谈高校古汉语语法教学(下)——兼说古汉语语法四大特点及其对语法教学的实用意义[J].语文研究,,2008(4):38-46.
[文献6]Wei He,Zhongjun He,Hua Wu et al.Improved Neural MachineTranslation with SMT Features.AAAI 2016.
[文献7]Xing Wang,Zhengdong Lu,Zhaopeng Tu et al.Neural MachineTranslation Advised by Statistical Machine Translation.AAAI 2017:3330-3336.
[文献8]孙良明.据古今专书训诂考据语法分析谈高校古汉语语法教学——再谈古汉语语法四大特点及其对语法教学的实用意义[J].语文研究,2011(4):1-7.
[文献9]熊德意,李军辉,王星等.基于约束的神经机器翻译[J].中国科学(信息科学版),2018,48(5):574-588.
发明内容
为了弥补现有研究的空白,本发明开拓性地提出了一种基于神经机器翻译的古汉语翻译方法。
本发明所采用的技术方案是:一种基于神经机器翻译的古汉语翻译方法,其特征在于,包括以下步骤:
步骤1:将经过标准化处理的古汉语语料进行语料标注;
步骤2:将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;
步骤3:对古汉语进行神经机器翻译。
与当前研究内容相比,本专利的研究内容概括起来有如下3点创新之处:
1、采用一种基于循环神经网络(RNN)的神经机器翻译方法,解决古汉语在机器翻译过程中存在的常见问题。如,过度翻译、翻译不完全、翻译不通顺等翻译质量不高的问题,从而达到提升古汉语向现代汉语翻译质量的目的;
2、提出应对大规模集外受限词的神经机器翻译模型和方法,缓解古汉语翻译过程中存在的集外受限词汇量增加导致翻译复杂度增加的问题;
3、利用迁移学习和强化学习相结合的思想,解决古汉语翻译过程中面临的低资源语言翻译问题。
本发明不仅使先进的神经机器翻译技术的理论研究得以扩展,而且使得该技术可高效应用于古代汉语向现代汉语的实际应用中。本发明将神经机器翻译与古汉语的翻译工作相结合的研究思路,从而使这项研究成为古汉语翻译研究领域中的一大亮点。
附图说明
图1为本发明实施例的原理图;
图2为本发明实施例中以《隆中对》首句为例未登录词与翻译表示意图;
图3为本发明实施例中以《隆中对》首句为例基于注意力机制的神经机器翻译过程示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
神经机器翻译作为一项全新的机器翻译技术,它将先进的深度学习技术和方法与神经网络相结合,大大提升了语言类互译的覆盖度、忠实度和流畅度。本专利将这一技术首创性的应用于古代汉语向现代汉语的翻译工作中。不仅大大提升了人工翻译的效率,而且在翻译质量上也对传统的统计机器翻译技术有了较大程度的改进。本专利的研究内容将有可能被广泛应用于解决如下问题:
1、古文化研究工作者不一定都精通各个时期的语言文字,本专利的研究工作可辅助这类人群解决语言翻译上的难题,使他们能专注于自身的核心工作;
2、有些古文化业务爱好者比较热衷于广泛阅读大量的古代典籍,但他们从事也可能存在阅读古汉语的障碍,基于本专利的研究成果可辅助他们提升阅读古代典籍的效率和扩宽阅读古代典籍的阅读范围;
3、传统的古汉语翻译工作一般有人工翻译完成,基于本专利的研究工作可为人们提供更准确、更合理的自动翻译结果,从而提升人们阅读古代典籍的兴趣。
请见图1,本发明提供的一种基于神经机器翻译的古汉语翻译方法,包括以下步骤:
步骤1:将经过标准化处理(包括去噪、文本标准化、词频统计、语义分析和语法分析)的古汉语语料进行语料标注;
步骤2:将标注后的结果进行处理(包括分词和词频统计),以形成古汉语语料库作为神经机器翻译的翻译源;
步骤3:对古汉语进行神经机器翻译;
具体实现包括以下子步骤:
步骤3.1:判断语料是否为低资源语料;
若是,则执行下述步骤3.2;
若否,则执行下述步骤3.3;
其中,“低资源语料”中的“低资源”是一个相对词,它是相对于“高资源”语料而言的,判断语料是否为低资源语料的标准通常有如下两个:1、语料是否为封闭的有限语料,若是,则为“低资源语料”,例如相对于英汉双语语料库而言,古汉语语料来源于古代文献,因此可认为其是封闭的有限语料;2、“低资源”语料作为源翻译语料时,源翻译语料的所有词汇是否能在目标语料中找到恰当的词与之对应,若不能,则为“低资源”语料。一般而言,现有的平行语料库少于100万句对,就可以归为低资源语料。
步骤3.2:采用迁移学习对语料进行缓解;
本实施例首先,对已知的古汉语语料利用神经机器模型进行翻译训练,将训练得出的模型称为父模型(高资源语料模型),例如英汉互译中,英语和汉语均为高资源语料,英汉互译所采用的神经机器翻译方法训练出来的模型就指的是此处的父模型;
然后,初始化已完成训练的神经机器翻译模型,并利用该模型在小样本的语料库(低资源语料)上进行尝试性的翻译训练,并将训练模型称之为子模型(低资源语料模型);其中语料库的样本数目低于阈值时的语料库为小样本的语料库(或低资源语料库),比如语料库的样本数目低于1000个,只有几十个,最多几百个,就可认为是小样本语料库;
本发明还可以将迁移学习与强化学习相结合解决低资源语言翻译的词汇翻译模式问题;当某古汉语源词在大多数情况下多次被翻译为某固定现代汉语词汇时,每一次迭代训练的翻译结果都会对这类固定翻译模式增加其翻译的奖励性得分,否则降低奖励性得分;同时对奖励性得分设定阈值,当翻译模式的奖励性得分低于阈值时,可以达到确定对翻译规则进行重构的目的。
本实施例中,存在将统计机器翻译与神经机器翻译相结合的低资源语言翻译问题。作为一种数据驱动方法,神经机器翻译的性能高度依赖于平行语料库的规模、质量和领域覆盖面。由于神经网络的参数规模庞大,只有当训练语料库达到移动规模,神经机器翻译才会显著超过统计机器翻译。然而,当前除了中、英文等资料丰富语言,世界上绝大多数语言都缺乏大规模、高质量、高覆盖率的平行语料库,因此在本专利的研究中古汉语也应被视为一种低资源语言。为了有效解决古汉语作为低资源语言翻译的问题,可借鉴专家翻译经验作为先验知识,并考虑将传统机器翻译与神经机器翻译进行优势结合,同时引入词奖励机制对翻译经验进行强化学习。
由于古汉语文化具有历史传承性的特点,即便古汉语在延续过程中可能发生语法和语义在使用习惯上的变化,也不会对古汉语向现代汉语的翻译过程造成严重障碍。因此,本专利采用迁移学习的思想构造相应的计算方法予以缓解。其实现思路可描述为:首先,可对手头已掌握的古汉语语料利用神经机器模型进行翻译训练(如,汉代古文→现代汉语:汉代古文翻译成现代汉语),将训练得出的模型称为父模型;然后,初始化已完成训练的神经机器翻译模型,并利用该模型在小样本的语料库上进行尝试性的翻译训练(如,汉代古文→三国古文,汉代古文翻译成三国古文),并将训练模型称之为子模型,假定缺乏三国语料向现代汉语的翻译语料,由于三国古文是汉代古文的延续,如果“汉代古文→现代汉语”和“汉代古文→三国古文”对应的父子模型翻译准确率都较高,则必然导致“三国古文→现代汉语”的翻译精度较高,从而利用迁移学习的相关模型和方法解决了“三国古文→现代汉语”作为低资源语言的翻译问题。与此同时,可将上述方法与强化学习相结合解决低资源语言翻译的词汇翻译模式问题。即,当某古汉语源词在大多数情况下多次被翻译为某固定现代汉语词汇时,每一次迭代训练的翻译结果都会对这类固定翻译模式增加其翻译的奖励性得分,否则降低奖励性得分。同时可对奖励性得分设定阈值,当翻译模式的奖励性得分低于阈值时,以达到确定对翻译规则进行重构的目的。
步骤3.3:对待翻译内容进行中文分词,判断翻译内容是否存在集外词的情况;
若是,则执行下述步骤3.4;
若否,则执行下述步骤3.5;
步骤3.4:采用“基于Top-N词频的源翻译表”进行处理;
由于语法结构的差异性导致翻译结果在翻译表中概率低于阈值(被翻译频次低于1%,即翻译100个词,该词汇才被翻译1次,则可被认定为概率低于阈值的词,又称之为低频翻译词)者,将被记为集外词,暂时保存在翻译表之外,使翻译表内部的候选词成为符合该种语法结构所翻译结果的相对固定模式,并同时引入奖惩机制进行强化学习训练,起到对翻译结果反馈监督和保证翻译结果高准确率的目的;
本实施例中,存在古汉语翻译过程中的受限词汇问题。不同古汉语语料库中同样存在高频词和低频词的差别,词汇在语句中所处位置不同,翻译候选词在翻译表中的概率计算的高低也不同。为了提高神经机器翻译的性能,由于语法结构的差异性导致翻译结果在翻译表中概率较低者,将被记为未登录词(或集外词)被暂时保存在翻译表之外,使翻译表内部的候选词成为符合该种语法结构所翻译结果的相对固定模式,并同时引入奖惩机制进行强化学习训练,起到对翻译结果反馈监督和保证翻译结果高准确率的目的。
从图2中可以看出,由于“亮”所处位置为句首,因此它被认定为名词而非形容词的可能性较高,再结合语料库和上下文信息计算得出翻译结果为“诸葛亮”的概率最高,概率低的词汇暂作为集外词置于翻译表推荐队列中。“躬”与“耕”相结合翻译,由于“陇亩”的翻译相对固定,又由于它作为“耕”的对象,因此可预测“躬”被翻译为副词“亲自”用于修饰动词“耕”的可行性最高,因此得出结果为“亲自”。
本实施例提出了一种应对大规模集外受限词汇的神经机器模型。为了缓解集外受限词汇量增加导致翻译复杂度增加的问题,考虑输出概率梯度模型。该模型由正负两部分组成,如公式1。
其中,t表示编码步骤,y<t=y1,y2,...,yt-1表示输出的目标序列;yt是yt-1的下一个输出的目标词汇,V是所有目标词汇的集合,k=1,2,…,t-1,t;p(yt|y<t)表示由前置词集合推断下一个目标词为某个对应翻译结果的概率,表示步骤t时对应目标词的能量函数的梯度,p(yk|y<t,x)表示由源词和前置词集合推断下一个目标词的概率;前置词指的是拟推断词汇之前的一系列词汇所构成的集合;
定义能量函数ε用公式2进行计算;
表示第j个词汇的翻译权重,表示特征函数,yj、yj-1分别是第j和第j-1个目标翻译结果,zj表示一种新的隐藏层状态,cj表示第j个上下文向量,bj表示第j个目标词汇的偏移量;
其中,梯度和能量的关系表示为能量的期望梯度
假定预定义分布为Q和来自于Q的样本集合V′,近似计算如公式3;
其中,,wk表示第k个翻译词汇的权重wk=exp{ε(Yk-logQ(yk))};V’表示目标翻译词汇的子集,表示公式2能量函数的梯度,k’表示k的子集,k与公式1中含义相同。
采用上述方法的主要思想是利用小样本的古汉语词汇作为翻译子集产生较低计算复杂度,并将该种小样本方法用于迭代更新参数,且每一次仅更新与正确的先验翻译词汇相关联的词向量的翻译概率和V′对应样本词的频次。当翻译概率高于阈值(当翻译概率达到20%(即每5个翻译词汇中,就有某词汇需要被翻译),则可认定该词汇被翻译的翻译概率高于阈值)时,可确定候选词即为对应的现代汉语目标词;若频次高于阈值(当设定100个词汇中某词汇出现的概率为20时,则认定该词汇为高频词,高频词与翻译概率较高存在内在关联性)时,即可确定该样本词作为登录词会被排在翻译表优先级较高的位置上。否则,就利用UNK集外词替换技术更新登录词在翻译表中的排名,直至被挤出翻译表成为集外词。
步骤3.5:对古汉语进行基于注意力机制的神经机器翻译;
具体实现包括以下子步骤:
步骤3.5.1:将源翻译句子符号化为其中表示源翻译句子,f1,f2,...,fl表示句子向量集合,l表示向量的数目,1≤i≤l;编码器首先将编码成一系列词向量Kx是源翻译句子中词汇的数目;然后生成基于这些向量的目标翻译和目标词;其中,编码器是一个双向循环神经网络RNN中的隐藏层,整个神经网络采用公式1更新隐藏状态;
其中,genc是一个激活函数(例如它可以是sigmod函数、tanh函数、ReLU函数、ELU函数和PReLU函数中的一种),是基于源翻译句子计算得到的前向和后向隐藏状态的串联;
步骤3.5.2:在解码阶段,输出句子的概率通过如下公式2和公式3进行计算;
其中,是步骤j的隐藏状态,通过公式4进行计算;
其中,gdec和g'dec是非线性激活函数;yj表示输出的目标词或句子向量(即翻译结果),J表示目标词或句子向量的编号;上下文向量cj作为编码隐藏层的加权和参与计算,通过公式5进行计算;
其中,权重αji用于度量源词xi翻译成yj的质量;Tx表示与yj相关的翻译源中源词的数目;
步骤3.5.3:在解码器端,通过对基于标准注意力机制的继承,得到神经机器翻译分类器在常规词汇上的词预测概率,通过公式6进行计算;
pnmt(yt|y<t,x)=soft max(f(st,yt-1,ct)) (6)
其中,y<t=y1,y2,...,yt-1是输出目标翻译词序列;yt由公式7递归计算得到;
p(yt|y<t,x)=soft max(f(st,yt-1,ct)) (7)
其中,f(·)是一个非线性激活函数(它可以是sigmod函数、tanh函数、ReLU函数等非线性激活函数中的任意一种);st是解码器在第t步的隐藏状态,由公式8计算得到;
st=g(st-1,yt-1,ct) (8)
其中,g(·)是一个非线性激活函数(它可以是sigmod函数、tanh函数、ReLU函数等非线性激活函数中的任意一种);ct表示上下文向量,用于表示翻译源注释的权重和,由公式9计算得到;
公式5上下文向量cj作为编码隐藏层的加权和参与计算,公式9中ct表示上下文向量,用于表示翻译源注释的权重和,所处的神经网络的层不同,cj是隐藏层的上下文,ct是翻译源注释的上下文。
其中,hj是源词xi的注释,其权重αt,j通过注意力模型计算得到。
本实施例,基于注意力机制并利用神经机器翻译的方法对古汉语完成翻译过程。为了避免研究内容的抽象化,本实施例中统一以《隆中对》的翻译为例,阐述研究内容的实现过程。如图3所示,为《隆中对》的首句“亮躬耕陇亩,好为梁父吟”采用注意力机制所完成的神经机器翻译的实现框架。
从图3中可以看出,基于注意力机制的神经机器翻译采用了完全不同的编码器,即每个源语言词生成包含全局信息的向量表示。该编码器首先采用一个正向递归神经网络将信息从左向右传递,然后再使用一个逆向递归神经网络将信息从右向左传递,最后将正向和逆向的隐状态拼接起来作为源语言词的向量表示,其优势在于每个源语言词的向量表示均包含其左侧和右侧的上下文信息。在目标语言端,解码器在生成每个目标语言词时可动态寻找与之相关的源语言上下文。例如,当生成现代汉语词“诸葛亮”时,古汉语词“亮”与之最相关,而“躬”、“耕”等词可能并不相关,只需将“亮”的向量表示作为源端上下文传递到目标端。而当生成“亲自”、“耕种”、“田地”等词时,最相关的古汉语词汇是“躬”、“耕”、“陇亩”等,再根据古汉语和现代汉语语法结构上的差异性,适当添加“在…中”,以达到提高翻译流畅度的目的。由此可见,注意力机制改变信息传递方式,能动态计算最相关的上下文,从而更好解决长距离信息问题并显著提升神经机器翻译的性能。
本实施例还提供了一种古汉语翻译结果反馈评价机制,在评价机制中,通过对翻译方法的复杂度进行计算,获得翻译结果的覆盖度、忠实度和流畅度;
覆盖度,指的是翻译结果(翻译目标)所对应的翻译对象(翻译源)在原古汉语翻译语料的百分比;例如,原古汉语翻译语料仅有80%被翻译为了现代汉语,那么覆盖度就是80%。
忠实度,描述翻译结果(翻译目标)准确反映原古汉语翻译语料的程度;例如,翻译古汉语为现代汉语的翻译结果词汇仅仅只有90%正确翻译了原古汉语语料所要表达的意思,那么忠实度就是90%。
忠实度与覆盖度相比不同之处在于,忠实度不仅要求原古汉语语料被翻译,而且还要求语料被翻译正确。
流畅度,用于描述原古汉语翻译语料被翻译为现代汉语后,翻译结果符合现代汉语阅读习惯的程度;流畅度与忠实度相比,不仅要求翻译结果(翻译目标)对应于原古汉语翻译语料在对应词汇上翻译正确,而且要求翻译结果符合现代汉语的语序、语法、语义和阅读习惯。
在翻译质量要求上,严格程度排序为流畅度>忠实度>覆盖度。
本专利将传统的统计机器翻译的方法与神经机器翻译的优势相结合来实现专利研究的挑战性问题。首先,将已经过标准化处理的古汉语语料放在翻译源端进行语料标注,然后将标注后的结果进行统计机器翻译前的准备阶段(如分词、词频统计等),以形成古汉语语料库作为神经机器翻译的翻译源。针对古汉语翻译过程中,可能用到的方法和技术包括:基于Top-N词频的源翻译表、UNK替换技术,强化学习方法和词奖励机制所构造的反馈重构器,基于注意力机制的神经机器翻译技术,并结合专家的翻译结果作为训练的翻译经验,同时结合翻译前后的上下文语境对照。最终,形成古汉语翻译反馈评价机制。在评价机制中,需要对翻译算法的复杂度进行计算,力求达到衡量古汉语翻译质量的三个常见评价指标:即信、达、雅。将这三项指标分别与翻译结果的覆盖度(信)、忠实度(达)和流畅度(雅)。同时,通过该机制,解决古汉语翻译过程中可能产生的过度翻译(过翻)和遗漏翻译(漏翻)问题。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (9)
1.一种基于神经机器翻译的古汉语翻译方法,其特征在于,包括以下步骤:
步骤1:将经过标准化处理的古汉语语料进行语料标注;
步骤2:将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;
步骤3:对古汉语进行神经机器翻译。
2.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤1中所述标准化处理,包括去噪、文本标准化、词频统计、语义分析和语法分析。
3.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤2中所述将标注后的结果进行处理,包括分词和词频统计。
4.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于,步骤3的具体实现包括以下子步骤:
步骤3.1:判断语料是否为低资源语料;判断语料是否为低资源语料的标准有如下两个:(1)语料是否为封闭的有限语料,若是,则为低资源语料;(2)语料作为源翻译语料时,源翻译语料的所有词汇是否能在目标语料中找到恰当的词与之对应,若不能,则为低资源语料;
若是,则执行下述步骤3.2;
若否,则执行下述步骤3.3;
步骤3.2:采用迁移学习对语料进行缓解;
首先,对已知的古汉语语料利用神经机器模型进行翻译训练,训练得出的模型为高资源语料模型,称为父模型;
然后,初始化已完成训练的神经机器翻译模型,并利用该模型在小样本的语料库上进行尝试性的翻译训练,训练模型为低资源语料模型,称之为子模型;其中语料库的样本数目低于阈值时的语料库为小样本的语料库,也称为低资源语料库;
步骤3.3:对待翻译内容进行中文分词,判断翻译内容是否存在集外词的情况;
若是,则执行下述步骤3.4;
若否,则执行下述步骤3.5;
步骤3.4:采用“基于Top-N词频的源翻译表”进行处理;
由于语法结构的差异性导致翻译结果在翻译表中概率低于阈值者,将被记为集外词,暂时保存在翻译表之外,使翻译表内部的候选词成为符合该种语法结构所翻译结果的相对固定模式,并同时引入奖惩机制进行强化学习训练,起到对翻译结果反馈监督和保证翻译结果高准确率的目的;
步骤3.5:对古汉语进行基于注意力机制的神经机器翻译。
5.根据权利要求4所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.2中,将迁移学习与强化学习相结合解决低资源语言翻译的词汇翻译模式问题;当某古汉语源词在大多数情况下多次被翻译为某固定现代汉语词汇时,每一次迭代训练的翻译结果都会对这类固定翻译模式增加其翻译的奖励性得分,否则降低奖励性得分;同时对奖励性得分设定阈值,当翻译模式的奖励性得分低于阈值时,可达到确定对翻译规则进行重构的目的。
6.根据权利要求4所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.4中,采用输出概率梯度模型缓解集外受限词汇量增加导致翻译复杂度增加的问题,该模型由正负两部分组成,如公式1;
其中,t表示编码步骤,y<t=y1,y2,...,yt-1表示输出的目标序列;yt是yt-1的下一个输出的目标词汇,V是所有目标词汇的集合,k=1,2,...,t-1,t;p(yt|y<t)表示由前置词集合推断下一个目标词为某个对应翻译结果的概率,表示步骤t时对应目标词的能量函数的梯度,p(yk|y<t,x)表示由源词和前置词集合推断下一个目标词的概率;前置词指的是拟推断词汇之前的一系列词汇所构成的集合;
定义能量函数ε用公式2进行计算;
表示第j个词汇的翻译权重,表示特征函数,yj、yj-1分别是第j和第j-1个目标翻译结果,zj表示一种新的隐藏层状态,cj表示第j个上下文向量,bj表示第j个目标词汇的偏移量;
梯度和能量的关系表示为能量的期望梯度
假定预定义分布为Q和来自于Q的样本集合V′,近似计算如公式3;
其中,wk表示第k个翻译词汇的权重,wk=exp{ε(yk-logQ(yk))};V’表示目标翻译词汇的子集,表示公式2能量函数的梯度,k’表示k的子集,。
7.根据权利要求6所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.4中,利用小样本的古汉语词汇作为翻译子集产生较低计算复杂度,并将该种小样本方法用于迭代更新参数,且每一次仅更新与正确的先验翻译词汇相关联的词向量的翻译概率和V′对应样本词的频次;当翻译概率高于阈值时,确定候选词即为对应的现代汉语目标词;若频次高于阈值时,即可确定该样本词作为登录词会被排在翻译表优先级较高的位置上;否则,就利用UNK集外词替换技术更新登录词在翻译表中的排名,直至被挤出翻译表成为集外词。
8.根据权利要求4所述的基于神经机器翻译的古汉语翻译方法,其特征在于,步骤3.5的具体实现包括以下子步骤:
步骤3.5.1:将源翻译句子符号化为其中表示源翻译句子,f1,f2,...,fl表示句子向量集合,l表示向量的数目,1≤i≤l;编码器首先将编码成一系列词向量Kx是源翻译句子中词汇的数目;然后生成基于这些向量的目标翻译和目标词;其中,编码器是一个双向循环神经网络RNN中的隐藏层,整个神经网络采用公式1更新隐藏状态;
其中,genc是一个激活函数,是基于源翻译句子计算得到的前向和后向隐藏状态的串联;
步骤3.5.2:在解码阶段,输出句子的概率通过如下公式2和公式3进行计算;
其中,是步骤j的隐藏状态,通过公式4进行计算;
其中,gdec和g'dec是非线性激活函数;yj表示输出的目标词或句子向量,J表示目标词或句子向量的编号;上下文向量cj作为编码隐藏层的加权和参与计算,通过公式5进行计算;
其中,权重αji用于度量源词xi翻译成yj的质量;Tx表示与yj相关的翻译源中源词的数目;
步骤3.5.3:在解码器端,通过对基于标准注意力机制的继承,得到神经机器翻译分类器在常规词汇上的词预测概率,通过公式6进行计算;
pnmt(yt|y<t,x)=softmax(f(st,yt-1,ct)) (6)
其中,y<t=y1,y2,...,yt-1是输出目标翻译词序列;yt由公式7递归计算得到;
p(yt|y<t,x)=softmax(f(st,yt-1,ct)) (7)
其中,f(·)是一个非线性激活函数;st是解码器在第t步的隐藏状态,由公式8计算得到;
st=g(st-1,yt-1,ct) (8)
其中,g(·)是一个非线性激活函数;ct表示上下文向量,用于表示翻译源注释的权重和,由公式9计算得到;
其中,hj是源词xi的注释,其权重αt,j通过注意力模型计算得到。
9.根据权利要求1-8任意一项所述的基于神经机器翻译的古汉语翻译方法,其特征在于:所述方法还提供了一种古汉语翻译结果反馈评价机制,在评价机制中,通过对翻译方法的复杂度进行计算,获得翻译结果的覆盖度、忠实度和流畅度;
所述覆盖度,指的是翻译结果所对应的翻译对象在原古汉语翻译语料的百分比;
所述忠实度,描述翻译结果准确反映原古汉语翻译语料的程度;
所述流畅度,用于描述原古汉语翻译语料被翻译为现代汉语后,翻译结果符合现代汉语阅读习惯的程度;
在翻译质量要求上,严格程度排序为流畅度>忠实度>覆盖度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811085217.1A CN109359294B (zh) | 2018-09-18 | 2018-09-18 | 一种基于神经机器翻译的古汉语翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811085217.1A CN109359294B (zh) | 2018-09-18 | 2018-09-18 | 一种基于神经机器翻译的古汉语翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359294A true CN109359294A (zh) | 2019-02-19 |
CN109359294B CN109359294B (zh) | 2023-04-18 |
Family
ID=65350956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811085217.1A Active CN109359294B (zh) | 2018-09-18 | 2018-09-18 | 一种基于神经机器翻译的古汉语翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359294B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110020682A (zh) * | 2019-03-29 | 2019-07-16 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
CN110263353A (zh) * | 2019-06-25 | 2019-09-20 | 北京金山数字娱乐科技有限公司 | 一种机器翻译方法及装置 |
CN110442878A (zh) * | 2019-06-19 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 翻译方法、机器翻译模型的训练方法、装置及存储介质 |
CN110489765A (zh) * | 2019-07-19 | 2019-11-22 | 平安科技(深圳)有限公司 | 机器翻译方法、装置及计算机可读存储介质 |
CN110765766A (zh) * | 2019-10-25 | 2020-02-07 | 北京中献电子技术开发有限公司 | 一种面向神经网络机器翻译的德文词法分析方法及系统 |
CN110929532A (zh) * | 2019-11-21 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
CN111368091A (zh) * | 2020-02-13 | 2020-07-03 | 中国工商银行股份有限公司 | 文档翻译方法及装置 |
CN111666775A (zh) * | 2020-05-21 | 2020-09-15 | 平安科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
CN112380882A (zh) * | 2020-12-01 | 2021-02-19 | 内蒙古工业大学 | 一种具有误差修正功能的蒙汉神经机器翻译方法 |
CN112560510A (zh) * | 2020-12-10 | 2021-03-26 | 科大讯飞股份有限公司 | 翻译模型训练方法、装置、设备及存储介质 |
WO2021109679A1 (zh) * | 2019-12-06 | 2021-06-10 | 中兴通讯股份有限公司 | 一种构建机器翻译模型的方法、翻译装置及计算机可读存储介质 |
CN116070643A (zh) * | 2023-04-03 | 2023-05-05 | 武昌理工学院 | 一种古文到英文的固定风格翻译方法及系统 |
CN116701961A (zh) * | 2023-08-04 | 2023-09-05 | 北京语言大学 | 一种对文言文机器翻译结果自动评估的方法和系统 |
CN117521673A (zh) * | 2024-01-08 | 2024-02-06 | 安徽大学 | 一种具备分析训练性能的自然语言处理系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170015010A (ko) * | 2015-07-31 | 2017-02-08 | 삼성전자주식회사 | 대역 어휘 결정 장치 및 방법 |
CN107967262A (zh) * | 2017-11-02 | 2018-04-27 | 内蒙古工业大学 | 一种神经网络蒙汉机器翻译方法 |
-
2018
- 2018-09-18 CN CN201811085217.1A patent/CN109359294B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170015010A (ko) * | 2015-07-31 | 2017-02-08 | 삼성전자주식회사 | 대역 어휘 결정 장치 및 방법 |
CN107967262A (zh) * | 2017-11-02 | 2018-04-27 | 内蒙古工业大学 | 一种神经网络蒙汉机器翻译方法 |
Non-Patent Citations (1)
Title |
---|
韩芳等: "基于句本位句法体系的古汉语机器翻译研究", 《中文信息学报》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948152B (zh) * | 2019-03-06 | 2020-07-17 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110020682A (zh) * | 2019-03-29 | 2019-07-16 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
CN110020682B (zh) * | 2019-03-29 | 2021-02-26 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
CN110442878A (zh) * | 2019-06-19 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 翻译方法、机器翻译模型的训练方法、装置及存储介质 |
CN110442878B (zh) * | 2019-06-19 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 翻译方法、机器翻译模型的训练方法、装置及存储介质 |
CN110263353A (zh) * | 2019-06-25 | 2019-09-20 | 北京金山数字娱乐科技有限公司 | 一种机器翻译方法及装置 |
CN110263353B (zh) * | 2019-06-25 | 2023-10-13 | 北京金山数字娱乐科技有限公司 | 一种机器翻译方法及装置 |
CN110489765B (zh) * | 2019-07-19 | 2024-05-10 | 平安科技(深圳)有限公司 | 机器翻译方法、装置及计算机可读存储介质 |
CN110489765A (zh) * | 2019-07-19 | 2019-11-22 | 平安科技(深圳)有限公司 | 机器翻译方法、装置及计算机可读存储介质 |
CN110765766A (zh) * | 2019-10-25 | 2020-02-07 | 北京中献电子技术开发有限公司 | 一种面向神经网络机器翻译的德文词法分析方法及系统 |
CN110765766B (zh) * | 2019-10-25 | 2022-05-17 | 北京中献电子技术开发有限公司 | 一种面向神经网络机器翻译的德文词法分析方法及系统 |
CN110929532B (zh) * | 2019-11-21 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
CN110929532A (zh) * | 2019-11-21 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
WO2021109679A1 (zh) * | 2019-12-06 | 2021-06-10 | 中兴通讯股份有限公司 | 一种构建机器翻译模型的方法、翻译装置及计算机可读存储介质 |
CN111368091A (zh) * | 2020-02-13 | 2020-07-03 | 中国工商银行股份有限公司 | 文档翻译方法及装置 |
CN111368091B (zh) * | 2020-02-13 | 2023-09-22 | 中国工商银行股份有限公司 | 文档翻译方法及装置 |
CN111666775B (zh) * | 2020-05-21 | 2023-08-22 | 平安科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
CN111666775A (zh) * | 2020-05-21 | 2020-09-15 | 平安科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
CN112380882A (zh) * | 2020-12-01 | 2021-02-19 | 内蒙古工业大学 | 一种具有误差修正功能的蒙汉神经机器翻译方法 |
CN112560510A (zh) * | 2020-12-10 | 2021-03-26 | 科大讯飞股份有限公司 | 翻译模型训练方法、装置、设备及存储介质 |
CN112560510B (zh) * | 2020-12-10 | 2023-12-01 | 科大讯飞股份有限公司 | 翻译模型训练方法、装置、设备及存储介质 |
CN116070643A (zh) * | 2023-04-03 | 2023-05-05 | 武昌理工学院 | 一种古文到英文的固定风格翻译方法及系统 |
CN116070643B (zh) * | 2023-04-03 | 2023-08-15 | 武昌理工学院 | 一种古文到英文的固定风格翻译方法及系统 |
CN116701961A (zh) * | 2023-08-04 | 2023-09-05 | 北京语言大学 | 一种对文言文机器翻译结果自动评估的方法和系统 |
CN116701961B (zh) * | 2023-08-04 | 2023-10-20 | 北京语言大学 | 一种对文言文机器翻译结果自动评估的方法和系统 |
CN117521673A (zh) * | 2024-01-08 | 2024-02-06 | 安徽大学 | 一种具备分析训练性能的自然语言处理系统 |
CN117521673B (zh) * | 2024-01-08 | 2024-03-22 | 安徽大学 | 一种具备分析训练性能的自然语言处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109359294B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359294A (zh) | 一种基于神经机器翻译的古汉语翻译方法 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN108829684A (zh) | 一种基于迁移学习策略的蒙汉神经机器翻译方法 | |
CN110162789B (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN110427629B (zh) | 半监督文本简化模型训练方法和系统 | |
CN110909736A (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN111144410B (zh) | 一种跨模态的图像语义提取方法、系统、设备及介质 | |
De Coster et al. | Machine translation from signed to spoken languages: State of the art and challenges | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN112309528A (zh) | 一种基于视觉问答方法的医疗影像报告生成方法 | |
CN111985218A (zh) | 一种基于生成对抗网络的司法文书自动校对方法 | |
CN114757188A (zh) | 一种基于生成对抗网络的规范医疗文本改写方法 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN114692615A (zh) | 一种针对小语种的小样本意图识别方法 | |
Guo | An automatic scoring method for Chinese-English spoken translation based on attention LSTM | |
CN111597831A (zh) | 混合深度学习网络与单词生成统计学指导的机器翻译方法 | |
CN112085985A (zh) | 一种面向英语考试翻译题目的学生答案自动评分方法 | |
Mohamed et al. | A deep learning approach for gloss sign language translation using transformer | |
Lim et al. | Orthography-phonology consistency in English: Theory-and data-driven measures and their impact on auditory vs. visual word recognition | |
CN110909142B (zh) | 一种问答模型的问题语句处理方法、装置、电子设备及存储介质 | |
Wei et al. | Research on Error Detection Technology of English Writing Based on Recurrent Neural Network | |
Wu et al. | Sentiment analysis with eight dimensions for emotional chatbots | |
Waghmare et al. | Performance Analysis of Neural Machine Translation Models for ASL to ASL Gloss Conversion | |
Muluka | Continuous Sign Language Recognition | |
CN117909468A (zh) | 一种基于扩散模型的多粒度可控共情对话生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |