CN102693222A

CN102693222A - 基于实例的甲骨文释文机器翻译方法

Info

Publication number: CN102693222A
Application number: CN2012101653608A
Authority: CN
Inventors: 熊晶; 王爱民; 郭涛; 孙华; 马辉; 葛彦强; 王继鹏
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-05-25
Filing date: 2012-05-25
Publication date: 2012-09-26
Anticipated expiration: 2032-05-25
Also published as: CN102693222B

Abstract

本发明基于实例的甲骨文释文机器翻译方法，包括如下步骤：(a)构建完成甲骨文释文-现代汉语的双语语料库；(b)完成双语语料的句对齐、短语对齐和词对齐，建立翻译实例库；(c)输入待翻译甲骨文释文；(d)基于步骤(b)中建立的翻译实例库，对输入的待翻译甲骨文释文进行全实例匹配或部分实例匹配的检索；(e)将最终的翻译结果通过显示器显示给用户；(f)评价翻译结果，将满足释译要求的双语句对添加至翻译实例库中。本发明利用计算机的存储和查询优势的基于实例的甲骨文释文机器翻译方法，减轻甲骨文专家的负担，降低甲骨文的研究门槛。

Description

基于实例的甲骨文释文机器翻译方法

技术领域

本发明涉及一种自然语言处理技术，特别涉及基于实例的甲骨文机器翻译方法。

背景技术

甲骨文研究面临的首要问题是如何利用现代汉语理解和读懂甲骨文语句，国内外甲骨文专家纷纷指出将甲骨文用白话文释读很有意义。但是从事甲骨文研究的门槛很高，培养一名甲骨文专家需要一二十年甚至更长的时间，而且专家对甲骨文的辨识和翻译依靠长期的学术钻研和经验积累，这种经验知识仅存储在专家的头脑中，并不能实现知识的有效共享。如果能利用计算机技术和信息技术实现甲骨文白话释读，则可以有效共享和重用甲骨文专家的知识，减轻他们的负担，降低甲骨文的研究门槛，为甲骨文的研究和推广、提高甲骨文数字化展示等起到重要的推动作用。

利用计算机实现甲骨文的白话释读属于机器翻译的范畴。机器翻译研究主要有三种：基于规则的机器翻译(Rule-Based Machine Translation，RBMT)、基于实例的机器翻译(Example-Based Machine Translation，EBMT)和统计机器翻译(Statistical Machine Translation，SMT)。RBMT是依赖规则的，其“瓶颈”在于通过人工编写的方式获得大规模的语言规则成本太高，在研究上难以取得更大突破，而且甲骨文是迄今为止最早的成系统语言，很多文法规律还处于不确定状态，因此深层次的甲骨文规则的获取和维护比较困难；SMT方法需要大规模的双语平行语料库作为训练各种概率参数的基础，但目前收集的甲骨文资料的规模还远远不够，而且，一片甲骨上的文字最多百余字，最少的只有一个字，数据稀疏问题严重。而EBMT具有无需编写规则、系统维护容易、产生的译文质量较高、需要的语言知识较少等优点，是一个很好的选择。而且，甲骨文学习者都是通过已经存在的翻译实例作为知识源，来进行类比翻译和学习的，这与EBMT当初的设计思想十分吻合。

由于甲骨文原文是没有句读的，且甲骨字很多都是异体字，而甲骨文释文是经专家考释过的与原文对应的简体或繁体中文(没有考释出来的甲骨字仍然以原始形态出现)。释文已经添加了句读符号，统一了异体字的表示形式，并且对一些残缺的或错刻的甲骨文字进行了补充，而且，在甲骨文信息处理过程中，主要研究对象为释文，因此本发明选择甲骨文释文作为机器翻译的源语言，现代汉语为目标语言。

发明内容

针对现有技术中存在的不足，本发明的目的在于提供一种利用计算机的存储和查询优势的基于实例的甲骨文释文机器翻译方法，减轻甲骨文专家的负担，降低甲骨文的研究门槛。

本发明的技术方案是这样实现的：基于实例的甲骨文释文机器翻译方法，包括如下步骤：

(a)构建完成甲骨文释文-现代汉语的双语语料库；

(b)完成双语语料的句对齐、短语对齐和词对齐，建立翻译实例库；

(c)输入待翻译甲骨文释文；

(d)基于步骤(b)中建立的翻译实例库，对输入的待翻译甲骨文释文进行全实例匹配或部分实例匹配的检索；若待翻译甲骨文释文存在于翻译实例库中，采用全实例匹配方式，直接输出待翻译甲骨文释文的现代汉语翻译句；若翻译实例库中没有待翻译甲骨文释文，采用部分实例匹配方式，计算待翻译甲骨文释文句子和检索到的实例句的相似度，并选择相似度最大的实例句，对相似度最大的实例句对应的现代汉语翻译句进行替换和调整；

(e)将最终的翻译结果通过显示器显示给用户；

(f)评价翻译结果，将满足释译要求的待翻译甲骨文释文句子和与之对应的现代汉语组成的双语句对添加至翻译实例库中。

上述基于实例的甲骨文释文机器翻译方法，步骤(d)中相似度计算公式如式(1)所示：

Sim (S_{o}, S_{e}) = α \times \frac{2 WordCom (S_{o}, S_{e})}{MordNum (S_{o}) + WordNum (S_{e})} + β \times [1 - \frac{EditDist (S_{o}, S_{e})}{{len}_{\max} (S_{o}, S_{w})}]

式(1)，

其中：S_o代表待翻译甲骨文释文，S_e代表实例库中的甲骨文释文实例句；WordCom(S_o，S_e)表示S_o，S_e两者中相匹配的词语数量；WordNum(S_o)和WordNum(S_e)分别表示S_o，S_e两者各自的词语个数；EditDist(S_o，S_e)为S_o，S_e之间的编辑距离，指仅通过插入、删除或替换操作，把一个字符串变成另一个字符串所需要的最小操作数目；len_max(S_o，S_e)为S_o，S_e两者中长度的最大值；α和β为权重参数，且α+β＝1，取α＝0.44，β＝0.56。需要说明的是：在选择α和β时，采用遗传算法进行确定。具体参数为：染色体编码采用二进制，编码长度为20；初始群体大小设定为50；算子选择过程采用赌轮盘选择方法；交叉概率取0.7；变异概率取0.001；算法终止条件为最优个体在连续10代没有改进或平均适应度连续10代基本没有改进时停止。

上述基于实例的甲骨文释文机器翻译方法，步骤(d)中，对输入的待翻译甲骨文释文进行全实例匹配或部分实例匹配的检索步骤如下：

第一步：将输入的待翻译甲骨文释文句子S_o进行分词，按照式(2)所示计算待翻译甲骨文释文中各词的信息熵，高频词有着较低的信息熵，设定信息熵最小阈值为D，信息熵低于D的词将不再参与检索，剔除信息熵小于阈值D的词，得到词集合W；

H(ch)＝lg(M/m) 式(2)；

ch表示一个词，M表示双语语料库中的甲骨文释文句子总数，m表示甲骨文释文中出现ch的句子数；

第二步：对每个词w_i∈W，通过词的倒排索引检索出所有包含w_i的实例句，得到句子集合S_i；

第三步：求S_i的并集得到句子集合S；

第四部：对每个句子s_i∈S，利用公式(1)求出Sim(S_o，s_i)并按降序排列；

第五步：取Sim(S_o，s_i)值最大的句子s_i作为目标句。

上述基于实例的甲骨文释文机器翻译方法，步骤(a)中的甲骨文释文是经考释过的与甲骨文原文对应的简体中文或繁体中文，没有考释出来的甲骨文原文仍然以原始形态出现；甲骨文释文已经添加了句读符号，统一了异体字的表示形式，并且对一些残缺的或错刻的甲骨文原文文字进行了补充；甲骨文释文-现代汉语的双语语料均收集来自甲骨文文献的甲骨文释文及其对应的现代汉语翻译句对；双语语料均为考释过的、不存在学术争议的且能进行通读的甲骨文释文及其对应的现代汉语翻译句；在双语语料库预处理阶段，已经筛除了残缺较多、未考释字较多或仅有一两字等影响通读的句子。

上述基于实例的甲骨文释文机器翻译方法，步骤(b)中的双语句对齐为人工实现，词对齐和短语对齐以自动实现为主，辅以人工校对；翻译实例库包含了这三级对齐信息并建立了索引；词对齐及短语对齐的自动实现的基础为甲骨文分词技术。

上述基于实例的甲骨文释文机器翻译方法，翻译实例库最终存储形式为关系数据库，建立索引的目的是为实例搜索提供基础，包括按句子排序的索引和按词排序的索引；在生成的翻译实例库索引中，包含了实例句的源句子、目标句子和对齐信息。

上述基于实例的甲骨文释文机器翻译方法，甲骨文分词采用基于词典、句法规则和句法分析相结合的办法，首先通过甲骨文词典获得初步的分词结果，然后根据甲骨文句法规则和句法分析对初步结果进行再次划分，划分的结果通过句法分析排歧后再进行分词序列优化，得到最终的分词结果；通过未登录词识别规则进行检查，将满足未登录词条件的新词加入词库。未登录词识别规则参考甲骨文语法、句法规则及停用词表，判断其与前后元素结合成词的能力大小以及是否在已处理过的句子中已判定为未登录词。

上述基于实例的甲骨文释文机器翻译方法，步骤(d)中的句子相似度计算，主要考虑匹配组块和编辑距离两个方面。

上述基于实例的甲骨文释文机器翻译方法，所述步骤(f)中的翻译结果评价，主要采用人工评价方法，可通过查阅甲骨文文献资料和咨询甲骨文专家两种方式实现。

本发明的有益效果是：本发明是利用基于实例的机器翻译方法，实现对甲骨文释文的计算机白话释读操作。在此方法的基础上，可以将用户提交的甲骨文释文句子，经过同实例库的全匹配或部分匹配方式，得到现代汉语翻译结果。利用计算机的存储和查询优势，减轻甲骨文专家的负担，降低甲骨文的研究门槛。随着翻译实例库的不断扩充，甲骨文释文机器翻译结果满意度将越来越高；最终实现甲骨文释文的白话释读。

通过翻译系统的界面，用户提交待翻译的甲骨文释文后，待翻译句子将同实例库中的例句进行匹配。若是全匹配方式，系统将直接输出翻译结果；若是近似匹配方式，系统将计算待翻译句子与实例句相似度，并通过修改最相似实例句所对应的现代汉语翻译句中不匹配的部分，从而得到待翻译甲骨文释文句的现代汉语翻译。系统可接受单一甲骨文释文句的翻译，也可以通过提交文本方式实现批量翻译。本发明采用基于实例的机器翻译方法，利用计算机实现甲骨文释文的白话释读。

附图说明

图1为本发明基于实例的甲骨文释文机器翻译方法的翻译实例库构建流程；

图2为本发明基于实例的甲骨文释文机器翻译方法中甲骨文释文分词流程；

图3为本发明基于实例的甲骨文释文机器翻译方法的翻译流程。

具体实施方式

结合附图对本发明做进一步的说明：

本发明基于实例的甲骨文释文机器翻译方法的基本思路在于利用基于实例的机器翻译技术，实现甲骨文释文到现代汉语的转换，包括如下步骤：

(a)构建完成甲骨文释文-现代汉语的双语语料库；

(c)输入待翻译甲骨文释文；

(d)基于步骤(b)中建立的翻译实例库，对输入的待翻译甲骨文释文进行全实例匹配或部分实例匹配的检索；若待翻译甲骨文释文存在于翻译实例库，采用全实例匹配方式，直接输出待翻译甲骨文释文的现代汉语翻译句；若翻译实例库没有待翻译甲骨文释文，采用部分实例匹配方式，计算待翻译甲骨文释文句子和实例句的相似度，并选择相似度最大的实例句，对相似度最大的实例句对应的现代汉语翻译句进行替换和调整；

(e)将最终的翻译结果通过显示器显示给用户；

(f)评价翻译结果，将满足释译要求的双语句对添加至翻译实例库中。

本发明关键基础是翻译实例库的建立，其建立流程如图1所示。实例库是在“甲骨文释文-现代汉语”双语语料库基础上构建的，其中甲骨文释文作为机器翻译的源语言，现代汉语作为目标语言，两者均以xml文件格式存储，分别用source.xml和target.xml表示。由于甲骨片上的卜辞语句均为短句，且同一甲骨片上可能记录着多次占卜的内容，因此采取下列标记方法：

<OBI></OBI>表示xml文件中的根元素。

<bone id＝″″></bone>元素记录某一甲骨片上的卜辞内容，id表示甲骨片号，这个编号在甲骨文研究中是唯一的。

<u id＝″″></u>元素位于<bone></bone>元素之间，记录一条卜辞；id取值为1，2，3…，表示句子所属的每条卜辞单元编号。

<s id＝″″></s>元素位于<u></u>标记之间，表示甲骨文释文句子；id取值为1，2，3…，表示句子编号。

source.xml和target.xml中均是句子对齐的，因此，两者中的各级id值是一一对应的，句子对齐采用人工对齐的方法。

为提高机器翻译的准确度，翻译实例库还进行了词和短语一级的对齐。实现对齐的关键技术是甲骨文分词，分词流程如图2所示。例如，目前图2中的甲骨文词典共收录词条4881个(含异体字和合文)，其中单字词4687个，二字词174个，三字词20个。对齐效果依赖于甲骨文词典的完善程度，利用词典进行自动对齐后，一般要辅以人工校对。

翻译实例库最终存储在关系数据库中，建立索引的目的是为实例搜索提供基础。建立索引主要包括按句子排序的索引和按词排序的索引。

用户输入的待翻译甲骨文释文文本，以句子为单位进行翻译，翻译流程如图3所示。待翻译释文句将在实例库中进行检索和匹配，若待翻译句子已存在于实例库中，即为全匹配方式，通过直接检索实例库返回现代汉语翻译结果【如输入的甲骨文释文文本为：贞：帝弗其及今四夕令雨？返回实施句为：贞问上帝到最近的第四天夜晚不会命令下雨吧？】；若实例库中检索不到待翻译句子，则计算其与实例句的相似度。

步骤(d)中相似度计算公式如式(1)所示：

Sim (S_{o}, S_{e}) = α \times \frac{2 WordCom (S_{o}, S_{e})}{MordNum (S_{o}) + WordNum (S_{e})} + β \times [1 - \frac{EditDist (S_{o}, S_{e})}{{len}_{\max} (S_{o}, S_{w})}]

式(1)，

其中：S_o代表待翻译甲骨文释文，S_e代表实例库中的甲骨文释文实例句；WordCom(S_o，S_e)表示S_o，S_e两者中相匹配的词语数量；WordNum(S_o)和WordNum(S_e)分别表示S_o，S_e两者各自的词语个数；EditDist(S_o，S_e)为S_o，S_e之间的编辑距离，指仅通过插入、删除或替换操作，把一个字符串变成另一个字符串所需要的最小操作数目；len_max(S_o，S_e)为S_o，S_e两者中长度的最大值；α和β为权重参数，且α+β＝1，基于人工对齐的2425句对，通过遗传算法确定出α＝0.44，β＝0.56。需要说明的是：在选择α和β时，采用遗传算法进行确定。具体参数为：染色体编码采用二进制，编码长度为20；初始群体大小设定为50；算子选择过程采用赌轮盘选择方法；交叉概率取0.7；变异概率取0.001；算法终止条件为最优个体在连续10代没有改进或平均适应度连续10代基本没有改进时停止。以“丙子卜，韦，贞：我受年？”为例计算的句子相似度，结果如表1【本发明基于实例的甲骨文释文机器翻译方法的部分实例匹配时，各实例句与待翻译甲骨文释文的相似度示例】和表2所示(计算时已消除标点符号的影响)：

选择相似度最高的实例句对作为参考对象，对比待翻译句和释文实例句，替换两者中不同的词，基于甲骨文词典及句法规则，经过调整得到目标翻译句。例如实例库中检索出与“丙子卜，韦，贞：我受年？”最相似的目标例句为“□□卜韦贞我受年”(已分词，下划线部分为匹配部分)，此实例句对应的现代汉语翻译为“某日占卜，贞人韦问卦，贞问：我商王朝会丰收吗？”，将不匹配的词进行替换并调整，得到最终翻译结果为“丙子日占卜，贞人韦问卦，贞问：我商王朝会丰收吗？”。

实例检索算法也是一个关键技术。考虑实例的检索效率，采用词的倒排索引进行搜索。即针对待翻译句子中出现的词，查找所有出现这些词的实例句子，然后只计算这些句子的相似度。

甲骨文中有些词在卜辞语句中频繁出现，检索这些词将对应着大量的实例句子。为避免高频词查找返回过多结果，又保证尽可能不遗漏潜在的相似例句，引入词的信息熵，如式(2)所示：

H(ch)＝lg(M/m) 式(2)，

其中ch表示一个词，M表示语料库中的甲骨文释文句总数(目前收集的卜辞为来自72112片甲骨上的共129519条句子)，m表示释文中出现ch的句子数。引入信息熵的概念后，可以计算释文中各词的信息熵，高频词有着较低的信息熵。设定其最小阈值D，信息熵低于D的词将不再参与检索。

步骤(d)中，对输入的待翻译甲骨文释文进行全实例匹配或部分实例匹配的检索步骤如下：

H(ch)＝lg(M/m)式 (2)；

ch表示一个词，M表示双语语料库中的甲骨文释文句总数，m表示甲骨文释文中出现ch的句子数；

第三步：求S_i的并集得到句子集合S；

第五步：取Sim(S_o，s_i)值最大的句子s_i作为目标句。

在图3所示的翻译流程中，全实例匹配方式的翻译结果正确率为100％。但对部分匹配得到的翻译结果，需要进行人工评价。人工评价考虑“忠实度”和“理解度”两个方面，前者考察的是译文忠实原文表达意图的程度，后者则考察存在残缺字、未释字等的甲骨文语句经系统翻译后能达到通读全句的程度。若评价结果满意，可以将翻译结果及其对应的源语言句子作为新的实例句对添加到实例库中。

需要说明的是，翻译实例库的建立是一个动态完善的过程。随着甲骨文研究的不断深入，专家学者将不断考释出新的甲骨文句子，翻译实例库也因此不断扩充。对翻译实例库中没有收录的例句，若经计算机翻译能得到较为满意的结果，也可以扩充到翻译实例库中。由于甲骨文属于古籍文字，是有限的，不会像现代汉语这样有复杂的句子变化，也不会随着时间的推移而发展，因此，在翻译实例库规模足够大的情况下，机器翻译的正确率可达到100％。

所述步骤(b)中的对齐包括句子一级、短语一级和词一级的对齐，其中句子一级为人工对齐方式，短语和词对齐主要为自动对齐，辅以人工校对。实例库最终以关系数据库的形式存储。

所述步骤(c)中的输入文本可以是单个句子，也可以从文本文档中批量导入多个句子。

所述步骤(d)中的全匹配方式是指待翻译句子已存在于翻译实例库中，此时的翻译过程实际上是检索过程；部分匹配是指待翻译句子并不存在于实例库，因此需要检索与待翻译句子相似的句子并计算它们的相似度。针对甲骨文的特点，相似度计算主要考虑匹配组块和编辑距离两个方面。

所述步骤(e)中，不论是全匹配方式还是部分匹配方式，用户均可以获取翻译结果。特殊情况下，如待翻译的句子残缺过多或含有大量未考释字，使得相似度很低，系统将显示“暂无相应翻译句”。

所述步骤(f)中的评价主要采用人工评价方法，可通过查阅甲骨文文献和咨询甲骨文专家的方式。人工评价依据为“忠实度”和“理解度”两个方面。经评价，认为已达到通读全句目的的翻译结果，可以添加至翻译实例库。

上述实施例仅仅是为清楚地说明本发明创造所作的举例，而并非对本发明创造具体实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造权利要求的保护范围之中。

Claims

1.基于实例的甲骨文释文机器翻译方法，其特征在于，包括如下步骤：

(a)构建完成甲骨文释文-现代汉语的双语语料库；

(c)输入待翻译甲骨文释文；

(d)基于步骤(b)中建立的翻译实例库，对输入的待翻译甲骨文释文进

行全实例匹配或部分实例匹配的检索；若待翻译甲骨文释文存在于翻译实例库中，采用全实例匹配方式，直接输出待翻译甲骨文释文的现代汉语翻译句；若翻译实例库中没有待翻译甲骨文释文，采用部分实例匹配方式，计算待翻译甲骨文释文句子和检索到的实例句的相似度，并选择相似度最大的实例句，对相似度最大的实例句对应的现代汉语翻译句进行替换和调整；

(e)将最终的翻译结果通过显示器显示给用户；

2.如权利要求1所述的基于实例的甲骨文释文机器翻译方法，其特征在于：步骤(d)中相似度计算公式如式(1)所示：

Sim (S_{o}, S_{e}) = α \times \frac{2 WordCom (S_{o}, S_{e})}{MordNum (S_{o}) + WordNum (S_{e})} + β \times [1 - \frac{EditDist (S_{o}, S_{e})}{{len}_{\max} (S_{o}, S_{w})}]

式(1)，

其中：S_o代表待翻译甲骨文释文，S_e代表实例库中的甲骨文释文实例句；WordCom(S_o，S_e)表示S_o，S_e两者中相匹配的词语数量；WordNum(S_o)和WordNum(S_e)分别表示S_o，S_e两者各自的词语个数；EditDist(S_o，S_e)为S_o，S_e之间的编辑距离，指仅通过插入、删除或替换操作，把一个字符串变成另一个字符串所需要的最小操作数目；len_max(S_o，S_e)为S_o，S_e两者中字符串长度的最大值；α和β为权重参数，且α+β＝1；在选择α和β时，采用遗传算法进行确定。

3.如权利要求2所述的基于实例的甲骨文释文机器翻译方法，其特征在于：步骤(d)中，对输入的待翻译甲骨文释文进行全实例匹配或部分实例匹配的检索步骤如下：

H(ch)＝lg(M/m) 式(2)；

第三步：求S_i的并集得到句子集合S；

第五步：取Sim(S_o，s_i)值最大的句子s_i作为目标句。

4.如权利要求1-3任一所述的基于实例的甲骨文释文机器翻译方法，其特征在于：步骤(a)中的甲骨文释文是经考释过的与甲骨文原文对应的简体中文或繁体中文，没有考释出来的甲骨文原文仍然以原始形态出现；甲骨文释文已经添加了句读符号，统一了异体字的表示形式，并且对一些残缺的或错刻的甲骨文原文文字进行了补充；甲骨文释文-现代汉语的双语语料均收集来自甲骨文文献的甲骨文释文及其对应的现代汉语翻译句对；双语语料均为考释过的、不存在学术争议的且能进行通读的甲骨文释文及其对应的现代汉语翻译句；在双语语料库预处理阶段，已经筛除了残缺较多、未考释字较多或仅有一两字等影响通读的句子。

5.如权利要求4所述的基于实例的甲骨文释文机器翻译方法，其特征在于：步骤(b)中的双语句对齐为人工实现，词对齐和短语对齐以自动实现为主，辅以人工校对；翻译实例库包含了这三级对齐信息并建立了索引；词对齐及短语对齐的自动实现基础为甲骨文分词技术。

6.如权利要求4所述的基于实例的甲骨文释文机器翻译方法，其特征在于：翻译实例库最终存储形式为关系数据库，建立索引的目的是为实例搜索提供基础，包括按句子排序的索引和按词排序的索引；在生成的翻译实例库索引中，包含了实例句的源句子、目标句子和对齐信息。

7.如权利要求5所述的甲骨文分词技术，其特征在于：甲骨文分词采用基于词典、句法规则和句法分析相结合的办法，首先通过甲骨文词典获得初步的分词结果，然后根据甲骨文句法规则和句法分析对初步结果进行再次划分，划分的结果通过句法分析排歧后再进行分词序列优化，得到最终的分词结果；通过未登录词识别规则进行检查，将满足未登录词条件的新词加入词库。

8.如权利要求4所述的基于实例的甲骨文释文机器翻译方法，其特征在于：步骤(d)中的句子相似度计算，主要考虑匹配组块和编辑距离两个方面。

9.如权利要求4所述的基于实例的甲骨文释文机器翻译方法，其特征在于：所述步骤(f)中的翻译结果评价，主要采用人工评价方法，可通过查阅甲骨文文献资料和咨询甲骨文专家两种方式实现。