CN107329961A

CN107329961A - 一种云翻译记忆库快速增量式模糊匹配的方法

Info

Publication number: CN107329961A
Application number: CN201710532235.9A
Authority: CN
Inventors: 杜金华; 毕京存
Original assignee: Xi'an Bonny Translation Co Ltd
Current assignee: Xi'an Bonny Translation Co Ltd
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-11-07

Abstract

本发明公开了一种云翻译记忆库快速增量式模糊匹配的方法，面向基于云平台的大规模翻译记忆库快速、准确模糊匹配，采用信息检索技术对大规模翻译记忆库构建索引，采用粗选和精选策略，即首先从索引库中根据输入的待译句子得到匹配的子集，然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出，最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。本发明一种云翻译记忆库快速增量式模糊匹配的方法，能快速、准确检索大规模翻译记忆库，提高后编辑人员的工作效率。

Description

一种云翻译记忆库快速增量式模糊匹配的方法

技术领域

本发明属于计算机辅助翻译技术领域，具体涉及一种云翻译记忆库快速增量式模糊匹配的方法。

背景技术

翻译记忆库是目前计算机辅助翻译系统中不可或缺的部分，以类似数据库的方式对已有平行句对或后编辑完成的平行句对进行存储，存储方式可为数据库或各种类型的文本文件，如TMX，TXT，XLIFF,XML等。

在使用翻译记忆库时，一般的工作流程为给定需要翻译的源语言句子S，指定需要查询的翻译记忆库T，以句子为单位，遍历翻译记忆库T中所有的句段。对T中的每一句段X，采用相似度或距离计算算法计算S与X之间的最小距离d，然后由最小距离d计算得到相似度得分或模糊匹配得分(取值为0～100％)，最后取模糊匹配得分最大并且该得分大于或等于设定的模糊匹配阈值的句段的对应翻译为最优输出。若需要输出最佳的前N个结果，则按得分从大到小依次排序，取出前N个句段的翻译为最优翻译假设输出。

翻译记忆库的优点是易存储，易操作，但是缺点也显而易见：

①互联网技术的发展使得双语平行数据的获取变得相对容易；而且，随着互联网的普及，目前主流的计算机辅助翻译系统已从简单的单机桌面系统发展为基于浏览器的云端系统，译员只需通过浏览器登录云端个人帐户，上传本地记忆库至云端，即可随时随地进行翻译活动，但同时，云翻译使得翻译记忆库的规模迅速增大。而且，基于云端的翻译辅助系统使得译员在线协同作业成为可能，更使得记忆库的规模迅速增加。记忆库规模的增加使得简单的基于句段的遍历方法变得效率低下，无法满足互联网大规模在线翻译的实时性需求。

②传统常用的记忆库模糊匹配算法一般是基于编辑距离的相似度计算算法，本质上是基于词形而非语义理解的计算方法。基于词形的计算方法会因为词形的微小变化而导致词无法匹配，使得句子级的相似度得分降低，例如英文中的动词“go”、“goes”在基于编辑距离的模糊匹配算法中被视为不同的词，从而产生“替换”操作的代价。而从语义的角度讲，它们是在不同的主语代词结构下的相同语义表达。又如语义匹配表示的一个简单例子：句子“北京是中国的首都”和“华盛顿是美国的首都”，这两个句子在形式上因为“北京-华盛顿”、“中国-美国”的不同，而导致基于编辑距离的模糊匹配得分只有60％，而如果模糊匹配阈值设定大于60％时，则导致两句无法匹配上。而在语义表达上，“北京-华盛顿”、“中国-美国”在语义空间是一致的，都表示国家的首都，具有相同的语义信息，因此，在语义上是相匹配的。而对于两者的英文翻译分别为“Beijing is the capital of China”和“Washingtonis the capital of US”，可以看到，译员只需简单修改“Beijing->Washington”和“China->US”就可以快速完成翻译，而无需构思英文句子结构，重写英文句子，从而大大提高工作效率。因此，译员对于此类翻译的后编辑操作的代价要远远小于重写的代价。又如“中国的首都是北京”与“北京是中国的首都”就语义表达而言，是同样的意思，可是基于编辑距离的模糊匹配方法无法将该句选出，而采用基于语义的模糊匹配，则可以将“中国的首都是北京”对应的英文翻译输出，译员可以直接使用该英文翻译而无需修改。因此，传统的记忆库模糊匹配算法使得记忆库的使用效率较低，大量语义表达相似而表象不同的句子无法匹配输出，使得译员的翻译或后编辑效率大大降低。

因此，面向基于云端的大规模海量记忆库的高效准确使用，设计和开发具有语义信息检索装置的云翻译记忆库快速增量式模糊匹配系统，不仅能够促进计算机辅助翻译在互联网+时代下的普及应用，提高译员的工作效率，而且能够进一步增强人们对机器翻译的信心，这对于该学科乃至该行业的进步起着关键性的作用。

发明内容

本发明的目的是提供一种云翻译记忆库快速增量式模糊匹配的方法，解决了现有技术中存在的译员的翻译或后编辑效率低的问题。

本发明所采用的技术方案是，一种云翻译记忆库快速增量式模糊匹配的方法，面向基于云平台的大规模翻译记忆库快速、准确模糊匹配，采用信息检索技术对大规模翻译记忆库构建索引，采用粗选和精选策略，即首先从索引库中根据输入的待译句子得到匹配的子集，然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出，最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。

本发明的特点还在于：

具体按照以下步骤实施：

步骤1：将基于云的大规模翻译记忆库中源语言句段和目标语言句段分别进行句子级语义向量建模，分别得到源语言的句子语义向量表示模型和目标语言的句子语义向量表示模型；

步骤2：将基于云的大规模翻译记忆库中的源语言句段和目标语言句段分别赋予唯一的ID号，并以此ID号为文件名对源语言句段和目标语言句段分别存储，构成源语言句段文件集合和目标语言句段文件集合；同一ID号对应的源语言句段文件和目标语言句段文件为双语平行句对；

步骤3：对源语言句段文件和目标语言句段文件，分别采用信息检索技术对其进行索引构建，得到源语言文件索引库和目标语言文件索引库；

步骤4：给定待译源语言句段，译员请求云端大规模翻译记忆库翻译，将待译句段送入源语言索引库进行粗选，获取N个最好结果，构成源语言句段子集；

步骤5：对粗选后的子集，采用基于句子语义向量相似度和编辑距离线性组合的算法进行精选，输出得分最高的句段所对应的译文；

步骤6：译员对输出的译文进行人工后编辑，然后将最终译文和对应的源语言句段返回大规模翻译记忆库，进行增量式更新。

步骤1中大规模翻译记忆库是指双语平行数据规模在100万句对以上的翻译记忆库。

步骤1中源语言句段和目标语言句段分别采用基于神经网络的方法进行句子级语义向量建模。

步骤5中精选的计算公式如下：

score＝α*similarity(X，Y)+(1-α)*(1-levenshtein(x，y))

其中，x表示源语言输入句子，y表示翻译记忆库中的任意源语言句段，皆以文本形式存储；X表示句子x的连续向量空间表示形式，Y表示句段y的连续向量空间表示形式，皆以固定维度的数值向量形式存储；score表示输入句子x与翻译记忆库中的任意源语言句段y匹配所得模糊匹配得分，similarity(X,Y)表示待译句子x与翻译记忆库中的任意句段y之间的连续向量语义相似度，levenshtein(x,y)为基于编辑距离的模糊匹配计算方法，(1-levenshtein(x,y))表示基于编辑距离的待译句段x与翻译记忆库中的任意句段y之间的相似度，α为平衡因子；

similarity为基于余弦的句子语义向量相似度计算方法，如下公式所示：

其中，A为输入的待译句段的语义向量，B为翻译记忆库中的某一句段的语义向量，similarity表示A和B的语义相似度，n表示向量维数。

本发明的有益效果是：本发明一种云翻译记忆库快速增量式模糊匹配的方法，使得基于互联网的大规模在线翻译记忆库的查询匹配可以快速准确实时完成，并且能够根据语义信息充分利用翻译记忆库，有效提高了译员使用大规模翻译记忆库的工作效率。本发明将信息检索技术和基于连续向量空间的句子向量语义匹配方法进行有机结合从而使翻译记忆库的模糊匹配具有一定的智能性，并进行了实验测试。测试结果表明相比于传统的大规模翻译记忆库的基于编辑距离的模糊匹配系统和方法，本发明的方法可有效提高输出效率和准确率。

附图说明

图1是本发明云翻译记忆库快速增量式模糊匹配的方法的流程图；

图2是本发明云翻译记忆库快速增量式模糊匹配的方法的系统框图；

图3是本发明云翻译记忆库快速增量式模糊匹配的方法中一个示例的输入源语言句段与记忆库中源语言句段的语义向量表示；

图4是本发明云翻译记忆库快速增量式模糊匹配的方法中一个示例的模糊匹配得分计算结果。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明综合考虑到模糊匹配准确率和模糊匹配速度的要求，提出一种云翻译记忆库快速增量式模糊匹配的方法，将信息检索技术、语义匹配和传统的编辑距离匹配相结合，以提高云端大规模翻译记忆库的查询匹配效率，同时实现新增后编辑数据的增量式记忆库和索引库构建，提高译员的工作效率和译文的准确率。本方法可以分为粗选和精选两个阶段，粗选阶段主要采用信息检索技术从大规模翻译记忆库中高效返回匹配率较高的句段子集，以缩小精确查询范围；精选阶段主要采用语义和编辑距离相结合的模糊匹配计算装置对句段子集进行模糊匹配得分计算，以得到最优的翻译候选输出。

本发明一种云翻译记忆库快速增量式模糊匹配的方法，面向基于云平台的大规模翻译记忆库快速、准确模糊匹配，采用信息检索技术对大规模翻译记忆库构建索引，采用粗选和精选策略，即首先从索引库中根据输入的待译句子得到匹配的子集，然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出，最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。

本发明是一种云翻译记忆库快速增量式模糊匹配的方法，以大规模中英双语翻译记忆库为例，如图1、2所示，具体步骤为：

步骤1：给定基于云平台的大规模翻译记忆库，其可以采用网络服务(WebService)的方式为译员提供翻译记忆查询。大规模一般指双语平行数据规模在100万句对以上，而一般的桌面或离线翻译记忆库在几万句对左右。云端翻译记忆库可按应用领域分类，如航天、电子、计算机、医学、生物等，每个领域有相当规模的记忆库；亦可将所有领域记忆库进行合并组建成一个更大规模翻译记忆库，提供全领域翻译记忆查询。

给定云端翻译记忆库后，首先将翻译记忆库的中文句段(源语言句段)及其对应的英文句段(目标语言句段)采用神经网络的方法进行句子语义向量建模，分别得到中文句子语义向量模型Vec_ZH和英文句子语义向量模型Vec_EN，并将向量模型进行存储。

如待译句段“北京是中国的首都”的100维语义层面的句子向量表示如图3所示。图中可以看出，每一维为连续的实值，该值的大小表示在第i维度上的比重。如图3中假定“中国的首都是北京”和“巴黎是法国的首都”为翻译记忆库中的句段。

步骤2：将基于云的大规模翻译记忆库中的中文句段(源语言句段)和英文句段(目标语言句段)分别赋予唯一的ID号，并以此ID号作为文件名对中文句段和英文句段作为文件分别进行存储，得到翻译记忆库中的中文句段、英文句段文件集合，记为SZH和SEN；同一ID号对应的源语言句段文件和目标语言句段文件为双语平行句对。

步骤3：采用信息检索技术将中文文件集合SZH和英文文件集合SEN分别进行索引构建，分别生成索引库RZH和REN。本发明采用开源信息检索工具Lucene将大规模双语翻译记忆库(如中英TMX翻译记忆库)建索引存储。

步骤4：给定待翻译句子为中文句子S，设定的模糊匹配阈值FTH，将待译句子S送入中文检索库RZH进行粗选，根据设定的检索返回的源语言匹配数量N(如N＝100，表示匹配得分最高的100个候选)，得到子集合SubZH，(SubZH为原始中文集合SZH的微小子集)。其中子集中的每项为中文文件，采用唯一ID号表示。

将子集SubZH中的所有句段根据中文句子语义向量模型Vec_ZH转换为句子语义表示向量，同时，待译句段S也转换为语义表示向量。语义向量的表示形式为连续实数空间下的固定维数的实值分布式表示，如句子“北京是中国的首都”可以表示为100维的连续向量[0.05,0.02,…,0.004]₁₀₀，其中右下角的“100”表示维度，每一维的取值范围为[-1,1]。维度大小可根据数据规模等实际情况自定义。

步骤5：采用余弦相似度算法计算任意两个基于语义的连续向量之间距离的方法用于表示向量之间的语义相似度，具体算法如下：

其中，A为输入的待译句段的语义向量，B为翻译记忆库中的某一句段的语义向量，similarity表示A和B的语义相似度，similarity取值范围为[-1,1]，-1意味着两个向量指向的方向正好截然相反，1表示它们的指向是完全相同的，0通常表示它们之间是独立的，而之间的值则表示相似性或相异性；n表示向量维数；A_i表示向量A的第i维，B_i表示向量B的第i维。

在得到基于连续向量空间表示的语义相似度得分后，为平衡语义信息和语法信息对查询结果准确率和召回率的影响，提出基于语义信息检索和编辑距离匹配线性组合的模糊匹配方法，如以下公式所示：

score＝α*similarity(X，Y)+(1-α)*(1-levenshtein(x，y))

其中，x表示源语言输入句子，y表示翻译记忆库中的任意源语言句段，皆以文本形式存储；X表示句子x的连续向量空间表示形式，Y表示句段y的连续向量空间表示形式，皆以固定维度(如100维)的数值向量形式存储；score表示输入句子x与翻译记忆库中的任意源语言句段y匹配所得模糊匹配得分，similarity(X,Y)表示待译句子x与翻译记忆库中的任意句段y之间的连续向量语义相似度，levenshtein(x,y)为基于编辑距离的模糊匹配计算方法，(1-levenshtein(x,y))表示基于编辑距离的待译句段x与翻译记忆库中的任意句段y之间的相似度，α为平衡因子，用于调整两种相似度之间的平衡，取值为[0,1]。

levenshtein得分是根据文本形式的句子和词本身计算，即只根据统计相同词的数量来计算相似得分，而非根据词向量计算语义相似度得分，因此该相似度主要体现为文本形式相似度，而非语义相似度。

为便于理解，详细说明一下两种相似度：语义相似度指的是两个句子在意思上是否表达相似；而文本形式的相似度，主要体现在句子中的词是否一样或者相似。如专利中所提到的：北京是中国的首都、巴黎是法国的首都。在语义上，两个句子皆表达一个城市是一个国家的首都；而在句子的词构成上，北京和巴黎是两个不同的词，中国和法国是两个不同的词，因此，采用levenshtein方法计算这两个句子的相似度时，只能得到3/5＝0.6的文本相似度；而采用词向量进行计算时，北京的词向量和巴黎的词向量在语义分布上是一致的，中国和法国的词向量在语义分布上是一致的，因此，采用余弦进行相似度计算后，得到较高的相似得分，体现语义的相似度。

图4给出了输入中文句段“北京是中国的首都”的两个记忆库候选句段的线性组合的模糊匹配得分计算示例。从图中可以看出，如果单纯以句子语义向量的相似度为模糊匹配得分评价准则，则在阈值大于90％时，输出“中国是北京的首都”对应的翻译，可以看出，该句与输入句段语义上是一致的；如果单纯以编辑距离为模糊匹配得分评价准则，则在阈值大于60％时，输出“巴黎是法国的首都”对应的翻译，可以看出，该句与输入句段在句子结构和句法上是一致的。而本发明提出的线性组合方法，将语义与语法进行平衡，最后得到两句对的最终得分皆为59％，则在实际使用时，可忽略模糊匹配阈值，而输出N(如N＝2)个翻译候选，由译员自由挑选工作效率最高、最符合实际翻译的候选进行后编辑。

对子集SubZh范围内的所有句段计算模糊匹配得分，然后根据设定的模糊匹配值FTH，由高到低输出最优匹配句段，即：若有高于FTH的句段，则输出得分最高的句段；若没有，则输出为空；或者可忽略模糊匹配阈值，而输出N(如N＝2)个翻译候选，由译员自由挑选工作效率最高、最符合实际翻译的候选进行后编辑。

步骤6：对于译员或者后编辑人员编辑完后的译文及其对应的源语言句段，将同时返回大规模翻译记忆库用于增量式更新记忆库和索引库，可用于下次记忆库检索。

实施例

本次实验以基于云端的采用levenshtein的模糊匹配算法的中英翻译记忆库查询系统为基线系统进行对比。实验数据和系统设置如下：中英翻译记忆库分为2个规模，分别为12万句对和130万句对，翻译方向为中译英，其中12万句对包含航空航天、电子、法律等领域数据；130万句对则包括以上12万句对和新闻领域数据共计130万。测试指标为1)当输入中文待译句子时，记忆库系统的平均查询时间；2)译员对返回的英文翻译的后编辑时间，采用自动评价准则TER进行评价。基线系统和本发明系统全部采用单线程运行。测试集包含100句。采用TER进行评价时，如果设定模糊匹配阈值，则无法保证所有测试语句都有大于该阈值的匹配结果，因此，使用测试集对算法性能评价时，忽略模糊匹配阈值，返回匹配得分最高的句段的翻译。

表1说明了基于以上数据，采用本发明的方法与基线系统的对比性能。

表1对比实验

表中“平均时间”表示测试集中每个句段的查询时间；TER用于评价翻译错误率，其优点为与人工评价相关度高，可用来评价对译文进行人工后编辑的代价。取值通常在0～100之间，越低表示性能越好。

从表中可以看出，相比于基线系统，本发明所提出的方法显著降低了平均查询时间和TER值，提高了系统性能。因此，本发明所提出的方法是有效的和可行的。

Claims

1.一种云翻译记忆库快速增量式模糊匹配的方法，其特征在于，面向基于云平台的大规模翻译记忆库快速、准确模糊匹配，采用信息检索技术对大规模翻译记忆库构建索引，采用粗选和精选策略，即首先从索引库中根据输入的待译句子得到匹配的子集，然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出，最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。

2.根据权利要求1所述的一种云翻译记忆库快速增量式模糊匹配的方法，其特征在于，具体按照以下步骤实施：

3.根据权利要求2所述的一种云翻译记忆库快速增量式模糊匹配的方法，其特征在于，所述步骤1中大规模翻译记忆库是指双语平行数据规模在100万句对以上的翻译记忆库。

4.根据权利要求2所述的一种云翻译记忆库快速增量式模糊匹配的方法，其特征在于，所述步骤1中源语言句段和目标语言句段分别采用基于神经网络的方法进行句子级语义向量建模。

5.根据权利要求2所述的一种云翻译记忆库快速增量式模糊匹配的方法，其特征在于，所述步骤5中精选的计算公式如下：

score＝α*similarity(X，Y)+(1-α)*(1-levenshtein(x，y))

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mi>l</mi> <mi>a</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>=</mo> <mi>cos</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>A</mi> <mo>&CenterDot;</mo> <mi>B</mi> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>A</mi> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mi>B</mi> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&times;</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>&times;</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow>