CN102968463A

CN102968463A - 译文检索方法及装置

Info

Publication number: CN102968463A
Application number: CN 201210438968
Authority: CN
Inventors: 刘奇; 刘洋; 柳春洋; 孙茂松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-11-06
Filing date: 2012-11-06
Publication date: 2013-03-13

Abstract

一种译文检索方法及装置，属于文本信息处理领域，所述方法包括：构建模型参数可设置的统计机器翻译系统及装置；同时构建参数可设置的文本检索系统与装置；使用最佳的参数组合，结合翻译和检索系统及装置，构建基于机器翻译的译文检索系统与装置；对输入的特定源语言句子，可以检索到其对应的目标语言译文实例，或者最佳的译文片段，为用户提供高质量的翻译实例，帮助用户进行翻译工作。所述装置包括：机器翻译模块、检索模块、查询扩展模块、信息呈现模块。本发明结合机器翻译技术与信息检索技术，创新性的在非平行语料库上构建翻译检索系统，有效提高了译文检索的准确度，为用户提供良好的使用体验，具有良好的实用性。

Description

译文检索方法及装置

技术领域

本发明涉及文本信息处理技术领域，特别涉及一种译文检索方法及装置。

背景技术

随着国际交流的日益深入，人们的语言翻译需求日益增长。互联网作为当今最为便捷的获取信息平台，用户对在线翻译需求日益迫切。如何为用户提供高质量的翻译服务成为一个难题。互联网中存在的语言种类多，各语言又具有大量的多义性，语言又处于时时刻刻的变化之中，这就对翻译服务提出更高的要求。当前在线翻译服务主要为机器翻译服务，公认的最好的在线翻译系统为Google在线翻译，但即使Google在线翻译，也不能达到较好的使用体验。主要问题是：第一、翻译出的文本的自然度无法与人工翻译相比；第二、所翻译的文本不正确，翻译结果为多种可能候选中的一个，从而存在未给出正确结果的问题。而在没有Google的资源和计算能力的情况下，用户翻译体验会更差。

在这样的背景下，本发明提出了一种新的解决思路，即：利用检索技术，在目标语言端，将用户想要翻译的源语言句子所对应的译文实例或者有用的译文片段检索出来，提供给用户，让用户自行选择有用句子或者片段，以帮助用户翻译出满意的句子。

与此类似的：有些翻译帮助工具构建于平行语料库之上，所谓平行语料库,是指相互翻译的句子对的集合,一般地，这样的句子对包含源语言句子和目标语言句子,如中文和英文句子对。此类工具的实现的方法为在源语言端检索，给出检索到的句子所对应的目标语言句子。举例说明：输入清华大学，此种方法会在平行语料库的中文句子中进行检索，找到包含清华大学的中文句子，然后返回这些句子所对应的英文句子。

然而平行预料库来源大多数来自政治和法律方面的文件，如：加拿大议会文件、香港政府法律文书等，具有领域局限性，应用范围较为有限，要想构建领域平衡，数量大且高质量的双语语料库，还需要人工来构建，成本要高得多。本方法的创新在于，译文检索的检索端构建于非平行语料库之上，在普通的目标语言句子集中检索，具有领域广泛，数量大的特点。而结合机器翻译技术和信息检索技术构建的译文检索系统，具有准确度高，实用性强的特点。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种分路段测速装置。

为了实现上述目的，本发明采用的技术方案是：

一种译文检索方法，即译文实例的检索方法，所述方法包括：

使用双语语料库训练机器翻译模型，利用机器翻译技术，构建机器翻译模块；

在仅有目标语言句子的非平行语料库上，利用文本检索技术构建文本检索模块；

调整多种参数，寻找到最优的机器翻译模型和文本检索方法；

使用查询扩展技术，提高检索精度，将检索结果通过信息呈现模块展现给用户。

所述调整多种参数，寻找到最优的机器翻译模型，具体包括：

考察不同短语长度、语言模型和调序模型的机器翻译模型对译文检索的准确度的影响；

考察不同短语长度、语言模型和调序模型对机器翻译模型的翻译性能；

确定面向译文检索的机器翻译模型参数，包括翻译模型使用的短语长度、语言模型及调序模型。

所述确定面向译文检索的机器翻译模型参数的方法包括：

针对短语长度、语言模型和调序模型逐次进行实验，每次变动单个参数的设置，调整调序模型，以观察调序模型对译文检索准确度的影响；

根据单变量实验结果，发现机器翻译系统的翻译性能与译文检索的准确度是正相关的，因此根据翻译系统的准确度，确定准确度最高的情况下翻译模型所使用的短语长度、语言模型和调序模型为最终参数。

所述单个参数包括固定短语长度或语言模型。

所述寻找到最优的机器翻译模型，具体包括：通过多轮改变单一参数或模型进行实验，观察整体系统精度的方法，确定系统表现最优时机器翻译模型和文本检索方法所对应的多种参数及模型，并以此作为整体系统参数。

所述使用查询扩展技术，提高检索精度具体包括：利用源语言文本所对应的多个可能翻译结果进行检索，融合多个检索结果，给出优化的检索结果。

另一方面，提供了一种译文检索装置，所述装置包括：

机器翻译模块，用于将输入待检索源语言句子翻译为目标语言句子；

文本检索模块，用于在目标语言句子索引中检索与输入的目标语言Query最为接近的句子或者片段，返回检索结果；

查询扩展模块，优化检索结果，用于利用用户输入的源语言文本所对应的多个可能翻译结果，融合所对应的检索结果，给出优化的检索结果，提高译文检索的查准率；

信息呈现模块，用于对检索系统返回结果进行再次组织和处理，以网页形式呈现给用户。

与现有技术相比，本发明实施例提供的技术方案的有益效果是：

通过结合机器翻译系统和文本信息检索系统的方式，可以为用户提供有效的译文实例检索服务，体现在三点：

一、索引中如包含待检索的源语言句子的正确翻译结果，也即：索引中包括源语言句子的译文，本发明可以高准确度的检索出正确的译文。

二、索引中如不包含待检索的源语言句子的正确翻译结果，本发明可以有效的检索出有用的译文片段，并能将多个译文片段呈现给用户，方便用户组织片段成完整翻译。

三、利用查询扩展技术，结合待检索源语言句子的多个候选翻译结果进行检索，有效避免了机器翻译系统给出的不可靠翻译导致的检索体验低下的问题，从而进一步提升用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的译文检索的方法流程图。

图2是本发明实施例2提供的译文检索的装置体系结构示意图。

图3是本发明实施例2提供的译文检索的装置中的查询扩展模块结构示意图。

图4是本发明实施例2提供的译文检索的装置中的显示模块结构示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

实施例1

参见图1，本实施例提供了一种实现译文检索的方法，方法流程如下所示：

101：对输入源语言Query进行翻译,输出K个最佳目标语言翻译结果作为检索端Query；

102：对输入的目标语言语言Query分别进行检索，对每个检索输出N个最佳目标语言结果;

103：对K个输入目标语言Query分别对应的KN个检索结果综合打分,按照打分分数进行合并排序,去除重复结果后,给出最终检索结果集合;

104:对结果中分数低于阈值的结果进行过滤，对剩余部分结果进行组织，着重显示有用的译文信息，呈现给用户。

本实施例提供的方法，每个翻译结果有一个翻译打分，每个检索结果也有一个检索打分。通过使用所有Query进行检索，避免了翻译错误带来的检索错误。同时通过融合了翻译打分和检索打分的综合打分与排序，提高了检索效果。

实施例2

参见图2，本实施例提供了一种实现译文检索的装置，为对图1方法的细化实施例，具体流程如下：

201：机器翻译模块；

具体地，机器翻译模块,使用了机器翻译技术构建了机器翻译装置。具体的，包括数据集的构建和预处理，使用训练语料进行机器翻译模型训练，并从中提取短语，使用机器翻译技术构建机器翻译系统。数据集构建包括双语句对收集、训练集、试集和开发集的选择；预处理包括但不限于将数据集中源语言文本及目标语言文本中的句子切分成词，并将存在词根的词映射为对应的词根，例如，将英文中代表名词复数的词映射成对应的单数词；将标点符号转换成单字节形式，例如，将中文双引号映射成ASCII码（American Standard Code forInformation Interchange，美国信息交换标准代码）；将易于转换的非阿拉伯数字转换成阿拉伯数字，例如，将“三十五”转换成“35”；使用机器翻译技术训练机器翻译模型，同时构建机器翻译系统，本实施例使用成熟的机器翻译技术和工具包括但不仅限于Moses，使用其他机器翻译技术或工具并不构成本质上的创新。

对于用户输入的要翻译的源语言Query，通过机器翻译模块，输出K个最佳的翻译结果(对文本检索模块来说是目标语言Query)，输出的翻译结果将进入文本检索模块作为查询端Query。

202：文本检索模块：

具体地，文本检索模块，使用了信息检索技术构建了文本检索装置。包括，单语索引集数据的构建和处理，索引的构建，以及调整检索系统参数。

单语索引集数据构建于一个非平行语料库的目标语言句子集合之上；对数据的预处理包括但不限于将索引集中目标语言句子中存在词根的词映射为对应的词根，例如，将英文中代表名词复数的词映射成对应的单数词；将标点符号转换成单字节形式，例如，将中文双引号映射成ASCII码（American StandardCode for Information Interchange，美国信息交换标准代码）；将易于转换的非阿拉伯数字转换成阿拉伯数字，例如，将“三十五”转换成“35”；索引的构建包括使用索引构建工具，构建索引，本方法中使用工具包括但不仅限于lucene，使用其他工具，并不构成本质上的创新；调整检索系统参数包括对检索系统的参数进行调整，包括但不仅限于对输入查询中词顺序的考虑与否，词权重的计算，句子长度的影响因子等等。

对输入的目标语言Query，文本检索系统将输出检索结果，相应于多个目标语言Query,系统将输出多个检索结果集合，这些集合将作为查询扩展模块的输入。

203：查询扩展模块：优化检索结果，用于利用用户输入的源语言文本所对应的多个可能翻译结果，融合所对应的检索结果，给出优化的检索结果，提高译文检索的查准率。

该模块中，用于融合所翻译候选打分和所对应的检索结果的打分：

S(r_ij)=SMT(q_i)+αSIR(r_ij)

其中q_i为用户输入查询q的第i个翻译候选，r_ij为q_i的第j个检索结果，α为权重因子，SMT(q_i)为机器翻译系统对q_i的打分，SIR(r_ij)为检索系统对r_ij与q_i相似度的打分；

融合所有结果采取的策略为，合并相同的检索结果，对所有存在重复的结果赋予新的打分：

S(r)＝max(S(r_ij),S(r_mn),…S(r_qp))

其中r＝r_ij＝r_mn＝…＝r_qp，r的打分S(r)为所有相同的结果中最高的综合打分；

最后根据打分对最终结果进行排序。

204：信息呈现模块：用于对检索结果进行筛选和组织，着重显示对翻译有帮助的有效信息，并呈现给用户。

该模块具体包括：

根据检索系统返回结果，过滤结果中与输入检索系统的目标语言Query相似度小于某个阈值的结果，筛选后的结果集合为：

{ts_ij|Sim(ts_ij,ts_i)>threshold}

其中ts_i为输入检索系统的第i个目标语言Query，ts_ij为ts_i的第j个检索结果，threshold为一个阈值；

根据过滤后结果数量，按照每页一定数量的呈现方式，以分网页的方式呈现检索出的译文结果；

对与源语言句子中词对应的目标语言检索结果中的词进行着重显示，以使用户直观看到检索结果中对其翻译有帮助的片段，提升用户体验。

实施例3

参见图3，本实施例提供了一种查询扩展的装置，该装置包括：

203a综合打分单元，用于根据对K个Query的机器翻译打分和每个Query所对应N个检索结果的检索打分,对总共KN个查询结果进行综合打分；

203b融合单元，用于合并KN个查询结果中的相同项目，并调整相同项目岁对应的查询的打分;

203c排序单元，用于对所有结果进行排序，排序规则为综合打分高的排序在前，最终输出检索结果集合。

实施例4

参见图4，本实施例提供了一种现实装置，该装置包括：

204a筛选单元，用于对输出的检索结果进行筛选，具体的为根据检索结果与目标语言Query的相似度进行筛选，高于一个阈值的认为是可靠结果；具体地，此处使用的相似度计算方法为传统的VSM方法。

204b着重显示单元，用于对筛选后检索结果中的有用信息进行着重显示处理，具体的，对符合要求译文片段进行加重或者高亮处理，帮助用户定位有用信息；

204c信息呈现单元，用于将处理后的结果显示在网页上。

Claims

1.一种译文检索方法，即译文实例的检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的译文检索方法，其特征在于，所述调整多种参数，寻找到最优的机器翻译模型，具体包括：

3.根据权利要求2所述的译文检索方法，其特征在于，所述确定面向译文检索的机器翻译模型参数的方法包括：

4.根据权利要求3所述的译文检索方法，其特征在于，所述单个参数包括固定短语长度或语言模型。

5.根据权利要求1所述的译文检索方法，其特征在于，所述寻找到最优的机器翻译模型，具体包括：通过多轮改变单一参数或模型进行实验，观察整体系统精度的方法，确定系统表现最优时机器翻译模型和文本检索方法所对应的多种参数及模型，并以此作为整体系统参数。

6.根据权利要求1所述的译文检索方法，其特征在于，所述使用查询扩展技术，提高检索精度具体包括：利用源语言文本所对应的多个可能翻译结果进行检索，融合多个检索结果，给出优化的检索结果。

7.一种译文检索装置，其特征在于，所述装置包括：

8.根据权利要求7所述的译文检索装置，其特征在于，所述查询扩展模块，用于融合所翻译候选打分和所对应的检索结果的打分：

S(r_ij)=SMT(q_i)+αSIR(r_ij)

S(r)＝max(S(r_ij),S(r_mn),…S(r_qp))

其中r＝r_ij=r_mn=…＝r_pq，r的打分S(r)为所有相同的结果中最高的综合打分；

最后根据打分对最终结果进行排序。

9.根据权利要求7所述的译文检索装置，其特征在于，所述信息呈现模块包括：

{ts_ij|Sim(ts_ij，ts_i)>threshold}