CN1928862A

CN1928862A - 基于数据挖掘获取词或词组单元译文信息的系统和方法

Info

Publication number: CN1928862A
Application number: CN 200510102518
Authority: CN
Inventors: 方高林; 于浩; 西野文人
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-09-08
Filing date: 2005-09-08
Publication date: 2007-03-14
Anticipated expiration: 2025-09-08
Also published as: JP2007073054A; CN100474301C; JP5615476B2

Abstract

本发明为基于数据挖掘获取词或词组单元译文信息的系统和方法。包括：输入装置，用于输入词或词组单元；候选译文统计装置，根据输入所述的词或词组单元收集有效的电子文档和网页，在此基础上构建候选译文、发现候选译文的边界、统计候选译文的特征；候选译文噪声处理装置，用于对所述候选译文统计装置形成的噪声进行识别和处理；候选译文评价装置，根据所述候选译文统计装置得到的候选译文的特征，对每个可能的候选译文进行评价排序；候选译文典型例句挖掘装置，用于在Web上挖掘出候选译文的典型例句，并根据其典型程度排序；输出装置。使用户输入任意词典未收录的词或词组单元系统返回在另一种语言中按权值大小排列的翻译候选列表及其典型用法。

Description

基于数据挖掘获取词或词组单元译文信息的系统和方法

技术领域

本发明涉及利用计算机技术来辅助外语阅读和写作的技术，其特别涉及利用Web搜索和数据挖掘技术来获取词和词组单元(如：术语、名词和固定短语单元)在目标语言中正确译文的系统和方法，具体的讲是一种基于数据挖掘获取词或词组单元译文信息的系统和方法。

背景技术

人们在外语阅读、翻译和写作时，通常会遇到通用词典未收录的词和词组单元(如：术语、名词和固定短语单元)，对于这样的词和词组单元而言，往往是虽经大量时间的词典查阅、资料检索，却仍然得不到一个准确的翻译结果。

根据Google对Web的统计，在所有的电子文档和网页中，大约76.6％的文档是英文。而在中国，根据中国互联网信息中心在2005年1月的统计报告《中国互联网络发展状况统计报告》显示，上网的用户已达到9400万，其中87.4％的用户具有高中以上的文化程度，这些用户阅读一般的英文网页没有太大问题。但他们在浏览阅读过程中经常会碰到在词典中查不到解释的词和词组单元(如：术语、名词和固定短语单元)，而对这些词和词组单元(如：专业术语)的理解往往是理解整个内容的关键所在。

可见，获取某些重要的、词典中没有记载的词和词组单元(如：术语、名词和固定短语单元)的意义是重大的。在解决上述问题时，部分专业人员会求助于网络搜索引擎，但是返回大量的无关页面和冗余信息，使得用户很难发现他们所需要的有用信息。

在现有技术中，自动获取双语翻译对或译文有多种途径：1)从平行语料中获取译文。该方法需要大规模的两种语言对齐的语料，而现有的平行语料库规模以及建立语料库的困难限制它的进一步应用；2)根据短语中各组成成分对应的译文组合来获取译文，对组合进行评价后形成最终的译文。根据短语中各组成成分对应的译文组合来获取译文，该方法比较适合应用在基本名词短语的译文获取上，而对于专业术语/专业名词，它们通常是有一些未登录词或词组所组成，因此它们的译文很少是各组成成分的简单组合，所以直接组合效果不是非常理想。3)根据源语言的上下文和目标译文的上下文信息应该相同或者相近这个线索来获取译文。通常实验的对象只适合单个词的分析，即翻译的词数比是1∶1，且大多数实验是假设待发现的译文已经包含在可供选择的候选集中。所以该方法在作为陌生译文挖掘方法的实际应用上还有许多问题要进一步研究。4)从网上获取译文。Nagata在文献(M.Nagata，T.Saito，and K.Suzuki，Using the Web as a Bilingual Dictionary，Proc.ACL 2001 WorkshopData-Driven Methods in Machine Translation，2001，pp.95-102)中提出使用Web搜索引擎获得日语文档中的英语翻译，它是以日语为搜索项，在返回100个文档中搜索其英文翻译。然而，该系统没有对译文边界进行有效的处理，就很难发现一些隐含的译文；同时也没有对出现的结果噪声进行的挖掘处理，另外搜索的日语词中前100个网页中可能不包含英文翻译，这些就限制该系统的进一步应用。

日本专利2002-24266(发明人：永田昌明，发明名称：对专业术语和新词的译文检索)提出利用网络搜索来检索专业术语和新词的译文。该专利主要利用检索得到的双语文档以及双语对齐的段落，再加上双语对齐技术获得译文。该专利仅覆盖日语-英语，另外，该专利没有对如何提高挖掘译文全面性和准确率有影响的多种特征和译文噪声进行进一步研究处理。

Cheng的论文(P.J.Cheng，J.W.Teng，Ruei-Cheng Chen，et al.Translating unknownqueries with web corpora for cross-language information retrieval.SIGIR 2004：146-153)也是利用Web资源获取未知的查询项的译文从而应用于跨语言信息检索中。然而该方法仅利用候选单元的频率特征信息，而没有挖掘深层次的特征。另外，该系统中也没有对译文噪声进行处理，这样导致很多干扰项。

从网上获取全面的、准确的译文需要解决如下几个问题：如何从网页中正确地挖掘所有可能的注释对形式；如何获得候选译文的正确边界，这对于汉语、日语和韩语这样的语言尤为重要，因为我们不知道译文是在左边还是在右边，中间间隔着什么，到哪个地方结束？怎样利用多种特征去掉统计形成的噪声并同时保存排序正确的候选也是该方法需要解决一个困难的问题。只有系统解决以上几个问题才能准确、高效地获得译文。

然而，上述的专利和论文基本上是利用简单的频率特征，没有对译文噪声和隐含的译文形式进行深入的处理，也没有给出译文的典型用法。因此，如果有一种系统或方法能够直接提取并挖掘这些词和词组单元的有效信息就显得尤为重要了。

发明内容

本发明的目的在于提供一种基于数据挖掘获取词或词组单元译文信息的系统和方法，用以获取所述词或词组单元的全面、准确的译文，同时给出其典型用法，以使用户输入任意一个词典未收录的词或词组单元(如：术语、名词和固定短语单元)，系统返回在另一种语言中按权值大小排列的翻译候选列表，同时给出反映该翻译用法的简短上下文环境，用户也可以直接访问该网页以获取更多的详细的译文信息。

本发明的技术方案为：一种基于数据挖掘获取词或词组单元译文信息的系统，包括：输入装置，用于输入词或词组单元；

候选译文统计装置，根据输入所述的词或词组单元后返回的电子文档和网页构建候选译文、发现候选译文的边界、统计候选译文的特征；

候选译文噪声处理装置，用于对所述候选译文统计装置形成的噪声进行识别和处理；

候选译文评价装置，根据所述候选译文统计装置得到的候选译文的特征，对每个可能的候选译文进行评价排序；

候选译文典型例句挖掘装置，用于在web上挖掘出所述候选译文的典型例句，并根据其典型程度进行排序；

输出装置，用于输出所述词或词组单元在另一种语言中按权值大小排列的候选译文列表，及典型例句。

多种语言互译装置，用于通过一种中间语言，在资源较少的两种语言之间建立译文翻译词典数据库。

所述的候选译文统计装置进一步包括：

电子文档和网页收集单元，用于下载包含关键词的且具有多种语言注释的电子文档和网页；

电子文档和网页分析单元，将下载的不同格式的电子文档和网页转换成文本信息，并保留反映文本边界特征的信息；

模糊串查找单元，用于以英文的26个字母作为有效匹配符在所述的电子文档和网页中确定由于噪声引起的呈现多种形式的关键词位置，并忽略无关的符号；

串频统计单元，用于以字(汉语，日语)或者词(英语)为递增单元，结合停词和分隔标记规则库，构建和发现候选译文的边界，统计候选译文的特征。

所述的候选译文的特征包括：候选译文频率，候选译文分布，源词和候选译文的长度比例，源词和候选译文的距离，源词和候选译文之间的关键词、符号和边界信息。

所述的候选译文噪声处理装置进一步包括：

子集冗余识别单元，用于对统计过程中出现的子集噪声进行识别处理；

前后缀冗余识别单元，用于对统计过程中出现的前后缀冗余噪声进行识别处理。

所述的子集冗余识别单元是指基于排序子集删除法来识别子集冗余的子集冗余识别单元，用于将候选译文按照先熵值排序、然后长度排序和词典序排序的方式进行排序；并在排序的候选译文中，判断后面项是否是前面项的子集再加上利用分析出的边界和长度比例特征信息来识别子集项。

所述的前后缀冗余识别单元是指基于互信息方法来识别前后缀冗余的前后缀冗余识别单元，其中

对于当前项，累加随后10个候选信息中包含该候选信息的频率，计算累加频率和该项频率的比值，如果频率大于一定阈值，删除该项；

否则分别计算该项和随后包含该项译文信息的互信息，如果小于一定阈值，删除该项，否则保留，最后生成得到候选信息列表。

所述的候选译文评价装置进一步包括：

候选译文特征分析单元，用于对所有可能影响候选译文的潜在特征进行分析，以及所述潜在特征的影响；

合并特征的评价单元，用于合并多种候选译文的特征，并给出有效的评价公式。

所述的候选译文的潜在特征包括：候选译文频率，候选译文在不同网页中的分布，源词和目标候选译文的长度比例，源词和目标候选译文的距离，源词和目标候选译文之间的关键词、符号和边界信息；其中

通过对电子文档和网页中源词和目标候选译文之间的距离统计，得出距离特征分布图，并采用高斯模型对所述的源词和目标候选译文的距离特征进行模拟。

所述的合并特征的评价单元，用于将不同的候选译文的特征按照贡献大小分别赋以不同的权值，并给出有效的评价公式。

所述的候选译文典型例句挖掘单元，利用句子提取、聚类和典型句子提取等一系列挖掘方法，在Web上挖掘出该候选的典型上下文环境或例句，并根据其每个类中的数目决定其典型程度，按照大小顺序输出给用户。

所述的输出装置进一步包括：在输出界面上显示按权值大小排列的候选译文列表，同时在界面上显示该译文选项用法的典型例句或其用法的上下文环境。

所述的中间语言可为英语，所述的资源较少的两种语言可为汉语和日语，通过英语-汉语和英语-日语，建立汉语和日语之间的术语、名词和固定短语单元词典数据库。

本发明还提供了一种基于数据挖掘获取词或词组单元译文信息的方法，其包括以下步骤：

输入步骤，用于输入词或词组单元；

候选译文统计步骤，根据输入所述的词或词组单元后返回的电子文档和网页构建候选译文、发现候选译文的边界、统计候选译文的特征；

候选译文噪声处理步骤，用于对所述候选译文统计装置形成的噪声进行识别和处理；

候选译文评价步骤，根据所述候选译文统计装置得到的候选译文的特征，对每个可能的候选译文进行评价排序；

候选译文典型例句挖掘步骤，用于在Web上挖掘出所述候选译文的典型例句，并根据其典型程度进行排序；

输出步骤，用于输出所述词或词组单元在另一种语言中按权值大小排列的候选译文列表，及典型例句。

多种语言互译步骤，用于通过一种中间语言，在资源较少的两种语言之间建立译文翻译词典数据库。

本发明的有益效果在于，通过本发明可以利用互联网的信息来挖掘出未登录词或词组单元的翻译选项以及其典型用法从而能够帮助用户正确地阅读/写作外文。基于Web的专业术语译文挖掘研究的目标是利用互联网上丰富的信息资源，通过数据挖掘的方法来解决词典不能查询到的专业术语和专有名词的翻译问题(例如：Mont Blanc→万宝龙，白朗峰，三好学生→meritstudent)，从而建立一个专业术语的译文挖掘系统。该系统可以直接应用外语的辅助翻译、阅读、写作方面作为计算机辅助语言学习的一部分；系统还可以用来构建双语词典工具，在建立双语词典时，一方面它可以提供专业词典的翻译候选选项，另一方面，它可对已有的词典多个译文选项提供评价功能，而构建出来的双语词典可进一步应用在机器翻译和跨语言检索上；该发明提供了一个典型的跨语言检索和Web挖掘相结合的应用范例。

可见，本发明针对基于频率信息从包含双语的网页中提取译文时常常遇到的存在大量的噪声以及很难挖掘出比较隐含的译文形式的问题，系统解决了在统计过程中出现的子集冗余和前后缀型冗余噪声信息；针对存在多个目标语言译文的问题，系统综合多种特征以加权和的形式对候选译文进行排序，并给出其典型用法。在文档收集部分，包括目标语言文章搜索，以便检索出在同一文档中存在的多语(源-目标)译文。

附图说明

图1为本发明系统的结构框图；

图2是一个基于数据挖掘获取词或词组单元的译文及其典型用法的原理流程图；

图3是一个候选译文及其特征的统计方法流程图；

图4是一个候选译文噪声和排序处理流程图；

图5是一个基于排序子集删除法的子集冗余单元识别的流程图；

图6是一个基于互信息方法的前后缀冗余单元识别的流程图；

图7是电子文档和网页上译文分布形式实例图，其中图7(a1)-(a3)为直接标注形式；图7(b1)-(b3)为分离标注形式；图7(c)为子集标注形式；图7(d)为表格标注形式；图7(e)为列表的形式；图7(f)为解释的形式。

具体实施方式

下面结合附图说明本发明的具体实施方式。如图1所示为一种基于数据挖掘获取词或词组单元译文信息的系统，包括：

输入装置，用于输入词或词组单元；

所述的输入装置可以是计算机，通过计算机的键盘将所述的词或词组输入。也可以通过网络(例如局域网及互联网)将词或词组单元输入所述的输入装置。在该情况下，输入装置也可以为采用网络接口的结构。另外，也可以从扫描仪、存储装置(例如硬盘驱动装置)等将词或词组单元输入所述的输入装置。在该情况下，输入装置可以为根据将存储装置等和本发明系统的输入装置连接为可进行数据通信的规格〔例如USB(Universal Serial Bus)等有线连接及blue tooth等的无线连接的规格〕的结构。另外，也可以将存储介质〔例如各种闪存存储器及软盘(注册商标)、CD(Compact Disk)、DVD(Digital Versatile Disc、Digital Video Disc)〕所存储的词或词组输入到所述的输入装置。在该情况下，输入装置可以为采用从存储介质中读出数据的装置(例如闪存存储器读出器及软盘驱动装置、CD驱动装置、DVD驱动装置)的结构。

另外，输入装置也可以为适合上述多种情况的结构。

所述的输出装置可以通过网络将译文信息输出。在该情况下，输出装置为采用网络接口的结构。另外，也可以将译文信息输出到个人计算机等的其他的信息处理装置及存储装置中。在该情况下，输出装置为根据将个人计算机等其他信息处理装置或存储装置等和本发明输出装置连接为可进行数据通信的规格的结构。另外，也可以将译文信息输出(写入)到存储介质内。在该情况下，输出装置为采用将数据写入到这些存储装置或存储介质内的装置(例如闪存存储器记录器及软盘驱动装置、CD-R驱动装置、DVD R驱动装置)的结构。

对于输出装置所输出的译文信息的具体用途的例子也进行说明。例如，为了将译文信息输出到显示器等的显示装置中，也可以使用输出装置所输出的数据。在此种情况下，输出装置例如也可以为作为和显示器等的显示装置进行数据通信的接口的结构，也可以为作为与显示器等的显示装置相连接、或将数据提交给内置的信息处理装置的接口的结构。

另外，输出装置也可以为适合上述的多种情况的结构。

实施例

一、词或词组单元译文挖掘的整体框架

图2给出了数据挖掘获取词或词组单元的译文及其典型用法的原理流程图。系统主要分为两个大部分：电子文档和网页收集部分和译文挖掘部分。电子文档和网页收集部分包含文档和网页下载模块(模块202)和文档和网页分析模块(模块204)。下载模块的功能是下载包含关键词的且具有不同语言注释的网页和电子文档，然后提供给文档和网页模块进行分析。文档和网页分析模块将网页建立成一个树的结构，并分析和提取需要的特征和文本信息。经过文档和网页分析以后，电子文档和网页转换成相应的文本，同时得到文档和网页中词对的译文特征信息库(模块208)。译文挖掘模块主要包含：候选译文统计装置(模块205)、候选译文噪声处理装置(模块206)、候选译文评价装置(模块207)。经过串频统计得到相应的候选，然后对形成的译文噪声进行分析，并提出了相应的解决方案，最后综合利用所有可能的特征来评价去除噪声的候选。

用户输入任意一个术语、名词和固定短语单元(模块201)，例如：MontBlanc，系统返回在另一种语言中按权值大小排列的翻译候选列表(模块209)，例如：万宝龙，白朗峰，勃朗峰，同时经过候选译文典型例句挖掘装置(模块210)，给出反映该翻译用法的典型例句或简短上下文环境，用户也可以直接访问该网页获取更多详细信息。

1.1电子文档和网页中译文的分布

电子文档和网页中的译文注释分布情况多种多样，正确地分析出这些形式可以使得译文挖掘系统提取出全面的结果。下图归纳出电子文档和网页中的译文分布情况，总体可以分为六种形式：1.直接标注方式(a)2.分离的标注方式(b)3.子集标注形式(c)4.表格标注形式(d)5.列表的形式(e)6.说明的形式(f)。直接标注方式是最常见的形式，英文译文通常跟在中文术语之后，其中有些有小括号、中括号等一些符号标记，有些没有任何标识如“白朗峰Mont Blanc”；分离的标注方式是指词对之间夹杂着中文或者英文，我们必须能够正确判断出来，例如：“万能寿险，英文称universal lifeinsurance”；子集标注形式是指需要提取的译文是对应词对的子集，例如我们搜索“Mont Blanc”时，找到了词对“夏蒙尼·勃朗峰(Chamonix MontBlanc)；表格标注形式是指电子文档和网页的格式是一种相互对应的表格形式；列表形式标注是指词对以列表的形式存在；说明形式指在电子文档和网页中对该术语的说明和解释。电子文档和网页上译文分布形式实例表如图7所示，其中图7(a1)-(a3)为直接标注形式；图7(b1)-(b3)为分离标注形式；图7(c)为子集标注形式；图7(d)为表格标注形式；图7(e)为列表的形式；图7(f)为解释的形式。

1.2词对的潜在特征分析

经过对电子文档和网页的综合分析，我们发现在译文挖掘过程中，影响译文挖掘候选的潜在特征包括：候选单元频率；候选单元在不同网页中的分布；源词和目标候选的长度比例；源词和目标候选的距离；源词和目标候选之间的关键词、符号和边界信息。

1)候选单元频率

频率是反映候选的最重要特征，也是整个决策的基础，只有频率大于一定阈值才被进一步考虑，在我们的实验中，阈值大小设为1，对于搜索项特别少的词，我们设为0。频率统计是整个算法执行效率的关键，因此必须设计良好的统计算法和数据结构。

2)候选单元在不同网页中的分布

分布特征主要反映候选单元在不同网页的分布信息，如果候选分布的越均匀，他的权重就应该越大。这和我们直觉也是一致的，例如：Blue chip的候选词“绩优股”和“调查”的频率都是5，但是在同一个网页中，“调查”可能出现概率为2次。“绩优股”在不同网页中的分布为1，1，1，1，1，而“调查”的分布为2，2，1，因此绩优股的分布更均匀，所以他更可能成为候选。

3)源词和目标候选的长度比例

源词和目标候选词之间的长度应该满足一定的约束。比如说当英文的单词个数为2时，对应的汉字数目为4个时的分布概率最大，能达到56.59％。而对应汉字数目为2-6的概率占总数的95.78％，而对应一个字或大于7个字的概率很小。当英文单词个数为3时，对应的汉字数目为4或6时的分布概率最大，能达到25.54％，28.57％。而对应汉字数目为3-8的概率占总数的93.73％。而通常中英文单词数为2，3占所有总数的85.66％，也就是含二个或三个单词的短语单元最多。因此可以利用这种约束分布关系在译文选择时施加不同的权重来改进候选权重。

4)源词和目标候选的距离

直观上，如果两个词距离越远，它们是一个翻译对的概率越小，否则就越大。通过该选项可以去除一些噪声的影响。

5)源词和目标候选之间的关键词、符号和边界信息

源词与候选词之间可能存在一些关键的词和大写的英文字母，它们可以为判断提供帮助，例如：中文叫、中文译为、中文名称、中文名称为、中文称为、或称为、又称为、英文叫、英文名为、英文称为、英文全称等等。两个句对之间存在的标点符号也可以提供很强的约束能力，比如：出现“(”，“)”“[”等标点符号时，他们互为词对的权重应该相应的增加。所以我们必须正确的判断出来，一方面它可使得统计结果更为全面，另一方面是由于这些候选极有可能就是我们需要的正确译文。边界信息主要是指候选单元在网页中出现是有明显的分隔标记，如汉语到英语、括号或符号边界、独立出现的单元等。

二、候选单元及其特征的统计

候选单元及其特征的统计方法是为了全面地挖掘出术语、名词、固定短语译文的所有可能形态候选单元并快速有效地统计其频率、分布等特征信息。该方法以字(汉语或日语)或词(英语)为递增单位并辅以停词和分隔标记规则库，不仅可以获得候选译文的正确边界，同时也有利于发现经常以未登录词或词组形式存在的专业术语、专业名词和固定短语。

候选单元及其特征的统计方法流程图如图3所示。在该装置中，我们将待查找译文的词和词组输入到搜索引擎，返回带有该词语的相关文档和网页(模块301)。网页经过文档和网页分析模块(模块302)转化成有效的文本形式(模块303)。通过关键词在文本中定位模块(模块305)直接定位到查找的关键词位置，然后以关键词周围的一个窗口(100个字节)进行串频统计和分布信息统计操作。由于网页上噪声的影响，使得专业术语以多种多样的形态出现，例如：“Mont Blanc”也可能写成MONT BLANC，Mont-Blanc，Mont？？Blanc，MontBlanc，为了全面地找到这些关键词，模块304提出了模糊串查找技术，该方法是利用关键字中的26字母串作为有效匹配串，而在目标文本中，只比较有效的字母，而忽略无关的符号。通过上述方式可以有效地将关键词的多种形式挖掘出来。

模块307串频统计方法如下：在关键字为中心的前后窗口中，以每个字(汉语或日语)或词(英语)作为开始索引，分别以字(汉语或日语)或词(英语)递增的方式形成候选串；由于汉语和日语中的术语大多数是未登录词，所以我们以字而不是词为单位进行统计，这样可以尽可能多地发现这些未登录词。按照Hash索引和二分的方法(模块306)查找候选字串，如果发现该字串，累加其频率，否则，在该位置添加该项。处理完一个电子文档和网页后，我们同时记录候选的分布信息。在程序实现中，同时建立一些停词和分隔标记的规则库和相对于关键词位置建立的开始位置和结束位置启发式规则来提高统计速度(模块308)。经过上述单元处理，我们得到候选单元统计特征信息库(模块309)，以便作接下来模块的进一步处理。

在模块306中，由于串的频率信息是作为提取候选译文的重要依据之一，对他的统计效率直接影响着整个系统的运行速度，这里我们采用Hash函数与二分相结合的方法来建立索引机制。汉语中的Hash函数的定义是根据汉字的GB2312编码6763个字直接计算出来，汉字和Hash值是一一对应的。通过Hash函数将所有字串按照第一个汉字的Hash值分成块，首字相同的按照字典顺序进行排列，首字不是汉字的词全部映射到索引值6763那里。这里是采用GB2312编码作为基准，其他的编码体系都相应地转换成对应的GB2312编码，与之没有对应的难字或者生僻字就不进行处理，原因主要是专业术语极少有这些生僻的字组成，另外采用GB2312比其他编码体系如Unicode编码建立索引可以大大减少空间的需要，从而加快统计速度。英语中Hash函数直接是按照英语字母的字节中后4位值累加实现的。

三、译文候选噪声及其处理

图4给出候选单元噪声和排序处理流程图。经过串频统计处理，得到未处理候选单元列表(模块401)，该单元进入子集冗余识别模块(模块402)，再经过前后缀冗余识别模块(模块403)，然后提出一种候选译文评价方法(模块404)，该方法合并在电子文档和网页中分析得到的特征信息库，如频率、分布、边界、距离(模块405)，具体见词对的潜在特征分析，最后输出排序后的候选译文列表(模块406)，输出给用户。

通过串频统计方法可以有效、全面地挖掘出术语和固定短语译文的所有可能形态。然而，在挖掘的结果中，存在着大量的无用的噪声和冗余信息。主要表现在两个方面：1)子集冗余信息。该信息的特点是该词是某个词的子集，而且频率比更长的词低。例如：Mont Blanc：万宝龙(38)万宝(27)宝龙(11)，其中“万宝”、“宝龙”是属于子集冗余信息，应该删除。2)前后缀型冗余信息。该信息的特点是该词是更长词的前缀或者后缀，而且频率比更长的词高。例如：1.Mont Blanc：朗峰(16)(括号中的数字如16代表出现的频率)，白朗峰(9)，勃朗峰(8)；2.Credit rating：信用(12)，信用等级(10)；3.Knowledge portal：知识门户(33)，企业知识门户(30)，例1中的“朗峰”是后缀型冗余信息，它应该被删除。例2中的”信用”属于前缀型冗余信息，应该删除。例3中的“知识门户”也符合前面后缀型冗余信息的定义，但是它是正确的候选，我们应该将其保留。所以前后缀型冗余信息问题比较复杂，需要一个正确的方法对其进行识别。

3.1基于排序子集删除法的子集冗余单元识别

针对子集冗余单元，我们提出基于排序子集删除法来进行识别。由于子集冗余信息基本上都是在统计专业术语过程中产生的过渡信息，它具有的信息基本上都已经被具有更高频率和分布信息的更长的字串所包含。所以利用先排序然后再判断是否是子集这个思路可以很好地解决，具体算法流程如图5所示，该装置是模块402的扩展。在该装置中，候选单元列表(模块501)，首先按照熵值的大小进行排序，如果熵值相同，按照长度大小排序，如果长度大小相同，按照词典序排序(模块502)。在排序后的列表中，设置保留列表为空(模块503)，从排序的列表中读取当前的候选单元i，判断保留列表是否为空，如果是，表明它是第一个进入该列表的，我们根据其边界和长度比例信息判断是否保留该项(模块505)，如果满足条件，加入该项进保留列表(模块506)，否则，判断排序列表是否循环完，没有继续循环。如果保留列表不为空，顺序读取保留列表中候选j(模块507)，判断j是否是i的子集且j不具有边界信息(模块508)，如果否，加入该项进保留列表，否则，判断保留列表是否循环完，没有继续循环。最后生成保留的候选单元列表(模块509)。

3.2基于互信息方法的前后缀冗余单元识别

前后缀型冗余信息问题比较复杂，在有些情况下，前面的结果是正确的候选，这就要求我们要将其保留，在有些情况下，需要将其删除。因此本文提出利用互信息方法的来进行前后缀冗余单元的保留或删除的正确识别。

信息熵的概念最早是由Shannon提出来的，它是对随机变量不确定程度的一种度量，具体定义如下：

H (X) = - Σ_{i = 1}^{k} p (x_{i}) \log_{2}

p (x_{i}),

其中p(x_i)是离散随机变量X取值为x_i时的概率函数。互信息是信息论中的一个概念，它用来度量一个消息中两个信号之间的相互依赖程度。两个事件X和Y的互信息定义为：I(X，Y)＝H(X)+H(Y)-H(X，Y)，其中H(X)和H(Y)分别是文本模式X和Y在文档中各自的熵，H(X，Y)是X和Y相邻接后同时出现的熵。

互信息反映XY之间的结合紧密程度。如果XY是相互独立的，即XY没有交集，这时I(X，Y)＝0。互信息越大I＞＞0，表示X和Y在一起出现的机会多于它们随机出现的机会，即XY之间的结合越紧密，反映到词语中，就是这两个词组合在一起成短语的可能性越大。互信息值越低，X和Y结合比较松散，它们之间存在短语边界的可能性越大。

由于在串频统计中，我们需要统计不同的网页，而在每个网页中候选词也可能多次出现。对应到熵的计算上，我们定义

p (x_{i}) = \frac{n_{i}}{N},

n_i分别为某个网页中候选词统计的数目，N该候选词的总个数。因此熵值公式可进一步可以表达为：

H (X) = - Σ_{i = 1}^{k} \frac{n_{i}}{N} \log_{2} \frac{n_{i}}{N} = - \frac{1}{N} Σ_{i = 1}^{k} n_{i} \log_{2} n_{i} + \log_{2} N

通过该公式的变换，能够达到不需要在统计所有的数据后再开始计算熵值，这样可以减少一次统计的时间。

熵值不仅能够反映词出现的频率信息N，频率越大熵值就越大，另一方面也反映词在不同网页的分布信息。如果候选分布的越均匀，他的值就应该越大，这和我们直觉也是一致的。例如：Blue chip的候选词”绩优股”和“调查”的频率都是5，但是在同一个网页中，“调查”可能出现概率为2次，例如：“绩优股”在不同网页中的分布为1，1，1，1，1，而“调查”的分布为2，2，1，因此绩优股的分布更均匀，所以他更可能成为候选。

在候选模式集合中，对于模式t₁，t₂，其中C(t₁)＞C(t₂)，C表示统计出现的频率，对于后缀型冗余信息，t₁＝suff(t₂)，对于前缀型冗余信息，t₁＝pref(t₂)。根据互信息的定义可知：I(t₂)＝H(t₁)+H(t₂-t₁)-H(t₂)。

基于互信息方法的前后缀冗余单元的识别流程图如图6所示，该装置是模块403的扩展。经过子集冗余删除模块的处理，形成待处理单元列表(模块601)，从列表中读入一个候选项t，累加随后10个候选中包含t的候选模式tΔ_i或Δ_it的频率(模块603)，然后判断是否满足条件

\underset{i}{Σ} C (t Δ_{i}) / C (t) &GreaterEqual; 0.95

或

\underset{i}{Σ} C (Δ_{i} t) / C (t) &GreaterEqual; 0.95

(模块604)，其中候选tΔ_i是在t随后的10个候选窗口以内且不相互包含，如果满足，则删除_t(模块607)。例如：Dendritic cell：细胞(62)树突状细胞(40)树突细胞(15)树枝状细胞(4)，因为(40+15+4)/62＝0.952＞0.95，删除“细胞”。如果前后缀型冗余信息不满足上述条件，分别计算t和tΔ₁的互信息(模块605)，并判断是否λI(t)＜I(tΔ₁)(模块606)，如果是，则删除_t，否则保留，其中λ的值是通过后面的实验得到的，结果表明大约在0.85左右效果最佳。

四、译文候选评价方法

经过去除译文噪声模块402和模块403的处理，我们对候选译文单元重新排序，以便让最可能的候选单元排在前面。例如：Mont Blanc有3个翻译都是正确的“万宝龙”“勃朗峰”“白朗峰”，我们使用根据前面提出的5种潜在的特征：候选单元频率；候选单元在不同网页中的分布；源词和目标候选的长度比例；源词和目标候选的距离；源词和目标候选之间的关键词、符号和边界信息，对每个候选进行打分，最后排列的顺序应为“万宝龙”“白朗峰”“勃朗峰”。评价公式定义如下：

Score (t) = p_{L} (s, t) Σ_{i = 1}^{N} (λ_{1} Σ_{j} (p_{D} (i, j) + δ (i, j) w) + λ_{2} \max_{j} (p_{D} (i, j) + δ (i, j) w)),

λ₁+λ₂＝1

其中p_L(s，t)表示源词s和目标候选t之间的长度比例关系，它是通过已经获取正确的大量专业术语、专业名词词典训练出的模型关系，每种比例关系对应一个概率权值。N反映候选单元在不同网页中的分布，它代表包含候选单元的网页数目，N越大，Score(t)也越大。p_D(i，j)定义为在第i个网页中第j次出现的源词和目标词之间的距离贡献概率，这里的距离定义为源词和目标词之间是字节数。经过对网页距离特征的统计，他们分布近似高斯模型，因此我们利用高斯模型来进行模拟。δ(i，j)w是源词和目标候选之间的关键词、符号和边界信息的贡献，如果两者存在预定义的关键词、关键符号和边界信息δ(i，j)＝1，将增加权值w；否则δ(i，j)＝0，对整个公式没有影响。

通过模块404的处理，用户输入任意一个术语、名词和固定短语单元，系统返回在另一种语言中按权值大小排列的翻译候选列表(模块406)，同时给出反映该翻译用法的典型例句和简短上下文环境，用户也可以直接访问该网页获取更多详细信息。

五、译文的典型例句挖掘

经过前面的数据挖掘处理，对于每个词或词组对应多个可能的候选。对于每个目标候选，我们不知道他在目标语言中的正确用法，这就需要我们在Web上挖掘出该候选的典型上下文环境或例句。

首先，我们在包含该候选的电子文档和网页中，提取包含该候选项的句子。提取句子的过程，使用标点符号作为分解符号，以句子的长度作为阈值，低于一定最低阈值长度或者高于最高阈值长度的句子将去除，而在这范围以内将被保留。

然而这样提取的句子很多，如何去除语义语法相近的句子，而保留和排序最有代表性的句子是一个问题？在这里，本发明采用HowNet和《同义词词林》语义资源对中文中的词进行扩展，使用Wordnet资源对英文句子中的词进行扩展，在计算句子之间的相似性时，使用动态规划的方法来计算。根据句子之间的相似性，我们对这些句子使用ISODATA的方法进行聚类，在已经聚类的单元里，每个类提取一个典型的例句，提取出的例句是按照类中的样本数目从大到小进行排序的。

为了从每个类中提取出一个典型的例句，分别使用中心句子的方法平均TF的方法来进行提取。

中心例句的定义是：该句子是该类中的一个样本，该类中所有其他的样本到该类的距离最小。

平均TF的定义如下：

P_{s} = \underset{w_{i} &Element; s}{Σ} \frac{\log (t f_{w_{i}})}{\log (1 + L_{s})}

tf表示w_i的频率，L_s表示句子中包含的词的数目。

经过上述典型例句挖据处理，用户非常方便地获得词或短语在目标语言中的典型用法和例句。为辅助外语学习和写作提供极大的便利。

本发明提出一种利用数据挖掘方法解决词或词组单元译文获取及其典型用法问题的有效系统方案，该方案利用多种特征对隐含的译文形式进行挖掘，对译文噪声进行识别处理，并有效的排序，系统从而能够获取全面、准确的译文，同时给出其典型用法。这样用户输入任意一个词典未收录的术语、名词和固定短语单元，系统返回在另一种语言中按权值大小排列的翻译候选列表，同时给出反映该翻译用法的简短上下文环境，用户也可以直接访问该网页获取更多详细信息。人们在使用亚洲语言(例如：汉语，日语、韩语等等)进行写作的时候，特别是在写作科技论文、专业文章时，如果遇到了比较专业的术语通常都会标注上相应的英语译文，随着互联网的发展以及可以访问的电子文档、科技论文、开放的数字图书馆的增多，这方面的资料将会变得越来越丰富，所以通过数据挖掘方法获取术语、名词和固定短语单元的译文是非常有效的系统方案。

以上具体实施方式仅用于说明本发明，而非用于限定本发明。

Claims

1.一种基于数据挖掘获取词或词组单元译文信息的系统，包括：输入装置，用于输入词或词组单元；其特征是还包括：

2.根据权利要求1所述的系统，其特征是包括：多种语言互译装置，用于通过一种中间语言，在资源较少的两种语言之间建立译文翻译词典数据库。

3.根据权利要求1所述的系统，其特征是，所述的候选译文统计装置进一步包括：

串频统计单元，用于以字或者词为递增单元，结合停词和分隔标记规则库，构建和发现候选译文的边界，统计候选译文的特征。

4.根据权利要求3所述的系统，其特征是，所述的候选译文的特征包括：候选译文频率，候选译文分布，源词和候选译文的长度比例，源词和候选译文的距离，源词和候选译文之间的关键词、符号和边界信息。

5.根据权利要求1所述的系统，其特征是，所述的候选译文噪声处理装置进一步包括：

6.根据权利要求5所述的系统，其特征是，所述的子集冗余识别单元是指基于排序子集删除法来识别子集冗余的子集冗余识别单元，用于将候选译文按照先熵值排序、然后长度排序和词典序排序的方式进行排序；并在排序的候选译文中，判断后面项是否是前面项的子集再加上利用分析出的边界和长度比例特征信息来识别子集项。

7.根据权利要求5所述的系统，其特征是，所述的前后缀冗余识别单元是指基于互信息方法来识别前后缀冗余的前后缀冗余识别单元，其中

8.根据权利要求1所述的系统，其特征是，所述的候选译文评价装置进一步包括：

9.根据权利要求8所述的系统，其特征是，所述的候选译文的潜在特征包括：候选译文频率，候选译文在不同网页中的分布，源词和目标候选译文的长度比例，源词和目标候选译文的距离，源词和目标候选译文之间的关键词、符号和边界信息；其中

10.根据权利要求8所述的系统，其特征是，所述的合并特征的评价单元，用于将不同的候选译文的特征按照贡献大小分别赋以不同的权值，并给出有效的评价公式。

11.根据权利要求1所述的系统，其特征是，所述的候选译文典型例句挖掘单元，利用句子提取、聚类和典型句子提取等一系列挖掘方法，在Web上挖掘出该候选的典型上下文环境或例句，并根据其每个类中的数目决定其典型程度，按照大小顺序输出给用户。

12.根据权利要求1所述的系统，其特征是，所述的输出装置进一步包括：在输出界面上显示按权值大小排列的候选译文列表，同时在界面上显示该译文选项用法的典型例句或其用法的上下文环境。

13.根据权利要求2所述的系统，其特征是，所述的中间语言可为英语，所述的资源较少的两种语言可为汉语和日语，通过英语-汉语和英语-日语，建立汉语和日语之间的术语、名词和固定短语单元词典数据库。

14.一种基于数据挖掘获取词或词组单元译文信息的方法，其特征是，包括以下步骤：

输入步骤，用于输入词或词组单元；

15.根据权利要求14所述的方法，其特征是包括：多种语言互译步骤，用于通过一种中间语言，在资源较少的两种语言之间建立译文翻译词典数据库。

16.根据权利要求14所述的方法，其特征是，所述的候选译文统计步骤进一步包括：

电子文档和网页收集步骤，用于下载包含关键词的且具有多种语言注释的电子文档和网页；

电子文档和网页分析步骤，将下载的不同格式的电子文档和网页转换成文本信息，并保留反映文本边界特征的信息；

模糊串查找步骤，用于以英文的26个字母作为有效匹配符在所述的电子文档和网页中确定由于噪声引起的呈现多种形式的关键词位置，并忽略无关的符号；

串频统计步骤，用于以字或者词为递增单元，结合停词和分隔标记规则库，构建和发现候选译文的边界，统计候选译文的特征。

17.根据权利要求16所述的方法，其特征是，所述的候选译文的特征包括：候选译文频率，候选译文分布，源词和候选译文的长度比例，源词和候选译文的距离，源词和候选译文之间的关键词、符号和边界信息。

18.根据权利要求14所述的方法，其特征是，所述的候选译文噪声处理步骤进一步包括：

子集冗余识别步骤，用于对统计过程中出现的子集噪声进行识别处理；

前后缀冗余识别步骤，用于对统计过程中出现的前后缀冗余噪声进行识别处理。

19.根据权利要求18所述的方法，其特征是，所述的子集冗余识别步骤，用于将候选译文按照先熵值排序、然后长度排序和词典序排序的方式进行排序；并在排序的候选译文中，判断后面项是否是前面项的子集再加上利用分析出的边界和长度比例特征信息来识别子集项。

20.根据权利要求18所述的方法，其特征是，所述的前后缀冗余识别步骤包括：

21.根据权利要求14所述的方法，其特征是，所述的候选译文评价步骤进一步包括：

候选译文特征分析步骤，用于对所有可能影响候选译文的潜在特征进行分析，以及所述潜在特征的影响；

合并特征的评价步骤，用于合并多种候选译文的特征，并给出有效的评价公式。

22.根据权利要求21所述的方法，其特征是，所述的候选译文的潜在特征包括：候选译文频率，候选译文在不同网页中的分布，源词和目标候选译文的长度比例，源词和目标候选译文的距离，源词和目标候选译文之间的关键词、符号和边界信息；其中

23.根据权利要求21所述的方法，其特征是，所述的合并特征的评价步骤，用于将不同的候选译文的特征按照贡献大小分别赋以不同的权值，并给出有效的评价公式。

24.根据权利要求14所述的方法，其特征是，所述的候选译文典型例句挖掘步骤，利用句子提取、聚类和典型句子提取等一系列挖掘方法，在Web上挖掘出该候选的典型上下文环境或例句，并根据其每个类中的数目决定其典型程度，按照大小顺序输出给用户。

25.根据权利要求14所述的方法，其特征是，所述的输出步骤进一步包括：在输出界面上显示按权值大小排列的候选译文列表，同时在界面上显示该译文选项用法的典型例句或其用法的上下文环境。

26.根据权利要求15所述的方法，其特征是，所述的中间语言可为英语，所述的资源较少的两种语言可为汉语和日语，通过英语-汉语和英语-日语，建立汉语和日语之间的术语、名词和固定短语单元词典数据库。