CN101833571B

CN101833571B - 一种从互联网上自动提取双语翻译词典的方法

Info

Publication number: CN101833571B
Application number: CN2010101473644A
Authority: CN
Inventors: 周立柱; 韩军; 刘娟; 张崇; 茹立云; 佟子健
Original assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2010-04-13
Filing date: 2010-04-13
Publication date: 2011-12-28
Anticipated expiration: 2030-04-13
Also published as: CN101833571A

Abstract

本发明公开了一种从互联网上自动提取双语翻译词典的方法，其特征在于，包括：从中外双语网页中提取括号双语词汇和良结构双语词汇；对所述提取的括号双语词汇进行截取，得到翻译准确的括号双语词汇；对良结构双语词汇和经过上一步后的括号双语词汇进行词根合并；对给定的中文，首先在良结构双语词汇中寻找对应的翻译，如果找到则忽略括号双语词汇的翻译；否则在括号双语词汇中寻找对应的翻译，同样方法处理每条外语，最终得到最后的双语翻译词典。本发明依据双语词汇的词频能够快速有效、不依赖任何外来资源自动构建双语翻译词典。

Description

一种从互联网上自动提取双语翻译词典的方法

技术领域

本发明涉及统计自然语言处理技术领域，特别涉及一种从互联网上自动提取双语翻译词典的方法。

背景技术

无论是科研还是平时生活，人们对外语的接触和依赖程度都很高。传统的翻译词典主要来自人工的整理编辑，生成周期长，而且更新慢，覆盖度不高。现有的基于互联网生成翻译词典的方法需要依靠多种自然语言处理技术和机器学习技术，这些方法在处理很大规模数据时可能成为性能的瓶颈，同时要依赖事先建立的资源。

我们构造的双语翻译词典来自互联网，除了传统词汇外还可以很好的覆盖当前流行词汇以及命名实体，给人们的实际应用以及机器翻译等其他领域的科研带来极大的便利。以下是双语词典相关的名词解析：

1.双语词汇

在中英文双语网页中，存在大量的具有翻译关系或者其他关联的中英双语出现在一起。这些相互对应的中英双语构成双语对，我们称之为双语词汇。随着互联网的快速发展，这些双语词汇已经具有庞大的数量，经过提取便能很好的服务平时的生活和科研应用。

2.词频

同一个双语词汇在不同的网页中可能重复出现，双语词汇在抓取的所有网页中出现的次数称为词频。

3.括号双语词汇

在许多双语网页中，人们常常习惯在一个词或短语之后的括号内跟上该词或短语的翻译，具有这种对应关系双语词汇我们称为括号双语词汇。括号双语词汇出现在各种类型的双语网页中，包括购物、官方主页、新闻等，覆盖了人们生活的各个方面。但括号双语词汇还包括很多非翻译的关系，例如补充说明、论坛id等，整体上覆盖率很高，但正确率偏低。

4.英中双语词汇

括号内为英文、括号前为中文的括号双语词汇。

5.中英双语词汇

括号内为中文、括号前为英文的括号双语词汇。

6.中文语料库

所有双语词汇中括号内的中文组成中文语料库。

7.前缀

在英中双语词汇中，从左括号开始依次从右往左遍历中文，将得到的字串逐个在中文语料库中查找，可以查找到的字串成为该英中双语词汇的一个前缀

8.良结构双语词汇

在一些专业网站或者外语学习网站，会有经过用户整理的某一类词语以及对应的翻译，这些词语和翻译往往以很规整的结构出现，我们称为良结构词汇。这部分双语词汇都是经过人工整理的，正确率高，同时这些双语词汇出现的结构规整，便于提取。但由于这部分双语词汇是经过整理以后的，覆盖率相对括号双语词汇偏低。

9.流行用语

流行用语是指互联网中出现的很多传统词典无法覆盖的英语词汇，例如orz(失意体前屈)，ft(晕倒)、pmp(拍马屁)等，这些或者是单词的缩写，或者是拼音的缩写，或者是象形文字等等。

10.命名实体

命名实体主要指一些用来描述地名、公司名、品牌名或者新的技术等的特定词汇，由于公司名、品牌名以及技术都在不断地更新，新的词汇也在不停地出现，所以很多命名实体词汇为传统词典所无法覆盖，例如Baleno(班尼路)、cloud computing(云计算)、kobe(科比)等。

11.词根

词根指英文单词意义的主要部分，通过英文单词中去掉由于语态和复数形式添加的后缀获得。例如witten的词根为wit，managing的词根为manag。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是在从互联网构建双语词典时如何快速有效地自动构建且不依赖任何外来资源的问题。

(二)技术方案

一种从互联网上自动提取双语翻译词典的方法，包括以下步骤：

S1：从中外双语网页中提取括号双语词汇和良结构双语词汇，并记录词频；所述双语词汇为具有翻译关系的中外双语出现在一起组成的词汇，所述良结构双语词汇为先前经过人工整理的具有准确翻译的双语词汇，所述括号双语词汇为词或短语之后的括号内跟上该词或短语的翻译的双语词汇，包括：

外中双语词汇，括号内为外语、括号前为中文的括号双语词汇。

中外双语词汇，括号内为中文、括号前为外语的括号双语词汇。

S2：对提取的所述括号双语词汇进行截取，得到翻译准确的括号双语词汇；

S3：对良结构双语词汇和经过步骤S2后的括号双语词汇进行词根合并和筛选；

S4：对给定的中文或外语，首先在良结构双语词汇中查找对应的翻译，如果找到则忽略括号双语词汇的翻译；否则在括号双语词汇中寻找对应的翻译，所有中文、外语和对应的翻译构成双语翻译词典。

其中，所述步骤S1包括：

S101：利用搜索引擎的抓取技术抓取互联网上所有的双语网页；

S102：从所述中外双语网页中提取括号双语词汇，提取双语词汇时在网页中查找括号，然后自右向左遍历左括号左边的内容，以出现语言属性变化或者出现标点符号为界，所述语言属性为中文或外语，括号前内容与括号中内容构成双语词汇；

S103：按照良结构双语词汇提取规则从所述中外双语网页中提取符合规则结构要求的良结构双语词汇，所述提取规则为网页中具有“ ...”、“<tr>...</tr>”和“<td>...</td>”这种结构之间的内容都是结构相同的中外文混杂内容，那么认为这些对应中外文内容存在翻译关系，构成良结构双语词汇。

其中，所述步骤S2包括：

S201：根据括号左边以及括号中内容的语言属性进行分类，包括外中双语词汇和中外双语词汇，提取所述括号双语词汇括号中的中文作为中文语料库；

S202：对所有外中双语词汇中括号左边的中文，从左括号自右向左依次利用步骤S201所得到的中文语料库进行中文字符串匹配，得到所有可以匹配的外中双语词汇，将相同的外中双语词汇合并，词频相加，其中，匹配上的中文字符串称为所述外中双语词汇的前缀；

S203：利用所有中外双语词汇对步骤S202得到的词频进行修正，若某外中双语词汇的前缀可以在中外双语词汇的集合中找到，则将该中外双语词汇的词频累加到外中双语词汇上；

S204：将每个外语对应的所有括号双语词汇表示为一种树形数据结构来表示，所述树形数据结构中，外中双语词汇的外语词为根节点，每个前缀建立一前缀节点，每个所述前缀节点下面连接一系列子节点，每个所述前缀节点是其子节点的子串，从所述树形数据结构中选择翻译准确的括号双语词汇的方法如下：

(1)如果一个父节点A的所有子节点中，存在某一子节点B，B的词频占A节点词频的50％以上，那么保留B节点，同时删除A和A的子节点以及子节点以下的所有节点，；

(2)如果一个父节点A的所有子节点中，找不到任何一子节点B，B的词频占A节点词频的50％以上，则保留A节点，删除A节点以下的所有节点；

其中，所述父节点A不包括根节点，至上而下对每个节点按(1)(2)两步进行筛选，剩下节点对应的双语词汇即为翻译准确的括号双语词汇。

其中，所述步骤S3包括：

S301：将所有中文项相同的双语词汇利用中文结构图表示，所述中文结构图为三层树形数据结构，中文项为根节点，根节点的子节点为所述中文项所有对应外语项的词根，所有的外语项又为各自词根的子节点；

S302：对同一中文结构图中的任意两个词根a，b，若

\frac{dis (a, b)}{\max (len (a), len (b))} < 0.2

此时，若freq(a)＞freq(b)，删除词根b及b所有子节点，同时freq(a)＝freq(a)+freq(b)，否则，删除词根a及a所有子节点，同时freq(b)＝freq(a)+freq(b)，此处dis(a，b)表示词根a，b之间的编辑距离，len(a)表示词根a的长度，freq(a)表示词根a的词频，所述编辑距离为将一个字符串a通过将一个字符换成另一个字符、删除某个字符或者插入字符转为另一个字符串b所需要的最少步骤；

S303：将每个词根R用子节点中词频最大的节点B替代，词频仍然为词根R原来的词频，然后删掉词根R的所有子节点；

S304：根据所述中文结构图，将每条外语的所有中文父节点作为该外语的子节点，建立外语结构图，所述外语结构图中外语项为根，所有该外语项的翻译中文项作为该外语项的子节点，对所述外语结构图中根节点下的所有子节点按照词频从大到小排序，保留前K个节点，删除多余子节点，保留下来的节点为根节点外语对应的中文翻译；

S305：在中文结构图中，将根节点下的所有子节点按照词频从大到小排序，保留前K个节点，删除多余子节点，得到根节点中文对应的外语翻译。

其中，所述K为1-10之间的整数。

其中，所述外语包括：英语、法语、德语、西班牙语或意大利语。

(三)有益效果

本发明依据双语词汇的词频能够快速有效、不依赖任何外来资源自动构建双语翻译词典，克服了词汇对齐以及机器学习等方法在大规模数据时所产生的性能瓶颈问题；而且更新周期短、工作量小、覆盖面广，可以有效的得到最新流行词汇和实体命名的翻译；生成双语词典的过程完全由计算机完成，不需要人工干预。

附图说明

图1是根据本发明的从互联网上自动提取双语翻译词典的方法流程图；

图2是根据本发明的从互联网上自动提取双语翻译词典的方法中括号双语词汇进行截取时的树形结构示意图；

图3是根据本发明的从互联网上自动提取双语翻译词典的方法中词根合并时的中文结构图；

图4是根据本发明的从互联网上自动提取双语翻译词典的方法中词根合并时的外语结构图。

具体实施方式

本发明提出的从互联网上自动提取双语翻译词典的方法，结合附图和实施例说明如下，以英语为实施例来说明本发明。

如图1所示，为采用本方法生成双语词典的流程图。包括步骤：

步骤一：从中英双语网页中提取括号双语词汇和良结构双语词汇，提取所述括号双语词汇时，自右向左遍历左括号左边的内容以出现语言属性变化或者出现标点符号为界，所述语言属性为中文或英文。如：“......，XXX不开心(uphappy)”若“XXX”为中文，则提取时将“XXX不开心(unhappy)”提取为一个括号双语词汇，若“XXX”为非中文，则提取“不开心(uphappy)”为一个括号双语词汇。良结构双语词汇主要提取格式比较规整的网页内容，例如网页中包含以下内容“英文名English 家庭生活family life 家谱family tree ”，如果连续的“ ...”这种结构之间的内容都是结构相同的中英文混杂内容，那么认为这些对应中英文内容存在翻译关系，构成良结构双语词汇，类似的标记还包括“<tr>...</tr>”和“<td>...</td>”等。

步骤二：对所述提取的括号双语词汇进行截取，截取得到翻译准确的括号双语词汇，在截取时具体包括如下步骤：

1、根据括号左边以及括号中内容的语言属性进行分类，包括英中双语词汇和中英双语词汇，截取时主要针对所有英中双语词汇进行，提取所述括号双语词汇括号中的中文作为中文语料库。如：unhappy(不开心)，将“不开心”存入中文语料库。

2、对所有英中双语词汇中括号左边的中文，从左括号自右向左依次利用步骤1所得到的中文语料库进行中文字符串匹配，得到所有可以匹配的英中双语词汇，将相同的英中双语词汇合并，词频相加，其中，和中文语料库中中文匹配上的中文字符串称为所述英中双语词汇的前缀。如：步骤一中提取的英中双语词汇“XXX不开心(unhappy)”在中文语料库中进行匹配，“不开心”会被匹配上，可得到“不开心(unhappy)”的双语词汇，其中，“不开心”为该双语词汇的前缀。若匹配后得到多个不同网页中的“不开心(unhappy)”双语词汇，则将其合并为一个“不开心(unhappy)”双语词汇，并将其它相同的双语词汇的词频加到合并后的“不开心(unhappy)”双语词汇。

3、利用所有中英双语词汇对步骤2得到的词频进行修正，修正方式为：若某英中双语词汇的前缀可以在中英双语词汇的集合中找到，则将该中英双语词汇的词频累加到英中双语词汇上。如：利用中英双语词汇“unhappy(不开心)”对英中双语词汇“不开心(unhappy)”进行修订，将“unhappy(不开心)”的词频加到“不开心(unhappy)”上。

4、将每个英文对应的所有括号双语词汇表示为一种树形数据结构来表示，如图2所示，在所述树形数据结构中，英中双语词汇的英文词为根节点(unhappy)，每个前缀建立一前缀节点(开心或不幸)，每个所述前缀节点下面连接一系列子节点(不开心或唔开心)，每个所述前缀节点是其子节点的子串，从所述树形数据结构中选择翻译准确的括号双语词汇的方法如下：

(1)如果一个父节点A的所有子节点中，如“开心”节点，存在某一子节点B，“不开心”节点，B的词频占A节点词频的50％以上，那么保留B节点，同时删除A和A的子节点以及子节点以下的所有节点，即删除“开心”、“唔开心”节点以及子节点；

(2)如果一个父节点A的所有子节点中，如“不幸”节点，找不到任何一子节点B，B的词频占A节点词频的50％以上，则保留A节点，删除A节点以下的所有节点，即保留“不幸”节点，删除“不幸”节点的所有子节点；

从根节点至上而下对每个节点按(1)(2)两步进行筛选，剩下节点对应的双语词汇即为翻译准确的括号双语词汇。

步骤三：对良结构双语词汇和经过步骤二后的括号双语词汇进行词根合并和筛选，为了消除由于互联网资源的拼写错误等情况，在词根合并时，如果同一个词的不同翻译间的词根的编辑距离小于预定阈值，则进行合并，同时为了消除一些单复数或者其他形式造成的影响，词根合并之后进行筛选，具体包括：

1、将所有中文项相同的双语词汇利用中文结构图表示，如图3所示，所述中文结构图为三层树形数据结构，中文项为根节点，根节点的子节点为所述双语词汇中所有英文的词根，所有的英文项又为各自词根的子节点；

2、对同一中文结构图中的任意两个词根a，b，若

\frac{dis (a, b)}{\max (len (a), len (b))} < 0.2

此时，若freq(a)＞freq(b)，删除词根b及b所有子节点，同时freq(a)＝freq(a)+freq(b)，否则，删除词根a及a所有子节点，同时freq(b)＝freq(a)+freq(b)，此处dis(a，b)表示词根a，b之间的编辑距离，len(a)表示词根a的长度，freq(a)表示词根a的词频，所述编辑距离为将一个字符串a通过将一个字符换成另一个字符、删除某个字符或者插入字符转为另一个字符串b所需要的最少步骤，若上式≥0.2时同时保留a和b节点。如：drinking tea(正在喝茶)，其中文项根节点为“正在喝茶”，其词根为drink tea，若另一个词根drimk tea(拼写错误)，将m换成n需要一步，dis(drink tea，drimk tea)＝1，max(len(drink tea)，len(drimk tea))＝9，根据上述公式算出结果为0.11＜0.2。显然错误拼写占少数，freq(drink tea)＞freq(drimk tea)，此时保留词根drink节点，删除词根drimk节点及其所有子节点。

3、将每个词根R用子节点中词频最大的节点B替代，词频仍然为词根R原来的词频，然后删掉词根R的所有子节点，如词根drinktea节点的子节点drinking tea的词频最大，则用drinking tea代替drinktea，然后删掉词根drink tea节点的所有子节点

4、根据所述中文结构图，重新组合建立如图4所示的英文结构图，所述英文结构图中英文项为根，如drinking tea所有该英文项的翻译中文项作为该英文项的子节点，如：正在喝茶、喝茶和喝茶中，对所述英文结构图中根节点下的所有子节点按照词频从大到小排序，保留前K(K取1-10的整数)个节点，删除多余子节点，得到从英文到中文的翻译。若选择前2个词频最高的子节点“正在喝茶”和“喝茶中”。

5、在中文结构图中也删除与所述多余子节点中中文相同的节点，如：节点“喝茶”，在未删除的中文结构图中保留中文项翻译的英文词条词频最高的前K条结果，得到从中文到英文的翻译，其中K取1-10的整数。

步骤四：对给定的中文，首先在良结构双语词汇中寻找对应的翻译，如果找到则忽略括号双语词汇的翻译；否则在括号双语词汇中寻找对应的翻译，同样方法处理每条英文，所有中文、外语和其对应的翻译构成双语翻译词典。

完成以上各步骤后，即生成了可直接使用的双语翻译词典，该翻译词典既包含了传统词汇的翻译，同时包含了很多网络流行用语或者其他命名实体的翻译。

为了验证本发明的有效性和可靠性，我们进行了翻译准确性的相关实验。

从运行效率上讲，当程序运行硬件环境为2.0G主频CPU、8G内存时，计算机使用从互联网中抓取的双语词汇数据(数据存储规模约为350Gigabyte)提取生成双语翻译词典，消耗的时间约为18小时，最终生成425万条从中到英的翻译和511万条从英到中的翻译。

1、括号双语词汇的截取

括号双语词汇从抓取的12亿网页中提取，存储规模约为350G。每条双语词汇包括中文项、英文项以及url。在原始提取的双语词汇中，括号前的内容与括号中的内容并不一定完全对应，例如“其实不开心(unhappy)”这样的双语词汇，首先需要进行截取，提取出“不开心(unhappy)”。

括号双语词汇的截取主要分为两大步，首先提取出所有可能匹配的双语词汇，然后从中选出准确匹配的双语词汇。截取过程中同时将相同的双语词汇合并，并统计词频。截取后的双语词汇内容包括：

表1：括号双语词汇包含的内容

名称	记录内容
		中文项	双语词汇的中文部分
英文项	双语词汇的英文部分
		词频	双语词汇在互联网中出现的次数
url	双语词汇出现的网页的url，只保留一部分

经过这一步处理后，得到的数据规模为5G左右。

2、词根合并筛选

尽管经过截取后的括号双语词汇以及良结构双语词汇中中英双语是相互对应的，但二者却不一定是翻译关系，因为互联网中还存在着很多垃圾资源。为了消除这些垃圾资源以及诸如拼写错误等信息，我们引入了词根合并的方法。首先将每条中文的所有对应英文转换为词根，词根间再根据编辑距离进行合并，最终根据词频保留前K条，得到括号和良结构双语词汇各自部分的翻译词典。

经过词根合并，括号双语词汇共提取出330多万条从中文到英文的翻译以及480多万条从英文到中文的翻译。而从网页中提取的良结构双语词汇规模为279M，共提取出230多万条从中文到英文的翻译和230多万条从英文到中文的翻译。

3.翻译结果的合并

良结构双语词汇是经过人工整理的，可信度很高，所以合并时采用了覆盖合并的策略，即对于查询词首先在良结构双语词汇中查找翻译，如果找到翻译则忽略括号双语词汇，否则从括号双语词汇中查找翻译。

最终得到425万条从中到英的翻译和511万条从英到中的翻译。

从翻译效果上将，我们生成的翻译词典覆盖度要比传统词典高，尤其是对于一些命名实体词汇，例如对当前流行的一些品牌的中英文名字进行翻译。同时，同国外的一些使用互联网做资源、利用分词对齐等方法生成双语翻译词典的方法相比，在准确率和召回率上都有着一定优势。

和提取中英双语词汇类似，本发明还可以用于提取中文与法语、德语、西班牙语或意大利语等双语网页中的双语词汇。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种从互联网上自动提取双语翻译词典的方法，其特征在于，包括以下步骤：

外中双语词汇，括号内为外语、括号前为中文的括号双语词汇，

中外双语词汇，括号内为中文、括号前为外语的括号双语词汇；

S2：对提取的所述括号双语词汇进行截取，得到翻译准确的括号双语词汇，具体包括：

(1)如果一个父节点A的所有子节点中，存在某一子节点B，B的词频占A节点词频的50％以上，那么保留B节点，同时删除A和A的子节点以及子节点以下的所有节点；

(2)如果一个父节点A的所有子节点中，找不到任何一子节点B，B的词频占A节点词频的50％以上，则保留A节点，删除A节点以下的所有节点，

其中，所述父节点A不包括根节点，至上而下对每个节点按(1)(2)两步进行筛选，剩下节点对应的双语词汇即为翻译准确的括号双语词汇；

S3：对良结构双语词汇和经过步骤S2后的括号双语词汇进行词根合并和筛选，具体包括：

S302：对同一中文结构图中的任意两个词根a，b，若

\frac{dis (a, b)}{\max (len (a), len (b))} < 0.2

S305：在中文结构图中，将根节点下的所有子节点按照词频从大到小排序，保留前K个节点，删除多余子节点，得到根节点中文对应的外语翻译；

2.如权利要求1所述的从互联网上自动提取双语翻译词典的方法，其特征在于，所述步骤S1包括：

3.如权利要求1所述的从互联网上自动提取双语翻译词典的方法，其特征在于，所述K为1-10之间的整数。

4.如权利要求1-3任一所述的从互联网上自动提取双语翻译词典的方法，其特征在于，所述外语包括：英语、法语、德语、西班牙语或意大利语。