CN101490666A

CN101490666A - 对齐分层和顺序文档树以标识并行数据

Info

Publication number: CN101490666A
Application number: CNA2007800263594A
Authority: CN
Inventors: M·周; C·牛; L·施
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2006-07-10
Filing date: 2007-06-28
Publication date: 2009-07-22
Also published as: JP2009543255A; US8073679B2; CA2654088A1; EP2038767A2; WO2008013650A2; US20080010056A1; US7805289B2; EP2038767A4; US20100286978A1; WO2008013650A3

Abstract

基于从给定的网络位置(如网站)下载的一个或多个页面中的触发单词标识一组候选的并行页面。对齐表示候选页面的每一个的一组文档树来标识翻译上并行的内容和超链接。该并行内容进一步被馈送到常规的句子对齐器以得到并行句子。并且该并行超链接通常引用其它并行文档，并导致对并行文档的递归挖掘。

Description

对齐分层和顺序文档树以标识并行数据

背景

此处所使用的并行双语语料库指的是被标识为第二语言的文本数据译文的第一语言的文本数据。出于示例的目的，此处所讨论的文本数据是文档，但也可使用其它文本数据。

在一个文档是另一个文档的译文时，两个文档被称为并行的双语文档。因此，并行的双语语料库指的是作为第二语言的数据的语料库的译文的第一语言的数据的语料库。

在一组并行文档中，通常标识那些文档中互为译文的句子。这些句子被称为对齐的句子。因此，如果第一语言的文档与第二语言的并行文档相一致，并且两文档中的句子互相对齐(这表现在第一语言的句子与其第二语言的译文相对齐)，则这两个文档被称为并行的、句子对齐的双语语料库。

当前对并行的双语语料库有广泛的需求。例如，这些语料库通常是用于训练统计机器翻译系统以及用于执行跨语言信息检索的关键资源。另外，某些这种语料库甚至被用于各种单语自然语言处理任务，如字义消歧和释义获取。

然而，对于大多数语言对而言，当前不易获得大规模的并行语料库。即使是在某些语料库可用的那些语言中，那些语料库中的数据也通常限于政府公文或新闻专线文本。对于不同语言对中的各种域而言，因为这些类型的文档中所使用的特定书写风格或域专用语言，这些语料库不能被容易地用来训练数据驱动的机器翻译系统或信息检索系统，或甚至不能用于上述单语自然语言处理程序。

近来，在广域网(如网站)上可获得的双语页面的数量迅猛增长。因此，开发了某些web挖掘系统来从万维网自动地获取并行的双语语料库。这些系统使用统一资源定位符(URL)并假定并行的网页是用便于网站维护的预定义模式来命名的。因此，在向这些系统给出双语网站URL时，它们使用预定义的URL模式来尝试发现该网站中的候选并行文档。基于内容的特征随后被用来验证候选对的翻译等效物。

这些类型的系统只有有限的成功率。例如，网页样式和网站维护机制存在各种差异。因此，双语网站通常对并行文档使用变化的命名方案，其不遵循预定义的模式。

另外，就带宽而言，这些基于URL模式的挖掘系统会导致问题。这些类型的挖掘过程在使用预定义的URL模式来发现可能的并行文档之前需要完全的主机爬行(full host crawling)来收集URL。因此，这些基于URL模式的系统通常需要高带宽和高成本，并导致缓慢的下载速度。由于甚至许多双语网站只具有很有限数量的并行文档，所以大部分的网络带宽被浪费在下载不具有翻译对应物的网页上。

另外，由于web文档的有噪声的性质，并行网页可能包括非翻译内容和许多词汇表外单词。这两者即使在标识了两个并行文档后也会降低句子对齐准确度。此外，常规的句子对齐器只在常规文本上操作而不考虑其它因素，如布局相似性。

提供以上讨论仅用作一般的背景信息，并不旨在帮助确定所要求保护的主题的范围。

概述

基于从给定的网络位置(如网站)下载的一个或多个页面中的触发单词来标识一组候选并行页面。对齐表示候选页面的每一个的一组文档树来标识翻译上并行的内容。

在一实施例中，文档树遵循文档对象模型(DOM)来生成，DOM是用于导航有效的HTML文档的公知应用程序编程接口。为便于树对齐计算，在一实施例中，在该DOM树上执行微小的修改。在另一实施例中，一旦对齐了树，则标识并行超链接。随后下载对应于那些超链接的页面作为新的一组候选的并行页面。

提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景中提及的任何或所有缺点的实现。

附图简述

图1是并行语料库挖掘系统的一个说明性实施例的框图。

图2是示出图1所示的系统的总体操作的一个说明性实施例的流程图。

图2A是示出两个页面的并行性验证的流程图。

图3A和3B示出对网页进行建模的文档树的实施例。

图4是示出用于执行树对齐的一个说明性实施例的流程图。

图5是一个说明性操作环境的框图。

详细描述

图1是根据一实施例的并行语料库挖掘系统100的框图。系统100被示为通过网络104耦合到文档102。网络104说明性地是广域网，如因特网，但也可以是局域网或不同类型的网络。当然，同样，文档102说明性地表示系统100可以通过网络104访问的一个或各种不同的站点上的数据或其它文本内容。

在一实施例中，系统100通过网络104从文档102检索数据并生成出于各种不同的原因中的一个而输出的并行的对齐的句子106，这些原因诸如供存储、供在机器翻译系统中使用、供在单语自然语言处理系统中使用、供在信息检索系统中使用等。这些不同的系统在图1中由框108指示。

图1所示的实施例示出系统100包括导航组件110、下载组件112以及页面验证和树对齐系统114。树对齐系统114自身说明性地包括并行性检查组件116、并行性验证器组件118、树对齐组件120以及句对齐组件122。

图2是更详细地示出系统100的操作的一个说明性实施例的流程图。图2是相对于万维网和因特网参考系统100的操作来描述的。然而，如上所述，也可使用任何其它类型的网络。

无论如何，导航组件110说明性地是可以将系统100导航至给定网页的常规的网络导航组件，如web浏览器。一旦将初始网站地址提供给导航组件110，则导航组件110导航至对应于该地址的网站。这由图2的框130指示。在一说明性实施例中，给定网站由用户或诸如爬行器等自动化网站位置机制或任何其它所需的输入设备来给出。

一旦到达给定网站，则下载组件112说明性地从该网站下载根页面和一级页面。一级页面是由根页面直接链接的那些页面。这由图2的框132指示。所下载的页面被称为图1中的候选页面134。候选页面被用来检查该网站是否是双语的。如果是，则处理候选页面以供系统114进行并行对标识、验证和树对齐。

存在若干方法来检查网站是否是双语的，并进一步从候选页面中标识可能并行的页面对。在该说明性实施例中，将锚文本与为该任务预定义的触发单词进行比较。如果候选页面134被链接到其它页面，则其将说明性地通过超链接来链接。对应于该超链接的文本在此被称为锚文本。并行性检查组件116随后检查所有已下载页面的锚文本以寻找触发单词。这由图2的框134指示。

触发单词是反映网页间的翻译等效物的单词。预定义触发单词(或触发串)的某些示例包括关于英语翻译的触发单词，如“English(英文)”或“English version(英文版)”。换言之，如果下载了法语网页，且一个超链接被标记为“English”或“English version”，则该触发文本可能指示该法语网页的翻译等效物存在并可通过该超链接来访问。其它语言也存在类似的触发单词，但可能稍有不同。例如，中文的触发单词可以是“Chinese(中文)”、“Chinese version(中文版)”、“simplified Chinese(简体中文)”、“traditional Chinese(繁体中文)”等。

在一实施例中，并行性检查组件116通过将锚文本与已知反映网页间的翻译等效物的预定义串的列表进行比较来检查锚文本以寻找触发单词。如图2的框136所示，如果在锚文本中未找到触发单词，则当前网站不是双语网站并且对于给定网站处理结束。然而，如果在框136处定位了触发单词，则将与触发单词(例如，English version和Chinese version)相关联的两个页面标识为图1中的可能并行的页面138。可能并行的页面138随后由下载组件112下载。这由图2的框140指示。

在处理中的该点处，这些页面被认为是尚未被验证的候选并行对(或可能并行的对)。因此，可能并行的页面138被提供给并行性验证器组件118。组件118验证可能并行的页面足够并行以被认为是翻译等效物，以便可以从其中获取对齐的双语数据。

在一实施例中，并行性验证器组件118说明性地是基于二元最大熵的分类器。然而，也可使用其它分类器或验证组件(基于规则的或统计的)。然而，在该说明性实施例中，该分类器在确定页面是否足够并行时使用三个特征。图2A是示出其中在并行性验证器组件118中使用这些特征的一个说明性实施例的流程图。这三个特征包括文件长度比率、HTML标签相似性和句子对齐分数。因此，为确定页面是否足够并行，组件118首先接收可能并行的页面138。这由图2A的框160指示。

组件118随后计算两个页面的文件长度比率。这由框162指示。文件长度比率相对直接且仅仅是表示所考虑的网页的每一个的文件的长度的比率。

组件118随后计算HTML标签相似性。这由图2A的框164指示。HTML标签相似性可使用各种方法中的任一种来计算。然而，一个说明性和示例性方法由图2A的框166、168和170指示。根据该说明性实施例，HTML标签相似性通过首先提取每一页面的所有HTML标签来确定。这由框166指示。每一页面的HTML标签随后被串接成一个串，以便为两个页面的每一个形成一个串接的串。随后，计算与页面相关联的两个标签串之间的最小编辑距离。在一实施例中，HTML标签相似性分数被定义为串接的串中匹配的标签的数量相对于串的总数的比率。也可使用用于确定相似性的其它技术。

无论如何，组件118还计算句子对齐分数，如图2A的框172所示。句子对齐分数也可以使用各种各样的不同的方法来计算。然而，在一示例性实施例中，句子对齐分数是两个页面上对齐的句子的数量与对应于该两个页面的两个文件中的句子的总数的比率。用于确定句子是否对齐的一个实施例是通过对齐该两个页面的文档对象模型树。这在下面将更详细地描述。

一旦为两个页面计算了这三个特征(文件长度比率、HTML标签相似性、和句子对齐分数)，则组件118确定页面是否足够并行并输出关于该判定的指示。这由图2A的框174指示。在所讨论的该示例性实施例中，组件118是二元最大熵分类器且基于上述三个特征简单地将该两个网页分类为足够并行或不足够并行。该分类器可以使用任何所需的训练机制来训练，且一种这样的机制被称为公知的迭代缩放算法。

再次参考图1和图2，组件118验证可能并行的页面为足够并行。这由图2的框142指示。

如果如组件118在图2的框144处所示页面不足够并行，则两个候选页面的处理结束。然而，如果在框144处组件118确定该两个页面足够并行，则组件118确定页面是经验证的并行页面146并出于当前处理的目的是真正的翻译等效物，以便其可在生成并行句子并引用更多并行网页时使用。因此，组件118向树对齐组件120提交经验证的并行页面146以供对齐。

树对齐组件120首先获得经验证的并行页面146的每一个的文档树。文档树的每一节点都说明性地包括两个字段，第一个是HTML标签字段而第二个是与该节点相关联的文本。在一说明性示例中，文档树结构遵循文档对象模型(DOM)，但有微小修改。DOM通过万维网联盟来发布，且是公知的用于有效HTML文档的应用程序编程接口。出于本示例的目的，将关于与每一网页相关联的作为DOM树的参考文档树结构来继续这一讨论，尽管可以理解，也可使用其它这种树结构。

一旦为经验证的并行页面146的每一个获得了DOM树，则树对齐组件120可以在该DOM树上说明性地执行任何所需的预处理来将其置于所需形式以供进一步处理。这由图2的框147指示。以下参考图3A和3B描述预处理的一个实施例。

一旦DOM树是所需形式，则树对齐组件120说明性地执行树对齐来对齐表示网页的DOM树。这由图2的框148指示。在该说明性实施例中，树对齐组件120是被用来对齐翻译等效物内容的随机DOM树对齐模型，该翻译等效物内容包括经验证的并行页面146对的DOM树中的双语文本块和超链接。以下参考图4更详细地描述树对齐步骤148。一旦对齐了DOM树并标识了并行文本块和超链接，则将并行文本块150提供给句子对齐组件122。

句子对齐组件122随后对齐并行文本块150中的句子并将其输出以供存储或供在另一系统中作为并行的对齐的句子106来使用。对齐来自并行文本块的这些句子可以用任何所需方式来完成且由图2的框152示出。在一示例性实施例中，利用并行网页之间的HTML结构相似性，并使用级联方法来对齐句子。首先，在该示例性实施例中，如上所述地对齐与DOM树节点相关联的文本块。随后，对于并行文本块的每一对，可以使用公知的句子对齐器来对齐句子。一种这样的句子对齐器对从一种语言到另一种语言的逐词翻译进行建模，而不考虑单词次序，并在最大似然性准则下，将该逐词翻译模型与表示不同语言的两个句子的长度的另一模型相组合。当然，也可使用其它类型的句子对齐。输出对齐的句子由图2的框154指示。

在将两个DOM树互相对齐之后，树对齐组件120还说明性地确定是否存在某些超链接。这由图2的框156指示。如果两个DOM树中没有对齐的超链接，则两个并行页面的处理完成。然而，如果对齐的DOM树中存在并行超链接，则这可被认为是到新的并行数据的锚。可以发现，使用两个对齐的DOM树中的并行超链接来引用并行的网页是标识并行的双语数据的通用且稳定的模式。因此，如果在图的框156处存在要跟随的并行超链接，则将那些并行超链接158提供给导航组件110且处理回退到图2的框140。导航组件110将系统100导航至与并行超链接158相关联的网页，并且下载组件112下载与该并行超链接相关联的页面作为可能并行的页面138。那些页面138随后被提交给并行性验证器组件118以供验证，等等。

图3A和3B示出在图2的框147处预处理DOM树的可任选步骤。众所周知，通过使用文档对象建模来表示网页，HTML文档的逻辑结构被表示为树，该树当然是分层的且是顺序的，其中每一节点都属于某种预定义的节点类型。某些这样的节点类型包括“文档(Document)”、“文档类型(DocumentType)”、“元素(Element)”、“文本(Text)”、“注释(Comment)”、“处理指令(ProcessingInstruction)”等。在所有这些类型的节点中，对于此处所讨论的一个实施例最重要的节点是对应于文档中的HTML标签的“元素”节点和对应于文档中的文本块的“文本”节点。

图3A示出表示HTML文档的常规DOM树200。可以看到，HTML文档中的节点包括头节点202和体节点204。头节点202具有对应于标题206和关于该标题的文本208的子节点。体节点204具有作为子DIV节点210的子节点，子DIV节点210自身具有一组子节点212和214。节点212具有子文本节点216，而节点214具有一串后代节点。节点214的第一后代是图像节点218，其后跟随替换节点220和文本节点222。

在预处理DOM树200的一说明性示例中，对齐组件120从文档模型树中消除除“元素”节点和“文本”节点之外的所有节点。另外，表示在不能显示图像时的文本替换的“替换alt)”属性由“文本”节点来表示。最后，“文本”(其必须是树中的叶节点)与其父“元素”节点一起被组合成单个节点，以使对齐模型的表示更简洁。

图3B示出从图3A的树200导出的预处理的树230。可以看到，文本节点208已与标题节点206组合在一起以形成组合节点232。类似地，树200的文本节点216及其父节点212被组合成树230中的组合节点234。另外，树200中的替换节点220被表示为文本节点并连同文本节点222一起与图像节点218组合以形成树230中的组合节点236。注意，尽管有这些微小的改变，但在当前描述中树230仍被称为DOM树。另外，这些改变仅是出于方便和简化模型的目的而做出的，而不是本发明构想必须做出的。同样，也可使用其它形式的文档树结构。

现在更详细地描述树对齐组件120在执行树对齐时的操作(如在图2的步骤148中)。根据一实施例，树对齐组件120包括将对齐定义为分层不变性过程和顺序次序不变性过程的树对齐模型。换言之，分层不变性过程意味着如果节点A与节点B相对齐，则节点A的子要么被删除要么与节点B的子相对齐。顺序次序不变性过程意味着如果节点A与节点B相对齐，则伴随节点A的兄弟节点必须或被删除或与伴随节点B的兄弟节点相对齐。因此，树中的节点的分层和顺序次序未被改变，虽然可以删除节点。

图4更详细地示出树对齐组件120的操作。如下所述，树的每一个都说明性地由多个不同的子树形成。这多个不同的子树被统称为子树的森林。树对齐组件通过迭代地寻找子树的最佳对齐并随后寻找包括这些子树的森林的最佳对齐来对齐表示两个网页的两个总体树。

在一实施例中，可以使用自底向上的方式。因此，在图4中，组件120从树底部处的子树开始并首先寻找表示两个网页的子树的最佳对齐。这由框300指示。下一步，给定在框300中找到的子树对齐，组件120寻找顺序子树的森林的最佳对齐。这由框302指示。基于任何所需的“优良度”准则(或优化准则)，组件120随后确定在步骤300和302是否需要更多迭代。这由框304指示。迭代继续对齐子树和包含那些子树的森林，直到达到所需的对齐优良度为止。如上所述，该所需的总体对齐将标识并行文本块和超链接。如框306所示，组件120因此输出并行文本块和超链接。

为便于树对齐模型的更详细的演示，引入以下符号：给定HTML文档D，T^D指的是对应的DOM树；

指的是T^D的第i个节点(在此，节点的索引是按宽度优先的顺序的)，且

指的是以

为根的子树，所以

指的是T^D的根，且

T_{1}^{D} = T^{D};

指的是包括以从

到

的各节点为根的子树的森林。

指的是节点

的文本；

指的是节点

的HTML标签；

指的是节点

的第j个子；

指的是

的从

到

的各子节点的连续序列；以

为根的子树被表示为

且以

为根的森林被表示为

最后，NULL指的是所引入的用于节点删除的空节点。

为适应DOM树的分层结构，定义了两个不同的翻译概率(该示例针对英语和法语，所以E表示英语而F表示法语)：

其是将子树

翻译为子树

的概率；

其是将节点翻译为

的概率。

同样，

表示基于对齐A将森林

翻译为的概率。树对齐A被定义为从目标节点到源节点或空节点的映射。因此，A_i(或A_[i，j])指的是子树

(或森林

)到法语子树(或森林)的映射模式。

给定两个HTML文档F(法语)和E(英语)，树对齐任务被定义为搜索最大化以下概率的A：

Pr(A|T^F，T^E)∝Pr(T^F|T^E，A)Pr(A|T^E) 等式1

其中Pr(A|T^E)指的是给定T^E时的对齐配置的先验知识。

通过引入表示在对齐配置中发生删除源或目标节点删除的概率的p_d，对齐先验Pr(A|T^E)可被假定为是以下二项式分布：

\Pr (A | T^{E}) &Proportional; {(1 - p_{d})}^{L} p_{d}^{M}

等式2

其中L是A中的非空对齐的计数，而M是A中T^E节点删除的计数。

Pr(T^F|T^E，A)可被如下表示：

\Pr (T^{F} | T^{E}, A) = \Pr (T_{1}^{F} | T_{1}^{E}, A),

且取决于对齐配置A，

可被递归地计算如下：

如果

与

相对齐，且

的子与

的子相对齐，则：

\Pr (T_{l}^{F} | T_{i}^{E}, A) = \Pr (N_{l}^{F} | N_{i}^{E}) \Pr (N_{l}^{F} . {TC}_{[1, K]} | N_{i}^{E} . {TC}_{[1, K']}, A)

等式3

其中K和K′分别是

和

的次数。

如果

被删除，并且

的子与

相对齐，则：

\Pr (T_{l}^{F} | T_{i}^{E}, A) = \Pr (N_{l}^{F} | NULL) \Pr (N_{l}^{F} . {TC}_{[1, K]} | T_{i}^{E}, A)

等式4

其中K是

的次数。

如果

被删除，并且

与

的子相对齐，则：

\Pr (T_{l}^{F} | T_{i}^{E}, A) = \Pr (T_{l}^{F} | T_{i}^{E} . {TC}_{[1, K]}, A)

等式5

其中K是

的次数。

为完成该对齐模型，需要估计

如上所述，仅具有未被改变的节点顺序次序的对齐配置才被认为是有效的。所以，可对应于A的以下三个对齐配置来递归地估计：

如果

与

相对齐，并且

与

相对齐，则：

\Pr (T_{[m, n]}^{F} | T_{[i, j]}^{E}, A) = \Pr (N_{m}^{F} | N_{i}^{E}) \Pr (T_{[m + 1, n]}^{F} | T_{[i + 1, j]}^{E}, A)

等式6

如果

被删除，并且

的子

与

相组合以与

相对齐，则：

\Pr (T_{[m, n]}^{F} | T_{[i, j]}^{E}, A) = \Pr (N_{m}^{F} | NULL) \Pr (N_{m}^{F} . {TC}_{[1, K]} T_{[m + 1, n]}^{F} | T_{[i, j]}^{E}, A)

等式7

其中K是

的次数。

如果

被删除，并且

的子

与

相组合以与相对齐，则：

\Pr (T_{[m, n]}^{F} | T_{[i, j]}^{E}, A) = \Pr (N_{[m, n]}^{F} | N_{m}^{F} . {TC}_{[1, K]} T_{[i + 1, j]}^{E}, A)

等式8

其中K是

的次数。

最后，节点翻译概率被说明性地建模为

\Pr (N_{l}^{F} | N_{j}^{E}) \approx \Pr (N_{l}^{F} . l | N_{i}^{E} . l) \Pr (N_{l}^{F} . t | N_{i}^{E} . t),

并且文本翻译概率Pr(t^F|t^E)通过对从英语到法语的不考虑单词次序的逐字翻译进行建模来建模。当然，也可使用其它模型。

在如此描述了该模型之后，必须估计该模型的参数。在一示例性实施例中，树对齐模型涉及三类参数，包括文本翻译概率Pr(t^F|t^E)，其是将英语文本片段t^E翻译为法语文本片段t^F的概率；标签映射概率Pr(l|l′)，其是两个标签相互映射的概率；以及上述节点删除概率p_d。可以使用任何所需的和常规的参数估计技术。

还应注意，为实现以上参考图4描述的迭代对齐过程，可以使用自底向上的方式。可以理解，如果两棵树是最优地对齐的，则其子树的对齐必定也是最优的。因此，在解码过程中，可以应用动态编程技术来使用子树的最优树对齐以自底向上的方式来寻找最优树对齐。表1展示这种解码算法的伪代码。

表1

For i＝|T^F|到1(自底向上){

For j＝|T^E|到1(自底向上){

导出

和

之间的最佳对齐，并计算

最佳对齐分数

{\arg \max}_{A} S_{A} (T_{i}^{F} . {TC}_{[1, K_{i}]} | T_{j}^{E} . {TC}_{[1, K_{j}]})}}

其中，|T^F|和|T^E|是T^F和T^E中节点的数目，K_i和K_j是和

的次数。

可以看到，移除所有布局信息(如HTML标签)并且只依赖于常规句子对齐的尝试标识并行web内容的常规方法可被改进。通过首先应用树对齐来对齐并行文本块，并随后使用更精细的对齐(如句子对齐)来从对齐的文本块中提取并行的句子，可以获得更好的性能。

图5示出了可在其上实现各实施例的合适计算系统环境400的示例。计算系统环境400仅为合适的操作环境的一个示例，并非旨在对所要求保护的主题的使用范围或功能提出任何局限。也不应该把计算环境400解释为对示例性操作环境400中示出的任一组件或其组合有任何依赖性或要求。

各实施例可用于各种其它通用或专用计算系统环境或配置。适合在各实施例中使用的公知的计算系统、环境和/或配置的示例包括，但不限于，个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、电话系统、包含上述系统或设备中的任一个的分布式计算环境等。

各实施例可在诸如程序模块等由计算机执行的计算机可执行指令的通用上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。一些实施例被设计为在其中任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实施。在分布式计算环境中，程序模块位于包括存储器存储设备的本地和远程计算机存储介质中。

参考图5，用于实现一些实施例的示例性系统包括计算机410形式的通用计算设备。计算机410的组件可以包括，但不限于，处理单元420、系统存储器430和将包括系统存储器在内的各种系统组件耦合至处理单元420的系统总线421。系统总线421可以是几种类型的总线结构中的任何一种，包括存储器总线或存储控制器、外围总线、以及使用各种总线体系结构中的任一种的局部总线。作为示例，而非限制，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也称为夹层(Mezzanine)总线)。

计算机410通常包括各种计算机可读介质。计算机可读介质可以是能由计算机410访问的任何可用介质，而且包含易失性、非易失性介质以及可移动和不可移动介质。作为示例而非局限，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机410访问的任何其它介质。通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并包括任意信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外线和其它无线介质。以上的任何组合也应包括在计算机可读介质的范围内。

系统存储器430包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)431和随机存取存储器(RAM)432。基本输入/输出系统433(BIOS)包括如在启动时帮助在计算机410内的元件之间传输信息的基本例程，它通常储存在ROM 431中。RAM 432通常包含处理单元420可以立即访问和/或目前正在其上操作的数据和/或程序模块。作为示例而非局限，图5示出了操作系统434、应用程序435、其它程序模块436和程序数据437。

计算机410还可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图5示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器441，从可移动、非易失性磁盘452中读取或向其写入的磁盘驱动器451，以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘456中读取或向其写入的光盘驱动器455。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器441通常由不可移动存储器接口，诸如接口440连接至系统总线421，磁盘驱动器451和光盘驱动器455通常由可移动存储器接口，诸如接口450连接至系统总线421。

上文讨论并在图5中示出的驱动器及其相关联的计算机存储介质为计算机410提供了计算机可读指令、数据结构、程序模块和其它数据的存储。在图5中，例如，硬盘驱动器441被示为存储操作系统444、应用程序445、其它程序模块446和程序数据447。注意，这些组件可以与操作系统434、应用程序435、其它程序模块436和程序数据437相同，也可以与它们不同。操作系统444、应用程序445、其它程序模块446和程序数据447在这里被标注了不同的标号是为了说明至少它们是不同的副本。

用户可以通过诸如键盘462、话筒463和定点设备461等输入设备将命令和信息输入至计算机410中，定点设备461诸如是鼠标、轨迹球或触摸垫。其它输入设备(未示出)可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合至系统总线的用户输入接口460连接至处理单元420，但也可以由其它接口或总线结构，诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器491或其它类型的显示设备也经由接口，诸如视频接口490连接至系统总线421。除监视器以外，计算机也可以包括其它外围输出设备，诸如扬声器497和打印机496，它们可以通过输出外围接口495连接。

计算机410使用到诸如远程计算机480等一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机480可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它常见的网络节点，且一般包括以上关于计算机410描述的许多或所有的元件。图5中所示的逻辑连接包括局域网(LAN)471和广域网(WAN)473，但也可以包括其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机410通过网络接口或适配器470连接至LAN 471。当在WAN联网环境中使用时，计算机410通常包括调制解调器472或用于通过诸如因特网等WAN 473建立通信的其它装置。调制解调器472可以是内置或外置的，它可以通过用户输入接口460或其它适当的机制连接至系统总线421。在网络化环境中，相对于计算机410所描述的程序模块或其部分可被储存在远程存储器存储设备中。作为示例，而非限制，图5示出了远程应用程序485驻留在远程计算机480上。可以理解，所示的网络连接是示例性的，且可以使用在计算机之间建立通信链路的其它手段。

尽管用对结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种从可通过网络(104)访问的一个或多个较大语料库(102)中标识并行的双语语料库的方法，包括：

选择第一语言的第一数据子集和第二语言的第二数据子集(140)；

获得对应于所述第一和第二数据子集的每一个的树结构(230)(147)，每一树结构(230)都具有表示所述对应的数据子集的分层地和顺序地安排的节点(202-236)；

根据分层地和顺序地不变的对齐来对齐所述对应于所述数据子集的每一个的树结构(230)(148)；

基于所述树结构(230)的对齐(148)来标识所述数据子集的并行文本片段(150)(148)；以及

输出所述并行文本片段(150)的指示(154)。

2.如权利要求1所述的方法，其特征在于，所述第一和第二数据子集包括具有到其它文档的超链接的第一和第二文档(138)，并且所述方法还包括：

基于所述树结构(230)的对齐(148)来标识所述第一和第二文档(138)中的并行超链接(158)(156)，所述并行超链接(158)分别链接到第一语言的后续文档和第二语言的后续文档。

3.如权利要求2所述的方法，其特征在于，还包括：

获得对应于所述后续文档的每一个的树结构(230)；

对齐对应于所述后续文档的所述树结构(230)(148)；以及

标识所述后续文档中的并行文本片段(150)(148)。

4.如权利要求3所述的方法，其特征在于，还包括：

标识所述后续文档中的并行超链接(158)(156)。

5.如权利要求4所述的方法，其特征在于，还包括：

递归地重复以下步骤：

获得对应于所述后续文档的每一个的树结构(230)(147)；

对齐对应于所述后续文档的所述树结构(230)(148)；

标识所述后续文档中的并行文本片段(150)(148)；以及

标识所述后续文档中的并行超链接(158)(156)。

6.如权利要求1所述的方法，其特征在于，选择所述第一语言的第一数据子集和所述第二语言的第二数据子集包括：

访问来自给定网站的页面(132)；

标识所述页面上的一组预定义触发单词中的一个或多个(136)；以及

基于标识所述触发单词(136)从所述给定网站中选择第一和第二页面(134)(140)。

7.如权利要求6所述的方法，其特征在于，访问页面包括：

下载所述给定网站的根页面和链接到所述根页面的一级页面(132)。

8.如权利要求6所述的方法，其特征在于，选择所述第一数据子集和所述第二数据子集包括：

验证所述第一和第二页面之间的足够的并行性(142)。

9.如权利要求1所述的方法，其特征在于，获得树结构包括：

获得对应于所述数据子集的每一个的文档对象模型树(200)。

10.一种在第一和第二文档中标识并行的双语数据的方法，所述第一文档是第一语言的，而所述第二文档是第二语言的，所述方法包括：

分别获得代表所述第一和第二文档(146)的布局的文档树结构(230)，所述文档树结构(230)包括对应于所述第一和第二文档(146)中的文本的节点；

通过互相对齐所述树结构中的节点同时保留所述文档树结构(230)中的所述节点的顺序和分层来对齐所述文档树结构(230)(148)；以及

标识并行的双语文本片段(150)为对应于所述文档树结构(230)中的对齐的节点的文本片段(148)。

11.如权利要求10所述的方法，其特征在于，所述第一和第二文档(146)的每一个都包括网页，并且其中对齐文本包括对齐所标识的并行的双语文本片段(150)中的句子(106)(152)。

12.如权利要求10所述的方法，其特征在于，每一文档树结构(230)包括多个子树结构，并且其中对齐所述文档树结构(230)包括：

对齐所述子树结构中的节点(300)以获得子树对齐；以及

基于所述子树对齐来对齐所述多个子树结构(302)以对齐所述文档树结构(230)。

13.如权利要求12所述的方法，其特征在于，还包括：

迭代地重复对齐所述子树结构中的节点(300)的步骤(304)以获得子树对齐并基于所述子树对齐来对齐所述多个子树结构(302)。

14.如权利要求12所述的方法，其特征在于，对齐所述多个子树结构(300)包括：

对齐所述多个子树结构(300)，同时维护所述多个子树结构相对于彼此的以及所述子树结构中的节点相对于彼此的分层和顺序。

15.如权利要求10所述的方法，其特征在于，获得文档树结构包括：

获得文档对象模型树结构(200)；以及

通过将文本节点与所述文本节点的父节点进行组合并通过删除不在所述文档对象模型中的预定义节点子集中的节点来修正所述文档对象模型树结构(200)(147)。

16.一种并行语料库挖掘系统，包括：

被配置为接收网页(134)并基于所述网页标识可能并行的页面(138)的并行性检查组件(116)；

被配置为接收所述可能并行的页面(138)并验证所述可能并行的页面(138)具有所需级别的并行性以获取经验证的页面(146)的验证组件(118)；以及

被配置为对齐对应于所述经验证的页面(146)的树结构(230)以标识并行文本片段(150)和并行超链接(158)的树对齐组件(120)。

17.如权利要求16所述的系统，其特征在于，还包括：

被配置为对齐所标识的并行文本片段(150)中的句子的句子对齐组件(122)。

18.如权利要求16所述的系统，其特征在于，所述树结构(230)具有分层地且顺序地安排的节点，并且其中所述树对齐组件(120)被配置为以顺序地不变的且分层地不变的对齐来对齐所述树结构(230)。

19.如权利要求18所述的系统，其特征在于，所述树结构(230)每一个都包括由多个子树依赖性结构形成的总体树结构(230)，并且其中所述树对齐组件(120)被配置为迭代地计算对齐所述总体树结构(230)中的子树依赖性结构的概率，并基于所计算的对齐所述子树依赖性结构的概率来计算对齐所述总体树结构(230)的概率。

20.如权利要求16所述的系统，其特征在于，所述并行超链接(158)链接到页面，并且其中所述系统被配置为递归地将所述超链接(158)所链接的页面标识为可能并行的页面(138)并将所述可能并行的页面(138)提交给所述并行性验证组件(118)。