CN103646117A

CN103646117A - 一种基于链接的双语平行网页识别方法及系统

Info

Publication number: CN103646117A
Application number: CN201310737955.0A
Authority: CN
Inventors: 洪宇; 严为绒; 姚建民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2013-12-27
Filing date: 2013-12-27
Publication date: 2014-03-19
Anticipated expiration: 2033-12-27
Also published as: CN103646117B

Abstract

本发明公开了一种基于链接的双语平行网页识别方法及系统，应用于双语网站中，该方法通过构建网页之间的连接关系，对不同语言的两个网页综合采用内部翻译相似度、外部翻译相似度、优化翻译相似度以及迭代优化翻译相似度的计算来对网页进行识别，最终识别出双语平行网页。本发明提供的该双语平行网页识别方法提出了网页的外部翻译相似度及其计算方法，对网页的翻译相似度进行了系统的分析研究，融合网页内部翻译相似度和外部翻译相似度提出了网页优化翻译相似度，并通过迭代算法，对网页外部翻译相似度和优化翻译相似度进行了更精准的估计，使得平行网页识别更加准确、通用性更强。

Description

一种基于链接的双语平行网页识别方法及系统

技术领域

本发明涉及计算机技术领域，更具体的说，是涉及一种基于链接的双语平行网页识别方法及系统。

背景技术

双语语料在机器翻译、跨语言信息检索等领域中具有极其重要的作用。但通过人工构建双语语料往往费时费力。近年来，互联网发展迅猛，提供了海量的信息，其中不乏双语资源。一些网站为了国际化的需要，提供了两种或两种以上的语言版本的网页，这些网页使用的语言不同，但其中的内容互为翻译，这样的网页被称为双语平行网页。双语平行网页是双语语料的重要来源。

目前，在互联网中识别双语平行网页进而提取出其中的双语资源，采用的方法主要有：锚文本法、网页地址（Uniform Resource Locator，URL）匹配法、网页结构相似度法等。其中，锚文本法主要依赖于网页中带有语言信息的锚文本来识别与其平行的网页。比如，中文网页A的头部存在“EnglishVersion”这一锚文本，同时该锚文本指向了英文网页B，则可以判断网页A和B为双语平行网页。而URL匹配方法则依赖于网页的URL相似度，比如，两个不同语言网页的URL分别为“http://www.aaa.com/index_ch.html”和“http://www.aaa.com/index_en.html”，可以预先构建ch与en的对应关系，然后判断这两个网页是否平行。网页结构相似度法主要计算两个网页的结构相似度，根据结构的相似性来判断网页是否互译。

现有的锚文本法以及URL匹配法通用性都很低，并不是所有双语网站中的平行网页都具有其实施所需求的特点，而对于网页结构相似度法，其识别准确性较低。

因此，提供一种通用性更强、计算结果更准确的双语平行网页识别方法及系统，是本领域技术人员亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于链接的双语平行网页识别方法及系统，在提高双语网站中平行网页识别的通用性的同时，具有更高的准确性。

为实现上述目的，本发明提供如下技术方案：

一种基于链接的双语平行网页识别方法，该方法应用于双语网站中，包括：

根据超链接构建网页之间的连接关系，形成一个网络，其中，所述网络中，节点为网页，边为网页之间的超链接；

对所述网络中待识别的网页进行预处理，得到预处理后的网页；

根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算，得到两个网页的内部翻译相似度值；

根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算，得到两个网页的外部翻译相似度值；

将所述内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值，并迭代计算所述外部翻译相似度值和优化翻译相似度值，直到所述外部翻译相似度值或所述优化翻译相似度值达到稳定；

根据最终得到的优化翻译相似度值识别出双语平行网页。

优选的，所述预处理包括：

采用N-gram模型识别所述网页的语言类别；

提取出所述网页的HTML标签序列，并去除描述文字效果的标签；

根据所述网页对应的语言类别的分词方法对所述网页的正文内容进行分词。

优选的，所述网页内部信息度包括：网页大小、网页内容、网页结构。

优选的，所述内部翻译相似度的计算包括：

计算两个网页大小的比例，其中，如果所述比例小于0.33或大于3，则这两个网页的内部翻译相似度设为0；

统计两个网页内互为翻译的词的个数，计算互译词占所有词的比例，该比值作为基于内容的翻译相似度S_cb；

计算两个网页对应HTML标签序列的最长公共子序列的长度，该长度与两个网页的最长公共子序列长度的平均值的比值作为结构翻译相似度S_struct；

利用如下公式计算两个网页的内部翻译相似度值：

S_int=β·S_cb+(1-β)·S_struct

其中，S_int为两个网页的内部翻译相似度值，β为加权系数，且0≤β≤1。

优选的，所述外部翻译相似度的计算包括：

根据所述网络获取内部翻译相似度较高的两个不同语言的网页e和c各自相邻网页的集合neighbor(e)和neighbor(c)；

判断出所述集合neighbor(e)和neighbor(c)中最相似的两个网页；

将所述最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中，同时将两个网页分别从neighbor(e)和neighbor(c)中删除，其中，sum初始值设为0；

当网页集合neighbor(e)和neighbor(c)至少有一个为空时，则根据如下公式计算两个网页的外部翻译相似度值：

S_ext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)

其中，S_ext(e,c)表示网页e和c的外部翻译相似度，|neighbor(e)|表示网页e的相邻网页的个数，|neighbor(c)|表示网页c的相邻网页的个数。

优选的，所述优化翻译相似度的计算公式为：

ETS(e,c)=α·S_ext(e,c)+(1-α)·S_int(e,c),α∈[0,1]

其中，ETS(e,c)表示网页e和c的优化翻译相似度，S_ext(e,c)表示网页e和c的外部翻译相似度，S_int(e,c)表示网页e和c的内部翻译相似度，α为加权系数。

一种基于链接的双语平行网页识别系统，该系统应用于双语网站中，包括：

构建模块，用于根据超链接构建网页之间的连接关系，形成一个网络，其中，所述网络中，节点为网页，边为网页之间的超链接；

预处理模块，用于对所述网络中待识别的网页进行预处理，得到预处理后的网页；

内部翻译相似度计算模块，用于根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算，得到两个网页的内部翻译相似度值；

外部翻译相似度计算模块，用于根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算，得到两个网页的外部翻译相似度值；

优化翻译相似度计算模块，用于将所述内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值，并迭代计算所述外部翻译相似度值和优化翻译相似度值，直到所述外部翻译相似度值或所述优化翻译相似度值达到稳定；

平行网页识别模块，用于根据最终得到的优化翻译相似度值识别出双语平行网页。

优选的，所述预处理模块包括：

识别模块，用于采用N-gram模型识别所述网页的语言类别；

提取模块，用于提取出所述网页的HTML标签序列，并去除描述文字效果的标签；

分词模块，用于根据所述网页对应的语言类别的分词方法对所述网页的正文内容进行分词。

优选的，所述内部翻译相似度计算模块包括：

大小计算模块，用于计算两个网页大小的比例，其中，如果所述比例小于0.33或大于3，则这两个网页的内部翻译相似度设为0；

内容计算模块，用于统计两个网页内互为翻译的词的个数，计算互译词占所有词的比例，该比值作为基于内容的翻译相似度S_cb；

结构计算模块，用于计算两个网页对应HTML标签序列的最长公共子序列的长度，该长度与两个网页的最长公共子序列长度的平均值的比值作为结构翻译相似度S_struct；

内部相似度计算模块，用于利用如下公式计算两个网页的内部翻译相似度值：

S_int=β·S_cb+(1-β)·S_struct

优选的，所述外部翻译相似度计算模块包括：

获取模块，用于根据所述网络获取内部翻译相似度较高的两个不同语言的网页e和c各自相邻网页的集合neighbor(e)和neighbor(c)；

判断模块，用于判断出所述集合neighbor(e)和neighbor(c)中最相似的两个网页；

累加模块，用于将所述最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中，同时将两个网页分别从neighbor(e)和neighbor(c)中删除，其中，sum初始值设为0；

外部相似度计算模块，用于当网页集合neighbor(e)和neighbor(c)至少有一个为空时，则根据如下公式计算两个网页的外部翻译相似度值：

S_ext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)

经由上述的技术方案可知，本发明公开了一种基于链接的双语平行网页识别方法及系统，应用于双语网站中，该方法通过构建网页之间的连接关系，对不同语言的两个网页综合采用内部翻译相似度、外部翻译相似度、优化翻译相似度以及迭代优化翻译相似度计算来对网页进行识别。与现有技术相比，本发明提供的该双语平行网页识别方法提出了网页的外部翻译相似度及其计算方法，对网页的翻译相似度进行了系统的分析研究，融合网页内部翻译相似度和外部翻译相似度提出了网页优化翻译相似度，并通过迭代算法，对网页外部翻译相似度和优化翻译相似度进行了更精准的估计，使得平行网页识别更加准确、通用性更强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种双语平行网页识别方法的流程图；

图2为本发明实施例公开的一种网页预处理方法的流程图；

图3为本发明实施例公开的一种网页内部翻译相似度计算方法的流程图；

图4为本发明实施例公开的一种网页外部翻译相似度计算方法的流程图；

图5为本发明实施例公开的一种基于链接的双语平行网页识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

为了在双语网站中提高双语平行网页识别的通用性的同时，具有更高的准确性，本发明公开了一种基于链接的双语平行网页识别方法，该方法应用于双语网站中，如图1所示，图1为本发明实施例公开的一种基于链接的双语平行网页识别方法的流程图，包括：

S101：根据超链接构建网页之间的连接关系，形成一个网络。

需要说明的是，在双语平行网站中，根据超链接，构建网页之间的连接关系，形成一个网络，该网络中，节点为网页，边为网页之间的超链接。

S102：对网络中待识别的网页进行预处理，得到预处理后的网页。

在对网页进行识别之前，要对网页进行预处理，如图1所示，图2为本发明实施例公开的一种网页预处理方法的流程图，该方法包括：

S201：采用N-gram模型识别网页的语言类别。

识别网页所使用的语言，进行网页分类筛选，将同一种语言的网页聚在一起。其中，进行语言识别采用基于N-gram模型的方法。

S202：提取出网页的HTML标签序列，并去除描述文字效果的标签。

提取出网页的HTML标签序列，作为网页的结构描述，同时去除“<FONT…>”、“<B>”等与网页结构无关的标签。

S203：根据网页对应的语言类别的分词方法对网页的正文内容进行分词。

对网页的正文内容进行分词，而不同语言的网页正文采用不同的分词方法，如对于英文文本，直接利用空格进行分词，对于中文文本采用现有的流行的分词技术ICTCLAS进行分词，同时，去除网页正文中的停用词。

S103：根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算，得到两个网页的内部翻译相似度值。

在网页预处理后，计算双语网页的内部翻译相似度。内部翻译相似度是指仅仅依赖网页内部信息计算获得的翻译相似度。在计算过程中，使用到了三类网页内部信息：网页大小、网页内容、网页结构。

如图3所示，图3为本发明实施例公开的一种网页内部翻译相似度计算方法的流程图，该方法包括：

S301：计算两个网页大小的比例。

其中，如果两个网页大小比例小于0.33或大于3，则这两个网页的内部翻译相似度设为0，直接认定这两个网页不是平行网页，进行筛除。

S302：统计两个网页内互为翻译的词的个数，计算互译词占所有词的比例，该比值作为基于内容的翻译相似度S_cb。

统计两个网页内互为翻译的词的个数，两个词被识别为互为翻译需要满足两个条件：1）它们在双语词典中可以找到；2）它们在各自网页中所处的相对位置相似。计算互译词占所有词的比例，作为基于内容的相似度S_cb。

S303：计算两个网页对应HTML标签序列的最长公共子序列的长度，该长度与两个网页的最长公共子序列长度的平均值的比值作为结构翻译相似度S_struct。

S304：利用公式计算两个网页的内部翻译相似度值。

需要说明的是，网页的内部翻译相似度计算公式如下：

S_int=β·S_cb+(1-β)·S_struct

其中，S_int为两个网页的内部翻译相似度值，β为加权系数，且0≤β≤1，经研究发现，在实际应用中β取0.6效果最优。

S104：根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算，得到两个网页的外部翻译相似度值。

计算两个网页的外部翻译相似度，首先获得这两个网页各自相邻的网页，然后根据这两组网页的优化翻译相似度来计算这两个网页的相似度。任意选取两个内部翻译相似度较高的不同语言的网页，进行外部翻译相似度的计算，如图4所示，图4为本发明实施例公开的一种网页外部翻译相似度计算方法的流程图，该方法包括：

S401：获取网页e和c各自相邻网页的集合neighbor(e)和neighbor(c)。

设需要计算网页e和c的外部翻译相似度，首先根据网络关系获取它们各自的相邻网页集合neighbor(e)和neighbor(c)。

S402：判断出集合neighbor(e)和neighbor(c)中最相似的两个网页。

S403：将最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中，同时将两个网页分别从neighbor(e)和neighbor(c)中删除。

设临时变量sum，用于记录网页相似度的和，初始值设为0，将这两个最相似的网页的优化翻译相似度累加到sum，同时将这两个网页从分别从neighbor(e)和neighbor(c)中删除。

S404：当网页集合neighbor(e)和neighbor(c)至少有一个为空时，则根据公式计算两个网页的外部翻译相似度值。

若网页集合neighbor(e)和neighbor(c)都不为空，则继续进行步骤S403，当网页集合neighbor(e)和neighbor(c)至少有一个为空时，则根据公式计算两个网页的外部翻译相似度值。

需要说明的是，计算网页外部翻译相似度值所需的公式为：

S_ext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)

S105：将内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值。

需要说明的是，S105与S104是需要进行迭代计算的，即对外部翻译相似度值和优化翻译相似度值进行迭代计算，直到外部翻译相似度值或优化翻译相似度值达到稳定。

两个网页外部翻译相似度依赖于它们邻居网页的优化翻译相似度，而网页的优化翻译相似度是网页内部翻译相似度和外部翻译相似度的融合。因此网页的外部翻译相似度和网页的优化翻译相似度相互依赖，可以通过迭代的方法来优化计算这两种相似度。

优化翻译相似度的计算公式为：

ETS(e,c)=α·S_ext(e,c)+(1-α)·S_int(e,c),α∈[0,1]

其中，ETS(e,c)表示网页e和c的优化翻译相似度，S_ext(e,c)表示网页e和c的外部翻译相似度，S_int(e,c)表示网页e和c的内部翻译相似度，α为加权系数，用于调节外部和内部翻译相似度的权重，在实际应用中设置为0.1至0.9均可。

迭代开始前，将ETS(e,c)设为0.1，然后迭代计算以下两个相似度值：

网页的优化翻译相似度，该相似度值为网页的外部翻译相似度值和内部翻译相似度值的融合；

网页的外部翻译相似度，该相似度依赖于其它相关网页的优化翻译相似度。

迭代结束条件为：网页的外部翻译相似度值或优化翻译相似度值达到稳定，即ETS(e,c)收敛，结束迭代循环。在实际应用中，迭代3次即可收敛到最优值。

S106：根据最终得到的优化翻译相似度值识别出双语平行网页。

获得任意网页的优化翻译相似度值后，选择超过相似度阈值的双语网页作为最后识别出的双语网页。其中，选择双语网页时，按照双语网页的优化翻译相似度值由高到低依次选择。具体选择方法为：

设E和C为双语平行网站中两种不同语言的网页集合，如E表示网站中所有英文网页，C表示所有中文网页。

从E和C中筛选优化翻译相似度最高的两个网页，若这两个网页的相似度超过阈值T，则作为平行网页输出，否则退出。

将输出的网页分别从E和C中删除。直至E或C至少一个为空，则退出，否则继续进行筛选、删除。

经由上述的技术方案可知，本发明实施例一公开了一种基于链接的双语平行网页识别方法，应用于双语网站中，该方法通过构建网页之间的连接关系，对不同语言的两个网页综合采用内部翻译相似度、外部翻译相似度、优化翻译相似度以及迭代优化翻译相似度计算来对网页进行识别。与现有技术相比，本发明提供的该双语平行网页识别方法提出了网页的外部翻译相似度及其计算方法，对网页的翻译相似度进行了系统的分析研究，融合网页内部翻译相似度和外部翻译相似度提出了网页优化翻译相似度，并通过迭代算法，对网页外部翻译相似度和优化翻译相似度进行了更精准的估计，使得平行网页识别更加准确、通用性更强。

上述本发明公开的实施例中详细描述了方法，对于本发明的方法可采用多种形式的系统实现，因此本发明还公开了一种系统，下面给出具体的实施例进行详细说明。

实施例二

为了在双语网站中提高双语平行网页识别的通用性的同时，具有更高的准确性，并能实现本发明实施例一所公开的双语平行网页识别方法，本实施例公开如下双语平行网页识别系统，如图5所示，图5为本发明实施例公开的一种双语平行网页识别系统的结构示意图，该系统包括：构建模块501、预处理模块502、内部翻译相似度计算模块503、外部翻译相似度计算模块504、优化翻译相似度计算模块505和平行网页识别模块506，其中，

构建模块501，用于根据超链接构建网页之间的连接关系，形成一个网络，其中，网络中，节点为网页，边为网页之间的超链接。

预处理模块502，用于对网络中待识别的网页进行预处理，得到预处理后的网页。

预处理模块502包括：识别模块、提取模块和分词模块，其中，

识别模块，用于采用N-gram模型识别网页的语言类别；

提取模块，用于提取出网页的HTML标签序列，并去除描述文字效果的标签；

分词模块，用于根据网页对应的语言类别的分词方法对网页的正文内容进行分词。

内部翻译相似度计算模块503，用于根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算，得到两个网页的内部翻译相似度值。

需要说明的是，网页内部信息度包括：网页大小、网页内容、网页结构。

内部翻译相似度计算模块503包括：大小计算模块、内容计算模块、结构计算模块和内部相似度计算模块，其中：

大小计算模块，用于计算两个网页大小的比例，其中，如果比例小于0.33或大于3，则这两个网页的内部翻译相似度设为0；

S_int=β·S_cb+(1-β)·S_struct

外部翻译相似度计算模块504，用于根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算，得到两个网页的外部翻译相似度值。

其中，外部翻译相似度计算模块504包括：获取模块、判断模块、累加模块和外部相似度计算模块，其中，

获取模块，用于根据网络获取内部翻译相似度较高的两个不同语言的网页e和c各自相邻网页的集合neighbor(e)和neighbor(c)；

判断模块，用于判断出集合neighbor(e)和neighbor(c)中最相似的两个网页；

累加模块，用于将最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中，同时将两个网页分别从neighbor(e)和neighbor(c)中删除，其中，sum初始值设为0；

S_ext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)

优化翻译相似度计算模块505，用于将内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值，并迭代计算外部翻译相似度值和优化翻译相似度值，直到外部翻译相似度值或优化翻译相似度值达到稳定；

优化翻译相似度的计算公式为：

ETS(e,c)=α·S_ext(e,c)+(1-α)·S_int(e,c),α∈[0,1]

平行网页识别模块506，用于根据最终得到的优化翻译相似度值识别出双语平行网页。

经由上述的技术方案可知，本发明实施例二公开了一种双语平行网页识别系统，应用于双语网站中，该方法通过构建网页之间的连接关系，对不同语言的两个网页综合采用内部翻译相似度、外部翻译相似度、优化翻译相似度以及迭代优化翻译相似度计算来对网页进行识别。与现有技术相比，本发明提供的该双语平行网页识别方法提出了网页的外部翻译相似度及其计算方法，对网页的翻译相似度进行了系统的分析研究，融合网页内部翻译相似度和外部翻译相似度提出了网页优化翻译相似度，并通过迭代算法，对网页外部翻译相似度和优化翻译相似度进行了更精准的估计，使得平行网页识别更加准确、通用性更强。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于链接的双语平行网页识别方法，其特征在于，该方法应用于双语网站中，包括：

根据最终得到的优化翻译相似度值识别出双语平行网页。

2.根据权利要求1所述的方法，其特征在于，所述预处理包括：

采用N-gram模型识别所述网页的语言类别；

3.根据权利要求1所述的方法，其特征在于，所述网页内部信息度包括：网页大小、网页内容、网页结构。

4.根据权利要求3所述的方法，其特征在于，所述内部翻译相似度的计算包括：

利用如下公式计算两个网页的内部翻译相似度值：

S_int=β·S_cb+(1-β)·S_struct

5.根据权利要求1所述的方法，其特征在于，所述外部翻译相似度的计算包括：

判断出所述集合neighbor(e)和neighbor(c)中最相似的两个网页；

S_ext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)

6.根据权利要求1所述的方法，其特征在于，所述优化翻译相似度的计算公式为：

ETS(e,c)=α·S_ext(e,c)+(1-α)·S_int(e,c),α∈[0,1]

7.一种基于链接的双语平行网页识别系统，其特征在于，该系统应用于双语网站中，包括：

8.根据权利要求7所述的系统，其特征在于，所述预处理模块包括：

识别模块，用于采用N-gram模型识别所述网页的语言类别；

9.根据权利要求7所述的系统，其特征在于，所述内部翻译相似度计算模块包括：

S_int=β·S_cb+(1-β)·S_struct

10.根据权利要求7所述的系统，其特征在于，所述外部翻译相似度计算模块包括：

S_ext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)