CN103646117A - 一种基于链接的双语平行网页识别方法及系统 - Google Patents

一种基于链接的双语平行网页识别方法及系统 Download PDF

Info

Publication number
CN103646117A
CN103646117A CN201310737955.0A CN201310737955A CN103646117A CN 103646117 A CN103646117 A CN 103646117A CN 201310737955 A CN201310737955 A CN 201310737955A CN 103646117 A CN103646117 A CN 103646117A
Authority
CN
China
Prior art keywords
webpage
translation similarity
similarity
translation
webpages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310737955.0A
Other languages
English (en)
Other versions
CN103646117B (zh
Inventor
洪宇
严为绒
姚建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201310737955.0A priority Critical patent/CN103646117B/zh
Publication of CN103646117A publication Critical patent/CN103646117A/zh
Application granted granted Critical
Publication of CN103646117B publication Critical patent/CN103646117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于链接的双语平行网页识别方法及系统,应用于双语网站中,该方法通过构建网页之间的连接关系,对不同语言的两个网页综合采用内部翻译相似度、外部翻译相似度、优化翻译相似度以及迭代优化翻译相似度的计算来对网页进行识别,最终识别出双语平行网页。本发明提供的该双语平行网页识别方法提出了网页的外部翻译相似度及其计算方法,对网页的翻译相似度进行了系统的分析研究,融合网页内部翻译相似度和外部翻译相似度提出了网页优化翻译相似度,并通过迭代算法,对网页外部翻译相似度和优化翻译相似度进行了更精准的估计,使得平行网页识别更加准确、通用性更强。

Description

一种基于链接的双语平行网页识别方法及系统
技术领域
本发明涉及计算机技术领域,更具体的说,是涉及一种基于链接的双语平行网页识别方法及系统。
背景技术
双语语料在机器翻译、跨语言信息检索等领域中具有极其重要的作用。但通过人工构建双语语料往往费时费力。近年来,互联网发展迅猛,提供了海量的信息,其中不乏双语资源。一些网站为了国际化的需要,提供了两种或两种以上的语言版本的网页,这些网页使用的语言不同,但其中的内容互为翻译,这样的网页被称为双语平行网页。双语平行网页是双语语料的重要来源。
目前,在互联网中识别双语平行网页进而提取出其中的双语资源,采用的方法主要有:锚文本法、网页地址(Uniform Resource Locator,URL)匹配法、网页结构相似度法等。其中,锚文本法主要依赖于网页中带有语言信息的锚文本来识别与其平行的网页。比如,中文网页A的头部存在“EnglishVersion”这一锚文本,同时该锚文本指向了英文网页B,则可以判断网页A和B为双语平行网页。而URL匹配方法则依赖于网页的URL相似度,比如,两个不同语言网页的URL分别为“http://www.aaa.com/index_ch.html”和“http://www.aaa.com/index_en.html”,可以预先构建ch与en的对应关系,然后判断这两个网页是否平行。网页结构相似度法主要计算两个网页的结构相似度,根据结构的相似性来判断网页是否互译。
现有的锚文本法以及URL匹配法通用性都很低,并不是所有双语网站中的平行网页都具有其实施所需求的特点,而对于网页结构相似度法,其识别准确性较低。
因此,提供一种通用性更强、计算结果更准确的双语平行网页识别方法及系统,是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于链接的双语平行网页识别方法及系统,在提高双语网站中平行网页识别的通用性的同时,具有更高的准确性。
为实现上述目的,本发明提供如下技术方案:
一种基于链接的双语平行网页识别方法,该方法应用于双语网站中,包括:
根据超链接构建网页之间的连接关系,形成一个网络,其中,所述网络中,节点为网页,边为网页之间的超链接;
对所述网络中待识别的网页进行预处理,得到预处理后的网页;
根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算,得到两个网页的内部翻译相似度值;
根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算,得到两个网页的外部翻译相似度值;
将所述内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值,并迭代计算所述外部翻译相似度值和优化翻译相似度值,直到所述外部翻译相似度值或所述优化翻译相似度值达到稳定;
根据最终得到的优化翻译相似度值识别出双语平行网页。
优选的,所述预处理包括:
采用N-gram模型识别所述网页的语言类别;
提取出所述网页的HTML标签序列,并去除描述文字效果的标签;
根据所述网页对应的语言类别的分词方法对所述网页的正文内容进行分词。
优选的,所述网页内部信息度包括:网页大小、网页内容、网页结构。
优选的,所述内部翻译相似度的计算包括:
计算两个网页大小的比例,其中,如果所述比例小于0.33或大于3,则这两个网页的内部翻译相似度设为0;
统计两个网页内互为翻译的词的个数,计算互译词占所有词的比例,该比值作为基于内容的翻译相似度Scb
计算两个网页对应HTML标签序列的最长公共子序列的长度,该长度与两个网页的最长公共子序列长度的平均值的比值作为结构翻译相似度Sstruct
利用如下公式计算两个网页的内部翻译相似度值:
Sint=β·Scb+(1-β)·Sstruct
其中,Sint为两个网页的内部翻译相似度值,β为加权系数,且0≤β≤1。
优选的,所述外部翻译相似度的计算包括:
根据所述网络获取内部翻译相似度较高的两个不同语言的网页e和c各自相邻网页的集合neighbor(e)和neighbor(c);
判断出所述集合neighbor(e)和neighbor(c)中最相似的两个网页;
将所述最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中,同时将两个网页分别从neighbor(e)和neighbor(c)中删除,其中,sum初始值设为0;
当网页集合neighbor(e)和neighbor(c)至少有一个为空时,则根据如下公式计算两个网页的外部翻译相似度值:
Sext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)
其中,Sext(e,c)表示网页e和c的外部翻译相似度,|neighbor(e)|表示网页e的相邻网页的个数,|neighbor(c)|表示网页c的相邻网页的个数。
优选的,所述优化翻译相似度的计算公式为:
ETS(e,c)=α·Sext(e,c)+(1-α)·Sint(e,c),α∈[0,1]
其中,ETS(e,c)表示网页e和c的优化翻译相似度,Sext(e,c)表示网页e和c的外部翻译相似度,Sint(e,c)表示网页e和c的内部翻译相似度,α为加权系数。
一种基于链接的双语平行网页识别系统,该系统应用于双语网站中,包括:
构建模块,用于根据超链接构建网页之间的连接关系,形成一个网络,其中,所述网络中,节点为网页,边为网页之间的超链接;
预处理模块,用于对所述网络中待识别的网页进行预处理,得到预处理后的网页;
内部翻译相似度计算模块,用于根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算,得到两个网页的内部翻译相似度值;
外部翻译相似度计算模块,用于根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算,得到两个网页的外部翻译相似度值;
优化翻译相似度计算模块,用于将所述内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值,并迭代计算所述外部翻译相似度值和优化翻译相似度值,直到所述外部翻译相似度值或所述优化翻译相似度值达到稳定;
平行网页识别模块,用于根据最终得到的优化翻译相似度值识别出双语平行网页。
优选的,所述预处理模块包括:
识别模块,用于采用N-gram模型识别所述网页的语言类别;
提取模块,用于提取出所述网页的HTML标签序列,并去除描述文字效果的标签;
分词模块,用于根据所述网页对应的语言类别的分词方法对所述网页的正文内容进行分词。
优选的,所述内部翻译相似度计算模块包括:
大小计算模块,用于计算两个网页大小的比例,其中,如果所述比例小于0.33或大于3,则这两个网页的内部翻译相似度设为0;
内容计算模块,用于统计两个网页内互为翻译的词的个数,计算互译词占所有词的比例,该比值作为基于内容的翻译相似度Scb
结构计算模块,用于计算两个网页对应HTML标签序列的最长公共子序列的长度,该长度与两个网页的最长公共子序列长度的平均值的比值作为结构翻译相似度Sstruct
内部相似度计算模块,用于利用如下公式计算两个网页的内部翻译相似度值:
Sint=β·Scb+(1-β)·Sstruct
其中,Sint为两个网页的内部翻译相似度值,β为加权系数,且0≤β≤1。
优选的,所述外部翻译相似度计算模块包括:
获取模块,用于根据所述网络获取内部翻译相似度较高的两个不同语言的网页e和c各自相邻网页的集合neighbor(e)和neighbor(c);
判断模块,用于判断出所述集合neighbor(e)和neighbor(c)中最相似的两个网页;
累加模块,用于将所述最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中,同时将两个网页分别从neighbor(e)和neighbor(c)中删除,其中,sum初始值设为0;
外部相似度计算模块,用于当网页集合neighbor(e)和neighbor(c)至少有一个为空时,则根据如下公式计算两个网页的外部翻译相似度值:
Sext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)
其中,Sext(e,c)表示网页e和c的外部翻译相似度,|neighbor(e)|表示网页e的相邻网页的个数,|neighbor(c)|表示网页c的相邻网页的个数。
经由上述的技术方案可知,本发明公开了一种基于链接的双语平行网页识别方法及系统,应用于双语网站中,该方法通过构建网页之间的连接关系,对不同语言的两个网页综合采用内部翻译相似度、外部翻译相似度、优化翻译相似度以及迭代优化翻译相似度计算来对网页进行识别。与现有技术相比,本发明提供的该双语平行网页识别方法提出了网页的外部翻译相似度及其计算方法,对网页的翻译相似度进行了系统的分析研究,融合网页内部翻译相似度和外部翻译相似度提出了网页优化翻译相似度,并通过迭代算法,对网页外部翻译相似度和优化翻译相似度进行了更精准的估计,使得平行网页识别更加准确、通用性更强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种双语平行网页识别方法的流程图;
图2为本发明实施例公开的一种网页预处理方法的流程图;
图3为本发明实施例公开的一种网页内部翻译相似度计算方法的流程图;
图4为本发明实施例公开的一种网页外部翻译相似度计算方法的流程图;
图5为本发明实施例公开的一种基于链接的双语平行网页识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
为了在双语网站中提高双语平行网页识别的通用性的同时,具有更高的准确性,本发明公开了一种基于链接的双语平行网页识别方法,该方法应用于双语网站中,如图1所示,图1为本发明实施例公开的一种基于链接的双语平行网页识别方法的流程图,包括:
S101:根据超链接构建网页之间的连接关系,形成一个网络。
需要说明的是,在双语平行网站中,根据超链接,构建网页之间的连接关系,形成一个网络,该网络中,节点为网页,边为网页之间的超链接。
S102:对网络中待识别的网页进行预处理,得到预处理后的网页。
在对网页进行识别之前,要对网页进行预处理,如图1所示,图2为本发明实施例公开的一种网页预处理方法的流程图,该方法包括:
S201:采用N-gram模型识别网页的语言类别。
识别网页所使用的语言,进行网页分类筛选,将同一种语言的网页聚在一起。其中,进行语言识别采用基于N-gram模型的方法。
S202:提取出网页的HTML标签序列,并去除描述文字效果的标签。
提取出网页的HTML标签序列,作为网页的结构描述,同时去除“<FONT…>”、“<B>”等与网页结构无关的标签。
S203:根据网页对应的语言类别的分词方法对网页的正文内容进行分词。
对网页的正文内容进行分词,而不同语言的网页正文采用不同的分词方法,如对于英文文本,直接利用空格进行分词,对于中文文本采用现有的流行的分词技术ICTCLAS进行分词,同时,去除网页正文中的停用词。
S103:根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算,得到两个网页的内部翻译相似度值。
在网页预处理后,计算双语网页的内部翻译相似度。内部翻译相似度是指仅仅依赖网页内部信息计算获得的翻译相似度。在计算过程中,使用到了三类网页内部信息:网页大小、网页内容、网页结构。
如图3所示,图3为本发明实施例公开的一种网页内部翻译相似度计算方法的流程图,该方法包括:
S301:计算两个网页大小的比例。
其中,如果两个网页大小比例小于0.33或大于3,则这两个网页的内部翻译相似度设为0,直接认定这两个网页不是平行网页,进行筛除。
S302:统计两个网页内互为翻译的词的个数,计算互译词占所有词的比例,该比值作为基于内容的翻译相似度Scb
统计两个网页内互为翻译的词的个数,两个词被识别为互为翻译需要满足两个条件:1)它们在双语词典中可以找到;2)它们在各自网页中所处的相对位置相似。计算互译词占所有词的比例,作为基于内容的相似度Scb
S303:计算两个网页对应HTML标签序列的最长公共子序列的长度,该长度与两个网页的最长公共子序列长度的平均值的比值作为结构翻译相似度Sstruct
S304:利用公式计算两个网页的内部翻译相似度值。
需要说明的是,网页的内部翻译相似度计算公式如下:
Sint=β·Scb+(1-β)·Sstruct
其中,Sint为两个网页的内部翻译相似度值,β为加权系数,且0≤β≤1,经研究发现,在实际应用中β取0.6效果最优。
S104:根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算,得到两个网页的外部翻译相似度值。
计算两个网页的外部翻译相似度,首先获得这两个网页各自相邻的网页,然后根据这两组网页的优化翻译相似度来计算这两个网页的相似度。任意选取两个内部翻译相似度较高的不同语言的网页,进行外部翻译相似度的计算,如图4所示,图4为本发明实施例公开的一种网页外部翻译相似度计算方法的流程图,该方法包括:
S401:获取网页e和c各自相邻网页的集合neighbor(e)和neighbor(c)。
设需要计算网页e和c的外部翻译相似度,首先根据网络关系获取它们各自的相邻网页集合neighbor(e)和neighbor(c)。
S402:判断出集合neighbor(e)和neighbor(c)中最相似的两个网页。
S403:将最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中,同时将两个网页分别从neighbor(e)和neighbor(c)中删除。
设临时变量sum,用于记录网页相似度的和,初始值设为0,将这两个最相似的网页的优化翻译相似度累加到sum,同时将这两个网页从分别从neighbor(e)和neighbor(c)中删除。
S404:当网页集合neighbor(e)和neighbor(c)至少有一个为空时,则根据公式计算两个网页的外部翻译相似度值。
若网页集合neighbor(e)和neighbor(c)都不为空,则继续进行步骤S403,当网页集合neighbor(e)和neighbor(c)至少有一个为空时,则根据公式计算两个网页的外部翻译相似度值。
需要说明的是,计算网页外部翻译相似度值所需的公式为:
Sext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)
其中,Sext(e,c)表示网页e和c的外部翻译相似度,|neighbor(e)|表示网页e的相邻网页的个数,|neighbor(c)|表示网页c的相邻网页的个数。
S105:将内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值。
需要说明的是,S105与S104是需要进行迭代计算的,即对外部翻译相似度值和优化翻译相似度值进行迭代计算,直到外部翻译相似度值或优化翻译相似度值达到稳定。
两个网页外部翻译相似度依赖于它们邻居网页的优化翻译相似度,而网页的优化翻译相似度是网页内部翻译相似度和外部翻译相似度的融合。因此网页的外部翻译相似度和网页的优化翻译相似度相互依赖,可以通过迭代的方法来优化计算这两种相似度。
优化翻译相似度的计算公式为:
ETS(e,c)=α·Sext(e,c)+(1-α)·Sint(e,c),α∈[0,1]
其中,ETS(e,c)表示网页e和c的优化翻译相似度,Sext(e,c)表示网页e和c的外部翻译相似度,Sint(e,c)表示网页e和c的内部翻译相似度,α为加权系数,用于调节外部和内部翻译相似度的权重,在实际应用中设置为0.1至0.9均可。
迭代开始前,将ETS(e,c)设为0.1,然后迭代计算以下两个相似度值:
网页的优化翻译相似度,该相似度值为网页的外部翻译相似度值和内部翻译相似度值的融合;
网页的外部翻译相似度,该相似度依赖于其它相关网页的优化翻译相似度。
迭代结束条件为:网页的外部翻译相似度值或优化翻译相似度值达到稳定,即ETS(e,c)收敛,结束迭代循环。在实际应用中,迭代3次即可收敛到最优值。
S106:根据最终得到的优化翻译相似度值识别出双语平行网页。
获得任意网页的优化翻译相似度值后,选择超过相似度阈值的双语网页作为最后识别出的双语网页。其中,选择双语网页时,按照双语网页的优化翻译相似度值由高到低依次选择。具体选择方法为:
设E和C为双语平行网站中两种不同语言的网页集合,如E表示网站中所有英文网页,C表示所有中文网页。
从E和C中筛选优化翻译相似度最高的两个网页,若这两个网页的相似度超过阈值T,则作为平行网页输出,否则退出。
将输出的网页分别从E和C中删除。直至E或C至少一个为空,则退出,否则继续进行筛选、删除。
经由上述的技术方案可知,本发明实施例一公开了一种基于链接的双语平行网页识别方法,应用于双语网站中,该方法通过构建网页之间的连接关系,对不同语言的两个网页综合采用内部翻译相似度、外部翻译相似度、优化翻译相似度以及迭代优化翻译相似度计算来对网页进行识别。与现有技术相比,本发明提供的该双语平行网页识别方法提出了网页的外部翻译相似度及其计算方法,对网页的翻译相似度进行了系统的分析研究,融合网页内部翻译相似度和外部翻译相似度提出了网页优化翻译相似度,并通过迭代算法,对网页外部翻译相似度和优化翻译相似度进行了更精准的估计,使得平行网页识别更加准确、通用性更强。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的系统实现,因此本发明还公开了一种系统,下面给出具体的实施例进行详细说明。
实施例二
为了在双语网站中提高双语平行网页识别的通用性的同时,具有更高的准确性,并能实现本发明实施例一所公开的双语平行网页识别方法,本实施例公开如下双语平行网页识别系统,如图5所示,图5为本发明实施例公开的一种双语平行网页识别系统的结构示意图,该系统包括:构建模块501、预处理模块502、内部翻译相似度计算模块503、外部翻译相似度计算模块504、优化翻译相似度计算模块505和平行网页识别模块506,其中,
构建模块501,用于根据超链接构建网页之间的连接关系,形成一个网络,其中,网络中,节点为网页,边为网页之间的超链接。
预处理模块502,用于对网络中待识别的网页进行预处理,得到预处理后的网页。
预处理模块502包括:识别模块、提取模块和分词模块,其中,
识别模块,用于采用N-gram模型识别网页的语言类别;
提取模块,用于提取出网页的HTML标签序列,并去除描述文字效果的标签;
分词模块,用于根据网页对应的语言类别的分词方法对网页的正文内容进行分词。
内部翻译相似度计算模块503,用于根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算,得到两个网页的内部翻译相似度值。
需要说明的是,网页内部信息度包括:网页大小、网页内容、网页结构。
内部翻译相似度计算模块503包括:大小计算模块、内容计算模块、结构计算模块和内部相似度计算模块,其中:
大小计算模块,用于计算两个网页大小的比例,其中,如果比例小于0.33或大于3,则这两个网页的内部翻译相似度设为0;
内容计算模块,用于统计两个网页内互为翻译的词的个数,计算互译词占所有词的比例,该比值作为基于内容的翻译相似度Scb
结构计算模块,用于计算两个网页对应HTML标签序列的最长公共子序列的长度,该长度与两个网页的最长公共子序列长度的平均值的比值作为结构翻译相似度Sstruct
内部相似度计算模块,用于利用如下公式计算两个网页的内部翻译相似度值:
Sint=β·Scb+(1-β)·Sstruct
其中,Sint为两个网页的内部翻译相似度值,β为加权系数,且0≤β≤1。
外部翻译相似度计算模块504,用于根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算,得到两个网页的外部翻译相似度值。
其中,外部翻译相似度计算模块504包括:获取模块、判断模块、累加模块和外部相似度计算模块,其中,
获取模块,用于根据网络获取内部翻译相似度较高的两个不同语言的网页e和c各自相邻网页的集合neighbor(e)和neighbor(c);
判断模块,用于判断出集合neighbor(e)和neighbor(c)中最相似的两个网页;
累加模块,用于将最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中,同时将两个网页分别从neighbor(e)和neighbor(c)中删除,其中,sum初始值设为0;
外部相似度计算模块,用于当网页集合neighbor(e)和neighbor(c)至少有一个为空时,则根据如下公式计算两个网页的外部翻译相似度值:
Sext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)
其中,Sext(e,c)表示网页e和c的外部翻译相似度,|neighbor(e)|表示网页e的相邻网页的个数,|neighbor(c)|表示网页c的相邻网页的个数。
优化翻译相似度计算模块505,用于将内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值,并迭代计算外部翻译相似度值和优化翻译相似度值,直到外部翻译相似度值或优化翻译相似度值达到稳定;
两个网页外部翻译相似度依赖于它们邻居网页的优化翻译相似度,而网页的优化翻译相似度是网页内部翻译相似度和外部翻译相似度的融合。因此网页的外部翻译相似度和网页的优化翻译相似度相互依赖,可以通过迭代的方法来优化计算这两种相似度。
优化翻译相似度的计算公式为:
ETS(e,c)=α·Sext(e,c)+(1-α)·Sint(e,c),α∈[0,1]
其中,ETS(e,c)表示网页e和c的优化翻译相似度,Sext(e,c)表示网页e和c的外部翻译相似度,Sint(e,c)表示网页e和c的内部翻译相似度,α为加权系数,用于调节外部和内部翻译相似度的权重,在实际应用中设置为0.1至0.9均可。
迭代开始前,将ETS(e,c)设为0.1,然后迭代计算以下两个相似度值:
网页的优化翻译相似度,该相似度值为网页的外部翻译相似度值和内部翻译相似度值的融合;
网页的外部翻译相似度,该相似度依赖于其它相关网页的优化翻译相似度。
迭代结束条件为:网页的外部翻译相似度值或优化翻译相似度值达到稳定,即ETS(e,c)收敛,结束迭代循环。在实际应用中,迭代3次即可收敛到最优值。
平行网页识别模块506,用于根据最终得到的优化翻译相似度值识别出双语平行网页。
获得任意网页的优化翻译相似度值后,选择超过相似度阈值的双语网页作为最后识别出的双语网页。其中,选择双语网页时,按照双语网页的优化翻译相似度值由高到低依次选择。具体选择方法为:
设E和C为双语平行网站中两种不同语言的网页集合,如E表示网站中所有英文网页,C表示所有中文网页。
从E和C中筛选优化翻译相似度最高的两个网页,若这两个网页的相似度超过阈值T,则作为平行网页输出,否则退出。
将输出的网页分别从E和C中删除。直至E或C至少一个为空,则退出,否则继续进行筛选、删除。
经由上述的技术方案可知,本发明实施例二公开了一种双语平行网页识别系统,应用于双语网站中,该方法通过构建网页之间的连接关系,对不同语言的两个网页综合采用内部翻译相似度、外部翻译相似度、优化翻译相似度以及迭代优化翻译相似度计算来对网页进行识别。与现有技术相比,本发明提供的该双语平行网页识别方法提出了网页的外部翻译相似度及其计算方法,对网页的翻译相似度进行了系统的分析研究,融合网页内部翻译相似度和外部翻译相似度提出了网页优化翻译相似度,并通过迭代算法,对网页外部翻译相似度和优化翻译相似度进行了更精准的估计,使得平行网页识别更加准确、通用性更强。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于链接的双语平行网页识别方法,其特征在于,该方法应用于双语网站中,包括:
根据超链接构建网页之间的连接关系,形成一个网络,其中,所述网络中,节点为网页,边为网页之间的超链接;
对所述网络中待识别的网页进行预处理,得到预处理后的网页;
根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算,得到两个网页的内部翻译相似度值;
根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算,得到两个网页的外部翻译相似度值;
将所述内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值,并迭代计算所述外部翻译相似度值和优化翻译相似度值,直到所述外部翻译相似度值或所述优化翻译相似度值达到稳定;
根据最终得到的优化翻译相似度值识别出双语平行网页。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括:
采用N-gram模型识别所述网页的语言类别;
提取出所述网页的HTML标签序列,并去除描述文字效果的标签;
根据所述网页对应的语言类别的分词方法对所述网页的正文内容进行分词。
3.根据权利要求1所述的方法,其特征在于,所述网页内部信息度包括:网页大小、网页内容、网页结构。
4.根据权利要求3所述的方法,其特征在于,所述内部翻译相似度的计算包括:
计算两个网页大小的比例,其中,如果所述比例小于0.33或大于3,则这两个网页的内部翻译相似度设为0;
统计两个网页内互为翻译的词的个数,计算互译词占所有词的比例,该比值作为基于内容的翻译相似度Scb
计算两个网页对应HTML标签序列的最长公共子序列的长度,该长度与两个网页的最长公共子序列长度的平均值的比值作为结构翻译相似度Sstruct
利用如下公式计算两个网页的内部翻译相似度值:
Sint=β·Scb+(1-β)·Sstruct
其中,Sint为两个网页的内部翻译相似度值,β为加权系数,且0≤β≤1。
5.根据权利要求1所述的方法,其特征在于,所述外部翻译相似度的计算包括:
根据所述网络获取内部翻译相似度较高的两个不同语言的网页e和c各自相邻网页的集合neighbor(e)和neighbor(c);
判断出所述集合neighbor(e)和neighbor(c)中最相似的两个网页;
将所述最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中,同时将两个网页分别从neighbor(e)和neighbor(c)中删除,其中,sum初始值设为0;
当网页集合neighbor(e)和neighbor(c)至少有一个为空时,则根据如下公式计算两个网页的外部翻译相似度值:
Sext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)
其中,Sext(e,c)表示网页e和c的外部翻译相似度,|neighbor(e)|表示网页e的相邻网页的个数,|neighbor(c)|表示网页c的相邻网页的个数。
6.根据权利要求1所述的方法,其特征在于,所述优化翻译相似度的计算公式为:
ETS(e,c)=α·Sext(e,c)+(1-α)·Sint(e,c),α∈[0,1]
其中,ETS(e,c)表示网页e和c的优化翻译相似度,Sext(e,c)表示网页e和c的外部翻译相似度,Sint(e,c)表示网页e和c的内部翻译相似度,α为加权系数。
7.一种基于链接的双语平行网页识别系统,其特征在于,该系统应用于双语网站中,包括:
构建模块,用于根据超链接构建网页之间的连接关系,形成一个网络,其中,所述网络中,节点为网页,边为网页之间的超链接;
预处理模块,用于对所述网络中待识别的网页进行预处理,得到预处理后的网页;
内部翻译相似度计算模块,用于根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算,得到两个网页的内部翻译相似度值;
外部翻译相似度计算模块,用于根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算,得到两个网页的外部翻译相似度值;
优化翻译相似度计算模块,用于将所述内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值,并迭代计算所述外部翻译相似度值和优化翻译相似度值,直到所述外部翻译相似度值或所述优化翻译相似度值达到稳定;
平行网页识别模块,用于根据最终得到的优化翻译相似度值识别出双语平行网页。
8.根据权利要求7所述的系统,其特征在于,所述预处理模块包括:
识别模块,用于采用N-gram模型识别所述网页的语言类别;
提取模块,用于提取出所述网页的HTML标签序列,并去除描述文字效果的标签;
分词模块,用于根据所述网页对应的语言类别的分词方法对所述网页的正文内容进行分词。
9.根据权利要求7所述的系统,其特征在于,所述内部翻译相似度计算模块包括:
大小计算模块,用于计算两个网页大小的比例,其中,如果所述比例小于0.33或大于3,则这两个网页的内部翻译相似度设为0;
内容计算模块,用于统计两个网页内互为翻译的词的个数,计算互译词占所有词的比例,该比值作为基于内容的翻译相似度Scb
结构计算模块,用于计算两个网页对应HTML标签序列的最长公共子序列的长度,该长度与两个网页的最长公共子序列长度的平均值的比值作为结构翻译相似度Sstruct
内部相似度计算模块,用于利用如下公式计算两个网页的内部翻译相似度值:
Sint=β·Scb+(1-β)·Sstruct
其中,Sint为两个网页的内部翻译相似度值,β为加权系数,且0≤β≤1。
10.根据权利要求7所述的系统,其特征在于,所述外部翻译相似度计算模块包括:
获取模块,用于根据所述网络获取内部翻译相似度较高的两个不同语言的网页e和c各自相邻网页的集合neighbor(e)和neighbor(c);
判断模块,用于判断出所述集合neighbor(e)和neighbor(c)中最相似的两个网页;
累加模块,用于将所述最相似的两个网页的优化翻译相似度累加到用于记录网页翻译相似度的和的临时变量sum中,同时将两个网页分别从neighbor(e)和neighbor(c)中删除,其中,sum初始值设为0;
外部相似度计算模块,用于当网页集合neighbor(e)和neighbor(c)至少有一个为空时,则根据如下公式计算两个网页的外部翻译相似度值:
Sext(e,c)=2·sum/(|neighbor(e)|+|neighbor(c)|)
其中,Sext(e,c)表示网页e和c的外部翻译相似度,|neighbor(e)|表示网页e的相邻网页的个数,|neighbor(c)|表示网页c的相邻网页的个数。
CN201310737955.0A 2013-12-27 2013-12-27 一种基于链接的双语平行网页识别方法及系统 Active CN103646117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310737955.0A CN103646117B (zh) 2013-12-27 2013-12-27 一种基于链接的双语平行网页识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310737955.0A CN103646117B (zh) 2013-12-27 2013-12-27 一种基于链接的双语平行网页识别方法及系统

Publications (2)

Publication Number Publication Date
CN103646117A true CN103646117A (zh) 2014-03-19
CN103646117B CN103646117B (zh) 2016-09-28

Family

ID=50251330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310737955.0A Active CN103646117B (zh) 2013-12-27 2013-12-27 一种基于链接的双语平行网页识别方法及系统

Country Status (1)

Country Link
CN (1) CN103646117B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021116A (zh) * 2014-06-19 2014-09-03 苏州大学 一种外延事件关系识别方法及系统
CN105138517A (zh) * 2015-10-23 2015-12-09 青岛恒波仪器有限公司 一种平行网页识别方法及装置
CN105426388A (zh) * 2015-10-23 2016-03-23 青岛恒波仪器有限公司 一种网页正文提取比对装置
CN110798467A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 目标对象识别方法、装置、计算机设备及存储介质
CN112395856A (zh) * 2019-07-31 2021-02-23 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算机系统及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840402A (zh) * 2009-03-18 2010-09-22 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
US20110178792A1 (en) * 2009-09-25 2011-07-21 Lei Shi Acquisition Of Out-Of-Vocabulary Translations By Dynamically Learning Extraction Rules
CN102930031A (zh) * 2012-11-08 2013-02-13 哈尔滨工业大学 由网页中提取双语平行正文的方法和系统
CN103020043A (zh) * 2012-11-16 2013-04-03 哈尔滨工业大学 一种面向web双语平行语料资源的分布式采集系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043808B (zh) * 2009-10-14 2014-06-18 腾讯科技(深圳)有限公司 利用网页结构抽取双语词条的方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840402A (zh) * 2009-03-18 2010-09-22 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
US20110178792A1 (en) * 2009-09-25 2011-07-21 Lei Shi Acquisition Of Out-Of-Vocabulary Translations By Dynamically Learning Extraction Rules
CN102930031A (zh) * 2012-11-08 2013-02-13 哈尔滨工业大学 由网页中提取双语平行正文的方法和系统
CN103020043A (zh) * 2012-11-16 2013-04-03 哈尔滨工业大学 一种面向web双语平行语料资源的分布式采集系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MARCELA MACEDO VIEIRA,VIVIANE PEREIRA MOREIRA: "identifying parallel web pages", 《JOURNAL OF INFORMATION AND DATA MANAGEMENT》, vol. 3, no. 3, 31 October 2012 (2012-10-31), pages 287 - 299 *
刘奇 等: "URL模式与HTML结构相结合的平行网页获取方法", 《中文信息学报》 *
陈伟 等: "双语平行网页挖掘系统的设计与实现", 《计算机工程》, vol. 35, no. 14, 31 July 2009 (2009-07-31), pages 267 - 268 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021116A (zh) * 2014-06-19 2014-09-03 苏州大学 一种外延事件关系识别方法及系统
CN105138517A (zh) * 2015-10-23 2015-12-09 青岛恒波仪器有限公司 一种平行网页识别方法及装置
CN105426388A (zh) * 2015-10-23 2016-03-23 青岛恒波仪器有限公司 一种网页正文提取比对装置
CN112395856A (zh) * 2019-07-31 2021-02-23 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算机系统及可读存储介质
CN110798467A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 目标对象识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN103646117B (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
KR102237702B1 (ko) 엔티티 관계 데이터 생성 방법, 장치, 기기 및 저장 매체
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN104598577B (zh) 一种网页正文的提取方法
KR101522049B1 (ko) 모호성 민감 자연 언어 처리 시스템에서의 동일 지시어 분석
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN106980664B (zh) 一种双语可比较语料挖掘方法及装置
CN103646117A (zh) 一种基于链接的双语平行网页识别方法及系统
KR101828995B1 (ko) 키워드 클러스터링 방법 및 장치
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN107102993B (zh) 一种用户诉求分析方法和装置
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
Zhang et al. Learning Chinese word embeddings from stroke, structure and pinyin of characters
CN103902619A (zh) 一种网络舆情监控方法及系统
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN109165373B (zh) 一种数据处理方法及装置
CN105740370B (zh) 一种在线Web新闻内容抽取系统
CN112650910A (zh) 确定网站更新信息的方法、装置、设备和存储介质
CN111459977B (zh) 自然语言查询的转换
CN108319586B (zh) 一种信息提取规则的生成和语义解析方法及装置
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN109857746B (zh) 双语词库的自动更新方法、装置与电子设备
CN105574004A (zh) 一种网页去重方法和设备
CN106326314B (zh) 网页信息抽取方法及装置
Zhang et al. Chinese OOV translation and post-translation query expansion in chinese--english cross-lingual information retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Suzhou City, Jiangsu province 215123 Xiangcheng District Ji Road No. 8

Patentee after: Soochow University

Address before: 215123 Suzhou Industrial Park, Jiangsu Road, No. 199

Patentee before: Soochow University

CP02 Change in the address of a patent holder