CN101840402B - 从多语言网站构建多语言的对象层次结构的方法和系统 - Google Patents

从多语言网站构建多语言的对象层次结构的方法和系统 Download PDF

Info

Publication number
CN101840402B
CN101840402B CN200910119016.3A CN200910119016A CN101840402B CN 101840402 B CN101840402 B CN 101840402B CN 200910119016 A CN200910119016 A CN 200910119016A CN 101840402 B CN101840402 B CN 101840402B
Authority
CN
China
Prior art keywords
parallel relation
language
webpage
addendum
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910119016.3A
Other languages
English (en)
Other versions
CN101840402A (zh
Inventor
赵彧
李建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Renesas Electronics China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN200910119016.3A priority Critical patent/CN101840402B/zh
Priority to JP2009281197A priority patent/JP4986085B2/ja
Publication of CN101840402A publication Critical patent/CN101840402A/zh
Application granted granted Critical
Publication of CN101840402B publication Critical patent/CN101840402B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了从多语言网站构建多语言的对象层次结构的方法和系统。本发明的方法包括:输入一多语言网站中的所有网页;按不同语言将网站拆分成多个子网站,每个子网站中的网页具有相同语言;抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;确定不同子网站中的不同语言网页之间的平行关系;以及根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于该多语言网站的多语言对象层次结构。相对于现有技术,本发明可以大大提高多语言层次结构抽取效率、结果准确性以及可扩展性。

Description

从多语言网站构建多语言的对象层次结构的方法和系统
技术领域
本发明一般地涉及信息抽取,更具体而言,涉及Web挖掘以及从多语言网站构建多语言的对象层次结构的方法和系统。
背景技术
当前,计算机已经成为现代生活必不可少的工具,它可以帮助用户找到感兴趣的信息,这在当今大量信息在Web上不断积累的因特网时代尤其明显。虽然计算机在进行诸如计算、存储或搜索之类的信息处理时速度很快,但其无法理解信息,这成为智能信息处理的主要障碍。为了解决这个问题,最近用于智能信息处理的语义相关研究变得非常流行。例如,在T.Berners-Lee等题为“The Semantic Web”(Scientific American,2001年5月,第28-37页)、Nigel Shabolt等题为“The Semantic Web Revisited”(IEEE Intelligent Systems 21(3),第96-101页,2006年5月、6月)以及E.Hyvonen(编者)的题为“Semantic Web Kick-Off in Finland-Vision,Technologies,Research,and Applications”(HIIT Publications,2002-001,Helsinki Institute for Information Technology(HIIT),Helsinki,Finland,第304页)的论文中都描述了的相关技术。它们的主要用途是帮助计算机理解信息的内容和含义。基于某些算术逻辑,例如描述逻辑和框架逻辑,根据人工智能(AI)传统规律的知识表示以及现在流行的Web信息处理技术,诸如万维网联盟(W3C)之类的标准制订组织正在积极制订XML(可扩展标记语言)、RDF(资源描述框架)和OWL(Web本体语言)等标准并且正在推广语义技术采用的规则语言,例如Web规则语言和规则标记语言。而且,很多研发商、企业和相关从业者也已经开始建立和采用相关工具集、产品,甚至实际应用来使得基于语义的智能信息利用成为可能。但是,为了使用计算机的强大计算能力和语义相关标准向Web用户提供不同的智能信息利用服务,领域知识在其中扮演非常关键的角色。因此,领域知识的建立成为一个急需解决的重要问题。同时,由于Web的普及,全世界被联系的更加紧密,怎样在使用各种不同语言的人们之间建立无缝的、顺畅的交流通道,因此建立的领域知识同样也需要包含各种语言的版本,并且在这些多语言版本之间建立有准确的对应关系。而如何建立存在对应关系的多语言的领域知识,则又是领域知识建立问题中的一个难题。
本体(Ontology)是一种用于形式化表示领域知识的文档。本体中定义了一个领域中的概念/对象以及概念/对象之间的关系。本体中定义的概念/对象之间的关系包含各种各样的关系,比如“属于”,“位于”等等。而在实际应用中最普遍的概念关系是“属于”或者“是....的子概念”这类包含关系,比如概念“个人计算机”是概念“计算机”的一个子概念。只定义有这种包含关系的轻量级本体称为层次结构(Hierarchy),层次结构在实际应用中常常体现为分类体系或者目录结构等等。
在已有的论文及专利中,有一些涉及到层次结构的抽取方法,但是绝大多数都只是从单语言的数据源中抽取单语言的层次结构。而对于多语言的层次结构抽取问题,已有工作不是很多。所谓多语言的层次结构指层次结构中的概念/对象拥有多语言的描述或者定义。下面介绍几篇现有的多语言层次结构相关的论文及专利。
H.-C.Yang、D.-W.Chen、C.-H.Lee在论文“A multilingual hierarchymapping method based on GHSOM”(发表于ICICIC’08会议论文集)(下称“参考文献1”)中介绍了一种建立多语言层次结构的方法:收集一组多语言的平行文档(parallel documents,即同一个文档有不同的语言版本),并且手工将这些文档的平行关系(即哪些文档实际上是同一个文档的不同语言版本)标记出来。然后对这个文档集的每一个单语言子集进行层次结构抽取,抽取出来的即为多个单语言的层次结构。最后根据之前标注的文档的平行关系,为这些单语言的层次结构之间建立对应关系。
J.Daude、L.Padro、G.Rigau在论文“Mapping MultilingualHierarchies Using Relaxation Labeling”(发表于EMNLP/VLC’99会议论文集)(下称“参考文献2”)中介绍了一种对已抽取出来的单语言层次结构之间建立对应关系的方法。他们利用的是一个外部的多语言词典,基于语言分析技术来判断不同语言的概念/对象名称之间的对应关系,从而建立层次结构之间的对应关系。
题为“Multilingual terminology extraction system”的欧洲专利EP0887748B1(下称“参考文献3”)介绍了一种从多语言文档中抽取相对应的多语言概念术语的方法。该方法需要将术语的某个语言的表示作为输入,然后将文档表示成一个词语组成的网络,通过分析多语言文档对应的词语网络之间的相似性关系,来得到术语的另外一种语言的表示。
P.Resnik、N.A.的论文“The Web as a parallel corpus”(发表于Computational Linguistic的2003年第3期)(下称“参考文献4”)没有涉及到层次结构或者知识的抽取,但他们介绍了一种自动建立多语言文档之间的平行关系的方法。他们使用Web上的网页作为文档集合,利用不同网页的Html结构之间的相似性,来识别出不同语言网页之间的平行关系。
在上面提及的相关解决方案中,参考文献1的方法需要人工建立文档之间的平行关系,这种方法效率很低,需要花费大量时间和人力,且扩展性很差,对于大规模多语言层次结构的建立不具有适用性。参考文献2的方法将层次结构的抽取与多语言之间的对应区分为两个完全独立的过程,在进行多语言对应时缺少抽取时的上下文环境,仅仅借助外部的多语言词典,难以得到较高的准确率。参考文献3的方法适用的前提条件是用于抽取概念术语的多语言的文档必须已经确定为是同一文档的多语言版本,并且需要给定至少一个用某种语言表示的术语作为驱动,因此该方法无法适用于当多语言文档还未确定是否存在平行关系的场合,以及无法用于抽取新概念术语,另外,这种方法没有提及到概念之间关系的抽取,无法用于建立层次结构。参考文献4的方法虽然可以被借鉴来确定用于抽取层次结构的多语言文档之间是否具有平行关系,但该方法只能判断文档之间的对应关系,不能确定文档内部元素之间的对应关系,于是不能直接应用于多语言层次结构的抽取与对应,因为层次结构中的概念对象很可能是与文档的某一部分相对应,而不是与整篇文档相对应。
综上,现有方法对于多语言层次结构抽取仍然存在不足,集中体现在他们不能实现抽取过程以及多语言对应的完全自动化,不具有足够的运行效率以及柔性和可扩展性,尤其当面对新的知识领域或者新的语言时,他们大多不能快速响应,而需要做大量的准备工作,比如进行文档标注或者建立词典等。
发明内容
本发明旨在解决上述多语言层次结构抽取方法中存在的诸多问题。在本发明中,提出了一种从多语言网站中全自动地抽取多语言的层次结构的方法及其系统。该方法从网站中的各个单语言子网站分别抽出单语言的层次结构,并自动识别出网站中各个单语言子网站之间内在的平行对应关系,然后利用它们直接导出各个单语言层次结构之间的对应关系,从而生成一个多语言的层次结构。
根据本发明第一方面,提供了一种从多语言网站中抽取多语言的对象层次结构的方法,包括:输入一多语言网站中的网页;按不同语言将所述网站拆分成多个子网站,每个子网站中的网页具有相同语言;抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;确定不同子网站中的不同语言网页之间的平行关系;以及根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于所述多语言网站的多语言对象层次结构。
根据本发明第二方面,提供了一种从多语言网站中抽取多语言的对象层次结构的系统,包括:输入装置,用于输入一多语言网站中的网页;单语言子网站拆分装置,用于按不同语言将所述网站拆分成多个子网站,每个子网站中的网页具有相同语言;单语言对象层次结构抽取装置,用于抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;平行关系确定装置,用于确定不同子网站中的不同语言网页之间的平行关系;以及多语言对象层次结构生成装置,用于根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于所述多语言网站的多语言对象层次结构。
本专利所提出的多语言层次结构抽取方法是一种全自动化的方法,不需要人工标注文档,并且运行参数与领域以及语言无关。相对于已有方法,本发明大大提高了抽取效率以及可扩展性。另外,由于本发明的系统和方法利用了多语言网站内在的多语言平行对应关系,因此使得结果的准确性能够得到保证。
从下面结合附图的详细描述中,可以看出本发明的其他特征和优点。注意,本发明的范围并不限于图中所示的示例或者任何具体的实施例。
附图说明
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似的参考标注指示类似的部分,其中:
图1是示出根据本发明的多语言对象层次结构抽取系统100的结构框图;
图2是用于说明图1所示系统100的工作过程的流程图;
图3是具体示出图1所示系统100中的平行关系确定装置和平行关系补遗装置的内部结构示例的框图;以及
图4是用于举例说明根据本发明的多语言对象层次结构生成过程的示意图。
具体实施方式
图1是示出根据本发明的多语言对象层次结构抽取系统100的结构框图。在图1中,系统100被示为包括多语言对象层次结构抽取部件和存储部件。多语言对象层次结构抽取部件作为处理部件,被用于实现本发明所提出的多语言对象层次结构的抽取过程。该部件从多语言网站抽取出对象层次结构,该对象层次结构中的对象名称以及对象相关文档(网页)可以具有多语言版本。如图所示,多语言对象层次结构抽取部件例如可以包括输入装置101、网页块集合生成装置102(可选)、单语言子网站拆分装置103、单语言对象层次结构抽取装置104、平行关系确定装置105、平行关系补遗装置106(可选)以及多语言对象层次结构生成装置107。存储部件与处理部分配合使用,以用于存储各种处理结果。如图所示,存储部件可以包括多语言网站网页存储器108、单语言子网站存储器109、单语言对象层次结构存储器110、多语言子网站平行关系存储器111和多语言对象层次结构存储器112。
图2是用于说明图1所示系统100的工作过程的流程图。下面将结合图1和图2来具体说明本发明的原理以及工作过程。
如图2所示,该过程200开始于步骤201,在该步骤中,输入装置101从多语言网站网页存储器108输入一多语言网站中的所有网页。多语言网站网页存储器108中存储有从因特网抓取的一个或多个多语言网站的所有网页,并记录网页ID、网页内容、网页链接等内容。在步骤202中,网页块集合生成装置102可以对所输入的每个网页进行预处理,以为每个网页生成一网页块集合。网页块具有空间尺寸和位置信息,并形成了网页块之间的空间布局关系,包括嵌套、相邻等关系。优选地,网页内部网页块之间的平行关系也可以在抽取多语言对象层次结构的过程中被用作参考,以进一步提高结果的准确性。
接下来,在步骤203中,单语言子网站拆分装置103可以按不同语言将输入的多语言网站中的网页拆分成多个单语言子网站,即为网站中的所有网页加上语言标签,从而将不同语言的网页区分开来。各个单语言子网站随后可以被存储在单语言子网站存储器109中。如图1所示,在单语言子网站存储器109中,除了存储如多语言网站网页存储器108中的网页ID、网页内容、网页链接等内容之外,还包括为不同语言网页加注的语言ID。然后,在步骤204中,单语言对象层次结构抽取装置104抽取各个子网站的单语言对象层次结构,并记录对象与相应网页(或网页块)之间对应关系。单语言对象层次结构抽取装置104的处理结果可以被存储在单语言对象层次结构存储器110中。在步骤205中,平行关系确定装置105确定不同语言子网站之间的平行关系,这种平行关系可以包括网页之间和/或网页块之间的平行关系。关于不同语言子网站之间的平行关系的确定方法可以有很多种,例如基于Web目录结构、基于网页DOM结构信息、基于网页块集合结构拓扑等等。关于平行关系的确定方法,将在下文中具体描述。
在平行关系确定装置105确定出不同语言子网站之间的平行关系之后,在步骤206中,可选地,平行关系补遗装置106可以进一步通过分析网页间的链接关系或已提取出的单语言层次结构对已确定的平行关系进行补遗。关于平行关系补遗的具体方法,也将在下文中具体描述。由平行关系确定装置105和平行关系补遗装置106所确定的不同语言网页和/或网页块之间的平行关系可以被存储在多语言子网站平行关系存储器111中。
在步骤207中,多语言对象层次结构生成装置107根据存储在单语言对象层次结构存储器110中的各个单语言层次结构、对象与相应网页(网页块)之间的对应关系以及存储在多语言子网站平行关系存储器111中的不同语言网页和/或网页块之间的平行关系来生成多语言对象层次结构,该多语言对象层次结构上的每个对象可以包含不同的语言版本。生成的多语言对象层次结构被存储到多语言对象层次结构存储器112中。然后,过程200结束。
下面将参考图3来描述平行关系确定和补遗过程的示例。这里作为实施例给出的各种平行关系确定方法以及补遗方法仅仅作为示例提供,而不应被视为对本发明的范围的限制。
首先关注平行关系确定装置105的内部结构。在图3中,作为示例,平行关系确定装置105被示为包括目录结构分析单元301、DOM结构分析单元302、网页块集合分析单元303以及第一协调单元304。目录结构分析单元301、DOM结构分析单元302和网页块集合分析单元303被分别用于实现通过网站Web目录结构分析、网页DOM结构分析以及网页块集合结构分析来确定不同语言网页(网页块)之间平行关系的过程。值得注意的是,无论网站Web目录结构分析、网页DOM结构分析或者网页块集合结构分析都可被单独用来确定平行关系,而不一定如图3所示出的那样结合使用。图3所示出的三种分析方法结合使用的示例仅仅是出于提高结果准确性方面的考量,而不应被看作对本发明的范围的限制。第一协调单元304用于协调目录结构分析单元301、DOM结构分析单元302和网页块集合分析单元303各自确定的平行关系结果,以解决三者结果之间产生的冲突。例如,第一协调单元304可以为每个分析单元分配一个权重值,并根据权重值来决定结果的取舍。权重值的确定可以采用基于训练样本的机器学习方法来获取。
目录结构分析单元301是通过网站Web目录结构分析来确定平行关系的部件。例如,目录结构分析可以通过网页的URL来推断网站作者对于多语言网页之间平行关系的考虑。其中URL的模式对于多语言平行关系的判定具有很高的信息量。比如在Symantec网站中,http://www.symantec.com/norton与http://www.symantec.com/zh/cn/norton以及http://www.symantec.com/ja/jp/norton就是一组平行的网页,分别是同一内容的英文、中文以及日文版本,可以观察到Symantec网站用来标识平行关系的URL模式为http://www.symantec.com/(语言)/(地区)/(内容)。URL模式可以通过对一个单语言子网站中所有网页的URL进行相似性分析,来获取每个单语言网站中URL的模板,然后通过比较各个单语言子网站的URL模板来发现用来标识平行关系的URL模式。
除了Web目录结构之外,网页内部结构分析也可被用于确定网页或网页块的平行关系。例如,DOM结构分析单元302和网页块集合分析单元303可以分别通过分析网页的DOM结构相似性以及网页内网页块集合的相似性来确定具有平行关系的网页或网页块。首先,DOM结构分析单元302可以通过分析网页的DOM结构相似性来确定有平行关系的网页。DOM结构相似性的指标可以包括HTML结点标签序列的相似性和结点样式的相似性。另外,如前所述,网页块集合生成装置102可以为每一个网页生成一个网页块的集合,网页块具有空间尺寸和位置信息,并形成了网页块之间的空间布局关系,包括嵌套、相邻等关系。网页块集合分析单元303可以通过分析两个网页间的网页块集合的相似性,来确定这两个网页是否具有平行关系。网页块集合的相似性的指标包括网页块拓扑结构(仅考虑抽象的空间关系)的相似性和网页块空间尺寸和位置信息的相似性。利用网页块集合相似性除了可以获取网页之间的平行关系,还可以将网页块之间的平行关系同时确立下来。
继续参考图3,分别由目录结构分析单元301、DOM结构分析单元302和网页块集合分析单元303所确定的第一、第二和第三平行关系结果可以被提供到第一协调单元304以进行平行关系结果的协调。例如,如前所述,第一协调单元304可以根据预先确定的针对不同分析方法的权重值来对各个平行关系结果进行取舍。协调后的平行关系结果可以作为最终结果被直接提供到多语言对象层次结构生成装置107以用于多语言对象层次结构的生成,或者也可以作为中间结果被提供到平行关系补遗装置106以对已经确定的平行关系进行补遗。所谓补遗是指通过链接结构分析或子网站单语言层次结构分析等手段对已确定的平行关系进行补充,以避免遗漏掉可能的具有平行关系的网页。
在图3中,作为示例,平行关系补遗装置106可以包括链接结构补遗单元305、单语言层次结构补遗单元306和第二协调单元307。类似于平行关系确定装置105,图3中给出的配置也仅仅是作为示例提供,而不应被视为对本发明的范围的限制。同样地,链接结构补遗单元305和单语言层次结构补遗单元306可以单独适用,也可以结合适用。第二协调单元307可以根据预先确定的针对不同补遗方法的权重在多个补遗结果中进行协调,以确定最终经补遗后的平行关系。显而易见,在平行关系补遗阶段所适用的权重与在平行关系确定阶段所适用的权重之间相互独立。
链接结构补遗单元305可以通过分析网页之间的链接关系来获取单语言子网站内的网页之间的结构信息,然后通过比较不同单语言子网站的网页间结构之间的相似性,来判定网页之间的平行性。例如,可以选用导航路径(Navigation Path)来代表网页之间的结构信息,在各个单语言子网站完成导航路径的生成后,通过比较不同单语言子网站的导航路径的相似性来判断具有平行关系的网页。例如,平行性判定规则可以确定为:对于子网站1中网页p,如果在与p相关的所有导航路径中,沿路径指向p的网页为p1,...,pm,由p沿路径指向的网页为c1,...,cn;对于子网站2中网页p′,如果在与p′相关的所有导航路径中,沿路径指向p′的网页为p1′,...,pk′,由p沿路径指向的网页为c1′,...,cr′;如果m==k,且(pi,pi′),i=1,...,m均为平行网页,且对于{ci},i=1,...,n和{cj′},j=1,...,r两个集合之间的平行网页对总数q如果大于某个设定的阈值t(t与n和r的最小值相关),那么(p,p′)也被判定为一对平行网页。
另外,单语言层次结构补遗单元306还可以利用单语言对象层次结构抽取装置104已经从各个单语言子网站抽取出来的单语言层次结构来判定网页或者网页块之间的平行关系。例如,假设对于语言1的网页或网页块p对应层次结构中的对象o,o的父亲对象对应的网页或网页块为p1,...,pm,它的儿子对象对应的网页或网页块为c1,...,cn;对于语言2的网页或网页块p′对应层次结构中的对象o′,o′的父亲对象为p1′,...,pk′,它的儿子对象为c1′,...,cr′;如果p与p′同为网页或者同为网页块,以及m==k,且(pi,pi′),i=1,...,m均为平行关系对,且对于{ci},i=1,...,n和{cj′},j=1,...,r两个集合之间的平行关系对总数q如果大于某个设定的阈值t(t与n和r的最小值相关),那么可以将(p,p′)也视为一对平行关系对。
当单语言子网站之间的平行关系已经确立之后,多语言对象层次结构生成装置107就可以直接通过参考存储在单语言对象层次结构存储器110中的单语言层次结构中对象与网页或网页块的对应关系,来得到单语言层次结构之间的平行关系,从而最终得到一个多语言的对象层次结构。图4展示了这个过程的一个示例。如图4所示,通过参考中、英文子网站之间的平行关系、它们各自对应的单语言层次结构、以及对象与相应网页(网页块)A和B之间的对应关系,可以得到具有多语言(例如中文+英文)版本的对象层次结构。
以上参考附图详细描述了根据本发明的多语言层次结构抽取方法和系统的具体实施例。利用本发明所提供的方法,不需要对文档进行人工标注,并且运行参数与领域以及语言无关。因此,相对于已有方法,本发明可以大大提高抽取效率以及可扩展性。另外,由于本发明的系统和方法利用了多语言网站内在的多语言平行对应关系,因此使得结果的准确性也能够得到保证。
虽然上面虽然已经描述了根据本发明的具体实施例,但是,本发明并不限于图中示出的特定配置和处理。另外,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims (11)

1.一种从多语言网站中抽取多语言的对象层次结构的方法,包括:
输入一多语言网站中的网页;
按不同语言将所述网站拆分成多个子网站,每个子网站中的网页具有相同语言;
抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;
确定不同子网站中的不同语言网页之间的平行关系;以及
为每个网页生成一网页块集合;根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于所述多语言网站的多语言对象层次结构;
其中所述确定不同语言网页之间的平行关系的步骤包括:
根据所述网站的Web目录结构来确定第一平行关系结果;
根据不同语言网页的DOM结构的相似性来确定第二平行关系结果;
根据不同语言网页的网页块集合的相似性来确定第三平行关系结果;以及
根据预先确定的对应于不同分析方法的权重值在所述第一、第二和第三平行关系结果之间进行协调,以综合确定不同语言网页之间的平行关系。
2.如权利要求1所述的方法,还包括:
记录对象与相应网页块之间的对应关系;以及
确定不同语言网页中的网页块之间的平行关系,
其中,所述网页块之间的平行关系以及所述对象与相应网页块之间的对应关系在生成所述多语言对象层次结构的过程中也被用作参考。
3.如权利要求1所述的方法,还包括:
通过分析网页之间的链接结构,对已确定的不同语言网页之间的平行关系进行补遗。
4.如权利要求1所述的方法,还包括:
通过分析抽取出的所述对应于每个子网站的单语言对象层次结构,对已确定的不同语言网页之间的平行关系进行补遗。
5.如权利要求1所述的方法,还包括:
通过分析网页之间的链接结构,对已确定的不同语言网页之间的平行关系进行补遗,以得到第一补遗后平行关系结果;
通过分析抽取出的所述对应于每个子网站的单语言对象层次结构,对已确定的不同语言网页之间的平行关系进行补遗,以得到第二补遗后平行关系结果;
根据预先确定的对应于不同补遗方法的权重值在所述第一和第二补遗后平行关系结果之间进行协调,以最终确定不同语言网页之间的平行关系。
6.一种从多语言网站中抽取多语言的对象层次结构的系统,包括:
输入装置,用于输入一多语言网站中的网页;
单语言子网站拆分装置,用于按不同语言将所述网站拆分成多个子网站,每个子网站中的网页具有相同语言;
单语言对象层次结构抽取装置,用于抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;
平行关系确定装置,用于确定不同子网站中的不同语言网页之间的平行关系;以及
网页块集合生成装置,用于为每个网页生成一网页块集合;
多语言对象层次结构生成装置,用于根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于所述多语言网站的多语言对象层次结构;
其中所述网页平行关系确定装置包含:
目录结构分析单元,用于分析所述网站的Web目录结构来确定第一平行关系结果;
DOM结构分析单元,用于比较不同语言网页的DOM结构的相似性来确定第二平行关系结果;
网页块集合分析单元,用于比较不同语言网页的网页块集合的相似性来确定第三平行关系结果;以及
第一协调单元,用于根据预先确定的分别对应于所述目录结构分析单元、所述DOM结构分析单元和所述网页块集合分析单元的权重值在所述第一、第二和第三平行关系结果之间进行协调,以综合确定不同语言网页之间的平行关系。
7.如权利要求6所述的系统,其中所述单语言对象层次结构抽取装置还记录对象与相应网页块之间的对应关系,所述平行关系确定装置还确定不同语言网页中的网页块之间的平行关系,并且所述网页块之间的平行关系以及所述对象与相应网页块之间的对应关系也被提供到所述多语言对象层次结构生成装置,以在生成所述多语言对象层次结构的过程中被用作参考。
8.如权利要求6所述的系统,还包括:
平行关系补遗装置,用于对已确定的不同语言网页之间的平行关系进行补遗。
9.如权利要求8所述的系统,其中所述平行关系补遗装置包括:
链接结构补遗单元,用于通过分析网页之间的链接结构对已确定的不同语言网页之间的平行关系进行补遗。
10.如权利要求8所述的系统,其中所述平行关系补遗装置包括:
单语言层次结构补遗单元,用于通过分析抽取出的对应于每个子网站的单语言对象层次结构对已确定的不同语言网页之间的平行关系进行补遗。
11.如权利要求8所述的系统,其中所述平行关系补遗装置包括:
链接结构补遗单元,用于通过分析网页之间的链接结构对已确定的不同语言网页之间的平行关系进行补遗,以得到第一补遗后平行关系结果;
单语言层次结构补遗单元,用于通过分析抽取出的对应于每个子网站的单语言对象层次结构对已确定的不同语言网页之间的平行关系进行补遗,以得到第二补遗后平行关系结果;以及
第二协调单元,用于根据预先确定的分别对应于所述链接结构补遗单元和所述单语言层次结构补遗单元的权重值在所述第一和第二补遗后平行关系结果之间进行协调,以最终确定不同语言网页之间的平行关系。
CN200910119016.3A 2009-03-18 2009-03-18 从多语言网站构建多语言的对象层次结构的方法和系统 Expired - Fee Related CN101840402B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200910119016.3A CN101840402B (zh) 2009-03-18 2009-03-18 从多语言网站构建多语言的对象层次结构的方法和系统
JP2009281197A JP4986085B2 (ja) 2009-03-18 2009-12-11 多言語ウェブ・サイトからの多言語オブジェクト階層抽出方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910119016.3A CN101840402B (zh) 2009-03-18 2009-03-18 从多语言网站构建多语言的对象层次结构的方法和系统

Publications (2)

Publication Number Publication Date
CN101840402A CN101840402A (zh) 2010-09-22
CN101840402B true CN101840402B (zh) 2014-05-07

Family

ID=42743778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910119016.3A Expired - Fee Related CN101840402B (zh) 2009-03-18 2009-03-18 从多语言网站构建多语言的对象层次结构的方法和系统

Country Status (2)

Country Link
JP (1) JP4986085B2 (zh)
CN (1) CN101840402B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646117B (zh) * 2013-12-27 2016-09-28 苏州大学 一种基于链接的双语平行网页识别方法及系统
CN104281711B (zh) * 2014-10-27 2018-04-27 浪潮(北京)电子信息产业有限公司 Web应用多语言处理方法和装置
CN106156128B (zh) * 2015-04-08 2020-02-21 阿里巴巴集团控股有限公司 一种实现网站多语言及多域名服务的方法及其装置
CN110852066B (zh) * 2018-07-25 2021-06-01 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1799050A (zh) * 2003-05-01 2006-07-05 微软公司 概念网络
JP2007087241A (ja) * 2005-09-26 2007-04-05 Kazumasa Unno 多言語複層サイト作成システムおよび多言語複層サイト作成プログラム
US7240282B2 (en) * 2004-01-16 2007-07-03 National Institute Of Information And Communications Technology Related web contents synchronization and presentation system and method
CN101290624A (zh) * 2008-06-11 2008-10-22 华东师范大学 一种新闻网页元数据自动抽取方法
CN101341486A (zh) * 2005-12-22 2009-01-07 国际商业机器公司 用于从非结构化数据自动生成多语言电子内容的方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4066600B2 (ja) * 2000-12-20 2008-03-26 富士ゼロックス株式会社 多言語文書検索システム
JP4451624B2 (ja) * 2003-08-19 2010-04-14 富士通株式会社 情報体系対応付け装置および対応付け方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1799050A (zh) * 2003-05-01 2006-07-05 微软公司 概念网络
US7240282B2 (en) * 2004-01-16 2007-07-03 National Institute Of Information And Communications Technology Related web contents synchronization and presentation system and method
JP2007087241A (ja) * 2005-09-26 2007-04-05 Kazumasa Unno 多言語複層サイト作成システムおよび多言語複層サイト作成プログラム
CN101341486A (zh) * 2005-12-22 2009-01-07 国际商业机器公司 用于从非结构化数据自动生成多语言电子内容的方法和系统
CN101290624A (zh) * 2008-06-11 2008-10-22 华东师范大学 一种新闻网页元数据自动抽取方法

Also Published As

Publication number Publication date
JP4986085B2 (ja) 2012-07-25
CN101840402A (zh) 2010-09-22
JP2010231761A (ja) 2010-10-14

Similar Documents

Publication Publication Date Title
US10664660B2 (en) Method and device for extracting entity relation based on deep learning, and server
CN107818085B (zh) 阅读机器人进行阅读理解的答案选择方法及系统
US9110985B2 (en) Generating a conceptual association graph from large-scale loosely-grouped content
CN106570171A (zh) 一种基于语义的科技情报处理方法及系统
CN106372060A (zh) 搜索文本的标注方法和装置
CN103294781A (zh) 一种用于处理页面数据的方法与设备
Uzun et al. An effective and efficient Web content extractor for optimizing the crawling process
Sasidhar et al. A survey on named entity recognition in Indian languages with particular reference to Telugu
CN101840402B (zh) 从多语言网站构建多语言的对象层次结构的方法和系统
CN101266660A (zh) 基于描述逻辑的本体不一致性分析方法
Zhou et al. Adversarial training and ensemble learning for automatic code summarization
CN109783650A (zh) 中文网络百科知识去燥方法、系统及知识库
Lin et al. Automatic sitemaps generation: Exploring website structures using block extraction and hyperlink analysis
CN104636324A (zh) 话题溯源方法和系统
Li et al. Tagdeeprec: tag recommendation for software information sites using attention-based bi-lstm
Nafi et al. Mining software information sites to recommend cross-language analogical libraries
Wang et al. Automated restful API service discovery with various interface features
Hussain et al. A framework for ranking of software design patterns
Kirsch et al. Noise reduction in distant supervision for relation extraction using probabilistic soft logic
Dhiman Knowledge discovery in databases and libraries
Gaffar et al. MOUDIL: A comprehensive framework for disseminating and sharing HCI patterns
Fernandes et al. Lightweight context-based web-service composition model for mobile devices
Zou et al. Extracting business execution processes of api services for mashup creation
Luo et al. Trends in computational science: natural language processing and network analysis of 23 years of ICCS publications
Amrani et al. A chain of text-mining to extract information in archaeology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140507

Termination date: 20170318

CF01 Termination of patent right due to non-payment of annual fee