CN107463617A - 基于路径摘要的链接信息提取方法 - Google Patents

基于路径摘要的链接信息提取方法 Download PDF

Info

Publication number
CN107463617A
CN107463617A CN201710536054.3A CN201710536054A CN107463617A CN 107463617 A CN107463617 A CN 107463617A CN 201710536054 A CN201710536054 A CN 201710536054A CN 107463617 A CN107463617 A CN 107463617A
Authority
CN
China
Prior art keywords
node
extraction
path
page
artificial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710536054.3A
Other languages
English (en)
Inventor
吴双
竹翠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710536054.3A priority Critical patent/CN107463617A/zh
Publication of CN107463617A publication Critical patent/CN107463617A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于路径摘要的链接信息提取方法属于计算机领域,采用了人工提取与机器提取相结合。人工提取部分提供了可视化人工提取器,将复杂的提取流程抽象成了一次鼠标点击的操作,具有极低的学习成本和极高的操作效率。而机器提取部分则在该方法框架下,通过对路径摘要节点进行向量化表示,实现了信息提取问题到机器学习二分类问题的转化,使得系统能够完成自动的规则抽取。设计并使用一组特征对路径摘要树节点进行了向量化表示,并利用随机森林模型作为分类器,实现了自动化的链接信息提取。该系统具有极低的学习成本、高效的人工提取效率以及良好的机器提取效果,在准确度与自动化程度之间达到了良好的平衡,能够显著提高链接信息提取这一环节的生产力。

Description

基于路径摘要的链接信息提取方法
技术领域
本发明属于计算机软件领域,涉及一种基于路径摘要的链接信息提取方法。
背景技术
Web信息提取系统是一类以从Web源文件中提取数据为目的的软件应用。Web信息提取系统通常与Web源文件进行交互,提取存储在文件中的数据,例如:若源文件是HTML页面,则提取的内容可以是由页面中的元素组成也可以是页面自身的全部文本。最终,数据的提取往往通过后处理来完成,数据被转换成最方便使用的结构化格式,并存储以便进行进一步的使用。
链接信息页面的提取是Web信息提取的一类重要的应用场景。所谓链接信息指的就是(标题,链接)二元组,而链接信息页面则指的是用来集中展示同类链接信息的页面。链接信息页面在互联网上极为常见,但凡需要涉及到大量信息发布的网站,例如新闻网站、网络社区、电影信息网站、垂直信息发布网站等,都会用链接信息页面对信息详情页进行目录索引。人们对于这类网站信息的收集需求一直以来都广泛存在,而链接信息页面的提取技术则是解决这一需求的关键。传统的基于正则表达式的链接提取方法,需要有专业知识的工作人员参与,且提取过程效率低下,成为生产力的瓶颈。
本文将链接信息提取问题,抽象成了同质信息的提取问题。并这对这一类问题给出了一种全新的解决框架,即基于路径摘要的同质信息提取方法。基于这一解决框架,我们能够同时实现人工提取与机器提取,为解决同类问题提供了一种思路。并在链接信息提取这一具体场景下,基于这一框架设计并实现了基于路径摘要的链接信息提取方法。利用该框架,一方面实现了高效的人工提取器,这一提取器将复杂的提取流程抽象成了一次鼠标点击的操作,具有极低的学习成本和极高的操作效率。另一方面实现了全自动的机器提取功能,该功能具有良好的准确率,能够进一步提升信息提取这一环节的生产效率。通过两方面的结合,该系统实现了准确度与自动化程度的平衡。
发明内容
本发明提出的链接提取方法的基本思想是根据结构样式在页面上定位一组信息。本方法基于一种常见页面设计习惯产生的一种页面性质:
性质1:在同一个Web页面上,相同意义的信息具有相同的结构样式,不同意义的信息具有不同的结构样式。
并借助路径摘要这一数据结构:
定义1:路径摘要是一个树形结构,它包含了一个XML文档中所有不同的路径。若pD为文档D的路径摘要,则需要满足以下条件:
(1)令l为路径摘要的节点n的节点名,则这个节点名是文档D中的一个元素的名,或是以该元素的class属性的值作为后缀的元素名。在后面这种情况中,class属性的一个或多个不同的值按照字典序排列,并以点符号分隔。
(2)令np是pD的一个节点,而由pD的根节点到np的路径上的节点名序列为l1,l2,…,ln。则在文档D中至少存在一个元素节点nD,使得从文档D的根节点到nD的路径具有相同的节点名序列l1,l2,…,ln
令nD为文档中的一个元素,而l1,l2,…,ln为D的根节点到nD的路径的节点名序列。则在pD中有且仅有一个节点np,使得从pD的根节点到np的路径具有相同的节点名序列l1,l2,…,ln
该数据结构可以将性质1引申为:
性质2:在同一个Web页面上,相同意义的信息具有相同路径节点名序列,不同意义的信息具有不同的路径节点名序列。
基于性质2,我们提出了一种提取页面上具有相同意义信息(同质信息)的通用框架:
PSTreeBuilder(SourceFile)→PSTree
GetNodeBySequence(PNNameSequence,PSTree)→TargetN
ExtractFromElement(TargetNode)→StructureData
其中PSTree表示路径摘要树,PNNameSequence表示路径节点名序列,PSTreeBuilder表示路径摘要树的构建过程,GetNodeBySequence指根据路径节点名序列获取路径摘要数的节点的过程,ExtractFromElement指的是从目标的节点提取数据的过程。
也就是说包装器实际上是:
Wrapper(x)=ExtractFromElement(GetElement(x))
其中:
GetElement(x)
=GetNodeBySequence(PNNameSequence,PSTreeBuilder(x))
由于PSTreeBuilder,GetNodeBySequence都是固定的流程,而ExtractFromElement在固定的场景下也具有固定的处理手段,因此包装器的生成实际上就等价于PNNameSequence的生成。而PNNameSequence的生成过程分为人工提取和机器提取两种。
人工提取的生成过程如下:
Interface(SourceFile,Operation)→PNNameSequence
其中Interface表示交互界面,Operation为人工的操作。
下面我们介绍机器提取的生成过程。
首先我们生成路径摘要:
PSTreeBuilder(SourceFile)→PSTree
然后基于模型model对于路径摘要的每个结点nodej进行分类,得到目标路径摘要节点:
Classify(model,nodej)→nodetarget
最后根据目标路径摘要节点获取该节点的路径节点名序列:
GetPNNameSequence(nodetarget)→PNNameSequence
基于此框架设计实现了基于路径摘要的链接信息提取方法,该方法包括以下部分:
(1)可视化人工提取器
将页面以原始的状态展现,提取者只需要将光标移动到HTML元素上,与该元素具有相同节点名序列的所有元素都会进入高亮状态。提取者只需要点击元素,就可以把这一组元素对应的路径节点名序列保存起来。这一组路径节点名序列就能够作为生成的规则(rules),作用于相同模板的一系列页面上,产出结构化的数据。
这种提取器将人工制定提取规则的过程抽象成了用光标在页面上进行一次点击的过程,极大的提升了规则提取的效率。
(2)自动化的机器提取模块
该模块从机器学习二分类问题的角度去解决信息提取问题。它首先对HTML页面对应的路径摘要树进行建模,使用tag名称、平均直接字符数、子树平均字符数、平均字符比、路径长度、平均子树高度、平均高度比、平均兄弟节点数8个特征描述摘要树节点,为每个节点生成一个对应的特征向量。并使用预先训练出的随机森林模型对每一个摘要节点进行评分,选取打分最高的节点作为最终提取的目标节点。从而实现了自动提取。
(3)系统的整合优化
该部分包括从人工和自动提取得到的目标路径摘要节点对应的原始HTML元素中提取(标题,链接)二元组的方法,以及利用标签位置校准及关键字过滤方法对提取结果进行优化的功能。并将人工提取器和自动提取方法相结合,产生了更好的提取体验。
有益效果如下:
1.本发明提出了一种通用的同质信息提取框架,可以简化信息提取流程,并可以实现可视化程度极高的人工提取器,并能够在该框架内实现基于统计学习模型的自动化提取方法。
2.本发明针对链接信息提取场景,设计实现了基于路径摘要的信息提取方法。该方法包含可视化人工提取方法和基于随机森林模型的自动化提取方法。人工提取方法将人工制定提取规则的过程抽象成了用光标在页面上进行一次点击的过程,极大的提升了规则提取的效率。自动化提取方法则在实验证实具有良好的准确率的基础上,进一步提升了链接信息提取过程的自动化程度。能够有效提升生成效率
附图说明
图1人工提取器架构:
图2人工提取器数据流;
图3系统整合后的人工提取器页面展示流程;
图4;程序级接口执行流程:
图5同质信息结构样式唯一性页面比例;
图6机器提取准确率实验结果;
具体实施方式
本部分将按照可视化人工提取器、机器自动化提取方法和系统整合优化三部分介绍具体的实施方案。
(1)可视化人工提取器
提取器采用B/S架构,这是因为浏览器在展示HTML页面方面有着天然的便捷。后端提取服务器是用来完成规则的存取。在服务器本地存放需要标注的HTML页面和存储标注结果的本地规则。后端提取服务器将原始的页面注入标注器主页面中,通过浏览器呈献给提取者,提取者标注后将规则也就是路径节点名序列返回给提取服务器,提取服务器将其存放在本地的规则文件中。
标注者在前端输入需要标注的页面的url,该url会被发送到提取器的后端,后端将这个url所对应的HTML文件以及其引用的静态资源下载到本地。之后后端会将包含标注逻辑的脚本注入到这个HTML页面中,并将其嵌入到工作面板页面上,返回前端,此时用户在页面上移动光标,利用可视化信息在前端上选择一组目标元素,并点击。最后前端会将用户选中的这组元素对应的路径节点名序列存入本地规则文件中。
这个人工提取流程包含了脚本实现的标注逻辑、原始页面到可标注页面的处理过程和规则的持久化等三个部分。
为了尽可能保留原始页面的形式,给提取者更直观的标注体验,我们将标注的逻辑在JavaScript脚本中实现,并将其注入原页面。需要注意的是,由于我们需要使用jQuery库,为了不与页面本身引用的jQuery发生版本冲突,我们需要将其绑定到window上的独立的一个变量上。
标注逻辑总共包含三个部分:
(a)页面进行展示时,若该页面若已完成人工提取,则将本地路径节点名序列对应的元素进行黄色高亮展示。
(b)光标在标注页上移动时,与光标所在的元素具有相同路径节点名序列的元素进行闪烁高亮展示。
(c)当点击元素时,将光标所在元素对应的路径节点名序列存储到本地的规则文件中。
(2)机器自动化提取方法
分类的样本是路径摘要树的每个节点,正类是目标路径摘要节点,负类是其余的路径摘要节点。我们需要训练一个机器学习模型,来完成自动分类的过程。
每个路径摘要节点nj(p),都可以表示成一个向量(v1,v2,v3,...,vs),我们称为特征向量。向量中的每个分量vi是这个路径摘要节点的一个特征,它是通过对应的t个HTML元素的一组统计量来求平均值得到。对于每个路径摘要节点,我们设计了8个特征进行描述:tag名称、平均直接字符数、子树平均字符数、平均字符比、路径长度、平均子树高度、平均高度比、平均兄弟节点数。为了将HTML转化成样本集,需要进行摘要树的构建。摘要树的构建主要承担了两个任务,即构建摘要树结构与计算节点特征。由于摘要树的节点特征主要是通过其对应的一组原始文档的HTML元素的统计量求平均得到。因此我们要先对原始文档的每个元素进行统计量计算。这里我们使用树形结构来持有这些统计量,这个树形结构我们称为统计树。
统计树具有与HTML文档完全相同的结构。统计树的节点与文档树的节点一一对应。统计树的作用仅仅是记录文档树每个节点的统计量。在构建统计树的同时,我们需要计算以下6种基本统计量:元素名、当前元素的字符数、子树字符数、路径长度、子树高度、兄弟节点个数。统计树的基本构建方法是对HTML文档树进行树的遍历,分别在pre-order、in-order以及post-order的位置插入6个计算量的运算逻辑,并在计算的同时进行统计树的节点创建以及链接。而对于摘要树的构建,由于摘要树的构建需要从根节点向叶子节点一层一层推进,因此我们使用了广度优先遍历的方法,来实现我们的构建算法。该算法除了广度优先遍历需要用到的队列外,还借助了一个层次索引结构,用于分层存放路节点名序列与对应的路径摘要节点,我们通过这个层次索引,来完成对具有相同路径节点名序列的元素的合并。在构建过程的最后,我们会对生成的摘要树的每个节点的特征值进行聚合计算,简单来说,就是讲每一个路径摘要节点对应的统计树节点的计算量汇总起来,形成摘要节点的特征向量,并存储在摘要节点的stats成员上的过程。
完成了摘要树构建后,则需要将摘要树转化成数据集。数据集的生成分为训练集的生成与样本集的生成。
样本集的生成是指由原始HTML文档生成模型可以进行分类的一组特征向量的过程。我们首先要根据原始HTML文档生成出对应的路径摘要树,之后按照一定顺序(例如,先根遍历)对路径摘要树的节点进行访问,依次将这些节点按进行向量化,并组成样本集。这样每一个HTML文档都会生成一个样本集,这个样本集中有且只有一个正类样本是我们的目标样本。
而训练集的生成则是对人工提取方法标注好的每一个页面进行样本集的生成,并在生成过程中将人工标注得到的目标路径节点名序列与每个样本节点的name属性进行比较,若相同则标记为正类,否则标记为负类。然后将带有类别标注的样本集合并起来,作为模型的训练集。
最后则是模型的选择、训练及预测,为了确保分类器能够正确输出且仅输出一个正类样本,我们需要统计模型具备Ranking的能力。通过模型对每个样本进行打分,我们可以选择分数最高的样本作为正类,从而确保正类样本的存在且唯一。
在本方法的实现中,我们选取了随机森林(Random Forest)[38]模型作为我们的分类模型。该模型具有简单、容易实现、计算开销小等优点。更重要的是它具有非常优秀的性能[39]。我们选择随机森林模型,一方面是该模型具有ranking的能力,另一方面是它即使在预处理程度较低的数据集上也能有良好的分类效果,因而非常适合我们的应用场景。
我们通过上一节中描述的方法生成训练集,对随机森林分类器进行训练。之后我们便可以使用训练好的分类器对未知的样本进行目标节点的预测。当我们通过取ranking后具有最大评分的样本得到目标样本后,我们可以依据该样本的index从路径摘要树种取出其对应的目标节点,并从name属性中获取它的路径节点名序列,从而完成整个机器提取流程。
(3)系统整合优化
在实现了人工提取器和机器提取方法后,需要将他们有机的结合起来,构成完整的链接信息提取方法。首先是实现结构化数据的提取。借助人工或机器学习的方法,拿到了页面的目标节点名序列后,我们所要做的最后一步就是利用这一规则,生成结构化的数据。当获得目标路径摘要节点及其对应HTML元素后,要从中提取出结构化的数据。在密集链接信息提取这一场景下,我们拿到的元素是a标签的元素,而结构化数据指的就是(标题,链接)二元组。因此标题信息就是a标签中的字符,考虑到网页设计时,会用span、font等标签嵌套在a标签内,为文字添加一些样式,因此在取字符时应递归地取出a标签下每个元素内的字符,并按照先后顺序将它们拼接起来。通常第三方库都会提供提取递归字符串的方法,在这里我们就不再赘述。而链接信息则更加简单,它就是a标签的href属性的值,我们只需要将href属性的值取出即可。
此外,在我们的密集链接信息提取场景下,结构化数据提取过程所需处理的元素应当是a标签的元素。
事实上,由于HTML渲染的机制,当a标签内嵌套了其它标签,a标签元素内的直接字符数为0,而内部嵌套的标签承载了所有标题内容时,我们在浏览器上是不能够直接点击到a标签的,只能点击到嵌套的元素,从而导致获得的路径节点名序列不够准确。这一现象我们称为目标偏移。目标偏移不仅会影响到人工提取的准确性,也会影响到以人工提取结果作为训练集的机器提取方法的准确性。一旦提取出的规则发生了偏差,将直接导致无法顺利产生结构化数据。
因此在本节我们将介绍被称作标签a校准的优化方法。通过a标签校准,我们能够修正人工提取以及机器提取所获得的路径节点名序列,确保它最终定位到的使我们所需的元素上。
根据上文分析的目标偏移的原理,人工选取的元素只会向目标元素的子树的叶节点方向发生偏移,从而真正的目标路径节点名序列一定是生成的路径节点名序列的前缀。又因为a标签下这种嵌套结构不会太深,目标路径节点名序列的最后一个节点名一定位于生成的路径节点名序列尾部附近。
因此,我们设计了一个简单的矫正方法:若生成的路径节点名序列最后一个节点名的标签为a,则不进行矫正直接返回。否则,向前搜索节点名,若标签为a则将后面的序列截断,并返回。若向前搜索的距离超过了3,则停止搜索,不进行截断,返回原本的序列。
另外,我们还采用了关键字过滤来优化提取结果,除了目标偏移这一问题,在信息提取系统的实际使用中我们还发现了另一问题。在密集链接信息提取这一场景下,链接往往以列表形式存在,而列表通常具有翻页、导航等链接,在一部分网页的设计上,这种链接被赋予了与具有实际意义的链接数据相同的结构样式,从而对信息抽取的结果造成了污染。又由于我们的提取方法是基于路径摘要的,因而在获取路径节点名序列前无法对元素更细致的划分。因此,我们只能在获取结构化数据后,增加一个后处理的步骤,对这类干扰数据进行过滤。
我们已经分析了,这类链接主要是翻页、导航类链接,对于它们最有效的办法是进行关键字过滤,表5-1为整理出来的需要过滤的关键字:prev,next,pre,nxt,上一页,下一页,前页,后页、更多,more,查看。具体的过滤方法是,若结构化数据二元组(标题,链接)中,标题项的字符串中包含任意一个上述关键字,则视为该条数据为干扰数据,将被过滤掉。
最终的提取方法需要将人工提取与机器提取有机结合,这一结合分为两个方面:使用机器提取结果在人工提取器上进行可视化的提示,以及在程序级接口上进行人工与机器提取方法的自动切换。
实验结果与说明:
先对同质信息结构样式唯一性进行验证。使用实现的人工信息提取器作为验证工具。验证的方法如下:对于每个页面,我们将光标悬停在一个目标信息所的元素上,若页面上出现闪烁高亮效果的元素的信息都与悬停元素内的信息具有相同的意义,且不存在具有相同意义信息的元素没有出现闪烁高亮效果的情况,则认为该页面符合同质信息结构样式唯一性,为了方便起见,我们将符合这一条件的页面记为类别A。否则认为该页面不符合同质信息结构样式唯一性,这类页面我们记为类别B。
在不符合同质信息结构样式唯一性B类页面中,我们又进一步细分为三类:
(1)具有相同意义信息的元素有一部分高亮,一部分未高亮的页面。我们将这类页面记为B1。
(2)具有相同意义信息的元素全部高亮,不具有相同意义信息的元素也高亮了,但这些元素的规模不随着页面上的同义信息规模的增长而增长。我们将这类页面记为B2。
(3)具有相同意义信息的元素全部高亮,不具有相同意义信息的元素也高亮了,且这这些元素的规模随着页面上的同义信息的增长而增长。我们将这类页面记为B3。
在这几类页面中,类别A的页面是完全符合我们提出的同质信息结构样式唯一性这一条件的,对于这种页面我们具有最好的提取效果。而类别B则是不满足这一条件的页面,然而在这些页面中仍然存在一些页面能够使用我们的信息提取系统进行处理。因此我们将B类细分成了三类,其中对于类别B1的页面使用我们的方法处理后,只能得到目标信息的子集,这将影响到我们提取的召回率,影响程度视具体情况而定。B2类页面的产生往往是一些翻页、导航链接与密集链接数据列表使用了相同的样式导致的,这些干扰链接的数量不会随着列表规模的增大而增大,都是固定的数量。在5.3节中,我们介绍了一种基于关键字过滤的后处理策略,将这些干扰项排除在外,这使得B2这类网页也能够被我们的信息提取系统所处理,并且提取效果可以媲美A类页面。而B3类网页的产生,则是目标信息与另一类具有相同数量级规模的异义信息使用了相同结构样式而导致的,对于这类网页我们的提取系统并不适用。
我们在互联网上从新闻、电影、论坛、游戏、垂直信息发布等具有应用价值的领域选取了25个包含密集链接数据的网页作为实验样本,并使用上述方法对每个页面进行分类,分类结果见图5。在25个样本页面中,A类页面占了84%,也就是说大部分密集链接数据页面都满足我们符合同质信息结构样式唯一性特征。而在不符合这一特征的B类页面中B1类和B2类各占一半,分别占总样本的8%,而B3类页面并没有出现。其中能够保证提取效果的是B2类页面,所以我们的链接信息提取系统对样本中92%的页面都能够保证最佳提取效果。
之后我们对机器提取效果进行评估。由于在获得提取规则后的处理流程都是固定的,因此我们对机器提取方法进行评估时只需要验证机器方法定位到的目标路径摘要节点是否与人工定位到的节点是否相同即可。此外,由于B类页面并不满足同质信息结构样式唯一性的特点,在判定机器提取结果时,容易产生歧义,因此我们仅使用A类页面进行实验。
考虑到测试使用的样本量较少,为了能尽可能准确地验证机器学习模型的效果,我们将采用留一法对模型进行交叉验证(Cross Validation)。验证的具体步骤如下:
(1)在现有样本中选取20个A类密集链接页面作为样本集,进行人工提取
(2)令=1
(3)将除了样本的其余样本作为训练样本进行模型训练,并用训练出的模型对该样本的路径摘要树节点进行分类,得到目标路径摘要节点。若该节点与人工提取的节点一致,则测试结果=1,否则=0
(4)若≤20,++,重复(3)
(5)模型的准确率
另外值得注意的一点是,我们选择了随机森林作为分类器,该模型的训练具有一定的随机性,在训练集相同的情况下,每一次训练出的模型都有可能不同。在实际使用时,我们往往会使用训练集进行多次训练,并应用在测试集上,选择出一个分类效果最好的分类器,并将其森林结构持久化保存,作为最终的分类器。因此在我们对模型效果进行验证时,在样本集确定的情况下,需要进行多次交叉验证的,取最优结果作为我们对模型的评估结果。图6是机器提取准确率。如图可见,在100次交叉验证实验中,我们基于随机森林的机器提取器的提取准确率最高达到了85%,而单次训练的平均准确率为67%,因此利用训练集与测试集对模型进行多次的训练和筛选,是有必要的,而我们的机器提取方法在筛选后能够达到良好的提取效果。
最后我们对人工提取方法进行了实验验证,方法如下:在新闻、影视、论坛、游戏、垂直信息发布等具有应用价值的领域选取25个具有代表性的密集链接网页进行提取,并根据提取出来的结构化数据,计算精确率(Precision)与召回率(Recall)。实验结果见表1,对于A类和B2类,我们设计的链接信息提取系统在人工提取时都能够达到100%的精确率和召回率,在密集链接页面中这类页面占主要部分。此外在测试中,我们还选到了两个B1类网页,分别是人民新闻网的纵论页面、百度贴吧计算机吧。从数据中我们可以看到,尽管系统对于这两个页面提取的精确率依然达到了100%,但是召回率方面相较于A类和B2类页面有明显的下降,平均只有89.5%。这是由于这两个页面上的同质信息的结构样式不一致造成的,目前我们的系统并没有有效的方法去处理这类页面。对于B3类页面,我们的系统同样不擅长处理,但在本章实验的多次样本选取中均未能选到B3类的页面,这一定程度上反应了这类页面的稀少性,因此尽管我们的系统对B3类页面的不适用,且不适用程度应高于B1类页面(人工提取时精确率和召回率应均达不到100%)但在实际使用中产生的影响可以忽略。
表1人工提取方法提取效果实验结果

Claims (1)

1.基于路径摘要的链接信息提取方法,其特征在于:步骤如下:
PSTreeBullder(SourceFile)→PSTree
GetNodeBySequence(PNNameSequencePSTree)→TargetNo
ExtractFromElement(TargetNode)→StructureData
其中SourceFile表示源文件,PSTree表示路径摘要树,PNNameSequence表示路径节点名序列,PSTreeBuilder表示路径摘要树的构建过程,GetNodeBySequence指根据路径节点名序列获取路径摘要数的节点的过程,ExtractFromElement指的是从目标的节点TargetNode提取数据的过程;
也就是说包装器实际上是:
Wrapper(x)=ExtraetFromElement(GetElement(x))
其中:
GetElement(x)=GetNodeBySequence(PNNameSequence,PSTreeButlder
由于PSTreeBuilder,GetNodeBySequence都是固定的流程,而ExtractFromElement在固定的场景下也具有固定的处理手段,因此包装器的生成实际上就等价于PNNameSequence的生成;而PNNameSequence的生成过程为人工提取或机器提取;
人工提取的生成过程如下:
将页面以原始的状态展现,提取者只需要将光标移动到HTML元素上,与该元素具有相同节点名序列的所有元素都会进入高亮状态;提取者只需要点击元素,就能够把这一组元素对应的路径节点名序列保存起来;这一组路径节点名序列就能够作为生成的规则,作用于相同模板的一系列页面上,产出结构化的数据;
机器提取的生成过程如下:
首先对HTML页面对应的路径摘要树进行建模,使用tag名称、平均直接字符数、子树平均字符数、平均字符比、路径长度、平均子树高度、平均高度比、平均兄弟节点数8个特征描述摘要树节点,为每个节点生成一个对应的特征向量;并使用预先训练出的随机森林模型对每一个摘要节点进行评分,选取打分最高的节点作为最终提取的目标节点;从而实现了自动提取;
系统的整合优化:该部分包括从人工和自动提取得到的目标路径摘要节点对应的原始HTML元素中提取(标题,链接)二元组的方法,以及利用标签位置校准及关键字过滤方法对提取结果进行优化。
CN201710536054.3A 2017-07-04 2017-07-04 基于路径摘要的链接信息提取方法 Pending CN107463617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710536054.3A CN107463617A (zh) 2017-07-04 2017-07-04 基于路径摘要的链接信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710536054.3A CN107463617A (zh) 2017-07-04 2017-07-04 基于路径摘要的链接信息提取方法

Publications (1)

Publication Number Publication Date
CN107463617A true CN107463617A (zh) 2017-12-12

Family

ID=60546559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710536054.3A Pending CN107463617A (zh) 2017-07-04 2017-07-04 基于路径摘要的链接信息提取方法

Country Status (1)

Country Link
CN (1) CN107463617A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588371A (zh) * 2004-09-08 2005-03-02 孟小峰 包装器的生成方法
WO2007132524A1 (ja) * 2006-05-16 2007-11-22 Fujitsu Limited 差分抽出プログラム、方法及び装置
CN104462540A (zh) * 2014-12-24 2015-03-25 中国科学院声学研究所 网页信息抽取方法
CN104881488A (zh) * 2015-06-05 2015-09-02 焦点科技股份有限公司 基于关系表的可配置信息抽取方法
CN106227770A (zh) * 2016-07-14 2016-12-14 杭州安恒信息技术有限公司 一种智能化的新闻网页信息抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588371A (zh) * 2004-09-08 2005-03-02 孟小峰 包装器的生成方法
WO2007132524A1 (ja) * 2006-05-16 2007-11-22 Fujitsu Limited 差分抽出プログラム、方法及び装置
CN104462540A (zh) * 2014-12-24 2015-03-25 中国科学院声学研究所 网页信息抽取方法
CN104881488A (zh) * 2015-06-05 2015-09-02 焦点科技股份有限公司 基于关系表的可配置信息抽取方法
CN106227770A (zh) * 2016-07-14 2016-12-14 杭州安恒信息技术有限公司 一种智能化的新闻网页信息抽取方法

Similar Documents

Publication Publication Date Title
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
CN104199871B (zh) 一种用于智慧教学的高速化试题导入方法
CN101957816B (zh) 基于多页面比较的网页元数据自动抽取方法和系统
CN110032737A (zh) 一种基于神经网络的边界组合命名实体识别方法
CN103873318B (zh) 一种网站自动化测试方法及自动化测试系统
CN106649260A (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN105022803B (zh) 一种提取网页正文内容的方法及系统
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN110059073B (zh) 基于子图同构的web数据自动可视化方法
CN110110075A (zh) 网页分类方法、装置以及计算机可读存储介质
CN105760514B (zh) 一种从社区问答网站自动获取知识领域短文本的方法
CN102063488A (zh) 一种基于语义的代码搜索方法
CN107908650A (zh) 基于海量数字图书的知识脉络自动构建方法
CN108959204B (zh) 互联网金融项目信息抽取方法和系统
CN107220250A (zh) 一种模板配置方法及系统
CN103106211B (zh) 客户咨询文本的情感识别方法及装置
CN108804472A (zh) 一种网页内容抽取方法、装置及服务器
CN107066548A (zh) 一种双维度分类提取网页链接的方法
CN109857952A (zh) 一种具有分类显示的搜索引擎及快速检索方法
CN102004805B (zh) 基于最大相似性匹配的网页去噪系统及其去噪方法
CN114064913A (zh) 一种基于知识图谱的文档检索方法及系统
CN106445914A (zh) 微博情感分类器的构建方法及构建装置
Miller Hands-On Machine Learning with IBM Watson: Leverage IBM Watson to implement machine learning techniques and algorithms using Python
CN107463617A (zh) 基于路径摘要的链接信息提取方法
Heydt Learning pandas

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212

RJ01 Rejection of invention patent application after publication