CN103559202B - 一种网页内容抽取装置和方法 - Google Patents

一种网页内容抽取装置和方法 Download PDF

Info

Publication number
CN103559202B
CN103559202B CN201310464472.8A CN201310464472A CN103559202B CN 103559202 B CN103559202 B CN 103559202B CN 201310464472 A CN201310464472 A CN 201310464472A CN 103559202 B CN103559202 B CN 103559202B
Authority
CN
China
Prior art keywords
block
characteristic
type
node
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310464472.8A
Other languages
English (en)
Other versions
CN103559202A (zh
Inventor
王志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310464472.8A priority Critical patent/CN103559202B/zh
Publication of CN103559202A publication Critical patent/CN103559202A/zh
Application granted granted Critical
Publication of CN103559202B publication Critical patent/CN103559202B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页内容抽取装置和方法。所述方法包括:根据训练数据定义不同类型的块,以及不同的分类特征;将网页解析成文档对象模型DOM树,获取DOM树的每个结点的分类特征值集合,根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定DOM树的每个结点是否为块,以及块的类型,最后对于DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容。本发明的技术方案中,多维分类特征和块的类型根据训练数据自动生成,无须维护规则,当解决新问题时,只需标注新的训练数,然后根据新的训练数据生成新的块类型和分类特征即可,操作简单,复杂度低,易于维护。

Description

一种网页内容抽取装置和方法
技术领域
本发明涉及互联网技术领域,具体涉及一种网页内容抽取装置和方法。
背景技术
网页内容的抽取在搜索引擎、移动阅读等领域有着越来越重要的作用。
现有的一种网页内容抽取方法是将HTML网页转换成文档对象模型(DOM,DocumentObject Model)树,再根据DOM特征利用人工规则进行抽取。具体为:利用webkit(开源的浏览器引擎)等HTML解析引擎,将网页构建成DOM树,采用后根遍历的方法统计每个结点的文本长度、连接个数、词权重等特征;然后再后根遍历DOM树,利用经验公式和阈值进行判断,如果是需要抽取的内容则取出该结点的文本输出。
但是这种方法的主要问题是,对于几十个甚至上百个维度的特征来说,很难编写有效的规则,即使编写出来规则也是十分繁杂,随着不断演进,规则会越来越复杂,以至于难以维护,解决新问题的周期也会越来越长。
现有的另一种网页内容抽取方法是基于标注好的模板来进行抽取。模板可以利用标注工具生成,也可以人工编写,可以基于网页HTML源码方式,也可以基于DOM树形式。虽然互联网的网站众多,形式各异但是大多数都可以抽象出有限的模板形式,每次抽取只要在模板库中查到最佳匹配的模板,然后使用该模板抽取即可。对于特定网页也可以基于域名、HOST甚至URL和其模板建立映射关系
这种基于标注模板的方式,模板的编写或者标注十分繁琐耗时,且需要人工不断维护,一旦网站改版模板失效,可能造成比较严重的后果。
可见,现有的网页内容抽取方法都存在操作繁琐,复杂度高,难以维护等问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网页内容抽取装置和方法。
依据本发明的一个方面,提供了一种网页内容抽取装置,该装置包括:
训练单元,适于根据训练数据定义不同类型的块,以及不同的分类特征;
其中,网页由多个不同类型的块组成,每种类型的块对应一个分类特征值集合,一个分类特征值集合由分别取对应特定值的一个或多个分类特征组成,不同类型的块通过各自对应的分类特征值集合进行区分;
解析单元,适于将当前网页解析成文档对象模型DOM树;
特征获取单元,适于获取所述DOM树的每个结点的分类特征值集合;
块类型确定单元,适于根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型;
内容抽取单元,适于对所述DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容。
可选地,所述特征获取单元,适于采用后根遍历方式获得所述DOM树的每个结点的分类特征值集合。
可选地,所述块类型确定单元,适于将所定义的所有分类特征以及每种类型的块对应的分类特征值集合输入决策树,利用决策树按照先根遍历方式判决所述DOM树的每个结点是否为块,以及块的类型,并按照遍历的顺序输出块序列。
可选地,该装置进一步包括:
纠错单元,适于利用条件随机场CRF对所述块类型确定单元输出的块序列中的块的类型进行纠错处理。
可选地,所述训练单元,进一步适于根据新增的训练数据对分类特征和/或块的类型进行扩充,使得后续根据扩充后的结果进行网页内容抽取。
根据本发明的另一方面,提供了一种网页内容抽取方法,其中,包括:
根据训练数据定义不同类型的块,以及不同的分类特征;其中,网页由多个不同类型的块组成,每种类型的块对应一个分类特征值集合,一个分类特征值集合由分别取对应特定值的一个或多个分类特征组成,不同类型的块通过各自对应的分类特征值集合进行区分;
将当前网页解析成文档对象模型DOM树;
获取所述DOM树的每个结点的分类特征值集合;
根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型;
对于所述DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容。
可选地,所述获取所述DOM树的每个结点的分类特征值集合包括:
采用后根遍历方式获得所述DOM树的每个结点的分类特征值集合。
可选地,所述根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型包括:
将所定义的所有分类特征以及每种类型的块对应的分类特征值集合输入决策树,利用决策树按照先根遍历方式判决所述DOM树的每个结点是否为块,以及块的类型,并按照遍历的顺序输出块序列。
可选地,在所述按照遍历的顺序输出块序列之后,该方法进一步包括:利用条件随机场CRF对所述块序列中的块的类型进行纠错处理。
可选地,该方法进一步包括:
根据新增的训练数据对分类特征和/或块的类型进行扩充;
后续根据扩充后的结果进行网页内容抽取。
根据本发明的这种根据训练数据定义不同类型的块,以及不同的分类特征,其中,网页由多个不同类型的块组成,每种类型的块对应一个分类特征值集合,一个分类特征值集合由分别取对应特定值的一个或多个分类特征组成,不同类型的块通过各自对应的分类特征值集合进行区分,然后将网页解析成文档对象模型DOM树,获取DOM树的每个结点的分类特征值集合,根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定DOM树的每个结点是否为块,以及块的类型,最后对于DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容的技术方案中,多维分类特征和块的类型根据训练数据自动生成,无须维护规则,当解决新问题时,只需标注新的训练数,然后根据新的训练数据生成新的块类型和分类特征即可。操作简单,复杂度低,易于维护。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种网页内容抽取方法的流程图;
图2示出了根据本发明一个实施例的将一个网页解析成DOM树的示意图;
图3示出了根据本发明一个实施例的一种网页由不同类型的块组成的示意图;
图4示出了根据本发明一个实施例的又一种网页由不同类型的块组成的示意图;
图5示出了根据本发明一个实施例的决策树输出的块序列的示意图;
图6示出了根据本发明一个实施例的将图5所示块序列输入CRF后,CRF输出的序列的示意图;
图7示出了根据本发明一个实施例的一种网页内容抽取装置的结构图;
图8示出了根据本发明又一个实施例的一种网页内容抽取装置的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种网页内容抽取方法的流程图。如图1所示,该方法包括:
步骤S110,根据训练数据定义不同类型的块,以及不同的分类特征;其中,网页由多个不同类型的块组成,每种类型的块对应一个分类特征值集合,一个分类特征值集合由分别取对应特定值的一个或多个分类特征组成,不同类型的块通过各自对应的分类特征值集合进行区分。
步骤S120,将当前网页解析成文档对象模型DOM树。
本步骤中,可以利用webkit引擎将网页解析成DOM树。图2示出了根据本发明一个实施例的将一个网页解析成DOM树的示意图。
步骤S130,获取所述DOM树的每个结点的分类特征值集合。
步骤S140,根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型。
步骤S150,对于所述DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容。
图1所示的方法中,多维分类特征和块的类型根据训练数据自动生成,无须维护规则,当解决新问题时,只需标注新的训练数,然后根据新的训练数据生成新的块类型和分类特征即可。操作简单,复杂度低,易于维护。
步骤S110是本方法的前提,即网页页面由不同类型的块组成,需要根据训练数据(各种网页的数据)训练出不同的分类特征以及训练出不同类型的块。
本发明中的块是根据网页的显示不同内容的区域进行划分的。每种类型块必须具有区别于其他类型块的可分类特征,将网页分块后,就可以过滤掉无用的块,保留有用的块,从而得到要抽取的内容。
图3示出了根据本发明一个实施例的一种网页由不同类型的块组成的示意图,参见图3,该页面由导航块1、垃圾块2、翻页块3、垃圾块4、标题块5、作者信息块6、发表日期块7和正文块8组成。图4示出了根据本发明一个实施例的又一种网页由不同类型的块组成的示意图,参见图4,该页面由导航块11、标题块12、时间块13和正文块14组成。可见不同的网页可以分成不同的块,各网页之间有类型重复的块,也有类型不重复的块,需要根据大量的训练数据训练出现有的网页中的块的类型。
确定好块的类型后,还需要确定用于分块的特征。在本申请发明人所实现的一个实施例中确定了105个维度的特征,包括:文本长度、超链接个数、超链接文本长度、高亮文本长度(即加大加粗文字)、字体、字号、各种特殊字符个数、中文、英文、数字字符长度等等。一种类型的块由该105个维护的特征中的一个或多个特征取特定的值来确定,即一种类型的块对应一个分类特征值集合。例如,导航块(类型为导航的块)由如下的特征值集合确定:特征“文本长度”取值在10~25个字符之间;特征“字号”取5号以上。
需要说明的是根据实际情况所确定的特征的维护限于105,并且在后续过程中还可以进行扩充。
在本发明的一个实施例中,步骤S130中所述获取DOM树的每个结点的分类特征值集合包括:采用后根遍历方式获得所述DOM树的每个结点的分类特征值集合。使用后根遍历的好处是父结点只要简单累加子结点的特征即可,没有不必要的重复计算。本步骤中,根据DOM树的每个结点的内容,确定其具有105个维度分类特征中的哪些分类特征,以及这些分类特征的取值,从而得到对应的分类特征值集合。例如,对于图2,采用后根遍历的顺序是:B->SPAN->P->A->A->DIV->BODY。
在本发明的一个实施例中,步骤S140中所述根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型包括:将所定义的所有分类特征以及每种类型的块对应的分类特征值集合输入决策树,利用决策树按照先根遍历方式判决所述DOM树的每个结点是否为块,以及块的类型,并按照遍历的顺序输出块序列。
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。在本发明中,决策树根据已知的分类特征以及每种类型的块对应的分类特征值集合,以及决DOM树的一个结点所对应的分类特征值集合,去判决该结点是否可以成为块,如果可以成为块,是哪种类型的块。对DOM树按照先根遍历方式遍历其结点时,如果一个结点被判定为是块,则不再遍历其子孙结点,如果一个结点被判定为不是块,则需要对其子孙结点进行遍历和判决。
在本发明的一个实施例中,在采用决策树对DOM树的结点按照先根遍历的顺序进行判决,并按照遍历的顺序输出块序列之后,本发明的方法还可以进一步包括:利用条件随机场(CRF,Conditional random fields)对所述块序列中的块的类型进行纠错处理。
可以把决策树输出的这种块序列看成是网页的结构“模板”,这样的块序列可以作为CRF的输入,利用CRF来进一步提高块分类的准确率和召回率。CRF是一种无向图模型,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,即给定观察序列O,求最佳序列S,因此利用CRF我们可以对决策树的分类结果进行纠正,从而提高内容抽取的效果。在本发明的实施例中,需要将已知的各类网页对应的块序列输入给CRF,作为CRF根据输入序列输出最佳序列(纠错后的序列)的参考依据。
例如,图5示出了根据本发明一个实施例的决策树输出的块序列的示意图。图6示出了根据本发明一个实施例的将图5所示块序列输入CRF后,CRF输出的序列的示意图。可见,CRF根据联合概率判决输入的块序列中的导航块与时间块之间不应该是正文块,而应该是标题块,从而纠正之。
在本发明的一个实施例中,在步骤S150中,需要抽取的块类型可以是正文块和标题块,则对于DOM树的被确定为块的结点,抽取其中被确定为正文块或标题块的结点的内容。在本发明的其他实施例中,也可以设定需要抽取的块类型只包括标题块,则对于DOM树的结点,只抽取被确定为标题块的结点中的内容。
根据本发明的技术方案,当有新问题需要解决时,即有新的网页包含新类型的块时,只要根据新的网页生成新的训练数据,然后根据新增的训练数据对分类特征和/或块的类型进行扩充,后续根据扩充后的结果进行网页内容抽取即可。这种方式使得多维分类特征和块的类型根据训练数据自动生成,无须维护规则,当解决新问题时,只需标注新的训练数,然后根据新的训练数据生成新的块类型和分类特征即可。操作简单,复杂度低,易于维护。
图7示出了根据本发明一个实施例的一种网页内容抽取装置的结构图。如图7所示,该网页内容抽取装置700包括:训练单元701、解析单元702、特征获取单元703、块类型确定单元704和内容抽取单元705。
训练单元701,适于根据训练数据定义不同类型的块,以及不同的分类特征;
其中,网页由多个不同类型的块组成,每种类型的块对应一个分类特征值集合,一个分类特征值集合由分别取对应特定值的一个或多个分类特征组成,不同类型的块通过各自对应的分类特征值集合进行区分;
解析单元702,适于将当前网页解析成文档对象模型DOM树;
特征获取单元703,适于获取所述DOM树的每个结点的分类特征值集合;
块类型确定单元704,适于根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型;
内容抽取单元705,适于对所述DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容。
图8示出了根据本发明又一个实施例的一种网页内容抽取装置的结构图。如图8所示,该网页内容抽取装置800包括:训练单元801、解析单元802、特征获取单元803、块类型确定单元804、内容抽取单元805和纠错单元806。
训练单元801,适于根据训练数据定义不同类型的块,以及不同的分类特征;
其中,网页由多个不同类型的块组成,每种类型的块对应一个分类特征值集合,一个分类特征值集合由分别取对应特定值的一个或多个分类特征组成,不同类型的块通过各自对应的分类特征值集合进行区分;
解析单元802,适于将当前网页解析成文档对象模型DOM树。例如,解析单元802可以利用webkit引擎将网页解析成DOM树。
特征获取单元803,适于获取所述DOM树的每个结点的分类特征值集合。在本发明的一个实施例中,特征获取单元803,适于采用后根遍历方式获得所述DOM树的每个结点的分类特征值集合。
块类型确定单元804,适于根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型。在本发明的一个实施例中,块类型确定单元804,适于将所定义的所有分类特征以及每种类型的块对应的分类特征值集合输入决策树,利用决策树按照先根遍历方式判决所述DOM树的每个结点是否为块,以及块的类型,并按照遍历的顺序输出块序列。
纠错单元806,适于利用条件随机场CRF对块类型确定单元804输出的块序列中的块的类型进行纠错处理。
内容抽取单元805,适于在纠错单元进行纠错处理之后,对所述DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容。
训练单元801,进一步适于根据新增的训练数据对分类特征和/或块的类型进行扩充,使得后续根据扩充后的结果进行网页内容抽取。
综上所述,根据本发明的这种根据训练数据定义不同类型的块,以及不同的分类特征,其中,网页由多个不同类型的块组成,每种类型的块对应一个分类特征值集合,一个分类特征值集合由分别取对应特定值的一个或多个分类特征组成,不同类型的块通过各自对应的分类特征值集合进行区分,然后将网页解析成文档对象模型DOM树,获取DOM树的每个结点的分类特征值集合,根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定DOM树的每个结点是否为块,以及块的类型,最后对于DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容的技术方案中,多维分类特征和块的类型根据训练数据自动生成,无须维护规则,当解决新问题时,只需标注新的训练数,然后根据新的训练数据生成新的块类型和分类特征即可。操作简单,复杂度低,易于维护。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页内容抽取装置的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种网页内容抽取装置,其中,该装置包括:
训练单元,适于根据训练数据定义不同类型的块,以及不同的分类特征;
其中,网页由多个不同类型的块组成,块是根据网页的显示不同内容的区域进行划分的,每种类型的块对应一个分类特征值集合,一个分类特征值集合由分别取对应特定范围的值的一个或多个分类特征组成,不同类型的块通过各自对应的分类特征值集合进行区分;
解析单元,适于将当前网页解析成文档对象模型DOM树;
特征获取单元,适于获取所述DOM树的每个结点的分类特征值集合;
块类型确定单元,适于根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型,并输出块序列;
内容抽取单元,适于对所述DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容;
该装置进一步包括:纠错单元,适于在所述块类型确定单元输出块序列后,利用条件随机场对所述块序列中的块的类型进行纠错处理,该条件随机场将已知的各类网页对应的块序列作为进行纠错处理的参考依据。
2.如权利要求1所述的装置,其中,
所述特征获取单元,适于采用后根遍历方式获得所述DOM树的每个结点的分类特征值集合。
3.如权利要求1所述的装置,其中,
所述块类型确定单元,适于将所定义的所有分类特征以及每种类型的块对应的分类特征值集合输入决策树,利用决策树按照先根遍历方式判决所述DOM树的每个结点是否为块,以及块的类型,并按照遍历的顺序输出块序列。
4.如权利要求1至3中任一项所述的装置,其中,
所述训练单元,进一步适于根据新增的训练数据对分类特征和/或块的类型进行扩充,使得后续根据扩充后的结果进行网页内容抽取。
5.一种网页内容抽取方法,其中,包括:
根据训练数据定义不同类型的块,以及不同的分类特征;其中,网页由多个不同类型的块组成,块是根据网页的显示不同内容的区域进行划分的,每种类型的块对应一个分类特征值集合,一个分类特征值集合由分别取对应特定范围的值的一个或多个分类特征组成,不同类型的块通过各自对应的分类特征值集合进行区分;
将当前网页解析成文档对象模型DOM树;
获取所述DOM树的每个结点的分类特征值集合;
根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型,并输出块序列;
利用条件随机场对所述块序列中的块的类型进行纠错处理,该条件随机场将已知的各类网页对应的块序列作为进行纠错处理的参考依据;
对于所述DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容。
6.如权利要求5所述的方法,其中,所述获取所述DOM树的每个结点的分类特征值集合包括:
采用后根遍历方式获得所述DOM树的每个结点的分类特征值集合。
7.如权利要求5所述的方法,其中,所述根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型包括:
将所定义的所有分类特征以及每种类型的块对应的分类特征值集合输入决策树,利用决策树按照先根遍历方式判决所述DOM树的每个结点是否为块,以及块的类型,并按照遍历的顺序输出块序列。
8.如权利要求5至7中任一项所述的方法,其中,该方法进一步包括:
根据新增的训练数据对分类特征和/或块的类型进行扩充;
后续根据扩充后的结果进行网页内容抽取。
CN201310464472.8A 2013-10-08 2013-10-08 一种网页内容抽取装置和方法 Expired - Fee Related CN103559202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310464472.8A CN103559202B (zh) 2013-10-08 2013-10-08 一种网页内容抽取装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310464472.8A CN103559202B (zh) 2013-10-08 2013-10-08 一种网页内容抽取装置和方法

Publications (2)

Publication Number Publication Date
CN103559202A CN103559202A (zh) 2014-02-05
CN103559202B true CN103559202B (zh) 2017-03-15

Family

ID=50013449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310464472.8A Expired - Fee Related CN103559202B (zh) 2013-10-08 2013-10-08 一种网页内容抽取装置和方法

Country Status (1)

Country Link
CN (1) CN103559202B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572934B (zh) * 2014-12-29 2016-03-30 西安交通大学 一种基于dom的网页关键内容抽取方法
CN105404608B (zh) * 2015-10-27 2018-07-20 中通服公众信息产业股份有限公司 一种基于公式解析的复杂指标集计算方法和系统
CN106095854B (zh) * 2016-06-02 2022-05-17 腾讯科技(深圳)有限公司 一种确定信息块的位置信息的方法及装置
CN111143642A (zh) * 2019-12-30 2020-05-12 北京天融信网络安全技术有限公司 网页分类方法、装置、电子设备及计算机可读存储介质
CN113343140B (zh) * 2020-03-03 2022-12-13 四川大学 一种基于neo4j图形数据库自动提取网页正文内容的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8983980B2 (en) * 2010-11-12 2015-03-17 Microsoft Technology Licensing, Llc Domain constraint based data record extraction
CN102651002B (zh) * 2011-02-28 2017-08-11 深圳市世纪光速信息技术有限公司 一种网页信息抽取方法及其系统
CN103246732B (zh) * 2013-05-10 2016-02-24 合肥工业大学 一种在线Web新闻内容的抽取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张奇 等.基于CRF的网页动态关系抽取研究.《中国科学技术大学学报》.2010,第40卷(第11期),第1197-1202页. *
张春元.基于CRFs的新闻网页主题内容自动抽取方法.《广西师范大学学报:自然科学版》.2011,第29卷(第1期),第138-142页. *

Also Published As

Publication number Publication date
CN103559202A (zh) 2014-02-05

Similar Documents

Publication Publication Date Title
AU2018247340B2 (en) Dvqa: understanding data visualizations through question answering
CN102831121B (zh) 一种网页信息抽取的方法和系统
CN103559202B (zh) 一种网页内容抽取装置和方法
CN103473338B (zh) 网页内容抽取方法和网页内容抽取系统
CN105022803B (zh) 一种提取网页正文内容的方法及系统
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN105095067A (zh) 用户界面元素对象识别及自动化测试的方法和装置
CN104133855B (zh) 一种输入法智能联想的方法及装置
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
JP2019133621A (ja) Apiドキュメンテーションの収集
US8205153B2 (en) Information extraction combining spatial and textual layout cues
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN105183801A (zh) 网页正文抽取方法及装置
CN103198069A (zh) 抽取关系型表格的方法和装置
CN103970898A (zh) 一种基于多级规则库的信息提取方法及装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN108021692A (zh) 一种监控网页的方法、服务器及计算机可读存储介质
CN104794108A (zh) 网页标题抽取方法及其装置
CN105550169A (zh) 一种基于字符长度识别兴趣点名称的方法和装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN106227770A (zh) 一种智能化的新闻网页信息抽取方法
Bu et al. An FAR-SW based approach for webpage information extraction
CN108694192B (zh) 网页类型的判断方法及装置
CN104615728A (zh) 一种网页正文提取方法及装置
CN103488743B (zh) 网页元素抽取方法和网页元素抽取系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170315

Termination date: 20211008