CN103246732B - 一种在线Web新闻内容的抽取方法及系统 - Google Patents
一种在线Web新闻内容的抽取方法及系统 Download PDFInfo
- Publication number
- CN103246732B CN103246732B CN201310173280.1A CN201310173280A CN103246732B CN 103246732 B CN103246732 B CN 103246732B CN 201310173280 A CN201310173280 A CN 201310173280A CN 103246732 B CN103246732 B CN 103246732B
- Authority
- CN
- China
- Prior art keywords
- text
- tag path
- path
- tag
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 239000008186 active pharmaceutical agent Substances 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 description 9
- 230000009897 systematic effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007790 scraping Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种在线Web新闻内容抽取方法,其步骤为:获取被抽取的Web新闻网页的DOM树;遍历DOM树构建文本节点信息序列和标签路径信息序列;计算标签路径特征值序列;使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;构建文本节点综合特征值序列;根据文本节点综合特征值序列抽取Web新闻网页正文内容。本发明还公开了一种在线Web新闻内容抽取系统,由解析模块、计算模块、融合模块和抽取模块构成。本发明中的标签路径特征不基于网页的模板且具有多样性,整个抽取过程都是简单的数学元素,能有效地在线抽取海量异构的Web新闻网页。
Description
技术领域
本发明属于网络信息处理领域,尤其涉及一种在线Web新闻内容抽取方法及系统。
背景技术
随着Internet的飞速发展,Web新闻网页已经继传统的报纸、广播、电视之后,成为人们发布和获取信息的主要平台。目前,Web新闻网页除了包含主要内容外,还掺杂着大量的与主题内容无关的信息,如导航条、广告、推荐链接、版权声明等。这些占整个Web页面数据越40%-50%的噪音数据严重影响着许多Web应用的服务质量。如何获取“干净”的网页日益成为一个重要的研究课题。
目前,Web新闻内容抽取技术根据抽取工具的自动化程度,分为手工构建规则的抽取系统、有监督的抽取系统、半监督的抽取系统、无监督的抽取系统和在线抽取系统。
手工构建规则的抽取系统是最简单和最直接的抽取方法。使用Java、Perl这样通用的程序设计语言或用户自行设计的特定语言,用户面向特定的网站构建包装器。这类的系统需要用户有一定计算机和编程方面的知识、熟悉数据源和输出结果的格式、理解抽取规则的内涵。所以这种系统的自动化程度不高,构造代价高,对于大量网站和网页的抽取,这种花费往往是无法容忍的。特别地,当网页结构发生变化时,抽取系统需手工修改,维护代价高,难以扩展和推广。
有监督的抽取系统需要手工或使用工具标记训练网页,通过归纳得到抽取规则。该类系统虽然无需用户编程,有良好的扩展性,但是训练集标记任务具有一定的专业要求且工作量较大,一般用户难以胜任。
半监督的抽取系统相对于有监督的抽取系统,通常不需要用户对网页做出准确的标注就可以生成抽取规则。虽然这类系统能减轻用户的标记工作,但往往也需要用户的参与,如选择目标模式或粗略标记等。此外,该类系统通常需要嵌入一些启发性背景知识,扩展性不高。
在无监督的抽取系统中,不需要用户标记任何训练集,在生成包装器的过程中不需要与用户交互的界面。这类系统通常假定Web页面是根据请求从后台数据库中选取数据并嵌入到通用的模板中生成的,研究如何从模板生成的网页中检测出原始的模板,从而进一步抽取嵌入其中的数据。但是这类系统的假设条件强,难以扩展。全自动的抽取方式往往会抽取出许多用户不需要的信息,用户需要的一些信息却可能没有抽取出来。
在线抽取系统无需对网页进行预处理或预知它们的结构,能适应任何结构的新闻网页。目前比较流行的在线抽取方法基于新闻网页的HTML文本中字符的分布规律,设定抽取规则,识别抽取对象。但是这些在线方法主要基于网网页中的字符或行,以至于网页忽略网页的结构信息,抽取的精度低。
总之,目前的Web新闻内容抽取技术主要存在如下问题:
第一,目前很多的网页抽取技术假定被抽取的网页对象由同一个网页模板生成,已有的包装器难以有效抽取未知模板生成的网页的内容,通用性较差。如果需要抽取未知模板的网页的内容,需要针对该模板构建新的包装器,且任何模板的变化将导致包装器失效,在线维护这些模板的代价极高。即使网页由同一个模板生成,这些网页中依然存在着很多非模板节点,不同网页的非模板节点之间存在着一定的差异性,只有部分训练网页生成的包装器就无法涵盖这些差异性,无法胜任部分网页的抽取任务。
第二,目前很多的网页抽取技术难以胜任在线抽取任务。为达到较高的抽取精度,较好的匹配被抽取的网页,往往需要较多的训练网页和人工干预,用户负担重,实时性能低,无法满足在线抽取的要求。
第三,现有的在线抽取方法虽然能满足在线抽取,但是很多都是基于HTML文本,以行或整个文本为单位,分析字符和标签的分布特点,识别抽取对象。这类方法设计简单,考虑角度单一,完全忽略了HTML文本中字符的层次性,且该层次性与网页内容的分布有着密切的关系,难以用于海量异构的Web新闻网页的抽取。
发明内容
为了解决上述的技术问题,本发明提供一种通用性强、用户负担轻、能在线抽取海量异构Web新闻网页的在线Web新闻内容的抽取方法及系统。
本发明通过以下技术方案实现。
本发明在线Web新闻内容抽取方法的特点是按如下步骤进行:
步骤1,使用HTML解析器解析被抽取的Web新闻网页,得到被抽取的Web新闻网页的DOM树;
步骤2,遍历所述DOM树,依次访问所述DOM树中的每个节点,构建文本节点信息序列和文本节点的标签路径信息序列;所述文本节点信息序列中的每个元素有两个属性,分别为文本节点和文本节点的标签路径;所述标签路径信息序列中的每个元素有三个属性,分别是文本节点的标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;所述标签路径为所述DOM树的根节点到节点的节点序列;
步骤3,根据所述标签路径信息序列和标签路径特征系中每个标签路径特征的定义,通过计算构建标签路径特征值序列;
所述标签路径特征系是由六个不同的标签路径特征组成的,分别是文本标签路径长度特征、文本标签路径比特征、扩展文本标签路径长度特征、扩展文本标签路径比特征、文本标签路径层次比特征和扩展文本标签路径层次比特征;
所述标签路径特征值序列中的每个元素有七个属性,分别是:标签路径、文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值;
所述文本标签路径长度特征为标签路径到达的文本内容中字符的个数;
所述文本标签路径比特征为标签路径到达的文本内容中字符的个数与标签路径到达的文本节点的个数的比值;
所述扩展文本标签路径长度特征为标签路径到达的文本内容中标点符号的个数;
所述扩展文本标签路径比特征为标签路径到达的文本内容中标点符号的个数与标签路径到达的文本节点的个数的比值;
所述文本标签路径层次比特征为标签路径到达的文本内容中字符个数与标签路径的层次数的比值;
所述扩展文本标签路径层次比特征为标签路径到达的文本内容中标点符号的个数与标签路径的层次数的比值;
所述标签路径的层次数为标签路径中标签的个数;
步骤4,使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;所述标签路径综合特征值序列中的每个元素有两个属性,分别是标签路径和标签路径的综合特征值;所述标签路径的综合特征值是利用加权DS证据理论融合标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到的结果;
步骤5,根据所述标签路径综合特征值序列和文本节点信息序列的映射关系,构建文本节点综合特征值序列;所述文本节点综合特征值序列中的每个元素有两个属性,分别是文本节点和文本节点的综合特征值;
步骤6,根据文本节点综合特征值序列抽取Web新闻网页正文内容。
本发明在线Web新闻内容抽取方法的特点也在于:
所述步骤5中构建文本节点综合特征值序列的方法是:根据所述标签路径综合特征值序列中的每个元素的标签路径属性与所述文本节点信息序列中的每个元素的标签路径属性的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点综合特征值序列。
所述步骤6根据文本节点综合特征值序列抽取Web新闻网页正文内容的方法是:设置抽取阈值τ,依次访问所述文本节点综合特征值序列中的每个元素,若元素的文本节点的综合特征值大于阈值τ,则抽取元素中的文本节点的文本内容并存储,直至文本节点综合特征值序列中的所有元素都被访问;最终存储的内容为被抽取的Web新闻网页的正文内容。
本发明在线Web新闻内容抽取系统的特点是由解析模块、计算模块、融合模块和抽取模块构成;
所述解析模块根据被抽取的Web新闻网页的URL地址获取HTML文本,利用HTML解析器解析HTML文本得到被抽取的Web新闻网页的DOM树;
所述计算模块是由查找单元、文本节点信息获取单元、标签路径信息获取单元和标签路径特征生成单元构成;所述查找单元用于遍历所述DOM树,访问DOM树中的每个节点,查找出文本节点和文本节点的标签路径;所述文本节点信息获取单元用于构建文本节点信息序列,存储查找单元查找出的文本节点和文本节点的标签路径;所述标签路径信息获取单元用于构建标签路径信息序列,存储标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;所述标签路径特征生成单元,根据标签路径信息序列中存储的信息计算每个标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值,得到文本标签路径特征值序列;
所述融合模块由加权单元和融合单元构成;所述加权单元用于设置标签路径特征系中每个元素的权重;所述融合单元根据加权单元设置的权重,利用加权DS证据理论融合每个标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到每个标签路径的综合特征值,最终得到标签路径综合特征值序列;
所述抽取模块由分配单元、选择单元和抽取单元构成;所述分配单元根据所述文本节点信息序列中每个元素的标签路径属性和所述标签路径综合特征值序列中每个元素的标签路径属性之间的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点的综合特征值序列;所述选择单元用于设置抽取阈值,依次访问文本节点序列中的每个元素,若元素的文本节点的综合特征值属性的值大于抽取阈值,则标记元素中的文本节点为内容节点;所述抽取单元,依次抽取选择单元标注为内容节点的文本节点的内容并存储,最终存储的内容为被抽取的Web新闻网页的正文内容。
与已有技术相比,本发明的有益效果体现在:
1、本发明中由于标签路径特征系的每个标签路径特征仅涉及标签路径到达的文本内容的特征和标签路径的特征,不基于网页的模板,提高了方法的通用性;
2、本发明中由于无需对网页训练和标记,无需用户的参与,降低了用户的负担;
3、本发明中标签路径特征系中每个标签路径特征的值的计算都是简单的个数统计或比值计算,速度快,实时性能强,可以实现在线抽取;
4、本发明中由于标签路径特征系中的标签路径特征的多样性,提高了对海量异构的Web新闻网页的适应能力。
附图说明
图1是本发明在线Web新闻内容抽取方法流程说明图;
图2是本发明获取文本节点信息序列和标签路径信息序列的方法流程图;
图3是本发明加权DS证据理论融合标签路径特征值序列的流程说明图;
图4是本发明在线Web新闻内容抽取系统的系统结构示意图。
具体实施方式
参见图1,本实施例中在线Web新闻内容抽取方法是按如下步骤进行:
步骤1,使用HTML解析器解析被抽取的Web新闻网页,得到被抽取的Web新闻网页的DOM树;根据被抽取的Web新闻网页的URL地址获取被抽取的新闻网页的HTML文本,使用Jtidy修正HTML文本中包括标签匹配错误、标签书写错误以及HTML编码错误在内的错误信息;利用HTML解析器HTMLParser逐个扫描HTML文本中的字符,解析HTML文本的结构层次关系,得到被抽取的Web新闻网页的DOM树;
步骤2,遍历DOM树,依次访问DOM树中的每个节点,构建文本节点信息序列和文本节点的标签路径信息序列;文本节点信息序列中的每个元素有两个属性,分别为文本节点和文本节点的标签路径;标签路径信息序列中的每个元素有三个属性,分别是文本节点的标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;标签路径为DOM树的根节点到节点的节点序列;
步骤3,根据标签路径信息序列和标签路径特征系中每个标签路径特征的定义,通过计算构建标签路径特征值序列;
标签路径特征系是由六个不同的标签路径特征组成的,分别是文本标签路径长度特征、文本标签路径比特征、扩展文本标签路径长度特征、扩展文本标签路径比特征、文本标签路径层次比特征和扩展文本标签路径层次比特征;
标签路径特征值序列中的每个元素有七个属性,分别是:标签路径、文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值;
文本标签路径长度特征为标签路径到达的文本内容中字符的个数;
文本标签路径比特征为标签路径到达的文本内容中字符的个数与标签路径到达的文本节点的个数的比值;
扩展文本标签路径长度特征为标签路径到达的文本内容中标点符号的个数;
扩展文本标签路径比特征为标签路径到达的文本内容中标点符号的个数与标签路径到达的文本节点的个数的比值;
文本标签路径层次比特征为标签路径到达的文本内容中字符个数与标签路径的层次数的比值;
扩展文本标签路径层次比特征为标签路径到达的文本内容中标点符号的个数与标签路径的层次数的比值;
标签路径的层次数为标签路径中标签的个数;
步骤4,使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;标签路径综合特征值序列中的每个元素有两个属性,分别是标签路径和标签路径的综合特征值;标签路径的综合特征值是利用加权DS证据理论融合标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到的结果;
步骤5,根据标签路径综合特征值序列和文本节点信息序列的映射关系,构建文本节点综合特征值序列;文本节点综合特征值序列中的每个元素有两个属性,分别是文本节点和文本节点的综合特征值;
其中,构建文本节点综合特征值序列的方法是:根据标签路径综合特征值序列中的每个元素的标签路径属性与文本节点信息序列中的每个元素的标签路径属性的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点综合特征值序列。
步骤6,根据文本节点综合特征值序列抽取Web新闻网页正文内容;
设置抽取阈值τ,依次访问文本节点综合特征值序列中的每个元素,若元素的文本节点的综合特征值大于阈值τ,则抽取元素中的文本节点的文本内容并存储,直至文本节点综合特征值序列中的所有元素都被访问;最终存储的内容为被抽取的Web新闻网页的正文内容;抽取阈值τ设置为文本节点综合特征值序列中所有元素的文本节点的综合特征值的标准差。
本实施例中文本节点信息序列和标签路径信息序列的构建过程是一个典型的树的遍历过程,如图2所示,具体按如下步骤进行:
构建文本节点信息序列nSet和标签路径信息序列pSet,并都初始化为空,文本节点信息序列pSet中的每个元素包含两个属性,分别是文本节点node和文本节点的标签路径path;标签路径信息序列pSet中的每个元素包含三个属性,分别是标签路径path,标签路径到达的文本内容content和标签路径到达的文本节点的个数num;
依次遍历DOM树的每个节点;若节点为文本节点,则更新文本节点信息序列和标签路径信息序列;否则遍历节点的孩子子树;节点的孩子子树是以节点的孩子节点为根节点的树。
更新文本节点信息序列nSet的过程为:根据被访问节点v和被访问节点v的标签路径p,构建元素<v,p>,存放入文本节点信息序列中;
更新标签路径信息序列pSet的过程为:在标签路径信息序列pSet中查找是否存在一个元素的标签路径属性path与被访问节点v的标签路径p相同,若存在,则将被访问节点v的文本内容text添加到该元素的content属性中,且num属性的值加1;若不存在,则创建元素<p,text,1>,并存放入标签路径信息序列pSet中。
参见图3,本实施例中步骤4使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列是按如下步骤进行的:
步骤4-1,归一化标签路径特征值序列中的元素,具体按以下过程进行:
m1为标签路径长度特征,m2为标签路径比特征,m3为扩展标签路径长度特征,m4为扩展标签路径比特征,m5为标签路径层次比特征,m6为扩展标签路径层次比特征,标签路径特征值序列中的元素为<pi,m′1(pi),m′2(pi),m'3(pi),m'4(pi),m'5(pi),m'6(pi)>,pi为第i条标签路径,1≤i≤n,n为标签路径的个数,m′1(pi)为标签路径pi的标签路径长度特征的值,m'2(pi)为标签路径pi的标签路径比特征的值,m'3(pi)为标签路径pi的扩展标签路径长度特征的值,m'4(pi)为标签路径pi的扩展标签路径比特征的值,m'5(pi)为标签路径pi的标签路径层次比特征的值,m'6(pi)为标签路径pi的扩展标签路径层次比特征的值。
为避免使用DS证据理论融合出现悖论现象,令m'k(pn+1)=min(m'k(pi)),min(m'k(pi))表示m'k(p1)、m'k(p2)、m'k(p3)、…、m'k(pn)中的最小值,1≤k≤6,代表标签路径特征系中的六个特征,pi为第i条标签路径,1≤i≤n,n为标签路径的个数;
按照式(1)归一化标签路径特征值序列中的元素:
式(1)中pi为第i条标签路径,1≤i≤n+1,n为标签路径的个数,1≤k≤6,代表标签路径特征系中的六个特征;
归一化标签路径特征值序列中的元素为<pi,m1(pi),m2(pi),m3(pi),m4(pi),m5(pi),m6(pi)>,m1(pi)为标签路径pi的标签路径长度特征归一化后的值,m2(pi)为标签路径pi的标签路径比特征归一化后的值,m3(pi)为标签路径pi的扩展标签路径长度特征归一化后的值,m4(pi)为标签路径pi的扩展标签路径比特征归一化后的值,m5(pi)为标签路径pi的标签路径层次比特征归一化后的值,m6(pi)为标签路径pi的扩展标签路径层次比特征归一化后的值,pi为第i条标签路径,1≤i≤n+1,n为标签路径的个数。
步骤4-2,为标签路径特征系中的每个特征设置权重:
设置文本标签路径长度特征的权重为w1,文本标签路径比特征的权重为w2,扩展文本标签路径长度特征的权重为w3,扩展文本标签路径比特征的权重为w4,文本标签路径层次比特征的权重为w5,扩展文本标签路径层次比特征的权重为w6,且w1+w2+w3+w4+w5+w6=1,具体按如下过程进行:
式(2)、式(3)和式(4)中n为标签路径的个数,1≤k≤6,代表标签路径特征系中的六个特征;按照式(2)、式(3)和式(4)的顺序依次计算文本标签路径长度特征的权重w1,文本标签路径比特征的权重w2,扩展文本标签路径长度特征的权重w3,扩展文本标签路径比特征的权重w4,文本标签路径层次比特征的权重w5,扩展文本标签路径层次比特征的权重w6。
步骤4-3,使用加权DS证据理论按照以下步骤a、步骤b、步骤c、步骤d的顺序融合标签路径特征值序列,式(5)、式(6)、式(7)、式(8)和式(9)中的n为标签路径的个数,k、t、r在融合不同的特征时取值不同;
步骤a,按照式(5)将全局权重转化为局部权重;
步骤b,按照式(6)对特征mk和mt加权平均;
步骤c,按照式(7)或式(8),形成两个新的特征m'k和m′t;如果w'k≥w′t按照式(7)执行,反之按照式(8)执行;
步骤d,按照式(9)融合特征m'k和m′t,得到特征mr,特征的mr权重wr=wk+wt;
取式(5)、式(6)、式(7)、式(8)和式(9)中的k=1,t=2,r=7,依次按照步骤a、步骤b、步骤c和步骤d的顺序执行,融合标签路径长度特征m1和标签路径比特征m2,得到特征m7;
取式(5)、式(6)、式(7)、式(8)和式(9)中的k=3,t=4,r=8,依次按照步骤a、步骤b、步骤c、步骤d的顺序执行,融合扩展标签路径长度特征m3和扩展标签路径比特征m4,得到特征m8;
取式(5)、式(6)、式(7)、式(8)和式(9)中的k=5,t=6,r=9,依次按照步骤a、步骤b、步骤c、步骤d的顺序执行,融合标签路径层次比特征m5和扩展标签路径层次比特征m6,得到特征m9;
取式(5)、式(6)、式(7)、式(8)和式(9)中的k=7,t=8,r=10,依次按照步骤a、步骤b、步骤c、步骤d的顺序执行,融合特征m7和特征m8,得到特征m10;
取式(5)、式(6)、式(7)、式(8)和式(9)中的k=9,t=10,r=11,依次按照步骤a、步骤b、步骤c、步骤d的顺序执行,融合特征m9和特征m10,得到特征m11;
步骤4-4,构建标签路径综合特征值序列;标签路径综合特征值序列中的元素为<pim11(pi)>,pi为第i条标签路径,1≤i≤n,n为标签路径的个数,m11(pi)为标签路径pi的综合特征值。
本实施例中在线Web新闻内容抽取系统是由解析模块、计算模块、融合模块和抽取模块构成,参见图4;
解析模块根据被抽取的Web新闻网页的URL地址获取HTML文本,利用HTML解析器解析HTML文本得到被抽取的Web新闻网页的DOM树;
计算模块是由查找单元、文本节点信息获取单元、标签路径信息获取单元和标签路径特征生成单元构成;查找单元用于遍历DOM树,访问DOM树中的每个节点,查找出文本节点和文本节点的标签路径;文本节点信息获取单元用于构建文本节点信息序列,存储查找单元查找出的文本节点和文本节点的标签路径;标签路径信息获取单元用于构建标签路径信息序列,存储标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;标签路径特征生成单元,根据标签路径信息序列中存储的信息计算每个标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值,得到文本标签路径特征值序列;
融合模块由加权单元和融合单元构成;加权单元用于设置标签路径特征系中每个元素的权重;融合单元根据加权单元设置的权重,利用加权DS证据理论融合每个标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到每个标签路径的综合特征值,最终得到标签路径综合特征值序列;
抽取模块由分配单元、选择单元和抽取单元构成;分配单元根据文本节点信息序列中每个元素的标签路径属性和标签路径综合特征值序列中每个元素的标签路径属性之间的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点的综合特征值序列;选择单元用于设置抽取阈值,依次访问文本节点序列中的每个元素,若元素的文本节点的综合特征值属性的值大于抽取阈值,则标记元素中的文本节点为内容节点;抽取单元,依次抽取选择单元标注为内容节点的文本节点的内容并存储,最终存储的内容为被抽取的Web新闻网页的正文内容。
Claims (3)
1.一种在线Web新闻内容抽取方法,其特征是按如下步骤进行:
步骤1,使用HTML解析器解析被抽取的Web新闻网页,得到被抽取的Web新闻网页的DOM树;
步骤2,遍历所述DOM树,依次访问所述DOM树中的每个节点,构建文本节点信息序列和文本节点的标签路径信息序列;所述文本节点信息序列中的每个元素有两个属性,分别为文本节点和文本节点的标签路径;所述标签路径信息序列中的每个元素有三个属性,分别是文本节点的标签路径、标签路径到达的文本内容和标签路径到达的文本节点的个数;所述标签路径为所述DOM树的根节点到所述依次访问的DOM树中的每个节点的节点序列;
步骤3,根据所述标签路径信息序列和标签路径特征系中每个标签路径特征的定义,通过计算构建标签路径特征值序列;
所述标签路径特征系是由六个不同的标签路径特征组成的,分别是文本标签路径长度特征、文本标签路径比特征、扩展文本标签路径长度特征、扩展文本标签路径比特征、文本标签路径层次比特征和扩展文本标签路径层次比特征;
所述标签路径特征值序列中的每个元素有七个属性,分别是:标签路径、文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值;
所述文本标签路径长度特征为标签路径到达的文本内容中字符的个数;
所述文本标签路径比特征为标签路径到达的文本内容中字符的个数与标签路径到达的文本节点的个数的比值;
所述扩展文本标签路径长度特征为标签路径到达的文本内容中标点符号的个数;
所述扩展文本标签路径比特征为标签路径到达的文本内容中标点符号的个数与标签路径到达的文本节点的个数的比值;
所述文本标签路径层次比特征为标签路径到达的文本内容中字符个数与标签路径的层次数的比值;
所述扩展文本标签路径层次比特征为标签路径到达的文本内容中标点符号的个数与标签路径的层次数的比值;
所述标签路径的层次数为标签路径中标签的个数;
步骤4,使用加权DS证据理论融合标签路径特征值序列,得到标签路径综合特征值序列;所述标签路径综合特征值序列中的每个元素有两个属性,分别是标签路径和标签路径的综合特征值;所述标签路径的综合特征值是利用加权DS证据理论融合标签路径的文本标签路径长度特征的值、文本标签路径比特征的值、扩展文本标签路径长度特征的值、扩展文本标签路径比特征的值、文本标签路径层次比特征的值和扩展文本标签路径层次比特征的值得到的结果;
步骤5,根据所述标签路径综合特征值序列和文本节点信息序列的映射关系,构建文本节点综合特征值序列;所述文本节点综合特征值序列中的每个元素有两个属性,分别是文本节点和文本节点的综合特征值;
步骤6,根据文本节点综合特征值序列抽取Web新闻网页正文内容。
2.根据权利要求1所述的在线Web新闻内容抽取方法,其特征是:所述步骤5中构建文本节点综合特征值序列的方法是:根据所述标签路径综合特征值序列中的每个元素的标签路径属性与所述文本节点信息序列中的每个元素的标签路径属性的对应关系,将标签路径的综合特征值分配给对应的文本节点,作为文本节点的综合特征值,构建文本节点综合特征值序列。
3.根据权利要求1所述的在线Web新闻内容抽取方法,其特征是:所述步骤6根据文本节点综合特征值序列抽取Web新闻网页正文内容的方法是:设置抽取阈值τ,依次访问所述文本节点综合特征值序列中的每个元素,若元素的文本节点的综合特征值大于阈值τ,则抽取元素中的文本节点的文本内容并存储,直至文本节点综合特征值序列中的所有元素都被访问;最终存储的内容为被抽取的Web新闻网页的正文内容。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610055006.8A CN105740370B (zh) | 2013-05-10 | 2013-05-10 | 一种在线Web新闻内容抽取系统 |
CN201310173280.1A CN103246732B (zh) | 2013-05-10 | 2013-05-10 | 一种在线Web新闻内容的抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310173280.1A CN103246732B (zh) | 2013-05-10 | 2013-05-10 | 一种在线Web新闻内容的抽取方法及系统 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610055006.8A Division CN105740370B (zh) | 2013-05-10 | 2013-05-10 | 一种在线Web新闻内容抽取系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103246732A CN103246732A (zh) | 2013-08-14 |
CN103246732B true CN103246732B (zh) | 2016-02-24 |
Family
ID=48926252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310173280.1A Expired - Fee Related CN103246732B (zh) | 2013-05-10 | 2013-05-10 | 一种在线Web新闻内容的抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103246732B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203527A (zh) * | 2016-03-16 | 2017-09-26 | 北大方正集团有限公司 | 新闻网页的正文抽取方法和系统 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559202B (zh) * | 2013-10-08 | 2017-03-15 | 北京奇虎科技有限公司 | 一种网页内容抽取装置和方法 |
CN104182504B (zh) * | 2014-08-18 | 2017-06-06 | 合肥工业大学 | 一种新闻事件的动态跟踪和总结算法 |
CN106326314B (zh) * | 2015-07-07 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 网页信息抽取方法及装置 |
CN105630941B (zh) * | 2015-12-23 | 2018-11-06 | 成都云数未来信息科学有限公司 | 基于统计和网页结构的Web正文内容抽取方法 |
CN107894974A (zh) * | 2017-11-02 | 2018-04-10 | 华南农业大学 | 基于标签路径和文本标点比特征融合的网页正文提取方法 |
CN108647567B (zh) * | 2018-03-29 | 2021-10-29 | 中国人民解放军61540部队 | 基于条件证据理论的场景可识别性分析方法 |
CN109710864B (zh) * | 2018-11-29 | 2020-01-24 | 北京字节跳动网络技术有限公司 | 页面内容划分方法、装置、可读存储介质及电子设备 |
CN111339457B (zh) * | 2018-12-18 | 2023-09-08 | 富士通株式会社 | 用于从网页抽取信息的方法和设备及存储介质 |
CN110704761A (zh) * | 2019-09-25 | 2020-01-17 | 恩亿科(北京)数据科技有限公司 | 网页信息的获取方法和计算机存储介质 |
CN113626028A (zh) * | 2020-05-07 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 一种页面元素的映射方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760150A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 基于属性重现和标签路径的网页抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011063561A1 (en) * | 2009-11-25 | 2011-06-03 | Hewlett-Packard Development Company, L. P. | Data extraction method, computer program product and system |
-
2013
- 2013-05-10 CN CN201310173280.1A patent/CN103246732B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760150A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 基于属性重现和标签路径的网页抽取方法 |
Non-Patent Citations (2)
Title |
---|
Extracting Web News Using Tag Path Patterns;Gongqing Wu等;《IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology》;20121231;第588-595页 * |
基于标签路径聚类的文本信息抽取算法;刘云峰;《计算机工程》;20100630;第36卷(第12期);第83-84、87页 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203527A (zh) * | 2016-03-16 | 2017-09-26 | 北大方正集团有限公司 | 新闻网页的正文抽取方法和系统 |
CN107203527B (zh) * | 2016-03-16 | 2019-06-28 | 北大方正集团有限公司 | 新闻网页的正文抽取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103246732A (zh) | 2013-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103246732B (zh) | 一种在线Web新闻内容的抽取方法及系统 | |
CN106682192B (zh) | 一种基于搜索关键词训练回答意图分类模型的方法和装置 | |
CN104182412A (zh) | 一种网页爬取方法及系统 | |
CN103023714B (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
CN102253930B (zh) | 一种文本翻译的方法及装置 | |
Zheng et al. | Template-independent news extraction based on visual consistency | |
CN105740370A (zh) | 一种在线Web新闻内容抽取系统 | |
CN102591992A (zh) | 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法 | |
CN101520798A (zh) | 基于垂直搜索和聚焦爬虫的网页分类技术 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN106339455B (zh) | 基于文本标签特征挖掘的网页正文提取方法 | |
CN101630330A (zh) | 一种网页分类方法 | |
CN103853760A (zh) | 一种网页正文内容提取方法和装置 | |
CN103389998A (zh) | 一种基于云服务的新型互联网商业情报语义分析技术 | |
CN105630772B (zh) | 一种网页评论内容的抽取方法 | |
CN104978314A (zh) | 媒体内容推荐方法及装置 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
WO2019205705A1 (zh) | 基于语义框架的人机对话方法及系统 | |
CN103970898A (zh) | 一种基于多级规则库的信息提取方法及装置 | |
CN103530429A (zh) | 一种网页正文抽取的方法 | |
WO2023155303A1 (zh) | 网页数据的提取方法和装置、计算机设备、存储介质 | |
CN103246731A (zh) | 基于关联数据的Web服务语义标注方法 | |
CN104317845A (zh) | 一种深度网络数据自动抽取方法及系统 | |
CN102999511A (zh) | 一种页面快速转换方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160224 |