CN101661468B - 一种从论坛帖子列表页面中抽取帖子元数据的方法 - Google Patents

一种从论坛帖子列表页面中抽取帖子元数据的方法 Download PDF

Info

Publication number
CN101661468B
CN101661468B CN2008101192380A CN200810119238A CN101661468B CN 101661468 B CN101661468 B CN 101661468B CN 2008101192380 A CN2008101192380 A CN 2008101192380A CN 200810119238 A CN200810119238 A CN 200810119238A CN 101661468 B CN101661468 B CN 101661468B
Authority
CN
China
Prior art keywords
model
node
forum
original list
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008101192380A
Other languages
English (en)
Other versions
CN101661468A (zh
Inventor
郭岩
丁国栋
曹冬林
王宇
张刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2008101192380A priority Critical patent/CN101661468B/zh
Publication of CN101661468A publication Critical patent/CN101661468A/zh
Application granted granted Critical
Publication of CN101661468B publication Critical patent/CN101661468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种从论坛帖子列表页面中抽取帖子元数据的方法,其包括如下步骤:步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据。本发明能够满足处理大量的大规模论坛数据的实际需求,且抽取精度高、抽取速度快、维护代价小。

Description

一种从论坛帖子列表页面中抽取帖子元数据的方法
技术领域
本发明涉及网络信息抽取方法,特别是一种从论坛帖子列表页面中抽取帖子元数据的方法。
背景技术
网络的飞速发展带来了海量的网络信息,如何抽取所需要的网络信息也越来越被人们所关注。网络信息抽取是指从网页这样的半结构化文档中抽取出结构化信息。这些网页往往由服务器端的应用程序自动生成。网络信息抽取而生成的结构化信息为网络挖掘、网络检索等重要网络应用提供了最基础的分析数据。因此,网络信息抽取方法的研究具有非常重要的现实意义。
用于执行信息抽取任务的程序称为抽取器。
网络信息抽取可以分为两大部分:数据的抽取和数据的集成。数据的抽取是指从半结构化文档中抽取出结构化数据。数据的集成是指为抽取出的数据赋予其含义,如产品的名称、价格等。
从自动化程度的角度分类,网络信息抽取方法主要可以分为三类:手工构造抽取器的方法,基于监督学习的抽取方法,和基于非监督学习的抽取方法。
手工构造抽取器的方法,顾名思义,是需要人工编写抽取程序。这要求用户具备相当专业的计算机和编程知识。因此,该方法并不具有普遍的实用性。
基于监督学习的抽取方法,是先由用户在学习阶段对训练页面标注出要抽取的内容,然后从训练页面中学习出抽取规则,生成抽取器。因为手工标注的代价较高,所以这种方法不适合应用于大规模网站的信息抽取。而且网站的频繁变化,使得维护抽取器需要付出相当大的代价,因此该方法也不适合应用于大量网站的信息抽取。
基于非监督学习的抽取方法,是不需要用户的参与,自动生成抽取器。由于抽取信息的过程是完全自动的,所以非常适用于大规模网站的信息抽取需求。并且抽取器的维护代价非常小,因此该方法适用于大量网站的信息抽取。
网络信息的形式是多种多样的,仅就网络论坛中的信息而言,网络论坛已经成为人们交流信息的重要渠道之一,论坛中的数据越来越受到网络分析者的关注。论坛帖子列表页面中的帖子列表包含了丰富的帖子的元数据,例如发帖子的作者,帖子的标题,发帖时间,帖子的浏览数,帖子的回复数等。这些帖子的元数据为论坛挖掘、论坛检索等后期的分析应用提供了丰富的基础数据。
由于手工构造抽取器的方法和基于监督学习的抽取方法都需要用户参与大量工作,因此对于日益增长的大量论坛数据,采用基于非监督学习的自动抽取方法实现从论坛帖子列表中在线抽取帖子的元数据是合适的。
然而,现有技术中的基于非监督学习的信息抽取方法,都没有考虑利用网络论坛的特征来抽取信息,从而导致使用这些方法从论坛帖子列表页面中抽取帖子的元数据时,无法在抽取精度、抽取速度、维护代价方面满足处理大量的大规模论坛数据的实际需求。
发明内容
本发明的目的是一种从论坛帖子列表页面中抽取帖子元数据的方法,能够满足处理大量的大规模论坛数据的实际需求,其抽取精度高、抽取速度快、维护代价小。
为了上述目的,本发明提供如下技术方案:
一种从论坛帖子列表页面中抽取帖子元数据的方法,包括如下步骤:
步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;
步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据;
其中,所述步骤S1还包括根据样例页面中的帖子记录的组织结构特征,判断样例页面的帖子记录的组织结构类型的步骤,所述步骤S1中根据样例页面中的帖子记录的组织结构特征生成抽取模板的步骤包括:根据样例页面中的帖子记录的组织结构类型,生成与所述样例页面的帖子记录的组织结构类型相对应类型的抽取模板;
所述组织结构类型包括:
第一类型:论坛帖子列表页面对应的标签树中的帖子节点的标签都相同,但不是<div>标签;每个帖子节点在标签树中的深度相同;帖子节点的子节点个数相同,且超过3个;
第二类型:论坛帖子列表页面对应的标签树中的帖子节点的标签都是<div>;帖子节点都具有非空的“class”属性值;帖子节点在标签树中的深度相同;帖子节点的有效子节点个数相同,且超过3个;所述有效子节点是指这样的子节点:该子节点及其子树承载的文本不为空,且该子节点具有非空的“class”属性值;
以及,所述步骤S1具体包括如下步骤:
步骤S11,提供论坛帖子列表页面作为样例页面,建立样例页面的标签树;
步骤S12,根据样例页面的帖子记录的组织结构类型,设定用于分离出帖子节点的分组条件;
步骤S13,遍历标签树的各节点,根据分组条件将标签树中的节点分组;
步骤S14,选择节点数最多的组作为帖子节点组;
步骤S15,根据帖子节点组中节点的特征,生成相应类型的抽取模板。
进一步地,所述步骤S1是在离线状态下提供样例页面,并生成抽取模板。
进一步地,在步骤S12中,当样例页面中的帖子记录的组织结构类型是第一类型时,所述分组条件为:
节点的标签都相同,但不是<div>;节点在标签树中的深度相同;节点的子节点个数相同,且超过3个。
进一步地,在步骤S15中,当样例页面中的帖子记录的组织结构类型是第一类型时,对应的抽取模板包括如下信息:
该抽取模板适用的论坛帖子列表页面中的帖子记录的组织结构类型为第一类型;节点的标签名称;节点在标签树中的深度;节点的子节点个数。
进一步地,在步骤S12中,当样例页面中的帖子记录的组织结构类型是第二类型时,所述分组条件为:
节点的标签都是<div>,且节点都具有非空的“class”属性值;节点在标签树中的深度相同;节点的有效子节点个数相同,且超过3个。
进一步地,在步骤S15中,当样例页面中的帖子记录的组织结构类型是第二类型时,对应的抽取模板包括如下信息:
该抽取模板适用的论坛帖子列表页面中的帖子记录的组织结构类型为第二类型;节点的标签名称;节点在标签树中的深度;节点的有效子节点个数。
进一步地,所述步骤S2具体包括如下步骤:
步骤S21,在线为待抽取帖子元数据的论坛帖子列表页面建立标签树;
步骤S22,遍历标签树的各节点,选择满足抽取模板的节点作为帖子节点;
步骤S23,对每一个帖子节点,从其每个子节点中抽取出相应的帖子记录的各字段,即帖子的元数据。
进一步地,在步骤S21中还包括:判断论坛帖子列表页面中的帖子记录的组织结构类型的步骤;当判断结果为第一类型时,则继续执行步骤S22;当判断结果是第二类型时,所述步骤S22具体包括:遍历标签树的各节点,选择满足该论坛帖子列表页面的抽取模板的节点作为候选帖子节点;判断各候选帖子节点是否具有非空的“class”属性值,如果是,则该候选帖子节点作为帖子节点,否则不作为帖子节点。
进一步地,当所述判断结果是第二类型时,在步骤S23中,所述子节点是指有效子节点。
本发明产生的有益技术效果是:
本发明的从论坛帖子列表页面中抽取帖子元数据的方法充分利用了论坛帖子列表页面的组织结构特征,能够准确地定位到帖子记录,从而使抽取帖子记录的平均准确率可高达98%,从帖子记录中识别帖子元数据的平均准确率可高达100%。因此,本发明在抽取精度方面满足了处理大量的大规模论坛数据的实际需求。
本发明的从论坛帖子列表页面中抽取帖子元数据的方法,采用离线生成抽取模板、利用模板进行在线抽取操作的策略,这种策略使得在线操作时,能够通过已经离线生成的抽取模板准确地定位到帖子记录。本发明在离线生成抽取模板时的平均速度可高达7页/秒,在在线抽取元数据时的平均速度可高达8页/秒。从而在抽取速度方面满足了处理大量的大规模论坛数据的实际需求。
本发明的从论坛帖子列表页面中抽取帖子元数据的方法充分利用了网络论坛的组织结构特征,使得在维护代价方面满足了处理大量的大规模论坛数据的实际需求。原因如下:通常情况下,一个网络论坛中的论坛帖子列表页面的组织结构往往很相似,可以归为同一组,同一组内的论坛帖子列表页面可以共 用同一个抽取模板;且同一组内的论坛页面必然为同一类型(后面将详细描述),如第一类型,或第二类型。较少情况下,一个网络论坛中的论坛帖子列表页面无法归为一组,即无法共用同一个抽取模板,通常可分为n组,仍然是同一组内的论坛帖子列表页面共用同一个抽取模板,且同一组内的论坛帖子列表页面必然为同一类型,如第一类型,或第二类型,通常n小于10。在本发明的抽取帖子元数据方法中,为组织结构相似的一组论坛帖子列表页面生成一个抽取模板只需要选择一个样例页面。因此,在离线生成抽取模板时,对一个论坛网站,往往只需要用户提供一个样例页面,或者在论坛中的各论坛帖子列表页面的组织结构不相似的情况下提供n个样例页面(通常n小于10)。这使得本发明在生成抽取模板和维护抽取模板的方面代价很小。
附图说明
图1是本发明具体实施方式的从论坛帖子列表页面中抽取帖子元数据的方法的概括流程图。
图2是本发明具体实施方式的从论坛帖子列表页面中抽取帖子元数据的方法的部分具体流程图。
图3是本发明具体实施方式的从论坛帖子列表页面中抽取帖子元数据的方法的部分具体流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的从论坛帖子列表页面中抽取帖子元数据的方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的从论坛帖子列表页面中抽取帖子元数据的方法,利用网络论坛在组织结构方面的特征,尤其是论坛帖子列表页面的帖子记录在组织结构方面的特征,使得该方法从论坛帖子列表中在线抽取帖子的元数据时,在抽取精度、抽取速度、维护代价方面能够满足处理大量的大规模论坛数据的实际需求。本发明主要涉及数据的抽取方法,不涉及数据的集成。
在论坛帖子列表页面中,列表中的每一条帖子记录记载了一个帖子的一组 元数据,每一条帖子记录的各个字段分别包含一个元数据,例如发帖子的作者、帖子的标题、发帖时间等。一个网页的HTML(Hypertext Markup Language,超文本标记语言)标签在组织结构上可以用一棵树表达,称为标签树。在论坛帖子列表页面对应的标签树中,包含多个节点,一条帖子记录被一个节点及其子树承载着,这个节点在本发明中被称为帖子节点,不承载帖子记录的节点可以称为非帖子节点。列表中的各条帖子记录在组织结构上是相似的,相应的帖子节点之间也是相似的。
本发明统计了帖子节点的组织结构特征,按照帖子节点的组织结构特征将论坛帖子列表页面分为三类:帖子节点的组织结构类型为第一类型的论坛帖子列表页面,称为Table-Type类型的论坛帖子列表页面;帖子节点的组织结构类型为第二类型的论坛帖子列表页面,称为Div-Type类型的论坛帖子列表页面;和不属于上述两种类型的其他类型论坛帖子列表页面,称为Other-Type类型。下面详细说明各类型的特征:
Table-Type类型的论坛帖子列表页面的特征:论坛帖子列表页面对应的标签树中的帖子节点的标签都相同,但不是<div>标签;每个帖子节点在标签树中的深度相同(即在标签树中的同一层);帖子节点的子节点个数相同,且超过3个。该类型论坛帖子列表页面上的非帖子节点不具备上述三个特征。此类型的论坛帖子列表页面占网络上所有论坛帖子列表页面的60%。
Div-Type类型的论坛帖子列表页面的特征:论坛帖子列表页面对应的标签树中的帖子节点的标签都是<div>;帖子节点都具有非空的“class”属性值;帖子节点在标签树中的深度相同(即在标签树中的同一层);帖子节点的有效子节点个数相同,且超过3个。这里,有效子节点是指这样的子节点:该子节点及其子树承载的文本不为空,且该子节点具有非空的“class”属性值。该类型论坛帖子列表页面上的非帖子节点不具备上述三个特征。此类型的论坛帖子列表页面占网络上所有论坛帖子列表页面的30%。
Other-Type类型的论坛帖子列表页面的特征:不符合Table-Type和Div-Type类型的论坛帖子列表页面都归为此类型。此类型的论坛帖子列表页面占网络上所有论坛帖子列表页面的10%。
本发明的从论坛帖子列表页面中抽取帖子元数据的方法只处理Table-Type类型和Div-Type类型的论坛帖子列表页面,对Other-Type类型的 页面不作处理。当然,本领域技术人员也可以根据本发明的提示,采用本发明的方法对Other-Type类型的论坛帖子列表页面进行处理,但处理的效果可能不如处理另外两种论坛帖子列表页面的效果好。
本发明提供的从论坛帖子列表页面中抽取帖子元数据的方法,如图1所示,包括如下步骤:
步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板。本领域技术人员应当清楚,组织结构相似的论坛帖子列表页面可以共用同一个抽取模板。
步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据。
较佳地,所述步骤S1中是在离线状态下提供样例页面,并生成抽取模板。这样做的好处是使得在线抽取元数据时,能够通过已经离线生成的抽取模板准确地定位到帖子记录,从而加快在线抽取的速度,满足大量的大规模论坛数据的实际需求。
较佳地,所述步骤S1中,还包括根据样例页面中的帖子记录的组织结构特征,判断样例页面的帖子记录的组织结构类型的步骤,所述步骤S1中根据样例页面中的帖子记录的组织结构特征生成抽取模板的步骤包括:根据样例页面中的帖子记录的组织结构类型,生成与所述样例页面的帖子记录的组织结构相对应类型的抽取模板。判断样例页面中的帖子记录的组织结构类型可以通过人工方式,也可以通过编程方式自动统计论坛帖子列表页面的标签树的节点特征来实现;或者通过查看最终抽取的元数据是否为需要的帖子元数据,来确定页面类型及相应的抽取模板是否需要改变。这些方式都是本领域技术人员根据上述提示能够实现的,在此不再赘述。
较佳地,如图2所示,所述步骤S1具体包括如下步骤:
步骤S11,提供论坛帖子列表页面作为样例页面,建立样例页面的标签树;
步骤S12,根据样例页面中的帖子记录的组织结构类型,设定用于分离出帖子节点的分组条件;
判断样例页面中的帖子记录的组织结构类型可以通过人工方式,也可以通过编程方式自动统计论坛帖子列表页面的标签树的节点特征来实现;或者通过 查看最终抽取的元数据是否为需要的帖子元数据,来确定页面类型及相应的抽取模板是否需要改变。
步骤S13,遍历标签树的各节点,根据分组条件将标签树中的节点分组;
步骤S14,选择节点数最多的组作为帖子节点组。
根据对网络中论坛帖子列表页面的标签树的节点统计,可以得出:按照上述分组条件生成的节点组中,节点数最多的组最有可能是帖子节点组。因此,本发明基于分组条件,选择节点数最多的组作为帖子节点组。
步骤S15,根据帖子节点组中节点的特征,生成相应类型的抽取模板;
较佳地,在步骤S12中,当样例页面中的帖子记录的组织结构类型是第一类型时,所述分组条件为:
(1)节点的标签都相同,但不是<div>;(2)节点在标签树中的深度相同(即在标签树中的同一层);(3)节点的子节点个数相同,且超过3个。
较佳地,在步骤S15中,当样例页面中的帖子记录的组织结构类型是第一类型时,对应的抽取模板包括如下信息:
(1)该抽取模板适用的论坛帖子列表页面中的帖子记录的组织结构类型为第一类型,(2)节点的标签名称,(3)节点在标签树中的深度,(4)节点的子节点个数。
较佳地,在步骤S12中,当样例页面中的帖子记录的组织结构类型是第二类型时,所述分组条件为:
(1)节点的标签都是<div>,且节点都具有非空的“class”属性值;(2)节点在标签树中的深度相同(即在树中的同一层);3)节点的有效子节点个数相同,且超过3个。
所述有效子节点是指满足这样条件的子节点:该子节点及其子树承载的文本不为空,且该子节点具有非空的“class”属性值。
较佳地,在步骤S15中,当样例页面中的帖子记录的组织结构类型是第二类型时,对应的抽取模板包括如下信息:
(1)该抽取模板适用的论坛帖子列表页面中的帖子记录的组织结构类型为第二类型,(2)节点的标签名称,即<div>;3)节点在标签树中的深度,(4) 节点的有效子节点个数。
较佳地,所述步骤S2具体包括如下步骤:
步骤S21,在线为待抽取帖子元数据的论坛帖子列表页面建立标签树;
步骤S22,遍历标签树的各节点,选择满足抽取模板的节点作为帖子节点;
步骤S23,对每一个帖子节点,从其每个子节点中抽取出相应的帖子记录的各字段,即帖子的元数据。
当要处理的论坛帖子列表页面中的帖子记录的组织结构是第一类型时,直接执行上述步骤S21至23。
当要处理的的论坛帖子列表页面中的帖子记录的组织结构是第二类型时,上述步骤S22具体包括:遍历标签树的各节点,选择满足该论坛帖子列表页面的抽取模板的节点作为候选帖子节点;判断各候选帖子节点是否具有非空的“class”属性值,如果是,则该候选帖子节点作为帖子节点,否则不作为帖子节点。
由于上述两种情况,因此较佳地,步骤S21还包括:判断论坛帖子列表页面中的帖子记录的组织结构类型;当判断结果为第一类型时,则继续执行步骤S22;当判断结果是第二类型时,上述步骤S22具体包括:遍历标签树的各节点,选择满足该论坛帖子列表页面的抽取模板的节点作为候选帖子节点;判断各候选帖子节点是否具有非空的“class”属性值,如果是,则该候选帖子节点作为帖子节点,否则不作为帖子节点。
当所述判断结果是第二类型时,在步骤S23中,所述子节点是指帖子节点的有效子节点。
重复执行上述步骤S21至S23,可以循环在线处理大量的论坛帖子列表页面。
通常情况下,一个网络论坛中的论坛帖子列表页面的组织结构往往很相似,可以归为同一组,同一组内的论坛帖子列表页面共用同一个抽取模板,且同一组内的论坛帖子列表页面必然为同一类型,如第一类型,或第二类型。较少情况下,一个网络论坛中的论坛帖子列表页面无法归为一组,即无法共用同一个抽取模板(例如共用同一个抽取模板时,无法从有的论坛帖子列表页面中抽取出需要的帖子元数据),通常可分为n组,同样,同一组内的论坛帖子列 表页面共用同一个抽取模板,且同组内的论坛帖子列表页面必然为同一类型,如第一类型,或第二类型,通常n小于10。
通过上面对本发明具体实施方式的描述,可见本发明产生的有益技术效果是:
本发明的从论坛帖子列表页面中抽取帖子元数据的方法充分利用了论坛帖子列表页面的组织结构特征,能够准确地定位到帖子记录,从而使抽取帖子记录的平均准确率可高达98%,从帖子记录中识别帖子元数据的平均准确率可高达100%。因此,本发明在抽取精度方面满足了处理大量的大规模论坛数据的实际需求。
本发明的从论坛帖子列表页面中抽取帖子元数据的方法,采用离线生成抽取模板、利用模板进行在线抽取操作的方法。本发明在离线生成抽取模板时的平均速度可高达7页/秒,在在线抽取元数据时的平均速度可高达8页/秒。从而在抽取速度方面满足了处理大量的大规模论坛数据的实际需求。
本发明的从论坛帖子列表页面中抽取帖子元数据的方法充分利用了网络论坛的组织结构特征,使得在维护代价方面满足了处理大量的大规模论坛数据的实际需求。原因如下:通常情况下,一个网络论坛中的论坛帖子列表页面的组织结构往往很相似,可以归为同一组,同一组内的论坛帖子列表页面可以共用同一个抽取模板;且同一组内的论坛页面必然为同一类型(后面将详细描述),如第一类型,或第二类型。较少情况下,一个网络论坛中的论坛帖子列表页面无法归为一组,即无法共用同一个抽取模板,通常可分为n组,仍然是同一组内的论坛帖子列表页面共用同一个抽取模板,且同一组内的论坛帖子列表页面必然为同一类型,如第一类型,或第二类型,通常n小于10。在本发明的抽取帖子元数据方法中,为组织结构相似的一组论坛帖子列表页面生成一个抽取模板只需要选择一个样例页面。因此,在离线生成抽取模板时,对一个论坛网站,往往只需要用户提供一个样例页面,或者在论坛中的各论坛帖子列表页面的组织结构不相似的情况下提供n个样例页面(通常n小于10)。这使得本发明在生成抽取模板和维护抽取模板的方面代价很小。
以上所述内容,仅为本发明具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (9)

1.一种从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,包括如下步骤:
步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;
步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据;
其中,所述步骤S1还包括根据样例页面中的帖子记录的组织结构特征,判断样例页面的帖子记录的组织结构类型的步骤;所述步骤S1中根据样例页面中的帖子记录的组织结构特征生成抽取模板的步骤包括:根据样例页面中的帖子记录的组织结构类型,生成与所述样例页面的帖子记录的组织结构类型相对应类型的抽取模板;
所述组织结构类型包括:
第一类型:论坛帖子列表页面对应的标签树中的帖子节点的标签都相同,但不是<div>标签;每个帖子节点在标签树中的深度相同;帖子节点的子节点个数相同,且超过3个;
第二类型:论坛帖子列表页面对应的标签树中的帖子节点的标签都是<div>;帖子节点都具有非空的“class”属性值;帖子节点在标签树中的深度相同;帖子节点的有效子节点个数相同,且超过3个;所述有效子节点是指这样的子节点:该子节点及其子树承载的文本不为空,且该子节点具有非空的“class”属性值;
以及所述步骤S1具体包括如下步骤:
步骤S11,提供论坛帖子列表页面作为样例页面,建立样例页面的标签树;
步骤S12,根据样例页面的帖子记录的组织结构类型,设定用于分离出帖子节点的分组条件;
步骤S13,遍历标签树的各节点,根据分组条件将标签树中的节点分组;
步骤S14,选择节点数最多的组作为帖子节点组;
步骤S15,根据帖子节点组中节点的特征,生成相应类型的抽取模板。
2.根据权利要求1所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,所述步骤S1是在离线状态下提供样例页面,并生成抽取模板。
3.根据权利要求1所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,在步骤S12中,当样例页面中的帖子记录的组织结构类型是第一类型时,所述分组条件为:
节点的标签都相同,但不是<div>;节点在标签树中的深度相同;节点的子节点个数相同,且超过3个。
4.根据权利要求3所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,在步骤S15中,当样例页面中的帖子记录的组织结构类型是第一类型时,对应的抽取模板包括如下信息:
该抽取模板适用的论坛帖子列表页面中的帖子记录的组织结构类型为第一类型;节点的标签名称;节点在标签树中的深度;节点的子节点个数。
5.根据权利要求1所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,在步骤S12中,当样例页面中的帖子记录的组织结构类型是第二类型时,所述分组条件为:
节点的标签都是<div>,且节点都具有非空的“class”属性值;节点在标签树中的深度相同;节点的有效子节点个数相同,且超过3个。
6.根据权利要求4或5所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,在步骤S15中,当样例页面中的帖子记录的组织结构类型是第二类型时,对应的抽取模板包括如下信息:
该抽取模板适用的论坛帖子列表页面中的帖子记录的组织结构类型为第二类型;节点的标签名称;节点在标签树中的深度;节点的有效子节点个数。
7.根据权利要求1所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,所述步骤S2具体包括如下步骤:
步骤S21,在线为待抽取帖子元数据的论坛帖子列表页面建立标签树;
步骤S22,遍历标签树的各节点,选择满足抽取模板的节点作为帖子节点;
步骤S23,对每一个帖子节点,从其每个子节点中抽取出相应的帖子记录的各字段,即帖子的元数据。
8.根据权利要求7所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,在步骤S21中还包括:判断论坛帖子列表页面中的帖子记录的组织结构类型的步骤;当判断结果为第一类型时,则继续执行步骤S22;当判断结果是第二类型时,所述步骤S22具体包括:遍历标签树的各节点,选择满足该论坛帖子列表页面的抽取模板的节点作为候选帖子节点;判断各候选帖子节点是否具有非空的“class”属性值,如果是,则该候选帖子节点作为帖子节点,否则不作为帖子节点。
9.根据权利要求8所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,当所述判断结果是第二类型时,在步骤S23中,所述子节点是指有效子节点。
CN2008101192380A 2008-08-29 2008-08-29 一种从论坛帖子列表页面中抽取帖子元数据的方法 Active CN101661468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101192380A CN101661468B (zh) 2008-08-29 2008-08-29 一种从论坛帖子列表页面中抽取帖子元数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101192380A CN101661468B (zh) 2008-08-29 2008-08-29 一种从论坛帖子列表页面中抽取帖子元数据的方法

Publications (2)

Publication Number Publication Date
CN101661468A CN101661468A (zh) 2010-03-03
CN101661468B true CN101661468B (zh) 2011-08-31

Family

ID=41789501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101192380A Active CN101661468B (zh) 2008-08-29 2008-08-29 一种从论坛帖子列表页面中抽取帖子元数据的方法

Country Status (1)

Country Link
CN (1) CN101661468B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467501B (zh) * 2010-10-29 2013-09-18 北大方正集团有限公司 一种从新闻列表页抽取新闻记录元数据的方法及系统
CN103116591B (zh) * 2011-11-17 2016-04-20 北大方正集团有限公司 论坛贴内容抽取方法和装置
CN102867053A (zh) * 2012-09-12 2013-01-09 北京奇虎科技有限公司 收集网站信息中有效信息网页的方法、装置及系统
CN103678373B (zh) * 2012-09-17 2017-11-17 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN103136358B (zh) * 2013-03-07 2016-04-13 宁波成电泰克电子信息技术发展有限公司 一种自动抽取论坛数据的方法
CN104462582B (zh) * 2014-12-30 2017-07-11 武汉大学 一种基于结构和内容二级过滤的Web数据相似性检测方法
CN104933104A (zh) * 2015-05-29 2015-09-23 数据堂(北京)科技股份有限公司 一种元数据采集方法和系统
CN107239520B (zh) * 2017-05-25 2020-07-03 东北大学 一种通用论坛正文提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588371A (zh) * 2004-09-08 2005-03-02 孟小峰 包装器的生成方法
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588371A (zh) * 2004-09-08 2005-03-02 孟小峰 包装器的生成方法
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李魁等.WWW论坛中的动态网页采集.《计算机工程》.2007,第33卷(第6期),80-82. *
梅雪等.一种全自动生成网页信息抽取Wrapper的方法.《中文信息学报》.2008,第22卷(第1期),22-29. *

Also Published As

Publication number Publication date
CN101661468A (zh) 2010-03-03

Similar Documents

Publication Publication Date Title
CN101661468B (zh) 一种从论坛帖子列表页面中抽取帖子元数据的方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN101464905B (zh) 一种网页信息抽取的系统及方法
CN105630768B (zh) 一种基于层叠条件随机场的产品名识别方法及装置
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN110377696A (zh) 一种商品期货新闻舆情分析方法及系统
CN100444591C (zh) 获取网页关键字的方法及其应用系统
CN101571859B (zh) 用于对文档进行标注的方法和设备
CN101763343A (zh) 一种支持格式比对和剽窃检查的文档编辑器原理与方法
KR101638511B1 (ko) 온라인 학습 콘텐츠 저작을 위한 프로그램이 기록된 컴퓨터 판독 가능한 매체 및 온라인 학습 콘텐츠 저작 방법
CN101369208A (zh) 浏览器用户输入区内容的生成方法
Chai et al. Automatically measuring the quality of user generated content in forums
Kim et al. Automatic extraction of apparent semantic structure from text contents of a structural calculation document
Rudzajs Towards automated education demand-offer information monitoring: the system’s architecture
CN114564638A (zh) 一种基于深度图神经网络的新闻收集及自动化提取方法
Jena et al. Data extraction and web page categorization using text mining
Granholm Verksamhetens påverkan på post-adoptiva teknikval
Jäschke et al. Analysis of the publication sharing behaviour in BibSonomy
Dong et al. A generic Web news extraction approach
Xabier Saralegi Kimatu, a tool for cleaning non-content text parts from HTML docs
Zhao et al. Effective blog pages extractor for better UGC accessing
CN103092983B (zh) 电子文件的生成方法及装置
Ding et al. A novel approach to extracting posts qualification from internet
Pothipasa et al. An Integration of Big Data and Blockchain for Strategic Analysis of Schools in Thailand
Aprilius et al. Wiki CS annotation: Performing entity annotation within WordPress plugin

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Guo Yan

Inventor after: Ding Guodong

Inventor after: Cao Donglin

Inventor after: Wang Yu

Inventor after: Zhang Gang

Inventor after: Cheng Xueqi

Inventor before: Guo Yan

Inventor before: Ding Guodong

Inventor before: Cao Donglin

Inventor before: Wang Yu

Inventor before: Zhang Gang

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: GUO YAN DING GUODONG CAO DONGLIN WANG YU ZHANG GANG TO: GUO YAN DING GUODONG CAO DONGLIN WANG YU ZHANG GANG CHENG XUEQI