CN103136358A

CN103136358A - 一种自动抽取论坛数据的方法

Info

Publication number: CN103136358A
Application number: CN2013100720987A
Authority: CN
Inventors: 郭成林; 彭春林; 刘红玉; 高云棋; 刘丹
Original assignee: NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2013-03-07
Filing date: 2013-03-07
Publication date: 2013-06-05
Anticipated expiration: 2033-03-07
Also published as: CN103136358B

Abstract

本发明公开了一种从论坛帖子中抽取数据的方法，按照如下步骤：a根据论坛网页结构的特点，用网页结构聚类的方法，识别网页帖子页面；b根据网页帖子的簇的相似子树的数量变化，计算该簇内所有同路径下的相似子树的熵，来定位条目信息；c构建帖子页面可视字串的特征集，利用统计特征对特征集进行划分，然后利用先验知识对具体的可视字串代表的含义，并生成模板；d利用模板解析网页，完成最终的提取。

Description

一种自动抽取论坛数据的方法

技术领域

本发明属于网络信息处理技术领域，涉及网络信息的抽取技术，尤其涉及一种自动抽取论坛数据的方法。

背景技术

论坛是一种一个人发表一个话题或者评论，下面可以有多人评论或者回复的网页信息发布模式。网页主题内容网页结构单一，大多以条目信息的形式列出，条信息由网页模板生成，通常包括作者、发帖内容及发贴时间等有效信息。无论是发帖人条目还是回复条目，结构上都有较高的一致性。

另外，论坛具有用户量大和信息增加迅速等特点。中国互联网络信息中心2012年发布的《第29次中国互联网络发展状况统计报告》指出：微博网民的比例达到48.7%，论坛（BBS）使用比例28.2%。根据2010年官方公布数据显示，新浪微博每天发博数超过2500万条，加上包括论坛在内的社交网络和论坛网页数量庞大和种类繁多等特点，论坛信息抽取方法的研究具有非常重要的现实意义。

论坛信息抽取的目标主要是抽取用户名、表发时间、发表楼层以及发表内容等项目。有效的利用这些信息对于评论型网站的内容分析有着重要意义，比如用于舆情分析或者产品评论挖掘等。

网页数据处理的方法主要包括数据抽取和数据集成。数据抽取是指从半结构化文档中抽取结构化数据，数据集成是指对抽取的数据赋予含义，如将其抽象为产品的名称、价格等。

现有的网页数据抽取的主要方法如下：1、手工方法：通过观察网页及其源代码，由编程人员找出一些模式，再根据这些模式编写程序以抽取目标数据，为了简化过程，人们还构建了集中模式规范语言及其用户界面，然而，这种方法很难处理好站点数量巨大的情形；2、包装器归纳：也是一种有监督学习方法，属于半自动抽取方法，这种方法起始于1995至1996年间，主要是从手工标注的网页或数据记录中集中学习一组抽取规则，然后将这组规则用于具有类似格式的网页的数据抽取；3、自动抽取：属于无监督抽取方法，始于1998年，主要步骤是给定一张或数张网页，这种方法自动从中寻找模式或语法，以便进行数据抽取。由于这种方法不需要手工标注，所以它可以处理大量的站点和网页的数据抽取工作。

然而，由于网站种类众多且风格各异，现有的信息处理方法对于大规模网站的数据自动抽取并集成难以完成，而且对网页结构变化的适应能力不够。

论坛网站内容在web网站中很大比例，准确有效的抽取对应数据有着重要的作用。而论坛网站由于其自身的特点导致其数据抽取与普通网页有所不同。

发明内容

为了解决现有的论坛数据处理方法无法有效完成对大规模网站的数据自动提取及对网页结构变化适应能力差的不足，提出了一种自动抽取论坛数据的方法。

本发明的技术方案如下：

一种自动抽取论坛数据的方法，包括下述步骤：

a、识别主贴页面：对给定url的网页的进行抓取并根据网页结构进行聚类，找出帖子页面；

b、条目定位：计算与帖子页面所在的类同一路径下的相似子树的个数的信息熵，其中熵的最大值的路径为条目在标签树中的路径；

c、识别内容并生成抽取模版：对条目可视字串特点建立特征向量，再根据特征向量划分数据集，最后区分可见词代表的意义并生成抽取模板；

d、利用抽取模板抽取论坛数据。

具体的，步骤a包括以下步骤：

a1、抓取网页；

a2、清洗网页并建立标签树：去除<script></script>、<style></style>和标签的内容并建立标签树，以html作为标签树的根；

a3、从根节点开始对标签树层次遍历并赋予权值：初始权值为1，分支节点权值value=1+log(layer)，其中layer为节点所在的层数；

a4、计算相似度：将在步骤a3被赋予权值的网页的标签树转换为key：value格式的字典，其中key为树的根到该节点的路径，value所述权值，对于重复出现的路径key使用自加标号加以区分；

a5、确定最大相似度：网页m与对其具有最大相似度的网页n的相似度为Sim(m，n)；

a6、判断相似度Sim(m，n)与设定阈值的关系，若相似度Sim(m，n)不小于设定阈值则将网页m聚合到网页n的簇中，若相似度Sim(m，n)小于设定阈值则新建簇并将网页m放入其中。

进一步的，步骤b包括以下步骤：

b1、根据标签树统计子节点数量；

b2、生成key1：value1型路径字典：其中key1为树的根到该节点的路径，value1为簇内所有网页的在该路径上的孩子数；

b3、计算信息量：使用香农的熵公式计算步骤b2中路径字典的value1所代表的信息量。

更进一步的，步骤c包括以下步骤：

c1、对条目可视字串建立四维特征向量；

c2、根据特征向量划分数据集；

c3、对可视字符串赋予含义并形成抽取模版。

其中，步骤c1所述的四维特征向量为F1、F2、F3和F4，具体的：

F1：是否为数字；

F2：长度；

F3：是否为时间格式，时间格式的判定主要通过人工方式收集大多数网站的时间表述格式，生成正则表达式，并按改格式转换为时间戳计算方法；

F4：是否为超链接文字；

其中，F1、F2、F3和F4为所述四维特征向量的四个维度符号。

本发明的有益效果：本发明的方法通过识别贴页面及利用定位算法定位贴子内容条目等操作，再利用特征分类进行区分作者等信息的位置并生成抽取模板，该模版可以准确的抽取作者、发表时间和发表内容等有效信息。本方法能适用于绝大多数论坛如phpwind、discuz等通用论坛以及百度贴吧、天涯、qq社区及凯迪论坛等非通用论坛，不需要修改任何代码，也不需要人工干预的抽取方法，可有效的应用于真实的论坛抽取工作。

附图说明

图1为本发明论坛抽取数据的流程。

图2为本发明网页结构聚类算法的流程。

图3为本发明条目定位的流程。

图4为本发明内容抽取的流程。

具体实施方式

为使本发明的目的、技术方案及有益效果更加清楚明白，以下参照附图并举实施例，对本发明做进一步详细说明。

在本实施例中提出的一种自动抽取论坛数据的方法，首先通过爬虫爬取一定数量的网页，然后对同一站点下的网页聚类，找出贴子页面所在的类别，接着针对贴子页面的结构变化特点定位内容条目所在的位置，最后通过层层剥离的方式抽取有效数据。

如图1所述为本实施例的抽取流程，其具体步骤如下：

a、识别主贴页面：对给定url的网页的进行抓取并根据网页结构进行聚类，找出帖子页面。其原理是，采用上述具体实施方式中提供的方案可以将网页结构相似的网页聚为同一类别。因为帖子页面占论坛页面的比重超过90%，所以最大簇即为帖子页面所在的簇。通过此步骤可以完成对帖子页面的识别。

d、利用抽取模板抽取论坛数据。

由于在通过计算机编程实现的过程中，同一抽取方法在不同的平台下具有不同的形式，本实施例进一步提供基于其中一种平台的步骤a的一种实现方法，其流程如图2所示，具体包括以下步骤：

a1、抓取网页；

a4、计算相似度：将在步骤a3被赋予权值的网页的标签树转换为key：value格式的字典，其中key为树的根到该节点的路径，value所述权值，然后计算所述网页的字典和已加入最大簇的网页字典的余弦相似度。对于重复出现的路径key使用自加标号加以区分，例如一个<div><p></p><p></p></div>，两个key为div.p和div.p1。

以下为步骤b的一种具体实现方式，流程如图3所示，具体包括以下步骤：

b1、根据标签树统计子节点数量；

b3、计算信息量：使用香农的熵公式计算步骤b2中路径字典的value1的熵，也即其所代表的信息量，该熵表示树结构在最大相似子节点数的变化程度。对于论坛的网页结构，变化最大的就是条目，变化程度最大的分支即为条目所在位置。在计算孩子节点时也要考虑孩子节点的相似度问题，取最大相似的孩子数量作为孩子节点的数量。

进一步的，作为一种具体实施方式，步骤c包括以下步骤：

c1、对条目可视字串建立四维特征向量；

c2、根据特征向量划分数据集；

c3、对可视字符串赋予含义并形成抽取模版。

其中，步骤c1所述的四维特征向量为F1、F2、F3和F4，具体的：

F1：是否为数字；

F2：长度；

F3：是否为时间格式，时间格式的判定通过人工方式收集网站的时间表述格式，生成正则表达式，并按改格式转换为时间戳计算方法；

F4：是否为超链接文字；

将特征向量放入路径字典中，计算所有路径上所有字串的熵，熵小于0.4的字串直接排除；其中，F1、F2、F3和F4为所述四维特征向量的四个维度符号。

对于抽取作者等信息的步骤为：

S1、选取网页并建立簇字典：字典为key2：value2型结构，其中key2表示路径，value2为簇内每一个网页在这个路径上的特征列表；

S2、抽取可视字串：可视字串为可以再直接网页上显示的字串，非javascript生成的字串，一般为一对标签中间的内容；

S3、建立特征向量P，其中各维度向量符号为P1、P2、P3、P4和P5，含义如下：

P1：为是否为数字；

P2：长度；

P3：是否为时间格式：人工收集部分网站的时间表述格式，生成正则表达式，并按格式转换为时间戳计算方法；

P4：是否为超链接文字；

P5：标签属性数值，如果没有则空；

然后将特征向量放入路径字典中，利用路径字典计算字串的熵来过滤无效信息。

S4、将特征向量归入总特征字典形成特征集，然后从特征集收集数据特征和特征集，通过先验知识识别对应内容。

其中，步骤S3对无效信息的过滤首先要计算所有路径上所有字串的熵，熵小于0.4的均视作为无意义的内容，可以直接排出，此过程对于论坛无效信息的过滤起了重要的作用。如果加入路径的条目数据量足够大，经过过滤后的信息均为有效信息。

另外，注册时间和发表时间主要根据步骤S4抽取的作者信息和内容信息的距离计算长度加以区分：距离作者近的为注册时间，距离正文近的即为发表时间。

关于步骤S4中发表内容的识别由于发表内容的可视字串是分散在每个不同的路径中的，所以要对所有网页结构分析，计算所有孩子节点的数，然后通过熵的计算，找出其内容的父节点，父节点的所有可视子节点串为发表内容的正文部分。

为了使步骤S4关于作者识别的方法更加清理，这里另外提供一种作者识别的方法，具体为通过作者的特征判别。更具体的，作者应该具备以下特征：非数字，长度大小变化的熵很小，为超链接。通过以上步骤可以准确的找出作者等信息的路径进而生成抽取模板。分别用路径表表示作者等信息的位置和属性特征。抽取新网页时，直接查找对应url的模板，若匹配到则直接用模板抽取，若未匹配到则自动执行步骤a到步骤d生成对应的抽取模板，并将标签的属性值如class、id及style等作为校验值，验证识别是否正确，若不正确则可以用标签位置的路径做进一步识别。

在本发明公开的方案中，步骤a3为一个重要的方面，根据网页结构的特点，分支节点的变化可以有效的区分出。因为对于相似度较高的网页结构提高分支节点的权值可以有效果提高网页结构的区分度，具体通过加大网页结构的jaccard距离的值，使从根节点到叶子节点对于网页结构的相似性的影响依次递增，有效的加强孩子节点对网页相似性的影响。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种自动抽取论坛数据的方法，包括下述步骤：

c、识别内容并生成抽取模版：根据条目可视字串建立特征向量，再根据特征向量划分数据集，最后区分可见词代表的意义并生成抽取模板；

d、利用抽取模板抽取论坛数据。

2.根据权利要求1所述的一种自动抽取论坛数据的方法，其特征在于所述步骤a包括以下步骤：

a1、抓取网页；

a4、计算相似度：将在步骤a3被赋予权值的网页的标签树转换为key：value格式的字典，其中，key为树的根到该节点的路径，value所述权值，对于重复出现的路径key使用自加标号加以区分；

3.根据权利要求1所述的一种自动抽取论坛数据的方法，其特征在于所述步骤b包括以下步骤：

b1、根据标签树统计子节点数量；

b2、生成key1：value1型路径字典：其中，key1为树的根到该节点的路径，value1为簇内所有网页的在该路径上的孩子数；

4.根据权利要求1所述的一种自动抽取论坛数据的方法，其特征在于所述步骤c包括以下步骤：

c1、对条目可视字串建立四维特征向量；

c2、根据特征向量划分数据集；

c3、对可视字符串赋予含义并形成抽取模版。

5.根据权利要求4所述的一种自动抽取论坛数据的方法，其特征在于步骤c1所述的四维特征向量为F1、F2、F3和F4，具体的：

F1：是否为数字；

F2：长度；

F4：是否为超链接文字；

其中，F1、F2、F3和F4为所述四维特征向量的四个维度符号。