CN103020170A

CN103020170A - 一种web信息抽取方法

Info

Publication number: CN103020170A
Application number: CN 201210490141
Authority: CN
Inventors: 宗竞
Original assignee: JIANGSU LEMAIDAO NETWORK TECHNOLOGY Co Ltd
Current assignee: JIANGSU LEMAIDAO NETWORK TECHNOLOGY Co Ltd
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2013-04-03

Abstract

本发明公开了一种WEB信息抽取方法，该方法基于语义标记，包括正文抽取方法和评论抽取方法，通过将语义标记与页面的布局特征相结合，构造了页面的线性序列表示模型，根据多条评论和其语义标记之间存在明显的重复性原理获得评论回复区间，获得回复区间后即可抽取出网页的多条评论。该方法可以实现网站信息的准确抽取，并有效提高抽取效率。

Description

一种WEB信息抽取方法

技术领域

本发明属于计算机网络技术领域，尤其涉及一种网络中WEB信息抽取方法。

背景技术

伴随着Internet和计算机的普及和广泛使用，现实生活中的纸质存档信息都以电子文档的形式存储在计算机和网络上，同时Internet中产生的数据呈井喷式的增长，各大领域信息均出现在不同站点的Web页面上和数据库中。但存储在不同网点上的网页信息主要以半结构化或者非结构化的HTML语义的形式出现，因此不能用于直接分析处理。将Web页面上有用的数据提取出来，是如今网络舆情分析系统方面的研究热点。随着网络购物的发展，对Web页面信息的抽取技术提出的更高的要求。

Web信息抽取技术（Information Extraction）就是把网页里包含的某些特定信息如用户名、发表时间、IP地址、正文、评论、商品价格等信息抽取出来，进行结构化处理，组织成表格一样的形式存入数据库中。信息抽取系统的主要功能是从文本中抽取出符合特定目标的事实信息。通常，被抽取出来的信息的描述形式为结构化的数据结构，可以直接存入数据库中，供用户查询以及进一步的分析利用。信息抽取技术的初始研究开始于20世纪60年代，这个时期主要的研究是提取自然语言文本。

随着Web技术的快速发展，网络用户可以自由的针对特定的事件或对象在网页中发表自己的观点和看法，这使得网络用户评论以惊人的速度增长并且覆盖了现实世界的各个领域，如经济、政治、娱乐、网络购物等。网络用户发表的评论信息是许多应用的重要信息来源，如网络舆情的检测与分析，这些应用需要一种准确高效的方法从大量不同的网站中收集舆情信息。

随着国家对互联网安全的重视，涌现出了网络攻击、舆情、邮件等各层面的监控分析系统，为网络有害事件的发现、处理和评估提供了有力支持。但因这些信息具有海量性、定向性和复杂性等特点，除发现能力外，这些系统对有害事件的调查、取证等能力有限，目前仍然是依赖人工进行用户行为重建，办案效率低、周期长，只能采取重点突破的方式。

现有的技术中对网络组织的研究很少，缺乏相应的技术监控手段支持，人工分析更无法满足网络组织这种大范围、有组织、长程关联的行为分析，现有的网络组织发现技术零散的分布在舆情分析产品和文献中。

为此需要对这些监控数据进行综合分析。Web信息抽取技术的研究是对这些数据进行综合分析的一个基础性工作。只有将Web网页中的相关信息很好的抽取出来，才能在舆情分析、搜索引擎等方面得到更好的应用。通过利用IP地址、采集信息、账户资料、页面分析、使用时间、发布周期、地理分布、信息倾向性等多元数据进行信息抽取和特征分析，从而可以为决策人员提供更丰富的、多视角的、综合的调查材料。

发明内容

为了克服上述背景技术中的不足之处，本发明提出了一种web信息抽取方法，该方法基于语义标记，包括正文抽取方法和评论抽取方法，其特征在于包括所述正文提取方法分成以下步骤实现：

第一步，设从线性序列的头开始顺序遍历，遇到第一个F2评论属性的语义标记停止，则最后一个F2正文属性的语义标记节点的位置为POSlast，第一个具有F3评论属性的语义标记节点的位置为POSfirst；

第二步，将页面线性序列中0..POS_first-1的子序列设为初始正文区，在该区域内选择一个信息量最大的文本块作为正文内容，设该正文内容节点对应的位置为POS_article；

第三步，将调整后的正文区序列区间的终止位置设置为POS_last=max(POS_last，POS_article)；

第四步，评论区序列区间的起始位置设置为POS_first=max(POS_last，POS_article)+1，从而完成正文区和评论区的切分；

其中，F2是表示正文结束特征的语义标记, F3是表示评论开始特征的语义标记。

根据本发明的技术方案，还包括所述评论抽取方法具体包括步骤：

(1)多条评论的抽取模型，确定评论区后，评论区内线性序列的语法模型就简化为F3* (F3*C_RF3*)*F4，该模式反映评论区的多条评论具有周期性重复的特征；

(2)评论抽取方法，依据上面OneReview的初始区间确定和起始位置计算的思想，已经可以确定一条评论回复序列的完整区间模式，进而就可以利用这个模式序列去识别评论区的所有其他评论；

其中F1是说明正文开始特征的语义标记，F3是表示评论开始特征的语义标记，F4是表示评论结束特征的语义标记，C_T为正文内容，C_R为每个评论回复的内容。

根据本发明的技术方案，还包括还包括所述多条评论的抽取模型的提取过程分为两个步骤；

首先，在评论区序列ReviewList中选择出现次数最多的语义标记对应的位置序列，则相邻两个位置Pos_i和Pos_i+1之间就确定了一个完整评论回复包含的所有节点信息，只是评论信息的起点不一定是所选的语义标记，将Pos_i..Pos_i+1-1序列区间称为OneReview，即单条评论区间；

其次，选定OneReview后，需要沿ReviewList从OneReview的起始位置向前逐一回溯语义标记，如果回溯的语义标记与OneReview区间内的最后一个语义标记相同，则将OneReview区间的起点和终点均前移一个位置，如此循环，直到到达评论区起始点或者回溯的语义标记与OneReview区间内的最后一个语义标记不同为止，此时的OneReview就是起点正确的评论回复区间。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通常，人在理解网页时，会利用页面上诸如“标题、正文”等具有特殊含义的短语来定位标题、正文、评论等信息的位置。语义标记就是指网页中有特定含义的、具有明确功能语义指示作用的短语，如“上一篇、下一篇、评论”等，语义标记的含义和布局往往是人们理解网页的基本出发点。

本申请提出一种基于语义标记的正文提取方法，构造如下的切分过程：

第一步，设从线性序列的头开始顺序遍历，遇到第一个F2评论属性的语义标记停止，则最后一个F2正文属性的语义标记节点的位置为POS_last，第一个具有F3评论属性的语义标记节点的位置为POS_first；

第四步，评论区序列区间的起始位置设置为POS_first=max(POS_last，POS_article)+1，从而完成正文区和评论区的切分。该方法可以切分一般情况的正文和评论，还可以将正文内容和第一条评论内容直接相联，既C_T和C_R直接相邻而没有语义标记分割的特殊情况一起处理。

评论作为一种能够表达人们想法的正文回复方式，已经得到了广泛的应用。大部分网页无论是作为主题类的新闻，还是博客类型、论坛类型的网页都有着评论回复。本申请中基于语义标记的评论抽取方法有着一个基本的原则：评论数量最好在3条或3条以上，因为在基于信息安全的基础上，当评论数量少于3条时，就可以认定为这个网页的信息是不重要的，不能够引起网民的共鸣，因此在网络舆情监控上面是可以忽略的。

目前的页面基本都是由程序根据数据库内容自动生成的，其页面结构相对较为规范，在此前提下，文中给出了单层回复模式下，网页的基本语法模型为F1* C_TF2*F3*(F3*C_RF3*)*F4，其中F1是说明正文开始特征的语义标记，F2是表示正文结束特征的语义标记，F3是表示评论开始特征的语义标记，F4是表示评论结束特征的语义标记，C_T为正文内容，C_R为每个评论回复的内容。

下面将分两步来阐述这个方法。

(1)多条评论的抽取模型

确定评论区后，评论区内线性序列的语法模型就简化为F3* (F3*C_RF3*)*F4，该模式反映评论区的多条评论具有周期性重复的特征。在一个单层回复的网页中，每条评论信息都有着相同的模式。因此可以将多条评论的提取过程分为两个步骤。

首先在评论区序列ReviewList中选择出现次数最多的语义标记对应的位置序列，则相邻两个位置Pos_i和Pos_i+1之间就确定了一个完整评论回复包含的所有节点信息，只是评论信息的起点不一定是所选的语义标记，我们将Pos_i..Pos_i+1-1序列区间称为OneReview，即单条评论区间。

语义标记是出现次数最多的语义标记之一，因为时间是相对稳定的语义标记标识，所以选择11到16两个相邻位置的“YYYY-MM-DD HH：MM:SS”语义标记，则确定的OneReview区间为11..15，该区间内的所有语义标记就确定了一个“YYYY-MM-DD HH：MM:SS、发布者、举报、回复”的重复序列。在回溯的方式中，可以进一步识别出单条评论的正确起始语义标记为“发布者”，因此后面需要计算OneReview区间的正确起始位置。

其次，选定OneReview后，需要沿ReviewList从OneReview的起始位置向前逐一回溯语义标记。如果回溯的语义标记与OneReview区间内的最后一个语义标记相同，则将OneReview区间的起点和终点均前移一个位置，如此循环，直到到达评论区起始点或者回溯的语义标记与OneReview区间内的最后一个语义标记不同为止，此时的OneReview就是起点正确的评论回复区间了。初始回复序列位11-15，经过3次正确回溯，初始回复序列区间调整为6-10，但第4次回溯时，回溯位置5为“回复（3）”语义标记，它与OneReview最后的位置10的“时间格式”语义标记不同，所以结束回溯，并且确定最终的评论回复区间序列为6-10，其语义标记序列为“发布者、举报、回复、YYYY-MM-DD HH：MM:SS”。

(2)评论抽取方法

依据上面OneReview的初始区间确定和起始位置计算的思想，已经可以确定一条评论回复序列的完整区间模式，进而就可以利用这个模式序列去识别评论区的所有其他评论了。

本发明将语义标记与页面的布局特征相结合，构造了页面的线性序列表示模型，根据多条评论和其语义标记之间存在明显的重复性原理获得评论回复区间，获得回复区间后即可抽取出网页的多条评论。

需要说明的是，以上实施例仅是对本发明技术方案的示例性描述，而并不是对本发明的限制；尽管参照上面的实施例对本发明进行了详细的说明，但是，本领域的普通技术人员应当可以完全理解的是，在不脱离由本发明的权利要求书限定的保护范围已经精神的前提下，可以对上述实施例所记载的技术方案进行修改或者对其中部分技术特征进行等同替换，这些都应该属于本发明的保护范围。

Claims

1.一种WEB信息抽取方法，该方法基于语义标记，包括正文抽取方法和评论抽取方法，其特征在于：所述正文提取方法分成以下步骤实现：

第一步，设从线性序列的头开始顺序遍历，遇到第一个F2评论属性的语义标记停止，则最后一个F2正文属性的语义标记节点的位置为POSlast，第一个具有F3评论属性的语义标记节点的位置为POS_first；

其中，F2是表示正文结束特征的语义标记,F3是表示评论开始特征的语义标记。

2.根据权利要求1所述的方法，其特征在于还包括所述评论抽取方法具体包括步骤：

其中F1是说明正文开始特征的语义标记， F4是表示评论结束特征的语义标记，C_T为正文内容，C_R为每个评论回复的内容。

3.根据权利要求2所述的方法，其特征在于还包括所述多条评论的抽取模型的提取过程分为两个步骤；

首先在评论区序列ReviewList中选择出现次数最多的语义标记对应的位置序列，则相邻两个位置Pos_i和Pos_i+1之间就确定了一个完整评论回复包含的所有节点信息，只是评论信息的起点不一定是所选的语义标记，将Pos_i..Pos_i+1-1序列区间称为OneReview，即单条评论区间；