CN108416048A

CN108416048A - 一种面向词典集的复杂从属结构网页信息抽取方法及系统

Info

Publication number: CN108416048A
Application number: CN201810220100.3A
Authority: CN
Inventors: 赵姝; 刘洋; 陈洁; 段震; 陈喜; 张燕平
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2018-08-17
Anticipated expiration: 2038-03-16
Also published as: CN108416048B

Abstract

本发明公开了一种面向词典集的复杂从属结构网页信息抽取方法：根据页面标识判断页面是否完整并返回目标完整html页面；根据语义相关性将预设语种主标题挂接至定义的规则表示词典集中对应的规则表示中，生成全表示词典集；从复杂从属结构页面下提取全文本内容并最终形成目标文本内容，并用规则表示词典集中的规则表示替换全表示词典集分割目标文本内容得到包含每个规则表示子集的全分割复杂从属文本集；合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容；基于新发布页面重新抽取主标题内容动态扩充全表示词典集。本发明解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题。

Description

一种面向词典集的复杂从属结构网页信息抽取方法及系统

技术领域

本发明涉及文本信息提取技术领域，尤其涉及一种面向词典集的复杂从属结构网页信息抽取方法及系统。

背景技术

现如今，互联网技术高速发展，互联网上的数据呈爆炸式增长。网页信息抽取(网络爬虫)旨在从互联网上海量参差不齐的数据中爬取所需的有用数据以供研究或使用。

大部分网站的数据存在明确的从属关系，可根据DOM树的从属结构从固定位置筛选出可用信息。而针对不同的站点或站点间的数据从属结构不明确或相对复杂时，难以准确的知道所需数据的从属结构或表示方式，目前的爬取技术难以解决复杂从属结构的爬取问题。如在某些组织的招聘要求中，有教育背景、工作经历、技能、待遇、语言、附加要求等等信息，而在不同的组织招聘要求或同一组织的不同岗位中，这些信息伴随着不同的从属结构：可能这些信息都在同一级别的标签中独立出现；可能教育背景和语言信息包含在技能下是技能要求的子内容；相同内容的表示方式也可能不同。

发明内容

基于背景技术存在的技术问题，本发明提出了一种面向词典集的复杂从属结构网页信息抽取方法及系统。

本发明提出的面向词典集的复杂从属结构网页信息抽取方法，包括以下步骤：

S1、根据页面标识判断页面是否完整，若是，直接生成目标完整html页面，若否，利用splash技术动态渲染js脚本后返回目标完整html页面；

S2、定义规则表示词典集，抽取待爬取站点主标题且将不同国际语言主标题转换为预设语种主标题，并根据语义相关性将上述预设语种主标题挂接至规则表示词典集中对应的规则表示中，生成全表示词典集；

S3、从目标完整html页面中提取复杂从属结构下全文本内容并去除无效字符形成目标文本内容，基于全表示词典集分割目标文本内容，并用规则表示词典集中的规则表示替换，得到包含每个规则表示子集的全分割复杂从属文本集；

S4、合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容；

S5、在预设时间内基于新发布页面重新抽取主标题内容动态扩充全表示词典集。

优选地，步骤S1具体包括：

选取完整加载的html页面的特有内容作为页面标识，并基于上述特有内容判断页面是否有待解析的js脚本来判断页面是否完整，若无待解析的js脚本，直接生成目标完整html页面，若有待解析的js脚本，利用splash技术动态渲染js脚本后返回目标完整html页面。

优选地，步骤S2中，所述规则表示词典集为页面从属结构中顶级标题的对比集和页面文本的替换集；

所述全表示词典集为对规则表示词典集的一个分割子集合扩充。

优选地，步骤S3中，所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容；

优选地，步骤S3中，从目标完整html页面中提取复杂从属结构下全文本内容时，同级别对待所有从属结构下文本并保留原顺序。

优选地，步骤S5具体包括：

定义一个全表示词典集扩充间隔的时间戳，当进入时间戳时，重新抽取新发布页面的主标题，并判断主标题内容中与规则表示词典集中相同规则表示的内容是否已存在其对应的全表示词典集的子表示中，若不在，则将新发布页面的主标题内容转换为预设语种主标题后扩充至全表示词典集。

本发明提出的面向词典集的复杂从属结构网页信息抽取系统，包括：

页面判断模块，用于根据页面标识判断页面是否完整，若是，直接生成目标完整html页面，若否，利用splash技术动态渲染js脚本后返回目标完整html页面；

词典集生成模块，用于定义规则表示词典集，并抽取待爬取站点主标题且将不同国际语言主标题转换为预设语种主标题，且根据语义相关性将上述预设语种主标题挂接至规则表示词典集中对应的规则表示中，生成全表示词典集；

文本集调整模块，用于从目标完整html页面中提取复杂从属结构下全文本内容并去除无效字符形成目标文本内容，基于全表示词典集分割目标文本内容，并用规则表示词典集中的规则表示替换，得到包含每个规则表示子集的全分割复杂从属文本集；

文本集合并模块，用于合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容；

词典集扩充模块，用于在预设时间内基于新发布页面重新抽取主标题内容并转换为预设语种主标题后动态扩充全表示词典集。

优选地，页面判断模块具体用于：

优选地，词典集生成模块中，所述规则表示词典集为页面从属结构中顶级标题的对比集和页面文本的替换集；

优选地，文本集调整模块中，所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容；

优选地，文本集调整模块中，从目标完整html页面中提取复杂从属结构下全文本内容时，同级别对待所有从属结构下文本并保留原顺序。

优选地，词典集扩充模块具体用于：

本发明针对多站点复杂从属结构类抽取任务提出了词典集的概念，解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题；本发明利用完整精确的词典集中的每个子表示来替换复杂从属结构下的页面内容，以生成“规则表示-规则表示文本内容”的平行化信息再处理，实现在不考虑复杂从属结构的前提下分析和提取本属于复杂从属结构下的信息的操作，大大降低了直接从复杂从属结构中提取信息的解析难度。进一步地，本发明还以与站点交互的方式动态扩充全表示词典集，使全表示词典集保持富足内容方便爬虫的后续爬取操作，提高复杂从属结构下页面内容平行化的精确性。

附图说明

图1为一种面向词典集的复杂从属结构网页信息抽取方法的步骤示意图；

图2为一种面向词典集的复杂从属结构网页信息抽取系统的步骤示意图。

具体实施方式

如图1、图2所示，图1、图2为本发明提出的一种面向词典集的复杂从属结构网页信息抽取方法及系统。

参照图1，本发明提出的面向词典集的复杂从属结构网页信息抽取方法，包括以下步骤：

本实施方式中，步骤S1具体包括：

本实施方式中，所述规则表示词典集是一个待匹配内容的固定词典集合，是页面从属结构中顶级标题的对比集和页面文本的替换集；

所述定义的规则表示词典集一般是一组词汇，用以进行内容分割与标识，在将爬取的标题挂接到规则表示词典集中进行子集合扩充时，挂接的是网页源语言内容而非定义的规则表示词典集中的语言。

在实际操作过程中，步骤S2具体包括以下步骤：

S21、根据欲爬取的内容和网站所提供的信息，定义一组待爬取内容，并给出一个规则表示，生成规则表示词典集；

S22、将规则表示分为相关内容规则表示和额外内容规则表示，其中相关内容规则表示是站点中出现且需要的信息，额外内容规则表示站点中出现但并不需要的信息；

S23、抽取全部站点的处于最高从属结构中的内容，即主标题内容，并根据其不同的国际语言转换为预设语种，可以是英语，也可以是别的语种；

S24、对S23所得的结果进行语义挂接，将每个主标题(转换前)挂接到其所属的规则表示中；

S25、当全部站点的主标题都挂接结束后，原规则表示词典集得以扩充，所得结果为一个初始的全表示词典集；

进一步地，为提高步骤S2操作的准确性和稳定性，本实施方式还包括S26，S26、重新审查全表示词典集中每个规则表示下挂接的子表示，对错挂或误挂情况进行纠正；以保证该操作的精确性；

S3、从目标完整html页面中提取复杂从属结构下全文本内容并去除无效字符形成目标文本内容，所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容，再基于全表示词典集分割目标文本内容，并用规则表示词典集中的规则表示替换，得到包含每个规则表示子集的全分割复杂从属文本集；

本实施方式中，从目标完整html页面中提取复杂从属结构下全文本内容时，不将页面解析成传统DOM树后遍历其从属结构再按从属结构级别提取内容，而是同级别对待所有从属结构下文本并保留原顺序；将复杂从属结构下全文本内容转换为一种“规则表示-规则表示文本内容”的平行化信息再进行处理，大大降低了直接从复杂从属结构中提取信息的解析难度；

在实际操作过程中，步骤S3具体包括：

S31、按照步骤S1的方式对目标站点发送请求，获取待解析的html页面；

S32、顺序遍历页面的全部文本内容，保存从页面抽取的文本内容，构建该页面的全文本内容；

S33、过滤在文本提取中跟随的无效字符，包括一些多余的空格、占位标识等，规范化保留全文本；

S34、使用全表示词典集中子表示来分割S33的全文本；

S35、根据全表示词典集中每个子表示所处的规则表示来替换原本的分隔符，生成“规则表示-规则表示文本内容”的全分割复杂从属结构文本集；

在实际操作过程中，步骤S4具体包括：

S41、对S3生成的“规则表示-规则表示文本内容”的全分割复杂从属结构文本集，合并其中规则表示相同的规则表示文本内容生成新的“规则表示-规则表示文本内容”；

S42、根据步骤S22，对S41中出现的全部规则表示进行分析，若该规则表示为相关内容规则表示，进入步骤S43，若该规则表示为额外内容规则表示，进入步骤S44；

S43、持久化该“规则表示-规则表示文本内容”到数据库；

S44、舍弃该“规则表示-规则表示文本内容”。

本实施方式中，步骤S5具体包括：

在实际操作过程中，步骤S5具体包括：

S51、生成一个全表示词典集扩充间隔的时间戳；

S52、当进入时间戳时，抽取全部站点的处于最高从属结构中的内容，即主标题内容，并根据预设语言将其转换为原规则表示词典集中规则表示的语种；

S53、对S52中结果的每一个主标题进行分析，如匹配到对应的规则表示，进入步骤S54，否则进入步骤S56；

S54、对S52中结果的每一个主标题进行分析，如匹配到对应的规则表示但不在全表示词典集的子表示中，进入步骤S55,如匹配到对应的规则表示且在全表示词典集的子表示中，继续步骤S53；

S55、扩充该主标题到全表示词典集的对应规则表示中；

S56、根据主标题含义扩充新的规则表示到规则表示词典集；

S57、待全部的主标题扩充完全后，重新审查全表示词典集中每个规则表示下挂接的子表示，对错扩或误扩情况进行纠正。

参照图2，本发明提出的面向词典集的复杂从属结构网页信息抽取系统，包括：

本实施方式中，页面判断模块具体用于：

文本集调整模块，用于从目标完整html页面中提取复杂从属结构下全文本内容并去除无效字符形成目标文本内容，所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容，再基于全表示词典集分割目标文本内容，并用规则表示词典集中的规则表示替换，得到包含每个规则表示子集的全分割复杂从属文本集；

词典集扩充模块，用于在预设时间内基于新发布页面重新抽取主标题内容动态扩充全表示词典集。

本实施方式中，词典集扩充模块具体用于：

本实施方式针对多站点复杂从属结构类抽取任务提出了词典集的概念，解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题；本实施方式利用完整精确的词典集中的每个子表示来替换复杂从属结构下的页面内容，以生成“规则表示-规则表示文本内容”的平行化信息再处理，实现在不考虑复杂从属结构的前提下分析和提取本属于复杂从属结构下的信息的操作，大大降低了直接从复杂从属结构中提取信息的解析难度。进一步地，本实施方式还以与站点交互的方式动态扩充全表示词典集，使全表示词典集保持富足内容方便爬虫的后续爬取操作，提高复杂从属结构下页面内容平行化的精确性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向词典集的复杂从属结构网页信息抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向词典集的复杂从属结构网页信息抽取方法，其特征在于，步骤S1具体包括：

3.根据权利要求1所述的面向词典集的复杂从属结构网页信息抽取方法，其特征在于，步骤S2中，所述规则表示词典集为页面从属结构中顶级标题的对比集和页面文本的替换集；

4.根据权利要求1所述的面向词典集的复杂从属结构网页信息抽取方法，其特征在于，步骤S3中，所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容；

5.根据权利要求1所述的面向词典集的复杂从属结构网页信息抽取方法，其特征在于，步骤S5具体包括：

定义一个全表示词典集扩充间隔的时间戳，当进入时间戳时，重新抽取新发布页面的主标题，并判断主标题内容中与规则表示词典集中相同规则表示的内容是否已存在其对应的全表示词典集的子表示中，若不在，则将新发布页面的主标题内容扩充至全表示词典集。

6.一种面向词典集的复杂从属结构网页信息抽取系统，其特征在于，包括：

7.根据权利要求6所述的面向词典集的复杂从属结构网页信息抽取方法，其特征在于，页面判断模块具体用于：

8.根据权利要求6所述的面向词典集的复杂从属结构网页信息抽取方法，其特征在于，词典集生成模块中，所述规则表示词典集为页面从属结构中顶级标题的对比集和页面文本的替换集；

9.根据权利要求6所述的面向词典集的复杂从属结构网页信息抽取方法，其特征在于，文本集调整模块中，所述无效字符为复杂从属结构下全文本内容中除结构化文本外的内容；

10.根据权利要求6所述的面向词典集的复杂从属结构网页信息抽取方法，其特征在于，词典集扩充模块具体用于：