CN111767482A

CN111767482A - 一种聚焦网络爬虫自适应爬取方法

Info

Publication number: CN111767482A
Application number: CN202010434886.6A
Authority: CN
Inventors: 陈芮; 许鸿文; 张祥莉
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-10-13
Anticipated expiration: 2040-05-21
Also published as: CN111767482B

Abstract

本发明公开了一种聚焦网络爬虫自适应爬取方法，包括以下步骤：使用HTTP库对url库中的url发起请求并运用解析工具解析响应内容；提取页面内的全部文本，将其以HTML标签为分界分段缓存；依次查找待爬取字段；剔除不符合该待获取字段附带条件的文本段；主题关键词集合依次与符合条件的文本内容做主题相关度检测；判断是否存在主题相关度达到阈值的文本，若存在，提取主题相关度最大的文本内容进行存储，若不存在，则爬取下一个字段内容，直到爬取完所有字段；重复上述操作直到爬取完所有目标url。

Description

一种聚焦网络爬虫自适应爬取方法

技术领域

本发明涉及软件、算法、计算机领域，更具体地说，涉及数据获取领域。

背景技术

现有的传统聚焦网络爬虫方法有很多，大致可以分为三类：第一种是利用以Urllib库、Requests库为代表的HTTP库向网站发起请求获取网页数据后，用Xpath、Beautiful Soup、正则表达式等方法进行解析；第二种是运用以Selenium为代表的自动化测试工具模拟浏览器操作来定位并抓取元素；第三种是利用以Scrapy为代表的爬虫框架进行爬取。无论是哪种方法都需要根据网页排版及源代码中所需数据在网页中的位置，利用各种元素定位方法定位元素，在与所需数据相对应的固定位置爬取数据，对排版要求极高。对于从批量网页中提取指定信息的情况，无法保证所有待爬取网页的源代码控制排版方式相同，若排版方式有一点变化，就有可能无法准确爬取所有需要的数据。对于不同排版的网页，则需要分别对同一排版定制爬取算法，爬取工作量较大。

对于目前已有的自适应聚焦网络爬虫方法的研究，大多着力于从大量网页中根据一定的网页分析算法过滤与主题无关的网页链接，对抓取到的页面内容进行主题相关性检测分析，筛选达到主题相似度阈值的网页，再对这些符合要求的网页内容进行定向数据爬取，提高爬取效率。这种自适应聚焦网络爬虫方法在初期进行筛选可以有效地控制网络爬虫的爬取范围，但仅针对于url的筛选，对于从大量不同网页中提取相同类型信息的需求并不适用。

因此，本发明提出了一种不受排版的约束，使爬取方法更灵活更方便，实际获得的数据与所需的数据吻合度较高，爬取数据的完整度较高，适用范围较广的聚焦网络爬虫自适应爬取方法。

发明内容

有鉴于此，本发明提供了一种针对从大量不同网页中提取相同类型信息的聚焦网络爬虫自适应爬取方法。

本发明提供了一种聚焦网络爬虫自适应爬取方法，包括以下步骤：

步骤1：使用HTTP库对url库中的url发起请求，并运用解析工具解析响应内容；

步骤2：运用数据爬取方法提取解析响应内容所得到的数据中的页面内的全部文本，将提取到的全部文本以HTML标签为分界分段缓存；

步骤3：根据步骤三提取到的全部文本和待爬取字段，确定主题关键词集合；

步骤4：设定待爬取字段的附带限制条件，剔除不符合该待爬取字段附带条件的文本，保留符合的文本；

步骤5：该待爬取字段的主题关键词集合依次与符合条件的文本内容做主题相关度检测；

步骤6：设定主题相关度阈值，对达到阈值且主题相关度最高的文本内容进行存储；

步骤7：再爬取下一字段，重复步骤4-6，直到爬取全部字段；

步骤8：重复步骤1-7，直到爬取完所有目标url，完成对批量不同排版的网页中的信息获取。

进一步地，步骤3中，主题关键词集合的确定与待爬取内容贴近，且与其他信息有较明显的区分。

进一步地，步骤4中，所述待爬取字段附带条件包括所需爬取字段的长度、数据类型以及数据格式。

进一步地，步骤5中，所述主题相关度检测，是指在判断文本内容与某主题的相关度的过程中，计算步骤4符合条件的文本与所述主题关键词集合的交集，交集中含有的元素越多，则认为文本与主题的相关度就越高。

进一步地，所述步骤6中，设定主题相关度阈值，对达到阈值且主题相关度最高的文本进行存储，首先判断是否存在主题相关度达到阈值的文本，若存在，提取主题相关度最高的文本进行存储，若没有主题相关度超过阈值的文本，则跳过此字段；若有多个主题相关度超过阈值的文本，取主题相关度最高的文本。

进一步地，所述步骤6中，若主题相关度超过阈值的文本多于三个，则增大主题相关度阈值。

本发明提供的技术方案带来的有益效果是：

1、根据文本内容进行自适应爬取，比传统的元素定位方法更灵活，实际获得的数据与所需的数据吻合度较高，爬取数据的完整度较高；

2、对于内容多而杂的网页来说，传统的元素定位方法非常繁琐，直接爬取所有文本比传统的元素定位方法方便许多；

3、自适应爬取不受排版的约束，在编写爬取算法是不用像传统爬取算法一样只适用于一种排版方式的网页，对于不同排版的网页需根据网页布局定制算法，只要网页中存在主题相关度高的内容即可获取，对从大量不同排版的网页中获取信息更便捷，适用范围更广。

附图说明

图1是本发明一种聚焦网络爬虫自适应爬取方法运行流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，本发明的实施例提供了一种聚焦网络爬虫自适应爬取方法，针对从大量不同网页中提取相同类型信息，以爬取高校教师个人信息为例，从各大高校每位教师个人主页中提取教师的个人信息，教师个人主页是大量确定的网页，而所需要获取的教师个人信息也有明确的分类，包括电话号码、邮箱、职称、学院、实验室、基本情况、教育经历、工作经历、研究方向、科研项目、专著论文、专利和获奖信息，每类信息都有各自的主题及主题关键词，且不同类信息之间的主题差别较大，通过人为设定每类信息的主题关键词，对网页中的每个文本片段内容进行主题相关度检测，设定主题相关度阈值，对达到阈值且主题相关度最高的文本片段进行对应抓爬取，聚焦网络爬虫自适应爬取方法运行流程图如图1所示，具体步骤如下：

步骤1：请求并解析url，因为针对的是已知的大量网页，故获取url、请求url、解析url，包括提取页面内的全部文本操作，使用传统方法即可，对于高校教师信息的爬取，url为所需要爬取的所有教师个人信息主页；

步骤2：依次查找主题关键词，待爬取的每个字段都需要一个主题关键词集合，一个字段的主题关键词可以是一个或多个，关键词的选取要与待爬取内容贴近，且与其他信息有较明显的区分，例如爬取教师个人信息中的联系方式，主题关键词可设置为“联系方式”、“电话”、“邮箱”、“+86”、“.com”等，爬取教师个人信息中的教育工作经历，主题关键词可设置为“教育经历”、“就读”、“就职”等，具体依据不同网页上的页面信息内容进行判断设定；

步骤3：剔除不符合该待爬取字段附带条件的文本，一个待爬取字段的附带条件可以对文本进行快速初筛，符合附带条件的文本再接受主题相关度检测，提高爬取效率。附带条件可以是长度、数据类型、数据格式等，即所需爬取字段的要求，例如爬取教师个人信息中的联系方式，附加条件可设置为20个字符以内、字符串数据类型、正则表达式表示包含符合全是数字格式或“xxxx@xx.com”格式的文本，爬取教师个人信息中的教育工作经历，附加条件可设置为字符串数据类型、正则表达式表示包含符合“日期数据类型-日期数据类型”的文本；

步骤4：主题关键词依次与符合条件的文本内容做主题相关度检测，主题相关度检测模型有很多，在判断文本与某主题的相关度的过程中，相当于计算文本与关键词集合的交集，交集中含有的元素越多，则认为与主题的相关度就越高。对于高校教师信息的爬取，每个需要爬取的信息字段的主题关键词集合与教师主页页面上爬取的每段符合条件的文本内容做主题相关度检测，直到爬取完这个页面上的所有字段；

步骤5：设定主题相关度阈值，对达到阈值且主题相关度最高的文本内容进行存储；若没有主题相关度超过阈值的文本，则说明这个字段没有符合条件的文本，跳过此字段；若有多个主题相关度超过阈值的文本，一般取主题相关度最高的文本，亦可根据实际情况设置一个字段获取多个文本；若主题相关度超过阈值的文本大于等于三个，则需要根据实际情况调整主题关键词或适当增大阈值；

步骤6：再爬取下一字段，重复步骤3-5，直到爬取全部字段；

步骤7：重复步骤1-6，直到爬取完所有目标url，完成对批量不同排版的网页中的信息获取。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种聚焦网络爬虫自适应爬取方法，其特征在于，包括以下步骤：

步骤7：再爬取下一字段，重复步骤4-6，直到爬取全部字段；

2.根据权利要求1所述的一种聚焦网络爬虫自适应爬取方法，其特征在于，步骤3中，主题关键词集合的确定与待爬取内容贴近，且与其他信息有较明显的区分。

3.根据权利要求1所述的一种聚焦网络爬虫自适应爬取方法，其特征在于，步骤4中，所述待爬取字段附带条件包括所需爬取字段的长度、数据类型以及数据格式。

4.根据权利要求1所述的一种聚焦网络爬虫自适应爬取方法，其特征在于，步骤5中，所述主题相关度检测，是指在判断文本内容与某主题的相关度的过程中，计算步骤4符合条件的文本与所述主题关键词集合的交集，交集中含有的元素越多，则认为文本与主题的相关度就越高。

5.根据权利要求1所述的一种聚焦网络爬虫自适应爬取方法，其特征在于，所述步骤6中，设定主题相关度阈值，对达到阈值且主题相关度最高的文本进行存储，首先判断是否存在主题相关度达到阈值的文本，若存在，提取主题相关度最高的文本进行存储，若没有主题相关度超过阈值的文本，则跳过此字段；若有多个主题相关度超过阈值的文本，取主题相关度最高的文本。

6.根据权利要求1所述的一种聚焦网络爬虫自适应爬取方法，其特征在于，所述步骤6中，若主题相关度超过阈值的文本多于三个，则增大主题相关度阈值。