CN111767482A - 一种聚焦网络爬虫自适应爬取方法 - Google Patents
一种聚焦网络爬虫自适应爬取方法 Download PDFInfo
- Publication number
- CN111767482A CN111767482A CN202010434886.6A CN202010434886A CN111767482A CN 111767482 A CN111767482 A CN 111767482A CN 202010434886 A CN202010434886 A CN 202010434886A CN 111767482 A CN111767482 A CN 111767482A
- Authority
- CN
- China
- Prior art keywords
- topic
- crawled
- text
- relevance
- crawling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种聚焦网络爬虫自适应爬取方法,包括以下步骤:使用HTTP库对url库中的url发起请求并运用解析工具解析响应内容;提取页面内的全部文本,将其以HTML标签为分界分段缓存;依次查找待爬取字段;剔除不符合该待获取字段附带条件的文本段;主题关键词集合依次与符合条件的文本内容做主题相关度检测;判断是否存在主题相关度达到阈值的文本,若存在,提取主题相关度最大的文本内容进行存储,若不存在,则爬取下一个字段内容,直到爬取完所有字段;重复上述操作直到爬取完所有目标url。
Description
技术领域
本发明涉及软件、算法、计算机领域,更具体地说,涉及数据获取领域。
背景技术
现有的传统聚焦网络爬虫方法有很多,大致可以分为三类:第一种是利用以Urllib库、Requests库为代表的HTTP库向网站发起请求获取网页数据后,用Xpath、Beautiful Soup、正则表达式等方法进行解析;第二种是运用以Selenium为代表的自动化测试工具模拟浏览器操作来定位并抓取元素;第三种是利用以Scrapy为代表的爬虫框架进行爬取。无论是哪种方法都需要根据网页排版及源代码中所需数据在网页中的位置,利用各种元素定位方法定位元素,在与所需数据相对应的固定位置爬取数据,对排版要求极高。对于从批量网页中提取指定信息的情况,无法保证所有待爬取网页的源代码控制排版方式相同,若排版方式有一点变化,就有可能无法准确爬取所有需要的数据。对于不同排版的网页,则需要分别对同一排版定制爬取算法,爬取工作量较大。
对于目前已有的自适应聚焦网络爬虫方法的研究,大多着力于从大量网页中根据一定的网页分析算法过滤与主题无关的网页链接,对抓取到的页面内容进行主题相关性检测分析,筛选达到主题相似度阈值的网页,再对这些符合要求的网页内容进行定向数据爬取,提高爬取效率。这种自适应聚焦网络爬虫方法在初期进行筛选可以有效地控制网络爬虫的爬取范围,但仅针对于url的筛选,对于从大量不同网页中提取相同类型信息的需求并不适用。
因此,本发明提出了一种不受排版的约束,使爬取方法更灵活更方便,实际获得的数据与所需的数据吻合度较高,爬取数据的完整度较高,适用范围较广的聚焦网络爬虫自适应爬取方法。
发明内容
有鉴于此,本发明提供了一种针对从大量不同网页中提取相同类型信息的聚焦网络爬虫自适应爬取方法。
本发明提供了一种聚焦网络爬虫自适应爬取方法,包括以下步骤:
步骤1:使用HTTP库对url库中的url发起请求,并运用解析工具解析响应内容;
步骤2:运用数据爬取方法提取解析响应内容所得到的数据中的页面内的全部文本,将提取到的全部文本以HTML标签为分界分段缓存;
步骤3:根据步骤三提取到的全部文本和待爬取字段,确定主题关键词集合;
步骤4:设定待爬取字段的附带限制条件,剔除不符合该待爬取字段附带条件的文本,保留符合的文本;
步骤5:该待爬取字段的主题关键词集合依次与符合条件的文本内容做主题相关度检测;
步骤6:设定主题相关度阈值,对达到阈值且主题相关度最高的文本内容进行存储;
步骤7:再爬取下一字段,重复步骤4-6,直到爬取全部字段;
步骤8:重复步骤1-7,直到爬取完所有目标url,完成对批量不同排版的网页中的信息获取。
进一步地,步骤3中,主题关键词集合的确定与待爬取内容贴近,且与其他信息有较明显的区分。
进一步地,步骤4中,所述待爬取字段附带条件包括所需爬取字段的长度、数据类型以及数据格式。
进一步地,步骤5中,所述主题相关度检测,是指在判断文本内容与某主题的相关度的过程中,计算步骤4符合条件的文本与所述主题关键词集合的交集,交集中含有的元素越多,则认为文本与主题的相关度就越高。
进一步地,所述步骤6中,设定主题相关度阈值,对达到阈值且主题相关度最高的文本进行存储,首先判断是否存在主题相关度达到阈值的文本,若存在,提取主题相关度最高的文本进行存储,若没有主题相关度超过阈值的文本,则跳过此字段;若有多个主题相关度超过阈值的文本,取主题相关度最高的文本。
进一步地,所述步骤6中,若主题相关度超过阈值的文本多于三个,则增大主题相关度阈值。
本发明提供的技术方案带来的有益效果是:
1、根据文本内容进行自适应爬取,比传统的元素定位方法更灵活,实际获得的数据与所需的数据吻合度较高,爬取数据的完整度较高;
2、对于内容多而杂的网页来说,传统的元素定位方法非常繁琐,直接爬取所有文本比传统的元素定位方法方便许多;
3、自适应爬取不受排版的约束,在编写爬取算法是不用像传统爬取算法一样只适用于一种排版方式的网页,对于不同排版的网页需根据网页布局定制算法,只要网页中存在主题相关度高的内容即可获取,对从大量不同排版的网页中获取信息更便捷,适用范围更广。
附图说明
图1是本发明一种聚焦网络爬虫自适应爬取方法运行流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,本发明的实施例提供了一种聚焦网络爬虫自适应爬取方法,针对从大量不同网页中提取相同类型信息,以爬取高校教师个人信息为例,从各大高校每位教师个人主页中提取教师的个人信息,教师个人主页是大量确定的网页,而所需要获取的教师个人信息也有明确的分类,包括电话号码、邮箱、职称、学院、实验室、基本情况、教育经历、工作经历、研究方向、科研项目、专著论文、专利和获奖信息,每类信息都有各自的主题及主题关键词,且不同类信息之间的主题差别较大,通过人为设定每类信息的主题关键词,对网页中的每个文本片段内容进行主题相关度检测,设定主题相关度阈值,对达到阈值且主题相关度最高的文本片段进行对应抓爬取,聚焦网络爬虫自适应爬取方法运行流程图如图1所示,具体步骤如下:
步骤1:请求并解析url,因为针对的是已知的大量网页,故获取url、请求url、解析url,包括提取页面内的全部文本操作,使用传统方法即可,对于高校教师信息的爬取,url为所需要爬取的所有教师个人信息主页;
步骤2:依次查找主题关键词,待爬取的每个字段都需要一个主题关键词集合,一个字段的主题关键词可以是一个或多个,关键词的选取要与待爬取内容贴近,且与其他信息有较明显的区分,例如爬取教师个人信息中的联系方式,主题关键词可设置为“联系方式”、“电话”、“邮箱”、“+86”、“.com”等,爬取教师个人信息中的教育工作经历,主题关键词可设置为“教育经历”、“就读”、“就职”等,具体依据不同网页上的页面信息内容进行判断设定;
步骤3:剔除不符合该待爬取字段附带条件的文本,一个待爬取字段的附带条件可以对文本进行快速初筛,符合附带条件的文本再接受主题相关度检测,提高爬取效率。附带条件可以是长度、数据类型、数据格式等,即所需爬取字段的要求,例如爬取教师个人信息中的联系方式,附加条件可设置为20个字符以内、字符串数据类型、正则表达式表示包含符合全是数字格式或“xxxx@xx.com”格式的文本,爬取教师个人信息中的教育工作经历,附加条件可设置为字符串数据类型、正则表达式表示包含符合“日期数据类型-日期数据类型”的文本;
步骤4:主题关键词依次与符合条件的文本内容做主题相关度检测,主题相关度检测模型有很多,在判断文本与某主题的相关度的过程中,相当于计算文本与关键词集合的交集,交集中含有的元素越多,则认为与主题的相关度就越高。对于高校教师信息的爬取,每个需要爬取的信息字段的主题关键词集合与教师主页页面上爬取的每段符合条件的文本内容做主题相关度检测,直到爬取完这个页面上的所有字段;
步骤5:设定主题相关度阈值,对达到阈值且主题相关度最高的文本内容进行存储;若没有主题相关度超过阈值的文本,则说明这个字段没有符合条件的文本,跳过此字段;若有多个主题相关度超过阈值的文本,一般取主题相关度最高的文本,亦可根据实际情况设置一个字段获取多个文本;若主题相关度超过阈值的文本大于等于三个,则需要根据实际情况调整主题关键词或适当增大阈值;
步骤6:再爬取下一字段,重复步骤3-5,直到爬取全部字段;
步骤7:重复步骤1-6,直到爬取完所有目标url,完成对批量不同排版的网页中的信息获取。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (6)
1.一种聚焦网络爬虫自适应爬取方法,其特征在于,包括以下步骤:
步骤1:使用HTTP库对url库中的url发起请求,并运用解析工具解析响应内容;
步骤2:运用数据爬取方法提取解析响应内容所得到的数据中的页面内的全部文本,将提取到的全部文本以HTML标签为分界分段缓存;
步骤3:根据步骤三提取到的全部文本和待爬取字段,确定主题关键词集合;
步骤4:设定待爬取字段的附带限制条件,剔除不符合该待爬取字段附带条件的文本,保留符合的文本;
步骤5:该待爬取字段的主题关键词集合依次与符合条件的文本内容做主题相关度检测;
步骤6:设定主题相关度阈值,对达到阈值且主题相关度最高的文本内容进行存储;
步骤7:再爬取下一字段,重复步骤4-6,直到爬取全部字段;
步骤8:重复步骤1-7,直到爬取完所有目标url,完成对批量不同排版的网页中的信息获取。
2.根据权利要求1所述的一种聚焦网络爬虫自适应爬取方法,其特征在于,步骤3中,主题关键词集合的确定与待爬取内容贴近,且与其他信息有较明显的区分。
3.根据权利要求1所述的一种聚焦网络爬虫自适应爬取方法,其特征在于,步骤4中,所述待爬取字段附带条件包括所需爬取字段的长度、数据类型以及数据格式。
4.根据权利要求1所述的一种聚焦网络爬虫自适应爬取方法,其特征在于,步骤5中,所述主题相关度检测,是指在判断文本内容与某主题的相关度的过程中,计算步骤4符合条件的文本与所述主题关键词集合的交集,交集中含有的元素越多,则认为文本与主题的相关度就越高。
5.根据权利要求1所述的一种聚焦网络爬虫自适应爬取方法,其特征在于,所述步骤6中,设定主题相关度阈值,对达到阈值且主题相关度最高的文本进行存储,首先判断是否存在主题相关度达到阈值的文本,若存在,提取主题相关度最高的文本进行存储,若没有主题相关度超过阈值的文本,则跳过此字段;若有多个主题相关度超过阈值的文本,取主题相关度最高的文本。
6.根据权利要求1所述的一种聚焦网络爬虫自适应爬取方法,其特征在于,所述步骤6中,若主题相关度超过阈值的文本多于三个,则增大主题相关度阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010434886.6A CN111767482B (zh) | 2020-05-21 | 2020-05-21 | 一种聚焦网络爬虫自适应爬取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010434886.6A CN111767482B (zh) | 2020-05-21 | 2020-05-21 | 一种聚焦网络爬虫自适应爬取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767482A true CN111767482A (zh) | 2020-10-13 |
CN111767482B CN111767482B (zh) | 2023-06-06 |
Family
ID=72719449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010434886.6A Active CN111767482B (zh) | 2020-05-21 | 2020-05-21 | 一种聚焦网络爬虫自适应爬取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767482B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113038153A (zh) * | 2021-02-26 | 2021-06-25 | 深圳道乐科技有限公司 | 金融直播违规检测方法、装置、设备及可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080228675A1 (en) * | 2006-10-13 | 2008-09-18 | Move, Inc. | Multi-tiered cascading crawling system |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫系统的设计方法 |
CN104182412A (zh) * | 2013-05-24 | 2014-12-03 | 中国移动通信集团安徽有限公司 | 一种网页爬取方法及系统 |
CN106126705A (zh) * | 2016-07-01 | 2016-11-16 | 武汉泰迪智慧科技有限公司 | 一种大规模网络数据实时爬取系统 |
CN106649823A (zh) * | 2016-12-29 | 2017-05-10 | 淮海工学院 | 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法 |
CN106709052A (zh) * | 2017-01-06 | 2017-05-24 | 电子科技大学 | 一种基于关键词的主题网络爬虫设计方法 |
CN107908698A (zh) * | 2017-11-03 | 2018-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN108334591A (zh) * | 2018-01-30 | 2018-07-27 | 天津中科智能识别产业技术研究院有限公司 | 基于聚焦爬虫技术的行业分析方法及系统 |
KR20190131778A (ko) * | 2018-05-17 | 2019-11-27 | 동서대학교 산학협력단 | 은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템 |
-
2020
- 2020-05-21 CN CN202010434886.6A patent/CN111767482B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080228675A1 (en) * | 2006-10-13 | 2008-09-18 | Move, Inc. | Multi-tiered cascading crawling system |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫系统的设计方法 |
CN104182412A (zh) * | 2013-05-24 | 2014-12-03 | 中国移动通信集团安徽有限公司 | 一种网页爬取方法及系统 |
CN106126705A (zh) * | 2016-07-01 | 2016-11-16 | 武汉泰迪智慧科技有限公司 | 一种大规模网络数据实时爬取系统 |
CN106649823A (zh) * | 2016-12-29 | 2017-05-10 | 淮海工学院 | 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法 |
CN106709052A (zh) * | 2017-01-06 | 2017-05-24 | 电子科技大学 | 一种基于关键词的主题网络爬虫设计方法 |
CN107908698A (zh) * | 2017-11-03 | 2018-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN108334591A (zh) * | 2018-01-30 | 2018-07-27 | 天津中科智能识别产业技术研究院有限公司 | 基于聚焦爬虫技术的行业分析方法及系统 |
KR20190131778A (ko) * | 2018-05-17 | 2019-11-27 | 동서대학교 산학협력단 | 은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템 |
Non-Patent Citations (2)
Title |
---|
周立柱,林玲: "聚焦爬虫技术研究综述", 《计算机应用》 * |
王景中,邱铜相: "基于TF-IDF 改进算法的聚焦主题网络爬虫", 《计算机应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113038153A (zh) * | 2021-02-26 | 2021-06-25 | 深圳道乐科技有限公司 | 金融直播违规检测方法、装置、设备及可读存储介质 |
CN113038153B (zh) * | 2021-02-26 | 2023-06-02 | 深圳道乐科技有限公司 | 金融直播违规检测方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111767482B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8037051B2 (en) | Matching and recommending relevant videos and media to individual search engine results | |
CN100478949C (zh) | 具有实体检测的查询改写 | |
US7225181B2 (en) | Document searching apparatus, method thereof, and record medium thereof | |
US7464078B2 (en) | Method for automatically extracting by-line information | |
US20070198727A1 (en) | Method, apparatus and system for extracting field-specific structured data from the web using sample | |
TWI695277B (zh) | 自動化網站資料蒐集方法 | |
CN112749284B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
EP1962208A2 (en) | System and method for searching annotated document collections | |
CN102831199A (zh) | 建立兴趣模型的方法及装置 | |
CN102135967A (zh) | 网页关键词提取方法、装置及系统 | |
CN110555154B (zh) | 一种面向主题的信息检索方法 | |
US20220215065A1 (en) | Intelligent browser bookmark management | |
CN109948154B (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
CN103399862A (zh) | 确定目标查询序列所对应的搜索引导信息的方法与设备 | |
US11409814B2 (en) | Systems and methods for crawling web pages and parsing relevant information stored in web pages | |
CN111767482B (zh) | 一种聚焦网络爬虫自适应爬取方法 | |
US8176031B1 (en) | System and method for manipulating database search results | |
CN108681571B (zh) | 基于Word2Vec的主题爬虫系统和方法 | |
Makrydakis et al. | Analyzing E-shop onsite optimization factors in the context of E-commerce search engine optimization | |
Wanjari et al. | Automatic news extraction system for Indian online news papers | |
Cao et al. | Extraction of informative blocks from web pages | |
Alnavar et al. | Document Parsing Tool for Language Translation and Web Crawling using Django REST Framework | |
Jena et al. | Data extraction and web page categorization using text mining | |
CN112115269A (zh) | 一种基于爬虫的网页自动分类方法 | |
JP2010282403A (ja) | 文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |