CN107025296A - 基于科技服务信息智能抓取系统数据收集方法 - Google Patents

基于科技服务信息智能抓取系统数据收集方法 Download PDF

Info

Publication number
CN107025296A
CN107025296A CN201710247626.6A CN201710247626A CN107025296A CN 107025296 A CN107025296 A CN 107025296A CN 201710247626 A CN201710247626 A CN 201710247626A CN 107025296 A CN107025296 A CN 107025296A
Authority
CN
China
Prior art keywords
page
crawl
data
captured
parsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710247626.6A
Other languages
English (en)
Other versions
CN107025296B (zh
Inventor
陈文海
霍英霞
丁平
黄美珍
陈劲峰
姚蕴
佘文文
马晓
贾旭
闫斌斌
柏道菲
张军
成华娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Huachen Science And Technology Information Co Ltd
Original Assignee
Shandong Huachen Science And Technology Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Huachen Science And Technology Information Co Ltd filed Critical Shandong Huachen Science And Technology Information Co Ltd
Priority to CN201710247626.6A priority Critical patent/CN107025296B/zh
Publication of CN107025296A publication Critical patent/CN107025296A/zh
Application granted granted Critical
Publication of CN107025296B publication Critical patent/CN107025296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于科技服务信息智能抓取系统数据收集方法,包括以下步骤:①数据抓取:爬虫的配置,用户通过客户端的配置模块、启动模块发布抓取任务,并设置要抓取的网站及设定相应的规则;②定时抓取任务:根据用户发布的任务动态加载到定时抓取任务列表中;③下载页面;④页面解析:解析队列中的页面;⑤待抓取URL;⑥数据处理和存储:对页面数据进行解析提取处理,对提取出的二维结构数据进行存储;本发明能够满足爬虫通用性要求,适合科技服务系统抓取需求,扩展方便,插件式开发;在具体业务逻辑上增加解析规则配置,抓取网页宽度、深度,抓取线程,数据库配置或索引配置,就可以开启智能化抓取采集信息。

Description

基于科技服务信息智能抓取系统数据收集方法
技术领域
本发明涉及一种智能抓取方法,尤其涉及一种基于科技服务信息智能抓取系统数据收集方法。
背景技术
爬虫,又称为蜘蛛,它不是昆虫的名称,而是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接,并根据这些链接再度抓取提取更深的其它未知的链接,以此下去,将这样的程序抓取行为形容成类似爬虫似的动作,称之为爬虫,爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。
采用人工生成抓取包装器技术的抓取系统科技信息抽取结果精准,但是要对互联网上千个网站进行抓取包装器的生成和更新维护工作,普通垂直爬虫无法很好担负这一工作,只能依赖大量的人力参与。
安全、高效的实时抓取技术;在要求高实时性抓取的时候,需要对抓取网站服务器频繁的发起链接和下载请求,这将会给对方服务器造成很大的压力,进而会导致对方采用封禁策略如拒绝访问等来保证服务器正常工作,这将导致抓取失败;同时高实时的抓取需求,非常耗费网络、服务器等硬件资源,导致成本上升。
随着AJAX技术不断的普及,以及现在AngularJS这种Single-page application框架的出现,现在js渲染出的页面越来越多;对于爬虫来说,这种页面是比较讨厌的:仅仅提取HTML内容,往往无法拿到有效的信息。
发明内容
为解决上述技术问题,本发明提供了一种基于科技服务信息智能抓取系统数据收集方法,本发明通过以下技术方案来实现:基于科技服务信息智能抓取系统数据收集方法,包括以下步骤:
①数据抓取:爬虫的配置,用户通过客户端的配置模块、启动模块发布抓取任务,并设置要抓取的网站及设定相应的规则,包括编码、抓取间隔、超时时间、重试次数等;
②定时抓取任务:根据用户发布的任务动态加载到定时抓取任务列表中;
③下载页面:根据客户设置的抓取规则和抓取流程,进行宽度优先抓取算法开始遍历抓取网页并将抓取的页面下载下来,并放置到将要进行页面解析队列中等待页面解析;
④页面解析:解析队列中的页面,利用Jsoup技术根据要抓取的信息和设置的抓取规则进行页面的解析,提取用户需要的数据信息;
⑤待抓取URL:采用链接权重算法将解析过程中发现的新链接放置待抓取URL队列中等待线程的处理;
⑥数据处理和存储:对页面数据进行解析提取处理,对提取出的二维结构数据进行存储。
优选地,所述步骤①的配置模块、启动模块位于后台管理系统中,爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入,或者通过将爬虫入口网址放到数据库中进行指定。
优选地,所述步骤③的抓取规则是对爬虫入口地址是将每一条合法的Http网址根据链接权重算法一行一条的放入到入口列表文件中,或是一条网址在数据库中存放一行,所述抓取流程如下:根据配置文件中的提供爬虫入口网址列表进行抓取,按照配置的抓取深度进行遍历,首先取一条网址进行抓取,然后读取第一层解析规则,将第一层的解析规划解析后得到的数据传递到第二层,第二层进行深度抓取的时候,采用第一层解析提取到的网址进行再次抓取,并根据解析规则列表中的规则进行解析,并将解析得到的数据同第一层进行合并,传递到第三层,以此类推,直到配置的最大层数,一条深度抓取结束后,会依次向上返回获取的数据,并根据数据配置将抓取提取到的数据保存到指定的存储介质中,所述的存储介质是磁盘空间上的自定义的数据结构文件,或者是分布式键值对形式的数据库,或者用solr索引分词后进行索引文件存储。
优选地,所述步骤③的宽度优先抓取算法指的是大部分网站都是按照树状图来完成页面分布的,宽度优先抓取策略就是按照树状图结构,优先抓取同级链接,待同级链接抓取完成后,再抓取下一级链接。优选地,所述步骤⑤的链接权重算法,因为一个页面内并非所有的链接都参与权重传递,搜索引擎会将已经过滤过的链接再度剔除15%;但这种非完全遍历权重计算需要积累到一定数量的链接后才能再次开始计算,所以更新周期比较慢,无法满足用户对即时信息的需求;所以在此基础上,出现了实时权重分配抓取策略;即当蜘蛛完成抓取页面并入口后,马上进行权重分配,将权重重新分配待抓取链接库,然后蜘蛛根据权重高低来进行抓取。
所述的链接权重算法,其算法公式为:
其中R代表链接所获得的pagerank,S代表链接所包含的链接数量,Q代表是否参与传递,β代表阻尼因数。从公式中可以发现,决定链接权重的是Q,如果链接被发现作弊,或者搜索引擎人工清除,或者其他原因,Q被设为0,那么再多的外链都没用。β是阻尼因数,主要作用是防止权重0的出现,导致链接无法参与权重传递,以及防止作弊的出现。阻尼因数β一般为0.85。
优选地,为了解决AngularJS这种Single-page application框架渲染的页面,使用selenium,它定义了一个Downloader,在下载页面时,用浏览器内核进行渲染。
本发明具有以下有益效果:
本发明能够满足爬虫通用性要求,适合科技服务信息智能抓取系统数据收集的需求,扩展方便,插件式开发;在具体业务逻辑上增加抓取规则和抓取流程配置,抓取网页宽度、深度,数据库配置或索引配置,就可以开启智能化抓取采集信息。
附图说明
图1是本发明的流程示意图。
图2是本发明宽度优先抓取链接结构示意图。
图3是本发明宽度优先抓取抓取顺序示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述。
基于科技服务信息智能抓取系统数据收集方法,包括以下步骤:
①数据抓取:爬虫的配置,用户通过客户端的配置模块、启动模块发布抓取任务,并设置要抓取的网站及设定相应的规则,包括编码、抓取间隔、超时时间、重试次数等;
②定时抓取任务:根据用户发布的任务动态加载到定时抓取任务列表中;
③下载页面:根据客户设置的抓取规则和抓取流程,进行宽度、深度优先抓取算法开始遍历抓取网页并将抓取的页面下载下来,并放置到将要进行页面解析队列中等待页面解析;
④页面解析:解析队列中的页面,利用Jsoup技术根据要抓取的信息和设置的抓取规则进行页面的解析,提取用户需要的数据信息;
⑤待抓取URL:采用链接权重算法将解析过程中发现的新链接放置待抓取URL队列中等待线程的处理;⑥数据处理和存储:对页面数据进行解析提取处理,对提取出的二维结构数据进行存储。
优选地,所述步骤①的配置模块、启动模块位于后台管理系统中,爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入,或者通过将爬虫入口网址放到数据库中进行指定。
优选地,所述步骤③的抓取规则是对爬虫入口地址是将每一条合法的Http网址根据链接权重算法一行一条的放入到入口列表文件中,或是一条网址在数据库中存放一行,所述抓取流程如下:根据配置文件中的提供爬虫入口网址列表进行抓取,按照配置的抓取深度进行遍历,首先取一条网址进行抓取,然后读取第一层解析规则,将第一层的解析规划解析后得到的数据传递到第二层,第二层进行深度抓取的时候,采用第一层解析提取到的网址进行再次抓取,并根据解析规则列表中的规则进行解析,并将解析得到的数据同第一层进行合并,传递到第三层,以此类推,直到配置的最大层数,一条深度抓取结束后,会依次向上返回获取的数据,并根据数据配置将抓取提取到的数据保存到指定的存储介质中,所述的存储介质是磁盘空间上的自定义的数据结构文件,或者是分布式键值对形式的数据库,或者用solr索引分词后进行索引文件存储。
优选地,所述步骤③的宽度优先抓取算法指的是大部分网站都是按照树状图来完成页面分布的,宽度优先抓取策略就是按照树状图结构,优先抓取同级链接,待同级链接抓取完成后,再抓取下一级链接,即先从入口一级页面的初始链接A抓取,再抓取下一级链接B和C,待同级链接B和C抓取完成后,再抓取下一级链接D、E和F,其抓取顺序为:A→B→C→D→E→F。
优选地,所述步骤⑤的链接权重算法,因为一个页面内并非所有的链接都参与权重传递,搜索引擎会将已经过滤过的链接再度剔除15%;但这种非完全遍历权重计算需要积累到一定数量的链接后才能再次开始计算,所以更新周期比较慢,无法满足用户对即时信息的需求;所以在此基础上,出现了实时权重分配抓取策略;即当蜘蛛完成抓取页面并入口后,马上进行权重分配,将权重重新分配待抓取链接库,然后蜘蛛根据权重高低来进行抓取。
所述的链接权重算法,其算法公式为:
其中R代表链接所获得的pagerank,S代表链接所包含的链接数量,Q代表是否参与传递,β代表阻尼因数。从公式中可以发现,决定链接权重的是Q,如果链接被发现作弊,或者搜索引擎人工清除,或者其他原因,Q被设为0,那么再多的外链都没用。β是阻尼因数,主要作用是防止权重0的出现,导致链接无法参与权重传递,以及防止作弊的出现。阻尼因数β一般为0.85。优选地,为了解决AngularJS这种Single-page application框架渲染的页面,使用selenium,它定义了一个Downloader,在下载页面时,用浏览器内核进行渲染。

Claims (7)

1.基于科技服务信息智能抓取系统数据收集方法,其特征在于,其包括以下步骤:
①数据抓取:爬虫的配置,用户通过客户端的配置模块、启动模块发布抓取任务,并设置要抓取的网站及设定相应的规则,包括编码、抓取间隔、超时时间、重试次数等;
②定时抓取任务:根据用户发布的任务动态加载到定时抓取任务列表中;
③下载页面:根据客户设置的抓取规则和抓取流程,进行宽度优先抓取算法开始遍历抓取网页,并将抓取的页面下载下来,并放置到将要进行页面解析队列中等待页面解析;
④页面解析:解析队列中的页面,利用Jsoup技术根据要抓取的信息和设置的抓取规则进行页面的解析,提取用户需要的数据信息;
⑤待抓取URL:采用链接权重算法将解析过程中发现的新链接放置待抓取URL队列中等待线程的处理;⑥数据处理和存储:对页面数据进行解析提取处理,对提取出的二维结构数据进行存储。
2.根据权利要求1所述的基于科技服务信息智能抓取系统数据收集方法,其特征在于,所述步骤①的配置模块、启动模块位于后台管理系统中,爬虫初始入口地址通过指定的爬虫网址列表文件进行静态导入,或者通过将爬虫入口网址放到数据库中进行指定。
3.根据权利要求1所述的基于科技服务信息智能抓取系统数据收集方法,其特征在于,所述步骤③的抓取规则是对爬虫入口地址是将每一条合法的Http网址根据链接权重算法一行一条的放入到入口列表文件中,或是一条网址在数据库中存放一行,所述抓取流程如下:根据配置文件中的提供爬虫入口网址列表进行抓取,按照配置的抓取深度进行遍历,首先取一条网址进行抓取,然后读取第一层解析规则,将第一层的解析规划解析后得到的数据传递到第二层,第二层进行深度抓取的时候,采用第一层解析提取到的网址进行再次抓取,并根据解析规则列表中的规则进行解析,并将解析得到的数据同第一层进行合并,传递到第三层,以此类推,直到配置的最大层数,一条深度抓取结束后,会依次向上返回获取的数据,并根据数据配置将抓取提取到的数据保存到指定的存储介质中,所述的存储介质是磁盘空间上的自定义的数据结构文件,或者是分布式键值对形式的数据库,或者用solr索引分词后进行索引文件存储。
4.根据权利要求1所述的基于科技服务信息智能抓取系统数据收集方法,其特征在于,所述步骤③的宽度优先抓取算法指的是大部分网站都是按照树状图来完成页面分布的,宽度优先抓取策略就是按照树状图结构,优先抓取同级链接,待同级链接抓取完成后,再抓取下一级链接。
5.根据权利要求1所述的基于科技服务信息智能抓取系统数据收集方法,其特征在于,所述步骤⑤的链接权重算法,即当蜘蛛完成抓取页面并入口后,马上进行权重分配,将权重重新分配待抓取链接库,然后蜘蛛根据权重高低来进行抓取。
6.根据权利要求5所述的基于科技服务信息智能抓取系统数据收集方法,其特征在于,所述的链接权重算法,其算法公式为:
其中R代表链接所获得的pagerank,S代表链接所包含的链接数量,Q代表是否参与传递,β代表阻尼因数。
7.根据权利要求1所述的基于科技服务信息智能抓取系统数据收集方法,其特征在于,为了解决AngularJS这种Single-page application框架渲染的页面,使用selenium,它定义了一个Downloader,在下载页面时,用浏览器内核进行渲染。
CN201710247626.6A 2017-04-17 2017-04-17 基于科技服务信息智能抓取系统数据收集方法 Active CN107025296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710247626.6A CN107025296B (zh) 2017-04-17 2017-04-17 基于科技服务信息智能抓取系统数据收集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710247626.6A CN107025296B (zh) 2017-04-17 2017-04-17 基于科技服务信息智能抓取系统数据收集方法

Publications (2)

Publication Number Publication Date
CN107025296A true CN107025296A (zh) 2017-08-08
CN107025296B CN107025296B (zh) 2018-11-06

Family

ID=59527964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710247626.6A Active CN107025296B (zh) 2017-04-17 2017-04-17 基于科技服务信息智能抓取系统数据收集方法

Country Status (1)

Country Link
CN (1) CN107025296B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391757A (zh) * 2017-08-23 2017-11-24 绵阳美菱软件技术有限公司 一种家电数据采集方法和装置
CN107832136A (zh) * 2017-11-28 2018-03-23 广州启生信息技术有限公司 一种网络爬虫程序的管理方法及装置
CN108153595A (zh) * 2018-01-18 2018-06-12 成都无糖信息技术有限公司 一种基于python的大数据分布式任务处理装置
CN108334379A (zh) * 2018-01-05 2018-07-27 北京明略软件系统有限公司 一种页面扩展功能的实现方法及实现装置
CN108549678A (zh) * 2018-04-02 2018-09-18 北京今朝在线科技有限公司 信息采集系统
CN108959539A (zh) * 2018-06-30 2018-12-07 成都信息工程大学 一种基于规则可配置的网页数据解析方法
CN109299392A (zh) * 2018-11-21 2019-02-01 安徽云融信息技术有限公司 一种网络爬虫抓取数据的优化方法
CN109327533A (zh) * 2018-11-06 2019-02-12 深圳市东宝信息技术有限公司 一种基于任务机制的简历数据推送方法及系统
CN109597952A (zh) * 2018-12-10 2019-04-09 江苏满运软件科技有限公司 网页信息处理方法、系统、电子设备和存储介质
CN109729044A (zh) * 2017-10-30 2019-05-07 北京宸瑞科技股份有限公司 一种通用的互联网数据采集反反爬系统及方法
CN109918557A (zh) * 2019-03-12 2019-06-21 厦门商集网络科技有限责任公司 一种网页数据爬取合并方法及计算机可读存储介质
CN110188259A (zh) * 2019-05-27 2019-08-30 厦门商集网络科技有限责任公司 一种可配置化的数据抓取方法和装置
CN110390558A (zh) * 2019-06-19 2019-10-29 平安银行股份有限公司 图片自动检核方法、装置、终端及可读存储介质
CN110851678A (zh) * 2018-07-24 2020-02-28 北京京东金融科技控股有限公司 一种爬取数据的方法和装置
CN111339388A (zh) * 2019-06-13 2020-06-26 海通证券股份有限公司 一种信息爬取系统
CN112685619A (zh) * 2020-12-29 2021-04-20 江苏乐道胡巴投资管理有限公司 一种网页表格数据通用抓取方法
CN113934912A (zh) * 2021-11-11 2022-01-14 北京搜房科技发展有限公司 数据爬取方法及装置、存储介质及电子设备
CN114390035A (zh) * 2022-01-12 2022-04-22 国家计算机网络与信息安全管理中心陕西分中心 一种以太坊智能合约应用态势感知系统
CN115238210A (zh) * 2022-09-21 2022-10-25 云账户技术(天津)有限公司 一种网站链接可用性检查方法及装置、存储介质、终端
CN115730150A (zh) * 2022-12-09 2023-03-03 广州富莱星科技有限公司 一种数据抓取方法、系统、设备及可存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996196A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 一种动态网页的采集方法及装置
CN103714149A (zh) * 2013-12-26 2014-04-09 华中科技大学 一种自适应增量式的深层网络数据源发现方法
CN104317948A (zh) * 2014-11-05 2015-01-28 北京中科辅龙信息技术有限公司 页面数据抓取方法和系统
CN104346328A (zh) * 2013-07-23 2015-02-11 同程网络科技股份有限公司 基于网页数据抓取的垂直智能爬虫数据收集方法
CN106484775A (zh) * 2016-09-12 2017-03-08 北京量科邦信息技术有限公司 一种基于selenium的爬虫抓取方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996196A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 一种动态网页的采集方法及装置
CN104346328A (zh) * 2013-07-23 2015-02-11 同程网络科技股份有限公司 基于网页数据抓取的垂直智能爬虫数据收集方法
CN103714149A (zh) * 2013-12-26 2014-04-09 华中科技大学 一种自适应增量式的深层网络数据源发现方法
CN104317948A (zh) * 2014-11-05 2015-01-28 北京中科辅龙信息技术有限公司 页面数据抓取方法和系统
CN106484775A (zh) * 2016-09-12 2017-03-08 北京量科邦信息技术有限公司 一种基于selenium的爬虫抓取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CMS站长网: "搜索引擎如何去抓取页面 宽度优先抓取策略", 《A5创业网,HTTP://WWW.ADMIN5.COM/ARTICLE/20121207/476699.SHTML》 *
刘嫚: "面向博客的主题爬虫设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
大白痴: "大白痴学习webmagic", 《开源中国社区博客,HTTPS://MY.OSCHINA.NET/JIANQIANGXING/BLOG/213605》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391757A (zh) * 2017-08-23 2017-11-24 绵阳美菱软件技术有限公司 一种家电数据采集方法和装置
CN109729044A (zh) * 2017-10-30 2019-05-07 北京宸瑞科技股份有限公司 一种通用的互联网数据采集反反爬系统及方法
CN107832136A (zh) * 2017-11-28 2018-03-23 广州启生信息技术有限公司 一种网络爬虫程序的管理方法及装置
CN108334379A (zh) * 2018-01-05 2018-07-27 北京明略软件系统有限公司 一种页面扩展功能的实现方法及实现装置
CN108153595A (zh) * 2018-01-18 2018-06-12 成都无糖信息技术有限公司 一种基于python的大数据分布式任务处理装置
CN108549678A (zh) * 2018-04-02 2018-09-18 北京今朝在线科技有限公司 信息采集系统
CN108549678B (zh) * 2018-04-02 2020-06-19 北京今朝在线科技有限公司 信息采集系统
CN108959539A (zh) * 2018-06-30 2018-12-07 成都信息工程大学 一种基于规则可配置的网页数据解析方法
CN108959539B (zh) * 2018-06-30 2021-09-21 成都信息工程大学 一种基于规则可配置的网页数据解析方法
CN110851678B (zh) * 2018-07-24 2024-02-02 京东科技控股股份有限公司 一种爬取数据的方法和装置
CN110851678A (zh) * 2018-07-24 2020-02-28 北京京东金融科技控股有限公司 一种爬取数据的方法和装置
CN109327533A (zh) * 2018-11-06 2019-02-12 深圳市东宝信息技术有限公司 一种基于任务机制的简历数据推送方法及系统
CN109299392A (zh) * 2018-11-21 2019-02-01 安徽云融信息技术有限公司 一种网络爬虫抓取数据的优化方法
CN109597952A (zh) * 2018-12-10 2019-04-09 江苏满运软件科技有限公司 网页信息处理方法、系统、电子设备和存储介质
CN109918557A (zh) * 2019-03-12 2019-06-21 厦门商集网络科技有限责任公司 一种网页数据爬取合并方法及计算机可读存储介质
CN110188259A (zh) * 2019-05-27 2019-08-30 厦门商集网络科技有限责任公司 一种可配置化的数据抓取方法和装置
CN111339388A (zh) * 2019-06-13 2020-06-26 海通证券股份有限公司 一种信息爬取系统
CN110390558A (zh) * 2019-06-19 2019-10-29 平安银行股份有限公司 图片自动检核方法、装置、终端及可读存储介质
CN112685619A (zh) * 2020-12-29 2021-04-20 江苏乐道胡巴投资管理有限公司 一种网页表格数据通用抓取方法
CN113934912A (zh) * 2021-11-11 2022-01-14 北京搜房科技发展有限公司 数据爬取方法及装置、存储介质及电子设备
CN114390035A (zh) * 2022-01-12 2022-04-22 国家计算机网络与信息安全管理中心陕西分中心 一种以太坊智能合约应用态势感知系统
CN115238210A (zh) * 2022-09-21 2022-10-25 云账户技术(天津)有限公司 一种网站链接可用性检查方法及装置、存储介质、终端
CN115730150A (zh) * 2022-12-09 2023-03-03 广州富莱星科技有限公司 一种数据抓取方法、系统、设备及可存储介质

Also Published As

Publication number Publication date
CN107025296B (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN107025296B (zh) 基于科技服务信息智能抓取系统数据收集方法
CN104077402B (zh) 数据处理方法和数据处理系统
CN102646129B (zh) 一种主题相关的分布式网络爬虫系统
CN107895009A (zh) 一种基于分布式的互联网数据采集方法及系统
Reddy et al. An effective data preprocessing method for Web Usage Mining
CN107729564A (zh) 一种分布式的聚焦网络爬虫网页爬取方法及系统
CN105893583A (zh) 基于人工智能的数据采集方法及系统
CN103927370A (zh) 一种组合文字和图片信息的网络资讯批量采集方法
CN103020043A (zh) 一种面向web双语平行语料资源的分布式采集系统
CN108876058B (zh) 一种基于微博的新闻事件影响力预测方法
CN105718590A (zh) 面向多租户的SaaS舆情监控系统及方法
CN105224691B (zh) 一种信息处理方法及装置
CN104679825A (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN109729044A (zh) 一种通用的互联网数据采集反反爬系统及方法
CN106649362A (zh) 网页爬取方法和装置
Avarikioti et al. Structure and content of the visible Darknet
CN107807937A (zh) 一种网站seo处理方法、装置及系统
CN106649357A (zh) 用于爬虫程序的数据处理方法及装置
CN103810283A (zh) 一种基于用户关联关系的微博数据采集方法
Di Giovanni et al. VaccinEU: COVID-19 vaccine conversations on Twitter in French, German and Italian
CN104967698B (zh) 一种爬取网络数据的方法和装置
Yang et al. Penny for your thoughts: Searching for the 50 cent party on sina weibo
CN106708803A (zh) 一种特征提取方法及装置
CN107832344A (zh) 一种基于storm流计算框架的食品安全网络舆情分析方法
CN107784054B (zh) 一种页面发布方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Chen Wenhai

Inventor after: Chen Jinfeng

Inventor after: She Wenwen

Inventor after: Ma Xiao

Inventor after: Bai Daofei

Inventor before: Chen Wenhai

Inventor before: Yan Binbin

Inventor before: Bai Daofei

Inventor before: Zhang Jun

Inventor before: Cheng Huajuan

Inventor before: Huo Yingxia

Inventor before: Ding Ping

Inventor before: Huang Meizhen

Inventor before: Chen Jinfeng

Inventor before: Yao Yun

Inventor before: She Wenwen

Inventor before: Ma Xiao

Inventor before: Jia Xu

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant