CN115730150A - 一种数据抓取方法、系统、设备及可存储介质 - Google Patents
一种数据抓取方法、系统、设备及可存储介质 Download PDFInfo
- Publication number
- CN115730150A CN115730150A CN202211575588.4A CN202211575588A CN115730150A CN 115730150 A CN115730150 A CN 115730150A CN 202211575588 A CN202211575588 A CN 202211575588A CN 115730150 A CN115730150 A CN 115730150A
- Authority
- CN
- China
- Prior art keywords
- data
- filling
- parameters
- acquisition
- data capture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013481 data capture Methods 0.000 claims abstract description 58
- 230000009193 crawling Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种数据抓取方法、系统、设备及可存储介质,方法包括获取用户数据抓取请求;依据用户数据抓取请求返回数据抓取需求设置页面进行填写;依据填写的数据抓取需求生成数据抓取规则;依据数据抓取规则生成数据抓取任务;依据所述数据抓取任务进行数据抓取;通过依据用户数据抓取请求返回数据抓取需求设置页面进行填写,能够依据填写的数据抓取需求生成数据抓取规则,并依据数据抓取规则生成数据抓取任务,从而准确抓取到用户所需的数据,大大提高数据抓取的效率。
Description
技术领域
本发明涉及数据抓取技术领域,尤其涉及一种数据抓取方法、系统、设备及可存储介质。
背景技术
随着社交网络、移动互联网的大规模发展,人们能更方便的通过手机获取资讯、发表言论、沟通交流,特别是在社交网络繁荣之后,每个网民都可以创造信息,使得网络中的信息量出现爆发式的增长,这其中的文本信息有多种来源:微博、新闻、论坛、博客、问答、评论等,可以统称为舆情数据;品牌广告主、政府部门都希望了解网民的舆论,对于品牌广告主,他们希望从这些信息中获取用户对品牌的态度,以及用户的兴趣偏好,而且希望及时的获取到网络中对本品牌的负面信息,从而做出快速的处理。为了对海量的文本进行深入精细的分析,需要快速全面的抓取信息,并且能覆盖多种来源。
然而,现有的数据抓取方法都是通过专业的数据抓取平台进行,专业的数据抓取平台一般都会按照预先设置好的抓取规则进行抓取,而预先设置好的抓取规则无法依据用户所需进行改动,因此有时并不能准确地抓取到用户所需的数据,抓取效率比较低。
发明内容
有鉴于此,本发明提出一种数据抓取方法、系统、设备及可存储介质,可以解决现有技术所存在的数据抓取的准确度和效率比较低的缺陷。
本发明的技术方案是这样实现的:
一种数据抓取方法,具体包括:
获取用户数据抓取请求;
依据用户数据抓取请求返回数据抓取需求设置页面进行填写;
依据填写的数据抓取需求生成数据抓取规则;
依据数据抓取规则生成数据抓取任务;
依据所述数据抓取任务进行数据抓取。
作为所述数据抓取方法的进一步可选方案,所述依据用户数据抓取请求返回数据抓取需求设置页面进行填写,具体包括:
填写进行数据抓取的网站地址或新媒体地址;
填写数据抓取时的采集方式;
填写采集方式的采集参数。
作为所述数据抓取方法的进一步可选方案,所述填写数据抓取时的采集方式,具体包括:
填写是否采集浏览器引擎爬取;
填写不需要进行采集的地址规则;
填写需要进行采集的地址规则。
作为所述数据抓取方法的进一步可选方案,所述采集方式的采集参数包括采集线程数参数、请示间隔时间参数、最大采集深度参数、请求超时设置参数、网页编码参数、附件扫描参数、图片扫描参数和定时爬取采集时间参数。
一种数据抓取系统,包括:
获取模块,用于获取用户数据抓取请求;
输入模块,用于依据用户数据抓取请求返回数据抓取需求设置页面进行填写;
第一生成模块,用于依据填写的数据抓取需求生成数据抓取规则;
第二生成模块,用于依据数据抓取规则生成数据抓取任务;
执行模块,用于依据所述数据抓取任务进行数据抓取。
作为所述数据抓取系统的进一步可选方案,所述输入模块包括:
第一填写模块,用于填写进行数据抓取的网站地址或新媒体地址;
第二填写模块,用于填写数据抓取时的采集方式;
第三填写模块,用于填写采集方式的采集参数。
作为所述数据抓取系统的进一步可选方案,所述第二填写模块包括:
第四填写模块,用于填写是否采集浏览器引擎爬取;
第五填写模块,用于填写不需要进行采集的地址规则;
第六填写模块,用于填写需要进行采集的地址规则。
作为所述数据抓取系统的进一步可选方案,所述采集方式的采集参数包括采集线程数参数、请示间隔时间参数、最大采集深度参数、请求超时设置参数、网页编码参数、附件扫描参数、图片扫描参数和定时爬取采集时间参数。
一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一种数据抓取方法的步骤。
一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种数据抓取方法的步骤。
本发明的有益效果是:通过依据用户数据抓取请求返回数据抓取需求设置页面进行填写,能够依据填写的数据抓取需求生成数据抓取规则,并依据数据抓取规则生成数据抓取任务,从而准确抓取到用户所需的数据,大大提高数据抓取的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种数据抓取方法的流程示意图;
图2为本发明一种数据抓取系统的组成示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参考图1-2,一种数据抓取方法,具体包括:
获取用户数据抓取请求;
依据用户数据抓取请求返回数据抓取需求设置页面进行填写;
依据填写的数据抓取需求生成数据抓取规则;
依据数据抓取规则生成数据抓取任务;
依据所述数据抓取任务进行数据抓取。
在本实施例中,通过依据用户数据抓取请求返回数据抓取需求设置页面进行填写,能够依据填写的数据抓取需求生成数据抓取规则,并依据数据抓取规则生成数据抓取任务,从而准确抓取到用户所需的数据,大大提高数据抓取的效率。
优选的,所述依据用户数据抓取请求返回数据抓取需求设置页面进行填写,具体包括:
填写进行数据抓取的网站地址或新媒体地址;
填写数据抓取时的采集方式;
填写采集方式的采集参数。
优选的,所述填写数据抓取时的采集方式,具体包括:
填写是否采集浏览器引擎爬取;
填写不需要进行采集的地址规则;
填写需要进行采集的地址规则。
优选的,所述采集方式的采集参数包括采集线程数参数、请示间隔时间参数、最大采集深度参数、请求超时设置参数、网页编码参数、附件扫描参数、图片扫描参数和定时爬取采集时间参数。
在本实施例中,所述采集线程数参数的作用为线程越多采集速度越快;所述请示间隔时间参数用于设置每次请求的间隔时间;所述最大采集深度参数用于设置采集的深度;所述请求超时设置参数用于设置请求超时设置;所述网页编码参数用于设置页面编码,防止采集出现乱码;所述附件扫描参数用于设置是否采集附件信息;所述图片扫描参数用于设置是否采集图片信息。
一种数据抓取系统,包括:
获取模块,用于获取用户数据抓取请求;
输入模块,用于依据用户数据抓取请求返回数据抓取需求设置页面进行填写;
第一生成模块,用于依据填写的数据抓取需求生成数据抓取规则;
第二生成模块,用于依据数据抓取规则生成数据抓取任务;
执行模块,用于依据所述数据抓取任务进行数据抓取。
在本实施例中,通过依据用户数据抓取请求返回数据抓取需求设置页面进行填写,能够依据填写的数据抓取需求生成数据抓取规则,并依据数据抓取规则生成数据抓取任务,从而准确抓取到用户所需的数据,大大提高数据抓取的效率。
优选的,所述输入模块包括:
第一填写模块,用于填写进行数据抓取的网站地址或新媒体地址;
第二填写模块,用于填写数据抓取时的采集方式;
第三填写模块,用于填写采集方式的采集参数。
优选的,所述第二填写模块包括:
第四填写模块,用于填写是否采集浏览器引擎爬取;
第五填写模块,用于填写不需要进行采集的地址规则;
第六填写模块,用于填写需要进行采集的地址规则。
优选的,所述采集方式的采集参数包括采集线程数参数、请示间隔时间参数、最大采集深度参数、请求超时设置参数、网页编码参数、附件扫描参数、图片扫描参数和定时爬取采集时间参数。
在本实施例中,所述采集线程数参数的作用为线程越多采集速度越快;所述请示间隔时间参数用于设置每次请求的间隔时间;所述最大采集深度参数用于设置采集的深度;所述请求超时设置参数用于设置请求超时设置;所述网页编码参数用于设置页面编码,防止采集出现乱码;所述附件扫描参数用于设置是否采集附件信息;所述图片扫描参数用于设置是否采集图片信息。
一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一种数据抓取方法的步骤。
一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种数据抓取方法的步骤。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据抓取方法,其特征在于,具体包括:
获取用户数据抓取请求;
依据用户数据抓取请求返回数据抓取需求设置页面进行填写;
依据填写的数据抓取需求生成数据抓取规则;
依据数据抓取规则生成数据抓取任务;
依据所述数据抓取任务进行数据抓取。
2.根据权利要求1所述的一种数据抓取方法,其特征在于,所述依据用户数据抓取请求返回数据抓取需求设置页面进行填写,具体包括:
填写进行数据抓取的网站地址或新媒体地址;
填写数据抓取时的采集方式;
填写采集方式的采集参数。
3.根据权利要求2所述的一种数据抓取方法,其特征在于,所述填写数据抓取时的采集方式,具体包括:
填写是否采集浏览器引擎爬取;
填写不需要进行采集的地址规则;
填写需要进行采集的地址规则。
4.根据权利要求3所述的一种数据抓取方法,其特征在于,所述采集方式的采集参数包括采集线程数参数、请示间隔时间参数、最大采集深度参数、请求超时设置参数、网页编码参数、附件扫描参数、图片扫描参数和定时爬取采集时间参数。
5.一种数据抓取系统,其特征在于,包括:
获取模块,用于获取用户数据抓取请求;
输入模块,用于依据用户数据抓取请求返回数据抓取需求设置页面进行填写;
第一生成模块,用于依据填写的数据抓取需求生成数据抓取规则;
第二生成模块,用于依据数据抓取规则生成数据抓取任务;
执行模块,用于依据所述数据抓取任务进行数据抓取。
6.根据权利要求5所述的一种数据抓取系统,其特征在于,所述输入模块包括:
第一填写模块,用于填写进行数据抓取的网站地址或新媒体地址;
第二填写模块,用于填写数据抓取时的采集方式;
第三填写模块,用于填写采集方式的采集参数。
7.根据权利要求6所述的一种数据抓取系统,其特征在于,所述第二填写模块包括:
第四填写模块,用于填写是否采集浏览器引擎爬取;
第五填写模块,用于填写不需要进行采集的地址规则;
第六填写模块,用于填写需要进行采集的地址规则。
8.根据权利要求7所述的一种数据抓取系统,其特征在于,所述采集方式的采集参数包括采集线程数参数、请示间隔时间参数、最大采集深度参数、请求超时设置参数、网页编码参数、附件扫描参数、图片扫描参数和定时爬取采集时间参数。
9.一种计算设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-4中任意一种数据抓取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4中任意一种数据抓取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211575588.4A CN115730150A (zh) | 2022-12-09 | 2022-12-09 | 一种数据抓取方法、系统、设备及可存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211575588.4A CN115730150A (zh) | 2022-12-09 | 2022-12-09 | 一种数据抓取方法、系统、设备及可存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115730150A true CN115730150A (zh) | 2023-03-03 |
Family
ID=85300774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211575588.4A Pending CN115730150A (zh) | 2022-12-09 | 2022-12-09 | 一种数据抓取方法、系统、设备及可存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115730150A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160026687A1 (en) * | 2014-07-24 | 2016-01-28 | Adobe Systems Incorporated | Social capture rules |
CN107025296A (zh) * | 2017-04-17 | 2017-08-08 | 山东辰华科技信息有限公司 | 基于科技服务信息智能抓取系统数据收集方法 |
CN109614539A (zh) * | 2019-01-16 | 2019-04-12 | 重庆金融资产交易所有限责任公司 | 数据抓取方法、装置及计算机可读存储介质 |
CN110134853A (zh) * | 2019-05-13 | 2019-08-16 | 重庆八戒传媒有限公司 | 数据爬取方法及系统 |
CN110851681A (zh) * | 2019-10-12 | 2020-02-28 | 平安科技(深圳)有限公司 | 爬虫处理方法、装置、服务器及计算机可读存储介质 |
CN112818201A (zh) * | 2021-02-07 | 2021-05-18 | 四川封面传媒有限责任公司 | 一种网络数据采集方法、装置、计算机设备及存储介质 |
CN113934913A (zh) * | 2021-11-12 | 2022-01-14 | 盐城金堤科技有限公司 | 数据抓取方法、装置、存储介质及电子设备 |
CN114285764A (zh) * | 2021-12-30 | 2022-04-05 | 北京天融信网络安全技术有限公司 | 一种抓包方法和装置、以及存储介质 |
CN114297460A (zh) * | 2021-11-15 | 2022-04-08 | 北京众标智能科技有限公司 | 一种分布式动态可配置的爬虫平台及爬虫方法 |
CN115329170A (zh) * | 2022-07-04 | 2022-11-11 | 北京百度网讯科技有限公司 | 网页抓取方法、装置、设备以及存储介质 |
-
2022
- 2022-12-09 CN CN202211575588.4A patent/CN115730150A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160026687A1 (en) * | 2014-07-24 | 2016-01-28 | Adobe Systems Incorporated | Social capture rules |
CN107025296A (zh) * | 2017-04-17 | 2017-08-08 | 山东辰华科技信息有限公司 | 基于科技服务信息智能抓取系统数据收集方法 |
CN109614539A (zh) * | 2019-01-16 | 2019-04-12 | 重庆金融资产交易所有限责任公司 | 数据抓取方法、装置及计算机可读存储介质 |
CN110134853A (zh) * | 2019-05-13 | 2019-08-16 | 重庆八戒传媒有限公司 | 数据爬取方法及系统 |
CN110851681A (zh) * | 2019-10-12 | 2020-02-28 | 平安科技(深圳)有限公司 | 爬虫处理方法、装置、服务器及计算机可读存储介质 |
CN112818201A (zh) * | 2021-02-07 | 2021-05-18 | 四川封面传媒有限责任公司 | 一种网络数据采集方法、装置、计算机设备及存储介质 |
CN113934913A (zh) * | 2021-11-12 | 2022-01-14 | 盐城金堤科技有限公司 | 数据抓取方法、装置、存储介质及电子设备 |
CN114297460A (zh) * | 2021-11-15 | 2022-04-08 | 北京众标智能科技有限公司 | 一种分布式动态可配置的爬虫平台及爬虫方法 |
CN114285764A (zh) * | 2021-12-30 | 2022-04-05 | 北京天融信网络安全技术有限公司 | 一种抓包方法和装置、以及存储介质 |
CN115329170A (zh) * | 2022-07-04 | 2022-11-11 | 北京百度网讯科技有限公司 | 网页抓取方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595583B (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CN109408701B (zh) | 一种网络爬虫爬取路径的展示方法和装置 | |
CN108205674B (zh) | 社交app的内容识别方法、电子设备、存储介质及系统 | |
CN108763274B (zh) | 访问请求的识别方法、装置、电子设备及存储介质 | |
CN103888490A (zh) | 一种全自动的web客户端人机识别的方法 | |
CN111104587A (zh) | 网页显示方法、装置和服务器 | |
CN106599270B (zh) | 网络数据抓取方法和爬虫 | |
CN110046293B (zh) | 一种用户身份关联方法及装置 | |
CN104951544A (zh) | 用户数据处理方法、用户数据的提供方法和系统 | |
WO2018129903A1 (zh) | 舆情公关方法、系统、用户终端及计算机可读存储介质 | |
CA3061623C (en) | File sending in instant messaging applications | |
CN103425644A (zh) | 网页正文中图片的提取方法及装置 | |
US20170199889A1 (en) | Method and device for identifying junk picture files | |
CN111488186A (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
KR20170073693A (ko) | 유사 그룹 요소 추출 | |
CN103207900A (zh) | 基于位置信息向目标用户提供询问请求信息的方法与装置 | |
CN111224923A (zh) | 一种仿冒网站的检测方法、装置及系统 | |
CN104503983A (zh) | 为搜索引擎提供网站认证数据的方法及装置 | |
CN110677447B (zh) | 用户停留时长确定方法、装置、设备和存储介质 | |
CN111310088B (zh) | 一种页面渲染方法及装置 | |
CN109587198B (zh) | 图文信息推送方法及装置 | |
CN115730150A (zh) | 一种数据抓取方法、系统、设备及可存储介质 | |
CN111723400A (zh) | 一种js敏感信息泄露检测方法、装置、设备及介质 | |
CN107784054B (zh) | 一种页面发布方法和装置 | |
CN117251384B (zh) | 一种接口自动化测试用例生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230303 |