CN111953766A - 一种网络数据采集的方法及其系统 - Google Patents
一种网络数据采集的方法及其系统 Download PDFInfo
- Publication number
- CN111953766A CN111953766A CN202010790334.9A CN202010790334A CN111953766A CN 111953766 A CN111953766 A CN 111953766A CN 202010790334 A CN202010790334 A CN 202010790334A CN 111953766 A CN111953766 A CN 111953766A
- Authority
- CN
- China
- Prior art keywords
- data
- acquisition
- network
- website
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 235000014510 cooky Nutrition 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 14
- 238000013480 data collection Methods 0.000 claims description 11
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000002860 competitive effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明提供了一种网络数据采集的方法,所述方法为:步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库;本发明提供了采集效率。
Description
技术领域
本发明涉及网络通讯技术领域,特别是一种网络数据采集的方法及其系统。
背景技术
网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。网络数据采集主要是通过网罗互联网海量数据,借助科学建模,倾听消费者的心声,洞察市场机会,了解竞品动态,为公司的媒介投入、渠道管理、品牌建设、产品创新等多种经营决策提供指导。但是目前网络上的网站有着不同的格式,需要在各种不同的网站内容中找出共性,并且许多网站会设置多种障碍方式不方便数据采集。
发明内容
为克服上述问题,本发明的目的是提供一种网络数据采集的方法,能解决不同网站的同字段数据采集,提高了工作效率。
本发明采用以下方案实现:一种网络数据采集的方法,所述方法包括如下步骤:
步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库。
进一步的,所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
进一步的,所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
进一步的,所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
进一步的,所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
进一步的,所述文件支持TXT、EXCEL、CSV和HTML文件格式。
本发明还提供了一种网络数据采集的系统,所述系统包括:配置模块、数据采集模块、数据格式处理模块、以及结果存储模块;
所述配置模块,用于定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
所述数据采集模块,用于读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
所述数据格式处理模块,用于进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
所述结果存储模块,用于保存采集结果,将数据导出到本地形成文件或者保存到数据库。
进一步的,所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
进一步的,所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
进一步的,所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
进一步的,所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
进一步的,所述文件支持TXT、EXCEL、CSV和HTML文件格式。
本发明的有益效果在于:本发明意在提高需要大量人工对一些网上公开数据进行重复操作,或者是对数据进行相关收集再统计工作的效率;另外,本发明通过采集网络数据有助于应用数据统计,有助于竞品分析,借助科学建模,获取用户真实行为数据,洞察市场机会,了解竞品动态,高效信息采集和数据清洗,及时应对系统风险,为公司的媒介投入、渠道管理、品牌建设、产品创新等多种经营决策提供指导。
附图说明
图1是本发明的方法流程示意图。
图2是本发明的系统原理框图。
具体实施方式
下面结合附图对本发明做进一步说明。
请参阅图1所示,本发明的一种网络数据采集的方法,所述方法包括如下步骤:
步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;解决不同网站的同字段数据采集,并经很少修改就能用在其他项目方案。所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识(浏览器UA标识,即用户代理(User Agent),可以使得服务器能够识别客户使用的操作系统、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件,从而判断用户是使用电脑浏览还是手机浏览,让网页做出自动的适应),通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库。
下面结合一具体实施例对本发明作进一步的说明:
本发明的一种网络数据采集的方法:
1. 在网络界面上进行采集配置
设置获取网站数据的参数,然后用共同的网站数据的参数配置形成以配置文件,解决不同网站的同字段数据采集,通过本发明的软件系统,做成自己的识别库。
获取网站数据的参数如下:
(1)当前API地址:指的是应用程序编程接口,网站开发时预先定义的函数,开源网站都会提供这些API接口查询。例如设置的当前API地址是:
http://xxx.com/news/cgsyj_<pageid>.html。
(2)当前API地址类型:可以在类型下拉框进行选择,比如财经要闻、国际经济、公司研究、电子商务、媒体阅读、科研教育、本地生活等,设置的API地址对应的就是财经要闻。
(3)网站名:即获取数据的网站名。
(4)网站ID:用于在网络数据获取后,存入数据库里的网站ID识别。
(5)网站字符集:可以选择设置UTF、GBK等字符集。
(6)每页采集的子项数:设置在每一页采集的子项的数目。如设置为20。
(7)当前URL设置的最大页数:当前这个网址获取的最大页数,如这里设置为5。
2. 读取配置并采集网络数据
可根据不同网站,自定义配置浏览器UA标识,生成爬虫自定义模式、定时多线程采集数据、多层级采集数据、保存浏览器cookie采集方式等功能,采集大多数网站的网络数据。
自定义配置浏览器UA标识,可以使得服务器能够识别客户使用的操作系统、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件,从而判断用户是使用电脑浏览还是手机浏览,让网页做出自动的适应。在获取网络数据时,有助于对数据内容格式的识别和数据解析。
针对不同用户的采集需求,提供自动生成爬虫的自定义模式(爬虫指的是通过Python语言写一些按照一定规则,自动获取网络数据信息的脚本程序。用户可以根据采集需求,就比如需要找某本电子书的数据内容,可以提供一套查找该电子书的爬虫脚本),准确批量识别各种网页元素,支持不同网页结构的复杂网站采集,满足各种采集应用场景。
针对有时效性的数据,可以采取定时控制采集,可以是单次采集的定时设置,也可以预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配自己的采集任务。对于采集的实时数据,如果数据数量众多,如果每一次都取下来进行解析,就过了时效性,应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
很多主流新闻、电商类的网站,里面包含一级商品列表页,也包含二级商品详情页,还有三级评论详情页面。对于这样的多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,就比如第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,可以通过设定好的标识符(如First),就知道这是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中(First的数据就保存在商品数据列表,Second的数据就保存在商品详情数据列表)。
对于需要进行登录的网站,只需配置目标网站的账号密码,即可用该模块采集到的登录后的数据。并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
3. 进行转换网页特殊字符
对于从网络上采集到的网络数据,需要进行数据格式化处理。使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化,HTML转码等多种方式,进行全自动处理。
大多数网站分两个编码规格随机生成,有时候是gbk编码,有时候是utf8编码,对于这种编码问题,只要分析头部charset是gbk还是utf8编码,对于一些不明确的标志头,可以先载入内容,用gbk编码解析完,再用utf8解析即可。
4. 保存采集结果
将采集到的数据导出到本地,支持TXT、EXCEL、CSV和HTML文件格式,或者直接保存到数据库中。
本发明还提供了一种网络数据采集的系统,所述系统包括:配置模块、数据采集模块、数据格式处理模块、以及结果存储模块;
所述配置模块,用于定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
所述数据采集模块,用于读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
所述数据格式处理模块,用于进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
所述结果存储模块,用于保存采集结果,将数据导出到本地形成文件或者保存到数据库。所述文件支持TXT、EXCEL、CSV和HTML文件格式。
所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
总之,本发明意在提高需要大量人工对一些网上公开数据进行重复操作,或者是对数据进行相关收集再统计工作的效率。假设一个项目需要采集10个网站,每个网站有1000页数据,每页有40条数据,假如一个人每天处理100页数据,那么就需要一人10天,或者10人一天的工时,而且不能保证数据的准确性。而且随着数据更新,下次很可能需要重新收集数据,还不包括录入,但用此方案,技术人员和非技术人员都可以对规则进行匹配,假设配置一个网站关键词到软件需要10分钟,那么只需要100分钟,将大大提高采集数据的效率;另外,定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;能解决不同网站的同字段数据采集,提高了工作效率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (12)
1.一种网络数据采集的方法,其特征在于:所述方法包括如下步骤:
步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库。
2.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
3.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
4.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
5.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
6.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述文件支持TXT、EXCEL、CSV和HTML文件格式。
7.一种网络数据采集的系统,其特征在于:所述系统包括:配置模块、数据采集模块、数据格式处理模块、以及结果存储模块;
所述配置模块,用于定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
所述数据采集模块,用于读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
所述数据格式处理模块,用于进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
所述结果存储模块,用于保存采集结果,将数据导出到本地形成文件或者保存到数据库。
8.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
9.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
10.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
11.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
12.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述文件支持TXT、EXCEL、CSV和HTML文件格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010790334.9A CN111953766A (zh) | 2020-08-07 | 2020-08-07 | 一种网络数据采集的方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010790334.9A CN111953766A (zh) | 2020-08-07 | 2020-08-07 | 一种网络数据采集的方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111953766A true CN111953766A (zh) | 2020-11-17 |
Family
ID=73332577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010790334.9A Pending CN111953766A (zh) | 2020-08-07 | 2020-08-07 | 一种网络数据采集的方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111953766A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114428635A (zh) * | 2022-04-06 | 2022-05-03 | 杭州未名信科科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN115426299A (zh) * | 2022-10-20 | 2022-12-02 | 深圳红途科技有限公司 | 无特征数据标识方法、装置、计算机设备及存储介质 |
CN116841756A (zh) * | 2023-09-04 | 2023-10-03 | 奇点数联(北京)科技有限公司 | 一种目标增量型数据的采集方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100114857A1 (en) * | 2008-10-17 | 2010-05-06 | John Edwards | User interface with available multimedia content from multiple multimedia websites |
CN103927370A (zh) * | 2014-04-23 | 2014-07-16 | 焦点科技股份有限公司 | 一种组合文字和图片信息的网络资讯批量采集方法 |
CN104462547A (zh) * | 2014-12-25 | 2015-03-25 | 深圳联友科技有限公司 | 一种可配置的网页数据采集的方法及系统 |
CN106096056A (zh) * | 2016-06-30 | 2016-11-09 | 西南石油大学 | 一种基于分布式的舆情数据实时采集方法和系统 |
CN107895009A (zh) * | 2017-11-10 | 2018-04-10 | 北京国信宏数科技有限责任公司 | 一种基于分布式的互联网数据采集方法及系统 |
CN109145233A (zh) * | 2018-08-27 | 2019-01-04 | 山东浪潮商用系统有限公司 | 互联网信息采集系统 |
CN110245278A (zh) * | 2018-09-05 | 2019-09-17 | 爱信诺征信有限公司 | 网页数据的采集方法、装置、电子设备及存储介质 |
-
2020
- 2020-08-07 CN CN202010790334.9A patent/CN111953766A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100114857A1 (en) * | 2008-10-17 | 2010-05-06 | John Edwards | User interface with available multimedia content from multiple multimedia websites |
CN103927370A (zh) * | 2014-04-23 | 2014-07-16 | 焦点科技股份有限公司 | 一种组合文字和图片信息的网络资讯批量采集方法 |
CN104462547A (zh) * | 2014-12-25 | 2015-03-25 | 深圳联友科技有限公司 | 一种可配置的网页数据采集的方法及系统 |
CN106096056A (zh) * | 2016-06-30 | 2016-11-09 | 西南石油大学 | 一种基于分布式的舆情数据实时采集方法和系统 |
CN107895009A (zh) * | 2017-11-10 | 2018-04-10 | 北京国信宏数科技有限责任公司 | 一种基于分布式的互联网数据采集方法及系统 |
CN109145233A (zh) * | 2018-08-27 | 2019-01-04 | 山东浪潮商用系统有限公司 | 互联网信息采集系统 |
CN110245278A (zh) * | 2018-09-05 | 2019-09-17 | 爱信诺征信有限公司 | 网页数据的采集方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
张春元等: "Web新闻自动采集发布系统的设计与实现", 《计算机技术与发展》 * |
杨健: "利用专业数据采集工具获取网络数据的方法", 《中小学信息技术教育》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114428635A (zh) * | 2022-04-06 | 2022-05-03 | 杭州未名信科科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN115426299A (zh) * | 2022-10-20 | 2022-12-02 | 深圳红途科技有限公司 | 无特征数据标识方法、装置、计算机设备及存储介质 |
CN116841756A (zh) * | 2023-09-04 | 2023-10-03 | 奇点数联(北京)科技有限公司 | 一种目标增量型数据的采集方法 |
CN116841756B (zh) * | 2023-09-04 | 2023-11-10 | 奇点数联(北京)科技有限公司 | 一种目标增量型数据的采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111953766A (zh) | 一种网络数据采集的方法及其系统 | |
CN101079768B (zh) | 一种统计网页链接点击数据的方法 | |
CN111666490A (zh) | 基于kafka的信息推送方法、装置、设备及存储介质 | |
US20090157630A1 (en) | Method of extracting data and recommending and generating visual displays | |
US20070156809A1 (en) | RSS feed generator | |
US20030070143A1 (en) | Method for extracting digests, reformatting, and automatic monitoring of structured online documents based on visual programming of document tree navigation and transformation | |
CN101996196B (zh) | 一种动态网页的采集方法及装置 | |
CN102073725A (zh) | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 | |
CN102073726A (zh) | 搜索引擎系统及该搜索引擎系统的结构化数据引入方法 | |
Lakshmi et al. | An overview of preprocessing on web log data for web usage analysis | |
CN109977312A (zh) | 一种基于内容标签的知识库推荐系统 | |
Gupta et al. | Web usage mining using improved Frequent Pattern Tree algorithms | |
Raju et al. | Knowledge discovery from web usage data: Complete preprocessing methodology | |
Sathiyamoorthi et al. | Data Pre-Processing Techniques for Pre-Fetching and Caching of Web Data through Proxy Server | |
CN110737645B (zh) | 一种不同系统间数据迁移方法、数据迁移系统及相关设备 | |
CN109063059B (zh) | 行为日志处理方法、装置及电子设备 | |
CN1492355A (zh) | 专利分析报告自动生成系统及方法 | |
CN103905434A (zh) | 一种网络数据处理方法和装置 | |
US20110307414A1 (en) | Consensus Investment Analysis/Stock Selection Methodology | |
CN106202357A (zh) | 一种网站浏览数据分析方法和装置 | |
CN112163017B (zh) | 一种知识挖掘系统及方法 | |
US11841837B2 (en) | Computer-based systems and methods for risk detection, visualization, and resolution using modular chainable algorithms | |
CN113515715B (zh) | 埋点事件编码的生成方法、处理方法及相关设备 | |
US11824952B2 (en) | Method of filtering data traffic sent to a user device | |
CN113961811A (zh) | 基于事件图谱的话术推荐方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201117 |