CN111953766A - 一种网络数据采集的方法及其系统 - Google Patents

一种网络数据采集的方法及其系统 Download PDF

Info

Publication number
CN111953766A
CN111953766A CN202010790334.9A CN202010790334A CN111953766A CN 111953766 A CN111953766 A CN 111953766A CN 202010790334 A CN202010790334 A CN 202010790334A CN 111953766 A CN111953766 A CN 111953766A
Authority
CN
China
Prior art keywords
data
acquisition
network
website
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010790334.9A
Other languages
English (en)
Inventor
刘德建
柳旭辉
张延锋
郑成龙
陈宏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Tianyi Network Technology Co ltd
Original Assignee
Fujian Tianyi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Tianyi Network Technology Co ltd filed Critical Fujian Tianyi Network Technology Co ltd
Priority to CN202010790334.9A priority Critical patent/CN111953766A/zh
Publication of CN111953766A publication Critical patent/CN111953766A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供了一种网络数据采集的方法,所述方法为:步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库;本发明提供了采集效率。

Description

一种网络数据采集的方法及其系统
技术领域
本发明涉及网络通讯技术领域,特别是一种网络数据采集的方法及其系统。
背景技术
网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。网络数据采集主要是通过网罗互联网海量数据,借助科学建模,倾听消费者的心声,洞察市场机会,了解竞品动态,为公司的媒介投入、渠道管理、品牌建设、产品创新等多种经营决策提供指导。但是目前网络上的网站有着不同的格式,需要在各种不同的网站内容中找出共性,并且许多网站会设置多种障碍方式不方便数据采集。
发明内容
为克服上述问题,本发明的目的是提供一种网络数据采集的方法,能解决不同网站的同字段数据采集,提高了工作效率。
本发明采用以下方案实现:一种网络数据采集的方法,所述方法包括如下步骤:
步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库。
进一步的,所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
进一步的,所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
进一步的,所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
进一步的,所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
进一步的,所述文件支持TXT、EXCEL、CSV和HTML文件格式。
本发明还提供了一种网络数据采集的系统,所述系统包括:配置模块、数据采集模块、数据格式处理模块、以及结果存储模块;
所述配置模块,用于定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
所述数据采集模块,用于读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
所述数据格式处理模块,用于进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
所述结果存储模块,用于保存采集结果,将数据导出到本地形成文件或者保存到数据库。
进一步的,所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
进一步的,所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
进一步的,所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
进一步的,所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
进一步的,所述文件支持TXT、EXCEL、CSV和HTML文件格式。
本发明的有益效果在于:本发明意在提高需要大量人工对一些网上公开数据进行重复操作,或者是对数据进行相关收集再统计工作的效率;另外,本发明通过采集网络数据有助于应用数据统计,有助于竞品分析,借助科学建模,获取用户真实行为数据,洞察市场机会,了解竞品动态,高效信息采集和数据清洗,及时应对系统风险,为公司的媒介投入、渠道管理、品牌建设、产品创新等多种经营决策提供指导。
附图说明
图1是本发明的方法流程示意图。
图2是本发明的系统原理框图。
具体实施方式
下面结合附图对本发明做进一步说明。
请参阅图1所示,本发明的一种网络数据采集的方法,所述方法包括如下步骤:
步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;解决不同网站的同字段数据采集,并经很少修改就能用在其他项目方案。所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识(浏览器UA标识,即用户代理(User Agent),可以使得服务器能够识别客户使用的操作系统、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件,从而判断用户是使用电脑浏览还是手机浏览,让网页做出自动的适应),通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库。
下面结合一具体实施例对本发明作进一步的说明:
本发明的一种网络数据采集的方法:
1. 在网络界面上进行采集配置
设置获取网站数据的参数,然后用共同的网站数据的参数配置形成以配置文件,解决不同网站的同字段数据采集,通过本发明的软件系统,做成自己的识别库。
获取网站数据的参数如下:
(1)当前API地址:指的是应用程序编程接口,网站开发时预先定义的函数,开源网站都会提供这些API接口查询。例如设置的当前API地址是:
http://xxx.com/news/cgsyj_<pageid>.html。
(2)当前API地址类型:可以在类型下拉框进行选择,比如财经要闻、国际经济、公司研究、电子商务、媒体阅读、科研教育、本地生活等,设置的API地址对应的就是财经要闻。
(3)网站名:即获取数据的网站名。
(4)网站ID:用于在网络数据获取后,存入数据库里的网站ID识别。
(5)网站字符集:可以选择设置UTF、GBK等字符集。
(6)每页采集的子项数:设置在每一页采集的子项的数目。如设置为20。
(7)当前URL设置的最大页数:当前这个网址获取的最大页数,如这里设置为5。
2. 读取配置并采集网络数据
可根据不同网站,自定义配置浏览器UA标识,生成爬虫自定义模式、定时多线程采集数据、多层级采集数据、保存浏览器cookie采集方式等功能,采集大多数网站的网络数据。
自定义配置浏览器UA标识,可以使得服务器能够识别客户使用的操作系统、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件,从而判断用户是使用电脑浏览还是手机浏览,让网页做出自动的适应。在获取网络数据时,有助于对数据内容格式的识别和数据解析。
针对不同用户的采集需求,提供自动生成爬虫的自定义模式(爬虫指的是通过Python语言写一些按照一定规则,自动获取网络数据信息的脚本程序。用户可以根据采集需求,就比如需要找某本电子书的数据内容,可以提供一套查找该电子书的爬虫脚本),准确批量识别各种网页元素,支持不同网页结构的复杂网站采集,满足各种采集应用场景。
针对有时效性的数据,可以采取定时控制采集,可以是单次采集的定时设置,也可以预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配自己的采集任务。对于采集的实时数据,如果数据数量众多,如果每一次都取下来进行解析,就过了时效性,应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
很多主流新闻、电商类的网站,里面包含一级商品列表页,也包含二级商品详情页,还有三级评论详情页面。对于这样的多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,就比如第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,可以通过设定好的标识符(如First),就知道这是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中(First的数据就保存在商品数据列表,Second的数据就保存在商品详情数据列表)。
对于需要进行登录的网站,只需配置目标网站的账号密码,即可用该模块采集到的登录后的数据。并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
3. 进行转换网页特殊字符
对于从网络上采集到的网络数据,需要进行数据格式化处理。使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化,HTML转码等多种方式,进行全自动处理。
大多数网站分两个编码规格随机生成,有时候是gbk编码,有时候是utf8编码,对于这种编码问题,只要分析头部charset是gbk还是utf8编码,对于一些不明确的标志头,可以先载入内容,用gbk编码解析完,再用utf8解析即可。
4. 保存采集结果
将采集到的数据导出到本地,支持TXT、EXCEL、CSV和HTML文件格式,或者直接保存到数据库中。
本发明还提供了一种网络数据采集的系统,所述系统包括:配置模块、数据采集模块、数据格式处理模块、以及结果存储模块;
所述配置模块,用于定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
所述数据采集模块,用于读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
所述数据格式处理模块,用于进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
所述结果存储模块,用于保存采集结果,将数据导出到本地形成文件或者保存到数据库。所述文件支持TXT、EXCEL、CSV和HTML文件格式。
所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
总之,本发明意在提高需要大量人工对一些网上公开数据进行重复操作,或者是对数据进行相关收集再统计工作的效率。假设一个项目需要采集10个网站,每个网站有1000页数据,每页有40条数据,假如一个人每天处理100页数据,那么就需要一人10天,或者10人一天的工时,而且不能保证数据的准确性。而且随着数据更新,下次很可能需要重新收集数据,还不包括录入,但用此方案,技术人员和非技术人员都可以对规则进行匹配,假设配置一个网站关键词到软件需要10分钟,那么只需要100分钟,将大大提高采集数据的效率;另外,定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;能解决不同网站的同字段数据采集,提高了工作效率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (12)

1.一种网络数据采集的方法,其特征在于:所述方法包括如下步骤:
步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库。
2.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
3.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
4.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
5.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
6.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述文件支持TXT、EXCEL、CSV和HTML文件格式。
7.一种网络数据采集的系统,其特征在于:所述系统包括:配置模块、数据采集模块、数据格式处理模块、以及结果存储模块;
所述配置模块,用于定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
所述数据采集模块,用于读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
所述数据格式处理模块,用于进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
所述结果存储模块,用于保存采集结果,将数据导出到本地形成文件或者保存到数据库。
8.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
9.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
10.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
11.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
12.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述文件支持TXT、EXCEL、CSV和HTML文件格式。
CN202010790334.9A 2020-08-07 2020-08-07 一种网络数据采集的方法及其系统 Pending CN111953766A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010790334.9A CN111953766A (zh) 2020-08-07 2020-08-07 一种网络数据采集的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010790334.9A CN111953766A (zh) 2020-08-07 2020-08-07 一种网络数据采集的方法及其系统

Publications (1)

Publication Number Publication Date
CN111953766A true CN111953766A (zh) 2020-11-17

Family

ID=73332577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010790334.9A Pending CN111953766A (zh) 2020-08-07 2020-08-07 一种网络数据采集的方法及其系统

Country Status (1)

Country Link
CN (1) CN111953766A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428635A (zh) * 2022-04-06 2022-05-03 杭州未名信科科技有限公司 一种数据采集方法、装置、电子设备及存储介质
CN115426299A (zh) * 2022-10-20 2022-12-02 深圳红途科技有限公司 无特征数据标识方法、装置、计算机设备及存储介质
CN116841756A (zh) * 2023-09-04 2023-10-03 奇点数联(北京)科技有限公司 一种目标增量型数据的采集方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100114857A1 (en) * 2008-10-17 2010-05-06 John Edwards User interface with available multimedia content from multiple multimedia websites
CN103927370A (zh) * 2014-04-23 2014-07-16 焦点科技股份有限公司 一种组合文字和图片信息的网络资讯批量采集方法
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN109145233A (zh) * 2018-08-27 2019-01-04 山东浪潮商用系统有限公司 互联网信息采集系统
CN110245278A (zh) * 2018-09-05 2019-09-17 爱信诺征信有限公司 网页数据的采集方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100114857A1 (en) * 2008-10-17 2010-05-06 John Edwards User interface with available multimedia content from multiple multimedia websites
CN103927370A (zh) * 2014-04-23 2014-07-16 焦点科技股份有限公司 一种组合文字和图片信息的网络资讯批量采集方法
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN109145233A (zh) * 2018-08-27 2019-01-04 山东浪潮商用系统有限公司 互联网信息采集系统
CN110245278A (zh) * 2018-09-05 2019-09-17 爱信诺征信有限公司 网页数据的采集方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张春元等: "Web新闻自动采集发布系统的设计与实现", 《计算机技术与发展》 *
杨健: "利用专业数据采集工具获取网络数据的方法", 《中小学信息技术教育》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428635A (zh) * 2022-04-06 2022-05-03 杭州未名信科科技有限公司 一种数据采集方法、装置、电子设备及存储介质
CN115426299A (zh) * 2022-10-20 2022-12-02 深圳红途科技有限公司 无特征数据标识方法、装置、计算机设备及存储介质
CN116841756A (zh) * 2023-09-04 2023-10-03 奇点数联(北京)科技有限公司 一种目标增量型数据的采集方法
CN116841756B (zh) * 2023-09-04 2023-11-10 奇点数联(北京)科技有限公司 一种目标增量型数据的采集方法

Similar Documents

Publication Publication Date Title
CN111953766A (zh) 一种网络数据采集的方法及其系统
CN101079768B (zh) 一种统计网页链接点击数据的方法
CN111666490A (zh) 基于kafka的信息推送方法、装置、设备及存储介质
US20090157630A1 (en) Method of extracting data and recommending and generating visual displays
US20070156809A1 (en) RSS feed generator
US20030070143A1 (en) Method for extracting digests, reformatting, and automatic monitoring of structured online documents based on visual programming of document tree navigation and transformation
CN101996196B (zh) 一种动态网页的采集方法及装置
CN102073725A (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102073726A (zh) 搜索引擎系统及该搜索引擎系统的结构化数据引入方法
Lakshmi et al. An overview of preprocessing on web log data for web usage analysis
CN109977312A (zh) 一种基于内容标签的知识库推荐系统
Gupta et al. Web usage mining using improved Frequent Pattern Tree algorithms
Raju et al. Knowledge discovery from web usage data: Complete preprocessing methodology
Sathiyamoorthi et al. Data Pre-Processing Techniques for Pre-Fetching and Caching of Web Data through Proxy Server
CN110737645B (zh) 一种不同系统间数据迁移方法、数据迁移系统及相关设备
CN109063059B (zh) 行为日志处理方法、装置及电子设备
CN1492355A (zh) 专利分析报告自动生成系统及方法
CN103905434A (zh) 一种网络数据处理方法和装置
US20110307414A1 (en) Consensus Investment Analysis/Stock Selection Methodology
CN106202357A (zh) 一种网站浏览数据分析方法和装置
CN112163017B (zh) 一种知识挖掘系统及方法
US11841837B2 (en) Computer-based systems and methods for risk detection, visualization, and resolution using modular chainable algorithms
CN113515715B (zh) 埋点事件编码的生成方法、处理方法及相关设备
US11824952B2 (en) Method of filtering data traffic sent to a user device
CN113961811A (zh) 基于事件图谱的话术推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201117