CN111953766A

CN111953766A - 一种网络数据采集的方法及其系统

Info

Publication number: CN111953766A
Application number: CN202010790334.9A
Authority: CN
Inventors: 刘德建; 柳旭辉; 张延锋; 郑成龙; 陈宏展
Original assignee: Fujian Tianyi Network Technology Co ltd
Current assignee: Fujian Tianyi Network Technology Co ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-11-17

Abstract

本发明提供了一种网络数据采集的方法，所述方法为：步骤S1、定义一配置文件，该配置文件内设置获取网站数据的参数，步骤S2、读取配置文件并采集网络数据，即根据不同网站，自定义配置浏览器UA标识，通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式，对网站的网络数据进行采集；步骤S3、进行转换网页特殊字符，即从网络上采集到的网络数据，进行数据格式化处理，即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理；步骤S4、保存采集结果，将数据导出到本地形成文件或者保存到数据库；本发明提供了采集效率。

Description

一种网络数据采集的方法及其系统

技术领域

本发明涉及网络通讯技术领域，特别是一种网络数据采集的方法及其系统。

背景技术

网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取，并按照一定规则和筛选标准进行数据归类，并形成数据库文件的一个过程。网络数据采集主要是通过网罗互联网海量数据，借助科学建模，倾听消费者的心声，洞察市场机会，了解竞品动态，为公司的媒介投入、渠道管理、品牌建设、产品创新等多种经营决策提供指导。但是目前网络上的网站有着不同的格式，需要在各种不同的网站内容中找出共性，并且许多网站会设置多种障碍方式不方便数据采集。

发明内容

为克服上述问题，本发明的目的是提供一种网络数据采集的方法，能解决不同网站的同字段数据采集，提高了工作效率。

本发明采用以下方案实现：一种网络数据采集的方法，所述方法包括如下步骤：

步骤S1、定义一配置文件，该配置文件内设置获取网站数据的参数，该配置文件能用于不同网站的同字段数据采集；

步骤S2、读取配置文件并采集网络数据，即根据不同网站，自定义配置浏览器UA标识，通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式，对网站的网络数据进行采集；

步骤S3、进行转换网页特殊字符，即从网络上采集到的网络数据，进行数据格式化处理，即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理；

步骤S4、保存采集结果，将数据导出到本地形成文件或者保存到数据库。

进一步的，所述获取网站数据的参数包括：当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。

进一步的，所述定时多线程采集数据方式为：采取定时控制采集，进行单次采集的定时设置，或者预设某一天或者是每周每月的定时采集，根据需要对选择时间进行重新组合，灵活调配采集任务；对于采集的实时数据，如果数据数量众多，则应该同时开多个线程，做好线程同步，平均分配任务，将数据都下载到本地，做好数据策略，保证时效性和稳定性。

进一步的，所述多层级采集数据方式为：对于多级层级结构的数据，需要进行不限制层级采集，设置程序内存标识符，在每一层级都设置具体的标识符，即第一层级标识符设置为First，第二层级设置为Second，第三层级设置为Third，在不同层级切换时带上对应的标识符进行处理，通过程序向网络服务器发送请求获取网络数据资源时，通过设定好的标识符来确定是哪一层级的数据，将获取到的网络数据从网络流读取出来，保存在对应层级的数据列表或者数据库中。

进一步的，所述网络爬虫方式能准确批量识别各种网页元素，支持不同网页结构的复杂网站数据采集；所述保存浏览器cookie采集方式：对于需要进行登录的网站，只需配置目标网站的账号密码，即能采集到登录后的数据，并且采集Cookie，在登录网站之后，自动记住Cookie，免去重复输入密码的问题。

进一步的，所述文件支持TXT、EXCEL、CSV和HTML文件格式。

本发明还提供了一种网络数据采集的系统，所述系统包括：配置模块、数据采集模块、数据格式处理模块、以及结果存储模块；

所述配置模块，用于定义一配置文件，该配置文件内设置获取网站数据的参数，该配置文件能用于不同网站的同字段数据采集；

所述数据采集模块，用于读取配置文件并采集网络数据，即根据不同网站，自定义配置浏览器UA标识，通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式，对网站的网络数据进行采集；

所述数据格式处理模块，用于进行转换网页特殊字符，即从网络上采集到的网络数据，进行数据格式化处理，即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理；

所述结果存储模块，用于保存采集结果，将数据导出到本地形成文件或者保存到数据库。

进一步的，所述文件支持TXT、EXCEL、CSV和HTML文件格式。

本发明的有益效果在于：本发明意在提高需要大量人工对一些网上公开数据进行重复操作，或者是对数据进行相关收集再统计工作的效率；另外，本发明通过采集网络数据有助于应用数据统计，有助于竞品分析，借助科学建模，获取用户真实行为数据，洞察市场机会，了解竞品动态，高效信息采集和数据清洗，及时应对系统风险，为公司的媒介投入、渠道管理、品牌建设、产品创新等多种经营决策提供指导。

附图说明

图1是本发明的方法流程示意图。

图2是本发明的系统原理框图。

具体实施方式

下面结合附图对本发明做进一步说明。

请参阅图1所示，本发明的一种网络数据采集的方法，所述方法包括如下步骤：

步骤S1、定义一配置文件，该配置文件内设置获取网站数据的参数，该配置文件能用于不同网站的同字段数据采集；解决不同网站的同字段数据采集，并经很少修改就能用在其他项目方案。所述获取网站数据的参数包括：当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。

步骤S2、读取配置文件并采集网络数据，即根据不同网站，自定义配置浏览器UA标识（浏览器UA标识，即用户代理（User Agent），可以使得服务器能够识别客户使用的操作系统、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件，从而判断用户是使用电脑浏览还是手机浏览，让网页做出自动的适应），通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式，对网站的网络数据进行采集；

下面结合一具体实施例对本发明作进一步的说明：

本发明的一种网络数据采集的方法：

1. 在网络界面上进行采集配置

设置获取网站数据的参数，然后用共同的网站数据的参数配置形成以配置文件，解决不同网站的同字段数据采集，通过本发明的软件系统，做成自己的识别库。

获取网站数据的参数如下：

（1）当前API地址：指的是应用程序编程接口，网站开发时预先定义的函数，开源网站都会提供这些API接口查询。例如设置的当前API地址是：

http://xxx.com/news/cgsyj_<pageid>.html。

（2）当前API地址类型：可以在类型下拉框进行选择，比如财经要闻、国际经济、公司研究、电子商务、媒体阅读、科研教育、本地生活等，设置的API地址对应的就是财经要闻。

（3）网站名：即获取数据的网站名。

（4）网站ID：用于在网络数据获取后，存入数据库里的网站ID识别。

（5）网站字符集：可以选择设置UTF、GBK等字符集。

（6）每页采集的子项数：设置在每一页采集的子项的数目。如设置为20。

（7）当前URL设置的最大页数：当前这个网址获取的最大页数，如这里设置为5。

2. 读取配置并采集网络数据

可根据不同网站，自定义配置浏览器UA标识，生成爬虫自定义模式、定时多线程采集数据、多层级采集数据、保存浏览器cookie采集方式等功能，采集大多数网站的网络数据。

自定义配置浏览器UA标识，可以使得服务器能够识别客户使用的操作系统、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件，从而判断用户是使用电脑浏览还是手机浏览，让网页做出自动的适应。在获取网络数据时，有助于对数据内容格式的识别和数据解析。

针对不同用户的采集需求，提供自动生成爬虫的自定义模式（爬虫指的是通过Python语言写一些按照一定规则，自动获取网络数据信息的脚本程序。用户可以根据采集需求，就比如需要找某本电子书的数据内容，可以提供一套查找该电子书的爬虫脚本），准确批量识别各种网页元素，支持不同网页结构的复杂网站采集，满足各种采集应用场景。

针对有时效性的数据，可以采取定时控制采集，可以是单次采集的定时设置，也可以预设某一天或者是每周每月的定时采集，根据需要对选择时间进行重新组合，灵活调配自己的采集任务。对于采集的实时数据，如果数据数量众多，如果每一次都取下来进行解析，就过了时效性，应该同时开多个线程，做好线程同步，平均分配任务，将数据都下载到本地，做好数据策略，保证时效性和稳定性。

很多主流新闻、电商类的网站，里面包含一级商品列表页，也包含二级商品详情页，还有三级评论详情页面。对于这样的多级层级结构的数据，需要进行不限制层级采集，设置程序内存标识符，在每一层级都设置具体的标识符，就比如第一层级标识符设置为First，第二层级设置为Second，第三层级设置为Third，在不同层级切换时带上对应的标识符进行处理，通过程序向网络服务器发送请求获取网络数据资源时，可以通过设定好的标识符（如First），就知道这是哪一层级的数据，将获取到的网络数据从网络流读取出来，保存在对应层级的数据列表或者数据库中（First的数据就保存在商品数据列表，Second的数据就保存在商品详情数据列表）。

对于需要进行登录的网站，只需配置目标网站的账号密码，即可用该模块采集到的登录后的数据。并且采集Cookie，在登录网站之后，自动记住Cookie，免去重复输入密码的问题。

3. 进行转换网页特殊字符

对于从网络上采集到的网络数据，需要进行数据格式化处理。使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化，HTML转码等多种方式，进行全自动处理。

大多数网站分两个编码规格随机生成，有时候是gbk编码，有时候是utf8编码，对于这种编码问题，只要分析头部charset是gbk还是utf8编码，对于一些不明确的标志头，可以先载入内容，用gbk编码解析完，再用utf8解析即可。

4. 保存采集结果

将采集到的数据导出到本地，支持TXT、EXCEL、CSV和HTML文件格式，或者直接保存到数据库中。

所述配置模块，用于定义一配置文件，该配置文件内设置获取网站数据的参数，该配置文件能用于不同网站的同字段数据采集；所述获取网站数据的参数包括：当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。

所述结果存储模块，用于保存采集结果，将数据导出到本地形成文件或者保存到数据库。所述文件支持TXT、EXCEL、CSV和HTML文件格式。

所述定时多线程采集数据方式为：采取定时控制采集，进行单次采集的定时设置，或者预设某一天或者是每周每月的定时采集，根据需要对选择时间进行重新组合，灵活调配采集任务；对于采集的实时数据，如果数据数量众多，则应该同时开多个线程，做好线程同步，平均分配任务，将数据都下载到本地，做好数据策略，保证时效性和稳定性。

所述多层级采集数据方式为：对于多级层级结构的数据，需要进行不限制层级采集，设置程序内存标识符，在每一层级都设置具体的标识符，即第一层级标识符设置为First，第二层级设置为Second，第三层级设置为Third，在不同层级切换时带上对应的标识符进行处理，通过程序向网络服务器发送请求获取网络数据资源时，通过设定好的标识符来确定是哪一层级的数据，将获取到的网络数据从网络流读取出来，保存在对应层级的数据列表或者数据库中。

所述网络爬虫方式能准确批量识别各种网页元素，支持不同网页结构的复杂网站数据采集；所述保存浏览器cookie采集方式：对于需要进行登录的网站，只需配置目标网站的账号密码，即能采集到登录后的数据，并且采集Cookie，在登录网站之后，自动记住Cookie，免去重复输入密码的问题。

总之，本发明意在提高需要大量人工对一些网上公开数据进行重复操作，或者是对数据进行相关收集再统计工作的效率。假设一个项目需要采集10个网站，每个网站有1000页数据，每页有40条数据，假如一个人每天处理100页数据，那么就需要一人10天，或者10人一天的工时，而且不能保证数据的准确性。而且随着数据更新，下次很可能需要重新收集数据，还不包括录入，但用此方案，技术人员和非技术人员都可以对规则进行匹配，假设配置一个网站关键词到软件需要10分钟，那么只需要100分钟，将大大提高采集数据的效率；另外，定义一配置文件，该配置文件内设置获取网站数据的参数，该配置文件能用于不同网站的同字段数据采集；能解决不同网站的同字段数据采集，提高了工作效率。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种网络数据采集的方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的一种网络数据采集的方法，其特征在于：所述获取网站数据的参数包括：当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。

3.根据权利要求1所述的一种网络数据采集的方法，其特征在于：所述定时多线程采集数据方式为：采取定时控制采集，进行单次采集的定时设置，或者预设某一天或者是每周每月的定时采集，根据需要对选择时间进行重新组合，灵活调配采集任务；对于采集的实时数据，如果数据数量众多，则应该同时开多个线程，做好线程同步，平均分配任务，将数据都下载到本地，做好数据策略，保证时效性和稳定性。

4.根据权利要求1所述的一种网络数据采集的方法，其特征在于：所述多层级采集数据方式为：对于多级层级结构的数据，需要进行不限制层级采集，设置程序内存标识符，在每一层级都设置具体的标识符，即第一层级标识符设置为First，第二层级设置为Second，第三层级设置为Third，在不同层级切换时带上对应的标识符进行处理，通过程序向网络服务器发送请求获取网络数据资源时，通过设定好的标识符来确定是哪一层级的数据，将获取到的网络数据从网络流读取出来，保存在对应层级的数据列表或者数据库中。

5.根据权利要求1所述的一种网络数据采集的方法，其特征在于：所述网络爬虫方式能准确批量识别各种网页元素，支持不同网页结构的复杂网站数据采集；所述保存浏览器cookie采集方式：对于需要进行登录的网站，只需配置目标网站的账号密码，即能采集到登录后的数据，并且采集Cookie，在登录网站之后，自动记住Cookie，免去重复输入密码的问题。

6.根据权利要求1所述的一种网络数据采集的方法，其特征在于：所述文件支持TXT、EXCEL、CSV和HTML文件格式。

7.一种网络数据采集的系统，其特征在于：所述系统包括：配置模块、数据采集模块、数据格式处理模块、以及结果存储模块；

8.根据权利要求1所述的一种网络数据采集的系统，其特征在于：所述获取网站数据的参数包括：当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。

9.根据权利要求1所述的一种网络数据采集的系统，其特征在于：所述定时多线程采集数据方式为：采取定时控制采集，进行单次采集的定时设置，或者预设某一天或者是每周每月的定时采集，根据需要对选择时间进行重新组合，灵活调配采集任务；对于采集的实时数据，如果数据数量众多，则应该同时开多个线程，做好线程同步，平均分配任务，将数据都下载到本地，做好数据策略，保证时效性和稳定性。

10.根据权利要求1所述的一种网络数据采集的系统，其特征在于：所述多层级采集数据方式为：对于多级层级结构的数据，需要进行不限制层级采集，设置程序内存标识符，在每一层级都设置具体的标识符，即第一层级标识符设置为First，第二层级设置为Second，第三层级设置为Third，在不同层级切换时带上对应的标识符进行处理，通过程序向网络服务器发送请求获取网络数据资源时，通过设定好的标识符来确定是哪一层级的数据，将获取到的网络数据从网络流读取出来，保存在对应层级的数据列表或者数据库中。

11.根据权利要求1所述的一种网络数据采集的系统，其特征在于：所述网络爬虫方式能准确批量识别各种网页元素，支持不同网页结构的复杂网站数据采集；所述保存浏览器cookie采集方式：对于需要进行登录的网站，只需配置目标网站的账号密码，即能采集到登录后的数据，并且采集Cookie，在登录网站之后，自动记住Cookie，免去重复输入密码的问题。

12.根据权利要求1所述的一种网络数据采集的系统，其特征在于：所述文件支持TXT、EXCEL、CSV和HTML文件格式。