CN114547171A

CN114547171A - 一种基于大数据分析的业务数据的处理方法及系统

Info

Publication number: CN114547171A
Application number: CN202210159730.0A
Authority: CN
Inventors: 郑光鸿; 廖伟波; 丁延松; 冯雄伟; 郭昭提; 覃朋星
Original assignee: Guangzhou Pintui Technology Co ltd
Current assignee: Guangzhou Pintui Technology Co ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-27

Abstract

本发明公开了一种基于大数据分析的业务数据的处理方法，对需要采集的数据平台的数据相关性进行分级，采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取，其中，对于相关度高的数据平台采用深层抓取，而对于相关度低的数据平台采用简单数据抓取；对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式)，将抓取的数据进行数据清洗后，转换为对应的数据格式的数据，其中，所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别；对转换数据格式后的数据进行池化处理，将处理后的数据存储于业务处理中心的数据池；所述数据池与数据处理单元连接，为数据应用及分析提供数据基础。

Description

一种基于大数据分析的业务数据的处理方法及系统

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种基于大数据分析的业务数据的处理方法及系统。

背景技术

在互联网快速发展的带动下，社会生活的基本方式正在悄然发生改变。以往的物质交换方式、信息传播方式已经演变为新时代的“非主流”，互联网取而代之成为生活的必需品，信息网络连通社会每一根神经。

互联网时代的到来，使人类的社会生活更加方便快捷。但是，信息过载的问题也随之而来，如何快速的从大量信息中筛选出所需信息成为亟待解决的问题。1994年1月，分类目录EINetGalaxy(TradewaveGalaxy)上线，同时支持Gopher和Telnet搜索。同年4月，Yahoo目录诞生，开始提供有限的数据库的查询服务。但是伴随网

络技术的飞速进步，网络信息的过载问题愈加突出，Yahoo的技术手段已经无法有效应对。1998年10月，Google诞生，Google以Pagerank为基础，自动判断网页的重要性，使得搜索结果的相关性得到增强。Google抓取海量网页信息内容，并以此为基础向用户提供信息的索引服务，用户通过关键字、词搜索查阅所需的相关资料，Google的使用极大提高了使用者的工作效率和获取信息的质量。

而在现代的平台类企业中，需要对例如用户数据的全方位获取，以形成比用户更了解用户的贴心服务，需要对用户的多个平台数据进行抓取，而不同平台的数据的侧重点不相同，有的对应于用户的人际关系，有的是对应于用的习惯数据等，而如果采用统一的数据抓取方式抓取信息，会导致在构建人物画像是引入不重要的干扰数据。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开一种基于大数据分析的业务数据的处理方法，所述方法包括：

步骤1，对需要采集的数据平台的数据相关性进行分级，采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取，其中，对于相关度高的数据平台采用深层抓取，而对于相关度低的数据平台采用简单数据抓取；

步骤2，对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式)，将抓取的数据进行数据清洗后，转换为对应的数据格式的数据，其中，所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别；

步骤3，对转换数据格式后的数据进行池化处理，将处理后的数据存储于业务处理中心的数据池；

步骤4，所述数据池与数据处理单元连接，为数据应用及分析提供数据基础。

更进一步地，所述步骤1进一步包括：通过Selenium函数将抓取业务关键词请求发送到数据平台对应的程序接口，所述程序接口接受请求打开Selenium函数要抓取的数据内容，在第三方服务器完成数据内容的加载，然后通过桥接方式与业务数据处理中心连接，将所述第三方服务器缓存的抓取的数据内容传回业务数据处理中心的数据预处理单元，在对抓取回的数据进行预处理及解析提取。

更进一步地，所述步骤1进一步包括：对需要采集的数据平台的数据相关性进行分级进一步需要对数据抓取的难易程度进行分级，若所述数据平台需要进行动态网页数据的抓取，则设置该数据平台为高相关性，若所述数据平台设置有反抓取屏蔽单元，则设置该数据平台为高相关性。

更进一步地，若所述数据平台设置有反抓取屏蔽单元，则通过机器学习方式模拟正常访问行为，并设置伪随机数列，基于该伪随机数列设置更换网关和代理服务器的频率。

更进一步地，所述第三方服务器为代理服务器。

更进一步地，所述步骤2进一步包括：转换为对应的数据格式的数据包括该数据所属数据平台的数据倾向，如所述数据平台为交友平台，则对应的数据格式为用户之间的关联对应的数据格式，如所述数据平台为购物平台，则对应的数据格式为消费记录对应的数据格式。

更进一步地，所述步骤2进一步包括：所述的数据清洗包括：去除无用和重复的数据和规范数据格式，所述根据不同的数据来源对抓取的数据进行数据分类并添加对应标识。

本发明还公开了一种基于大数据分析的业务数据的处理系统，所述系统包括：

数据抓取单元，对需要采集的数据平台的数据相关性进行分级，采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取，通过Selenium函数将抓取业务关键词请求发送到数据平台对应的程序接口，所述程序接口接受请求打开Selenium函数要抓取的数据内容，在第三方服务器完成数据内容的加载，然后通过桥接方式与业务数据处理中心连接，将所述第三方服务器缓存的抓取的数据内容传回业务数据处理中心的数据预处理单元，在对抓取回的数据进行预处理及解析提取，其中，对于相关度高的数据平台采用深层抓取，而对于相关度低的数据平台采用简单数据抓取，对需要采集的数据平台的数据相关性进行分级进一步需要对数据抓取的难易程度进行分级，若所述数据平台需要进行动态网页数据的抓取，则设置该数据平台为高相关性，若所述数据平台设置有反抓取屏蔽单元，则设置该数据平台为高相关性，若所述数据平台设置有反抓取屏蔽单元，则通过机器学习方式模拟正常访问行为，并设置伪随机数列，基于该伪随机数列设置更换网关和代理服务器的频率；

数据前处理单元，对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式)，将抓取的数据进行数据清洗后，转换为对应的数据格式的数据，其中，所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别，其中，转换为对应的数据格式的数据包括该数据所属数据平台的数据倾向，如所述数据平台为交友平台，则对应的数据格式为用户之间的关联对应的数据格式，如所述数据平台为购物平台，则对应的数据格式为消费记录对应的数据格式，所述的数据清洗包括：去除无用和重复的数据和规范数据格式，所述根据不同的数据来源对抓取的数据进行数据分类并添加对应标识；

数据存储单元，对转换数据格式后的数据进行池化处理，将处理后的数据存储于业务处理中心的数据池；

数据后处理单元，所述数据池与数据处理单元连接，为数据应用及分析提供数据基础。

更进一步地，本发明还公开了一种电子设备，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如上所述的方法中的步骤的指令。

更进一步地，本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行，以实现如上任一项所述的方法。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的基于大数据分析的业务数据的处理方法的控制流程图。

具体实施方式

实施例一

如图1所示的一种基于大数据分析的业务数据的处理方法，所述方法包括：

更进一步地，所述第三方服务器为代理服务器。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于大数据分析的业务数据的处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种基于大数据分析的业务数据处理方法，其特征在于，所述步骤1进一步包括：通过Selenium函数将抓取业务关键词请求发送到数据平台对应的程序接口，所述程序接口接受请求打开Selenium函数要抓取的数据内容，在第三方服务器完成数据内容的加载，然后通过桥接方式与业务数据处理中心连接，将所述第三方服务器缓存的抓取的数据内容传回业务数据处理中心的数据预处理单元，在对抓取回的数据进行预处理及解析提取。

3.如权利要求1所述的一种基于大数据分析的业务数据处理方法，其特征在于，所述步骤1进一步包括：对需要采集的数据平台的数据相关性进行分级进一步需要对数据抓取的难易程度进行分级，若所述数据平台需要进行动态网页数据的抓取，则设置该数据平台为高相关性，若所述数据平台设置有反抓取屏蔽单元，则设置该数据平台为高相关性。

4.如权利要求3所述的一种基于大数据分析的业务数据处理方法，其特征在于，若所述数据平台设置有反抓取屏蔽单元，则通过机器学习方式模拟正常访问行为，并设置伪随机数列，基于该伪随机数列设置更换网关和代理服务器的频率。

5.如权利要求2所述的一种基于大数据分析的业务数据处理方法，其特征在于，所述第三方服务器为代理服务器。

6.如权利要求1所述的一种基于大数据分析的业务数据处理方法，其特征在于，所述步骤2进一步包括：转换为对应的数据格式的数据包括该数据所属数据平台的数据倾向，如所述数据平台为交友平台，则对应的数据格式为用户之间的关联对应的数据格式，如所述数据平台为购物平台，则对应的数据格式为消费记录对应的数据格式。

7.如权利要求1所述的一种基于大数据分析的业务数据处理方法，其特征在于，所述步骤2进一步包括：所述的数据清洗包括：去除无用和重复的数据和规范数据格式，所述根据不同的数据来源对抓取的数据进行数据分类并添加对应标识。

8.一种基于大数据分析的业务数据的处理系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求17任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行，以实现如权利要求1-7任一项所述的方法。