CN107169110A

CN107169110A - 一种基于云服务的大数据收集方法及系统

Info

Publication number: CN107169110A
Application number: CN201710356145.9A
Authority: CN
Inventors: 陈彬强; 蔡勇
Original assignee: Zhaoqing Chicco Motor Co Ltd
Current assignee: Zhaoqing Chicco Motor Co Ltd
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2017-09-15

Abstract

本发明实施例公开了一种基于云服务的大数据收集方法及系统，所述系统包括：信息系统接收和处理用户预设条件的行业数据；针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据；数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载，并将数据挖掘结果导入数据库进行存储，实现数据收集。利用本发明实施例，用户可以根据自身需要预设不同的行业数据，如银行数据、基因序列、金融控制等，数据挖掘应用服务器再根据用户的预设条件进行针对性分析处理，结构简单、目的明确、效率高。

Description

一种基于云服务的大数据收集方法及系统

技术领域

本发明涉及数据收集技术领域，特别涉及一种基于云服务的大数据收集方法及系统。

背景技术

数据挖掘是指用适当的统计分析方法对收集来的大量数据进行分析总结，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据挖掘可帮助人们作出判断，以便采取适当行动。数据挖掘的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据挖掘得以推广。数据挖掘是数学与计算机科学相结合的产物。

数据多样化的形成主要有两方面的原因：一是数据来源多，有搜索引擎、社交网络、通话记录、传感器等等；二是数据格式多，有结构数据、半结构数据和非结构数据。据相关数据统计，每秒钟人们发送290封电子邮件；亚马逊处理72.9笔订单；每分钟人们在YouTube上传20小时的视频；每月人们总共在facebook（脸书）上浏览7000亿分钟。

目前的数据挖掘面临的问题是数据量大、多种结构形式和实时性等多样化要求，这些问题增加了数据挖掘和整合困难，传统数据挖掘系统的架构设计结构复杂、效率低、针对性不强。

发明内容

本发明实施例的目的在于提供一种基于云服务的大数据收集方法及系统，对数据进行针对性采集和整合，结构简单、目的性强。

为达到上述目的，本发明实施例公开了一种基于云服务的大数据收集方法，方法包括：

信息系统接收和处理用户预设条件的行业数据；

针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据；

数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载，并将数据挖掘结果导入数据库进行存储，实现数据收集。

信息系统接收和处理用户预设条件的行业数据；

数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载，并将数据挖掘结果导入行业客户端进行存储，实现数据收集。

可选的，所述方法还包括：

所述行业客户端为用户提供自身存储的分析处理后的最终数据。

可选的，所述针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据，包括：

利用Hadoop分布式模式，针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据。

可选的，所述数据库为：关系数据库。

为达到上述目的，本发明实施例公开了一种基于云服务的大数据收集系统，其特征在于，包括：信息系统、数据过滤模块、数据挖掘应用服务器和数据库；

所述信息系统用于接收和处理用户预设条件的行业数据；

所述数据过滤模块用于针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据；

所述数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载，并将数据挖掘结果导入数据库进行存储，实现数据收集；

所述数据库用于为用户提供自身存储的分析处理后的最终数据。

为达到上述目的，本发明实施例公开了一种基于云服务的大数据收集系统，其特征在于，包括：信息系统、数据过滤模块、数据挖掘应用服务器和行业客户端；

所述信息系统用于接收和处理用户预设条件的行业数据，并通过总线接入该系统中；

所述数据过滤模块，用于针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据；

所述数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载，并将数据挖掘结果导入行业客户端进行存储，实现数据收集；

所述行业客户端用于为用户提供自身存储的分析处理后的最终数据。

可选的，所述信息系统包括：管理信息系统、企业资源计划系统、客户关系管理系统和电子商务系统。

可选的，所述数据挖掘应用服务器包括：探索数据仓库、数据挖掘算法库和模型库；

所述探索数据仓库用于读取所述管理信息系统、企业资源计划系统、客户关系管理系统和电子商务系统中的数据；

所述数据挖掘算法库用于根据模型库和探索数据仓库的信息对数据进行挖掘计算并将计算结果导入行业客户端。

可选的，所述行业客户端包括：知识储存端和客户应用端；

所述知识储存端用于接收所述数据挖掘算法库导入的数据并储存；

所述客户应用端用于读取知识储存端的数据并供客户查询。

可见，用户可以根据自身需要预设不同的行业数据，数据挖掘应用服务器再根据用户的预设条件进行针对性分析处理，结构简单、目的明确、效率高；数据挖掘算法库采用统计分析、决策树、粗糙集、模糊集、基于范例的理、神经网络等数据挖掘方法对信息数据集中的海量数据进行分析、处理、推理、预测、最终根据用户设定的条件，实现最优方案的自动推送。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于云服务的大数据收集方法的一种流程示意图。

图2为本发明实施例提供的基于云服务的大数据收集方法的另一种流程示意图。

图3为本发明实施例提供的基于云服务的大数据收集系统的一种结构示意图。

图4为本发明实施例提供的基于云服务的大数据收集系统的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于云服务的大数据收集方法的一种流程示意图，可以包括如下步骤：

S101，信息系统接收和处理用户预设条件的行业数据；

具体的，所述信息系统包括：管理信息系统、企业资源计划系统、客户关系管理系统和电子商务系统。

其中，管理信息系统（Management Information System，简称MIS）是一个以人为主导，利用计算机硬件、软件、网络通信设备以及其他办公设备，进行信息的收集、传输、加工、储存、更新、拓展和维护的系统。

管理信息系统（Management Information Systems简称MIS）是一个不断发展的新型学科，MIS的定义随着计算机技术和通讯技术的进步也在不断更新，在现阶段普遍认为管理信息系统MIS、是由人和计算机设备或其他信息处理手段、组成并用于管理信息的系统。

管理信息由信息的采集、信息的传递、信息的储存、信息的加工、信息的维护和信息的使用六个方面组成。完善的管理信息系统MIS具有以下四个标准：确定的信息需求、信息的可采集与可加工、可以通过程序为管理人员提供信息、可以对信息进行管理。具有统一规划的数据库是MIS成熟的重要标志，它象征着管理信息系统MIS是软件工程的产物.、管理信息系统MIS是一个交叉性综合性学科，组成部分有：计算机学科（网络通讯、数据库、计算机语言等）、数学（统计学、运筹学、线性规划等）、管理学、仿真等多学科。信息是管理上的一项极为重要的资源，管理工作的成败取决于能否做出有效的决策，而决策的正确程度则在很大程度上取决于信息的质量。所以能否有效的管理信息成为企业的首要问题，管理信息系统在强调管理、强调信息的现代社会中越来越得到普及。

企业资源计划(Enterprise Resource Planning ) 系统，即为ERP系统，是指建立在信息技术基础上，集信息技术与先进管理思想于一身，以系统化的管理思想，为企业员工及决策层提供决策手段的管理平台。它是从MRP（物料需求计划）发展而来的新一代集成化管理信息系统，它扩展了MRP的功能，其核心思想是供应链管理。它跳出了传统企业边界，从供应链范围去优化企业的资源，优化了现代企业的运行模式，反映了市场对企业合理调配资源的要求。它对于改善企业业务流程、提高企业核心竞争力具有显著作用。

ERP是针对物资资源管理（物流）、人力资源管理（人流）、财务资源管理（财流）、信息资源管理（信息流）集成一体化的企业管理软件。它将包含客户/服务架构，使用图形用户接口，应用开放系统制作。除了已有的标准功能，它还包括其它特性，如品质、过程运作管理、以及调整报告等。

客户关系管理（CRM，Customer relationship management）是利用信息科学技术，实现市场营销、销售、服务等活动自动化，使企业能更高效地为客户提供满意、周到的服务，以提高客户满意度、忠诚度为目的的一种管理经营方式。客户关系管理既是一种管理理念，又是一种软件技术。以客户为中心的管理理念是CRM实施的基础。

电子商务系统，广义上是指支持电子商务活动的电子技术手段的集合。狭义上是指狭义的电子商务系统，在INTERNET和其他网络的基础上，以实现企业电子商务活动为目标，满足企业生产、销售、服务等生产和管理的需要，支持企业的对外业务协作，从运作，管理和决策等层次全面提高企业信息化水平，为企业提供商业智能的计算机系统。

电子商务整体结构分为电子商务应用层结构（简称应用层）和支持应用实现的基础结构（三层），基础结构一般包括三个层次和两个支柱。三个层次自下而上分别为网络层、传输层和服务层，两个支柱分别是安全协议与技术标准、公共政策与法律规范。前三个层次为基础层次，其上就是各种特定的电子商务应用，可见三个基础层次和两个支柱是电子商务应用的条件。为不失一般性，在此仅对电子商务的基础结构作概括说明。

S102，针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据；

具体的，可以利用Hadoop分布式模式，针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据。其中，利用Hadoop分布式模式，针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据，为现有技术，本发明实施例在此不对其进行赘述。

其中，Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（largedata set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streamingaccess）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

需要说明的是，本发明实施例包括但不限于Hadoop分布式模式，也可以利用现有技术存在的其他数据过滤方法，具体以实现针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据为准。

S103，数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载，并将数据挖掘结果导入数据库进行存储，实现数据收集。

数据收集，意即数据挖掘（Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

具体的，所述数据挖掘应用服务器包括：探索数据仓库、数据挖掘算法库和模型库；

所述数据挖掘算法库用于根据模型库和探索数据仓库的信息对数据进行挖掘计算并将计算结果导入数据库。其中，数据挖掘算法库采用统计分析、决策树、粗糙集、模糊集、基于范例的理、神经网络等数据挖掘方法。

具体的，所述数据库可以为：关系数据库。

其中，关系数据库，是建立在关系数据库模型基础上的数据库，借助于集合代数等概念和方法来处理数据库中的数据，同时也是一个被组织成一组拥有正式描述性的表格，该形式的表格作用的实质是装载着数据项的特殊收集体，这些表格中的数据能以许多不同的方式被存取或重新召集而不需要重新组织数据库表格。关系数据库的定义造成元数据的一张表格或造成表格、列、范围和约束的正式描述。每个表格（有时被称为一个关系）包含用列表示的一个或更多的数据种类。每行包含一个唯一的数据实体，这些数据是被列定义的种类。当创造一个关系数据库的时候，你能定义数据列的可能值的范围和可能应用于那个数据值的进一步约束。而SQL语言是标准用户和应用程序到关系数据库的接口。其优势是容易扩充，且在最初的数据库创造之后，一个新的数据种类能被添加而不需要修改所有的现有应用软件。主流的关系数据库有oracle、db2、sqlserver、sybase、mysql等。

图2为本发明实施例提供的基于云服务的大数据收集方法的另一种流程示意图，可以包括如下步骤：

S201，信息系统接收和处理用户预设条件的行业数据；

S202，针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据；

S203，数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载，并将数据挖掘结果导入行业客户端进行存储，实现数据收集。

具体的，所述行业客户端包括：知识储存端和客户应用端；

所述客户应用端用于读取知识储存端的数据并供客户查询。

具体的，所述方法还包括：所述行业客户端为用户提供自身存储的分析处理后的最终数据。

图3为本发明实施例提供的基于云服务的大数据收集系统的一种结构示意图，包括：信息系统301、数据过滤模块302、数据挖掘应用服务器303和数据库304；

所述信息系统用于接收和处理用户预设条件的行业数据；

图4为本发明实施例提供的基于云服务的大数据收集系统的另一种结构示意图，包括：信息系统401、数据过滤模块402、数据挖掘应用服务器403和行业客户端404；

所述信息系统401用于接收和处理用户预设条件的行业数据，并通过总线接入该系统中；

所述数据过滤模块402，用于针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据；

所述数据挖掘应用服务器403用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载，并将数据挖掘结果导入行业客户端进行存储，实现数据收集；

所述行业客户端404用于为用户提供自身存储的分析处理后的最终数据。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于云服务的大数据收集方法，其特征在于，所述方法包括：

信息系统接收和处理用户预设条件的行业数据；

2.一种基于云服务的大数据收集方法，其特征在于，所述方法包括：

信息系统接收和处理用户预设条件的行业数据；

3.根据权利要求2所述的方法，所述方法还包括：

4.根据权利要求1或2所述的方法，所述针对用户所预设的行业数据进行数据过滤，得到完整且不重复的行业数据，包括：

5.根据权利要求1所述的方法，所述数据库为：关系数据库。

6.一种基于云服务的大数据收集系统，其特征在于，包括：信息系统、数据过滤模块、数据挖掘应用服务器和数据库；

所述信息系统用于接收和处理用户预设条件的行业数据；

7.一种基于云服务的大数据收集系统，其特征在于，包括：信息系统、数据过滤模块、数据挖掘应用服务器和行业客户端；

8.根据权利要求6或7所述的基于云服务的大数据收集系统，其特征在于，所述信息系统包括：管理信息系统、企业资源计划系统、客户关系管理系统和电子商务系统。

9.根据权利要求6或7所述的基于云服务的大数据收集系统，其特征在于，所述数据挖掘应用服务器包括：探索数据仓库、数据挖掘算法库和模型库；

10.根据权利要求7所述的基于云服务的大数据收集系统，其特征在于，所述行业客户端包括：知识储存端和客户应用端；

所述客户应用端用于读取知识储存端的数据并供客户查询。