CN112613562A

CN112613562A - 基于多中心云计算的数据分析系统及方法

Info

Publication number: CN112613562A
Application number: CN202011556814.5A
Authority: CN
Inventors: 邱建强
Original assignee: Shandong Xintaiyang Intelligent Technology Co ltd
Current assignee: Guangzhou Xiwen Information Technology Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-06
Anticipated expiration: 2040-12-24
Also published as: CN112613562B

Abstract

本发明云计算技术领域，具体涉及基于多中心云计算的数据分析系统及方法。所述系统包括：数据采集单元，配置用于采集原始数据；数据映射单元，配置用于对原始数据进行多空间映射，得到在每个空间下的映射值，基于得到的映射值，针对每个原始数据建立多空间映射集合；多个并联的云计算单元，云计算单元的数量与进行多空间映射所使用的的空间数量相同，每个云计算单元针对每个原始数据。其利用多个云计算单元针对原始数据在多个空间下的近似度分析，得出原始数据彼此之间的数据亲和度，在此基础上，再对原始数据进行聚类分析，其数据分析的结果更加准确，数据分析效率更高。

Description

基于多中心云计算的数据分析系统及方法

技术领域

本发明属于云计算技术领域，具体涉及基于多中心云计算的数据分析系统及方法。

背景技术

云计算(cloud computing)，是分布式计算技术的一种，其最基本的概念，是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序，再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术，网络服务提供者可以在数秒之内，达成处理数以千万计甚至亿计的信息，达到和“超级计算机”同样强大效能的网络服务。

云计算是一种资源交付和使用模式，指通过网络获得应用所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取。这种特性经常被比喻为像水电一样使用硬件资源，按需购买和使用。

大数据的总体架构包括三层：数据存储，数据处理和数据分析。数据先要通过存储层存储下来，然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行分析产生价值。

具体的来说一下云计算和大数据之间的关联：

1、云计算是大数据分析的前提

进入信息化时代之后，数据量在不断的增长，大部分企业都能通过大数据获得额外收益。在大数据分析的过程中，如果提取、处理和利用数据的成本超过了数据价值的本身，那大数据分析也就没有了利用价值，功能越加强大的云计算能力，就越能降低数据提取过程中的成本。

2、云计算能够过滤无用信息

对于大数据系统收集的所有数据来说，大部分数据都是没有利用价值的，因此需要过滤出能为企业提供经济效益的可用数据。云计算可以提供按需拓展的存储资源，可以用来过滤掉无用的数据，是处理外部网络数据的最佳选择。

3、云计算助力企业虚拟化建设

企业引入云计算系统，可以用信息来指导决策，通过将服务软件应用于云平台，还可将数据转化到企业现有系统中，帮助企业强化管理模式。上升到我国互联网整体发展层面，云计算与企业相结合将使得大数据分析变得更加简单，也成为推动企业虚拟化建设的重要手段，将使企业在全球市场更具竞争力。

发明内容

有鉴于此，本发明的主要目的在于提供基于多中心云计算的数据分析系统及方法，其利用多个云计算单元针对原始数据在多个空间下的近似度分析，得出原始数据彼此之间的数据亲和度，在此基础上，再对原始数据进行聚类分析，其数据分析的结果更加准确，数据分析效率更高。

为达到上述目的，本发明的技术方案是这样实现的：

基于多中心云计算的数据分析系统，所述系统包括：

数据采集单元，配置用于采集原始数据；

数据映射单元，配置用于对原始数据进行多空间映射，得到在每个空间下的映射值，基于得到的映射值，针对每个原始数据建立多空间映射集合；

多个并联的云计算单元，云计算单元的数量与进行多空间映射所使用的的空间数量相同，每个云计算单元针对每个原始数据，计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度，在所有的云计算单元完成在其对应空间下的归一化近似度计算后，统计近似度高于设定阈值的空间映射值的数量，该数量作为该原始数据与相邻原始数据的数据亲和度；所述相邻原始数据为该原始数据的存放的位置相邻的另一个原始数据；

数据分析单元，配置用于将数据亲和度超过设定的阈值的两个原始数据进行归类，作为一个类别；完成归类后，针对所有类别的原始数据，计算得到聚类中心，基于计算得到的聚类中心，进行聚类分析。

进一步的，所述数据分析单元计算得到聚类中心包括以下步骤：类别总数记为G，通过如下公式，计算得到聚类中心

其中，G为类别总数，c为聚类数，N为样本总数，U^G表示第G个维度下的隶属度矩阵，V^G表示第G个维度下的聚类中心，X^G表示第G个维度小的聚类样本，

表示第G个维度下的第i类的中心点，d为样本的维度数，x_j，G表示第G个维度下的第j个样本点，μ_ij，G表示第G个维度下的第j个样本属于第i类的隶属度，m为调整系数，必须满足m<1：根据建立的聚类中心，

为聚类中心。

进一步的，所述数据分析单元基于建立的聚类中心，进行聚类分析包括以下步骤：计算每个原始数据距离聚类中心的距离；根据计算出的距离，得到该原始数据的坐标点；将得到的所有的坐标点组成一个集合，作为原始数据坐标点集合；在得到的原始数据坐标点结合上，再进行聚类分析。

进一步的，所述云计算单元，计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度包括以下步骤：设定每个空间映射值的距离变换函数为：

其中，d(p，q)表示每个空间映射值的欧氏距离的集合，p和q分别表示每个原始数据的横坐标和纵坐标；空间映射值D_a(p)表示空间映射值的纵坐标，D_b(q)表示空间映射值的横坐标，I_b表示横坐标的范围值，其取值范围为{2～10}；h_b位纵坐标的范围值，其取值范围为{3～12}。

进一步的，所述云计算单元计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法包括：设定目标原始数据的坐标为：(x′_n，，y′_n)；将该作为视为混沌系统中的一个点，并得到该点的混沌映射方程为：

其中，进而通过如下公式，得到目标原始数据与其他相邻原始数据进行分析计算的顺序方程为：

其中，x_n和y_n为下一个进行分析计算的原始数据的横坐标和纵坐标；x′_n和y′_n为当前进行分析计算的原始数据的横坐标和纵坐标；a为第一调整参数，范围为：(1～5)；c为第一调整系数，范围为(1.1～1.5)；b为第二调整参数，范围为：(1～5)；d为第二调整系数，范围为(1.1～1.5)。

进一步的，所述数据分析单元在进行归类时，将遍历整个原始数据，同一类别中，存在多个原始数据。

一种基于多中心云计算的数据分析方法，所述方法执行以下步骤：

步骤1：采集原始数据；

步骤2：对原始数据进行多空间映射，得到在每个空间下的映射值，基于得到的映射值，针对每个原始数据建立多空间映射集合；

步骤3：建立多个并联的云计算单元，云计算单元的数量与进行多空间映射所使用的的空间数量相同，每个云计算单元针对每个原始数据，计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度，在所有的云计算单元完成在其对应空间下的归一化近似度计算后，统计近似度高于设定阈值的空间映射值的数量，该数量作为该原始数据与相邻原始数据的数据亲和度；所述相邻原始数据为该原始数据的存放的位置相邻的另一个原始数据；

步骤4:将数据亲和度超过设定的阈值的两个原始数据进行归类，作为一个类别；完成归类后，针对所有类别的原始数据，计算得到聚类中心，基于计算得到的聚类中心，进行聚类分析。

进一步的，所述计算得到聚类中心包括以下步骤：类别总数记为G，通过如下公式，计算得到聚类中心

为聚类中心。

进一步的，所述基于建立的聚类中心，进行聚类分析包括以下步骤：计算每个原始数据距离聚类中心的距离；根据计算出的距离，得到该原始数据的坐标点；将得到的所有的坐标点组成一个集合，作为原始数据坐标点集合；在得到的原始数据坐标点结合上，再进行聚类分析。

本发明的基于多中心云计算的数据分析系统及方法，具有如下有益效果：其利用多个云计算单元针对原始数据在多个空间下的近似度分析，得出原始数据彼此之间的数据亲和度，在此基础上，再对原始数据进行聚类分析，其数据分析的结果更加准确，数据分析效率更高；主要通过以下过程实现：1.多空间映射：本发明通过多空间映射实现了将原始数据分解到各个空间中，在针对各个空间的映射值进行后续的数据处理，相较于传统的单纯地针对数据进行处理，其数据处理的结果更能反映数据本身的特征，因为将数据进行映射后，相当于对数据进行了分解，针对分解后的各个子量，即映射后的值更能从多角度反映原始数据；2.聚类中心的获取，本发明进行聚类分析时，相较于传统的聚类算法，首选得到原始数据的聚类中心，在后续的聚类分析过程中，基于该聚类中心进行聚类分析，分析结果更加准确；3.本发明通过计算空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法来得到数据亲和度，而不是简单的进行数据类比，其获得的结果更加准确。

附图说明

图1为本发明实施例提供的云计算的基于多中心云计算的数据分析系统的系统结构示意图；

图2为本发明实施例提供的基于多中心云计算的数据分析方法的方法流程示意图。

图3为本发明实施例提供的基于多中心云计算的数据分析系统及方法的数据分析准确率随着实验次数变化的实验效果示意图与现有技术的对比实验效果示意图；

图4为本发明实施例提供的基于多中心云计算的数据分析系统及方法的数据分析效率随着实验次数变化的实验效果示意图与现有技术的对比实验效果示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实施例1

如图1所示，基于多中心云计算的数据分析系统，所述系统包括：

数据采集单元，配置用于采集原始数据；

采用上述技术方案，本发明利用多个云计算单元针对原始数据在多个空间下的近似度分析，得出原始数据彼此之间的数据亲和度，在此基础上，再对原始数据进行聚类分析，其数据分析的结果更加准确，数据分析效率更高；主要通过以下过程实现：1.多空间映射：本发明通过多空间映射实现了将原始数据分解到各个空间中，在针对各个空间的映射值进行后续的数据处理，相较于传统的单纯地针对数据进行处理，其数据处理的结果更能反映数据本身的特征，因为将数据进行映射后，相当于对数据进行了分解，针对分解后的各个子量，即映射后的值更能从多角度反映原始数据；2.聚类中心的获取，本发明进行聚类分析时，相较于传统的聚类算法，首选得到原始数据的聚类中心，在后续的聚类分析过程中，基于该聚类中心进行聚类分析，分析结果更加准确；3.本发明通过计算空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法来得到数据亲和度，而不是简单的进行数据类比，其获得的结果更加准确。

实施例2

在上一实施例的基础上，所述数据分析单元计算得到聚类中心包括以下步骤：类别总数记为G，通过如下公式，计算得到聚类中心

为聚类中心。

具体的，聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。

从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。

从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。

聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。

从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

实施例3

在上一实施例的基础上，所述数据分析单元基于建立的聚类中心，进行聚类分析包括以下步骤：计算每个原始数据距离聚类中心的距离；根据计算出的距离，得到该原始数据的坐标点；将得到的所有的坐标点组成一个集合，作为原始数据坐标点集合；在得到的原始数据坐标点结合上，再进行聚类分析。

实施例4

在上一实施例的基础上，所述云计算单元，计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度包括以下步骤：设定每个空间映射值的距离变换函数为：

具体的，映射空间亦称函数空间，拓扑学的一个基本概念。它是一类重要的拓扑空间，设X，Y是集合，F为X到Y的映射组成的族，在F上引入拓扑使之成为拓扑空间，则称F为映射空间。在映射空间理论中常见的拓扑有点态收敛拓扑、紧开拓扑、一致收敛拓扑、紧收敛拓扑等。

实施例5

在上一实施例的基础上，所述云计算单元计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法包括：设定目标原始数据的坐标为：(x′_n，，y′_n)；将该作为视为混沌系统中的一个点，并得到该点的混沌映射方程为：

具体的，本发明利用多个云计算单元针对原始数据在多个空间下的近似度分析，得出原始数据彼此之间的数据亲和度，在此基础上，再对原始数据进行聚类分析，其数据分析的结果更加准确，数据分析效率更高；主要通过以下过程实现：1.多空间映射：本发明通过多空间映射实现了将原始数据分解到各个空间中，在针对各个空间的映射值进行后续的数据处理，相较于传统的单纯地针对数据进行处理，其数据处理的结果更能反映数据本身的特征，因为将数据进行映射后，相当于对数据进行了分解，针对分解后的各个子量，即映射后的值更能从多角度反映原始数据；2.聚类中心的获取，本发明进行聚类分析时，相较于传统的聚类算法，首选得到原始数据的聚类中心，在后续的聚类分析过程中，基于该聚类中心进行聚类分析，分析结果更加准确；3.本发明通过计算空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法来得到数据亲和度，而不是简单的进行数据类比，其获得的结果更加准确。

实施例6

在上一实施例的基础上，所述数据分析单元在进行归类时，将遍历整个原始数据，同一类别中，存在多个原始数据。

实施例7

如图2所示，一种基于多中心云计算的数据分析方法，所述方法执行以下步骤：

步骤1：采集原始数据；

实施例8

在上一实施例的基础上，所述计算得到聚类中心包括以下步骤：类别总数记为G，通过如下公式，计算得到聚类中心

为聚类中心。

具体的，多空间映射实现了将原始数据分解到各个空间中，在针对各个空间的映射值进行后续的数据处理，相较于传统的单纯地针对数据进行处理，其数据处理的结果更能反映数据本身的特征，因为将数据进行映射后，相当于对数据进行了分解，针对分解后的各个子量，即映射后的值更能从多角度反映原始数据。

实施例9

在上一实施例的基础上，所述基于建立的聚类中心，进行聚类分析包括以下步骤：计算每个原始数据距离聚类中心的距离；根据计算出的距离，得到该原始数据的坐标点；将得到的所有的坐标点组成一个集合，作为原始数据坐标点集合；在得到的原始数据坐标点结合上，再进行聚类分析。

实施例10

参考图3和图4，相较于现有技术，本发明利用多个云计算单元针对原始数据在多个空间下的近似度分析，得出原始数据彼此之间的数据亲和度，在此基础上，再对原始数据进行聚类分析，其数据分析的结果更加准确，数据分析效率更高。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的系统，仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元来完成，即将本发明实施例中的单元或者步骤再分解或者组合，例如，上述实施例的单元可以合并为一个单元，也可以进一步拆分成多个子单元，以完成以上描述的全部或者单元功能。对于本发明实施例中涉及的单元、步骤的名称，仅仅是为了区分各个单元或者步骤，不视为对本发明的不当限定。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的单元、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“另一部分”等是配置用于区别类似的对象，而不是配置用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者单元/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术标记作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非配置用于限定本发明的保护范围。

Claims

1.基于多中心云计算的数据分析系统，其特征在于，所述系统包括：

数据采集单元，配置用于采集原始数据；

2.如权利要求1所述的系统，其特征在于，所述数据分析单元计算得到聚类中心包括以下步骤：类别总数记为G，通过如下公式，计算得到聚类中心

；

为聚类中心。

3.如权利要求2所述的系统，其特征在于，所述数据分析单元基于建立的聚类中心，进行聚类分析包括以下步骤：计算每个原始数据距离聚类中心的距离；根据计算出的距离，得到该原始数据的坐标点；将得到的所有的坐标点组成一个集合，作为原始数据坐标点集合；在得到的原始数据坐标点结合上，再进行聚类分析。

4.如权利要求3所述的系统，其特征在于，所述云计算单元，计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度包括以下步骤：设定每个空间映射值的距离变换函数为：

5.如权利要求4所述的系统，其特征在于，所述云计算单元计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度的方法包括：设定目标原始数据的坐标为：(x′_n，，y′_n)；将该作为视为混沌系统中的一个点，并得到该点的混沌映射方程为：

6.如权利要求5所述的系统，其特征在于，所述数据分析单元在进行归类时，将遍历整个原始数据，同一类别中，存在多个原始数据。

7.一种基于权利要求1至6之一所述系统的基于多中心云计算的数据分析方法，其特征在于，所述方法执行以下步骤：

步骤1：采集原始数据；

8.如权利要求7所述的方法，其特征在于，所述计算得到聚类中心包括以下步骤：类别总数记为G，通过如下公式，计算得到聚类中心

；

为聚类中心。

9.如权利要求2所述的系统，其特征在于，所述基于建立的聚类中心，进行聚类分析包括以下步骤：计算每个原始数据距离聚类中心的距离；根据计算出的距离，得到该原始数据的坐标点；将得到的所有的坐标点组成一个集合，作为原始数据坐标点集合；在得到的原始数据坐标点结合上，再进行聚类分析。

10.如权利要求3所述的系统，其特征在于，所述云计算单元，计算该原始数据在多空间映射下的其中一个空间的映射值与相邻原始数据在对应空间下的映射值之间的归一化近似度包括以下步骤：设定每个空间映射值的距离变换函数为：