CN112884017A - 一种基于数据空间的数据分析方法及计算机设备 - Google Patents

一种基于数据空间的数据分析方法及计算机设备 Download PDF

Info

Publication number
CN112884017A
CN112884017A CN202110120811.5A CN202110120811A CN112884017A CN 112884017 A CN112884017 A CN 112884017A CN 202110120811 A CN202110120811 A CN 202110120811A CN 112884017 A CN112884017 A CN 112884017A
Authority
CN
China
Prior art keywords
data
node
cluster
entity
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110120811.5A
Other languages
English (en)
Inventor
任杰
顾祎赟
吴震东
赵相浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110120811.5A priority Critical patent/CN112884017A/zh
Publication of CN112884017A publication Critical patent/CN112884017A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及大数据技术领域,提供了一种基于数据空间的数据分析方法、数据分析装置、计算机设备及计算机可读存储介质。其中,一种基于数据空间的数据分析方法,基于每个实体节点的特征数据异常因子对实体节点集合进行聚类操作,得到目标节点簇集合,由于该目标节点簇集合中包括多个目标节点簇,因此各目标节点簇能够表征在至少一个特征数据维度上相似的全部实体节点,构建相应的数据空间,再利用训练后的参考数据输出模型基于多个数据空间,得到多个分析结果,提供了科学化程度更高,且能够在复杂场景下输出分析结果作为参考数据的分析方案,拓宽了数据分析方案的适用范围,此外,本申请还适用于区块链技术领域。

Description

一种基于数据空间的数据分析方法及计算机设备
技术领域
本发明属于大数据及区块链技术领域,尤其涉及一种基于数据空间的数据分析方法、基于数据空间的数据分析装置、计算机设备及计算机可读存储介质。
背景技术
随着大数据分析技术被各行各业广泛使用,无论是产品的研发、产品的推广以及产品的销售渠道等,早已离不开大数据分析技术的支持。例如,在产品的研发过程中,通过收集不同用户群体对同一产品的不同需求等,如产品大小、产品颜色等,通过数据分析输出参考数据,进而为满足不同用户群体与不同需求提供数据基础和参考。再例如,在产品的销售过程中,基于产品的用户受众比例,对不同受众群体的消费习惯进行分析输出合理的产品资源配比作为参考数据,进而基于该参考数据合理配置线上与线下不同渠道的产品资源,使得产品在不同渠道的资源配比变得更加合理。
然而,以往的大数据分析手段,基于产品的不同特征或不同特征的权重进行分析,例如,基于产品的每种销售渠道的数据进行分析,得出的参考数据必然与销售渠道对应,也即存在对应关系较为单一的特征。而对于销售渠道不断扩展,产品的多样化程度不断加深,产品之间的关联关系密切等场景中,原有的大数据分析手段无法针对该复杂场景分析出相应的参考数据。由此可见,现有的数据分析方案存在适用范围较小的问题。
发明内容
有鉴于此,本申请实施例提供了一种基于数据空间的数据分析方法、基于数据空间的数据分析装置、计算机设备及计算机可读存储介质,以解决现有的数据分析方案存在适用范围较小的问题。
本申请实施例的第一方面提供了一种基于数据空间的数据分析方法,包括:
基于实体节点集合中每个实体节点的特征数据异常因子,对所述实体节点集合进行聚类操作,得到目标节点簇集合;所述目标节点簇集合中包括多个目标节点簇;
根据每个所述目标节点簇中全部所述实体节点的特征数据权重,构建多个数据空间;
利用训练后的参考数据输出模型基于所述多个数据空间,得到多个分析结果。
本申请实施例的第二方面提供了一种基于数据空间的数据分析装置,包括:
聚类单元,用于基于实体节点集合中每个实体节点的特征数据异常因子,对所述实体节点集合进行聚类操作,得到目标节点簇集合;所述目标节点簇集合中包括多个目标节点簇;
数据空间构建单元,用于根据每个所述目标节点簇中全部所述实体节点的特征数据权重,构建多个数据空间;
分析单元,用于利用训练后的参考数据输出模型基于所述多个数据空间,得到多个分析结果。
本申请实施例的第三方面提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的各个步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面的各个步骤。
实施本申请实施例提供的一种基于数据空间的数据分析方法、数据分析装置、计算机设备及计算机可读存储介质具有以下有益效果:
本申请实施例,基于每个实体节点的特征数据异常因子对实体节点集合进行聚类操作,得到目标节点簇集合,由于该目标节点簇集合中包括多个目标节点簇,每个目标节点簇中的每两个实体节点之间特征数据较为相似,因此各目标节点簇能够表征在至少一个特征数据维度上相似的全部实体节点,根据每个目标节点簇中全部实体节点的特征数据权重,构建多个数据空间,其中,多个数据空间相当于与特征数据维度对应的参考集合,利用训练后的参考数据输出模型基于多个数据空间,得到多个分析结果,提供了科学化程度更高,且能够在复杂场景下输出分析结果作为参考数据的分析方案,拓宽了数据分析方案的适用范围。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于数据空间的数据分析方法的实现流程图;
图2是本申请实施例中步骤S11的实现流程图;
图3是本申请实施例中步骤S111的实现流程图;
图4是本申请实施例中步骤S114的实现流程图;
图5是本申请另一实施例提供的一种基于数据空间的数据分析方法的实现流程图;
图6是本申请实施例提供的一种基于数据空间的数据分析装置的结构框图;
图7是本申请实施例提供的一种计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本实施例提供的一种基于数据空间的数据分析方法,执行主体为服务器,具体可以是配置有该方法功能的服务器,或者是服务器集群中的任一服务器。这里,服务器集群可以是由多个服务器组成的服务器集群,基于该服务器集群构建分布式系统,使得服务器集群中的多个服务器之间可以实现数据共享或数据同步。在此基础上,向该服务器集群中的任一服务器配置目标脚本文件,由该目标脚本文件描述本实施例提供的确定参考数据的方法,使得该配置有目标脚本文件的服务器能够通过执行该目标脚本文件,进而执行确定参考数据的方法中的各个步骤。
在实现时,服务器或者服务器集群中的任一服务器,通过汇总实体节点集合中每个实体节点的特征数据,再基于每个实体节点的特征数据异常因子,对实体节点集合进行聚类操作,得到目标节点簇集合,由于该目标节点簇集合中包括多个目标节点簇,每个目标节点簇中的每两个实体节点之间特征数据较为相似,因此各目标节点簇能够表征在至少一个特征数据维度上相似的全部实体节点,根据每个目标节点簇中全部实体节点的特征数据权重,构建相应的数据空间,所得多个数据空间相当于与特征数据维度对应的参考集合,利用训练后的参考数据输出模型基于多个数据空间,得到多个分析结果,提供了科学化程度更高,且能够在复杂场景下输出分析结果作为参考数据的分析方案,拓宽了数据分析方案的适用范围。
例如,以上述实体节点集合中的每个实体节点为“实体营业点”为例,通过汇总“实体营业点集合”中每个“实体营业点”的特征数据,再基于每个“实体营业点”的特征数据异常因子,对“实体营业点集合”进行聚类操作,得到包含多个目标节点簇的目标节点簇集合,由于每个目标节点簇中的每两个“实体营业点”之间的特征数据较为相似,因此各目标节点簇能够表征在至少一个特征数据维度上相似全部“实体营业点”,根据每个节点簇中全部“实体营业点”的特征数据权重,构建相应的数据空间,所得多个数据空间相当于与特征数据维度对应的参考集合,利用训练后的参考数据输出模型基于多个数据空间,得到多个分析结果,也即利用训练后的参考数据输出模型基于与特征数据维度对应的参考集合确定出参考数据,进而提供了科学化程度更高,且能够在复杂场景下输出分析结果作为参考数据的分析方案,拓宽了数据分析方案的适用范围。
以下通过具体实现方式对本实施例提供的一种基于数据空间的数据分析方法进行详细说明。
图1示出了本申请实施例提供的基于数据空间的数据分析方法的实现流程图,详述如下:
S11:基于实体节点集合中每个实体节点的特征数据异常因子,对所述实体节点集合进行聚类操作,得到目标节点簇集合;所述目标节点簇集合中包括多个目标节点簇。
在步骤S11中,特征数据异常因子,用于描述实体节点之间的数据特征向量上的差异程度。这里,数据特征向量是基于实体节点所表征的实体营业点对应的实际特征数据进行向量转换得到,也即数据特征向量能够描述相应的实体营业点与其他实体营业点之间的区别。
在申请的所有实施例中,对实体节点集合进行聚类操作,相当于将特征数据异常因子较为接近的所有实体节点归纳为一个目标节点簇,也即处于同一目标节点簇中的任意两个实体节点间的差异程度较小,分别处于不同目标节点簇的两个实体节点间的差异程度较大。
需要说明的是,实体节点表征的是实体营业点,且该实体营业点具有特征数据多维度与特征数据分布跨越程度大的特点,例如,实体营业点的特征数据包括多维度的指标,如地区、成立时长、业务信息、代理人信息,以及业绩时间频率(按天、周或月),而这两种特点则容易阻碍现有聚类算法的表现。基于此,本实施例的方案中并非直接基于实体节点的特征数据进行聚类,而是基于每个实体节点的特征数据异常因子进行聚类操作,能够保证在代入了所有营业点数据特征的基础上,实现不同目标节点簇的区分,进而识别出每个实体节点在至少一个特征数据维度上所表现出的异常程度,进而确定出具有分析价值的变量。
在实现时,由于特征数据异常因子描述的是实体节点之间的数据特征向量上的差异程度,因此每个实体节点的特征数据异常因子可以对应的是实体节点的高维向量空间距离,例如欧式距离、马氏距离等。这里,由于在计算实体节点之间的高纬向量空间举例时,因为计算模型对实体节点特征数据的样本有输入条件,要求特征数据的样本具有较高的时序饱和度,所以在测算每个实体节点的特征数据异常因子时,可以按照特征数据于时序维度上的连贯特点对实体节点的特征数据进行采样,进而使得实体节点特征数据的样本能够满足计算模型对样本限制条件。通过测算实体节点集合中每个实体节点特征数据异常因子,由于每个实体节点特征数据异常因子均可以用数值形式表征差别程度,因此通过对所有的实体节点特征数据异常因子进行大小排序,再基于排序结果进行类别划分,即可实现对实体节点集合进行聚类操作,得到目标节点簇集合。
图2出了本实施例中步骤S11的实现流程图。如图2示,作为一个实施例,步骤S11具体包括:
S111:基于实体节点集合中每个实体节点的特征数据异常因子,按照预设的簇数值集合中的多个簇数值,分别进行聚类初始化操作,得到多组节点簇集合;
S112:测算每组所述节点簇集合中各实体节点的权重值与变量权重值,得到与多组所述节点簇集合一一对应的多组权重集合;
S113:根据多组所述权重集合得到多组间隔统计量;
S114:基于所述多组间隔统计量从多组所述节点簇集合中确定出目标节点簇集合。
在本实施例中,预设的簇数值集合中包括多个簇数值,且任意两个簇数值大小不同。簇数值用于描述节点簇集合中节点簇的个数,同时也能够表征节点簇集合的规模大小、每个节点簇中的实体节点个数多少,以及对实体节点集合进行分类的细化程度。也即,当簇数值越大,则表征节点簇集合的节点簇越多、规模越大,节点簇集合中每个节点簇中的实体节点个数越少,且对实体节点集合进行分类的细化程度越精细;当簇数值越小,则表征节点簇集合的节点簇越少、规模越小,节点簇集合中每个节点簇中的实体节点个数越多,且对实体节点集合进行分类的细化程度越粗糙。
需要说明的是,由于预设的簇数值集合中包括多个簇数值,在基于实体节点集合中每个实体节点的特征数据异常因子进行聚类操作时,由于不同的簇数值所描述的节点簇的个数不同,因此可以依据预设的簇数值集合中簇数值的个数分批次进行聚类。这里,分多批次进行聚类过程中,不同批次的聚类过程中仅是按照簇数值的大小不同,因此得到的簇数值集合中的多个簇数值,与多组节点簇集合之间存在一一对应的关系。按照不同的簇数值,基于实体节点集合中每个实体节点的特征数据异常因子进行聚类操作,得到的节点簇集合中,节点簇的个数不同,也即分类的精确程度不同。
在一些已有技术中,对不同实体节点基于其特征数据进行分类时,大多是以随机分类的方式进行初始化,但随机分类容易导致初始化后的样本簇过多或过少,则容易导致特征的细化程度过高或过低,不利于后续的大数据特征分析时的数据特征比较或者数据特征归类等操作。
在本实施例中,之所以不对实体节点集合进行随机聚类,而是利用不同的簇数值对实体节点集合进行聚类初始化,是因为考虑到实体节点所表征的实体营业点,具有特征数据维度多以及特征数据分布跨越程度大的特点,所以通过预设多个簇数值,以限制聚类后各节点簇之间的间隔大小,进而控制了聚类得到的节点簇集合的规模,提高了基于实体节点的特征数据差异程度进行聚类的合理性与实用性。
图3出了本实施例中步骤S111的实现流程图。如图3所示,作为一个实施例,步骤S111具体包括:
S1111:根据多个所述簇数值确定多组节点簇个数;
S1112:基于每个实体节点的特征数据异常因子,按照所述多组节点簇个数,分别进行聚类初始化操作,得到多组节点簇集合。
在本实施例中,每个簇数值对应每组节点簇集合中的节点簇个数,在确定了单组节点簇集合中的节点簇个数之后,可以基于每个实体节点的特征数据因子筛选出与节点簇个数一致的多个簇中心节点,再通过比对其他实体节点与每个簇中心节点之间的相似度,进而完成聚类初始化操作得到多组节点簇集合。
在实现时,可以采用基于ROBIN(ROBust Initialization)算法构建的聚类模型对实体节点集合中的实体节点进行初始化操作。具有地,由于每个簇数值描述了对实体节点集合进行聚类操作后,每组节点簇集合中节点簇的个数,因此可以先按照簇数值,选取相应的节点簇中心节点。例如,某一簇数值为K,则可以先挑选K个实体节点作为初始簇中心,被挑选的每个实体节点在数据密度较大区域,同时两两之间尽可能地远离,即高维向量的欧氏距离/绝对值距离越远相关程度越小。
作为本实施例一个示例,假设簇数值为K,对实体节点集合中的某一实体节点xi来说,以LOFq(xi)描述该实体节点xi的异常因子为例,基于实体节点xi的q个最接近的实体节点,如果LOFq(xi)接近于1,则意味着实体节点xi是一个潜在的初始簇中心。通过确定K个初始簇中心,进而将实体节点集合中的K个实体节点先进行分类,再将未进行分类的剩余实体节点逐一与K个初始簇中心进行相似度比较,将相似度更大的剩余实体节点纳入相应的簇中,进而完成聚类初始化操作得到多组节点簇集合。
应当理解的是,基于ROBIN构建的模型,以先寻找所有符合LOFq(xi)接近于1的实体节点子集,从这些实体节点子集中随机挑选一个实体节点作为第一个初始簇中心后,之后的每个初始簇中心会是离之前挑选的所有初始簇中心距离最远的,使得聚类操作所得的节点簇之间的差异程度更明显,使每个实体节点被分类的依据更合理。通过ROBIN初始后,每个实体节点被分配到距离最近的初始簇中心所在的簇,然后结合实体节点的异常因子LOF和初始的簇分配,基于标准化异常因子LOF值计算各实体节点的权重。即对于实体节点xi,先计算实体节点xi的异常因子LOF值,再得出实体节点xi所在簇中的所有实体节点的异常因子LOF值,计算均值和标准差,然后得出标准化后的实体节点xi的异常因子LOF值,基于这个标准化的LOF值得出现阶段此实体节点xi的权重。此权重算法更加平滑,比实体节点到节点簇中心的高纬向量距离方法(欧式距离)更好地表达偏差度。
在本实施例中,测算每组节点簇集合中各实体节点的权重值与变量权重值,得到与多组节点簇集合一一对应的多组权重集合,根据多组权重集合得到多组间隔统计量,由于权重值与变量权重值均与异常因子有关,且异常因子用于描述实体节点之间的数据特征向量上的差异程度,因此根据每组权重集合可以测算得到相应的紧支测度,当异常因子为节点簇集合中各实体节点之间的欧式距离时,该节点簇集合中各个实体节点的权重集合即可作为该节点簇集合的紧支测度用于测算得到间隔统计量。这里,现有技术中在已知节点簇集合后,即可根据该节点簇集合的紧支测度测算相应的间隔统计量,例如,将紧支测度记为Wk代入间隔统计里测算方程组,即可得到间隔统计量。由于间隔统计量的测算方式属于现有技术,故此处不再对如何测算间隔统计量进行赘述。
图4出了本实施例中步骤S114的实现流程图。如图4所示,作为一个实施例,步骤S114具体包括:
S1141:从多组间隔统计量中确定出符合预设要求的目标间隔统计量;
S1142:基于所述目标间隔统计量从多组所述节点簇集合中确定出目标节点簇集合。
在本实施例中,多组间隔统计量与多个簇数值之间一一对应,也即按照不同的簇数值对实体节点集合进行聚类后得到的不同节点簇之间的间隔统计量也不同。
需要说明的是,从多组间隔统计量中确定出符合预设要求的目标间隔统计量时,预设要求可以是通过设定密保间隔统计量相关的不等式实现。
作为本实施例一种可能实现的方式,上述步骤S1141具体可以包括:
将多组间隔统计量中满足如下不等式的间隔统计量作为目标间隔统计量;
Gapk≥Gapk+1-sk+1
其中,Gapk为簇数值为k时的间隔统计量;Gapk+1为簇数值为k-1时的间隔统计量;sk+1为簇数值为k+1时关于簇分配的相关标准误。
需要说明的是,由于簇数值不同则对应的间隔统计量不同,且这里的k指代某一具体数值,因此当存在多组间隔统计量时,该Gapk则是多组间隔统计量中的任一组簇数值为k的间隔统计量。相应地,Gapk+1为簇数值为k-1时的间隔统计量,因为k与k-1必然不同,所以Gapk与Gapk+1也不同,但由于sek+1为簇数值为k+1时关于簇分配的相关标准误差校正值,通过对Gapk+1进行数值修正后,存在Gapk等于Gapk+1-sk+1的情况,通过从多组间隔统计量中选择出符合上述不等式的间隔统计量作为目标间隔统计量,使得基于该目标间隔统计量进行聚类得到的目标节点簇中,每个目标节点分布和归类都更加合理。
应当理解的是,在基于实体节点集合中每个实体节点的特征数据异常因子,对所述实体节点集合进行聚类操作,得到目标节点簇集合后,则执行步骤S12~S13。
S12:根据每个所述目标节点簇中全部所述实体节点的特征数据权重,构建多个数据空间。
在步骤S12中,特征数据权重用于表征是实体节点各维度的特征数据的影响程度。这里,当实体节点的某一维度的特征数据权重越大,则该特征数据所对应的影响程度越大,当实体节点的某一维度的特征数据权重越小,则该特征数据所对应的影响程度越小。数据空间是指目标节点簇集合中全部实体节点的特征数据权重组成的高纬度数据矩阵。
在实现时,数据空间是由目标节点簇集合中所有实体节点的特征数据权重所张成的矩阵,不同的特征数据,代表证不同的变量,且拥有不同权重。在构建数据空间时,可以基于特征数据权重的大小剔除权重数值较小的特征数据,将影响程度较大的特征数据作为数据空间的主要元素。
作为一个示例,数据空间中第r簇的数据空间为Xr={wjxij},其中,wj为第j个特征数据的权重,xij为第r簇内的第i个实体节点第j个特征数据的值,初始值为
Figure BDA0002921991420000111
p为特征数据种类总数。得到实体节点的两个权重值,取较小值作为此实体节点的权重。得出各实体节点权重后,可以计算簇间和平方差,通过最大化带有权重的节点簇间和平方差,得到新的簇分配和簇中心。通过对簇间和平方差赋予权重,能消除异常值和噪声变量的影响。通过最大化带有权重的变量簇间和平方差,计算各变量的权重。如果一个变量拥有较大的权重,则代表它能提供更多的信息,特征数据的权重范围:
Figure BDA0002921991420000112
p为特征数据种类总数,k为目标节点簇总数,wj是第j个特征数据的权重,
Figure BDA0002921991420000113
为簇间和平方差。
S13:利用训练后的参考数据输出模型基于所述多个数据空间,得到多个分析结果。
在步骤S13中,练后的参考数据输出模型用于描述实体节点的特征数据与参考数据之间的对应关系。参考数据用于描述实体节点未来的特征数据或者特征数据增量。
在本实施例中,由于数据空间是由目标节点簇集合中所有实体节点的特征数据权重所张成的矩阵,不同的特征数据,代表证不同的变量,又因为每个目标节点簇能够表征在至少一个特征数据维度上相似的全部实体节点,因此可以将给目标节点簇作为一个整体,该目标节点簇中所有实体节点的各维度特征数据进行求平均值,即可作为该目标节点簇的特征数据。将该特征数据输入训练后的参考数据输出模型,通过该训练后的参考数据输出模型输出该目标节点簇对应的参考数据。
作为本申请一实施例,步骤S13具体可以包括:
基于所述多个数据空间,分别测算多个目标节点簇对应的各类特征数据平均值,得到多组平均值集合;将所述多组平均值集合分别输入训练后的参考数据输出模型,得到多个分析结果。
在本实施例中,每个目标节点簇分别对应一类实体营业点集合,测算不同目标节点簇对应的特征数据平均值,即为该实体营业点集合的特征数据均值。
在实现时,参考数据输出模型可以利用自回归条件异方差模型(ARCH,Autoregressive Conditional Heteroskedasticity model)构建得到,或者是利用广义的ARCH模型,也即参考数据输出模型还可以是利用在ARCH模型的基础上扩展得到的GARCH模型进行构建得到,利用预先制备的数据样本对该参考数据输出模型进行训练,进而得到训练后的参考数据输出模型。
以特征数据平均值为业绩数据为例,对于每类实体营业点集合,取业绩均值作为此类实体营业点集合的平均业绩,根据大数定律和中心极限定理,业绩均值符合高斯分布。但每一时间点的方差不同,在每个不同的时间点,会有不同的事件和大环境变化影响业绩的波动程度,比如疫情下不确定因素增多导致波动性增长等。根据每一组各时间点的业绩均值分布采样得到更多的数据,为之后的回归做准备,将所有类实体营业点集合的数据输入基于ARCH模型或者GARCH模型构建的训练好的参考数据输出模型,能够分析出相应的参考数据,也即预测出每类实体营业节点在下一时间段内的业绩数据。
作为一个示例,训练后的参考数据输出模型可以通过如下方程组来描述:
rtGARCH=ARIMA(d′,p′,q′)+εt
εt=ztt
σt 2=w+a1t-1+…+aqt-q1t-1 2+…+βpt-p 2
其中,ARIMA(d',p',q')是通过ARIMA模型得出的t时间时业绩预测值;εt为残差项,且εt满足εt=ztt,这里,zt符合独立同分布,均符合期望为0,方差为1的正态分布,σt是方差,且σt满足σt 2=w+a1t-1+…+aqt-q1t-1 2+…+βpt-p 2,通过参考AIC、BIC、ACF、PACF等指标得出最佳的参数d′、p′、q′、p、q,其中,d′为差分阶数,p′为自回归项数,q′为滑动平均项数,p为滞后方差的个数,q为滞后剩余误差的个数。
可以理解的是,由于利用ARCH模型,以解决数据中对时间序列变量的方差恒定假设相关的问题,为本领域的公知常识,因此本领域技术人员能够在有需求时,基于ARCH模型或者GARCH模型构建出参考数据输出模型,并通过配置相应的训练样本对该参考数据输出模型进行模型训练,进而得到训练后的参考数据输出模型,故关于参考数据输出模型的构建与训练过程此处不再赘述。
以上方案中,基于每个实体节点的特征数据异常因子对实体节点集合进行聚类操作,得到目标节点簇集合,由于该目标节点簇集合中包括多个目标节点簇,每个目标节点簇中的每两个实体节点之间特征数据较为相似,因此各目标节点簇能够表征在至少一个特征数据维度上相似的全部实体节点,根据每个目标节点簇中全部实体节点的特征数据权重,构建多个数据空间,其中,多个数据空间相当于与特征数据维度对应的参考集合,利用训练后的参考数据输出模型基于多个数据空间,得到多个分析结果,提供了科学化程度更高,且能够在复杂场景下输出分析结果作为参考数据的分析方案,拓宽了数据分析方案的适用范围。
图5示出了本申请另一实施例提供的一种基于数据空间的数据分析方法的实现流程图。参见图5,相对于图1所述实施例,本实施例提供的一种基于数据空间的数据分析方法中,在所述利用训练后的参考数据输出模型基于所述多个数据空间,得到多个分析结果的步骤之后,还包括:S21,具体详述如下:
在本实施例中,在所述利用训练后的参考数据输出模型基于所述多个数据空间,得到多个分析结果的步骤之后,还包括:
S21:将所述多个分析结果部署至区块链节点中。
在本实施例中,为了将多个分析结果进行共享,将多个分析结果部署至区块链中,进而避免该多个分析结果的内容被篡改。
在本申请的所有实施例中,将多个分析结果部署至区块链节点中可令该区块链节点能够通过调用该多个分析结果,进而获得该多个分析结果中目标分析结果,也即实体营业节点的预测数据。同时,还能够保证该多个分析结果安全性和对用户的公正透明性。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上方案中,基于每个实体节点的特征数据异常因子对实体节点集合进行聚类操作,得到目标节点簇集合,由于该目标节点簇集合中包括多个目标节点簇,每个目标节点簇中的每两个实体节点之间特征数据较为相似,因此各目标节点簇能够表征在至少一个特征数据维度上相似的全部实体节点,根据每个目标节点簇中全部实体节点的特征数据权重,构建相应的数据空间,所得多个数据空间相当于与特征数据维度对应的参考集合,利用训练后的参考数据输出模型基于多个数据空间,得到多个分析结果,提供了科学化程度更高,且能够在复杂场景下输出分析结果作为参考数据的分析方案,拓宽了数据分析方案的适用范围。
此外,将多个分析结果部署至区块链节点中,使得该多个分析结果能够被区块链中的其他节点获取并使用,能够进一步提高该多个分析结果的利用率。
请参阅图6,图6是本申请实施例提供的一种基于数据空间的数据分析装置的结构框图。本实施例中该移动终端包括的各单元用于执行图1与图5对应的实施例中的各步骤。具体请参阅图1与图5以及图1与图5所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图6,数据分析装置60包括:聚类单元61、数据空间构建单元62以及分析单元63。具体地:
聚类单元61,用于基于实体节点集合中每个实体节点的特征数据异常因子,对所述实体节点集合进行聚类操作,得到目标节点簇集合;所述目标节点簇集合中包括多个目标节点簇;
数据空间构建单元62,用于根据每个所述目标节点簇中全部所述实体节点的特征数据权重,构建多个数据空间;
分析单元63,用于利用训练后的参考数据输出模型基于所述多个数据空间,得到多个分析结果。
作为本申请一实施例,聚类单元61具体用于,基于实体节点集合中每个实体节点的特征数据异常因子,按照预设的簇数值集合中的多个簇数值,分别进行聚类初始化操作,得到多组节点簇集合;测算每组所述节点簇集合中各实体节点的权重值与变量权重值,得到与多组所述节点簇集合一一对应的多组权重集合;根据多组所述权重集合得到多组间隔统计量;基于所述多组间隔统计量从多组所述节点簇集合中确定出目标节点簇集合。
作为本申请一实施例,聚类单元61具体还用于,根据多个所述簇数值确定多组节点簇个数;基于每个实体节点的特征数据异常因子,按照所述多组节点簇个数,分别进行聚类初始化操作,得到多组节点簇集合。
作为本申请一实施例,聚类单元61具体还用于,从多组间隔统计量中确定出符合预设要求的目标间隔统计量;基于所述目标间隔统计量从多组所述节点簇集合中确定出目标节点簇集合。
作为本申请一实施例,聚类单元61具体用于,将多组间隔统计量中满足如下不等式的间隔统计量作为目标间隔统计量;
Gapk≥Gapk+1-sek+1
其中,Gapk为簇数值为k时的间隔统计量;Gapk+1为簇数值为k-1时的间隔统计量;sek+1为簇数值为k+1时关于簇分配的相关标准误差校正值。
作为本申请一实施例,分析单元63具体用于:基于所述多个数据空间,分别测算多个目标节点簇对应的各类特征数据平均值,得到多组平均值集合;将所述多组平均值集合分别输入训练后的参考数据输出模型,得到多个分析结果。
作为本申请一实施例,数据分析装置60还包括:
部署单元64,用于将所述多个分析结果部署至区块链节点中。
应当理解的是,图6示出的基于数据空间的数据分析装置的结构框图中,各单元用于执行图1与5对应的实施例中的各步骤,而对于图1与图5对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1与图5以及图1与图5所对应的实施例中的相关描述,此处不再赘述。
图7是本申请实施例提供的一种计算机设备的结构框图。如图7所示,该实施例的计算机设备70包括:处理器71、存储器72以及存储在所述存储器72中并可在所述处理器71上运行的计算机程序73,例如基于数据空间的数据分析方法的程序。处理器71执行所述计算机程序73时实现上述各个基于数据空间的数据分析方法各实施例中的步骤,例如图1所示的S11至S13,或者图5所示的S11至S21。或者,所述处理器71执行所述计算机程序73时实现上述图6对应的实施例中各单元的功能,例如,图6所示的单元61至64的功能,具体请参阅图6对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序73可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器72中,并由所述处理器71执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序73在所述计算机设备70中的执行过程。例如,所述计算机程序73可以被分割成聚类单元、数据空间构建单元以及分析单元,各单元具体功能如上所述。
所述转台设备可包括,但不仅限于,处理器71、存储器72。本领域技术人员可以理解,图7仅仅是计算机设备70的示例,并不构成对计算机设备70的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器71可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器72可以是所述计算机设备70的内部存储单元,例如计算机设备70的硬盘或内存。所述存储器72也可以是所述计算机设备70的外部存储设备,例如所述计算机设备70上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器72还可以既包括所述计算机设备70的内部存储单元也包括外部存储设备。所述存储器72用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器72还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于数据空间的数据分析方法,其特征在于,包括:
基于实体节点集合中每个实体节点的特征数据异常因子,对所述实体节点集合进行聚类操作,得到目标节点簇集合;所述目标节点簇集合中包括多个目标节点簇;
根据每个所述目标节点簇中全部所述实体节点的特征数据权重,构建多个数据空间;
利用训练后的参考数据输出模型基于所述多个数据空间,得到多个分析结果。
2.根据权利要求1所述的基于数据空间的数据分析方法,其特征在于,所述基于实体节点集合中每个实体节点的特征数据异常因子,对所述实体节点集合进行聚类操作,得到目标节点簇集合,包括:
基于实体节点集合中每个实体节点的特征数据异常因子,按照预设的簇数值集合中的多个簇数值,分别进行聚类初始化操作,得到多组节点簇集合;
测算每组所述节点簇集合中各实体节点的权重值与变量权重值,得到与多组所述节点簇集合一一对应的多组权重集合;
根据多组所述权重集合得到多组间隔统计量;
基于所述多组间隔统计量从多组所述节点簇集合中确定出目标节点簇集合。
3.根据权利要求2所述的基于数据空间的数据分析方法,其特征在于,所述基于实体节点集合中每个实体节点的特征数据异常因子,按照预设的簇数值集合中的多个簇数值,分别进行聚类初始化操作,得到多组节点簇集合,包括:
根据多个所述簇数值确定多组节点簇个数;
基于每个实体节点的特征数据异常因子,按照所述多组节点簇个数,分别进行聚类初始化操作,得到多组节点簇集合。
4.根据权利要求2所述的基于数据空间的数据分析方法,其特征在于,所述基于所述多组间隔统计量从多组所述节点簇集合中确定出目标节点簇集合,包括:
从多组间隔统计量中确定出符合预设要求的目标间隔统计量;
基于所述目标间隔统计量从多组所述节点簇集合中确定出目标节点簇集合。
5.根据权利要求4所述的基于数据空间的数据分析方法,其特征在于,所述从从多组间隔统计量中确定出符合预设要求的目标间隔统计量,包括:
将多组间隔统计量中满足如下不等式的间隔统计量作为目标间隔统计量;
Gapk≥Gapk+1-sk+1
其中,Gapk为簇数值为k时的间隔统计量;Gapk+1为簇数值为k-1时的间隔统计量;sk+1为簇数值为k+1时关于簇分配的相关标准误差校正值。
6.根据权利要求1所述的基于数据空间的数据分析方法,其特征在于,所述利用训练后的参考数据输出模型基于所述多个数据空间,得到多个分析结果,包括:
基于所述多个数据空间,分别测算多个目标节点簇对应的各类特征数据平均值,得到多组平均值集合;
将所述多组平均值集合分别输入训练后的参考数据输出模型,得到多个分析结果。
7.根据权利要求1-6任一项所述的基于数据空间的数据分析方法,其特征在于,在所述利用训练后的参考数据输出模型基于所述多个数据空间,得到多个分析结果的步骤之后,还包括:
将所述多个分析结果部署至区块链节点中。
8.一种数据分析装置,其特征在于,包括:
聚类单元,用于基于实体节点集合中每个实体节点的特征数据异常因子,对所述实体节点集合进行聚类操作,得到目标节点簇集合;所述目标节点簇集合中包括多个目标节点簇;
数据空间构建单元,用于根据每个所述目标节点簇中全部所述实体节点的特征数据权重,构建多个数据空间;
分析单元,用于利用训练后的参考数据输出模型基于所述多个数据空间,得到多个分析结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202110120811.5A 2021-01-28 2021-01-28 一种基于数据空间的数据分析方法及计算机设备 Pending CN112884017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110120811.5A CN112884017A (zh) 2021-01-28 2021-01-28 一种基于数据空间的数据分析方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110120811.5A CN112884017A (zh) 2021-01-28 2021-01-28 一种基于数据空间的数据分析方法及计算机设备

Publications (1)

Publication Number Publication Date
CN112884017A true CN112884017A (zh) 2021-06-01

Family

ID=76053114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110120811.5A Pending CN112884017A (zh) 2021-01-28 2021-01-28 一种基于数据空间的数据分析方法及计算机设备

Country Status (1)

Country Link
CN (1) CN112884017A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019554A1 (en) * 2013-07-09 2015-01-15 Sas Institute Inc. Number of clusters estimation
CN106202431A (zh) * 2016-07-13 2016-12-07 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
US20170171580A1 (en) * 2015-04-21 2017-06-15 Edge2020 LLC Clustering and adjudication to determine a recommendation of multimedia content
CN109409575A (zh) * 2018-09-27 2019-03-01 贵州电网有限责任公司 基于Gap Statistic的风电场机群划分方法
CN109978023A (zh) * 2019-03-11 2019-07-05 南京邮电大学 面向高维大数据分析的特征选择方法及计算机存储介质
CN110650058A (zh) * 2019-10-08 2020-01-03 河南省云安大数据安全防护产业技术研究院有限公司 一种网络流量分析方法、装置、存储介质及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019554A1 (en) * 2013-07-09 2015-01-15 Sas Institute Inc. Number of clusters estimation
US20170171580A1 (en) * 2015-04-21 2017-06-15 Edge2020 LLC Clustering and adjudication to determine a recommendation of multimedia content
CN106202431A (zh) * 2016-07-13 2016-12-07 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
CN109409575A (zh) * 2018-09-27 2019-03-01 贵州电网有限责任公司 基于Gap Statistic的风电场机群划分方法
CN109978023A (zh) * 2019-03-11 2019-07-05 南京邮电大学 面向高维大数据分析的特征选择方法及计算机存储介质
CN110650058A (zh) * 2019-10-08 2020-01-03 河南省云安大数据安全防护产业技术研究院有限公司 一种网络流量分析方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
Khodak et al. Federated hyperparameter tuning: Challenges, baselines, and connections to weight-sharing
WO2019114421A1 (zh) 一种模型整合方法及装置
CN106685674B (zh) 网络事件预测以及建立网络事件预测模型的方法和装置
CN111898578B (zh) 人群密度的获取方法、装置、电子设备
CN110796399B (zh) 基于区块链的资源分配方法以及装置
CN110597719B (zh) 一种用于适配测试的图像聚类方法、装置及介质
CN111507470A (zh) 一种异常账户的识别方法及装置
Lu et al. Automating deep neural network model selection for edge inference
CN111162934A (zh) 业务服务的测试方法和装置、存储介质、电子装置
Kang et al. Robust resource scaling of containerized microservices with probabilistic machine learning
CN108205570A (zh) 一种数据检测方法和装置
CN113869521A (zh) 构建预测模型的方法、装置、计算设备和存储介质
Md et al. Dynamic ranking of cloud services for web-based cloud communities: efficient algorithm for rating-based discovery and multi-level ranking of cloud services
CN111797320A (zh) 数据处理方法、装置、设备及存储介质
CN109214543A (zh) 数据处理方法及装置
Sham et al. CoFA for QoS based secure communication using adaptive chaos dynamical system in fog-integrated cloud
Li et al. ELASTIC: edge workload forecasting based on collaborative cloud-edge deep learning
US20240143436A1 (en) Techniques to provide self-healing data pipelines in a cloud computing environment
CN111949530B (zh) 测试结果的预测方法、装置、计算机设备及存储介质
CN111626783B (zh) 用于实现事件转化概率预测的离线信息设置方法和装置
CN112751785A (zh) 待处理请求发送方法、装置、计算机设备及存储介质
CN112884017A (zh) 一种基于数据空间的数据分析方法及计算机设备
CN116119284B (zh) 基于人工智能的物料装配方法、装置、设备及介质
CN114638723A (zh) 基于业务办理数据进行风险分析的方法及系统
CN109949070B (zh) 用户黏度评估方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210601