CN114491188A - 数据容量的可视化方法、系统及计算机可读存储介质 - Google Patents
数据容量的可视化方法、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114491188A CN114491188A CN202210071469.9A CN202210071469A CN114491188A CN 114491188 A CN114491188 A CN 114491188A CN 202210071469 A CN202210071469 A CN 202210071469A CN 114491188 A CN114491188 A CN 114491188A
- Authority
- CN
- China
- Prior art keywords
- indexes
- index
- data
- correlation
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种数据容量的可视化方法、系统及计算机可读存储介质,数据中心是数据的存储中心,指标划分器依据指标的不同所属,将指标进行领域的划分;相关性计算装置完成指标准备的同时,以最大信息系数的方式计算两两指标之间的相关系数;画像特征配置器依据风险评估方法为所有统计范围内的指标计算相应的风险指数,依据指标的风险指数统计出对应领域和系统的风险指数,进而为容量画像提供数据基础;全部或完成指定的重要指标间相关性计算后,可以通过图像的方式展示一个系统下领域内指标间的相关联程度。本发明数据容量的可视化方法,基于数据中心的指标,按领域划分后进行相关性计算,进而完成画像特征配置后得到以关系图为基础的容量画像。
Description
技术领域
本发明涉及一种数据容量处理方法,具体的说,是涉及一种数据容量的可视化方法、系统及计算机可读存储介质。
背景技术
随着银行金融业务在互联网上的高速发展,面向不同客户实现各种不同需求的业务系统在不断涌现迭代。业务总量和类型的急剧增加不可避免地使得多系统在受到银行整体纳管的过程难度直线上升。为满足银行对纳管系统的统筹管理,对大量不同类型的指标需要进行采集存储、关联关系挖掘、预测分析、告警预防等行为。
应运而生的容量管理本意是指致力于在恰当的时间以一种经济节约的方式为数据处理和存储提供所需的容量。而其作为系统有效实现其本身目的的现有技术与模式仍旧十分不足,处于探索中的状态。在管理过程中作为关键步骤的关联关系挖掘是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。而现有容量领域中关联挖掘的方式普遍基于经验判断选择挖掘主体指标,并应用常见的相关系数计算方法以获取目标指标间的关联性。通过不断人工两两选取指标并计算的方式以获取领域系统内指标间影响进而分析解决问题。
在原有技术中,参与数据关联关系挖掘的客体仅包含某业务系统在各领域的管理系统和人工,且在流程触发方式上由实际业务问题产生。
参见图1,当某一业务系统在日常工作中出现容量问题,则开始对该业务系统所涵盖所有领域内数据进行分别分析。
相关从业人员可以知道对于一个业务系统,会包含存储、数据库、应用等多个领域的数据,且不同领域下也会包含较多各式指标,问题的发现一般出现于某一领域的某一指标异常,该异常普遍上是超过设定域值或短时间较大变化幅度。
由于不同领域的存在,异常出现时需要技术员在各自负责的领域管理系统中依据自身经验和数学工具分析并查找问题指标的强关联指标,数据分析的方式普遍采用线性相关,并在协调后形成该业务系统下领域间汇总报告。
通过对汇总结果的分析,技术员可以实现问题的完整定位并提出对各领域管理系统中参数配置等具体业务的调整方案。
现有技术存在的缺陷是,数据挖掘的过程由人工主导,需要分析员在各自系统领域内对敏感指标数据做筛选和分析,所有特定指标间关联分析都限定在特定领域内,需求目标不确定,所能达成成果也不明确。
在关联关系挖掘过程中,一般通过相关性分析以反映指标间的线性关系,但数据间关系可以不只有线性关系,还有非线性一类更多有意义关系。每次的领域内数据分析结果需要人工汇总实现领域间的分析结果汇总,进而将结果作用于容量管理上。
发明内容
针对上述现有技术中的不足,本发明提出了一套完整的装置和配套的流程以实现数据容量的可视化方法。
本发明所采取的技术方案是:
一种数据容量的可视化方法,
该流程开始于步骤s101;
步骤s102,数据中心持续进行各指标的数据采集,每个指标采集为每五分钟一个值时点类时序数据;
步骤s103,所有指标的时序数据传递至指标划分器,依据领域、系统、标识、维度对指标进行划分;
步骤s104,对划分后的指标进行时序数据的天维度加工,使得每个指标均有统一时间段内的每日数值;
步骤s105,指标数据进入相关性计算装置,以系统为单位,过滤后进行指标在领域间的相关性计算;
步骤s106,枚举所有涉及的系统(A1,A2,…,AN);
步骤s107,选择未计算相关性的系统Ai,枚举该系统下应用领域指标(U1,U2,…,UN);判断该系统Ai的相关性是否计算完毕,计算完毕跳转步骤s108;否则选取下一个系统,跳转至步骤s106;
步骤s108,选取系统Ai下应用领域某一指标Ui,与该系统下所有非应用领域指标依次做相关性计算,判断应用领域指标是否计算完毕,计算完毕,跳转至步骤s110;否则,选取下一个应用领域指标,跳转至步骤s107;同时跳转步骤s109;
步骤s109,以系统为单位,应用领域为中心的关联关系图展示;
步骤s110,所有指标数据及其相关性数值进入画像特征配置器,经由预设置的指标风险评估方法计算每个指标的风险指数;
步骤s111,于相关性计算装置中,计算两两指标间时序数据的相关性,跳转至步骤s108;
步骤s112,枚举所有涉及的系统(A1,A2,…,AN);
步骤s113,选择未构建画像的系统Ai,通过系统下指标间相关系数大于0.4过滤掉所有孤立指标;判断画像的系统Ai是否构建完毕,构建完毕跳转步骤s114,否则选取下一个系统,跳转步骤s112;
步骤s114,枚举选择存在未过滤指标的系统,枚举该领域内未过滤指标(U1,U2,…,UN);
步骤s115,选取系统Ai下某领域某一指标Ui,依据风险评估方法计算该指标风险指数;判断系统Ai指标风险指数是否计算完毕,计算完毕跳转步骤s116,否则,选取下一个指标,跳转步骤s114;
步骤s116,平均计算系统和领域下指标风险指数,得到系统与领域维度的指标风险指数并展示容量画像;
步骤s117,结束。
一种数据容量的可视化方法,
以下实例主要基于客服交易系统(CCS-B),
在数据中心,对CCS-B系统的大量指标进行监听抽取和管理,在完成抽取后将所有指标以系统为单位整体传递给指标划分器;
在指标划分器中,所有CCS-B系统下的指标首先依据领域进行划分,主要划分为应用领域{A}、系统领域{B}、存储领域{C}、数据库领域{D}四个部分;
对于这四个集合中,应用领域属于特殊的业务触发领域,而其他三个领域属于受业务影响的领域;
所以基于此判断,后续的计算及关系图放置于应用领域与其他领域之间;
指标划分器将指标划分至各个领域之后,对每个指标进行精准定位,即将每个指标的唯一标记(领域、系统、标识、维度)进行记录,并为每个指标的时序数据进行日频率的加工,最终保证每个指标是由领域、系统、标识、维度进行定位的一段时间内的日频率时序数据序列{d1,…,dn};
数据的加工来源自数据中心的监控及采集,完成以系统为最大划分的指标加工后,将每个指标的同时间段内的日频率时序数据传入相关性计算装置;
在相关性计算装置中,现假设时间段为2020-01-01至2020-07-01,任意指标在时间段内的每日均有一个数据值,每个数据值的合集构成一个指标U的时序数据序列{d1,…,dn},其次每日日期的序列为{t1,…,tn};
依据流程描述,首先枚举所有系统{A1,A2,…,AN},依次进行操作;
在某一系统下,此处该系统为客服交易系统(CCS-B),枚举该系统下应用领域指标(U1,U2,…,UN);
选取系统CCS-B下应用领域某一指标,假设该指标为日交易量(RJYL),与该系统下所有非应用领域指标依次或依据需求有选择的做相关性计算;
在全部或完成指定的重要指标间相关性计算后,可以通过图像的方式展示一个系统下领域内指标间的相关联程度。
优选的,信息系数计算相关性的方法步骤如下:
假设两个指标分别为RJYL和存储领域下某一服务器标识下的CPU使用率(CPUU)进行相关性计算;
针对两个变量之间的关系离散在二维空间中,并且使用散点图来表示;由于当前两个指标的时序数据序列均为时间段2020-01-01至2020-07-01。
两个指标的时序数据序列一一对应,构成时间段内的数据对,即可视为二维空间中的数据点;
将当前二维空间在x,y方向分别划分为一定的区间数,然后查看当前的散点在各个方格中落入的情况,来计算分布的最大互信息数值,即可作为相关性数值;
所以整个过程在一个给定边界的循环中,每次循环前给出一个当前的划分方法,根据变量离散化的分箱算法可以将二维平面在x轴和y轴上分割,形成分割后区域(xi,yi)并满足样本序列中任意点存在于一个分割后区域中,每次分割都存在该分割后独有的参数将其命名为划分度,并在该划分度下可以计算得到相应统计量,再不断增加划分度得到更多统计量,当枚举过程足够大时可以将离散数据整合为连续统计量;
所述计算过程就是在划定枚举界限的前提下,计算每次划分中的互信息系数并取得最大值作为指标间关联关系度量方式。
优选的,构成指标序列对并初始化用于分割平面的划分度参数k;
划分度参数k初始化为两个较小的正整数,其数值由x轴划分数和y轴划分数组合得到,记为(a,b);
在所述方法中不断增加划分度并在每种划分中进行统计量的计算,为防止过量计算,不仅为划分总量做限制,同时划分差异也要限制;
给划分总量设定最大值不超过N0.6,N即为序列样本数,公式为a×b≤N0.6;
给划分差异设定最大值不超过15,即公式满足|a-b|≤15;
给出初始化的划分k为(10,10)。
优选的,基于某一划分度K=(a,b)下,计算该平面划分下样本序列点能得到的最大互信息系数值;
互信息系数为两个随机变量的联合分布和边缘分布乘积之间的KL散度,公式为MI(X,Y)=KL[P(X=k∧Y=k),P(X=k)P(Y=k)],几何中可以解为样本序列点在已知划分平面中的分布概率与样本序列在各自维度分布概率乘积之差;
在信息论中的关键概念“熵”是衡量给定概率分布的不确定性的度量,而概率分布描述了与特定事件相关的一系列给定结果的概率,公式为H(X)=-ΣP(X=k)log2 P(X=k);
两个不同概率分布之间的熵时,由交叉熵公式:H(X,Y)=-ΣP(X=k)log2 P(Y=k)得到;
进而由KL散度公式:KLX,Y=H(X,Y)-H(X),计算出两个不同概率分布的交叉熵与单独熵的差异。
优选的,所述计算过程后可以得到数据值大于等于0的互信息系数,用以反映样本中两个维度变量的联合分布与边缘分布乘积之间的散度,散度越大,两个变量之间相关的可能性就越大;两个变量的互信息定义了散度的度量方式;
在得到互信息系数后,由于需要在不同划分下比较并求得最大值。
将所得互信息值通过除以在特定划分组合上取得的理论最大值来完成,即除以log2[min(a,b)]的方式归一化,则得到该划分下归一化MI;
每次计算均可得到一个划分数值下的最大互信息数Ii;
对当前划分度做判断,减少运算量的同时为穷举计算过程增加限定条件,使得计算达到较好的效率比。
对于所述过程中所涉及到的划分度K=(a,b),其划分总量满足未超过N0.6;
每次未满足判断条件时,均通过调整划分方式穷举划分方式,计算最大互信息数,直到满足预设的终止边界时,即已将所有限定条件下划分情况的归一化MI数值枚举计算完毕;
进行统计得到归一化MI数值中最大值,即为最大信息系数;
由于所述系数为样本数据在范围内枚举所得归一化后最大联合分布与边缘分布乘积的信息散度,可以体现其关联意义;同时所述系数满足范围区间[0,1];
以上完成两个指标间的相关系数计算后,继续循环执行应用领域内的指标与其他领域内的指标间的相关系数;
优选的,以系统为中心,连接出应用领域{A}、系统领域{B}、存储领域{C}、数据库领域{D}四个部分,每个领域部分基于其指标的特点再次连接至参与相关系数计算的指标;
系统领域下根据服务器类型划分为DB服务器和APP服务器,则该领域指标以服务器类型再细维度划分。
指标间如果存在计算相关系数的结果,则会将两个指标进行连线,连线的粗细可代表系数的大小。则在不做任何过滤的情况下可展示CCS-B系统下的关联关系。
由于相关系数的大小不同,得到更多有用的信息以供分析,则在关联关系图中可以进行相关系数数值的筛选,将大于0.4系数的关系设定为好,小于0.4系数的关系设定为差,进而通过筛选得到重要的关联关系。
至此完成关联关系的构建;为了进一步实现对领域指标的管理和高效应对问题风险的能力,本发明基于相关性计算结果和原始数据继续操作,实现基于指标的容量画像展示和管理。
优选的,容量画像的构建步骤如下:
所有指标数据及其相关性数值进入画像特征配置器,经由预设置的指标风险评估方法计算每个指标的风险指数;
首先枚举所有进行过关联关系计算的系统,选择未构建画像的系统,本例中为CCS-B,枚举该系统下所有未被过滤的指标(U1,U2,…,UN),过滤的方法基于所有指标对应连接到的相关系数均小于0.4,则剩余指标均为存在相关系数0.4以上的,将其称为有分析价值指标;对于其中的某一个指标依据风险评估方法进行计算该指标风险指数;
例如CCS-B系统下的日交易量指标(RJYL),其风险评估方式为50%占比的日交易量占历史峰值比和50%占比的日交易量占阈值比,该机算方法基于银行内部的固有管理原理,在此不做赘述,且对于所有指标均可以配置的方式提供一个指标自有的风险评估方法,评估方法以相关人员的经验为主,结合关联关系的数理原理,即可在画像中表现更为清晰的整体结构与关系。此例中经过评估计算后可以得到CCS-B_RJYL指标的风险指数为48.4。
经过枚举操作后,可将所有未过滤指标的风险指数计算得出,得到(R1,R2,…,RN),基于每个系统下的指标风险指数,通过平均计算即可得到该系统维度的风险指数。
由此最后可以展示出系统级别的容量画像。
通过平均计算得出的CCS-B系统级风险指数为25.29。
本发明中,对所有风险指数做了三段划分,包括0-40为健康,40-70为良好,70-100为关注。所以本系统当前处于健康状态,但同时下方显示存在一个指标数据库TPS的风险指数为关注状态,需要相关领域的管理员做重点关注,完全展示了以系统为中心,领域为副支,所有经过风险评估的系统内指标,每个指标均可查到其对应的风险指数,同时基于视角切换,可以查看所有指标间的关联关系,如图5所示。
系统级别的画像以系统为中心,连线出去的二级中心为各个领域,再次连接出去的为该领域下有分析关注意义的指标,每个指标均有一个风险指数,颜色代表了该风险指数的划分区域,紫色代表健康,红色代表良好,黄色代表关注。其次指标之间的连线表达的指标之间的关联关系,在画像图像中,连线均为大于0.4相关系数的关联关系。
基于以上的两类图像构建,本发明做到了以清晰形象的方式为管理员提供系统在容量上的风险关联。
基于本发明,至此之后的业务问题一旦产生,管理员即可根据画像内容高速有效地定位问题所在,并且在对于业务产生的容量问题可以预警的方式将应用领域以外的领域内风险作出提前预警机制。
一种数据容量的可视化方法的管理系统,包括:
数据中心:数据的存储中心,通过各种方式进行采集的时序数据,依据采集方式的不同分为不同所属的指标,即数据中心中存储以指标为分类单位的时序数据;
指标划分器:依据指标的不同所属,将指标进行领域的划分;
主要划分为应用领域、资源领域、数据库领域、存储领域;
相关性计算装置:完成指标准备的同时,以最大信息系数的方式计算两两指标之间的相关系数;
画像特征配置器:依据风险评估方法为所有统计范围内的指标计算相应的风险指数,依据指标的风险指数统计出对应领域和系统的风险指数,进而为容量画像提供数据基础;
在数据中心,对CCS-B系统的大量指标进行监听抽取和管理,在完成抽取后将所有指标以系统为单位整体传递给指标划分器;
在指标划分器中,所有CCS-B系统下的指标首先依据领域进行划分,主要划分为应用领域{A}、系统领域{B}、存储领域{C}、数据库领域{D}四个部分;
指标划分器将指标划分至各个领域之后,对每个指标进行精准定位,即将每个指标的唯一标记(领域、系统、标识、维度)进行记录,并为每个指标的时序数据进行日频率的加工,最终保证每个指标是由领域、系统、标识、维度进行定位的一段时间内的日频率时序数据序列{d1,…,dn};
数据的加工来源自数据中心的监控及采集,完成以系统为最大划分的指标加工后,将每个指标的同时间段内的日频率时序数据传入相关性计算装置;
在相关性计算装置中,任意指标在时间段内的每日均有一个数据值,每个数据值的合集构成一个指标U的时序数据序列{d1,…,dn},其次每日日期的序列为{t1,…,tn};
依据流程描述,首先枚举所有系统{A1,A2,…,AN},依次进行操作;
系统为客服交易系统(CCS-B),枚举该系统下应用领域指标(U1,U2,…,UN);
选取系统CCS-B下应用领域某一指标,假设该指标为日交易量(RJYL),与该系统下所有非应用领域指标依次或依据需求有选择的做相关性计算;
在全部或完成指定的重要指标间相关性计算后,可以通过图像的方式展示一个系统下领域内指标间的相关联程度。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的数据容量的可视化方法。
本发明相对现有技术的有益效果:
本发明数据容量的可视化方法,创新性地采用最大信息系数(MIC)作为相关性系数的评估指标,该方式能够快速且准确地将指标间关系找出,不仅是线性关系,只要是函数关系均可以通过该方法找出。所得到的关系结果可以最大限度保留数据间的原始关系,以满足后续对于数据间的管理、监控、预警等需求目标。
本发明数据容量的可视化方法,通过多项装置,将原始数据依次进行分析处理,以实时的方式,将指标间的信息分层次进行高效展示,通过指标划分器获取所有指标的分类和归纳情况、通过相关性计算装置得到指标间有意义的关联关系分析并以系统为单位的关联关系图、通过画像特征配置器计算系统下领域间指标的特点和风险进而做出能够体现系统状态面貌的容量画像图。
本发明数据容量的可视化方法,基于数据关系构建和图像展示,以清晰形象的方式为管理员提供系统在容量上的实时状况,在进行了风险预警配置的前提下,即可让管理员及时通过本系统获取管理系统范围内的风险告警情况,也就使得业务问题在产生之时可以更快更准确地进行定位和对其排查。
本发明数据容量的可视化方法,基于数据中心的指标,按领域划分后进行相关性计算,进而完成画像特征配置后得到以关系图为基础的容量画像,实时的画像展示了指标的风险状况,也进而为将会产生的容量问题提供了分析方向和决策思路。
附图说明
图1是数据容量的可视化方法的传统流程示意图;
图2是数据容量的可视化方法的完成结构示意图;
图3是数据容量的可视化方法的整体流程图;
图4是数据容量的可视化方法的算法流程图;
图5是数据容量的可视化方法的指标间的关联关系图。
具体实施方式
以下参照附图及实施例对本发明进行详细的说明:
关键定义:
关联挖掘:本意是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式;而在容量领域中,相关从业人员着重关注各种指标的相关性变化影响,且指标数据均为时序类数据。
时序数据:
指时间序列数据,时间序列数据是同一统一指标按时间顺序记录的数据列;在同一数据列中的各个数据是同口径的,要求具有可比性;
时序数据可以是时期数,也可以时点数,这也就满足各指标能以时刻为准形成相关性的分析,进而在分析后形成必要的指标预测模型和容量预警分析;
相关性分析:
即对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析;
它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程;
相关性分析的方法较为常用计算相关系数,而相关系数的计算可以通过方式,以下简单描述常用方法:
最常见的皮尔逊相关系数,使用X,Y的协方差除以X的标准差和Y的标准差,该系数可以理解为剔除两个变量量纲影响、标准化后的特殊协方差,其数值区间为[-1,1]。该系数只单纯反映了两个变量每单位变化时的相似程度,所以其数据表达只能反映变量间的线性关系,当数值大于0时为正相关,而小于0时为负相关;
在前者基础上形成的斯皮尔曼相关系数,其定义为等级变量之间的皮尔逊相关系数,也就是将原始数据做等级转换后形成秩序列,将两个变量的等级数据序列做皮尔逊相关系数计算。该系数在拥有皮尔逊系数特点的前提下,能反映更多反映变量间的简单单调非线性关系,同时其稳定性也更好。
肯德尔相关性系数同样是一种秩相关系数,可以理解为斯皮尔曼相关系数在离散数据上的应用,该系数反映分类变量间的相关性。
装置用途:
数据中心:
数据的存储中心,通过各种方式进行采集的时序数据,依据采集方式的不同分为不同所属的指标,即数据中心中存储以指标为分类单位的时序数据。
指标划分器:
依据指标的不同所属,将指标进行领域的划分。
主要划分为应用领域、资源领域、数据库领域、存储领域。
各个领域囊括了大量具有特点的指标,在领域划分的基础上,将指标做出准确定位,通过领域、系统、标识、维度来确定指标的所属,并为所有指标配备当前业务日期的可采集时序数据;
在本发明中,为了满足相关性的计算需求,所有指标的时序数据均需要在指标划分器中加工为以天为频率的时序数据。
相关性计算装置:
完成指标准备的同时,以最大信息系数的方式计算两两指标之间的相关系数。
该相关系数数值最大为1,接近1时代表两指标间存在较强的关联关系,该关联关系不限于线性关系,可以是任意函数关系,也即可为指标在系统内的关联画像提供有力的数学支撑;
画像特征配置器:
依据风险评估方法为所有统计范围内的指标计算相应的风险指数,依据指标的风险指数统计出对应领域和系统的风险指数,进而为容量画像提供数据基础。
图2,主要描述了本发明中涉及的设备和连接方式,图中数据产生于数据中心,同时也是本发明中逻辑起始位置。由流程图可以发现,数据从数据中心流向指标划分器,该装置对原始数据和统计数据基于本发明的内容做初步的处理,即分门别类和数据预处理等操作,数据经过该装置进入核心部分的相关性计算装置。计算装置将连续不断地循环处理所接收到的指标数据,经过计算这些数据将形成可图像化展示的结构数据。这些结构数据一方面可以通过关联关系图的展示方式进行结构化数据结果的展示和分析;另一方面可以继续传递至画像特征配置器进行进一步处理。在配置器中,结构化数据结合预设的指标风险评估方法可以计算得到指标的风险情况,由此可以在新的结构化数据中归纳整理出领域或系统级别的容量画像。完成以上步骤后,当后续出现来自于业务系统的问题时,即可通过容量画像和一定的关联关系线索,对问题进行归纳,并使问题得到高效的解决
图4,主要描述了本发明涉及的主要相关性计算方法,也即最大信息系数的核心计算逻辑。首先准备两个数据序列,在本发明中即为指标在同一时间段内可一一对应的两个时序数据。其次将两列数据分别作为正交图的两个轴,即可在二维网格中划出对应的所有点。通过与轴线平行的直线可以对正交图进行区域的划分,所以在初始化一个最小的划分状态时,即可算出当前划分下所有点的互信息数,而移动划分线时,当点落在不同的划分区域时互信息数也会随着划分情况的不同而改变,即可以确定在一定的划分线下,总存在一个划分情况可以使得当前的互信息数为最大,这也就是最大信息系数。而由于越多的划分线一般可以得到更大的互信息数且横向划分线和纵向划分线的差异也影响互信息数,所以在初始化划分度的同时,需要设定计算终止的边界条件和划分差异。本发明中预设总量不超过N0.6,差异设定不超过15,出事划分为(10,10)。后续则是在给定划分度下,计算最大的互信息数并以当前的划分度进行归一化处理,判断当前是否达到划分度的上限,若尚未达到则在增加划分度或调整划分差异的情况下循环继续执行,直到达到上限。完成循环后比较产生所有划分下最大的互信息数并取得归一化下的结果,即为本次两个指标间计算得到的最大信息系数。
本发明概括实施例,参照图3。
一种数据容量的可视化方法,
该流程开始于步骤s101;
步骤s102,数据中心持续进行各指标的数据采集,每个指标采集为每五分钟一个值时点类时序数据;
步骤s103,所有指标的时序数据传递至指标划分器,依据领域、系统、标识、维度对指标进行划分;
步骤s104,对划分后的指标进行时序数据的天维度加工,使得每个指标均有统一时间段内的每日数值;
步骤s105,指标数据进入相关性计算装置,以系统为单位,过滤后进行指标在领域间的相关性计算;
步骤s106,枚举所有涉及的系统(A1,A2,…,AN);
步骤s107,选择未计算相关性的系统Ai,枚举该系统下应用领域指标(U1,U2,…,UN);判断该系统Ai的相关性是否计算完毕,计算完毕跳转步骤s108;否则选取下一个系统,跳转至步骤s106;
步骤s108,选取系统Ai下应用领域某一指标Ui,与该系统下所有非应用领域指标依次做相关性计算,判断应用领域指标是否计算完毕,计算完毕,跳转至步骤s110;否则,选取下一个应用领域指标,跳转至步骤s107;同时跳转步骤s109;
步骤s109,以系统为单位,应用领域为中心的关联关系图展示;
步骤s110,所有指标数据及其相关性数值进入画像特征配置器,经由预设置的指标风险评估方法计算每个指标的风险指数;
步骤s111,于相关性计算装置中,计算两两指标间时序数据的相关性,跳转至步骤s108;
步骤s112,枚举所有涉及的系统(A1,A2,…,AN);
步骤s113,选择未构建画像的系统Ai,通过系统下指标间相关系数大于0.4过滤掉所有孤立指标;判断画像的系统Ai是否构建完毕,构建完毕跳转步骤s114,否则选取下一个系统,跳转步骤s112;
步骤s114,枚举选择存在未过滤指标的系统,枚举该领域内未过滤指标(U1,U2,…,UN);
步骤s115,选取系统Ai下某领域某一指标Ui,依据风险评估方法计算该指标风险指数;判断系统Ai指标风险指数是否计算完毕,计算完毕跳转步骤s116,否则,选取下一个指标,跳转步骤s114;
步骤s116,平均计算系统和领域下指标风险指数,得到系统与领域维度的指标风险指数并展示容量画像;
步骤s117,结束。
实施例2:
以下实例主要基于客服交易系统(CCS-B),
在数据中心,对CCS-B系统的大量指标进行监听抽取和管理,在完成抽取后将所有指标以系统为单位整体传递给指标划分器;
在指标划分器中,所有CCS-B系统下的指标首先依据领域进行划分,主要划分为应用领域{A}、系统领域{B}、存储领域{C}、数据库领域{D}四个部分;
对于这四个集合中,应用领域属于特殊的业务触发领域,而其他三个领域属于受业务影响的领域;
所以基于此判断,后续的计算及关系图放置于应用领域与其他领域之间;
指标划分器将指标划分至各个领域之后,对每个指标进行精准定位,即将每个指标的唯一标记(领域、系统、标识、维度)进行记录,并为每个指标的时序数据进行日频率的加工,最终保证每个指标是由领域、系统、标识、维度进行定位的一段时间内的日频率时序数据序列{d1,…,dn};
数据的加工来源自数据中心的监控及采集,完成以系统为最大划分的指标加工后,将每个指标的同时间段内的日频率时序数据传入相关性计算装置;
在相关性计算装置中,现假设时间段为2020-01-01至2020-07-01,任意指标在时间段内的每日均有一个数据值,每个数据值的合集构成一个指标U的时序数据序列{d1,…,dn},其次每日日期的序列为{t1,…,tn};
依据流程描述,首先枚举所有系统{A1,A2,…,AN},依次进行操作;
在某一系统下,此处该系统为客服交易系统(CCS-B),枚举该系统下应用领域指标(U1,U2,…,UN);
选取系统CCS-B下应用领域某一指标,假设该指标为日交易量(RJYL),与该系统下所有非应用领域指标依次或依据需求有选择的做相关性计算;
以下详细描述最大信息系数计算相关性的方法;
假设两个指标分别为RJYL和存储领域下某一服务器标识下的CPU使用率(CPUU)进行相关性计算;
mic的想法是针对两个变量之间的关系离散在二维空间中,并且使用散点图来表示;由于当前两个指标的时序数据序列均为时间段2020-01-01至2020-07-01。
两个指标的时序数据序列一一对应,构成时间段内的数据对,即可视为二维空间中的数据点;
将当前二维空间在x,y方向分别划分为一定的区间数,然后查看当前的散点在各个方格中落入的情况,来计算分布的最大互信息数值,即可作为相关性数值;
所以整个过程在一个给定边界的循环中,每次循环前给出一个当前的划分方法,根据变量离散化的分箱算法可以将二维平面在x轴和y轴上分割,形成分割后区域(xi,yi)并满足样本序列中任意点存在于一个分割后区域中,每次分割都存在该分割后独有的参数将其命名为划分度,并在该划分度下可以计算得到相应统计量,再不断增加划分度得到更多统计量,当枚举过程足够大时可以将离散数据整合为连续统计量;
所述计算过程就是在划定枚举界限的前提下,计算每次划分中的互信息系数并取得最大值作为指标间关联关系度量方式;
构成指标序列对并初始化用于分割平面的划分度参数k;
划分度参数k初始化为两个较小的正整数,其数值由x轴划分数和y轴划分数组合得到,记为(a,b);
在所述方法中不断增加划分度并在每种划分中进行统计量的计算,为防止过量计算,不仅为划分总量做限制,同时划分差异也要限制;
给划分总量设定最大值不超过N0.6,N即为序列样本数,公式为a×b≤N0.6;
给划分差异设定最大值不超过15,即公式满足|a-b|≤15;
由此在本例中给出初始化的划分k为(10,10);
基于某一划分度K=(a,b)下,计算该平面划分下样本序列点能得到的最大互信息系数值;
互信息系数为两个随机变量的联合分布和边缘分布乘积之间的KL散度,公式为MI(X,Y)=KL[P(X=k∧Y=k),P(X=k)P(Y=k)],几何中可以理解为样本序列点在已知划分平面中的分布概率与样本序列在各自维度分布概率乘积之差;
在信息论中的关键概念“熵”是衡量给定概率分布的不确定性的度量,而概率分布描述了与特定事件相关的一系列给定结果的概率,公式为H(X)=-ΣP(X=k)log2 P(X=k);
两个不同概率分布之间的熵时,由交叉熵公式:H(X,Y)=-ΣP(X=k)log2 P(Y=k)得到;
进而由KL散度公式:KLX,Y=H(X,Y)-H(X),计算出两个不同概率分布的交叉熵与单独熵的差异;
经过所述计算过程后可以得到数据值大于等于0的互信息系数,用以反映样本中两个维度变量的联合分布与边缘分布乘积之间的散度,散度越大,两个变量之间相关的可能性就越大;两个变量的互信息定义了散度的度量方式;
在得到互信息系数后,由于需要在不同划分下比较并求得最大值,所以将所得互信息值通过除以在特定划分组合上取得的理论最大值来完成,即除以log2[min(a,b)]的方式归一化,则得到该划分下归一化MI;
每次计算均可得到一个划分数值下的最大互信息数Ii;
对当前划分度做判断,减少运算量的同时为穷举计算过程增加限定条件,使得计算达到较好的效率比。
对于所述过程中所涉及到的划分度K=(a,b),其划分总量满足未超过N0.6;
每次未满足判断条件时,均通过调整划分方式穷举划分方式,计算最大互信息数,直到满足预设的终止边界时,即已将所有限定条件下划分情况的归一化MI数值枚举计算完毕;
进行统计得到归一化MI数值中最大值,即为最大信息系数;
由于所述系数为样本数据在范围内枚举所得归一化后最大联合分布与边缘分布乘积的信息散度,可以体现其关联意义;同时所述系数满足范围区间[0,1];
以上完成两个指标间的相关系数计算后,继续循环执行应用领域内的指标与其他领域内的指标间的相关系数;
在全部或完成指定的重要指标间相关性计算后,可以通过图像的方式展示一个系统下领域内指标间的相关联程度;
以系统为中心,连接出应用领域{A}、系统领域{B}、存储领域{C}、数据库领域{D}四个部分,每个领域部分基于其指标的特点再次连接至参与相关系数计算的指标;
系统领域下根据服务器类型划分为DB服务器和APP服务器,则该领域指标以服务器类型再细维度划分。
指标间如果存在计算相关系数的结果,则会将两个指标进行连线,连线的粗细可代表系数的大小。则在不做任何过滤的情况下可展示CCS-B系统下的关联关系。
由于相关系数的大小不同,可以得到更多有用的信息以供分析,则在关联关系图中可以进行相关系数数值的筛选,将大于0.4系数的关系设定为好,小于0.4系数的关系设定为差,进而通过筛选得到重要的关联关系。
至此完成关联关系的构建;为了进一步实现对领域指标的管理和高效应对问题风险的能力,本发明基于相关性计算结果和原始数据继续操作,实现基于指标的容量画像展示和管理。
以下详细介绍容量画像的构建方式;
所有指标数据及其相关性数值进入画像特征配置器,经由预设置的指标风险评估方法计算每个指标的风险指数;
首先枚举所有进行过关联关系计算的系统,选择未构建画像的系统,本例中为CCS-B,枚举该系统下所有未被过滤的指标(U1,U2,…,UN),过滤的方法基于所有指标对应连接到的相关系数均小于0.4,则剩余指标均为存在相关系数0.4以上的,将其称为有分析价值指标;
对于其中的某一个指标依据风险评估方法进行计算该指标风险指数。
例如CCS-B系统下的日交易量指标(RJYL),其风险评估方式为50%占比的日交易量占历史峰值比和50%占比的日交易量占阈值比,该机算方法基于银行内部的固有管理原理,在此不做赘述,且对于所有指标均可以配置的方式提供一个指标自有的风险评估方法,评估方法以相关人员的经验为主,结合关联关系的数理原理,即可在画像中表现更为清晰的整体结构与关系。此例中经过评估计算后可以得到CCS-B_RJYL指标的风险指数为48.4。
经过枚举操作后,可将所有未过滤指标的风险指数计算得出,得到(R1,R2,…,RN),基于每个系统下的指标风险指数,通过平均计算即可得到该系统维度的风险指数;
由此最后可以展示出系统级别的容量画像,通过平均计算得出的CCS-B系统级风险指数为25.29。
本发明中,对所有风险指数做了三段划分,包括0-40为健康,40-70为良好,70-100为关注。所以本系统当前处于健康状态,但同时下方显示存在一个指标数据库TPS的风险指数为关注状态,需要相关领域的管理员做重点关注,完全展示了以系统为中心,领域为副支,所有经过风险评估的系统内指标,每个指标均可查到其对应的风险指数,同时基于视角切换,可以查看所有指标间的关联关系,如图5所示。
基于本发明,至此之后的业务问题一旦产生,管理员即可根据画像内容高速有效地定位问题所在,并且在对于业务产生的容量问题可以预警的方式将应用领域以外的领域内风险作出提前预警机制。
Claims (10)
1.一种数据容量的可视化方法,其特征在于,
该流程开始于步骤s101;
步骤s102,数据中心持续进行各指标的数据采集,每个指标采集为每五分钟一个值时点类时序数据;
步骤s103,所有指标的时序数据传递至指标划分器,依据领域、系统、标识、维度对指标进行划分;
步骤s104,对划分后的指标进行时序数据的天维度加工,使得每个指标均有统一时间段内的每日数值;
步骤s105,指标数据进入相关性计算装置,以系统为单位,过滤后进行指标在领域间的相关性计算;
步骤s106,枚举所有涉及的系统(A1,A2,…,AN);
步骤s107,选择未计算相关性的系统Ai,枚举该系统下应用领域指标(U1,U2,…,UN);判断该系统Ai的相关性是否计算完毕,计算完毕跳转步骤s108;否则选取下一个系统,跳转至步骤s106;
步骤s108,选取系统Ai下应用领域某一指标Ui,与该系统下所有非应用领域指标依次做相关性计算,判断应用领域指标是否计算完毕,计算完毕,跳转至步骤s110;否则,选取下一个应用领域指标,跳转至步骤s107;同时跳转步骤s109;
步骤s109,以系统为单位,应用领域为中心的关联关系图展示;
步骤s110,所有指标数据及其相关性数值进入画像特征配置器,经由预设置的指标风险评估方法计算每个指标的风险指数;
步骤s111,于相关性计算装置中,计算两两指标间时序数据的相关性,跳转至步骤s108;
步骤s112,枚举所有涉及的系统(A1,A2,…,AN);
步骤s113,选择未构建画像的系统Ai,通过系统下指标间相关系数大于0.4过滤掉所有孤立指标;判断画像的系统Ai是否构建完毕,构建完毕跳转步骤s114,否则选取下一个系统,跳转步骤s112;
步骤s114,枚举选择存在未过滤指标的系统,枚举该领域内未过滤指标(U1,U2,…,UN);
步骤s115,选取系统Ai下某领域某一指标Ui,依据风险评估方法计算该指标风险指数;判断系统Ai指标风险指数是否计算完毕,计算完毕跳转步骤s116,否则,选取下一个指标,跳转步骤s114;
步骤s116,平均计算系统和领域下指标风险指数,得到系统与领域维度的指标风险指数并展示容量画像;
步骤s117,结束。
2.一种数据容量的可视化方法,其特征在于,
在数据中心,对CCS-B系统的大量指标进行监听抽取和管理,在完成抽取后将所有指标以系统为单位整体传递给指标划分器;
在指标划分器中,所有CCS-B系统下的指标首先依据领域进行划分,主要划分为应用领域{A}、系统领域{B}、存储领域{C}、数据库领域{D}四个部分;
对于这四个集合中,应用领域属于特殊的业务触发领域,而其他三个领域属于受业务影响的领域;
后续的计算及关系图放置于应用领域与其他领域之间;
指标划分器将指标划分至各个领域之后,对每个指标进行精准定位,即将每个指标的唯一标记(领域、系统、标识、维度)进行记录,并为每个指标的时序数据进行日频率的加工,最终保证每个指标是由领域、系统、标识、维度进行定位的一段时间内的日频率时序数据序列{d1,…,dn};
数据的加工来源自数据中心的监控及采集,完成以系统为最大划分的指标加工后,将每个指标的同时间段内的日频率时序数据传入相关性计算装置;
在相关性计算装置中,任意指标在时间段内的每日均有一个数据值,每个数据值的合集构成一个指标U的时序数据序列{d1,…,dn},其次每日日期的序列为{t1,…,tn};
依据流程描述,首先枚举所有系统{A1,A2,…,AN},依次进行操作;
系统为客服交易系统(CCS-B),枚举该系统下应用领域指标(U1,U2,…,UN);
选取系统CCS-B下应用领域某一指标,假设该指标为日交易量(RJYL),与该系统下所有非应用领域指标依次或依据需求有选择的做相关性计算;
在全部或完成指定的重要指标间相关性计算后,可以通过图像的方式展示一个系统下领域内指标间的相关联程度。
3.根据权利要求2所述数据容量的可视化方法,其特征在于:
信息系数计算相关性的方法步骤如下:
假设两个指标分别为RJYL和存储领域下某一服务器标识下的CPU使用率(CPUU)进行相关性计算;
针对两个变量之间的关系离散在二维空间中,并且使用散点图来表示;
两个指标的时序数据序列一一对应,构成时间段内的数据对,即可视为二维空间中的数据点;
将当前二维空间在x,y方向分别划分为一定的区间数,然后查看当前的散点在各个方格中落入的情况,来计算分布的最大互信息数值,即可作为相关性数值;
所以整个过程在一个给定边界的循环中,每次循环前给出一个当前的划分方法,根据变量离散化的分箱算法可以将二维平面在x轴和y轴上分割,形成分割后区域(xi,yi)并满足样本序列中任意点存在于一个分割后区域中,每次分割都存在该分割后独有的参数将其命名为划分度,并在该划分度下可以计算得到相应统计量,再不断增加划分度得到更多统计量,当枚举过程足够大时可以将离散数据整合为连续统计量;
所述计算过程就是在划定枚举界限的前提下,计算每次划分中的互信息系数并取得最大值作为指标间关联关系度量方式。
4.根据权利要求3所述数据容量的可视化方法,其特征在于:
构成指标序列对并初始化用于分割平面的划分度参数k;
划分度参数k初始化为两个较小的正整数,其数值由x轴划分数和y轴划分数组合得到,记为(a,b);
在所述方法中不断增加划分度并在每种划分中进行统计量的计算,为防止过量计算,不仅为划分总量做限制,同时划分差异也要限制;
给划分总量设定最大值不超过N0.6,N即为序列样本数,公式为a×b≤N0.6;
给划分差异设定最大值不超过15,即公式满足|a-b|≤15;
给出初始化的划分k为(10,10)。
5.根据权利要求4所述数据容量的可视化方法,其特征在于:
基于某一划分度K=(a,b)下,计算该平面划分下样本序列点能得到的最大互信息系数值;
互信息系数为两个随机变量的联合分布和边缘分布乘积之间的KL散度,公式为MI(X,Y)=KL[P(X=k∧Y=k),P(X=k)P(Y=k)],几何中可以解为样本序列点在已知划分平面中的分布概率与样本序列在各自维度分布概率乘积之差;
在信息论中的关键概念“熵”是衡量给定概率分布的不确定性的度量,而概率分布描述了与特定事件相关的一系列给定结果的概率,公式为H(X)=-ΣP(X=k)log2 P(X=k);
两个不同概率分布之间的熵时,由交叉熵公式:H(X,Y)=-ΣP(X=k)log2 P(Y=k)得到;
进而由KL散度公式:KLX,Y=H(X,Y)-H(X),计算出两个不同概率分布的交叉熵与单独熵的差异。
6.根据权利要求5所述数据容量的可视化方法,其特征在于:
所述计算过程后可以得到数据值大于等于0的互信息系数,用以反映样本中两个维度变量的联合分布与边缘分布乘积之间的散度,散度越大,两个变量之间相关的可能性就越大;两个变量的互信息定义了散度的度量方式;
将所得互信息值通过除以在特定划分组合上取得的理论最大值来完成,即除以log2[min(a,b)]的方式归一化,则得到该划分下归一化MI;
每次计算均可得到一个划分数值下的最大互信息数Ii;
对于所述过程中所涉及到的划分度K=(a,b),其划分总量满足未超过N0.6;
每次未满足判断条件时,均通过调整划分方式穷举划分方式,计算最大互信息数,直到满足预设的终止边界时,即已将所有限定条件下划分情况的归一化MI数值枚举计算完毕;
进行统计得到归一化MI数值中最大值,即为最大信息系数;
由于所述系数为样本数据在范围内枚举所得归一化后最大联合分布与边缘分布乘积的信息散度,可以体现其关联意义;同时所述系数满足范围区间[0,1]。
7.根据权利要求6所述数据容量的可视化方法,其特征在于:
以系统为中心,连接出应用领域{A}、系统领域{B}、存储领域{C}、数据库领域{D}四个部分,每个领域部分基于其指标的特点再次连接至参与相关系数计算的指标;
系统领域下根据服务器类型划分为DB服务器和APP服务器,则该领域指标以服务器类型再细维度划分。
由于相关系数的大小不同,得到更多有用的信息以供分析,则在关联关系图中可以进行相关系数数值的筛选,将大于0.4系数的关系设定为好,小于0.4系数的关系设定为差,进而通过筛选得到重要的关联关系。
8.根据权利要求7所述数据容量的可视化方法,其特征在于:
容量画像的构建步骤如下:
所有指标数据及其相关性数值进入画像特征配置器,经由预设置的指标风险评估方法计算每个指标的风险指数;
首先枚举所有进行过关联关系计算的系统,选择未构建画像的系统,本例中为CCS-B,枚举该系统下所有未被过滤的指标(U1,U2,…,UN),过滤的方法基于所有指标对应连接到的相关系数均小于0.4,则剩余指标均为存在相关系数0.4以上的,将其称为有分析价值指标;对于其中的某一个指标依据风险评估方法进行计算该指标风险指数;
经过枚举操作后,可将所有未过滤指标的风险指数计算得出,得到(R1,R2,…,RN),基于每个系统下的指标风险指数,通过平均计算即可得到该系统维度的风险指数。
9.根据权利要求1-8任意一项所述数据容量的可视化方法的系统,其特征在于包括:
数据中心:数据的存储中心,通过各种方式进行采集的时序数据,依据采集方式的不同分为不同所属的指标,即数据中心中存储以指标为分类单位的时序数据;
指标划分器:依据指标的不同所属,将指标进行领域的划分;
主要划分为应用领域、资源领域、数据库领域、存储领域;
相关性计算装置:完成指标准备的同时,以最大信息系数的方式计算两两指标之间的相关系数;
画像特征配置器:依据风险评估方法为所有统计范围内的指标计算相应的风险指数,依据指标的风险指数统计出对应领域和系统的风险指数,进而为容量画像提供数据基础;
在数据中心,对CCS-B系统的大量指标进行监听抽取和管理,在完成抽取后将所有指标以系统为单位整体传递给指标划分器;
在指标划分器中,所有CCS-B系统下的指标首先依据领域进行划分,主要划分为应用领域{A}、系统领域{B}、存储领域{C}、数据库领域{D}四个部分;
指标划分器将指标划分至各个领域之后,对每个指标进行精准定位,即将每个指标的唯一标记(领域、系统、标识、维度)进行记录,并为每个指标的时序数据进行日频率的加工,最终保证每个指标是由领域、系统、标识、维度进行定位的一段时间内的日频率时序数据序列{d1,…,dn};
数据的加工来源自数据中心的监控及采集,完成以系统为最大划分的指标加工后,将每个指标的同时间段内的日频率时序数据传入相关性计算装置;
在相关性计算装置中,任意指标在时间段内的每日均有一个数据值,每个数据值的合集构成一个指标U的时序数据序列{d1,…,dn},其次每日日期的序列为{t1,…,tn};
依据流程描述,首先枚举所有系统{A1,A2,…,AN},依次进行操作;
系统为客服交易系统(CCS-B),枚举该系统下应用领域指标(U1,U2,…,UN);
选取系统CCS-B下应用领域某一指标,假设该指标为日交易量(RJYL),与该系统下所有非应用领域指标依次或依据需求有选择的做相关性计算;
在全部或完成指定的重要指标间相关性计算后,可以通过图像的方式展示一个系统下领域内指标间的相关联程度。
10.一种应用权利要求1-8任意一项所述数据容量的可视化方法计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1所述的数据容量的可视化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210071469.9A CN114491188B (zh) | 2022-01-21 | 2022-01-21 | 数据容量的可视化方法、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210071469.9A CN114491188B (zh) | 2022-01-21 | 2022-01-21 | 数据容量的可视化方法、系统及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114491188A true CN114491188A (zh) | 2022-05-13 |
CN114491188B CN114491188B (zh) | 2023-10-17 |
Family
ID=81473593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210071469.9A Active CN114491188B (zh) | 2022-01-21 | 2022-01-21 | 数据容量的可视化方法、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114491188B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015034522A1 (en) * | 2013-09-06 | 2015-03-12 | Cristoforo Albert Jerry | System and method for interactive visual analytics of multi-dimensional temporal data |
CN108319606A (zh) * | 2017-01-16 | 2018-07-24 | 北大方正集团有限公司 | 专业数据库的构建方法和装置 |
CN112328254A (zh) * | 2020-10-22 | 2021-02-05 | 武汉达梦数据库有限公司 | 一种数据同步软件的性能优化方法与装置 |
-
2022
- 2022-01-21 CN CN202210071469.9A patent/CN114491188B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015034522A1 (en) * | 2013-09-06 | 2015-03-12 | Cristoforo Albert Jerry | System and method for interactive visual analytics of multi-dimensional temporal data |
CN108319606A (zh) * | 2017-01-16 | 2018-07-24 | 北大方正集团有限公司 | 专业数据库的构建方法和装置 |
CN112328254A (zh) * | 2020-10-22 | 2021-02-05 | 武汉达梦数据库有限公司 | 一种数据同步软件的性能优化方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114491188B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang | Data preprocessing | |
CN109977132B (zh) | 一种基于无监督聚类模式的学生异常行为模式分析方法 | |
Kočišová et al. | Discriminant analysis as a tool for forecasting company's financial health | |
CN111160404B (zh) | 配电网线损标杆合理值的分析方法及装置 | |
AU2019100968A4 (en) | A Credit Reporting Evaluation System Based on Mixed Machine Learning | |
CN104036360A (zh) | 一种基于磁卡考勤行为的用户数据处理系统及处理方法 | |
CN109947815B (zh) | 一种基于离群点算法的窃电辨识方法 | |
Villoria et al. | Gaussian quadratures vs. Monte Carlo experiments for systematic sensitivity analysis of computable general equilibrium model results | |
CN110968676A (zh) | 基于lda模型与lstm网络的文本数据语义时空模式探索方法 | |
CN105447117A (zh) | 一种用户聚类的方法和装置 | |
CN105303194A (zh) | 一种电网指标体系建立方法、装置以及计算设备 | |
CN112465397A (zh) | 一种审计数据的分析方法和装置 | |
CN114491188A (zh) | 数据容量的可视化方法、系统及计算机可读存储介质 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN113807587B (zh) | 一种基于多梯核深度神经网络模型积分预警方法以及系统 | |
WO2018165530A1 (en) | Method of constructing a reusable low-dimensionality map of high-dimensionality data | |
CN108986554B (zh) | 一种基于模糊综合评判的空域扇区拥挤程度动态识别方法 | |
CN113705920A (zh) | 火电厂用水数据样本集的生成方法和终端设备 | |
CN110263069B (zh) | 新能源使用行为的时序特征隐含因素抽取和刻画方法及系统 | |
CN111027599A (zh) | 基于随机抽样的聚类可视化方法及装置 | |
CN112488236B (zh) | 一种集成的无监督学生行为聚类方法 | |
He et al. | An effective clustering scheme for high-dimensional data | |
CN111626586B (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
Qiu | Effect of Improved Association Algorithm on Mining and Recognition of Audit Data | |
CN113723835B (zh) | 火电厂用水评估方法和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 213611 Chuangyan port 3a1501, science and Education City, No. 18, Changwu Middle Road, Wujin District, Changzhou City, Jiangsu Province Applicant after: Jiangsu Mingyue Software Technology Co.,Ltd. Address before: 213611 Chuangyan port 3a1501, science and Education City, No. 18, Changwu Middle Road, Wujin District, Changzhou City, Jiangsu Province Applicant before: Jiangsu Mingyue Software Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |