CN115858894B - 一种可视化的大数据分析方法 - Google Patents
一种可视化的大数据分析方法 Download PDFInfo
- Publication number
- CN115858894B CN115858894B CN202310107344.1A CN202310107344A CN115858894B CN 115858894 B CN115858894 B CN 115858894B CN 202310107344 A CN202310107344 A CN 202310107344A CN 115858894 B CN115858894 B CN 115858894B
- Authority
- CN
- China
- Prior art keywords
- data
- segmented
- degree
- abnormality
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000000007 visual effect Effects 0.000 title claims abstract description 24
- 238000007405 data analysis Methods 0.000 title claims abstract description 23
- 230000005856 abnormality Effects 0.000 claims abstract description 140
- 230000002159 abnormal effect Effects 0.000 claims abstract description 78
- 230000011218 segmentation Effects 0.000 claims abstract description 53
- 238000004458 analytical method Methods 0.000 claims abstract description 45
- 230000000694 effects Effects 0.000 claims description 46
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000001174 ascending effect Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 abstract description 6
- 238000013079 data visualisation Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种可视化的大数据分析方法。该方法包括:获取待分析的数据集,对数据集进行数据分段得到至少两个分段数据;获取每个分段数据的四分位距,并将分段数据划分为四个数据分组;根据每个数据分组中的数据分布特征得到分段数据中每个数据的局部异常程度;进而基于分段数据的四分位距、分段数据中每个数据的局部异常程度以及每个数据对应的时间节点获取对应数据的异常程度;通过不同长度的分段数据中的异常程度得到对应数据的最终异常程度;根据每个数据的最终异常程度得到数据集中的异常数据,对数据集中的异常数据和正常数据分别进行可视化分析。本发明有效提高了异常数据识别的准确性。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种可视化的大数据分析方法。
背景技术
大数据可视化就是通过对大数据进行获取、清洗、分析,将所示分析结果通过图形、图标等形式展示出来的一个过程。大数据可视化的目的在于增强大量复杂数据的呈现效果,方便用户以更加直观的方式观察数据,进而发现数据中的隐藏信息,具体涉及两个步骤:数据分析和分析结果的可视化转化,数据分析的目的在于大数据集数据治理或信息管理,以确保获取干净的数据,即分析影响可视化结果的异常数据,使得可视化转换呈现效果更佳;因此在大数据可视化中,数据集的异常分析是必不可少的步骤。
对于数据异常分析,主要针对数据相对于周围数据的差异,现有一般利用数据四分位距判断异常数据,但是对于数据量庞大的大数据需要分段处理,分段数据的长度直接影响每一个分段数据的分布特征,从而影响在分段数据中数据异常分析的准确性;现有往往是直接设置分段长度,无法保证分段数据能够满足数据异常分析的需求,同时,多个连续分布的异常数据在同一分段数据中时可能会造成分段数据的分布异常,影响对应分段数据的异常分析,使得最终识别的异常数据不够准确,异常识别效果较差。
发明内容
为了解决现有对异常数据识别不准确的技术问题,本发明的目的在于提供一种可视化的大数据分析方法,所采用的技术方案具体如下:
本发明一个实施例提供了一种可视化的大数据分析方法,该方法包括以下步骤:
获取待分析的数据集,对所述数据集进行数据分段得到至少两个分段数据;
获取每个所述分段数据的四分位距,并将所述分段数据划分为四个数据分组;根据每个所述数据分组中的数据分布特征得到所述分段数据中每个数据的局部异常程度;
基于所述分段数据的四分位距、所述分段数据中每个数据的局部异常程度以及所述分段数据中每个数据对应的时间节点获取对应数据的异常程度;
获取不同长度的分段数据,通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度;
根据每个数据的最终异常程度得到所述数据集中的异常数据,对数据集中的所述异常数据和正常数据分别进行可视化分析。
优选的,所述对所述数据集进行数据分段得到至少两个分段数据的步骤,包括:
设定预设长度将所述数据集的数据均分为至少两个初始分段数据;基于所述预设长度以及所述初始分段数据中的数据特征获取对应的分段效果;
在预设范围内改变所述预设长度的大小得到不同的初始分段数据,以及不同的初始分段数据对应的分段效果;以所述分段效果最大时的长度作为最佳长度,根据所述最佳长度将所述数据集均分为至少两个分段数据。
优选的,所述基于所述预设长度以及所述初始分段数据中的数据特征获取对应的分段效果的步骤,包括:
对每个所述初始分段数据中的数据按照从小到大的顺序排列,计算排列后的所述初始分段数据中每相邻两个数据的差值绝对值,以得到所述初始分段数据中所有相邻两个数据的差值绝对值的平均值,记为第一平均值;
获取所述数据集中所有所述初始分段数据的第一平均值的平均值记为第二平均值,以及所有所述初始分段数据的第一平均值的方差;
获取所有所述初始分段数据的第一平均值与第二平均值的差值绝对值的平均值,以平均值与所述方差的乘积作为分母,所述预设长度作为分子得到比值结果,所述比值结果为所述初始分段数据的分段效果。
优选的,所述获取每个所述分段数据的四分位距,并将所述分段数据划分为四个数据分组的步骤,包括:
将所述分段数据中的数据按照升序进行排列,获取排列后的所述分段数据中的中间值,基于所述中间值将所述分段数据划分为两个数据段;分别获取两个数据段的中间值将对应的数据段划分为两个数据分组,得到所述分段数据的四个数据分组;
利用四分位距算法,基于不同数据分组连接处的数据得到所述分段数据的四分位距。
优选的,所述根据每个所述数据分组中的数据分布特征得到所述分段数据中每个数据的局部异常程度的步骤,包括:
获取每个所述数据分组中所有相邻两个数据之间的差值绝对值的平均值,记为第一差异均值;对所述分段数据中的数据按照升序进行排列,获取排列后的所述分段数据中所有相邻两个数据之间的差值绝对值的平均值,记为第二差异均值;
对每个所述数据分组中的数据进行直线拟合得到对应的直线,获取所述直线与水平方向的夹角,根据数据所在所述数据分组中的第一差异均值、所述分段数据的第二差异均值以及每条所述直线与水平方向的夹角获取对应数据的局部异常程度。
优选的,所述局部异常程度的获取步骤,包括:
其中,表示目标数据的局部异常程度;表示目标数据所在数据分组的第一差异均值;表示目标数据所在分段数据的第二差异均值;表示目标数据所在数据分组对应直线与水平方向的夹角;表示目标数据所在分段数据中除了目标数据所在数据分组之外的第个数据分组对应直线与水平方向的夹角;表示目标数据与其所在数据分组对应直线之间的最近距离;表示取绝对值。
优选的,所述基于所述分段数据的四分位距、所述分段数据中每个数据的局部异常程度以及所述分段数据中每个数据对应的时间节点获取对应数据的异常程度的步骤,包括:
获取所述目标数据与其所属分段数据中其他每个数据的时间节点之间的差值绝对值,记为第二差异;
计算所述目标数据与所述分段数据的四分位距之间的差值绝对值作为分子,以所述分段数据的极差作为分母得到比值,记为第三差异;
根据所述第一差异、所述第二差异、所述第三差异以及所述目标数据的局部异常程度得到所述目标数据的异常程度。
优选的,所述目标数据的异常程度的计算公式为:
其中,表示目标数据对应的异常程度;表示目标数据的取值;表示分段数据的四分位距;表示分段数据中的极差;表示第三差异;表示第一差异;表示目标数据在分段数据中的时间节点;表示分段数据中除了目标数据之外第个数据的时间节点;表示第二差异;表示目标数据所在分段数据的长度;表示目标数据对应的局部异常程度。
优选的,所述通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度的步骤,包括:
其中,表示目标数据的最终异常程度;表示不同分段长度的数量;表示第个分段长度对应的分段效果;表示目标数据在第个分段长度的分段数据中的异常程度;表示目标数据在第个分段长度对应的分段数据中的异常程度,且第个分段长度是除了第个分段长度之外的分段长度;表示绝对值计算。
优选的,所述根据每个数据的最终异常程度得到所述数据集中的异常数据的步骤,包括:
将所述数据集中所有数据的最终异常程度进行升序排列,得到由最终异常程度构建的异常程度序列,获取所述异常程度序列的四分位距,以预设倍数的四分位距作为异常阈值;
当数据的所述最终异常程度大于所述异常阈值时,对应数据为异常数据。
本发明具有如下有益效果:为了对大数据的可视化分析信息更加明确直观,对数据集中的异常数据进行识别,本发明实施例首先将数据集划分为多个分段数据进行分析,通过分段数据对其中数据的异常情况进行分析,细节信息考虑的更加全面;结合现有的四分位距算法对每个分段数据进行分析,得到每个分段数据的四分位距,并将分段数据划分为四个数据分组,通过每个数据分组中的数据特征得到每个数据的局部异常程度,融入不同数据分组的数据分布信息,得到的数据的局部异常程度更加可靠,基于每个数据的局部异常程度作为每个数据的异常程度分析的基础,保证了数据的异常程度分析的准确度;在对数据的异常程度分析时,综合考虑了数据的时间节点、数据的局部异常程度以及数据所在分段数据的四分位距,避免了时间节点跨度较大的数据对分段数据的分布产生较大的影响,保证了数据的异常程度获取的准确性;最终,为了避免连续多个异常数据存在导致分段数据中数据异常不明显情况的影响,通过不同长度下分段数据中数据的异常程度得到每个数据的最终异常程度,将最终异常程度作为最终异常数据获取的基准,对数据集中异常数据的识别更加准确,进而对大数据进行可视化分析提取的数据信息更加全面准确,分析效果更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种可视化的大数据分析方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种可视化的大数据分析方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种可视化的大数据分析方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种可视化的大数据分析方法流程图,该方法包括以下步骤:
步骤S100,获取待分析的数据集,对数据集进行数据分段得到至少两个分段数据。
大数据分析中,对于数据的可视化分析以及分析成果可视化转换主要针对于大数据集,因此在进行数据分析之前,首先需要获取数据集,对于不同场景数据集的获取方法不尽相同,例如对于电商平台用户浏览以及点击数据,需要在购物平台中暂时存储用户数据,然后按照一定的周期将存储在购物平台的用户数据传输到数据分析平台进行后续的分析处理。
传统在利用四分位距进行数据异常分析时,主要是在分段数据内根据数据的分布判断数据的异常程度,但是原始数据在实际进行分段时,不同分段长度会影响分段数据内部分布特征,进而会影响到数据的异常分析,分析效果较差。因此在获取到需要分析的数据集之后,为了保证数据质量,提高分析成果可视化的展现结果,对数据庞大的数据集进行数据分段处理。
一般数据集在生成过程中存在时序关系,时间序列上越相近的数据,其分布关系越紧密,因此数据的异常主要体现在时间序列相近数据分布上,为了更准确的对数据异常进行分析,本发明实施例中将数据集按照数据的时间顺序进行分段处理。数据集分段的主要目的是获取分布相关性强的分段数据,在分段数据中进行数据的异常分析,分段数据的长度越长,数据在时间序列上的相关性越小,越不利于分段数据的异常分析;但是当分段数据的长度过短时,分段数据中的数据分布特征过于片面,不足以体现正常数据的分布关系,也不利于分段数据的异常分析,因此需要根据数据的实际分布特征进行自适应的数据分段。
设定预设长度将数据集的数据均分为至少两个初始分段数据;基于预设长度以及初始分段数据中的数据特征获取对应的分段效果;在预设范围内改变预设长度的大小得到不同的初始分段数据,以及不同的初始分段数据对应的分段效果;以分段效果最大时的长度作为最佳长度,根据最佳长度将数据集均分为至少两个分段数据。
具体的,影响数据分段效果的主要因素为分段数据中数据的分布关系,本发明实施例通过设定预设长度对数据集进行划分,也即是按照时间顺序将数据集中前预设长度个数据划分为同一个分段数据,通过判断此时的分段效果决定此时的分段数据是否合适,作为一个优选示例,本实施例中设定预设长度k=24,也即是以预设长度24作为初始长度得到一个初始分段数据,该初始分段数据中包括了数据集中前24个数据,分析此时该初始分段数据的分段效果,对每个初始分段数据中的数据按照从小到大的顺序排列,计算排列后的初始分段数据中每相邻两个数据的差值绝对值,以得到初始分段数据中所有相邻两个数据的差值绝对值的平均值,记为第一平均值;获取数据集中所有初始分段数据的第一平均值的平均值记为第二平均值,以及所有初始分段数据的第一平均值的方差;获取所有初始分段数据的第一平均值与第二平均值的差值绝对值的平均值,以平均值与方差的乘积作为分母,预设长度作为分子得到比值结果,比值结果为初始分段数据的分段效果。分段效果的计算为:
其中,表示长度为时的初始分段数据的分段效果,的初始值为24;表示此时初始分段数据的长度;表示在长度为时,数据集被划分为初始分段数据的数量;表示在长度为时,数据集的第个初始分段数据中每相邻两个数据之间差值绝对值的平均值,记为第一平均值,并且第一平均值的计算时,初始分段数据中的所有数据是按照从小到大的顺序排列之后进行的;表示长度为时,数据集中所有初始分段数据中每相邻两个数据之间差值绝对值的平均值的均值,也即是所有初始分段数据对应的第一平均值的平均值,记为第二平均值,用于表征数据集的整体平稳性;表示所有初始分段数据对应的第一平均值的方差。
需要说明的是,在进行分段效果的计算时,数据集被划分的每个分段数据的长度是相同的,也即是此时是将数据集均分为长度为的初始分段数据进行分析,对于最后一个初始分段数据的长度不足时,将剩余的数据也作为一个初始分段数据;因此第个初始分段数据的第一平均值,反映了第个初始分段数据中数据的平稳性,反映了第个初始分段数据中数据的平稳性与数据集整体初始分段数据的平稳性的差值绝对值,该项取值越大,说明长度为时进行初始分段数据的划分时数据平稳性与整体分段数据的平稳性差异越大,则此时的分段效果越差;由此可推断出表示了数据集对应的所有初始分段数据与整体初始分段数据之间差异的平均值,该项取值越大表明此时以长度进行分段的分段效果越差;所有初始分段数据对应的第一平均值的方差反映了每个初始分段数据对应第一平均值的波动程度,方差取值越大,说明初始分段数据对应的第一平均值的波动越大,数据分布关系越不一致,数据的分段效果越差;初始分段数据的长度越大,则每个初始分段数据的长度越长,数据集对应的初始分段数据的数量越少,后续异常分析的计算量越小,对应的分段效果越好。
对预设长度的大小进行修改可得到不同长度的分段数据,并由此获取不同分段长度时对应分段数据的分段效果,为了避免分段数据的长度过长,本实施例中设定分段长度k的预设范围的最大取值为100,且为了便于进行四分位距的计算,k的取值始终为4的倍数,也即是k的取值为24,28,32,…,96,100;k取不同值时会对应不同长度的分段数据,且分段数据中的实际数据不同,则k取不同值时,对应的分段数据的分段效果不同,本发明实施例中采用现有的模拟退火算法,通过改变分段长度k的取值来得到分段效果的最大值,以分段效果最大值时对应的分段长度作为该段分段数据的最佳分段长度,通过最佳分段长度将数据集均分为多个分段数据,假设获取的最佳分段长度为32,则将数据集划分为多个长度为32的分段数据,对于最后一个分段数据而言,其长度可能小于32。通过考虑不同分段数据中数据分布的稳定性,避免了分段数据之间的整体差异,确保了不同分段数据之间异常分析的一致性,便于获取更加准确的数据异常程度。
步骤S200,获取每个分段数据的四分位距,并将分段数据划分为四个数据分组;根据每个数据分组中的数据分布特征得到分段数据中每个数据的局部异常程度。
由步骤S100中通过分析不同长度数据的分段效果得到效果最佳时的多个分段数据,每个分段数据的分段长度均为最佳分段长度,且该分段长度的取值为4的倍数,然后对每个分段数据进行分组并进行数据异常分析。将分段数据中的数据按照升序进行排列,获取排列后的分段数据中的中间值,基于中间值将分段数据划分为两个数据段;分别获取两个数据段的中间值将对应的数据段划分为两个数据分组,得到分段数据的四个数据分组;将第一个数据分组与第二个数据分组连接处的两个数据均值记为第一分位数,将第二个数据分组与第三个数据分组连接处的两个数据均值记为第二分位数,将第三个数据分组与第四个数据分组连接处的两个数据均值记为第三分位数,第三分位数与第一分位数的差值为分段数据的四分位距。
具体的,现阶段常利用四分位距(IQR)进行计算,该方法的基本思想为:将分段数据中的数据按照从小到大的顺序依次排列,然后在当前的分段数据中找到中间值将数据划分为两组,进一步的分别在两组数据中再次寻找中间值,利用每组数据中的中间值将分组数据再次进行分组,也即是将一个分段数据划分为四个数据分组,每组数据之间的连接处对应两个数据,将第一个数据分组和第二个数据分组连接处的两个数据均值记为第一分位数,将第二个数据分组与第三个数据分组连接处的两个数据均值记为第二分位数,将第三个数据分组与第四个数据分组连接处的两个数据均值记为第三分位数,由此可得到该分段数据的四分位距,基于分段数据的四分位距对其中的数据进行异常分析。
一般在利用四分位距进行数据异常分析时,在输入分段数据后,根据现有的四分位距计算方法可以直接输出四分位距IQR,结合分段数据的四分位距IQR对数据进行异常分析,但是实际分段数据内部数据分布关系也同样影响到数据异常的分布,因此在对分段数据中每个数据进行异常分析时,需要考虑分段数据内部数据之间的分布关系。获取每个数据分组中所有相邻两个数据之间的差值绝对值的平均值,记为第一差异均值;对分段数据中的数据按照升序进行排列,获取排列后的分段数据中所有相邻两个数据之间的差值绝对值的平均值,记为第二差异均值;对每个数据分组中的数据进行直线拟合得到对应的直线,获取直线与水平方向的夹角,根据数据所在数据分组中的第一差异均值、分段数据的第二差异均值以及每条直线与水平方向的夹角获取对应数据的局部异常程度。
具体的,由步骤S100中将数据集划分为多个分段数据,将任意一个分段数据中的任一数据作为目标数据进行分析,在分析该目标数据的异常程度时,结合该目标数据所在数据分组中数据情况进行分析,也即是对目标数据的局部异常程度进行分析,局部异常程度的获取方法具体为:
首先,目标数据所在分段数据通过传统的四分位距算法划分为四个数据分组,计算目标数据所在数据分组中每相邻两个数据之间的差值绝对值,进而获取目标数据所在数据分组中所有相邻两个数据之间差值绝对值的均值,记为第一差异均值;相应的,获取目标数据所在分段数据中所有相邻两个数据之间的差值绝对值,进而计算得到目标数据所在分段数据中所有相邻两个数据之间差值绝对值的均值,记为第二差异均值。
然后,对目标数据所在的数据分组进行直线拟合,将目标数据所在的数据分组中的数据拟合为一条直线,直线拟合时横坐标为不同的数据,纵坐标为数据的取值;获取目标数据所在的数据分组对应直线与水平方向的夹角,记为目标数据所在的数据分组的目标夹角;相应的,获取目标数据所在分段数据中其他三个数据分组对应的夹角,也即是将其他每个数据分组中的数据进行直线拟合得到对应的直线,将直线与水平方向之间的夹角作为对应数据分组的夹角。需要说明的是,此处对分段数据以及数据分组进行分析时,其中的数据顺序均是进行升序排列后的数据。
最后,基于目标数据所在数据分组的第一差异均值、目标数据所在分段数据的第二差异均值、目标数据所在数据分组的目标夹角以及目标数据所在分段数据中其他数据分组的夹角得到目标数据的局部异常程度,局部异常程度的计算公式为:
其中,表示分段数据中第个数据的局部异常程度,也即是目标数据的局部异常程度;表示目标数据所在数据分组的第一差异均值;表示目标数据所在分段数据的第二差异均值;表示目标数据所在数据分组对应直线与水平方向的夹角,也即是目标夹角;表示目标数据所在分段数据中除了目标数据所在数据分组之外的第个数据分组对应直线与水平方向的夹角;表示目标数据与其所在数据分组的拟合直线之间的最近距离;表示取绝对值。
为目标数据所在数据分组的第一差异均值与目标数据所在分段数据的第二差异均值之间的差值绝对值,该项取值越大,说明目标数据所在的数据分组数据分布与整个分段数据的数据分布越不一致,则目标数据所在数据分组的异常可能性越大,则目标数据对应的局部异常程度更大;表示目标数据所在数据分组的目标夹角与其他数据分组的夹角之间的差值绝对值,由于夹角反映了对应数据分组中数据变化趋势,因此该项取值越大,说明目标数据所在数据分组的数据变化趋势与其他数据分组之间的数据趋势的差异越大,则目标数据所在数据分组出现异常的可能性越大,对应目标数据的局部异常程度越大;同时,以目标数据与其所在数据分组的拟合直线之间的最近距离作为调整系数,取值越小,说明目标数据与其所在数据分组的拟合直线越接近,拟合直线的拟合程度越好,则该拟合直线所反映的数据分组中的数据分布信息越可靠,因此对应的调整系数的取值越大,最终基于数据分组中的平均趋势差异与数据分组内部数据的差异变化结合分析,得到目标数据对应的局部异常程度。
基于获取目标数据的局部异常程度相同的方法,获取分段数据中每个数据对应的局部异常程度,综合考虑了目标数据所在的分段数据中的分组特征,通过对数据分组中数据分布趋势的相对差异反映了数据的局部异常程度,以局部异常程度作为后续数据的异常程度的参考,使得对数据的分析更加准确。
步骤S300,基于分段数据的四分位距、分段数据中每个数据的局部异常程度以及分段数据中每个数据对应的时间节点获取对应数据的异常程度。
由步骤S200中得到每个数据对应的局部异常程度,基于数据对应的局部异常程度以及数据所属分段数据的四分位距结合分析,以得到每个数据的异常程度;仍然以分段数据中第个数据作为目标数据为例,首先将目标数据所在分段数据中所有的数据进行排序,本发明实施例中排序的规则按照升序的顺序将分段数据中所有的数据进行重新排列,而分段数据内部数据的分布关系主要体现在分段数据的不同数据分组具有稳定性,因此基于分段数据内部的分布关系获取目标数据的异常程度,获取目标数据在所属分段数据中的时间节点与分段数据的中心位置对应时间节点之间的差异,记为第一差异;获取目标数据与其所属分段数据中其他每个数据的时间节点之间的差值绝对值,记为第二差异;计算目标数据与分段数据的四分位距之间的差值绝对值作为分子,以分段数据的极差作为分母得到比值,记为第三差异;根据第一差异、第二差异、第三差异以及目标数据的局部异常程度得到目标数据的异常程度。异常程度的具体计算方法为:
其中,表示目标数据对应的异常程度;表示分段数据中第个数据取值,也即是目标数据的取值;表示分段数据的四分位距;表示分段数据中的极差,也即是分段数据中数据的最大值与最小值的差值;表示第三差异;表示目标数据的时间节点与分段数据排序之前的中心时间节点之间的差值,也即是目标数据在分段数据排序之前所处位置的时间节点与分段数据的中心位置数据对应时间节点之间的差异,记为第一差异;表示目标数据在分段数据中的时间节点;表示分段数据中除了目标数据之外第个数据的时间节点;表示第二差异;表示目标数据所在分段数据的分段长度;表示目标数据对应的局部异常程度。
由于目标数据所属分段数据的四分位距反映了该分段数据中各数据的分散情况,该项取值越小可反映出分段数据中数据之间的差异越小,通过反映目标数据与当前分段数据之间的差异,极差作为基准对该项进行归一化处理,分子的取值越大,说明目标数据越偏离其所在分段数据,则目标数据对应的异常程度越大;第一差异反映了目标数据所在分段数据中排序前时间节点与中心时间节点的差异,该项取值越大,说明目标数据对应的时间节点与中心时间节点之间偏离程度越大,则目标数据为异常数据的可能性越大,对应的异常程度越大;同理,目标数据对应的局部异常数据的取值越大,目标数据为异常数据的可能性越大,对应目标数据的异常程度越大;第二差异反映了目标数据所对应的时间节点与其他第个数据对应的时间节点的差异,该项取值越大,说明目标数据与其他数据之间时间节点的跨度越大,表示目标数据与其他每个数据之间时间节点差异的平均值,差异的平均值越大,说明该目标数据在时间序列上越独立,其为异常数据的可能性越大,对应的目标数据的异常程度越大。
基于获取目标数据的异常程度相同的方法,获取每个分段数据内每个数据的异常程度;在异常程度的计算时,通过结合分段数据的四分位距、每个数据的局部异常程度以及数据在时间序列上的特征综合分析,避免了时间节点跨度较大的数据对分段数据的分布产生较大的影响,保证了数据的异常程度获取的准确性。
步骤S400,获取不同长度的分段数据,通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度。
由步骤S300中获取了每个数据在最佳长度的分段数据中的异常程度,但是在实际数据集中可能会存在连续多个异常的数据,在异常的数据处于同一个分段数据中时,可能会导致分段数据整体分布存在异常,此时会导致数据的异常不够明显,因此得到的数据的异常程度的准确性较低;为了提高每个数据的异常程度判别的准确性,本发明实施例中通过不同长度的分段数据进行多次分析,获取每个数据的最终异常程度。
具体的,由步骤S100中得到不同长度下的分段数据以及分段数据对应的分段效果,本发明实施例中是以分段效果最好时的长度作为最佳长度,此时在对数据的最终异常程度进行分析时,获取不同长度下的分段效果并进行排序,选取分段效果排序前m个长度的分段数据进行分析,本实施例中设置m取值为5,在其他实施例中实施者可根据实际情况自行调整,也即是选取出分段效果较大的前5个长度对应的分段数据,且前5个长度的分段数据包括最佳长度的分段数据,基于不同长度的分段数据对其中每个数据的最终异常程度进行获取。
步骤S200和步骤S300中具体阐述了获取最佳长度的分段数据中每个数据的异常程度,则基于同样的获取数据的异常程度的方法,获取在其他几个长度的分段数据中每个数据的异常程度,则对于数据集中的一个数据而言,其对应了5个异常程度,且5个异常程度的取值可能全不相同,仍然以目标数据为例,根据目标数据对应的5个异常程度的取值获取该目标数据的最终异常程度,最终异常程度的计算为:
其中,表示目标数据的最终异常程度;表示不同分段长度的数量,也即是目标数据对应的异常程度的数量,本实施例中取值为5;表示第个分段长度对应的分段效果;表示目标数据在第个分段长度的分段数据中的异常程度;表示目标数据在第个分段长度对应的分段数据中的异常程度,且第个分段长度是除了第个分段长度之外的分段长度;表示绝对值计算。
表示两个分段长度对应的分段数据中目标数据对应的异常程度的差异,因此表示了第个分段长度与其他每个分段长度的分段数据中目标数据的异常程度的平均差异,该项取值越大,说明第个分段长度与其他每个分段长度的分段数据中目标数据对应的异常程度差异较大,也即是目标数据在不同分段长度中的异常程度的稳定性越差,则该目标数据在第个分段长度的分段数据中的可信度较低,因此以作为第个分段长度的分段数据中目标数据异常程度的权值,权值越大,说明目标数据在第个分段长度的分段数据中的异常程度的可信度越高;相应的,当第个分段长度下分段数据对应的分段效果越大,同样表示目标数据在第个分段长度的分段数据中的异常程度的可信度越高;因此表示目标数据在所有分段长度下的异常程度进行加权求和,对加权求和结果进行求平均得到目标数据的最终异常程度。
基于上述获取目标数据的最终异常程度相同的方法,获取数据集中每个数据对应的最终异常程度,最终异常程度越大,说明对应数据为异常数据的可能性越大。
步骤S500,根据每个数据的最终异常程度得到数据集中的异常数据,对数据集中的异常数据和正常数据分别进行可视化分析。
由步骤S400通过多个分段数据下的异常程度得到数据的最终异常程度,有效避免了同一分段数据中存在多个异常数据时异常程度的不明显情况,提高了数据的最终异常程度获取的准确性;然后通过设置异常阈值对异常数据进行判断,当数据的最终异常程度大于该异常阈值时,判定此时的数据为异常数据。将数据集中所有数据的最终异常程度进行升序排列,得到由最终异常程度构建的异常程度序列,获取异常程度序列的四分位距,以预设倍数的四分位距作为异常阈值;当数据的最终异常程度大于异常阈值时,对应数据为异常数据。
其中,本发明实施例中异常阈值的设定方法为:将数据集中每个数据的最终异常程度进行排序,排序是基于数据的最终异常程度按照从小到大的顺序进行排列,得到一个由最终异常程度构成的异常程度序列,对该异常程度序列中所有的元素进行四分位距的计算得到此时的四分位距记为,基于异常程度序列得到的四分位距设定异常阈值,异常阈值具体取值为,3为预设倍数,也即是当数据对应的最终异常程度大于该异常阈值时,判定该数据为异常数据。
在获取到数据集中的异常数据之后,将异常数据从数据集中进行分离,减少了可视化的视觉噪声,有效提高数据信息的辨识能力;在得到数据集中的正常数据和异常数据之后,分别将两种数据按照现有的数据可视化转换方法,转换为图表等具有数据可视化特征的表现形式,基于转换后的具有可视化特征的数据表现形式进行数据信息的挖掘。
综上所述,本发明实施例通过获取待分析的数据集,对数据集进行数据分段得到至少两个分段数据;获取每个分段数据的四分位距,并将分段数据划分为四个数据分组;根据每个数据分组中的数据分布特征得到分段数据中每个数据的局部异常程度;基于分段数据的四分位距、分段数据中每个数据的局部异常程度以及分段数据中每个数据对应的时间节点获取对应数据的异常程度;获取不同长度的分段数据,通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度;根据每个数据的最终异常程度得到数据集中的异常数据,对数据集中的异常数据和正常数据分别进行可视化分析。有效提高了异常数据判定的准确性,可视化分析的效果较好。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种可视化的大数据分析方法,其特征在于,该方法包括以下步骤:
获取待分析的数据集,对所述数据集进行数据分段得到至少两个分段数据;
获取每个所述分段数据的四分位距,并将所述分段数据划分为四个数据分组;根据每个所述数据分组中的数据分布特征得到所述分段数据中每个数据的局部异常程度;
基于所述分段数据的四分位距、所述分段数据中每个数据的局部异常程度以及所述分段数据中每个数据对应的时间节点获取对应数据的异常程度;
获取不同长度的分段数据,通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度;
根据每个数据的最终异常程度得到所述数据集中的异常数据,对数据集中的所述异常数据和正常数据分别进行可视化分析;
所述对所述数据集进行数据分段得到至少两个分段数据的步骤,包括:
设定预设长度将所述数据集的数据均分为至少两个初始分段数据;基于所述预设长度以及所述初始分段数据中的数据特征获取对应的分段效果;
在预设范围内改变所述预设长度的大小得到不同的初始分段数据,以及不同的初始分段数据对应的分段效果;以所述分段效果最大时的长度作为最佳长度,根据所述最佳长度将所述数据集均分为至少两个分段数据;
所述基于所述预设长度以及所述初始分段数据中的数据特征获取对应的分段效果的步骤,包括:
对每个所述初始分段数据中的数据按照从小到大的顺序排列,计算排列后的所述初始分段数据中每相邻两个数据的差值绝对值,以得到所述初始分段数据中所有相邻两个数据的差值绝对值的平均值,记为第一平均值;
获取所述数据集中所有所述初始分段数据的第一平均值的平均值记为第二平均值,以及所有所述初始分段数据的第一平均值的方差;
获取所有所述初始分段数据的第一平均值与第二平均值的差值绝对值的平均值,以平均值与所述方差的乘积作为分母,所述预设长度作为分子得到比值结果,所述比值结果为所述初始分段数据的分段效果。
2.根据权利要求1所述的一种可视化的大数据分析方法,其特征在于,所述获取每个所述分段数据的四分位距,并将所述分段数据划分为四个数据分组的步骤,包括:
将所述分段数据中的数据按照升序进行排列,获取排列后的所述分段数据中的中间值,基于所述中间值将所述分段数据划分为两个数据段;分别获取两个数据段的中间值将对应的数据段划分为两个数据分组,得到所述分段数据的四个数据分组;
利用四分位距算法,基于不同数据分组连接处的数据得到所述分段数据的四分位距。
3.根据权利要求1所述的一种可视化的大数据分析方法,其特征在于,所述根据每个所述数据分组中的数据分布特征得到所述分段数据中每个数据的局部异常程度的步骤,包括:
获取每个所述数据分组中所有相邻两个数据之间的差值绝对值的平均值,记为第一差异均值;对所述分段数据中的数据按照升序进行排列,获取排列后的所述分段数据中所有相邻两个数据之间的差值绝对值的平均值,记为第二差异均值;
对每个所述数据分组中的数据进行直线拟合得到对应的直线,获取所述直线与水平方向的夹角,根据数据所在所述数据分组中的第一差异均值、所述分段数据的第二差异均值以及每条所述直线与水平方向的夹角获取对应数据的局部异常程度。
5.根据权利要求1所述的一种可视化的大数据分析方法,其特征在于,所述基于所述分段数据的四分位距、所述分段数据中每个数据的局部异常程度以及所述分段数据中每个数据对应的时间节点获取对应数据的异常程度的步骤,包括:
获取所述目标数据与其所属分段数据中其他每个数据的时间节点之间的差值绝对值,记为第二差异;
计算所述目标数据与所述分段数据的四分位距之间的差值绝对值作为分子,以所述分段数据的极差作为分母得到比值,记为第三差异;
根据所述第一差异、所述第二差异、所述第三差异以及所述目标数据的局部异常程度得到所述目标数据的异常程度。
8.根据权利要求1所述的一种可视化的大数据分析方法,其特征在于,所述根据每个数据的最终异常程度得到所述数据集中的异常数据的步骤,包括:
将所述数据集中所有数据的最终异常程度进行升序排列,得到由最终异常程度构建的异常程度序列,获取所述异常程度序列的四分位距,以预设倍数的四分位距作为异常阈值;
当数据的所述最终异常程度大于所述异常阈值时,对应数据为异常数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310107344.1A CN115858894B (zh) | 2023-02-14 | 2023-02-14 | 一种可视化的大数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310107344.1A CN115858894B (zh) | 2023-02-14 | 2023-02-14 | 一种可视化的大数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115858894A CN115858894A (zh) | 2023-03-28 |
CN115858894B true CN115858894B (zh) | 2023-05-16 |
Family
ID=85657978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310107344.1A Active CN115858894B (zh) | 2023-02-14 | 2023-02-14 | 一种可视化的大数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115858894B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116183058B (zh) * | 2023-04-21 | 2023-07-07 | 实德电气集团有限公司 | 一种智能电容器的监测方法 |
CN117314020B (zh) * | 2023-11-28 | 2024-02-27 | 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) | 一种浮游生物的湿地碳汇数据监测系统 |
CN117313020B (zh) * | 2023-11-30 | 2024-01-26 | 山东海纳智能装备科技股份有限公司 | 一种承载式张力传感器数据处理方法 |
CN117476136B (zh) * | 2023-12-28 | 2024-03-15 | 山东松盛新材料有限公司 | 一种高纯羧酸酯合成工艺参数优化方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021052031A1 (zh) * | 2019-09-20 | 2021-03-25 | 苏宁云计算有限公司 | 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质 |
CN115359807A (zh) * | 2022-10-21 | 2022-11-18 | 金叶仪器(山东)有限公司 | 一种用于城市噪声污染的噪声在线监测系统 |
WO2023284132A1 (zh) * | 2021-07-15 | 2023-01-19 | 苏州浪潮智能科技有限公司 | 一种云平台日志的分析方法、系统、设备及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL147502A0 (en) * | 2002-01-07 | 2002-08-14 | Widemed Ltd | Self-adaptive system, for the analysis of biomedical signals of a patient |
US7917338B2 (en) * | 2007-01-08 | 2011-03-29 | International Business Machines Corporation | Determining a window size for outlier detection |
CN106368813B (zh) * | 2016-08-30 | 2018-09-25 | 北京协同创新智能电网技术有限公司 | 一种基于多元时间序列的异常报警数据检测方法 |
US11157346B2 (en) * | 2018-09-26 | 2021-10-26 | Palo Alto Rsearch Center Incorporated | System and method for binned inter-quartile range analysis in anomaly detection of a data series |
CN113742387A (zh) * | 2020-05-29 | 2021-12-03 | 中兴通讯股份有限公司 | 数据处理方法、设备及计算机可读存储介质 |
CN111611961A (zh) * | 2020-05-29 | 2020-09-01 | 福州大学 | 一种基于变点分段与序列聚类的谐波异常识别方法 |
CN114415054B (zh) * | 2022-01-27 | 2022-10-11 | 中国汽车工程研究院股份有限公司 | 一种新能源汽车电池采样异常故障识别方法 |
CN114968999A (zh) * | 2022-05-23 | 2022-08-30 | 中国长江三峡集团有限公司 | 一种基于时序匹配和双向四分位算法的异常数据清洗方法 |
CN115510302B (zh) * | 2022-11-16 | 2023-04-07 | 西北工业大学 | 基于大数据统计的智能工厂数据分类方法 |
-
2023
- 2023-02-14 CN CN202310107344.1A patent/CN115858894B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021052031A1 (zh) * | 2019-09-20 | 2021-03-25 | 苏宁云计算有限公司 | 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质 |
WO2023284132A1 (zh) * | 2021-07-15 | 2023-01-19 | 苏州浪潮智能科技有限公司 | 一种云平台日志的分析方法、系统、设备及介质 |
CN115359807A (zh) * | 2022-10-21 | 2022-11-18 | 金叶仪器(山东)有限公司 | 一种用于城市噪声污染的噪声在线监测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115858894A (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115858894B (zh) | 一种可视化的大数据分析方法 | |
CN116186634B (zh) | 一种建筑工程施工数据智能管理系统 | |
CN115577275A (zh) | 一种基于lof和孤立森林的时序数据异常监测系统及方法 | |
WO2019100967A1 (zh) | 用于识别异常交易社团的方法和装置 | |
CN117556714B (zh) | 一种用于铝金属冶炼的预热管路温度数据异常分析方法 | |
CN108667684B (zh) | 一种基于局部向量点积密度的数据流异常检测方法 | |
CN106952167B (zh) | 一种基于多元线性回归的餐饮业好友连边影响力预测方法 | |
CN106021298B (zh) | 一种基于非对称加权相似度的协同过滤推荐方法及系统 | |
CN111709668A (zh) | 基于数据挖掘技术的电网设备参数风险识别方法及装置 | |
CN110866134A (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN115628776A (zh) | 一种供水管网异常数据检测方法 | |
CN118378199A (zh) | 一种大数据分析平台中的实时异常检测方法 | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
CN110866689A (zh) | 一种空间扫描统计量中选择最大扫描窗口的方法 | |
CN117540325B (zh) | 基于数据变化量捕获的业务数据库异常检测方法及系统 | |
CN111639621A (zh) | 一种传感器信号诊断故障的方法 | |
Agnieszka et al. | Detection of outliers in the financial time series using ARIMA models | |
US11016467B2 (en) | Method and system for sensing fine changes in processing/equipment measurement data | |
JP2022174425A (ja) | データ分割装置、データ分割方法、及びプログラム | |
CN113792749A (zh) | 时间序列数据异常检测方法、装置、设备及存储介质 | |
CN116075824B (zh) | 工艺踪迹的自动窗生成 | |
Halkos et al. | Performance evaluation using bootstrapping DEA techniques: Evidence from industry ratio analysis | |
CN114169694A (zh) | 一种基于大数据平台的过程能力分析方法及装置 | |
CN118337525B (zh) | 一种基于大数据的云资产安全管理系统 | |
CN115099370B (zh) | 面向流程型工业生产数据流的评测数据集构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |