CN115858894B - 一种可视化的大数据分析方法 - Google Patents

一种可视化的大数据分析方法 Download PDF

Info

Publication number
CN115858894B
CN115858894B CN202310107344.1A CN202310107344A CN115858894B CN 115858894 B CN115858894 B CN 115858894B CN 202310107344 A CN202310107344 A CN 202310107344A CN 115858894 B CN115858894 B CN 115858894B
Authority
CN
China
Prior art keywords
data
segmented
degree
abnormality
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310107344.1A
Other languages
English (en)
Other versions
CN115858894A (zh
Inventor
王新刚
白直望
方培斌
王立成
叶硕闻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou Zhongcheng Technology Co ltd
Original Assignee
Wenzhou Zhongcheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou Zhongcheng Technology Co ltd filed Critical Wenzhou Zhongcheng Technology Co ltd
Priority to CN202310107344.1A priority Critical patent/CN115858894B/zh
Publication of CN115858894A publication Critical patent/CN115858894A/zh
Application granted granted Critical
Publication of CN115858894B publication Critical patent/CN115858894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种可视化的大数据分析方法。该方法包括:获取待分析的数据集,对数据集进行数据分段得到至少两个分段数据;获取每个分段数据的四分位距,并将分段数据划分为四个数据分组;根据每个数据分组中的数据分布特征得到分段数据中每个数据的局部异常程度;进而基于分段数据的四分位距、分段数据中每个数据的局部异常程度以及每个数据对应的时间节点获取对应数据的异常程度;通过不同长度的分段数据中的异常程度得到对应数据的最终异常程度;根据每个数据的最终异常程度得到数据集中的异常数据,对数据集中的异常数据和正常数据分别进行可视化分析。本发明有效提高了异常数据识别的准确性。

Description

一种可视化的大数据分析方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种可视化的大数据分析方法。
背景技术
大数据可视化就是通过对大数据进行获取、清洗、分析,将所示分析结果通过图形、图标等形式展示出来的一个过程。大数据可视化的目的在于增强大量复杂数据的呈现效果,方便用户以更加直观的方式观察数据,进而发现数据中的隐藏信息,具体涉及两个步骤:数据分析和分析结果的可视化转化,数据分析的目的在于大数据集数据治理或信息管理,以确保获取干净的数据,即分析影响可视化结果的异常数据,使得可视化转换呈现效果更佳;因此在大数据可视化中,数据集的异常分析是必不可少的步骤。
对于数据异常分析,主要针对数据相对于周围数据的差异,现有一般利用数据四分位距判断异常数据,但是对于数据量庞大的大数据需要分段处理,分段数据的长度直接影响每一个分段数据的分布特征,从而影响在分段数据中数据异常分析的准确性;现有往往是直接设置分段长度,无法保证分段数据能够满足数据异常分析的需求,同时,多个连续分布的异常数据在同一分段数据中时可能会造成分段数据的分布异常,影响对应分段数据的异常分析,使得最终识别的异常数据不够准确,异常识别效果较差。
发明内容
为了解决现有对异常数据识别不准确的技术问题,本发明的目的在于提供一种可视化的大数据分析方法,所采用的技术方案具体如下:
本发明一个实施例提供了一种可视化的大数据分析方法,该方法包括以下步骤:
获取待分析的数据集,对所述数据集进行数据分段得到至少两个分段数据;
获取每个所述分段数据的四分位距,并将所述分段数据划分为四个数据分组;根据每个所述数据分组中的数据分布特征得到所述分段数据中每个数据的局部异常程度;
基于所述分段数据的四分位距、所述分段数据中每个数据的局部异常程度以及所述分段数据中每个数据对应的时间节点获取对应数据的异常程度;
获取不同长度的分段数据,通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度;
根据每个数据的最终异常程度得到所述数据集中的异常数据,对数据集中的所述异常数据和正常数据分别进行可视化分析。
优选的,所述对所述数据集进行数据分段得到至少两个分段数据的步骤,包括:
设定预设长度将所述数据集的数据均分为至少两个初始分段数据;基于所述预设长度以及所述初始分段数据中的数据特征获取对应的分段效果;
在预设范围内改变所述预设长度的大小得到不同的初始分段数据,以及不同的初始分段数据对应的分段效果;以所述分段效果最大时的长度作为最佳长度,根据所述最佳长度将所述数据集均分为至少两个分段数据。
优选的,所述基于所述预设长度以及所述初始分段数据中的数据特征获取对应的分段效果的步骤,包括:
对每个所述初始分段数据中的数据按照从小到大的顺序排列,计算排列后的所述初始分段数据中每相邻两个数据的差值绝对值,以得到所述初始分段数据中所有相邻两个数据的差值绝对值的平均值,记为第一平均值;
获取所述数据集中所有所述初始分段数据的第一平均值的平均值记为第二平均值,以及所有所述初始分段数据的第一平均值的方差;
获取所有所述初始分段数据的第一平均值与第二平均值的差值绝对值的平均值,以平均值与所述方差的乘积作为分母,所述预设长度作为分子得到比值结果,所述比值结果为所述初始分段数据的分段效果。
优选的,所述获取每个所述分段数据的四分位距,并将所述分段数据划分为四个数据分组的步骤,包括:
将所述分段数据中的数据按照升序进行排列,获取排列后的所述分段数据中的中间值,基于所述中间值将所述分段数据划分为两个数据段;分别获取两个数据段的中间值将对应的数据段划分为两个数据分组,得到所述分段数据的四个数据分组;
利用四分位距算法,基于不同数据分组连接处的数据得到所述分段数据的四分位距。
优选的,所述根据每个所述数据分组中的数据分布特征得到所述分段数据中每个数据的局部异常程度的步骤,包括:
获取每个所述数据分组中所有相邻两个数据之间的差值绝对值的平均值,记为第一差异均值;对所述分段数据中的数据按照升序进行排列,获取排列后的所述分段数据中所有相邻两个数据之间的差值绝对值的平均值,记为第二差异均值;
对每个所述数据分组中的数据进行直线拟合得到对应的直线,获取所述直线与水平方向的夹角,根据数据所在所述数据分组中的第一差异均值、所述分段数据的第二差异均值以及每条所述直线与水平方向的夹角获取对应数据的局部异常程度。
优选的,所述局部异常程度的获取步骤,包括:
以分段数据中第
Figure SMS_1
个数据作为目标数据,
Figure SMS_2
为正整数,所述目标数据的局部异常程度的计算公式为:
Figure SMS_3
其中,
Figure SMS_5
表示目标数据的局部异常程度;
Figure SMS_8
表示目标数据所在数据分组的第一差异均值;
Figure SMS_9
表示目标数据所在分段数据的第二差异均值;
Figure SMS_6
表示目标数据所在数据分组对应直线与水平方向的夹角;
Figure SMS_7
表示目标数据所在分段数据中除了目标数据所在数据分组之外的第
Figure SMS_10
个数据分组对应直线与水平方向的夹角;
Figure SMS_11
表示目标数据与其所在数据分组对应直线之间的最近距离;
Figure SMS_4
表示取绝对值。
优选的,所述基于所述分段数据的四分位距、所述分段数据中每个数据的局部异常程度以及所述分段数据中每个数据对应的时间节点获取对应数据的异常程度的步骤,包括:
以分段数据中第
Figure SMS_12
个数据作为目标数据,
Figure SMS_13
为正整数,获取所述目标数据在所属分段数据中的时间节点与所述分段数据的中心位置对应时间节点之间的差异,记为第一差异;
获取所述目标数据与其所属分段数据中其他每个数据的时间节点之间的差值绝对值,记为第二差异;
计算所述目标数据与所述分段数据的四分位距之间的差值绝对值作为分子,以所述分段数据的极差作为分母得到比值,记为第三差异;
根据所述第一差异、所述第二差异、所述第三差异以及所述目标数据的局部异常程度得到所述目标数据的异常程度。
优选的,所述目标数据的异常程度的计算公式为:
Figure SMS_14
其中,
Figure SMS_18
表示目标数据对应的异常程度;
Figure SMS_20
表示目标数据的取值;
Figure SMS_25
表示分段数据的四分位距;
Figure SMS_16
表示分段数据中的极差;
Figure SMS_21
表示第三差异;
Figure SMS_24
表示第一差异;
Figure SMS_26
表示目标数据在分段数据中的时间节点;
Figure SMS_15
表示分段数据中除了目标数据之外第
Figure SMS_19
个数据的时间节点;
Figure SMS_22
表示第二差异;
Figure SMS_23
表示目标数据所在分段数据的长度;
Figure SMS_17
表示目标数据对应的局部异常程度。
优选的,所述通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度的步骤,包括:
以分段数据中第
Figure SMS_27
个数据作为目标数据,
Figure SMS_28
为正整数,所述目标数据的最终异常程度的计算为:
Figure SMS_29
其中,
Figure SMS_32
表示目标数据的最终异常程度;
Figure SMS_35
表示不同分段长度的数量;
Figure SMS_40
表示第
Figure SMS_31
个分段长度对应的分段效果;
Figure SMS_33
表示目标数据在第
Figure SMS_37
个分段长度的分段数据中的异常程度;
Figure SMS_39
表示目标数据在第
Figure SMS_30
个分段长度对应的分段数据中的异常程度,且第
Figure SMS_34
个分段长度是除了第
Figure SMS_36
个分段长度之外的分段长度;
Figure SMS_38
表示绝对值计算。
优选的,所述根据每个数据的最终异常程度得到所述数据集中的异常数据的步骤,包括:
将所述数据集中所有数据的最终异常程度进行升序排列,得到由最终异常程度构建的异常程度序列,获取所述异常程度序列的四分位距,以预设倍数的四分位距作为异常阈值;
当数据的所述最终异常程度大于所述异常阈值时,对应数据为异常数据。
本发明具有如下有益效果:为了对大数据的可视化分析信息更加明确直观,对数据集中的异常数据进行识别,本发明实施例首先将数据集划分为多个分段数据进行分析,通过分段数据对其中数据的异常情况进行分析,细节信息考虑的更加全面;结合现有的四分位距算法对每个分段数据进行分析,得到每个分段数据的四分位距,并将分段数据划分为四个数据分组,通过每个数据分组中的数据特征得到每个数据的局部异常程度,融入不同数据分组的数据分布信息,得到的数据的局部异常程度更加可靠,基于每个数据的局部异常程度作为每个数据的异常程度分析的基础,保证了数据的异常程度分析的准确度;在对数据的异常程度分析时,综合考虑了数据的时间节点、数据的局部异常程度以及数据所在分段数据的四分位距,避免了时间节点跨度较大的数据对分段数据的分布产生较大的影响,保证了数据的异常程度获取的准确性;最终,为了避免连续多个异常数据存在导致分段数据中数据异常不明显情况的影响,通过不同长度下分段数据中数据的异常程度得到每个数据的最终异常程度,将最终异常程度作为最终异常数据获取的基准,对数据集中异常数据的识别更加准确,进而对大数据进行可视化分析提取的数据信息更加全面准确,分析效果更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种可视化的大数据分析方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种可视化的大数据分析方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种可视化的大数据分析方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种可视化的大数据分析方法流程图,该方法包括以下步骤:
步骤S100,获取待分析的数据集,对数据集进行数据分段得到至少两个分段数据。
大数据分析中,对于数据的可视化分析以及分析成果可视化转换主要针对于大数据集,因此在进行数据分析之前,首先需要获取数据集,对于不同场景数据集的获取方法不尽相同,例如对于电商平台用户浏览以及点击数据,需要在购物平台中暂时存储用户数据,然后按照一定的周期将存储在购物平台的用户数据传输到数据分析平台进行后续的分析处理。
传统在利用四分位距进行数据异常分析时,主要是在分段数据内根据数据的分布判断数据的异常程度,但是原始数据在实际进行分段时,不同分段长度会影响分段数据内部分布特征,进而会影响到数据的异常分析,分析效果较差。因此在获取到需要分析的数据集之后,为了保证数据质量,提高分析成果可视化的展现结果,对数据庞大的数据集进行数据分段处理。
一般数据集在生成过程中存在时序关系,时间序列上越相近的数据,其分布关系越紧密,因此数据的异常主要体现在时间序列相近数据分布上,为了更准确的对数据异常进行分析,本发明实施例中将数据集按照数据的时间顺序进行分段处理。数据集分段的主要目的是获取分布相关性强的分段数据,在分段数据中进行数据的异常分析,分段数据的长度越长,数据在时间序列上的相关性越小,越不利于分段数据的异常分析;但是当分段数据的长度过短时,分段数据中的数据分布特征过于片面,不足以体现正常数据的分布关系,也不利于分段数据的异常分析,因此需要根据数据的实际分布特征进行自适应的数据分段。
设定预设长度将数据集的数据均分为至少两个初始分段数据;基于预设长度以及初始分段数据中的数据特征获取对应的分段效果;在预设范围内改变预设长度的大小得到不同的初始分段数据,以及不同的初始分段数据对应的分段效果;以分段效果最大时的长度作为最佳长度,根据最佳长度将数据集均分为至少两个分段数据。
具体的,影响数据分段效果的主要因素为分段数据中数据的分布关系,本发明实施例通过设定预设长度对数据集进行划分,也即是按照时间顺序将数据集中前预设长度个数据划分为同一个分段数据,通过判断此时的分段效果决定此时的分段数据是否合适,作为一个优选示例,本实施例中设定预设长度k=24,也即是以预设长度24作为初始长度得到一个初始分段数据,该初始分段数据中包括了数据集中前24个数据,分析此时该初始分段数据的分段效果,对每个初始分段数据中的数据按照从小到大的顺序排列,计算排列后的初始分段数据中每相邻两个数据的差值绝对值,以得到初始分段数据中所有相邻两个数据的差值绝对值的平均值,记为第一平均值;获取数据集中所有初始分段数据的第一平均值的平均值记为第二平均值,以及所有初始分段数据的第一平均值的方差;获取所有初始分段数据的第一平均值与第二平均值的差值绝对值的平均值,以平均值与方差的乘积作为分母,预设长度作为分子得到比值结果,比值结果为初始分段数据的分段效果。分段效果的计算为:
Figure SMS_41
其中,
Figure SMS_43
表示长度为
Figure SMS_47
时的初始分段数据的分段效果,
Figure SMS_51
的初始值为24;
Figure SMS_44
表示此时初始分段数据的长度;
Figure SMS_46
表示在长度为
Figure SMS_49
时,数据集被划分为初始分段数据的数量;
Figure SMS_52
表示在长度为
Figure SMS_42
时,数据集的第
Figure SMS_48
个初始分段数据中每相邻两个数据之间差值绝对值的平均值,记为第一平均值,并且第一平均值的计算时,初始分段数据中的所有数据是按照从小到大的顺序排列之后进行的;
Figure SMS_50
表示长度为
Figure SMS_53
时,数据集中所有初始分段数据中每相邻两个数据之间差值绝对值的平均值的均值,也即是所有初始分段数据对应的第一平均值的平均值,记为第二平均值,用于表征数据集的整体平稳性;
Figure SMS_45
表示所有初始分段数据对应的第一平均值的方差。
需要说明的是,在进行分段效果的计算时,数据集被划分的每个分段数据的长度是相同的,也即是此时是将数据集均分为长度为
Figure SMS_55
的初始分段数据进行分析,对于最后一个初始分段数据的长度不足
Figure SMS_58
时,将剩余的数据也作为一个初始分段数据;因此第
Figure SMS_62
个初始分段数据的第一平均值
Figure SMS_57
,反映了第
Figure SMS_59
个初始分段数据中数据的平稳性,
Figure SMS_61
反映了第
Figure SMS_64
个初始分段数据中数据的平稳性与数据集整体初始分段数据的平稳性的差值绝对值,该项取值越大,说明长度为
Figure SMS_54
时进行初始分段数据的划分时数据平稳性与整体分段数据的平稳性差异越大,则此时的分段效果越差;由此可推断出
Figure SMS_60
表示了数据集对应的所有初始分段数据与整体初始分段数据之间差异的平均值,该项取值越大表明此时以长度
Figure SMS_63
进行分段的分段效果越差;所有初始分段数据对应的第一平均值的方差
Figure SMS_65
反映了每个初始分段数据对应第一平均值的波动程度,方差取值越大,说明初始分段数据对应的第一平均值的波动越大,数据分布关系越不一致,数据的分段效果越差;初始分段数据的长度
Figure SMS_56
越大,则每个初始分段数据的长度越长,数据集对应的初始分段数据的数量越少,后续异常分析的计算量越小,对应的分段效果越好。
对预设长度的大小进行修改可得到不同长度的分段数据,并由此获取不同分段长度时对应分段数据的分段效果,为了避免分段数据的长度过长,本实施例中设定分段长度k的预设范围的最大取值为100,且为了便于进行四分位距的计算,k的取值始终为4的倍数,也即是k的取值为24,28,32,…,96,100;k取不同值时会对应不同长度的分段数据,且分段数据中的实际数据不同,则k取不同值时,对应的分段数据的分段效果不同,本发明实施例中采用现有的模拟退火算法,通过改变分段长度k的取值来得到分段效果
Figure SMS_66
的最大值,以分段效果
Figure SMS_67
最大值时对应的分段长度作为该段分段数据的最佳分段长度,通过最佳分段长度将数据集均分为多个分段数据,假设获取的最佳分段长度为32,则将数据集划分为多个长度为32的分段数据,对于最后一个分段数据而言,其长度可能小于32。通过考虑不同分段数据中数据分布的稳定性,避免了分段数据之间的整体差异,确保了不同分段数据之间异常分析的一致性,便于获取更加准确的数据异常程度。
步骤S200,获取每个分段数据的四分位距,并将分段数据划分为四个数据分组;根据每个数据分组中的数据分布特征得到分段数据中每个数据的局部异常程度。
由步骤S100中通过分析不同长度数据的分段效果得到效果最佳时的多个分段数据,每个分段数据的分段长度均为最佳分段长度,且该分段长度的取值为4的倍数,然后对每个分段数据进行分组并进行数据异常分析。将分段数据中的数据按照升序进行排列,获取排列后的分段数据中的中间值,基于中间值将分段数据划分为两个数据段;分别获取两个数据段的中间值将对应的数据段划分为两个数据分组,得到分段数据的四个数据分组;将第一个数据分组与第二个数据分组连接处的两个数据均值记为第一分位数,将第二个数据分组与第三个数据分组连接处的两个数据均值记为第二分位数,将第三个数据分组与第四个数据分组连接处的两个数据均值记为第三分位数,第三分位数与第一分位数的差值为分段数据的四分位距。
具体的,现阶段常利用四分位距(IQR)进行计算,该方法的基本思想为:将分段数据中的数据按照从小到大的顺序依次排列,然后在当前的分段数据中找到中间值将数据划分为两组,进一步的分别在两组数据中再次寻找中间值,利用每组数据中的中间值将分组数据再次进行分组,也即是将一个分段数据划分为四个数据分组,每组数据之间的连接处对应两个数据,将第一个数据分组和第二个数据分组连接处的两个数据均值记为第一分位数
Figure SMS_68
,将第二个数据分组与第三个数据分组连接处的两个数据均值记为第二分位数
Figure SMS_69
,将第三个数据分组与第四个数据分组连接处的两个数据均值记为第三分位数
Figure SMS_70
,由此可得到该分段数据的四分位距
Figure SMS_71
,基于分段数据的四分位距对其中的数据进行异常分析。
一般在利用四分位距进行数据异常分析时,在输入分段数据后,根据现有的四分位距计算方法可以直接输出四分位距IQR,结合分段数据的四分位距IQR对数据进行异常分析,但是实际分段数据内部数据分布关系也同样影响到数据异常的分布,因此在对分段数据中每个数据进行异常分析时,需要考虑分段数据内部数据之间的分布关系。获取每个数据分组中所有相邻两个数据之间的差值绝对值的平均值,记为第一差异均值;对分段数据中的数据按照升序进行排列,获取排列后的分段数据中所有相邻两个数据之间的差值绝对值的平均值,记为第二差异均值;对每个数据分组中的数据进行直线拟合得到对应的直线,获取直线与水平方向的夹角,根据数据所在数据分组中的第一差异均值、分段数据的第二差异均值以及每条直线与水平方向的夹角获取对应数据的局部异常程度。
具体的,由步骤S100中将数据集划分为多个分段数据,将任意一个分段数据中的任一数据作为目标数据进行分析,在分析该目标数据的异常程度时,结合该目标数据所在数据分组中数据情况进行分析,也即是对目标数据的局部异常程度进行分析,局部异常程度的获取方法具体为:
首先,目标数据所在分段数据通过传统的四分位距算法划分为四个数据分组,计算目标数据所在数据分组中每相邻两个数据之间的差值绝对值,进而获取目标数据所在数据分组中所有相邻两个数据之间差值绝对值的均值,记为第一差异均值;相应的,获取目标数据所在分段数据中所有相邻两个数据之间的差值绝对值,进而计算得到目标数据所在分段数据中所有相邻两个数据之间差值绝对值的均值,记为第二差异均值。
然后,对目标数据所在的数据分组进行直线拟合,将目标数据所在的数据分组中的数据拟合为一条直线,直线拟合时横坐标为不同的数据,纵坐标为数据的取值;获取目标数据所在的数据分组对应直线与水平方向的夹角,记为目标数据所在的数据分组的目标夹角;相应的,获取目标数据所在分段数据中其他三个数据分组对应的夹角,也即是将其他每个数据分组中的数据进行直线拟合得到对应的直线,将直线与水平方向之间的夹角作为对应数据分组的夹角。需要说明的是,此处对分段数据以及数据分组进行分析时,其中的数据顺序均是进行升序排列后的数据。
最后,基于目标数据所在数据分组的第一差异均值、目标数据所在分段数据的第二差异均值、目标数据所在数据分组的目标夹角以及目标数据所在分段数据中其他数据分组的夹角得到目标数据的局部异常程度,局部异常程度的计算公式为:
Figure SMS_72
其中,
Figure SMS_74
表示分段数据中第
Figure SMS_78
个数据的局部异常程度,也即是目标数据的局部异常程度;
Figure SMS_80
表示目标数据所在数据分组的第一差异均值;
Figure SMS_75
表示目标数据所在分段数据的第二差异均值;
Figure SMS_76
表示目标数据所在数据分组对应直线与水平方向的夹角,也即是目标夹角;
Figure SMS_79
表示目标数据所在分段数据中除了目标数据所在数据分组之外的第
Figure SMS_81
个数据分组对应直线与水平方向的夹角;
Figure SMS_73
表示目标数据与其所在数据分组的拟合直线之间的最近距离;
Figure SMS_77
表示取绝对值。
Figure SMS_82
为目标数据所在数据分组的第一差异均值与目标数据所在分段数据的第二差异均值之间的差值绝对值,该项取值越大,说明目标数据所在的数据分组数据分布与整个分段数据的数据分布越不一致,则目标数据所在数据分组的异常可能性越大,则目标数据对应的局部异常程度更大;
Figure SMS_83
表示目标数据所在数据分组的目标夹角与其他数据分组的夹角之间的差值绝对值,由于夹角反映了对应数据分组中数据变化趋势,因此该项取值越大,说明目标数据所在数据分组的数据变化趋势与其他数据分组之间的数据趋势的差异越大,则目标数据所在数据分组出现异常的可能性越大,对应目标数据的局部异常程度越大;同时,以目标数据与其所在数据分组的拟合直线之间的最近距离
Figure SMS_84
作为调整系数,
Figure SMS_85
取值越小,说明目标数据与其所在数据分组的拟合直线越接近,拟合直线的拟合程度越好,则该拟合直线所反映的数据分组中的数据分布信息越可靠,因此对应的调整系数
Figure SMS_86
的取值越大,最终基于数据分组中的平均趋势差异
Figure SMS_87
与数据分组内部数据的差异变化
Figure SMS_88
结合分析,得到目标数据对应的局部异常程度。
基于获取目标数据的局部异常程度相同的方法,获取分段数据中每个数据对应的局部异常程度,综合考虑了目标数据所在的分段数据中的分组特征,通过对数据分组中数据分布趋势的相对差异反映了数据的局部异常程度,以局部异常程度作为后续数据的异常程度的参考,使得对数据的分析更加准确。
步骤S300,基于分段数据的四分位距、分段数据中每个数据的局部异常程度以及分段数据中每个数据对应的时间节点获取对应数据的异常程度。
由步骤S200中得到每个数据对应的局部异常程度,基于数据对应的局部异常程度以及数据所属分段数据的四分位距结合分析,以得到每个数据的异常程度;仍然以分段数据中第
Figure SMS_89
个数据作为目标数据为例,首先将目标数据所在分段数据中所有的数据进行排序,本发明实施例中排序的规则按照升序的顺序将分段数据中所有的数据进行重新排列,而分段数据内部数据的分布关系主要体现在分段数据的不同数据分组具有稳定性,因此基于分段数据内部的分布关系获取目标数据的异常程度,获取目标数据在所属分段数据中的时间节点与分段数据的中心位置对应时间节点之间的差异,记为第一差异;获取目标数据与其所属分段数据中其他每个数据的时间节点之间的差值绝对值,记为第二差异;计算目标数据与分段数据的四分位距之间的差值绝对值作为分子,以分段数据的极差作为分母得到比值,记为第三差异;根据第一差异、第二差异、第三差异以及目标数据的局部异常程度得到目标数据的异常程度。异常程度的具体计算方法为:
Figure SMS_90
其中,
Figure SMS_93
表示目标数据对应的异常程度;
Figure SMS_98
表示分段数据中第
Figure SMS_102
个数据取值,也即是目标数据的取值;
Figure SMS_94
表示分段数据的四分位距;
Figure SMS_96
表示分段数据中的极差,也即是分段数据中数据的最大值与最小值的差值;
Figure SMS_101
表示第三差异;
Figure SMS_103
表示目标数据的时间节点与分段数据排序之前的中心时间节点之间的差值,也即是目标数据在分段数据排序之前所处位置的时间节点与分段数据的中心位置数据对应时间节点之间的差异,记为第一差异;
Figure SMS_91
表示目标数据在分段数据中的时间节点;
Figure SMS_95
表示分段数据中除了目标数据之外第
Figure SMS_99
个数据的时间节点;
Figure SMS_100
表示第二差异;
Figure SMS_92
表示目标数据所在分段数据的分段长度;
Figure SMS_97
表示目标数据对应的局部异常程度。
由于目标数据所属分段数据的四分位距反映了该分段数据中各数据的分散情况,该项取值越小可反映出分段数据中数据之间的差异越小,通过
Figure SMS_105
反映目标数据与当前分段数据之间的差异,极差
Figure SMS_107
作为基准对该项进行归一化处理,分子
Figure SMS_110
的取值越大,说明目标数据越偏离其所在分段数据,则目标数据对应的异常程度越大;第一差异
Figure SMS_106
反映了目标数据所在分段数据中排序前时间节点与中心时间节点的差异,该项取值越大,说明目标数据对应的时间节点与中心时间节点之间偏离程度越大,则目标数据为异常数据的可能性越大,对应的异常程度越大;同理,目标数据对应的局部异常数据
Figure SMS_108
的取值越大,目标数据为异常数据的可能性越大,对应目标数据的异常程度越大;第二差异
Figure SMS_109
反映了目标数据所对应的时间节点与其他第
Figure SMS_111
个数据对应的时间节点的差异,该项取值越大,说明目标数据与其他数据之间时间节点的跨度越大,
Figure SMS_104
表示目标数据与其他每个数据之间时间节点差异的平均值,差异的平均值越大,说明该目标数据在时间序列上越独立,其为异常数据的可能性越大,对应的目标数据的异常程度越大。
基于获取目标数据的异常程度相同的方法,获取每个分段数据内每个数据的异常程度;在异常程度的计算时,通过结合分段数据的四分位距、每个数据的局部异常程度以及数据在时间序列上的特征综合分析,避免了时间节点跨度较大的数据对分段数据的分布产生较大的影响,保证了数据的异常程度获取的准确性。
步骤S400,获取不同长度的分段数据,通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度。
由步骤S300中获取了每个数据在最佳长度的分段数据中的异常程度,但是在实际数据集中可能会存在连续多个异常的数据,在异常的数据处于同一个分段数据中时,可能会导致分段数据整体分布存在异常,此时会导致数据的异常不够明显,因此得到的数据的异常程度的准确性较低;为了提高每个数据的异常程度判别的准确性,本发明实施例中通过不同长度的分段数据进行多次分析,获取每个数据的最终异常程度。
具体的,由步骤S100中得到不同长度下的分段数据以及分段数据对应的分段效果,本发明实施例中是以分段效果最好时的长度作为最佳长度,此时在对数据的最终异常程度进行分析时,获取不同长度下的分段效果并进行排序,选取分段效果排序前m个长度的分段数据进行分析,本实施例中设置m取值为5,在其他实施例中实施者可根据实际情况自行调整,也即是选取出分段效果较大的前5个长度对应的分段数据,且前5个长度的分段数据包括最佳长度的分段数据,基于不同长度的分段数据对其中每个数据的最终异常程度进行获取。
步骤S200和步骤S300中具体阐述了获取最佳长度的分段数据中每个数据的异常程度,则基于同样的获取数据的异常程度的方法,获取在其他几个长度的分段数据中每个数据的异常程度,则对于数据集中的一个数据而言,其对应了5个异常程度,且5个异常程度的取值可能全不相同,仍然以目标数据为例,根据目标数据对应的5个异常程度的取值获取该目标数据的最终异常程度,最终异常程度的计算为:
Figure SMS_112
其中,
Figure SMS_115
表示目标数据的最终异常程度;
Figure SMS_122
表示不同分段长度的数量,也即是目标数据对应的异常程度的数量,本实施例中
Figure SMS_124
取值为5;
Figure SMS_116
表示第
Figure SMS_118
个分段长度对应的分段效果;
Figure SMS_120
表示目标数据在第
Figure SMS_123
个分段长度的分段数据中的异常程度;
Figure SMS_113
表示目标数据在第
Figure SMS_117
个分段长度对应的分段数据中的异常程度,且第
Figure SMS_119
个分段长度是除了第
Figure SMS_121
个分段长度之外的分段长度;
Figure SMS_114
表示绝对值计算。
Figure SMS_128
表示两个分段长度对应的分段数据中目标数据对应的异常程度的差异,因此
Figure SMS_132
表示了第
Figure SMS_137
个分段长度与其他每个分段长度的分段数据中目标数据的异常程度的平均差异,该项取值越大,说明第
Figure SMS_126
个分段长度与其他每个分段长度的分段数据中目标数据对应的异常程度差异较大,也即是目标数据在不同分段长度中的异常程度的稳定性越差,则该目标数据在第
Figure SMS_131
个分段长度的分段数据中的可信度较低,因此以
Figure SMS_134
作为第
Figure SMS_138
个分段长度的分段数据中目标数据异常程度的权值,权值越大,说明目标数据在第
Figure SMS_127
个分段长度的分段数据中的异常程度
Figure SMS_130
的可信度越高;相应的,当第
Figure SMS_133
个分段长度下分段数据对应的分段效果
Figure SMS_136
越大,同样表示目标数据在第
Figure SMS_125
个分段长度的分段数据中的异常程度
Figure SMS_129
的可信度越高;因此
Figure SMS_135
表示目标数据在所有分段长度下的异常程度进行加权求和,对加权求和结果进行求平均得到目标数据的最终异常程度。
基于上述获取目标数据的最终异常程度相同的方法,获取数据集中每个数据对应的最终异常程度,最终异常程度越大,说明对应数据为异常数据的可能性越大。
步骤S500,根据每个数据的最终异常程度得到数据集中的异常数据,对数据集中的异常数据和正常数据分别进行可视化分析。
由步骤S400通过多个分段数据下的异常程度得到数据的最终异常程度,有效避免了同一分段数据中存在多个异常数据时异常程度的不明显情况,提高了数据的最终异常程度获取的准确性;然后通过设置异常阈值对异常数据进行判断,当数据的最终异常程度大于该异常阈值时,判定此时的数据为异常数据。将数据集中所有数据的最终异常程度进行升序排列,得到由最终异常程度构建的异常程度序列,获取异常程度序列的四分位距,以预设倍数的四分位距作为异常阈值;当数据的最终异常程度大于异常阈值时,对应数据为异常数据。
其中,本发明实施例中异常阈值的设定方法为:将数据集中每个数据的最终异常程度进行排序,排序是基于数据的最终异常程度按照从小到大的顺序进行排列,得到一个由最终异常程度构成的异常程度序列,对该异常程度序列中所有的元素进行四分位距的计算得到此时的四分位距记为
Figure SMS_139
,基于异常程度序列得到的四分位距
Figure SMS_140
设定异常阈值,异常阈值具体取值为
Figure SMS_141
,3为预设倍数,也即是当数据对应的最终异常程度大于该异常阈值
Figure SMS_142
时,判定该数据为异常数据。
在获取到数据集中的异常数据之后,将异常数据从数据集中进行分离,减少了可视化的视觉噪声,有效提高数据信息的辨识能力;在得到数据集中的正常数据和异常数据之后,分别将两种数据按照现有的数据可视化转换方法,转换为图表等具有数据可视化特征的表现形式,基于转换后的具有可视化特征的数据表现形式进行数据信息的挖掘。
综上所述,本发明实施例通过获取待分析的数据集,对数据集进行数据分段得到至少两个分段数据;获取每个分段数据的四分位距,并将分段数据划分为四个数据分组;根据每个数据分组中的数据分布特征得到分段数据中每个数据的局部异常程度;基于分段数据的四分位距、分段数据中每个数据的局部异常程度以及分段数据中每个数据对应的时间节点获取对应数据的异常程度;获取不同长度的分段数据,通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度;根据每个数据的最终异常程度得到数据集中的异常数据,对数据集中的异常数据和正常数据分别进行可视化分析。有效提高了异常数据判定的准确性,可视化分析的效果较好。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种可视化的大数据分析方法,其特征在于,该方法包括以下步骤:
获取待分析的数据集,对所述数据集进行数据分段得到至少两个分段数据;
获取每个所述分段数据的四分位距,并将所述分段数据划分为四个数据分组;根据每个所述数据分组中的数据分布特征得到所述分段数据中每个数据的局部异常程度;
基于所述分段数据的四分位距、所述分段数据中每个数据的局部异常程度以及所述分段数据中每个数据对应的时间节点获取对应数据的异常程度;
获取不同长度的分段数据,通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度;
根据每个数据的最终异常程度得到所述数据集中的异常数据,对数据集中的所述异常数据和正常数据分别进行可视化分析;
所述对所述数据集进行数据分段得到至少两个分段数据的步骤,包括:
设定预设长度将所述数据集的数据均分为至少两个初始分段数据;基于所述预设长度以及所述初始分段数据中的数据特征获取对应的分段效果;
在预设范围内改变所述预设长度的大小得到不同的初始分段数据,以及不同的初始分段数据对应的分段效果;以所述分段效果最大时的长度作为最佳长度,根据所述最佳长度将所述数据集均分为至少两个分段数据;
所述基于所述预设长度以及所述初始分段数据中的数据特征获取对应的分段效果的步骤,包括:
对每个所述初始分段数据中的数据按照从小到大的顺序排列,计算排列后的所述初始分段数据中每相邻两个数据的差值绝对值,以得到所述初始分段数据中所有相邻两个数据的差值绝对值的平均值,记为第一平均值;
获取所述数据集中所有所述初始分段数据的第一平均值的平均值记为第二平均值,以及所有所述初始分段数据的第一平均值的方差;
获取所有所述初始分段数据的第一平均值与第二平均值的差值绝对值的平均值,以平均值与所述方差的乘积作为分母,所述预设长度作为分子得到比值结果,所述比值结果为所述初始分段数据的分段效果。
2.根据权利要求1所述的一种可视化的大数据分析方法,其特征在于,所述获取每个所述分段数据的四分位距,并将所述分段数据划分为四个数据分组的步骤,包括:
将所述分段数据中的数据按照升序进行排列,获取排列后的所述分段数据中的中间值,基于所述中间值将所述分段数据划分为两个数据段;分别获取两个数据段的中间值将对应的数据段划分为两个数据分组,得到所述分段数据的四个数据分组;
利用四分位距算法,基于不同数据分组连接处的数据得到所述分段数据的四分位距。
3.根据权利要求1所述的一种可视化的大数据分析方法,其特征在于,所述根据每个所述数据分组中的数据分布特征得到所述分段数据中每个数据的局部异常程度的步骤,包括:
获取每个所述数据分组中所有相邻两个数据之间的差值绝对值的平均值,记为第一差异均值;对所述分段数据中的数据按照升序进行排列,获取排列后的所述分段数据中所有相邻两个数据之间的差值绝对值的平均值,记为第二差异均值;
对每个所述数据分组中的数据进行直线拟合得到对应的直线,获取所述直线与水平方向的夹角,根据数据所在所述数据分组中的第一差异均值、所述分段数据的第二差异均值以及每条所述直线与水平方向的夹角获取对应数据的局部异常程度。
4.根据权利要求3所述的一种可视化的大数据分析方法,其特征在于,所述局部异常程度的获取步骤,包括:
以分段数据中第
Figure QLYQS_1
个数据作为目标数据,
Figure QLYQS_2
为正整数,所述目标数据的局部异常程度的计算公式为:
Figure QLYQS_3
其中,
Figure QLYQS_5
表示目标数据的局部异常程度;
Figure QLYQS_7
表示目标数据所在数据分组的第一差异均值;
Figure QLYQS_9
表示目标数据所在分段数据的第二差异均值;
Figure QLYQS_6
表示目标数据所在数据分组对应直线与水平方向的夹角;
Figure QLYQS_8
表示目标数据所在分段数据中除了目标数据所在数据分组之外的第
Figure QLYQS_10
个数据分组对应直线与水平方向的夹角;
Figure QLYQS_11
表示目标数据与其所在数据分组对应直线之间的最近距离;
Figure QLYQS_4
表示取绝对值。
5.根据权利要求1所述的一种可视化的大数据分析方法,其特征在于,所述基于所述分段数据的四分位距、所述分段数据中每个数据的局部异常程度以及所述分段数据中每个数据对应的时间节点获取对应数据的异常程度的步骤,包括:
以分段数据中第
Figure QLYQS_12
个数据作为目标数据,
Figure QLYQS_13
为正整数,获取所述目标数据在所属分段数据中的时间节点与所述分段数据的中心位置对应时间节点之间的差异,记为第一差异;
获取所述目标数据与其所属分段数据中其他每个数据的时间节点之间的差值绝对值,记为第二差异;
计算所述目标数据与所述分段数据的四分位距之间的差值绝对值作为分子,以所述分段数据的极差作为分母得到比值,记为第三差异;
根据所述第一差异、所述第二差异、所述第三差异以及所述目标数据的局部异常程度得到所述目标数据的异常程度。
6.根据权利要求5所述的一种可视化的大数据分析方法,其特征在于,所述目标数据的异常程度的计算公式为:
Figure QLYQS_14
其中,
Figure QLYQS_16
表示目标数据对应的异常程度;
Figure QLYQS_19
表示目标数据的取值;
Figure QLYQS_22
表示分段数据的四分位距;
Figure QLYQS_17
表示分段数据中的极差;
Figure QLYQS_21
表示第三差异;
Figure QLYQS_24
表示第一差异;
Figure QLYQS_26
表示目标数据在分段数据中的时间节点;
Figure QLYQS_15
表示分段数据中除了目标数据之外第
Figure QLYQS_20
个数据的时间节点;
Figure QLYQS_23
表示第二差异;
Figure QLYQS_25
表示目标数据所在分段数据的长度;
Figure QLYQS_18
表示目标数据对应的局部异常程度。
7.根据权利要求1所述的一种可视化的大数据分析方法,其特征在于,所述通过每个数据在不同长度的分段数据中的异常程度得到对应数据的最终异常程度的步骤,包括:
以分段数据中第
Figure QLYQS_27
个数据作为目标数据,
Figure QLYQS_28
为正整数,所述目标数据的最终异常程度的计算为:
Figure QLYQS_29
其中,
Figure QLYQS_32
表示目标数据的最终异常程度;
Figure QLYQS_35
表示不同分段长度的数量;
Figure QLYQS_38
表示第
Figure QLYQS_31
个分段长度对应的分段效果;
Figure QLYQS_34
表示目标数据在第
Figure QLYQS_37
个分段长度的分段数据中的异常程度;
Figure QLYQS_40
表示目标数据在第
Figure QLYQS_30
个分段长度对应的分段数据中的异常程度,且第
Figure QLYQS_33
个分段长度是除了第
Figure QLYQS_36
个分段长度之外的分段长度;
Figure QLYQS_39
表示绝对值计算。
8.根据权利要求1所述的一种可视化的大数据分析方法,其特征在于,所述根据每个数据的最终异常程度得到所述数据集中的异常数据的步骤,包括:
将所述数据集中所有数据的最终异常程度进行升序排列,得到由最终异常程度构建的异常程度序列,获取所述异常程度序列的四分位距,以预设倍数的四分位距作为异常阈值;
当数据的所述最终异常程度大于所述异常阈值时,对应数据为异常数据。
CN202310107344.1A 2023-02-14 2023-02-14 一种可视化的大数据分析方法 Active CN115858894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310107344.1A CN115858894B (zh) 2023-02-14 2023-02-14 一种可视化的大数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310107344.1A CN115858894B (zh) 2023-02-14 2023-02-14 一种可视化的大数据分析方法

Publications (2)

Publication Number Publication Date
CN115858894A CN115858894A (zh) 2023-03-28
CN115858894B true CN115858894B (zh) 2023-05-16

Family

ID=85657978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310107344.1A Active CN115858894B (zh) 2023-02-14 2023-02-14 一种可视化的大数据分析方法

Country Status (1)

Country Link
CN (1) CN115858894B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116183058B (zh) * 2023-04-21 2023-07-07 实德电气集团有限公司 一种智能电容器的监测方法
CN117314020B (zh) * 2023-11-28 2024-02-27 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 一种浮游生物的湿地碳汇数据监测系统
CN117313020B (zh) * 2023-11-30 2024-01-26 山东海纳智能装备科技股份有限公司 一种承载式张力传感器数据处理方法
CN117476136B (zh) * 2023-12-28 2024-03-15 山东松盛新材料有限公司 一种高纯羧酸酯合成工艺参数优化方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021052031A1 (zh) * 2019-09-20 2021-03-25 苏宁云计算有限公司 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质
CN115359807A (zh) * 2022-10-21 2022-11-18 金叶仪器(山东)有限公司 一种用于城市噪声污染的噪声在线监测系统
WO2023284132A1 (zh) * 2021-07-15 2023-01-19 苏州浪潮智能科技有限公司 一种云平台日志的分析方法、系统、设备及介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL147502A0 (en) * 2002-01-07 2002-08-14 Widemed Ltd Self-adaptive system, for the analysis of biomedical signals of a patient
US7917338B2 (en) * 2007-01-08 2011-03-29 International Business Machines Corporation Determining a window size for outlier detection
CN106368813B (zh) * 2016-08-30 2018-09-25 北京协同创新智能电网技术有限公司 一种基于多元时间序列的异常报警数据检测方法
US11157346B2 (en) * 2018-09-26 2021-10-26 Palo Alto Rsearch Center Incorporated System and method for binned inter-quartile range analysis in anomaly detection of a data series
CN113742387A (zh) * 2020-05-29 2021-12-03 中兴通讯股份有限公司 数据处理方法、设备及计算机可读存储介质
CN111611961A (zh) * 2020-05-29 2020-09-01 福州大学 一种基于变点分段与序列聚类的谐波异常识别方法
CN114415054B (zh) * 2022-01-27 2022-10-11 中国汽车工程研究院股份有限公司 一种新能源汽车电池采样异常故障识别方法
CN114968999A (zh) * 2022-05-23 2022-08-30 中国长江三峡集团有限公司 一种基于时序匹配和双向四分位算法的异常数据清洗方法
CN115510302B (zh) * 2022-11-16 2023-04-07 西北工业大学 基于大数据统计的智能工厂数据分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021052031A1 (zh) * 2019-09-20 2021-03-25 苏宁云计算有限公司 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质
WO2023284132A1 (zh) * 2021-07-15 2023-01-19 苏州浪潮智能科技有限公司 一种云平台日志的分析方法、系统、设备及介质
CN115359807A (zh) * 2022-10-21 2022-11-18 金叶仪器(山东)有限公司 一种用于城市噪声污染的噪声在线监测系统

Also Published As

Publication number Publication date
CN115858894A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN115858894B (zh) 一种可视化的大数据分析方法
CN116186634B (zh) 一种建筑工程施工数据智能管理系统
CN115577275A (zh) 一种基于lof和孤立森林的时序数据异常监测系统及方法
WO2019100967A1 (zh) 用于识别异常交易社团的方法和装置
CN117556714B (zh) 一种用于铝金属冶炼的预热管路温度数据异常分析方法
CN108667684B (zh) 一种基于局部向量点积密度的数据流异常检测方法
CN106952167B (zh) 一种基于多元线性回归的餐饮业好友连边影响力预测方法
CN106021298B (zh) 一种基于非对称加权相似度的协同过滤推荐方法及系统
CN111709668A (zh) 基于数据挖掘技术的电网设备参数风险识别方法及装置
CN110866134A (zh) 一种面向图像检索的分布一致性保持度量学习方法
CN115628776A (zh) 一种供水管网异常数据检测方法
CN118378199A (zh) 一种大数据分析平台中的实时异常检测方法
CN107423319B (zh) 一种垃圾网页检测方法
CN110866689A (zh) 一种空间扫描统计量中选择最大扫描窗口的方法
CN117540325B (zh) 基于数据变化量捕获的业务数据库异常检测方法及系统
CN111639621A (zh) 一种传感器信号诊断故障的方法
Agnieszka et al. Detection of outliers in the financial time series using ARIMA models
US11016467B2 (en) Method and system for sensing fine changes in processing/equipment measurement data
JP2022174425A (ja) データ分割装置、データ分割方法、及びプログラム
CN113792749A (zh) 时间序列数据异常检测方法、装置、设备及存储介质
CN116075824B (zh) 工艺踪迹的自动窗生成
Halkos et al. Performance evaluation using bootstrapping DEA techniques: Evidence from industry ratio analysis
CN114169694A (zh) 一种基于大数据平台的过程能力分析方法及装置
CN118337525B (zh) 一种基于大数据的云资产安全管理系统
CN115099370B (zh) 面向流程型工业生产数据流的评测数据集构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant