CN113553319A - 基于信息熵加权的lof离群点检测清洗方法、装置、设备及存储介质 - Google Patents

基于信息熵加权的lof离群点检测清洗方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113553319A
CN113553319A CN202110649016.5A CN202110649016A CN113553319A CN 113553319 A CN113553319 A CN 113553319A CN 202110649016 A CN202110649016 A CN 202110649016A CN 113553319 A CN113553319 A CN 113553319A
Authority
CN
China
Prior art keywords
data
outlier
information entropy
lof
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110649016.5A
Other languages
English (en)
Inventor
徐思瀛
刘惠义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110649016.5A priority Critical patent/CN113553319A/zh
Publication of CN113553319A publication Critical patent/CN113553319A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质,其方法包括:通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围;使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果;使用离群点范围对检测结果进行检索清洗得到离群点集。本发明能够使用信息熵对数据中各个维度的数据进行加权操作,再通过数据点之间的分布检测离群点最可能出现的位置,缩小检测的范围,最后使用LOF算法对数据集进行检测。相比较传统的离群点检测方法,通过该方法所得到的离群点更加精准,而且相比现有方法,该方法对于数据集的专业领域知识的依赖较小。

Description

基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存 储介质
技术领域
本发明涉及一种基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质,属于数据处理技术领域。
背景技术
清洗数据时,对于一组数据,可能由于系统受到外部干扰,从而产生一些远离序列的一般水平的极端大值或者极端小值。这种外部干扰是多种多样的,可能是数据来源异常,也可能是数据测量和采集误差,主要是由于人为错误、测量设备故障或存在噪声。但是不论何种原因引起的离群点对之后的数据分析都会造成一定的影响。离群点会直接影响模型的拟合精度,甚至可能导致一个虚伪的结果。为了在数据集中寻找到这些“坏值”,现在有了许多成熟的算法,LOF算法便是基于密度的一种检测方法。但是传统的LOF算法也往往会将一些“正常数据”误检测为离群数据,这是因为离群因子值只与参数k有关,当k取值不同时,离群因子的值将不同,之前是异常点的数据可能判断不再是异常点。另外传统LOF算法并没有考虑在数据各个维度的求解距离过程中贡献的差异,属性之间的不确定性可能会影响结果判断的准确率。
为了解决上述问题,本申请提出一种基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质,先预测离群点最可能出现的范围,再进行检测,在较小的范围内找出离群点,这样就可以提高精度。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于信息熵加权的LOF离群点检测清洗方法,用于对未知离群点个数的数据集进行检测和清洗,所述检测清洗方法包括:
通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围;
使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果;
使用离群点范围对检测结果进行检索清洗得到离群点集。
优选的,所述通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围包括:
将数据集中两个数据点之间的欧式距离保存于距离矩阵D中;
计算距离矩阵D中的欧式距离的平均值,并作为领域半径R;
以各个数据点作为中心,统计领域半径R内存在的其他数据点的个数保存于数量矩阵P中;
遍历数量矩阵P中数量跳变较大的数据点,
若存在数量跳变较大的数据点,则将该数据点的数量保存为邻域数量ρ1,将密度小于邻域密度ρ1的数据点集合保存并作为数据点集A1;数据点集A1作为离群点范围;
若不存在数量跳变较大的数据点,则计算数量矩阵P的平均数量值ρ2,将数量远小于平均数量值ρ2的数据点集合保存并作为数据点集A2;数据点集A2作为离群点范围;
其中,
通过数据集中两个数据点之间的欧式距离表示数据点之间的分布情况;
以数据点为中心,通过其领域半径R内存在的其他数据点的个数表示该数据点的密度情况。
优选的,所述数据集的标准化方法处理包括:使用RobustScaler标准化方法处理数据集。
优选的,所述数据集的信息熵加权包括:
获取数据集Data′中第i个数据点的第j维属性的比重Pij,其公式如下:
Figure BDA0003110370920000031
其中,数据集Data′为使用标准化方法处理后的数据集,Data′={x′1,x′2,……,x′n},x′ij为数据集Data′中第i个数据点的第j维属性,n表示数据集Data′中数据点的个数;
根据Pij计算获取数据集Data′中第j维属性的信息熵Ej,其公式如下:
Figure BDA0003110370920000032
其中,p=1/lnn;
根据信息熵Ej计算获取数据集Data′中第j维属性的波动系数fj,其公式如下:
fj=1-Ej
根据波动系数fj计算获取数据集Data′中第j维属性的权值wj,其公式如下:
Figure BDA0003110370920000033
其中,m为数据点的维数;
在计算数据集Data′中任意两个数据点之间的欧式距离时,使用如下公式进行加权操作:
Figure BDA0003110370920000041
其中,xA和xB分别为数据集Data′中的第A数据点和第B个数据点。
优选的,所述使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果包括:
使用标准化方法处理后且信息熵加权的数据集进行LOF算法检测;
不断调整LOF算法的k值和局部离群因子,使最终得到的离群点集中的数据点个数与离群点范围中的数据点个数相同,将其集合保存并记作数据点集A3;
数据点集A3作为检测结果。
优选的,所述使用离群点范围对检测结果进行检索清洗得到离群点集包括:
将离群点范围和检测结果进行相交操作,将共同拥有的数据点集合保存并记作数据点集A,数据点集A作为最终的离群点集。
第二方面,本发明提供了一种基于信息熵加权的LOF离群点检测清洗装置,所述装置包括:
标准化处理模块:使用标准化方法处理数据集,保持数据集中离群点的离群性;
数据集分析模块:离群点范围通过分析数据集中所有数据点的密度分布情况寻找获得;
检测模块:使用LOF算法对进行信息熵加权后的数据集进行检测得到检测结果;
清洗模块:使用离群点范围对检测结果进行检索清洗得到离群点集。
第三方面,本发明提供了一种基于信息熵加权的LOF离群点检测清洗设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明的基于信息熵加权的LOF离群点检测清洗方法、装置、设备及存储介质,1)密度分布分析;2)信息熵加权标准化数据集;3)融合密度分布与基于信息熵LOF算法检测;不受真实离群点数的影响,在选取阈值方面不需要领域的专业知识,能够使用于大部分未知离群点个数的数据集,可以尽量降低误报正常数据的概率。
附图说明
图1是本发明实施例一提供的基于信息熵加权的LOF离群点检测清洗方法流程图;
图2是本发明实施例一提供的矩阵数据P的邻域数量示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
使用信息熵赋权法给服务运行数据的各维度赋予不同的权值,信息熵表示数据的不确定性,熵值越大,数据的不确定性就会越大,数据能够提供的信息量就越小,反之,当熵值越小时,表示数据能够提供的信息量就越大,其不确定性就越小。
实施例一:
本实施例提供了一种基于信息熵加权的LOF离群点检测清洗方法,用于对未知离群点个数的数据集进行检测和清洗,检测清洗方法包括以下步骤:
步骤1、通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围;
步骤1.1、将数据集中两个数据点之间的欧式距离保存于距离矩阵D中;
步骤1.2、计算距离矩阵D中的欧式距离的平均值,并作为领域半径R;
步骤1.3、以各个数据点作为中心,统计领域半径R内存在的其他数据点的个数保存于数量矩阵P中;
步骤1.4、遍历数量矩阵P中数量跳变较大的数据点,
若存在数量跳变较大的数据点,则将该数据点的数量保存为邻域数量ρ1,将密度小于邻域密度ρ1的数据点集合保存并作为数据点集A1;数据点集A1作为离群点范围;
若不存在数量跳变较大的数据点,则计算数量矩阵P的平均数量值ρ2,将数量远小于平均数量值ρ2的数据点集合保存并作为数据点集A2;数据点集A2作为离群点范围;
其中,通过数据集中两个数据点之间的欧式距离表示数据点之间的分布情况,以数据点为中心,通过其领域半径R内存在的其他数据点的个数表示该数据点的密度情况。
如图2所示,在IRIS数据集中显示的所有数据点分布,发现在密度为10时发生较大跳跃,所以我们将ρ设置为10,并将密度小于10的数据点一并保存起来。
步骤2、使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果;
步骤2.1、使用RobustScaler标准化方法处理数据集。
步骤2.2、获取数据集Data′中第i个数据点的第j维属性的比重Pij,其公式如下:
Figure BDA0003110370920000071
其中,数据集Data′为使用标准化方法处理后的数据集,Data′={x′1,x′2,……,x′n},x′ij为数据集Data′中第i个数据点的第j维属性,n表示数据集Data′中数据点的个数;
步骤2.3、根据Pij计算获取数据集Data′中第j维属性的信息熵Ej,其公式如下:
Figure BDA0003110370920000072
其中,p=1/lnn;
步骤2.4、根据信息熵Ej计算获取数据集Data′中第j维属性的波动系数fj,其公式如下:
fj=1-Ej
步骤2.5、根据波动系数fj计算获取数据集Data′中第j维属性的权值wj,其公式如下:
Figure BDA0003110370920000073
其中,m为数据点的维数;
步骤2.6、在计算数据集Data′中任意两个数据点之间的欧式距离时,使用如下公式进行加权操作:
Figure BDA0003110370920000081
其中,xA和xB分别为数据集Data′中的第A数据点和第B个数据点。
步骤2.7、使用标准化方法处理后且信息熵加权的数据集进行LOF算法检测;
步骤2.7.1、计算距离数据点(使用标准化方法处理后且信息熵加权的数据集中)最近的第k个点的距离,记作k-distance(p);
步骤2.7.2、统计k距离邻域,k距离邻域指的是包含着其他所有与数据点的距离小于等于k距离的集合,记作Nk-distance(p);
步骤2.7.3、计算每个数据点的可达距离,可达距离指的是两个数据点之间的距离,但是这个距离至少是数据点的k距离,可以用公式Reach-distk(P,O)=max{k-distance(O),d(P,O)}定义,其中,P和O均为数据集中的数据点;
步骤2.7.4、计算每个数据点的局部可达密度,局部可达密度是指对象数据点相对于它的k距离邻域的平均可达距离的倒数,记作ρk(P);
步骤2.7.5:计算各个数据点的局部离群因子,局部离群因子指的是数据点的局部可达密度与该点的k距离邻域的局部可达密度之比的平均值,用公式定义为:
Figure BDA0003110370920000082
步骤2.8、不断调整k距离终的k值和设定的局部离群因子的阈值,查找所有数据点比局部林群因子小的数据点的点集,使最终得到的离群点集中的数据点个数与离群点范围中的数据点个数相同,将其集合保存并记作数据点集A3;
步骤2.9、数据点集A3作为检测结果。
步骤3、使用离群点范围对检测结果进行检索清洗得到离群点集。
步骤3.1、将离群点范围(A1或A2)和检测结果A3进行相交操作,将共同拥有的数据点集合保存并记作数据点集A,数据点集A作为最终的离群点集。
实施例二:
本具体实施方式提供了一种基于信息熵加权的LOF离群点检测清洗装置,装置包括:
标准化处理模块:使用标准化方法处理数据集,保持数据集中离群点的离群性;
数据集分析模块:离群点范围通过分析数据集中所有数据点的密度分布情况寻找获得;
检测模块:使用LOF算法对进行信息熵加权后的数据集进行检测得到检测结果;
清洗模块:使用离群点范围对检测结果进行检索清洗得到离群点集。
实施例三:
本具体实施方式提供了一种基于信息熵加权的LOF离群点检测清洗设备,包括处理器及存储介质;
存储介质用于存储指令;
处理器用于根据指令进行操作以执行根据实施例一中任一项方法的步骤。
实施例四:
本具体实施方式提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一中任一项方法的步骤。
本申请相比于传统LOF算法,通过先对数据中可疑的数据点进行提取,降低了LOF算法误报的可能,再通过信息熵加权LOF算法,进一步提升算法预测的精度。同时也降低了传统离群点检测对于数据集的一些专业知识的需求,能够使用于大部分未知离群点个数的数据集。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (9)

1.一种基于信息熵加权的LOF离群点检测清洗方法,用于对未知离群点个数的数据集进行检测和清洗,其特征在于,所述检测清洗方法包括:
通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围;
使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果;
使用离群点范围对检测结果进行检索清洗得到离群点集。
2.根据权利要求1所述的一种基于信息熵加权的LOF离群点检测清洗方法,其特征在于,所述通过分析数据集中所有数据点的密度分布情况寻找获得离群点范围包括:
将数据集中两个数据点之间的欧式距离保存于距离矩阵D中;
计算距离矩阵D中的欧式距离的平均值,并作为领域半径R;
以各个数据点作为中心,统计领域半径R内存在的其他数据点的个数保存于数量矩阵P中;
遍历数量矩阵P中数量跳变较大的数据点,
若存在数量跳变较大的数据点,则将该数据点的数量保存为邻域数量ρ1,将密度小于邻域密度ρ1的数据点集合保存并作为数据点集A1;数据点集A1作为离群点范围;
若不存在数量跳变较大的数据点,则计算数量矩阵P的平均数量值ρ2,将数量远小于平均数量值ρ2的数据点集合保存并作为数据点集A2;数据点集A2作为离群点范围;
其中,
通过数据集中两个数据点之间的欧式距离表示数据点之间的分布情况,
以数据点为中心,通过其领域半径R内存在的其他数据点的个数表示该数据点的密度情况。
3.根据权利要求1所述的一种基于信息熵加权的LOF离群点检测清洗方法,其特征在于,所述数据集的标准化方法处理包括:
使用RobustScaler标准化方法处理数据集。
4.根据权利要求1所述的一种基于信息熵加权的LOF离群点检测清洗方法,其特征在于,所述数据集的信息熵加权包括:
获取数据集Data′中第i个数据点的第j维属性的比重Pij,其公式如下:
Figure FDA0003110370910000021
其中,数据集Data′为使用标准化方法处理后的数据集,Data′={x′1,x′2,……,x′n},x′ij为数据集Data′中第i个数据点的第j维属性,n表示数据集Data′中数据点的个数;
根据Pij计算获取数据集Data′中第j维属性的信息熵Ej,其公式如下:
Figure FDA0003110370910000022
其中,p=1/lnn;
根据信息熵Ej计算获取数据集Data′中第j维属性的波动系数fj,其公式如下:
fj=1-Ej
根据波动系数fj计算获取数据集Data′中第j维属性的权值wj,其公式如下:
Figure FDA0003110370910000023
其中,m为数据点的维数;
在计算数据集Data′中任意两个数据点之间的欧式距离时,使用如下公式进行加权操作:
Figure FDA0003110370910000031
其中,xA和xB分别为数据集Data′中的第A数据点和第B个数据点。
5.根据权利要求1所述的一种基于信息熵加权的LOF离群点检测清洗方法,其特征在于,所述使用LOF算法对进行标准化方法处理和信息熵加权后的数据集进行检测得到检测结果包括:
使用标准化方法处理后且信息熵加权的数据集进行LOF算法检测;
不断调整LOF算法的k值和局部离群因子,使最终得到的离群点集中的数据点个数与离群点范围中的数据点个数相同,将其集合保存并记作数据点集A3;
数据点集A3作为检测结果。
6.根据权利要求1所述的一种基于信息熵加权的LOF离群点检测清洗方法,其特征在于,所述使用离群点范围对检测结果进行检索清洗得到离群点集包括:
将离群点范围和检测结果进行相交操作,将共同拥有的数据点集合保存并记作数据点集A,数据点集A作为最终的离群点集。
7.一种基于信息熵加权的LOF离群点检测清洗装置,其特征在于,所述装置包括:
标准化处理模块:使用标准化方法处理数据集,保持数据集中离群点的离群性;
数据集分析模块:离群点范围通过分析数据集中所有数据点的密度分布情况寻找获得;
检测模块:使用LOF算法对进行信息熵加权后的数据集进行检测得到检测结果;
清洗模块:使用离群点范围对检测结果进行检索清洗得到离群点集。
8.一种基于信息熵加权的LOF离群点检测清洗设备,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~6任一项所述方法的步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~6任一项所述方法的步骤。
CN202110649016.5A 2021-06-10 2021-06-10 基于信息熵加权的lof离群点检测清洗方法、装置、设备及存储介质 Pending CN113553319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110649016.5A CN113553319A (zh) 2021-06-10 2021-06-10 基于信息熵加权的lof离群点检测清洗方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110649016.5A CN113553319A (zh) 2021-06-10 2021-06-10 基于信息熵加权的lof离群点检测清洗方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113553319A true CN113553319A (zh) 2021-10-26

Family

ID=78130452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110649016.5A Pending CN113553319A (zh) 2021-06-10 2021-06-10 基于信息熵加权的lof离群点检测清洗方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113553319A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117932520A (zh) * 2024-03-20 2024-04-26 史瑞美(厦门)科技有限公司 基于数据识别的固体生物废物处理设备监测方法
CN117932520B (zh) * 2024-03-20 2024-06-07 史瑞美(厦门)科技有限公司 基于数据识别的固体生物废物处理设备监测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117932520A (zh) * 2024-03-20 2024-04-26 史瑞美(厦门)科技有限公司 基于数据识别的固体生物废物处理设备监测方法
CN117932520B (zh) * 2024-03-20 2024-06-07 史瑞美(厦门)科技有限公司 基于数据识别的固体生物废物处理设备监测方法

Similar Documents

Publication Publication Date Title
US10095774B1 (en) Cluster evaluation in unsupervised learning of continuous data
US11587222B2 (en) Method and apparatus for detecting defect pattern on wafer based on unsupervised learning
US20180082215A1 (en) Information processing apparatus and information processing method
WO2019049688A1 (ja) 異常音検知装置、異常モデル学習装置、異常検知装置、異常音検知方法、異常音生成装置、異常データ生成装置、異常音生成方法、およびプログラム
US20060161403A1 (en) Method and system for analyzing data and creating predictive models
CN112101278A (zh) 基于k近邻特征提取和深度学习的宅基地点云分类方法
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
CN112637132B (zh) 一种网络异常检测方法、装置、电子设备和存储介质
US20220083814A1 (en) Associating a population descriptor with a trained model
CN112633601A (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN112115897A (zh) 多指针仪表报警检测方法、装置、计算机设备及存储介质
WO2019200739A1 (zh) 数据欺诈识别方法、装置、计算机设备和存储介质
KR102470763B1 (ko) 데이터 이상치 탐색 장치 및 방법
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
CN113487223B (zh) 一种基于信息融合的风险评估方法和评估系统
Diao et al. Clustering by Detecting Density Peaks and Assigning Points by Similarity‐First Search Based on Weighted K‐Nearest Neighbors Graph
JP2021192155A (ja) 異常検知支援プログラム、異常検知支援方法および異常検知支援システム
CN113553319A (zh) 基于信息熵加权的lof离群点检测清洗方法、装置、设备及存储介质
US20220207302A1 (en) Machine learning method and machine learning apparatus
CN114117418B (zh) 基于社群检测异常账户的方法、系统、设备及存储介质
CN112732690B (zh) 一种用于慢病检测及风险评估的稳定系统及方法
CN111652733B (zh) 基于云计算和区块链的金融信息管理系统
CN111507878B (zh) 一种基于用户画像的网络犯罪嫌疑人侦查方法及系统
CN113420772A (zh) 基于多分类器与svdd协同算法的缺陷检测方法和装置
CN114528909A (zh) 一种基于流量日志特征提取的无监督异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination