CN111523576A - 一种适用于电子质量检测的密度峰值聚类离群点检测方法 - Google Patents

一种适用于电子质量检测的密度峰值聚类离群点检测方法 Download PDF

Info

Publication number
CN111523576A
CN111523576A CN202010285215.8A CN202010285215A CN111523576A CN 111523576 A CN111523576 A CN 111523576A CN 202010285215 A CN202010285215 A CN 202010285215A CN 111523576 A CN111523576 A CN 111523576A
Authority
CN
China
Prior art keywords
data
data point
value
data points
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010285215.8A
Other languages
English (en)
Other versions
CN111523576B (zh
Inventor
徐宁
史先友
刘小峰
姚潇
蒋爱民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN202010285215.8A priority Critical patent/CN111523576B/zh
Publication of CN111523576A publication Critical patent/CN111523576A/zh
Application granted granted Critical
Publication of CN111523576B publication Critical patent/CN111523576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种适用于电子质量检测的密度峰值聚类离群点检测方法,包括获取待检测离群点的所有数据点的多维特性检测数据集合;对于各数据点,分别计算局部密度值,以及该数据点到局部密度更高的最近数据点的距离值;根据各数据点局部密度值和距离值的大小,确定多个聚类中心,进而划分类簇;然后对于各数据点,基于局部密度值和距离值计算离群度;再根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合;最后将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点。本发明可充分利用聚类算法中离群点分布特点,量化出具体的特征数值,便于采用箱型法来检测出电离层中的差电子。算法易实现,效率和准确度皆较高。

Description

一种适用于电子质量检测的密度峰值聚类离群点检测方法
技术领域
本发明涉及数据挖掘在电子质量检测中的应用技术领域,特别是一种适用于电子质量检测的密度峰值聚类离群点检测方法。
背景技术
离群点的检测是数据挖掘算法中一个重要的课题,离群点检测技术具有重要的研究价值,且广泛的应用在药物研究、用户行为分析、电离层电子质量检测、网络入侵检测、股票证券交易、工业减损、金融等领域中。
离群点检测的算法有很多,大体上可以分为:基于统计学的、基于距离的、基于密度的和基于偏移的离群点检测算法等。目前人工智能、机器学习和模式识别等领域发展越来越快,越来越多有效、新颖的离群点检测方法和技术也随之出现,包括自组织映射技术,人工神经网络技术,模糊粗糙集技术和分区技术等。然而现有的大多数离群点检测算法在一定程度上均存在一些缺点,算法的运算速度以及准确率亟待提高。
发明内容
本发明的目的是,提供一种适用于电子质量检测的密度峰值聚类离群点检测方法,通过把传统聚类过程中的定性特点改进为定量来判别离群点,提高离群点检测的速度和准确率。
本发明采取的技术方案为:一种适用于电子质量检测的密度峰值聚类离群点检测方法,包括:
获取待检测离群点的所有数据点的多维特性检测数据集合;
对于各数据点,分别计算局部密度值;
对于各数据点,分别计算该数据点到局部密度更高的最近数据点的距离值;
根据各数据点局部密度值和距离值的大小,确定多个聚类中心;
根据不同数据点之间的局部密度值关系,确定各聚类中心之外的数据点的类别标签,得到多个类簇;
对于各数据点,基于该点的局部密度值和距离值计算离群度;
根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合;
将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点。
可选的,所述待检测离群点的数据点为雷达系统收集的电离层电子数据,各数据点包括34维度属性数据,由17对雷达对波组成;检测得到的离群数据点为雷达对波强度数据。
可选的,对于每个数据点,局部密度值ρ按照下式计算:
Figure BDA0002448268150000021
式中,ρi代表数据点i的局部密度值,j∈Is\{i}代表数据点集合Is中除数据点i之外的数据点j,dc为预设的截断距离,dij为数据点i和数据点j之间的欧式距离,对于两个多维数据点,两者之间的欧式距离为各维度数据之差平方和的开方,按照下式计算;
Figure BDA0002448268150000022
ik和jk分别为数据点i和j在第k个维度的属性参数,N为单个数据点的数据维度;
距离值δ按照下式计算:
δi=min(dij),j:ρj>ρi
式中,δi为数据点i的距离值。
距离值,即相对距离,对于数据点i来说,其距离值即为与比其密度大的数据点之间的最小距离。对于局部密度最大点,它的相对距离是距离它最远数据点的距离值。
可选的,所述截断距离dc预设置为使所有数据点的邻居个数的平均值占数据点总数的1%至2%的截断距离值。可把确定dc值的百分比称为截断距离取值百分比。
本发明采用高斯核计算密度值,高斯核得出的为连续值。
可选的,所述根据局部密度值和距离值的大小确定多个聚类中心包括:
基于各数据点的密度值和距离值,以密度值为坐标横轴,距离值为坐标纵轴,将密度值和距离值皆较大的数据点作为聚类中心。聚类中心的选择可由人工根据各数据点密度值和距离值在坐标系中的位置直观选取,且根据距离值的计算公式,当某一数据点的局部密度值最大时,其距离值也最大。
可选的,对于聚类中心之外的任一数据点,其类别标签与局部密度值高于该点且距离最近的数据点的类别标签相同。即属于同一类簇。
可选的,对于各数据点,离群度按照以下公式计算:
OFi=δi 1/ai a
OFi代表数据点i的离群度,δi是各数据点i的距离值,ρi是各数据点i的局部密度,α为平衡系数。因离群点的局部密度值一般较低,因此本发明公式通过平衡系数及其倒数的调整,使得ρi值的权重加大,在利用箱型法时将更容易选择离群点,相对距离越高,局部密度越低,OF值越高,越有可能是离群点。
可选的,根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合包括:将各非聚类中心数据点的离群度数值与预设的箱型法离群度上限值进行比较,将高于所述离群度上限值的非聚类中心数据点划分至边界区域。
所述将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点中,子数据点包括与边界区域中数据点为父子关系、祖父子关系、曾祖父子关系等的数据点,仅统称为父子关系。这里实际上实现了一种连续的箱型算法。
有益效果
与现有技术相比,本发明具有以下优点和进步:
(1)算法结构简单,不需要迭代运算,比较直观;
(2)算法可以对几乎任何无规则的数据集进行聚类得到离群点数据,计算速度快;
(3)实现了一种连续箱型算法,能够更准确的检测出对结果产生扰动的数据点。
附图说明
图1所示为本发明在电子质量检测中的离群点检测方法流程示意图;
图2所示为本发明一种实施例的电子部分(5)维度属性原始数据示意图;
图3所示为图2对应实施例中电子质量检测中离群点检测结果过程示意图,其中3(a)为原数据点在局部密度-相对距离坐标系中的位置示意图,3(b)为便捷边界区域检测结果示意图,3(c)为方法最终检测结果示意图;
图4为检测效果示意图。
具体实施方式
以下结合附图和具体实施例进一步描述。
实施例1
参考图1,本实施例为一种适用于电子质量检测的密度峰值聚类离群点检测方法,包括:
获取待检测离群点的所有数据点的多维特性检测数据集合;
对于各数据点,分别计算局部密度值;
对于各数据点,分别计算该数据点到局部密度更高的最近数据点的距离值;
根据各数据点局部密度值和距离值的大小,确定多个聚类中心;
根据不同数据点之间的局部密度值关系,确定各聚类中心之外的数据点的类别标签,得到多个类簇;
对于各数据点,基于该点的局部密度值和距离值计算离群度;
根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合;
将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点。
通过把传统聚类过程中的定性特点改进为定量,使得算法能够更方便的利用箱型法来判别离群点,提高离群点检测的速度和准确率。
实施例1-1
本实施例针对实施例1中离群检测方法在电离层电子质量的检测中的应用进行详细描述。
利用实施例1中密度峰值聚类离群点检测方法的电子质量检测方法,具体步骤如下。
步骤一、获取待检测离群点的所有数据点的多维特性检测数据集合。
参考图1所示,待检测离群点的数据点为雷达系统收集的电离层电子数据,各数据点包括34维度属性数据,由17对雷达对波组成;检测得到的离群数据点为雷达对波强度数据。采用雷达进行电离层电子属性参数的检测为现有技术。
步骤二、特性定量
对于各数据点,分别计算局部密度值ρ:
Figure BDA0002448268150000051
式中,ρi代表数据点i的局部密度值,j∈Is\{i}代表数据点集合Is中除数据点i之外的数据点j,dc为预设的截断距离,dij为数据点i和数据点j之间的欧式距离,本实施例中,各数据点为34维度的数据,则对于两个多维数据点i和j,两者之间的欧式距离为34维数据中各维数据之差的平方和的开方,按照下式计算;
Figure BDA0002448268150000052
ik和jk分别为数据点i和j在第k个维度的属性参数,N为单个数据点的数据维度;
对于各数据点,分别计算该数据点到局部密度更高的最近数据点的距离值δ:
δi=min(dij),j:ρj>ρi
式中,δi为数据点i的距离值。
距离值,即相对距离,对于数据点i来说,其距离值即为与比其密度大的数据点之间的最小距离。对于局部密度最大点,它的相对距离是距离它最远数据点的距离值。
截断距离dc预设置为使所有数据点的邻居个数的平均值占数据点总数的1%至2%的截断距离值。可把确定dc值的百分比称为截断距离取值百分比。
步骤三、划分类簇
根据各数据点局部密度值和距离值的大小,确定多个聚类中心,包括:
基于各数据点的密度值和距离值,以密度值为坐标横轴,距离值为坐标纵轴,将密度值和距离值皆较大的数据点作为聚类中心。聚类中心的选择可由人工根据各数据点密度值和距离值在坐标系中的位置直观选取,且根据距离值的计算公式,当某一数据点的局部密度值最大时,其距离值也最大。
对于聚类中心之外的任一数据点,其类别标签与局部密度值高于该点且距离最近的数据点的类别标签相同。即属于同一类簇。
步骤四、确定边界区域
根据不同数据点之间的局部密度值关系,确定各聚类中心之外的数据点的类别标签,得到多个类簇,包括:
对于各数据点,基于该点的局部密度值和距离值计算离群度:
OFi=δi 1/ai a
OFi代表数据点i的离群度,δi是各数据点i的距离值,ρi是各数据点i的局部密度,α为平衡系数。因离群点的局部密度值一般较低,因此本发明公式通过平衡系数及其倒数的调整,使得ρi值的权重加大,在利用箱型法时将更容易选择离群点,相对距离越高,局部密度越低,OF值越高,越有可能是离群点。
根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合,包括:将各非聚类中心数据点的离群度数值与预设的箱型法离群度上限值进行比较,将高于所述离群度上限值的非聚类中心数据点划分至边界区域。
步骤五、将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点。子数据点包括与边界区域中数据点为父子关系、祖父子关系、曾祖父子关系等的数据点,仅统称为父子关系。这里实际上实现了一种连续的箱型算法。
参考图3所示,本实施例的检测过程及结果中,离群点中没有包含边界区域中数据点的子数据点,离群点是由边界区域数据点组成。
本实施例共检测出离群点86个,占总数25%,实际离群点占总数36%。综合证明检测效果在一般以上。本实施例中截断距离dc=0.6817,在离群度计算公式中a=5.5。参考图4,其中每个维度左侧柱形高度代表离群点均值,右侧柱形高度代表正常点均值。可以看出图中只有27、34维度电离层离群点均值高于电离层正常点均值,其他维度电离层离群点均值远远小于电离层正常点均值,这说明电离层离群点的雷达对波强度较小,质量较差,也即本发明能够成功检测出电离层中质量较差的电子。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (8)

1.一种适用于电子质量检测的密度峰值聚类离群点检测方法,其特征是,包括:
获取待检测离群点的所有数据点的多维特性检测数据集合;
对于各数据点,分别计算局部密度值;
对于各数据点,分别计算该数据点到局部密度更高的最近数据点的距离值;
根据各数据点局部密度值和距离值的大小,确定多个聚类中心;
根据不同数据点之间的局部密度值关系,确定各聚类中心之外的数据点的类别标签,得到多个类簇;
对于各数据点,基于该点的局部密度值和距离值计算离群度;
根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合;
将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点。
2.根据权利要求1所述的方法,其特征是,所述待检测离群点的数据点为雷达系统收集的电离层电子数据,各数据点包括34维度属性数据,由17对雷达对波组成;检测得到的离群数据点为雷达对波强度数据。
3.根据权利要求1所述的方法,其特征是,对于每个数据点,局部密度值ρ按照下式计算:
Figure FDA0002448268140000011
式中,ρi代表数据点i的局部密度值,j∈Is\{i}代表数据点集合Is中除数据点i之外的数据点j,dc为预设的截断距离,dij为数据点i和数据点j之间的欧式距离,按照下式计算;
Figure FDA0002448268140000012
ik和jk分别为数据点i和j在第k个维度的属性参数,N为单个数据点的数据维度;
距离值δ按照下式计算:
δi=min(dij),j:ρj>ρi
式中,δi为数据点i的距离值。
4.根据权利要求1所述的方法,其特征是,所述截断距离dc预设置为使所有数据点的邻居个数的平均值占数据点总数的1%至2%的截断距离值。
5.根据权利要求1所述的方法,其特征是,所述根据局部密度值和距离值的大小确定多个聚类中心包括:
基于各数据点的密度值和距离值,以密度值为坐标横轴,距离值为坐标纵轴,将密度值和距离值皆较大的数据点作为聚类中心。
6.根据权利要求1所述的方法,其特征是,对于聚类中心之外的任一数据点,其类别标签与局部密度值高于该点且距离最近的数据点的类别标签相同。
7.根据权利要求1所述的方法,其特征是,对于各数据点,离群度按照以下公式计算:
OFi=δi 1/ai a
OFi代表数据点i的离群度,δi是各数据点i的距离值,ρi是各数据点i的局部密度,α为平衡系数。
8.根据权利要求1所述的方法,其特征是,根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合包括:将各非聚类中心数据点的离群度数值与预设的箱型法离群度上限值进行比较,将高于所述离群度上限值的非聚类中心数据点划分至边界区域。
CN202010285215.8A 2020-04-13 2020-04-13 一种适用于电子质量检测的密度峰值聚类离群点检测方法 Active CN111523576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010285215.8A CN111523576B (zh) 2020-04-13 2020-04-13 一种适用于电子质量检测的密度峰值聚类离群点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010285215.8A CN111523576B (zh) 2020-04-13 2020-04-13 一种适用于电子质量检测的密度峰值聚类离群点检测方法

Publications (2)

Publication Number Publication Date
CN111523576A true CN111523576A (zh) 2020-08-11
CN111523576B CN111523576B (zh) 2023-06-16

Family

ID=71911702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010285215.8A Active CN111523576B (zh) 2020-04-13 2020-04-13 一种适用于电子质量检测的密度峰值聚类离群点检测方法

Country Status (1)

Country Link
CN (1) CN111523576B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023208091A1 (zh) * 2022-04-29 2023-11-02 上海微电子装备(集团)股份有限公司 检测配方设置与优化方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649456A (zh) * 2016-09-23 2017-05-10 西安电子科技大学 基于多智能体进化的聚类和离群点检测方法
CN109102028A (zh) * 2018-08-20 2018-12-28 南京邮电大学 基于改进的快速密度峰值聚类和lof离群点检测算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649456A (zh) * 2016-09-23 2017-05-10 西安电子科技大学 基于多智能体进化的聚类和离群点检测方法
CN109102028A (zh) * 2018-08-20 2018-12-28 南京邮电大学 基于改进的快速密度峰值聚类和lof离群点检测算法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023208091A1 (zh) * 2022-04-29 2023-11-02 上海微电子装备(集团)股份有限公司 检测配方设置与优化方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111523576B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN111640089B (zh) 一种基于特征图中心点的缺陷检测方法及装置
US9064151B2 (en) Device and method for detecting plantation rows
CN106447676A (zh) 一种基于快速密度聚类算法的图像分割方法
CN116188475B (zh) 一种外观缺陷自动光学检测的智慧控制方法、系统及介质
CN109408562B (zh) 一种基于客户特征的分组推荐方法及其装置
Yang et al. Ranking 3D feature correspondences via consistency voting
CN111428733A (zh) 基于语义特征空间转换的零样本目标检测方法及系统
CN108846338A (zh) 基于面向对象随机森林的极化特征选择及分类方法
CN109409438B (zh) 基于ifcm聚类与变分推断的遥感影像分类方法
CN110991547A (zh) 一种基于多特征最优融合的图像显著性检测方法
CN112926592B (zh) 一种基于改进Fast算法的商标检索方法及装置
CN114663373A (zh) 一种用于零件表面质量检测的点云配准方法及装置
CN114139618A (zh) 基于改进密度峰值聚类的信号依赖噪声参数估计方法
CN114580572B (zh) 一种异常值的识别方法、装置、电子设备及存储介质
CN111523576B (zh) 一种适用于电子质量检测的密度峰值聚类离群点检测方法
CN114898118A (zh) 基于多源点云的输电线路房屋拆迁量自动统计方法及系统
CN114417095A (zh) 一种数据集划分方法及装置
CN111968115B (zh) 基于栅格化图像处理方法的骨科耗材检测方法及系统
CN111612099B (zh) 基于局部排序差值细化模式的纹理图像分类方法及系统
CN111127407B (zh) 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法
Zhang et al. A new outlier detection algorithm based on fast density peak clustering outlier factor.
CN103679170B (zh) 一种基于局部特征的显著区域检测方法
CN113343918A (zh) 一种电力设备识别方法、系统、介质及电子设备
CN107491780A (zh) 一种基于sift的书法防倒挂方法
CN109460423B (zh) 一种基于d-hs的低碳相似实例检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant