CN111523576B - 一种适用于电子质量检测的密度峰值聚类离群点检测方法 - Google Patents
一种适用于电子质量检测的密度峰值聚类离群点检测方法 Download PDFInfo
- Publication number
- CN111523576B CN111523576B CN202010285215.8A CN202010285215A CN111523576B CN 111523576 B CN111523576 B CN 111523576B CN 202010285215 A CN202010285215 A CN 202010285215A CN 111523576 B CN111523576 B CN 111523576B
- Authority
- CN
- China
- Prior art keywords
- data
- data point
- value
- point
- data points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种适用于电子质量检测的密度峰值聚类离群点检测方法,包括获取待检测离群点的所有数据点的多维特性检测数据集合;对于各数据点,分别计算局部密度值,以及该数据点到局部密度更高的最近数据点的距离值;根据各数据点局部密度值和距离值的大小,确定多个聚类中心,进而划分类簇;然后对于各数据点,基于局部密度值和距离值计算离群度;再根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合;最后将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点。本发明可充分利用聚类算法中离群点分布特点,量化出具体的特征数值,便于采用箱型法来检测出电离层中的差电子。算法易实现,效率和准确度皆较高。
Description
技术领域
本发明涉及数据挖掘在电子质量检测中的应用技术领域,特别是一种适用于电子质量检测的密度峰值聚类离群点检测方法。
背景技术
离群点的检测是数据挖掘算法中一个重要的课题,离群点检测技术具有重要的研究价值,且广泛的应用在药物研究、用户行为分析、电离层电子质量检测、网络入侵检测、股票证券交易、工业减损、金融等领域中。
离群点检测的算法有很多,大体上可以分为:基于统计学的、基于距离的、基于密度的和基于偏移的离群点检测算法等。目前人工智能、机器学习和模式识别等领域发展越来越快,越来越多有效、新颖的离群点检测方法和技术也随之出现,包括自组织映射技术,人工神经网络技术,模糊粗糙集技术和分区技术等。然而现有的大多数离群点检测算法在一定程度上均存在一些缺点,算法的运算速度以及准确率亟待提高。
发明内容
本发明的目的是,提供一种适用于电子质量检测的密度峰值聚类离群点检测方法,通过把传统聚类过程中的定性特点改进为定量来判别离群点,提高离群点检测的速度和准确率。
本发明采取的技术方案为:一种适用于电子质量检测的密度峰值聚类离群点检测方法,包括:
获取待检测离群点的所有数据点的多维特性检测数据集合;
对于各数据点,分别计算局部密度值;
对于各数据点,分别计算该数据点到局部密度更高的最近数据点的距离值;
根据各数据点局部密度值和距离值的大小,确定多个聚类中心;
根据不同数据点之间的局部密度值关系,确定各聚类中心之外的数据点的类别标签,得到多个类簇;
对于各数据点,基于该点的局部密度值和距离值计算离群度;
根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合;
将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点。
可选的,所述待检测离群点的数据点为雷达系统收集的电离层电子数据,各数据点包括34维度属性数据,由17对雷达对波组成;检测得到的离群数据点为雷达对波强度数据。
可选的,对于每个数据点,局部密度值ρ按照下式计算:
式中,ρi代表数据点i的局部密度值,j∈Is\{i}代表数据点集合Is中除数据点i之外的数据点j,dc为预设的截断距离,dij为数据点i和数据点j之间的欧式距离,对于两个多维数据点,两者之间的欧式距离为各维度数据之差平方和的开方,按照下式计算;
ik和jk分别为数据点i和j在第k个维度的属性参数,N为单个数据点的数据维度;
距离值δ按照下式计算:
δi=min(dij),j:ρj>ρi
式中,δi为数据点i的距离值。
距离值,即相对距离,对于数据点i来说,其距离值即为与比其密度大的数据点之间的最小距离。对于局部密度最大点,它的相对距离是距离它最远数据点的距离值。
可选的,所述截断距离dc预设置为使所有数据点的邻居个数的平均值占数据点总数的1%至2%的截断距离值。可把确定dc值的百分比称为截断距离取值百分比。
本发明采用高斯核计算密度值,高斯核得出的为连续值。
可选的,所述根据局部密度值和距离值的大小确定多个聚类中心包括:
基于各数据点的密度值和距离值,以密度值为坐标横轴,距离值为坐标纵轴,将密度值和距离值皆较大的数据点作为聚类中心。聚类中心的选择可由人工根据各数据点密度值和距离值在坐标系中的位置直观选取,且根据距离值的计算公式,当某一数据点的局部密度值最大时,其距离值也最大。
可选的,对于聚类中心之外的任一数据点,其类别标签与局部密度值高于该点且距离最近的数据点的类别标签相同。即属于同一类簇。
可选的,对于各数据点,离群度按照以下公式计算:
OFi=δi 1/a/ρi a
OFi代表数据点i的离群度,δi是各数据点i的距离值,ρi是各数据点i的局部密度,α为平衡系数。因离群点的局部密度值一般较低,因此本发明公式通过平衡系数及其倒数的调整,使得ρi值的权重加大,在利用箱型法时将更容易选择离群点,相对距离越高,局部密度越低,OF值越高,越有可能是离群点。
可选的,根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合包括:将各非聚类中心数据点的离群度数值与预设的箱型法离群度上限值进行比较,将高于所述离群度上限值的非聚类中心数据点划分至边界区域。
所述将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点中,子数据点包括与边界区域中数据点为父子关系、祖父子关系、曾祖父子关系等的数据点,仅统称为父子关系。这里实际上实现了一种连续的箱型算法。
有益效果
与现有技术相比,本发明具有以下优点和进步:
(1)算法结构简单,不需要迭代运算,比较直观;
(2)算法可以对几乎任何无规则的数据集进行聚类得到离群点数据,计算速度快;
(3)实现了一种连续箱型算法,能够更准确的检测出对结果产生扰动的数据点。
附图说明
图1所示为本发明在电子质量检测中的离群点检测方法流程示意图;
图2所示为本发明一种实施例的电子部分(5)维度属性原始数据示意图;
图3所示为图2对应实施例中电子质量检测中离群点检测结果过程示意图,其中3(a)为原数据点在局部密度-相对距离坐标系中的位置示意图,3(b)为便捷边界区域检测结果示意图,3(c)为方法最终检测结果示意图;
图4为检测效果示意图。
具体实施方式
以下结合附图和具体实施例进一步描述。
实施例1
参考图1,本实施例为一种适用于电子质量检测的密度峰值聚类离群点检测方法,包括:
获取待检测离群点的所有数据点的多维特性检测数据集合;
对于各数据点,分别计算局部密度值;
对于各数据点,分别计算该数据点到局部密度更高的最近数据点的距离值;
根据各数据点局部密度值和距离值的大小,确定多个聚类中心;
根据不同数据点之间的局部密度值关系,确定各聚类中心之外的数据点的类别标签,得到多个类簇;
对于各数据点,基于该点的局部密度值和距离值计算离群度;
根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合;
将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点。
通过把传统聚类过程中的定性特点改进为定量,使得算法能够更方便的利用箱型法来判别离群点,提高离群点检测的速度和准确率。
实施例1-1
本实施例针对实施例1中离群检测方法在电离层电子质量的检测中的应用进行详细描述。
利用实施例1中密度峰值聚类离群点检测方法的电子质量检测方法,具体步骤如下。
步骤一、获取待检测离群点的所有数据点的多维特性检测数据集合。
参考图1所示,待检测离群点的数据点为雷达系统收集的电离层电子数据,各数据点包括34维度属性数据,由17对雷达对波组成;检测得到的离群数据点为雷达对波强度数据。采用雷达进行电离层电子属性参数的检测为现有技术。
步骤二、特性定量
对于各数据点,分别计算局部密度值ρ:
式中,ρi代表数据点i的局部密度值,j∈Is\{i}代表数据点集合Is中除数据点i之外的数据点j,dc为预设的截断距离,dij为数据点i和数据点j之间的欧式距离,本实施例中,各数据点为34维度的数据,则对于两个多维数据点i和j,两者之间的欧式距离为34维数据中各维数据之差的平方和的开方,按照下式计算;
ik和jk分别为数据点i和j在第k个维度的属性参数,N为单个数据点的数据维度;
对于各数据点,分别计算该数据点到局部密度更高的最近数据点的距离值δ:
δi=min(dij),j:ρj>ρi
式中,δi为数据点i的距离值。
距离值,即相对距离,对于数据点i来说,其距离值即为与比其密度大的数据点之间的最小距离。对于局部密度最大点,它的相对距离是距离它最远数据点的距离值。
截断距离dc预设置为使所有数据点的邻居个数的平均值占数据点总数的1%至2%的截断距离值。可把确定dc值的百分比称为截断距离取值百分比。
步骤三、划分类簇
根据各数据点局部密度值和距离值的大小,确定多个聚类中心,包括:
基于各数据点的密度值和距离值,以密度值为坐标横轴,距离值为坐标纵轴,将密度值和距离值皆较大的数据点作为聚类中心。聚类中心的选择可由人工根据各数据点密度值和距离值在坐标系中的位置直观选取,且根据距离值的计算公式,当某一数据点的局部密度值最大时,其距离值也最大。
对于聚类中心之外的任一数据点,其类别标签与局部密度值高于该点且距离最近的数据点的类别标签相同。即属于同一类簇。
步骤四、确定边界区域
根据不同数据点之间的局部密度值关系,确定各聚类中心之外的数据点的类别标签,得到多个类簇,包括:
对于各数据点,基于该点的局部密度值和距离值计算离群度:
OFi=δi 1/a/ρi a
OFi代表数据点i的离群度,δi是各数据点i的距离值,ρi是各数据点i的局部密度,α为平衡系数。因离群点的局部密度值一般较低,因此本发明公式通过平衡系数及其倒数的调整,使得ρi值的权重加大,在利用箱型法时将更容易选择离群点,相对距离越高,局部密度越低,OF值越高,越有可能是离群点。
根据所有数据点的离群度,利用箱型法确定属于边界区域的数据点集合,包括:将各非聚类中心数据点的离群度数值与预设的箱型法离群度上限值进行比较,将高于所述离群度上限值的非聚类中心数据点划分至边界区域。
步骤五、将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点。子数据点包括与边界区域中数据点为父子关系、祖父子关系、曾祖父子关系等的数据点,仅统称为父子关系。这里实际上实现了一种连续的箱型算法。
参考图3所示,本实施例的检测过程及结果中,离群点中没有包含边界区域中数据点的子数据点,离群点是由边界区域数据点组成。
本实施例共检测出离群点86个,占总数25%,实际离群点占总数36%。综合证明检测效果在一般以上。本实施例中截断距离dc=0.6817,在离群度计算公式中a=5.5。参考图4,其中每个维度左侧柱形高度代表离群点均值,右侧柱形高度代表正常点均值。可以看出图中只有27、34维度电离层离群点均值高于电离层正常点均值,其他维度电离层离群点均值远远小于电离层正常点均值,这说明电离层离群点的雷达对波强度较小,质量较差,也即本发明能够成功检测出电离层中质量较差的电子。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (6)
1.一种适用于电子质量检测的密度峰值聚类离群点检测方法,其特征是,包括:
获取待检测离群点的所有数据点的多维特性检测数据集合;所述待检测离群点的数据点为雷达系统收集的电离层电子数据;
对于各数据点,分别计算局部密度值;
对于各数据点,分别计算该数据点到局部密度更高的最近数据点的距离值;
根据各数据点局部密度值和距离值的大小,确定多个聚类中心;
根据不同数据点之间的局部密度值关系,确定各聚类中心之外的数据点的类别标签,得到多个类簇;
对于各数据点,基于该点的局部密度值和距离值计算离群度;
根据所有数据点的离群度,利用箱型法将各非聚类中心数据点的离群度数值与预设的箱型法离群度上限值进行比较,将高于所述离群度上限值的非聚类中心数据点划分至边界区域,得到属于边界区域的数据点集合;
将边界区域中的数据点及其在各类簇中的子数据点作为离群数据点;
其中,对于各数据点,离群度按照以下公式计算:
OFi=δi 1/a/ρi a
OFi代表数据点i的离群度,δi是各数据点i的距离值,ρi是各数据点i的局部密度,α为平衡系数。
2.根据权利要求1所述的方法,其特征是,各数据点包括34维度属性数据,由17对雷达对波组成;检测得到的离群数据点为雷达对波强度较小的数据。
4.根据权利要求3所述的方法,其特征是,所述截断距离dc预设置为使所有数据点的邻居个数的平均值占数据点总数的1%至2%的截断距离值。
5.根据权利要求1所述的方法,其特征是,所述根据局部密度值和距离值的大小确定多个聚类中心包括:
基于各数据点的密度值和距离值,以密度值为坐标横轴,距离值为坐标纵轴,将密度值和距离值皆较大的数据点作为聚类中心。
6.根据权利要求1所述的方法,其特征是,对于聚类中心之外的任一数据点,其类别标签与局部密度值高于该点且距离最近的数据点的类别标签相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010285215.8A CN111523576B (zh) | 2020-04-13 | 2020-04-13 | 一种适用于电子质量检测的密度峰值聚类离群点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010285215.8A CN111523576B (zh) | 2020-04-13 | 2020-04-13 | 一种适用于电子质量检测的密度峰值聚类离群点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523576A CN111523576A (zh) | 2020-08-11 |
CN111523576B true CN111523576B (zh) | 2023-06-16 |
Family
ID=71911702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010285215.8A Active CN111523576B (zh) | 2020-04-13 | 2020-04-13 | 一种适用于电子质量检测的密度峰值聚类离群点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523576B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058064A (zh) * | 2022-04-29 | 2023-11-14 | 上海微电子装备(集团)股份有限公司 | 检测配方设置与优化方法、装置、电子设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649456A (zh) * | 2016-09-23 | 2017-05-10 | 西安电子科技大学 | 基于多智能体进化的聚类和离群点检测方法 |
CN109102028A (zh) * | 2018-08-20 | 2018-12-28 | 南京邮电大学 | 基于改进的快速密度峰值聚类和lof离群点检测算法 |
-
2020
- 2020-04-13 CN CN202010285215.8A patent/CN111523576B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111523576A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287788A (zh) | 基于改进YOLOv3和改进NMS的行人检测方法 | |
CN111640089B (zh) | 一种基于特征图中心点的缺陷检测方法及装置 | |
US20160196467A1 (en) | Three-Dimensional Face Recognition Device Based on Three Dimensional Point Cloud and Three-Dimensional Face Recognition Method Based on Three-Dimensional Point Cloud | |
CN111428733B (zh) | 基于语义特征空间转换的零样本目标检测方法及系统 | |
CN116188475B (zh) | 一种外观缺陷自动光学检测的智慧控制方法、系统及介质 | |
CN105608441B (zh) | 一种车型识别方法及系统 | |
CN110097091B (zh) | 训练与推理数据分布不一致条件下的图像细粒度识别方法 | |
CN103839065A (zh) | 人群动态聚集特征提取方法 | |
CN109408562B (zh) | 一种基于客户特征的分组推荐方法及其装置 | |
CN106780552A (zh) | 基于局部区域联合跟踪检测学习的抗遮挡目标跟踪方法 | |
CN111460927A (zh) | 对房产证图像进行结构化信息提取的方法 | |
CN115272652A (zh) | 基于多元回归和自适应焦点损失的密集物体图像检测方法 | |
CN110991547A (zh) | 一种基于多特征最优融合的图像显著性检测方法 | |
CN112598054A (zh) | 基于深度学习的输变电工程质量通病防治检测方法 | |
CN114663373A (zh) | 一种用于零件表面质量检测的点云配准方法及装置 | |
CN111523576B (zh) | 一种适用于电子质量检测的密度峰值聚类离群点检测方法 | |
CN113657423A (zh) | 适用于小体积零件与堆叠零件的目标检测方法及其应用 | |
CN111612099B (zh) | 基于局部排序差值细化模式的纹理图像分类方法及系统 | |
CN116561692A (zh) | 一种动态更新的实时量测数据检测方法 | |
Zhang et al. | A new outlier detection algorithm based on fast density peak clustering outlier factor. | |
CN104268571B (zh) | 一种基于最小树聚类的红外多目标分割方法 | |
CN106611418A (zh) | 一种图像分割算法 | |
CN114359742B (zh) | 一种优化小目标检测的加权损失函数计算方法 | |
CN103679170B (zh) | 一种基于局部特征的显著区域检测方法 | |
CN111723737B (zh) | 一种基于多尺度匹配策略深度特征学习的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |