CN117349220B - 一种基于pci总线的数据处理方法及系统 - Google Patents
一种基于pci总线的数据处理方法及系统 Download PDFInfo
- Publication number
- CN117349220B CN117349220B CN202311638904.2A CN202311638904A CN117349220B CN 117349220 B CN117349220 B CN 117349220B CN 202311638904 A CN202311638904 A CN 202311638904A CN 117349220 B CN117349220 B CN 117349220B
- Authority
- CN
- China
- Prior art keywords
- cluster
- data points
- clustering
- data
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims abstract description 109
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000005192 partition Methods 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 19
- 230000005856 abnormality Effects 0.000 claims description 11
- 238000003064 k means clustering Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000009826 distribution Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4204—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
- G06F13/4221—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2213/00—Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F2213/0024—Peripheral component interconnect [PCI]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及电数字数据处理技术领域,具体涉及一种基于PCI总线的数据处理方法及系统。方法包括:获取通过PCI总线采集到的电路系统中电子元件对应的数据点;根据每个子区间内各数据点与其所在的窗口内其余数据点之间的电流差异和电压差异确定初始聚类中心点,并对数据点进行聚类获得初始聚类簇;根据初始聚类簇的形状以及对应的链码得到异常值,进而确定正常聚类簇和异常聚类簇;根据异常聚类簇的主成分方向和异常值获得分割数量;基于分割数量和正常聚类簇的数量再次对所有数据点进行聚类,进而确定离散数据点并进行剔除。本发明提高了离散电压数据和离散电流数据的剔除效果。
Description
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种基于PCI总线的数据处理方法及系统。
背景技术
PCI总线是一种计算机总线标准,用于连接和通信计算机主板上的各种硬件组件,PCI总线允许这些硬件组件与计算机的中央处理器(CPU)和内存进行数据交换,同时PCI总线接口的热插拔特性为计算机硬件连接提供了更便捷的数据传输方式和更高的性能。
通过PCI总线对电路系统的各个电子元件工作时的电压数据和电流数据进行传输监测时,由于电磁耦合现象以及射频干扰会存在异常离群的电压数据或电流数据,因此可以使用基于聚类的局部异常因子检测算法(Cluster-Based Local Outlier Factor,CBLOF)筛除离群数据,而CBLOF算法是基于聚类结果计算数据点的异常值,为了更精准的筛除异常值,需要对聚类过程中K值选取进行优化。聚类过程中对于此类分布较为离散的数据,通过传统的计算数据平均距离等选取K值的方式会导致聚类结果不够准确,影响CBLOF算法的识别结果,进而导致离散数据的剔除效果较差。
发明内容
为了解决现有方法在对通过PCI总线对电路系统的各个电子元件工作过程中的离散电压数据和离散电流数据进行剔除时存在的剔除效果较差的问题,本发明的目的在于提供一种基于PCI总线的数据处理方法及系统,所采用的技术方案具体如下:
第一方面,本发明提供了一种基于PCI总线的数据处理方法,该方法包括以下步骤:
获取通过PCI总线采集到的电路系统中各电子元件工作过程中的电压值和对应的电流值;基于所有电压值和所有电流值获取数据点,其中数据点的横坐标为电压值,纵坐标为电流值;
基于不同电压值对应的数据点的数量差异对电压区间进行划分获得不少于两个子区间;根据每个子区间内数据点的数量占比以及子区间长度,确定每个子区间对应的窗口长度;基于所述窗口长度获取每个子区间对应的窗口;根据每个子区间内各数据点与其所在的窗口内其余数据点之间的电流差异和电压差异,得到每个数据点对应的聚类中心评价值;基于所述聚类中心评价值筛选初始聚类中心点,并对数据点进行聚类获得每个初始聚类簇;
根据每个初始聚类簇的形状以及每个初始聚类簇对应的链码,得到每个初始聚类簇的异常值;基于所述异常值确定正常聚类簇和异常聚类簇;根据异常聚类簇对应的主成分方向和异常值,获得异常聚类簇的分割数量;
基于所述分割数量和正常聚类簇的数量再次对所有数据点进行聚类获得聚类结果,基于聚类结果确定离散数据点,并将离散数据点进行剔除。
优选的,所述基于不同电压值对应的数据点的数量差异对电压区间进行划分获得不少于两个子区间,包括:
统计每种电压值对应的数据点的数量;对所有种电压值对应的数据点的数量进行曲线拟合获得第一曲线;所述第一曲线上的点的横坐标为电压值,纵坐标为电压值对应的数据点的数量;
获取所述第一曲线上的波谷点;将所述波谷点对应的电压值作为分割点,对所有电压值构成的电压区间进行划分,获得不少于两个子区间。
优选的,所述根据每个子区间内数据点的数量占比以及子区间长度,确定每个子区间对应的窗口长度,包括:
对于第a个子区间:
将第a个子区间内数据点的数量占比以及第a个子区间内电压值的种类数的乘积的向上取整值,作为第a个子区间对应的窗口长度;所述第a个子区间内数据点的数量占比的获取过程为:第a个子区间内数据点的数量与所有数据点的总数量的比值作为第a个子区间内数据点的数量占比。
优选的,所述根据每个子区间内各数据点与其所在的窗口内其余数据点之间的电流差异和电压差异,得到每个数据点对应的聚类中心评价值,包括:
对于第a个子区间内的第j个数据点:
将第j个数据点的电压值与所有数据点的最大电压值的比值记为第j个数据点对应的第一比值;将第j个数据点的电流值与所有数据点的最大电流值的比值记为第j个数据点对应的第二比值;将所述第一比值与所述第二比值之间的乘积的算术平方根,作为第j个数据点的权值;
根据第j个数据点与其所在的窗口内其余数据点之间的电流差异、电压差异以及第j个数据点所在的窗口内所有数据点的权值的标准差,得到第j个数据点对应的聚类中心评价值,所述电流差异、所述电压差异、所述标准差均与所述聚类中心评价值呈负相关关系。
优选的,所述基于所述聚类中心评价值筛选初始聚类中心点,并对数据点进行聚类获得每个初始聚类簇,包括:
将聚类中心评价值大于或等于预设评价阈值的数据点确定为初始聚类中心点;
基于所述初始聚类中心点,采用K-means聚类算法对所有数据点进行聚类,获得每个初始聚类簇。
优选的,所述根据每个初始聚类簇的形状以及每个初始聚类簇对应的链码,得到每个初始聚类簇的异常值,包括:
对于第b个初始聚类簇:
分别计算第b个初始聚类簇对应的每两个相邻链码的夹角的余弦值;
采用如下公式计算第b个初始聚类簇的异常值:
其中,表示第b个初始聚类簇的异常值,/>表示第b个初始聚类簇的边缘周长,表示第b个初始聚类簇的面积,F表示第b个初始聚类簇对应的链码数量,/>表示第b个初始聚类簇的最大内切圆的半径,/>表示第b个初始聚类簇的最小外接圆的半径,/>表示第b个初始聚类簇对应的第f个链码与第f+1个链码的夹角,/>表示第b个初始聚类簇对应的第f个链码与第f+1个链码的夹角的余弦值,/>表示将取值映射至[-1,1]范围内的函数。
优选的,所述基于所述异常值确定正常聚类簇和异常聚类簇,包括:
将异常值小于预设异常阈值的初始聚类簇作为正常聚类簇;
将异常值大于或等于预设异常阈值的初始聚类簇作为异常聚类簇。
优选的,所述根据异常聚类簇对应的主成分方向和异常值,获得异常聚类簇的分割数量,包括:
对于第c个异常聚类簇:
将第c个异常聚类簇对应的所有主成分方向按照从大到小的顺序进行排列,获得主成分方向序列;将所述主成分方向中的前预设数量个主成分方向记为特征方向,获取最大的特征方向与预设方向之间构成的夹角以及最小的特征方向与预设方向之间构成的夹角;
将最大的特征方向与预设方向之间构成的夹角和最小的特征方向与预设方向之间构成的夹角之间的比值,记为第三比值;
根据所述第三比值和第c个异常聚类簇的异常值,获得第c个异常聚类簇的分割数量,所述第三比值与所述分割数量呈正相关关系,所述第c个异常聚类簇的异常值与所述分割数量呈负相关关系。
优选的,所述基于所述分割数量和正常聚类簇的数量再次对所有数据点进行聚类获得聚类结果,基于聚类结果确定离散数据点,包括:
计算所有异常聚类簇的分割数量的和值,将所述和值与所有正常聚类簇的数量之和作为再次聚类时聚类簇的总数量;
基于所述再次聚类时聚类簇的总数量,采用K-means聚类算法对所有数据点进行聚类获得聚类结果;
将所述聚类结果代入CBLOF算法中获得每个数据点的局部异常因子,将所述局部异常因子大于预设异常因子阈值的数据点作为离散数据点。
第二方面,本发明提供了一种基于PCI总线的数据处理系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现上述所述的一种基于PCI总线的数据处理方法。
本发明至少具有如下有益效果:
本发明首先基于通过PCI总线采集到的电路系统中的电压值和电流值获取了多个数据点,然后基于不同电压值对应的数据点的数量差异对电压区间进行了划分,分别对每个子区间进行了单独分析,根据每个子区间内各数据点与其所在的窗口内其余数据点之间的电流差异和电压差异,得到了每个数据点对应的聚类中心评价值,聚类中心评价值用于表征其是否适合作为初始聚类中心点,聚类中心评价值越大,说明对应数据点越适合作为初始聚类中心点,因此本发明基于聚类中心评价值筛选了初始聚类中心点,进而对数据点进行了聚类获得了多个初始聚类簇,考虑到在筛除离群数据点时,聚类结果会直接影响离散数据点的获取结果,而在对数据点进行聚类处理时,K值会直接影响聚类结果,因此本发明根据每个初始聚类簇的形态分布以及每个初始聚类簇对应的链码,对初始聚类簇进行了分类,并确定了异常聚类簇的分割数量,基于异常聚类簇的分割数量和正常聚类簇的数量再次对所有数据点进行聚类获得聚类结果,进而确定离散数据点,并将离散数据点进行剔除。本发明提供的方法使聚类结果中各个聚类簇在两个维度下的数据范围相近,提高了离散电压数据和离散电流数据的剔除效果,使得数据处理效果的可信度更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例所提供的一种基于PCI总线的数据处理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于PCI总线的数据处理方法及系统进行详细说明如下。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于PCI总线的数据处理方法及系统的具体方案。
一种基于PCI总线的数据处理方法实施例:
本实施例所针对的具体场景为:对通过PCI总线获取的电子元件电压数据和电流数据使用CBLOF算法进行异常值检测的过程中,由于K值的选取可能导致聚类结果的准确性较低的问题,因此本实施例基于数据分布特征自适应获取K值,并采用K-means聚类算法进行聚类,基于聚类结果输入到CBLOF算法中筛选离散数据点。
本实施例提出了一种基于PCI总线的数据处理方法,如图1所示,本实施例的一种基于PCI总线的数据处理方法包括以下步骤:
步骤S1,获取通过PCI总线采集到的电路系统中各电子元件工作过程中的电压值和对应的电流值;基于所有电压值和所有电流值获取数据点,其中数据点的横坐标为电压值,纵坐标为电流值。
本实施例通过PCI总线得采集到电路系统的各个电子元件工作时的电压值和电流值,进而建立二维样本空间,然后通过对数据横向投影划分数据区间,在区间中根据数据分布特征确定聚类中心进行初始聚类,得到多个初始聚类簇。根据初始聚类簇内数据的分布特征以及初始聚类簇的外在形态特征筛选异常聚类簇,确定好异常聚类簇的分割数量,基于异常聚类簇的分割数量和正常聚类簇的数量自适应得到最终聚类的K值,并再次对所有数据点进行聚类,最后使用CBLOF算法筛除离群数据点。
本实施例以电路系统工作过程中的某一时刻为例进行说明,对于其他时刻均可采用本实施了提供的方法进行处理。具体地,首先通过PCI总线采集电路系统中各个电子元件过程中的电压值以及电压值下对应的电流值,获得了每个电子元件的电压值和电流值,分别以电压值为横坐标,以电流值为纵坐标,基于所有电子元件的电压值和电流值构建二维样本空间,获取二维样本空间中的所有数据点,也即每个电子元件的监测数据在二维样本空间中对应一个数据点,数据点的横坐标为电压值,纵坐标为电流值。
至此,本实施例获得了电路系统工作过程中每个电子元件对应的数据点。
步骤S2,基于不同电压值对应的数据点的数量差异对电压区间进行划分获得不少于两个子区间;根据每个子区间内数据点的数量占比以及子区间长度,确定每个子区间对应的窗口长度;基于所述窗口长度获取每个子区间对应的窗口;根据每个子区间内各数据点与其所在的窗口内其余数据点之间的电流差异和电压差异,得到每个数据点对应的聚类中心评价值;基于所述聚类中心评价值筛选初始聚类中心点,并对数据点进行聚类获得每个初始聚类簇。
本实施例将采用K-means聚类算法对所有数据点进行聚类处理,基于聚类结果筛选离散数据点,在采用K-means聚类算法进行聚类处理时自适应确定K值。本实施例首先对所有数据点进行初始聚类得到多个初始聚类簇,然后分别对每个初始聚类簇进行分析从而得到最终的聚类K值。由于样本数据较为离散,通过初始聚类后所得初始聚类簇形态各异,部分异常形态簇的存在影响后续CBLOF算法识别离群点的精确性。因此本实施例在初始聚类簇的基础上分析各个初始聚类簇外在形态特征从而确定形态异常的初始聚类簇的分割数,然后结合异常聚类簇的分割数量和正常聚类簇的数量自适应得到最终聚类的K值,从而令最终聚类簇在不同监测指标维度下的数据波动范围更相近,有利于提升后续CBLOF算法识别的离群点的精确性。
分别统计每种电压值对应的数据点的数量;对所有种电压值对应的数据点的数量进行曲线拟合获得第一曲线。所述第一曲线上的点的横坐标为电压值,纵坐标为电压值对应的数据点的数量;第一曲线上的波峰点代表了数据点数量聚集的位置,而波谷点代表了数据点数量较为稀疏的位置,因此若要划分电压区间则可以从波谷点对应的电压值入手,以波谷点对应的电压值为分隔点将电压区间划分为多个子区间。因此本实施例获取所述第一曲线上的波谷点,曲线上波谷点的获取方法为现有技术,此处不再过多赘述。将所述波谷点对应的电压值作为分割点,对所有电压值构成的电压区间进行划分,获得多个子区间,其中所有电压值构成的电压区间的获取过程为:将采集到的所有电压值的最小值作为所有电压值构成的电压区间的下限值,将采集到的所有电压值的最大值作为所有电压值构成的电压区间的上限值,基于电压区间的下限值和上限值获得电压区间。
本实施例已经将整个电压区间划分为了多个子区间,接下来将分别对每个子区间内的数据点进行分析,根据每个子区间内数据点的分布聚集情况筛选初始聚类中心点,因为聚集的数据点之间的间距较小,且在相同的范围内存在更多的数据,本实施例将根据每个子区间内数据点的数量占比以及子区间长度,确定每个子区间对应的窗口长度,进而构建每个子区间对应的多个窗口,也即将每个子区间再次进行了划分。
具体地,对于第a个子区间:将第a个子区间内数据点的数量占比以及第a个子区间内电压值的种类数的乘积的向上取整值,作为第a个子区间对应的窗口长度;所述第a个子区间内数据点的数量占比的获取过程为:第a个子区间内数据点的数量与所有数据点的总数量的比值作为第a个子区间内数据点的数量占比。采用该方法,能够获得每个子区间对应的窗口长度。接下来根据每个子区间内各数据点与其所在的窗口内其余数据点之间的电流差异和电压差异,得到每个数据点对应的聚类中心评价值。
对于第a个子区间内的第j个数据点:
将第j个数据点的电压值与所有数据点的最大电压值的比值记为第j个数据点对应的第一比值;将第j个数据点的电流值与所有数据点的最大电流值的比值记为第j个数据点对应的第二比值;将所述第一比值与所述第二比值之间的乘积的算术平方根,作为第j个数据点的权值;类比上述方法,能够获得第j个数据点所在的窗口内所有数据点的权值的标准差所在的窗口内每个数据点的权值。根据第j个数据点与其所在的窗口内其余数据点之间的电流差异、电压差异以及第j个数据点所在的窗口内所有数据点的权值的标准差,得到第j个数据点对应的聚类中心评价值,所述电流差异、所述电压差异、所述标准差均与所述聚类中心评价值呈负相关关系。作为具体实施方式,给出聚类中心评价值的计算公式,第j个数据点对应的聚类中心评价值的具体计算公式为:
其中,为第j个数据点对应的聚类中心评价值,/>表示第j个数据点所在的窗口内数据点的数量,/>表示第j个数据点所在的窗口内所有数据点的权值的标准差,/>表示第j个数据点所在的窗口内除第j个数据点外的第r个数据点对应的电压值,/>表示第j个数据点对应的电压值,/>表示第j个数据点所在的窗口内除第j个数据点外的第r个数据点对应的电流值,/>表示j个数据点对应的电流值,/>为预设调整参数,arctan( )为反正切函数。
本实施例在聚类中心评价值的计算公式中加入预设调整参数是为了防止分母为0,本实施例中预设调整参数为0.01,在具体应用中,实施者可根据具体情况进行设置。表示第j个数据点与其所在的窗口内第r个数据点数据点之间的电流差异,表示第j个数据点与其所在的窗口内第r个数据点数据点之间的电压差异,表示第j个数据点与其所在的窗口内其余数据点的监测数据的综合差异。本实施例使用反正切函数抑制增长趋势,防止计算结果过于离散。当第j个数据点与其所在的窗口内第r个数据点数据点之间的第r个数据点的电压差异以及电流差异均越小、第j个数据点所在的窗口内所有数据点的权值的标准差越小、第j个数据点所在的窗口内数据点数量越多时,说明第j个数据点所在的窗口内数据量越多且离散程度越小,数据越聚集,第j个数据点属于中心参考点的可能性越大。
至此,采用本实施例提供的方法能够获得每个数据点对应的聚类中心评价值,聚类中心评价值越大,说明对应数据点越适合作为初始聚类中心进行聚类处理,因此本实施例将聚类中心评价值大于或等于预设评价阈值的数据点确定为初始聚类中心点;本实施例中的预设评价阈值为0.9,在具体应用中,实施者可根据具体情况进行设置。
基于所有初始聚类中心点,采用K-means聚类算法对所有数据点进行聚类,获得多个初始聚类簇。此时的初始聚类结果不能满足CBLOF算法所需的精确聚类效果,只是基于整体数据点的分布所得到的浅层次的聚类结果。K-means聚类算法为现有技术,此处不再过多赘述。
步骤S3,根据每个初始聚类簇的形状以及每个初始聚类簇对应的链码,得到每个初始聚类簇的异常值;基于所述异常值确定正常聚类簇和异常聚类簇;根据异常聚类簇对应的主成分方向和异常值,获得异常聚类簇的分割数量。
在得到多个初始聚类簇后,本实施例将分别对每个初始聚类簇的形态进行分析,选取初始聚类簇形态在样本空间两个维度上分布不均匀的异常簇进行分割,从而使得聚类簇在两个监测指标维度下的数据波动范围更相近,有助于后续得到更准确的K值。
由于聚类簇是多个点构成的集合,为了便于分析,将各个初始聚类簇的边缘数据点进行连接形成多个簇级区域。异常聚类簇对应区域在形态上更加不规则,在样本空间内可表现为簇的横纵方向上数据跨度相差较大。而正常聚类簇对应区域更加规则,形态上更接近于圆形。因此为了区分异常的形态,本实施例采用8-链码分别对每个初始聚类簇进行处理获得每个初始聚类簇对应的多个链码,其中异常聚类簇的整体形态边缘变化较为剧烈,对应所有相邻链码的平均夹角也相对较小,由于异常区域形态不规则,区域的紧凑度会更低,本实施例将引入初始聚类簇的最大内切圆与最小外接圆的半径来代表初始聚类簇横纵方向的数据跨度。
对于第b个初始聚类簇:
分别计算第b个初始聚类簇对应的每两个相邻链码的夹角的余弦值;采用如下公式计算第b个初始聚类簇的异常值:
其中,表示第b个初始聚类簇的异常值,/>表示第b个初始聚类簇的边缘周长,表示第b个初始聚类簇的面积,F表示第b个初始聚类簇对应的链码数量,/>表示第b个初始聚类簇的最大内切圆的半径,/>表示第b个初始聚类簇的最小外接圆的半径,/>表示第b个初始聚类簇对应的第f个链码与第f+1个链码的夹角,/>表示第b个初始聚类簇对应的第f个链码与第f+1个链码的夹角的余弦值,/>表示将取值映射至[-1,1]范围内的函数。
表示第b个初始聚类簇的最大内切圆半径与最小外接圆的半径之比,最大内切圆半径和最小外接圆半径分别代表了初始聚类簇所属区域的最小数据范围与最大数据范围,越异常的聚类簇所对应的两数据范围存在越大的差距,即越异常的聚类簇对应的最大内切圆半径与最小外接圆的半径之比和1的差异越大。/>代表围成第b个初始聚类簇的相邻链码的夹角的平均余弦值,若第b个初始聚类簇的链码平均夹角越小,表示第b个初始聚类簇的边缘变化程度越剧烈,则此初始聚类簇越有可能属于异常聚类簇。/>用于衡量b个初第始聚类簇的紧凑度,其值越大,代表第b个初始聚类簇越紧凑,第b个初始聚类簇越规则。
采用上述方法,能够获得每个初始聚类簇的异常值,异常值越大,说明对应的初始聚类簇越可能为异常聚类簇,因此将异常值小于预设异常阈值的初始聚类簇作为正常聚类簇,将异常值大于或等于预设异常阈值的初始聚类簇作为异常聚类簇。本实施例中的预设异常阈值为0.65,在具体应用中,实施者可根据具体情况进行设置。
本实施例从所有聚类簇中筛选出了异常聚类簇,异常聚类簇的形状更加不规则,其边缘波动更剧烈。因此为了降低形状上的不规则程度,需要确定异常聚类簇的分割数量,从而得到更准确的K值,使最终的聚类结果更加均衡,有利于CBLOF算法的识别。
具体地,对于第c个异常聚类簇:
采用主成分分析方法分别对第c个异常聚类簇进行处理,获得第c个异常聚类簇对应的所有主成分方向,一个异常聚类簇可能对应多个主成分方向。将第c个异常聚类簇对应的所有主成分方向按照从大到小的顺序进行排列,获得主成分方向序列;由于过于靠后的主成分方向代表的区域延伸特征极不明显,为了避免干扰,将所述主成分方向中的前预设数量个主成分方向记为特征方向,获取最大的特征方向与预设方向之间构成的夹角以及最小的特征方向与预设方向之间构成的夹角;本实施例中预设方向为水平向右的方向,预设数量为20,在具体应用中,实施者可根据具体情况进行设置。将最大的特征方向与预设方向之间构成的夹角和最小的特征方向与预设方向之间构成的夹角之间的比值,记为第三比值;根据所述第三比值和第c个异常聚类簇的异常值,获得第c个异常聚类簇的分割数量,所述第三比值与所述分割数量呈正相关关系,所述第c个异常聚类簇的异常值与所述分割数量呈负相关关系。第c个异常聚类簇的分割数量的具体计算公式为:
其中,表示第c个异常聚类簇的分割数量,/>表示最大的特征方向与预设方向之间构成的夹角,/>表示最小的特征方向与预设方向之间构成的夹角,/>表示向上取整符号。
表示第三比值;最大的特征方向代表了异常聚类簇最有可能的延伸方向,最小主方向代表了异常聚类簇最不可能的延伸方向,本实施例基于最大的特征方向与预设方向之间构成的夹角和最小的特征方向与预设方向之间构成的夹角的比值、异常聚类簇的异常值确定了异常聚类簇的分割数量,会使分割后的区域在样本空间维度下分布更加均匀。
采用上述方法,能够获得每个异常聚类簇的分割数量。
步骤S4,基于所述分割数量和正常聚类簇的数量再次对所有数据点进行聚类获得聚类结果,基于聚类结果确定离散数据点,并将离散数据点进行剔除。
本实施例在步骤S3中获取了每个异常聚类簇的分割数量,接下来将基于异常聚类簇的分割数量和正常聚类簇的数量再次对所有数据点进行聚类获得聚类结果,基于聚类结果确定离散数据点。
具体地,计算所有异常聚类簇的分割数量的和值,将所述和值与所有正常聚类簇的数量之和作为再次聚类时聚类簇的总数量;基于所述再次聚类时聚类簇的总数量,采用K-means聚类算法对所有数据点进行聚类获得聚类结果,也即将所述再次聚类时聚类簇的总数量作为了K-means时的K值;将所述聚类结果代入CBLOF算法中执行,将聚类后每个数据点输入CBLOF算法得到每个数据点的局部异常因子,局部异常因子介于0到1之间,越接近1其所异常程度越高,将所述局部异常因子大于预设异常因子阈值的数据点作为离散数据点,将所有的离群数据点进行剔除,将剩余数据点继续传输至存储器内存储。本实施例中局部异常因子为0.7,在具体应用中,实施者可根据具体情况进行设置。CBLOF算法为现有技术,此处不再过多赘述。
至此,采用本实施例提供的方法完成了对通过PCI总线采集到的电路系统中的电压值和电流值的数据处理。
本实施例首先基于通过PCI总线采集到的电路系统中的电压值和电流值获取了多个数据点,然后基于不同电压值对应的数据点的数量差异对电压区间进行了划分,分别对每个子区间进行了单独分析,根据每个子区间内各数据点与其所在的窗口内其余数据点之间的电流差异和电压差异,得到了每个数据点对应的聚类中心评价值,聚类中心评价值用于表征其是否适合作为初始聚类中心点,聚类中心评价值越大,说明对应数据点越适合作为初始聚类中心点,因此本实施例基于聚类中心评价值筛选了初始聚类中心点,进而对数据点进行了聚类获得了多个初始聚类簇,考虑到在筛除离群数据点时,聚类结果会直接影响离散数据点的获取结果,而在对数据点进行聚类处理时,K值会直接影响聚类结果,因此本实施例根据每个初始聚类簇的形态分布以及每个初始聚类簇对应的链码,对初始聚类簇进行了分类,并确定了异常聚类簇的分割数量,基于异常聚类簇的分割数量和正常聚类簇的数量再次对所有数据点进行聚类获得聚类结果,进而确定离散数据点,并将离散数据点进行剔除。本实施例提供的方法使聚类结果中各个聚类簇在两个维度下的数据范围相近,提高了离散电压数据和离散电流数据的剔除效果,使得数据处理效果的可信度更高。
一种基于PCI总线的数据处理系统实施例:
本实施例一种基于PCI总线的数据处理系统包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现上述所述的一种基于PCI总线的数据处理方法。
由于一种基于PCI总线的数据处理方法已经在一种基于PCI总线的数据处理方法实施例中进行了说明,所以本实施例不再对一种基于PCI总线的数据处理方法进行赘述。
需要说明的是:以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于PCI总线的数据处理方法,其特征在于,该方法包括以下步骤:
获取通过PCI总线采集到的电路系统中各电子元件工作过程中的电压值和对应的电流值;基于所有电压值和所有电流值获取数据点,其中数据点的横坐标为电压值,纵坐标为电流值;
基于不同电压值对应的数据点的数量差异对电压区间进行划分获得不少于两个子区间;根据每个子区间内数据点的数量占比以及子区间长度,确定每个子区间对应的窗口长度;基于所述窗口长度获取每个子区间对应的窗口;根据每个子区间内各数据点与其所在的窗口内其余数据点之间的电流差异和电压差异,得到每个数据点对应的聚类中心评价值;基于所述聚类中心评价值筛选初始聚类中心点,并对数据点进行聚类获得每个初始聚类簇;
根据每个初始聚类簇的形状以及每个初始聚类簇对应的链码,得到每个初始聚类簇的异常值;基于所述异常值确定正常聚类簇和异常聚类簇;根据异常聚类簇对应的主成分方向和异常值,获得异常聚类簇的分割数量;
基于所述分割数量和正常聚类簇的数量再次对所有数据点进行聚类获得聚类结果,基于聚类结果确定离散数据点,并将离散数据点进行剔除。
2.根据权利要求1所述的一种基于PCI总线的数据处理方法,其特征在于,所述基于不同电压值对应的数据点的数量差异对电压区间进行划分获得不少于两个子区间,包括:
统计每种电压值对应的数据点的数量;对所有种电压值对应的数据点的数量进行曲线拟合获得第一曲线;所述第一曲线上的点的横坐标为电压值,纵坐标为电压值对应的数据点的数量;
获取所述第一曲线上的波谷点;将所述波谷点对应的电压值作为分割点,对所有电压值构成的电压区间进行划分,获得不少于两个子区间。
3.根据权利要求1所述的一种基于PCI总线的数据处理方法,其特征在于,所述根据每个子区间内数据点的数量占比以及子区间长度,确定每个子区间对应的窗口长度,包括:
对于第a个子区间:
将第a个子区间内数据点的数量占比以及第a个子区间内电压值的种类数的乘积的向上取整值,作为第a个子区间对应的窗口长度;所述第a个子区间内数据点的数量占比的获取过程为:第a个子区间内数据点的数量与所有数据点的总数量的比值作为第a个子区间内数据点的数量占比。
4.根据权利要求1所述的一种基于PCI总线的数据处理方法,其特征在于,所述根据每个子区间内各数据点与其所在的窗口内其余数据点之间的电流差异和电压差异,得到每个数据点对应的聚类中心评价值,包括:
对于第a个子区间内的第j个数据点:
将第j个数据点的电压值与所有数据点的最大电压值的比值记为第j个数据点对应的第一比值;将第j个数据点的电流值与所有数据点的最大电流值的比值记为第j个数据点对应的第二比值;将所述第一比值与所述第二比值之间的乘积的算术平方根,作为第j个数据点的权值;
根据第j个数据点与其所在的窗口内其余数据点之间的电流差异、电压差异以及第j个数据点所在的窗口内所有数据点的权值的标准差,得到第j个数据点对应的聚类中心评价值,所述电流差异、所述电压差异、所述标准差均与所述聚类中心评价值呈负相关关系。
5.根据权利要求1所述的一种基于PCI总线的数据处理方法,其特征在于,所述基于所述聚类中心评价值筛选初始聚类中心点,并对数据点进行聚类获得每个初始聚类簇,包括:
将聚类中心评价值大于或等于预设评价阈值的数据点确定为初始聚类中心点;
基于所述初始聚类中心点,采用K-means聚类算法对所有数据点进行聚类,获得每个初始聚类簇。
6.根据权利要求1所述的一种基于PCI总线的数据处理方法,其特征在于,所述根据每个初始聚类簇的形状以及每个初始聚类簇对应的链码,得到每个初始聚类簇的异常值,包括:
对于第b个初始聚类簇:
分别计算第b个初始聚类簇对应的每两个相邻链码的夹角的余弦值;
采用如下公式计算第b个初始聚类簇的异常值:
其中,表示第b个初始聚类簇的异常值,/>表示第b个初始聚类簇的边缘周长,/>表示第b个初始聚类簇的面积,F表示第b个初始聚类簇对应的链码数量,/>表示第b个初始聚类簇的最大内切圆的半径,/>表示第b个初始聚类簇的最小外接圆的半径,/>表示第b个初始聚类簇对应的第f个链码与第f+1个链码的夹角,/>表示第b个初始聚类簇对应的第f个链码与第f+1个链码的夹角的余弦值,/>表示将取值映射至[-1,1]范围内的函数。
7.根据权利要求1所述的一种基于PCI总线的数据处理方法,其特征在于,所述基于所述异常值确定正常聚类簇和异常聚类簇,包括:
将异常值小于预设异常阈值的初始聚类簇作为正常聚类簇;
将异常值大于或等于预设异常阈值的初始聚类簇作为异常聚类簇。
8.根据权利要求1所述的一种基于PCI总线的数据处理方法,其特征在于,所述根据异常聚类簇对应的主成分方向和异常值,获得异常聚类簇的分割数量,包括:
对于第c个异常聚类簇:
将第c个异常聚类簇对应的所有主成分方向按照从大到小的顺序进行排列,获得主成分方向序列;将所述主成分方向中的前预设数量个主成分方向记为特征方向,获取最大的特征方向与预设方向之间构成的夹角以及最小的特征方向与预设方向之间构成的夹角;
将最大的特征方向与预设方向之间构成的夹角和最小的特征方向与预设方向之间构成的夹角之间的比值,记为第三比值;
根据所述第三比值和第c个异常聚类簇的异常值,获得第c个异常聚类簇的分割数量,所述第三比值与所述分割数量呈正相关关系,所述第c个异常聚类簇的异常值与所述分割数量呈负相关关系。
9.根据权利要求1所述的一种基于PCI总线的数据处理方法,其特征在于,所述基于所述分割数量和正常聚类簇的数量再次对所有数据点进行聚类获得聚类结果,基于聚类结果确定离散数据点,包括:
计算所有异常聚类簇的分割数量的和值,将所述和值与所有正常聚类簇的数量之和作为再次聚类时聚类簇的总数量;
基于所述再次聚类时聚类簇的总数量,采用K-means聚类算法对所有数据点进行聚类获得聚类结果;
将所述聚类结果代入CBLOF算法中获得每个数据点的局部异常因子,将所述局部异常因子大于预设异常因子阈值的数据点作为离散数据点。
10.一种基于PCI总线的数据处理系统,包括存储器和处理器,其特征在于,所述处理器执行所述存储器存储的计算机程序,以实现如权利要求1-9任一项所述的一种基于PCI总线的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311638904.2A CN117349220B (zh) | 2023-12-04 | 2023-12-04 | 一种基于pci总线的数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311638904.2A CN117349220B (zh) | 2023-12-04 | 2023-12-04 | 一种基于pci总线的数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117349220A CN117349220A (zh) | 2024-01-05 |
CN117349220B true CN117349220B (zh) | 2024-02-02 |
Family
ID=89359749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311638904.2A Active CN117349220B (zh) | 2023-12-04 | 2023-12-04 | 一种基于pci总线的数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117349220B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117782364B (zh) * | 2024-02-28 | 2024-05-03 | 西瑞思创(西安)实验仪器有限公司 | 一种高通量自动材料快筛反应器的实时监测方法及系统 |
CN117828511B (zh) * | 2024-03-04 | 2024-05-10 | 中国中医科学院广安门医院 | 一种麻醉深度脑电信号数据处理方法 |
CN117972618A (zh) * | 2024-04-01 | 2024-05-03 | 青岛航天半导体研究所有限公司 | 一种混合集成电路二次电源故障检测方法及系统 |
CN118051796B (zh) * | 2024-04-16 | 2024-06-18 | 自贡市第一人民医院 | 一种消毒供应中心监测数据智能分析方法 |
CN118094449B (zh) * | 2024-04-26 | 2024-06-25 | 山东瑞福锂业有限公司 | 基于工业互联网的生产智能监控方法、系统及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023143950A1 (en) * | 2022-01-27 | 2023-08-03 | Carl Zeiss Smt Gmbh | Computer implemented method for the detection and classification of anomalies in an imaging dataset of a wafer, and systems making use of such methods |
CN116680641A (zh) * | 2023-04-28 | 2023-09-01 | 国网山东省电力公司菏泽供电公司 | 一种基于机器学习算法的用户用电异常检测方法 |
CN116701973A (zh) * | 2023-08-09 | 2023-09-05 | 无锡市明通动力工业有限公司 | 基于大数据的电机异常振动检测预警方法 |
CN117056764A (zh) * | 2023-10-11 | 2023-11-14 | 唐山市南堡经济开发区航天万源新能源有限公司 | 一种发电机组智能保护方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8873813B2 (en) * | 2012-09-17 | 2014-10-28 | Z Advanced Computing, Inc. | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities |
CN106572493B (zh) * | 2016-10-28 | 2018-07-06 | 南京华苏科技有限公司 | Lte网络中的异常值检测方法及系统 |
-
2023
- 2023-12-04 CN CN202311638904.2A patent/CN117349220B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023143950A1 (en) * | 2022-01-27 | 2023-08-03 | Carl Zeiss Smt Gmbh | Computer implemented method for the detection and classification of anomalies in an imaging dataset of a wafer, and systems making use of such methods |
CN116680641A (zh) * | 2023-04-28 | 2023-09-01 | 国网山东省电力公司菏泽供电公司 | 一种基于机器学习算法的用户用电异常检测方法 |
CN116701973A (zh) * | 2023-08-09 | 2023-09-05 | 无锡市明通动力工业有限公司 | 基于大数据的电机异常振动检测预警方法 |
CN117056764A (zh) * | 2023-10-11 | 2023-11-14 | 唐山市南堡经济开发区航天万源新能源有限公司 | 一种发电机组智能保护方法及系统 |
Non-Patent Citations (1)
Title |
---|
"基于有序离散数据集合的电力系统若干复杂问题的非线性映射模型研究";郑超;《中国博士学位论文全文数据库 工程科技Ⅱ辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117349220A (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117349220B (zh) | 一种基于pci总线的数据处理方法及系统 | |
CN115392408B (zh) | 一种电子数粒机运行异常检测方法及系统 | |
US9037518B2 (en) | Classifying unclassified samples | |
WO2020006841A1 (zh) | 用电量异常检测方法、装置、终端及计算机可读存储介质 | |
CN111626360B (zh) | 用于检测锅炉故障类型的方法、装置、设备和存储介质 | |
CN112911627B (zh) | 无线网络性能检测方法、装置以及存储介质 | |
CN109947815B (zh) | 一种基于离群点算法的窃电辨识方法 | |
CN109857618B (zh) | 一种监控方法、装置及系统 | |
CN117493921B (zh) | 基于大数据的人工智能节能管理方法及系统 | |
CN116718218B (zh) | 一种光电集成式传感芯片测试数据处理方法 | |
CN115018315A (zh) | 一种供热异常的检测方法、装置、电子设备及存储介质 | |
CN118094449B (zh) | 基于工业互联网的生产智能监控方法、系统及装置 | |
CN111291824A (zh) | 时间序列的处理方法、装置、电子设备和计算机可读介质 | |
CN116975672B (zh) | 一种煤矿皮带输送电机温度监测方法及系统 | |
CN117472141A (zh) | 一种mosfet器件的阈值电压调整方法 | |
CN117473351B (zh) | 基于物联网的电源信息远程传输系统 | |
CN117170979B (zh) | 一种大规模设备的能耗数据处理方法、系统、设备及介质 | |
CN109389172B (zh) | 一种基于无参数网格的无线电信号数据聚类方法 | |
CN106847306B (zh) | 一种异常声音信号的检测方法及装置 | |
CN113971426A (zh) | 一种信息获取方法、装置、设备及存储介质 | |
CN111929656B (zh) | 一种基于熵值统计的车载毫米波雷达系统噪声估计方法 | |
CN113705625A (zh) | 异常生活保障申请家庭的识别方法、装置及电子设备 | |
Hai-Jun et al. | Fuzzy entropy clustering using possibilistic approach | |
CN113808088A (zh) | 一种污染检测方法及系统 | |
KR100581673B1 (ko) | 데이터 분류방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |