CN109389172A - 一种基于无参数网格的无线电信号数据聚类方法 - Google Patents

一种基于无参数网格的无线电信号数据聚类方法 Download PDF

Info

Publication number
CN109389172A
CN109389172A CN201811183704.1A CN201811183704A CN109389172A CN 109389172 A CN109389172 A CN 109389172A CN 201811183704 A CN201811183704 A CN 201811183704A CN 109389172 A CN109389172 A CN 109389172A
Authority
CN
China
Prior art keywords
grid
signal data
data
value
grid cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811183704.1A
Other languages
English (en)
Other versions
CN109389172B (zh
Inventor
赵颖
张蓉
罗晓波
周芳芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201811183704.1A priority Critical patent/CN109389172B/zh
Publication of CN109389172A publication Critical patent/CN109389172A/zh
Application granted granted Critical
Publication of CN109389172B publication Critical patent/CN109389172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于无参数网格的无线电信号数据聚类方法,根据无线电信号数据集中的数据个数及该批数据的采集时长,计算网格划分值k,将信号数据的中心频率维度划分为k个等长但不相交的网格单元,根据每个信号数据的中心频率值,将其划分至对应的网格单元,并且统计每个网格单元的密度,计算密度阈值,并依据密度阈值对网格单元进行划分,检测相邻的高密网格单元,并将其连接形成聚类;从边界网格单元中提取聚类边界点,并根据边界处理方法将其放至所属聚类。该方法基于无线电信号的数据特征,自动计算网格划分值和密度阈值两个参数,在网格聚类算法高效性的基础上提升了该算法对无线电信号数据聚类的准确性,且减少了分析人员的分析负担。

Description

一种基于无参数网格的无线电信号数据聚类方法
技术领域
本发明属于计算机信息处理技术领域,涉及到一种基于无参数网格的无线电信号数据聚类方法。
背景技术
在无线电信号分析领域经常面临的一个问题就是怎么样将属于同一个信号源的信号分选出来并进行后续分析。在信号环境越来越复杂的情况下,传统的信号分选方法已不能满足准确性和高效性的需求。因此,我们需要借助一些智能的机器学习算法对信号进行处理。
网格聚类算法的基本思想是将数据维度划分为多个相邻的区间,创建网格单元集合,然后基于网格结构对数据进行聚类。网格聚类算法的优点是它的处理速度很快,其处理时间独立于数据对象的数目,只和量化空间中的每一维的单元数目有关。由此可以看出网格聚类方法非常适合对大规模的无线电信号数据进行聚类分析,可以满足信号聚类的高效性需求。
通常情况下,网格聚类算法需要人为确定两个参数——网格划分值和密度阈值,其中网格划分值一般只需要和数据个数保持一致,但密度阈值的取值却需要对数据的分布情况进行详细分析之后才能确定。网格聚类算法聚类结果的正确与否与这两个参数的设定有相当紧密的关系。
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提供一种基于无参数网格的无线电信号数据聚类方法,根据无线电信号数据的采集时长、信号数据点个数等信息自动计算参数k及Minpts,以解决聚类结果对参数的依赖性问题。
本发明所提供的技术方案为:
一种基于无参数网格的无线电信号数据聚类方法,包括以下步骤:
步骤1):以无线电信号数据集中的数据个数除以该批数据的采集时长,得到网格划分值k;
步骤2):根据步骤1)得到的网格划分值k,将该批信号数据的中心频率维度划分为k个等长但不相交的网格单元;以信号数据中心频率属性的分布范围除以网格划分值得到单个网格单元的长度,然后根据单个单元的长度和信号数据中心频率属性的分布范围计算得到每个网格单元的中心频率范围;
步骤3):根据已知的每个信号数据中心频率值,将其划分至对应的网格单元,并且统计每个网格单元的数据点个数作为网格单元密度值;
步骤4):根据已统计的网格单元密度值,计算密度阈值,并依据密度阈值对网格单元进行划分,其中网格密度高于密度阈值的为高密网格,反之为低密网格即边界网格;
步骤5):根据步骤4)得到的高密网格集合,将其中相邻的高密网格单元连接起来,形成多个聚类。即假设A高密网格单元与B高密网格单元相邻,C高密网格单元与D高密网格单元相邻,但是AB和CD之间不相邻,那么这里会形成AB和CD两个聚类。
步骤6):从边界网格单元中提取聚类边界点,并根据边界处理方法将其放至所属聚类,以该步骤之后所得聚类结果为[c1,c2,...,ct,...,ck],其中1≤t≤k;
所述的边界处理方法是对低密网格单元中的所有信号数据即信号点,计算其到所有相邻高密网格单元中心位置的距离,最后将小于阈值的信号点放置相应的聚类。
步骤7):通过信号的带宽属性,对信号聚类结果进行噪声检测。
所述的一种基于无参数网格的无线电信号数据聚类方法,所述步骤1)包括以下步骤:
步骤1.1):采集包括中心频率、带宽和采集时间这三个属性在内的无线电信号数据,统计无线电信号数据集的信号点个数m,在此=count(j);其中j表示一个信号;
步骤1.2):根据信号数据的采集时间t(j),计算该信号数据集的采集时长t=Max(t(j))-Min(t(j));
步骤1.3):根据步骤1.1)和步骤1.2)得到的信号点个数m和采集时长t,计算得出网格划分值k,其中k的计算公式为k=m/t。
所述的一种基于无参数网格的无线电信号数据聚类方法,所述步骤2)具体步骤如下:
步骤2.1):以信号数据中心频率属性的分布范围为[startfreq,endfreq],则单个网格单元的长度δ=(endfreq-startfreq)/k;
步骤2.2):在步骤2.1)的基础上,以i来表示任意一个网格单元,则中心频率范围的计算公式为freq(i)=(startfreq+(i-1)*δ,startfreq+i*δ],其中1≤i≤n,n为网格单元的全部数量,依次计算得到所有网格单元的中心频率范围。
所述的一种基于无参数网格的无线电信号数据聚类方法,所述步骤3)具体步骤如下:
步骤3.1):根据每个信号数据的中心频率值,将其划分至包含有该中心频率值的网格单元中,以j表示一个信号数据,则网格单元i中的信号数据为一个集合,表示为point(i)={j|f(j)∈freq(i)},其中1≤j≤m,m为信号数据个数,f(j)为第j个信号数据的频率属性;
步骤3.2):在步骤3.1)的基础上对每个网格单元中的信号个数进行统计来作为网格单元密度值,计算公式为size(i)=count(point(i))。
所述的一种基于无参数网格的无线电信号数据聚类方法,所述步骤4)具体步骤如下:
表示密度步骤4.1):根据网格单元密度值,查找具有最多数据点的网格单元MaxCount=Max(size(i)),并记录其数据点个数;
步骤4.2):统计非空的网格单元个数Gn。:首先,统计非空网格单元的集合U={i|size(i)>0},则Gn=count(U);
步骤4.3):根据信号数据个数m和非空单元格个数Gn,计算一个中间值C=m/Gn
步骤4.4):令A1=MaxCount,计算An=An-1-H,其中1<n≤H。;H取值必须大于1,如果计算得出的H值小于等于1,则令H其取值为2;
步骤4.5):根据步骤4.4)所得结果,计算Bm=(Am+Am+1)/2,其中1≤m≤H-1;
步骤4.6):计算密度阈值
步骤4.7):通过对比每个网格单元密度和密度阈值之间的大小,计算得到高密网格集合HighDenGrid={i|size(i)>Minpts},同时得到低密网格集合LowDenGrid={i|size(i)≤Minpts}。
所述的一种基于无参数网格的无线电信号数据聚类方法,所述步骤5)具体步骤如下:
步骤5.1):基于所得的高密网格集合,寻找所有出现相邻情况的高密网格单元,并将这些高密网格单元连接起来形成聚类。
所述的一种基于无参数网格的无线电信号数据聚类方法,所述步骤6)具体步骤如下:
步骤6.1):对于低密网格单元lowi∈LowDenGrid,统计其相邻的高密网格单元集合
步骤6.2):通过计算集合中每个网格单元中所有信号中心频率属性的均值,来作为网格单元的中心位置c(i),即网格单元内所有信号的数据中心,其中
步骤6.3):对于每个属于低密网格单元lowi的信号点p,计算其到所有相邻高密网格单元中心位置的距离,计算公式为
步骤6.4):根据步骤6.3)所得内容,计算信号点p到每个相邻高密网格单元数据中心距离的最小值
步骤6.5):设定阈值ε,默认取值δ/2,即为网格单元宽度的一半,如果则信号点p为边界点,需将该数据点加入到对应的高密网格单元所属聚类中,反之点p为噪声点;
步骤6.6):以经过上述所有步骤之后,所得聚类结果为{c1,c2,...,ct,...,ck},其中1≤t≤k。
所述的一种基于无参数网格的无线电信号数据聚类方法,所述步骤7)具体如下:
步骤7.1):以聚类ct中包含nt条数据
步骤7.2):对于属于聚类ct的所有数据点pi,计算该点到聚类ct中其他所有数据点的距离之和,其计算公式为其中表示为数据点pi的带宽值;
步骤7.3):计算聚类ct的距离和均值V,其计算公式为:
步骤7.4):对聚类ct中的所有数据点pi,将其距离和Di与距离和均值V进行比较,如果Di>xV,则认为数据点pi为噪声点,同时将数据点pi从聚类ct中删除。x通过取值为其中表示为数据点pi的带宽值;
步骤7.5):重复步骤7.1)到7.4),直到遍历完所有聚类。
本发明的技术效果在于,本发明根据无线电信号数据的采集时长、信号数据点个数等信息自动计算参数k及Minpts,以解决聚类结果对参数的依赖性问题。该方法基于无线电信号的数据特征,自动计算网格划分值和密度阈值两个参数,在网格聚类算法高效性的基础上提升了该算法对无线电信号数据聚类的准确性,且减少了分析人员的分析负担。
附图说明
图1是本发明所述方法流程图;
图2是由未聚类的信号数据绘制的频率带宽图;
图3是由本发明所述方法聚类之后的信号数据绘制的频率带宽图。
具体实施方式
本发明包含以下步骤:
步骤1):根据无线电信号数据集中的数据个数m及该批数据的采集时长,计算网格划分值k,其中采集时长可通过信号数据自带的采集时间计算得出;
步骤2):根据步骤1)得到的网格划分值k,将信号数据的中心频率维度划分为k个等长但不相交的网格单元。假设信号数据中心频率属性的分布范围为[startfreq,endfreq],则根据网格划分值k可得到单个网格单元的长度δ,其计算公式为δ=(endfreq-startfreq)/k。进一步可得到所有网格单元的频率范围,在此我们以i来表示任意一个网格单元,则其中心频率范围的计算公式为freq(i)=(startfreq+(i-1)*δ,startfreq+i*δ],其中1≤i≤n,n为网格单元的全部数量。
步骤3):根据每个信号数据的中心频率值,将其划分至对应的网格单元,并且统计每个网格单元的密度,即对网格单元中的数据点个数进行统计;在此我们以j表示一个信号数据,则网格单元i中的信号数据为一个集合,该集合可表示为point(i)=[j|f(j)∈freq(i)],其中1≤j≤m,m为信号数据个数,f(j)为第j个信号数据的频率属性。在此基础上对每个网格单元中的信号个数进行统计,计算公式为size(i)=count(point(i));
步骤4):根据已统计的网格单元密度值,计算密度阈值,并依据密度阈值对网格单元进行划分,其中网格密度高于密度阈值的为高密网格,反之为边界网格;在此我们用Minpts表示密度阈值,其计算公式后文会进行详细说明。通过对比每个网格单元密度和密度阈值之间的大小,我们可得到高密网格集合HighDenGrid=[i|size(i)>Minpts],同时可得到低密网格集合LowDenGrid=[i|size(i)≤Minpts];
步骤5):根据步骤4)得到的高密网格集合,我们需要检测相邻的高密网格单元,并将其连接形成聚类。
步骤6):从边界网格单元中提取聚类边界点,并根据边界处理方法将其放至所属聚类。假设该步骤之后所得聚类结果为[c1,c2,...,ct,...,ck],其中1≤t≤k;
步骤7):通过信号的带宽属性,对信号聚类结果进行噪声检测。
所述步骤1)包括以下步骤:
步骤1.1):本发明主要用于对无线电信号数据进行聚类,其中每条无线电信号数据包含中心频率、带宽、信号强度、信噪比以及采集时间五个属性。首先我们需要统计无线电信号数据集的信号点个数m,在此我们以j来表示一个信号,则信号点个数m的计算公式为m=count(j);
步骤1.2):根据信号数据的采集时间t(j),计算该信号数据集的采集时长t=Max(t(j))-Min(t(j));
步骤1.3):根据步骤1.1)和步骤1.2)得到的信号点个数m和采集时长t,计算得出网格划分值k,其中k的计算公式为k=m/t。通常情况下网格划分值k=m,即网格划分值与数据点个数保持一致。在此我们考虑到,随着信号采集时间的增长,数据会越来越多,但信号采集的频率范围却是固定不变的。此时如果还是采用数据点个数作为网格划分值,会导致网格划分值越来越大。为了保持一个逻辑上的信号能够在网格划分空间内均匀分布,我们采用上述方法计算网格划分值。这里需要说明的是一个逻辑上的信号指那些同属于一个信号源的信号,这些信号在数据集中为一条记录。
所述步骤2)包括以下步骤:
步骤2.1):假设信号数据中心频率属性的分布范围为[startfreq,endfreq],则根据网格划分值k可得到单个网格单元的长度δ,其计算公式为δ=(endfreq-startfreq)/k;
步骤2.2):在步骤2.1)的基础上,可得到所有网格单元的频率范围。在此我们以i来表示任意一个网格单元,则其中心频率范围的计算公式为freq(i)=(startfreq+(i-1)*δ,startfreq+i*δ],其中1≤i≤n,n为网格单元的全部数量。
所述步骤3)包括以下步骤:
步骤3.1):根据每个信号数据的中心频率值,将其划分至对应的网格单元。在此我们以j表示一个信号数据,则网格单元i中的信号数据为一个集合,该集合可表示为point(i)={j|f(j)∈freq(i)},其中1≤j≤m,m为信号数据个数,f(j)为第j个信号数据的频率属性;
步骤3.2):在步骤3.1)的基础上对每个网格单元中的信号个数进行统计,计算公式为size(i)=count(point(i))。
所述步骤4)包括以下步骤:
步骤4.1):根据步骤3.2)中已统计的网格单元密度值,计算密度阈值,在此我们用Minpts表示密度阈值;
步骤4.2):查找具有最多数据点的网格单元,并记录其数据点个数,该过程可用公式表述为MaxCount=Max(size(i));
步骤4.3):进一步,我们需要统计非空的网格单元个数Gn。首先,统计非空网格单元的集合U={i|size(i)>0},则Gn=count(U);
步骤4.4):根据步骤1.1)所得信号数据个数m和步骤4.3)所得非空单元格个数Gn,计算一个中间值C=m/Gn
步骤4.5):令A1=MaxCount,计算An=An-1-H,其中1<n≤H。可以看出这里的H取值必须大于1,所以如果通过上述公式计算得出的H值小于等于1,可直接令其取值为2;
步骤4.6):根据步骤4.5)所得结果,计算Bm=(Am+Am+1)/2,其中1≤m≤H-1;
步骤4.7):计算密度阈值
步骤4.8):通过对比每个网格单元密度和密度阈值之间的大小,计算得到高密网格集合HighDenGrid={i|size(i)>Minpts},同时可得到低密网格集合LowDenGrid={i|size(i)≤Minpts}。
所述步骤5)包括以下步骤:
步骤5.1):基于步骤4.8)所得的高密网格集合,连接相邻的高密网格单元形成聚类。
所述步骤6)包括以下步骤:
步骤6.1):对于低密网格单元lowi∈LowDenGrid,统计其相邻的高密网格单元集合
步骤6.2):计算集合中每个网格单元的中心位置c(i),即网格单元内所有信号的数据中心,其中
步骤6.3):对于每个属于低密网格单元lowi的信号点p,计算其到所有相邻高密网格单元中心位置的距离,计算公式为
步骤6.4):根据步骤6.3)所得内容,计算数据点p到每个相邻高密网格单元数据中心距离的最小值
步骤6.5):设定阈值ε,默认取值δ/2,即为网格单元宽度的一半,用户也可以自行指定。如果则信号点p为边界点,需将该数据点加入到对应的高密网格单元所属聚类中,反之点p为噪声点;
步骤6.6):假设经过上述所有步骤之后,所得聚类结果为{c1,c2,...,ct,...,ck},其中1≤t≤k。
所述步骤7)包括以下步骤:
步骤7.1):假设聚类ct中包含nt条数据
步骤7.2):对于属于聚类ct的所有数据点pi,计算该点到聚类ct中其他所有数据点的距离之和,其计算公式为其中表示为数据点pi的带宽值。
步骤7.3):计算聚类ct的距离和均值V,其计算公式为:
步骤7.4):对聚类ct中的所有数据点pi,将其距离和Di与距离和均值V进行比较,如果Di>xV,则认为数据点pi为噪声点,同时将数据点pi从聚类ct中删除。这里的x通过多次实验验证,推荐取值为其中表示为数据点pi的带宽值;
步骤7.5):重复步骤7.1)到7.4),直到遍历完所有聚类。
为使本发明的目的、设计思路和优点更加清楚,以下结合具体实例,并参照附图,对本发明作进一步详细说明。
本发明提供了一种基于无参数网格的无线电信号数据聚类方法(标题),如图1所示,包含七个主要步骤:1)根据无线电信号数据集中的数据个数及该批数据的采集时长,计算网格划分值K;2)根据网格划分值k,将信号数据的中心频率维度划分为k个等长但不相交的网格单元;3)根据每个信号数据的中心频率值,将其划分至对应的网格单元,并且统计每个网格单元的密度,即对网格单元中的数据点个数进行统计;4)根据已统计的网格单元密度值,计算密度阈值,并依据密度阈值对网格单元进行划分,其中网格密度高于密度阈值的为高密网格,反之为低密网格,也即边界网格;5)检测相邻的高密网格单元,并将其连接形成聚类;6)从边界网格单元中提取聚类边界点,并根据边界处理方法将其放至所属聚类;7)通过信号的带宽属性,对信号聚类结果进行噪声检测。
下面对本发明的方法涉及的关键步骤进行逐一详细说明,具体步骤如下所示:
步骤一,如图2所示为我们本次进行聚类的无线电信号数据,该组信号采集时长t=94s,数据个数m=5996。根据数据个数m和采集时长t,计算得出网格划分值
步骤二,根据信号数据中心频率属性的分布范围[startfreq,endfreq],及网格划分值k可得到单个网格单元的长度δ=(endfreq-startfreq)/k;进一步得到所有网格单元的频率范围。在此我们以i来表示任意一个网格单元,则其中心频率范围freq(i)=(startfreq+(i-1)*δ,startfreq+i*δ],其中1≤i≤n,n为网格单元的全部数量。
步骤三,根据每个信号数据的中心频率值,将其划分至对应的网格单元。在此我们以j表示一个信号数据,在进行划分操作之后网格单元i中的信号数据集合可表示为point(i)={j|f(j)∈freq(i)},其中1≤j≤m,m为信号数据个数,f(j)为第j个信号数据的频率属性;进一步,统计网格单元密度值,即对每个网格单元中的信号个数进行统计size(i)=count(point(i))。
步骤四,根据已统计的网格单元密度值,计算密度阈值。首先,查找具有最多数据点的网格单元,并记录其数据点个数,该过程可用公式表述为MaxCount=Max(size(i));其次,统计非空网格单元个数Gn;然后,根据信号数据个数m和非空单元格个数Gn,计算一个中间值C=m/Gn;进一步,令A1=MaxCount,计算An=An-1-H,其中1<n≤H;紧接着计算Bm=(Am+Am+1)/2,其中1≤m≤H-1;最后我们可以得到密度阈值
在得到密度阈值Minpts之后,我们需要对比每个网格单元密度和密度阈值之间的大小,得到高密网格集合HighDenGrid={i|size(i)>Minpts},以及低密网格集合LowDenGrid={i|size(i)≤Minpts}。
步骤五,基于步骤四所得的高密网格集合,连接相邻的高密网格单元形成聚类。
步骤六,对于低密网格单元lowi∈LowDenGrid,统计其相邻的高密网格单元集合计算集合中每个网格单元的中心位置c(i),即网格单元内所有信号的数据中心,其中对于每个属于低密网格单元lowi的信号点p,计算其到所有相邻高密网格单元中心位置的距离,计算公式为计算数据点p到每个相邻高密网格单元数据中心距离的最小值最后设定阈值ε,默认取值δ/2,即为网格单元宽度的一半,用户也可以自行指定。如果则信号点p为边界点,需将该数据点加入到对应的高密网格单元所属聚类中,反之点p为噪声点。
假设经过上述所有步骤之后,所得聚类结果为{c1,c2,...,ct,...,ck},其中1≤t≤k。
步骤七,假设聚类ct中包含nt条数据对于属于聚类ct的所有数据点pi,计算该点到聚类ct中其他所有数据点的距离之和,其计算公式为其中表示为数据点pi的带宽值。计算聚类ct的距离和均值V,其计算公式为:对聚类ct中的所有数据点pi,将其距离和Di与距离和均值V进行比较,如果Di>xV,则认为数据点pi为噪声点,同时将数据点pi从聚类ct中删除。这里的x通过多次实验验证,推荐取值为其中表示为数据点pi的带宽值;重复上述步骤,直到处理完所有聚类。如图3所示为本次操作的聚类结果,可以看到我们最终得到了7个聚类和428个噪声,分别以颜色进行了标识。

Claims (8)

1.一种基于无参数网格的无线电信号数据聚类方法,其特征在于,包括以下步骤:
步骤1):以无线电信号数据集中的数据个数除以该批数据的采集时长,得到网格划分值k;
步骤2):根据步骤1)得到的网格划分值k,将该批信号数据的中心频率维度划分为k个等长但不相交的网格单元;以信号数据中心频率属性的分布范围除以网格划分值得到单个网格单元的长度,然后根据单个单元的长度和信号数据中心频率属性的分布范围计算得到每个网格单元的中心频率范围;
步骤3):根据已知的每个信号数据中心频率值,将其划分至对应的网格单元,并且统计每个网格单元的数据点个数作为网格单元密度值;
步骤4):根据已统计的网格单元密度值,计算密度阈值,并依据密度阈值对网格单元进行划分,其中网格密度高于密度阈值的为高密网格,反之为低密网格即边界网格;
步骤5):根据步骤4)得到的高密网格集合,将其中相邻的高密网格单元连接起来,形成多个聚类;
步骤6):从边界网格单元中提取聚类边界点,并根据边界处理方法将其放至所属聚类,以该步骤之后所得聚类结果为[c1,c2,...,ct,...,ck],其中1≤t≤k;
所述的边界处理方法是对低密网格单元中的所有信号数据即信号点,计算其到所有相邻高密网格单元中心位置的距离,最后将小于阈值的信号点放置相应的聚类;
步骤7):通过信号的带宽属性,对信号聚类结果进行噪声检测。
2.根据权利要求1所述的一种基于无参数网格的无线电信号数据聚类方法,其特征在于,所述步骤1)包括以下步骤:
步骤1.1):采集包括中心频率、带宽和采集时间这三个属性在内的无线电信号数据,统计无线电信号数据集的信号点个数m,在此=count(j);其中j表示一个信号;
步骤1.2):根据信号数据的采集时间t(j),计算该信号数据集的采集时长t=Max(t(j))-Min(t(j));
步骤1.3):根据步骤1.1)和步骤1.2)得到的信号点个数m和采集时长t,计算得出网格划分值k,其中k的计算公式为k=m/t。
3.根据权利要求1所述的一种基于无参数网格的无线电信号数据聚类方法,其特征在于,所述步骤2)具体步骤如下:
步骤2.1):以信号数据中心频率属性的分布范围为[startfreq,endfreq],则单个网格单元的长度δ=(endfreq-startfreq)/k;
步骤2.2):在步骤2.1)的基础上,以i来表示任意一个网格单元,则中心频率范围的计算公式为freq(i)=(startfreq+(i-1)*δ,startfreq+i*δ],其中1≤i≤n,n为网格单元的全部数量,依次计算得到所有网格单元的中心频率范围。
4.根据权利要求1所述的一种基于无参数网格的无线电信号数据聚类方法,其特征在于,所述步骤3)具体步骤如下:
步骤3.1):根据每个信号数据的中心频率值,将其划分至包含有该中心频率值的网格单元中,以j表示一个信号数据,则网格单元i中的信号数据为一个集合,表示为point(i)={j|f(j)∈freq(i)},其中1≤j≤m,m为信号数据个数,f(j)为第j个信号数据的频率属性;
步骤3.2):在步骤3.1)的基础上对每个网格单元中的信号个数进行统计来作为网格单元密度值,计算公式为size(i)=count(point(i))。
5.根据权利要求1所述的一种基于无参数网格的无线电信号数据聚类方法,其特征在于,所述步骤4)具体步骤如下:
表示密度步骤4.1):根据网格单元密度值,查找具有最多数据点的网格单元MaxCount=Max(size(i)),并记录其数据点个数;
步骤4.2):统计非空的网格单元个数Gn:首先,统计非空网格单元的集合U={i|size(i)>0},则Gn=count(U);
步骤4.3):根据信号数据个数m和非空单元格个数Gn,计算一个中间值C=m/Gn
步骤4.4):令A1=MaxCount,计算An=An-1-H,其中1<n≤H;H取值必须大于1,如果计算得出的H值小于等于1,则令H其取值为2;
步骤4.5):根据步骤4.4)所得结果,计算Bm=(Am+Am+1)/2,其中1≤m≤H-1;
步骤4.6):计算密度阈值
步骤4.7):通过对比每个网格单元密度和密度阈值之间的大小,计算得到高密网格集合HighDenGrid={i|size(i)>Minpts},同时得到低密网格集合LowDenGrid={i|size(i)≤Minpts}。
6.根据权利要求1所述的一种基于无参数网格的无线电信号数据聚类方法,其特征在于,所述步骤5)具体步骤如下:
步骤5.1):基于所得的高密网格集合,寻找所有出现相邻情况的高密网格单元,并将这些高密网格单元连接起来形成聚类。
7.根据权利要求1所述的一种基于无参数网格的无线电信号数据聚类方法,其特征在于,所述步骤6)具体步骤如下:
步骤6.1):对于低密网格单元lowi∈LowDenGrid,统计其相邻的高密网格单元集合
步骤6.2):通过计算集合中每个网格单元中所有信号中心频率属性的均值,来作为网格单元的中心位置c(i),即网格单元内所有信号的数据中心,其中
步骤6.3):对于每个属于低密网格单元lowi的信号点p,计算其到所有相邻高密网格单元中心位置的距离,计算公式为步骤6.4):根据步骤6.3)所得内容,计算信号点p到每个相邻高密网格单元数据中心距离的最小值
步骤6.5):设定阈值ε,默认取值δ/2,即为网格单元宽度的一半,如果则信号点p为边界点,需将该数据点加入到对应的高密网格单元所属聚类中,反之点p为噪声点;
步骤6.6):以经过上述所有步骤之后,所得聚类结果为{c1,c2,…,ct,…,ck},其中1≤t≤k。
8.根据权利要求1所述的一种基于无参数网格的无线电信号数据聚类方法,其特征在于,所述步骤7)具体如下:
步骤7.1):以聚类ct中包含nt条数据
步骤7.2):对于属于聚类ct的所有数据点pi,计算该点到聚类ct中其他所有数据点的距离之和,其计算公式为其中表示为数据点pi的带宽值;
步骤7.3):计算聚类ct的距离和均值V,其计算公式为:
步骤7.4):对聚类ct中的所有数据点pi,将其距离和Di与距离和均值V进行比较,如果Di>xV,则认为数据点pi为噪声点,同时将数据点pi从聚类ct中删除;x通过取值为其中表示为数据点pi的带宽值;
步骤7.5):重复步骤7.1)到7.4),直到遍历完所有聚类。
CN201811183704.1A 2018-10-11 2018-10-11 一种基于无参数网格的无线电信号数据聚类方法 Active CN109389172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811183704.1A CN109389172B (zh) 2018-10-11 2018-10-11 一种基于无参数网格的无线电信号数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811183704.1A CN109389172B (zh) 2018-10-11 2018-10-11 一种基于无参数网格的无线电信号数据聚类方法

Publications (2)

Publication Number Publication Date
CN109389172A true CN109389172A (zh) 2019-02-26
CN109389172B CN109389172B (zh) 2022-05-20

Family

ID=65427411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811183704.1A Active CN109389172B (zh) 2018-10-11 2018-10-11 一种基于无参数网格的无线电信号数据聚类方法

Country Status (1)

Country Link
CN (1) CN109389172B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109799531A (zh) * 2019-03-20 2019-05-24 成都理工大学 一种基于地震分频相干属性的裂缝储层预测方法
CN110427531A (zh) * 2019-07-19 2019-11-08 清华大学 对多个样本进行网格布局可视化的方法和系统
CN112507607A (zh) * 2020-11-12 2021-03-16 中国电建集团中南勘测设计研究院有限公司 一种隔水幕墙压强计算结果修正方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426598A (zh) * 2011-11-08 2012-04-25 军工思波信息科技产业有限公司 一种用于网络内容安全管理的中文文本聚类的方法
CN103079270A (zh) * 2013-02-05 2013-05-01 中国电子科技集团公司电子科学研究院 一种基于无线定位的移动节点聚集感知方法
CN104166981A (zh) * 2014-06-17 2014-11-26 南京信息工程大学 基于多图表达的人体动作学习方法
CN104616210A (zh) * 2015-02-05 2015-05-13 河海大学常州校区 一种智能配电网大数据融合重构与交互方法
CN105184318A (zh) * 2015-08-31 2015-12-23 浙江工业大学 一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法
CN105897488A (zh) * 2016-06-13 2016-08-24 中南大学 一种无线电信号数据的可视化方法
CN106054156A (zh) * 2016-06-22 2016-10-26 中国人民解放军第四军医大学 一种基于uwb mimo生物雷达的静止人体目标识别与定位方法
CN106934417A (zh) * 2017-03-06 2017-07-07 浙江工业大学 一种面向混合属性的数据流自适应聚类方法
CN107506802A (zh) * 2017-10-19 2017-12-22 广东工业大学 一种基于网格的聚类算法及其装置
CN107908696A (zh) * 2017-11-02 2018-04-13 广西中烟工业有限责任公司 一种并行高效的基于网格与密度的多维空间数据聚类算法griden
CN108197647A (zh) * 2017-12-28 2018-06-22 中南大学 一种汽车起动机耐久测试数据的快速聚类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426598A (zh) * 2011-11-08 2012-04-25 军工思波信息科技产业有限公司 一种用于网络内容安全管理的中文文本聚类的方法
CN103079270A (zh) * 2013-02-05 2013-05-01 中国电子科技集团公司电子科学研究院 一种基于无线定位的移动节点聚集感知方法
CN104166981A (zh) * 2014-06-17 2014-11-26 南京信息工程大学 基于多图表达的人体动作学习方法
CN104616210A (zh) * 2015-02-05 2015-05-13 河海大学常州校区 一种智能配电网大数据融合重构与交互方法
CN105184318A (zh) * 2015-08-31 2015-12-23 浙江工业大学 一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法
CN105897488A (zh) * 2016-06-13 2016-08-24 中南大学 一种无线电信号数据的可视化方法
CN106054156A (zh) * 2016-06-22 2016-10-26 中国人民解放军第四军医大学 一种基于uwb mimo生物雷达的静止人体目标识别与定位方法
CN106934417A (zh) * 2017-03-06 2017-07-07 浙江工业大学 一种面向混合属性的数据流自适应聚类方法
CN107506802A (zh) * 2017-10-19 2017-12-22 广东工业大学 一种基于网格的聚类算法及其装置
CN107908696A (zh) * 2017-11-02 2018-04-13 广西中烟工业有限责任公司 一种并行高效的基于网格与密度的多维空间数据聚类算法griden
CN108197647A (zh) * 2017-12-28 2018-06-22 中南大学 一种汽车起动机耐久测试数据的快速聚类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
C. XIAOYUN等: "GMDBSCAN: Multi-Density DBSCAN Cluster Based on Grid", 《2008 IEEE INTERNATIONAL CONFERENCE ON E-BUSINESS ENGINEERING》 *
Z. ZHOU等: "Adaptive and fast density clustering algorithm", 《THE 27TH CHINESE CONTROL AND DECISION CONFERENCE (2015 CCDC)》 *
周芳芳等: "无线电频谱与无线电信号数据协同可视分析方法", 《计算机辅助设计与图形学学报》 *
夏庆亚: "基于密度峰值和网格的自动选定聚类中心算法", 《计算机科学》 *
王军: "基于网格密度聚类的雷达信分选算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
邢长征等: "密度网格参数自适应的数据流聚类算法", 《计算机科学与探索》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109799531A (zh) * 2019-03-20 2019-05-24 成都理工大学 一种基于地震分频相干属性的裂缝储层预测方法
CN109799531B (zh) * 2019-03-20 2022-04-01 成都理工大学 一种基于地震分频相干属性的裂缝储层预测方法
CN110427531A (zh) * 2019-07-19 2019-11-08 清华大学 对多个样本进行网格布局可视化的方法和系统
CN112507607A (zh) * 2020-11-12 2021-03-16 中国电建集团中南勘测设计研究院有限公司 一种隔水幕墙压强计算结果修正方法
CN112507607B (zh) * 2020-11-12 2023-02-10 中国电建集团中南勘测设计研究院有限公司 一种隔水幕墙压强计算结果修正方法

Also Published As

Publication number Publication date
CN109389172B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN106408939B (zh) 基于密度峰值聚类的交通流量序列划分方法
CN111524606B (zh) 一种基于随机森林算法的肿瘤数据统计方法
CN107682319B (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN109389172A (zh) 一种基于无参数网格的无线电信号数据聚类方法
CN108846338A (zh) 基于面向对象随机森林的极化特征选择及分类方法
CN108846259A (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN110443281A (zh) 基于hdbscan聚类的自适应过采样方法
CN107103332A (zh) 一种面向大规模数据集的相关向量机分类方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
WO2005050479A1 (ja) 類似パターン検索装置、類似パターン検索方法、類似パターン検索プログラム、および分画分離装置
CN107609105B (zh) 大数据加速结构的构建方法
CN104820840B (zh) 基于字典和波段重组的最近邻高光谱图像分类方法
CN109858518A (zh) 一种基于MapReduce的大型数据集聚类方法
CN103336771A (zh) 基于滑动窗口的数据相似检测方法
CN108304851A (zh) 一种高维数据流异常点识别方法
CN110728322A (zh) 一种数据分类方法及相关设备
CN110659682A (zh) 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN110502989A (zh) 一种小样本高光谱人脸识别方法及系统
CN112800115A (zh) 数据处理方法及数据处理装置
CN108549696A (zh) 一种基于内存计算的时间序列数据相似性查询方法
CN108074025A (zh) 基于表面缺陷分布特征的钢卷表面缺陷判定方法
CN106326914B (zh) 一种基于svm的珍珠多分类方法
Naeini et al. Improving the dynamic clustering of hyperspectral data based on the integration of swarm optimization and decision analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant