CN112883895B

CN112883895B - 基于自适应加权pca的非法电磁信号检测方法及其实现系统

Info

Publication number: CN112883895B
Application number: CN202110249076.8A
Authority: CN
Inventors: 王洪君; 张德良; 郑庆河; 王娜; 赵朋辉; 徐红玉; 张艳艳; 张学林; 刘东杰; 胡燕南
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-03-25
Anticipated expiration: 2041-03-08
Also published as: CN112883895A

Abstract

本发明涉及基于自适应加权PCA的非法电磁信号检测方法及其实现系统，包括：(1)正常信号采集；(2)数据预处理；(3)多项式拟合包络；将均值滤波后得到的数据，均分成连续的多组数据，取每组数据的最大值做多项式拟合得到拟合包络；(4)提取包络特征；提取拟合包络的三个特征，包括主包络峰值、主包络带宽、主包络与次包络的峰值差；(5)通过权重因子和归一化获得信号权重；(6)重构目标信号并判断其合法性。本发明可以在不考虑电磁信号具体内容的基础上，提高了PCA的检测准确率。本发明在PCA降维过程中，在加权后可以用比原始PCA更少的特征向量来组成主成分空间，大大提高了目标信号重构时的检测速度。

Description

基于自适应加权PCA的非法电磁信号检测方法及其实现系统

技术领域

本发明涉及基于自适应加权PCA的非法电磁信号检测方法及其实现系统，属于信号处理领域。

背景技术

2018年，国家无线电监测中心的崔传金、马良、宋振祥团队将人工智能算法应用到黑广播检测的应用中，巧妙地将语音识别技术用于解决非法电台的识别中，开发了一套黑广播检测系统。该系统关键在于提取关键信息，如整点报时时间、节目名称、频道台标信息等关键词来判定是不是非法电台，该技术大大提高了检测效率和检测准确率的同时，较大限度的解放了人工。

2020年1月，重庆市无线电监测站联合西华大学无线电管理技术中心和国家无线电检测中心通过实验研究了人工智能技术在非法广播判别过程中的应用，提出了一种基于语音识别与文本分类技术的非法广播判别方法。该方法是对第一种方法的改进。

在超短波电磁信号检测上，一直有很多问题，正如崔传金、马良、宋振祥团队在“基于语音识别技术的“黑广播”自动识别系统设计”这篇文章中提到的：目前超短波监测工作依然面临业务系统与实践监测工作结合不够紧密、任务执行自动化水平较低、监测数据分析处理深度不够、重复性工作多、效率低等问题(参见文献：杨东沿,“基于语音识别技术的调频广播保障系统研究.”,西华大学,2016.)。

以上两种方法虽然提高了自动化水平，解放了人工，但仍然存在以下几个缺点：

(1)由于目前的方法多从电磁信号(主要是广播信号)的具体内容出发，且现代的黑广播也在进化，有些有意识的黑广播就能够严格整点报时，并盗用合法电台节目名称故意避开系统检测，从而失效；

(2)一个地区的调频广播环境很容易受另一个地缘较近地区电台的影响，在电台较为混乱的地缘交界处提取特征信息会花费大量时间和精力；

(3)现代采用的人工智能、语音识别、文本分类算法非线性程度高，算法复杂，实时性差；

(4)对于黑飞无人机、非法对讲机等很难获取其通信内容的非法电磁信号不具有推广性。

发明内容

针对现有技术的不足，本发明提供了基于自适应加权PCA的非法电磁信号检测方法。

本发明还提供了上述非法电磁信号检测方法的实现系统；

本发明解决了以下几个问题：(1)从非法信号本身的包络特征出发，提取包络特征并设计检测因子，来检测非法电磁信号，克服了从电磁信号内容的角度检测非法电磁信号的弊端；(2)不受地缘环境的影响，在不需要听电磁喜好内容的前提下，快速建模,克服了地缘交界处广播信号混乱而难以快速建模的问题；(3)算法简单，检测速度快。

术语解释：

1、散粒噪声：shot noise，通信设备中的有源器件(如电真空管)中，由于电子发射不均匀性所引起的噪声，又称散弹噪声。

2、PCA，主成分分析，是一种用于提取数据主成分的数据处理方法，可以在尽量保留原数据信息的前提下减少数据量，大大提高运算速度，被广泛应用于工程中的故障诊断、图像处理、入侵检测、目标识别等领域。PCA获取主成分主要有六个步骤，如图12所示，图12为m维数据降维到s维的PCA实现过程(m>s)。

本发明的技术方案为：

基于自适应加权PCA的非法电磁信号检测方法，包括步骤如下：

(1)正常信号采集

采集所要研究的检测位置所能检测到的待检测电磁频段(如非法调频广播检测的频段为88-108MHz,黑飞无人机检测的频段为2.4GHz和5.8GHz的)中所有可能出现的设备的通信信号；

(2)数据预处理

通过傅里叶变换将时域信号即步骤(1)采集到的通信信号变换为频域信号，由于介观器件或系统的有源器件的存在，会产生散粒噪声，为降低信号中的散粒噪声的干扰，并通过均值滤波去除步骤(1)正常信号采集时设备中有源器件产生的散粒噪声；

(3)多项式拟合包络

将步骤(2)均值滤波后得到的数据，均分成连续的多组数据，取每组数据的最大值做多项式拟合得到拟合包络；例如：对二维数据集(x，y)：{(1,3)，(2，2),(3，6)，(4,8)，(5，7)，(6，8)，(7，7)，(8，3)，(9，5)，(10，4)}做拟合，可将数据集的10个点分成连续的五组，每组两个点：{[(1,3)，(2，2)],[(3,6),(4，8)]，[5，7)，(6,8)],[(7,7)，(8,3)],[(9，5)，(10，4)]，}，取每组y值最大的点组成新的集合，用于多项式拟合：{(1，3)，(4，8)，(6,8)，(7,7)，(9,5)}。

(4)提取包络特征

提取步骤(3)得到的拟合包络的三个特征，包括主包络峰值、主包络带宽、主包络与次包络的峰值差；

(5)通过权重因子和归一化获得信号权重

初始权重因子W₁如式(Ⅰ)所示：

式(Ⅰ)中，W₁＝{W₁(i),i＝1,2,…,m}，W₁(i)表示第i条信号的初始权重；P是主包络峰值，B为主包络带宽，D为主包络与次包络的峰值差；

T₁、T₂、T₃是该检测点正常情况下所接收到的通信信号与背景噪声能够被W₁识别的最准确的多项式拟合方案下的P、B、D所各自对应的分类阈值；

T为通信信号与背景噪声能够被W₁识别的最准确的多项式拟合方案下的W₁所对应的分类阈值；分类阈值的设定由建模时间内正常通信信号和背景噪声信号所出现的比例确定；

m是待处理信号的条数，则通过包络拟合得到每条信号的包络，m条信号各自包络的主包络峰值组成主包络峰值集合，各自包络的主包络带宽组成主包络带宽集合，各自包络的主次包络峰值差组成主次包络峰值差集合；若m条信号中有a条是有电台信号，则有电台信号占比为

无电台信号占比为1-a1；

S₁₁是所得到的主包络峰值集合中的一个主包络峰值，满足主包络峰值集合中有占a1的峰值大于等于S₁₁，通过遍历每一个峰值并比较大小得到；S₁₂是所得到的主包络峰值集合中的一个峰值，满足主包络峰值集合中占有1-a1的峰值大于等于S₁₂，通过遍历每一个峰值并比较大小得到；主包络峰值集合中恰好有一个数满足占a1比例的数据大于该数，则将该数记为S₁₁；恰好有一个数满足主包络峰值集合中占1-a1比例的数据小于该数，则将该数记为S₁₂；

S₂₁是所得到的主包络与次包络的峰值差集合中的一个值，满足主次峰值差集合中有占a1的主包络与次包络的峰值差大于等于S₂₁，通过遍历每一个主包络与次包络的峰值差并比较大小得到；S₂₂是所得到的主包络与次包络的峰值差集合中的一个值，满足主次峰值差集合中占有1-a1的主包络与次包络的峰值差大于等于S₂₂，通过遍历每一个主包络与次包络的峰值差并比较大小得到；主次包络峰值差集合中恰好有一个数满足占a1比例的数据大于该数，则将该数记为S₂₁；恰好有一个数满足主次包络峰值差集合中占1-a1比例的数据小于该数，则将该数记为S₂₂；

S₃₁是所得到的主包络带宽集合中的一个值，满足主包络带宽集合中有占a1的主包络带宽大于等于S₃₁，通过遍历每一个主包络带宽并比较大小得到；S₃₂是所得到的主包络带宽集合中的一个值，满足主包络带宽集合中占有1-a1的主包络带宽大于等于S₃₂，通过遍历每一个主包络带宽并比较大小得到；主包络带宽集合中恰好有一个数满足占a1比例的数据大于该数，则将该数记为S₃₁；恰好有一个数满足主包络带宽集合中占1-a1比例的数据小于该数，则将该数记为S₃₂；

S₁是所得到的

集合中的一个值，

集合是包含m个数据的集合，满足W₁集合中有占a1的W₁大于等于S₁，通过遍历每一个W₁并比较大小得到；S₂是所得到的W₁中的一个值，满足W₁集合中占有1-a1的W₁大于等于S₂，通过遍历每一个W₁并比较大小得到；集合中恰好有一个数满足占a1比例的数据大于该数，则将该数记为S₁；恰好有一个数满足集合中占1-a1比例的数据小于该数，则将该数记为S₂。

比如，在非法调频广播信号检测中，前期建模时，检测点处将接收到的88-108MHz的频段额分成步进为0.1MHz，带宽为0.2MHz的200条信号，其中有50条信号有电台，其余150条为噪声，则T₁为所有200条信号对应的200个主包络峰值取值中有50/200值大于的那个数和其中有150/200的值小于的那个数的平均值，同理T₂、T₃、T也是这么确定的；

由于W₁(i),i＝1,2,…,m分布可能会很离散，直接用于对原始信号加权容易使部分信号过于离群而在PCA的降维过程中被算法忽略，先对W₁进行非线性归一化，如公式(Ⅱ)所示：

式(Ⅱ)中，W₁＝{W₁(i),i＝1,2,…,m}，W₁(i)表示第i条信号的初始权重；W₂＝{W₂(i),i＝1,2,…,m}，W₂(i)表示W₁(i)经过非线性归一化处理后的新权重；若W₂(i)仍然有部分值过于离散，对其进行合理的线性归一化，最终得到权重W，W＝{W(i),i＝1,2,…,m}。

n是指信号总数；

W₁(i)可能会很离散，直接用于对原始信号加权容易使部分信号过于离群而在PCA的降维过程中被算法忽略，故采用非线性归一化收敛分布，使特别大的离群点收敛下来。建模信号中包括功率高的电台信号和大量白噪声，非线性归一化使离群的点收敛了下来，但占样本比大多数的噪声信号的W₂(i)仍然远小于电台信号的W₂(i)，甚至差3-4个数量级，这在PCA的学习中是不合理的，会使噪声信号过于集中而基本被忽略，故采用线性归一化使W₂(i)彼此相差不超过1个数量级。

(6)重构目标信号并判断其合法性。

根据本发明优选的，步骤(2)中，采用1024点的傅里叶变换。

根据本发明优选的，步骤(2)中，通过两层窗口大小为20点的均值滤波去除步骤(1)正常信号采集时设备中有源器件产生的散粒噪声。

根据本发明优选的，所述步骤(4)中，是指：通过求导提取拟合包络的波峰、波谷；两个相邻波谷之间的波形记为一个包络，计算各包络的面积，面积最大的记为主包络，面积次大的记为次包络；主包络峰值是指主包络的峰值；主包络带宽是指主包络的带宽；主包络与次包络的峰值差是指主包络与次包络的峰值差的绝对值。

根据本发明优选的，若W₂(i)仍然有部分值过于离散，对其进行合理的线性归一化，最终得到权重W；是指：

W₂(i),i＝1,2,…,m归一化到[c1,c2]的线性归一化公式如式(Ⅲ)所示：

式(Ⅲ)中，c2是先行线性归一化结果的上限，c1是归一化的下限，

W是W(i)的集合：W＝{W(i),i＝1,2,…,m}。

根据本发明优选的，重构目标信号并判断其合法性，包括步骤如下：

A、将每条信号对应得到的权重W乘以其本身得到新的数据集；该数据集中电台信号之间变得更分散，噪声信号之间变得更集中；

B、对步骤A中新的数据集中的每条数据进一步做PCA，提取其主成分空间(PCA降维原理中的

)，对于待检测信号，用得到的主成分空间对其进行重构，计算重构误差，并将重构误差与检测阈值T做比较，超出检测阈值T的判定为非法电磁信号，反之，则为正常信号；T∈(0.52,0.70)。

根据本发明优选的，对于待检测信号，用得到的主成分空间对其进行重构，计算重构误差，包括：

设定得到的主成分空间为基向量组P；

用得到的主成分空间对其进行重构，重构公式如式(IV)所示：

式(IV)中，X_n×m表示m条数据、n个特征点的原数据矩阵，Y_s×m是原数据矩阵经s维主成分空间

提取的主成分，

是Y_s×m经P重构得到的X_n×m的近似表示；

主成分Y_s×m是X_n×m按照基向量组P线性变化得到的，Y_s×m是X_n×m舍弃了部分不重要信息后得到的主要成分；

那么可以用原样本和重构样本每个特征对应点平方和来表示重构误差，重构误差R_j的计算公式如式(Ⅴ)所示：

式(Ⅴ)中，R_j表示第j条重构样本与原样本对应的重构误差；X_i×j表示原始数据第j条数据的第i个特征值，

表示重构数据第j条数据的第i个特征值，是X_i×j的近似表示。

上述基于自适应加权PCA的非法电磁信号检测方法的实现系统，包括依次连接的信号采集单元、数据预处理单元、多项式拟合包络单元、包络特征提取单元、信号权重获取单元、重构目标信号及判断合法性单元；

所述信号采集单元用于实现所述步骤(1)；所述数据预处理单元用于实现所述步骤(2)；所述多项式拟合包络单元用于实现所述步骤(3)；所述包络特征提取单元用于实现所述步骤(4)；所述信号权重获取单元用于实现所述步骤(5)；所述重构目标信号及判断合法性单元用于实现所述步骤(6)。

本发明的有益效果为：

1、本发明可以在不考虑电磁信号具体内容的基础上，利用信号包络的特性来设计权重因子，以提高PCA的检测准确率。

2、本发明在PCA降维过程中，在加权后可以用比原始PCA更少的特征向量来组成主成分空间，大大提高了目标信号重构时的检测速度。

3、由于不用考虑信号内容，本发明只考虑信号本身的物理特性，可以克服地缘交界处的电台管理混乱的问题。

4、相比较人工智能的方法，本发明算法更加简单，实时性更好。

附图说明

图1为基于自适应加权PCA的非法电磁信号检测方法的流程示意图；

图2为3000条训练集信号的W₁值分布直方图；

图3为3000条训练集信号的W₂值分布直方图；

图4为3000条训练集信号的W值分布直方图；

图5为原始PCA主成分空间大小示意图；

图6为自适应健全PCA主成分空间大小示意图；

图7为PCA下训练集重构误差示意图；

图8为自适应PCA下训练集重构误差示意图；

图9为检测准确率对比图；

图10为重构耗时对比图；

图11为基于自适应加权PCA的非法电磁信号检测方法的实现系统结构示意图。

图12为m维数据降维到s维的PCA实现流程示意图；

图13是103.6MHz的频域波形示意图；

图14是图13滤波后的波形示意图；

图15是对滤波后数据做多项式拟合后的包络示意图；

图16是提取包络特征示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

基于自适应加权PCA的非法电磁信号检测方法，如图1所示，包括步骤如下：

(1)正常信号采集

(2)数据预处理

图13是103.6MHz的频域波形示意图；图14是图13滤波后的波形示意图。

(3)多项式拟合包络

将步骤(2)均值滤波后得到的数据，均分成连续的多组数据，取每组数据的最大值做多项式拟合得到拟合包络；例如：对二维数据集(x，y)：{(1,3)，(2，2),(3,6),(4,8)，(5,7)，(6,8)，(7,7)，(8,3)，(9，5)，(10，4)}做拟合，可将数据集的10个点分成连续的五组，每组两个点：{[(1，3)，(2，2)],[(3,6)，(4，8)]，[5，7)，(6，8)],[(7,7)，(8,3)]，[(9，5),(10,4)],}，取每组y值最大的点组成新的集合，用于多项式拟合：{(1，3)，(4，8)，(6,8)，(7,7)，(9,5)}。

(4)提取包络特征

具体如图15、图16所示,因为采样带宽是0.2MHz，故包络的点数M与频域带宽B有如下转换关系：

(5)通过权重因子和归一化获得信号权重

初始权重因子W₁如式(Ⅰ)所示：

无电台信号占比为1-a1；

S₁是所得到的

集合中的一个值，

n是指信号总数；

(6)重构目标信号并判断其合法性。

实施例2

根据实施例1所述的基于自适应加权PCA的非法电磁信号检测方法，其区别在于：

步骤(2)中，采用1024点的傅里叶变换。

步骤(2)中，通过两层窗口大小为20点的均值滤波去除步骤(1)正常信号采集时设备中有源器件产生的散粒噪声。

步骤(4)中，是指：通过求导提取拟合包络的波峰、波谷；两个相邻波谷之间的波形记为一个包络，计算各包络的面积，面积最大的记为主包络，面积次大的记为次包络；主包络峰值是指主包络的峰值；主包络带宽是指主包络的带宽；主包络与次包络的峰值差是指主包络与次包络的峰值差的绝对值。

若W₂(i)仍然有部分值过于离散，对其进行合理的线性归一化，最终得到权重W；是指：

W₂(i),i＝1,2,…,m归一化到[c1，c2]的线性归一化公式如式(Ⅲ)所示：

W是W(i)的集合：W＝{W(i),i＝1,2,…,m}。

重构目标信号并判断其合法性，包括步骤如下：

PCA提取其主成分空间，具体包括以下几个步骤：

1.1数据的标准化处理

在用传感器采集数据时，由于不同传感器所表达的特征本身无法比较(如身高和体重)，同时，即使同一特征也可以用不同的量纲来表示(如，体重可以用千克表示，也可以用克来表示)，已知PCA的降维原理是根据投影后数据最大可分性原理来完成的，简单来书就是通过数据的离散程度来确定降维的方向的，PCA会使数据向令降维后数据最离散的几个维度投影，在数学上，一般使用方差作为离散性的标准，由方差的公式可知，当被求数据同乘以a时，方差会扩大为原来的a²倍。所以，为了消除量纲的影响，需要对数据进行标准化处理。

设整理后原数据矩阵

(m个样本，n个特征维度)，对其进行标准化处理：

其中，

为标准化后的结果，

则是

的均值，δ是

的标准差，经过标准化得到了矩阵

另一方面，标准化处理使得

的均值为零，简化了接下来求X_n×m的协方差矩阵的计算。

1.2求协方差矩阵及其特征值和特征向量

PCA降维过程中的关键一步便是求降维空间的基向量，基向量是X_n×m的协方差矩阵特征根所对应的特征向量组成的，当要将n维数据降维到s维时，只需要挑选最大的前s个特征值所对应的特征向量，将其作为新空间的基向量，便可以实现PCA对X_n×m的主成分提取。

由于X_n×m是标准化的数据集，

的均值为零，则其协方差公式可以表示为：

求C的特征多项式的解集：

其中，

是C的特征向量，λ是对应的特征值。将λ的解集由大到小降序排列得{λ₁，λ₂，λ₃，…，λ_n}，其对应的特征向量

的解集，

1.3降维

P₁是按照降维后数据的离散程度由高到底排列的基向量空间，设Y_n×m是X_n×m经P线性变换(旋转)后的数据集，该变换过程可以表示为：

如果将原数据降维到s维(保留最主要的s维)，只需将Y_n×m后面的n-s维置零，令

取P₁的前s行得

则降维过程可以表示为：

新空间基向量的选取是PCA的关键步骤，在上文PCA实现过程中是通过求X_n×m的协方差矩阵的特征方程来确定新空间的基向量组的，根据新空间的维数，选取特征值降序排列的前多少个值所对应的特征向量来组成新空间的基向量组。PCA本质上就是寻找一个超平面，使得原始数据在超平面上的投影值经过该超平面重构后的数据与所对应的原始数据的欧式距离(Euclidean Distance)的平方和最小，称该原理为最近重构性原理。下面，从满足最近重构性原理的角度推导PCA主成分空间的基向量选取标准。

设

经P降维后变为

那么

重构误差可表示为：

其中，tr(X)表示矩阵X的迹。要使R取得最小值，相当于

取得最小值，等价于：

由拉格朗日算子法可得到对应的拉个朗日函数：

L(P,λ)＝-tr(PXX^TP^T)+λ(PP^T-I) (8)

进而转化为一个对偶问题：、

令L(P,λ)对P求偏导数可得：

-2XX^TP^T+2λP^T＝0

即：

XX^TP^T＝λP^T (9)

推到这里得到了XX^T的特殊多项式的表达式，所以求满足最近重构性原则的P就是求协方差矩阵XX^T的特征多项式，将得到的特征值降序排列，其前s个特征值对应的特征向量所组成的向量组便是将n维数据经PCA降维到s为数据的降维空间基向量组。

对于待检测信号，用得到的主成分空间对其进行重构，计算重构误差，包括：

设定得到的主成分空间为基向量组P；

用得到的主成分空间对其进行重构，重构公式如式(IV)所示：

提取的主成分，

是Y_s×m经P重构得到的X_n×m的近似表示；

在异常检测的研究中，可以简单的把要分析的对象分为两类，一类是正常的对象，一类是异常的对象。正常信号数据之间往往会有其内部规律，那么就可以通过求正常样本集的协方差矩阵得到该样本集所对应的超平面，P是能反应该样本主成分分布规律的。

对于一条不属于原正常样本集的新数据来说，它要么是正常对象，要么是异常对象。如果该条数据是正常对象,它与PCA处理的正常数据集的相似度一般会比较高，如果该条数据是异常的,其正常数据集的相似度一般会比较低。当该条信号是正常的时，其通过P重构得到的数据与其本身的重构误差通常会比较小；若该条信号是异常的，其重构误差一般会比较大。那么，通过分析目标对象的重构误差的大小便可以判断其是否为异常信号。

实施例3

实施例1或2所述的基于自适应加权PCA的非法电磁信号检测方法在“黑广播”检测中的应用，各步骤具体如下：

(1)信号采集

用频谱仪以扫频的方式按照如下条件采集信号：

正常信号采集参数设定：频谱仪采集参数：1、采样频段88.0MHz-107.9MHz，2、频率步进0.1MHz，3、采样带宽0.2MHz，4、信号长度1024点。

异常信号参数设定：信号发生器参数：1、发射频段：90MHz、95.4MHz、95.6MHz、98MHz、99.2MHz、99.4MHz、100MHz、100.7MHz、102MHz、102.5MHz、102.7MHz、103MHz、106MHz、107.8MHz，2、最大频偏：75KHz，3、调制率：10KHz；频谱仪参数：1、采集频段：按照信号发生器发射频段采集，2、频率步进0.1MHz，3、采样带宽0.2MHz，4、信号长度1024点。

数据集划分：采集的正常广播信号集中选取15组信号，每组200条，组成3000*1024的训练集；采集到的1万多条信号随机打乱顺序，组成异常信号集合，选取其中1000条与正常信号集中的1000条信号组成2000*1024的验证集(与训练集数据无交集)；从异常信号集合中选取4组交集为空的信号，每组1000条，从正常信号中选取4组无交集信号，每组1000条，组成4组2000*1024的测试集(与训练集、验证集皆无交集)。

(2)数据预处理

通过1024点的FFT将时域信号变换到频域；由由于介观器件或系统的有源器件的存在，会产生散粒噪声，为降低信号中的散粒噪声的干扰，使用两层窗口大小为20点的均值滤波降低散粒噪声。

(3)多项式拟合

将滤波后的数据，均分成连续的512组数据，每组数据包含2个数据，取每组数据的最大值共512个点做14阶多项式拟合，得到拟合包络。

(4)提取包络特征，包络：主包络峰值、主包络带宽、主次包络的峰值差

(5)通过权重因子和归一化获得信号权重

将提取的三个特征参数带入到权重因子中：

其中P：主包络峰值，单位是瓦(W)；B：主包络带宽，单位是Kb；D：主次包络峰值差，单位是瓦(W)。主包络W₁大于1的认为是有电台的，小于1则认为是噪声，由于部分信号的W₁值近300，而绝大数集中在0-25之间，特别高的W₁值作为权重会使对应信号过于离群而影响主成分提取，且不容易观察W₁的分布规律，如图2所示，为3000条训练集信号W₁值的分布。

所以，对W₁做非线性归一化：

得到非线性归一化后的权重W₂，其对应3000条训练集信号的分布直方图如图3所示：W₂(i)>1的有600多个，约占总数的1/5，符合电台信号占信号总数的比例(600/3000)。W₂中部分数据仍然比较离散，在不破坏W₂数据分布结构的基础上，将数据线性归一化到[0.2,2.8]：

使数据分布更收敛，结果如图4所示：W为最终PCA所用到的权重值。

(6)重构目标信号并判断其合法性

将信号得到的W乘以其本身，然后用PCA提取主成分，对于待检测信号，用得到的主成分空间对其进行重构，计算重构误差，并将重构误差与阈值做比较，超出阈值的判定为非法电磁信号，反之，则为正常信号。其中检测阈值设定为训练集检测准确率最高时的检测阈值。选取3000条正常信号作为训练集，分别通过PCA和自适应加权PCA提取数据的主成分，原始PCA算法提取90％的主成分需要将原始数据投影到一个434维的超平面上，如图5所示：

而自适应加权PCA只需要一个134维的超平面便可实现90％主成分的提取，具体如图6所示：

检测结果：1000条正常信号和1000条异常信号组成的2000条信号的验证集，如图7所示，为原始PCA对验证集的重构误差分布图：如图8所示为自适应加权PCA对训练集的重构误差分布图：

由图7、图8对比可知，自适应PCA使得非法电磁信号(训练集的1001-2000条信号)的重构误差相较于原始PCA普遍变得更高了，进而使得非法电磁信号变得更易分辨。由于自适应加权PCA的主成分空间大小只有原始PCA算法的1/3左右，使得自适应加权PCA在重构时只需要花费原始PCA算法的1/3左右。

下面是测试集的结果：测试集组成：选取了4组测试集，每组包含1000条正常信号和1000条异常信号，4组信号互无交集，图9是不同观测样本的检测准确率对比图：图10是4组测试集各2000条信号的重构耗时：由图9图10可知，自适应加权PCA算法无论是在运算时间上还是检测准确率上都优于原始PCA算法。

实施例4

实施例1或2所述的基于自适应加权PCA的非法电磁信号检测方法的实现系统，如图11所示，包括依次连接的信号采集单元、数据预处理单元、多项式拟合包络单元、包络特征提取单元、信号权重获取单元、重构目标信号及判断合法性单元；

信号采集单元用于实现步骤(1)；数据预处理单元用于实现步骤(2)；多项式拟合包络单元用于实现步骤(3)；包络特征提取单元用于实现步骤(4)；信号权重获取单元用于实现步骤(5)；重构目标信号及判断合法性单元用于实现步骤(6)。

Claims

1.基于自适应加权PCA的非法电磁信号检测方法，其特征在于，包括步骤如下：

(1)正常信号采集

采集待检测电磁频段中所有可能出现的设备的通信信号；

(2)数据预处理

通过傅里叶变换将时域信号即步骤(1)采集到的通信信号变换为频域信号，并通过均值滤波去除步骤(1)正常信号采集时设备中有源器件产生的散粒噪声；

(3)多项式拟合包络

将步骤(2)均值滤波后得到的数据，均分成连续的多组数据，取每组数据的最大值做多项式拟合得到拟合包络；

(4)提取包络特征

提取步骤(3)得到的拟合包络的三个特征，包括主包络峰值、主包络带宽、主包络与次包络的峰值差；是指：提取拟合包络的波峰、波谷；两个相邻波谷之间的波形记为一个包络，计算各包络的面积，面积最大的记为主包络，面积次大的记为次包络；主包络峰值是指主包络的峰值；主包络带宽是指主包络的带宽；主包络与次包络的峰值差是指主包络与次包络的峰值差的绝对值；

(5)通过权重因子和归一化获得信号权重；初始权重因子W₁如式(Ⅰ)所示：

无电台信号占比为1-a1；

S₁₁是所得到的主包络峰值集合中的一个主包络峰值，满足主包络峰值集合中有占a1的峰值大于等于S₁₁，通过遍历每一个峰值并比较大小得到；S₁₂是所得到的主包络峰值集合中的一个峰值，满足主包络峰值集合中占有1-a1的峰值大于等于S₁₂，通过遍历每一个峰值并比较大小得到；

S₂₁是所得到的主包络与次包络的峰值差集合中的一个值，满足主次峰值差集合中有占a1的主包络与次包络的峰值差大于等于S₂₁，通过遍历每一个主包络与次包络的峰值差并比较大小得到；S₂₂是所得到的主包络与次包络的峰值差集合中的一个值，满足主次峰值差集合中占有1-a1的主包络与次包络的峰值差大于等于S₂₂，通过遍历每一个主包络与次包络的峰值差并比较大小得到；

S₃₁是所得到的主包络带宽集合中的一个值，满足主包络带宽集合中有占a1的主包络带宽大于等于S₃₁，通过遍历每一个主包络带宽并比较大小得到；S₃₂是所得到的主包络带宽集合中的一个值，满足主包络带宽集合中占有1-a1的主包络带宽大于等于S₃₂，通过遍历每一个主包络带宽并比较大小得到；

S₁是所得到的

集合中的一个值，

集合是包含m个数据的集合，满足W₁集合中有占a1的W₁大于等于S₁，通过遍历每一个W₁并比较大小得到；S₂是所得到的W₁中的一个值，满足W₁集合中占有1-a1的W₁大于等于S₂，通过遍历每一个W₁并比较大小得到；

先对W₁进行非线性归一化，如公式(Ⅱ)所示：

式(Ⅱ)中，W₁＝{W₁(i),i＝1,2,…,m}，W₁(i)表示第i条信号的初始权重；W₂＝{W₂(i),i＝1,2,…,m}，W₂(i)表示W₁(i)经过非线性归一化处理后的新权重；若W₂(i)仍然有部分值过于离散，对其进行合理的线性归一化，最终得到权重W，W＝{W(i),i＝1,2,…,m}；

(6)重构目标信号并判断其合法性；包括步骤如下：

A、将每条信号对应得到的权重W乘以其本身得到新的数据集；

B、对步骤A中新的数据集中的每条数据进一步做PCA，提取其主成分空间，对于待检测信号，用得到的主成分空间对其进行重构，计算重构误差，并将重构误差与检测阈值T做比较，超出检测阈值T的判定为非法电磁信号，反之，则为正常信号；T∈(0.52,0.70)；

设定得到的主成分空间为基向量组P；

用得到的主成分空间对其进行重构，重构公式如式(Ⅳ)所示：

式(Ⅳ)中，X_n×m表示m条数据、n个特征点的原数据矩阵，Y_s×m是原数据矩阵经s维主成分空间

提取的主成分，

是Y_s×m经P重构得到的X_n×m的近似表示；

重构误差R_j的计算公式如式(Ⅴ)所示：

2.根据权利要求1所述的基于自适应加权PCA的非法电磁信号检测方法，其特征在于，步骤(2)中，采用1024点的傅里叶变换。

3.根据权利要求1所述的基于自适应加权PCA的非法电磁信号检测方法，其特征在于，步骤(2)中，通过两层窗口大小为20点的均值滤波去除步骤(1)正常信号采集时设备中有源器件产生的散粒噪声。

4.根据权利要求1所述的基于自适应加权PCA的非法电磁信号检测方法，其特征在于，若W₂(i)仍然有部分值过于离散，对其进行合理的线性归一化，最终得到权重W；是指：

W是W(i)的集合：W＝{W(i),i＝1,2,…,m}。

5.权利要求1-4任一所述的基于自适应加权PCA的非法电磁信号检测方法的实现系统，其特征在于，包括依次连接的信号采集单元、数据预处理单元、多项式拟合包络单元、包络特征提取单元、信号权重获取单元、重构目标信号及判断合法性单元；