一种大数据场景下基于联网监测的黑广播自动发现方法
【技术领域】
本发明是一种基于大数据和无线电联网监测的黑广播自动发现方法,属于无线电的大数据应用技术领域。
【背景技术】
无线电频谱资源是重要的国家战略资源,而黑广播未经广播管理部门和无线电管理机构批准,擅自设置并利用广播频率向社会进行播音宣传的广播电台。这些非法广播(或称为“黑广播”)不仅内容低俗,严重污染社会风气,造成不良的社会影响;而且非法广播还会占据无线电频谱资源,如干扰民航频段、造成正常的广播信号无法发送等,有很大的安全的隐患。
目前非法的广播电台的识别一般采用人工监听一定时间段的电台播放内容,来判断该广播电台是否为非法电台,或者采取人工举报发现方法,发现非法电台。这种方式耗时耗力,且效率很低,且都属于事后补救的方法,没法做到前期积极的预防。并且随着监测站覆盖越来越多,以及联网监测平台的建立,监测数据量海量增长,往往一台设备的监测数据几个月的监测数据可以到达TB级的数据量,而做黑广播监测时,可能会进行多站点运行,数据量和实时性要求非常高,运用传统的存储和处理方法已经无法满足这些需求。这些工作的工作量需要。
目前业界也进行了各种研究,包括故障的专家定位流程化、多设备无人机、信号频谱相似比对等等多种方案。而利用监测站结合大数据进行黑广播编排,事先发现黑广播,是解决这一需求的有效方法。
【发明内容】
本发明的目的就是为了提供一种能够预先判断发现黑广播的监测和识别方法,解决大量台站人工监测和识别非法台站的低效和时效不足的问题。本发明利用数字信号处理、信息处理技术和大数据处理技术,开发设计了一种基于联网监测与大数据处理方法的黑广播预先发现方法。
为了达到上述目的,本发明所设计的基于无线电联网监测场景下大数据黑广播自动发现方法,自动发现系统包括监测联网平台、数据存储模块、联网数据解帧模块、信号提取模块和黑广播比对定位模块,所述联网监测平台用于对多站点黑广播发现任务的编排和数据上传,并且监测该数据上传到大数据平台并保存在hadoop分布式文件系统(HDFS)平台中,联网数据解帧模块用于根据原子协议对所监测的数据进行解帧、聚合,并通过信号提取模块获取本次测量的信号,最后通过黑广播比对定位模块与数据存储模块中合法信号库贮存的合法信号比对来提取其中的非法信号,并上报经过人工确认后进行黑广播确认处理。基于这种系统实现的黑广播预先发现方法包括如下步骤:
(1)通过联网监测平台模块根据黑广播监测需求生成黑广播监测任务以监测广播数据,并且联网监测平台对监测的广播数据进行保存,同时通过flume上传至大数据平台;
(2)通过数据存储模块将样本数据存入到HDFS平台中,并根据站点、日期对数据进行分片处理;
(3)通过联网数据解帧模块将样本数据按原子协议进行解帧,解帧后的数据按分钟级进行聚合,聚合后的结构化广播数据放入大数据平台的Hive中并实时更新至Impala模块中;
(4)通过信号提取模块从该Impala模块中获取所述监测任务的分钟聚合数据,根据背噪获得任务频率背噪灰度图,通过对该灰度图的腐蚀和膨胀处理剔除异常点数据,通过对灰度图的形成任务信号;形成的任务信号和所述合法信号库进行比对以确定其中存在的黑广播信号;以及
(5)通过黑广播定位模块根据对比获取的非法广播信号的带宽、中心频率生成测向任务来定位当前黑广播信号的源位置。
其中具体地在所述步骤(1)中,在所述监测联网平台接收黑广播编排任务,该编排任务参数包括站点、信号持续时间、信号带宽、信号背噪、频率范围这些参数,其中在所述监测联网平台获取所述编排任务参数后,对所连接的一或多个监测设备下发扫频任务,并对扫频任务的数据进行保存,其中通过联网执行扫频监测任务的数据是按每200M的文件进行保存。
进一步地在所述步骤(1)中,根据在数据存储模块中收集的黑广播的参数特性,将其信号持续时间默认设定为半个小时,其中该联网扫频监测任务的持续时间必须大于半个小时,且信号带宽为大于50kHz<带宽<300kHz,所选择广播信号的频率范围必须包含87MHZ~108MHZ广播频段的频段范围,信号背噪支持自动背噪与手动背噪模式。
具体地在所述步骤(2)中,所述数据存储模块是通过flume将监测联网平台存储的扫频数据上传至大数据平台,所述flume实时监测该联网监测平台,将保存完毕的监测广播数据上传至大数据平台,其中所存储的监测广播数据是按监测任务、站点作为索引来存储。
具体地在所述步骤(3)中,联网数据解帧模块通过所述大数据平台利用Spark模块将一个监测任务按每200M的文件数据子块进行分割并并行解帧,解帧后数据按分钟级进行聚合。这样,在不影响对所监测广播信号提取的情况下,针对原始广播数据样本进行一定程度的聚合,可以有效减少计算量,节省计算时间,从而实现更快的信号提取和发现。
进一步地,在所述步骤(3)中,原始数据是按下列步骤进行解帧:
(3-1)联网解帧模块根据黑广播扫频监测任务ID选择对应存储的原始数据文件夹,并读取此文件夹下的对应原始监测数据,其中有N个原始监测数据,Spark模块为每个原始监测数据块分配资源进行解帧;
(3-2)所述联网解帧模块读取所执行的黑广播扫频监测任务的频段范围,根据任务扫频范围将多帧合成一个完整的扫描周期;
(3-3)根据该扫描周期内的监测广播数据,按频点顺序进行排序,根据每个频点的电平值,调用自动背噪算法形成本次扫描周期的背噪,同时将这份数据写入数据存储模块的原始解帧表中,原始解帧表的格式如下所示:
在此基础上进一步地,在所述步骤(3)中完成解帧操作后,按下列步骤执行所述聚合:
(3-4)联网解帧模块根据黑广播扫频监测任务ID读取所述原始解帧表中的对应数据,按每分钟进行聚合,其中聚合规则为:对于每个频点的电平值取平均值作为每分钟此频点的电平值;
(3-5)对每分钟的频点形成一个完成的扫描周期,调用自动背噪算法,形成分钟级聚合数据;
(3-6)将执行分钟级聚合的数据放入Hive中并更新至Impala中,等待信号提取模块的后续处理。
进一步地在所述步骤(4)中,所述信号提取模块通过分钟级聚合数据按下列步骤进行信号提取:
(4-1)信号提取模块根据编排任务ID从Impala中提取分钟级聚合数据,根据半个小时信号持续时间,提取该编排任务最近1个小时的数据作为信号提取数据,其中将提取的最近1个小时的数据根据时间、频点进行排序以形成频点为列、时间为行,电平值为值的矩阵,如下表所示:
|
f1 |
f2 |
f3 |
… |
fn |
t1 |
d11 |
d12 |
d13 |
… |
d1n |
t2 |
… |
… |
… |
… |
… |
t3 |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
tm |
… |
… |
…… |
… |
dmn |
其中f1<f2<f3<…<fn,t1<t2<t3<…<tm;dij(1<i<m,1<j<n)为频点fj在时刻ti时刻的电平值,然后使用信号背噪对该矩阵中每个点进行判断,形成灰度图,判断规则如下:如果dij大于背噪,则矩阵对应的第i行j列则取值为1,否则取值为0,最终可得到灰度图矩阵,如下表所示:
|
f1 |
f2 |
f3 |
… |
fn |
t1 |
0 |
1 |
1 |
… |
0 |
t2 |
… |
… |
… |
… |
… |
t3 |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
tm |
0 |
1 |
1 |
1 |
1 |
根据灰度图矩阵进行闭操作,主要为先按1*3的矩阵单元进行先膨胀操作,后按1*3的矩阵单元进行腐蚀操作,剔除因偶尔信号抖动、设备误差造成的抖动、毛刺噪声,最终形成光滑无噪声数据的灰度图;
(4-2)根据信号提取的持续时间、带宽提取信号,提取方法如下:在灰度图中提取值列大于2、行大于30的灰度矩形作为信号,信号包括的信息如下:
<信号中频,信号带宽,最大电平,最小电平、出现时间,结束时间>
其中提取信号的频率的平均值为中频信号带宽,灰度图中频点对应的最大电平值作为信号的最大电平值,灰度图所跨列为信号带宽,矩形灰度图所跨行为信号持续时间。
进一步地在所述步骤(5)中,将提取的信号和合法信号进行比较,比较方法如下:根据灰度矩阵得到的信号提取其信号中频和信号带宽与合法信号的中频进行比价,在两者相似时则认为是合法信号,不相同则认为是非法信号,并进行上报,其具体比较方法如下:中频信号相似度比较:
F_similar=2*|ft-F|/channel_space
其中,F_similar表示两者信号的相似度,F表示合法信号中频频率,ft表示任务提取的信号,channel_space表示信道间隔;
带宽相似度比较:
W_similar=|channel_width-F_width|/channel_width;
其中,W_similar表示信号带宽相似度,channel_width表示合法信号的带宽,F_width表示提取信号的带宽,当提取信号与合法信号比对时,如果提取的F_simimlar<50%且W_similar<10%时,认为提取信号是合法信号,否则为非法信号。
【附图说明】
图1是一种大数据场景下基于联网监测的黑广播自动发现方法的功能架构框图;
图2是一种大数据场景下基于联网监测的黑广播自动发现方法的主要流程图;
图3是一种大数据场景下基于联网监测的黑广播自动发现方法使用的联网检测平台模块的功能示意图;
图4是一种大数据场景下基于联网监测的黑广播自动发现方法使用的数据存储模块的功能示意图;
图5是一种大数据场景下基于联网监测的黑广播自动发现方法使用的联网数据解帧模块的功能示意图;
图6是一种大数据场景下基于联网监测的黑广播自动发现方法使用的信号提取定位模块的功能示意图。
【具体实施方式】
下面通过实施例结合附图对本发明作进一步的描述。
如图3所示,所述联网监测平台模块主要用于黑广播发现任务的任务编排,无线电联网监测平台实现了设备的联网互通,为统一多设备下达黑广播编排任务提供便利性与数据存储统一存储。
参照图1和2,在本发明这种方法的实施例中,首先可通过无线电联网监测平台选择黑广播编排站点,填写编排任务名称,信号持续时间,执行设备的开始结束频率(必须包含87HHZ~108MHZ),频率扫描步进,背噪门限,信号带宽、任务结束条件为:
黑广播编排任务名:监测1
执行设备:XXX站
监测持续时间:信号持续30分钟
起始终止频率:87MHZ~1500MHZ
步进:25KHZ
背噪门限:35DBuV
信号带宽:50kHZ
其中,当前发现任务结束条件为:发现持续30分钟以上的未知信号设备站点通过联网监测平台接受任务后发起作业,并对任务的数据进行保存,保存的监测数据大小为每个文件200M,数据保存于统一数据采集机,等待上传。从上述描述可知,本发明利用无线电联网监测平台设备联网优势,实现了黑广播发现任务的多站点统一下发、执行。为后续的多站点分析、并行处理以及提前发现奠定了基础。
如图4所示,所述数据存储模块主要将数据实时上传至大数据平台并进行存储,等待数据解帧模块处理。flume模块实时监测联网监测平台的数据采集机,在发现新的保存数据,且满200M时,则对本数据分块发起数据上传,数据上传至大数据平台的HDFS中。
HDFS对上传的数据进行保存,包括规则主要根据任务ID将数据放入执行站点所在的文件夹下。
如图5所示,所述数据解帧模块包括数据解帧、自动入库、以及分钟级聚合,主要将原始监测数据每一帧记录解帧后,导入Hive,并更新至Impala;对于Impala中的数据,进行聚合形成分钟级聚合数据,用于信号提取。
然后,数据解帧模块根据黑广播编排任务从大数据存储模块中找到对应的任务并进行解帧,根据该任务包含的原始数据的200M文件个数,为每个文件启动一个解帧container,实现多文件并行解帧。
解帧后的文件按parquet格式进行存储,有效减少解帧后文件的增长程度,同时增加查询速度;由于原始监测文件中每一帧并非一个完整的扫描周期,根据下列方法合成一个完整扫描周期,如下表所示:
其中t1、t2、t3表示每一帧的监测时间,f1、fi表示第i个频点,d1、di、dj表示第i,j频点对应的电平值;选取在原始数据中依次相连的帧Frame1,Frame2,Frame3(t1<t2<t3),频点按照编排任务的频段范围进行升序排列,并依次填入各频点对应的电平值,时间则取时间最小的t1作为这一扫描周期的扫描时间;对这一扫描周期的内的数据,调用自动背噪算法,生成这一扫描周期下的自动背噪值,如下表所列;
其中n1,ni,nj表示第i,j个频点对应的自动背噪值。
在解帧后的数据存入Hive模块后按下表格式进行存储,并更新至Impala中
然后,对解帧数据进行聚合,根据黑广播的规律参数特性,一般来说,黑广播发射干扰,往往会持续一段时间(持续半个小时以上),而原始扫描解帧数据往往是海量的,根据这一特点,对原始解帧数据按分钟级进行聚合,在不干扰最后结果准确度的基础上,可大大减少计算量,聚合算法规则如下:对于频点f每分钟内的的频点对应的电平值,取其平均值作为本次频率的电平值。
如图6所示,所述信号提取定位模块主要从Impala的编排任务监控的分钟级聚合数据中形成灰度图,经过膨胀和腐蚀操作,形成信号;并对比合法信号,信号提取模块从分钟级聚合数据中提取数据,提取规则如下:
(1)提取87~108频段的监测扫频数据;
(2)提取最近1小时的扫频数据;
对于提取的数据,每分钟的数据频点升序排列,形成以频点为列、时间为行的矩阵;
对于矩阵中频点对应的电平值d(i,j)与背噪进行比对,如果电平值d(i,j)大于背噪,则灰度矩阵此单元取值为1,或者为0,最后形成灰度矩阵;
对于灰度矩阵,根据灰度图矩阵进行闭操作,主要为先按1*3的矩阵单元进行先膨胀操作;
对膨胀后的灰度矩阵,后按1*3的矩阵单元进行腐蚀操作,剔除毛刺、抖动误差值;
根据信号提取的持续时间、带宽提取信号,提取方法如下:灰度图中提取值列大于2,行大于30的灰度矩形作为信号,信号包括的信息如下表:
然后,将所提取的信号和合法信号进行比较,比较方法如下:
根据灰度矩阵得到的信号,提取其信号中频与信号带宽与合法信号的的中频进行比价,两者相似时,则认为是合法信号,不相同则认为是非法信号,并进行上报,其具体比较方法如下:
所述中频信号相似度比较:
F_similar=2*|ft-F|/channel_space
其中,F_similar表示两者信号的相似度,F表示合法信号中频频率,ft表示任务提取的信号,channel_space表示信道间隔。
带宽相似度比较:
W_similar=|channel_width-F_width|/channel_width;
其中,W_similar表示信号带宽相似度,channel_width表示合法信号的带宽,F_width表示提取信号的带宽。当提取信号与合法信号比对时,如果提取的F_simimlar<50%且W_similar<10%时,认为提取信号是合法信号,否则为非法信号。
至此,一种大数据场景下基于联网监测的黑广播自动发现方法的具体流程结束。
经过试验计算,本发明大数据场景下基于联网监测的黑广播自动发现方法支持在多站点下信号分析,在给任意联网站点下达黑广播编排任务后,能自动发现识别信号,并将未知信号上报给监测人员,大大提升了查找黑广播的工作效率和成功率。