CN111782596A

CN111782596A - 一种基于高性能混合计算的无线电监测数据处理方法

Info

Publication number: CN111782596A
Application number: CN202010526398.8A
Authority: CN
Inventors: 赵斌; 田磊; 王姝; 宋佳豪; 郭新莹; 王羿; 于雪倩; 刘文参; 郭照阳; 吴越铭; 李志渊; 郭磊; 周俊杰
Original assignee: Beijing Yousheng Zhiguang Technology Co ltd
Current assignee: Beijing Yousheng Zhiguang Technology Co ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-10-16
Anticipated expiration: 2040-06-09
Also published as: CN111782596B

Abstract

本发明提供了一种基于高性能混合计算的无线电监测数据处理方法，包括：通过预设的数据采集设备获取采集数据，并对采集数据按照时间段进行预计算，获取时间段汇总结果；将两类结果数据根据时间范围将所述汇总数据进行拆分，获取拆分数据；将所述拆分数据通过混合计算进行处理，获得目标结算结果。本发明的有益效果为：采用预计算和实时计算相混合的方法，可以大大减少了参与实时计算的原始监测数据，大幅度提高底噪、频段占用度、信道占用度、信号覆盖率、频谱资源使用率等指标的计算速度，提高了系统的响应速度。

Description

一种基于高性能混合计算的无线电监测数据处理方法

技术领域

本发明涉及无线电数据监测处理技术领域，特别涉及一种基于高性能混合计算的无线电监测数据处理方法。

背景技术

目前，在快递物流领域，众包车辆会通过无线电监测确定各个无线电信道的监测数据，并通过监测数据，进行车辆调控，但是在车辆调控时，需要对采集的数据进行计算，现有技术中，对无线电监测的采集数据会进行统一处理，但是，统一处理时，会因为短时间内数据量巨大，导致计算缓慢，对于无线电检测数据的处理也十分缓慢。

发明内容

本发明提供一种基于高性能混合计算的无线电监测数据处理方法，用以解决现有技术中无线电监测数据处理缓慢的问题的情况。

一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，包括：

通过预设的数据采集设备获取采集数据，并对所述采集数据按照时间段进行预计算，获取时间段汇总数据；

根据预设的时间范围将所述汇总数据进行拆分，获取拆分数据；

将所述拆分数据通过混合计算进行处理，获取目标计算结果。

作为本发明的一种实施例：所述通过预设的数据采集设备获取采集数据，并对所述采集数据进行预计算，获取汇时间段总数据，包括：

在众包车辆中预设数据采集设备，并确定数据采集的扫频范围、步长间隔、扫频间隔，在预设单位时间内获取帧采集数据；

将所述帧采集数据分类计算，并将分类计算的结果进行汇总，得到汇总数据，并将所述汇总数据存储在预设的分布式系统框架系统中；其中，

所述汇总数据存储在监测数据库中；

所述分类计算包括场强计算、底噪计算、频点占用度计算和信道占用度计算。

作为本发明的一种实施例：所述场强计算包括以下步骤：

将所述众包车辆运行路径的预设地图网格化，获取网格后的预设地图；

根据所述网格后的预设地图，基于场景属性确定汇总的信号场强值集合；其中，

场景属性包括：单位时间属性、忙时属性、闲时属性、工作日属性和非工作日属性；

所述信号场强值集合包括：信号场强最小值、信号场强最大值、信号场强平均值和信号场强均方根。

作为本发明的一种实施例：所述底噪计算包括以下步骤：

获取所述场强计算的信号场强平均值，确定信号频点e_i和判别值f(Δ)，；其中，所述e_i表示第i个信号频点，i＝1，2，3……i

依次处理当i＞1时，当e_i-e_i+1＞f(Δ)时，如果e_i-1-e_i+1＞f(Δ)，则将f_i-1、的电平值替换为e_i+1；如果e_i-1-e_i+1＜f(Δ)，则将f_i的电平值替换为

如果e_i+1-e_i＞f(Δ)，则f_i+1的电平值替换为e_i，确定噪声变化趋势的曲线图；

根据临近值判所述噪声变化趋势的曲线图，并基于中值替代的方法平滑背景噪声曲线，得到平滑后结果为：{(F_i,E_i)|(i＝1,……N)|}；

其中，F_i是平滑后的第i个频点的频率值，E_i是平滑后的第i个频点的电平值(或场强值)；

将F₁的电平值用

替换，即F₁的电平值

将F₂的电平值用

替换，即F₂的电平值

依次处理，将F_i的电平值用

替换，即当i＞1时，F_i的电平值

直到i值等于N为止，确定底噪数据。

作为本发明的一种实施例：所述频点占用度计算包括以下步骤：

获取底噪数据，并基于所述底噪数据设定第一门限值；

计算预设单位时间内，单一频点的总点数；

计算预设单位时间内，单一频点跟对应频点的第一门限值比较大小，确定超过第一门限值的点数；

基于超过第一门限值的点数和总点数的比例，确定频点占用度。

作为本发明的一种实施例：所述信道占用度包括以下步骤：

获取底噪数据，并基于所述底噪数据和底噪数据的修正值设定第二门限值；

获取信道信号，并与所述第二门限值比对，判断所述获取的信道信号对应的信道是否被占用；

获取预设单位时间内，所述信道信号对应的信道的采样次数，并确定预设单位时间内的信道占用度

其中，

所述T_f表示信道信号幅度大于某一门限电平值的时间；所述T表示总的占用度测量时间。

作为本发明的一种实施例：所述根据预设的时间范围将所述汇总数据进行拆分，获取拆分数据，包括以下步骤：

在接收到混合计算任务时，确定所述混合计算任务的时间范围；其中，

所述预设的时间范围包括至少一个完整时间段和至少一个零星时间段；

构建基于所述时间范围的数据网格，并确定所述数据网格的频率范围和纵坐标；

基于所述频率范围和纵坐标将所述汇总数据拆分为拆分数据；其中，

所述拆分数据包括：开始时间和结束时间不足预设单位时间的拆分数据；开始时间和结束时间不足满天，但满足预设单位时间的拆分数据；开始时间和结束时间满足满天的拆分数据。

作为本发明的一种实施例：所述将所述拆分数据通过混合计算进行处理，确定监测数据，包括以下步骤：

基于wed软件，构建开放源代码框架，并确定所述开放源代码框架的线程节点；

获取拆分数据，并将所述拆分数据通过不同的线程节点进行实时计算，确定实时计算结果；

将所述实时计算结果和预计算结果通过预设模板进行比较处理，确定监测数据。

作为本发明的一种实施例：所述将所述拆分数据通过混合计算进行处理，确定监测数据，还包括以下步骤：

获取所述拆分数据时，计算所述拆分数据中每类拆分数据的需求程度；

根据所述拆分数据中每类拆分数据的需求程度，判断并确定所述拆分数据中的非需求数据；

当不存在非需求数据时，对所有的拆分数据都进行实时计算，确定所述拆分数据的实时计算结果；

当存在非需求数据时，确定所述非需求数据的频点，并删除所述非需求数据；

基于所述非需求数据的频点，确定所述非需求数据的相邻数据；

重新计算所述非需求数据的相邻数据的需求成度，并判断其需求成度。

作为本发明的一种实施例：所述混合计算包括以下步骤：

步骤1：基于所述汇总数据，构建所述预计算结果的数据分类计算矩阵

其中，所述a_l表示第l个数据采集设备采集的场强；所述b_l表示第l个数据采集设备采集的底噪；所述c_l表示第l个数据采集设备采集的频点占用度；所述d_l表示第l个数据采集设备采集的信道占用度；l＝1,2,3……n；

步骤2：根据所述时间范围，基于网格映射，获取拆分数据：

其中，所述xt_j表示在第j个时间范围下的纵坐标；所述y_l表示第l个数据采集设备的频率范围；所述(xt_j,a_ly_l)表示第l个数据采集设备在所述网格上的第j个时间范围下的坐标；j＝1,2,3,……m；；

步骤3：将所述拆分数据通过线程节点进行实时计算，确定实时计算结果：

其中，所述S_al表示第l个数据采集设备采集的场强实际值；所述S_bl表示第l个数据采集设备采集的底噪实际值；所述S_cl表示第l个数据采集设备采集的频点占用度实际值；所述S_dl表示第l个数据采集设备采集的信道占用度实际值；所述N_t表示时间范围的个数；所述N_H表示所述拆分数据的个数；所述M表示所述数据采集设备的个数；

步骤4：将所述实时计算结果和预计算结果混合计算，并将确定所述监测数据；

比较预计算结果a_l和实时计算结果S_al的大小，取场强较大的值作为场目标强监测数据；

比较预计算结果b_l和实时计算结果S_bl的大小，取底噪较大的值作为目标底噪监测数据；

比较预计算结果c_l和实时计算结果S_cl的大小，取频点占用度较大的值作为目标频点监测数据；

比较预计算结果d_l和实时计算结果S_dl的大小，取信道占用度较大的值作为目标信道监测数据。

本发明的有益效果为：采用预计算和实时计算相混合的方法，可以大大减少了参与实时计算的原始监测数据，大幅度提高底噪、频段占用度、信道占用度、信号覆盖率、频谱资源使用率等指标的计算速度，提高了系统的响应速度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明实施例中一种基于高性能混合计算的无线电监测数据处理方法的方法流程图；

图2为本发明实施例中一种基于高性能混合计算的无线电监测数据处理方法的混合任务分解图；

图3为本发明实施例中一种基于高性能混合计算的无线电监测数据处理方法的实时计算和预计算流程图；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

如附图1所示的一种基于高性能混合计算的无线电监测数据处理方法，包括：

步骤100：通过预设的数据采集设备获取采集数据，并对所述采集数据按照时间段进行预计算，获取时间段汇总数据；汇总数据是对百万级记录进行场强、底噪、频点占用度、信道占用度的计算，进而通过使用Impala数据查询计算引擎，对采集到的原始监测数据进行预计算，将预计算的结果存在Kudu数据库中。

步骤101：根据预设的时间范围将所述汇总数据进行拆分，获取拆分数据；接收到混合计算任务后，对混合计算任务的时间范围进行拆分，横坐标表示频率范围、纵坐标表示时间。

步骤102：将所述拆分数据通过混合计算进行处理，获取目标计算结果。采用混合计算的方式实现高性能实时计算。混合计算就是把预计算和实时计算相结合。对实时计算请求的时间范围进行拆分，对于半小时、整数小时、整数天的时间范围采用预计算的结果，对于小于半个小时的时间范围，采用实时计算，将实时计算结果和预计算结果合并，得出实时计算请求的结果。这样可大大减少计算量，提高实时计算的响应速度，达到高性能实时计算的要求。

本发明的有益效果为：本发明采用预计算和实时计算相混合的方法，可以大大减少了参与实时计算的原始监测数据，大幅度提高底噪、频段占用度、信道占用度、信号覆盖率、频谱资源使用率等指标的计算速度，提高了系统的响应速度；对预计算结果的数据进行分析，可大大减少数据计算量，提高系统响应速度。能够对某一信道在某一区域的覆盖率，主要对移动车监测数据进行计算，展示该信道在该区域的覆盖情况。采用任务分解的计算策略，大大减少了参与实时计算的原始监测数据，提高了响应速度。

在一个实施例中：通过预计算，将每半小时的数据和每天的数据汇总成一张中间表，当需要查询的时候，将任务拆分成可以从中间表中获得的数据和需要实时计算的部分。假设每75秒钟一条数据，每天生成1152条数据，每年420480条数据。而中间结果表中只有365条数据，需要扫描的数据量少了两个数量级，即计算速度提高了百倍。而与之对应的只是增加了一部分磁盘占用，每天的结果和每半小时的结果，比原始数据多了约4.25％的数据量。

为了便于混合计算，不同的指标需要有不同的中间结果存储方式：

(1)最大值。与原始数据相同的数据结构，100列，每列30m，分别存该频点半小时内的最大值。

(2)最小值。与原始数据相同的数据结构，100列，每列30m，分别存该频点半小时内的最小值。

(3)平均值。与原始数据相同的数据结构，100列，每列30m，分别存该频点半小时内的平均值。

(4)均方根。与原始数据相同的数据结构，100列，每列30m，分别存该频点半小时内的均方根值。

(5)信道占用度。列数与已知的频段数已知，已知频段共31段，部分频段被划分了信道，划分情况保存在mysql数据库中，每一列对应一个频段，数据为该对频段对应的所有信道在半小时内被占用的数量，信道之间用‘,’分割。

(6)频点占用度。与原始数据相同的数据结构，100列，每列30m，分别存该频点半小时内的超过门限的点数。

实施例2：

作为本发明的一种实施例：所述通过预设在众包车辆中的数据采集设备获取采集数据，并对所述采集数据进行预计算，获取汇总数据，包括：

在众包车辆中预设数据采集设备，并确定数据采集的扫频范围、步长间隔、扫频间隔，在预设单位时间内获取帧监测数据；

将所述帧监测数据分类计算，并将分类计算的结果进行汇总，得到汇总数据，并将所述汇总数据存储在预设的分布式系统框架系统中；其中，

所述汇总数据以表格形式存储在监测数据库包括：电平值；电平值包括：最大值表、最小值表、平均值表、均方值表。最大值表(parq_strength_max_3000/6000)采用station、type、time作为聚合主键。最大值表(parq_strength_max_3000/6000)如下所示：

确定最小值表时(parq_strength_min_3000/6000)，采用station、type、time作为聚合主键。

最小值表(parq_strength_min_3000/6000)如下所示：

平均值表(parq_strength_avg_3000/6000)，采用station、type、time作为聚合主键。

均方值表(parq_strength_rms_3000/6000)采用station、type、time作为聚合主键。均方值表(parq_strength_rms_3000/6000)如下所示：

频点占用度通过频点占用度表(parq_point_occupy_3000/6000)采用station、type、time作为聚合主键。频点占用度表(parq_point_occupy_3000/6000)如下所示：

信道占用度通过道占用度表(parq_channel_occupy_3000/6000)采用station、type、time作为聚合主键。31列数据对应mysql中frequency_code_calc表中的数据，每一类数据是用“，”分割的数字串，数量取决于该频段内有多少个信道，信道跟频段的对应关系存储在channel_code_calc表中。信道占用度表(parq_channel_occupy_3000/6000)如下所示：

门限表(parq_level_3000/6000)采用station、type、time作为聚合主键。门限表(parq_level_3000/6000)如下所示：

网格预计算结果表(parq_grid_3000/6000)采用city、x、y、busyTime、workDay、time、mark作为聚合主键。网格预计算结果表(parq_grid_3000/6000)如下

字段名	类型	名称	备注
				City	String	市编号	一般为4位
x	int	经度坐标偏移标识	经度距离市中心点多少km
				y	int	维度坐标偏移标识	纬度距离市中心点多少km
lon_min	double	开始经度	开始经度
				lon_max	double	结束经度	结束经度
lat_min	double	开始维度	开始维度
				lat_max	double	结束维度	结束维度
busyTime	int	闲忙时	0：闲时，1：忙时
				workDay	int	工作日非工作日	0：非工作日，1工作日
remark	String	备注	备注
				mark	String	标识	Unionall时,区分类型的标识位
time	Long	时间	时间戳，对应开始时间，结束时间为加1个月
				freq_1	String	第一频段	对应11bit编码后的结果
…
				freq_100	String	第100频段	对应11bit编码后的结果

每日结果聚合的最大值表(merge_strength_max_3000/6000)采用station、type、time作为聚合主键。最大值表(merge_strength_max_3000/6000)如下所示：

最小值表(merge_strength_min_3000/6000)采用station、type、time作为聚合主键。最小值表(merge_strength_min_3000/6000)如下所示：

平均值表(merge_strength_avg_3000/6000)采用station、type、time作为聚合主键。平均值表(merge_strength_avg_3000/6000)表如下所示：

均方值表(merge_strength_rms_3000/6000)采用station、type、time作为聚合主键。均方值表(merge_strength_rms_3000/6000)表如下所示：

频点占用度表(merge_point_occupy_3000/6000)采用station、type、time作为聚合主键。频点占用度表(merge_point_occupy_3000/6000)表如下所示：

信道占用度表(merge_channel_occupy_3000/6000)采用station、type、time作为聚合主键。信道占用度表(merge_channel_occupy_3000/6000)表如下所示：

所述分类计算包括场强计算、底噪计算、频点占用度计算和信道占用度计算。场强计算通常指电场矢量大小计算，一般以伏每米表示；也可指磁场矢量大小，一般以安每米表示。移动车或者固定站采集的数据就是场强值。本发明计算的是场强的最大值、最小值、平均值、均方根。底噪计算即环境噪声计算，加一个修正值就是门限；通过门限与场强值的对比来筛选信号。频点占用度计算即单一频点，在某段时间内(单位时间)，与对应频点的门限(底噪+修正值)比较大小，超过门限的点数除以总点数。

信道占用度计算即某信道信号幅度逐条与门限(底噪+修正值)比对，只要有一个频点的场强值超过门限，即视为当前信道被占用。

例如：在一个实施例中无线电监测数据采集采用众包的方式，将数据采集设备安装在众包车辆中，无线电监测的扫频范围为30～6000MHz、步长间隔25kHz、扫频间隔5秒，一分钟可得到12帧采集数据，对一帧数据进行解析，可得到237602个数值。按照扫频间隔5秒钟计算，众包车辆一天在数据库中存储了6307200条记录。进而可通过预计算，对预计算的结果的数据进行分析，可大大减少数据计算量，提高系统响应速度。

实施例3：

作为本发明的一种实施例：所述场强计算包括以下步骤：

本发明通过分别计算单位时间(即设定时间)内计算场强，

(1)最大值为计算单位时间的信号场强的最大值。

(2)最小值为计算单位时间的信号场强的最小值。

(3)平均值为计算单位时间的信号场强的平均值。

(4)均方根为计算单位时间的信号场强的均方根。

在一个实施例中：将监控的地图分为1km×1km的网格，计算每辆众包车辆或监测站的信号场强最大值、最小值、平均值、均方根。

以单位时间为半个小时：

可以计算每半小时的信号场强的最小值、最大值、平均值、和均方根。可以用半小时的信号场强最小值汇总每天的信号场强最小值，汇总时忽略数据量小于50％的时间段。可以用半小时的信号场强最大值汇总每天的信号场强最大值，汇总时忽略数据量小于50％的时间段。可以用半小时的信号场强平均值汇总每天的信号场强平均值，汇总时忽略数据量小于50％的时间段。可以用半小时的信号场强均方根汇总每天的信号场强均方根，汇总时忽略数据量小于50％的时间段。可以计算忙时(9:00-17:00)的信号场强的最小值、最大值、平均值、和均方根。可以计算闲时(0:00-9:00,17:00-24:00)的信号场强的最小值、最大值、平均值、和均方根。可以计算工作日的信号场强的最小值、最大值、平均值、和均方根。可以计算非工作日的信号场强的最小值、最大值、平均值、和均方根。在场强计算时，还会存在膨胀量:场强数据预计算需要占用一定的存储空间，在一个实施例中，如下表所示计算一辆众包车辆或监测站的每半小时、每天的数据膨胀量。对原始监测数据进行预计算，数据量增加了1.13％。

实施例4：

作为本发明的一种实施例：所述底噪计算包括以下步骤：

获取所述场强计算的信号场强平均值，确定信号频点e_i和判别值f(Δ)，；其中，所述e_i表示第i个信号频点，i＝1，2，3……i；场强的平均值可用来计算底噪，平均值进行平滑之后就是底噪；平均值、最大值、最小值、均方根可以用来显示信号模板。底噪即环境噪声，加一个修正值就是门限；通过门限与场强值的对比来筛选信号。

依次处理当i>1时，当e_i-e_i+1>f(Δ)时，如果e_i-1-e_i+1>f(Δ)，则将f_i-1、的电平值替换为e_i+1；如果e_i-1-e_i+1<f(Δ)，则将f_i的电平值替换为

如果e_i+1-e_i﹥f_Δe_i+1-e_i>f(Δ)，则f_i+1的电平值替换为e_i，确定噪声变化趋势的曲线图；

将F₁的电平值用

替换，即F₁的电平值

将F₂的电平值用

替换，即F₂的电平值

依次处理，将F_i的电平值用

替换，即当i＞1时，F_i的电平值

直到i值等于N为止，确定底噪数据。

本发明的原理在于：场强的平均值可用来计算底噪，平均值进行平滑之后就是底噪；平均值、最大值、最小值、均方根可以用来显示信号模板。由于底噪的计算依赖场强数据的平均值，场强数据计算出平均值后，触发底噪的计算。实际实施时，确定判别值(f(Δ)，国家无线电监测站在下发的监测规范中，建议把超过噪声电平5dB的频点视为信号频点，所有可以将5dB作为首轮提取过程中的判别值。如果首轮提取后，所得曲线的平缓性不够理想，可以进行多轮判别提取，每次设定的判别值可以次第降低(根据长期的监测经验，建议判别值一般不要小于1dB)。在实际实施时：对于监测站，对应每半小时一次的平均值，计算各监测站每半小时的底噪。

对于众包监测车辆，按预设地图上1km×1km的网格，根据忙时(9:00-17:00)、闲时(0:00-9:00,17:00-24:00)、工作日、非工作日信号场强的平均值，计算对应底噪。底噪预计算需要占用一定的存储空间，下表是计算一辆众包车辆或监测站的每半小时的数据膨胀量。每半小时计算一次底噪，数据量增加了0.2778％，底噪的膨胀量如下。

实施例5：

获取底噪数据，并基于所述底噪数据设定第一门限值；

计算预设单位时间内，单一频点的总点数；

基于超过第一门限值的点数和总点数的比例，确定频点占用度。(1)假设当前信号的底噪为E，在底噪的基础上设定五个门限值，分别为：E+6dB、E+12dB、E+18dB、E+24dB、E+30dB。

(2)统计一段时间t，单一频点跟对应频点的门限比较大小，超过门限的点数M。

(3)统计一算时间t，单一频点的总点数N。

(4)时间t内，超过门限的点数占总点数的比例即为该段时间的频点占用度：

(5)当每半小时的门限混合计算任务完成后，触发计算该半小时内的频点占用度。

(6)根据一天内所有半小时的频点占用度结果，汇总一天的频点占用度。频点占用度预计算需要占用一定的存储空间，下表是计算一辆众包车辆或监测站的每半小时、每天的数据膨胀量，数据量增加了1.42％，如下表所示：

实施例6：

作为本发明的一种实施例：所述信道占用度包括以下步骤：

其中，

在一个实施例中：(1)假设当前信号的底噪为E，在底噪的基础上设定五个门限值，分别为：E+6dB、E+12dB、E+18dB、E+24dB、E+30dB。

(2)某信道信号幅度逐条与门限(底噪+修正值)比对，只要有一个频点的场强值超过门限，即视为当前信道被占用。

T_f—信道信号幅度大于某一门限电平值的时间；

T—总的占用度测量时间。

(2)统计一段时间t，该信道总的采样次数，T信道被占用的次数T_f。

(3)该信道在时间t内的信道占用度计算结果

(4)当每半小时的门限混合计算任务完成后，触发计算该半小时内的信道占用度。

(5)根据一天内所有半小时的信道占用度结果，汇总一天的信道占用度。

作为本发明的一种实施例：所述根据时间范围将所述汇总数据进行拆分，获取拆分数据，包括以下步骤：

在一个实施例中：接混合计算任务后，对计算请求的时间范围进行拆分，如附图2所示所示，横坐标表示频率范围、纵坐标表示时间。图中的每一小格表示对应频率范围和时间段的原始监测数据。根据时间拆分为五部分：

(1)对应开始和结束时间，不足半小时的时间段共两个，由附图2上下最靠边侧的深色网格表示。

(2)对应开始和结束不足整天但是满足半小时的时间段共两个，由附图2最靠边侧的深色网格内测的深色网格表示。

(3)满足整天的时间段，由附图2浅色网格表示。

结合预计算的结果，可对拆分后的五部分数据分别进行计算。

(1)上图中黄色网格部分，即时间段小于半个小时的原始监测数据，系统启动一个线程，对原始监测数据进行实时计算。

(2)上图绿色网格部分，即时间段为半个小时的原始监测数据，灰色网格部分，即时间段为一天的原始监测数据，系统启动一个线程，在预计算结果中提取对应的值。不需要在原始监测数据中进行实时计算。

(3)待黄色网格部分实时计算完成后，将五部分的结合进行合并，返回最终计算结果。

采用任务分解的计算策略，每次计算请求的原始监测数据计算量，不超过1个小时的原始监测数据，大大减少了参与实时计算的原始监测数据，提高了响应速度。

在一个实施例中：针对针对同一任务的相同请求，应该使用同一个结果而不应该重新去请求数据，再次计算，即使有预计算的结果，这么做也是很慢的，所以采用了缓存的设计。使用redis实现缓存层，所有的请求都会被缓存层拦截，查询是否有过相同的请求，如果没有，则去实时计算，如果有直接返回结果。Redis是内存数据库，有极高的响应速度。而且可以定义缓存过期策略，默认采用LRU策略(最近最少使用)，因为内存空间是有限的，所以无法保存过多的数据。而且可以设置redis的持久化方案，这样当服务器重启或者服务迁移的时候，可以完整的保存数据，不需要重新添加缓存内容。还可以针对过期或者错误的数据，有针对的删除缓存，保证缓存数据的真实准确性。

不同的指标使用不同的数据保存策略，保证中间结果数据的真实可靠性；并采用多线程技术，让互相之间无关联的任务并行计算，提高cpu的使用效率，也提高计算速度；缓存可以有效的提高重复业务的查询速度，减少大数集群的计算压力。

实施例7：

获取拆分数据，并将所述拆分数据通过不同的线程节点进行实时计算，确定实时计算结果；实时计算服务为整个服务提供了最基本的计算功能，主要提供了各种指标的计算服务，并为预计算服务提供基础。预计算即定时的实时计算，通过定时任务将预指定的各种指标通过实时计算服务计算出来并保存到kudu数据库中。

将所述实时计算结果和预计算结果通过预设模板进行比较处理，确定监测数据。预设模板包括比较模板、方差模板、平均值模板。优选通过比较模板确定目标检测数据。

本发明的原理在于，如附图3所示：汇总数据保存在hadoop文件系统上，以parquet文件的格式保存，当服务接受到请求后，分析请求，并按照数据库结构，将请求转换为sql语句，通过jdbc的方式发送sql语句到impala服务端，impala解析sql请求，分解任务到集群的各节点，各节点调用udf、udaf等方法分析数据，最后将结果返回。如果是预混合计算任务，系统接收到返回结果之后，通过kudu链接池，获取kudu链接，通过kudu链接将结果保存到kudu数据库中。本发明的Hadoop是一个使用java编写的Apache开放源代码框架，它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。Hadoop框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作。Hadoop旨在从单一服务器扩展到数千台机器，每台机器都提供本地计算和存储。Hadoop主要包含三个模块：Yarn，MapReduce和HDFS。

Yarn是hadoop的作业调度和集群资源管理模块，主要负责hadoop的任务调度和资源分配。

MapReduce是基于Yarn的大型数据集并行处理系统，接受Yarn的资源调度，负责对数据集的分析处理。

HDFS是hadoop的文件系统，提供对应用程序数据的高吞吐访问量的分布式文件系统。

Parquet文件格式是Hadoop生态圈中一种新型列式存储格式。

列式存储，就是按照列进行存储数据，把某一列的数据连续的存储，每一行中的不同列的值离散分布。列式存储技术并不新鲜，在关系数据库中都已经在使用，尤其是在针对OLAP场景下的数据存储，由于OLAP场景下的数据大部分情况下都是批量导入，基本上不需要支持单条记录的增删改操作，而查询的时候大多数都是只使用部分列进行过滤、聚合，对少数列进行计算。列式存储可以大大提升这类查询的性能，较之于行是存储，列式存储能够带来这些优化

由于每一列中的数据类型相同，所以可以针对不同类型的列使用不同的编码和压缩方式，这样可以大大降低数据存储空间。

读取数据的时候可以把映射(Project)下推，只需要读取需要的列，这样可以大大减少每次查询的I/O数据量，更甚至可以支持谓词下推，跳过不满足条件的列。

由于每一列的数据类型相同，可以使用更加适合CPU pipeline的编码方式，减小CPU的缓存失效。

Impala提供针对Hadoop文件格式的高性能、低延迟SQL查询，快速的查询响应可以让我们能够对分析查询进行交互探索和微调，而传统的长时间批处理job(比如MapReduce)无法与之相比。

它的核心优势有一下几点：

(1)Impala与现有的CDH生态系统集成，意味着data能通过CDH的不同手段进行存储、共享、访问。这也能避免数据储藏(avoid data silos)且最小化数据移动开销。

(2)Impala提供对CDH中数据的访问，而无需懂得MapReduce编程需要的Java技能。Impala能直接从HDFS中获取数据。Impala也能提供访问HBase数据库系统数据的SQL前端。

(3)Impala通常能在几分钟或者秒级时间内返回结果，而不像hive查询需要数十分钟或者数个小时。

(4)Impala首创使用Parquet文件格式，它是一种面向数据仓库大规模查询优化的列存储格式。

至此，基础数据的存储分析框架间可以很好的结合起来，hadoop的hadf提供分布式文件系统，parquet文件结构可以有效的提高保存数据的读取效率，而impala是一种高效的数据分析框架，而且它还支持parquet文件格式，可以提供更高分析速度。

Kudu是专为Apache Hadoop平台开发的列式存储管理器。Kudu具有Hadoop生态系统应用程序的共同技术特性：它可水平扩展，并支持高可用性操作。具有下面的优势。

(1)快速处理OLAP工作负载。

(2)与MapReduce，Spark和其他Hadoop生态系统组件集成。

(3)与Apache Impala的紧密集成，使其成为将HDFS与Apache Parquet结合使用的好选择。

(4)强大而灵活的一致性模型，允许您根据每个请求选择一致性要求，包括用于严格可序列化的一致性的选项。

(5)同时运行顺序和随机工作负载的强大性能。

(6)高可用性。从服务器和主服务器使用Raft Consensus Algorithm(筏共识算法)，该算法可确保只要副本总数的一半以上可用，服务就可以进行读写操作。例如，如果3个副本中有2个副本或5个副本中有3个副本可用，则服务可用。

同时，Impala支持使用Kudu作为持久层来创建，更改和删除表。这些表遵循与Impala中其他表相同的内部/外部方法，从而可以灵活地提取和查询数据。代表着整个服务的所有的sql解析和数据分析任务都可以交给impala来处理，impala底层可以使用parquet和kudu两种数据结构，上层进行包装，保证了对使用者的一致性和封装性。

UDF(User-defined functions)表示用户自定义函数，Impala支持用户根据自己的业务需要重新定义函数，由于基础数据的存储使用了自定义的11bit压缩方法，所有impala自身包含的一部分函数无法使用，所以必须要自定义解析函数。而且impala除了支持现有的用Java编写的Hive UDF，Impala还支持用C++编写的UDF。在可行的情况下，请使用C++UDF，因为编译的本机代码可以产生更高的性能，对于C++UDF，UDF的执行时间通常比等效的Java UDF快10倍。本系统中所有的UDF都是C++编写的。

UDAF(User-defined Aggregation functions)，即用户自定义聚合方法，支持多进一出，将多行数据的结果根据某种规则汇合成一条数据。根据无线电监测预警分析大数据系统的业务需求，采用C++语言编写了如下表所示的自定义函数(UDF)和自定义聚合函数(UDAF)。

在一个实施例中：本发明的C++语言编写了如下表所示的自定义函数(UDF)和自定义聚合函数(UDAF)。

如下表所示，在是实时计算时的效果表：

本发明的自定义聚合函数(UDAF)列表如下所示：

本发明的计算指标与自定义函数的对应关系如下表所示：

本发明根据无线电监测预警分析大数据系统的业务需求，采用c++语言编写了实时计算类，实时计算类均继承自顶级接口PreCalc，它里面定义了一些关于该服务数据设计上的一些值，比如表名规则、列宽、网格边长等值；它下面包含一个接口和一个抽象类。

接口中定义了合并方法，用来处理对半小时维度预计算结果的合并处理并生成日结果的。

抽象类中定义实时计算的模板方法，包含参数校验、sql生成、表名规则、sql执行，结果处理等方法，对于具体的业务或者指标实现类来说，只要实现了该抽象类，然后指定sql生成方法和结果处理方法就可以了，而且还可以调用抽象类中已经定义的一些udf方法，实现方法的重用。

类命名遵循以下的规则：

(1)Default：默认实现，该类计算一个结果，并将结果存入kudu数据库。

(2)Multiple：该类计算得到多个结果，该计算会有多个结果。

(3)RealTime：该类是实时计算，计算结果不存入数据库，会返回到请求端。

(4)FixedNoise：该类是对应固定门限，对应固定门限的计算。

(5)Abstract：抽象类，一般对应两个或两个以上的实现共同的部分，比如生成的sql。

(6)AvgAndMax：平均值最大值，该类是用来同时计算最大值最小值平均值和均方根。

(7)ChannelOccupy：信道占用度，该类是用来计算信道占用度。

(8)FreqOccupy：频段占用度，该类是用来计算频段占用度。

(9)Covery：信号覆盖率，该类是用来计算信号覆盖率。

(9)Noise：底噪，该类是用来计算底噪。

(10)PointOccupy：频点占用度，该类是用来计算频点占用度。

高性能实时计算的效果

本项目采用混合计算的思想实现高性能实时计算，大大减少了实时计算的计算量，提升了计算效率。高性能实时计算的效果如下表所示：

实施例9：

重新计算所述非需求数据的相邻数据的需求成度。

本发明的原理在于：本发明通过拆分数据，根据接取的任务判断，拆分数据与接取的任务之间的需求程度；根据需求程度，对非需求程度的拆分数据再次进行频点计算，根据频点确定非需求数据的相邻数据，进而得到相邻数据的需求程度。

本发明的有益效果在于：可以根据需求程度判断拆分数据是否和任务相关，从而可以计算出实施计算结果；当存在非需求数据时，通过频点定位非需求数据的临近数据，进而判断临近数据的需求程度，判断其临近数据是不是需求数据。本方式可以有效的防止因为计算的失误造成需求数据判断错误的问题。

实施例10：

作为本发明的一种实施例：所述混合计算包括以下步骤：

步骤2：根据所述时间范围，基于网格映射，获取拆分数据：

本发明通过预计算的汇总数据进行分类，得到预计算的分类矩阵，进而根据时间范围并基于网格映射，将预计算结果的分类矩阵转换为拆分数据的拆分矩阵，进而通过线程节点的实时计算确定了实时计算的结果。最后通过实时计算结果和与计算结果进行对比，确定了监测数据。

在一个实施例中：

(1)最大值。比较，取预计算和实时计算结果的最大值即可。

(2)最小值。比较，取预计算和实时计算结果的最小值即可。

(3)平均值。平均值的中间结果表保存的是平均值和点数，所以需要先求乘积，然后加上实时计算返回的和，然后除以两个结果的数量和，得到的才是真实的平均值；

(4)均方根。均方根的中间结果表保存的是均方根结果和点数，所以需要先将中间结果平方后乘以数量，得到中间结果，然后加上实时计算的返回结果，除以两个结果的数量和，再开方，得到的才是真是的均方根

(5)信道占用度。信道占用度的中间结果保存的是超过门限的信道数，加上实时计算的返回结果除以两边的数量和，得到真实的信道占用度。

(6)频点占用度。频点占用度的中间结果保存的是超过门限的频点数，加上实时计算的返回结果除以两边的数量和，得到真实的信道占用度。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，包括：

将所述拆分数据通过混合计算进行处理，获得目标计算结果。

2.根据权利要求1所述的一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，所述通过预设的数据采集设备获取采集数据，并对所述采集数据进行预计算，获取汇时间段总数据，包括：

所述汇总数据存储在监测数据库中；

3.根据权利要求2所述的一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，所述场强计算包括以下步骤：

根据所述网格后的预设地图和场景属性，确定汇总数据的场强值集合；其中，

4.根据权利要求2所述的一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，所述底噪计算包括以下步骤：

获取所述场强计算的信号场强平均值，确定信号频点e_i和判别值f(Δ)；其中，所述e_i表示第i个信号频点，i＝1，2，3……i

根据所述信号频点e_i和判别值f(Δ)，依次处理，当i＞1时，当e_i-e_i+1＞f(Δ)时，如果e_i-1-e_i+1>f(Δ)，则将f_i-1、的电平值替换为e_i+1；如果e_i-1-e_i+1〈f(Δ)，则将f_i的电平值替换为

如果e_i+1-e_i﹥f_Δe_i+1-e_i＞f(Δ)，则f_i+1的电平值替换为e_i，确定噪声变化趋势的曲线图；

依次处理，将F_i的电平值用

替换，即当i＞1时，F_i的电平值

直到i值等于N为止，确定底噪数据。

5.根据权利要求1所述的一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，所述频点占用度计算包括以下步骤：

获取底噪数据，并基于所述底噪数据设定第一门限值；

计算预设单位时间内，单一频点的总点数；

6.根据权利要求2所述的一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，所述信道占用度包括以下步骤：

其中，

7.根据权利要求1所述的一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，所述根据预设的时间范围将所述汇总数据进行拆分，获取拆分数据，包括以下步骤：

根据所述时间范围，构建基于所述时间范围的数据网格，并确定所述数据网格的频率范围和纵坐标；

8.根据权利要求1所述的一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，所述将所述拆分数据通过混合计算进行处理，确定监测数据，包括以下步骤：

将所述实时计算结果和预计算结果通过预设模板进行混合计算处理，确定目标监测数据。

9.根据权利要求8所述的一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，所述将所述拆分数据通过混合计算进行处理，确定监测数据，还包括以下步骤：

10.根据权利要求1所述的一种基于高性能混合计算的无线电监测数据处理方法，其特征在于，所述混合计算包括以下步骤：

步骤2：根据所述时间范围，基于网格映射，获取拆分数据：