CN109921952A

CN109921952A - 一种基于压缩感知和模型驱动的数据收集方法

Info

Publication number: CN109921952A
Application number: CN201910256665.1A
Authority: CN
Inventors: 饶元; 赵刚; 张敬尧; 李绍稳; 姜敏; 王文; 江朝晖; 朱军
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-06-21
Anticipated expiration: 2039-04-01
Also published as: CN109921952B

Abstract

本发明公开了一种基于压缩感知和模型驱动的数据收集方法，属于信息技术领域。它包括关键数据使用模型驱动模式进行采集，非关键数据使用压缩感知模式进行采集，数据收集模式在模型驱动模式与压缩感知模式之间进行动态切换；在模型驱动模式的阶段，根据传感器的连续采样数据判断切换为压缩感知模式的时刻；在压缩感知模式的阶段，通过稀疏采样的数据点建模判断切换为模型驱动模式的时刻。本发明能够实现两种数据收集模式间的可靠、及时地动态切换，能够有效避免数据收集模式切换抖动，保障数据的获取精度和关键数据获取的时效性。

Description

一种基于压缩感知和模型驱动的数据收集方法

技术领域

本发明涉及信息技术领域，更具体地说，涉及一种基于压缩感知和模型驱动的数据收集方法。

背景技术

近年来，随着新一代信息技术革命的快速发展，物联网已经成为各应用领域大数据的主要来源之一。因此，这些应用领域信息数据的准确、高效收集成为关键。在数据收集过程中，传感器节点的频繁采样与数据传输是影响传感器节点使用寿命的关键制约因素。

压缩感知技术可以通过挖掘信号的稀疏性，在远小于奈奎斯特采样率的条件下，随机采样获取信号的离散样本，通过重构算法完美重构信号，极大地减少了传感器采样频率。目前，关于压缩感知的时序数据收集的现有研究很多。例如，公开号为CN104768186B，公开日为2018年5月4日的中国专利公开了在无线传感器网络中基于时序压缩感知的数据收集方法，该发明提供了在无线传感器网络中基于时序压缩感知的数据收集方法，包括步骤：步骤1，数据稀疏度检测：按照时序压缩感知的过程，网络中的每个传感器节点重复发送自身数据的加权到汇聚节点，直至汇聚节点根据得到的数据特征进行计算检测出数据的稀疏度为止；步骤2，网络数据传输：通过第一步的检测结果确定需要的测量数后，汇聚节点网络中的每个节点进行数据收集；步骤3，测量数的动态调整：汇聚节点在信号恢复的同时检测此时网络数据的性质是否发生变化进行相应地调整。该发明不仅能够在稀疏度未知的情况下成功恢复信号，甚至能够根据实际数据稀疏度的变化自适应地调整需要收集的信号测量的数目。此外，王国英等2013年在中国科学：信息科学第43卷第10期公开了基于压缩感知的土壤呼吸监测传感网动态采样调度策略；宋洋等2017年在计算机应用37(1)：183-187公开了基于压缩感知的无线传感器网络动态采样方法。但是，由于数据重构的滞后性，采用压缩感知的数据收集机制无法及时获取数据变化，无法及时获取重要的信息并做出响应。

模型驱动的数据收集框架，是通过在网关/服务器、传感器节点进行双端预测来降低数据传输量。具体工作流程为：首先数据中心服务器基于前期收集到的数据进行模型训练，然后将模型/参数传输至执行数据收集的传感器节点。传感器节点端定期获取，同步评估预测值与实际收集值的误差。若误差超过阈值，传感器节点将向服务器上传所收集的数据，由服务器重新训练模型后，再将模型同步至传感器节点。若误差在阈值以内，则传感器节点不上报数据，服务器端将在其他时刻自动触发模型预测填充该部分数据，从而减少传感器节点的数据传输量。饶元等2018年在浙江农业学报30(12):2102-2111.系统发表了基于模型驱动的田间数据压缩收集方法。模型驱动的数据收集方法通过模型预测来降低数据传输量，但并没有降低传感器节点的采样频率，且模型的传输还会带来额外的通信开销。

在理论上，压缩感知和模型驱动两种数据收集模式能够实现优势互补。然而，简单地将两种模式结合，难以达到准确、及时收集数据的目的。这可能是由于压缩感知模式下，采样的数据点呈稀疏分布，如何及时准确地实现数据收集从压缩感知进入模型驱动模式，面临着挑战；另一方面，在判断模型驱动模式向压缩感知模式切换的过程中，如何有效避免在关键数据阈值附近数据波动引起的数据收集模式切换抖动，也是一个难题。

发明内容

1.要解决的问题

针对压缩感知数据收集模式与模型驱动模式的简单结合并不能准确、及时进行数据收集的问题，本发明提供了一种基于压缩感知和模型驱动的数据收集方法，设计了模型驱动模式与压缩感知模式之间的动态切换机制，能够实现两种数据收集模式间的可靠、及时地动态切换，有效避免数据收集模式的切换抖动，保障关键数据获取的时效性。

2.技术方案

为解决上述问题，本发明采用如下的技术方案。

一种基于压缩感知和模型驱动的数据收集方法，关键数据使用模型驱动模式进行采集，非关键数据使用压缩感知模式进行采集，数据收集模式在模型驱动模式与压缩感知模式之间进行动态切换；

在模型驱动模式阶段，根据传感器的连续采样数据判断切换为压缩感知模式的时刻；在压缩感知模式阶段，通过稀疏采样的数据点建模判断切换为模型驱动模式的时刻。

作为优化方案，所述模型驱动模式的具体过程包括，

服务器端按照如下步骤工作：

SA1：基于前期收集到的数据进行模型训练，并将训练后的模型发往传感器节点；

SA2：采用最新训练的模型每隔时长T预测数据，并保存；若随后收到传感器端发来的同时刻数据，则替换为传感器端发来的数据；

SA3：判断是否满足模型切换条件，若连续采样的最新10个数据点均值满足：

其中，v_i为所采样的第i个数据点，p_lower和p_upper为根据具体应用设定的关键数据阈值，E_avg表示数据收集的预测误差容忍度；

通知传感器节点和服务器端，在下一采样时刻同步切换为压缩感知模式进行数据收集；否则执行步骤SA4；

SA4：若服务器端最新的数据系采用模型预测的，回到步骤SA2，否则回到步骤SA1；

传感器节点按照如下步骤工作：

SB1：设置传感器节点采样间隔为时长T；

SB2：等待；一旦采样时刻到来，传感器节点立即执行采样；若接收到服务器端发来新的预测模型，立即更新预测模型；

SB3：计算采样数据与模型预测的数据之间的误差，根据计算的误差与预测误差容忍度的大小关系判断是否需要向服务器端上报数据；

若误差大于预测误差容忍度，传感器节点立即向服务器上报采样数据；否则，传感器节点不上报数据；最后，回到步骤SB2。

作为优化方案，将前一天的历史监测数据按小时分段，先按照小时计算误差容忍度，再计算整天的平均误差容忍度，即为当天数据收集的预测误差容忍度；

其中，n_j、S_j分别为前一天第j个小时内所收集数据的数量及其标准差，θ为显著水平，t_θ/2,n-1是自由度为n-1的符合学生氏t-分布的概率分布函数，E_j表示前一天第j个小时的误差容忍度，E_avg为当天数据收集的预测误差容忍度。

作为优化方案，所述压缩感知模式包括：

步骤SC1：设置传感器节点采样间隔为时长T/η，η为采样率，η＝1/H；H为大于1的正整数，表示稀疏采样的间隔较原始采样间隔延长的倍数；

步骤SC2：等待；一旦采样时刻到来，传感器节点立即执行数据采样并将其发往服务器端；

步骤SC3：传感器节点根据稀疏采样的数据点动态预测数据收集模式切换时刻；

步骤SC4：服务器端构建测量矩阵，选择稀疏基、数据重构算法，并执行数据重构。

作为优化方案，步骤SC3的具体过程包括：

对于SC2收集到的数据集采用最后收集的m个数据点利用最小二乘法建立线性模型：

其中，t为离散值，表示按照原始间隔T进行采样的数据序号；α为数据的变化趋势，β为模型常量参数，2≤m≤9；

若α＝0，回到步骤SC2；否则，继续以下步骤，根据变化趋势α预测到达切换阈值P的时刻所对应采样序号t_pre：否则，

到达切换阈值P的时刻所对应采样序号t_pre为：

计算预测模型的训练窗口内m个数据点均值：

其中，v_i为第i个数据点的值；

计算切换时刻所对应采样序号t_pre与当前采样时刻所对应采样序号t_cur之差t_diff：

t_diff＝t_pre-t_cur (8)；

计算训练窗口内数据的均值与切换阈值之差v_diff：

判断是否符合切换条件，根据判断结果执行相应操作；

当t_diff>0时，若v_diff<v_tol且t_diff<t_tol，则等待传感器节点执行序号为t_pre的数据点采样后，立即通知服务器端执行步骤SC4进行数据重构，随后传感器节点和服务器端分别执行步骤SA1、SB1，进入模型驱动模式进行数据收集；否则，回到步骤SC2，继续执行压缩感知模式进行数据收集；

当t_diff<0时，若v_diff<v_tol且|t_diff|<t_tol，则传感器节点立即通知服务器端执行步骤SC4，进行数据重构，随后传感器节点和服务器端分别执行步骤SA1、SB1，进入模型驱动模式进行数据收集；否则，回到步骤SC2，继续执行压缩感知模式进行数据收集；

其中，v_tol为可接受的切换均值容差，t_tol为可接受的切换时间容差。

作为优化方案，所述v_tol、t_tol的取值按下式计算：

v_tol＝1.54×E_avg (10)；

其中，m为预测模型训练窗口的大小，η为压缩感知的采样率。

作为优化方案，步骤SC4中，测量矩阵Φ按照如下方法生成：

设共有N个稀疏采样的数据点，则测量矩阵Φ大小为N×(N/η)，仅位置为(r,(r/η))的元素等于1，其余元素全等于0；

所述测量矩阵Φ中，每行有且仅有一个“1”，每列最多一个“1”，包含“1”的列等间隔均匀分布。

其中，r表示测量矩阵行号，从0开始编号，r∈[0,N-1]。

3.有益效果

与现有技术相比，本发明具有明显的技术优势：

(1)本发明通过融合关键数据阈值和预测误差容忍度判断从模型驱动模式切换入压缩感知模式的时刻，避免数据波动造成的数据收集模式切换抖动；基于稀疏采样点建模预测判断从压缩感知模式切换入模型驱动模式的时刻，实现了数据稀疏分布条件下数据收集模式的准确、及时切换。总之，本发明提出的数据收集模式切换方法能够实现两种数据收集模式间的可靠、及时地动态切换，有效避免数据收集模式切换抖动，保障关键数据获取的时效性。本发明专利针对关键数据采用模型驱动模式的数据收集方法，保证了数据收集的实时性和准确性；针对非关键数据采用压缩感知模式进行数据收集，能够保持良好的数据监测连贯性。

(2)本发明通过前一天数据的标准差与显著水平计算当天数据收集的预测误差容忍度，避免了不同应用场景下需要重新设置预测误差容忍度的不足，有效提升了数据收集方法的适用性。

(3)本发明处于压缩感知模式下时，对于非关键数据传感器节点采用较大的间隔进行数据采样，在满足数据需求的前提下，降低了采样频率，有效节约了能量。

(4)步骤SC3的切换算法能够根据压缩感知阶段的稀疏采样数据的变化趋势，动态预测数据的未来变化趋势。结合设计的切换条件v_tol和t_tol，能够提高数据收集模型切换的精准度，解决基于压缩感知的稀疏采样数据点难以准确预测切换时刻的问题。与传统的基于稀疏采样点过阈值情况的后判断方式相比，本发明能够将数据收集模型切换的时效性提高30％以上。

(5)本发明所采用的生成测量矩阵的方法可避免通过网络传输测量矩阵，降低了网络的通信开销。

(6)本发明的数据收集方法具有可拓展性，不仅适用于双端重要数据的监测，针对单端数据监测情景同样具有有效的监测性能表现；此外本发明还具有普适用：本发明适用于任何需要险情预警的数据收集环境。

附图说明

图1为本专利的数据收集流程及算法切换示意图；

图2为本专利的压缩感知模式过程中预测切换点示意图。

具体实施方式

本发明专利，联合采用压缩感知算法和模型驱动算法进行数据收集，基于具体应用场景选取的阈值来区分数据是否属于关键数据。数据收集过程中，根据数据的重要性在压缩感知和模型驱动模式间进行动态切换，关键数据段使用模型驱动模式进行数据收集，非关键数据段使用压缩感知模式进行数据收集。在模型驱动模式阶段，根据传感器按照原始间隔连续采样的数据判断切换为压缩感知模式的时刻；在压缩感知模式阶段，通过稀疏采样的数据点建模预测切换为模型驱动模式的时刻。

下面结合实施例和附图对本发明进行详细描述。

实施例1

本实施例中，服务器的运算能力明显高于传感器节点，且能够近乎实时地完成模型驱动模式中所使用模型的训练。服务器端和传感器节点都配有全球定位系统模块，能够保持时钟同步。通过设定的阈值来区分数据是否属于关键数据，支持单阈值、双阈值两种模式，阈值的取值与具体应用场景有关。单阈值场景仅需将不考虑的阈值设置为正/负无穷大即可。本实施例以双阈值为例，分别记为p_lower和p_upper，位于两个阈值中间的数据是非关键数据，采用压缩感知模式进行稀疏采样。处于阈值外的数据为关键数据，采用模型驱动模式的方法进行数据收集。

其中，模型驱动模式的算法可选用自回归差分滑动平均模型ARIMA、支持向量回归模型SVR和线性回归模型DBP，本实施例选用线性回归模型DBP。本实施例能够有效地利用压缩感知模式和DBP算法的监测特点，针对压缩感知模式的稀疏采样特点利用采样点的分布预测数据变化趋势，从而预测出模型切换点。此外，还可以针对模型驱动模式下数据采样频率较高的特点，设置缓冲窗口的方法进行模型切换。

一种基于压缩感知和模型驱动的数据收集方法，如图1所示，关键数据使用模型驱动模式进行采集，非关键数据使用压缩感知模式进行采集，数据收集模式在模型驱动模式与压缩感知模式之间进行动态切换；

在模型驱动模式的阶段，根据传感器的连续采样数据判断切换为压缩感知模式的时刻；在压缩感知模式的阶段，通过稀疏采样的数据点建模判断切换为模型驱动模式的时刻。

启动数据收集，传感器节点按照原始数据收集的时间间隔T(0.1min<T<20min)进行采样，根据最新收集到的10个数据的均值判断当前监测是否处于关键数据收集阶段；若计算得到的均值不在阈值区间[p_lower,p_upper]内，则将已收集数据作为训练集进行模型训练、并执行DBP线性回归模型进行数据收集，否则执行压缩感知模式算法进行数据收集。例如，取2018年5月3日至17日共15天的日光温室大棚内空气湿度数据，传感器节点原始采样间隔T为5分钟，期间空气湿度40％-98％。根据农作物育苗需要阈值设置为p_lower＝60％，p_upper＝85％。采用压缩感知和DBP模式进行数据收集，压缩感知模式下采样率η取0.25，m取6；DBP模式下，训练数据集L取10，k取3。

模型驱动模式包括模型训练、数据预测、模型更新和数据收集模式切换。模型驱动模式的具体过程包括；

服务器基于前期收集到的数据进行模型训练，然后将模型传输至执行数据收集的传感器节点。传感器节点端定期获取，同步评估预测值与实际收集值的误差。若误差在阈值以内，则传感器节点不上报数据；否则，传感器节点将向服务器上报所收集的数据，由服务器端重新训练模型后，再将模型同步至传感器节点。服务器端同步预测并保存数据，若有传感器端发来的同时刻数据，则替换为传感器端发来的数据。服务器端负责判断数据收集模式向压缩感知切换的时刻。具体地；

服务器端按照如下步骤工作：

SA1：基于前期收集到的数据进行模型训练，并将训练后的模型发送到传感器节点；

具体地，DBP模型的训练集由最近的L个数据点组成。如算法刚从压缩感知模式切换过来，则数据来源于压缩感知重构。截取L个数据点该段数据首尾各长度为k的数据作为训练集合，利用该训练集中前后长度为k的数据{(t_b,v_b),b＝1,2,...,k,L-k,...,L}，采用最小二乘法建立初始化DBP预测模型：

v＝δt+λ (14)；

模型训练完成后，服务器端将模型参数{δ,λ}发送到传感器节点。随后，传感器节点计算按照间隔T采样到的数据与该模型预测的数据间误差。

SA2：采用最近训练的模型按照间隔T实时预测数据，并保存；若随后收到传感器端发来的同时刻数据，则替换为传感器端发来的数据；

SA3：判断是否满足模型切换条件，若连续采样的10个数据点均值满足：

SA4：若服务器端最新的数据系采用DBP模型预测的，回到步骤SA2，否则回到步骤SA1；

传感器节点按如下步骤工作：

SB1：设置传感器节点采样间隔为时长T；

在判断模型驱动模式向压缩感知模式切换的过程中，通过融合关键数据阈值和数据收集的预测误差容忍度建立判断条件，能够有效避免数据在关键数据阈值附近波动造成的数据收集模式切换抖动。

为了实现算法的合理切换以及保证数据收集精度，本实施例采用学生氏t-分布动态调整精度的策略。将前一天的历史监测数据按小时分段，先按小时计算误差容忍度(Error tolerance，ET)，再计算整天的平均误差容忍度(Average error tolerance，AET)，即当天数据收集的预测误差容忍度。

将前一天的历史监测数据按小时分段，先按照小时计算误差容忍度，再计算整天的平均误差容忍度，即为当天数据收集的预测误差容忍度；

其中，n_j、S_j分别为前一天第j个小时内所收集数据的数量及其标准差，θ为显著水平，t_θ/2,n- ¹是自由度为n-1的符合学生氏t-分布的概率分布函数，E_j表示前一天第j个小时的误差容忍度，E_avg为当天数据收集的预测误差容忍度。

压缩感知模式包括稀疏节点采样、选择稀疏基、构建测量矩阵、数据重构和数据收集模式切换：

步骤SC3的具体过程包括：

如图2所示，对于SC2收集到的数据集采用最后收集的m个数据点利用最小二乘法建立线性模型：

到达切换阈值P的时刻所对应采样序号t_pre为：

计算预测模型的训练窗口内m个数据点均值：

其中，v_i为第i个数据点的值；

t_diff＝t_pre-t_cur (8)；

计算训练窗口内数据的均值与切换阈值之差v_diff：

判断是否符合切换条件，根据判断结果执行相应操作；

v_tol、t_tol的取值按下式计算：

v_tol＝1.54×E_avg (10)；

该方法能够实现切换均值、时间容差自动获取，有效提升了数据收集方法的适用性。

步骤SC4中，测量矩阵Φ按照如下方法生成：

其中，r表示测量矩阵行号，从0开始编号，r∈[0,N-1]；

测量矩阵Φ中，每行有且仅有一个“1”，每列最多一个“1”，包含“1”的列等间隔均匀分布。

在生成测量矩阵Φ时，根据本阶段已收集的稀疏采样点数N，首先生成大小N×(N/η)的零矩阵，再将位置为(r,(r/η))的矩阵元素设为1，其余元素不变。

例如，当采样率为1/2时，生成测量矩阵如下：

采用差分矩阵作为稀疏基Ψ，形式如下：

其中，0<ζ<1；

重构算法选用SL0算法，SL0算法为平滑L0范数(Smoothed l0Norm,SL0)重构算法，是Hosein Mohimani等人2009年1月在IEEE Transactions on Signal Processing第57卷第1期首次公开，SL0算法具有重构前不需要知道信号的稀疏度、计算量小、高度匹配以及重建时间短等特点；

根据压缩感知原理，服务器端对收集到的稀疏数据点Y，通过求解优化问题重构出确定a，再重建数据：

X＝Ψa (13)；

进入模型驱动模式进行数据收集。

压缩感知技术可以通过挖掘信号的稀疏性，在远小于奈奎斯特采样率的条件下，随机采样获取信号的离散样本，通过重构算法完美重构信号，极大地减少了传感器采样频率。但是，由于数据重构的滞后性，采用压缩感知的数据收集机制无法及时获取数据变化，无法及时获取重要的信息并做出响应。模型驱动的数据收集框架，是通过在网关/服务器、传感器节点进行双端预测来降低数据传输量。但并没有降低传感器节点的采样频率，且模型的传输还会带来额外的通信开销。本发明通过利用数据收集模式在模型驱动模式与压缩感知模式间进行动态切换的方法，能够保证在收集有效数据的同时，大幅降低传感器采样频率和数据传输量。

通过本实施例的方法收集2018年5月3日至17日共15天的日光温室大棚内空气湿度数据。实验结果表明，本发明能够有效解决压缩感知模式下，基于稀疏采样点判断数据收集模式切换时刻滞后的问题，压缩感知向DBP切换的时刻平均延时为2min，较基于连续采样数据点值与阈值大小判断切换时刻等传统方法提高30％以上，保证了关键数据的及时获取。本发明的技术方案使得传感器节点的采样次数降低了32.31％，业务数据压缩比为81.34％，综合压缩比较单一采用DBP进行数据收集的方式提高了27.36％。

Claims

1.一种基于压缩感知和模型驱动的数据收集方法，其特征在于，关键数据使用模型驱动模式进行采集，非关键数据使用压缩感知模式进行采集，数据收集模式在模型驱动模式与压缩感知模式之间进行动态切换；

2.根据权利要求1所述的一种基于压缩感知和模型驱动的数据收集方法，其特征在于：所述模型驱动模式的具体过程包括，

服务器端按照如下步骤工作：

传感器节点按照如下步骤工作：

SB1：设置传感器节点采样间隔为时长T；

3.根据权利要求2所述的一种基于压缩感知和模型驱动的数据收集方法，其特征在于：将前一天的历史监测数据按小时分段，先按照小时计算误差容忍度，再计算整天的平均误差容忍度，即为当天数据收集的预测误差容忍度；

4.根据权利要求1所述的一种基于压缩感知和模型驱动的数据收集方法，其特征在于：所述压缩感知模式包括：

5.根据权利要求4所述的一种基于压缩感知和模型驱动的数据收集方法，其特征在于：

步骤SC3的具体过程包括：

到达切换阈值P的时刻所对应采样序号t_pre为：

计算预测模型的训练窗口内m个数据点均值：

其中，v_i为第i个数据点的值；

t_diff＝t_pre-t_cur (8)；

计算训练窗口内数据的均值与切换阈值之差v_diff：

判断是否符合切换条件，根据判断结果执行相应操作；

6.根据权利要求5所述的一种基于压缩感知和模型驱动的数据收集方法，其特征在于：

所述v_tol、t_tol的取值按下式计算：

v_tol＝1.54×E_avg (10)；

7.根据权利要求4所述的一种基于压缩感知和模型驱动的数据收集方法，其特征在于：

步骤SC4中，测量矩阵Φ按照如下方法生成：

其中，r表示测量矩阵行号，从0开始编号，r∈[0,N-1]。