CN117082087A

CN117082087A - 基于cae模型的物联网数据安全去重方法

Info

Publication number: CN117082087A
Application number: CN202310798164.2A
Authority: CN
Inventors: 祁晖; 王春波; 底晓强; 李锦青; 从立刚; 解男男; 刘丹; 闫飞
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-11-17

Abstract

基于CAE模型的物联网数据安全去重方法，涉及物联网数据信息安全技术领域，解决现有物联网终端设备存储空间不足、计算能力弱的问题。本发明将CAE的卷积操作、池化操作与自编码器融合，利用CAE的卷积层和池化层来代替传统自编码模型的全连接层，进而减少模型参数的数量，降低模型训练和摘要标签生成的计算开销和模型的存储开销，同时还能有效抵抗模型过拟合问题。实验结果表明，本发明与传统的自编码模型所占用的存储空间相比较，平均节省了99.99％。利用基于CAE模型生成的摘要标签具有相似性，因此可以利用欧氏距离选取一定比例的摘要标签，以此过滤掉不需要比对的指纹标签，实现高效的重复数据检测。

Description

基于CAE模型的物联网数据安全去重方法

技术领域

本发明涉及物联网数据信息安全技术领域，具体涉及一种基于卷积自编码(ConvolutionalAuto-Encoder，CAE)模型的物联网数据安全去重方法，用于减少物联网终端设备的存储和计算负担，提高去重效率。

背景技术

随着计算机网络与通信技术的迅猛发展，物联网技术在工业、教育、医疗等领域得到了广泛的应用。物联网终端设备如移动设备、环境感知传感器设备以及可穿戴设备等可以随时采集自身以及周围的环境信息，催生了大量的用户隐私数据。但是，物联网终端设备存在存储空间小、计算能力有限等缺点，无法负担存储和计算资源的成本消耗。因此，越来越多的用户选择将数据存储到云服务器上进行管理。但是，云端存在大量的物联网冗余数据，浪费了存储空间，这就需要删除云端重复数据。

为了实现云端物联网数据的安全去重，研究人员提出了基于随机消息锁加密(R-MLE)的去重方法，该方法从理论上阐明了加密数据去重的可行性和安全性。然而随机性加密方法由于使用了双线性映射，在指纹标签比对时会产生巨大的计算开销。这严重阻碍了随机消息锁加密去重方法的实际应用。

因此，为了减少随机消息锁加密方案中指纹标签比对的次数，有学者提出基于自编码模型的高效去重方法，该方法使用用户训练的自编码模型生成具有相似性的摘要标签，利用欧氏距离计算出距离相近的摘要标签，并通过摘要标签过滤掉不需要比对的指纹标签，进而提高了去重效率，然而，该方法使用的是全连接模型，同时也存在计算存储开销大的问题。

发明内容

本发明提供一种基于CAE模型的物联网数据去重方法，为了减小物联网终端设备的存储和计算负担，本发明利用CAE的卷积和池化操作减少传统的自编码模型参数的数量，提高模型的训练间以及摘要标签的生成速度，减少模型占用的存储空间。实验结果表明，本发明方法的去重效率更高，且模型的分布更均匀，更适合应用于物联网数据去重。

基于CAE模型的物联网数据安全去重方法，该方法由以下步骤实现：

步骤一、用户将原始数据加密得到密文数据m，对所述密文m执行散列操作，获得函数h(m)，选取一个随机数r，构建密文的指纹标签f(m)＝(g^r，g^r·h(m))，其中g为循环群的生成元；

步骤二、构建并训练CAE模型，利用训练后的CAE模型生成摘要标签ST(m)；

步骤三、用户将步骤一构建的指纹标签f(m)和步骤二生成的摘要标签ST(m)发送至云存储服务商；

步骤四、所述云存储服务商遍历标签库T中的所有数据标签，计算所述标签库T中的摘要标签ST(m_i)与步骤三中用户发送的摘要标签ST(m)之间的距离，并按照距离从小到大排序，选择距离最小的前n个标签组成标签集合S；

步骤五、遍历所述标签集合S，判断所述标签集合S中所有摘要标签ST(m_j)所关联的指纹标签f(m_j)是否与用户上传数据的指纹标签相等；若是，则用户新上传的数据在云存储服务器上已经存在，云存储服务商告知用户不用上传，过程结束；否则，执行步骤六；

步骤六、云存储服务商执行用户上传数据的请求，将密文数据m存储到云服务器，同时将密文数据m的摘要标签ST(m)和指纹标签f(m)存入标签库T。

本发明的有益效果：

本发明所述的物联网数据安全去重方法，利用卷积、池化操作减少模型的参数数量，进而提高模型的训练时间和摘要标签的生成速度，进一步提高了去重效率。同时，使用了梯度下降法对模型的权重和偏置值的梯度进行更新，直到训练出符合需求的模型，避免了模型出现过拟合现象。

本发明所述的物联网数据安全去重方法，将CAE的卷积操作、池化操作与自编码器融合，利用CAE的卷积层和池化层来代替传统自编码模型的全连接层，进而减少模型参数的数量，降低模型训练和摘要标签生成的计算开销和模型的存储开销，同时还能有效抵抗模型过拟合问题。实验结果表明，本发明与传统的自编码模型所占用的存储空间相比较，平均节省了99.99％。有效的解决了物联网终端设备存储空间不足、计算能力弱的问题。

本发明利用基于CAE模型生成的摘要标签具有相似性，因此可以利用欧氏距离选取一定比例的摘要标签，以此过滤掉不需要比对的指纹标签，实现高效的重复数据检测。

综上，本发明设计的CAE模型训练时间更快、摘要标签生成效率更高、模型的占用空间更少，效率上远高于传统的自编码模型去重方法。解决了物联网终端设备的计算和存储资源不足的问题。

附图说明

图1为本发明所述的基于CAE模型的物联网数据安全去重方法的系统模型示意图；

图2为本发明所述去重方法的时序图；

图3为本发明所述的基于CAE模型的物联网数据安全去重方法的框架图；

图4为本发明的模型与传统的自编码训练时间对比效果图；

图5为本发明的模型与传统的自编码摘要标签生成时间对比效果图。

具体实施方式

结合图1至图5说明本实施方式，基于CAE模型的物联网数据安全去重方法，该方法通过如图1所示的系统实现，该系统包括物联网设备、用户USER、标签库T、CAE模型以及云存储服务商CSP

物联网设备负责数据信息的采集，USER训练CAE模型并生成密文数据m的摘要标签tua和指纹标签tup，并将用户请求上传的数据信息{m，tua，tup}发送给CSP，标签库T将库中已有的数据摘要标签ta和指纹标签tp发送给CSP。最后，由CSP完成重复数据检测，并将检测结果发送给USER。

如图2所示，本实施方式的方法具体由以下步骤实现：

步骤一、用户将原始数据加密得到密文数据m，将密文执行散列操作h()，映射为固定长度的输出结果的函数h(m)，选取一个随机数r，构建密文的指纹标签f(m)＝(g^r，^gr·h(m))，其中g是循环群的生成元。

步骤二、构建并训练CAE模型，模型通过一层卷积、三层池化，进而生成所需的摘要标签ST(m)；

步骤二一、每个用户构建一个结构和初始值都相同的CAE模型，以确保摘要标签的相似性；模型训练选择了4*4的矩阵作为卷积核，步长设置为2；

步骤二二、在模型训练时，采用均方误差(Mean Square Error，MSE)、平均绝对误差(Mean Absolute Error，MAE)两个维度对模型进行测试，以此评估模型的输出与输入的数据拟合程度。

均方误差(MSE)的计算公式如下：

其中，Observed_t表示模型的输入数据值，Predicted_t表示模型的输出数据值，N表示样本数。MSE是指参数估计值与参数真实值之差平方的期望值，MSE的值越小，说明预测模型在描述实验数据具有更好的精确度。

平均绝对误差(MAE)的计算公式如下：

其中，Observed_t表示模型的输入数据值，Predicted_t表示模型的输出数据值，N表示样本数。MAE是所有单个观测值与算术平均值的偏差的绝对值的平均。MAE可以避免误差相互抵消的问题，因而可以准确反映实际预测误差的大小。

步骤二三、当模型训练好之后，将任意数据输入模型所得到的隐含层的值就是摘要标签，实际上摘要标签就是位于模型中部的隐含层值；

步骤三、用户将摘要标签ST(m)和指纹标签f(m)＝(g^r，^gr·h(m))发送给云存储服务商；

步骤四、云存储服务商遍历标签库T中的所有数据标签，利用欧式距离计算标签库T中的摘要标签ST(m_i)与用户发送的摘要标签ST(m)之间的距离，并按照距离从小到大选择最小的前n个标签组成新的标签集合S；

步骤五、遍历标签集合S，比较集合S中所有摘要标签ST(m_j)所关联的指纹标签f(m_j)是否相等；比较方法为：假设f(m_j)＝(g^a，^ga·h(m))，a为生成f(m_j)选取的随机数，g是循环群生成元，h(m)是对密文m执行的散列操作。利用双线性映射e比较和(g^a，g^a ^·h(m))是否相等，即计算/>是否等于e(g^a，g^r·h(m))，若二者相等，则表明m_j＝m，说明用户新上传的数据在云存储服务器上已经存在，云存储服务商告知用户不用上传，过程结束；否则，执行步骤六；

步骤六、如果步骤五中集合S中的所有元素的指纹标签f(m_j)与用户上传的数据指纹标签f(m)都不相同，则云存储服务商执行用户上传数据的请求，将密文数据m存储到云服务器，同时将密文数据m的摘要标签ST(m)和指纹标签f(m)存入标签库T。

如图4和图5所标，实验结果表明，本发明的模型训练时间和摘要标签生成时间都要优于传统的自编码模型去重方法。

上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.基于CAE模型的物联网数据安全去重方法，其特征是：该方法由以下步骤实现：

步骤一、用户将原始数据加密得到密文数据m，对所述密文m执行散列操作，获得函数h(m)，选取一个随机数r，构建密文的指纹标签f(m)＝(g^r,g^r·h(m))，其中g为循环群的生成元；

2.根据权利要求1所述的基于CAE模型的物联网数据安全去重方法，其特征在于：步骤二的具体过程为：

步骤二一、每个用户构建一个结构和初始值都相同的CAE模型，模型训练选择4*4的矩阵作为卷积核，步长设置为2；

步骤二二、在CAE模型训练时，采用均方误差MSE、平均绝对误差MAE两个维度对CAE模型进行测试，评估CAE模型的输出与输入的数据拟合程度；

步骤二三、当CAE模型训练好之后，将任意数据输入模型所得到的隐藏层的值作为摘要标签。

3.根据权利要求2所述的一种基于CAE模型的物联网数据安全去重方法，其特征在于：步骤二二中，所述均方误差MSE的计算公式为：

式中，Observed_t为CAE模型的输入数据值，Predicted_t为CAE模型的输出数据值，N为样本数；

所述平均绝对误差MAE的计算公式为：

其中，MAE为所有单个观测值与算术平均值的偏差的绝对值的平均值。

4.根据权利要求1所述的基于CAE模型的物联网数据安全去重方法，其特征在于：步骤五中，判断方法为：

设定指纹标签f(m_j)＝(g^a,g^a·h(m))，a为生成f(m_j)选取的随机数，利用双线性映射e比较和(g^a,g^a·h(m))是否相等，即计算/>是否等于e(g^a,g^r·h(m))，若二者相等，则m_j＝m，用户新上传的数据在云存储服务器上已经存在，云存储服务商告知用户不用上传，过程结束；否则，执行步骤六。/>