CN117082087A - 基于cae模型的物联网数据安全去重方法 - Google Patents
基于cae模型的物联网数据安全去重方法 Download PDFInfo
- Publication number
- CN117082087A CN117082087A CN202310798164.2A CN202310798164A CN117082087A CN 117082087 A CN117082087 A CN 117082087A CN 202310798164 A CN202310798164 A CN 202310798164A CN 117082087 A CN117082087 A CN 117082087A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- user
- cae
- cae model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于CAE模型的物联网数据安全去重方法,涉及物联网数据信息安全技术领域,解决现有物联网终端设备存储空间不足、计算能力弱的问题。本发明将CAE的卷积操作、池化操作与自编码器融合,利用CAE的卷积层和池化层来代替传统自编码模型的全连接层,进而减少模型参数的数量,降低模型训练和摘要标签生成的计算开销和模型的存储开销,同时还能有效抵抗模型过拟合问题。实验结果表明,本发明与传统的自编码模型所占用的存储空间相比较,平均节省了99.99%。利用基于CAE模型生成的摘要标签具有相似性,因此可以利用欧氏距离选取一定比例的摘要标签,以此过滤掉不需要比对的指纹标签,实现高效的重复数据检测。
Description
技术领域
本发明涉及物联网数据信息安全技术领域,具体涉及一种基于卷积自编码(ConvolutionalAuto-Encoder,CAE)模型的物联网数据安全去重方法,用于减少物联网终端设备的存储和计算负担,提高去重效率。
背景技术
随着计算机网络与通信技术的迅猛发展,物联网技术在工业、教育、医疗等领域得到了广泛的应用。物联网终端设备如移动设备、环境感知传感器设备以及可穿戴设备等可以随时采集自身以及周围的环境信息,催生了大量的用户隐私数据。但是,物联网终端设备存在存储空间小、计算能力有限等缺点,无法负担存储和计算资源的成本消耗。因此,越来越多的用户选择将数据存储到云服务器上进行管理。但是,云端存在大量的物联网冗余数据,浪费了存储空间,这就需要删除云端重复数据。
为了实现云端物联网数据的安全去重,研究人员提出了基于随机消息锁加密(R-MLE)的去重方法,该方法从理论上阐明了加密数据去重的可行性和安全性。然而随机性加密方法由于使用了双线性映射,在指纹标签比对时会产生巨大的计算开销。这严重阻碍了随机消息锁加密去重方法的实际应用。
因此,为了减少随机消息锁加密方案中指纹标签比对的次数,有学者提出基于自编码模型的高效去重方法,该方法使用用户训练的自编码模型生成具有相似性的摘要标签,利用欧氏距离计算出距离相近的摘要标签,并通过摘要标签过滤掉不需要比对的指纹标签,进而提高了去重效率,然而,该方法使用的是全连接模型,同时也存在计算存储开销大的问题。
发明内容
本发明提供一种基于CAE模型的物联网数据去重方法,为了减小物联网终端设备的存储和计算负担,本发明利用CAE的卷积和池化操作减少传统的自编码模型参数的数量,提高模型的训练间以及摘要标签的生成速度,减少模型占用的存储空间。实验结果表明,本发明方法的去重效率更高,且模型的分布更均匀,更适合应用于物联网数据去重。
基于CAE模型的物联网数据安全去重方法,该方法由以下步骤实现:
步骤一、用户将原始数据加密得到密文数据m,对所述密文m执行散列操作,获得函数h(m),选取一个随机数r,构建密文的指纹标签f(m)=(gr,gr·h(m)),其中g为循环群的生成元;
步骤二、构建并训练CAE模型,利用训练后的CAE模型生成摘要标签ST(m);
步骤三、用户将步骤一构建的指纹标签f(m)和步骤二生成的摘要标签ST(m)发送至云存储服务商;
步骤四、所述云存储服务商遍历标签库T中的所有数据标签,计算所述标签库T中的摘要标签ST(mi)与步骤三中用户发送的摘要标签ST(m)之间的距离,并按照距离从小到大排序,选择距离最小的前n个标签组成标签集合S;
步骤五、遍历所述标签集合S,判断所述标签集合S中所有摘要标签ST(mj)所关联的指纹标签f(mj)是否与用户上传数据的指纹标签相等;若是,则用户新上传的数据在云存储服务器上已经存在,云存储服务商告知用户不用上传,过程结束;否则,执行步骤六;
步骤六、云存储服务商执行用户上传数据的请求,将密文数据m存储到云服务器,同时将密文数据m的摘要标签ST(m)和指纹标签f(m)存入标签库T。
本发明的有益效果:
本发明所述的物联网数据安全去重方法,利用卷积、池化操作减少模型的参数数量,进而提高模型的训练时间和摘要标签的生成速度,进一步提高了去重效率。同时,使用了梯度下降法对模型的权重和偏置值的梯度进行更新,直到训练出符合需求的模型,避免了模型出现过拟合现象。
本发明所述的物联网数据安全去重方法,将CAE的卷积操作、池化操作与自编码器融合,利用CAE的卷积层和池化层来代替传统自编码模型的全连接层,进而减少模型参数的数量,降低模型训练和摘要标签生成的计算开销和模型的存储开销,同时还能有效抵抗模型过拟合问题。实验结果表明,本发明与传统的自编码模型所占用的存储空间相比较,平均节省了99.99%。有效的解决了物联网终端设备存储空间不足、计算能力弱的问题。
本发明利用基于CAE模型生成的摘要标签具有相似性,因此可以利用欧氏距离选取一定比例的摘要标签,以此过滤掉不需要比对的指纹标签,实现高效的重复数据检测。
综上,本发明设计的CAE模型训练时间更快、摘要标签生成效率更高、模型的占用空间更少,效率上远高于传统的自编码模型去重方法。解决了物联网终端设备的计算和存储资源不足的问题。
附图说明
图1为本发明所述的基于CAE模型的物联网数据安全去重方法的系统模型示意图;
图2为本发明所述去重方法的时序图;
图3为本发明所述的基于CAE模型的物联网数据安全去重方法的框架图;
图4为本发明的模型与传统的自编码训练时间对比效果图;
图5为本发明的模型与传统的自编码摘要标签生成时间对比效果图。
具体实施方式
结合图1至图5说明本实施方式,基于CAE模型的物联网数据安全去重方法,该方法通过如图1所示的系统实现,该系统包括物联网设备、用户USER、标签库T、CAE模型以及云存储服务商CSP
物联网设备负责数据信息的采集,USER训练CAE模型并生成密文数据m的摘要标签tua和指纹标签tup,并将用户请求上传的数据信息{m,tua,tup}发送给CSP,标签库T将库中已有的数据摘要标签ta和指纹标签tp发送给CSP。最后,由CSP完成重复数据检测,并将检测结果发送给USER。
如图2所示,本实施方式的方法具体由以下步骤实现:
步骤一、用户将原始数据加密得到密文数据m,将密文执行散列操作h(),映射为固定长度的输出结果的函数h(m),选取一个随机数r,构建密文的指纹标签f(m)=(gr,gr·h(m)),其中g是循环群的生成元。
步骤二、构建并训练CAE模型,模型通过一层卷积、三层池化,进而生成所需的摘要标签ST(m);
步骤二一、每个用户构建一个结构和初始值都相同的CAE模型,以确保摘要标签的相似性;模型训练选择了4*4的矩阵作为卷积核,步长设置为2;
步骤二二、在模型训练时,采用均方误差(Mean Square Error,MSE)、平均绝对误差(Mean Absolute Error,MAE)两个维度对模型进行测试,以此评估模型的输出与输入的数据拟合程度。
均方误差(MSE)的计算公式如下:
其中,Observedt表示模型的输入数据值,Predictedt表示模型的输出数据值,N表示样本数。MSE是指参数估计值与参数真实值之差平方的期望值,MSE的值越小,说明预测模型在描述实验数据具有更好的精确度。
平均绝对误差(MAE)的计算公式如下:
其中,Observedt表示模型的输入数据值,Predictedt表示模型的输出数据值,N表示样本数。MAE是所有单个观测值与算术平均值的偏差的绝对值的平均。MAE可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。
步骤二三、当模型训练好之后,将任意数据输入模型所得到的隐含层的值就是摘要标签,实际上摘要标签就是位于模型中部的隐含层值;
步骤三、用户将摘要标签ST(m)和指纹标签f(m)=(gr,gr·h(m))发送给云存储服务商;
步骤四、云存储服务商遍历标签库T中的所有数据标签,利用欧式距离计算标签库T中的摘要标签ST(mi)与用户发送的摘要标签ST(m)之间的距离,并按照距离从小到大选择最小的前n个标签组成新的标签集合S;
步骤五、遍历标签集合S,比较集合S中所有摘要标签ST(mj)所关联的指纹标签f(mj)是否相等;比较方法为:假设f(mj)=(ga,ga·h(m)),a为生成f(mj)选取的随机数,g是循环群生成元,h(m)是对密文m执行的散列操作。利用双线性映射e比较和(ga,ga ·h(m))是否相等,即计算/>是否等于e(ga,gr·h(m)),若二者相等,则表明mj=m,说明用户新上传的数据在云存储服务器上已经存在,云存储服务商告知用户不用上传,过程结束;否则,执行步骤六;
步骤六、如果步骤五中集合S中的所有元素的指纹标签f(mj)与用户上传的数据指纹标签f(m)都不相同,则云存储服务商执行用户上传数据的请求,将密文数据m存储到云服务器,同时将密文数据m的摘要标签ST(m)和指纹标签f(m)存入标签库T。
如图4和图5所标,实验结果表明,本发明的模型训练时间和摘要标签生成时间都要优于传统的自编码模型去重方法。
上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (4)
1.基于CAE模型的物联网数据安全去重方法,其特征是:该方法由以下步骤实现:
步骤一、用户将原始数据加密得到密文数据m,对所述密文m执行散列操作,获得函数h(m),选取一个随机数r,构建密文的指纹标签f(m)=(gr,gr·h(m)),其中g为循环群的生成元;
步骤二、构建并训练CAE模型,利用训练后的CAE模型生成摘要标签ST(m);
步骤三、用户将步骤一构建的指纹标签f(m)和步骤二生成的摘要标签ST(m)发送至云存储服务商;
步骤四、所述云存储服务商遍历标签库T中的所有数据标签,计算所述标签库T中的摘要标签ST(mi)与步骤三中用户发送的摘要标签ST(m)之间的距离,并按照距离从小到大排序,选择距离最小的前n个标签组成标签集合S;
步骤五、遍历所述标签集合S,判断所述标签集合S中所有摘要标签ST(mj)所关联的指纹标签f(mj)是否与用户上传数据的指纹标签相等;若是,则用户新上传的数据在云存储服务器上已经存在,云存储服务商告知用户不用上传,过程结束;否则,执行步骤六;
步骤六、云存储服务商执行用户上传数据的请求,将密文数据m存储到云服务器,同时将密文数据m的摘要标签ST(m)和指纹标签f(m)存入标签库T。
2.根据权利要求1所述的基于CAE模型的物联网数据安全去重方法,其特征在于:步骤二的具体过程为:
步骤二一、每个用户构建一个结构和初始值都相同的CAE模型,模型训练选择4*4的矩阵作为卷积核,步长设置为2;
步骤二二、在CAE模型训练时,采用均方误差MSE、平均绝对误差MAE两个维度对CAE模型进行测试,评估CAE模型的输出与输入的数据拟合程度;
步骤二三、当CAE模型训练好之后,将任意数据输入模型所得到的隐藏层的值作为摘要标签。
3.根据权利要求2所述的一种基于CAE模型的物联网数据安全去重方法,其特征在于:步骤二二中,所述均方误差MSE的计算公式为:
式中,Observedt为CAE模型的输入数据值,Predictedt为CAE模型的输出数据值,N为样本数;
所述平均绝对误差MAE的计算公式为:
其中,MAE为所有单个观测值与算术平均值的偏差的绝对值的平均值。
4.根据权利要求1所述的基于CAE模型的物联网数据安全去重方法,其特征在于:步骤五中,判断方法为:
设定指纹标签f(mj)=(ga,ga·h(m)),a为生成f(mj)选取的随机数,利用双线性映射e比较和(ga,ga·h(m))是否相等,即计算/>是否等于e(ga,gr·h(m)),若二者相等,则mj=m,用户新上传的数据在云存储服务器上已经存在,云存储服务商告知用户不用上传,过程结束;否则,执行步骤六。/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310798164.2A CN117082087A (zh) | 2023-07-03 | 2023-07-03 | 基于cae模型的物联网数据安全去重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310798164.2A CN117082087A (zh) | 2023-07-03 | 2023-07-03 | 基于cae模型的物联网数据安全去重方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117082087A true CN117082087A (zh) | 2023-11-17 |
Family
ID=88712261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310798164.2A Pending CN117082087A (zh) | 2023-07-03 | 2023-07-03 | 基于cae模型的物联网数据安全去重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117082087A (zh) |
-
2023
- 2023-07-03 CN CN202310798164.2A patent/CN117082087A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN113961759B (zh) | 基于属性图表示学习的异常检测方法 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN102236693A (zh) | 确定文档之间的相似度的方法和设备 | |
Huai et al. | Zerobn: Learning compact neural networks for latency-critical edge systems | |
CN117318052B (zh) | 发电机组进相试验无功功率预测方法、装置和计算机设备 | |
Li et al. | Coverless Video Steganography Based on Frame Sequence Perceptual Distance Mapping. | |
CN117253368A (zh) | 交通流量异常检测方法、装置、计算机设备和存储介质 | |
CN117150959A (zh) | 基于超分辨率重构的流场数据压缩与复原方法 | |
CN109189973B (zh) | 基于策略梯度的大规模图像检索方法及装置 | |
CN115130663B (zh) | 基于图神经网络和注意力机制的异质网络属性补全方法 | |
Qin et al. | Detection and localization of coordinated state-and-topology false data injection attack by multi-modal learning | |
CN117082087A (zh) | 基于cae模型的物联网数据安全去重方法 | |
CN116306030A (zh) | 考虑预测误差和波动分布的新能源预测动态场景生成方法 | |
CN116467759A (zh) | 数据存储策略的确定方法、装置、设备及存储介质 | |
Zhang | Network public opinion data mining model of hierarchical multi level | |
CN111737319B (zh) | 用户集群的预测方法、装置、计算机设备和存储介质 | |
CN111476408B (zh) | 一种电力通信设备状态预测方法及系统 | |
He | Ideological and political teaching resource sharing method based on edge computing | |
CN114722902A (zh) | 基于自监督学习的无标注视频哈希检索方法及装置 | |
CN114510592A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
Huo et al. | Encrypted traffic identification method based on multi-scale spatiotemporal feature fusion model with attention mechanism | |
CN111159200A (zh) | 一种基于深度学习的数据存储方法和装置 | |
CN117911662B (zh) | 基于深度霍夫投票的数字孪生场景语义分割方法及系统 | |
Li et al. | Multi-scale cross-fusion for arbitrary scale image super resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |