CN110677478A - 一种基于kl距离的边缘端数据传输方法 - Google Patents

一种基于kl距离的边缘端数据传输方法 Download PDF

Info

Publication number
CN110677478A
CN110677478A CN201910931466.6A CN201910931466A CN110677478A CN 110677478 A CN110677478 A CN 110677478A CN 201910931466 A CN201910931466 A CN 201910931466A CN 110677478 A CN110677478 A CN 110677478A
Authority
CN
China
Prior art keywords
data
edge
distance
transmission method
edge end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910931466.6A
Other languages
English (en)
Inventor
李锐
尹青山
段强
安程治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Original Assignee
Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Artificial Intelligence Research Institute Co Ltd filed Critical Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority to CN201910931466.6A priority Critical patent/CN110677478A/zh
Publication of CN110677478A publication Critical patent/CN110677478A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5682Policies or rules for updating, deleting or replacing the stored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明特别涉及一种基于KL距离的边缘端数据传输方法。该基于KL距离的边缘端数据传输方法,通过在边缘端数据采集设备上增加一个智能模块,把基于KL距离的算法应用于边缘端数据采集设备,快速的针对数据分布特性进行计算,根据数据分布特性判断数据是否发生变化,若数据变化不大则不会被传输,从而节省数据存储空间。该基于KL距离的边缘端数据传输方法,将基于KL距离的算法应用于边缘端数据采集设备,针对数据分布特性进行快速计算,变化不大的数据不会被传输,从而节省了存储空间,节约了云端的存储资源。

Description

一种基于KL距离的边缘端数据传输方法
技术领域
本发明涉及物联网技术领域,特别涉及一种基于KL距离的边缘端数据传输方法。
背景技术
随着物联网技术的普及,传感器的使用越来越多,感器所采集的数据也越来越多,边缘端数据的采集已经越来越成为一种趋势。而海量的边缘端设备所产生的数据量也是成指数级增长,给传输和存储带来了巨大的挑战。太多的没有用的数据被传输和存储在远端设备(云中心)造成资源的巨大浪费,并且给后续的分析带来困难。
海量数据传输不仅速度慢而且存储价格也会很昂贵,因此边缘端需要一种智能的机制才判断多少数据需要上传。不发生变化的数据即可被认为是冗余数据,只有变化的数据才能给我们带来新的信息和价值,所以如何量化的去判断变化和不变化的数据是一个技术问题。
为满足新趋势下的技术要求,本发明提出了一种基于KL距离的边缘端数据传输方法。通过在边缘设备上增加一个智能模块,对数据的冗余进行量化。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于KL距离的边缘端数据传输方法。
本发明是通过如下技术方案实现的:
一种基于KL距离的边缘端数据传输方法,其特征在于:通过在边缘端数据采集设备上增加一个智能模块,把基于KL距离(Kullback Leibler Divergence)的算法应用于边缘端数据采集设备,快速的针对数据分布特性进行计算,根据数据分布特性判断数据是否发生变化,若数据变化不大则不会被传输,从而节省数据存储空间。
本发明基于KL距离的边缘端数据传输方法,基于统计概率分布的KL距离去计算两段相邻时间数据的分布差异;若两段相邻时间数据没有分布差异,则认为数据没有变化,智能模块不再上传没有发生变化的重复数据;若两段相邻时间数据的分布差异超过一个预先设定的阈值,则认为数据发生了变化,智能模块将发生变化的数据传输到云端设备。
本发明基于KL距离的边缘端数据传输方法,包括以下步骤:
第一步,基于边缘端数据采集设备中的智能模块以时间段p为单位窗口收集数据,并将不同时间段收集的数据分别进行标记;
第二步,将初始时间段p1的数据标记为数据M0,并统计数据M0的数据分布;
第三步,再收集下一时间段p2内的数据,标记为数据M1,并统计数据M1的数据分布;
第四步,计算初始时间段p1的数据M0与时间段p2内的数据M1的KL距离;
第五步,如果数据M0与数据M1的KL距离大于阈值A,则认为数据M1与数据M0相比产生了变化,边缘端数据采集设备上的智能模块将数据M0和数据M1都传输到云端设备,返回第一步;
第六步,如果数据M0与数据M1的KL距离不大于阈值A,则认为数据M1与数据M0相比没有发生变化,数据M1为冗余数据,边缘端数据采集设备上的智能模块只将数据M0传输到云端设备。
所述第六步中,智能模块将数据M0传输到云端设备后,在边缘端数据采集设备删除缓存数据M0,并将冗余数据M1存入缓存,返回第三步,将缓存数据M1与下一时间段p3数据M2的进行对比判断;
若数据M2与缓存数据M1的KL距离不大于阈值A,则认为数据M2也是冗余数据,在边缘端数据采集设备删除缓存数据M1,把冗余数据M2存入缓存,用于与下一时间段p4数据M3的进行对比判断;重复该步骤,直至数据Mn+1与缓存数据Mn的KL距离大于阈值A,发现非冗余数据Mn+1
若数据M2与缓存数据M1的KL距离大于阈值A,则认为数据M2是非冗余数据,将数据M2传输到云端设备,在边缘端数据采集设备删除缓存数据M1和缓存数据M2,返回第一步。
所述第五步中,若对比发现数据连续s次都发生变化,则将单位窗口变小,时间段p缩短10%;s为不小于4的自然数。
所述第六步中,若对比发现数据连续s次都没有发生变化,则将单位窗口变大,时间段p增长10%;s为不小于4的自然数。
更优的,s为不小于10的自然数。
所述第四步中,两段相邻时间数据,数据Mn-1与数据Mn的KL距离D(P||Q),计算公式如下:
Figure BDA0002220377700000031
其中,P(x)为Mn-1数据的概率分布,Q(x)为Mn数据的概率分布;当数据Mn-1与数据Mn的概率分布完全相同时,即P(x)=Q(x),数据Mn-1与数据Mn的KL距离D(P||Q)=0,n为自然数。
本发明的有益效果是:该基于KL距离的边缘端数据传输方法,将基于KL距离的算法应用于边缘端数据采集设备,针对数据分布特性进行快速计算,变化不大的数据不会被传输,从而节省了存储空间,节约了云端的存储资源。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该基于KL距离的边缘端数据传输方法,通过在边缘端数据采集设备上增加一个智能模块,把基于KL距离(Kullback Leibler Divergence)的算法应用于边缘端数据采集设备,快速的针对数据分布特性进行计算,根据数据分布特性判断数据是否发生变化,若数据变化不大则不会被传输,从而节省数据存储空间。
当边缘端数据采集设备收集一段时间的数据(假设是一维的数值数据),这些数据会形成一种统计分布,即概率密度分布。例如数值在0到2之间的数的密度是多少。一段时间可以根据不同的场景进行灵活定义,可以是一分钟,也可以是一小时。每一个定义的时间段之内都可以进行一次数据的分布统计。两段时间的数据分布差异就可能表明数据在这两段时间内发生了变化,差异越大,变化越大。
KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(Relative Entropy)。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)对应的每个事件,若用概率分布Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。
该基于KL距离的边缘端数据传输方法,基于统计概率分布的KL距离去计算两段相邻时间数据的分布差异;若两段相邻时间数据没有分布差异,则认为数据没有变化,智能模块不再上传没有发生变化的重复数据;若两段相邻时间数据的分布差异超过一个预先设定的阈值,则认为数据发生了变化,智能模块将发生变化的数据传输到云端设备。
该基于KL距离的边缘端数据传输方法,包括以下步骤:
第一步,基于边缘端数据采集设备中的智能模块以时间段p为单位窗口收集数据,并将不同时间段收集的数据分别进行标记;
第二步,将初始时间段p1的数据标记为数据M0,并统计数据M0的数据分布;
第三步,再收集下一时间段p2内的数据,标记为数据M1,并统计数据M1的数据分布;
第四步,计算初始时间段p1的数据M0与时间段p2内的数据M1的KL距离;
第五步,如果数据M0与数据M1的KL距离大于阈值A,则认为数据M1与数据M0相比产生了变化,边缘端数据采集设备上的智能模块将数据M0和数据M1都传输到云端设备,返回第一步;
第六步,如果数据M0与数据M1的KL距离不大于阈值A,则认为数据M1与数据M0相比没有发生变化,数据M1为冗余数据,边缘端数据采集设备上的智能模块只将数据M0传输到云端设备。
所述第六步中,智能模块将数据M0传输到云端设备后,在边缘端数据采集设备删除缓存数据M0,并将冗余数据M1存入缓存,返回第三步,将缓存数据M1与下一时间段p3数据M2的进行对比判断;
若数据M2与缓存数据M1的KL距离不大于阈值A,则认为数据M2也是冗余数据,在边缘端数据采集设备删除缓存数据M1,把冗余数据M2存入缓存,用于与下一时间段p4数据M3的进行对比判断;重复该步骤,直至数据Mn+1与缓存数据Mn的KL距离大于阈值A,发现非冗余数据Mn+1
若数据M2与缓存数据M1的KL距离大于阈值A,则认为数据M2是非冗余数据,将数据M2传输到云端设备,在边缘端数据采集设备删除缓存数据M1和缓存数据M2,返回第一步。
所述第五步中,若对比发现数据连续s次都发生变化,则将单位窗口变小,时间段p缩短10%;s为不小于4的自然数。
所述第六步中,若对比发现数据连续s次都没有发生变化,则将单位窗口变大,时间段p增长10%;s为不小于4的自然数。
更优的,s为不小于10的自然数。
所述第四步中,两段相邻时间数据,数据Mn-1与数据Mn的KL距离D(P||Q),计算公式如下:
其中,P(x)为Mn-1数据的概率分布,Q(x)为Mn数据的概率分布;当数据Mn-1与数据Mn的概率分布完全相同时,即P(x)=Q(x),数据Mn-1与数据Mn的KL距离D(P||Q)=0,n为自然数。
以上对本发明实例中的一种基于KL距离的边缘端数据传输方法进行了详细的介绍。本部分采用具体实例对发明的原理及实施方式进行了阐述,以上实例仅用于帮助理解本发明的核心思想,在不脱离本发明原理的情况下,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

Claims (8)

1.一种基于KL距离的边缘端数据传输方法,其特征在于:通过在边缘端数据采集设备上增加一个智能模块,把基于KL距离的算法应用于边缘端数据采集设备,快速的针对数据分布特性进行计算,根据数据分布特性判断数据是否发生变化,若数据变化不大则不会被传输,从而节省数据存储空间。
2.根据权利要求1所述的基于KL距离的边缘端数据传输方法,其特征在于:基于统计概率分布的KL距离去计算两段相邻时间数据的分布差异;若两段相邻时间数据没有分布差异,则认为数据没有变化,智能模块不再上传没有发生变化的重复数据;若两段相邻时间数据的分布差异超过一个预先设定的阈值,则认为数据发生了变化,智能模块将发生变化的数据传输到云端设备。
3.根据权利要求2所述的基于KL距离的边缘端数据传输方法,其特征在于,包括以下步骤:
第一步,基于边缘端数据采集设备中的智能模块以时间段p为单位窗口收集数据,并将不同时间段收集的数据分别进行标记;
第二步,将初始时间段p1的数据标记为数据M0,并统计数据M0的数据分布;
第三步,再收集下一时间段p2内的数据,标记为数据M1,并统计数据M1的数据分布;
第四步,计算初始时间段p1的数据M0与时间段p2内的数据M1的KL距离;
第五步,如果数据M0与数据M1的KL距离大于阈值A,则认为数据M1与数据M0相比产生了变化,边缘端数据采集设备上的智能模块将数据M0和数据M1都传输到云端设备,返回第一步;
第六步,如果数据M0与数据M1的KL距离不大于阈值A,则认为数据M1与数据M0相比没有发生变化,数据M1为冗余数据,边缘端数据采集设备上的智能模块只将数据M0传输到云端设备。
4.根据权利要求3所述的基于KL距离的边缘端数据传输方法,其特征在于:所述第六步中,智能模块将数据M0传输到云端设备后,在边缘端数据采集设备删除缓存数据M0,并将冗余数据M1存入缓存,返回第三步,将缓存数据M1与下一时间段p3数据M2的进行对比判断;
若数据M2与缓存数据M1的KL距离不大于阈值A,则认为数据M2也是冗余数据,在边缘端数据采集设备删除缓存数据M1,把冗余数据M2存入缓存,用于与下一时间段p4数据M3的进行对比判断;重复该步骤,直至数据Mn+1与缓存数据Mn的KL距离大于阈值A,发现非冗余数据Mn+1
若数据M2与缓存数据M1的KL距离大于阈值A,则认为数据M2是非冗余数据,将数据M2传输到云端设备,在边缘端数据采集设备删除缓存数据M1和缓存数据M2,返回第一步。
5.根据权利要求3所述的基于KL距离的边缘端数据传输方法,其特征在于:所述第五步中,若对比发现数据连续s次都发生变化,则将单位窗口变小,时间段p缩短10%;s为不小于4的自然数。
6.根据权利要求4所述的基于KL距离的边缘端数据传输方法,其特征在于:所述第六步中,若对比发现数据连续s次都没有发生变化,则将单位窗口变大,时间段p增长10%;s为不小于4的自然数。
7.根据权利要求5或6所述的基于KL距离的边缘端数据传输方法,其特征在于:更优的,s为不小于10的自然数。
8.根据权利要求4所述的基于KL距离的边缘端数据传输方法,其特征在于:所述第四步中,两段相邻时间数据,数据Mn-1与数据Mn的KL距离D(P||Q),计算公式如下:
Figure FDA0002220377690000021
其中,P(x)为Mn-1数据的概率分布,Q(x)为Mn数据的概率分布;当数据Mn-1与数据Mn的概率分布完全相同时,即P(x)=Q(x),数据Mn-1与数据Mn的KL距离D(P||Q)=0,n为自然数。
CN201910931466.6A 2019-09-29 2019-09-29 一种基于kl距离的边缘端数据传输方法 Pending CN110677478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910931466.6A CN110677478A (zh) 2019-09-29 2019-09-29 一种基于kl距离的边缘端数据传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910931466.6A CN110677478A (zh) 2019-09-29 2019-09-29 一种基于kl距离的边缘端数据传输方法

Publications (1)

Publication Number Publication Date
CN110677478A true CN110677478A (zh) 2020-01-10

Family

ID=69079971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910931466.6A Pending CN110677478A (zh) 2019-09-29 2019-09-29 一种基于kl距离的边缘端数据传输方法

Country Status (1)

Country Link
CN (1) CN110677478A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740124A (zh) * 2016-02-01 2016-07-06 南京邮电大学 一种面向云计算监控系统的冗余数据过滤方法
CN106101121A (zh) * 2016-06-30 2016-11-09 中国人民解放军防空兵学院 一种全网络流量异常抽取方法
CN106204140A (zh) * 2016-07-12 2016-12-07 华东师范大学 一种基于kl距离的群体观点迁移检测方法
US20180357892A1 (en) * 2017-06-07 2018-12-13 International Business Machines Corporation Uncertainty modeling in traffic demand prediction
CN110289090A (zh) * 2019-05-31 2019-09-27 华东理工大学 事件发现方法及装置、存储介质、终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740124A (zh) * 2016-02-01 2016-07-06 南京邮电大学 一种面向云计算监控系统的冗余数据过滤方法
CN106101121A (zh) * 2016-06-30 2016-11-09 中国人民解放军防空兵学院 一种全网络流量异常抽取方法
CN106204140A (zh) * 2016-07-12 2016-12-07 华东师范大学 一种基于kl距离的群体观点迁移检测方法
US20180357892A1 (en) * 2017-06-07 2018-12-13 International Business Machines Corporation Uncertainty modeling in traffic demand prediction
CN110289090A (zh) * 2019-05-31 2019-09-27 华东理工大学 事件发现方法及装置、存储介质、终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋华等: "基于KL距离的自适应阈值网络流量异常检测", 《计算机工程》 *

Similar Documents

Publication Publication Date Title
CN102511043B (zh) 缓存文件替换方法、装置及系统
CN102662988B (zh) 一种用于rfid中间件的冗余数据过滤方法
CN109391629B (zh) 轨道交通综合监控系统数据处理方法
US20210227007A1 (en) Data storage method, encoding device, and decoding device
CN116506073B (zh) 一种工业计算机平台数据快速传输方法及系统
CN116910285B (zh) 基于物联网的智慧交通数据优化存储方法
CN115695564B (zh) 一种物联网数据的高效传输方法
CN115550349B (zh) 基于随机线性网络编码与卡尔曼滤波算法的文件传输方法
CN116112434A (zh) 一种路由器数据智能缓存方法及系统
CN117216022B (zh) 一种数字化工程咨询数据管理系统
CN110851450A (zh) 一种基于增量计算的伴随车即时发现方法
CN102023978A (zh) 一种海量数据处理方法及系统
CN112468154A (zh) 一种适用于海洋气象可视化的数据压缩方法
CN106921393A (zh) 一种基于计算机取证的数字证据完整性保存控制系统
CN117749800A (zh) 新能源发电侧实现边缘数据存储与传输的方法和相关装置
CN103227644A (zh) 一种针对汽车车身小格式数据的压缩方法
CN110677478A (zh) 一种基于kl距离的边缘端数据传输方法
CN113467949A (zh) 边缘计算环境下用于分布式dnn训练的梯度压缩方法
CN117115718A (zh) 政务视频数据的处理方法、系统及计算机可读存储介质
CN114625805B (zh) 一种回测配置方法、装置、设备及介质
CN105610921A (zh) 一种集群下基于数据缓存的纠删码归档方法
CN110856144B (zh) 一种移动边缘计算网络中基于lt码的雾化缓存方法
CN113239226A (zh) 一种图像检索方法、装置、设备及存储介质
CN115088038A (zh) 基于新上下文的经比对的测序数据中的改进质量值压缩框架
CN116684003B (zh) 一种基于量子通信的铁路沿线空地综合监测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110

RJ01 Rejection of invention patent application after publication