CN108228763A - 一种基于智能终端自媒体冗余数据处理的方法 - Google Patents
一种基于智能终端自媒体冗余数据处理的方法 Download PDFInfo
- Publication number
- CN108228763A CN108228763A CN201711421863.6A CN201711421863A CN108228763A CN 108228763 A CN108228763 A CN 108228763A CN 201711421863 A CN201711421863 A CN 201711421863A CN 108228763 A CN108228763 A CN 108228763A
- Authority
- CN
- China
- Prior art keywords
- data packet
- media
- hash
- individual
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/137—Hash-based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种基于智能终端自媒体冗余数据处理的方法,包括如下步骤:步骤1、获取个人自媒体网络数据包;步骤2、利用哈希算法计算每个数据包关键字;步骤3、构建、更新个人自媒体数据包Hash查询表;步骤4、是否有重复个人自媒体数据包;如果已经具有,说明该数据包的内容已经存在,系统跳到步骤6;如果找不到,说明数据包的内容不存在,系统跳到步骤5;步骤5、将当前个人自媒体数据包保存;步骤6、丢弃重复个人自媒体数据包。本发明针对移动智能终端个人自媒体领域冗余数据的处理方式。采用数据包标记插值的方式,算法上采用哈希算法建立数据包,查询表比较简单。
Description
技术领域
本发明涉及手持智能终端信息收集、自媒体领域。
背景技术
智能终端快速发展,给广大用户带来极大的便利,同时,也带来信息爆炸,一个人每天面对的是海量信息,有不同朋友圈子推荐的自媒体内容,令人目不暇接。个人自媒体的大发展,导致个人媒体信息膨胀,尤其是现在智能终端不断更换,一个人智能终端上的安装了很多的个人媒体系统,但是如何保证个人媒体信息不冗余,也是需要考虑的事情,传统的方法,有基于时间戳进行覆盖的方式,虽有一定的实用价值,但是同步不可避免的会带来流量问题,如果采用覆盖的方式,时间上也比较长一点。
软件升级差量包获取方法和相应的升级方法见专利201410773855.8。
针对一些本地端的zip压缩包升级,以及软件升级包的问题,市场上已有很多技术,比如采用差分算法直接对安装包和升级包进行二进制差分,其中常用的差分算法有xdelta3、bsdiff、courgette,生成表征两者差异的差量包,差量包完成软件升级,主要针对的是应用软件升级,以及针对本地ZIP不同升级包,这种方法是可行的,但是针对个人自媒体中已经升级后的媒体信息内容还是存在一些冗余。
已有的一种网络冗余数据处理的方法、装置和系统,见专利201410607218.3,在该系统中,接收端通过至少一个备份网络接收数据帧,该方法包括:在接收到数据帧时,根据数据帧的内容计算获得相应的特征值;根据计算所得的特征值查询维护的特征值池,当查询结果表明特征值池中存在计算所得的特征值时,确定所接收的数据帧为冗余数据;当查询结果表明特征值池中不存在计算所得的特征值时,确定所接收的数据帧为非冗余数据;在确定所接收的数据帧为冗余数据时,丢弃该数据帧;在确定所接收的数据帧为非冗余数据时,保留该数据帧,并将该数据帧对应的特征值存入特征值池。
该已有技术主要是针对数据帧来进行操作的,数据帧是在链路层触发的,并且在该已有技术中利用循环冗余校验算法为CRC32算法,对数据帧进行计算特征值的方式,并且在构建特征池的方式中,还采用老化时间Nmax、Tmax等方式针对特征池进行排序操作。并且处理方式上设置处理芯片一和处理芯片二多个处理单元。对于移动智能终端芯片处理能力有限,功耗有限的情况下本已有技术显得太庞大。
发明内容
为了解决现有技术中问题,本发明提供了一种基于智能终端自媒体冗余数据处理的方法,包括如下步骤:
步骤1、获取个人自媒体网络数据包;
步骤2、利用哈希算法计算每个数据包关键字,对个人自媒体在获取到数据包的时候,启动哈希算法,也就是每个针对每个数据调用散列算法;
步骤3、构建、更新个人自媒体数据包Hash查询表,在数据经过Hash算法转化后,对每个个人自媒体数据包格式,经过计算的数据包建立Hash查询表,该表的功能就是对已经转换的数据包建立一个统一的查询表,也就是看那个数据包是否经过更改;
步骤4、是否有重复个人自媒体数据包:
在智能终端根据每个到来的数据包,经过计算Hash值后,都要从已有的数据包查询表中查找:
如果已经具有,说明该数据包的内容已经存在,系统跳到步骤6;
如果找不到,说明数据包的内容不存在,系统跳到步骤5;
步骤5、将当前个人自媒体数据包保存:
如果针对当前的自媒体信息经过比对,不是重复的数据包,将当前智能终端接收的自媒体内容保存,也就意味着这个自媒体和系统智能机内部的自媒体是一个新的内容,就加到当前智能机的自媒体系统中;
同时系统返回到步骤3,就是将该自媒体的内容更新到数据包查询表中;
步骤6、丢弃重复个人自媒体数据包:
在该模块意味着当前的自媒体内容通过Hash值比对,在已有的查询表中已经存在了,意味着内容重复,这个时候系智能终端就丢弃当前的重复的个人自媒体数据包,并且系统返回步骤3更新当前的数据包查询表。
作为本发明的进一步改进,步骤1中:个人自媒体系统启动的时候,没有注册的话,首先注册,注册成功后就可以登录,个人自媒体系统加载,如果前期有账号的话,从云端加载同步用户的个人自媒体信息,这个时候个人终端就开始从网络端以数据帧的格式,对个人自媒体信息进行加载。
作为本发明的进一步改进,步骤2中,哈希表根据已经设定好的哈希算法和处理数据问题的计算方式,将关键码值映射到一个有限的位置空间中,并关键码值的空间位置中的象作为存储点,这种存放记录的数组形成的表叫做哈希表,这种对应的映射函数叫做哈希函数,在算法中所得到的存放空间就是哈希地址,也叫做散列地址;哈希表把一个数据包按照某一种设定好的算法,将其转换为数字的形式,将这些数字对数组长度进行余数计算,取其余数,将结果作为该数组的下一个标记,将数值进行存储,并将其存储在这个数字下标下的数组空间内;如果发出有关哈希表的查询命令后,就可以使用散列函数将数据包转换成其标记下对应的数组,从而从该空间内取得相应的散列值;散列表根据输入数值的变化而不断发生变化;利用哈希算法中的数组定位功能来确定相应的数据位置。
本发明的有益效果是:
本发明专利针对移动智能终端个人自媒体领域冗余数据的处理方式。采用数据包标记插值的方式,算法上采用哈希算法建立数据包,查询表比较简单。
本发明所要解决的问题是针对移动智能终端,虽然处理流程上和201410607218.3已有技术流程上相似,但是技术实现上不同。
本专利是针对已经升级好的个人自媒体信息内容,采用数据包标记插值的方式,算法上采用哈希算法,建立数据包查询表比较简单,也没有设置老化时间,这样系统构造简单,并且主要针对的是数据包,不是针对数据帧,也没有报文完整性检查。
本发明专利考虑到智能终端的芯片储存有限,也没有采用多个处理单元方式处理方式,更多的是针对网络应用层的方法。
附图说明
图1是本发明一种基于智能终端自媒体冗余数据处理的方法流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
1、获取个人自媒体网络数据包
个人自媒体系统启动的时候,没有注册的话,首先注册,注册成功后就可以登录,个人自媒体系统加载,如果前期有账号的话,从云端加载同步用户的个人自媒体信息。
这个时候个人终端就开始从网络端以数据帧的格式,对个人自媒体信息进行加载。
2、利用哈希算法计算每个数据包关键字
哈希表也叫做散列表,它根据已经设定好的哈希算法和处理数据问题的计算方式,将关键码值映射到一个有限的位置空间中,并关键码值的空间位置中的象作为存储点,这种存放记录的数组形成的表叫做哈希表。这种对应的映射函数叫做哈希函数。在算法中所得到的存放空间就是哈希地址,也叫做散列地址。
哈希表的工作原理就是把一个数据包按照某一种设定好的算法,比如说散列算法,将其转换为数字的形式,将这些数字对数组长度进行余数计算,取其余数,将结果作为该数组的下一个标记,将数值进行存储,并将其存储在这个数字下标下的数组空间内。如果发出有关哈希表的查询命令后,就可以使用散列函数将数据包转换成其标记下对应的数组,从而从该空间内取得相应的散列值。散列表根据输入数值的变化而不断发生变化。因此,我们可以充分利用哈希算法中的数组定位功能来确定相应的数据位置。由于哈希算法的这一功能,可以快速的完成查找任务,这要同线性数据结构与表格、队列等计算方法相比速度已经有了很大的提升。
对个人自媒体在获取到数据包的时候,启动哈希算法,也就是每个针对每个数据调用散列算法。
还有已有技术利用奇偶校验和CRC校验,这二种校验并没有抗数据篡改的能力,它们一定程度上能检测并纠正数据传输中的信道误码,但却不能防止对数据的恶意破坏。MD5Hash算法的"数字指纹"特性,具有防止数据防止篡改。
3、构建、更新个人自媒体数据包Hash查询表
由于自媒体信息一般利用网络蚂蚁抓取功能,抓取自己设置的关心的数据包功能,在数据经过Hash算法转化后,对每个个人自媒体数据包格式,经过计算的数据包建立Hash查询表,该表的功能就是对已经转换的数据包建立一个统一的查询表,也就是看那个数据包是否经过更改。
如下:数据包查询表格式
数据包序号 | 数据包HASH值 |
1,2,3,... | XX |
4、是否有重复个人自媒体数据包
在智能终端根据每个到来的数据包,经过计算Hash值后,都要从已有的数据包查询表中查找:
如果已经具有,说明该数据包的内容已经存在,系统跳到步骤6;
如果找不到,说明数据包的内容不存在,系统跳到步骤5;
数据包都是不可分割的元数据,也就是针对一个自媒体图片、视频、音频数据,如果有重复的内容,经过计算的数据包的Hash值就是一样。针对故意篡改的文本等内容,由于Hash子计算的时候,又会认为是一个新的个人自媒体。
由于本发明针对的是从网络云同步到智能终端的时候,在网络层就已经对数据包进行了Hash计算,在用户还没有动手在智能机进行修改之前,就已经启动比对操作。
5、将当前个人自媒体数据包保存
如果针对当前的自媒体信息,经过比对,不是重复的数据包,就可以将当前智能终端接收的自媒体内容保存,也就意味着这个自媒体和系统智能机内部的自媒体是一个新的内容,就可以加到当前智能机的自媒体系统中。
同时系统返回到步骤3,就是将该自媒体的内容更新到数据包查询表中。这样下一次自媒体数据过来的时候,就可以判断当前的自媒体是否已经在智能终端中已经加载过了,就不会再次加载。
6、丢弃重复个人自媒体数据包
在该模块意味着当前的自媒体内容通过Hash值比对,在已有的查询表中已经存在了,意味着内容重复,这个时候系智能终端就丢弃当前的重复的个人自媒体数据包。并且系统返回步骤3更新当前的数据包查询表。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (3)
1.一种基于智能终端自媒体冗余数据处理的方法,其特征在于,包括如下步骤:
步骤1、获取个人自媒体网络数据包;
步骤2、利用哈希算法计算每个数据包关键字,对个人自媒体在获取到数据包的时候,启动哈希算法,也就是每个针对每个数据调用散列算法;
步骤3、构建、更新个人自媒体数据包Hash查询表,在数据经过Hash算法转化后,对每个个人自媒体数据包格式,经过计算的数据包建立Hash 查询表,该表的功能就是对已经转换的数据包建立一个统一的查询表,也就是看那个数据包是否经过更改;
步骤4、是否有重复个人自媒体数据包:
在智能终端根据每个到来的数据包,经过计算Hash 值后,都要从已有的数据包查询表中查找:
如果已经具有,说明该数据包的内容已经存在,系统跳到步骤6;
如果找不到,说明数据包的内容不存在,系统跳到步骤5;
步骤5 、将当前个人自媒体数据包保存:
如果针对当前的自媒体信息经过比对,不是重复的数据包,将当前智能终端接收的自媒体内容保存,也就意味着这个自媒体和系统智能机内部的自媒体是一个新的内容,就加到当前智能机的自媒体系统中;
同时系统返回到步骤3,就是将该自媒体的内容更新到数据包查询表中;
步骤6、 丢弃重复个人自媒体数据包:
在该模块意味着当前的自媒体内容通过Hash值比对,在已有的查询表中已经存在了,意味着内容重复,这个时候系智能终端就丢弃当前的重复的个人自媒体数据包,并且系统返回步骤3更新当前的数据包查询表。
2.根据权利要求1所述的一种基于智能终端自媒体冗余数据处理的方法,其特征在于:步骤1中:个人自媒体系统启动的时候,没有注册的话,首先注册,注册成功后就可以登录,个人自媒体系统加载,如果前期有账号的话,从云端加载同步用户的个人自媒体信息,这个时候个人终端就开始从网络端以数据帧的格式,对个人自媒体信息进行加载。
3.根据权利要求1所述的一种基于智能终端自媒体冗余数据处理的方法,其特征在于:步骤2中,哈希表根据已经设定好的哈希算法和处理数据问题的计算方式,将关键码值映射到一个有限的位置空间中,并关键码值的空间位置中的象作为存储点,这种存放记录的数组形成的表叫做哈希表,这种对应的映射函数叫做哈希函数,在算法中所得到的存放空间就是哈希地址,也叫做散列地址;哈希表把一个数据包按照某一种设定好的算法,将其转换为数字的形式,将这些数字对数组长度进行余数计算,取其余数,将结果作为该数组的下一个标记,将数值进行存储,并将其存储在这个数字下标下的数组空间内;如果发出有关哈希表的查询命令后,就可以使用散列函数将数据包转换成其标记下对应的数组,从而从该空间内取得相应的散列值;散列表根据输入数值的变化而不断发生变化;利用哈希算法中的数组定位功能来确定相应的数据位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711421863.6A CN108228763A (zh) | 2017-12-25 | 2017-12-25 | 一种基于智能终端自媒体冗余数据处理的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711421863.6A CN108228763A (zh) | 2017-12-25 | 2017-12-25 | 一种基于智能终端自媒体冗余数据处理的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108228763A true CN108228763A (zh) | 2018-06-29 |
Family
ID=62648847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711421863.6A Pending CN108228763A (zh) | 2017-12-25 | 2017-12-25 | 一种基于智能终端自媒体冗余数据处理的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228763A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924777A (zh) * | 2018-07-27 | 2018-11-30 | 深圳市荣盛智能装备有限公司 | 一种用于单兵指挥系统的冗余通信方法 |
CN112866299A (zh) * | 2021-04-12 | 2021-05-28 | 南京大学 | 移动边缘计算网络的加密数据去重与分享装置及方法 |
CN116366478A (zh) * | 2023-06-01 | 2023-06-30 | 湖北省楚天云有限公司 | 一种基于fpga的数据包对比去重方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008055214B1 (en) * | 2006-10-31 | 2008-10-09 | Rebit Inc | System for automatically shadowing data and file directory structures that are recorded on a computer memory |
CN101741536A (zh) * | 2008-11-26 | 2010-06-16 | 中兴通讯股份有限公司 | 数据级容灾方法、系统和生产中心节点 |
CN104378186A (zh) * | 2014-10-31 | 2015-02-25 | 南京南瑞继保电气有限公司 | 一种网络冗余数据处理的方法、装置和系统 |
CN104978151A (zh) * | 2015-06-19 | 2015-10-14 | 浪潮电子信息产业股份有限公司 | 基于应用感知的重复数据删除存储系统中的数据重构方法 |
CN105514999A (zh) * | 2016-01-29 | 2016-04-20 | 江苏省电力公司电力经济技术研究院 | 一种电网静态电压稳定预防控制模型及其算法 |
CN106649717A (zh) * | 2016-12-21 | 2017-05-10 | 深圳市易特科信息技术有限公司 | 基于哈希值的医疗文件冗余处理系统及方法 |
-
2017
- 2017-12-25 CN CN201711421863.6A patent/CN108228763A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008055214B1 (en) * | 2006-10-31 | 2008-10-09 | Rebit Inc | System for automatically shadowing data and file directory structures that are recorded on a computer memory |
CN101741536A (zh) * | 2008-11-26 | 2010-06-16 | 中兴通讯股份有限公司 | 数据级容灾方法、系统和生产中心节点 |
CN104378186A (zh) * | 2014-10-31 | 2015-02-25 | 南京南瑞继保电气有限公司 | 一种网络冗余数据处理的方法、装置和系统 |
CN104978151A (zh) * | 2015-06-19 | 2015-10-14 | 浪潮电子信息产业股份有限公司 | 基于应用感知的重复数据删除存储系统中的数据重构方法 |
CN105514999A (zh) * | 2016-01-29 | 2016-04-20 | 江苏省电力公司电力经济技术研究院 | 一种电网静态电压稳定预防控制模型及其算法 |
CN106649717A (zh) * | 2016-12-21 | 2017-05-10 | 深圳市易特科信息技术有限公司 | 基于哈希值的医疗文件冗余处理系统及方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924777A (zh) * | 2018-07-27 | 2018-11-30 | 深圳市荣盛智能装备有限公司 | 一种用于单兵指挥系统的冗余通信方法 |
CN112866299A (zh) * | 2021-04-12 | 2021-05-28 | 南京大学 | 移动边缘计算网络的加密数据去重与分享装置及方法 |
CN116366478A (zh) * | 2023-06-01 | 2023-06-30 | 湖北省楚天云有限公司 | 一种基于fpga的数据包对比去重方法 |
CN116366478B (zh) * | 2023-06-01 | 2023-08-15 | 湖北省楚天云有限公司 | 一种基于fpga的数据包对比去重方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11336431B2 (en) | Verification system and method for cooperating with blockchain and off-chain devices | |
CN108228763A (zh) | 一种基于智能终端自媒体冗余数据处理的方法 | |
JP6716727B2 (ja) | ストリーミングデータ分散処理方法及び装置 | |
CN104008152B (zh) | 支持海量数据访问的分布式文件系统的架构方法 | |
WO2021091489A1 (en) | Method and apparatus for storing time series data, and server and storage medium thereof | |
CN112815990A (zh) | 一种基于物联网技术的配电设备监测系统 | |
CN103501374A (zh) | 电话簿排序方法及装置、终端 | |
CN101442731A (zh) | 一种话单剔重方法和装置 | |
CN108536753B (zh) | 重复信息的确定方法及相关装置 | |
CN101009516A (zh) | 一种进行数据同步的方法及系统 | |
CN103916483A (zh) | 一种针对编码冗余存储系统的自适应数据存储与重构方法 | |
CN113409047B (zh) | 基于区块链的数据处理方法、装置、设备及可读存储介质 | |
CN106533967A (zh) | 一种可自定义负载均衡策略的数据传输方法 | |
EP3739493A1 (en) | File verification method, file verification system and file verification server | |
CN110648195A (zh) | 一种用户识别方法、装置、计算机设备 | |
CN103856503B (zh) | Nas集群系统的文件数据的处理方法及nas集群系统 | |
CN106790552A (zh) | 一种基于内容分发网络的内容提供系统 | |
CN111221649A (zh) | 边缘资源存储方法、访问方法及装置 | |
CN106611001A (zh) | 虚拟机数据库表数据一致性的校验方法、装置及系统 | |
CN103678314B (zh) | 基于关联规则提取的海量数据处理系统、设备及方法 | |
CN104850656B (zh) | 一种动态自适应多级Bloom滤波器装置 | |
CN110309117A (zh) | 一种高可用区块链存储方法 | |
CN114281256A (zh) | 基于分布式存储系统的数据同步方法、装置、设备及介质 | |
CN113407374A (zh) | 故障处理方法、装置、故障处理设备及存储介质 | |
CN105282045A (zh) | 一种基于一致性哈希算法的分布式计算和储存方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |
|
RJ01 | Rejection of invention patent application after publication |