CN106682225B - 一种大数据的汇集存储方法与系统 - Google Patents

一种大数据的汇集存储方法与系统 Download PDF

Info

Publication number
CN106682225B
CN106682225B CN201710005485.7A CN201710005485A CN106682225B CN 106682225 B CN106682225 B CN 106682225B CN 201710005485 A CN201710005485 A CN 201710005485A CN 106682225 B CN106682225 B CN 106682225B
Authority
CN
China
Prior art keywords
data
value
fingerprint value
fingerprint
comparative group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710005485.7A
Other languages
English (en)
Other versions
CN106682225A (zh
Inventor
王纯斌
肖勃飞
黄英海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN201710005485.7A priority Critical patent/CN106682225B/zh
Publication of CN106682225A publication Critical patent/CN106682225A/zh
Application granted granted Critical
Publication of CN106682225B publication Critical patent/CN106682225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明公开了一种大数据的汇集存储方法与系统,方法包括:数据采集:实时采集多个数据源的多维原始数据;数据汇集:汇集与其建立通信通道的数据采集的数据,并把汇集到的数据发送至数据清洗模块;数据清洗:对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值和异常值;数据存储:将数据清洗得到的对象流进行存储。本发明在现有的大数据系统之上,对大数据进行收集与清洗之后进行存储,解决现有技术使用固定分块的形式,导致特别多固定分块,其利用次数极少但是仍然占用大量空间,使得存储系统的整体利用率不高的问题。

Description

一种大数据的汇集存储方法与系统
技术领域
本发明涉及一种大数据的汇集存储方法与系统。
背景技术
大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”业界(IBM最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。
随着社会信息化水平的不断提高和互联网技术的高速发展,各类非结构化数据,如图片、音视频、文本资料等呈现出爆炸性增长的趋势,在云存储服务为人们带来便利的同时,数据规模也在急剧膨胀,这对存储海量数据的能力提出了更高的要求。研究表明,数据中高达75%的部分是重复的,存储资源利用率不高的一个重要原因就是数据中存在大量的重复和冗余。
内容寻址存储(Content Addressed Storage,CAS)是由美国EMC公司2002年4月率先提出的针对固定内容存储需求的先进的网络存储技术。CAS具有面向对象存储特征,基于磁记录技术,它按照所存储数据内容的数字指纹寻址,具有良好的可搜索性、安全性、可靠性和扩展性。EMC同时推出了其CAS产品Centera,并成为CAS存储技术的代表性产品。之后,一些存储公司相继推出了相关的产品,使CAS技术备受关注。
对于大多数的现有技术,只公开了在存储之前会进行清洗但未公开如何清洗,比如申请号为CN201410727728.4的发明专利。同时,现有技术的部分大数据系统采用了CAS技术,然而现有技术通常采用对对象进行固定分块的方式进行数据分片,采用该方式虽然可以节约分块的时间,然而如果是采用该种方法,会存在特别多固定分块,其利用次数极少但是仍然占用大量空间,使得存储系统的整体利用率不高,尤其是在大数据的基础上以及对于各种常用属性的组合的时候会产生上述问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种大数据的汇集存储方法与系统,对大数据进行收集与清洗之后进行存储;同时对数据存储进行改进,解决现有技术使用固定分块的形式,导致特别多固定分块,其利用次数极少但是仍然占用大量空间,使得存储系统的整体利用率不高的问题。
本发明的目的是通过以下技术方案来实现的:一种大数据的汇集存储方法,包括:
数据采集:实时采集多个数据源的多维原始数据;
数据汇集:汇集与其建立通信通道的数据采集的数据,并把汇集到的数据发送至数据清洗模块;
数据清洗:对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值和异常值;
所述的缺省值的替换包括:在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;
所述的异常值的替换包括:默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值,对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值;
数据存储:将数据清洗得到的对象流进行存储;所述的数据存储包括以下子步骤:
S1:接收对象流;
S2:将对象流中的对象进行通过内容比较的方式进行分段,得到多个数据片段,并建立对数据片段到对象的反相引用,或者上传数据片段并将所述指纹值更新至所述指纹值数据库,包括以下子步骤:
S21:获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长;
S22:计算比较组对应的指纹值;
S23:按照步骤S22计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;
S24:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:
(1)如果能够对应:
则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回步骤S22,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;
(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:
(2-1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p-1)*n+1,完成后返回步骤S21;
(2-2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后返回步骤S21;
S3:当完成整个对象的分段,则结束。
一种大数据的汇集存储方法还包括:数据分析,用于对数据处理得到的数据按照模型进行分析;
所述的数据存储还用于对数据分析得到的数据进行存储。
在步骤S21所述的获取比较组之前,还包括一个判断步骤:如果对象的最后一位大于m+X,则进入步骤S21;否则:
S01:直接计算m位~对象最后一位的指纹值;
S02:按照计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;
S03:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:如果是,则建立所述指纹值对应的数据片段到所述对象的反向引用;如果否,则上传所述指纹值对应的数据片段,并将所述指纹值更新至所述指纹值数据库。
在步骤S1和步骤S2之间还包括一个对象头/尾判断步骤,用于判断对象头/尾是否与为指纹值数据库中常用的数据头/尾,如果是则快速获取指纹值并建立所述指纹值对应的数据片段到所述对象的反向引用,并去掉常用的数据头/尾后进入步骤S2。
所述的比较组限制有最大值Y,步骤S24中当在能够对应,同时满足X+p*n小于等于Y而X+(p+1)*n大于Y时,则直接进入不能够对应并且缓存中存在指纹值的子步骤。
一种大数据的汇集存储系统,包括:
数据采集器:用于实时采集多个数据源的多维数据;
数据汇集器:用于汇集与其建立通信通道的所述的数据采集器的数据,并把汇集到的数据发送至数据清洗模块;
数据清洗模块:用于对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值替换单元和异常值替换单元;
所述的缺省值替换单元用于在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;
所述的异常值替换单元包括默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值;对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值;
数据存储模块:将数据清洗模块得到的对象流进行存储;所述的数据存储模块包括:
比较组获取单元:用于获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长;
比较组指纹值计算单元:用于计算比较组对应的指纹值;
映射关系对应表生成单元:用于对比较组指纹值计算单元计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;
判断与处理单元:用于调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:
(1)如果能够对应:则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回比较组获取单元,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;
(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:
(2-1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p-1)*n+1,完成后返回比较组获取单元;(2-2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后比较组获取单元;
结束判断单元:用于判断是否完成整个对象的分段,如果是则结束。
一种大数据的汇集存储系统还包括:数据分析模块,用于对数据处理得到的数据按照模型进行分析;所述的数据存储模块还用于对数据分析得到的数据进行存储。
所述的数据存储模块还包括一个长度判断与数据处理单元:如果对象的最后一位大于m+X,则进入比较组获取单元;否则:直接计算m位~对象最后一位的指纹值;按照计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:如果是,则建立所述指纹值对应的数据片段到所述对象的反向引用;如果否,则上传所述指纹值对应的数据片段,并将所述指纹值更新至所述指纹值数据库。
所述的数据存储模块还包括一个对象头/尾判断单元:用于判断对象头/尾是否与为指纹值数据库中常用的数据头/尾,如果是则快速获取指纹值并建立所述指纹值对应的数据片段到所述对象的反向引用,并去掉常用的数据头/尾后进入比较组获取单元。
所述的比较组限制有最大值Y,当能够对应,同时满足X+p*n小于等于Y而X+(p+1)*n大于Y时,则直接进入不能够对应并且缓存中存在指纹值的情况。
本发明的有益效果是:
本发明在现有的大数据系统之上,对大数据进行收集与清洗之后进行存储,在清洗中采用缺省值和异常值的清理:对缺省值的替换包括:在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;对异常值的替换包括:默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值,对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值。同时,还对数据存储进行改进,解决现有技术使用固定分块的形式,导致特别多固定分块,其利用次数极少但是仍然占用大量空间,使得存储系统的整体利用率不高的问题,采用内容对比的方式对对象进行分段,当寻找到相同的指纹值时进行长度增加与再判断,直到下一次的指纹值不同,提高存储系统的利用率。本发明还包括一个常用头/尾判断,当分析到对象的头/尾属于常用头/尾时可快速进行获取。
附图说明
图1为本发明方法流程图;
图2为数据存储流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案:如图1所示,一种大数据的汇集存储方法,包括:
数据采集:实时采集多个数据源的多维原始数据;
数据汇集:汇集与其建立通信通道的数据采集的数据,并把汇集到的数据发送至数据清洗模块;
数据清洗:对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值和异常值;
所述的缺省值的替换包括:在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;
所述的异常值的替换包括:默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的(在其中一个实施例中为标准差的三倍,即大于μ+3σ,或者小于μ-3σ;在另外一个实施例中为标准差的十倍,即大于μ+10σ,或者小于μ-10σ;这取决于数据的属性),认为是异常值。
对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值;
数据存储:将数据清洗得到的对象流进行存储;所述的数据存储包括以下子步骤:
S1:接收对象流;
S2:将对象流中的对象进行通过内容比较的方式进行分段,得到多个数据片段,并建立对数据片段到对象的反相引用,或者上传数据片段并将所述指纹值更新至所述指纹值数据库,包括以下子步骤:
S21:获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长;
S22:计算比较组对应的指纹值;
S23:按照步骤S22计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;
S24:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:
(1)如果能够对应:
则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回步骤S22,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;
其中,所述的X和n的值可调节。具体地,n的值越小计算的精度越高,X的值根据常用数据的长度的均值进行选择。在不考虑计算量的情况下,n优选取1。
(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:
(2-1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p-1)*n+1,完成后返回步骤S21;
此条为当进行了多次后的增加,用上一次的指纹值进行反向引用。
(2-2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后返回步骤S21;
此条为进行第一次比较就不对应时候的新写入。
其中,在上传所述对象的前X位的数据片段时,根据数据片段的指纹值将数据片段存储到不同的存储单元中。
采用该种方式对新的数据片段进行分类存储,以实现分布式存储。比如可以选取多个范围值,当数据片段的指纹值落在某个范围内就存储于对应的存储单元中。这样可以使得在数据比较阶段降低一定量的工作,或者在后期的数据获取阶段降低一定量的工作。
S3:当完成整个对象的分段,则结束。
在本实施例中,一种大数据的汇集存储方法还包括:数据分析,用于对数据处理得到的数据按照模型进行分析;所述的数据存储还用于对数据分析得到的数据进行存储。
在本实施例中,在步骤S21所述的获取比较组之前,还包括一个判断步骤:如果对象的最后一位大于m+X,则进入步骤S21;否则:
S01:直接计算m位~对象最后一位的指纹值;
S02:按照计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;
S03:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:如果是,则建立所述指纹值对应的数据片段到所述对象的反向引用;如果否,则上传所述指纹值对应的数据片段,并将所述指纹值更新至所述指纹值数据库。
此处用于判断对象的最大值,如果已经计算到对象的最后一位则不再进行下一次的计算。
在本实施例中,在步骤S1和步骤S2之间还包括一个对象头/尾判断步骤,用于判断对象头/尾是否与为指纹值数据库中常用的数据头/尾,如果是则快速获取指纹值并建立所述指纹值对应的数据片段到所述对象的反向引用,并去掉常用的数据头/尾后进入步骤S2。
此处用于对常用的头尾进行判断,比如对于网站类的存储常用的头“http://www.”就可以进行快速与后面的内容进行分开。
在本实施例中,所述的比较组限制有最大值Y,步骤S24中当在能够对应,同时满足X+p*n小于等于Y而X+(p+1)*n大于Y时,则直接进入不能够对应并且缓存中存在指纹值的子步骤。
基于上述方法的实现,本实施例还提供了一种大数据的汇集存储系统,包括:
数据采集器:用于实时采集多个数据源的多维数据;
数据汇集器:用于汇集与其建立通信通道的所述的数据采集器的数据,并把汇集到的数据发送至数据清洗模块;
数据清洗模块:用于对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值替换单元和异常值替换单元;
所述的缺省值替换单元用于在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;
所述的异常值替换单元包括默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值;对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值;
数据存储模块:将数据清洗模块得到的对象流进行存储;所述的数据存储模块包括:
比较组获取单元:用于获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长;
比较组指纹值计算单元:用于计算比较组对应的指纹值;
映射关系对应表生成单元:用于对比较组指纹值计算单元计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;
判断与处理单元:用于调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:
(1)如果能够对应:则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回比较组获取单元,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;
(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:
(2-1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p-1)*n+1,完成后返回比较组获取单元;(2-2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后比较组获取单元;
结束判断单元:用于判断是否完成整个对象的分段,如果是则结束。
对应地,一种大数据的汇集存储系统还包括:数据分析模块,用于对数据处理得到的数据按照模型进行分析;所述的数据存储模块还用于对数据分析得到的数据进行存储。
对应地,所述的数据存储模块还包括一个长度判断与数据处理单元:如果对象的最后一位大于m+X,则进入比较组获取单元;否则:直接计算m位~对象最后一位的指纹值;按照计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:如果是,则建立所述指纹值对应的数据片段到所述对象的反向引用;如果否,则上传所述指纹值对应的数据片段,并将所述指纹值更新至所述指纹值数据库。
对应地,所述的数据存储模块还包括一个对象头/尾判断单元:用于判断对象头/尾是否与为指纹值数据库中常用的数据头/尾,如果是则快速获取指纹值并建立所述指纹值对应的数据片段到所述对象的反向引用,并去掉常用的数据头/尾后进入比较组获取单元。
对应地,所述的比较组限制有最大值Y,当能够对应,同时满足X+p*n小于等于Y而X+(p+1)*n大于Y时,则直接进入不能够对应并且缓存中存在指纹值的情况。

Claims (10)

1.一种大数据的汇集存储方法,其特征在于:包括:
数据采集:实时采集多个数据源的多维原始数据;
数据汇集:汇集与其建立通信通道的数据采集的数据,并把汇集到的数据发送至数据清洗模块;
数据清洗:对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值和异常值;
所述的缺省值的替换包括:在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;
所述的异常值的替换包括:默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值,对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉异常值;
数据存储:将数据清洗得到的对象流进行存储;所述的数据存储包括以下子步骤:
S1:接收对象流;
S2:将对象流中的对象进行通过内容比较的方式进行分段,得到多个数据片段,并建立对数据片段到对象的反相引用,或者上传数据片段并将指纹值更新至指纹值数据库,包括以下子步骤:
S21:获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长;
S22:计算比较组对应的指纹值;
S23:按照步骤S22计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;
S24:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:
(1)如果能够对应:
则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回步骤S22,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;
(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:
(2-1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p-1)*n+1,完成后返回步骤S21;
(2-2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后返回步骤S21;
S3:当完成整个对象的分段,则结束。
2.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:还包括:数据分析,用于对数据处理得到的数据按照模型进行分析;
所述的数据存储还用于对数据分析得到的数据进行存储。
3.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:在步骤S21所述的获取比较组之前,还包括一个判断步骤:如果对象的最后一位大于m+X,则进入步骤S21;否则:
S01:直接计算m位~对象最后一位的指纹值;
S02:按照计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;
S03:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:如果是,则建立所述指纹值对应的数据片段到所述对象的反向引用;如果否,则上传所述指纹值对应的数据片段,并将所述指纹值更新至所述指纹值数据库。
4.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:在步骤S1和步骤S2之间还包括一个对象头/尾判断步骤,用于判断对象头/尾是否与为指纹值数据库中常用的数据头/尾,如果是则快速获取指纹值并建立所述指纹值对应的数据片段到所述对象的反向引用,并去掉常用的数据头/尾后进入步骤S2。
5.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:所述的比较组限制有最大值Y,步骤S24中当在能够对应,同时满足X+p*n小于等于Y而X+(p+1)*n大于Y时,则直接进入不能够对应并且缓存中存在指纹值的子步骤。
6.一种大数据的汇集存储系统,其特征在于:包括:
数据采集器:用于实时采集多个数据源的多维数据;
数据汇集器:用于汇集与其建立通信通道的所述的数据采集器的数据,并把汇集到的数据发送至数据清洗模块;
数据清洗模块:用于对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值替换单元和异常值替换单元;
所述的缺省值替换单元用于在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;
所述的异常值替换单元包括默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值;对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉异常值;
数据存储模块:将数据清洗模块得到的对象流进行存储;所述的数据存储模块包括:
比较组获取单元:用于获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长:
比较组指纹值计算单元:用于计算比较组对应的指纹值;
映射关系对应表生成单元:用于对比较组指纹值计算单元计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;
判断与处理单元:用于调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:
(1)如果能够对应:则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回比较组获取单元,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;
(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:
(2-1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p-1)*n+1,完成后返回比较组获取单元;(2-2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后比较组获取单元;
结束判断单元:用于判断是否完成整个对象的分段,如果是则结束。
7.根据权利要求6所述的一种大数据的汇集存储系统,其特征在于:还包括:数据分析模块,用于对数据处理得到的数据按照模型进行分析;所述的数据存储模块还用于对数据分析得到的数据进行存储。
8.根据权利要求6所述的一种大数据的汇集存储系统,其特征在于:所述的数据存储模块还包括一个长度判断与数据处理单元:如果对象的最后一位大于m+X,则进入比较组获取单元;否则:直接计算m位~对象最后一位的指纹值;按照计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:如果是,则建立所述指纹值对应的数据片段到所述对象的反向引用;如果否,则上传所述指纹值对应的数据片段,并将所述指纹值更新至所述指纹值数据库。
9.根据权利要求6所述的一种大数据的汇集存储系统,其特征在于:所述的数据存储模块还包括一个对象头/尾判断单元:用于判断对象头/尾是否与为指纹值数据库中常用的数据头/尾,如果是则快速获取指纹值并建立所述指纹值对应的数据片段到所述对象的反向引用,并去掉常用的数据头/尾后进入比较组获取单元。
10.根据权利要求6所述的一种大数据的汇集存储系统,其特征在于:所述的比较组限制有最大值Y,当能够对应,同时满足X+p*n小于等于Y而X+(p+1)*n大于Y时,则直接进入不能够对应并且缓存中存在指纹值的情况。
CN201710005485.7A 2017-01-04 2017-01-04 一种大数据的汇集存储方法与系统 Active CN106682225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710005485.7A CN106682225B (zh) 2017-01-04 2017-01-04 一种大数据的汇集存储方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710005485.7A CN106682225B (zh) 2017-01-04 2017-01-04 一种大数据的汇集存储方法与系统

Publications (2)

Publication Number Publication Date
CN106682225A CN106682225A (zh) 2017-05-17
CN106682225B true CN106682225B (zh) 2019-07-23

Family

ID=58848987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710005485.7A Active CN106682225B (zh) 2017-01-04 2017-01-04 一种大数据的汇集存储方法与系统

Country Status (1)

Country Link
CN (1) CN106682225B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446262B (zh) * 2018-10-31 2021-10-08 成都四方伟业软件股份有限公司 一种数据汇聚方法及装置
CN109542867B (zh) * 2018-11-26 2020-07-24 成都四方伟业软件股份有限公司 分布式数据采集方法及装置
CN110618978A (zh) * 2019-09-20 2019-12-27 南京信同诚信息技术有限公司 一种云系统集成和存储系统及方法
CN113590925A (zh) * 2020-04-30 2021-11-02 中国移动通信集团北京有限公司 一种用户确定方法、装置、设备及计算机存储介质
CN115650460B (zh) * 2022-12-14 2023-04-14 鹏凯环境科技股份有限公司 一种具有在线监控功能的污水处理装置及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289518A (zh) * 2011-09-13 2011-12-21 盛乐信息技术(上海)有限公司 音频指纹检索库的更新方法及系统
CN104750861A (zh) * 2015-04-16 2015-07-01 中国电力科学研究院 一种储能电站海量数据清洗方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110815B2 (en) * 2012-05-07 2015-08-18 International Business Machines Corporation Enhancing data processing performance by cache management of fingerprint index

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289518A (zh) * 2011-09-13 2011-12-21 盛乐信息技术(上海)有限公司 音频指纹检索库的更新方法及系统
CN104750861A (zh) * 2015-04-16 2015-07-01 中国电力科学研究院 一种储能电站海量数据清洗方法及系统

Also Published As

Publication number Publication date
CN106682225A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN106682225B (zh) 一种大数据的汇集存储方法与系统
CN106777093A (zh) 基于空间时序数据流应用的Skyline查询系统
CN117078048B (zh) 基于数字孪生的智慧城市资源管理方法及系统
CN104484673A (zh) 实时数据流模式识别应用的数据补全方法
CN110471944A (zh) 指标统计方法、系统、设备及存储介质
CN113839835A (zh) 一种基于小流过滤的Top-k流精确监控架构
CN110377757B (zh) 一种实时知识图谱构建系统
CN116957598A (zh) 一种基于路径束的可疑资金流向追溯方法及系统
CN111369302A (zh) 实时生成积分的方法、系统及计算机可读存储介质
CN115269519A (zh) 一种日志检测方法、装置及电子设备
CN116186053A (zh) 一种数据处理方法、装置及存储介质
CN114003596B (zh) 一种基于工业系统的多源异构数据处理系统与方法
CN115657968A (zh) 边界表示模型的存储方法、装置、设备和介质
CN115391429A (zh) 基于大数据云计算的时序数据处理方法及装置
CN106504169A (zh) 一种基于流处理的内涝数据处理系统及其处理方法
CN114971504A (zh) 一种实体类型确定方法和相关装置
CN108875786B (zh) 基于Storm的食品数据并行计算一致性问题的优化方法
CN111581420A (zh) 一种基于Flink的医学图像实时检索方法
CN109783520A (zh) 基于滑动窗口的可伸缩的大规模流数据顺序特征维持方法
CN107710168A (zh) 信息处理装置和信息处理方法
Sun et al. Hee-sketch: an efficient sketch for sliding-window frequency estimation over skewed data streams
CN112214290B (zh) 日志信息处理方法、边缘节点、中心节点和系统
CN112632365B (zh) 一种舆情事件发展阶段自动划分与标识方法
CN111835854B (zh) 一种基于灰色预测算法的慢任务预测方法
Hao et al. Research on Abnormal Detection Method of Network Big Data Flow Based on Track Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant