发明内容
本发明提供一种基于大数据的数据跨进程压缩存储方法及系统,旨在解决现有跨进程数据传输方法无法对对象数据进行优先级确定,并基于优先级先后进行压缩传输,增加了跨进程数据传输方法负载的问题。
本发明是这样实现的,一种基于大数据的数据跨进程压缩存储方法,所述基于大数据的数据跨进程压缩存储方法包括:
获取待压缩任务集,其中,所述待压缩任务集中包括不同数据采集终端收集到的待处理数据,待处理数据对应至少一组服务进程;
加载目标压缩任务集,基于目标压缩任务集创建压缩队列,逐一遍历创建的压缩队列,通过预训练的优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列;
获取优先级排序后的排序压缩队列,排序压缩队列导入服务进程中,通过至少一组服务进程对排序压缩队列进行压缩处理,得到压缩存储后的数据集。
优选地,所述获取待压缩任务集的方法,具体包括:
响应数据采集终端跨进程指令;
基于Zabbix框架与不同数据采集终端建立联系,创建不同数据采集终端的Zabbix组织架构图;
实时获取数据采集终端采集到的待处理数据,获取待处理数据后,对待处理数据预处理。
优选地,所述获取待处理数据后,对待处理数据预处理的方法,具体包括:
加载待处理数据;
针对任一数据采集终端环境下数据传输端口,获取数据传输端口所在存储位置;
基于数据传输端口所在存储位置,将待处理数据暂存在云数据存储空间内,并建立数据传输端口与云数据存储空间之间的索引关系。
优选地,所述获取待处理数据后,对待处理数据预处理的方法,具体还包括:
加载数据传输端口与云数据存储空间之间的索引关系;
基于数据传输端口与云数据存储空间之间的索引关系,获取待处理数据;
对待处理数据进行滤波处理,消除干扰数据,随机采用一致性算法,对滤波处理后的待处理数据剔除,得到剔除后的待处理数据。
优选地,所述创建不同响应数据采集终端的Zabbix组织架构图的方法,具体包括:
识别数据采集终端所位置,对数据采集终端的位置简化处理,得到关键组织架构点;
根据数据采集终端之间的内在关联组织以及关联组织架构点构建组织架构图。
优选地,所述通过预训练的优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列的方法,具体包括:
加载压缩队列;
遍历压缩队列中目标压缩任务集,识别目标压缩任务集中待处理数据;
获取基于重要性和相关性分析,调取数据采集终端的Zabbix组织架构图,基于随机森林监督模型确定数据采集终端的Zabbix组织架构图中数据采集终端的优先级。
优选地,所述通过预训练的优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列的方法,具体还包括:
获取待处理数据,通过随机森林监督模型确定待处理数据所对应的数据采集终端的优先级,形成排序压缩队列。
一种基于所述基于大数据的数据跨进程压缩存储方法的一种基于大数据的数据跨进程压缩存储系统,所述基于大数据的数据跨进程压缩存储系统包括:
终端服务器,用于获取待压缩任务集,其中,所述待压缩任务集中包括不同数据采集终端收集到的待处理数据,待处理数据对应至少一组服务进程;
前端处理器,用于加载目标压缩任务集,基于目标压缩任务集创建压缩队列,逐一遍历创建的压缩队列,通过预训练的优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列;
压缩存储云平台,用于获取优先级排序后的排序压缩队列,排序压缩队列导入服务进程中,通过至少一组服务进程对排序压缩队列进行压缩处理,得到压缩存储后的数据集。
优选地,所述终端服务器包括:
指令响应端,用于响应数据采集终端跨进程指令;
组织架构建立单元,基于Zabbix框架与不同数据采集终端建立联系,创建不同数据采集终端的Zabbix组织架构图;
数据预处理单元,实时获取数据采集终端采集到的待处理数据,获取待处理数据后,对待处理数据预处理。
优选地,所述数据预处理单元包括:
待处理数据接收端,用于加载待处理数据;
存储位置获取模块,针对任一数据采集终端环境下数据传输端口,获取数据传输端口所在存储位置;
索引关系创建模块,基于数据传输端口所在存储位置,将待处理数据暂存在云数据存储空间内,并建立数据传输端口与云数据存储空间之间的索引关系。
与现有技术相比,本申请实施例主要有以下有益效果:
本发明实施例通过优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列,基于不同数据采集终端的优先级来处理数据,解决了现有跨进程数据传输方法无法对对象数据进行优先级确定的问题,提高了数据压缩和存储的效率。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
现有跨进程数据传输方法无法对对象数据进行优先级确定,并基于优先级先后进行压缩传输,增加了跨进程数据传输方法的负载,为了解决上述问题,我们提出了一种基于大数据的数据跨进程压缩存储方法,基于大数据的数据跨进程压缩存储方法的执行流程,包括:
获取待压缩任务集,然后加载目标压缩任务集,基于目标压缩任务集创建压缩队列,逐一遍历创建的压缩队列,通过预训练的优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列,最终获取优先级排序后的排序压缩队列,排序压缩队列导入服务进程中,通过至少一组服务进程对排序压缩队列进行压缩处理,得到压缩存储后的数据集;本发明实施例通过优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列,基于不同数据采集终端400的优先级来处理数据,解决了现有跨进程数据传输方法无法对对象数据进行优先级确定的问题,提高了数据压缩和存储的效率。
本发明实施例提供了一种基于大数据的数据跨进程压缩存储方法,如图1所示,示出了基于大数据的数据跨进程压缩存储方法的实现流程示意图,所述基于大数据的数据跨进程压缩存储方法,具体包括:
步骤S10,获取待压缩任务集,其中,所述待压缩任务集中包括不同数据采集终端400收集到的待处理数据,待处理数据对应至少一组服务进程。
步骤S20,加载目标压缩任务集,基于目标压缩任务集创建压缩队列,逐一遍历创建的压缩队列,通过预训练的优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列。
步骤S30,获取优先级排序后的排序压缩队列,排序压缩队列导入服务进程中,通过至少一组服务进程对排序压缩队列进行压缩处理,得到压缩存储后的数据集。
在本实施例中,数据采集终端400包括但不限于机房机柜、交换机、物理机、移动终端,通过数据采集终端400的外接接口或数据采集终端400自身运行获取待处理数据,同时,由于不同数据采集终端400的优先级是不同的,若不能及时处理优先级高的数据采集终端400获取的数据,会影响整个方法流程的数据处理效率,基于此,需要对数据采集终端400采集到的数据进行优先级排序是十分有必要的。
示例性的,数据采集终端400收集到的待压缩任务集由多个(property,value)二元组构成,采集待压缩任务集后,需要对待压缩任务集进行加密处理,加密流程为,数据采集终端400采集完成后,产生一个QEMU加密进程,产生QEMU加密进程的同时,配合产生一个XDC加密进程,数据采集终端400开启QEMU加密进程与XDC加密进程之间的N个通道,通过N个通道可以实现加密传输数据。
本发明实施例通过优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列,基于不同数据采集终端400的优先级来处理数据,解决了现有跨进程数据传输方法无法对对象数据进行优先级确定的问题,提高了数据压缩和存储的效率。
本发明实施例提供了获取待压缩任务集的方法,如图2所示,示出了获取待压缩任务集方法的实现流程示意图,所述获取待压缩任务集的方法,具体包括:
步骤S101,响应数据采集终端400跨进程指令。
步骤S102,基于Zabbix框架与不同数据采集终端400建立联系,创建不同数据采集终端400的Zabbix组织架构图。
步骤S103,实时获取数据采集终端400采集到的待处理数据,获取待处理数据后,对待处理数据预处理。
示例性的,Zabbix框架不但能够实现响应数据采集终端400设备的组网,还能基于通信协议对响应数据采集终端400进行监控和统一管理,需要说明的是,Zabbix组织架构图创建时,对应产生数据采集终端400对应的拓扑架构树,通过拓扑架构树结合随机森林算法对数据采集终端400进行权重赋值,且权重赋值是通过主成分分析法计算得到,其中,权重赋值的计算公式如下:
Zj=Lj1*X1+Lj2*X2+…+Ljp*Xp(j≤p) (1)
公式(1)中,其中,Zj为第j个主权重因素的线性组合;X1,X2,…,Xp为原始的p个数据采集终端400;Ljp为第p个数据采集终端400在主权重因素Zj中的分配系数。
公式(2)中,Fp分别表示每个数据采集终端400在拓扑架构树上的权重值,Aj表示第j种主权重因素的占比,B为常数比例因子。
本发明实施例提供了获取待处理数据后,对待处理数据预处理的方法,如图3所示,示出了获取待处理数据后,对待处理数据预处理方法的实现流程示意图,所述获取待处理数据后,对待处理数据预处理的方法,具体包括:
步骤S1031,加载待处理数据。
步骤S1032,针对任一数据采集终端400环境下数据传输端口410,获取数据传输端口410所在存储位置。
步骤S1033,基于数据传输端口410所在存储位置,将待处理数据暂存在云数据存储空间内,并建立数据传输端口410与云数据存储空间之间的索引关系。
步骤S1034,加载数据传输端口410与云数据存储空间之间的索引关系。
步骤S1035,基于数据传输端口410与云数据存储空间之间的索引关系,获取待处理数据。
步骤S1036,对待处理数据进行滤波处理,消除干扰数据,基于随机采用一致性算法,对滤波处理后的待处理数据剔除,得到剔除后的待处理数据。
示例性的,从所述待处理数据中查找到关于数据传输端口410的m个点云数据存储空间特征向量,并利用随机采用一致性算法对所述每个点云数据存储空间特征向量分别进行特征计算,从而得到待处理数据的m个云特征,构建云特征构建k-dtree结构,基于k-dtree结构对待处理数据剔除。
根据m个VFH点云特征的时相不变性,利用机器学习的方法对所述m个VFH点云特征进行特征提取和匹配,得到匹配成功的快递包裹的VFH点云特征,并删除匹配失败的VFH点云特征。
示例性的,任一数据采集终端400对应多组数据传输端口410,且数据传输端口410支持USB或COM端口,数据传输端口410型号为RS485端口,同时,数据采集终端400还带有模拟量输入口:MS-N-590,MS-N-590可存储多达20组的压缩任务集,由数据采集终端400控制压缩任务集的选择。
示例性的,数据采集终端400自带5G的GPRS功能,无需连接网线即可实现远程WEB直接访问设备,具备通过网络更改设备参数,实时查看数据变化,远程下载校准的功能。
本发明实施例提供了创建不同响应数据采集终端400的Zabbix组织架构图的方法,如图4所示,示出了创建不同响应数据采集终端400的Zabbix组织架构图方法的实现流程示意图,所述创建不同响应数据采集终端400的Zabbix组织架构图的方法,具体包括:
步骤S1021,识别数据采集终端400所位置,对数据采集终端400的位置简化处理,得到关键组织架构点。
步骤S1022,根据数据采集终端400之间的内在关联组织以及关联组织架构点构建组织架构图。
本发明实施例提供了通过预训练的优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列的方法,如图5所示,示出了通过预训练的优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列方法的实现流程示意图,所述通过预训练的优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列的方法,具体包括:
步骤S201,加载压缩队列;
步骤S202,遍历压缩队列中目标压缩任务集,识别目标压缩任务集中待处理数据;
步骤S203,获取基于重要性和相关性分析,调取数据采集终端400的Zabbix组织架构图,基于随机森林监督模型确定数据采集终端400的Zabbix组织架构图中数据采集终端400的优先级。
步骤S204,获取待处理数据,通过随机森林监督模型确定待处理数据所对应的数据采集终端400的优先级,形成排序压缩队列。
示例性的,通过随机森林监督模型分别计算所述n个目标压缩任务集中每一个影响特征为每一个特征值时所述目标压缩任务集的第一基尼系数,获取所有所述第一基尼系数,然后从所有影响特征中筛选出第一基尼系数最小的第一影响特征;
然后将所述第一影响特征作为所述随机森林监督决策树模型的根节点,并将所述第一特征值作为所述根节点的切分点,然后分别计算所述切分点对应训练数据集中每一个影响特征为每一个特征值时所述目标压缩任务集的第二基尼系数,通过第二基尼系数计算第二影响特征,以所述第二影响特征作为每个分支的分裂节点,并将所述第二特征值作为分裂节点的切分点。
判断当前的决策树模型是否满足预设的停止建树条件,若当前的决策树模型满足所述停止建树条件,将当前的决策树模型作为最优的随机森林监督模型。
另一方面,本发明实施例还提供了一种基于大数据的数据跨进程压缩存储系统,如图6所示,示出了基于大数据的数据跨进程压缩存储系统的框架示意图,所述基于大数据的数据跨进程压缩存储系统,具体包括:
终端服务器100,用于获取待压缩任务集,其中,所述待压缩任务集中包括不同数据采集终端400收集到的待处理数据,待处理数据对应至少一组服务进程;
前端处理器200,用于加载目标压缩任务集,基于目标压缩任务集创建压缩队列,逐一遍历创建的压缩队列,通过预训练的优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列;
压缩存储云平台300,用于获取优先级排序后的排序压缩队列,排序压缩队列导入服务进程中,通过至少一组服务进程对排序压缩队列进行压缩处理,得到压缩存储后的数据集。
在本实施例中,数据采集终端400包括但不限于机房机柜、交换机、物理机、移动终端,通过数据采集终端400的外接接口或数据采集终端400自身运行获取待处理数据,同时,由于不同数据采集终端400的优先级是不同的,若不能及时处理优先级高的数据采集终端400获取的数据,会影响整个方法流程的数据处理效率,基于此,需要对数据采集终端400采集到的数据进行优先级排序是十分有必要的。
示例性的,数据采集终端400收集到的待压缩任务集由多个(property,value)二元组构成,采集待压缩任务集后,需要对待压缩任务集进行加密处理,加密流程为,数据采集终端400采集完成后,产生一个QEMU加密进程,产生QEMU加密进程的同时,配合产生一个XDC加密进程,数据采集终端400开启QEMU加密进程与XDC加密进程之间的N个通道,通过N个通道可以实现加密传输数据。
本发明实施例通过优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列,基于不同数据采集终端400的优先级来处理数据,解决了现有跨进程数据传输方法无法对对象数据进行优先级确定的问题,提高了数据压缩和存储的效率。
本发明实施例提供了终端服务器100,如图7所示,示出了终端服务器100的结构示意图,所述终端服务器100,具体包括:
指令响应端110,用于响应数据采集终端400跨进程指令;
组织架构建立单元120,基于Zabbix框架与不同数据采集终端400建立联系,创建不同数据采集终端400的Zabbix组织架构图;
数据预处理单元130,实时获取数据采集终端400采集到的待处理数据,获取待处理数据后,对待处理数据预处理。
本发明实施例提供了数据预处理单元130,如图8所示,示出了数据预处理单元130的示意图,所述数据预处理单元130,具体包括:
待处理数据接收端131,用于加载待处理数据;
存储位置获取模块132,针对任一数据采集终端400环境下数据传输端口410,获取数据传输端口410所在存储位置;
索引关系创建模块133,基于数据传输端口410所在存储位置,将待处理数据暂存在云数据存储空间内,并建立数据传输端口410与云数据存储空间之间的索引关系;
待处理数据获取模块134,基于数据传输端口410与云数据存储空间之间的索引关系,获取待处理数据。
数据剔除模块135,用于对待处理数据进行滤波处理,消除干扰数据,随机采用一致性算法,对滤波处理后的待处理数据剔除,得到剔除后的待处理数据。
示例性的,待处理数据接收端131为螺旋天线,且天线的防护等级为IP67,适应于绝大多数恶劣环境,所有天线均为本安型防爆,所有天线电磁兼容性都符合欧盟EMC标准。
综上所述,本发明实施例通过优先级确定模型对压缩队列中的目标压缩任务集的优先顺序,形成排序压缩队列,基于不同数据采集终端400的优先级来处理数据,解决了现有跨进程数据传输方法无法对对象数据进行优先级确定的问题,提高了数据压缩和存储的效率。
需要说明的是,对于前述的各实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可能采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,涉及的动作和模块并不一定是本发明所必须的。
本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或通信连接可以是通过一些接口,装置或单元之间的间接耦合或通信连接,可以是电信或者其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对发明的保护范围进行限制。显然,所描述的实施例仅仅是本发明部分实施例,而不是全部实施例。基于这些实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明所要保护的范围。尽管参照上述实施例对本发明进行了详细的说明,本领域普通技术人员依然可以在不冲突的情况下,不作出创造性劳动对本发明各实施例中的特征根据情况相互组合、增删或作其他调整,从而得到不同的、本质未脱离本发明的构思的其他技术方案,这些技术方案也同样属于本发明所要保护的范围。