CN116483840B - 一种基于分布式计算的多源异构数据集成系统 - Google Patents

一种基于分布式计算的多源异构数据集成系统 Download PDF

Info

Publication number
CN116483840B
CN116483840B CN202310723007.5A CN202310723007A CN116483840B CN 116483840 B CN116483840 B CN 116483840B CN 202310723007 A CN202310723007 A CN 202310723007A CN 116483840 B CN116483840 B CN 116483840B
Authority
CN
China
Prior art keywords
value
source
data
storage
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310723007.5A
Other languages
English (en)
Other versions
CN116483840A (zh
Inventor
韩伟
易夕冬
张天松
李碧妍
肖连菊
黄展鹏
高宝军
冯康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Aofei Data Technology Co ltd
Original Assignee
Guangdong Aofei Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Aofei Data Technology Co ltd filed Critical Guangdong Aofei Data Technology Co ltd
Priority to CN202310723007.5A priority Critical patent/CN116483840B/zh
Publication of CN116483840A publication Critical patent/CN116483840A/zh
Application granted granted Critical
Publication of CN116483840B publication Critical patent/CN116483840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理领域,具体涉及一种基于分布式计算的多源异构数据集成系统,用于解决现有的多源异构数据集成系统无法合理的对多源异构数据进行储存,无法保证数据的储存稳定性与储存效率的问题;该多源异构数据集成系统按照数据源将数据源的数据进行整合,并将其进行分布式储存,使得储存的数据之间互不干扰,保证了数据的安全性,同时避免数据杂乱无章,使其易于被查找,之后将分布储存区进行补充,保证了数据储存空间的充足性,保证了数据储存的稳定性与安全性,保证了储存效率,之后将源数包进行转移,进一步保证了储存空间的充足性,且能够对更多的数据进行储存。

Description

一种基于分布式计算的多源异构数据集成系统
技术领域
本发明涉及数据处理领域,具体涉及一种基于分布式计算的多源异构数据集成系统。
背景技术
多源异构数据来自多个数据源,包括不同数据库系统和不同设备在工作中采集的数据集等。不同的数据源所在的操作系统、管理系统不同,数据的存储模式和逻辑结构不同,数据的产生时间、使用场所、代码协议等也不同,这造成了数据“多源”的特征,不同类型的数据在形成过程中没有统一的标准,因此造成了数据“异构”的特征。
申请号为CN201910193469.4的专利公开了一种多源异构数据集成系统及方法。所述系统包括:数据源管理服务器、数据交换服务器、数据流建模服务器、数据流执行管理服务器和数据加密服务器;所述数据加密服务器,对所有涉及到传输的数据进行加密;所述数据源管理服务器,提供与外部异构数据源的接口,实现数据源的注册,提供数据源的地址、局部模式、数据源连接属性,并接收外部异构数据源输出的待集成数据,并将这些数据传送到数据交换服务器;解决当前信息集成系统需要对数据集成功能进行重复开发,以及现有数据集成系统不能满足信息系统需求,以及不灵活、可扩展性差的问题,推动数据集成的应用和发展,但仍然存在以下不足之处:无法合理的对多源异构数据进行储存,无法保证数据的储存稳定性与储存效率。
发明内容
为了克服上述的技术问题,本发明的目的在于提供一种基于分布式计算的多源异构数据集成系统:通过数源管理模块将所相连接的数据源依次标记为源对象,通过分布储存模块将储存空间分成储存区和补存区,并将储存区按照源数值的数值划分成相同数量的分布储存区,并将源数包转移至分布储存区中储存,通过参数获取模块获取分布储存区的占用值,并根据占用值获得均斜值,将所有的分布储存区的均斜值进行相比,获得分配比,通过分布储存模块按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,通过数据转移模块获取补充分布区中源数包的数据转移参数,通过数据集成平台根据数据转移参数获得数移系数,并根据数移系数获得转移对象,通过备用储存模块将分布储存模块中的转移对象转移至备用储存模块中进行储存,解决了现有的多源异构数据集成系统无法合理的对多源异构数据进行储存,无法保证数据的储存稳定性与储存效率的问题。
本发明的目的可以通过以下技术方案实现:
一种基于分布式计算的多源异构数据集成系统,包括:
数源管理模块,用于将所相连接的数据源依次标记为源对象i,并将来自于源对象i的数据形成源数包Yi,并将源数包Yi发送至数据集成平台;
数据集成平台,用于接收到源数包Yi后生成数据储存指令,并将数据储存指令发送至参数获取模块;还用于根据数据转移参数获得数移系数SY,并根据数移系数SY获得转移对象,并将转移对象发送至备用储存模块;
参数获取模块,用于接收到数据储存指令后获取源数值YS,并将源数值YS发送至分布储存模块;还用于接收到参数获取指令后获取分布储存区的占用值ZY,并根据占用值ZY获得均斜值JX,将所有的分布储存区的均斜值JX进行相比,获得分配比,将分配比发送至分布储存模块;
分布储存模块,用于将储存空间分成储存区和补存区,并将储存区按照源数值YS的数值划分成相同数量的分布储存区,并将源数包Yi转移至分布储存区中储存;还用于获取源数包Yi的占存比ZC,并根据占存比ZC生成参数获取指令,并将参数获取指令发送至参数获取模块;还用于按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,同时生成数据转移指令,并将数据转移指令发送至数据转移模块;
数据转移模块,用于接收到数据转移指令后获取补充分布区中源数包Yi的数据转移参数,并将数据转移参数发送至数据集成平台;其中,数据转移参数包括储时值CS、查看值CK以及查次值CC;
备用储存模块,用于接收到转移对象后将分布储存模块中的转移对象转移至备用储存模块中进行储存。
作为本发明进一步的方案:所述参数获取模块获得分配比的具体过程如下所示:
接收到参数获取指令后获取分布储存区中的源数包Yi的占用空间,并将其标记为源占值YZ,获取分布储存区中源数包Yi的总数量,并将其标记为包数值BS,将源占值YZ、包数值BS代入公式中得到占用值ZY,其中,z1、z2分别为源占值YZ、包数值BS的预设比例系数,且z1+z2=1,0<z1<z2<1,取z1=0.46,z2=0.54;
以占用值ZY为因变量,获取时间为自变量形成坐标,其中,获取时间为整数天,获取相邻坐标之间的连线的斜率,并将其标记为连斜值LX,获取所有连斜值LX的平均值,并将其标记为均斜值JX;
将所有的分布储存区的均斜值JX进行相比,获得分配比;
将分配比发送至分布储存模块。
作为本发明进一步的方案:所述数据转移模块获得数据转移参数的具体过程如下所示:
接收到数据转移指令后获取补充分布区中源数包Yi的储存时间和当前时间的时间差,并将其标记为储时值CS;
获取源数包Yi最近一次的查看时间和当前时间的时间差,并将其标记为查看值CK;
获取源数包Yi被查看的总次数,并将其标记为查次值CC;
将储时值CS、查看值CK以及查次值CC发送至数据集成平台。
作为本发明进一步的方案:所述数据集成平台获得数移系数SY的具体过程如下所示:
接收到储时值CS、查看值CK以及查次值CC后将三者代入公式得到数移系数SY,其中,π为数学常数,s1、s2、s3分别为储时值CS、查看值CK以及查次值CC的预设权重系数,且s3>s2>s1>1.75,取s1=1.89,s2=2.38,s3=2.67;
将数移系数SY与预设的数移阈值SYy进行比较:若数移系数SY>数移阈值SYy,则将数移系数SY所对应的源数包Yi标记为转移对象,并将转移对象发送至备用储存模块。
作为本发明进一步的方案:所述基于分布式计算的多源异构数据集成系统的工作方法包括以下步骤:
步骤S1:数源管理模块将所相连接的数据源依次标记为源对象i,i=1、……、n,n为自然数;
步骤S2:数源管理模块将来自于同一个源对象i的数据按照日期形成一个数据包,并将数据包标记为源数包Yi,并将源数包Yi发送至数据集成平台;
步骤S3:数据集成平台接收到源数包Yi后生成数据储存指令,并将数据储存指令发送至参数获取模块;
步骤S4:参数获取模块接收到数据储存指令后获取源对象i的个数,并将其标记为源数值YS,并将源数值YS发送至分布储存模块;
步骤S5:分布储存模块接收到源数值YS后按照预设分配比例将储存空间分成储存区和补存区,并将储存区按照源数值YS的数值划分成相同数量的分布储存区,且每个分布储存区的储存空间相同;
步骤S6:分布储存模块将数据集成平台中的每个源数包Yi分别对应转移至一个分布储存区中储存;
步骤S7:分布储存模块获取源数包Yi的占用空间与分布储存区的储存容量之间的比值,并将其标记为占存比ZC,将所有的占存比ZC按照从大到小的顺序进行排序,将位于首位的占存比ZC标记为峰存比FC,将峰存比FC与预设的峰存阈值FCy进行比较:若峰存比FC>峰存阈值FCy,则生成参数获取指令,并将参数获取指令发送至参数获取模块;
步骤S8:参数获取模块接收到参数获取指令后获取分布储存区中的源数包Yi的占用空间,并将其标记为源占值YZ,获取分布储存区中源数包Yi的总数量,并将其标记为包数值BS,将源占值YZ、包数值BS代入公式中得到占用值ZY,其中,z1、z2分别为源占值YZ、包数值BS的预设比例系数,且z1+z2=1,0<z1<z2<1,取z1=0.46,z2=0.54;
步骤S9:参数获取模块以占用值ZY为因变量,获取时间为自变量形成坐标,其中,获取时间为整数天,获取相邻坐标之间的连线的斜率,并将其标记为连斜值LX,获取所有连斜值LX的平均值,并将其标记为均斜值JX;
步骤S10:参数获取模块将所有的分布储存区的均斜值JX进行相比,获得分配比;
步骤S11:参数获取模块将分配比发送至分布储存模块;
步骤S12:分布储存模块按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,同时生成数据转移指令,并将数据转移指令发送至数据转移模块;
步骤S13:数据转移模块接收到数据转移指令后获取补充分布区中源数包Yi的储存时间和当前时间的时间差,并将其标记为储时值CS;
步骤S14:数据转移模块获取源数包Yi最近一次的查看时间和当前时间的时间差,并将其标记为查看值CK;
步骤S15:数据转移模块获取源数包Yi被查看的总次数,并将其标记为查次值CC;
步骤S16:数据转移模块将储时值CS、查看值CK以及查次值CC发送至数据集成平台;
步骤S17:数据集成平台接收到储时值CS、查看值CK以及查次值CC后将三者代入公式得到数移系数SY,其中,π为数学常数,s1、s2、s3分别为储时值CS、查看值CK以及查次值CC的预设权重系数,且s3>s2>s1>1.75,取s1=1.89,s2=2.38,s3=2.67;
步骤S18:数据集成平台将数移系数SY与预设的数移阈值SYy进行比较:若数移系数SY>数移阈值SYy,则将数移系数SY所对应的源数包Yi标记为转移对象,并将转移对象发送至备用储存模块;
步骤S19:备用储存模块接收到转移对象后将分布储存模块中的转移对象转移至备用储存模块中进行储存。
本发明的有益效果:
本发明的一种基于分布式计算的多源异构数据集成系统,通过数源管理模块将所相连接的数据源依次标记为源对象,通过分布储存模块将储存空间分成储存区和补存区,并将储存区按照源数值的数值划分成相同数量的分布储存区,并将源数包转移至分布储存区中储存,通过参数获取模块获取分布储存区的占用值,并根据占用值获得均斜值,将所有的分布储存区的均斜值进行相比,获得分配比,通过分布储存模块按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,通过数据转移模块获取补充分布区中源数包的数据转移参数,通过数据集成平台根据数据转移参数获得数移系数,并根据数移系数获得转移对象,通过备用储存模块将分布储存模块中的转移对象转移至备用储存模块中进行储存;该多源异构数据集成系统按照数据源将数据源的数据进行整合,并将其进行分布式储存,使得储存的数据之间互不干扰,保证了数据的安全性,同时避免数据杂乱无章,使其易于被查找,之后对源数包进行分析,进而得到分配比,分配比用于衡量分布储存区所需要分配空间的大小比例,还用于衡量源数包储存量的多少,且分配比越大表示所需分配空间的越大,之后对其利用子补存区将分布储存区进行补充,保证了数据储存空间的充足性,保证了数据储存的稳定性与安全性,保证了储存效率,之后对源数包进行分析,得到数据转移参数,并根据数据转移参数获得数移系数,数移系数衡量数据需要被转移的程度,且数移系数越大表示需要被转移的程度越大,之后将源数包进行转移,进一步保证了储存空间的充足性,且能够对更多的数据进行储存;该多源异构数据集成系统采用分布式储存的方式,实现了多源异构数据的高效集成,提高了数据集成的效率和准确性,而且实时对储存的数据进行分析并转移,保证了数据的储存稳定性与储存效率。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明中一种基于分布式计算的多源异构数据集成系统的原理框图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:请参阅图1所示,本实施例为一种基于分布式计算的多源异构数据集成系统,包括以下模块:数源管理模块、数据集成平台、参数获取模块、分布储存模块、数据转移模块以及备用储存模块;
其中,所述数源管理模块用于将所相连接的数据源依次标记为源对象i,并将来自于源对象i的数据形成源数包Yi,并将源数包Yi发送至数据集成平台;
其中,所述数据集成平台用于接收到源数包Yi后生成数据储存指令,并将数据储存指令发送至参数获取模块;还用于根据数据转移参数获得数移系数SY,并根据数移系数SY获得转移对象,并将转移对象发送至备用储存模块;
其中,所述参数获取模块用于接收到数据储存指令后获取源数值YS,并将源数值YS发送至分布储存模块;还用于接收到参数获取指令后获取分布储存区的占用值ZY,并根据占用值ZY获得均斜值JX,将所有的分布储存区的均斜值JX进行相比,获得分配比,将分配比发送至分布储存模块;
其中,所述分布储存模块用于将储存空间分成储存区和补存区,并将储存区按照源数值YS的数值划分成相同数量的分布储存区,并将源数包Yi转移至分布储存区中储存;还用于获取源数包Yi的占存比ZC,并根据占存比ZC生成参数获取指令,并将参数获取指令发送至参数获取模块;还用于按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,同时生成数据转移指令,并将数据转移指令发送至数据转移模块;
其中,所述数据转移模块用于接收到数据转移指令后获取补充分布区中源数包Yi的数据转移参数,并将数据转移参数发送至数据集成平台;其中,数据转移参数包括储时值CS、查看值CK以及查次值CC;
其中,所述备用储存模块用于接收到转移对象后将分布储存模块中的转移对象转移至备用储存模块中进行储存。
实施例2:请参阅图1所示,本实施例为一种所述基于分布式计算的多源异构数据集成系统的工作方法,包括以下步骤:
步骤S1:数源管理模块将所相连接的数据源依次标记为源对象i,i=1、……、n,n为自然数;
步骤S2:数源管理模块将来自于同一个源对象i的数据按照日期形成一个数据包,并将数据包标记为源数包Yi,并将源数包Yi发送至数据集成平台;
步骤S3:数据集成平台接收到源数包Yi后生成数据储存指令,并将数据储存指令发送至参数获取模块;
步骤S4:参数获取模块接收到数据储存指令后获取源对象i的个数,并将其标记为源数值YS,并将源数值YS发送至分布储存模块;
步骤S5:分布储存模块接收到源数值YS后按照预设分配比例将储存空间分成储存区和补存区,并将储存区按照源数值YS的数值划分成相同数量的分布储存区,且每个分布储存区的储存空间相同;
步骤S6:分布储存模块将数据集成平台中的每个源数包Yi分别对应转移至一个分布储存区中储存;
步骤S7:分布储存模块获取源数包Yi的占用空间与分布储存区的储存容量之间的比值,并将其标记为占存比ZC,将所有的占存比ZC按照从大到小的顺序进行排序,将位于首位的占存比ZC标记为峰存比FC,将峰存比FC与预设的峰存阈值FCy进行比较:若峰存比FC>峰存阈值FCy,则生成参数获取指令,并将参数获取指令发送至参数获取模块;
步骤S8:参数获取模块接收到参数获取指令后获取分布储存区中的源数包Yi的占用空间,并将其标记为源占值YZ,获取分布储存区中源数包Yi的总数量,并将其标记为包数值BS,将源占值YZ、包数值BS代入公式中得到占用值ZY,其中,z1、z2分别为源占值YZ、包数值BS的预设比例系数,且z1+z2=1,0<z1<z2<1,取z1=0.46,z2=0.54;
步骤S9:参数获取模块以占用值ZY为因变量,获取时间为自变量形成坐标,其中,获取时间为整数天,获取相邻坐标之间的连线的斜率,并将其标记为连斜值LX,获取所有连斜值LX的平均值,并将其标记为均斜值JX;
步骤S10:参数获取模块将所有的分布储存区的均斜值JX进行相比,获得分配比;
步骤S11:参数获取模块将分配比发送至分布储存模块;
步骤S12:分布储存模块按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,同时生成数据转移指令,并将数据转移指令发送至数据转移模块;
步骤S13:数据转移模块接收到数据转移指令后获取补充分布区中源数包Yi的储存时间和当前时间的时间差,并将其标记为储时值CS;
步骤S14:数据转移模块获取源数包Yi最近一次的查看时间和当前时间的时间差,并将其标记为查看值CK;
步骤S15:数据转移模块获取源数包Yi被查看的总次数,并将其标记为查次值CC;
步骤S16:数据转移模块将储时值CS、查看值CK以及查次值CC发送至数据集成平台;
步骤S17:数据集成平台接收到储时值CS、查看值CK以及查次值CC后将三者代入公式得到数移系数SY,其中,π为数学常数,s1、s2、s3分别为储时值CS、查看值CK以及查次值CC的预设权重系数,且s3>s2>s1>1.75,取s1=1.89,s2=2.38,s3=2.67;
步骤S18:数据集成平台将数移系数SY与预设的数移阈值SYy进行比较:若数移系数SY>数移阈值SYy,则将数移系数SY所对应的源数包Yi标记为转移对象,并将转移对象发送至备用储存模块;
步骤S19:备用储存模块接收到转移对象后将分布储存模块中的转移对象转移至备用储存模块中进行储存。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上内容仅仅是对本发明所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (5)

1.一种基于分布式计算的多源异构数据集成系统,其特征在于,包括:
数源管理模块,用于将所相连接的数据源依次标记为源对象,并将来自于源对象的数据形成源数包,并将源数包发送至数据集成平台;
数据集成平台,用于接收到源数包后生成数据储存指令,并将数据储存指令发送至参数获取模块;还用于根据数据转移参数获得数移系数,并根据数移系数获得转移对象,并将转移对象发送至备用储存模块;
参数获取模块,用于接收到数据储存指令后获取源数值,并将源数值发送至分布储存模块;还用于接收到参数获取指令后获取分布储存区的占用值,并根据占用值获得均斜值,将所有的分布储存区的均斜值进行相比,获得分配比,将分配比发送至分布储存模块;
分布储存模块,用于将储存空间分成储存区和补存区,并将储存区按照源数值的数值划分成相同数量的分布储存区,并将源数包转移至分布储存区中储存;还用于获取源数包的占存比,并根据占存比生成参数获取指令,并将参数获取指令发送至参数获取模块;还用于按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,同时生成数据转移指令,并将数据转移指令发送至数据转移模块;
数据转移模块,用于接收到数据转移指令后获取补充分布区中源数包的数据转移参数,并将数据转移参数发送至数据集成平台;其中,数据转移参数包括储时值、查看值以及查次值;
备用储存模块,用于接收到转移对象后将分布储存模块中的转移对象转移至备用储存模块中进行储存。
2.根据权利要求1所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述参数获取模块获得分配比的具体过程如下所示:
接收到参数获取指令后获取分布储存区中的源数包的占用空间,并将其标记为源占值,获取分布储存区中源数包的总数量,并将其标记为包数值,将源占值、包数值经过分析得到占用值;
以占用值为因变量,获取时间为自变量形成坐标,其中,获取时间为整数天,获取相邻坐标之间的连线的斜率,并将其标记为连斜值,获取所有连斜值的平均值,并将其标记为均斜值;
将所有的分布储存区的均斜值进行相比,获得分配比;
将分配比发送至分布储存模块。
3.根据权利要求1所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据转移模块获得数据转移参数的具体过程如下所示:
接收到数据转移指令后获取补充分布区中源数包的储存时间和当前时间的时间差,并将其标记为储时值;
获取源数包最近一次的查看时间和当前时间的时间差,并将其标记为查看值;
获取源数包被查看的总次数,并将其标记为查次值;
将储时值、查看值以及查次值发送至数据集成平台。
4.根据权利要求1所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据集成平台获得数移系数的具体过程如下所示:
接收到储时值、查看值以及查次值后将三者经过分析得到数移系数;
将数移系数与预设的数移阈值进行比较:若数移系数>数移阈值,则将数移系数所对应的源数包标记为转移对象,并将转移对象发送至备用储存模块。
5.根据权利要求1所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述基于分布式计算的多源异构数据集成系统的工作方法包括以下步骤:
步骤S1:数源管理模块将所相连接的数据源依次标记为源对象;
步骤S2:数源管理模块将来自于同一个源对象的数据按照日期形成一个数据包,并将数据包标记为源数包,并将源数包发送至数据集成平台;
步骤S3:数据集成平台接收到源数包后生成数据储存指令,并将数据储存指令发送至参数获取模块;
步骤S4:参数获取模块接收到数据储存指令后获取源对象的个数,并将其标记为源数值,并将源数值发送至分布储存模块;
步骤S5:分布储存模块接收到源数值后按照预设分配比例将储存空间分成储存区和补存区,并将储存区按照源数值的数值划分成相同数量的分布储存区,且每个分布储存区的储存空间相同;
步骤S6:分布储存模块将数据集成平台中的每个源数包分别对应转移至一个分布储存区中储存;
步骤S7:分布储存模块获取源数包的占用空间与分布储存区的储存容量之间的比值,并将其标记为占存比,将所有的占存比按照从大到小的顺序进行排序,将位于首位的占存比标记为峰存比,将峰存比与预设的峰存阈值进行比较:若峰存比>峰存阈值,则生成参数获取指令,并将参数获取指令发送至参数获取模块;
步骤S8:参数获取模块接收到参数获取指令后获取分布储存区中的源数包的占用空间,并将其标记为源占值,获取分布储存区中源数包的总数量,并将其标记为包数值,将源占值、包数值经过分析得到占用值;
步骤S9:参数获取模块以占用值为因变量,获取时间为自变量形成坐标,其中,获取时间为整数天,获取相邻坐标之间的连线的斜率,并将其标记为连斜值,获取所有连斜值的平均值,并将其标记为均斜值;
步骤S10:参数获取模块将所有的分布储存区的均斜值进行相比,获得分配比;
步骤S11:参数获取模块将分配比发送至分布储存模块;
步骤S12:分布储存模块按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,同时生成数据转移指令,并将数据转移指令发送至数据转移模块;
步骤S13:数据转移模块接收到数据转移指令后获取补充分布区中源数包的储存时间和当前时间的时间差,并将其标记为储时值;
步骤S14:数据转移模块获取源数包最近一次的查看时间和当前时间的时间差,并将其标记为查看值;
步骤S15:数据转移模块获取源数包被查看的总次数,并将其标记为查次值;
步骤S16:数据转移模块将储时值、查看值以及查次值发送至数据集成平台;
步骤S17:数据集成平台接收到储时值、查看值以及查次值后将三者经过分析得到数移系数;
步骤S18:数据集成平台将数移系数与预设的数移阈值进行比较:若数移系数>数移阈值,则将数移系数所对应的源数包标记为转移对象,并将转移对象发送至备用储存模块;
步骤S19:备用储存模块接收到转移对象后将分布储存模块中的转移对象转移至备用储存模块中进行储存。
CN202310723007.5A 2023-06-19 2023-06-19 一种基于分布式计算的多源异构数据集成系统 Active CN116483840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310723007.5A CN116483840B (zh) 2023-06-19 2023-06-19 一种基于分布式计算的多源异构数据集成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310723007.5A CN116483840B (zh) 2023-06-19 2023-06-19 一种基于分布式计算的多源异构数据集成系统

Publications (2)

Publication Number Publication Date
CN116483840A CN116483840A (zh) 2023-07-25
CN116483840B true CN116483840B (zh) 2023-11-07

Family

ID=87221737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310723007.5A Active CN116483840B (zh) 2023-06-19 2023-06-19 一种基于分布式计算的多源异构数据集成系统

Country Status (1)

Country Link
CN (1) CN116483840B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101083656A (zh) * 2007-07-05 2007-12-05 上海交通大学 基于数据流技术的多源异构数据集成系统
WO2015015251A1 (en) * 2013-08-01 2015-02-05 Yogesh Chunilal Rathod Presenting plurality types of interfaces and functions for conducting various activities
WO2017170459A1 (ja) * 2016-03-31 2017-10-05 スマートインサイト株式会社 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
CN112130999A (zh) * 2020-09-23 2020-12-25 南方电网科学研究院有限责任公司 一种基于边缘计算的电力异构数据处理方法
CN113222109A (zh) * 2021-03-30 2021-08-06 新睿信智能物联研究院(南京)有限公司 一种基于多源异构数据聚合技术的物联网边缘算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101083656A (zh) * 2007-07-05 2007-12-05 上海交通大学 基于数据流技术的多源异构数据集成系统
WO2015015251A1 (en) * 2013-08-01 2015-02-05 Yogesh Chunilal Rathod Presenting plurality types of interfaces and functions for conducting various activities
WO2017170459A1 (ja) * 2016-03-31 2017-10-05 スマートインサイト株式会社 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
CN112130999A (zh) * 2020-09-23 2020-12-25 南方电网科学研究院有限责任公司 一种基于边缘计算的电力异构数据处理方法
CN113222109A (zh) * 2021-03-30 2021-08-06 新睿信智能物联研究院(南京)有限公司 一种基于多源异构数据聚合技术的物联网边缘算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于WebService的林业分布式多源异构数据集成技术研究;谢绍锋;;中南林业调查规划(04);全文 *

Also Published As

Publication number Publication date
CN116483840A (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN102750406B (zh) 一种基于模型集和差异模型的电网模型多版本管理方法
CN103294652B (zh) 一种数据转换方法及系统
CN111552838B (zh) 数据处理方法及装置、计算机设备、存储介质
US20230362251A1 (en) Method and apparatus for managing iot device, and server and storage medium thereof
CN104468711A (zh) 物联网通用的数据管理编码方法及系统
CN105677763A (zh) 一种基于Hadoop的图像质量评估系统
CN110134430A (zh) 一种数据打包方法、装置、存储介质和服务器
CN113094355A (zh) 基于国产化通信协议的模型实例化方法、装置、设备及介质
CN116483840B (zh) 一种基于分布式计算的多源异构数据集成系统
CN111177243B (zh) 数据的导出方法及装置、存储介质和电子装置
CN112328667B (zh) 一种基于数据血缘的页岩气田地面工程数字化移交方法
CN107844378A (zh) 一种分布异构数据资源集成和管理系统
CN112163948A (zh) 一种分润计算方法、系统、设备及存储介质
CN108418746A (zh) 一种邮件同步方法、装置与计算机可读存储介质
CN114691233A (zh) 一种基于工作流引擎的遥感数据处理插件分布式调度方法
CN102571609A (zh) 快速串行接口pci-e协议数据完成包的重组排序方法
CN109918414A (zh) 基于建筑工程量清单的数据处理方法、装置、存储介质和计算机设备
US20160147857A1 (en) Method and system for synchronizing data
CN107592297A (zh) 一种移动侦测的方法、系统及终端设备
CN113849692A (zh) 一种数据交换方法及系统、电子设备、存储介质
CN114048352A (zh) Xml文件转换不定长结构体的方法
CN113204592A (zh) 物联网场景下的数据处理方法、系统、装置及存储介质
KR20170016666A (ko) Hla-dds 간 데이터 변환 방법 및 장치
CN116610268B (zh) 一种提高存取速度的数据处理方法及系统
CN115208949B (zh) 一种遥感影像数据管理分发方法、装置、系统和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant