CN111291059A - 基于内存数据网格的数据处理方法 - Google Patents

基于内存数据网格的数据处理方法 Download PDF

Info

Publication number
CN111291059A
CN111291059A CN202010394711.7A CN202010394711A CN111291059A CN 111291059 A CN111291059 A CN 111291059A CN 202010394711 A CN202010394711 A CN 202010394711A CN 111291059 A CN111291059 A CN 111291059A
Authority
CN
China
Prior art keywords
data
processed
memory
type
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010394711.7A
Other languages
English (en)
Inventor
李蕾
于洋
张春林
李利军
李春青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tongtech Co Ltd
Original Assignee
Beijing Tongtech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tongtech Co Ltd filed Critical Beijing Tongtech Co Ltd
Priority to CN202010394711.7A priority Critical patent/CN111291059A/zh
Publication of CN111291059A publication Critical patent/CN111291059A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0253Garbage collection, i.e. reclamation of unreferenced memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5022Mechanisms to release resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于内存数据网格的数据处理方法,涉及计算机技术领域;为了解决因数据量巨大导致数据处理负载压力过大问题;具体包括如下步骤:确定待处理数据的数据量;将数据库中待处理数据加载至内存数据网格中;建立待处理的数据分组模型,对内存数据结构进行配置,将内存数据网格中的待处理数据划分为若干个数据队列;针对不同类型数据的字符串长度选择对应的数据分组模型;采用列式存储管理方法针对不同的数据类型进行内存管理。本发明可以得到时间稳定度最小时所对应的待处理数据的划分队列的结果,从而对待处理数据实现智能划分,且划分后时间稳定度最小,从而使得数据处理时间短,且每个数据处理节点都比较稳定。

Description

基于内存数据网格的数据处理方法
技术领域
本发明涉及计算机技术领域,尤其涉及基于内存数据网格的数据处理方法。
背景技术
内存数据网格IMDG是一种面向广域网上内存资源共享的新型网格系统,它的主要目标是在物理内存不足的情况下,提高内存密集型应用或IO密集型应用的系统性能,内存数据网格被视为处理迅速、多样和大数据量的大数据的一种方式,将数据存储到内存中,并使其分布到多个服务器上,该方法的目的是更容易获取数据、改进其可扩展性和更好地进行数据分析。
经检索,中国专利申请号为CN201910203571.8的专利,公开了一种用于内存数据库的数据处理方法及系统,包括基于哈希Hash索引技术将数据中的关键词直接映射为存储地址;根据事务所指示的数据操作请求创建新的版本行,并用时间戳标记事务和行版本实现无锁事务;根据预设的隔离级别对所述事务进行安全性验证。上述专利中的用于内存数据库的数据处理方法及系统存在以下不足:对较大数据量的数据进行处理时,有可能因数据量巨大导致数据处理负载压力过大,影响正常的数据处理。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的基于内存数据网格的数据处理方法。
为了实现上述目的,本发明采用了如下技术方案:
基于内存数据网格的数据处理方法,包括如下步骤:
S1:确定待处理数据的数据量;
S2:将数据库中待处理数据加载至内存数据网格中;
S3:建立待处理的数据分组模型,对内存数据结构进行配置,将内存数据网格中的待处理数据划分为若干个数据队列;
S4:针对不同类型数据的字符串长度选择对应的数据分组模型;
S5:采用列式存储管理方法针对不同的数据类型进行内存管理;
S6:将数据队列向内存数据网格中不同的数据处理节点传输,以使不同的数据处理节点对数据队列进行数据处理,得到处理结果,并将处理结果向内存数据网格传输;
S7:将内存数据网格中不同的数据处理节点传输的处理结果进行整合,获取数据队列处理结果。
优选地:所述S2中将数据库中待处理的数据加载至内存数据网格中,待处理的数据在数据处理之前一次性地全部加载至内存数据网格中。
优选地:所述S3中具体包括如下步骤:
S11:建立数据分组模型;
S12:获取的待处理数据的存储信息、存储类型和加密类型;
S13:根据S12步骤获取待处理数据的关联度信息。
优选地:所述待处理数据的存储信息包括待处理数据所占存储空间的大小、待处理数据的存储时间以及待处理数据的存储路径中的一种或多种。
优选地:所述待处理数据的存储类型包括字符型、数值型、文本类型以及视频类型中的一种或多种。
优选地:所述待处理数据的加密类型包括非对称加密算法、数字签名算法以及md5加密算法中的一种或多种。
优选地:所述S7之后还包括如下步骤:
S21:在内存数据网格中创建若干个数据存储区;
S22:获取处理结果的属性信息;
S23:根据处理结果的属性信息,将处理结果传输到内存数据网格中处理结果的属性信息对应的数据存储区内;
S24:对若干个数据存储区中的处理结果分别进行备份处理。
优选地:所述S3中将内存数据网格中的待处理数据划分为若干个数据队列,包括如下步骤:
S31:获取所有待处理数据,并计算待处理数据中的每个数据的标准处理时间;
S32:根据内存数据网格中的数据处理节点数量,将待处理数据随机划分成对应数量的数据队列,并将待处理数据中的每个数据的对应的队列的编号形成编号向量;
S33:重复K次S32步骤,直至形成K个编号向量;
S34:计算编号向量中的每个数据处理节点的数据处理时间
Figure 243648DEST_PATH_IMAGE001
S35:计算每个编号向量的时间稳定度
Figure 331690DEST_PATH_IMAGE002
其中,
Figure 441466DEST_PATH_IMAGE003
为第个编号向量中第i个数据处理节点的数据处理时间,
Figure 640366DEST_PATH_IMAGE004
为第j个数据 处理节点的运算性能,
Figure 512507DEST_PATH_IMAGE005
为t的取值为
Figure 771450DEST_PATH_IMAGE006
Figure 525780DEST_PATH_IMAGE006
为第j个数据处理节点余留的需要处理的数 据的集合,
Figure 856267DEST_PATH_IMAGE007
为第t条数据的标准处理时间,
Figure 379652DEST_PATH_IMAGE008
为k的取值为
Figure 809496DEST_PATH_IMAGE009
Figure 254384DEST_PATH_IMAGE009
为第i个编号向 量中队列的编号为j时所对应的待处理数据的集合,
Figure 795087DEST_PATH_IMAGE010
为第k条数据的标准处理时间,
Figure 438558DEST_PATH_IMAGE011
为第j个数据处理节点的转接时间,
Figure 117932DEST_PATH_IMAGE012
为集合含有的
Figure 846854DEST_PATH_IMAGE013
数据的数量,
Figure 394510DEST_PATH_IMAGE014
为集合含有的
Figure 892487DEST_PATH_IMAGE015
数据的数量;
其中,
Figure 398555DEST_PATH_IMAGE016
为第i个编号向量的时间稳定度,N为数据处理节点的数量。
优选地:所述S4中还包括如下步骤:
S41:若数据类型的长度小于预设字节时,选取内联类型列,采用内联存储管理方法对内存进行管理;
S42:若数据类型的长度大于预设字节时,选取字符串类型列,采用动态内存配置策略对内存进行管理;
S43:当数据类型的长度小于预设字节且为布尔型或自定义数据类型或float或double时,选取原生类型列。
优选地:所述动态内存配置策略包括对内存块位置进行定址分配;进行求和函数计算;对内存进行回收释放;利用选择位向量函数查询有效分配内存。
优选地,所述S13具体包括如下步骤:
S131、将所有待处理数据记为
Figure 208248DEST_PATH_IMAGE017
Figure 90753DEST_PATH_IMAGE017
可表示为:
Figure 443237DEST_PATH_IMAGE018
其中,
Figure 854627DEST_PATH_IMAGE019
为第
Figure 292561DEST_PATH_IMAGE020
个待处理数据的数据信息,
Figure 713178DEST_PATH_IMAGE020
的取值为从
Figure 28491DEST_PATH_IMAGE021
Figure 876361DEST_PATH_IMAGE022
Figure 270433DEST_PATH_IMAGE022
为待处理数据的数 目,
Figure 494741DEST_PATH_IMAGE023
又可进一步表示为:
Figure 821818DEST_PATH_IMAGE024
其中,
Figure 699644DEST_PATH_IMAGE025
为第
Figure 112171DEST_PATH_IMAGE026
个待处理数据的存储信息,
Figure 874590DEST_PATH_IMAGE027
为第
Figure 525014DEST_PATH_IMAGE026
个待处理数据的存储类型,
Figure 980266DEST_PATH_IMAGE028
为 第
Figure 880089DEST_PATH_IMAGE026
个待处理数据的加密类型;
S132、计算待处理数据的关联度;
Figure 790408DEST_PATH_IMAGE029
其中,
Figure 826497DEST_PATH_IMAGE030
为第
Figure 921492DEST_PATH_IMAGE031
个待处理数据与第
Figure 308611DEST_PATH_IMAGE032
个待处理数据之间的关联度,
Figure 412833DEST_PATH_IMAGE033
Figure 162483DEST_PATH_IMAGE034
Figure 959538DEST_PATH_IMAGE035
关联函数,
Figure 568374DEST_PATH_IMAGE036
为待处理数据的存储信息对关联性的比重系数,
Figure 210708DEST_PATH_IMAGE037
为待处理数据的存储类 型对关联性的比重系数,
Figure 221389DEST_PATH_IMAGE038
为待处理数据的加密类型对关联性的比重系数,
Figure 32088DEST_PATH_IMAGE039
为第
Figure 128220DEST_PATH_IMAGE040
个待 处理数据的加密类型,
Figure 574245DEST_PATH_IMAGE041
为第
Figure 173853DEST_PATH_IMAGE042
个待处理数据的加密类型,
Figure 312711DEST_PATH_IMAGE043
为第
Figure 896139DEST_PATH_IMAGE040
个待处理 数据的存储类型与第
Figure 739330DEST_PATH_IMAGE042
个待处理数据的存储类型的相似函数,
Figure 724603DEST_PATH_IMAGE044
为第
Figure 34362DEST_PATH_IMAGE040
个待处理数据的存 储信息中第
Figure 573928DEST_PATH_IMAGE045
个信息值,
Figure 971542DEST_PATH_IMAGE046
为第
Figure 811322DEST_PATH_IMAGE047
个待处理数据的存储信息中第
Figure 291982DEST_PATH_IMAGE045
个信息值;
S133、确定待处理数据的关联度信息;
Figure 53265DEST_PATH_IMAGE048
其中,
Figure 910362DEST_PATH_IMAGE049
为待处理数据的关联信息矩阵,
Figure 198124DEST_PATH_IMAGE050
为第
Figure 849685DEST_PATH_IMAGE051
个待处理数据与第
Figure 895002DEST_PATH_IMAGE052
个待处理数据 之间的关联度,
Figure 759053DEST_PATH_IMAGE051
Figure 307846DEST_PATH_IMAGE052
的取值均为从
Figure 395887DEST_PATH_IMAGE053
Figure 517382DEST_PATH_IMAGE054
Figure 450703DEST_PATH_IMAGE054
为待处理数据的数目。
本发明的有益效果为:采用列式存储区管理类方式,便于按列重组和序列化反序列化操作;采用动态内存申请释放策略能够提高内存利用率,优化数据的查找更新速度,通过对待处理数据的存储信息、存储类型、加密类型,实现了对待处理数据的关联度信息的获取;通过数据分组模型根据待处理数据的关联度信息,实现了将待处理数据划分到相应的数据队列,实现了对待处理数据的存储信息的获取,通过对内存网格中不同的数据处理节点传输的处理结果进行整合,实现了对数据队列处理结果的获取;可以得到时间稳定度最小时所对应的待处理数据的划分队列的结果,从而对待处理数据实现智能划分,且划分后时间稳定度最小,从而使得数据处理时间短,且每个数据处理节点都比较稳定,即每个数据处理节点的数据处理时间都接近。
附图说明
图1为本发明提出的基于内存数据网格的数据处理方法的流程结构示意图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
下面详细描述本专利的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利,而不能理解为对本专利的限制。
在本专利的描述中,需要理解的是,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利的限制。
在本专利的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“设置”应做广义理解,例如,可以是固定相连、设置,也可以是可拆卸连接、设置,或一体地连接、设置。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利中的具体含义。
实施例1:
基于内存数据网格的数据处理方法,如图1所示,包括如下步骤:
S1:确定待处理数据的数据量;
S2:将数据库中待处理数据加载至内存数据网格中;
S3:建立待处理的数据分组模型,对内存数据结构进行配置,将内存数据网格中的待处理数据划分为若干个数据队列;
S4:针对不同类型数据的字符串长度选择对应的数据分组模型;
S5:采用列式存储管理方法针对不同的数据类型进行内存管理;
S6:将数据队列向内存数据网格中不同的数据处理节点传输,以使不同的数据处理节点对数据队列进行数据处理,得到处理结果,并将处理结果向内存数据网格传输;
S7:将内存数据网格中不同的数据处理节点传输的处理结果进行整合,获取数据队列处理结果。
所述S2中将数据库中待处理的数据加载至内存数据网格中,待处理的数据在数据处理之前一次性地全部加载至内存数据网格中,避免了在进行计算时,再分批地从数据库中加载数据到内存数据网格中导致的网络延时,减少了数据计算等待的时间,确保了计算过程的实时性。
所述S3中具体包括如下步骤:
S11:建立数据分组模型;
S12:获取的待处理数据的存储信息、存储类型和加密类型;
S13:根据S12步骤获取待处理数据的关联度信息。
进一步的,所述待处理数据的存储信息包括待处理数据所占存储空间的大小、待处理数据的存储时间以及待处理数据的存储路径中的一种或多种。
进一步的,所述待处理数据的存储类型包括字符型、数值型、文本类型以及视频类型中的一种或多种。
进一步的,所述待处理数据的加密类型包括非对称加密算法、数字签名算法以及md5加密算法中的一种或多种。
所述S7之后还包括如下步骤:
S21:在内存数据网格中创建若干个数据存储区;
S22:获取处理结果的属性信息;
S23:根据处理结果的属性信息,将处理结果传输到内存数据网格中处理结果的属性信息对应的数据存储区内;
S24:对若干个数据存储区中的处理结果分别进行备份处理。
所述S3中将内存数据网格中的待处理数据划分为若干个数据队列,包括如下步骤:
S31:获取所有待处理数据,并计算待处理数据中的每个数据的标准处理时间;
S32:根据内存数据网格中的数据处理节点数量,将待处理数据随机划分成对应数量的数据队列,并将待处理数据中的每个数据的对应的队列的编号形成编号向量,如待处理数据中存在7条数据,网格中数据处理节点有3个,则将待处理数据随机划分成对3个队列,则编号向量则为待处理数据中存在7条数据对应的队列编号,例如(1,3,2,1,1,3,2);
S33:重复K次S32步骤,直至形成K个编号向量;
S34:计算编号向量中的每个数据处理节点的数据处理时间
Figure 588423DEST_PATH_IMAGE001
S35:计算每个编号向量的时间稳定度
Figure 847366DEST_PATH_IMAGE002
其中,
Figure 336117DEST_PATH_IMAGE003
为第个编号向量中第i个数据处理节点的数据处理时间,
Figure 932183DEST_PATH_IMAGE004
为第j个数据 处理节点的运算性能,
Figure 455568DEST_PATH_IMAGE005
为t的取值为
Figure 619833DEST_PATH_IMAGE006
Figure 861459DEST_PATH_IMAGE006
为第j个数据处理节点余留的需要处理的数 据的集合,
Figure 871003DEST_PATH_IMAGE007
为第t条数据的标准处理时间,
Figure 248895DEST_PATH_IMAGE008
为k的取值为
Figure 849640DEST_PATH_IMAGE009
Figure 657191DEST_PATH_IMAGE009
为第i个编号 向量中队列的编号为j时所对应的待处理数据的集合,
Figure 1584DEST_PATH_IMAGE010
为第k条数据的标准处理时间,
Figure 499562DEST_PATH_IMAGE011
为第j个数据处理节点的转接时间,
Figure 474471DEST_PATH_IMAGE012
为集合含有的
Figure 690689DEST_PATH_IMAGE013
数据的数量,
Figure 573194DEST_PATH_IMAGE014
为集合含有的
Figure 519153DEST_PATH_IMAGE015
数据的数量;
所述S33中K为预设值,一般预设为10。
其中,
Figure 196122DEST_PATH_IMAGE016
为第i个编号向量的时间稳定度,N为数据处理节点的数量。
所述S4中还包括如下步骤:
S41:若数据类型的长度小于预设字节时,选取内联类型列,采用内联存储管理方法对内存进行管理;
S42:若数据类型的长度大于预设字节时,选取字符串类型列,采用动态内存配置策略对内存进行管理;
S43:当数据类型的长度小于预设字节且为布尔型或自定义数据类型或float或double时,选取原生类型列。
所述动态内存配置策略包括对内存块位置进行定址分配;进行求和函数计算;对内存进行回收释放;利用选择位向量函数查询有效分配内存。
本实施例在使用时,获取待处理数据,并将待处理数据向内存数据网格传输;根据待处理的数据分组模型将内存数据网格中的待处理数据划分为若干个数据队列;将数据队列向内存数据网格中不同的数据处理节点传输,以使不同的数据处理节点对数据队列进行数据处理,得到处理结果,并向内存数据网格传输,采用列式存储区管理类方式,便于按列重组和序列化反序列化操作;采用动态内存申请释放策略能够提高内存利用率,优化数据的查找更新速度,将待处理数据的关联度信息向数据分组模型传输;数据分组模型根据待处理数据的关联度信息将待处理数据向相应的数据队列传输,通过对待处理数据的存储信息、存储类型、加密类型,实现了对待处理数据的关联度信息的获取;通过数据分组模型根据待处理数据的关联度信息,实现了将待处理数据划分到相应的数据队列,实现了对待处理数据的存储信息的获取,通过对内存网格中不同的数据处理节点传输的处理结果进行整合,实现了对数据队列处理结果的获取;可以得到时间稳定度最小时所对应的待处理数据的划分队列的结果,从而对待处理数据实现智能划分,且划分后时间稳定度最小,从而使得数据处理时间短,且每个数据处理节点都比较稳定,即每个数据处理节点的数据处理时间都接近。
实施例2:
基于内存数据网格的数据处理方法,如图1所示,包括如下步骤:
S1:确定待处理数据的数据量;
S2:将数据库中待处理数据加载至内存数据网格中;
S3:建立待处理的数据分组模型,对内存数据结构进行配置,将内存数据网格中的待处理数据划分为若干个数据队列;
S4:针对不同类型数据的字符串长度选择对应的数据分组模型;
S5:采用列式存储管理方法针对不同的数据类型进行内存管理;
S6:将数据队列向内存数据网格中不同的数据处理节点传输,以使不同的数据处理节点对数据队列进行数据处理,得到处理结果,并将处理结果向内存数据网格传输;
S7:将内存数据网格中不同的数据处理节点传输的处理结果进行整合,获取数据队列处理结果。
所述S2中将数据库中待处理的数据加载至内存数据网格中,待处理的数据在数据处理之前一次性地全部加载至内存数据网格中,避免了在进行计算时,再分批地从数据库中加载数据到内存数据网格中导致的网络延时,减少了数据计算等待的时间,确保了计算过程的实时性。
所述S3中具体包括如下步骤:
S11:建立数据分组模型;
S12:获取的待处理数据的存储信息、存储类型和加密类型;
S13:根据S12步骤获取待处理数据的关联度信息。
进一步的,所述待处理数据的存储信息包括待处理数据所占存储空间的大小、待处理数据的存储时间以及待处理数据的存储路径中的一种或多种。
进一步的,所述待处理数据的存储类型包括字符型、数值型、文本类型以及视频类型中的一种或多种。
进一步的,所述待处理数据的加密类型包括非对称加密算法、数字签名算法以及md5加密算法中的一种或多种。
所述S3中将内存数据网格中的待处理数据划分为若干个数据队列,包括如下步骤:
S31:获取所有待处理数据,并计算待处理数据中的每个数据的标准处理时间;
S32:根据内存数据网格中的数据处理节点数量,将待处理数据随机划分成对应数量的数据队列,并将待处理数据中的每个数据的对应的队列的编号形成编号向量,如待处理数据中存在7条数据,网格中数据处理节点有3个,则将待处理数据随机划分成对3个队列,则编号向量则为待处理数据中存在7条数据对应的队列编号,例如(1,3,2,1,1,3,2);
S33:重复K次S32步骤,直至形成K个编号向量;
S34:计算编号向量中的每个数据处理节点的数据处理时间
Figure 634057DEST_PATH_IMAGE001
S35:计算每个编号向量的时间稳定度
Figure 789095DEST_PATH_IMAGE002
其中,
Figure 996085DEST_PATH_IMAGE003
为第个编号向量中第i个数据处理节点的数据处理时间,
Figure 109535DEST_PATH_IMAGE004
为第j个数据 处理节点的运算性能,
Figure 877508DEST_PATH_IMAGE005
为t的取值为
Figure 101816DEST_PATH_IMAGE006
Figure 428892DEST_PATH_IMAGE006
为第j个数据处理节点余留的需要处理的数 据的集合,
Figure 182085DEST_PATH_IMAGE007
为第t条数据的标准处理时间,
Figure 329032DEST_PATH_IMAGE008
为k的取值为
Figure 357031DEST_PATH_IMAGE009
Figure 132089DEST_PATH_IMAGE009
为第i个编号向 量中队列的编号为j时所对应的待处理数据的集合,
Figure 587341DEST_PATH_IMAGE010
为第k条数据的标准处理时间,
Figure 487164DEST_PATH_IMAGE011
为第j个数据处理节点的转接时间,
Figure 53275DEST_PATH_IMAGE012
为集合含有的
Figure 558205DEST_PATH_IMAGE013
数据的数量,
Figure 184359DEST_PATH_IMAGE014
为集合含有的
Figure 305898DEST_PATH_IMAGE015
数据的数量;
所述S33中K为预设值,一般预设为10。
其中,
Figure 19908DEST_PATH_IMAGE016
为第i个编号向量的时间稳定度,N为数据处理节点的数量。
所述S4中还包括如下步骤:
S41:若数据类型的长度小于预设字节时,选取内联类型列,采用内联存储管理方法对内存进行管理;
S42:若数据类型的长度大于预设字节时,选取字符串类型列,采用动态内存配置策略对内存进行管理;
S43:当数据类型的长度小于预设字节且为布尔型或自定义数据类型或float或double时,选取原生类型列。
所述动态内存配置策略包括对内存块位置进行定址分配;进行求和函数计算;对内存进行回收释放;利用选择位向量函数查询有效分配内存。
所述S13具体包括如下步骤:
S131、将所有待处理数据记为
Figure 176083DEST_PATH_IMAGE017
Figure 973137DEST_PATH_IMAGE017
可表示为:
Figure 50815DEST_PATH_IMAGE018
其中,
Figure 958728DEST_PATH_IMAGE019
为第
Figure 969409DEST_PATH_IMAGE020
个待处理数据的数据信息,
Figure 530841DEST_PATH_IMAGE020
的取值为从
Figure 626972DEST_PATH_IMAGE021
Figure 338577DEST_PATH_IMAGE022
Figure 938185DEST_PATH_IMAGE022
为待处理数据的 数目,
Figure 77042DEST_PATH_IMAGE023
又可进一步表示为:
Figure 394891DEST_PATH_IMAGE024
其中,
Figure 752929DEST_PATH_IMAGE025
为第
Figure 738203DEST_PATH_IMAGE026
个待处理数据的存储信息,
Figure 47961DEST_PATH_IMAGE027
为第
Figure 853106DEST_PATH_IMAGE026
个待处理数据的存储类型,
Figure 375355DEST_PATH_IMAGE028
为 第
Figure 215135DEST_PATH_IMAGE026
个待处理数据的加密类型;
S132、计算待处理数据的关联度;
Figure 695794DEST_PATH_IMAGE029
其中,
Figure 847290DEST_PATH_IMAGE030
为第
Figure 438808DEST_PATH_IMAGE031
个待处理数据与第
Figure 398674DEST_PATH_IMAGE032
个待处理数据之间的关联度,
Figure 519077DEST_PATH_IMAGE033
Figure 298814DEST_PATH_IMAGE034
Figure 694023DEST_PATH_IMAGE035
关联函数,
Figure 852603DEST_PATH_IMAGE036
为待处理数据的存储信息对关联性的比重系数,
Figure 675066DEST_PATH_IMAGE037
为待处理数据的存储类 型对关联性的比重系数,
Figure 942099DEST_PATH_IMAGE038
为待处理数据的加密类型对关联性的比重系数,
Figure 609841DEST_PATH_IMAGE039
为第
Figure 278720DEST_PATH_IMAGE040
个待 处理数据的加密类型,
Figure 272083DEST_PATH_IMAGE041
为第
Figure 619888DEST_PATH_IMAGE042
个待处理数据的加密类型,
Figure 622479DEST_PATH_IMAGE043
为第
Figure 145864DEST_PATH_IMAGE040
个待处理 数据的存储类型与第
Figure 778971DEST_PATH_IMAGE042
个待处理数据的存储类型的相似函数,
Figure 20597DEST_PATH_IMAGE044
为第
Figure 561299DEST_PATH_IMAGE040
个待处理数据的存 储信息中第
Figure 781934DEST_PATH_IMAGE045
个信息值,
Figure 382680DEST_PATH_IMAGE046
为第
Figure 846022DEST_PATH_IMAGE047
个待处理数据的存储信息中第
Figure 190416DEST_PATH_IMAGE045
个信息值;
S133、确定待处理数据的关联度信息;
Figure 891655DEST_PATH_IMAGE048
其中,
Figure 663302DEST_PATH_IMAGE049
为待处理数据的关联信息矩阵,
Figure 613941DEST_PATH_IMAGE050
为第
Figure 89921DEST_PATH_IMAGE051
个待处理数据与第
Figure 442405DEST_PATH_IMAGE052
个待处理数据 之间的关联度,
Figure 384954DEST_PATH_IMAGE055
Figure 291730DEST_PATH_IMAGE056
的取值均为从
Figure 977926DEST_PATH_IMAGE053
Figure 529124DEST_PATH_IMAGE054
Figure 642574DEST_PATH_IMAGE054
为待处理数据的数目。
有益效果:根据待处理数据的存储信息、存储类型和加密类型来判断所述待处理数据的关联度,在上述技术方案中,综合考虑存储信息的关联性,存储类型的相似性及加密类型的一致性,进而获得两个待处理数据的关联度。通过上述技术方案,不同数据之间只要存储信息、存储类型和加密类型相近或相似,它们之间就会有关联度,而且得到的待处理数据的关联度信息最终以矩阵形式展现,直观明了。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (11)

1.基于内存数据网格的数据处理方法,其特征在于,包括如下步骤:
S1:确定待处理数据的数据量;
S2:将数据库中待处理数据加载至内存数据网格中;
S3:建立待处理的数据分组模型,对内存数据结构进行配置,将内存数据网格中的待处理数据划分为若干个数据队列;
S4:针对不同类型数据的字符串长度选择对应的数据分组模型;
S5:采用列式存储管理方法针对不同的数据类型进行内存管理;
S6:将数据队列向内存数据网格中不同的数据处理节点传输,以使不同的数据处理节点对数据队列进行数据处理,得到处理结果,并将处理结果向内存数据网格传输;
S7:将内存数据网格中不同的数据处理节点传输的处理结果进行整合,获取数据队列处理结果。
2.根据权利要求1所述的基于内存数据网格的数据处理方法,其特征在于,所述S2中将数据库中待处理的数据加载至内存数据网格中,待处理的数据在数据处理之前一次性地全部加载至内存数据网格中。
3.根据权利要求2所述的基于内存数据网格的数据处理方法,其特征在于,所述S3中具体包括如下步骤:
S11:建立数据分组模型;
S12:获取的待处理数据的存储信息、存储类型和加密类型;
S13:根据S12步骤获取待处理数据的关联度信息。
4.根据权利要求3所述的基于内存数据网格的数据处理方法,其特征在于,所述待处理数据的存储信息包括待处理数据所占存储空间的大小、待处理数据的存储时间以及待处理数据的存储路径中的一种或多种。
5.根据权利要求4所述的基于内存数据网格的数据处理方法,其特征在于,所述待处理数据的存储类型包括字符型、数值型、文本类型以及视频类型中的一种或多种。
6.根据权利要求5所述的基于内存数据网格的数据处理方法,其特征在于,所述待处理数据的加密类型包括非对称加密算法、数字签名算法以及md5加密算法中的一种或多种。
7.根据权利要求1所述的基于内存数据网格的数据处理方法,其特征在于,所述S7之后还包括如下步骤:
S21:在内存数据网格中创建若干个数据存储区;
S22:获取处理结果的属性信息;
S23:根据处理结果的属性信息,将处理结果传输到内存数据网格中处理结果的属性信息对应的数据存储区内;
S24:对若干个数据存储区中的处理结果分别进行备份处理。
8.根据权利要求7所述的基于内存数据网格的数据处理方法,其特征在于,所述S3中将内存数据网格中的待处理数据划分为若干个数据队列,包括如下步骤:
S31:获取所有待处理数据,并计算待处理数据中的每个数据的标准处理时间;
S32:根据内存数据网格中的数据处理节点数量,将待处理数据随机划分成对应数量的数据队列,并将待处理数据中的每个数据的对应的队列的编号形成编号向量;
S33:重复K次S32步骤,直至形成K个编号向量;
S34:计算编号向量中的每个数据处理节点的数据处理时间
Figure 101360DEST_PATH_IMAGE001
S35:计算每个编号向量的时间稳定度
Figure 18501DEST_PATH_IMAGE002
其中,
Figure 798238DEST_PATH_IMAGE003
为第个编号向量中第i个数据处理节点的数据处理时间,
Figure 36190DEST_PATH_IMAGE004
为第j个数据处 理节点的运算性能,
Figure 850563DEST_PATH_IMAGE005
为t的取值为
Figure 141867DEST_PATH_IMAGE006
Figure 408900DEST_PATH_IMAGE006
为第j个数据处理节点余留的需要处理的数据 的集合,
Figure 201275DEST_PATH_IMAGE007
为第t条数据的标准处理时间,
Figure 870154DEST_PATH_IMAGE008
为k的取值为
Figure 863518DEST_PATH_IMAGE009
Figure 86689DEST_PATH_IMAGE009
为第i个编号向量 中队列的编号为j时所对应的待处理数据的集合,
Figure 823701DEST_PATH_IMAGE010
为第k条数据的标准处理时间,
Figure 347086DEST_PATH_IMAGE011
为 第j个数据处理节点的转接时间,
Figure 121138DEST_PATH_IMAGE012
为集合含有的
Figure 362763DEST_PATH_IMAGE013
数据的数量,
Figure 106729DEST_PATH_IMAGE014
为 集合含有的
Figure 750199DEST_PATH_IMAGE015
数据的数量;
其中,
Figure 85366DEST_PATH_IMAGE016
为第i个编号向量的时间稳定度,N为数据处理节点的数量。
9.根据权利要求8所述的基于内存数据网格的数据处理方法,其特征在于,所述S4中还包括如下步骤:
S41:若数据类型的长度小于预设字节时,选取内联类型列,采用内联存储管理方法对内存进行管理;
S42:若数据类型的长度大于预设字节时,选取字符串类型列,采用动态内存配置策略对内存进行管理;
S43:当数据类型的长度小于预设字节且为布尔型或自定义数据类型或float或double时,选取原生类型列。
10.根据权利要求9所述的基于内存数据网格的数据处理方法,其特征在于,所述动态内存配置策略包括对内存块位置进行定址分配;进行求和函数计算;对内存进行回收释放;利用选择位向量函数查询有效分配内存。
11.根据权利要求3所述的基于内存数据网格的数据处理方法,其特征在于,所述S13具体包括如下步骤:
S131、将所有待处理数据记为
Figure 407763DEST_PATH_IMAGE017
Figure 486577DEST_PATH_IMAGE017
可表示为:
Figure 453396DEST_PATH_IMAGE018
其中,
Figure 225043DEST_PATH_IMAGE019
为第
Figure 175682DEST_PATH_IMAGE020
个待处理数据的数据信息,
Figure 912649DEST_PATH_IMAGE020
的取值为从
Figure 265133DEST_PATH_IMAGE021
Figure 207681DEST_PATH_IMAGE022
Figure 114457DEST_PATH_IMAGE022
为待处理数据的数 目,
Figure 535074DEST_PATH_IMAGE023
又可进一步表示为:
Figure 601119DEST_PATH_IMAGE024
其中,
Figure 714568DEST_PATH_IMAGE025
为第
Figure 639799DEST_PATH_IMAGE026
个待处理数据的存储信息,
Figure 332949DEST_PATH_IMAGE027
为第
Figure 394446DEST_PATH_IMAGE026
个待处理数据的存储类型,
Figure 678796DEST_PATH_IMAGE028
为 第
Figure 435531DEST_PATH_IMAGE026
个待处理数据的加密类型;
S132、计算待处理数据的关联度;
Figure 463530DEST_PATH_IMAGE029
其中,
Figure 113954DEST_PATH_IMAGE030
为第
Figure 303627DEST_PATH_IMAGE031
个待处理数据与第
Figure 203450DEST_PATH_IMAGE032
个待处理数据之间的关联度,
Figure 363036DEST_PATH_IMAGE033
Figure 664704DEST_PATH_IMAGE034
Figure 494120DEST_PATH_IMAGE035
关联函数,
Figure 881239DEST_PATH_IMAGE036
为待处理数据的存储信息对关联性的比重系数,
Figure 251040DEST_PATH_IMAGE037
为待处理数据的存储类 型对关联性的比重系数,
Figure 984379DEST_PATH_IMAGE038
为待处理数据的加密类型对关联性的比重系数,
Figure 781433DEST_PATH_IMAGE039
为第
Figure 390269DEST_PATH_IMAGE040
个待 处理数据的加密类型,
Figure 32603DEST_PATH_IMAGE041
为第
Figure 43285DEST_PATH_IMAGE042
个待处理数据的加密类型,
Figure 604716DEST_PATH_IMAGE043
为第
Figure 700848DEST_PATH_IMAGE031
个待处理 数据的存储类型与第
Figure 412452DEST_PATH_IMAGE032
个待处理数据的存储类型的相似函数,
Figure 746481DEST_PATH_IMAGE044
为第
Figure 885339DEST_PATH_IMAGE045
个待处理数据的 存储信息中第
Figure 812975DEST_PATH_IMAGE046
个信息值,
Figure 62690DEST_PATH_IMAGE047
为第
Figure 516805DEST_PATH_IMAGE048
个待处理数据的存储信息中第
Figure 826564DEST_PATH_IMAGE046
个信息值;
S133、确定待处理数据的关联度信息;
Figure 490763DEST_PATH_IMAGE049
其中,
Figure 544170DEST_PATH_IMAGE050
为待处理数据的关联信息矩阵,
Figure 852792DEST_PATH_IMAGE051
为第
Figure 333452DEST_PATH_IMAGE052
个待处理数据与第
Figure 468636DEST_PATH_IMAGE053
个待处理数据之 间的关联度,
Figure 325733DEST_PATH_IMAGE052
Figure 20020DEST_PATH_IMAGE053
的取值均为从
Figure 140422DEST_PATH_IMAGE054
Figure 185739DEST_PATH_IMAGE055
Figure 580948DEST_PATH_IMAGE055
为待处理数据的数目。
CN202010394711.7A 2020-05-12 2020-05-12 基于内存数据网格的数据处理方法 Pending CN111291059A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010394711.7A CN111291059A (zh) 2020-05-12 2020-05-12 基于内存数据网格的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010394711.7A CN111291059A (zh) 2020-05-12 2020-05-12 基于内存数据网格的数据处理方法

Publications (1)

Publication Number Publication Date
CN111291059A true CN111291059A (zh) 2020-06-16

Family

ID=71021764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010394711.7A Pending CN111291059A (zh) 2020-05-12 2020-05-12 基于内存数据网格的数据处理方法

Country Status (1)

Country Link
CN (1) CN111291059A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813529A (zh) * 2020-07-20 2020-10-23 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN112217940A (zh) * 2020-08-28 2021-01-12 深圳市修远文化创意有限公司 一种内存释放方法及相关装置
CN112698957A (zh) * 2021-02-02 2021-04-23 北京东方通科技股份有限公司 一种基于内存数据网格的数据处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488699A (zh) * 2013-09-04 2014-01-01 用友软件股份有限公司 基于内存数据网格的数据处理装置和方法
CN107632984A (zh) * 2016-07-18 2018-01-26 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和系统
CN109857814A (zh) * 2018-12-28 2019-06-07 北京东方国信科技股份有限公司 一种内存数据处理方法及存储介质
CN110851282A (zh) * 2019-11-14 2020-02-28 北京东方通科技股份有限公司 一种基于内存网格的分布式数据计算方法及系统
CN111027881A (zh) * 2019-12-17 2020-04-17 福州大学 基于改进灰色关联度的输电杆塔自然灾害损失评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488699A (zh) * 2013-09-04 2014-01-01 用友软件股份有限公司 基于内存数据网格的数据处理装置和方法
CN107632984A (zh) * 2016-07-18 2018-01-26 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和系统
CN109857814A (zh) * 2018-12-28 2019-06-07 北京东方国信科技股份有限公司 一种内存数据处理方法及存储介质
CN110851282A (zh) * 2019-11-14 2020-02-28 北京东方通科技股份有限公司 一种基于内存网格的分布式数据计算方法及系统
CN111027881A (zh) * 2019-12-17 2020-04-17 福州大学 基于改进灰色关联度的输电杆塔自然灾害损失评估方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813529A (zh) * 2020-07-20 2020-10-23 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111813529B (zh) * 2020-07-20 2023-12-12 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN112217940A (zh) * 2020-08-28 2021-01-12 深圳市修远文化创意有限公司 一种内存释放方法及相关装置
CN112217940B (zh) * 2020-08-28 2021-12-24 波克科技股份有限公司 一种内存释放方法及相关装置
CN112698957A (zh) * 2021-02-02 2021-04-23 北京东方通科技股份有限公司 一种基于内存数据网格的数据处理方法及系统
CN112698957B (zh) * 2021-02-02 2024-02-20 北京东方通科技股份有限公司 一种基于内存数据网格的数据处理方法及系统

Similar Documents

Publication Publication Date Title
Yi et al. Efficient processing of top-k queries in uncertain databases
CN111291059A (zh) 基于内存数据网格的数据处理方法
CN110413611B (zh) 数据存储、查询方法及装置
US20180285167A1 (en) Database management system providing local balancing within individual cluster node
US11093468B1 (en) Advanced metadata management
JP6356675B2 (ja) 集約/グループ化動作:ハッシュテーブル法のハードウェア実装
US20140122510A1 (en) Distributed database managing method and composition node thereof supporting dynamic sharding based on the metadata and data transaction quantity
CN110110006A (zh) 数据管理方法及相关产品
CN111580965A (zh) 数据请求的处理方法及系统
US11036797B2 (en) Efficient storage and utilization of a hierarchical data set
CN106960011A (zh) 分布式文件系统元数据管理系统及方法
CN106503008A (zh) 文件存储方法和装置及文件查询方法和装置
CN107070645A (zh) 比较数据表的数据的方法和系统
CN107330017A (zh) 一种基于主题实例的电力海量数据存储和查询统计分析方法及其系统
US20080168071A1 (en) Storing Data in Predicted Formats
CN109597903A (zh) 图像文件处理装置和方法、文件存储系统及存储介质
CN110119396A (zh) 数据管理方法及相关产品
CN112800085B (zh) 一种基于布隆过滤器识别表间主外键字段的方法及装置
US7287022B2 (en) System and method for analytically modeling data organized according to related attributes
CN110362590A (zh) 数据管理方法、装置、系统、电子设备及计算机可读介质
CN106484818A (zh) 一种基于Hadoop和HBase的层次聚类方法
US7275022B2 (en) System and method for analytically modeling data organized according to non-referred attributes
CN114416741A (zh) 基于多级索引的kv数据写入读取方法、装置及存储介质
CN112765130A (zh) 一种数据仓库构建方法、系统、计算机设备及存储介质
CN110110007A (zh) 数据管理方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200616