CN109522310A - 数据存储、检索方法、系统及存储介质 - Google Patents
数据存储、检索方法、系统及存储介质 Download PDFInfo
- Publication number
- CN109522310A CN109522310A CN201811366138.8A CN201811366138A CN109522310A CN 109522310 A CN109522310 A CN 109522310A CN 201811366138 A CN201811366138 A CN 201811366138A CN 109522310 A CN109522310 A CN 109522310A
- Authority
- CN
- China
- Prior art keywords
- data
- management system
- data management
- stored
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了数据存储、检索方法、系统及存储介质。数据存储方法包括应用于数据存储系统,数据存储系统包括数据分发分片管理器和服务器,服务器包括至少两个数据管理系统,每个数据管理系统包括数据存储区域,方法包括:数据分发分片管理器获取待存储数据及待存储数据的标识信息;数据分发分片管理器基于标识信息将待存储数据分发至至少两个数据管理系统中;至少两个数据管理系统中,每个数据管理系统将分发到自身数据管理系统的子数据存储至数据管理系统中的数据存储区域。通过本发明实施例提供的技术方案,可以实现在单个服务器环境下对数据进行分片存储,减少单数据管理系统承载大量数据所带来的高负载,可以有效提升数据存储性能。
Description
技术领域
本发明实施例涉及大数据处理技术领域,尤其涉及数据存储、检索方法、系统及存储介质。
背景技术
对于结构化数据的处理,在单个服务器环境下一般会将数据进行整体存储与管理。其中,整体存储与管理包含逻辑空间分类存储管理及与逻辑空间对应的物理文件块的存储管理。无论是对数据进行逻辑空间分类存储管理,还是对数据进行与逻辑空间对应的物理文件块的存储管理,其管理方式都是由单一的一套数据管理机制对数据进行统一的管理,这样的目的,主要是实现了对数据存储的管理统一、数据分派的统一、数据检索的查找及统一。
然而,上述数据管理存储方案的不足在于,当数据膨胀、暴增至一定阶段,单个服务器环境的数据管理机制将承担大块数据的数据存储管理、大块数据的数据统计、大块数据的一致性管理等工作。在进行数据检索、查找时,其检索的性能会随着其管理的数据量或数据块的增大而降低,从而造成数据管理器的管理过于负重(如,索引标记量的过重、数据统计字典表数据的过重)等,因此解决单一服务器环境下的单一管理服务,减轻数据管理压力来获得高性能检索等这一系列问题成为本领域的一个研究方向。
发明内容
本发明实施例提供数据存储、检索方法、系统及存储介质,可以实现在单个服务器环境下对数据进行分片存储,减少单数据管理系统承载大量数据所带来的高负载。
第一方面,本发明实施例提供了一种数据传输方法,应用于数据存储系统,所述数据存储系统包括数据分发分片管理器和服务器,所述服务器包括至少两个数据管理系统,每个数据管理系统包括数据存储区域,所述方法包括:
所述数据分发分片管理器获取待存储数据及所述待存储数据的标识信息;
所述数据分发分片管理器基于所述标识信息将所述待存储数据分发至所述至少两个数据管理系统中;
所述至少两个数据管理系统中,每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据存储区域。
进一步的,获取待存储数据及所述待存储数据的标识信息,包括:
获取待存储数据及所述待存储数据的数据信息;
根据所述数据信息生成与所述待存储数据唯一对应的主键;
将所述主键作为所述待存储数据的标识信息。
进一步的,获取待存储数据包括:
读取原始数据;
按照预设规则对所述原始数据进行过滤处理,将过滤处理后的原始数据作为待存储数据。
进一步的,每个数据管理系统还包括数据内存区域;
每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据存储区域,包括:
每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据内存区域;
当所述数据内存区域的当前可用空间小于预设阈值时,将所述子数据转存至所述数据管理系统中的数据存储区域。
第二方面,本发明实施例还提供了一种数据检索方法,应用于数据检索系统,所述数据检索系统包括数据汇聚管理器和服务器,所述服务器包括至少两个数据管理系统,所述方法包括:
当所述数据汇聚管理器接收到客户端发送的数据检索请求时,将所述数据检索请求发送所述至少两个数据管理系统;
所述至少两个数据管理系统中,每个数据管理系统基于所述数据检索请求进行数据检索,确定目标数据,并将所述目标数据发送至所述数据汇聚管理器;
所述数据汇聚管理器接收所述至少两个数据管理系统中每个数据管理系统发送的目标数据,并将各个目标数据发送至所述客户端。
进一步的,将各个目标数据发送至所述客户端,包括:
按照预设规则对各个目标数据进行分组或排序;
将分组或排序后的目标数据发送至所述客户端。
第三方面,本发明实施例提供了一种数据存储系统,包括:数据分发分片管理器和服务器,所述服务器包括核心运算器区域、内存区域、存储区域及至少两个数据管理系统;
其中,所述数据管理系统的数量与所述核心运算器区域中包含的核心运算器的数据相同,每个数据管理系统对应占用一个核心运算器;
所述至少两个数据管理系统中,每个数据管理系统共用所述内存区域和所述存储区域;
所述数据分发分片管理器,用于将待存储数据分发至所述至少两个数据管理系统中;
所述至少两个数据管理系统中,每个数据管理系统将分发到自身数据管理系统的子数据存储至与所述数据管理系统对应的存储区域中;
每个核心预算器对占用所述核心运算器的数据管理系统中的数据进行管理。
第四方面,本发明实施例提供了一种数据检索系统,包括:数据汇聚管理器和服务器,所述服务器包括核心运算器区域、内存区域、存储区域及至少两个数据管理系统;
其中,所述数据管理系统的数量与所述核心运算器区域中包含的核心运算器的数据相同,每个数据管理系统对应占用一个核心运算器;
所述至少两个数据管理系统中,每个数据管理系统共用所述内存区域和所述存储区域;
所述数据汇聚管理器,用于接收客户端发送的数据检索请求,并将所述数据检索请求发送至所述至少两个数据管理系统中;
所述至少两个数据管理系统中,每个数据管理系统用于存储数据,并基于所述数据检索请求进行数据检索,确定目标数据,并将所述目标数据发送至所述数据汇聚管理器;
每个核心预算器对占用所述核心运算器的数据管理系统中的数据进行管理。
第五方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例第一方面所述的数据存储方法。
第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例第二方面所述的数据检索方法。
本发明实施例提供的数据存储方案,应用于数据存储系统,所述数据存储系统包括数据分发分片管理器和服务器,所述服务器包括至少两个数据管理系统,每个数据管理系统包括数据存储区域,所述数据分发分片管理器获取待存储数据及所述待存储数据的标识信息;所述数据分发分片管理器基于所述标识信息将所述待存储数据分发至所述至少两个数据管理系统中;所述至少两个数据管理系统中,每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据存储区域。通过采用上述技术方案,可以实现在单个服务器环境下对数据进行分片存储,减少单数据管理系统承载大量数据所带来的高负载,降低数据管理系统管理数据的量级,并利用单个服务器下的多个数据管理系统,可以有效提升数据入库和存储的性能。
附图说明
图1是本发明实施例一提供的一种数据存储方法的流程示意图;
图2是本发明实施例二提供的一种数据检索方法的流程示意图;
图3是本发明实施例三提供的一种数据存储系统的结构示意图;
图4是本发明实施例四提供的一种数据检索系统的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例提供的数据存储方法的流程示意图,该方法可适用于数据存储系统对数据进行分片存储的情况,可以由数据存储系统执行,其中该系统可由软件和/或硬件实现,该数据存储系统包括数据分发分片管理器和服务器,所述服务器包括至少两个数据管理系统,每个数据管理系统包括数据存储区域。如图1所示,该方法包括:
S101、数据分发分片管理器获取待存储数据及所述待存储数据的标识信息。
在本发明实施例中,数据分发分片管理器获取待存储数据,其中,待存储数据可以包括第三方发送的任何外部数据,可以是结构化数据、非结构化数据及全文数据等,本发明实施例对待存储数据的类型和来源不做限定。
可选的,获取待存储数据包括:读取原始数据;按照预设规则对所述原始数据进行过滤处理,将过滤处理后的原始数据作为待存储数据。示例性的,数据分发分片管理器根据原始数据的路径指向,读取原始数据。当原始数据中包含用户不感兴趣或不满足预设条件的冗余数据时,可按照预设规则对原始数据进行初步过滤,过滤掉其中的冗余数据,将过滤后的原始数据作为待存储数据。例如,可按照数据生成时间对原始数据进行过滤,如将数据生成时间早于预设时间的数据过滤掉,或者,按照数据包含内容的类别进行分类,将包含某类数据内容的数据过滤掉,亦或者,根据数据的格式对数据进行分类,如获取的数据格式分别包括excel类数据、txt类数据及word类数据,将某类格式的数据过滤掉,如将word类数据过滤掉。需要说明的是,本发明实施例对原始数据进行过滤处理时的预设规则的具体内容或形式不作限定。
在本发明实施例中,获取待存储数据的标识信息,其中,标识信息可以理解为能够唯一表征所述待存储数据的特征信息。可选的,获取待存储数据及所述待存储数据的标识信息,包括:获取待存储数据及所述待存储数据的数据信息;根据所述数据信息生成与所述待存储数据唯一对应的主键;将所述主键作为所述待存储数据的标识信息。其中,待存储数据的数据信息可以包括任意与待存储数据相关的信息。示例性的,待存储数据的数据信息可以包括数据指向路径、数据的格式、数据大小及数据生成时间中的至少一种。根据数据信息生成与待存储数据唯一对应的主键,并将该主键作为待存储数据的标识信息。可选的,待存储数据的数据信息包括数据名称、数据格式及数据生成时间,则可通过对数据名称进行哈希变化,生成与数据名称对应的字符串,将该字符串与数据格式及数据生成时间拼写成最终的字符串,作为与待存储数据唯一对应的主键。当然,在实际的开发应用中,可根据实际的应用场景,确定待存储数据的标识信息,只要能够保证标识信息与待存储数据的唯一性即可。
S102、所述数据分发分片管理器基于所述标识信息将所述待存储数据分发至至少两个数据管理系统中。
在本发明实施例中,数据分发分片管理器基于待存储数据的标识信息,将待存储数据分发至至少两个数据管理系统中。示例性的,待存储数据中共包含有800条数据,确定800条数据中每条数据的标识信息,并根据标识信息对800条数据进行排序,例如,服务器中包含8个数据管理系统,将可将排序后的800条数据均衡地分发至8个数据管理系统中,每个数据管理系统包含100条数据。又示例性的,待存储数据的标识信息是基于数据名称、数据格式及数据生成时间确定的,则可按照数据格式对待存储数据进行分类,将不同类别的待存储数据分别分发至不同的数据管理系统中。例如,服务器包含3个数据管理系统,待存储数据包括excel格式、txt格式及word格式的1000条数据,其中,300条excel格式的数据,400条txt格式的数据以及300条word格式的数据,则可将300条excel格式的数据分发至第一个数据管理系统中,将400条txt格式的数据分发至第二个数据管理系统中,并将300条word格式的数据分发至第三个数据管理系统中。
需要说明的是,本发明实施例对基于标识信息将待存储数据分发至至少两个数据管理系统中的具体分发方式不做具体限定。
S103、所述至少两个数据管理系统中,每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据存储区域。
示例性的,至少两个数据管理系统中,每个数据管理系统接收数据分发分片管理器分发到自身的待存储数据(可将分发至每个数据管理系统的待存储数据称为子数据),并将接收到的子数据存储到数据管理系统中的数据存储区域。这样可以有效实现对待存数据的分片存储,降低单服务器单个数据管理系统管理数据的压力。
可选的,每个数据管理系统还包括数据内存区域;每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据存储区域,包括:每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据内存区域;当所述数据内存区域的当前可用空间小于预设阈值时,将所述子数据转存至所述数据管理系统中的数据存储区域。示例性的,每个数据管理系统接收到数据分发分片管理器分发到自身的子数据后,将子数据缓存至数据内存区域,随着数据分发分片管理器分发至每个数据管理系统的待存储数据的增多,数据管理系统中的数据内存区域的存储空间不断被占用,剩余可用空间不断较少,当数据内存区域的当前可用空间小于预设阈值时,如数据内存区域的当前可用空间小于数据内存区域总存储空间的10%时,或者,当数据内存区域的已占用空间大于预设阈值时,如数据内存区域总存储空间的80%时,将子数据转存至数据管理系统中的数据存储区域,将数据存储区域作为数据管理系统存储待存储数据的最终落地点。
本发明实施例提供的数据存储方法,应用于数据存储系统,所述数据存储系统包括数据分发分片管理器和服务器,所述服务器包括至少两个数据管理系统,每个数据管理系统包括数据存储区域,所述数据分发分片管理器获取待存储数据及所述待存储数据的标识信息;所述数据分发分片管理器基于所述标识信息将所述待存储数据分发至所述至少两个数据管理系统中;所述至少两个数据管理系统中,每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据存储区域。通过采用上述技术方案,可以实现在单个服务器环境下对数据进行分片存储,减少单数据管理系统承载大量数据所带来的高负载,降低数据管理系统管理数据的量级,并利用单个服务器下的多个数据管理系统,可以有效提升数据入库和存储的性能。
实施例二
图2为本发明实施例提供的数据检索方法的流程示意图。在本发明实施例提供的上述数据存储方法的基础上,本发明实施提供了一种数据检索方法,该方法可适用于数据检索系统对数据进行并行检索的情况,可以由数据检索系统执行,其中该系统可由软件和/或硬件实现,该数据检索系统包括数据汇聚管理器和服务器,所述服务器包括至少两个数据管理系统。如图2所示,该方法包括:
S201、当数据汇聚管理器接收到客户端发送的数据检索请求时,将所述数据检索请求发送至少两个数据管理系统。
在本发明实施例中,当需要对存储在服务器中的数据进行检索时,用户可通过客户端输入数据检索请求,或者在客户端生成数据检索请求,客户端将数据检索请求发送至数据检索系统中的数据汇聚管理器。数据汇聚管理器接收客户端发送的数据检索请求,并将该数据检索请求发送至服务器中的至少两个数据管理系统中的每个数据管理系统。
S202、所述至少两个数据管理系统中,每个数据管理系统基于所述数据检索请求进行数据检索,确定目标数据,并将所述目标数据发送至所述数据汇聚管理器。
在本发明实施例中,至少两个数据管理系统中,每个数据管理系统接收到数据检索请求后,基于数据检索请求在自身数据管理系统中存储的大量数据中进行数据检索。由于在数据检索请求中包含了需要检索到的目标数据的关键信息,或者说数据检索请求中包含了数据检索条件,则可基于数据检索请求确定目标数据。每个数据管理系统将自身确定的目标数据发送至数据汇聚管理器。示例性的,数据检索请求为“Select*from tablewhere emno=7700”,则每个数据管理系统在自身数据管理系统中存储的大量数据中检索、查找满足emno=7700的数据作为目标数据。
S203、所述数据汇聚管理器接收所述至少两个数据管理系统中每个数据管理系统发送的目标数据,并将各个目标数据发送至所述客户端。
在本发明实施例中,数据汇聚管理器接收每个数据管理系统发送的目标数据,并将接收到的各个目标数据发送至客户端。其中,可将接收的各个目标数据按照接收顺序依次发送至客户端,也可全部接收到各个目标数据后,将各个目标数据同时发送至客户端。需要说明的是,本发明实施例对将各个目标数据发送至客户端的具体发送方式不做限定。
可选的,将各个目标数据发送至所述客户端,包括:按照预设规则对各个目标数据进行分组或排序;将分组或排序后的目标数据发送至所述客户端。示例性的,根据数据检索请求确定的目标数据为某班级所有学生的数学成绩,则当数据汇聚管理器接收到每个数据管理系统发送的目标数据后,数据汇聚管理器可对接收到的各个目标数据进行排序,如按照数学成绩从高到低的顺序对目标数据进行排序,并将排序后的目标数据发送至客户端。又示例性的,根据数据检索请求确定的目标数据为六年级6个班级中语文成绩及格的所有学生的具体成绩,则当数据汇聚管理器接收到每个数据管理系统发送的目标数据后,数据汇聚管理器可对接收到的各个目标数据进行分组,如按照班级对目标数据进行分组,并将分组后的目标数据发送至客户端。
本发明实施例提供的数据检索方法,应用于数据检索系统,所述数据检索系统包括数据汇聚管理器和服务器,所述服务器包括至少两个数据管理系统,所述方法包括:当所述数据汇聚管理器接收到客户端发送的数据检索请求时,将所述数据检索请求发送所述至少两个数据管理系统;所述至少两个数据管理系统中,每个数据管理系统基于所述数据检索请求进行数据检索,确定目标数据,并将所述目标数据发送至所述数据汇聚管理器;所述数据汇聚管理器接收所述至少两个数据管理系统中每个数据管理系统发送的目标数据,并将各个目标数据发送至所述客户端。通过采用上述技术方案,可以在多个数据管理系统中实现对数据的并行检索,可大大提高数据检索的性能,实现更高效地数据检索。
实施例三
图3是本发明实施例三提供的一种数据存储系统的结构示意图。如图3所示,所述数据存储系统,包括:数据分发分片管理器310和服务器320,所述服务器320包括核心运算器区域321、内存区域322、存储区域323及至少两个数据管理系统324;其中,所述数据管理系统324的数量与所述核心运算器区域321中包含的核心运算器的数据相同,每个数据管理系统对应占用一个核心运算器;所述至少两个数据管理系统324中,每个数据管理系统共用所述内存区域322和所述存储区域323;所述数据分发分片管理器310,用于将待存储数据分发至所述至少两个数据管理系统324中;所述至少两个数据管理系统324中,每个数据管理系统将分发到自身数据管理系统的子数据存储至与所述数据管理系统对应的存储区域中;每个核心预算器对占用所述核心运算器的数据管理系统中的数据进行管理。
在本发明实施例中,服务器320内部的核心运算器区域内包含多个核心运算器,本发明实施例对核心运算器的数量不做限定,例如,可以是48个核心运算器,也可以是16个核心运行器,当然还可以是24个或32个核心运算器。数据管理系统的数量可与核心运算器的数量相同,且每个数据管理系统对应占用一个核心运算器。可以理解的是,每个核心运算器用于支撑占用所述核心运算器的数据管理系统的正常运行,如使对数据管理系统进行数据管理,这样可以使得,在单个服务器环境下,通过核心运算器可以同时运行多个数据管理系统。在至少两个数据管理系统中,每个数据管理系统共用服务器内的内存区域和存储区域。示例性的,服务器内包含4个数据管理系统,服务器内的内存区域大小为128MB,则4个数据管理系统共用该128MB的内存区域,如每个数据管理系统分配32MB的子内存区域,作为自身数据管理系统的数据内存区域。同样的,服务器内的存储区域大小为256GB,则4个数据管理系统共用该256GB的存储区域,如每个数据管理系统分配64GB的子存储区域,作为自身数据管理系统的数据存储区域。需要说明的是,在多个数据管理系统共用服务器的内存区域和存储区域时,可将内存区域和存储区域平均分配给各个数据管理系统,也可随机分配给各个数据管理系统。
示例性的,数据分发分片管理器310获取待存储数据,例如,带有数据入库功能的数据分发分片管理器,根据外部数据路径指向,读取外部数据,并对外部数据进行外部数据预处理(如对外部数据进行过滤操作),得到待存储数据。然后根据待存储数据的标识信息,如能够唯一标识该存储数据的某特征信息,将待存储数据均衡地分发至至少两个数据管理系统324中,每个数据管理系统将分发至自身的数据存储至存储区域中。在将待存储数据分发至各个数据管理系统进行存储后,各个数据管理系统可单独对其所管辖的数据进行管理操作。
本发明实施例提供的数据存储系统,不仅能够解决传统的数据管理系统在单一的硬件服务器环境下,由一套数据管理系统管理该环境下的所有数据,该数据管理系统所承担的数据量为此硬件服务器的存储空间的所有量,其数据量级非常大的技术问题,还解决了单数据管理系统出现严重资源负载、资源排队、资源拥堵的问题或死机、宕机等各类问题风险,可以实现在单一的硬件服务器系统环境下,由多套数据管理系统各自管理各自分片的数据,有效提升数据入库和存储的性能。
实施例四
图4是本发明实施例四提供的一种数据检索系统的结构示意图。如图4所示,所述数据检索系统,包括:数据汇聚管理器410和服务器420,所述服务器420包括核心运算器区域421、内存区域422、存储区域423及至少两个数据管理系统424;其中,所述数据管理系统424的数量与所述核心运算器区域421中包含的核心运算器的数据相同,每个数据管理系统对应占用一个核心运算器;所述至少两个数据管理系统424中,每个数据管理系统共用所述内存区域和所述存储区域;所述数据汇聚管理器410,用于接收客户端发送的数据检索请求,并将所述数据检索请求发送至所述至少两个数据管理系统424中;所述至少两个数据管理系统424中,每个数据管理系统用于存储数据,并基于所述数据检索请求进行数据检索,确定目标数据,并将所述目标数据发送至所述数据汇聚管理器410;每个核心预算器对占用所述核心运算器的数据管理系统中的数据进行管理。
在本发明实施例中,该数据检索系统中的服务器420的内部结构及组成与上述实施例提供的数据存储系统中的服务器320的内部结构及组成相同,在此不对数据检索系统中的服务器420进行详细描述。
示例性的,数据汇聚管理器410接收客户端发送的数据检索请求,并将该数据检索请求发送至至少两个数据管理系统424中,每个数据管理系统接收到数据检索请求后,根据该数据检索请求在各自数据管理系统中的存储数据(该存储数据存储在各自数据管理系统对应占用的存储区域中)中进行数据检索,确定与数据检索请求对应的目标数据。然后各个数据管理系统将各自确定的目标数据发送至数据汇聚管理器410中。数据汇聚管理器410可将接收的各个目标数据直接发送至客户端,也可按照预设规则对各个目标数据进行排序或分组后,将排序或分组后的目标数据发送至客户端。
本发明实施例提供的数据检索系统,可通过数据汇聚管理器,在多个数据管理系统中实现对数据的并行检索,可大大提高数据检索的性能,实现更高效地数据检索。
实施例五
本发明实施例五提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于数据存储方法或数据检索方法。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的数据存储操作或数据检索操作,还可以执行本发明任意实施例所提供的数据存储方法或数据检索方法中的相关操作。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种数据存储方法,其特征在于,应用于数据存储系统,所述数据存储系统包括数据分发分片管理器和服务器,所述服务器包括至少两个数据管理系统,每个数据管理系统包括数据存储区域,所述方法包括:
所述数据分发分片管理器获取待存储数据及所述待存储数据的标识信息;
所述数据分发分片管理器基于所述标识信息将所述待存储数据分发至所述至少两个数据管理系统中;
所述至少两个数据管理系统中,每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据存储区域。
2.根据权利要求1所述的方法,其特征在于,获取待存储数据及所述待存储数据的标识信息,包括:
获取待存储数据及所述待存储数据的数据信息;
根据所述数据信息生成与所述待存储数据唯一对应的主键;
将所述主键作为所述待存储数据的标识信息。
3.根据权利要求1所述的方法,其特征在于,获取待存储数据包括:
读取原始数据;
按照预设规则对所述原始数据进行过滤处理,将过滤处理后的原始数据作为待存储数据。
4.根据权利要求1所述的方法,其特征在于,每个数据管理系统还包括数据内存区域;
每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据存储区域,包括:
每个数据管理系统将分发到自身数据管理系统的子数据存储至所述数据管理系统中的数据内存区域;
当所述数据内存区域的当前可用空间小于预设阈值时,将所述子数据转存至所述数据管理系统中的数据存储区域。
5.一种数据检索方法,其特征在于,应用于数据检索系统,所述数据检索系统包括数据汇聚管理器和服务器,所述服务器包括至少两个数据管理系统,所述方法包括:
当所述数据汇聚管理器接收到客户端发送的数据检索请求时,将所述数据检索请求发送所述至少两个数据管理系统;
所述至少两个数据管理系统中,每个数据管理系统基于所述数据检索请求进行数据检索,确定目标数据,并将所述目标数据发送至所述数据汇聚管理器;
所述数据汇聚管理器接收所述至少两个数据管理系统中每个数据管理系统发送的目标数据,并将各个目标数据发送至所述客户端。
6.根据权利要求5所述的方法,其特征在于,将各个目标数据发送至所述客户端,包括:
按照预设规则对各个目标数据进行分组或排序;
将分组或排序后的目标数据发送至所述客户端。
7.一种数据存储系统,其特征在于,包括:数据分发分片管理器和服务器,所述服务器包括核心运算器区域、内存区域、存储区域及至少两个数据管理系统;
其中,所述数据管理系统的数量与所述核心运算器区域中包含的核心运算器的数据相同,每个数据管理系统对应占用一个核心运算器;
所述至少两个数据管理系统中,每个数据管理系统共用所述内存区域和所述存储区域;
所述数据分发分片管理器,用于将待存储数据分发至所述至少两个数据管理系统中;
所述至少两个数据管理系统中,每个数据管理系统将分发到自身数据管理系统的子数据存储至与所述数据管理系统对应的存储区域中;
每个核心预算器对占用所述核心运算器的数据管理系统中的数据进行管理。
8.一种数据检索系统,其特征在于,包括:数据汇聚管理器和服务器,所述服务器包括核心运算器区域、内存区域、存储区域及至少两个数据管理系统;
其中,所述数据管理系统的数量与所述核心运算器区域中包含的核心运算器的数据相同,每个数据管理系统对应占用一个核心运算器;
所述至少两个数据管理系统中,每个数据管理系统共用所述内存区域和所述存储区域;
所述数据汇聚管理器,用于接收客户端发送的数据检索请求,并将所述数据检索请求发送至所述至少两个数据管理系统中;
所述至少两个数据管理系统中,每个数据管理系统用于存储数据,并基于所述数据检索请求进行数据检索,确定目标数据,并将所述目标数据发送至所述数据汇聚管理器;
每个核心预算器对占用所述核心运算器的数据管理系统中的数据进行管理。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的数据存储方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求5-6中任一所述的数据检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811366138.8A CN109522310A (zh) | 2018-11-16 | 2018-11-16 | 数据存储、检索方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811366138.8A CN109522310A (zh) | 2018-11-16 | 2018-11-16 | 数据存储、检索方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522310A true CN109522310A (zh) | 2019-03-26 |
Family
ID=65777958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811366138.8A Pending CN109522310A (zh) | 2018-11-16 | 2018-11-16 | 数据存储、检索方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522310A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102546755A (zh) * | 2011-12-12 | 2012-07-04 | 华中科技大学 | 云存储系统的数据存储方法 |
CN103455619A (zh) * | 2013-09-12 | 2013-12-18 | 焦点科技股份有限公司 | 一种基于Lucene分片结构的打分处理方法及系统 |
CN103927265A (zh) * | 2013-01-04 | 2014-07-16 | 深圳市龙视传媒有限公司 | 一种内容分级存储装置、内容获取方法及内容获取装置 |
CN104123300A (zh) * | 2013-04-26 | 2014-10-29 | 上海云人信息科技有限公司 | 数据分布式存储系统及方法 |
CN105069084A (zh) * | 2015-07-31 | 2015-11-18 | 南威软件股份有限公司 | 一种面向海量数据高效取差集的方法 |
-
2018
- 2018-11-16 CN CN201811366138.8A patent/CN109522310A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102546755A (zh) * | 2011-12-12 | 2012-07-04 | 华中科技大学 | 云存储系统的数据存储方法 |
CN103927265A (zh) * | 2013-01-04 | 2014-07-16 | 深圳市龙视传媒有限公司 | 一种内容分级存储装置、内容获取方法及内容获取装置 |
CN104123300A (zh) * | 2013-04-26 | 2014-10-29 | 上海云人信息科技有限公司 | 数据分布式存储系统及方法 |
CN103455619A (zh) * | 2013-09-12 | 2013-12-18 | 焦点科技股份有限公司 | 一种基于Lucene分片结构的打分处理方法及系统 |
CN105069084A (zh) * | 2015-07-31 | 2015-11-18 | 南威软件股份有限公司 | 一种面向海量数据高效取差集的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10432639B1 (en) | Security management for graph analytics | |
US11423053B2 (en) | Log event cluster analytics management | |
US8543596B1 (en) | Assigning blocks of a file of a distributed file system to processing units of a parallel database management system | |
US9940356B2 (en) | Efficient join-filters for parallel processing | |
JP5850044B2 (ja) | 情報処理装置、分散ファイルシステム、クライアント装置、情報処理方法、および、コンピュータ・プログラム | |
CN106537350A (zh) | 用于处理数据处理系统中的数据质量异常的方法 | |
CN107122238B (zh) | 基于Hadoop云计算框架的高效迭代机制设计方法 | |
CN106960020A (zh) | 一种创建索引表的方法及设备 | |
Nikolaev et al. | Pushing the envelope in distributed ns-3 simulations: One billion nodes | |
CN107203623B (zh) | 网络爬虫系统的负载均衡调节方法 | |
CN105550180B (zh) | 数据处理的方法、装置及系统 | |
Ashokkumar et al. | Derived genetic key matching for fast and parallel remote patient data accessing from multiple data grid locations | |
Aggarwal et al. | Gconnect: A connectivity index for massive disk-resident graphs | |
CN114127707A (zh) | 用于处理写请求的系统、计算节点和方法 | |
Merrillees et al. | Stratified sampling for extreme multi-label data | |
CN109522310A (zh) | 数据存储、检索方法、系统及存储介质 | |
US11966363B2 (en) | Systems and methods for scaling beyond maximum number of unique object identifiers in single content repository | |
CN104850658B (zh) | 一种数据填充方法及系统 | |
KR101718739B1 (ko) | 이기종 하둡을 위한 동적 데이터 복제 시스템 및 방법 | |
CN111221814A (zh) | 二级索引的构建方法、装置及设备 | |
CN110019054A (zh) | 日志去重方法和系统、内容分发网络系统 | |
US10019472B2 (en) | System and method for querying a distributed dwarf cube | |
Danilowicz et al. | Consensus methods for solving inconsistency of replicated data in distributed systems | |
Abul-Basher et al. | TGDB: towards a benchmark for graph databases | |
CN109522289A (zh) | 副本的存放处理方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190326 |
|
RJ01 | Rejection of invention patent application after publication |