CN111562889B - 数据处理方法、装置、系统及存储介质 - Google Patents
数据处理方法、装置、系统及存储介质 Download PDFInfo
- Publication number
- CN111562889B CN111562889B CN202010407382.5A CN202010407382A CN111562889B CN 111562889 B CN111562889 B CN 111562889B CN 202010407382 A CN202010407382 A CN 202010407382A CN 111562889 B CN111562889 B CN 111562889B
- Authority
- CN
- China
- Prior art keywords
- data
- data server
- cold
- server cluster
- cold data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
- G06F3/0607—Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0646—Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
- G06F3/0647—Migration mechanisms
- G06F3/0649—Lifecycle management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种数据处理方法、装置、系统及存储介质。方案如下:在数据处理系统中的热数据服务器集群所存储的数据中存在冷数据的情况下,获取预设时间段内热数据服务器集群向数据处理系统中冷数据服务器集群迁移的数据量,作为历史数据迁移信息;根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定目标冷数据服务器集群;将冷数据迁移至目标冷数据服务器集群。通过本发明实施例提供的技术方案,解决了单个服务器集群提供的数据存储能力和数据运算能力无法满足项目中不断增长的数据处理需求的问题,从而通过跨机房部署提供更大规模的数据存储能力和数据运算能力。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置、系统及存储介质。
背景技术
目前,物联网项目和互联网项目一般采用单一服务器集群处理。然而,随着物联网技术和互联网技术的不断发展,物联网项目和互联网项目等项目中需要处理的数据的数据量不断增长。而单一服务器集群的存储能力和数据运算能力是有限的,这使得单个服务器集群提供的数据存储能力和数据运算能力无法满足项目中不断增长的数据处理需求。因此,需要对大数据服务器进行多个机房部署,通过跨机房部署提供更大规模的数据存储能力和数据运算能力。
发明内容
本发明实施例的目的在于提供一种数据处理方法、装置、系统及存储介质,以解决单个服务器集群提供的数据存储能力和数据运算能力无法满足项目中不断增长的数据处理需求的问题,从而通过跨机房部署提供更大规模的数据存储能力和数据运算能力。具体技术方案如下:
本发明实施例提供了一种数据处理方法,包括:
在数据处理系统中的热数据服务器集群所存储的数据中存在冷数据的情况下,获取预设时间段内所述热数据服务器集群向所述数据处理系统中冷数据服务器集群迁移的数据量,作为历史数据迁移信息;
根据所述历史数据迁移信息,以及所述数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从所述多个冷数据服务器集群中确定目标冷数据服务器集群;
将所述冷数据迁移至所述目标冷数据服务器集群,以使所述目标冷数据服务器集群存储所述冷数据。
可选的,所述方法还包括:
计算所述数据处理系统中多个冷数据服务器集群间内存容量的第一比例,以及所述多个冷数据服务器集群间硬盘容量的第二比例;
根据所述第一比例和所述第二比例,确定所述多个冷数据服务器集群间的预设迁移数据量比例。
可选的,所述根据所述第一比例和所述第二比例,确定所述多个冷数据服务器集群间的预设迁移数据量比例,包括:
针对每一冷数据服务器集群,选取第一占比值和第二占比值中较小的占比值,作为该冷数据服务器集群的目标占比值,其中,第一占比值为每一冷数据服务器集群在所述第一比例中对应的占比值,第二占比值为每一冷数据服务器集群在所述第二比例中对应的占比值;
将所述多个冷数据服务器集群间的目标占比值之比确定为所述多个冷数据服务器集群间的预设迁移数据量比例。
本发明实施例还提供了一种数据处理装置,包括:
获取模块,用于在数据处理系统中的热数据服务器集群所存储的数据中存在冷数据的情况下,获取预设时间段内所述热数据服务器集群向所述数据处理系统中冷数据服务器集群迁移的数据量,作为历史数据迁移信息;
第一确定模块,用于根据所述历史数据迁移信息,以及所述数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从所述多个冷数据服务器集群中确定目标冷数据服务器集群;
迁移模块,用于将所述冷数据迁移至所述目标冷数据服务器集群,以使所述目标冷数据服务器集群存储所述冷数据。
可选的,所述装置还包括:
计算模块,用于计算所述数据处理系统中多个冷数据服务器集群间内存容量的第一比例,以及所述多个冷数据服务器集群间硬盘容量的第二比例;
第二确定模块,用于根据所述第一比例和所述第二比例,确定所述多个冷数据服务器集群间的预设迁移数据量比例。
可选的,所述第二确定模块,具体用于针对每一冷数据服务器集群,选取第一占比值和第二占比值中较小的占比值,作为该冷数据服务器集群的目标占比值,其中,第一占比值为每一冷数据服务器集群在所述第一比例中对应的占比值,第二占比值为每一冷数据服务器集群在所述第二比例中对应的占比值;将所述多个冷数据服务器集群间的目标占比值之比确定为所述多个冷数据服务器集群间的预设迁移数据量比例。
本发明实施例还提供了一种数据处理装置,包括处理器、存储器和计算机程序,存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行上述任一所述的数据处理方法步骤。
本发明实施例还提供了一种数据处理系统,包括热数据服务器集群和冷数据服务器集群;
所述热数据服务器集群包括所述的数据处理装置;
所述冷数据服务器集群,用于存储冷数据。
可选的,所述热数据服务器集群,还用于在接收到针对所述数据处理系统中其他服务器集群的模式调整指令时,基于所述模式调整指令中的配置信息,调整所述其他服务器集群的工作模式。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的数据处理方法步骤。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据处理方法。
本发明实施例有益效果:
本发明实施例提供的数据处理方法、装置、系统及存储介质,当数据处理系统中的热数据服务器集群所存储的数据中存在冷数据时,热数据服务器集群根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定出目标冷数据服务器集群,从而将热数据服务器集群中的冷数据迁移并存储至目标冷数据服务器集群,这使得在跨机房部署时可以部署多个冷数据服务器集群,从而借助部署的多个冷数据服务器集群承接热数据服务器集群基于历史数据迁移信息和预设迁移数据量比例迁移出的冷数据,在保证迁移至每一冷数据服务器集群的冷数据的数据量符合预设迁移数据量比例的前提下,有效减少热数据服务器集群中存储的数据的数据量,弹性扩充了热数据服务器集群的数据存储能力和数据运算能力,解决了单个服务器集群提供的数据存储能力和数据运算能力无法满足项目中不断增长的数据处理需求的问题,从而通过跨机房部署提供更大规模的数据存储能力和数据运算能力。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据处理系统的一种结构示意图;
图2为本发明实施例提供的数据处理方法的第一种流程示意图;
图3为本发明实施例提供的数据处理方法的第二种流程示意图;
图4为本发明实施例提供的数据查询方法的一种流程示意图;
图5为本发明实施例提供的数据处理装置的第一种结构示意图;
图6为本发明实施例提供的数据处理装置的第二种结构示意图;
图7为本发明实施例提供的数据处理系统的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决单个服务器集群提供的数据存储能力和数据运算能力无法满足项目中不断增长的数据处理需求的问题,本发明实施例提供了一种数据处理方法。该方法应用于数据处理系统,该数据处理系统包括热数据服务器集群和多个冷数据服务器集群。在本发明实施例提供的方法中,数据处理系统中的热数据服务器集群在其所存储的数据中存在冷数据的情况下,获取预设时间段内热数据服务器集群向数据处理系统中冷数据服务器集群迁移的数据量,作为历史数据迁移信息;根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定目标冷数据服务器集群;将冷数据迁移至目标冷数据服务器集群。目标冷数据服务器集群存储该冷数据。
上述数据处理系统还可以包括安装有该数据处理系统中服务器集群所对应的上层应用的客户端,该客户端包括但不限于手机和电脑。
上述数据处理系统中包括的热数据服务器集群和多个冷数据服务器集群分别部署于单个实体机房中,也就是热数据服务器集群可以表示一个实体机房,每一个冷数据服务器集群也可以表示为一个实体机房。每一实体机房可以由多个服务器共同构成,也就是每一热数据服务器集群和每一冷数据服务器集群中可以包括多个服务器。针对每一热数据服务器集群或每一冷数据服务器集群中包括的多个服务器,根据服务器的功能、性能等特性可以将不同的服务器划分为不同类型的服务器子集群,即每一热数据服务器集群和每一冷数据服务器集群中可以包括多个类型服务器子集群。
为便于理解,以图1为例进行说明,图1为本发明实施例提供的数据处理系统的一种结构示意图。如图1所示的热数据服务器集群对应一个实体机房,如机房1,冷数据服务器集群A-C也分别对应一个实体机房,如机房2-4。热数据服务器集群所在的机房1中包括多个服务器,即图1所示的服务器1、服务器2、服务器3、服务器4和服务器5等。冷数据服务器集群A-C所在机房2-4中也包括多个服务器,如冷数据服务器集群A中包括的服务器A1、服务器A2和服务器A3。根据图1所示的热数据服务器集群和冷数据服务器集群A-C中包括的每一服务器的功能、性能等特征,可以将热数据服务器集群和冷数据服务器集群A-C中的服务器划分为多个类型服务器子集群,以热数据服务器集群为例,可以将热数据服务器集群中的服务器1和服务器2划分为卡夫卡(kafka)集群,将服务器3和服务器4划分为计算引擎(spark)集群。每一热数据服务器集群和每一冷数据服务器集群中的不同类型的服务器子集群包括但不限于kafka集群、spark集群、分布式存储数据库(Hadoop Database,Hbase)集群、xface。其中,xface为基于网络(web)技术的移动应用开发平台。关于图1中客户端的作用可参见下文对客户端的描述,在此不作具体说明。
在本发明实施例中,上述热数据服务器集群和每一冷数据服务器集群中分别包括多个服务器。以热数据服务器集群为例,针对该热数据服务器集群中包括的多个服务器,可以利用虚拟化技术,将多个服务器组成一个虚拟化集群,即该热数据服务器集群,进而由该热数据服务器集群对每一服务器对应的数据存储或数据运算等进行统一管理。下文分别以热数据服务器集群和冷数据服务器集群作为执行主体,对本发明实施例提供的数据处理方法进行说明。另外,在此,对虚拟化处理过程不作具体说明。
在本发明实施例中,根据上述数据处理系统中各个服务器集群的工作模式的不同,热数据服务器集群所提供的功能将与冷数据服务器集群所提供的功能存在一定的差异。例如,上述热数据服务器集群可以利用不同类型的大数据服务接口提供不同的功能,如静态库的采集、查询、统计等功能。再例如,上述冷数据服务器集群可以提供冷数据存储、查询等功能。根据上述数据处理系统具体应用场景的不同,上述热数据服务器集群和冷数据服务器集群对应提供的功能也有所不同,在此不作具体说明。
另外,针对上述数据处理系统在进行跨机房部署时,该数据处理系统中的任一机房均可以部署为热数据服务器集群或冷数据服务器集群。可选的,为了使得跨机房部署后的数据处理系统中的热数据服务器集群的数据存储能力和数据计算能力最优,可以将硬件资源大于预设硬件资源的机房的角色部署为热数据服务器集群。将硬件资源不大于预设硬件资源的机房的角色部署为冷数据服务器集群。
在本发明实施例中,上述跨机房部署后的数据处理系统中每一机房设置有对应的工作模式,如工作模式为1的机房的角色为热数据服务器集群,工作模式为0的机房的角色为冷数据服务器集群,工作模式为-1的机房的角色既不是热数据服务器集群,也不是冷数据服务器集群。在此,对机房的工作模式不作具体限定。
上述数据处理系统还可以包括其他服务器集群,即除上述热数据服务器集群和冷数据服务器集群以外的服务器集群。上述热数据服务器集群在接收到针对数据处理系统中的某一其他服务器集群的模式调整指令时,可以基于该模式调整指令中的配置信息,调整其他服务器集群的工作模式。
一个可选的实施例中,热数据服务器集群可以基于接收到的针对某一其他服务器集群的模式调整指令,可以根据该调整指令中的配置信息,将该其他服务器集群的工作模式调整为冷数据服务器集群的工作模式,也就是将该其他服务集群部署为冷数据服务器集群。
若其他服务器集群的工作模式为-1,也就是该其他服务器集群既不是热数据服务器集群,也不是冷数据服务器集群。当热数据服务器集群接收到针对该其他服务器接收到模式调整指令时,可以将工作模式将由-1调整为上述工作模式0,即冷数据服务器集群的工作模式。此时,该其他服务器集群角色变更为冷数据服务器集群。
上述在对每一机房的工作模式进行调整时,还伴随着连接关系的调整。例如,现将一工作模式为-1的机房的工作模式调整为0,即将该机房调整为上述数据处理系统中的冷数据服务器集群。此时,需要对该机房的连接关系进行调整,也就是建立该机房与热数据服务器集群所对应的机房之间的连接关系。
在对上述其他服务器集群的工作模式进行调整时,可以由上述数据处理系统中的一个服务完成,该服务可以部署在任一服务器集群中。由于上述热数据服务器集群的性能最优,为了提高该服务的性能,在上述实施例中将该服务部署在热数据服务器集群中。另外,在上述模式调整指令中包括有用户输入的配置信息,上述对其他服务器集群的工作模式的调整,以及上述连接关系的建立均依赖于该配置信息。也就是上述服务根据模式调整指令中的配置信息,建立其他服务器集群与热数据服务器集群间的连接关系,并将其他服务器集群的角色调整为冷数据服务器集群。
可选的,在上述数据处理系统中,由于热数据服务器集群为所有服务器集群中数据存储能力和数据计算能力最优的,因此,上述在对上述其他服务器集群的工作模式进行调整时,主要是将该其他服务器集群的角色调整为冷数据服务器集群,从而弹性扩充热数据服务器集群的数据存储能力和数据运算能力。除此以外,在对上述其他服务器集群的工作模式进行调整时,还可以将其他服务器集群的角色调整为热数据服务器集群。此时,数据处理系统中原热数据服务器集群的工作模式可以由1调整为0,或者由1调整为-1。
例如,随着技术的进步,新部署的机房所对应的数据存储能力和数据运算能力要优于上述数据处理系统中的热数据服务器集群对应机房的数据存储能力和数据运算能力。此时,可以对新部署的机房和数据处理系统中的热数据服务器集群对应机房的工作模式进行调整。在调整过程中,除了需要对上述连接关系的调整以外,还需要进行数据迁移,即将数据处理系统中原热数据服务器集群中的数据迁移至新部署的机房中,关于数据迁移的过程在此不作具体说明。
通过上述对其他服务器集群的工作模式调整,增加了数据处理系统中的服务器集群的数量,这可以实现对数据处理系统扩容,整体提高了数据处理系统的数据存储能力和数据计算能力。
在本发明实施例中,可以通过增加数据处理系统中冷数据服务器集群的数量的方式,扩展数据处理系统的数据存储能力和数据处理能力,这有效降低了对数据处理系统中每一服务器集群硬件条件的要求,提高了跨机房部署的灵活性。
在本发明实施例中,上述热数据服务器集群中存储有热数据,冷数据服务器集群中存储有冷数据。可选的,热数据为访问的频次较高,距离当前时间的较近的数据。冷数据为访问频次较低,距离当前时间的较远的数据。关于热数据和冷数据的区分方法,可参见下文描述,在此不作具体说明。
在本发明实施例提供的数据处理系统中,当数据处理系统中的热数据服务器集群所存储的数据中存在冷数据时,热数据服务器集群根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定出目标冷数据服务器集群,从而将热数据服务器集群中的冷数据迁移并存储至目标冷数据服务器集群,这使得在跨机房部署时可以部署多个冷数据服务器集群,从而借助部署的多个冷数据服务器集群承接热数据服务器集群基于历史数据迁移信息和预设迁移数据量比例迁移出的冷数据,在保证迁移至每一冷数据服务器集群的冷数据的数据量符合预设迁移数据量比例的前提下,有效减少热数据服务器集群中存储的数据的数据量,弹性扩充了热数据服务器集群的数据存储能力和数据运算能力,解决了单个服务器集群提供的数据存储能力和数据运算能力无法满足项目中不断增长的数据处理需求的问题,从而通过跨机房部署提供更大规模的数据存储能力和数据运算能力。
下面通过具体的实施例,对本发明实施例进行说明。
如图2所示,图2为本发明实施例提供的数据处理方法的第一种流程示意图。该方法应用于上述数据处理系统中的热数据服务器集群。该方法包括以下步骤。
步骤S201,在数据处理系统中的热数据服务器集群所存储的数据中存在冷数据的情况下,获取预设时间段内热数据服务器集群向数据处理系统中冷数据服务器集群迁移的数据量,作为历史数据迁移信息。
在本步骤中,热数据服务器集群可以接收数据处理系统以外的其他设备发送的数据,并对接收到的数据进行存储。在热数据服务器集群中,数据在被存储在热数据服务器集群中的一定时间内,该数据属于热数据。但是,当该数据长时间没有被访问或获取时,可以确定该数据转变为冷数据。热数据服务器集群实时检测其存储的数据中是否存在冷数据。当其存储的数据中存在冷数据时,热数据服务器集群可以获取预设时间段内该热数据服务器集群向数据处理系统中的冷数据服务器集群迁移的数据量,作为历史数据迁移信息。也就是获取预设时间段内从热数据服务器集群迁移到冷数据服务器集群的数据量,作为历史数据迁移信息。
上述热数据服务器集群中存储的数据包括但不限于视频数据和图像数据等。在此,对上述热数据服务器集群中存储的数据不作具体限定。
上述历史数据迁移信息还可以包括冷数据与该冷数据迁移到的冷数据服务器集群的对应关系,冷数据的采集时间等信息。其中,冷数据的采集时间可以为上述其他设备采集到该冷数据对应的时间,也可以为热数据服务器集群接收到上述其他设备发送该冷数据的时间。如表1所示,表1为本发明实施例提供的一种历史数据迁移信息的记录方式。
表1
一个可选的实施例中,热数据服务器集群每一次将冷数据迁移到冷数据服务器集群后,可以根据每一次迁移具体情况,如迁移的数据量、迁移到的冷数据服务器集群等,生成并存储历史数据迁移信息,如生成并存储表1所示的历史数据迁移信息。热数据服务器集群在检测到其存储的数据中存在冷数据时,可以获取预设时间段对应的历史数据迁移信息。例如,根据表1所示的历史数据迁移信息,获取迁移时间在预设时间段内的历史数据迁移信息。
另一个可选的实施例中,热数据服务器集群可以统计预设时间段内向冷数据服务器集群迁移的数据量,得到该预设时间段内的历史数据迁移信息。
在本发明实施例中,上述预设时间段可以根据实际应用场景、用户需求等进行设定。在此,对上述预设时间不作具体限定。
一个可选的实施例中,若检测到上述热数据服务器集群中存储的数据不存在冷数据,则热数据服务器集群可以不对其存储的数据进行处理,即不进行数据迁移。
步骤S202,根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定目标冷数据服务器集群。
在本步骤中,热数据服务器集群可以根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从数据处理系统中的多个冷数据服务器集群中选择一个或多个冷数据服务器集群,作为目标冷数据服务器集群。在此,对选取出的目标冷数据服务器集群的数量不作具体限定。
上述预设迁移数据量比例可以是根据每一冷数据服务器集群的存储能力计算得到的比例值。也可以是根据用户自定义的比例值。另外,在实际应用过程中,上述数据处理系统可以实时接收其他设备发送的数据,如在监控领域中,数据处理系统每时每刻都接收到监控设备发送的监控数据。一般而言,相同时间周期内,数据处理系统所接收到的数据的数据量应该是相同的。因此,上述预设迁移数据量比例也可以为在时间周期上的比例值,以多个冷数据服务器集群为集群A、集群B和集群C,预设迁移数据量比例为1:2:3为例进行说明,每一时间周期为1天。该预设迁移数据量比例可以表示为集群A中存储一天的冷数据,集群B中存储两天的冷数据,集群C中存储的三天的冷数据。在此,对上述预设迁移数据量比例不作具体限定。
步骤S203,将冷数据迁移至目标冷数据服务器集群,以使目标冷数据服务器集群存储冷数据。
在本步骤中,热数据服务器集群可以将冷数据发送给目标冷数据服务器集群。目标冷数据服务器集群接收并存储该冷数据。热数据服务器集群在确定冷数据已经存储到目标冷数据服务器集群后,从存储的数据中删除该冷数据,完成冷数据的迁移过程。
一个可选的实施例中,热数据服务器集群中可以存储有每一冷数据服务器集群的地址信息,如kafka地址。热数据服务器集群可以根据存储的目标冷数据服务器集群的地址信息,将冷数据发送给该目标冷数据服务器集群。
一个可选的实施例中,为了保证冷数据迁移的成功率,热数据服务器集群在将冷数据发送给目标冷数据服务器集群后,可以检测该冷数据是否写入冷数据服务器集群,若是,则删除存储的冷数据;若否,则重新执行上述步骤S202或步骤S203。
一个可选的实施例中,当上述步骤S202选取出的目标冷数据服务器集群的数量为多个时,热数据服务器集群在将上述冷数据迁移值目标冷数据服务器集群时,可以按照预设顺序或随机从多个目标冷数据服务器集群中选取一个目标冷数据服务器集群,并将上述冷数据迁移至该目标冷数据服务器集群中。另外,当热数据服务器集群检测到该冷数据未写入该冷数据服务器集群,将重新选取一目标冷数据服务器集群,并将该冷数据迁移至该目标冷数据服务器集群。
在本发明实施例中,热数据服务器集群可以采用多种方式将冷数据迁移至目标冷数据服务器集群。具体可参见下文描述,在此不作具体说明。
在本发明实施例中,上述在将冷数据迁移至目标冷数据服务器集群时,有且仅有一个目标冷数据服务器集群存储有热数据服务器集群迁移的冷数据。也就是每一冷数据服务器集群中存储的冷数据均是不同的。相比于全量同步的方式,降低了数据冗余,提高了每一冷数据服务集群的数据存储能力和数据处理能力,从而提高了每一冷数据服务器集群的资源利用率。
综上所述,采用图2所示的方法,当数据处理系统中的热数据服务器集群所存储的数据中存在冷数据时,热数据服务器集群根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定出目标冷数据服务器集群,从而将热数据服务器集群中的冷数据迁移并存储至目标冷数据服务器集群,这使得在跨机房部署时可以部署多个冷数据服务器集群,从而借助部署的多个冷数据服务器集群承接热数据服务器集群基于历史数据迁移信息和预设迁移数据量比例迁移出的冷数据,在保证迁移至每一冷数据服务器集群的冷数据的数据量符合预设迁移数据量比例的前提下,有效减少热数据服务器集群中存储的数据的数据量,弹性扩充了热数据服务器集群的数据存储能力和数据运算能力,解决了单个服务器集群提供的数据存储能力和数据运算能力无法满足项目中不断增长的数据处理需求的问题,从而通过跨机房部署提供更大规模的数据存储能力和数据运算能力。
一个可选的实施例中,上述热数据服务器集群可以采用如下步骤检测其存储的数据中是否存在冷数据。
步骤一,针对热数据服务器集群中存储的每一数据,按照预设时间间隔,判断该数据的存储时长是否大于预设时间阈值。若是,则执行步骤二。若否,则执行步骤三。
在本步骤中,针对热数据服务器集群中存储的每一数据,热数据服务器集群可以按照预设时间间隔,将存储的每一数据对应的存储时长与预设时间阈值进行比较,判断该存储时长是否大于预设时间阈值。
上述每一数据对应的存储时长可以为当前时间与该数据的采集时间的时间差。
在本发明实施例中,上述预设时间阈值可以为一预设的时间点,也可以为预设的时间范围。上述预设时间间隔可以小于上述预设时间阈值。在此,对上述预设时间间隔和预设时间阈值不作具体限定。
以预设时间间隔为6天,预设时间阈值为30天为例进行说明,由于热数据存储到热数据服务器集群中的存储时长大于30天时,该热数据将变为冷数据,因此,为了保证热数据服务器集群对每一冷数据检测准确性和及时性,热数据服务器集群可以每隔6天检测其存储的数据的存储时长是否大于30天,也就是热数据服务器集群每隔6天,检测其存储的数据是否存在冷数据。
步骤二,将该数据确定为冷数据。
在本步骤中,当存储的某一数据的存储时长大于预设时间阈值时,热数据服务器集群可以确定该数据为冷数据。
步骤三,确定该数据为热数据。
在本步骤中,当存储的某一数据的存储时长不大于预设时间阈值时,热数据服务器集群可以确定该数据为热数据。
上述实施例中,当存储的每一数据的存储时长均不大于预设时间阈值时,热数据服务器集群可以确定存储的数据中不存在冷数据。
另一个可选的实施例中,为了缩短冷数据检测的时间,提高冷数据检测的效率,热数据服务器集群可以按照存储每一数据的时间,对存储的数据进行排序。在检测热数据服务器集群中存储的数据是否存在冷数据时,热数据服务器集群可以将存储时间在预设时间阈值之前的数据确定为冷数据。
在本发明实施例中,热数据服务器集群周期性根据预设时间阈值对存储的数据进行检测,可以准确的确定出存储的数据中的冷数据。
另一个可选的实施例中,上述冷数据的检测方法是根据存储的每一数据的存储时长对热数据服务器集群中存储的数据进行检测的。除此以外,热数据服务器集群还可以根据存储的每一数据被访问频次,确定存储的数据中是否存在冷数据。例如,将存储的每一数据的被访问频次与预设频次阈值进行比较。将被访问频次小于预设频次阈值的数据确定为冷数据。将访问频次不小于预设频次阈值的数据确定为热数据。
再一个可选的实施例中,热数据服务器集群可以综合存储的每一数据的被访问频次以及存储时长,确定存储的数据中是否存在冷数据。具体可参照上述检测方法,在此不作具体说明。
一个可选的实施例中,上述步骤S202,根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定目标冷数据服务器集群,可以包括以下步骤。
步骤一,判断数据处理系统的多个冷数据服务器集群中是否存在候选冷数据服务器集群。其中,候选冷数据服务器集群的已迁移数据量占比值小于预设迁移数据量比例中该候选冷数据服务器集群对应的占比值,已迁移数据量占比值为预设时间段内向候选冷数据服务器集群已迁移数据量在预设时间段内总迁移数据量中的占比。若是,则执行步骤二。若否,则执行步骤三。
在本步骤中,热数据服务器集群可以根据每一冷数据服务集群已迁移数据量的占比值以及上述预设迁移数据量比例,判断数据处理系统的多个冷数据服务器集群中是否存在候选冷数据服务器集群。也就是判断多个冷数据服务器集群中是否存在已迁移数据量占比值小于预设迁移数据量比例中对应的占比值的冷数据服务器集群。若存在,则确定该冷数据服务器集群为候选冷数据服务器集群,即多个冷数据服务器集群中存在候选冷数据服务器集群。
为方便理解,对上述步骤一进行举例说明。若上述大数据处理系统中包括3个冷数据服务器集群,分别为集群A、集群B和集群C。上述预设迁移数据量比例为2:3:5。也就是预设迁移数据量比例中,集群A的占比值为集群B的占比值为集群C的占比值为现假设预设时间段内每一冷数据服务器集群中已迁移数据量对应的比例为1:3:0,也就是集群A的占比值为集群B的占比值为集群C的占比值为由于0<50%,此时,热数据服务器集群可以将集群C确定为候选冷数据服务器集群。
在本发明实施例中,由于上述预设迁移数据量比例可以表示为在时间周期上的比例值,热数据服务器集群在确定候选冷数据服务器集群时,可以将预设时间段内迁移到每一冷数据服务器集群的数据的时间周期与预设迁移数据量比例不匹配的冷数据服务器集群,确定为候选冷数据服务集群。仍以上述集群A、集群B和集群C为例,若预设迁移数据量比例为1:2:3,预设时间段内迁移到集群A、集群B和集群C的数据对应的时间周期,分别为1:1:1。此时,热数据服务器集群可以将集群B和集群C确定为候选冷数据服务器集群。
上述多个冷数据服务器集群中的候选冷数据服务器集群的数量可以是一个,也可以是多个。在此,对上述候选冷数据服务器集群的数量不作具体限定。
步骤二,从候选冷数据服务器集群选取目标冷数据服务器集群。
在本步骤中,在确定存在候选冷数据服务器集群时,热数据服务器集群可以从候选冷数据服务器集群中选取一冷数据服务器集群作为目标冷数据服务器集群。
一个可选的实施例中,在选取上述目标冷数据服务器集群时,热数据服务器集群可以选取已迁移数据量占比值最小的候选冷数据服务器集群,作为目标冷数据服务器集群。
仍以上述集群A、集群B和集群C为例进行说明。若确定出的候选冷数据服务器集群为集群B和集群C,且集群B和集群C在预设迁移数据量比例中对应的占比值分别为10%和40%。由于10%<40%,热数据服务器集群可以将集群B确定为目标冷数据服务器集群。
另一个可选的实施例中,在选取上述目标冷数据服务器集群时,热数据服务器集群可以选取已迁移数据量占比值最大的候选冷数据服务器集群,作为目标冷数据服务器集群。
再一个可选的实施例中,在选取上述目标冷数据服务器集群时,热数据服务器集群可以随机从上述候选冷数据服务器集群选取一冷数据服务器集群,作为目标冷数据服务器集群。
在本发明实施例中,由于候选冷数据服务器集群的已迁移数据量占比值小于预设迁移数据量比例中该候选冷数据服务器集群对应的占比值,也就是迁移至候选冷数据服务器集群的数据量未达到预设迁移数据量比例所对应的数据量,这使得在将候选冷数据服务器集群作为目标冷数据服务器集群进行数据迁移时,可以降低了目标冷数据服务器集群存储的冷数据的数据量超过其数据存储能力的可能性,使得冷数据迁移更加合理,提高了每一冷数据服务器集群的资源利用率。
步骤三,从多个冷数据服务器集群中选取目标冷数据服务器集群。
在本步骤中,在确定不存在候选冷数据服务器集群时,热数据服务器集群可以从上述多个冷数据服务器集群中选取一冷数据服务器集群作为目标冷数据服务器集群。具体选取方法可以参照上述从候选冷数据服务器集群中选取目标冷数据服务器集群的方法。在此不作具体说明。
通过上述步骤一至步骤三提供的方法,热数据服务器集群基于预设迁移数据量比例,以及每一冷数据服务器集群对应的已迁移数据量占比值,可以准确的确定出多个冷数据服务器集群中是否存在候选冷数据服务器集群。从而从候选冷数据服务器集群中选取目标冷数据服务器集群,提高了冷数据迁移的有序性,提高了每一冷数据服务器集群的资源利用率。
一个可选的实施例中,针对上述步骤S203,将冷数据迁移至目标冷数据服务器集群,可以采用以下方式迁移冷数据。
方式一,在热数据服务器集群与目标冷数据服务器集群间存在用于数据传输的预设消息中间件时,热数据服务器集群可以将冷数据发送给预设消息中间件,以使预设消息中间件将冷数据转发给目标冷数据服务器集群。
上述预设消息中间件可以为逻辑实体,如kafka或具备持久化能力的消息中间件。上述预设消息中间件还可以为硬件实体,如集成有kafka或具备持久化能力的消息中间件的硬件设备。热数据服务器集群将冷数据以消息的形式发送给上述预设消息中间件,从而由预设消息中间件转发至目标冷数据服务器集群。
在本发明实施例中,借助上述预设消息中间件迁移冷数据,有效降低了冷数据丢失的概率。并且,在允许延时的情况下,可以进一步降低热数据服务器集群和冷数据服务器集群间的通信配置的要求,保证了数据数据处理系统的整体可用性。
方式二,热数据服务器集群可以将冷数据以文件的形式发送给目标冷数据服务器集群,目标冷数据服务器集群在接收到该文件后,可以对接收到的文件进行加载得到冷数据。
方式三,热数据服务器集群可以根据目标冷数据服务器集群的接口信息,向目标冷数据服务器集群发送冷数据。
在本发明实施例中,热数据服务器集群可以采用多种方式将冷数据迁移至目标冷数据服务器集群。在此,对冷数据迁移的方式不作具体限定。
一个可选的实施例中,基于图2所示的方法,本发明实施例还提供了一种数据处理方法。如图3所示,图3为本发明实施例提供的数据处理方法的第二种流程示意图。该方法应用于上述热数据服务器集群,具体包括以下步骤。
步骤S301,在数据处理系统中的热数据服务器集群所存储的数据中存在冷数据的情况下,获取预设时间段内热数据服务器集群向数据处理系统中冷数据服务器集群迁移的数据量,作为历史数据迁移信息。
上述步骤S301与上述步骤S201相同。
步骤S302,计算数据处理系统中多个冷数据服务器集群间内存容量的第一比例,以及多个冷数据服务器集群间硬盘容量的第二比例。
在本步骤中,热数据服务器集群可以确定上述数据处理系统中每一冷数据服务器集群对应的内存容量和硬盘容量,并计算多个冷数据服务器集群间内存容量的第一比例,以及多个冷数据服务器集群间硬盘容量的第二比例。
在本发明实施例中,对上述步骤S301和步骤S302的执行顺序不作具体限定。
步骤S303,根据第一比例和第二比例,确定多个冷数据服务器集群间的预设迁移数据量比例。
一个可选的实施例中,上述步骤S303,根据第一比例和第二比例,确定多个冷数据服务器集群间的预设迁移数据量比例,具体可以包括以下步骤。
步骤一,针对每一冷数据服务器集群,选取第一占比值和第二占比值中较小的占比值,作为该冷数据服务器集群的目标占比值,其中,第一占比值为每一冷数据服务器集群在第一比例中对应的占比值,第二占比值为每一冷数据服务器集群在第二比例中对应的占比值。
在本步骤中,针对上述数据处理系统中的每一冷数据服务器集群,热数据服务器集群可以确定该冷数据服务器集群在上述第一比例中对应的占比值,即内容容量在所有冷数据服务器集群的总内存容量中的占比值,得到第一占比值。热数据服务器集群还可以确定冷数据服务器集群在上述第二比例中对应的占比值,即硬盘容量在所有冷数据服务器集群的总硬盘容量中的占比值,得到第二占比值。热数据服务器集群可以选取每一冷数据服务器集群的第一占比值和第二占比值中较小的占比值,作为该冷数据服务器集群的目标占比值。
为方便理解,仍以上述集群A、集群B和集群C为例对预设迁移数据量比例的确定进行说明。若集群A、集群B和集群C间对应的第一比例为1:2:4,第二比例为1:3:3。热数据服务器集群可以确定集群A的第一占比值为集群B的第一占比值为集群C的第一占比值为集群A的第二占比值为集群B的第二占比值为集群C的第二占比值为由于集群A的第一占比值小于第二占比值,即集群B的第一占比值小于第二占比值,即集群C的第一占比值大于第二占比值,即热数据服务器集群可以确定集群A、集群B和集群C对应的目标占比值分别为 和
步骤二,将多个冷数据服务器集群间的目标占比值之比确定为多个冷数据服务器集群间的预设迁移数据量比例。
在本步骤中,热数据服务器集群可以根据每一冷数据服务器集群对应的目标占比值,确定多个冷数据服务器集群的目标占比值所对应的比值,并将该比值确定为多个冷数据服务器集群间的预设迁移数据量比例。
上述步骤一和步骤二中预设迁移数据量比例是基于木桶原理确定的。在本发明实施例中,内存存储属于非持久化存储,硬盘存储为持久化存储,并且,从内存读取冷数据的效率要高于从硬盘读取数据的效率。根据具体应用场景以及用户需求的不同,热数据服务器集群在向冷数据服务器集群迁移冷数据时,冷数据服务器集群可以将该冷数据存储至内存中,冷数据服务器集群也可以将该冷数据存储至硬盘中。进一步的,为便于后期的数据查询等操作,存储在内存中的冷数据也可以存储到硬盘中,例如,当内存中存储的冷数据的存储时长达到预设时长阈值时,冷数据服务器集群可以将该数据迁移至硬盘中存储。因此,为了使得热数据服务器集群向每一冷数据服务器集群的迁移的数据量不会超过该冷数据服务器集群的内存容量或硬盘容量所对应的最大值,根据上述利用木桶原理所确定的预设迁移数据量比例进行数据迁移,将使得每一冷数据服务器集群的存储资源得到最大化的利用,提高了冷数据服务器集群中硬件资源的利用率。
在上述实施例中,热数据服务器集群根据内存容量和硬盘容量确定上述预设迁移数量比例。除此以外,热数据服务器集群还可以考虑其他因素,如中央处理器(CentralProcessing Unit,CPU)核数等。
步骤S304,根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定目标冷数据服务器集群。
步骤S305,将冷数据迁移至目标冷数据服务器集群,以使目标冷数据服务器集群存储冷数据。
上述步骤S304-步骤S305与上述步骤S202-步骤S203相同。
通过图3所示的方法,热数据服务器集群按照预设迁移数据量比例将冷数据迁移到多个冷数据服务器集群时,根据每一冷数据服务器集群中各个服务器的硬件资源进行的数据迁移过程,也就是根据每一冷数据服务器集群中各个服务器的内存容量和硬盘容量进行的数据迁移过程,这充分利用了数据处理系统中各个服务器的硬件资源,而不是将冷数据均分到多个冷数据服务器集群中,提高了硬件资源的利用率。
一个可选的实施例中,热数据服务器集群除了基于上述木桶原理确定多个冷数据服务器集群间的预设迁移数据量比例以外,还可以采用其他方法确定多个冷数据服务器集群间的预设迁移数据量比例。
例如,在不考虑从冷数据服务器集群中读取冷数据的效率的情况下,冷数据服务器集群可以热数据服务器集群所迁移的数据全部存储到硬盘中,此时,热数据服务器集群可以将上述第二比例确定为多个冷数据服务器集群间的预设迁移数据量比例,从而根据该预设迁移数据量比例迁移其存储的数据中的冷数据。
再例如,根据用户的需求不同,用户可以自定义设置一预设迁移数据量比例作为上述多个冷数据服务器集群间的预设迁移数据量比例。热数据服务器集群可以根据用户自定义设置的预设迁移数据量比例迁移其存储的数据中的冷数据。
在本发明实施例中,根据具体应用场景,服务器集群的性能以及用户需求等的不同,热数据服务器集群可以采用不同的方式确定上述多个冷数据服务器集群间的预设迁移数据量比例,在此对多个冷数据服务器集群间的预设迁移数据量比例的确定方法不作具体限定。
一个可选的实施例中,基于上述本发明实施例还提供的数据处理系统,本发明实施例还提供了一种数据查询方法。如图4所示,图4为本发明实施例提供的数据查询方法的一种流程示意图。该方法应用于热数据服务器集群,具体包括以下步骤。
步骤S401,在接收到包括第一目标时间段的第一查询请求时,获取与第一目标时间段对应的热数据;和/或获取目标冷数据服务器集群发送的与第二目标时间段对应的冷数据;其中,与第二目标时间段对应的冷数据是目标冷数据服务器集群基于接收到的包括第二目标时间段的第二查询请求发送的;第一查询请求和第二查询请求是客户端基于用户输入的待查询时间段以及对应关系发送的。
在本步骤中,客户端可以接收用户输入的待查询时间段。客户端在接收到该待查询时间段后,可以根据待查询时间段,以及已记录的冷数据与冷数据服务器集群间的对应关系,向热数据服务器集群发送包括第一目标时间段的第一查询请求,和/或向多个冷数据服务器集群中的目标冷数据服务器集群发送包括第二目标时间段的第二查询请求。
针对上述第一查询请求和第二查询请求的发送,至少包括以下情况:
情况一,当上述待查询时间段为除冷数据对应采集时间段以外的第一目标时间段时,也就是当待查询时间段为热数据对应采集时间段内的第一目标时间段时,客户端仅向热数据服务器集群发送包括第一目标时间段的第一查询请求。
情况二,当上述待查询时间段为冷数据对应采集时间段内的第二目标时间段时,客户端可以根据已记录的冷数据的采集时间与冷数据服务器集群的对应关系,确定存储与第二目标时间段对应的目标冷数据服务器集群,并向冷数据服务器集群发送包括的第二目标时间段的第二查询请求。
情况三,当上述待查询时间段既包括除冷数据对应采集时间段以外的第一目标时间段,又包括冷数据对应采集时间段内的第二目标时间段时,客户端向热数据服务器集群发送包括第一目标时间段的第一查询请求,并根据已记录的冷数据的采集时间与冷数据服务器集群的对应关系,确定存储与第二目标时间段对应的目标冷数据服务器集群,从而向冷数据服务器集群发送包括的第二目标时间段的第二查询请求。
针对上述情况一或情况三,热数据服务器集群在接收到上述第一查询请求时,可以从其存储的数据中获取与上述第一目标时间段对应的热数据。
针对上述情况二或情况三,目标冷数据服务器集群在接收到上述第二查询请求时,可以获取与上述第二目标时间段对应的冷数据,并将获取到的冷数据发送给热数据服务器集群。热数据服务器集群接收目标冷数据服务器集群发送的冷数据。
一个可选的实施例中,针对上述热数据服务器集群记录的冷数据的采集时间与冷数据服务器集群间的对应关系,热数据服务器集群可以按照一定的时间周期,将记录的对应关系推送给客户端。
另一个可选的实施例中,针对热数据服务器集群记录的冷数据的采集时间与冷数据服务器集群间的对应关系,客户端在接收到用户输入的待查询时间段后,可以从热数据服务器集群获取该对应关系。
上述冷数据对应的采集时间段和热数据对应的采集时间段可以基于上述对应关系中冷数据的采集时间确定。例如,热数据对应的采集时间段可以为当前时间与上述对应关系中冷数据的最晚采集时间之间的时间差。
步骤S402,将获取到的数据发送给客户端。
在本步骤中,在获取到上述与第一目标时间段对应的热数据,和/或上述与第二目标时间段对应的冷数据时,热数据服务器集群可将获取到的数据发送给客户端。
一个可选的实施例中,上述热数据服务器集群在获取到的数据发送给客户端时,可以采用同步的方式将获取到的数据发送给客户端。
以热数据服务器集群接收到上述第一查询请求为例,热数据服务器集群在获取到与第一目标时间段对应的热数据后,可以直接将获取到的热数据发送给客户端。也就是根据接收到的查询请求反馈对应的数据。
另一个可选的实施例中,上述热数据服务器集群在获取到的数据发送给客户端时,可以采用异步的方式将获取到的数据发送给客户端。
仍以热数据服务器集群接收到上述第一查询请求为例,热数据服务器集群在获取到与第一目标时间段对应的热数据后,可以向客户端发送表示获取到与第一查询请求匹配的数据的消息。客户端在接收到该消息后,可以向热数据服务器集群发送针对获取到的数据的数据获取请求。热数据服务器集群可以在接收到该数据获取请求时,将获取到的数据发送给客户端。
在本发明实施例中,上述客户端所确定出的存储与第二目标时间段对应数据的目标冷数据服务器集群的数量可以是一个,也可以是多个。在进行数据获取时,由于第二目标时间段对应的数据分布在多个目标冷数据服务器集群中,即使其中一个目标冷数据服务器集群出现问题,如该目标冷数据服务器集群发生宕机,也不会影响其他的目标冷数据服务器集群的正常工作,提高了数据处理系统的容错性。
在图4所示的实施例中,在进行数据查询时,根据用户输入的待查询时间,从热数据服务器集群和冷数据服务集群中,获取对应的查询结果,从而发送给客户端。除此以外,根据客户端所提供的查询方式的不同,还可以采用其他方式完成数据查询。
以上述数据处理系统存储的数据中包括图像数据,客户端提供的查询方式包括以图搜图为例。其中,以图搜图具体可以表示为输入一张图像,数据处理系统可以反馈与输入图像相关的图像。具体的,用户可以将一张包含某一人物的人脸图像输入到客户端中,客户端可以分别向热数据服务器集群和冷数据服务器集群发送针对该人脸图像的查询请求,热数据服务器集群和冷数据服务器集群分别从对应存储的图像数据中获取与包括该人脸图像,或者与该人脸图像相似的图像,并将获取到的图像数据反馈给客户端。在该过程中,上述查询请求中可以包括用户输入的人脸图像的标识信息等。具体查询方法可参照上述查询方法,在此不作具体说明。
在上述实施例中,仅从数据处理系统中的热数据服务器集群的角度对本发明实施例提供的数据处理方法进行说明,关于数据处理系统中的冷数据服务器集群相应的对接收到的冷数据进行存储,以及进行数据查询并向热数据服务器集群反馈查询结果的过程在此不作具体说明。
在本发明实施例中,由于在扩展上述数据处理系统的数据处理能力和数据存储能力时,仅仅是增加了数据处理系统中服务器集群的数量,对于数据处理系统中的每一服务器集群并未作具体调整,变动原有机房中的服务器等,降低了对数据处理系统中每一机房的侵入性,保证了数据处理系统原有业务的正常使用。
基于同一种发明构思,根据上述本发明实施例提供的数据处理方法,本发明实施例还提供了一种数据处理装置。如图5所示,图5为本发明实施例提供的数据处理装置的第一种结构示意图。该装置应用于上述数据处理系统的热数据服务器集群,具体包括以下模块。
获取模块501,用于在数据处理系统中的热数据服务器集群所存储的数据中存在冷数据的情况下,获取预设时间段内热数据服务器集群向数据处理系统中冷数据服务器集群迁移的数据量,作为历史数据迁移信息;
第一确定模块502,用于根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定目标冷数据服务器集群;
迁移模块503,用于将冷数据迁移至目标冷数据服务器集群,以使目标冷数据服务器集群存储冷数据。
可选的,上述数据处理装置还可以包括:
计算模块,用于计算数据处理系统中多个冷数据服务器集群间内存容量的第一比例,以及多个冷数据服务器集群间硬盘容量的第二比例;
第二确定模块,用于根据第一比例和第二比例,确定多个冷数据服务器集群间的预设迁移数据量比例。
可选的,上述第二确定模块,具体可以用于针对每一冷数据服务器集群,选取第一占比值和第二占比值中较小的占比值,作为该冷数据服务器集群的目标占比值,其中,第一占比值为每一冷数据服务器集群在第一比例中对应的占比值,第二占比值为每一冷数据服务器集群在第二比例中对应的占比值;将多个冷数据服务器集群间的目标占比值之比确定为多个冷数据服务器集群间的预设迁移数据量比例。
通过本发明实施例提供的装置,当数据处理系统中的热数据服务器集群所存储的数据中存在冷数据时,热数据服务器集群根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定出目标冷数据服务器集群,从而将热数据服务器集群中的冷数据迁移并存储至目标冷数据服务器集群,这使得在跨机房部署时可以部署多个冷数据服务器集群,从而借助部署的多个冷数据服务器集群承接热数据服务器集群基于历史数据迁移信息和预设迁移数据量比例迁移出的冷数据,在保证迁移至每一冷数据服务器集群的冷数据的数据量符合预设迁移数据量比例的前提下,有效减少热数据服务器集群中存储的数据的数据量,弹性扩充了热数据服务器集群的数据存储能力和数据运算能力,解决了单个服务器集群提供的数据存储能力和数据运算能力无法满足项目中不断增长的数据处理需求的问题,从而通过跨机房部署提供更大规模的数据存储能力和数据运算能力。
基于同一种发明构思,根据上述本发明实施例提供的数据处理方法,本发明实施例还提供了一种数据处理装置。如图6所示,图6为本发明实施例提供的数据处理装置的第二种结构示意图。该数据处理装置包括处理器601、存储器602和计算机程序,计算机程序存储在存储器602中,处理器601运行计算机程序执行上述的数据处理方法步骤。
上述存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或1者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
基于同一种发明构思,根据上述本发明实施例提供的数据处理方法,本发明实施例还提供了一种数据处理系统。如图7所示,图7为本发明实施例提供的数据处理系统的一种结构示意图。该数据处理系统包括热数据服务器集群701和冷数据服务器集群702。
上述热数据服务器集群701,在数据处理系统中的热数据服务器集群701所存储的数据中存在冷数据的情况下,获取预设时间段内热数据服务器集群701向数据处理系统中冷数据服务器集群迁移的数据量,作为历史数据迁移信息;根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群702间的预设迁移数据量比例,从多个冷数据服务器集群702中确定目标冷数据服务器集群;将冷数据迁移至目标冷数据服务器集群;
上述目标冷数据服务器集群,用于存储冷数据。
通过本发明实施例提供系统,当数据处理系统中的热数据服务器集群所存储的数据中存在冷数据时,热数据服务器集群根据历史数据迁移信息,以及数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从多个冷数据服务器集群中确定出目标冷数据服务器集群,从而将热数据服务器集群中的冷数据迁移并存储至目标冷数据服务器集群,这使得在跨机房部署时可以部署多个冷数据服务器集群,从而借助部署的多个冷数据服务器集群承接热数据服务器集群基于历史数据迁移信息和预设迁移数据量比例迁移出的冷数据,在保证迁移至每一冷数据服务器集群的冷数据的数据量符合预设迁移数据量比例的前提下,有效减少热数据服务器集群中存储的数据的数据量,弹性扩充了热数据服务器集群的数据存储能力和数据运算能力,解决了单个服务器集群提供的数据存储能力和数据运算能力无法满足项目中不断增长的数据处理需求的问题,从而通过跨机房部署提供更大规模的数据存储能力和数据运算能力。
基于同一种发明构思,根据上述本发明实施例提供的数据处理方法,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一数据处理方法的步骤。
基于同一种发明构思,根据上述本发明实施例提供的数据处理方法,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一数据处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、装置、电子设备、计算机可读存储介质及计算机程序产品等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
在数据处理系统中的热数据服务器集群所存储的数据中存在冷数据的情况下,获取预设时间段内所述热数据服务器集群向所述数据处理系统中冷数据服务器集群迁移的数据量,作为历史数据迁移信息;
根据所述历史数据迁移信息,以及所述数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从所述多个冷数据服务器集群中确定目标冷数据服务器集群;
将所述冷数据迁移至所述目标冷数据服务器集群,以使所述目标冷数据服务器集群存储所述冷数据;
所述根据所述历史数据迁移信息,以及所述数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从所述多个冷数据服务器集群中确定目标冷数据服务器集群的步骤,包括:
在所述数据处理系统的多个冷数据服务器集群中存在候选冷数据服务器集群时,从所述候选冷数据服务器集群选取目标冷数据服务器集群;其中,所述候选冷数据服务器集群的已迁移数据量占比值小于预设迁移数据量比例中该候选冷数据服务器集群对应的占比值,所述已迁移数据量占比值为所述预设时间段内向所述候选冷数据服务器集群已迁移数据量在所述预设时间段内总迁移数据量中的占比。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算所述数据处理系统中多个冷数据服务器集群间内存容量的第一比例,以及所述多个冷数据服务器集群间硬盘容量的第二比例;
根据所述第一比例和所述第二比例,确定所述多个冷数据服务器集群间的预设迁移数据量比例。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一比例和所述第二比例,确定所述多个冷数据服务器集群间的预设迁移数据量比例,包括:
针对每一冷数据服务器集群,选取第一占比值和第二占比值中较小的占比值,作为该冷数据服务器集群的目标占比值,其中,第一占比值为每一冷数据服务器集群在所述第一比例中对应的占比值,第二占比值为每一冷数据服务器集群在所述第二比例中对应的占比值;
将所述多个冷数据服务器集群间的目标占比值之比确定为所述多个冷数据服务器集群间的预设迁移数据量比例。
4.一种数据处理装置,其特征在于,包括:
获取模块,用于在数据处理系统中的热数据服务器集群所存储的数据中存在冷数据的情况下,获取预设时间段内所述热数据服务器集群向所述数据处理系统中冷数据服务器集群迁移的数据量,作为历史数据迁移信息;
第一确定模块,用于根据所述历史数据迁移信息,以及所述数据处理系统中多个冷数据服务器集群间的预设迁移数据量比例,从所述多个冷数据服务器集群中确定目标冷数据服务器集群;
迁移模块,用于将所述冷数据迁移至所述目标冷数据服务器集群,以使所述目标冷数据服务器集群存储所述冷数据;
所述第一确定模块,具体用于在所述数据处理系统的多个冷数据服务器集群中存在候选冷数据服务器集群时,从所述候选冷数据服务器集群选取目标冷数据服务器集群;其中,所述候选冷数据服务器集群的已迁移数据量占比值小于预设迁移数据量比例中该候选冷数据服务器集群对应的占比值,所述已迁移数据量占比值为所述预设时间段内向所述候选冷数据服务器集群已迁移数据量在所述预设时间段内总迁移数据量中的占比。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
计算模块,用于计算所述数据处理系统中多个冷数据服务器集群间内存容量的第一比例,以及所述多个冷数据服务器集群间硬盘容量的第二比例;
第二确定模块,用于根据所述第一比例和所述第二比例,确定所述多个冷数据服务器集群间的预设迁移数据量比例。
6.根据权利要求5所述的装置,其特征在于,所述第二确定模块,具体用于针对每一冷数据服务器集群,选取第一占比值和第二占比值中较小的占比值,作为该冷数据服务器集群的目标占比值,其中,第一占比值为每一冷数据服务器集群在所述第一比例中对应的占比值,第二占比值为每一冷数据服务器集群在所述第二比例中对应的占比值;将所述多个冷数据服务器集群间的目标占比值之比确定为所述多个冷数据服务器集群间的预设迁移数据量比例。
7.一种数据处理装置,其特征在于,包括处理器、存储器和计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行如权利要求1至3任一项所述的方法步骤。
8.一种数据处理系统,其特征在于,包括热数据服务器集群和冷数据服务器集群;
所述热数据服务器集群包括如权利要求7所述的数据处理装置;
所述冷数据服务器集群,用于存储冷数据。
9.根据权利要求8所述的系统,其特征在于,所述热数据服务器集群,还用于在接收到针对所述数据处理系统中其他服务器集群的模式调整指令时,基于所述模式调整指令中的配置信息,调整所述其他服务器集群的工作模式。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至3任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010407382.5A CN111562889B (zh) | 2020-05-14 | 2020-05-14 | 数据处理方法、装置、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010407382.5A CN111562889B (zh) | 2020-05-14 | 2020-05-14 | 数据处理方法、装置、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111562889A CN111562889A (zh) | 2020-08-21 |
CN111562889B true CN111562889B (zh) | 2023-05-02 |
Family
ID=72072078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010407382.5A Active CN111562889B (zh) | 2020-05-14 | 2020-05-14 | 数据处理方法、装置、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111562889B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463372A (zh) * | 2020-11-23 | 2021-03-09 | 中国建设银行股份有限公司 | 一种目标系统的扩容方法、装置、设备及存储介质 |
CN113760176A (zh) * | 2020-12-02 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 数据存储方法和装置 |
CN112860185B (zh) * | 2021-01-29 | 2022-11-25 | 西藏宁算科技集团有限公司 | 基于lru算法的高可用缓存方法、存储装置以及电子设备 |
CN114461143A (zh) * | 2022-01-11 | 2022-05-10 | 上海英方软件股份有限公司 | 一种海量数据的冷热数据区分方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055590A (zh) * | 2016-05-23 | 2016-10-26 | 环球大数据科技有限公司 | 基于大数据及图数据库的电力网络数据处理方法和系统 |
CN107547607B (zh) * | 2016-06-24 | 2020-12-25 | 杭州海康威视数字技术股份有限公司 | 一种集群迁移方法及装置 |
CN108008913B (zh) * | 2016-10-27 | 2020-12-18 | 杭州海康威视数字技术股份有限公司 | 一种基于管理节点的扩容方法、装置及存储系统 |
CN108363553A (zh) * | 2018-01-31 | 2018-08-03 | 北京兰云科技有限公司 | 一种数据处理方法、装置及系统 |
CN110737717B (zh) * | 2018-07-03 | 2022-09-09 | 北京国双科技有限公司 | 一种数据库迁移方法及装置 |
CN110795203B (zh) * | 2018-08-03 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 资源调度方法、装置、系统和计算设备 |
-
2020
- 2020-05-14 CN CN202010407382.5A patent/CN111562889B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111562889A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111562889B (zh) | 数据处理方法、装置、系统及存储介质 | |
US11379461B2 (en) | Multi-master architectures for distributed databases | |
WO2021008285A1 (zh) | 分布式系统的数据同步方法、装置、介质、电子设备 | |
CN106230997B (zh) | 一种资源调度方法和装置 | |
CN109117275B (zh) | 基于数据分片的对账方法、装置、计算机设备及存储介质 | |
CN110162270B (zh) | 基于分布式存储系统的数据存储方法、存储节点及介质 | |
CN109800204B (zh) | 数据分配方法及相关产品 | |
CN111049928B (zh) | 数据同步方法、系统、电子设备及计算机可读存储介质 | |
CN108874502B (zh) | 云计算集群的资源管理方法、装置及设备 | |
CN112130996A (zh) | 数据监控控制系统、方法、装置、电子设备和存储介质 | |
CN112732756B (zh) | 数据查询方法、装置、设备及存储介质 | |
CN213876703U (zh) | 一种资源池管理系统 | |
CN101483668A (zh) | 热点数据的网络存储和访问方法、设备及系统 | |
CN111953567B (zh) | 一种配置多集群管理软件参数的方法、系统、设备及介质 | |
CN114745275A (zh) | 云服务环境中的节点更新方法、装置和计算机设备 | |
CN114070755A (zh) | 虚拟机网络流量确定方法、装置、电子设备和存储介质 | |
CN106686082B (zh) | 存储资源调整方法及管理节点 | |
CN117633102A (zh) | 区块链的数据整合方法、装置、计算机设备及存储介质 | |
CN105025042A (zh) | 一种确定数据信息的方法及系统、代理服务器 | |
CN108718285B (zh) | 云计算集群的流量控制方法、装置及服务器 | |
CN113905252A (zh) | 直播间的数据存储方法、装置、电子设备及存储介质 | |
CN112910988A (zh) | 一种资源获取方法及资源调度装置 | |
CN112817987A (zh) | 访问分布式存储集群的方法及装置、设备、存储介质 | |
CN116662603B (zh) | 基于kafka的时间轴管控方法、系统、电子设备及存储介质 | |
CN114385081B (zh) | 针对kafka集群的磁盘保护方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |