CN113010113B - 数据处理方法、装置及设备 - Google Patents

数据处理方法、装置及设备 Download PDF

Info

Publication number
CN113010113B
CN113010113B CN202110284994.4A CN202110284994A CN113010113B CN 113010113 B CN113010113 B CN 113010113B CN 202110284994 A CN202110284994 A CN 202110284994A CN 113010113 B CN113010113 B CN 113010113B
Authority
CN
China
Prior art keywords
data
processed
dump
processing
cached
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110284994.4A
Other languages
English (en)
Other versions
CN113010113A (zh
Inventor
张小路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Innovation Co
Original Assignee
Alibaba Innovation Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Innovation Co filed Critical Alibaba Innovation Co
Priority to CN202110284994.4A priority Critical patent/CN113010113B/zh
Publication of CN113010113A publication Critical patent/CN113010113A/zh
Application granted granted Critical
Publication of CN113010113B publication Critical patent/CN113010113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0613Improving I/O performance in relation to throughput
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据处理方法、装置及设备,该方法包括:获取待处理数据;利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件;生成与待处理数据相对应的缓存数据;对缓存数据进行转储操作,生成与待处理数据相对应的目标文件。本申请所提供的技术方案,有效地提供了一种可以同时对数据进行写入操作和转储操作的实现方式,节省了通过独立的数据转储模块读取数据时所需要的网络流量或者磁盘流量,达到降低网络、磁盘开销的效果,从而有利于提升单个存储节点的网络吞吐产能。

Description

数据处理方法、装置及设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
分布式存储系统通常包括:集群服务器(Block Sever)和与集群服务器通信连接的数据转储模块,其中,集群服务器用于承接用户传输的数据处理请求,并以预设方式处理存储数据;数据转储模块用于对存储数据进行转储操作和垃圾回收操作。具体的,在利用分布式存储系统进行数据缓存操作时,数据转储模块会从集群服务器中读取出存储数据,而后对存储数据进行转储操作。
然而,由于数据转储操作是由于集群服务器通信连接的数据转储模块来完成,即数据转储模块需要将存储数据读取出来再进行转储操作,这样会多浪费一份读的流量,从而使得整个数据处理过程存在流量放大问题。
发明内容
本申请实施例提供一种数据处理方法、装置及设备,用以解决现有技术中在利用分布式存储系统进行数据处理操作时所存在的流量放大问题。
第一方面,本申请实施例提供了一种数据处理方法,包括:
获取待处理数据;
利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件;
生成与所述待处理数据相对应的缓存数据;
对所述缓存数据进行转储操作,生成与所述待处理数据相对应的目标文件。
第二方面,本申请实施例提供了一种数据处理装置,包括:
第一获取模块,用于获取待处理数据;
第一处理模块,用于利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件;
第一生成模块,用于生成与所述待处理数据相对应的缓存数据;
所述第一处理模块,用于对所述缓存数据进行转储操作,生成与所述待处理数据相对应的目标文件。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面所示的数据处理方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面所示的数据处理方法。
第五方面,本申请实施例提供了一种数据处理方法,应用于服务器,所述方法还包括:
获取位于服务器中的缓存数据,所述服务器用于以追加写的方式对数据进行分析处理;
利用纠删码技术对所述缓存数据进行转储操作,生成与所述缓存数据相对应的目标文件。
第六方面,本申请实施例提供了一种数据处理装置,应用于服务器,所述装置还包括:
第二获取模块,用于获取位于服务器中的缓存数据,所述服务器用于以追加写的方式对数据进行分析处理;
第二处理模块,用于利用纠删码技术对所述缓存数据进行转储操作,生成与所述缓存数据相对应的目标文件。
第七方面,本申请实施例提供了一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第五方面所示的数据处理方法。
第八方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第五方面所示的数据处理方法。
第九方面,本发明实施例提供了一种数据处理方法,包括:
获取待处理数据;
利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件;
利用纠删码技术对所述待处理数据进行转储操作,生成与所述待处理数据相对应的目标转储文件。
第十方面,本发明实施例提供了一种数据处理装置,包括:
第三获取模块,用于获取待处理数据;
第三处理模块,用于利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件;
所述第三处理模块,还用于利用纠删码技术对所述待处理数据进行转储操作,生成与所述待处理数据相对应的目标转储文件。
第十一方面,本申请实施例提供了一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第九方面所示的数据处理方法。
第十二方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第九方面所示的数据处理方法。
本申请实施例提供的技术方案,通过获取待处理数据,利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件,并生成与所述待处理数据相对应的缓存数据;而后对所述缓存数据进行转储操作,生成与所述待处理数据相对应的目标文件,从而有效地提供了一种可以同时对数据进行写入操作和转储操作的实现方式,节省了通过独立的数据转储模块读取数据时所需要的网络流量或者磁盘流量,达到降低网络、磁盘开销的效果,从而有利于提升单个存储节点的网络吞吐产能,进一步提高了该方法的实用性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为相关技术实施例提供的一种数据处理方法的示意图;
图2为本申请实施例提供的一种数据处理方法的场景示意图;
图3为本申请实施例提供的一种数据处理方法的流程示意图;
图4为本申请实施例提供的对所述缓存数据进行转储操作,生成与所述待处理数据的目标文件的流程示意图;
图5为本申请实施例提供的另一种数据处理方法的流程示意图;
图6为本申请另一实施例提供的一种数据处理方法的流程示意图;
图7为本申请又一实施例提供的一种数据处理方法的流程示意图;
图8为本申请应用实施例提供的一种数据处理方法的示意图一;
图9为本申请应用实施例提供的一种数据处理方法的示意图二;
图10为本申请实施例提供的一种数据处理装置的结构示意图;
图11为图10所示的数据处理装置所对应的电子设备的结构示意图;
图12为本申请实施例提供的另一种数据处理装置的结构示意图;
图13为图12所示的数据处理装置所对应的电子设备的结构示意图;
图14为本申请实施例提供的又一种数据处理装置的结构示意图;
图15为图14所示的数据处理装置所对应的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
为了方便本领域技术人员理解本申请实施例提供的技术方案,下面对相关技术进行说明:
通常情况下,用于实现分布式存储数据的分布式存储系统包括:集群服务器(Block Sever)和与集群服务器通信连接的数据转储模块,其中,集群服务器用于承接用户传输的数据处理请求,并以预设方式处理存储数据;数据转储模块用于对存储数据进行转储操作和垃圾回收操作。具体的,在利用分布式存储系统进行数据缓存操作时,数据转储模块会从集群服务器中读取出存储数据,而后对存储数据进行转储操作。
下面以三副本技术作为多副本技术为例进行说明,参考附图1所示,在服务器获取到用户请求之后,可以利用三副本技术对与用户请求相对应的数据进行分析处理,从而可以生成与数据相对应的三副本文件,之后,数据转储模块GC可以将副本文件读取出来,并利用在线纠删码技术和压缩算法对读取出来的数据进行处理,从而可以生成纠删码文件,从而实现了文件的转储操作。
需要说明的是,由于在用户进行数据写入操作时,需要将数据整体写入到数据处理装置中,此时文件的数据量一般会比较大,对于较大数据量的文件而言,不容易直接将文件存储在内存中,这样就需要利用数据转储模块将文件读取出来;因此,数据转储模块与数据处理装置一般会相互独立设置,以保证数据处理的质量和效率。
在对数据进行处理的过程中,假设用户写入数据对应1份数据流量,这样在集群服务器将上述数据写入3副本文件时对应于3份流量,数据转储模块读取1个副本文件对应于1份流量。
之后,数据转储模块再对所读取的数据进行纠删码编码以及数据压缩的处理,假设纠删码编码所对应的配置参数为:8+3,其中,“8”用于标识原有待处理的数据份数,“3”用于标识对数据进行处理时所对应的冗余份数,简单理解,在利用纠删码技术对用户请求的数据进行分析处理时,以8份数据进行数据对齐操作,以3份数据做冗余处理。
另外,在对数据进行压缩处理时,假定压缩率为50%,此时,数据转储模块针对1份数据所对应的写入流量为:1.375(即为1+3/8)*0.5=0.6875份流量,这样在用户针对集群服务器写入一份流量时,在集群服务器中的流量放大比就是1+3+1+0.6875=5.6875。
由上述陈述内容可知,现有的相关技术中存在以下缺陷:由于集群服务器与数据转储模块相互独立设置,使得数据转储操作是由外部的数据转储模块所完成,为了实现数据转储操作,数据转储模块需要将数据从集群服务器中读取出来,再进行转码操作,因此会多浪费一份读流量。
为了解决现有技术中在利用分布式存储系统存储数据时所存在的流量放大以及多浪费一份读流量的问题,本实施例提供了一种数据处理方法、装置及设备。如图2所示,数据处理方法的执行主体可以为数据处理装置,数据处理装置可以通信连接有客户端。
其中,客户端可以是任何具有一定计算能力的计算设备。客户端的基本结构可以包括:至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-OnlyMemory,简称ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,简称OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,客户端还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的,在此不做赘述。可选地,客户端可以为PC(personalcomputer)终端、手持终端(例如:智能手机、平板电脑)等。
数据处理装置是指可以在网络虚拟环境中提供计算处理服务的设备,通常是指利用网络进行信息规划、数据处理的装置。在物理实现上,数据处理装置可以是任何能够提供计算服务,响应服务请求,并进行处理的设备,例如:可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。数据处理装置的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在上述本实施例中,客户端可以与数据处理装置进行网络连接,该网络连接可以是无线或有线网络连接。若客户端与数据处理装置是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一种。
在本申请实施例中,客户端用于获取用户上传的待处理数据,并将上传的待处理数据发送至数据处理装置,以使得数据处理装置可以对待处理数据进行分析处理。其中,上传的待处理数据的数量可以为一个或多个,在上传的待处理数据的数量为多个时,多个待处理数据可以对应有不同的数据格式,并且多个待处理数据可以对应于不同的数据量大小。
数据处理装置,用于接收客户端上传的待处理数据,而后利用多副本技术对待处理数据进行处理,从而可以生成与待处理数据相对应的至少一个副本文件;同时,还可以对待处理数据进行缓存处理,从而可以生成与待处理数据相对应的缓存数据,而后可以对缓存数据进行转储操作,生成与待处理数据相对应的目标文件。
本实施例提供的技术方案,提出了可以利用一数据处理装置同时对数据进行数据写入操作和转储操作,节省了通过独立的数据转储模块读取数据时所需要的多一分网络流量或者磁盘流量,达到降低网络、磁盘开销的效果,从而有利于提升单个存储节点的网络吞吐产能,进一步提高了该方法的实用性。
下面通过一个示例性的应用场景具体说明本申请各个实施例提供的数据处理方法。
图3为本申请实施例提供的一种数据处理方法的流程示意图;参考附图3所示,本实施例提供了一种数据处理方法,该方法的执行主体可以为数据处理装置,可以理解的是,该数据处理装置可以实现为软件、或者软件和硬件的组合,具体的,上述的数据处理装置可以同时对数据进行数据写入操作和数据转储操作,上述的数据处理方法可以包括:
步骤S301:获取待处理数据。
步骤S302:利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件。
步骤S303:生成与待处理数据相对应的缓存数据。
步骤S304:对缓存数据进行转储操作,生成与待处理数据相对应的目标文件。
下面对上述各个步骤进行详细说明:
步骤S301:获取待处理数据。
其中,待处理数据可以是指需要在分布式存储系统里进行存储的数据,待处理数据的数量可以为一个或者多个,在待处理数据的数量为多个时,多个待处理数据可以对应有不同的数据长度、不同的数据格式等等。
另外,本实施例对于获取待处理数据的具体实现方式不做限定,本领域技术人员可以根据具体的应用场景和应用需求进行设置,例如:在用户存在数据存储需求时,则可以向数据处理装置发送数据处理请求,该数据处理请求中可以包括有待处理数据的身份标识和存储地址,数据处理装置可以基于待处理数据的身份标识和存储地址获取待处理数据;或者,用户也可以通过客户端直接将待处理数据发送至数据处理装置,从而使得数据处理装置可以直接获取到待处理数据。或者,针对一云盘数据或者硬盘数据,预先配置有用于对云盘数据和硬盘数据进行分布式存储的频率信息,数据处理装置可以基于上述所配置的频率信息获取待处理数据,上述的待处理数据可以包括在预设时间段内的云盘数据或者硬盘数据。
当然的,本领域技术人员也可以采用其他的方式来获取待处理数据,只要能够保证对待处理数据进行获取的准确可靠性即可,在此不再赘述。
步骤S302:利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件。
其中,多副本技术是一种把数据在多个节点上保存相同的完整副本的实现方式,在数据处理装置获取到待处理数据之后,可以利用多副本技术对待处理数据进行处理,从而可以生成与待处理数据相对应的至少一个副本文件。
需要说明的是,在不同的应用场景中,可以采用不同的多副本技术对待处理数据进行分析处理,例如:在一应用场景中,可以采用三副本技术对待处理数据进行分析处理,从而可以生成三个与待处理数据相对应的副本文件;在另一应用场景中,也可以采用四副本技术或者五副本技术对待处理数据进行分析处理,从而可以生成四个或者五个与待处理数据相对应的副本文件。
步骤S303:生成与待处理数据相对应的缓存数据。
在数据处理装置获取到待处理数据之后,还可以对待处理数据进行缓存处理,从而可以生成与待处理数据相对应的缓存数据。在一些实例中,本实施例中的数据处理方法可以应用于服务器,该服务器用于以追加写的方式对待处理数据进行分析处理。此时,在服务器中可以设置有缓存节点,可以理解的是,缓存节点的数量可以为一个或多个;进而生成与待处理数据相对应的缓存数据即可包括:将待处理数据缓存至缓存节点,生成与待处理数据相对应的缓存数据。
在另一些实例中,在缓存节点的数量为多个时,可以获取待处理数据所对应的数据格式,基于数据格式将待处理数据缓存至缓存节点,具体的,不同的数据格式的待处理数据可以存储在不同的缓存节点上。
步骤S304:对缓存数据进行转储操作,生成与待处理数据相对应的目标文件。
在获取到缓存数据之后,可以对缓存数据进行转储操作,从而可以生成与待处理数据相对应的目标文件。在一些实例中,对缓存数据进行转储操作,生成与待处理数据相对应的目标文件可以包括:利用纠删码技术对缓存数据进行在线转储操作,生成与待处理数据相对应的纠删码文件。
其中,纠删码技术(Erasure Code,简称EC)是一种冗余编码方法,通常会针对N个数据块生成M个校验块,在这N+M个数据块中任选N个都可以恢复出原始的数据。在获取到缓存数据之后,则可以利用纠删码技术对缓存数据进行在线转储操作,从而可以生成与待处理数据相对应的纠删码文件。相比于多副本技术而言,采用纠删码技术所生成的EC文件通常会更节省空间,并且,所生成的EC文件在各种分布式存储的通常适用于处理一次写入大块的待处理数据。
需要注意的是,对缓存数据进行转储操作的实现方式并不限于上述实现方式,本领域技术人员还可以根据具体的应用场景和应用需求选择其他方式来对缓存数据进行转储操作,例如:多副本技术、离线纠删码技术等等,只要能够保证对目标文件进行生成的质量和效果即可,在此不再赘述。
本实施例提供的数据处理方法,通过获取待处理数据,利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件,并生成与待处理数据相对应的缓存数据;而后对缓存数据进行转储操作,生成与待处理数据相对应的目标文件,从而有效地提供了一种可以同时对数据进行写入操作和转储操作的实现方式,节省了通过独立的数据转储模块读取数据时所需要的多一份网络流量或者磁盘流量,达到降低网络、磁盘开销的效果,从而有利于提升单个存储节点的网络吞吐产能,进一步提高了该方法的实用性。
图4为本申请实施例提供的对缓存数据进行转储操作,生成与待处理数据的目标文件的流程示意图;在上述实施例的基础上,继续参考附图4所示,本实施例提供了一种对缓存数据进行转储操作的实现方式,具体的,本实施例中的对缓存数据进行转储操作,生成与待处理数据的目标文件可以包括:
步骤S401:对缓存数据进行压缩处理,获得压缩后数据。
步骤S402:对压缩后数据进行转储操作,生成与待处理数据相对应的目标文件。
其中,在对缓存数据进行转储操作的过程中,为了使得转储操作之后的数据文件占用的空间面积较小,可以对缓存数据进行压缩处理,可以理解的是,压缩处理操作所对应的压缩率可以随应用场景或者应用需求的不同而进行调整,例如:在某一应用场景中,压缩率可以为50%;在另一应用场景中,压缩率可以为60%,在获取到压缩率之后,可以利用压缩率进行压缩处理,从而可以获得与缓存数据相对应的压缩后数据。在获取到压缩后数据之后,可以对压缩后数据进行转储操作,从而可以生成与待处理数据相对应的目标文件。
在一些实例中,在获取到压缩后数据之后,对压缩后数据进行转储操作,生成与待处理数据相对应的目标文件可以包括:可以利用在线纠删码技术对压缩后数据进行转储操作,从而可以生成与待处理数据相对应的纠删码文件。
本实施例中,通过对缓存数据进行压缩处理,获得压缩后数据,而后对压缩后数据进行转储操作,从而可以生成与待处理数据相对应的目标文件,这样有效地降低了目标文件所需要占用的空间面积,进一步提高了该方法使用的稳定可靠性。
图5为本申请实施例提供的另一种数据处理方法的流程示意图;在上述实施例的基础上,继续参考附图5所示,在对缓存数据进行压缩处理之前,本实施例中的方法还可以包括:
步骤S501:获取用于对缓存数据进行转储操作的转储条件。
其中,预先设置有与缓存数据相对应的数据转储条件,该数据转储条件用于限定与缓存数据相对应的数据量大小。具体的,预先配置的数据转储条件可以存储在预设区域中,通过访问预设区域即可获取用于对缓存数据进行转储操作的转储条件。
当然的,转储条件并不限于上述所描述的实现方式,本领域技术人员还可以根据具体的应用需求对转储条件进行任意调整,例如:转储条件可以用于限定与缓存数据相对应的数据长度要求,具体的,数据转储条件可以为:待利用第一转储方式所对应的数据量与预设数据量相同,或者,待利用第一转储方式所对应的数据量是预设数据量的整数倍。
步骤S502:检测缓存数据是否满足转储条件。
在获取到缓存数据和转储条件之后,可以对缓存数据和转储条件进行分析处理,以检测缓存数据是否满足转储条件。在一些实例中,检测缓存数据是否满足转储条件可以包括:获取缓存数据的数据量大小;基于数据量大小,检测缓存数据是否满足转储条件。
具体的,基于数据量大小,检测缓存数据是否满足转储条件可以包括:在数据量大小大于预设阈值时,确定缓存数据满足转储条件;或者,在数据量大小小于或等于预设阈值时,确定缓存数据不满足转储条件。
举例来说,缓存数据包括:数据A、数据B和数据C,上述各个缓存数据所对应的数据量大小为数据量a、数据量b和数据量c,在获取到上述数据量大小之后,则可以将上述各个数据量大小与转储条件所对应的预设阈值T进行分析比较,在分析比较结果为:数据量a与预设阈值T相同,数据量b小于预设阈值T,而数据量c是预设阈值T的整数倍,则可以确定数据A和数据C满足转储条件,而数据B不满足转储条件。
步骤S503:在缓存数据满足转储条件时,则允许对缓存数据进行压缩处理。
步骤S504:在缓存数据不满足转储条件时,则禁止对缓存数据进行压缩处理。
在缓存数据满足转储条件时,则说明此时可以纠删码技术对缓存数据进行转储操作,此时则可以允许对缓存数据进行压缩处理,以利用纠删码技术对压缩处理后的缓存数据进行处理,以生成与缓存数据相对应的纠删码文件。在缓存数据不满足转储条件时,则说明此时不可以利用纠删码技术对缓存数据进行转储操作,因此可以禁止对缓存数据进行压缩处理。
在另一些实例中,为了能够保证数据处理的质量和效率,可以对缓存数据进行调整,以使得调整后的缓存数据可以满足转储条件,而后可以对调整后的缓存数据进行压缩处理,并对压缩后的缓存数据进行转储操作。
本实施例中,通过获取用于对缓存数据进行转储操作的转储条件,并检测缓存数据是否满足转储条件,在缓存数据满足转储条件时,则允许对缓存数据进行压缩处理,以对压缩处理后的缓存数据进行转储操作;在缓存数据不满足转储条件时,则可以禁止对缓存数据进行压缩处理,从而有效地实现了对缓存数据进行转储操作的稳定可靠性,进一步了对数据进行分析处理的质量和效率。
图6为本申请另一实施例提供的一种数据处理方法的流程示意图;参考附图6所示,本申请另一实施例提供了一种数据处理方法,该方法的执行主体可以为数据处理装置,可以理解的是,该数据处理装置可以实现为软件、或者软件和硬件的组合,在将上述数据处理方法应用于服务器时,上述的数据处理装置可以实现为一服务器,具体的,在服务器执行上述数据处理方法时,可以在能够实现对数据进行分析处理的过程中,还能够对数据转储操作。本实施例中的数据处理方法可以包括:
步骤S601:获取位于服务器中的缓存数据,服务器用于以追加写的方式对数据进行分析处理。
在用户存在数据写入需求时,用户可以向服务器写入待处理的数据,在服务器获取到待处理的数据之后,可以以追加写的方式对数据进行分析处理,并且还可以对上述所接收到的数据进行缓存处理,从而可以生成缓存数据。在一些实例中,在服务器中可以设置有缓存节点,可以理解的是,缓存节点的格式可以为一个或多个;此时,在获取到待处理的数据之后,可以将待处理数据缓存至缓存节点,进而可以生成与待处理数据相对应的缓存数据。这样通过访问缓存节点,即可获取到位于服务器中的缓存数据。
在另一些实例中,本实施例中的获取到位于服务器中的缓存数据可以包括:获取用于对缓存数据进行处理的频率信息,通过频率信息获取到位于服务器中的缓存数据。
具体的,预先配置有用于对缓存数据进行分析处理的频率信息,获取上述的频率信息,而后基于频率信息获取位于服务器中的缓存数据,以可以对缓存数据进行转储操作,保证对数据进行分析处理的质量和效率。
当然的,本领域技术人员还可以采用其他的方式来获取位于服务器中的缓存数据,只要能够保证对缓存数据进行获取的准确可靠性即可,在此不再赘述。
步骤S602:利用纠删码技术对缓存数据进行转储操作,生成与缓存数据相对应的目标文件。
其中,本实施例中上述步骤S602的具体实现方式和实现效果与上述事实来中步骤S304的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
本实施例提供的数据处理方法,通过获取位于服务器中的缓存数据,而后利用纠删码技术对缓存数据进行转储操作,从而可以生成与缓存数据相对应的目标文件,从而有效地提供了一种服务器可以以追加写的方式对数据进行写入操作,并且还可以同时对数据进行转储操作,这样有效地节省了通过独立的数据转储模块读取数据时所需要的网络以及磁盘流量,达到降低网络、磁盘开销的效果,从而有利于提升单个存储节点的网络吞吐产能,进一步提高了该方法的实用性。
在一些实例中,在获取位于服务器中的缓存数据之前,本实施例中的方法还可以包括:获取客户端发送的待处理数据;对待处理数据进行缓存处理,生成缓存数据。
其中,本实施例中上述步骤的具体实现方式和实现效果与上述实施例中步骤S301和步骤S303的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
在一些实例中,在获取客户端发送的待处理数据之后,本实施例中的方法还可以包括:利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件。
其中,本实施例中上述步骤的具体实现方式和实现效果与上述实施例中步骤S302的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
图7为本申请又一实施例提供的一种数据处理方法的流程示意图;参考附图7所示,本申请又一实施例提供了一种数据处理方法,该方法的执行主体可以为数据处理装置,可以理解的是,该数据处理装置可以实现为软件、或者软件和硬件的组合,本实施例中的数据处理方法可以包括:
步骤S701:获取待处理数据。
步骤S702:利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件。
本实施例中步骤S701与步骤S702的实现方式和实现效果与上述实施例中步骤S301-步骤S302的实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
步骤S703:利用纠删码技术对待处理数据进行转储操作,生成与待处理数据相对应的目标转储文件。
在获取待处理数据之后,可以利用纠删码技术对待处理数据进行转储操作,从而可以生成与待处理数据相对应的纠删码文件。需要注意的是,对缓存数据进行转储操作的实现方式并不限于上述实现方式,本领域技术人员还可以根据具体的应用场景和应用需求选择其他方式来对缓存数据进行转储操作,例如:多副本技术、离线纠删码技术等等,只要能够保证对目标转储文件进行生成的质量和效果即可,在此不再赘述。
本实施例提供的数据处理方法,通过获取待处理数据,而后利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件,并利用纠删码技术对待处理数据进行转储操作,生成与待处理数据相对应的目标转储文件,有效地实现了一种可以同时对数据进行写入操作和转储操作的实现方式,节省了通过独立的数据转储模块读取数据时所需要的网络以及磁盘流量,达到降低网络、磁盘开销的效果,从而有利于提升单个存储节点的网络吞吐产能,进一步提高了该方法的实用性。
在一些实例中,利用纠删码技术对待处理数据进行转储操作,生成与待处理数据相对应的目标转储文件可以包括:对待处理数据进行缓存,生成与待处理数据相对应的缓存数据;利用纠删码技术对缓存数据进行在线转储操作,生成与待处理数据相对应的目标转储文件。
本实施例中上述步骤的实现方式和实现效果与上述实施例中步骤S303和步骤S304的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
具体应用时,以三副本技术作为多副本技术为例,参考附图8-图9所示,本应用实施例提供了一种数据处理方法,该方法的执行主体可以为集群服务器,本应用实施例中的集群服务器可以利用纠删码技术和压缩算法对待处理数据直接进行分析处理,这样可以避免多需要的一次读流量。具体的,在集群服务器执行上述数据处理方法时,可以包括以下步骤:
步骤1:集群服务器获取待处理数据。
步骤2:利用三副本技术对待处理数据进行分析处理,以生成与待处理数据相对应的三副本文件。
在生成与待处理数据相对应的三副本文件之后,可以向用户发送用于标识数据写入三副本文件成功的反馈信息。
步骤3:将待处理数据缓存至集群服务器中的预设缓存节点中,获得与待处理数据相对应的缓存数据。
其中,由于数据压缩处理需要积攒更多的待处理数据才能获得好的压缩率,另外,在利用纠删码技术对待处理数据进行处理时,由于用户上传的I/O数据大小具有一定的随机性,而EC文件通常无法支持任意大小的待处理数据,需要利用纠删码技术进行处理的数据长度需要满足数据对齐要求,所以无法直接对用户写入的数据进行EC转储处理,需要对用户上传的待处理数据进行缓存处理,而后可以利用在线纠删码技术对缓存数据进行分析处理,以生成EC文件。
步骤4:对缓存数据进行压缩处理,获得压缩后数据。
具体的,对缓存数据进行压缩处理可以包括以下步骤:获取缓存数据的数据量,在数据量满足预设阈值(例如:2MB)时,则对缓存数据进行压缩处理,获得压缩后数据;在数据量不满足预设阈值时,则不对缓存数据进行压缩处理操作。
步骤5:利用纠删码技术对压缩后数据进行处理,获得与待处理数据相对应的纠删码EC文件。
在获取到压缩后数据之后,可以利用纠删码技术对压缩后数据进行EC编码处理,从而可以获得与待处理数据相对应的EC文件,该EC文件中可以包括与压缩后数据所对应的有效数据,或者,EC文件还可以包括与压缩后数据相对应的有效数据和无效数据。
具体的,通过将待处理数据缓存到集群服务器中内存的方式,将纠删码技术EC+压缩转码过程放到集群服务器的内部,避免了一份读流量的开销;另外,在利用本实施例中的数据处理方法对待处理数据进行分析处理,相比于相关技术所提供的实现方式而言,针对一待处理数据所对应的用户的一份流量而言,可以将集群服务器中的流量放大系数由5.6875降低到4.6875。
本应用实施例提供的数据处理方法,通过集群服务器可以同时实现数据写入操作和数据转储操作,相比于相关技术中的集群服务器只会进行数据写入操作,而后利用独立于集群服务器的数据转储模块可以对待处理数据进行数据转储操作而言,本实施例中使得集群服务器可以将数据转储操作和数据写入操作的两个完全分离的过程并行处理,即本实施例中的集群服务器可以同时数据转储操作和数据写入操作,并且,在集群服务器进行数据转储操作时,可以解决相关技术中离线进行数据转储操作时所存在的时效性不高的问题,从而有效地节省了通过独立的数据转储模块读取数据时所需要的多一份网络流量或者磁盘流量,达到降低网络、磁盘开销的效果,从而有利于提升单个存储节点的网络吞吐产能,进一步提高了该方法的实用性。
图10为本申请实施例提供的一种数据处理装置的结构示意图;参考附图10所示,本实施例提供了一种数据处理装置,该数据处理装置可以执行上述图3所示的数据处理方法,具体的,本实施例中的数据处理装置可以包括:第一获取模块11、第一处理模块12和第一生成模块13。
第一获取模块11,用于获取待处理数据;
第一处理模块12,用于利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件;
第一生成模块13,用于生成与待处理数据相对应的缓存数据;
第一处理模块12,用于对缓存数据进行转储操作,生成与待处理数据相对应的目标文件。
在一些实例中,数据处理方法应用于服务器,服务器用于以追加写的方式对待处理数据进行分析处理。
在一些实例中,服务器中设置有缓存节点;在第一生成模块13生成与待处理数据相对应的缓存数据时,该第一生成模块13可以用于执行:将待处理数据缓存至缓存节点,生成与待处理数据相对应的缓存数据。
在一些实例中,在第一处理模块12对缓存数据进行转储操作,生成与待处理数据的目标文件时,第一处理模块12可以用于执行:对缓存数据进行压缩处理,获得压缩后数据;对压缩后数据进行转储操作,生成与待处理数据相对应的目标文件。
在一些实例中,在对缓存数据进行压缩处理之前,本实施例中的第一获取模块11和第一处理模块12可以用于执行以下步骤:
第一获取模块11,用于获取用于对缓存数据进行转储操作的转储条件;
第一处理模块12,用于检测缓存数据是否满足转储条件;在缓存数据满足转储条件时,则允许对缓存数据进行压缩处理;在缓存数据不满足转储条件时,则禁止对缓存数据进行压缩处理。
在一些实例中,在第一处理模块12检测缓存数据是否满足转储条件时,该第一处理模块12可以用于执行:获取缓存数据的数据量大小;基于数据量大小,检测缓存数据是否满足转储条件。
在一些实例中,在第一处理模块12基于数据量大小,检测缓存数据是否满足转储条件时,该第一处理模块12可以用于执行:在数据量大小大于预设阈值时,确定缓存数据满足转储条件;或者,在数据量大小小于或等于预设阈值时,确定缓存数据不满足转储条件。
在一些实例中,在第一处理模块12对缓存数据进行转储操作,生成与待处理数据相对应的目标文件时,该第一处理模块12可以用于执行:利用纠删码技术对缓存数据进行在线转储操作,生成与待处理数据相对应的纠删码文件。
图10所示装置可以执行图2-图5所示实施例的方法,本实施例未详细描述的部分,可参考对图2-图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图2-图5所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图10所示数据处理装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图14所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储相对应电子设备执行上述图2-图5所示实施例中提供的数据处理方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
获取待处理数据;
利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件;
生成与待处理数据相对应的缓存数据;
对缓存数据进行转储操作,生成与待处理数据相对应的目标文件。
进一步的,第一处理器21还用于执行前述图2-图5所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图2-图5所示方法实施例中数据处理方法所涉及的程序。
图12为本申请实施例提供的另一种数据处理装置的结构示意图;参考附图12所示,本实施例提供了另一种数据处理装置,该数据处理装置可以执行上述图6所示的数据处理方法,具体的,本实施例中的数据处理装置可以应用于服务器,即数据处理装置可以实现为服务器,上述数据处理装置可以包括:第二获取模块31和第二处理模块32。
第二获取模块31,用于获取位于服务器中的缓存数据,服务器用于以追加写的方式对数据进行分析处理;
第二处理模块32,用于利用纠删码技术对缓存数据进行转储操作,生成与缓存数据相对应的目标文件。
在一些实例中,在获取位于服务器中的缓存数据之前,本实施例中的第二获取模块31和第二处理模块32可以用于执行以下步骤:
第二获取模块31,用于获取客户端发送的待处理数据;
第二处理模块32,用于对待处理数据进行缓存处理,生成缓存数据。
在一些实例中,在获取客户端发送的待处理数据之后,本实施例中的第二处理模块32可以用于执行以下步骤:利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件。
图12所示装置可以执行图6所示实施例的方法,本实施例未详细描述的部分,可参考对图6所示实施例的相关说明。该技术方案的执行过程和技术效果参见图6所示实施例中的描述,在此不再赘述。
在一个可能的实现中,图12所示数据处理装置的结构可实现为一种电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图13所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器43用于存储相对应电子设备执行上述图6所示实施例中提供的数据处理方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:
获取位于服务器中的缓存数据,服务器用于以追加写的方式对数据进行分析处理;
利用纠删码技术对缓存数据进行转储操作,生成与缓存数据相对应的目标文件。
可选的,第二处理器41还用于执行前述图6所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第二通信接口43,用于终端与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图6所示方法实施例中数据处理方法所涉及的程序。
图14为本申请实施例提供的又一种数据处理装置的结构示意图;参考附图14所示,本实施例提供了又一种数据处理装置,该数据处理装置可以执行上述图7所示的数据处理方法,具体的,本实施例中的数据处理装置可以应用于服务器,即数据处理装置可以实现为服务器,上述数据处理装置可以包括:第三获取模块51和第三处理模块52。
第三获取模块51,用于获取待处理数据;
第三处理模块52,用于利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件;
第三处理模块52,还用于利用纠删码技术对待处理数据进行转储操作,生成与待处理数据相对应的目标转储文件。
在一些实例中,在第三处理模块52利用纠删码技术对待处理数据进行转储操作,生成与待处理数据相对应的目标转储文件时,该第三处理模块52可以用于执行:对待处理数据进行缓存,生成与待处理数据相对应的缓存数据;利用纠删码技术对缓存数据进行在线转储操作,生成与待处理数据相对应的目标转储文件。
图14所示装置可以执行图7所示实施例的方法,本实施例未详细描述的部分,可参考对图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图7所示实施例中的描述,在此不再赘述。
在一个可能的实现中,图14所示数据处理装置的结构可实现为一种电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图15所示,该电子设备可以包括:第三处理器61和第三存储器62。其中,第三存储器63用于存储相对应电子设备执行上述图7所示实施例中提供的数据处理方法的程序,第三处理器61被配置为用于执行第三存储器62中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器61执行时能够实现如下步骤:
获取待处理数据;
利用多副本技术对待处理数据进行处理,生成与待处理数据相对应的至少一个副本文件;
利用纠删码技术对待处理数据进行转储操作,生成与待处理数据相对应的目标转储文件。
可选的,第三处理器61还用于执行前述图7所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第三通信接口63,用于终端与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图7所示方法实施例中数据处理方法所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (15)

1.一种数据处理方法,其特征在于,所述数据处理方法应用于服务器,所述服务器中设置有缓存节点,所述方法包括:
获取待处理数据;
利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件;
将所述待处理数据缓存至所述缓存节点,生成与所述待处理数据相对应的缓存数据;
对所述缓存数据进行转储操作,生成与所述待处理数据相对应的目标文件;
其中,所述对所述缓存数据进行转储操作,生成与所述待处理数据相对应的目标文件,包括:
利用纠删码技术对所述缓存数据进行在线转储操作,生成与所述待处理数据相对应的纠删码文件。
2.根据权利要求1所述的方法,其特征在于,所述服务器用于以追加写的方式对所述待处理数据进行分析处理。
3.根据权利要求1所述的方法,其特征在于,对所述缓存数据进行转储操作,生成与所述待处理数据的目标文件,包括:
对所述缓存数据进行压缩处理,获得压缩后数据;
对所述压缩后数据进行转储操作,生成与所述待处理数据相对应的目标文件。
4.根据权利要求3所述的方法,其特征在于,在对所述缓存数据进行压缩处理之前,所述方法还包括:
获取用于对所述缓存数据进行转储操作的转储条件;
检测所述缓存数据是否满足所述转储条件;
在所述缓存数据满足所述转储条件时,则允许对所述缓存数据进行压缩处理;
在所述缓存数据不满足所述转储条件时,则禁止对所述缓存数据进行压缩处理。
5.根据权利要求4所述的方法,其特征在于,检测所述缓存数据是否满足转储条件,包括:
获取所述缓存数据的数据量大小;
基于所述数据量大小,检测所述缓存数据是否满足转储条件。
6.根据权利要求5所述的方法,其特征在于,基于所述数据量大小,检测所述缓存数据是否满足转储条件,包括:
在所述数据量大小大于预设阈值时,确定所述缓存数据满足所述转储条件;或者,
在所述数据量大小小于或等于预设阈值时,确定所述缓存数据不满足所述转储条件。
7.一种数据处理方法,其特征在于,应用于服务器,所述方法包括:
获取客户端发送的待处理数据;
利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件;
对所述待处理数据进行缓存处理,生成缓存数据;
获取位于服务器中的所述缓存数据,所述服务器用于以追加写的方式对数据进行分析处理;
利用纠删码技术对所述缓存数据进行转储操作,生成与所述缓存数据相对应的目标文件。
8.根据权利要求7所述的方法,其特征在于,在获取客户端发送的待处理数据之后,所述方法还包括:
利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件。
9.一种数据处理方法,其特征在于,包括:
获取待处理数据;
利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件;
对所述待处理数据进行缓存,生成与所述待处理数据相对应的缓存数据;
利用纠删码技术对所述缓存数据进行在线转储操作,生成与所述待处理数据相对应的目标转储文件。
10.一种数据处理装置,其特征在于,所述数据处理装置设置于服务器,所述服务器中设置有缓存节点,所述装置包括:
第一获取模块,用于获取待处理数据;
第一处理模块,用于利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件;
第一生成模块,用于将所述待处理数据缓存至所述缓存节点,生成与所述待处理数据相对应的缓存数据;
所述第一处理模块,用于利用纠删码技术对所述缓存数据进行在线转储操作,生成与所述待处理数据相对应的纠删码文件。
11.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至6中任一项所述的数据处理方法。
12.一种数据处理装置,其特征在于,应用于服务器,所述装置包括:
第二获取模块,用于获取客户端发送的待处理数据;利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件;对所述待处理数据进行缓存处理,生成缓存数据;获取位于服务器中的所述缓存数据,所述服务器用于以追加写的方式对数据进行分析处理;
第二处理模块,用于利用纠删码技术对所述缓存数据进行转储操作,生成与所述缓存数据相对应的目标文件。
13.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求7至8中任一项所述的数据处理方法。
14.一种数据处理装置,其特征在于,包括:
第三获取模块,用于获取待处理数据;
第三处理模块,用于利用多副本技术对所述待处理数据进行处理,生成与所述待处理数据相对应的至少一个副本文件;
所述第三处理模块,还用于对所述待处理数据进行缓存,生成与所述待处理数据相对应的缓存数据;利用纠删码技术对所述缓存数据进行在线转储操作,生成与所述待处理数据相对应的目标转储文件。
15.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求9所述的数据处理方法。
CN202110284994.4A 2021-03-17 2021-03-17 数据处理方法、装置及设备 Active CN113010113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110284994.4A CN113010113B (zh) 2021-03-17 2021-03-17 数据处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110284994.4A CN113010113B (zh) 2021-03-17 2021-03-17 数据处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113010113A CN113010113A (zh) 2021-06-22
CN113010113B true CN113010113B (zh) 2024-05-14

Family

ID=76409011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110284994.4A Active CN113010113B (zh) 2021-03-17 2021-03-17 数据处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113010113B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391355B (zh) * 2022-10-26 2023-01-17 本原数据(北京)信息技术有限公司 数据处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791353A (zh) * 2014-12-23 2016-07-20 深圳市腾讯计算机系统有限公司 基于纠删码的分布式数据存储方法及系统
CN106649891A (zh) * 2017-02-24 2017-05-10 深圳市中博睿存信息技术有限公司 一种分布式数据存储方法和系统
CN108196978A (zh) * 2017-12-22 2018-06-22 新华三技术有限公司 数据存储方法、装置、数据存储系统及可读存储介质
US10078583B1 (en) * 2016-03-31 2018-09-18 EMC IP Holding Company LLC Method and system for reducing memory used in embedded DDRs by using spare drives for OOC GC
US10713162B1 (en) * 2018-04-26 2020-07-14 Lightbits Labs Ltd. System and method for computer data garbage collection acceleration using peer to peer data transfers
CN112199054A (zh) * 2020-12-07 2021-01-08 上海七牛信息技术有限公司 一种文件存储的方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9894156B2 (en) * 2015-09-22 2018-02-13 International Business Machines Corporation Distributed global data vaulting mechanism for grid based storage
CN106649401A (zh) * 2015-11-03 2017-05-10 阿里巴巴集团控股有限公司 分布式文件系统中的数据写入方法和装置
US9817713B2 (en) * 2016-02-04 2017-11-14 International Business Machines Corporation Distributed cache system utilizing multiple erasure codes
US10915455B2 (en) * 2018-12-04 2021-02-09 Netflix, Inc. Cache warming: agility for a stateful service
US11256621B2 (en) * 2019-06-25 2022-02-22 Seagate Technology Llc Dual controller cache optimization in a deterministic data storage system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791353A (zh) * 2014-12-23 2016-07-20 深圳市腾讯计算机系统有限公司 基于纠删码的分布式数据存储方法及系统
US10078583B1 (en) * 2016-03-31 2018-09-18 EMC IP Holding Company LLC Method and system for reducing memory used in embedded DDRs by using spare drives for OOC GC
CN106649891A (zh) * 2017-02-24 2017-05-10 深圳市中博睿存信息技术有限公司 一种分布式数据存储方法和系统
CN108196978A (zh) * 2017-12-22 2018-06-22 新华三技术有限公司 数据存储方法、装置、数据存储系统及可读存储介质
US10713162B1 (en) * 2018-04-26 2020-07-14 Lightbits Labs Ltd. System and method for computer data garbage collection acceleration using peer to peer data transfers
CN112199054A (zh) * 2020-12-07 2021-01-08 上海七牛信息技术有限公司 一种文件存储的方法及系统

Also Published As

Publication number Publication date
CN113010113A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
KR102007070B1 (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
US9015695B2 (en) Information processing apparatus and information processing method
US20110107053A1 (en) Allocating Storage Memory Based on Future Use Estimates
CN109522154B (zh) 数据恢复方法及相关设备与系统
CN113296696A (zh) 一种数据的访问方法、计算设备及存储介质
US11074124B2 (en) Method and system for enhancing throughput of big data analysis in a NAND-based read source storage
US10996886B2 (en) Method and system for facilitating atomicity and latency assurance on variable sized I/O
US20210021280A1 (en) Memory system and information processing system
CN104281533A (zh) 一种存储数据的方法及装置
US20200089580A1 (en) Techniques for managing context information for a storage device while maintaining responsiveness
US11256890B2 (en) Data storing and sharing using two-dimensional codes
CN105094709A (zh) 一种固态盘存储系统的动态数据压缩方法
US11249987B2 (en) Data storage in blockchain-type ledger
US20170153909A1 (en) Methods and Devices for Acquiring Data Using Virtual Machine and Host Machine
KR20170010810A (ko) 플래시 메모리 내에 데이터를 판독/기록하기 위한 방법, 장치 및 사용자 장비
CN113010113B (zh) 数据处理方法、装置及设备
CN110597461B (zh) 块链式账本中的数据存储方法、装置及设备
US11327929B2 (en) Method and system for reduced data movement compression using in-storage computing and a customized file system
CN113590535B (zh) 一种用于去重存储系统的高效数据迁移方法和装置
CN112286457B (zh) 对象重删方法、装置、电子设备及机器可读存储介质
US10489350B2 (en) Data compression with inline compression metadata
CN111435323B (zh) 信息的传输方法、装置、终端、服务器及存储介质
US8965855B1 (en) Systems and methods for hotspot mitigation in object-based file systems
CN113296698A (zh) 数据处理方法、装置及设备
WO2023082629A1 (zh) 数据存储方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240325

Address after: # 03-06, Lai Zan Da Building 1, 51 Belarusian Road, Singapore

Applicant after: Alibaba Innovation Co.

Country or region after: Singapore

Address before: Room 01, 45th Floor, AXA Building, 8 Shanton Road, Singapore

Applicant before: Alibaba Singapore Holdings Ltd.

Country or region before: Singapore

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant