CN113220653B - 数据处理方法、装置、电子设备和存储介质 - Google Patents

数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113220653B
CN113220653B CN202110426370.1A CN202110426370A CN113220653B CN 113220653 B CN113220653 B CN 113220653B CN 202110426370 A CN202110426370 A CN 202110426370A CN 113220653 B CN113220653 B CN 113220653B
Authority
CN
China
Prior art keywords
data
cost
storage
storage area
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110426370.1A
Other languages
English (en)
Other versions
CN113220653A (zh
Inventor
刘吉
窦德景
杨亚鑫
季石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110426370.1A priority Critical patent/CN113220653B/zh
Publication of CN113220653A publication Critical patent/CN113220653A/zh
Application granted granted Critical
Publication of CN113220653B publication Critical patent/CN113220653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Abstract

本申请公开了数据处理方法、装置、电子设备和存储介质,涉及数据处理技术领域,尤其涉及云计算领域。具体实现方案为:获取当前待存储的数据集及成本阈值;分别确定数据集在不同存储区域时的存储成本;响应于数据集在任一存储区域时的存储成本小于或等于成本阈值,则将数据集存入任一存储区域。该方法可应用于云平台,通过确定数据集在不同存储区域的存储成本,以确定满足成本约束的存储区域,将数据集存入存储成本满足成本约束的存储区域,从而有效降低了云上的总成本。

Description

数据处理方法、装置、电子设备和存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及云计算领域,具体涉及一种数据处理方法、装置、电子设备和存储介质。
背景技术
数据共享是不同组织之间数据相关协作的第一步,例如,与多方数据的联合建模。随着云计算的发展,组织可将数据存储在云上,实现数据处理的弹性和可扩展性。在使用云服务时,用户需要付费,例如,当用户直接将数据存储在云上时,需要向云存储服务付费。
在将数据放置在云平台时,如何降低云存储和处理数据的成本是亟待解决的问题。
发明内容
本申请提供了一种数据处理方法、装置、电子设备和存储介质。
根据本申请的一方面,提供了一种数据处理方法,包括:
获取当前待存储的数据集及成本阈值;
分别确定所述数据集在不同存储区域时的存储成本;
响应于所述数据集在任一存储区域时的存储成本小于或等于所述成本阈值,则将所述数据集存入所述任一存储区域。
根据本申请的另一方面,提供了一种数据处理装置,包括:
第一获取模块,用于获取当前待存储的数据集及成本阈值;
第一确定模块,用于分别确定所述数据集在不同存储区域时的存储成本;
存入模块,用于响应于所述数据集在任一存储区域时的存储成本小于或等于所述成本阈值,则将所述数据集存入所述任一存储区域。
根据本申请的一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例所述的方法。
根据本申请的一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。
根据本申请的一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述实施例所述的方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的一种数据处理方法的流程示意图;
图2为本申请实施例提供的另一种数据处理方法的流程示意图;
图3为本申请实施例提供的另一种数据处理方法的流程示意图;
图4为本申请实施例提供的另一种数据处理方法的流程示意图;
图5为本申请实施例提供的一种数据共享平台的体系结构示意图;
图6为本申请实施例提供的一种数据处理装置的结构示意图;
图7是用来实现本申请实施例的数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的数据处理方法、装置、电子设备和存储介质。
云计算,指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源包括服务器、操作系统、网络、软件、应用和存储设备等,并可以以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
云存储是在云计算概念上延伸和衍生发展出来的一个新的概念。云存储是指通过集群应用、网格技术或分布式文件系统等功能,网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统,保证数据的安全性,并节约存储空间。
图1为本申请实施例提供的一种数据处理方法的流程示意图。本申请实施例的数据处理方法,可应用于云平台,以实现在满足成本约束的条件下存储数据,有效降低云平台上的总成本。
如图1所示,该数据处理方法包括:
步骤101,获取当前待存储的数据集及成本阈值。
本申请中,当前待存储的数据集可以是一个处理任务当前对应的需要存储的数据集,这时数据集中可包含处理任务产生的中间数据。
成本阈值与当前待存储的数据集对应,用于对数据集的存储成本进行约束,成本阈值可以根据需要设置。
步骤102,分别确定数据集在不同存储区域时的存储成本。
本申请中,可有多个不同的存储区域,不同的存储区域存储价格可能不同,可计算将数据集存储在每个存储区域时的存储成本。
或者,云平台可具有多个不同存储类型的存储区域,以提供不同存储类型的数据存储服务。其中,存储类型可包括热数据存储、低频数据存储、冷数据存储、归档数据存储等。由于不同的存储类型存储价格可能不同,那么可确定数据集在不同存储类型的存储区域的存储成本,即确定数据集在不同存储类型下的存储成本。从而,可以选择合适存储类型,以降低数据存储成本。
步骤103,响应于数据集在任一存储区域时的存储成本小于或等于成本阈值,则将数据集存入任一存储区域。
在确定数据集存储在不同存储区域时的存储成本后,可将每个存储区域对应的存储成本与成本阈值进行比较。当数据集在任一存储区域时的存储成本小于或等于成本阈值时,可将数据集存入任一存储区域。
比如,有3个存储区域分别为A、B和C,某数据集存储在存储区域A时的存储成本小于成本阈值,而在存储区域B和C时的存储成本大于成本阈值,则将该数据集存入存储区域A中。
若数据集在多个存储区域的存储成本均小于或等于成本阈值,可将数据集分开放置在多个存储区域,或者,也可随机选择一个存储区域将数据集存入等。
本申请中,若待存储的数据集为多个,可根据参数Ci,j′对多个数据集按下降顺序进行排序,根据排序顺序依次对数据集进行数据处理。其中,Ci,j′的计算方式如下所示:
其中,Jk(t)表示当前待存储的数据集;ω表示存储成本相对于系统稳定性的重要性,ω为常数,其大小可根据需要设置;Sj(t)表示放置在存储类型为的j的数据存储空间的数据集集合;C′i,j,k是与时间成本相对于系统稳定性的重要性、数据读取速度、货币成本相对于系统稳定性的重要性、处理任务执行频率等相关的参数。
在执行处理任务的过程中,待存储的数据集可能会发生变化,若Ci,j′小于或等于零,那么可利用上述方法为当前待存储的数据集确定新的存储区域。
本申请实施例中,通过获取当前待存储的数据集及成本阈值,并分别确定数据集在不同存储区域时的存储成本,响应于数据集在任一存储区域时的存储成本小于或等于成本阈值,则将数据集存入任一存储区域。由此,通过确定数据集在不同存储区域的存储成本,以确定满足成本约束的存储区域,将数据集存入存储成本满足成本约束的存储区域,从而有效降低了云上的总成本。
在本申请的一个实施例中,成本阈值可包括时间阈值和货币阈值,数据集在每个存储区域时的存储成本均大于成本阈值时,可基于时间阈值和货币阈值,进一步确定数据集的存储位置。下面结合图2进行说明,图2为本申请实施例提供的另一种数据处理方法的流程示意图。
如图2所示,该数据处理方法包括:
步骤201,获取当前待存储的数据集及成本阈值。
本申请中,成本阈值可包括时间阈值和货币阈值,其中,时间阈值和货币阈值可根据需要设置。
步骤202,分别确定数据集在不同存储区域时的存储成本。
本申请中,存储成本可包括时间成本和货币成本,可分别确定数据集在每个存储区域时的时间成本和货币成本。
比如,平台上有K个处理任务,可根据以下公式(2)计算处理任务对应的数据集在每个存储区域的归一化时间成本。
其中,jobk表示第k个处理任务(或称为处理任务k),T(jobk,Plant[t])表示第k个处理任务的总执行时间,DTk表示处理任务k的期望执行时间,可根据需要设定。期望的执行时间DTk可以大于或小于实际的执行时间。
其中,总执行时间T(jobk,Plant[t])可以由三部分组成,如下公式(3)所述:
T(jobk,Plant[t])=InitT(jobk)+DTT(jobk,Plan[t])+ET(jobk) (3)
其中,InitT(jobk)表示处理任务k初始化计算节点的时间;DTT(jobk,Plan[t])表示从云存储服务传输到计算节点的时间;ET(jobk)处理任务k的执行时间。
在计算货币成本时,可根据公式(4)计算数据集在每个存储区域时的货币成本。
其中,M(jobk,Plant[t])是租用虚拟机作为云计算节点的货币成本;DMk表示处理任务k的预期执行货币成本,可由根据需要设置。DMk可以大于或小于实际货币成本货币。M(jobk,Plant[t])可以根据以下公式(5)估算:
其中,EM(jobk,Plan[t])表示使用计算节点执行处理任务的货币成本,;DSMk(jobk,Plan[t])表示在云存储服务上存储数据的货币成本;DAMk(jobk,Plan[t])表示访问数据的货币成本。其中,EM(jobk,Plan[t])可根据计算节点单价、数量和初始时间等确定;DSMk(jobk,Plan[t])可根据工作量、数据量、数据存储位置等确定;DAMk(jobk,Plan[t])可根据单次获取成本和数量确定。
EM(jobk,Plan[t])=VMP(jobk)·nk·[T(jobk,Plan[t])-InitT(jobk)] (6)
其中,VMP(jobk)表示一个虚拟机执行处理任务k的平均货币成本;nk表示执行处理任务的计算节点的数量。
WL(jobk)表示处理任务k的工作量;f(jobl)表示处理任务的平均执行频率,可根据对处理任务的历史执行动态测量得到;job(i)表示处理任务k将数据i作为输入数据的处理任务;SPj表示在存储区域j存储数据时的货币成本;datak表示处理任务k的输入数据集;size(di)表示输入数据di的大小;pi,j[t]表示数据di的存储位置。
RPj表示从云存储读取数据di的货币成本;size(di)表示处理任务k的输入数据di的大小。
在时段t执行有数据放置计划的K个处理任务的总成本可定义为所有处理任务的总成本之和为:
其中,Cost(jobk,Plan[t]表示处理任务k的存储成本,Cost(jobk,Plan[t]为处理任务k对应的时间成本和货币成本之和。
步骤203,响应于数据集在任一存储区域时的存储成本小于或等于成本阈值,则将数据集存入任一存储区域。
本申请中,可将数据集在每个存储区域的时间成本与时间阈值进行比较,将货币成本与货币阈值进行比较。在数据集在任一存储区域时的时间成本小于或等于时间阈值,且货币成本小于或等于货币阈值,则将数据集存入任一存储区域。
也就是说,当任一存储区域的时间成本和货币成本同时满足时间约束和货币约束时,可将数据集存入任一存储区域。
比如,处理任务k具有时间约束和货币约束,如下所示:
T(jobk,Plant[t])≤TDLk (10)
M(jobk,Plant[t])≤MBk (11)
其中,TDLk表示处理任务k对应的时间阈值;MBk表示处理任务k对应的货币阈值。当处理任务k对应的数据集在任一存储区域时的时间成本和货币成本,同时满足上述公式(10)和(11)时,将数据集存入任一存储区域。
步骤204,响应于数据集在每个存储区域时的存储成本均大于成本阈值,则获取存储数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域。
本申请中,若针对每个存储区域,数据集在存储区域时的时间成本均大于时间阈值,且货币成本大于货币阈值,说明将数据集存入任一存储区域时均不能满足成本约束,这时可根据数据集在每个存储区域时的时间成本,从多个存储区域中确定出时间成本最小的存储区域,称为第一存储区域,以及根据数据集在每个存储区域时的货币成本,从多个存储区域中确定出货币成本最小的存储区域,称为第二存储区域。
步骤205,确定第一存储区域中的各个第一存储分区对应的货币成本。
本申请中,第一存储区域可包含多个第一存储分区,对于每个第一存储分区,确定数据集中的数据在第一存储分区时的货币成本。这里确定第一存储分区对应的货币成本的方法,与上述确定数据集在存储区域时的货币成本方法类似。
步骤206,响应于任一第一存储分区对应的货币成本小于或等于货币阈值,则将数据集中的部分数据存入任一第一存储分区。
在确定第一存储区域中各第一存储分区对应的货币成本后,可将每个第一存储分区对应的货币成本,与货币阈值进行比较。在任一第一存储分区对应的货币成本小于或等于货币阈值时,可将数据集中部分数据存入任一第一存储分区。
也就是说,在时间成本最小的第一存储区域中,确定是否存在满足货币约束的存储分区,如果存在满足货币约束的存储分区,则将数据集的部分数据存入该存储分区。
本申请实施例中,成本阈值可包括时间阈值和货币阈值,在分别确定数据集在不同存储区域时的存储成本之后,在数据集在每个存储区域时的存储成本均大于成本阈值的情况下,获取存储数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域,并确定第一存储区域中的各个第一存储分区对应的货币成本,响应于任一第一存储分区对应的货币成本小于或等于货币阈值,则将数据集中的部分数据存入任一第一存储分区。由此,当数据集在每个存储区域时未同时满足时间约束和货币约束时,在时间成本最小的第一存储区域中,确定是否存在满足货币约束的存储分区,如果存在,将数据集的部分数据存入该存储分区中,从而通过数据分区技术存储数据,有效降低了云上总成本。
在本申请的一个实施例中,成本阈值可包括时间阈值和货币阈值,数据集在每个存储区域时的存储成本均大于成本阈值时,可基于时间阈值和货币阈值,进一步确定数据集的存储位置。下面结合图3进行说明,图3为本申请实施例提供的另一种数据处理方法的流程示意图。
如图3所示,该数据处理方法包括:
步骤301,获取当前待存储的数据集及成本阈值。
步骤302,分别确定数据集在不同存储区域时的存储成本。
步骤303,响应于数据集在任一存储区域时的存储成本小于或等于成本阈值,则将数据集存入任一存储区域。
步骤304,响应于数据集在每个存储区域时的存储成本均大于成本阈值,则获取存储数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域。
本申请中,步骤301-步骤304与上述步骤201-步骤204类似,故在此不再赘述。
步骤305,确定第二存储区域中的各个第二存储分区对应的时间成本。
本申请中,第二存储区域可包含多个第二存储分区,对于每个第二存储分区,确定数据集中的数据在第二存储分区时的货币成本。这里确定第二存储分区对应的货币成本的方法,与上述确定数据集在存储区域时的货币成本方法类似。
步骤306,响应于任一第二存储分区对应的时间成本小于或等于时间阈值,则将数据集中的部分数据存入任一第二存储分区。
在确定第二存储区域中各第二存储分区对应的货币成本后,可将每个第二存储分区对应的时间成本,与时间阈值进行比较。在任一第二存储分区对应的时间成本小于或等于时间阈值时,可将数据集中部分数据存入任一第二存储分区。
也就是说,在货币成本最小的第二存储区域中,确定是否存在满足时间约束的存储分区,如果存在满足时间约束的存储分区,则将数据集的部分数据存入该存储分区。
本申请实施例中,成本阈值可包括时间阈值和货币阈值,在分别确定数据集在不同存储区域时的存储成本之后,在数据集在每个存储区域时的存储成本均大于成本阈值的情况下,获取存储数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域,并确定第二存储区域中的各个第二存储分区对应的时间成本,响应于任一第二存储分区对应的时间成本小于或等于时间阈值,则将数据集中的部分数据存入任一第二存储分区。由此,当数据集在每个存储区域时未同时满足时间约束和货币约束时,在货币成本最小的第二存储区域中,确定是否存在满足时间约束的存储分区,如果存在,将数据集的部分数据存入该存储分区中,从而通过数据分区技术存储数据,有效降低了云上总成本。
在本申请的一个实施例中,响应于数据集在每个存储区域时的存储成本均大于成本阈值,则获取存储数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域。对于第一存储区域,确定是否存在货币成本小于或等于货币阈值的存储分区,若存在,可将数据集的部分数据存入该存储分区。同时,对于第二存储区域,可确定是否存在时间成本小于或等于时间阈值的存储分区,若存在,可将数据集的部分数据存入该存储分区。
由此,在第一存储区域中,寻找满足货币约束的存储分区,在第二存储区域中,寻找满足时间约束的存储分区,以将数据集的部分数据,通过数据分区技术进行存储,有效降低了总成本。
在本申请的一个实施例中,数据集可对应多个处理任务,下面结合图4说明,数据集对应多个处理任务时的数据处理方法。图4为本申请实施例提供的另一种数据处理方法的流程示意图。
如图4所示,该数据处理方法包括:
步骤401,获取当前待存储的数据集及成本阈值。
步骤402,分别确定数据集在不同存储区域时的存储成本。
步骤403,响应于数据集在任一存储区域时的存储成本小于或等于成本阈值,则将数据集存入任一存储区域。
步骤404,响应于数据集在每个存储区域时的存储成本均大于成本阈值,则获取存储数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域。
本申请中,步骤401-步骤404与上述步骤201-步骤204类似,故在此不再赘述。
步骤405,针对每个处理任务,确定其对应的货币成本最小时存入第一存储区域中的第一数据量区间。
本申请中,对每个处理任务,可计算将数据集的部分数据存入第一存储区域中时的货币成本,并确定货币成本最小时,存入第一存储区域中的数据量区间,为了便于区分,称为第一数据量区间。
其中,第一数据量区间用于表示存入第一数据区域中的数据量范围。比如,某处理任务其对应的货币成本最小时存入第一存储区域中第一数据量区间为[0.4,0.6]。也就是说,将数据集中40%到60%的数据量存入第二存储区域中,该处理任务对应的时间成本最小。
步骤406,确定多个处理任务分别对应的第一数据量区间之间的第一重叠区间。
本申请中,可根据每个处理任务对应的第一数据量区间的重叠区域,即确定多个处理任务分别对应的第一数据量区间的交集,得到第一重叠区间。
比如,数据集对应两个处理任务,两个处理任务P1和P2分别对应的第一数据量区间为[0.4,0.6]、[0.4,08],则第一重叠区间为[0.4,0.6]。
步骤407,针对每个处理任务,确定其对应的时间成本最小时存入第二存储区域中的第二数据量区间。
本申请中,对每个处理任务,可计算将数据集的部分数据存入第二存储区域中时的时间成本,并确定时间成本最小时,存入第二存储区域中的数据量区间,为了便于区分,称为第二数据量区间。
其中,第二数据量区间用于表示存入第二数据区域中的数据量范围。比如,某处理任务其对应的时间成本最小时存入第二存储区域中第二数据量区间为[0.3,0.6],也就是说,将数据集中30%到60%的数据量存入第二存储区域中,该处理任务对应的时间成本最小。
步骤408,确定多个处理任务分别对应的第二数据量区间之间的第二重叠区间。
本申请中,可根据每个处理任务对应的第二数据量区间的重叠区域,即确定多个处理任务分别对应的第二数据量区间的交集,得到第二重叠区间。
比如,两个处理任务P1和P2分别对应的第二数据量区间为[0.3,0.6]、[0.5,07],则第二重叠区间为[0.5,0.6]。
步骤409,根据第一重叠区间及第二重叠区间,确定数据集中分别存入第一存储区域及第二存储区域中的数据量。
本申请中,第一重叠区间表示多个处理任务对应的总货币成本最小时,将数据集存入第一存储区域的数据量大小,第二重叠区间表示多个处理任务对应的总时间成本最小时,将数据集存入第一存储区域的数据量大小,为了保证总成本最小,可根据第一重叠区间与第二重叠区间的最大值之和,确定存入第一存储区域的数据量和第二存储区域的数据量。
在确定存入第一存储区域的数据量和第二存储区域的数据量时,可根据第一重叠区间,确定第一重叠区间中的最大值K,根据第二重叠区间第二重叠区间中的最大值L。若K与L的和为1,可确定数据集中存入第一存储区域的数据量为K,存入第二存储区域的数据量为L。
比如,第一重叠区间为[0.4,0.6],第二重叠区间[0.3,0.4],第一重叠区间的最大值为0.6,第二重叠区间的最大值为0.4,且两个最大值的和为1,那么可以确定将数据集的60%的数据量存入第一存储区域,将剩余的数据量存入第二存储区域,即将数据集的40%的数据量存入第二存储区域。
本申请中,在第一重叠区间中的最大值K与第二重叠区间中的最大值L的和为1时,可确定数据集中存入第一存储区域的数据量,存入所述第二存储区域的数据量,根据确定的数据量存放数据,由此,通过数据分区将数据集分别存入到两个存储区域,有效降低了总成本。
若第一重叠区间中的最大值K与第二重叠区间中的最大值L的和大于1,可针对多个处理任务,确定数据集中存入第一存储区域的数据量为Ki时的总时间成本,和数据集中存入第二存储区域的数据量为Lj时的总货币成本。其中,Ki与Lj的和为1,Ki大于或等于第一重叠区间中的最小值、且小于或等于K;Lj大于或等于第二重叠区间中的最小值、且小于或等于L,i和j分别为正整数。
也就是说,在K与L的值大于1的情况下,可从第一重叠区间选出一个值Ki,从第二重叠区域中选出一个值Lj,两个值的和为1,并计算存储入数据量Ki时多个处理任务对应的总时间成本,存入数据量Lj时的总货币成本。
在确定数据集中存入第一存储区域的数据量为Ki时的总时间成本时,可针对每个处理任务,确定数据集中存入第一存储区域的数据量为Ki时的时间成本,多个处理任务对应的时间成本之和,即为总时间成本。相应的,可针对每个处理任务,确定数据集中存入第二存储区域的数据量为Lj时的货币成本,多个处理任务对应的货币成本之和,即为总货币成本。
可以理解的是,可以得到Ki与Lj的多个组合,每个组合对应一组总时间成本和总货币成本,若K1与L1对应总时间成本及总货币成本最小,可确定数据集中存入第一存储区域的数据量为K1,存入第二存储区域的数据量为L1。也就是说,从Ki与Lj的多个组合中,确定出总时间成本和总货币成本之和,即总成本最小时的组合,根据该组合可确定存入第一存储区域的数据量和存入第二存储区域的数据量。
本申请中,在第一重叠区间中的最大值与第二重叠区间中的最大值大于1的情况下,将第一重叠区间中的值和第二重叠区间的值进行组合,并选出总时间成本和总货币成本最小时的组合,根据该组合确定存入第一存储区域和第二存储区域的数据量,从而有效降低了总成本。
本申请实施例中,数据集可对应多个处理任务,在获取存储数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域之后,可针对每个处理任务,确定其对应的货币成本最小时存入第一存储区域中的第一数据量区间和对应的时间成本最小时存入第二存储区域中的第二数据量区间,并确定多个处理任务对应的第一数据量区间之间的第一重叠区间和第二数据量区间之间的第二重叠区间,根据第一重叠区间及第二重叠区间,确定数据集分别存入第一存储区域和第二存储区域中的数据量,以此将数据集分开存入两个存储区域中,有效降低了总成本。
图5为本申请实施例提供的一种数据共享平台的体系结构示意图。上述描述的数据处理方法,可应用于如图5所述的数据共享平台,即云平台上。
如图5所示,该数据共享平台可由共有4个主要部分组成,环境初始化、数据存储管理,工作执行诱导、和安全部分。其中,环境初始化器首先创建用户的账号和执行空间,该执行空间仅与内网相连,可充分保证安全性。数据存储管理器会创建每个账号对应权限的存储空间,其中,每个存储空间有其独一的AK(Access Key,访问密钥)和SK(Secret AccessKey,私有访问密钥),可保证其安全。
其中,环境初始化器:环境初始化器在协调器节点上创建用户帐户及其执行空间。所创建的用户帐户用于用户的安全配置,例如,从另一个用户访问某些数据的权限。用户帐户还与安全执行空间相关联,用于在集群中执行提交的处理任务。
数据存储管理器:数据存储管理器在云上为用户创建数据存储帐户和存储桶。存储桶是一个独立的存储空间,具有自己的权限策略来存储数据。数据存储帐户用于在平台和用户设备(如计算机)之间传输数据。
处理任务执行触发器:处理任务执行触发器用于启动集群内处理任务的执行。用户可以通过web门户将用户编写的代码上传到平台上。之后,可以使用处理任务执行触发器启动程序的执行。
安全模块:在平台中,可以采用了四种机制来保证数据的安全。第一种机制是在将数据存储到云上之前对数据进行加密,比如,可基于加密算法对数据进行加密。第二种机制是将计算节点与公共网络分离,确保集群与云上的外部设备(如服务器)之间不允许进行数据通信。第三种机制是统一的数据访问控制。当用户申请其他用户拥有的数据权限时,数据访问接口由数据所有者提供,而不是直接共享原始数据。最后一种机制是数据所有者对代码和输出数据进行审核,保证了输出数据中没有数据泄露。通过这些机制,数据所有者定义的数据接口保证了数据的机密性和安全性,同时保证了不同组织之间的高效合作。
为了表现用户、平台和处理任务在平台上执行的交互,可以给出账号生命周期和处理任务生命周期。生命周期描述平台上用户帐户或处理任务的状态转换。
账户生命周期包括创建账户、处理数据和清理账户三个阶段。首先,创建与平台用户相关的帐户。之后,用户可以在平台上对数据进行处理。当用户不再需要该平台时,平台可将与该帐户相关的数据删除。
处理任务生命周期:处理任务生命周期包括初始化、数据同步、处理任务执行和最终完成四个阶段。初始化阶段是为在平台上执行处理任务准备环境。准备工作包含三个步骤:供应、部署和配置。首先,虚拟机作为计算节点发放给处理任务。在数据同步过程中,数据存储模块对存储在云上的数据或数据接口进行同步。此外,与提交的代码相对应的脚本或文件也被转移到初始化阶段创建的执行空间中。执行阶段是处理任务在对应虚拟机的执行空间中执行的周期。在结束阶段中,数据存储管理器上传处理任务的加密中间体。然后,环境初始化器模块删除相应的执行空间。如果一个节点不包含任何执行空间,那么该节点将被释放,也就是被环境初始化器移除,以减少租用相应虚拟机的货币成本。
该数据共享平台在存储数据时,可采用上述实施例中的数据处理方法。
为了实现上述实施例,本申请实施例还提出一种数据处理装置。图6为本申请实施例提供的一种数据处理装置的结构示意图。
如图6所示,该数据处理装置600包括:
第一获取模块610,用于获取当前待存储的数据集及成本阈值;
第一确定模块620,用于分别确定所述数据集在不同存储区域时的存储成本;
存入模块630,用于响应于所述数据集在任一存储区域时的存储成本小于或等于所述成本阈值,则将所述数据集存入所述任一存储区域。
在本申请实施例一种可能的实现方式中,所述成本阈值包括时间阈值及货币阈值,所述装置还包括:
第二获取模块,用于响应于所述数据集在每个存储区域时的存储成本均大于所述成本阈值,则获取存储所述数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域;
所述第一确定模块620,还用于确定所述第一存储区域中的各个第一存储分区对应的货币成本;
所述存入模块630,还用于响应于任一第一存储分区对应的货币成本小于或等于所述货币阈值,则将所述数据集中的部分数据存入所述任一第一存储分区。
在本申请实施例一种可能的实现方式中,所述第一确定模块620,还用于确定所述第二存储区域中的各个第二存储分区对应的时间成本;
所述存入模块630,还用于响应于任一第二存储分区对应的时间成本小于或等于所述时间阈值,则将所述数据集中的部分数据存入所述任一第二存储分区。
在本申请实施例一种可能的实现方式中,所述数据集对应多个处理任务,该装置还可包括:
第二确定模块,用于针对每个所述处理任务,确定其对应的货币成本最小时存入所述第一存储区域中的第一数据量区间;
第三确定模块,用于确定所述多个处理任务分别对应的第一数据量区间之间的第一重叠区间;
第四确定模块,用于针对每个所述处理任务,确定其对应的时间成本最小时存入所述第二存储区域中的第二数据量区间;
第五确定模块,用于确定所述多个处理任务分别对应的第二数据量区间之间的第二重叠区间;
第六确定模块,用于根据所述第一重叠区间及所述第二重叠区间,确定所述数据集中分别存入所述第一存储区域及所述第二存储区域中的数据量。
在本申请实施例一种可能的实现方式中,所述第六确定模块,用于:
响应于所述第一重叠区间中的最大值K与所述第二重叠区间中的最大值L的和为1,确定所述数据集中存入所述第一存储区域的数据量为K,存入所述第二存储区域的数据量为L。
在本申请实施例一种可能的实现方式中,所述第六确定模块,用于:
响应于所述第一重叠区间中的最大值K与所述第二重叠区间中的最大值L的和大于1,针对所述多个处理任务,确定所述数据集中存入所述第一存储区域的数据量为Ki,存入所述第二存储区域的数据量为Lj时的总时间成本及总货币成本,其中,Ki与Lj的和为1,Ki大于或等于所述第一重叠区间中的最小值、且小于或等于K,Lj大于或等于所述第二重叠区间中的最小值、且小于或等于L,i和j分别为正整数;
响应于K1与L1对应总时间成本及总货币成本最小,确定所述数据集中存入所述第一存储区域的数据量为K1,存入所述第二存储区域的数据量为L1。
在本申请实施例一种可能的实现方式中,所述第一确定模块620,用于:
分别确定所述数据集在不同类型的存储区域时的存储成本。
需要说明的是,前述数据处理方法实施例的解释说明,也适用于该实施例的数据处理装置,故在此不再赘述。
本申请实施例中,通过获取当前待存储的数据集及成本阈值,并分别确定数据集在不同存储区域时的存储成本,响应于数据集在任一存储区域时的存储成本小于或等于成本阈值,则将数据集存入任一存储区域。由此,通过确定数据集在不同存储区域的存储成本,以确定满足成本约束的存储区域,将数据集存入存储成本满足成本约束的存储区域,从而有效降低了云上的总成本。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本申请的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,电子设备700包括计算单元701,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)702中的计算机程序或者从存储单元708加载到RAM(Random AccessMemory,随机访问/存取存储器)703中的计算机程序,来执行各种适当的动作和处理。在RAM703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。I/O(Input/Output,输入/输出)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(VirtualPrivate Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本申请的实施例,本申请还提供了一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行本申请上述实施例提出的数据处理方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种数据处理方法,包括:
获取当前待存储的数据集及成本阈值;
分别确定所述数据集在不同存储区域时的存储成本;
响应于所述数据集在任一存储区域时的存储成本小于或等于所述成本阈值,则将所述数据集存入所述任一存储区域;
所述成本阈值包括时间阈值及货币阈值,在所述分别确定所述数据集在不同存储区域时的存储成本之后,还包括:
响应于所述数据集在每个存储区域时的存储成本均大于所述成本阈值,则获取存储所述数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域;
所述数据集对应多个处理任务,针对每个所述处理任务,确定其对应的货币成本最小时存入所述第一存储区域中的第一数据量区间;
确定所述多个处理任务分别对应的第一数据量区间之间的第一重叠区间;
针对每个所述处理任务,确定其对应的时间成本最小时存入所述第二存储区域中的第二数据量区间;
确定所述多个处理任务分别对应的第二数据量区间之间的第二重叠区间;
根据所述第一重叠区间及所述第二重叠区间,确定所述数据集中分别存入所述第一存储区域及所述第二存储区域中的数据量。
2.如权利要求1所述的方法,其中,在所述获取存储所述数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域之后,还包括:
确定所述第一存储区域中的各个第一存储分区对应的货币成本;
响应于任一第一存储分区对应的货币成本小于或等于所述货币阈值,则将所述数据集中的部分数据存入所述任一第一存储分区。
3.如权利要求1所述的方法,其中,在所述获取存储所述数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域之后,还包括:
确定所述第二存储区域中的各个第二存储分区对应的时间成本;
响应于任一第二存储分区对应的时间成本小于或等于所述时间阈值,则将所述数据集中的部分数据存入所述任一第二存储分区。
4.如权利要求1所述的方法,其中,所述根据所述第一重叠区间及所述第二重叠区间,确定所述数据集中分别存入所述第一存储区域及所述第二存储区域中的数据量,包括:
响应于所述第一重叠区间中的最大值K与所述第二重叠区间中的最大值L的和为1,确定所述数据集中存入所述第一存储区域的数据量为K,存入所述第二存储区域的数据量为L。
5.如权利要求1所述的方法,其中,所述根据所述第一重叠区间及所述第二重叠区间,确定所述数据集中分别存入所述第一存储区域及所述第二存储区域中的数据量,包括:
响应于所述第一重叠区间中的最大值K与所述第二重叠区间中的最大值L的和大于1,针对所述多个处理任务,确定所述数据集中存入所述第一存储区域的数据量为Ki,存入所述第二存储区域的数据量为Lj时的总时间成本及总货币成本,其中,Ki与Lj的和为1,Ki大于或等于所述第一重叠区间中的最小值、且小于或等于K,Lj大于或等于所述第二重叠区间中的最小值、且小于或等于L,i和j分别为正整数;
响应于K1与L1对应总时间成本及总货币成本最小,确定所述数据集中存入所述第一存储区域的数据量为K1,存入所述第二存储区域的数据量为L1。
6.如权利要求1-5任一所述的方法,其中,所述分别确定所述数据集在不同存储区域时的存储成本,包括:
分别确定所述数据集在不同类型的存储区域时的存储成本。
7.一种数据处理装置,包括:
第一获取模块,用于获取当前待存储的数据集及成本阈值;
第一确定模块,用于分别确定所述数据集在不同存储区域时的存储成本;
存入模块,用于响应于所述数据集在任一存储区域时的存储成本小于或等于所述成本阈值,则将所述数据集存入所述任一存储区域;
所述成本阈值包括时间阈值及货币阈值,所述装置还包括:
第二获取模块,用于响应于所述数据集在每个存储区域时的存储成本均大于所述成本阈值,则获取存储所述数据集时的最小时间成本对应的第一存储区域及最小货币成本对应的第二存储区域;
所述数据集对应多个处理任务,所述装置还包括:
第二确定模块,用于针对每个所述处理任务,确定其对应的货币成本最小时存入所述第一存储区域中的第一数据量区间;
第三确定模块,用于确定所述多个处理任务分别对应的第一数据量区间之间的第一重叠区间;
第四确定模块,用于针对每个所述处理任务,确定其对应的时间成本最小时存入所述第二存储区域中的第二数据量区间;
第五确定模块,用于确定所述多个处理任务分别对应的第二数据量区间之间的第二重叠区间;
第六确定模块,用于根据所述第一重叠区间及所述第二重叠区间,确定所述数据集中分别存入所述第一存储区域及所述第二存储区域中的数据量。
8.如权利要求7所述的装置,其中,所述第一确定模块,还用于确定所述第一存储区域中的各个第一存储分区对应的货币成本;
所述存入模块,还用于响应于任一第一存储分区对应的货币成本小于或等于所述货币阈值,则将所述数据集中的部分数据存入所述任一第一存储分区。
9.如权利要求7所述的装置,其中,所述第一确定模块,还用于确定所述第二存储区域中的各个第二存储分区对应的时间成本;
所述存入模块,还用于响应于任一第二存储分区对应的时间成本小于或等于所述时间阈值,则将所述数据集中的部分数据存入所述任一第二存储分区。
10.如权利要求7所述的装置,其中,所述第六确定模块,用于:
响应于所述第一重叠区间中的最大值K与所述第二重叠区间中的最大值L的和为1,确定所述数据集中存入所述第一存储区域的数据量为K,存入所述第二存储区域的数据量为L。
11.如权利要求7所述的装置,其中,所述第六确定模块,用于:
响应于所述第一重叠区间中的最大值K与所述第二重叠区间中的最大值L的和大于1,针对所述多个处理任务,确定所述数据集中存入所述第一存储区域的数据量为Ki,存入所述第二存储区域的数据量为Lj时的总时间成本及总货币成本,其中,Ki与Lj的和为1,Ki大于或等于所述第一重叠区间中的最小值、且小于或等于K,Lj大于或等于所述第二重叠区间中的最小值、且小于或等于L,i和j分别为正整数;
响应于K1与L1对应总时间成本及总货币成本最小,确定所述数据集中存入所述第一存储区域的数据量为K1,存入所述第二存储区域的数据量为L1。
12.如权利要求7-11任一所述的装置,其中,所述第一确定模块,用于:
分别确定所述数据集在不同类型的存储区域时的存储成本。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
CN202110426370.1A 2021-04-20 2021-04-20 数据处理方法、装置、电子设备和存储介质 Active CN113220653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110426370.1A CN113220653B (zh) 2021-04-20 2021-04-20 数据处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110426370.1A CN113220653B (zh) 2021-04-20 2021-04-20 数据处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113220653A CN113220653A (zh) 2021-08-06
CN113220653B true CN113220653B (zh) 2023-10-27

Family

ID=77088368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110426370.1A Active CN113220653B (zh) 2021-04-20 2021-04-20 数据处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113220653B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8789060B1 (en) * 2007-12-27 2014-07-22 Cadence Design Systems, Inc. Deterministic, parallel execution with overlapping regions
CN106201355A (zh) * 2016-07-12 2016-12-07 腾讯科技(深圳)有限公司 数据处理方法和装置以及存储系统
CN109460929A (zh) * 2018-11-15 2019-03-12 平安科技(深圳)有限公司 基于地理位置作业的众包任务的推送方法及相关设备
CN111309732A (zh) * 2020-02-19 2020-06-19 杭州朗和科技有限公司 数据处理方法、装置、介质和计算设备
CN112269789A (zh) * 2020-11-16 2021-01-26 北京百度网讯科技有限公司 存储数据的方法和装置、以及读取数据的方法和装置
CN112540727A (zh) * 2020-12-04 2021-03-23 北京百度网讯科技有限公司 数据管理方法、装置、计算设备、存储介质和云平台

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8578125B2 (en) * 2010-10-13 2013-11-05 International Business Machines Corporation Allocation of storage space for critical data sets

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8789060B1 (en) * 2007-12-27 2014-07-22 Cadence Design Systems, Inc. Deterministic, parallel execution with overlapping regions
CN106201355A (zh) * 2016-07-12 2016-12-07 腾讯科技(深圳)有限公司 数据处理方法和装置以及存储系统
CN109460929A (zh) * 2018-11-15 2019-03-12 平安科技(深圳)有限公司 基于地理位置作业的众包任务的推送方法及相关设备
CN111309732A (zh) * 2020-02-19 2020-06-19 杭州朗和科技有限公司 数据处理方法、装置、介质和计算设备
CN112269789A (zh) * 2020-11-16 2021-01-26 北京百度网讯科技有限公司 存储数据的方法和装置、以及读取数据的方法和装置
CN112540727A (zh) * 2020-12-04 2021-03-23 北京百度网讯科技有限公司 数据管理方法、装置、计算设备、存储介质和云平台

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZENG W Y 等.Research on Cloud Storage Architecture and Key Technologies.Proceedings of the2nd International Conference on Interaction Sciences:Information Technology,Culture and Human(ICIS'09).2009,全文. *
云计算之数据存储技术;刘爱芹;;电子技术与软件工程(第11期);全文 *
基于对象的虚拟外存管理;郭玉东;董卫宇;王晓睿;;信息工程大学学报(第01期);全文 *

Also Published As

Publication number Publication date
CN113220653A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
US11836576B2 (en) Distributed machine learning at edge nodes
US9882834B2 (en) Capturing data parameters in templates in a networked computing environment
CN108305072B (zh) 部署区块链网络的方法、设备和计算机存储介质
US11349649B2 (en) Methods and systems for modifying blockchain network configuration
US9112733B2 (en) Managing service level agreements using statistical process control in a networked computing environment
US8751620B2 (en) Validating deployment patterns in a networked computing environment
US11574254B2 (en) Adaptive asynchronous federated learning
US11681961B2 (en) Flexible work breakdown structure
US10067861B2 (en) Efficient software testing
CN112446581A (zh) 在区块链中为风险评估的智能合约发行方和执行提供者实现市场
CN112037032A (zh) 基于知识图谱的额度管理方法及装置
US10089356B2 (en) Processing window partitioning and ordering for on-line analytical processing (OLAP) functions
US10657230B2 (en) Analysis of output files
US20220191226A1 (en) Aggregating results from multiple anomaly detection engines
CN113220653B (zh) 数据处理方法、装置、电子设备和存储介质
US11593279B2 (en) Graph-based data flow control system
CN113609156B (zh) 数据的查询与写入方法、装置、电子设备及可读存储介质
US20210209511A1 (en) Automatic rule learning in shared resource solution design
US20190377603A1 (en) Independent storage and processing of data with centralized event control
US10318689B2 (en) Integrated circuit logic extraction using cloning and expansion for engineering change order
CN104142863B (zh) 基于流守恒的资源配置方法
US20230289693A1 (en) Interactive what-if analysis system based on imprecision scoring simulation techniques
CN112804072B (zh) 一种故障信息收集方法、装置、目标电子设备及存储介质
CN114531247B (zh) 数据共享方法、装置、设备、存储介质及程序产品
US11222105B2 (en) Graphic color-based authentication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant