CN113392131A - 数据处理方法、装置及计算机设备 - Google Patents

数据处理方法、装置及计算机设备 Download PDF

Info

Publication number
CN113392131A
CN113392131A CN202110755957.7A CN202110755957A CN113392131A CN 113392131 A CN113392131 A CN 113392131A CN 202110755957 A CN202110755957 A CN 202110755957A CN 113392131 A CN113392131 A CN 113392131A
Authority
CN
China
Prior art keywords
data
data set
data processing
marked
computing nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110755957.7A
Other languages
English (en)
Inventor
李文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hode Information Technology Co Ltd
Original Assignee
Shanghai Hode Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hode Information Technology Co Ltd filed Critical Shanghai Hode Information Technology Co Ltd
Priority to CN202110755957.7A priority Critical patent/CN113392131A/zh
Publication of CN113392131A publication Critical patent/CN113392131A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置及计算机设备,该方法包括:获取待处理的目标数据集;根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;将所有计算节点输出的已标记数据去除标识码并进行存储。本申请还提供一种计算机可读存储介质。本申请通过标识码的方式将目标数据集的数据进行划分,并将划分后的数据分别输入到不同的计算节点进行数据处理,从而能够有效地均衡了计算节点上执行数据处理的数据量,提升了数据处理效率。

Description

数据处理方法、装置及计算机设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及计算机设备。
背景技术
随着物联网、云计算和网络带宽等技术的高速发展,移动终端等智能设备得到了广泛的应用,网络上各个类型的数据都呈海量式增长。目前业内针对海量数据的处理,通常采用分布式计算的架构,在数据处理过程中,为提高数据处理的效率,常规的优化方案主要采用横向扩展计算节点规模,来实现提升数据处理并行度,降低每个节点处理的数据量。然而,在将待处理数据发送到计算节点进行处理的过程中,各个计算节点的数据量分配往往并不均匀,从而导致计算节点压力负载不均衡,部分节点资源无法得到充分利用,导致数据处理整体效率下降。
发明内容
本申请提出一种数据处理方法、装置及计算机设备,能够解决上述的计算节点负载的数据量不均衡所导致的数据处理效率低的问题。
首先,为实现上述目的,本申请提供一种数据处理方法,所述方法包括:
获取待处理的目标数据集;根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;将所有计算节点输出的已标记数据去除标识码并进行存储。
在一个例子中,所述根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,包括:根据所述计算节点的数量生成预设数量的标识码;将所述预设数量的标识码的每一个标识码对所述目标数据集中的均衡数量的数据进行标记。
在一个例子中,所述根据所述计算节点的数量生成预设数量的标识码,包括:生成与所述计算节点的数量相等或在所述计算节点的数量的预设波动范围内的数量的随机正整数作为标识码。
在一个例子中,所述根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,包括:将所述标识码以前缀或后缀的方式添加到所述目标数据集中的每一个数据中。
在一个例子中,当所述目标数据集中的数据为(key,value)类型数据时,所述将标识码以前缀或后缀的方式添加到所述目标数据集中的每一个数据中,包括:将标识码添加到所述目标数据的key字段。
在一个例子中,所述将所有计算节点输出的已标记数据去除标识码并进行存储,包括:根据key值对已标记数据集中的数据进行一次聚合,得到第一数据集;将所述第一数据集中的每一个数据的标识码去除;根据key值对去除标识码后的所述第一数据集中的数据进行二次聚合,得到第二数据集,并存储到预设存储单元。
在一个例子中,在执行所述一次聚合或所述二次聚合的过程中,当多个数据聚合成一个目标数据时,将所述多个数据的数量标记到所述目标数据。
此外,为实现上述目的,本申请还提供一种数据处理装置,所述装置包括:
获取模块,用于获取待处理的目标数据集;标记模块,用于根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;处理模块,用于根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;存储模块,用于将所有计算节点输出的已标记数据去除标识码并进行存储。
进一步地,本申请还提出一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的数据处理方法的步骤。
进一步地,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的数据处理方法的步骤。
相较于现有技术,本申请所提出的数据处理方法、装置、计算机设备及计算机可读存储介质,能够获取待处理的目标数据集;根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;将所有计算节点输出的已标记数据去除标识码并进行存储。通过标识码的方式将目标数据集的数据进行划分,并将划分后的数据分别输入到不同的计算节点进行数据处理,从而能够有效地均衡了计算节点上执行数据处理的数据量,提升了数据处理效率。
附图说明
图1是本申请一实施例的应用环境示意图;
图2是本申请数据处理方法一具体实施例的流程示意图;
图3是本发明一示例性例子中将数据发送至不同计算节点执行数据处理的流程效果图;
图4是基于图3对已用于过数据处理的数据执行数据存储的流程效果图;
图5是本发明一示例性例子中对于目标数据集执行数据处理的整体流程效果图;
图6是本申请数据处理装置一实施例的程序模块示意图;
图7是本申请计算机设备一可选的硬件架构的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
图1是本申请一实施例的应用环境示意图。参阅图1所示,所述计算机设备1与多个用户端连接。任一用户端均可以与所述计算机设备1进行数据交换,因此,所述计算机设备1可以获取到所有用户端产生的数据,并作为待处理的目标数据集。比如,当所述计算机设备1为数据服务器时,则可以收集到每一个用户端访问所述计算机设备1的过程中产生的用户数据;或者,当所述计算机设备1为游戏服务器时,那么则可以获取到每一个用户端产生的游戏交互数据。
所述计算机设备1获取到用户端产生的待处理的目标数据集之后;根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;然后根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;将所有计算节点输出的已标记数据去除标识码并进行存储。
在本实施例中,所述计算机设备1可作为手机、平板、便携设备、PC机或者服务器等,所述计算机设备1中的计算节点以及存储单元也可以设置为所述计算机设备1的外接设备。当然,在其他实施例中,所述计算机设备1也可以作为独立的功能模块附加到数据服务器上以实现数据处理的功能,或者其他形式,这里不做限制。
实施例一
图2是本申请数据处理方法一实施例的流程示意图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备1为执行主体进行示例性描述。
如图2所示,所述数据处理方法可以包括步骤S200~S206。
步骤S200,获取待处理的目标数据集。
步骤S202,根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集。
具体的,所述计算机设备1可以通过有线或无线的方式连接到其他计算机设备,然后获取待处理的目标数据集。比如,当所述计算机设备1为数据服务器时,可以获取到连接到所述计算机设备1的每一个用户端访问所述计算机设备1的过程中产生的用户数据以及业务数据,例如,游戏交互数据,用户行为数据等,并作为待处理的目标数据集。当然,所述计算机设备1也可以通过连接到其他数据采集端,然后接收该数据采集端采集到的目标数据集。
接着,所述计算机设备1将所述目标数据集发送至预设的分布式计算中心进行数据处理。所述分布式计算中心包括多个计算节点,每一个计算节点可以独立执行数据处理过程。
在本实施例中,所述计算机设备1根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,具体包括:根据所述计算节点的数量生成预设数量的标识码;将所述预设数量的标识码的每一个标识码对所述目标数据集中的均衡数量的数据进行标记。一般来说,计算中心中的计算节点的性能大体一致,为了均衡计算中心中的每一个计算节点的负载,所述计算机设备1需要将所述目标数据集中的数据均衡地分配到每一个计算节点已执行数据处理过程。因此,所述计算机设备1先将所述目标数据集执行划分,然后将划分后的数据分配到每一个计算节点。因此,所述计算机设备1通过对所述目标数据集中的数据标记上不同的标识码的方式将所述目标数据集进行划分,从而得到已标记数据集。
其中,所述计算机设备1根据所述计算节点的数量生成预设数量的标识码,包括:生成与所述计算节点的数量相等或在所述计算节点的数量的预设波动范围内的数量的随机正整数作为标识码。
在本实施例中,所述计算机设备1为了均衡每一个计算节点上的数据量,需要根据计算节点的数量生成相应数量的标识码,然后将这些标识码均衡地标记到所述目标数据集中的数据上。例如,所述计算机设备1可以设置与所述计算节点的数量相等,或者在所述计算节点的数量的预设波动范围内,比如,两倍于计算节点的数量,或者多于计算节点的数量的预设个数的数量的标识码。不论何种方式,最终的结果都要保证分配到每一个计算节点的带有标识码的数据,大体相近。
具体的,所述计算机设备1根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,包括:将所述标识码以前缀或后缀的方式添加到所述目标数据集中的每一个数据中。例如,当计算节点数量为3,标识码标记方式为随机正整数前缀方式时,所述计算机设备1则对所述目标数据集中的每一个数据上添加正整数3以内的随机数前缀,并用‘-’进行连接。
在一示例性例子中,当所述目标数据集中的数据为(key,value)类型数据时,所述将标识码以前缀或后缀的方式添加到所述目标数据集中的每一个数据中,包括:将标识码添加到所述目标数据的key字段。例如,需要对所述目标数据集中的数据<xx,yy>添加标识码‘3’,那么所述计算机将“3-”添加到“xx”之前,得到对应的已标记数据<3-xx,yy>。
步骤S204,根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理。
步骤S206,将所有计算节点输出的已标记数据去除标识码并进行存储。
具体的,所述计算机设备1根据计算节点的数量生成相应数量的标识码,然后将标识码均衡地标记到所述目标数据集中的每一个数据中,得到已标记数据集;接着,所述计算机设备1根据标记码将已标记数据集的数据分别输入到不同的计算节点执行数据处理,从而可以有效地控制分配到每一个计算节点的数据量。
在一示例性例子中,当所述已标记数据为(key,value)类型数据时,所述计算机设备1将所有计算节点输出的已标记数据去除标识码并进行存储,包括:根据key值对已标记数据集中的数据进行一次聚合,得到第一数据集;将所述第一数据集中的每一个数据的标识码去除;根据key值对去除标识码后的所述第一数据集中的数据进行二次聚合,得到第二数据集,并存储到预设存储单元。其中,在执行所述一次聚合或所述二次聚合的过程中,当多个数据聚合成一个目标数据时,将所述多个数据的数量标记到所述目标数据。
如图3所示,图3是本发明一示例性例子中将数据发送至不同计算节点执行数据处理的流程效果图。在本实施例中,所述计算机设备1中预设有3个计算节点,每一个计算节点处理一个计算任务,也就是task。因此,所述计算机设备1将所述目标数据集分配到每一个计算节点之前,需要经过两个步骤,也就是stage1和stage2,将所述目标数据集进行标识码的标记以及划分为与计算节点数量相等的计算任务,每一个计算任务包括的待处理数据的数据量相同;然后每一个计算任务经由对应的一个计算节点执行数据处理。如图3所示,所述目标数据集中的数据为<key,value>数据类型的数据,包括:6个<1371_1_1584_1_12,ab_click_log>,1个<266_2_1589_1_14,ab_click_log>和1个<266_2_1580_1_14,ab_click_log>。所述计算机设备1通过stage1,将标识码“1”,“2”和“3”以前缀的方式,结合‘-’均衡添加到所述目标数据集中的每一个数据的key中,从而生成已标记数据集,包括:<1-1371_1_1584_1_12,ab_click_log>,<2-1371_1_1584_1_12,ab_click_log>,<3-1371_1_1584_1_12,ab_click_log>,<1-1371_1_1584_1_12,ab_click_log>,<2-1371_1_1584_1_12,ab_click_log>,<3-1371_1_1584_1_12,ab_click_log>,<2-266_2_1589_1_14,ab_click_log>和<3-266_2_1580_1_14,ab_click_log>。接着,所述计算机设备1通过KeyBy方式将所述已标记数据集划分为3个计算任务,其中,KeyBy是一种大数据计算引擎中的算子,用于对<key,value>类型数据,按照key进行分区。也就是通过stage2阶段生成task1:<1-1371_1_1584_1_12,ab_click_log>,<1-1371_1_1584_1_12,ab_click_log>和<2-266_2_1589_1_14,ab_click_log>;task2:<3-266_2_1580_1_14,ab_click_log>,<2-1371_1_1584_1_12,ab_click_log>和<2-1371_1_1584_1_12,ab_click_log>;task3:<3-1371_1_1584_1_12,ab_click_log>和<3-1371_1_1584_1_12,ab_click_log>。每一个计算任务对应地分配给一个计算节点执行数据处理。
参阅图4所示,图4是基于图3对已用于过数据处理的数据执行数据存储的流程效果图。在本实施例中,由于<key,value>数据类型的数据的存储过程是key为索引,通过key查询出value值。因此,在对<key,value>数据类型的数据的存储过程中,所述计算机设备1将stage2阶段中的已经过三个计算节点执行数据处理的三个task中的已标记数据先提取出key,以及将value值先执行存储;然后,对每一个task中的key执行一次聚合,从而得到stage3中的第一数据集,包括task1,task2和task3中的已聚合数据。接着,所述计算机设备1对stage3中的第一数据集中的每一个数据执行标识码的去除,得到stage4中的已去除标识码的第一数据集。最后再对stage4中的数据进行二次聚合,从而得到stage5中的第二数据集,也是最为简洁,最适合存储的数据集;所述计算机设备1最后将第二数据集存储到预设的数据库(DB)中。当然,在一次聚合和二次聚合过程中,对于聚合后的相同数据聚合成一个数据后,相同数据的数量也标记到聚合后的数据中。
例如,stage2阶段包括的已标记数据集包括:task1:<1-1371_1_1584_1_12,ab_click_log>,<1-1371_1_1584_1_12,ab_click_log>和<2-266_2_1589_1_14,ab_click_log>;task2:<3-266_2_1580_1_14,ab_click_log>,<2-1371_1_1584_1_12,ab_click_log>和<2-1371_1_1584_1_12,ab_click_log>;task3:<3-1371_1_1584_1_12,ab_click_log>和<3-1371_1_1584_1_12,ab_click_log>。所述计算机设备1提取其key,并执行一次聚合后,得到stage3的第一数据集,包括task1:<1-1371_1_1584_1_12,2>和<2-266_2_1589_1_14,1>,task2:<3-266_2_1530_1_14,1>和<2-1371_1_1584_1_12,2>,以及task3:<3-1371_1_1584_1_12,2>;接着,所述计算机设备1对stage3中的所有数据去掉前缀,也就是标识码,得到stage4的已去除标识码的第一数据集,包括task1:<1371_1_1584_1_12,2>和<266_2_1589_1_14,1>,task2:<266_2_1530_1_14,1>和<1371_1_1584_1_12,2>,以及task3:<1371_1_1584_1_12,2>;最后,所述计算机设备1对已去除标识码的第一数据集执行二次聚合,最终得到stage5的数据,包括:task1:<1371_1_1584_1_12,6>,task2:<266_2_1589_1_14,1>以及task3:<266_2_1530_1_14,1>;并将所述第二数据集保存到数据库。
在本实施例中,所述计算机设备1进行两次聚合操作可以大幅度的降低数据和数据库的交互次数。其中,在二次聚合前,将中间结果保存至数据库,已去除标识码的第一数据集中的数据与数据库交互次数为5次,如图4中虚指示线所示;进行二次聚合操作后,第二数据集中的数据与数据库交互次数为3次,与数据库交互的次数减少了40%。
继续参阅图5所示,图5是本发明一示例性例子中对于目标数据集执行数据处理的整体流程效果图。在本实施例中,所述计算机设备1获取到目标数据集,所述目标数据集中的数据均为<key,value>数据类型的数据;然后,所述计算机设备1对每一数据的分区key添加随机数前缀,也就是标记标识码;接着,所述计算机设备1根据随机数前缀将数据均衡分配到不同的计算节点执行数据处理,从而得到数据处理结果。另外,对于以用于过数据处理的数据,所述计算机设备1则会进行保存操作,具体包括:对已用于过数据处理的数据执行一次聚合,然后去除分区key的随机数前缀,再执行二次聚合,从而得到简洁的数据集,并保存到预设存储单元。当然,在本实施例中,所述计算机设备1对目标数据集执行的数据处理,包括统计分析操作,或者特征数据提取操作;该数据处理过程并不影响到最终存储到预设存储单元的数据;或者说,一方面用于执行数据处理,一方面还需要执行数据保存。
综上所述,本实施例所提出的数据处理方法能够获取待处理的目标数据集;根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;将所有计算节点输出的已标记数据去除标识码并进行存储。通过标识码的方式将目标数据集的数据进行划分,并将划分后的数据分别输入到不同的计算节点进行数据处理,从而能够有效地均衡了计算节点上执行数据处理的数据量,提升了数据处理效率。
实施例二
图6示意性示出了根据本申请实施例二的数据处理装置的框图,该数据处理装置可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本实施例中各程序模块的功能。
如图6所示,该数据处理装置400可以包括获取模块410、标记模块420、处理模块430和存储模块440,其中:
获取模块410,用于获取待处理的目标数据集。
标记模块420,用于根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集。
处理模块430,用于根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理。
存储模块440,用于将所有计算节点输出的已标记数据去除标识码并进行存储。
在示例性的实施例中,标记模块420,还用于:生成与所述计算节点的数量相等或在所述计算节点的数量的预设波动范围内的数量的随机正整数作为标识码;以及,根据所述计算节点的数量生成预设数量的标识码;将所述预设数量的标识码的每一个标识码对所述目标数据集中的均衡数量的数据进行标记。
在示例性的实施例中,标记模块420,还用于:将所述标识码以前缀或后缀的方式添加到所述目标数据集中的每一个数据中。
其中,当所述目标数据集中的数据为(key,value)类型数据时:标记模块420,还用于:将标识码添加到所述目标数据的key字段;存储模块440,还用于:根据key值对已标记数据集中的数据进行一次聚合,得到第一数据集;将所述第一数据集中的每一个数据的标识码去除;根据key值对去除标识码后的所述第一数据集中的数据进行二次聚合,得到第二数据集,并存储到预设存储单元。其中,在执行所述一次聚合或所述二次聚合的过程中,当多个数据聚合成一个目标数据时,将所述多个数据的数量标记到所述目标数据。
实施例三
图7示意性示出了根据本申请实施例三的适于实现数据处理方法的计算机设备1的硬件架构示意图。本实施例中,计算机设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是具有网关功能的机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图7所示,计算机设备1至少包括但不限于:可通过系统总线相互通信链接存储器510、处理器520、网络接口530。其中:
存储器510至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器510可以是计算机设备1的内部存储模块,例如该计算机设备1的硬盘或内存。在另一些实施例中,存储器510也可以是计算机设备1的外部存储设备,例如该计算机设备1上配备的插接式硬盘,智能存储卡(SmartMedia Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,存储器510还可以既包括计算机设备1的内部存储模块也包括其外部存储设备。本实施例中,存储器510通常用于存储安装于计算机设备1的操作系统和各类应用软件,例如数据处理方法的程序代码等。此外,存储器510还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器520在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器520通常用于控制计算机设备1的总体操作,例如执行与计算机设备1进行数据交互或者通信相关的控制和处理等。本实施例中,处理器520用于运行存储器510中存储的程序代码或者处理数据。
网络接口530可包括无线网络接口或有线网络接口,该网络接口530通常用于在计算机设备1与其他计算机设备之间建立通信链接。例如,网络接口530用于通过网络将计算机设备1与外部终端相连,在计算机设备1与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图7仅示出了具有部件510-530的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器510中的数据处理方法的程序代码还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器520)所执行,以完成本申请实施例。
实施例四
本实施例还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理的目标数据集;根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;将所有计算节点输出的已标记数据去除标识码并进行存储。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中数据处理方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。
以上仅为本申请实施例的优选实施例,并非因此限制本申请实施例的专利范围,凡是利用本申请实施例说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请实施例的专利保护范围内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理的目标数据集;
根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;
根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;
将所有计算节点输出的已标记数据去除标识码并进行存储。
2.如权利要求1所述的数据处理方法,其特征在于,所述根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,包括:
根据所述计算节点的数量生成预设数量的标识码;
将所述预设数量的标识码的每一个标识码对所述目标数据集中的均衡数量的数据进行标记。
3.如权利要求2所述的数据处理方法,其特征在于,所述根据所述计算节点的数量生成预设数量的标识码,包括:
生成与所述计算节点的数量相等或在所述计算节点的数量的预设波动范围内的数量的随机正整数作为标识码。
4.如权利要求1-3中任一项所述的数据处理方法,其特征在于,所述根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,包括:
将所述标识码以前缀或后缀的方式添加到所述目标数据集中的每一个数据中。
5.如权利要求4所述的数据处理方法,其特征在于,当所述目标数据集中的数据为(key,value)类型数据时,所述将标识码以前缀或后缀的方式添加到所述目标数据集中的每一个数据中,包括:
将标识码添加到所述目标数据的key字段。
6.如权利要求5所述的数据处理方法,其特征在于,所述将所有计算节点输出的已标记数据去除标识码并进行存储,包括:
根据key值对已标记数据集中的数据进行一次聚合,得到第一数据集;
将所述第一数据集中的每一个数据的标识码去除;
根据key值对去除标识码后的所述第一数据集中的数据进行二次聚合,得到第二数据集,并存储到预设存储单元。
7.如权利要求6所述的数据处理方法,其特征在于,
在执行所述一次聚合或所述二次聚合的过程中,当多个数据聚合成一个目标数据时,将所述多个数据的数量标记到所述目标数据。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的目标数据集;
标记模块,用于根据预设数量的标识码对所述目标数据集中的每一个数据进行标记,得到已标记数据集;
处理模块,用于根据所述标记码将所述已标记数据集的数据输入到不同的计算节点进行数据处理;
存储模块,用于将所有计算节点输出的已标记数据去除标识码并进行存储。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1~7中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1~7中任一项所述的数据处理方法的步骤。
CN202110755957.7A 2021-07-05 2021-07-05 数据处理方法、装置及计算机设备 Pending CN113392131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110755957.7A CN113392131A (zh) 2021-07-05 2021-07-05 数据处理方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110755957.7A CN113392131A (zh) 2021-07-05 2021-07-05 数据处理方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN113392131A true CN113392131A (zh) 2021-09-14

Family

ID=77625214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110755957.7A Pending CN113392131A (zh) 2021-07-05 2021-07-05 数据处理方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN113392131A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023045430A1 (zh) * 2021-09-24 2023-03-30 上海幻电信息科技有限公司 基于二维码的数据处理方法、装置及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101242337A (zh) * 2007-02-08 2008-08-13 张永敏 一种计算机网络的内容发布方法及系统
CN101945407A (zh) * 2010-10-22 2011-01-12 东南大学 一种应用于移动业务内容监控的负载均衡方法
CN108363786A (zh) * 2018-02-12 2018-08-03 苏州朗动网络科技有限公司 加载数据的方法、装置、计算机设备和存储介质
CN110262901A (zh) * 2019-06-27 2019-09-20 深圳前海微众银行股份有限公司 一种数据处理方法及数据处理系统
CN111431951A (zh) * 2019-01-09 2020-07-17 阿里巴巴集团控股有限公司 一种数据处理方法、节点设备、系统及存储介质
CN111459641A (zh) * 2020-04-08 2020-07-28 广州欢聊网络科技有限公司 一种跨机房的任务调度和任务处理的方法及装置
CN112162859A (zh) * 2020-09-24 2021-01-01 成都长城开发科技有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN112286917A (zh) * 2020-10-22 2021-01-29 北京锐安科技有限公司 数据处理方法、装置、电子设备和存储介质
CN112702278A (zh) * 2020-12-30 2021-04-23 恒安嘉新(北京)科技股份公司 一种负载均衡方法、汇聚分流器及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101242337A (zh) * 2007-02-08 2008-08-13 张永敏 一种计算机网络的内容发布方法及系统
CN101945407A (zh) * 2010-10-22 2011-01-12 东南大学 一种应用于移动业务内容监控的负载均衡方法
CN108363786A (zh) * 2018-02-12 2018-08-03 苏州朗动网络科技有限公司 加载数据的方法、装置、计算机设备和存储介质
CN111431951A (zh) * 2019-01-09 2020-07-17 阿里巴巴集团控股有限公司 一种数据处理方法、节点设备、系统及存储介质
CN110262901A (zh) * 2019-06-27 2019-09-20 深圳前海微众银行股份有限公司 一种数据处理方法及数据处理系统
CN111459641A (zh) * 2020-04-08 2020-07-28 广州欢聊网络科技有限公司 一种跨机房的任务调度和任务处理的方法及装置
CN112162859A (zh) * 2020-09-24 2021-01-01 成都长城开发科技有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN112286917A (zh) * 2020-10-22 2021-01-29 北京锐安科技有限公司 数据处理方法、装置、电子设备和存储介质
CN112702278A (zh) * 2020-12-30 2021-04-23 恒安嘉新(北京)科技股份公司 一种负载均衡方法、汇聚分流器及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIPEER: "Spark数据倾斜解决方案四:使用随机Key进行双重聚合", Retrieved from the Internet <URL:https://www.jianshu.com/p/5c42f4271d0d> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023045430A1 (zh) * 2021-09-24 2023-03-30 上海幻电信息科技有限公司 基于二维码的数据处理方法、装置及系统

Similar Documents

Publication Publication Date Title
CN107844634B (zh) 多元通用模型平台建模方法、电子设备及计算机可读存储介质
CN108776934B (zh) 分布式数据计算方法、装置、计算机设备及可读存储介质
CN111966289A (zh) 基于Kafka集群的分区优化方法和系统
CN112422450B (zh) 计算机设备、服务请求的流量控制方法及装置
CN112367384B (zh) 基于Kafka集群的动态限速方法、装置以及计算机设备
CN112416964A (zh) 一种数据处理的方法、装置、系统、计算机设备及计算机可读存储介质
CN111949389B (zh) 基于Slurm的信息采集方法和装置、服务器、计算机可读存储介质
CN111988429A (zh) 算法调度方法以及系统
CN113132267B (zh) 一种分布式系统、数据聚合方法和计算机可读存储介质
CN112506950A (zh) 数据聚合处理方法、计算节点、计算集群及存储介质
CN111159226A (zh) 指标查询方法及系统
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN113392131A (zh) 数据处理方法、装置及计算机设备
CN111259012B (zh) 数据均匀化方法、装置、计算机设备及存储介质
CN113010542A (zh) 业务数据处理方法、装置、计算机设备及存储介质
CN111414395A (zh) 数据处理方法、系统和计算机设备
CN116185578A (zh) 计算任务的调度方法和计算任务的执行方法
CN112688980B (zh) 资源分发方法、装置、计算机设备
CN109902067B (zh) 文件处理方法、装置、存储介质及计算机设备
CN112465604A (zh) 一种分发订单的方法、装置、计算机设备及计算机可读存储介质
CN112100208A (zh) 一种操作请求的转发方法和装置
CN110928572A (zh) 接口调用与业务系统分离方法、系统和计算机设备
CN113129049B (zh) 用于模型训练和应用的文件配置方法和系统
CN110597786A (zh) 结构化数据治理方法及装置
CN112019442B (zh) 基于有界一致性Hash算法的数据分发方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination