CN116069510B - 数据处理方法、装置、电子设备和存储介质 - Google Patents

数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116069510B
CN116069510B CN202310214005.3A CN202310214005A CN116069510B CN 116069510 B CN116069510 B CN 116069510B CN 202310214005 A CN202310214005 A CN 202310214005A CN 116069510 B CN116069510 B CN 116069510B
Authority
CN
China
Prior art keywords
data
processed
operators
segmentation
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310214005.3A
Other languages
English (en)
Other versions
CN116069510A (zh
Inventor
李晨光
崔杰
袁清乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Nankai University General Data Technologies Co ltd
Original Assignee
Tianjin Nankai University General Data Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Nankai University General Data Technologies Co ltd filed Critical Tianjin Nankai University General Data Technologies Co ltd
Priority to CN202310214005.3A priority Critical patent/CN116069510B/zh
Publication of CN116069510A publication Critical patent/CN116069510A/zh
Application granted granted Critical
Publication of CN116069510B publication Critical patent/CN116069510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据处理方法、装置、电子设备和存储介质,应用于计算机技术领域,其中,该方法应用于计算引擎,所述计算引擎中包括一组算子,方法包括:将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;将所述切分数据分发至每组算子中。以解决现有技术中,采用算子内并行的方式,每次的互斥访问会造成计算引擎耗费较多的时间进行互斥运算,从而使得处理效率较低的问题。

Description

数据处理方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备和存储介质。
背景技术
分析型数据库计算引擎在对数据进行处理时,将本节点数据读取到内存中交给算子处理,一个算子处理完毕,将处理结果交给下一个算子,直到处理完毕将结果集发送给客户端。
相关技术中,对于计算引擎中的每个算子会创建多个子线程,将数据切分成多份分别交给每个线程处理。
但是,上述方式,采用算子内并行的方式对数据进行处理,在每组算子内会共享一些全局数据需要互斥访问,每次的互斥访问会造成计算引擎耗费较多的时间进行互斥运算,从而使得处理效率较低。
发明内容
本申请提供了一种数据处理方法、装置、电子设备和存储介质,用以解决现有技术中,采用算子内并行的方式,每次的互斥访问会造成计算引擎耗费较多的时间进行互斥运算,从而使得处理效率较低的问题。
第一方面,本申请实施例提供了一种数据处理方法,应用于计算引擎,所述计算引擎中包括一组算子,所述方法包括:
将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;
对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;
将所述切分数据分发至每组算子中。
可选的,所述将待处理数据进行切分,包括:
获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
基于所述处理方式切分所述待处理数据。
可选的,所述基于所述处理方式切分所述待处理数据,包括:
获取所述待处理数据的数据特征;
基于所述数据特征确定所述待处理数据的切分方式;
基于所述切分方式和所述处理方式,切分所述待处理数据。
可选的,所述数据特征包括所述待处理数据的数据表类型;所述基于所述数据特征确定所述待处理数据的切分方式,包括:
基于所述数据表类型,判断所述待处理数据是否需要重新哈希或重新分区;
若否,确定所述切分方式为按照所述待处理数据的行号切分;
若是,确定所述切分方式为增加切分算子和本地数据交换算子,并基于所述切分算子切分所述待处理数据。
可选的,所述对所述一组算子进行复制,包括:
获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
基于所述处理方式对所述一组算子进行复制,以使复制得到的M组算子满足所述处理方式。
可选的,所述将待处理数据进行切分,包括:
确定待处理数据的切分规则;
按照所述切分规则对所述待处理数据进行切分。
可选的,所述N与所述M相等,所述将所述切分数据分发至每组算子中,包括:
将每组算子中分发一份所述切分数据;
所述N与所述M不相等,所述将所述切分数据分发至每组算子中,包括:
在每组所述算子中至少分发至少一份所述切分数据。
第二方面,本申请实施例提供了一种数据处理装置,包括:
切分模块,用于将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;
复制模块,用于对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;
分发模块,用于将所述切分数据分发至每组算子中。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的数据处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数据处理方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;将所述切分数据分发至每组算子中。如此,在对待处理数据处理之前,先对待处理数据切分,并通过复制的多组算子,使得待处理数据能够在多组算子间被并行处理,从而,避免了算子内并行处理时,共享数据的互斥访问,提高了待处理数据的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的数据处理方法的应用场景图;
图2为本申请一实施例提供的数据处理方法的流程图;
图3为本申请一实施例提供的数据处理装置的结构图;
图4为本申请一实施例提供的电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请一实施例提供了一种数据处理方法。可选地,在本申请实施例中,上述数据处理方法可以应用于如图1所示的由终端101和服务器102所构成的硬件环境中。如图1所示,服务器102通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如视频服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器102提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于PC、手机、平板电脑等。
本申请实施例的数据处理方法可以由服务器102来执行,也可以由终端101来执行,还可以是由服务器102和终端101共同执行。其中,终端101执行本申请实施例的数据处理方法,也可以是由安装在其上的客户端来执行。对于服务器和/或终端上,均可设置计算引擎,以通过计算引擎中的算子进行数据处理。
以终端执行本申请实施例的数据处理方法为例,图2是根据本申请实施例的一种可选的数据处理方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤201、将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数。
一些实施例中,待处理数据可以但不限于为任一类型的计算引擎从上一节点获取到的,其中,计算引擎可以但不限于为分析型数据库计算引擎。
其中,对待处理数据进行切分的方式有多种,例如,可以按照计算引擎中预先设置的切分规则进行切分。其中,预先设置的切分规则可以是有相关技术人员编写,并添加至计算引擎的。预先设置的切分规则可以是根据技术人员的经验值,或者根据实际数据处理情况编写得到。
在一个可选实施例中,所述将待处理数据进行切分,包括:
确定待处理数据的切分规则;按照所述切分规则对所述待处理数据进行切分。
一些实施例中,切分规则可以是基于待处理数据的数据量大小进行切分,例如,切分规则为切分后得到的切分数据的数据量不大于特定数据量,例如切分数据小于10K;或者,切分规则还可以是特定的切分数量,例如,将待处理数据切分为特定数量的切分数据,例如,将待处理数据切分为100份。可以理解的是,也可以是上述两种方式的结合,例如,将待处理数据切分为50份数据量小于10K的切分数据。
在一个可选实施例中,所述将待处理数据进行切分,包括:
获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;基于所述处理方式切分所述待处理数据。
一些实施例中,除按照预设的切分规则切分待处理数据外,还可以依据计算引擎上一节点的数据处理条件,对待处理数据进行切分,其中,数据处理条件中包括处理方式,例如需要计算引擎按照四并行的方式处理数据,则,处理方式为四并行。
在一个可选实施例中,所述基于所述处理方式切分所述待处理数据,包括:
获取所述待处理数据的数据特征;基于所述数据特征确定所述待处理数据的切分方式;基于所述切分方式和所述处理方式,切分所述待处理数据。
一些实施例中,可以基于待处理数据的数据特征的不同,配置不同的切分方式,从而能够使待处理数据切分的结果更能够适配计算引擎,从而提高计算引擎的处理效率。
在一个可选实施例中,所述数据特征包括所述待处理数据的数据表类型;所述基于所述数据特征确定所述待处理数据的切分方式,包括:
基于所述数据表类型,判断所述待处理数据是否需要重新哈希或重新分区;
若否,确定所述切分方式为按照所述待处理数据的行号切分;
若是,确定所述切分方式为增加切分算子和本地数据交换算子,并基于所述切分算子切分所述待处理数据。
一些实施例中,待处理数据的数据特征可以但不限于为数据表类型,其中,数据表类型包括哈希分布表,复制表和随机分布表。
切分方式可以是根据数据表类型确定,在数据表类型表示待处理数据不需要重新哈希或重新分区时,可以直接按照行号切分待处理数据,例如,待处理数据的数据表类为复制表和随机分布表,则每组算子中的join算子不要求scan算子传递的数据特性,则对于待处理数据的切分,可以按行号即可。同理,分区的情况类似,此处不再赘述。
在数据表类型表示待处理数据需要重新哈希或重新分区时,同时,join算子操作使用待处理数据的hash列进行join,则说明该join算子对scan算子传递上来的数据是要求hash值在固定范围。因此,如果进行数据切分,则必须按hash切分,也就是重新hash。进而,需要增设切分算子和本地数据交换算子,来实现重新哈希或重新分区的待处理数据。
步骤202、对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数。
一些实施例中,对计算引擎中原始算子组的复制,可以基于计算引擎中特定的复制规则。例如,复制规则可以按照一组算子的算子的多少确定复制的数量,例如一组算子中算子越多,复制的M组算子的数量越少,从而避免计算引擎中因复制的算子过多,导致运行压力较大,造成卡顿的情况。
在一个可选实施例中,所述对所述一组算子进行复制,包括:
获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
基于所述处理方式对所述一组算子进行复制,以使复制得到的M组算子满足所述处理方式。
一些实施例中,可以依据计算引擎上一节点的数据处理条件,对待处理数据进行复制。其中,数据处理条件中包括处理方式,例如需要计算引擎按照四并行的方式处理数据,则,可以将一组算子复制三份,得到四组算子。
其中,复制后得到的M组算子,可以存储在计算引擎中,以便后续,通过M组算子对切分数据进行同步处理。
步骤203、将所述切分数据分发至每组算子中。
一些实施例中,在对待处理数据处理之前,先对待处理数据切分,并通过复制的多组算子,使得待处理数据能够在多组算子间被并行处理,从而,避免了算子内并行处理时,共享数据的互斥访问,提高了待处理数据的效率。
在一个可选实施例中,所述N与所述M相等,所述将所述切分数据分发至每组算子中,包括:
将每组算子中分发一份所述切分数据;
所述N与所述M不相等,所述将所述切分数据分发至每组算子中,包括:
在每组所述算子中至少分发至少一份所述切分数据。
一些实施例中,基于切分数据的数量以及复制的算子组的数量的不同,对切分数据可以设置不同的分发方式。
示例性的,在N份切分数据和M组算子的数量相同时,二者可以是基于数据处理条件中的处理方式切分或复制后得到的,也可以是按照特定切分规则切分或特定的复制规则复制得到的,在二者相同的情况下,可以依次或同时将切分数据分发至每组算子中,以使每组算子中均具有一份切分数据。
例如,按照四并行的方式处理待处理数据,则得到四分切分数据和四组算子,从而,每组算子中均有一份切分数据。
示例性的,在N份切分数据和M组算子的数量不相同时,可以是按照特定切分规则切分或特定的复制规则复制得到的,在二者不相同的情况下,可以依次或同时将切分数据分发至每组算子中,以使每组算子中均具有一份切分数据。
例如,待处理数据切分为10份切分数据,一组算子复制得到4组算子,在切分数据分发时,可以是,先在每组算子中分发两份切分数据,剩余两份切分数据随机分发至任意两组算子。
可以理解的是,上述切分得到的N份切分数据的数据量可以相同,也可以不同,具体可以根据时间情况确定。
进一步的,在待处理数据被处理完成后,还可以包括将复制得到的算子删除,保留一组算子,以便于下一次的数据处理。也可以保留复制的算子,在下一处理数据时,在对算子的数量进行适配,以减少算子的复制过程,提高处理数据的效率。
可以理解的是,在将述切分数据分发至每组算子中后,计算引擎中的组算子,即可对各自收到的切分数据进行数据处理,实现了待处理数据在算子间的并行,并且为无需进行互斥访问,从而,提高了计算引擎的处理效率。
在一个具体实施例中,本申请的数据处理方法,将相关技术中的一组算子复制成几组,例如需要4并行,则复制成4组算子。在早期读取数据时,就将待处理数据动态进行切分成4份。切分方式可以根据查询语句的特点以及物理表的类型,随机分布表按照行号切分;hash分布表按照hash切分,复制表不切分,然后分别交给每组算子处理,如此,每组算子处理的数据变为原来的1/4,由相关技术中的算子内并行,变成算子间并行。算子在处理数据时不会再出现互斥的情况,而且对于Join算子,聚合算子等由于处理的数据减少,搜索匹配,去重操作的比较次数都会减少,更有利于提升性能。
数据切分时,采用的方式切分是根据该表实际使用情况,如果不需要重新hash或者重新分区的,可以由Scan算子按照行号完成;如果需要重新hash或者重新分区的,则需要增加切分算子和本地数据交换算子。因此需要在调度层下发任务前将任务进行切分并下发,并在任务切分后增加相应的算子。
基于同一构思,本申请实施例中提供了一种数据处理装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图3所示,该装置主要包括:
切分模块301,用于将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;
复制模块302,用于对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;
分发模块303,用于将所述切分数据分发至每组算子中。
可选的,切分模块具体包括:
第一获取单元,用于获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
第一切分单元,用于基于所述处理方式切分所述待处理数据。
可选的,切分单元包括:
第二获取单元,用于获取所述待处理数据的数据特征;
第一确定单元,用于基于所述数据特征确定所述待处理数据的切分方式;
切分子单元,用于基于所述切分方式和所述处理方式,切分所述待处理数据。
可选的,所述数据特征包括所述待处理数据的数据表类型;所述切分子单元包括:
判断单元,用于基于所述数据表类型,判断所述待处理数据是否需要重新哈希或重新分区;
第二确定单元,用于若否,确定所述切分方式为按照所述待处理数据的行号切分;
第三确定单元,用于若是,确定所述切分方式为增加切分算子和本地数据交换算子,并基于所述切分算子切分所述待处理数据。
可选的,所述复制模块包括:
第三获取单元,用于获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
复制单元,用于基于所述处理方式对所述一组算子进行复制,以使复制得到的M组算子满足所述处理方式。
可选的,所述切分模块包括:
第四确定单元,用于确定待处理数据的切分规则;
第二切分单元,用于按照所述切分规则对所述待处理数据进行切分。
可选的,所述N与所述M相等,所述分发模块包括:
第一分发单元,用于将每组算子中分发一份所述切分数据;
所述N与所述M不相等,所述分发模块包括:
第二分发单元,用于在每组所述算子中至少分发至少一份所述切分数据。
基于同一构思,本申请实施例中还提供了一种电子设备,如图4所示,该电子设备主要包括:处理器401、存储器402和通信总线403,其中,处理器401和存储器402通过通信总线403完成相互间的通信。其中,存储器402中存储有可被处理器401执行的程序,处理器401执行存储器402中存储的程序,实现如下步骤:
将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;
对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;
将所述切分数据分发至每组算子中。
上述电子设备中提到的通信总线403可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线403可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器402可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器401的存储装置。
上述的处理器401可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的数据处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种数据处理方法,其特征在于,应用于计算引擎,所述计算引擎中包括一组算子,所述方法包括:
将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;
对所述一组算子进行复制,得到M组算子,其中,M为大于1的整数;
将所述切分数据分发至每组算子中;
其中,所述对所述一组算子进行复制,包括:
获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
基于所述处理方式对所述一组算子进行复制,以使复制得到的M组算子满足所述处理方式;
其中,所述将待处理数据进行切分,包括:
获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
获取所述待处理数据的数据特征;
基于所述数据特征确定所述待处理数据的切分方式;
基于所述切分方式和所述处理方式,切分所述待处理数据;
其中,所述数据特征包括所述待处理数据的数据表类型;所述基于所述数据特征确定所述待处理数据的切分方式,包括:
基于所述数据表类型,判断所述待处理数据是否需要重新哈希或重新分区;
若否,确定所述切分方式为按照所述待处理数据的行号切分;
若是,确定所述切分方式为增加切分算子和本地数据交换算子,并基于所述切分算子切分所述待处理数据。
2.根据权利要求1所述的数据处理方法,其特征在于,所述将待处理数据进行切分,包括:
确定待处理数据的切分规则;
按照所述切分规则对所述待处理数据进行切分。
3.根据权利要求1所述的数据处理方法,其特征在于,所述N与所述M相等,所述将所述切分数据分发至每组算子中,包括:
将每组算子中分发一份所述切分数据;
所述N与所述M不相等,所述将所述切分数据分发至每组算子中,包括:
在每组所述算子中至少分发至少一份所述切分数据。
4.一种数据处理装置,其特征在于,包括:
切分模块,用于将待处理数据进行切分,得到N份切分数据,其中,N为大于1的整数;
复制模块,用于对一组算子进行复制,得到M组算子,其中,M为大于1的整数;
分发模块,用于将所述切分数据分发至每组算子中;
其中,所述对一组算子进行复制,包括:
获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
基于所述处理方式对所述一组算子进行复制,以使复制得到的M组算子满足所述处理方式;
其中,所述将待处理数据进行切分,包括:
获取所述待处理数据的数据处理条件,数据处理条件中包括处理方式;
获取所述待处理数据的数据特征;
基于所述数据特征确定所述待处理数据的切分方式;
基于所述切分方式和所述处理方式,切分所述待处理数据;
其中,所述数据特征包括所述待处理数据的数据表类型;所述基于所述数据特征确定所述待处理数据的切分方式,包括:
基于所述数据表类型,判断所述待处理数据是否需要重新哈希或重新分区;
若否,确定所述切分方式为按照所述待处理数据的行号切分;
若是,确定所述切分方式为增加切分算子和本地数据交换算子,并基于所述切分算子切分所述待处理数据。
5.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1-3任一项所述的数据处理方法。
6.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-3任一项所述的数据处理方法。
CN202310214005.3A 2023-03-08 2023-03-08 数据处理方法、装置、电子设备和存储介质 Active CN116069510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310214005.3A CN116069510B (zh) 2023-03-08 2023-03-08 数据处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310214005.3A CN116069510B (zh) 2023-03-08 2023-03-08 数据处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN116069510A CN116069510A (zh) 2023-05-05
CN116069510B true CN116069510B (zh) 2023-07-04

Family

ID=86169949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310214005.3A Active CN116069510B (zh) 2023-03-08 2023-03-08 数据处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116069510B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568916A (zh) * 2021-07-30 2021-10-29 中国银行股份有限公司 数据表切分方法、装置、电子设备及存储介质
CN115422205A (zh) * 2022-10-14 2022-12-02 平凯星辰(北京)科技有限公司 数据处理方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11061603B1 (en) * 2019-11-26 2021-07-13 Veritas Technologies Llc Systems and methods for switching replication modes in a volume replication system
CN112148494B (zh) * 2020-09-30 2023-07-25 北京百度网讯科技有限公司 用于算子服务的处理方法、装置、智能工作站和电子设备
CN112465133B (zh) * 2020-11-25 2022-12-09 安徽寒武纪信息科技有限公司 控制流多核并行方法、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568916A (zh) * 2021-07-30 2021-10-29 中国银行股份有限公司 数据表切分方法、装置、电子设备及存储介质
CN115422205A (zh) * 2022-10-14 2022-12-02 平凯星辰(北京)科技有限公司 数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116069510A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
US8977623B2 (en) Method and system for search engine indexing and searching using the index
CN109885786B (zh) 数据缓存处理方法、装置、电子设备及可读存储介质
US20240126817A1 (en) Graph data query
CN111143331B (zh) 数据迁移方法、装置及计算机存储介质
US12001450B2 (en) Distributed table storage processing method, device and system
CN111723161A (zh) 一种数据处理方法、装置及设备
CN111435376A (zh) 信息处理方法及系统、计算机系统和计算机可读存储介质
CN111125240B (zh) 一种分布式事务实现方法、装置、电子设备及存储介质
CN116069510B (zh) 数据处理方法、装置、电子设备和存储介质
CN111046004B (zh) 一种数据文件存储方法、装置、设备及存储介质
WO2020134786A1 (zh) 服务器的扩容方法及装置、服务器、存储介质
CN107451229B (zh) 一种数据库查询方法和装置
US9449012B2 (en) Cloud library de-duplication
CN115328950A (zh) 一种基于二级索引的hbase查询方法、终端设备及存储介质
CN110837499A (zh) 数据访问处理方法、装置、电子设备和存储介质
CN114490719A (zh) 一种数据查询方法、装置、电子设备以及存储介质
CN111782634A (zh) 数据分布式存储方法、装置、电子设备及存储介质
CN110275863A (zh) 文件移动方法、装置及存储介质
CN112988809B (zh) 基于关系型数据库的数据查询方法、装置、设备和介质
CN115587090A (zh) 一种基于Doris的数据存储方法、装置、设备及介质
CN110874371B (zh) 一种数据分析系统、方法及装置
CN112948327A (zh) 文件处理方法、系统、电子设备和存储介质
CN115470386A (zh) 一种数据存储、数据检索方法、装置和电子设备
CN115309699A (zh) 用于处理文件的方法、存储介质及电子设备
CN112115122A (zh) 一种数据访问方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant