CN109815014A - 数据处理方法、装置、电子设备和计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN109815014A
CN109815014A CN201910042839.4A CN201910042839A CN109815014A CN 109815014 A CN109815014 A CN 109815014A CN 201910042839 A CN201910042839 A CN 201910042839A CN 109815014 A CN109815014 A CN 109815014A
Authority
CN
China
Prior art keywords
data
thread
related information
jth
salary distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910042839.4A
Other languages
English (en)
Inventor
徐阳
黄伟伦
刘强
喻灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910042839.4A priority Critical patent/CN109815014A/zh
Publication of CN109815014A publication Critical patent/CN109815014A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据处理方法、装置、电子设备和计算机可读存储介质,其中,所述数据处理方法包括:将数据以及数据和线程的关联信息分配至m个线程;m个线程中的第i线程根据关联信息确定用于处理所述数据的第j线程;第j线程处理所述数据,其中,若i≠j,第i线程将数据传输至第j线程,以使第j线程处理数据;若i=j,第i线程处理数据。根据本公开的实施例,在分配数据时可以分配数据和线程的关联信息,由于用于处理数据的线程可以根据关联信息确定,数据只会由关联信息中与数据关联的线程来处理,所以不会出现多个线程重复处理数据的情况,因此处理数据的线程无需与所有线程通信来告知其他线程数据是否被处理过,进而可以减少线程之间的通信,降低分布式系统中的通信负荷。

Description

数据处理方法、装置、电子设备和计算机可读存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及数据处理方法、数据处理装置、电子设备和计算机可读存储介质。
背景技术
在分布式系统中,对海量的实时数据进行处理,为了防止数据丢失,于相同的数据往往会被生成多次。而为了相同的数据只被处理一次,需要对已处理的数据进行标记。
目前分布式系统中对数据的处理方式如图1所示,存储介质存储着海量的实时数据,数据会被均匀分配到每个线程上,多个线程共同维护一个滤波器,滤波器可以标记被处理的数据。
而为了保证相同的数据只被处理一次,对于标记的数据,处理该数据的线程需要与其它所有线程通信,例如线程A处理了一条数据x,那么需要与线程B和线程C通信,告知线程B和线程C,被标记的数据x是被处理过的,使得线程B和线程C在接收到数据x时不再处理该数据。
这种方式虽然可以保证相同的数据只被处理一次,但是需要线程之间大量的通信,尤其是分布式系统中线程较多时,通信负荷非常大。
发明内容
本公开提供数据处理方法、数据处理装置、电子设备和计算机可读存储介质。
根据本公开的第一方面,提出一种数据处理方法,包括:
将数据以及数据和线程的关联信息分配至m个线程;
所述m个线程中的第i线程根据所述关联信息确定用于处理所述数据的第j线程;
所述第j线程处理所述数据,其中,若i≠j,所述第i线程将所述数据传输至所述第j线程,以使所述第j线程处理所述数据;若i=j,所述第i线程处理所述数据;i≤m,j≤m。
可选地,在将数据以及数据和线程的关联信息分配至m个线程之前,所述方法还包括:
根据数据的属性信息生成所述关联信息,其中,具有相同属性信息的数据关联相同的线程。
可选地,所述根据数据的属性信息生成数据和线程的关联信息包括:
确定根据数据的属性信息将所述数据分配到所述m个线程的目标分配方式,其中,基于所述目标分配方式所述m个线程中的每个线程处理数据的数据量的方差最小;
根据所述目标分配方式生成数据和线程的关联信息。
可选地,所述确定根据数据的属性信息将所述数据分配到所述m个线程的目标分配方式包括:
若存在一种将所述数据分配到所述m个线程的分配方式,将所述分配方式确定为目标分配方式;
若存在多种将所述数据分配到所述m个线程的分配方式,根据公式:
对每种分配方式进行计算,确定多种分配方式中计算结果最小的分配方式为目标分配方式,其中,xi是需要分配到m个线程中第i个线程的数据量,是所有数据的数据量的均值。
可选地,在所述第j线程处理所述数据之前,所述方法还包括:
所述第j线程滤除所述数据中重复的数据。
根据本公开的第二方面,提出一种数据处理装置,包括:
分配模块,用于将数据以及数据和线程的关联信息分配至m个线程;
确定模块,用于通过所述m个线程中的第i线程根据所述关联信息确定用于处理所述数据的第j线程;
处理模块,用于通过所述第j线程处理所述数据,其中,若i≠j,所述第i线程将所述数据传输至所述第j线程,以使所述第j线程处理所述数据;若i=j,所述第i线程处理所述数据;i≤m,j≤m。
可选地,所述装置还包括:
生成模块,用于根据数据的属性信息生成所述关联信息,其中,具有相同属性信息的数据关联相同的线程。
可选地,所述生成模块包括:
方式确定子模块,用于确定根据数据的属性信息将所述数据分配到所述m个线程的目标分配方式,其中,基于所述目标分配方式所述m个线程中的每个线程处理数据的数据量的方差最小;
信息生成子模块,用于根据所述目标分配方式生成数据和线程的关联信息。
可选地,所述方式确定子模块用于,在存在一种将所述数据分配到所述m个线程的分配方式的情况下,将所述分配方式确定为目标分配方式;
在存在多种将所述数据分配到所述m个线程的分配方式的情况下,根据公式:对每种分配方式进行计算,确定多种分配方式中计算结果最小的分配方式为目标分配方式,其中,xi是需要分配到m个线程中第i个线程的数据量,是所有数据的数据量的均值。
可选地,所述装置还包括:
过滤模块,用于通过所述第j线程滤除所述数据中重复的数据。
根据本公开的第三方面,提出一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述任一实施例所述方法中的步骤。
根据本公开的第四方面,提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法中的步骤。
基于本公开的实施例,在分配数据时,可以一起分配数据和线程的关联信息,由于用于处理数据的线程可以根据关联信息确定,数据只会由关联信息中与数据关联的线程来处理,所以不会出现多个线程重复处理数据的情况,因此相对于现有技术,处理数据的线程无需与所有线程通信来告知其他线程数据是否被处理过,进而可以减少线程之间的通信,降低分布式系统中的通信负荷。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是相关技术中对数据进行处理的示意图。
图2是根据本公开的实施例示出的一种数据处理方法的示意流程图。
图3是根据本公开的实施例示出的一对数据进行处理的示意图。
图4是根据本公开的实施例示出的另一种数据处理方法的示意流程图。
图5是根据本公开的实施例示出的又一种数据处理方法的示意流程图。
图6是根据本公开的实施例示出的又一种数据处理方法的示意流程图。
图7是根据本公开的实施例示出的数据处理装置所在终端或服务器的一种硬件结构图。
图8是根据本公开的实施例示出的一种数据处理装置的示意框图。
图9是根据本公开的实施例示出的另一种数据处理装置的示意框图。
图10是根据本公开的实施例示出的一种生成模块的示意流程图。
图11是根据本公开的实施例示出的又一种数据处理装置的示意框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图2是根据本公开的实施例示出的一种数据处理方法的示意流程图。本实施例所示的方法可以应用于分布式系统,所述分布式系统可以包括多个电子设备,所述电子设备可以是手机、平板电脑、可穿戴设备等终端,也可以是服务器,每个电子设备上至少运行一个线程,多个电子设备可以运行n个线程,m个线程可以是这n个线程中的部分或全部线程,也即1≤m≤n。
如图2所示,本实施例中的数据处理方法包括:
步骤S1,将数据以及数据和线程的关联信息分配至m个线程;
步骤S2,所述m个线程中的第i线程根据所述关联信息确定用于处理所述数据的第j线程;
步骤S3,所述第j线程处理所述数据,其中,若i≠j,所述第i线程将所述数据传输至所述第j线程,以使所述第j线程处理所述数据;若i=j,所述第i线程处理所述数据;i≤m,j≤m。
在一个实施例中,所述数据可以是实时数据,用于存储所述数据的存储介质可以是临时存储介质,临时存储介质例如可以是Kafka(一种高吞吐量的分布式发布订阅消息系统)。
根据本公开的实施例,在分配数据时,可以一起分配数据和线程的关联信息,例如可以将数据分配至m个线程,那么可以将数据和线程的关联信息也分配给所述m个线程。
接收到数据和关联关系的线程,例如m个线程中的第i个线程,可以根据关联关系确定用于处理所述线程的第j线程,若i≠j,也即接收到所述数据的线程并不是用于处理所述数据的线程,那么第i线程可以将数据传输至所述第j线程,进而由第j线程处理;若i=j,也即接收到所述数据的线程就是用于处理所述数据的第j线程,那么第i线程处理所述数据。
由于用于处理数据的线程可以根据关联信息确定,数据只会由关联信息中与数据关联的线程来处理,所以不会出现多个线程重复处理数据的情况,因此相对于现有技术,处理数据的线程无需与所有线程通信来告知其他线程数据是否被处理过,进而可以减少线程之间的通信,降低分布式系统中的通信负荷。
如图1所示,在现有技术中,线程A接收到数据x后,可以处理数据x,但是处理数据x后,需要与线程B和线程C通信,告知线程B和线程C数据x已被处理过。
图3是根据本公开的实施例示出的一对数据进行处理的示意图。
如图3所示,根据本公开的实施例,例如线程A接收到数据x以及数据和线程的关联信息,若根据关联关系确定用于处理数据x的线程是线程A,那么线程A处理数据x,无需与线程B和线程C通信;若根据关联关系确定用于处理数据x的线程是线程B,那么可以将数据x传输至线程B,由线程B处理数据x,而无需与线程C通信。
可见,相对于现有技术,本公开的实施例至少可以减少与线程C的通信过程,而且分布式系统中线程越多,减少的线程之间的通信过程就越多,越能有效地降低分布式系统中的通信负荷。
图4是根据本公开的实施例示出的另一种数据处理方法的示意流程图。如图4所示,在将数据以及数据和线程的关联信息分配至m个线程之前,所述方法还包括:
步骤S4,根据数据的属性信息生成所述关联信息,其中,具有相同属性信息的数据关联相同的线程。
需要说明的是,数据的属性信息根据数据的类型有所不同,例如数据为外卖业务中的金额数据,那么属性信息可以包括生成数据的门店,生成数据的时间,数据的额度等;例如数据为网约车业务中的金额数据,那么属性信息可以包括生成数据的司机,数据的倍率,数据的额度等。
在一个实施例中,可以根据数据的属性信息生成关联信息,具体可以设置具有相同属性信息的数据关联相同的线程。据此,可以使得线程处理的数据包含相同的属性信息,从而数据和数据之间的差异较小,有利于降低线程处理数据的负荷。
例如数据的属性信息包括生成数据的门店,生成数据的时间,数据的额度,那么将属于相同门店的数据关联相同的线程,从而属于相同门店的数据可以由同一个线程处理,那么该线程所处理的部分或全部数据中门店这一项属性信息是相同的,进而线程在处理属于相同门店的多份数据时,可以将多份数据划分为属于同一个门店的集合中进行处理,所以可以主要对生成数据的时间和数据的额度这两个属性信息进行处理,进而降低线程处理数据的负荷。
图5是根据本公开的实施例示出的又一种数据处理方法的示意流程图。如图5所示,所述根据数据的属性信息生成数据和线程的关联信息包括:
步骤41,确定根据数据的属性信息将所述数据分配到所述m个线程的目标分配方式,其中,基于所述目标分配方式所述m个线程中的每个线程处理数据的数据量的方差最小;
步骤42,根据所述目标分配方式生成数据和线程的关联信息。
在一个实施例中,可以确定根据数据的属性信息将数据分配到m个线程的目标分配方式,基于目标分配方式m个线程中的每个线程处理的数据量的方差最小。例如业务口径数据量如下表1所示(其中的数据量可以是一天的数据量):
数据ID 门店ID 数据量
x1 1kB
x2 2kB
x3 4kB
x4 6kB
x5 5kB
x6 8kB
表1
如表1所示,数据x1的数据量是1kB,数据x2的数据量是2kB,数据x3的数据量是4kB,数据x4的数据量是6kB,数据x5的数据量是5kB,数据x6的数据量是8kB。其中数据x1和x2由门店甲生成,数据x3和x4由门店乙生成,数据x5和数据x6由数据门店丙生成。
若m=2,需要将上述数据x1至x6分配到线程A和线程B,那么根据数据的属性信息将数据分配到所述m个线程中的每个线程。其中,由于数据x1和x2具有相同的属性信息,也即属于相同的门店甲,因此可以将数据x1和x2分配到相同的线程;由于数据x1和x2具有相同的属性信息,也即属于相同的门店已,因此可以将数据x3和x4分配到相同的线程;由于数据x1和x2具有相同的属性信息,也即属于相同的门店丙,因此可以将数据x5和数据x6分配到相同的线程。
基于目标分配方式,进而还需要m个线程中的每个线程处理的数据量的方差最小,那么可以将数据x1、x2、x3、x4分配到一个线程,将数据x5和x6分配到另一个线程,从而使得线程A和线程B处理的数据量相同,都是13kB,确保了2个线程中每个线程处理数据的数据量的方差最小。
基于本实施例,通过使得m个线程中的每个线程处理数据的数据量的方差最小的目标分配方式分配数据,可以均衡每个线程处理数据的数据量,避免个别线程处理数据的数据量过大,或个别线程处理数据的数据量过小的情况,使得每个线程处理数据的数据量相差较小,从而实现每个线程处理数据的负荷均衡,以便充分利用每个线程的处理能力,并不会引起个别线程过高的负荷。
可选地,所述确定根据数据的属性信息将所述数据分配到所述m个线程的目标分配方式包括:
若存在一种将所述数据分配到所述m个线程的分配方式,将所述分配方式确定为目标分配方式;
若存在多种将所述数据分配到所述m个线程的分配方式,根据公式:
对每种分配方式进行计算,确定多种分配方式中计算结果最小的分配方式为目标分配方式,其中,xi是需要分配到m个线程中第i个线程的数据量,是所有数据的数据量的均值。
在一个实施例中,若只存在一种将数据分配到m个线程的分配方式,只能按照该分配方式将数据分配至m个线程,所以无需针对这种分配方式计算m个线程中的每个线程处理的数据量的方差,直接将该分配方式确定为目标分配方式即可。
在一个实施例中,若存在多种将数据分配到m个线程的分配方式,那么按照不同分配方式将数据分配至m个线程,m个线程中的每个线程处理的数据量的方差可能大小不同,因此可以根据上式对每种分配方式分别进行计算,确定所有分配方式中上式计算结果最小的分配方式,则基于所确定的方式将数据分配给m个线程,即可保证m个线程中的每个线程处理的数据量的方差最小,进而实现均衡每个线程处理数据的数据量。
图6是根据本公开的实施例示出的又一种数据处理方法的示意流程图。如图6所示,在所述第j线程处理所述数据之前,所述方法还包括:
步骤S5,所述第j线程滤除所述数据中重复的数据。
在一个实施例中,如图3所示,每个线程可以各自维护滤波器,例如线程A维护滤波器A,线程B维护滤波器B,线程C维护滤波器C,针对每个滤波器可以设置滤波器具备滤除线程所需处理的数据中重复的数据的功能,例如滤波器为Bloom Filter(布隆滤波器)。以第j线程为线程A为例,那么滤波器A可以滤除需要线程A处理的数据中重复的数据。
根据本实施例,可以滤除数据中重复的数据,避免线程重复处理数据,从而降低线程处理数据的负荷,进而降低分布式系统整体的负荷。
需要说明的是,在本公开的实施例中,还可以进行动态扩容,在扩容过程中,由于用于处理每个数据的线程是确定的,扩容的时候,将原来线程对应的滤波器迁移到新的线程对应的滤波器即可,进而新的线程可以对原线程为处理的数据继续进行处理。
与前述数据处理方法的实施例相对应,本公开还提供了数据处理装置的实施例。
本公开的数据处理装置的实施例可以应用在终端或服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在终端或服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为根据本公开的实施例示出的数据处理装置所在终端或服务器的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的终端或服务器通常根据该终端或服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图8是根据本公开的实施例示出的一种数据处理装置的示意框图。本实施例所示的装置可以应用于分布式系统,所述分布式系统可以包括多个电子设备,所述电子设备可以是手机、平板电脑、可穿戴设备等终端,也可以是服务器,每个电子设备上至少运行一个线程,多个电子设备可以运行n个线程,m个线程可以是这n个线程中的部分或全部线程,也即1≤m≤n。
如图8所示,本实施例中的数据处理装置包括:
分配模块1,用于将数据以及数据和线程的关联信息分配至m个线程;
确定模块2,用于通过所述m个线程中的第i线程根据所述关联信息确定用于处理所述数据的第j线程;
处理模块3,用于通过所述第j线程处理所述数据,其中,若i≠j,所述第i线程将所述数据传输至所述第j线程,以使所述第j线程处理所述数据;若i=j,所述第i线程处理所述数据;i≤m,j≤m。
在一个实施例中,在分配数据时,可以一起分配数据和线程的关联信息,由于用于处理数据的线程可以根据关联信息确定,数据只会由关联信息中与数据关联的线程来处理,所以不会出现多个线程重复处理数据的情况,因此相对于现有技术,处理数据的线程无需与所有线程通信来告知其他线程数据是否被处理过,进而可以减少线程之间的通信,降低分布式系统中的通信负荷。
图9是根据本公开的实施例示出的另一种数据处理装置的示意框图。如图9所示,所述装置还包括:
生成模块4,用于根据数据的属性信息生成所述关联信息,其中,具有相同属性信息的数据关联相同的线程。
在一个实施例中,可以根据数据的属性信息生成关联信息,具体可以设置具有相同属性信息的数据关联相同的线程。据此,可以使得线程处理的数据包含相同的属性信息,从而数据和数据之间的差异较小,有利于降低线程处理数据的负荷。
图10是根据本公开的实施例示出的一种生成模块的示意流程图。如图10所示,所述生成模块4包括:
方式确定子模块41,用于确定根据数据的属性信息将所述数据分配到所述m个线程的目标分配方式,其中,基于所述目标分配方式所述m个线程中的每个线程处理数据的数据量的方差最小;
信息生成子模块42,用于根据所述目标分配方式生成数据和线程的关联信息。
在一个实施例中,通过使得m个线程中的每个线程处理数据的数据量的方差最小的分配方式分配数据,可以均衡每个线程处理数据的数据量,避免个别线程处理数据的数据量过大,或个别线程处理数据的数据量过小的情况,使得每个线程处理数据的数据量相差较小,从而实现每个线程处理数据的负荷均衡,以便充分利用每个线程的处理能力,并不会引起个别线程过高的负荷。
可选地,所述方式确定子模块用于,在存在一种将所述数据分配到所述m个线程的分配方式的情况下,将所述分配方式确定为目标分配方式;
在存在多种将所述数据分配到所述m个线程的分配方式的情况下,根据公式:对每种分配方式进行计算,确定多种分配方式中计算结果最小的分配方式为目标分配方式,其中,xi是需要分配到m个线程中第i个线程的数据量,是所有数据的数据量的均值。
图11是根据本公开的实施例示出的又一种数据处理装置的示意框图。如图11所示,所述装置还包括:
过滤模块5,用于通过所述第j线程滤除所述数据中重复的数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个实施例中,可以滤除数据中重复的数据,避免线程重复处理数据,从而降低线程处理数据的负荷,进而降低分布式系统整体的负荷。
根据本公开的第三方面,提出一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述任一实施例所述方法中的步骤。
根据本公开的第四方面,提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法中的步骤。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在相关方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
将数据以及数据和线程的关联信息分配至m个线程;
所述m个线程中的第i线程根据所述关联信息确定用于处理所述数据的第j线程;
所述第j线程处理所述数据,其中,若i≠j,所述第i线程将所述数据传输至所述第j线程,以使所述第j线程处理所述数据;若i=j,所述第i线程处理所述数据;i≤m,j≤m。
2.根据权利要求1所述的方法,其特征在于,在将数据以及数据和线程的关联信息分配至m个线程之前,所述方法还包括:
根据数据的属性信息生成所述关联信息,其中,具有相同属性信息的数据关联相同的线程。
3.根据权利要求2所述的方法,其特征在于,所述根据数据的属性信息生成数据和线程的关联信息包括:
确定根据数据的属性信息将所述数据分配到所述m个线程的目标分配方式,其中,基于所述目标分配方式所述m个线程中的每个线程处理数据的数据量的方差最小;
根据所述目标分配方式生成数据和线程的关联信息。
4.根据权利要求3所述的方法,其特征在于,所述确定根据数据的属性信息将所述数据分配到所述m个线程的目标分配方式包括:
若存在一种将所述数据分配到所述m个线程的分配方式,将所述分配方式确定为目标分配方式;
若存在多种将所述数据分配到所述m个线程的分配方式,根据公式:
对每种分配方式进行计算,确定多种分配方式中计算结果最小的分配方式为目标分配方式,其中,xi是需要分配到m个线程中第i个线程的数据量,是所有数据的数据量的均值。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述第j线程处理所述数据之前,所述方法还包括:
所述第j线程滤除所述数据中重复的数据。
6.一种数据处理装置,其特征在于,包括:
分配模块,用于将数据以及数据和线程的关联信息分配至m个线程;
确定模块,用于通过所述m个线程中的第i线程根据所述关联信息确定用于处理所述数据的第j线程;
处理模块,用于通过所述第j线程处理所述数据,其中,若i≠j,所述第i线程将所述数据传输至所述第j线程,以使所述第j线程处理所述数据;若i=j,所述第i线程处理所述数据;i≤m,j≤m。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
生成模块,用于根据数据的属性信息生成所述关联信息,其中,具有相同属性信息的数据关联相同的线程。
8.根据权利要求7所述的装置,其特征在于,所述生成模块包括:
方式确定子模块,用于确定根据数据的属性信息将所述数据分配到所述m个线程的目标分配方式,其中,基于所述目标分配方式所述m个线程中的每个线程处理数据的数据量的方差最小;
信息生成子模块,用于根据所述目标分配方式生成数据和线程的关联信息。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1至5中任一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述方法中的步骤。
CN201910042839.4A 2019-01-17 2019-01-17 数据处理方法、装置、电子设备和计算机可读存储介质 Pending CN109815014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910042839.4A CN109815014A (zh) 2019-01-17 2019-01-17 数据处理方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910042839.4A CN109815014A (zh) 2019-01-17 2019-01-17 数据处理方法、装置、电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109815014A true CN109815014A (zh) 2019-05-28

Family

ID=66604475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910042839.4A Pending CN109815014A (zh) 2019-01-17 2019-01-17 数据处理方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109815014A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243969A1 (en) * 2007-03-30 2008-10-02 Sap Ag Method and system for customizing allocation statistics
CN102122252A (zh) * 2011-03-14 2011-07-13 华中科技大学 一种保证时间连续性的线程池设计方法
US20120198454A1 (en) * 2011-01-31 2012-08-02 International Business Machines Corporation Adaptive spinning of computer program threads acquiring locks on resource objects by selective sampling of the locks
CN104881492A (zh) * 2015-06-12 2015-09-02 北京京东尚科信息技术有限公司 基于缓存分片技术的数据过滤方法和装置
CN105939389A (zh) * 2016-06-29 2016-09-14 乐视控股(北京)有限公司 负载均衡方法及装置
CN106354817A (zh) * 2016-08-30 2017-01-25 苏州蓝海彤翔系统科技有限公司 一种日志的处理方法及装置
CN108733475A (zh) * 2018-05-22 2018-11-02 哈尔滨工业大学(威海) 一种动态反馈调度方法
CN109086126A (zh) * 2018-06-15 2018-12-25 阿里巴巴集团控股有限公司 任务调度处理方法、装置、服务器、客户端及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243969A1 (en) * 2007-03-30 2008-10-02 Sap Ag Method and system for customizing allocation statistics
US20120198454A1 (en) * 2011-01-31 2012-08-02 International Business Machines Corporation Adaptive spinning of computer program threads acquiring locks on resource objects by selective sampling of the locks
CN102122252A (zh) * 2011-03-14 2011-07-13 华中科技大学 一种保证时间连续性的线程池设计方法
CN104881492A (zh) * 2015-06-12 2015-09-02 北京京东尚科信息技术有限公司 基于缓存分片技术的数据过滤方法和装置
CN105939389A (zh) * 2016-06-29 2016-09-14 乐视控股(北京)有限公司 负载均衡方法及装置
CN106354817A (zh) * 2016-08-30 2017-01-25 苏州蓝海彤翔系统科技有限公司 一种日志的处理方法及装置
CN108733475A (zh) * 2018-05-22 2018-11-02 哈尔滨工业大学(威海) 一种动态反馈调度方法
CN109086126A (zh) * 2018-06-15 2018-12-25 阿里巴巴集团控股有限公司 任务调度处理方法、装置、服务器、客户端及电子设备

Similar Documents

Publication Publication Date Title
CN105468302B (zh) 一种处理数据的方法、装置及系统
CN108848037A (zh) 业务请求处理方法、装置、计算机设备和存储介质
CN108320089A (zh) 坐席分配方法、电子装置及计算机可读存储介质
CN108132835A (zh) 基于多进程的任务请求处理方法、装置和系统
CN103778066B (zh) 数据处理方法和装置
CN106952085B (zh) 一种数据存储与业务处理的方法及装置
CN109189494B (zh) 配置灰度发布方法、装置、设备及计算机可读存储介质
CN106557366A (zh) 任务分发方法、装置及系统
CN107423942A (zh) 一种业务流转的方法及装置
CN107577550B (zh) 一种确定访问请求的响应是否异常的方法及装置
CN114462849A (zh) 任务的均衡分配方法以及任务的均衡分配装置
CN106445936A (zh) 一种数据处理方法及设备
CN111143421A (zh) 数据共享方法及装置、电子设备、存储介质
CN114070791A (zh) 数据流量的限速处理方法及装置
CN110837511A (zh) 一种数据处理方法、系统及相关设备
CN114461384A (zh) 任务执行方法、装置、计算机设备和存储介质
CN111415261B (zh) 银行系统的流控阈值动态更新的控制方法、系统和装置
CN109800085A (zh) 资源配置的检测方法、装置、存储介质和电子设备
CN104753741A (zh) 一种网卡测试性能调节的方法及装置
CN106933873A (zh) 一种跨平台数据查询方法和设备
CN109462403A (zh) 一种实现寄递地址编码的方法及系统
CN108228355A (zh) 任务处理方法及装置、任务调度方法及装置
CN109815014A (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN110009473B (zh) 数据处理方法、装置、设备及存储介质
CN112363831B (zh) 风控处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528