CN111626649B - 大数据处理方法和装置 - Google Patents

大数据处理方法和装置 Download PDF

Info

Publication number
CN111626649B
CN111626649B CN201910149556.XA CN201910149556A CN111626649B CN 111626649 B CN111626649 B CN 111626649B CN 201910149556 A CN201910149556 A CN 201910149556A CN 111626649 B CN111626649 B CN 111626649B
Authority
CN
China
Prior art keywords
description information
dimension description
summarized
sub
service data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910149556.XA
Other languages
English (en)
Other versions
CN111626649A (zh
Inventor
王春兰
刘亚超
张朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910149556.XA priority Critical patent/CN111626649B/zh
Publication of CN111626649A publication Critical patent/CN111626649A/zh
Application granted granted Critical
Publication of CN111626649B publication Critical patent/CN111626649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0834Choice of carriers
    • G06Q10/08345Pricing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders

Landscapes

  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提出一种大数据处理方法和装置,涉及计算机领域。通过获取待处理的多条业务数据,每条业务数据包括根据汇总需要确定的汇总维度描述信息、子维度描述信息和待汇总参数,在并行地对每个汇总维度描述信息的业务数据进行处理的过程中,基于不同的子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合,利用内存资源依次对各个集合进行待汇总参数的第一次汇总计算,并对各个集合的第一汇总业务数据进行待汇总参数的第二次汇总计算,基于当前汇总维度描述信息对应的第二汇总业务数据进行任务处理。从而,在基于内存计算的大数据并行计算过程中,降低内存资源消耗。

Description

大数据处理方法和装置
技术领域
本公开涉及计算机领域,特别涉及一种大数据处理方法和装置。
背景技术
在一些业务领域中,有大量的业务单据需要处理。这些业务单据的数量非常多,能达到亿甚至更高的数量级别。海量业务单据可以采用基于内存计算的大数据并行计算方法提高处理效率。
例如,并行地计算10亿条运输单据的运输费用,每条运输单据假设有10个订单,针对每条运输单据,在内存中对10个订单中的物品的重量或体积等进行累加,并且基于重量或体积的累加结果按照预设的计费规则计算该运输单据的运输费用。
发明内容
发明人发现,基于内存计算的大数据并行计算方法会占用大量的内存资源,在并行处理的数据量特别大的情况下,内存资源可能会消耗殆尽,影响数据处理效率。
鉴于此,本公开实施例提出一种适用于基于内存计算的大数据并行计算的大数据处理方案,能够降低内存资源消耗。
本公开的一些实施例提出一种大数据处理方法,包括:
获取待处理的多条业务数据,每条业务数据包括根据汇总需要确定的汇总维度描述信息、子维度描述信息和待汇总参数;
并行地对每个汇总维度描述信息的业务数据进行如下处理:
基于不同的子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合;
利用内存资源依次对当前汇总维度描述信息对应的各个集合进行待汇总参数的第一次汇总计算,得到每个集合对应的第一汇总业务数据;
利用内存资源对当前汇总维度描述信息对应的各个集合的第一汇总业务数据进行待汇总参数的第二次汇总计算,得到当前汇总维度描述信息对应的第二汇总业务数据;以及
基于当前汇总维度描述信息对应的第二汇总业务数据进行任务处理。
在一些实施例中,集合的个数是可配置的,且并行处理的数据量越大,被配置的集合的个数越多。
在一些实施例中,子维度描述信息包括一级子维度描述信息或多级子维度描述信息;子维度描述信息的级数是可配置的,且并行处理的数据量越大,子维度描述信息的级数越多。
在一些实施例中,在子维度描述信息包括多级子维度描述信息的情况下,按照子维度描述信息的级别由下到上的顺序,从倒数第二级子维度描述信息开始,迭代地对每级子维度描述信息进行处理,得到第一级子维度描述信息对应的汇总业务数据,以便在对每个汇总维度描述信息的业务数据并行处理过程中,基于不同的第一级子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合;
其中,迭代地对每级子维度描述信息进行处理包括:
基于不同的下一级别的子维度描述信息,将当前级别的子维度描述信息的各条业务数据分散到多个集合;
利用内存资源依次对各个集合进行业务数据的待汇总参数的汇总计算,得到每个集合对应的汇总业务数据;
利用内存资源对各个集合的汇总业务数据进行待汇总参数的汇总计算,得到当前级别的子维度描述信息对应的汇总业务数据。
在一些实施例中,将当前汇总维度描述信息的各条业务数据分散到多个集合包括:
对子维度描述信息进行取模计算,基于子维度描述信息的取模计算结果,将当前汇总维度描述信息的各条业务数据分散到相应的集合,模的值设置为集合的个数;
或者,对子维度描述信息进行哈希计算,基于子维度描述信息的哈希计算结果,将当前汇总维度描述信息的各条业务数据分散到相应的集合;
或者,对子维度描述信息进行分段,基于子维度描述信息所在的分段,将当前汇总维度描述信息的各条业务数据分散到相应的集合,分段的数量设置为集合的个数。
在一些实施例中,第一汇总业务数据包括当前汇总维度描述信息、集合信息和待汇总参数的第一次汇总计算结果,第二汇总业务数据包括当前汇总维度描述信息和待汇总参数的第二次汇总计算结果。
在一些实施例中,还包括:在获取待处理的多条业务数据之后,对待处理的多条业务数据进行过滤,以便去除与所述任务处理无关的业务数据。
在一些实施例中,所述任务处理包括调用预设的计费规则进行费用计算。
本公开的一些实施例提出一种大数据处理装置,包括:
数据获取单元,被配置为获取待处理的多条业务数据,每条业务数据包括根据汇总需要确定的汇总维度描述信息、子维度描述信息和待汇总参数;
并行处理单元,被配置为并行地对每个汇总维度描述信息的业务数据进行处理;
其中,并行处理单元包括:
分散处理子单元,被配置为基于不同的子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合;
第一汇总计算子单元,被配置为利用内存资源依次对当前汇总维度描述信息对应的各个集合进行待汇总参数的第一次汇总计算,得到每个集合对应的第一汇总业务数据;
第二汇总计算子单元,被配置为利用内存资源对当前汇总维度描述信息对应的各个集合的第一汇总业务数据进行待汇总参数的第二次汇总计算,得到当前汇总维度描述信息对应的第二汇总业务数据;
任务处理子单元,被配置为基于当前汇总维度描述信息对应的第二汇总业务数据进行任务处理。
在一些实施例中,分散处理子单元包括:
迭代处理模块,配置为在子维度描述信息包括多级子维度描述信息的情况下,按照子维度描述信息的级别由下到上的顺序,从倒数第二级子维度描述信息开始,迭代地对每级子维度描述信息进行处理,得到第一级子维度描述信息对应的汇总业务数据,其中,迭代地对每级子维度描述信息进行处理包括:基于不同的下一级别的子维度描述信息,将当前级别的子维度描述信息的各条业务数据分散到多个集合;利用内存资源依次对各个集合进行业务数据的待汇总参数的汇总计算,得到每个集合对应的汇总业务数据;利用内存资源对各个集合的汇总业务数据进行待汇总参数的汇总计算,得到当前级别的子维度描述信息对应的汇总业务数据;
分散处理模块,配置为在对每个汇总维度描述信息的业务数据并行处理过程中,基于不同的第一级子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合。
本公开的一些实施例提出一种大数据处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述任一个实施例的大数据处理方法。
本公开的一些实施例提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一个实施例的大数据处理方法。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一些实施例的适用于基于内存计算的大数据并行计算的大数据处理方法的流程示意图。
图2为本公开一些实施例的适用于基于内存计算的大数据并行计算的大数据处理方法的流程示意图。
图3为本公开一些实施例的多级子维度描述信息下的适用于基于内存计算的大数据并行计算的大数据处理方法的流程示意图。
图4为本公开一些实施例的适用于基于内存计算的大数据并行计算的大数据处理装置的结构示意图。
图5为本公开一些实施例的适用于基于内存计算的大数据并行计算的大数据处理装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
图1为本公开一些实施例的适用于基于内存计算的大数据并行计算的大数据处理方法的流程示意图。
如图1所示,该实施例的大数据处理方法包括:
步骤110,获取待处理的多条业务数据,每条业务数据包括根据汇总需要确定的汇总维度描述信息、子维度描述信息和待汇总参数。
例如,连接数据库,根据存储业务单据的表名和承接业务数据的对象,从数据库中获取相应的业务数据。
以计算运输费用的业务场景为例,计算一个运输单据的运输费用是一个任务,这样的任务有很多,需要基于内存计算的大数据并行计算处理,一个任务可能对应多条业务数据,每条业务数据例如包括运输单据标识、订单标识、体积/重量等信息,即一个运输单据标识可能对应多个订单标识,因此,根据计算运输费用的业务需要,运输单据标识确定为汇总维度描述信息,订单标识确定为子维度描述信息,体积/重量确定为待汇总参数。一个任务的所有业务数据中的体积/重量需要累加起来,最后基于体积/重量的累加结果按照预设的计费规则计算该任务的运输费用。
本领域技术人员可以理解,本公开的方案不仅适用于计算运输费用的业务场景,还可以适用于其他的需要基于内存计算的大数据并行计算的业务场景。
其中,子维度描述信息可以包括一级子维度描述信息或多级子维度描述信息。子维度描述信息的级数是可配置的,可以根据并行处理的数据量配置子维度描述信息的级数,并行处理的数据量越大,子维度描述信息的级数越多。
步骤120,并行地对每个汇总维度描述信息的业务数据进行如下处理(步骤121~124):
步骤121,基于不同的子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合。
其中,集合的个数是可配置的,可以根据并行处理的数据量配置集合的个数,并行处理的数据量越大,被配置的集合的个数越多。集合的个数例如是2、3、4、5等,但不限于所举示例。
本公开提出一些示例性的将当前汇总维度描述信息的各条业务数据分散到多个集合的方法。
第一种方法:对子维度描述信息进行取模计算,基于子维度描述信息的取模计算结果,将当前汇总维度描述信息的各条业务数据分散到相应的集合,模的值设置为集合的个数。
第二种方法:对子维度描述信息进行哈希计算,基于子维度描述信息的哈希计算结果,将当前汇总维度描述信息的各条业务数据分散到相应的集合。
第三种方法:对子维度描述信息进行分段,基于子维度描述信息所在的分段,将当前汇总维度描述信息的各条业务数据分散到相应的集合,分段的数量设置为集合的个数。
上述的三种方法均能够使各条业务数据比较均匀地分散到各个集合。
步骤122,利用内存资源依次对当前汇总维度描述信息对应的各个集合进行待汇总参数的第一次汇总计算,得到每个集合对应的第一汇总业务数据。从而,降低内存资源消耗,并且改善不同任务的数据量的均衡性,减少由于不同任务的数据量的不均衡所导致的内存资源和时间的浪费。
其中,第一汇总业务数据包括当前汇总维度描述信息、集合信息和待汇总参数的第一次汇总计算结果。
仍以计算运输费用的业务场景为例,假设需要并行处理10亿个运输单据,不同的运输单据有不同的运输单据标识,假设每个运输单据识平均对应10个订单标识,则按照传统的基于内存计算的大数据并行计算方法,需要为10亿个运输单据×10个订单的体积/重量累加计算提供内存资源。按照本公开的基于内存计算的大数据并行计算方法,假设集合的个数为2,每个集合平均有5个订单的业务数据,需要为10亿个运输单据×5个订单的体积/重量累加计算提供内存资源,内存资源消耗减小了一半。集合的个数越多,内存资源消耗越少。本领域技术人员可以理解,由于各个集合是依次被处理的,因此,前一个集合处理完毕后释放的内存资源可以供其他集合使用。
此外,不同的运输单实际对应的订单数量是不同的,例如,一个运输单据标识可能对应1~10个订单标识,则按照传统的基于内存计算的大数据并行计算方法,不同任务的数据量的最大差距是9个订单,小数据量的任务执行完毕后等待大数据量的任务,导致内存资源和时间的浪费,按照本公开的基于内存计算的大数据并行计算方法,假设集合数量为2,则一个集合可能对应1~5个订单标识,不同任务的数据量的最大差距缩小为4个订单,减少由于不同任务的数据量的不均衡所导致的内存资源和时间的浪费。
步骤123,利用内存资源对当前汇总维度描述信息对应的各个集合的第一汇总业务数据进行待汇总参数的第二次汇总计算,得到当前汇总维度描述信息对应的第二汇总业务数据。
由于每个集合对应的一条汇总业务数据,因此,第二次汇总计算是对集合数量级别的业务数据进行汇总计算,计算量大大减小,从而降低内存资源消耗。并且,不同任务所对应的集合数量是相同的,因此不同任务所对应的第二次汇总计算数据量是相同的,从而进一步改善不同任务的数据量的均衡性,减少由于不同任务的数据量的不均衡所导致的内存资源和时间的浪费。
其中,第二汇总业务数据包括当前汇总维度描述信息和待汇总参数的第二次汇总计算结果。
步骤124,基于当前汇总维度描述信息对应的第二汇总业务数据进行任务处理。
其中,任务处理例如为调用预设的计费规则进行费用计算。具体的,基于当前汇总维度描述信息对应的第二汇总业务数据,调用预设的计费规则,计算该汇总维度描述信息对应任务的费用。
仍以计算运输费用的业务场景为例,基于运输单据标识对应的体积/重量的累加结果,按照预设的计费规则,计算该运输单据的运输费用。
上述实施例,通过上述步骤121-123的优化处理,在基于内存计算的大数据并行计算过程中,能够降低内存资源消耗,并且改善不同任务的数据量的均衡性,减少由于不同任务的数据量的不均衡所导致的内存资源和时间的浪费。
图2为本公开一些实施例的适用于基于内存计算的大数据并行计算的大数据处理方法的流程示意图。
如图2所示,该实施例的大数据处理方法包括:
步骤210,获取待处理的多条业务数据,每条业务数据包括根据汇总需要确定的汇总维度描述信息、子维度描述信息和待汇总参数。具体内容参考步骤110,这里不再赘述。
步骤220,在获取待处理的多条业务数据之后,可选地,还可以对待处理的多条业务数据进行过滤,去除与任务处理无关的业务数据,保留与任务处理相关的业务数据。
仍以计算运输费用的业务场景为例,可以通过过滤去除不需要计费的业务数据,减少需要基于内存计算的数据量。
步骤230,可选地,对待处理的业务数据进行标准化处理,例如,必要字段的填充,单位的统一等。
仍以计算运输费用的业务场景为例,运输单据标识、订单标识、体积/重量等信息属于必要字段,体积/重量的单位需要统一,以方便基于计费规则计算运输费用。
步骤240,并行地对每个汇总维度描述信息的业务数据进行处理,详见步骤121~124,这里不再赘述。
上述实施例,在图1所示实施例的基础上,还通过对待处理的业务数据的优化处理,减少需要基于内存计算的数据量,以及得到适于任务处理的比较实用的业务数据。
如前所述,子维度描述信息可以包括一级子维度描述信息或多级子维度描述信息。下面结合图3描述多级子维度描述信息下的大数据处理方法。
图3为本公开一些实施例的多级子维度描述信息下的适用于基于内存计算的大数据并行计算的大数据处理方法的流程示意图。
如图3所示,该实施例的大数据处理方法包括:
步骤310,获取待处理的多条业务数据,每条业务数据包括根据汇总需要确定的汇总维度描述信息、多级子维度描述信息和待汇总参数。具体内容参考步骤110,这里不再赘述。
步骤320,在获取待处理的多条业务数据之后,可选地,还可以对待处理的多条业务数据进行过滤,去除与任务处理无关的业务数据,保留与任务处理相关的业务数据。具体内容参考步骤220,这里不再赘述。
步骤330,可选地,对待处理的业务数据进行标准化处理,例如,必要字段的填充,单位的统一等。具体内容参考步骤230,这里不再赘述。
步骤340,并行地对每个汇总维度描述信息的业务数据进行如下处理:
步骤341,按照子维度描述信息的级别由下到上的顺序,从倒数第二级子维度描述信息开始,迭代地对每级子维度描述信息进行处理,最终得到第一级子维度描述信息对应的汇总业务数据。
其中,迭代地对每级子维度描述信息进行处理包括:
步骤a:基于不同的下一级别的子维度描述信息,将当前级别的子维度描述信息的各条业务数据分散到多个集合。
步骤b:利用内存资源依次对各个集合进行业务数据的待汇总参数的汇总计算,得到每个集合对应的汇总业务数据。
步骤c:利用内存资源对各个集合的汇总业务数据进行待汇总参数的汇总计算,得到当前级别的子维度描述信息对应的汇总业务数据。
例如,假设每条业务数据包括根据汇总需要确定的汇总维度描述信息、第一级子维度描述信息、第二级子维度描述信息、第三级子维度描述信息和待汇总参数。第一次迭代处理:基于不同的第三级子维度描述信息,将第二级子维度描述信息的各条业务数据分散到多个集合,利用内存资源依次对各个集合进行业务数据的待汇总参数的汇总计算,得到每个集合对应的汇总业务数据,利用内存资源对各个集合的汇总业务数据进行待汇总参数的汇总计算,得到第二级子维度描述信息对应的汇总业务数据。将第一次迭代处理的汇总业务数据作为第二次迭代处理的业务数据。第二次迭代处理:基于不同的第二级子维度描述信息,将第一级子维度描述信息的各条业务数据分散到多个集合,利用内存资源依次对各个集合进行业务数据的待汇总参数的汇总计算,得到每个集合对应的汇总业务数据,利用内存资源对各个集合的汇总业务数据进行待汇总参数的汇总计算,最终得到第一级子维度描述信息对应的汇总业务数据。
步骤342,基于不同的第一级子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合。
步骤343,利用内存资源依次对当前汇总维度描述信息对应的各个集合进行待汇总参数的第一次汇总计算,得到每个集合对应的第一汇总业务数据。从而,降低内存资源消耗,并且改善不同任务的数据量的均衡性,减少由于不同任务的数据量的不均衡所导致的内存资源和时间的浪费。
步骤344,利用内存资源对当前汇总维度描述信息对应的各个集合的第一汇总业务数据进行待汇总参数的第二次汇总计算,得到当前汇总维度描述信息对应的第二汇总业务数据。
步骤345,基于当前汇总维度描述信息对应的第二汇总业务数据进行任务处理。
上述实施例,在图1所示实施例的基础上,在并行处理的数据量比较大的情况下,通过增加子维度描述信息的级数,进一步降低内存资源消耗,并且改善不同任务的数据量的均衡性。
前述各实施例中的大数据处理方法例如可以由大数据处理装置执行,大数据处理装置的具体描述参见图4-5。大数据处理装置中例如运行有基于内存计算的大数据并行计算程序,如spark。
图4为本公开一些实施例的适用于基于内存计算的大数据并行计算的大数据处理装置的结构示意图。
如图4所示,该实施例的大数据处理装置包括:单元410~420,可选的,还可以单元430。
数据获取单元410,被配置为获取待处理的多条业务数据,每条业务数据包括根据汇总需要确定的汇总维度描述信息、子维度描述信息和待汇总参数。
并行处理单元420,被配置为并行地对每个汇总维度描述信息的业务数据进行处理。
其中,并行处理单元420包括:子单元421~424。
分散处理子单元421,被配置为基于不同的子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合。
第一汇总计算子单元422,被配置为利用内存资源依次对当前汇总维度描述信息对应的各个集合进行待汇总参数的第一次汇总计算,得到每个集合对应的第一汇总业务数据。
第二汇总计算子单元423,被配置为利用内存资源对当前汇总维度描述信息对应的各个集合的第一汇总业务数据进行待汇总参数的第二次汇总计算,得到当前汇总维度描述信息对应的第二汇总业务数据。
任务处理子单元424,被配置为基于当前汇总维度描述信息对应的第二汇总业务数据进行任务处理。任务处理例如包括调用预设的计费规则进行费用计算。
在一些实施例中,分散处理子单元421包括:模块421a~421b。
迭代处理模块421a,配置为在子维度描述信息包括多级子维度描述信息的情况下,按照子维度描述信息的级别由下到上的顺序,从倒数第二级子维度描述信息开始,迭代地对每级子维度描述信息进行处理,得到第一级子维度描述信息对应的汇总业务数据,其中,迭代地对每级子维度描述信息进行处理包括:基于不同的下一级别的子维度描述信息,将当前级别的子维度描述信息的各条业务数据分散到多个集合;利用内存资源依次对各个集合进行业务数据的待汇总参数的汇总计算,得到每个集合对应的汇总业务数据;利用内存资源对各个集合的汇总业务数据进行待汇总参数的汇总计算,得到当前级别的子维度描述信息对应的汇总业务数据。
分散处理模块421b,配置为在对每个汇总维度描述信息的业务数据并行处理过程中,基于不同的第一级子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合。
在一些实施例中,分散处理子单元421,被配置为对子维度描述信息进行取模计算,基于子维度描述信息的取模计算结果,将当前汇总维度描述信息的各条业务数据分散到相应的集合,模的值设置为集合的个数。
在一些实施例中,分散处理子单元421,被配置为对子维度描述信息进行哈希计算,基于子维度描述信息的哈希计算结果,将当前汇总维度描述信息的各条业务数据分散到相应的集合;
在一些实施例中,分散处理子单元421,被配置为对子维度描述信息进行分段,基于子维度描述信息所在的分段,将当前汇总维度描述信息的各条业务数据分散到相应的集合,分段的数量设置为集合的个数。
在一些实施例中,集合的个数是可配置的,且并行处理的数据量越大,被配置的集合的个数越多。
在一些实施例中,子维度描述信息包括一级子维度描述信息或多级子维度描述信息。
在一些实施例中,子维度描述信息的级数是可配置的,且并行处理的数据量越大,子维度描述信息的级数越多。
数据过滤单元430,被配置为在获取待处理的多条业务数据之后,对待处理的多条业务数据进行过滤,以便去除与所述任务处理无关的业务数据。
图5为本公开一些实施例的适用于基于内存计算的大数据并行计算的大数据处理装置的结构示意图。
如图5所示,该实施例的大数据处理装置包括:
存储器510;以及
耦接至所述存储器的处理器520,所述处理器520被配置为基于存储在所述存储器中的指令,执行前述任一个实施例中的大数据处理方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可读非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种大数据处理方法,其特征在于,包括:
获取待处理的多个任务,每个任务对应多条业务数据,每条业务数据包括根据汇总需要确定的汇总维度描述信息、子维度描述信息和待汇总参数;
并行地对每个汇总维度描述信息的业务数据进行如下处理:
基于不同的子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合;
利用内存资源依次对当前汇总维度描述信息对应的各个集合进行待汇总参数的第一次汇总计算,得到每个集合对应的第一汇总业务数据,其中,各个集合是依次被处理的,前一个集合处理完毕后释放的内存资源可供其他集合使用;
利用内存资源对当前汇总维度描述信息对应的各个集合的第一汇总业务数据进行待汇总参数的第二次汇总计算,得到当前汇总维度描述信息对应的第二汇总业务数据;以及
基于当前汇总维度描述信息对应的第二汇总业务数据进行任务处理;
在子维度描述信息包括多级子维度描述信息的情况下,按照子维度描述信息的级别由下到上的顺序,从倒数第二级子维度描述信息开始,迭代地对每级子维度描述信息进行处理,得到第一级子维度描述信息对应的汇总业务数据,以便在对每个汇总维度描述信息的业务数据并行处理过程中,基于不同的第一级子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合;
其中,迭代地对每级子维度描述信息进行处理包括:基于不同的下一级别的子维度描述信息,将当前级别的子维度描述信息的各条业务数据分散到多个集合;利用内存资源依次对各个集合进行业务数据的待汇总参数的汇总计算,得到每个集合对应的汇总业务数据;利用内存资源对各个集合的汇总业务数据进行待汇总参数的汇总计算,得到当前级别的子维度描述信息对应的汇总业务数据。
2.如权利要求1所述的方法,其特征在于,
集合的个数是可配置的,且并行处理的数据量越大,被配置的集合的个数越多。
3.如权利要求1所述的方法,其特征在于,
子维度描述信息包括一级子维度描述信息或多级子维度描述信息;
子维度描述信息的级数是可配置的,且并行处理的数据量越大,子维度描述信息的级数越多。
4.如权利要求1所述的方法,其特征在于,将当前汇总维度描述信息的各条业务数据分散到多个集合包括:
对子维度描述信息进行取模计算,基于子维度描述信息的取模计算结果,将当前汇总维度描述信息的各条业务数据分散到相应的集合,模的值设置为集合的个数;
或者,对子维度描述信息进行哈希计算,基于子维度描述信息的哈希计算结果,将当前汇总维度描述信息的各条业务数据分散到相应的集合;
或者,对子维度描述信息进行分段,基于子维度描述信息所在的分段,将当前汇总维度描述信息的各条业务数据分散到相应的集合,分段的数量设置为集合的个数。
5.如权利要求1所述的方法,其特征在于,
第一汇总业务数据包括当前汇总维度描述信息、集合信息和待汇总参数的第一次汇总计算结果,
第二汇总业务数据包括当前汇总维度描述信息和待汇总参数的第二次汇总计算结果。
6.如权利要求1所述的方法,其特征在于,还包括:
在获取待处理的多条业务数据之后,对待处理的多条业务数据进行过滤,以便去除与所述任务处理无关的业务数据。
7.如权利要求1-6任一项所述的方法,其特征在于,
所述任务处理包括调用预设的计费规则进行费用计算。
8.一种大数据处理装置,其特征在于,包括:
数据获取单元,被配置为获取待处理的多个任务,每个任务对应多条业务数据,每条业务数据包括根据汇总需要确定的汇总维度描述信息、子维度描述信息和待汇总参数;
并行处理单元,被配置为并行地对每个汇总维度描述信息的业务数据进行处理;
其中,并行处理单元包括:
分散处理子单元,被配置为基于不同的子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合;
第一汇总计算子单元,被配置为利用内存资源依次对当前汇总维度描述信息对应的各个集合进行待汇总参数的第一次汇总计算,得到每个集合对应的第一汇总业务数据,其中,各个集合是依次被处理的,前一个集合处理完毕后释放的内存资源可供其他集合使用;
第二汇总计算子单元,被配置为利用内存资源对当前汇总维度描述信息对应的各个集合的第一汇总业务数据进行待汇总参数的第二次汇总计算,得到当前汇总维度描述信息对应的第二汇总业务数据;
任务处理子单元,被配置为基于当前汇总维度描述信息对应的第二汇总业务数据进行任务处理;
所述分散处理子单元包括:
迭代处理模块,配置为在子维度描述信息包括多级子维度描述信息的情况下,按照子维度描述信息的级别由下到上的顺序,从倒数第二级子维度描述信息开始,迭代地对每级子维度描述信息进行处理,得到第一级子维度描述信息对应的汇总业务数据,其中,迭代地对每级子维度描述信息进行处理包括:基于不同的下一级别的子维度描述信息,将当前级别的子维度描述信息的各条业务数据分散到多个集合;利用内存资源依次对各个集合进行业务数据的待汇总参数的汇总计算,得到每个集合对应的汇总业务数据;利用内存资源对各个集合的汇总业务数据进行待汇总参数的汇总计算,得到当前级别的子维度描述信息对应的汇总业务数据;
分散处理模块,配置为在对每个汇总维度描述信息的业务数据并行处理过程中,基于不同的第一级子维度描述信息,将当前汇总维度描述信息的各条业务数据分散到多个集合。
9.一种大数据处理装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-7任一项所述的大数据处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-7任一项所述的大数据处理方法。
CN201910149556.XA 2019-02-28 2019-02-28 大数据处理方法和装置 Active CN111626649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910149556.XA CN111626649B (zh) 2019-02-28 2019-02-28 大数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910149556.XA CN111626649B (zh) 2019-02-28 2019-02-28 大数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN111626649A CN111626649A (zh) 2020-09-04
CN111626649B true CN111626649B (zh) 2024-02-06

Family

ID=72271706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910149556.XA Active CN111626649B (zh) 2019-02-28 2019-02-28 大数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN111626649B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763083A (zh) * 2020-09-18 2021-12-07 北京沃东天骏信息技术有限公司 信息处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021628A (ja) * 2002-06-17 2004-01-22 Hitachi Ltd 多次元データベース管理方法及びその実施装置並びにその処理プログラム
CN104281713A (zh) * 2014-10-28 2015-01-14 用友软件股份有限公司 数据汇总方法和数据汇总装置
CN105630580A (zh) * 2014-11-07 2016-06-01 远光软件股份有限公司 基于调度平台的数据汇总方法及数据汇总装置
CN109145051A (zh) * 2018-07-03 2019-01-04 阿里巴巴集团控股有限公司 分布式数据库的数据汇总方法及装置和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004021628A (ja) * 2002-06-17 2004-01-22 Hitachi Ltd 多次元データベース管理方法及びその実施装置並びにその処理プログラム
CN104281713A (zh) * 2014-10-28 2015-01-14 用友软件股份有限公司 数据汇总方法和数据汇总装置
CN105630580A (zh) * 2014-11-07 2016-06-01 远光软件股份有限公司 基于调度平台的数据汇总方法及数据汇总装置
CN109145051A (zh) * 2018-07-03 2019-01-04 阿里巴巴集团控股有限公司 分布式数据库的数据汇总方法及装置和电子设备

Also Published As

Publication number Publication date
CN111626649A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN106713396B (zh) 服务器调度方法和系统
CN103605574A (zh) 一种服务器集群中的虚拟机资源调度方法及系统
CN103077197A (zh) 一种数据存储方法装置
CN103310460A (zh) 图像特征提取的方法及系统
US20100287554A1 (en) Processing serialized transactions in parallel while preserving transaction integrity
CN103246549B (zh) 一种数据转存的方法及系统
US20170048352A1 (en) Computer-readable recording medium, distributed processing method, and distributed processing device
CN103902384A (zh) 为虚拟机分配物理机的方法及装置
CN103927263A (zh) 垃圾回收方法和装置
CN106855862B (zh) 一种快速比较方法及装置
CN106557307B (zh) 业务数据的处理方法及处理系统
CN111626649B (zh) 大数据处理方法和装置
CN103399791A (zh) 一种基于云计算的虚拟机迁移方法和装置
CN112699098A (zh) 一种索引数据迁移方法、装置及设备
CN109788013B (zh) 分布式系统中作业资源分配方法、装置及设备
CN110704535A (zh) 数据分箱方法、装置、设备及计算机可读存储介质
CN103645892A (zh) 一种图片处理方法和系统
CN110765082B (zh) Hadoop文件处理方法、装置、存储介质及服务器
CN108021448B (zh) 一种内核空间的优化方法及装置
CN106201711A (zh) 一种任务处理方法及服务器
CN105095382A (zh) 样本分布式聚类计算方法及装置
CN107203633B (zh) 数据表推数处理方法、装置及电子设备
CN109800077A (zh) 全程序静态检测的文件优先检测顺序的处理方法及装置
CN112764935B (zh) 大数据处理方法、装置、电子设备及存储介质
CN103530294A (zh) 一种文件分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant