CN113139835A - 数据处理方法、装置、非易失性存储介质及处理器 - Google Patents

数据处理方法、装置、非易失性存储介质及处理器 Download PDF

Info

Publication number
CN113139835A
CN113139835A CN202110475916.2A CN202110475916A CN113139835A CN 113139835 A CN113139835 A CN 113139835A CN 202110475916 A CN202110475916 A CN 202110475916A CN 113139835 A CN113139835 A CN 113139835A
Authority
CN
China
Prior art keywords
report
type
processing
target
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110475916.2A
Other languages
English (en)
Inventor
李�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenyan Intelligent Technology Co ltd
Original Assignee
Beijing Shenyan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenyan Intelligent Technology Co ltd filed Critical Beijing Shenyan Intelligent Technology Co ltd
Priority to CN202110475916.2A priority Critical patent/CN113139835A/zh
Publication of CN113139835A publication Critical patent/CN113139835A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置、非易失性存储介质及处理器。其中,该方法包括:获取处理任务,其中,处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型;根据范围,获取原始交易订单;处理原始交易订单,得到预定格式的交易订单数据;根据目标报表的类型,确定指标类型;根据指标类型以及交易订单数据,生成目标报表。本发明解决了根据交易订单生成指定报表的过程繁琐复杂的技术问题。

Description

数据处理方法、装置、非易失性存储介质及处理器
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法、装置、非易失性存储介质及处理器。
背景技术
大型商业组织在长时间的交易运行的过程之中,积累了海量的商品交易数据,然而,相关技术中,对海量的商品交易数据的处理通常为分析人员的手动处理,耗时耗力,且不具备功能的延展性和通用性,难以服务于广大的对数据分析有需求的客户。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法、装置、非易失性存储介质及处理器,以至少解决根据交易订单生成指定报表的过程繁琐复杂的技术问题。
根据本发明实施例的一个方面,提供了一种报表处理方法,包括:获取处理任务,其中,所述处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型;根据所述范围,获取原始交易订单;处理所述原始交易订单,得到预定格式的交易订单数据;根据所述目标报表的类型,确定指标类型;根据所述指标类型以及所述交易订单数据,生成所述目标报表。
可选地,根据所述指标类型以及所述交易订单数据,生成所述目标报表,包括:获取大数据计算集群,其中,所述大数据计算集群采用以下任意之一进行资源调度:Yarn资源管理器,Mesos分布式计算框架;根据所述指标类型,使用所述大数据计算集群处理所述交易订单数据得到目标指标;根据所述目标指标,生成所述目标报表。
可选地,根据所述目标报表的类型,确定指标类型,包括以下任意之一:在所述目标报表的类型为复购产品线组合分析报表的情况下,所述指标类型包括:产品线组合购买人数比,复购率;在所述目标报表的类型为高频库存保有单位购买分析报表的情况下,所述指标类型包括:商品被购概率,复购率;在所述目标报表的类型为产品线复购时间窗分析报表的情况下,所述指标类型包括:产品线组合复购时间窗;在所述目标报表的类型为库存保有单位复购时间窗分析报表的情况下,所述指标类型包括:复购时间窗;在所述目标报表的类型为商品回购分析报表的情况下,所述指标类型包括:回购周期,回购率;在所述目标报表的类型为区域分析报表的情况下,所述指标类型包括:城市人群占比,乡镇人群占比。
可选地,处理所述原始交易订单,得到预定格式的交易订单数据,包括:获取所述原始交易订单与所述预定格式的对应关系;根据所述对应关系,处理所述原始交易订单,得到所述预定格式的交易订单数据。
可选地,在生成所述目标报表之后,还包括:根据预定形式展示所述目标报表,其中,所述预定形式包括以下任意之一:表格,柱状图,饼状图,折线图。
可选地,上述方法还包括:创建数据库,其中,所述数据库包括以下任意之一:MySQL数据库、PostgreSQL数据库,Clickhouse数据库;使用所述数据库存储以下至少之一:所述处理任务,所述交易订单数据,所述目标报表。
根据本发明实施例的另一方面,还提供了一种报表处理装置,包括:第一获取模块,用于获取处理任务,其中,所述处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型;第二获取模块,用于根据所述范围,获取原始交易订单;处理模块,用于处理所述原始交易订单,得到预定格式的交易订单数据;确定模块,用于根据所述目标报表的类型,确定指标类型;生成模块,用于根据所述指标类型以及所述交易订单数据,生成所述目标报表。
根据本发明实施例的又一方面,还提供了一种报表处理系统,所述报表处理系统包括所述报表处理装置。
根据本发明实施例的再一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述任意一项所述报表处理方法。
根据本发明实施例的再一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述报表处理方法。
在本发明实施例中,通过获取处理任务,其中,处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型;根据范围,获取原始交易订单;处理原始交易订单,得到预定格式的交易订单数据;根据目标报表的类型,确定指标类型;根据指标类型以及交易订单数据,生成目标报表,达到了根据任务生成目标报表的目的,从而实现了快速生成指定报表的技术效果,进而解决了根据交易订单生成指定报表的过程繁琐复杂技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的一种数据处理方法的流程示意图;
图2是根据本发明可选实施例提供的复购产品线组合分析报表的示意图;
图3是根据本发明可选实施例提供的高频库存保有单位购买分析报表的示意图;
图4是根据本发明可选实施例提供的产品线复购时间窗分析报表的示意图;
图5是根据本发明可选实施例提供的库存保有单位复购时间窗分析报表的示意图;
图6是根据本发明可选实施例提供的商品回购分析报表的示意图;
图7是根据本发明可选实施例提供的区域分析报表的示意图;
图8是根据本发明可选实施方式提供的报表处理系统的结构示意图;
图9是根据本发明可选实施方式提供的报表处理系统的数据流示意图;
图10是根据本发明实施例提供的报表处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种报表处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例提供的报表处理方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S101,获取处理任务,其中,处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型。其中,处理任务可以根据需要生成目标报表的数据分析人员的需求自动创建。例如,由数据分析人员根据其需要分析的交易订单的范围和其想获得的报表的类型,创建相应处理任务。
步骤S102,根据范围,获取原始交易订单。其中,待处理的交易订单的范围可以是时间范围,也可以是类型范围或者区域范围,例如,根据类型范围,只获取已完成的原始交易订单,或者根据区域范围,只获取收货地址为目标省市的原始交易订单。
步骤S103,处理原始交易订单,得到预定格式的交易订单数据。可选地,表1是根据本发明可选实施方式提供的交易订单数据存储表,如表1所示,可以通过数据清洗和格式化,将原始交易订单处理为预定格式的交易订单数据,其中,每一条交易订单数据的格式为“字段英文名,字段中文名,数据类型,备注数据来源及数据意义”。将原始交易订单处理为预定格式的交易订单数据,便于后续的数据处理步骤。
表1
Figure BDA0003047085780000041
Figure BDA0003047085780000051
步骤S104,根据目标报表的类型,确定指标类型。不同的报表类型对应不同的指标类型,,为了生成目标报表,可以确定与目标报表的类型对应的指标类型。例如,在目标报表为复购产品线组合分析报表的情况下,指标类型可以包括产品线组合购买人数比和复购率。
步骤S105,根据指标类型以及交易订单数据,生成目标报表。可选地,可以根据指标类型从交易订单数据中获取指标的值,并使用得到的指标的值生成目标报表。
通过上述步骤,通过获取处理任务,其中,处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型;根据范围,获取原始交易订单;处理原始交易订单,得到预定格式的交易订单数据;根据目标报表的类型,确定指标类型;根据指标类型以及交易订单数据,生成目标报表,达到了根据任务生成目标报表的目的,从而实现了快速生成指定报表的技术效果,进而解决了根据交易订单生成指定报表的过程繁琐复杂技术问题。
作为一种可选的实施例,处理原始交易订单,得到预定格式的交易订单数据,可以通过如下方式:获取原始交易订单与预定格式的对应关系;根据对应关系,处理原始交易订单,得到预定格式的交易订单数据。
可选地,预定格式可以由数据分析人员指定,也可以根据目标报表的类型进行确定。由于原始交易订单的形式多样,信息的存储类型和存储状态多样,因此,通过获取原始交易订单与预定格式的对应关系,可以为订单数据的预处理提供便利。例如,根据原始交易订单与预定格式的对应关系,可以自动将原始交易订单转换成交易订单数据并记录下来;又例如,根据原始交易订单与预定格式的对应关系,可以在处理原始交易订单的过程中,发现异常错误数据,此时可以向订单数据的采集人员进行告警;再例如,根据原始交易订单与预定格式的对应关系,还可以在处理原始交易订单的过程中发现缺失信息,此时可以将缺失何种信息报告给订单数据的采集端,指示对缺失的信息进行补充,以根据补充后的完善的原始交易订单生成有效的交易订单数据。
作为一种可选的实施例,可以创建以下任意之一的数据库:MySQL数据库、PostgreSQL数据库,Clickhouse数据库;并使用数据库存储以下至少之一:处理任务,交易订单数据,目标报表。其中,MySQL数据库的开发成本较低,PostgreSQL数据库可以支持复杂查询,Clickhouse数据库可以容纳海量数据,可以根据业务需求确定选用哪种数据库。此外,数据库可以用于存储处理任务的数据,处理任务的结果,目标报表或者目标报表的可视化视图等。
作为一种可选的实施例,目标报表的类型可以由多种,对应于每一种报表的类型,指标类型也可以有多种不同的组合,例如,报表类型与指标类型的对应关系可以为以下任意之一:在目标报表的类型为复购产品线组合分析报表的情况下,指标类型包括:产品线组合购买人数比,复购率;在目标报表的类型为高频库存保有单位购买分析报表的情况下,指标类型包括:商品被购概率,复购率;在目标报表的类型为产品线复购时间窗分析报表的情况下,指标类型包括:产品线组合复购时间窗;在目标报表的类型为库存保有单位复购时间窗分析报表的情况下,指标类型包括:复购时间窗;在目标报表的类型为商品回购分析报表的情况下,指标类型包括:回购周期,回购率;在目标报表的类型为区域分析报表的情况下,指标类型包括:城市人群占比,乡镇人群占比。
为了说明不同的报表类型、指标类型以及其计算方法,首先对如下几个名词进行解释说明。
购买频次,本申请中定义为用户购买时间的间隔大于等于三十分钟的购买行为是不同次的购买行为。理论上即购买时间相隔大于等于三十分钟的两笔订单为不同次购买行为。但是在实际业务场景中,会遇到以下情况:三笔订单A、B、C,其中订单A和订单B的购买时间相距二十九分钟,订单B和订单C的购买时间相距五分钟,如果按照上述对于购买频次的定义,那么订单A和订单B属于一次购买行为,而订单B和订单C属于另一次购买行为。如果因为订单B同时和订单A、订单C属于一次购买行为,而判断订单A和订单C属于同次购买行为,那么订单A和订单C购买时间相距超过三十分钟的情况和购买时间不超过三十分钟算一个购买频次的定义会发生矛盾。如果将订单B分别算在两次购买频次之中,那么会出现该用户对于订单B的两次购买,这和实际的业务数据不符。为了解决以上的理论和实际情况的冲突,本申请中,以以下条件作为判断订单是否是同一个购买频次的依据:将一个用户的每个订单购买时间距最早订单购买时间的差值除以三十分钟的值是否相同。在该种计算方式下,会出现相距不超过三十分钟的两笔订单被判断在两个购买频次情况,根据对于实际订单数据的调研,这样的订单数量不超过总订单数的百分之零点一八,误差足够小。
复购,本申请中定义用户在查询周期内所进行的在不同频次的购买行为即为复购。如果复购前后所涉及的产品线组合相同则为同线复购,如果前后涉及的产品线组合不同则为跨线复购。因为用户在一次购买行为之中所购买的产品线可能有多个,且对于同一个产品线的不同商品会有多次购买,因此在进行复购产品线组合计算的时候,对于同一个购买频次之中的产品线,取其所有涉及产品线的集合进行计算。值得注意的是,一个复购行为的前后两个购买频次不一定为相邻的购买行为,可以间隔同一个用户的其它购买频次。而一个复购行为所构成的产品线组合不一定为前后购买频次所涉及的所有产品线组合,复购产品线组合的产品线可以为复购前后产品线集合的子集,但是对于复购前后两次购买所涉及的产品线都应该有包含。
复购时间窗,本申请中定义在计算任务的查询时间范围内,一个用户前后相邻两次购买频次所跨的时间间隔则为复购时间窗。在本次任务计算复购时间窗的时候,分为产品线复购时间窗和商品复购时间窗。如果计算取时间窗前后购买频次所涉及的产品线组合,则为产品线组合复购时间窗。如果计算取时间窗前后购买频次所涉及的商品组合,则为商品组合复购时间窗。值得注意的是,复购时间窗的前后两次购买频次之间不应该包含其它购买频次。
回购,本申请中定义用户在不同购买频次之中购买相同产品线或者相同商品的行为为回购。回购不同于复购,复购的前后购买的东西可以是不同产品线或者不同商品,而回购的前后购买东西必须是相同的产品线和商品。在百事一期预制报表计算之中,仅仅计算逻辑仅仅考虑商品的回购计算。
产品线组合过滤,考虑到预制报表计算结果之中复购产品线组合数量的众多以及系统用户的关注点,百事一期预制报表计算逻辑之中,在复购产品线组合分析报表、高频商品购买分析报表、产品线复购时间窗分析报表、商品复购时间窗分析报表之中,对于产品线组合,仅仅展示同线复购、EC-Base Hot与EC-VA Hot之间和EC-Fancy Cold与EC-Base Cold之间的跨线复购情况。
商品名称定义,商品名称由库存保有单位(stock keeping unit,简称SKU)名称加单次发货的SKU数量构成,例如SKU名称为a的单次发货数量为3,那么该商品的名称为[a]*3。
图2是根据本发明可选实施例提供的复购产品线组合分析报表的示意图,如图2所示,可以采用如下方式计算得到与该报表对应的目标指标:计算产品线组合购买人数占比,用产品线组合购买人数除以查询周期内所有的有复购行为的人数。计算复购率,用产品线组合购买人数除以查询周期内购买了首购产品线组合的人数。
取店铺原始数据集,根据订单交易时间减去同一用户在查询周期内最早购买时间的差除以三十分钟数来判断不同购买行为;将每个用户的订单按照时间先后顺序排序,得到每个用户的产品线组合购买序列和商品组合购买序列,得到一个三列表格A,该表格每列分别为用户编号、用户产品线组合购买序列和用户商品购买序列;每个用户的商品购买序列可以留给下一个表格高频商品购买分析表格的计算使用;取每个用户的产品线购买序列,根据频繁公共子序列计算算法,得到购买人数最多的前五十个产品线复购组合;暂定频繁公共子序列计算算法的筛选条件为支持度百分之一和结果序列最大长度不超过十个产品线组合;由频繁公共子序列计算算法的输出的结果产品线组合集合,计算每个组合的复购人数占比和复购率。
图3是根据本发明可选实施例提供的高频库存保有单位购买分析报表的示意图,如图3所示,可以采用如下方式计算得到与该报表对应的目标指标:计算商品被购概率,计算公式为confidence(x->y)=同时购买(x,y)的人数/购买x的人数,即同时购买首复购商品的人数/购买首购商品的人数。计算复购率,在下钻产品线组合下购买了该sku组合的人数/查询周期内购买了首购sku的人数。
取复购产品线组合分析报表之中的三列表格A,以及在进行复购产品线组合分析报表计算得到的购买人数最多的前五十个产品线复购组合;遍历该前五十个产品线组合,分别取出遍历到的产品线组合所涉及到的商品购买序列。将该商品购买序列作为输入,从频繁公共子序列计算算法得到在该产品线组合购买人数之中涉及人数最多的前一百个商品购买组合序列;该一百个商品组合购买序列就是由该产品线组合下钻得到的商品购买序列结果。
图4是根据本发明可选实施例提供的产品线复购时间窗分析报表的示意图,如图4所示,可以采用如下方式计算得到与该报表对应的目标指标:确定购买时间相距大于三十分钟的相邻两次购买为一个复购时间窗。确定一个用户在一个产品线组合上的复购时间窗的时间,为该用户在该产品线组合上所有复购时间窗的平均值。
取店铺原始数据集,将所有订单的购买时间减去该用户在查询周期内的最早购买时间的差除以三十分钟得到不同购买行为;对于单个用户,将其购买产品线根据购买时间进行排序后,得到该用户在不同产品线组合上的相邻复购时间间隔序列;对于单个用户,将其对于不同产品线组合的复购时间窗的平均值,当作该用户在该产品线组合上的复购时间窗的值;计算所有用户中,在不同产品线组合的不同复购时间窗的人数。
图5是根据本发明可选实施例提供的库存保有单位复购时间窗分析报表的示意图,如图5所示,可以采用如下方式计算得到与该报表对应的目标指标:确定购买时间相距大于三十分钟的相邻两次购买为一个复购时间窗。确定一个用户在一个商品组合上的复购时间窗的时间,为该用户在该商品组合上所有复购时间窗的平均值。
取店铺原始数据集,将所有订单的购买时间减去该用户在查询周期内的最早购买时间的差除以三十分钟得到不同购买行为;对于单个用户,将其购买商品根据购买时间进行排序后,得到该用户在不同商品组合上的相邻复购时间间隔序列;对于单个用户,将其对于不同商品组合的复购时间窗的平均值,当作该用户在该商品组合上的复购时间窗的值;计算所有用户中,在不同商品组合的不同复购时间窗的人数。
图6是根据本发明可选实施例提供的商品回购分析报表的示意图,如图6所示,可以采用如下方式计算得到与该报表对应的目标指标:确定用户在同一商品上相距大于三十分钟的两个订单为一次该商品的回购行为。确定用户在一个商品上的回购周期,为该用户在该商品上平均回购时间间隔。确定一个商品的平均回购天数,为所有用户在该商品上的回购周期取平均天数。确定一个商品的回购率,为有过该商品回购行为的人数除以店铺的查询周期内所有购买过该商品的人数。
统计各个商品的购买人数;统计各个商品的回购人数;先统计每个用户在每个商品上的平均回购周期,再统计所有用户在每个商品上的平均回购周期;用各个商品的回购人数除以其购买人数,得到回购率。
图7是根据本发明可选实施例提供的区域分析报表的示意图,如图7所示,可以采用如下方式计算得到与该报表对应的目标指标:确定城市人群占比,用最后购买订单时间是目标城市的人数除以该维度下总人数。
以用户编号为分组条件进行分组,取出每个分组购买时间最晚的那个订单的收件地址信息,作为当前用户的地址;统计各个城市的人数和人群占比;重复上述逻辑在各个维度上的计算,分别在店铺维度、品类维度、品牌维度、产品线维度和商品维度上重复以上计算逻辑,得到在各个维度下的区域分布数据。
作为一种可选的实施例,根据指标类型以及交易订单数据,生成目标报表,可以采用如下方式:获取大数据计算集群,其中,大数据计算集群采用以下任意之一进行资源调度:Yarn资源管理器,Mesos分布式计算框架;根据指标类型,使用大数据计算集群处理交易订单数据得到目标指标;根据目标指标,生成目标报表。
作为一种可选的实施例,在生成目标报表之后,还可以根据预定形式展示目标报表,其中,预定形式包括以下任意之一:表格,柱状图,饼状图,折线图。
图8是根据本发明可选实施方式提供的报表处理系统的结构示意图,如图8所示,下面对该报表处理系统的模块进行简要说明。
分析人员前端:供分析人员使用,分析人员可以在该前端通过选择分析的时间范围、分析的目标商品范围、分析的目标店铺、分析计算的类型以及分析任务的运行时间来定制化分析操作的运行。此外,分析人员也可以在该前端查看分析的结果报表以及分析任务的执行情况,同时也可以根据输入的查询时间范围、商品范围、店铺名称或者具体的指标维度参数,对分析结果进行查询。
分析人员控制后台:接收分析人员前端所发出的操作命令,包括但是不限于创建分析任务的操作指令、获取分析结果报表数据、根据输入参数定制化查询分析结果数据的操作。查询分析数据库之中的数据,获取诸如分析任务元数据、分析任务的计算结果以及根据前端输入的参数定制化的分析结果查询视图。发送触发分析任务开始运行的控制指令到计算模块控制后端,并根据响应判断分析任务是否已经开始执行,以及被触发的分析任务的执行元信息,例如任务编号以及任务执行所在的队列。
分析数据库:负责保存记录分析任务的元数据信息、分析任务的计算运行结果以及根据前端参数创建的定制化分析视图。
计算模块控制后端:考虑到在大部分业务场景之中,因为服务运行环境资源条件的限制,大数据客户端和服务后端不应该部署在同一个机器上,所以可以将大数据任务的客户端和服务后端分别部署在两个不同的机器之中。计算模块控制后端负责接收分析人员控制后端发送过来的触发分析任务执行计算的命令,并将上传任务到大数据计算集群之中。该模块可以实现为一个轻量级别的web服务端。
大数据计算集群:大数据计算集群为分析任务运行的具体环境,考虑到在实际业务场景之中,分析任务有可能会和其它计算任务分享计算资源,因此该集群可以引入Yarn或者Mesos进行资源调度,也可以给分析任务专门预留计算队列。运行在集群之中的分析任务从订单源数据之中读取需要的交易源数据,并将计算结果写入到分析数据库之中。计算任务可以实现为Spark任务,也可以实现为Hive计算脚本等形式。
订单源数据库:为分析任务的计算运行提供源交易订单数据,每天都会接受订单源数据采集系统提供的增量更新。
销售人员前端:商业组织在接入该分析系统的时候,用作分析的交易订单数据由商业组织的销售或者运营人员提供。销售人员可以在此前端页面查看上传的交易订单数据明细以及对原始交易订单数据之中的错误进行改正和对缺失的信息进行补充。理论上,该前端系统可以仅仅开放给分析系统的客户方人员使用。
销售人员控制后端:从采集系统之中获取上传的原始交易订单源数据的明细列表,并反馈给销售人员前端以展示。从前端获取对于原始交易订单数据的查询参数,并返回查询的结果。从前端获取对于原始交易订单数据的修改操作数据信息,并将该操作动作以操作命令的形式发送给采集系统以将操作落实到原始交易订单数据上。
交易订单数据源采集系统:定期采集客户方上传的原始交易订单数据,并将该原始数据完成汇总和清洗动作。对于在原始交易订单源数据之中的清洗过程之中所发现的异常错误数据,采集系统会通过销售人员后端在前端给出告警或者提示。对于在原始交易订单源数据之中的处理过程之中所发现的缺失信息,采集系统会通过销售人员后端在前端给出补充信息的提示。并可以根据前端的命令对缺失的信息进行补充。为了方便对于原始交易订单数据的清洗和处理,该部分数据会在采集系统之中停留一段时间,例如,该时间长度可以被设置为十六天。
交易订单数据源:客户方销售或者运营人员在该交易订单数据源上传最新的原始交易订单数据表格,该数据源可以是SFTP服务器的形式,也可以是共享文件夹。理论上,该数据源仅仅开放给客户方销售或者运营人员使用。例如,所上传的原始交易订单源数据实现为带有时间戳的表格文件。
图9是根据本发明可选实施方式提供的报表处理系统的数据流示意图,在图8所示的可选的报表处理系统的基础上,上述系统的数据流向可以包括如下几个步骤:
采集:涉及报表处理系统的订单数据源、采集系统、销售人员控制后端、销售人员前端部分,获取客户方上传的原始交易订单源数据和客户方人员通过前端页面补充缺失的交易订单信息、查看处理异常交易订单数据。
获取:涉及报表处理系统的销售人员端控制后台、采集系统,从客户方输入或者客户方上传的原始交易订单源数据中拿到信息之后,进行暂存和元数据映射,例如根据商品归属字典表查询原始订单之中的商品二维码所属的商品名称、产品线和品牌等归属信息。
准备:涉及报表处理系统的采集系统和订单源数据仓库,完成对于数据的处理和清洗,并在统一格式化后落盘到订单源数据仓库之中。
计算:涉及报表处理系统的订单源数据仓库、大数据计算集群、分析数据库、计算模块控制后端、分析人员端控制后台,完成分析报表任务的计算,该计算形式可以为定时触发任务也可以是临时触发的计算任务。
结果展示:涉及报表处理系统的分析人员前端、分析人员端控制后台,对分析结果进行可视化展示,展示的形式可以是表格、也可以是饼状图或者柱状图。
实施例2
根据本发明实施例,还提供了一种用于实施上述报表处理方法的报表处理装置,图10是根据本发明实施例提供的报表处理装置的结构框图,如图10所示,该报表处理装置包括:第一获取模块101,第二获取模块102,处理模块103,确定模块104和生成模块105,下面对该报表处理装置进行说明。
第一获取模块101,用于获取处理任务,其中,处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型;
第二获取模块102,连接于上述第一获取模块101,用于根据范围,获取原始交易订单;
处理模块103,连接于上述第二获取模块102,用于处理原始交易订单,得到预定格式的交易订单数据;
确定模块104,连接于上述处理模块103,用于根据目标报表的类型,确定指标类型;
生成模块105,连接于上述确定模块104,用于根据指标类型以及交易订单数据,生成目标报表。
此处需要说明的是,上述第一获取模块101,第二获取模块102,处理模块103,确定模块104和生成模块105对应于实施例1中的步骤S101至步骤S105,多个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。
实施例3
本发明的实施例可以提供一种计算机设备,可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。该计算机设备包括存储器和处理器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的报表处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的报表处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取处理任务,其中,处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型;根据范围,获取原始交易订单;处理原始交易订单,得到预定格式的交易订单数据;根据目标报表的类型,确定指标类型;根据指标类型以及交易订单数据,生成目标报表。
可选的,上述处理器还可以执行如下步骤的程序代码:根据指标类型以及交易订单数据,生成目标报表,包括:获取大数据计算集群,其中,大数据计算集群采用以下任意之一进行资源调度:Yarn资源管理器,Mesos分布式计算框架;根据指标类型,使用大数据计算集群处理交易订单数据得到目标指标;根据目标指标,生成目标报表。
可选的,上述处理器还可以执行如下步骤的程序代码:根据目标报表的类型,确定指标类型,包括以下任意之一:在目标报表的类型为复购产品线组合分析报表的情况下,指标类型包括:产品线组合购买人数比,复购率;在目标报表的类型为高频库存保有单位购买分析报表的情况下,指标类型包括:商品被购概率,复购率;在目标报表的类型为产品线复购时间窗分析报表的情况下,指标类型包括:产品线组合复购时间窗;在目标报表的类型为库存保有单位复购时间窗分析报表的情况下,指标类型包括:复购时间窗;在目标报表的类型为商品回购分析报表的情况下,指标类型包括:回购周期,回购率;在目标报表的类型为区域分析报表的情况下,指标类型包括:城市人群占比,乡镇人群占比。
可选的,上述处理器还可以执行如下步骤的程序代码:处理原始交易订单,得到预定格式的交易订单数据,包括:获取原始交易订单与预定格式的对应关系;根据对应关系,处理原始交易订单,得到预定格式的交易订单数据。
可选的,上述处理器还可以执行如下步骤的程序代码:在生成目标报表之后,还包括:根据预定形式展示目标报表,其中,预定形式包括以下任意之一:表格,柱状图,饼状图,折线图。
可选的,上述处理器还可以执行如下步骤的程序代码:创建数据库,其中,数据库包括以下任意之一:MySQL数据库、PostgreSQL数据库,Clickhouse数据库;使用数据库存储以下至少之一:处理任务,交易订单数据,目标报表。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种非易失性存储介质。可选地,在本实施例中,上述非易失性存储介质可以用于保存上述实施例1所提供的报表处理方法所执行的程序代码。
可选地,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:获取处理任务,其中,处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型;根据范围,获取原始交易订单;处理原始交易订单,得到预定格式的交易订单数据;根据目标报表的类型,确定指标类型;根据指标类型以及交易订单数据,生成目标报表。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据指标类型以及交易订单数据,生成目标报表,包括:获取大数据计算集群,其中,大数据计算集群采用以下任意之一进行资源调度:Yarn资源管理器,Mesos分布式计算框架;根据指标类型,使用大数据计算集群处理交易订单数据得到目标指标;根据目标指标,生成目标报表。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:根据目标报表的类型,确定指标类型,包括以下任意之一:在目标报表的类型为复购产品线组合分析报表的情况下,指标类型包括:产品线组合购买人数比,复购率;在目标报表的类型为高频库存保有单位购买分析报表的情况下,指标类型包括:商品被购概率,复购率;在目标报表的类型为产品线复购时间窗分析报表的情况下,指标类型包括:产品线组合复购时间窗;在目标报表的类型为库存保有单位复购时间窗分析报表的情况下,指标类型包括:复购时间窗;在目标报表的类型为商品回购分析报表的情况下,指标类型包括:回购周期,回购率;在目标报表的类型为区域分析报表的情况下,指标类型包括:城市人群占比,乡镇人群占比。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:处理原始交易订单,得到预定格式的交易订单数据,包括:获取原始交易订单与预定格式的对应关系;根据对应关系,处理原始交易订单,得到预定格式的交易订单数据。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在生成目标报表之后,还包括:根据预定形式展示目标报表,其中,预定形式包括以下任意之一:表格,柱状图,饼状图,折线图。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:创建数据库,其中,数据库包括以下任意之一:MySQL数据库、PostgreSQL数据库,Clickhouse数据库;使用数据库存储以下至少之一:处理任务,交易订单数据,目标报表。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种报表处理方法,其特征在于,包括:
获取处理任务,其中,所述处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型;
根据所述范围,获取原始交易订单;
处理所述原始交易订单,得到预定格式的交易订单数据;
根据所述目标报表的类型,确定指标类型;
根据所述指标类型以及所述交易订单数据,生成所述目标报表。
2.根据权利要求1所述的方法,其特征在于,根据所述指标类型以及所述交易订单数据,生成所述目标报表,包括:
获取大数据计算集群,其中,所述大数据计算集群采用以下任意之一进行资源调度:Yarn资源管理器,Mesos分布式计算框架;
根据所述指标类型,使用所述大数据计算集群处理所述交易订单数据得到目标指标;
根据所述目标指标,生成所述目标报表。
3.根据权利要求1所述的方法,其特征在于,根据所述目标报表的类型,确定指标类型,包括以下任意之一:
在所述目标报表的类型为复购产品线组合分析报表的情况下,所述指标类型包括:产品线组合购买人数比,复购率;
在所述目标报表的类型为高频库存保有单位购买分析报表的情况下,所述指标类型包括:商品被购概率,复购率;
在所述目标报表的类型为产品线复购时间窗分析报表的情况下,所述指标类型包括:产品线组合复购时间窗;
在所述目标报表的类型为库存保有单位复购时间窗分析报表的情况下,所述指标类型包括:复购时间窗;
在所述目标报表的类型为商品回购分析报表的情况下,所述指标类型包括:回购周期,回购率;
在所述目标报表的类型为区域分析报表的情况下,所述指标类型包括:城市人群占比,乡镇人群占比。
4.根据权利要求1所述的方法,其特征在于,处理所述原始交易订单,得到预定格式的交易订单数据,包括:
获取所述原始交易订单与所述预定格式的对应关系;
根据所述对应关系,处理所述原始交易订单,得到所述预定格式的交易订单数据。
5.根据权利要求1所述的方法,其特征在于,在生成所述目标报表之后,还包括:根据预定形式展示所述目标报表,其中,所述预定形式包括以下任意之一:表格,柱状图,饼状图,折线图。
6.根据权利要求1至5中任一项所述的方法,其特征在于,还包括:
创建数据库,其中,所述数据库包括以下任意之一:MySQL数据库、PostgreSQL数据库,Clickhouse数据库;
使用所述数据库存储以下至少之一:所述处理任务,所述交易订单数据,所述目标报表。
7.一种报表处理装置,其特征在于,包括:
第一获取模块,用于获取处理任务,其中,所述处理任务携带有以下信息:待处理的交易订单的范围,目标报表的类型;
第二获取模块,用于根据所述范围,获取原始交易订单;
处理模块,用于处理所述原始交易订单,得到预定格式的交易订单数据;
确定模块,用于根据所述目标报表的类型,确定指标类型;
生成模块,用于根据所述指标类型以及所述交易订单数据,生成所述目标报表。
8.一种报表处理系统,其特征在于,所述报表处理系统包括所述报表处理装置。
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至6中任意一项所述报表处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述报表处理方法。
CN202110475916.2A 2021-04-29 2021-04-29 数据处理方法、装置、非易失性存储介质及处理器 Pending CN113139835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110475916.2A CN113139835A (zh) 2021-04-29 2021-04-29 数据处理方法、装置、非易失性存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110475916.2A CN113139835A (zh) 2021-04-29 2021-04-29 数据处理方法、装置、非易失性存储介质及处理器

Publications (1)

Publication Number Publication Date
CN113139835A true CN113139835A (zh) 2021-07-20

Family

ID=76816403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110475916.2A Pending CN113139835A (zh) 2021-04-29 2021-04-29 数据处理方法、装置、非易失性存储介质及处理器

Country Status (1)

Country Link
CN (1) CN113139835A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516536A (zh) * 2021-07-21 2021-10-19 福建天晴数码有限公司 一种分布式处理订单大数据的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597974A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 报表生成方法及装置
CN110706049A (zh) * 2018-07-10 2020-01-17 北京京东尚科信息技术有限公司 数据处理方法及装置
CN111797604A (zh) * 2020-06-30 2020-10-20 深圳壹账通智能科技有限公司 报表生成方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597974A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 报表生成方法及装置
CN110706049A (zh) * 2018-07-10 2020-01-17 北京京东尚科信息技术有限公司 数据处理方法及装置
CN111797604A (zh) * 2020-06-30 2020-10-20 深圳壹账通智能科技有限公司 报表生成方法、装置、设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516536A (zh) * 2021-07-21 2021-10-19 福建天晴数码有限公司 一种分布式处理订单大数据的方法及系统

Similar Documents

Publication Publication Date Title
CN107590675B (zh) 一种基于大数据的用户购物行为识别方法、储存设备及移动终端
US11886472B2 (en) Graphical user interface for a database system
US20060195370A1 (en) Inventory management method, system, and computer program
CN103164804A (zh) 一种个性化的信息推送方法及装置
CN107451918B (zh) 资产数据管理方法及装置
US10325274B2 (en) Trend data counter
US20210109906A1 (en) Clustering model analysis for big data environments
JP6683550B2 (ja) 情報分析装置および情報分析方法
US20220414579A1 (en) Salesperson evaluation apparatus, salesperson evaluation method, and salesperson evaluation program
WO2024109558A1 (zh) 推荐数据的处理方法、推荐方法、电子设备及存储介质
CN108629467B (zh) 一种样品信息处理方法及系统
US20210312259A1 (en) Systems and methods for automatic product usage model training and prediction
CN113139835A (zh) 数据处理方法、装置、非易失性存储介质及处理器
CN108205771B (zh) 生成营销活动报告的方法、装置及计算机终端
CN114493673A (zh) 基于用户行为的商品改价方法、系统、装置和存储介质
CN107169845B (zh) 一种商户属性查询方法、装置及服务器
US20170213228A1 (en) System and method for grouped analysis via geographically distributed servers
CN108537654B (zh) 客户关系网络图的渲染方法、装置、终端设备及介质
US20210019781A1 (en) Omnichannel multivariate testing platform
CN111311331A (zh) 一种rfm分析方法
JP4664847B2 (ja) 過誤発注防止方法
CN109919470B (zh) 客资信息的分发方法及装置
CN117455579B (zh) 商品推荐干预方法、装置以及介质和设备
CN109408584A (zh) 报表显示方法、装置、计算机装置及存储介质
US10332127B2 (en) Trend data aggregation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination