CN111444292B - 快消品数据处理方法、装置、电子设备及存储介质 - Google Patents
快消品数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111444292B CN111444292B CN202010290683.4A CN202010290683A CN111444292B CN 111444292 B CN111444292 B CN 111444292B CN 202010290683 A CN202010290683 A CN 202010290683A CN 111444292 B CN111444292 B CN 111444292B
- Authority
- CN
- China
- Prior art keywords
- topic
- data
- field information
- domains
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 claims description 32
- 235000013410 fast food Nutrition 0.000 claims description 21
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 230000018109 developmental process Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000002453 shampoo Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提出一种快消品数据处理方法、装置、电子设备及存储介质。其中,上述快消品数据处理方法包括:获取待存储的事实数据;从所述事实数据中获取与各个所述主题域对应的所述字段信息更新所述主题域对应的存储表格;依据不同的所述主题域之间的所述关联字段,将存储于不同所述主题域对应的存储表格且属于同一所述事实数据的所述字段信息关联,以便生成输出报表。本方案使存储的数据之间的横向关联丰富,如此生成的输出报表之间不再互相孤立,缩短开发周期,能够更加灵活地适配。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种快消品数据处理方法、装置、电子设备及存储介质。
背景技术
在传统快消品企业数字化转型的背景下,需要挖掘分析的数据日益复杂,从海量的数据中高效、快速地集成并抽象出有价值的数据并进行可视化分析(比如,生成报表)愈发重要。
相关技术中,将所需输出的报表按照主题分类,每个主题需要预先配置一个或者多个数据模型。此外,数据模型被描述成数据库中的一张包含N列的宽表。如此,当需要生成输出报表时,需从该主题对应的数据模型中利用复杂算法抽取数据。显然,上述方式相对死板且实现抽取数据的算法复杂,限制了开发速度及对业务需求的灵活适配。
发明内容
有鉴于此,本发明的目的在于提供一种快消品数据处理方法、装置、电子设备及存储介质。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,实施例提供一种快消品数据处理方法,应用于电子设备,所述电子设备预先设置有多个主题域,不同所述主题域之间具有关联字段;所述快消品数据处理方法包括:
获取待存储的事实数据;
从所述事实数据中获取与各个所述主题域对应的所述字段信息更新所述主题域对应的存储表格;
依据不同的所述主题域之间的所述关联字段,将存储于不同所述主题域对应的存储表格且属于同一所述事实数据的所述字段信息关联,以便生成输出报表。
第二方面,实施例提供一种快消品数据处理装置,应用于电子设备,所述电子设备预先设置有多个主题域,不同所述主题域之间具有关联字段;所述快消品数据处理装置包括:
获取模块,用于获取待存储的事实数据;
更新模块,用于从所述事实数据中获取与各个所述主题域对应的所述字段信息更新所述主题域对应的存储表格;
关联模块,用于依据不同的所述主题域之间的所述关联字段,将存储于不同所述主题域对应的存储表格且属于同一所述事实数据的所述字段信息关联,以便生成输出报表。
第三方面,实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式任一所述的方法。
第四方面,实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的方法。
相较于现有技术,本发明实施例提供的快消品数据处理方法所应用的电子设备预先设置有多个主题域,不同所述主题域之间具有关联字段,在获取待存储的事实数据之后,从事实数据中获取与各个主题域对应的字段信息更新主题域对应的存储表格,同时,依据不同的主题域之间的所述关联字段,将存储于不同所述主题域对应的存储表格且属于同一所述事实数据的所述字段信息关联,使数据的横向链接逐渐丰富,如此生成的输出报表之间不再互相孤立,缩短开发周期,能够更加灵活地适配。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的电子设备的示意图。
图2示出了本发明实施例提供的快消品数据处理方法的步骤流程图。
图3为图2中步骤S101的子步骤流程图。
图4为得到原始数据的示例图。
图5示出了本发明实施例提供的快消品数据处理装置的示意图。
图标:100-电子设备;101-存储器;102-通信接口;103-处理器;104-总线;200-快消品数据处理装置;201-获取模块;202-更新模块;203-关联模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
快消品行业是指消费频率高、使用时限短、拥有广泛的消费群体、对于消费的便利性要求很高的商品销售行业。在传统快消品企业数字化转型的背景下,需要挖掘分析的数据日益复杂,从海量的数据中高效、快速地集成并抽象出有价值的数据并进行可视化分析愈发重要。采用报表向用户展示有价值的数据是常见的方式,这就使得需求方对于报表的要求不断提高。逐渐地,目前报表已经成为快消品企业经营管理过程中必不可少的工具。
相关技术中,基于数据模型动态生成报表。具体地,通过先把报表按照主题分类,每个主题可分为一个或者多个数据模型,每个数据模型可被描述成数据库中的一张包含N列的宽表。在此基础上,定义好查询字段方案、查询模型、查询报表后进行执行,在服务端生成报表模型,并将生成的报表模型上载至报表服务器,最终客户端访问报表服务器,根据已存储的报表模型定制即时报表,并将定制完成的即时报表存储至报表服务器。
相关技术所提供的方法无法同时满足以下所有需求:
1、模型开发,需减少开发和后续的维护成本。目前最多的方法是开发人员针对不同报表进行不同开发,工作量巨大,并且可复用性很差。
2、错误数据,需要能够更正。例如原始数据被污染等原因导致结果数据有误,需要支持重新出发运算覆盖错误结果或者直接支持被授权者进行手动的更新。一般传统的商业智能报表由于是直接调用原始数据计算后直接呈现的结果,而如果原始数据出现了谬误,是无法直接更正数据的。
3、复杂多变的业务需要和周期性自动化报表相对固定的逻辑之间不可调和的矛盾。不论是可以定时运行的固定化报表,还是必须要人工导入外部参数计算的需求,还是临时的灵活计算报表需求,都需要尽可能减少手动操作,从而最大可能的减少人工误差进而保证计算结果的准确性。传统的方法是经过一个开发周期完成报表开发后每天或每月定时运行,从而获取到最新的统计结果。现实中部分报表需求,从提出需求到需要数据的时间非常短,通常也无法通过已有报表系统直接满足,这时只能通过开发人员手动查询数据库后手动生成报表结果提供线下文件报表。
为了解决相关技术无法满足上述需求的问题,本发明实施例提供了一种快消品数据处理方法、装置、电子设备及存储介质。
请参照图1,图1示出了本发明实施例提供的电子设备100的方框示意图。电子设备100可以是,但不限于个人电脑(personal computer,PC)、服务器、分布式部署的计算机等等。可以理解的是,电子设备100也不限于物理服务器,还可以是物理服务器上的虚拟机、基于云平台上构建的虚拟机等能提供与所述服务器或者虚拟机有相同功能的计算机。
电子设备100的操作系统可以是,但不限于,Windows系统、Linux系统等。上述电子设备100包括存储器101、通信接口102、处理器103和总线104,所述存储器101、通信接口102和处理器103通过总线104连接,处理器103用于执行存储器101中存储的可执行模块,例如计算机程序。其中,存储器101可能包含高速随机存取存储器(RAM:Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口(可以是有线或者无线)实现该电子设备与外部设备之间的通信连接。
总线104可以是ISA总线、PCI总线或EISA总线等。图1中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器101用于存储程序,例如图5所示的快消品数据处理装置200。该快消品数据处理装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述电子设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器103在接收到执行指令后,执行所述程序以实现本发明上述实施例揭示的快消品数据处理方法。
处理器103可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器103中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
上述电子设备100中预先设置有多个主题域,不同主题域之间具有关联字段。
在一些实施例中,针对快消品行业的主题域包括用户主题域、活动主题域、渠道主题域及产品主题域。可以理解地,消费群体是快消品行业所重点关注的对象,也是对于快消品行业来说人群分析非常重要,因此,对应的设置用户主题域。活动是快消品行业进行营销最有利的手段,为了便于分析出最利于快消品的活动,对应的设置活动主题域。随着现在线下、线下等快消品渠道的多样化,渠道主题域的设置也是满足快消品行业需求的。最后,产品是快消品行业的承载,因此,还需要设置产品主题域。
请参考图2,图2示出了本发明实施例提供的快消品数据处理方法。可选地,上述快消品数据处理方法可以应用于电子设备100。如图3所示,上述快消品数据处理方法可以包括以下步骤:
步骤S101,获取待存储的事实数据。
上述事实数据可以是用于表征快消品记录的有效的原始数据。上述快消品记录可以理解为记录消费者一次消费行为的数据。比如,张三购买了一瓶洗发水。
在一些实施例中,上述原始数据可以基于上述快消品记录生成。上述原始数据包括多个字段信息。预先定义各个字段所对应的内容类别,也即,同一个原始数据中不同的字段信息所对应的内容不相同。可选地,上述基于上述快消品记录生成原始数据可以从一条快消品记录中获取预先定义的各个字段所对应的内容信息,从而得到多个字段信息,在基于得到的多个字段信息生成一条对应的原始数据。
可选地,上述多个字段信息可以包括与用户相关的内容、与渠道相关的内容、与活动相关的内容及与产品相关的内容等之一或之间的组合。
可以理解地,上述与用户相关的内容可以是用于描述消费群体的数据,比如,可以是用户ID、会员ID、注册时间、注册品牌、注册渠道、会员等级变更、会员积分、会员偏好等。
可以理解地,上述与渠道相关的内容可以是用于描述消费者获得对应的消费品的方式。比如,可以是线上门店编号、线下门店编号、专柜id等。
可以理解地,上述与活动相关的内容可以是用于促销活动的数据。比如,活动时间、活动ID、参与活动的会员ID。可选地,上述活动ID可以是设计活动时根据设置的活动标识、活动时间、活动覆盖人群及活动类型等数据生成的特征数据,上述特征数据具有唯一性。
可以理解地,上述与产品相关的内容可以是用于描述快消品所对应的消费品。比如,产品的名称、品牌、产品线、产品分类等信息。
在一些实施例中,上述原始数据可以是由第三方的数据源直接提供。电子设备100得到原始数据后,将其存储于原始数据层中。需要说明的是,存储于原始数据层的数据不会轻易被修改。上述第三方的数据源可以包括多个网络销售平台、线下门店系统、专柜系统等。可以理解地,第三方的数据源需基于已有的快消品记录,按照预先定义的字段,生成原始数据,并发送给电子设备100。
基于以上,在本发明实施例中,如图3所示,上述步骤S101可以包括以下子步骤:
子步骤S101-1,接收不同数据源提供的原始数据。
在一些实施例中,可以是由数据源主动定时提供原始数据,还可以是电子设备100定期从不同的数据源拉取原始数据。例如,图4中所示,上述电子设备100获得原始数据的方式可以包括以下至少一种:
1)数据供应方(也即,数据源)将原始数据上传事件中心(EventHub)。上述EventHub是微软云服务Azure的一个产品,是分布式大数据流平台。然后由流处理代理(EHagent)从EventHub拉去原始数据,在经过kafka集群和Flink集群后,一方面对原始数据存储,另一方面对原始数据进行实时的抽取、转换及加载(Extract-Transform-Load,ETL)并用于更新Greenplum数据库中存储的各个主题域对应的存储表格。
2)数据供应方将原始数据上传云数据库(TableStorage),服务定时从TableStorage拉取原始数据并存储于Hadoop分布式文件系统(HDFS),以便对原始数据进行实时的抽取、转换及加载(Extract-Transform-Load,ETL)并用于更新Greenplum数据库中存储的各个主题域对应的存储表格。
3)数据供应方将原始数据通过SFTP协议发送到HDFS,以便对原始数据进行实时的抽取、转换及加载(Extract-Transform-Load,ETL)并用于更新Greenplum数据库中存储的各个主题域对应的存储表格。
可以理解地,上述举例中获取原始数据的方式可以根据数据源传输数据的方式灵活选择,对此不做限定。还可以理解地,在上述方式2和3中虽然要基于存储于HDFS的原始数据进行ETL处理,但是不会改变HDFS中的原始数据。
基于以上举例可知,本发明实施例提供的快消品数据处理方法可以对接了无数个数据源,每个数据源会被根据业务需求制定不同的ETL规则,通过流处理(EH)/批处理(batch)对接过来,最终进入不同的主题域。数据源和主题域也不是一对一的关系,单个数据源的数据会流入多个主题域,而单个主题域也会汇聚不同来源的数据。
子步骤S101-2,对原始数据进行清洗处理及校验处理。
在本发明实施例中,可以是先对原始数据进行清洗处理,再进行校验处理。还可以是先对原始数据进行校验处理,再进行清洗处理。无论采用何种方式,其目的都在于筛除原始数据中的脏数据,以便于得到合法的事实数据。上述脏数据可以是重复、无效、非法的妨碍分析的数据。例如,检验流水单号是否重复,检验原始数据中提及的消费者是否在黑名单中,检验原始数据是否存在退货(全部退货或部分退货)、检验原始数据是否为异常的刷单数据或者检验原始数据是否存在异常值等,如果原始数据在检验中满足以上任一一项,则对该原始数据进行清洗处理,清洗的方式可以是完全删除也可以是部分删除(比如,存在部分退货的原始数据,则将原始数据中与已退货消费品相关的字段信息删除)。再校验原始数据的SKU是否有效,各字段信息是否完整等,如果原始数据在校验中满足以上所有项,则将判定上述原始数据是合法、有效的。
子步骤S101-3,将通过清洗处理、校验处理得到的数据按照对应的时间信息进行分区后得到事实数据。
在一些实施例中,除了对原始数据进行清洗处理、校验处理之外,还可以对通过清洗处理、校验处理得到的数据按照对应的时间信息进行分区,在分区之后,将原始数据保存在事实数据层,表示这是一条合法有效的事实数据。
步骤S102,从事实数据中获取与各个主题域对应的字段信息更新主题域对应的存储表格。
在一些实施例中,可以是对每个事实数据在每个主题域所对应的维度下,按照不同的业务意义进行转化,拆分,合并等操,以得到与各个主题域对应的字段信息。可以理解地,用户域的核心是人的属性,活动域的核心是各种活动的市场反馈,渠道域的核心是不同地区和不同渠道体系的销售和发货数据,产品域的核心是不同产品在市场上的反馈。
在一些实施例中,事实数据包括多个字段信息,上述多个字段信息对应这多个维度的属性。上述具有与用户相关的内容的字段信息属于用户维度的属性,上述具有与渠道相关的内容的字段信息属于渠道维度的属性,上述具有与产品相关的内容的字段信息属于产品维度的属性,上述具有与活动相关的内容的字段信息属于活动维度的属性。在一些实施例中,同一字段信息可以是属于不同的维度的属性。比如,会员ID既可以是属于用户维度的属性,也可以是属于活动维度的属性。
在一些实施例中,可以将事实数据中用户维度的属性所对应的字段信息作为与用户主题域对应的字段信息,将事实数据中活动维度的属性所对应的字段信息作为与活动主题域对应的字段信息,将事实数据中渠道维度的属性所对应的字段信息作为与渠道主题域对应的字段信息,将事实数据中产品维度的属性所对应的字段信息作为与产品主题域对应的字段信息。
在一些实施例中,得到主题域对应的字段信息,利用字段信息更新该主题域对应的存储表格,作为一种实施方式,利用字段信息更新该主题域对应的存储表格的方式可以是:
(1)依据每个主题域从事实数据中获取匹配的字段信息。
(2)从匹配的字段信息中查找与主题域的关键字段对应的目标字段信息。
在本发明实施例中,上述关键字段是预先与主题域对应设置的。上述关键字段可以从预先定义的字段中选择,上述关键字段可以是与该主题域对应的字段中不可或缺的。比如,用户主题域的关键字段可以是内容应为会员ID的字段,渠道主题域的关键字段可以是内容应为门店编码的字段,活动主题域的关键字段可以是内容应为活动ID的字段及产品主题域的关键字段可以是内容应为产品线的字段。
(3)依据目标字段信息,将匹配的字段信息与主题域的存储表格中具有相同的目标字段信息的历史数据关联,并存储。
比如,原本用户主题域的存储表格中记录一条信息表征“会员ID为123的用户,购买了一瓶洗发水”,得到新的事实数据表征会员ID为123的用户,购物积分增加2分。那可以从新的事实数据中得到的与用户主题域对应的字段信息包括:内容为“123”的会员ID字段信息、内容为“2分”的新增购物积分字段信息。其中,内容为“123”的会员ID字段信息为目标字段信息,因此,将内容为“123”的会员ID字段信息、内容为“2分”的新增购物积分字段信息与用户主题域的存储表格中表征“会员ID为123的用户”的信息关联,并存储。若用户主题域的存储表格中原表征“会员ID为123的用户”的信息所对应的购物积分为10分,那么关联后对应的购物积分更新为12分。
由上例可见,不仅能够得到会员ID123所指向的用户的变化(购物积分从10分变为12分),同时没有覆盖历史数据,利于实现数据的幂等化。如此,若是数据结构错误,或者历史数据存在异常可以快速回滚到错误发生前的状态。
可以理解地,基于事实数据层的事实数据,进行转换、拆分及合并得到的与各个主题域对应的字段信息均存储于抽象数据层中。
步骤S103,依据不同的主题域之间的关联字段,将存储于不同主题域对应的存储表格且属于同一事实数据的字段信息关联,以便生成输出报表。
在一些实施例中,上述关联字段可以也是从预先定义的字段中选出,其能够在对应的两个主题域之间建立关联。比如,用户主题域和活动主题域之间的关联字段是内容应为会员ID的字段。从同一事实数据中得到并存储于用户主题域的存储表格的字段信息包括会员ID为123、会员等级为2级,同时从同一事实数据中得到并存储于活动主题域的存储表格的字段信息包括会员ID为123、参与活动ID为A,则将用户主题域的存储表格中会员ID为123与活动主题域的存储表格中会员ID为123关联。
当然,若是两个主题域之间无直接的关联关系(即找不到直接的关联字段),那么可以根据其他的主题域建立上述两个主题域之间的间接关联关系,从而确定出关联字段。显然此时,关联字段可以包括多个字段。比如,主题域A与主题域B之间的无直接作为关联字段的字段,但是主题域A与主题域C之间具有关联字段1,主题域C与主题域B之间具有关联字段2,那么可以根据关联字段1和关联字段2确定主题域A与主题域B之间的关联字段。
可以理解地,随着各个主题域对应的存储表格的建立,所有的输出报表开发都是以某一个主题域为主要数据源,兼顾其他主题域,从而展示客户所需要的一个市场剖面。由于属于同一事实数据且存储于不同主题域的字段信息之间建立有关联,因此,可以直接利用抽取数据的SQL抽取出作为主要数据源的主题域中对应的数据及所兼顾的其他主题域中对应的数据,并基于抽取到的数据生成输出报表。可以理解地,大数据组件GreenPlum和Postgres都是支持PostgreSQL接口的。在这些新组件的支持下,系统就可以实时的返回业务提交的任何查询请求。或者说将客户认可的业务逻辑快速固化成新的报表逻辑。在一些实施例中,上述快消品数据处理方法还可以包括步骤:分别存储原始数据、清洗处理后得到的数据及校验处理后得到的数据。通过对各个处理阶段前后的数据进行存储,保证了数据仓库的完备性。可选地,可以在清洗处理前对原始数据进行备份,在清洗处理后对清洗后的原始数据再次备份,在校验处理后,对校验得到的数据进行备份。
可以理解地,利用业务提交的查询请求即可从抽象数据层中获取到结果数据层所需的数据,以便基于结果数据层的数据生成输出报表。
基于以上,可见本发明实施例中所设计的数据仓库分为四层,其分别是原始数据层,事实数据层,抽象数据层和结果数据层。
在一些实施例中,还可以每天对主题域对应的数据进行备份,即便问题是出在一个月前或者三个月前,也有办法应对。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种快消品数据处理装置200的实现方式,可选地,该快消品数据处理装置200可以采用上述图1所示的电子设备100的器件结构。进一步地,请参阅图5,图5为本发明实施例提供的一种快消品数据处理装置200的功能模块图。需要说明的是,本实施例所提供的快消品数据处理装置200,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该快消品数据处理装置200包括:获取模块201、更新模块202及关联模块203。
获取模块201,用于获取待存储的事实数据。
在一些发明实施例中,上述步骤S101可以由获取模块201执行。
更新模块202,用于从所述事实数据中获取与各个所述主题域对应的所述字段信息更新所述主题域对应的存储表格。
在一些发明实施例中,上述步骤S102可以由更新模块202执行。
关联模块203,用于依据不同的所述主题域之间的所述关联字段,将存储于不同所述主题域对应的存储表格且属于同一所述事实数据的所述字段信息关联,以便生成输出报表。
在一些发明实施例中,上述步骤S103可以由关联模块203执行。
可选地,上述更新模块202包括:
获取子模块,用于依据每个所述主题域从所述事实数据中获取匹配的所述字段信息。
查找子模块,用于从匹配的所述字段信息中查找与所述主题域的关键字段对应的目标字段信息。
存储子模块,用于依据所述目标字段信息,将匹配的所述字段信息与所述主题域的存储表格中具有相同的所述目标字段信息的历史数据关联,并存储。
可选地,上述多个主题域包括:用户主题域、活动主题域、渠道主题域及产品主题域。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器101中或固化于该电子设备100的操作系统(Operating System,OS)中,并可由图1中的处理器103执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器101中。
综上所述,本发明实施例提供了一种快消品数据处理方法、装置、电子设备及存储介质。其中,上述快消品数据处理方法包括:获取待存储的事实数据;从所述事实数据中获取与各个所述主题域对应的所述字段信息更新所述主题域对应的存储表格;依据不同的所述主题域之间的所述关联字段,将存储于不同所述主题域对应的存储表格且属于同一所述事实数据的所述字段信息关联,以便生成输出报表。数据的横向链接逐渐丰富,如此生成的输出报表之间不再互相孤立,缩短开发周期,能够更加灵活地适配。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种快消品数据处理方法,其特征在于,应用于电子设备,所述电子设备预先设置有多个主题域,不同所述主题域之间具有关联字段;所述快消品数据处理方法包括:
获取待存储的事实数据;
从所述事实数据中获取与各个所述主题域对应的字段信息更新所述主题域对应的存储表格,各个所述主题域对应的所述字段信息为所述事实数据在各个所述主题域所对应的维度下,按照不同的业务意义进行转化、拆分、合并得到的与各个所述主题域对应的字段信息;
依据不同的所述主题域之间的所述关联字段,将存储于不同所述主题域对应的存储表格且属于同一所述事实数据的所述字段信息关联,以便生成输出报表,当两个不同的所述主题域之间存在直接关联字段,则利用直接关联字段将两个不同的主题域进行关联,当两个不同的所述主题域之间不存在直接关联字段、且两个主题域均与同一个第三主题域存在直接关联字段,则利用与同一个第三主题域的直接关联字段将两个不同主题域进行关联。
2.根据权利要求1所述的快消品数据处理方法,其特征在于,所述从所述事实数据中获取与各个所述主题域对应的所述字段信息更新所述主题域对应的存储表格的步骤包括:
依据每个所述主题域从所述事实数据中获取匹配的所述字段信息;
从匹配的所述字段信息中查找与所述主题域的关键字段对应的目标字段信息;
依据所述目标字段信息,将匹配的所述字段信息与所述主题域的存储表格中具有相同的所述目标字段信息的历史数据关联,并存储。
3.根据权利要求1所述的快消品数据处理方法,其特征在于,所述多个主题域包括:用户主题域、活动主题域、渠道主题域及产品主题域。
4.根据权利要求1所述的快消品数据处理方法,其特征在于,所述获取待存储的事实数据的步骤包括:
接收不同数据源提供的原始数据;
对所述原始数据进行清洗处理及校验处理;
将通过清洗处理、校验处理得到的数据按照对应的时间信息进行分区后得到所述事实数据。
5.根据权利要求4所述的快消品数据处理方法,其特征在于,所述快消品数据处理方法还包括:
分别存储所述原始数据、所述清洗处理后得到的数据及所述校验处理后得到的数据。
6.一种快消品数据处理装置,其特征在于,应用于电子设备,所述电子设备预先设置有多个主题域,不同所述主题域之间具有关联字段;所述快消品数据处理装置包括:
获取模块,用于获取待存储的事实数据;
更新模块,用于从所述事实数据中获取与各个所述主题域对应的字段信息更新所述主题域对应的存储表格,各个所述主题域对应的所述字段信息为所述事实数据在各个所述主题域所对应的维度下,按照不同的业务意义进行转化、拆分、合并得到的与各个所述主题域对应的字段信息;
关联模块,用于依据不同的所述主题域之间的所述关联字段,将存储于不同所述主题域对应的存储表格且属于同一所述事实数据的所述字段信息关联,以便生成输出报表,当两个不同的所述主题域之间存在直接关联字段,则利用直接关联字段将两个不同的主题域进行关联,当两个不同的所述主题域之间不存在直接关联字段、且两个主题域均与同一个第三主题域存在直接关联字段,则利用与同一个第三主题域的直接关联字段将两个不同主题域进行关联。
7.根据权利要求6所述的快消品数据处理装置,其特征在于,所述更新模块包括:
获取子模块,用于依据每个所述主题域从所述事实数据中获取匹配的所述字段信息;
查找子模块,用于从匹配的所述字段信息中查找与所述主题域的关键字段对应的目标字段信息;
存储子模块,用于依据所述目标字段信息,将匹配的所述字段信息与所述主题域的存储表格中具有相同的所述目标字段信息的历史数据关联,并存储。
8.根据权利要求7所述的快消品数据处理装置,其特征在于,所述多个主题域包括:用户主题域、活动主题域、渠道主题域及产品主题域。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现权利要求1-5任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010290683.4A CN111444292B (zh) | 2020-04-14 | 2020-04-14 | 快消品数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010290683.4A CN111444292B (zh) | 2020-04-14 | 2020-04-14 | 快消品数据处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444292A CN111444292A (zh) | 2020-07-24 |
CN111444292B true CN111444292B (zh) | 2023-11-03 |
Family
ID=71652100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010290683.4A Active CN111444292B (zh) | 2020-04-14 | 2020-04-14 | 快消品数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444292B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112419004B (zh) * | 2020-12-07 | 2024-02-02 | 恩亿科(北京)数据科技有限公司 | 全渠道订单可配置接入的方法、系统、设备及存储介质 |
CN114610728A (zh) * | 2021-12-24 | 2022-06-10 | 亚信科技(中国)有限公司 | 一种实时处理数据的方法、装置、设备、介质及产品 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2231226A (en) * | 1989-04-27 | 1990-11-07 | Sony Corp | Motion dependent video signal processing |
EP1168841A2 (en) * | 2000-06-29 | 2002-01-02 | Sony Corporation | Image processing apparatus and method and signal switching output device |
CN1756147A (zh) * | 2004-09-30 | 2006-04-05 | 微软公司 | 通过边缘电子邮件服务器实施权限管理 |
CN108268565A (zh) * | 2017-01-04 | 2018-07-10 | 北京京东尚科信息技术有限公司 | 基于数据仓库处理用户浏览行为数据的方法及系统 |
CN109300012A (zh) * | 2018-10-19 | 2019-02-01 | 中国平安人寿保险股份有限公司 | 产品数据推送方法、装置、计算机设备和存储介质 |
CN109542886A (zh) * | 2018-11-23 | 2019-03-29 | 山东浪潮云信息技术有限公司 | 一种面向政府数据的数据质量检测方法 |
CN109657214A (zh) * | 2018-09-27 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 报表生成方法、装置、终端及存储介质 |
CN109670843A (zh) * | 2018-11-12 | 2019-04-23 | 平安科技(深圳)有限公司 | 投诉业务的数据处理方法、装置、计算机设备及存储介质 |
CN110533477A (zh) * | 2019-09-03 | 2019-12-03 | 互动创想(厦门)数字科技有限公司 | 一种基于大数据的智能分析方法及系统 |
CN110853715A (zh) * | 2019-09-23 | 2020-02-28 | 万达信息股份有限公司 | 医疗数据可视化的处理方法、系统、存储介质及电子设备 |
-
2020
- 2020-04-14 CN CN202010290683.4A patent/CN111444292B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2231226A (en) * | 1989-04-27 | 1990-11-07 | Sony Corp | Motion dependent video signal processing |
EP1168841A2 (en) * | 2000-06-29 | 2002-01-02 | Sony Corporation | Image processing apparatus and method and signal switching output device |
CN1756147A (zh) * | 2004-09-30 | 2006-04-05 | 微软公司 | 通过边缘电子邮件服务器实施权限管理 |
CN108268565A (zh) * | 2017-01-04 | 2018-07-10 | 北京京东尚科信息技术有限公司 | 基于数据仓库处理用户浏览行为数据的方法及系统 |
CN109657214A (zh) * | 2018-09-27 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 报表生成方法、装置、终端及存储介质 |
CN109300012A (zh) * | 2018-10-19 | 2019-02-01 | 中国平安人寿保险股份有限公司 | 产品数据推送方法、装置、计算机设备和存储介质 |
CN109670843A (zh) * | 2018-11-12 | 2019-04-23 | 平安科技(深圳)有限公司 | 投诉业务的数据处理方法、装置、计算机设备及存储介质 |
CN109542886A (zh) * | 2018-11-23 | 2019-03-29 | 山东浪潮云信息技术有限公司 | 一种面向政府数据的数据质量检测方法 |
CN110533477A (zh) * | 2019-09-03 | 2019-12-03 | 互动创想(厦门)数字科技有限公司 | 一种基于大数据的智能分析方法及系统 |
CN110853715A (zh) * | 2019-09-23 | 2020-02-28 | 万达信息股份有限公司 | 医疗数据可视化的处理方法、系统、存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
"Data retrieval for client projects:matching data onto an ontology map to produce a relevance assessment";Timothy Banach et al;《2016 IEEE systems and information engineering design symposium(SIEDS)》;全文 * |
"基于ETL的科技管理数据集成技术研究";徐晨阳;《中国优秀硕士学位论文全文数据库(电子期刊)》(第7期);第I138-775页 * |
"基于规约编码和缓存的智能用电数据处理技术";陶晓峰;《江苏电机工程》;第31卷(第1期);第56-57、60页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111444292A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220027943A1 (en) | Adaptive lead generation for marketing | |
US20200082340A1 (en) | PROCESSING EVENTS GENERATED BY INTERNET OF THINGS (IoT) | |
US8930301B2 (en) | Systems and methods for content response prediction | |
CN111444292B (zh) | 快消品数据处理方法、装置、电子设备及存储介质 | |
CN104394118A (zh) | 一种用户身份识别方法及系统 | |
US20110087968A1 (en) | Managing connections between real world and virtual world communities | |
WO2017048907A1 (en) | Federation and inter-organization collaboration in data analysis | |
Villegas-Ch et al. | Application of a big data framework for data monitoring on a smart campus | |
US20170364931A1 (en) | Distributed model optimizer for content consumption | |
CN105190595A (zh) | 唯一地识别网络连接实体 | |
CN108369709A (zh) | 基于网络的广告数据业务时延减小 | |
CN110413867B (zh) | 用于内容推荐的方法及系统 | |
US8725735B2 (en) | Information processing system, information processing method, program, and non-transitory information storage medium | |
CN107808346B (zh) | 一种潜在目标对象的评估方法及评估装置 | |
CN107256495A (zh) | 基于多平台数据按标签划分顾客群的方法及系统、服务器 | |
CN104951465A (zh) | 应用推荐方法及装置 | |
WO2016069049A1 (en) | Improved typeahead features | |
US11194869B2 (en) | Method and apparatus for enriching metadata via a network | |
JP5945206B2 (ja) | 商品推薦装置及び方法及びプログラム | |
WO2018078761A1 (ja) | クラスタリングシステム、方法およびプログラム、並びに、レコメンドシステム | |
US20240241915A1 (en) | Machine learning models using clickstream-based features for anonymous users | |
CN112732710A (zh) | 数据处理方法、装置以及电子设备 | |
Grangel-González et al. | Lis: A knowledge graph-based line information system | |
CN116775726A (zh) | 一种基于大数据的e账册数据校验方法 | |
CN113869982A (zh) | 产品推荐系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |