CN112269805A

CN112269805A - 数据处理方法、装置、设备及介质

Info

Publication number: CN112269805A
Application number: CN202011297316.3A
Authority: CN
Inventors: 张明磊
Original assignee: Hangzhou Miya Information Technology Co ltd
Current assignee: Hangzhou Miya Information Technology Co ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-01-26
Anticipated expiration: 2040-11-18
Also published as: CN112269805B

Abstract

本发明公开了一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。其中，该数据处理方法包括：获取与原始客群数据对应的数值化客群数据；基于预设标签规则对数值化客群数据进行打标以获取标签客群数据，其中，预设标签规则包括：预设静态标签规则、实时规则标签规则和动态模糊标签规则；对标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销。通过同时具有预设静态标签规则、实时规则标签规则和动态模糊标签规则的预设标签规则，可以实现对业务系统中的多类型数据进行打标，从而精准地获取潜在客群数据，以促成更加精确的精细化营销策略。此外，通过多渠道聚合处理原始数据，极大地拓展了数据来源。

Description

数据处理方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法、数据处理装置、电子设备和计算机可读存储介质。

背景技术

商业智能(Business Intelligence，简称BI)又称商业智慧或商务智能，是指利用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术等进行数据分析以实现商业价值。销售方在开展营销业务的同时，会获得海量的消费者的消费数据或其他相关数据。现有技术中的统计结果表明，全球企业的信息数据量，平均每1.5年翻一番，而其中经过利用的数据仅仅占到全部信息数据的7％。在商业智能解决方案的帮助下，企业级用户可以通过充分挖掘现有的数据资源捕获数据、分析数据、沟通数据，发现许多过去缺乏认识或未被认识的数据关系，帮助销售方的管理者做出更好的销售决策，例如开拓什么市场、吸引哪些客户、促销何种产品等等。此外，商业智能还能够通过财务分析、风险管理、欺诈分析、销售分析等过程帮助企业降低运营成本，进而获得更高的经营和经济效益。

在电商领域中，基于商业智能的技术手段，销售方可以更好地实现精准营销，将目标客群进行分类，以针对性的指定营销策略。然而，在传统针对精细化营销应用的数据处理过程中，对消费者的画像分析仅仅是对来源于业务系统的结构化数据进行打标，同时画像的基础数据源主要是依据消费订单数据等用户的购买行为来获得的既有客群数据。因此，上述的画像分析并无法有效发掘潜在客群，容易因既有客群数据而造成以偏概全的情况出现，从而得出错误或偏离的精细化营销策略。

发明内容

(一)要解决的技术问题

为解决现有技术中因现有的针对消费者的画像分析仅针对于结构化数据进行打标，同时基础数据来源主要是依据用户购买行为获得的既有客群数据，造成无法有效发掘潜在客群，容易造成既有客群数据以偏概全的情况，从而得出错误或偏离的精细化营销策略的技术问题，本发明公开了一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。

(二)技术方案

本发明的一个方面公开了一种数据处理方法，包括：获取与原始客群数据对应的数值化客群数据；基于预设标签规则对数值化客群数据进行打标以获取标签客群数据，其中，预设标签规则包括：预设静态标签规则、实时规则标签规则和动态模糊标签规则；对标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销。

根据本发明的实施例，在获取与原始客群数据对应的数值化客群数据之前，数据处理方法还包括：通过数据同步工具，获取多个应用渠道的原始标签数据；基于预设算法规则，获取原始标签数据对应的原始连通数据。

根据本发明的实施例，在获取与原始客群数据对应的数值化客群数据之前，数据处理方法还包括：根据预设置信度规则，确定对应原始连通数据的原始客群数据。

根据本发明的实施例，在获取与原始客群数据对应的数值化客群数据中，包括：对原始客群数据中的异常数据进行清洗处理；同时对原始客群数据中的非数值数据进行数值化。

根据本发明的实施例，在基于预设标签规则对数值化客群数据进行打标以获取标签客群数据中，包括：根据商品标签和门店标签确定对应用户标签的预设标签规则；基于预设标签规则分别对数值化客群数据进行静态标签、实时规则标签和动态模糊标签的打标。

根据本发明的实施例，在基于预设标签规则分别对数值化客群数据进行静态标签、实时规则标签和动态模糊标签的打标，包括：通过流式引擎算法以持续获取数值化客群数据的流式数据；根据复杂数据库功能实现对流式数据的实时打标；将经过实时打标获取的打标行为数据以编码形式存储于远程存储数据库中。

根据本发明的实施例，在基于预设标签规则分别对数值化客群数据进行静态标签、实时规则标签和动态模糊标签的打标，包括：将数值化客群数据的非结构化数据存储于搜索服务器中以获取反向索引数据；采用跳表形式存储反向索引数据；依据预设过滤条件对反向索引数据中对应的位组进行遍历以实现打标。

根据本发明的实施例，在对标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销，包括：对标签客群数据进行归因计算以获取相应的目标客群数据，其中，包括：根据关注指数数值与预设关注指数阈值之间的关系，对标签客群数据进行数据排列，以确定目标客群数据。

本发明的另一个方面公开了一种数据处理装置，包括数值化处理模块、数据打标模块和画像处理模块，数值化处理模块用于获取与原始客群数据对应的数值化客群数据；数据打标模块用于基于预设标签规则对数值化客群数据进行打标以获取标签客群数据，其中，预设标签规则包括：预设静态标签规则、实时规则标签规则和动态模糊标签规则；以及画像处理模块用于对标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销。

本发明的另一方面公开了一种电子设备，其中，包括：一个或多个处理器和存储装置。存储装置用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

本发明的另一方面公开了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现上述的方法。

(三)有益效果

本发明公开了一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。其中，该数据处理方法包括：获取与原始客群数据对应的数值化客群数据；基于预设标签规则对数值化客群数据进行打标以获取标签客群数据，其中，预设标签规则包括：预设静态标签规则、实时规则标签规则和动态模糊标签规则；对标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销。通过同时具有预设静态标签规则、实时规则标签规则和动态模糊标签规则的预设标签规则，可以实现对业务系统中的多类型数据进行打标，从而精准地获取潜在客群数据，以促成更加精确的精细化营销策略。此外，通过多渠道聚合处理原始数据，极大地拓展了数据来源，实现更加清晰、精准地客群发掘，使得应用该该目标客群数据的精细化营销更加符合消费者的生活习惯要求。

附图说明

图1示意性示出了根据本发明实施例的数据处理方法的流程图；

图2示意性示出了根据本发明实施例的数据处理方法中获取始客群数据的方法的流程图；

图3示意性示出了根据本发明实施例的数据处理方法的获取原始标签数据对应的原始连通数据的连通图；

图4示意性示出了根据本发明实施例的数据处理方法的获取原始标签数据对应的原始连通数据的最大连通子图；

图5示意性示出了根据本发明实施例的数据处理装置的架构组成图；

图6示意性示出了适于本发明实施例的数据处理方法的电子设备的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把他们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把他们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的代替特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本发明并帮助理解各个公开方面的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

在商业智能技术领域中，为针对性地指定营销策略，可以基于传播的5中基本要素：who传播者、Says what讯息、In which channel媒介、to whom受众和with what effect效果针对不同的方向进行课题研究。现有技术中，可以通过大数据处理技术快速对上述五种要素进行建模分析，并形成结论来提供决策支持，以实现本质为客户分级或分类的精细化营销。

关于精细化营销的主要侧重方向为降低目标客群的获取成本、提升营销效率。其中，为深刻地理解市场和用户(如消费者)实现精细化，则需要对用户进行画像分析。画像分析实质上即用户信息标签化，是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要数据之后，完美抽象出一个用户的商业全貌作为企业应用大数据技术的基本方式。是作为大数据处理的根基，可以完美抽象出一个用户的信息全貌，并为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息，提供足够的数据基础，从而为企业提供足够的精准信息，帮助企业快速定位精准用户群体以及用户需求。其中，画像分析需要用到各类统计分析方法，例如因子分析-聚类分析。

其中，因子分析是一种数据简化的技术，具体通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这些假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。因此，因子分析是一种用来在众多变量中辨别、分析和归结出变量间的相互关系并用简单的变量(因子)来描述这种关系的数据分析方法。此外，由于样本或指标之间存在程度不同的相似性(亲疏关系-以样品间距离衡量)，根据一批样本的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据，即聚类分析。具体地，聚类分析可以把一些相似程度较大的样本(或指标)聚合为一类，把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类，直到把所有的样本(或指标)聚合完毕。

现有技术中，为实现精细化营销策略，对特定客群用户进行精细化营销推广，第一步即是进行客群的用户画像处理。其中，现有技术中的用户画像一般通过定义标签(即因子)的方式，来数值化用户特征，并通过因子分析，找到购物者共同的特征组合。其中，现有技术中的用户画像实施方案主要具有下述不足：

1)现有技术中的用户画像分析仅对来源于业务系统的结构化数据进行打标，同时画像的基础数据源主要依据消费者的消费订单，也即通过用户的购买行为来确定最终的目标客群。然而，这对于没有购买行为的潜在客群而言，是无法实现挖掘的，因此，若基于传统画像分析，只对既有购物行为进行发掘，所得出的目标客群将易于出现以偏概全的现象，从而造成所获取的精细化营销策略将可能是错误的结论。其中，潜在客群是指不具有购买行为，但有潜在购买行为趋势的消费者，例如某些消费者有对门店或商品的浏览行为，其就可以作为潜在客户。

2)此外，消费者在公众号、小程序等多种线上渠道上的交互，往往并不具有购物目的，同时可能由于零售商的促销活动，被吸引到电商/门店产生消费。然而现有技术中，并没有针对类似多种线上应用渠道的用户客群画像，也无法通过聚合用户在不同渠道的交互行为精准全面地描绘用户的购物历程。

(3)最后，随着智能终端技术的快速发展，web系统交互越来越多元化，文本、声音以及视频等都可能成为系统与用户交互的媒介。因此，为了采集客群数据，就需要针对上述各种新兴应用渠道的数据进行打标。然而，现有的打标过程中，并没有多样化的标签可供打标过程选择，这就造成现有的画像分析并无法从多维度描述购物者的兴趣爱好，造成在物质丰富的今天，缺乏多元的兴趣爱好标签以响应符合人们的生活习惯。

需要说明的是，本发明实施例中的客户、用户、消费者在某种意义上而言是对相同的对象所具有的不同指代名词。其中，特征Feature为一事物异于其他事物的特点，从熵的概念上而言，是指事物偏离混沌的程度。与之对应的是，标签可以认为是一种描述、分类的事物的方式，特征是标签加工而来，标签值取值可能有数值、文字等多种类型，而特征要求取值均为数值型。

本文仅讨论技术实现方案，不讨论收集购物者隐私信息的方法

如图1所示，本发明的一个方面公开了一种数据处理方法，包括步骤S101-步骤S103。

在步骤S101中，获取与原始客群数据对应的数值化客群数据；

在步骤S102中，基于预设标签规则对数值化客群数据进行打标以获取标签客群数据，其中，预设标签规则包括：预设静态标签规则、实时规则标签规则和动态模糊标签规则；

在步骤S103中，对标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销。

在本发明的实施例中，原始客群数据可以为对应特定时间段内包括所有用户的不带有任何数据标签的原始数据，该原始客群数据主要基于各个业务系统中对应销售方的所有客户的每个客户的价值特征流水数据获取的。原始客群数据可以为具有所有客户的所有属性的数据，各个客户之间的ID代码或名称具有一定差异，每个客户都可以对应包括年龄、性别、消费时间、消费额等特征属性，才外对应每种特征属性都可以具有相应的数值或代码作为原始数据，并且对应于特定时间段。此外，原始客群数据还可以同时包括针对商品和门店的原始数据，例如商品相关的如定价、品牌、名称、类型等特征属性，门店相关的如位置、客流量、以及门店类型等特征属性。此外，数值化客群数据则是对原始客群数据进行数值化转换所得出的数值数据，主要是用于将原始客群数据中的非数值化数据转换为数值化数据以便于数据分析处理，例如将性别男或女转换为1或2，其中1代指性别男，2代表性别女。

打标实际上是针对数值化客群数据中的各个客户对应的各类消费数据进型聚类分析汇总之后的初步分类步骤，用于将各种数值化数据中的相似客户特征属性进行分类，例如，消费时间、消费额、消费商品等可以归类为消费行为或消费习惯的标签。数值化客群数据经过打标操作之后，即可以转换为具有相应标签的标签客群数据。其中，打标操作过程中，本发明实施例的数据处理方法同时引入了静态标签、实时规则标签和动态模糊标签等三种数据标签，对本发明实施例的数值化客群数据进行打标。

具体地，静态标签、实时规则标签和动态模糊标签等三种数据标签，从数据源、处理方法等方面存在较大区别。首先，静态标签一般为以现有的传统业务系统作为数据来源的标签，例如CRM、库存管理等，静态标签属于结构性数据，具有固定生成规则，例如可以采用三元组描述规则，如x＞1，y＞6等；实时规则标签则对应于线上系统，例如小程序、公众号等，属于一种基于时间的流式数据，具有状态变化生成规则，如x＝1→x＝4→x-6的状态变化；动态模糊标签的数据来源也可以是线上系统，以与传统业务系统相区分，但是动态模糊标签属于一种非结构性数据，基于复杂规则的生成规则，一般多用于文本处理，例如字符串中的3个数字等。相应地，基于上述的静态标签的固定生成规则、实时规则标签的状态变化生成规则以及动态模糊标签的复杂生成规则，可以逆向获得其各自的打标规则，该打标规则非别相应包括：预设静态标签规则、实时规则标签规则和动态模糊标签规则，即上述的预设标签规则。通过该预设标签规则，可以引入静态标签、实时规则标签和动态模糊标签等三种数据标签，极大地实现标签种类的扩展，以通过多元化的标签，来更加准确对消费者进行描述和分类。

可见在上述预设标签规则的基础上，可以实现对包括结构化数据在内的其他非结构性数据和流式数据同时进行打标。因此，当对基于上述打标操作获取的标签客群数据进行画像处理时，就能够获得除购买行为等传统标签数据所对应的客群之外，还可以同时获得其他类型标签的客群，例如仅有如浏览行为标签的客群，也即本发明实施例的数据处理方法，能够实现画像分析处理能够针对包括潜在客群在内的所有对应客群的目标客群，该目标客群对应的打标数据即目标客群数据。依据该目标客群数据，可以获得覆盖潜在客群的精细化营销策略的生成，使得精细化营销过程具有更强、更准确的针对性，避免了错误或偏离的精细化营销策略的出现。

通过同时具有预设静态标签规则、实时规则标签规则和动态模糊标签规则的预设标签规则，可以实现对业务系统中的多类型数据进行打标，从而精准地获取潜在客群数据，以促成更加精确的精细化营销策略。此外，通过多渠道聚合处理原始数据，极大地拓展了数据来源，实现更加清晰、精准地客群发掘，使得应用该该目标客群数据的精细化营销更加符合消费者的生活习惯要求。

如图1和图2所示，根据本发明的实施例，在步骤S101获取与原始客群数据对应的数值化客群数据之前，数据处理方法还包括步骤S201-步骤S203。

在步骤S201中，通过数据同步工具，获取多个应用渠道的原始标签数据；

在步骤S202中，基于预设算法规则，获取原始标签数据对应的原始连通数据。

在步骤S203中，根据预设置信度规则，确定对应原始连通数据的原始客群数据。

随着互联网技术的发展，企业不仅仅通过线下门店进行销售，也逐渐开展网店这种新兴购物形式，进一步拓宽了消费者的购买渠道。对于本发明的实施例而言，为更加全面的了解消费者的购买行为偏好，数据处理方法中需要通过多应用渠道数据的整合，实现基础数据的获取，进而得到原始客群数据。

由于随着多个业务系统的增加，不同业务系统中对于数据的描述和计算方式也并不相同，这就造成更为复杂的数据采集以及聚合分析过程，必要时还需要考虑进行归一化处理。

在本发明的实施例中，数据同步工具可以是flume、sqoop等算法工具，针对不同的应用渠道，获取原始的基础数据，并将不同渠道基础数据按照相应的基础标签导入转换想形成诸如Hive表的原始标签数据，如表1所示原始基础数据案例。其中，不同的应用渠道包括小程序、公众号、线上商城、终端应用(如app)等。

姓名	某付宝ID	小程序ID	电话号码	生成时间
					张三	a	A		2020-09-01
李四		A	222	2020-09-02
					王五	b		33	2020-09-03
赵六	b	B	33	2020-09-04

表1

在新线上门店的零售场景下，若要对原始基础数据进行处理之前，首先需要建立用户的统一标识，即oneID，以对后续的用户的购物行为进行跟踪分析。关于oneID，举例而言，小明在某零售企业的线下门店进行购物时，使用某付宝进行支付行为，同时由于小明也注册了该企业对应的某小程序的会员。因此，对于该企业而言，若要从某付宝和小程序会员系统中，找到与小明相同的属性列(例如可以是手机号码)，从而将某付宝ID与小程序ID建立联系，以一个统一的用户ID来定义小明对应的某付宝ID和小程序ID，从而在后续的数据处理过程中就可以将其识别为同一用户。相应地，将两种不同应用渠道的对应同一用户的不同用户ID数据进行连通，由于各个应用渠道之间并不存在共同属性，则可以采用预设算法规则对原始标签数据进行处理，完成不同应用渠道之间的用户ID连通统一，以获得具有统一用户ID的原始连通数据。其中，该预设算法规则可以具有通过将不同应用渠道的用户身份信息传递到下游网站，依此来进行数据连通处理操作的算法规则，其中可以包括Cookie-Mapping算法和Spark-GraphX算法等。

Cookie-Mapping是用浏览器的cookie来识别用户，在不同服务对应的应用渠道之间传递用户身份的一种方法。具体可以通过在不同应用渠道的埋点中嵌入代码，将用户身份传递到下游网站，可以解决用户跨域访问时身份不一致问题。具体地，Cookie-Mapping一般采用微服务的架构，微服务将应用拆分为多个核心功能，以免受困于单体式结构陷阱，同时增强系统开发效率以及整体系统的健壮性。

如表1所示，原始标签数据中至少包含一列表示用户身份的列，如某付宝ID、小程序ID等。通过上述如Cookie-Mapping算法规则的预设算法规则，可以实现针对表1中的用户ID的统一标识。具体如图3和图4所示，采用相应的连通算法规则，如Spark-GraphX算法，将用户的不同类型的身份ID(如某付宝ID、小程序ID等)视为点，如图3所示。然后，根据已知的关联关系建立边，并通过最大连通子图算法，得到一个连通子图结果，如图4所示。最终建立一个聚合身份ID→各ID标识宽表，也即最终数据连通结构，为本发明实施例的原始连通数据。如图3和图4所示，张三和李四是同一个人，王五和赵六是同一个人，即原始连通数据完成了不同应用渠道的同一用户的身份统一。

其中，如图3和图4所示的张三和李四的数据而言，其姓名和手机号码虽然都不相同，但仍然可以基于不同特征列的置信度来进行定义。置信度又称为可靠度或置信区间，是指通过抽样对总体参数进行评估时，在由于样本的随机性导致结果不确定的情况下，采用一个[0，1]区间的小数来表示正确结果占所有结果的比率，比率越大，置信度越高，更加符合真实情况。例如置信度0.9，指结果符合真实情况的概率为90％。将置信度的高低作为构建不同应用渠道的数据是否实现连通的判断规则，以对已生成的原始连通数据作进一步地处理，即可以获得对应的原始客群数据。其中，上述的判断规则可以理解为本发明实施例的预设置信度规则。

具体地，参照上述表1，如图3和图4所示，假设姓名、某付宝ID的置信度分别为0.7、0.9，优先选取置信度高的列作为联通依据，相应地，其具体地mapping的结果可以参照如下表2所示。

姓名相同	某付宝ID不同	不联通
			姓名相同	某付宝ID相同	联通
姓名不同	某付宝ID相同	联通
			姓名不同	某付宝ID不同	不联通

表2

如表1和表2所示，若依据oneID的身份统一数据，对原始标签数据中同一ID的不同渠道的数据进行合并时，可能存在姓名列一行出现多个数据值，则可以按照记录的生成时间以最新一条数据值作为最终值。然后，通过md5或hash+salt的方式来不可逆的生成一个随机字符串作为该用户的唯一ID作为oneID，最终生成的ID-mapping映射字典，也即本发明实施例的原始客群数据如下表3所示。

表3

需要说明的是，如表2所示各列数据的置信度，可以在基础数据采集之前，先采集至少一份可靠的外部数据作为参照，之后采样各列数据统计，得到全局的各列的置信度。该外部数据也可以由业务开发人员指定不同列的置信度。

如图1所示，根据本发明的实施例，在步骤S101在获取与原始客群数据对应的数值化客群数据中，包括：对原始客群数据中的异常数据进行清洗处理；同时对原始客群数据中的非数值数据进行数值化。

前述所获取的原始客群数据中，由于存在各种异常情况，例如对应某用户的性别的数值若定义性别男为数值1，性别女为数值2，而最终出现原始客群数据却出现了乱码或非1或2的其他数值，则意味着该原始客群数据存在异常。因此，此类数据已经无法准确反映用户的相应标签特征，需要对该原始客群数据进行数据清洗，以获得数据值更加清楚、精准能够反映相应用户或客群真实数据的数值化客群数据。

其中，数据清洗处理包括消除标签异常值、去除空值等操作。其中，标签异常值举例而言，对于某用户的某项标签数据定义取值范围为[0，1)，但原始标签数据的结果值为-1，该用户的原始标签数据就属于异常值，则删除该标签异常值对应的用户数据。此外，对于去除空值而言，由于对于某用户的某项标签数据，其数值为空，则可以直接将该用户数据删除，或者在业务允许情况下，约定默认值赋值，以消除空值。

此外，对于其中所有已消除异常数值的原始客群数而言，为更加便于实现对海量数据的处理，加快数据处理效率同时保证数据准确性，本发明实施例的数据处理方法实现了对原始客群数据的特征化，即对于非数值类的数据(如文字、图片等)，将其编码，进行数值化，最终将其体现为数字或代码的数据形式。例如原始客群数据中对应某列的值的取值范围为[red，yellow，blue]，在进行数值化之后，则可以将其编码为[0，1，2]。

同样地，也可以实现对地理位置信息数值化。通常，消费者的购物行为数据中会包含地理位置信息。结合终端设备的地图应用，可以提供如API算法等将对应购物行为的地理位置信息转换为经纬度或其他代码或数值。其中，具体可以将消费者进行购物行为所在的实体门店的经纬度和附近的商圈的参考经纬度信息换算为两点之间距离，例如将上述的两点经纬度信息可带入haversine公式：

其中，d为要求解的地球表面的两点之间的距离；R为地球半径，R可取平均值6371km；φ2、φ1表示两点的纬度；Δλ表示两点经度的差值。

基于上述数据处理方法，可以实现将原始客群数据中的非数值数据转换为数值数据，以构成数值化客群数据。

如图1所示，根据本发明的实施例，在步骤S102基于预设标签规则对数值化客群数据进行打标以获取标签客群数据中，包括：根据商品标签和门店标签确定对应用户标签的预设标签规则；基于预设标签规则分别对数值化客群数据进行静态标签、实时规则标签和动态模糊标签的打标。

通过多个不同的应用渠道，以及结合预设的标签数据，可以实现针对例如快消品等商品的零售场景，进行依据人、货、场的三个维度，分别获取相应的标签定义内容。其中，人对应于消费者或客户，货对应于被消费的商品，场则可以对应线下门店或线上门店。其中，对应于用户标签的预设标签规则实际上是需要根据相应的商品和门店的标签来获取。

例如，对于商品标签而言，可以进行如下定义：

a.基础属性：品牌、品类、价格等；

b.库存类指标：订货周期、库存周转率、库存天数、缺货率、客诉率等；

c.销售类指标：促销参与度、促销力度、同类商品销售排行等；

d.售后服务指标：退货率、残损率等。

相应地，对应商品标签而言，可以进行如下定义：

a.门店基础属性：坪效、人效、租金、所属商圈等；

b.销售情况：销售额、进店率、成交率、增长率等；

c.竞争力：市场占有率、竞品指数等；

d.促销活动：活动周期、品牌参与度、会员参与率等；

基于上述的商品标签和门店标签，就可以实现对用户标签的定义：

a.基础人口属性：年龄、性别、收入、家庭组成等；

b.消费习惯：客单价、交易单数、复购率/复购周期等；

c.会员：是否会员、会龄、积分等；

d.地理位置：住所、工作单位等，与门店的距离；

e.商品喜好：经常购买的商品的品牌、品类、价格带等。

因此，这就可以形成针对用户标签的预设标签规则，该预设标签规则用于针对原始客群数据的打标操作。其中，需要说明的是对于电商等线上门店场景，没有地理位置和库存成本等约束，可以在用户标签中增加访问流量以及流量转化率等标签。

其中，需要说明的是，打标是对数据进行分级分类前的一项重要操作。随着机器学习技术的发展，很多企业会在传统的人工制定规则打标的基础上，增加一些机器学习生成的标签，例如通过聚类等方式对人群分类。无论是人工制定规则还是机器自动生成标签的过程，就是业务规则转化为代码，并筛选数据的过程。本发明的实施例中，对于具体的打标原理将将不展开论述，其中标签的数量、种类和定义并不会影响后续处理步骤，下文将重点针对标签处理进行描述。

在本发明的实施例中，在静态标签基础上进一步引入实时规则标签、动态模糊标签，主要为了扩展标签的种类，通过多元化的标签，更加准确地实现对客群的描述和分类。

在本发明的实施例中，静态标签一般来源有2种，第一种为基础属性数据来源，例如CRM、库存管理等业务系统的原始基础数据，可以直接进行数据采集结算；第二种，可以是对加工指标来源，例如增长率、退货率等，需要根据原始数据加工计算得到。

因此，基于预设标签规则中的预设静态标签规则，可以实现对数值化客群数据中的静态标签的打标操作。

需要进一步说明的是，用户行为数据可以根据预设的业务逻辑生成相应标签，静态标签描述和取值范围是固定的，并不能完成一些复杂情况场景下的用户圈选。为此，在本发明实施例中进一步引入了实时规则标签、动态模糊标签来做补充。

实时规则标签是一种流式数据，根据用户预先定义的规则来筛选用户行为并打标的方式。此处的筛选规则(即预设实时规则标签规则)可以由一系列状态的变化来描述。例如：输入规则表达式可以为：先浏览，再对比，然后下单，最后付款。满足这样规则的人可以标记为T(True)，否则为F(False)。

传统Hive等的离线计算方式，是基于行/列的数据，与预设的条件进行匹配并返回，无法处理上述的流式数据。因此，在本发明实施例中，可以采用flink或sparkstreaming等流式引擎进行实时规则标签的打标处理：

首先，通过流式引擎算法(如上述的flink或spark streaming等流式引擎算法)实时采集对应数值化客群数据的流式数据。其中，流式引擎是持续收取数据，并保存一个带状态的累积结果。其中，以上述的流式消息为例，流式消息每条消息都带一个发生的时间，数据存储时是乱序的，当流式引擎处理消息时，则会按照时间顺序进行处理。如对于某客户小明而言，18:40-浏览、17:30-对比、20:00-下单、20:05-付款，依照该时间顺序，实现对流式数据的处理。

复杂数据库功能的实现首先需要创建定义一个pattern，然后通过链表将由前后逻辑关系的pattern串在一起，构成模式匹配的逻辑表达。对于pattern而言，是指在处理流式数据时，值value不是静态的，而是会跟时间戳形成关联关系的集合，即根据start、middle、end等标识，与value的预期值组装成event的集合，用来描述一系列的事件。Pattern的具体定义样例可以是pattern1-浏览，pattern2-对比，pattern3-下单，pattern4-付款等具体的对应时间的流式行为消息(event)。

其次，可以利用复杂NFACompiler算法将模式进行分拆，创建出NFA(即非确定有限状态自动机)对象，NFA包含了该次模式匹配的各个状态和状态间转换的表达式。此外，NFA从用户行为的流式数据中，接收每个事件，并检测是否与定义的parttern匹配，如果匹配，则改变state并流转到栈中下一个pattern进行匹配。如果匹配栈尾的pattern成功，则说明所有的parttern匹配成功，即返回处理结果。其中，NFACompiler算法可以将模式对象编译成NFA或者NFAFactory，NFAFactory可以用于创建多种NFA对象。在该编译过程中，需要从partten链表的尾部向前遍历，并逐个提取partten对象中state和time window，并构建一个NFA实例，NFA实例中包含最小timeWindows和state的Hashset集合。进一步地，相对于flink计算时，会在checkpoint保存计算过的state，NFA计算逻辑则是以流中的event为驱动，通过定义的5元组(集合Q，符号∑，转移函数T，初始状态q0，最终状态F)，来遍历event的state，最终实现parttern的匹配。此外，基于Shared Buffer算法，flink处理event数据时，可以使用<key，value，timestamp>来构建Shared Buffer Entry，并使用一种名为Extraction State的栈来存储提取的状态信息。flink处理事件时，会从后向前遍历，并将匹配的event入栈。匹配到版本号为1的event后，返回整个栈。

其中，基于watermark的时间窗口机制，处理乱序消息，适合启发式检查数据状态。而且，在实时打标过程中，需要将诸如用户的行为数据等流失数据持续采集，并通过kafka等消息队列，传入流计算引擎flink，并通过flink CEP功能来实现一系列的partten，从而完成实时为原始客群数据进行实时打标，最后获得经过打标之后的达标行为数据。其中的flink CEP功能可以作为本发明实施例的复杂数据库功能。

·打标行为数据的结果可直接存储于远程存储数据库如redis数据库中，以利于实时调取。具体存储可以hash表的形式存储，采用key作为标签值，hash表entry作为各个用户身份ID。其中，Redis数据库为一种基于内存的数据库，通常用于高性能缓存。

动态模糊标签属于非结构性数据，非结构性数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据，例如文本、XML、图片、音/视频等。动态模糊标签就是将业务输入的规则用DSL(Domain Specified Language)领域专用语言进行描述，并在海量原始客群数据中搜索并打标的方法。

首先需要将非结构化的原始客群数据，存储于如elasticsearch(简称es)引擎服务器的搜索服务器中，据此可以实现复杂文本处理。

其中，es的核心是Lucene，存储结构是对分词构建反向索引(inverted index)，建立word与Documents的关联关系，从而构成反向索引数据，如下表4所示。

Word	Documents
		the	Document1，Document3，Document4，Document5，Document_7
cow	Document2，Document3，Document_4
		says	Document_5
moo	Document_6

表4

一般正向索引是从文档到单词，而反向索引则是从单词到文档。因此，反向索引的数据搜索的最小单位就是分词，用分词去匹配规则，并组合，最终得到对应原始客群数据的非结构化数据的反向索引数据。

为了进一步简化数据存储，可以采用跳表而非红黑树来存储反向索引。跳表是基于链表的一种数据结构，使得其在范围查找的场景下更高效。跳表存储可以具有的插入、删除、查找的时间复杂度为O(logN)，即与红黑树相同。然而，采用跳表存储，相同场景下如果需要实现对树状结构的BFS遍历会比较复杂。从内存占用来看，跳表每个entry需要包含的指针数量取决于层数。而红黑树的每个node需要2个指针，分别指向左右子树。也就是当数据量不大的情况下，跳表的空间占用是低于红黑树的，具体可以redis为例。

为进一步证明跳表的优势，将计算随机层数的伪码列出如下

randomLevel()

level：＝1

//random()返回一个[0...1)的随机数

while random()＜p and level＜MaxLevel do level：＝level+1return level

其中，伪码(Pseudocode)是一种非正式的、类似于英语结构且用于描述模块结构图的语言

因此，按照上述计算方式可得一个节点得平均层数为：

带入经验参数p＝0.25，可得平均指针数量为1.33，小于红黑树指针数量2。

可见，从代码实现难度上看，跳表实现要比红黑树简单。

基于上述的反向索引数据，进行多条件取与、或、非的关系聚合处理。首先，为每个在倒排反向索引中搜索到的结果，构建一个位组bitset，如[0，0，0，1，0，1]。其中，0表示未命中，1代表命中。位组bitset中每一位，对应整个文档中的一行。

对每个过滤条件对应的bitset进行遍历，优先从最稀疏的开始搜索，查找满足所有filter条件的document，直到bitset遍历完。其中过滤条件为预设过滤条件，可以基于相应的位组和反向索引搜索规则预先设定，用于对bitset进行遍历操作。

具体地，举例而言，若要筛选满足a或b且非c的结果，先分别根据3个条件搜索所有索引，构建3个bitset如下：a→[0，0，0，1，0，1]，b→[1，1，0，0，0，0]，c→[0，0，1，1，0，0]。则只需要依据二进制运算方法，即可快速得到位组bitset的遍历结果a|b&(～c)＝110001，这样就得到最终的打标数据，即标签客群数据。最后，可以将结果数据中的ID列取出，增加一列打标结果列，存储在hive中。

根据本发明的实施例，在步骤S103对标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销，包括：对标签客群数据进行归因计算以获取相应的目标客群数据，其中，包括：根据关注指数数值与预设关注指数阈值之间的关系，对标签客群数据进行数据排列，以确定目标客群数据。

在本发明的实施例中，画像操作实际上就是对消费者对应的客群数据进行聚类后，找到相似客群行为的客群，也即寻找相似人群，最后针对于此进行精细化营销。

归因计算实际上可以看作是分类计算。对于每个客户，如果其有转化(conversion)处理，比如购买、注册等，则是正样本，否则为负样本。常见的归因计算方式包括：马尔科夫链、沙普利值、生存分析、harsanyi-dividend以及TGI指数等。

在本发明实施例中主要采用TGI指数的归因计算方式来对特征进行筛选。其中，TGI指数满足：

TGI＝[m/M]×100

其中，m为目标群体中具有某一特征的群体所占比例，M为总体中具有相同特征的群体所占比例，100为参考标准数。

TGI指数表明不同特征用户关注问题的差异情况，其中TGI指数等于100表示平均水平；TGI指数高于100，则代表该类用户对某类问题的关注程度高于整体水平。例如，将某地区[15-24岁]的人作为目标群体，将在线上门店A进行购物行为作为相同特征；若该地区[15-24岁]的人中，有8.9％的人在线上门店A进行了购物行为，而在该地区总体人群中，有6.6％的人去过在线上门店A进行了购物行为，则在线上门店A进行购物行为在[15-24岁]人群中的TGI指数是134.9(8.9％/6.6％×100)，大于阈值100。其中，TGI指数数额越大，就表明目标群体吻合度就越强势。因此，TGI指数即本发明实施例中的关注指数数值，参考标准数100可以理解为预设关注指数阈值。

将对应标签客群数据中的各个标签特征逐个计算TGI指数之后，可以进行倒序排列，因此排名靠前的标签数据对应的客户数据可以认为影响较大，即可以确定该对应的该客户为相应地目标客户，进而确定包括潜在客群的目标客群，即目标客群数据。

在完成画像分析获得目标客群数据之后，可以实现精细化营销的应用。首先，针对该目标客群数据进行人群扩散处理，具体可以通过对目标客群数据，对人、货、场三维度进行聚类分析，找到相似的人、货、场，以作为潜在的购物行为；之后，据此进行相应的推荐排序处理，具体可以通过贝叶斯定理，计算潜在的购物行为的概率，对于较高概率的人和货pair，进行营销行为，从而促成交易。其中，贝叶斯定理Bayes是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能。

如图5所示，本发明的另一个方面公开了一种数据处理装置500，包括数值化处理模块510、数据打标模块520和画像处理模块530，数值化处理模块510用于获取与原始客群数据对应的数值化客群数据；数据打标模块520用于基于预设标签规则对数值化客群数据进行打标以获取标签客群数据，其中，预设标签规则包括：预设静态标签规则、实时规则标签规则和动态模糊标签规则；以及画像处理模块530用于对标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销。

具体地，上述的数据处理装置500可以用于实现上述的数据处理方法，此处不再赘述。

如图6所示，本发明的另一方面公开了一种电子设备，其中，包括：一个或多个处理器和存储装置。存储装置用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

根据本发明实施例的电子设备600包括处理器601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 603中，存储有设备600操作所需的各种程序和数据。处理器601、ROM 602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，设备600还可以包括输入/输出(I/O)接口605，输入/输出(I/O)接口605也连接至总线604。设备600还可以包括连接至I/O接口605的以下部件中的一项或多项：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

根据本发明的实施例，根据本发明实施例的方法流程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时，执行本发明实施例的系统中限定的上述功能。根据本发明的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

图6示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

本发明的计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。

本发明实施例的另一方面提供了一种计算机程序，计算机程序包括计算机可执行指令，指令在被执行时用于实现如上所述的方法。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

至此，已经结合附图对本发明实施例进行了详细描述。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取与原始客群数据对应的数值化客群数据；

基于预设标签规则对所述数值化客群数据进行打标以获取标签客群数据，其中，所述预设标签规则包括：预设静态标签规则、实时规则标签规则和动态模糊标签规则；

对所述标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销。

2.根据权利要求1所述的数据处理方法，其特征在于，在所述获取与原始客群数据对应的数值化客群数据之前，包括：

通过数据同步工具，获取多个应用渠道的原始标签数据；

基于预设算法规则，获取所述原始标签数据对应的原始连通数据。

3.根据权利要求2所述的数据处理方法，其特征在于，在所述获取与原始客群数据对应的数值化客群数据之前，还包括：

根据预设置信度规则，确定对应所述原始连通数据的所述原始客群数据。

4.根据权利要求1所述的数据处理方法，其特征在于，在所述获取与原始客群数据对应的数值化客群数据中，包括：

对原始客群数据中的异常数据进行清洗处理；同时

对原始客群数据中的非数值数据进行数值化。

5.根据权利要求1所述的数据处理方法，其特征在于，在所述基于预设标签规则对所述数值化客群数据进行打标以获取标签客群数据中，包括：

根据商品标签和门店标签确定对应用户标签的所述预设标签规则；

基于所述预设标签规则分别对所述数值化客群数据进行静态标签、实时规则标签和动态模糊标签的打标。

6.根据权利要求5所述的数据处理方法，其特征在于，在基于所述预设标签规则分别对所述数值化客群数据进行静态标签、实时规则标签和动态模糊标签的打标，包括：

通过流式引擎算法以持续获取所述数值化客群数据的流式数据；

根据复杂数据库功能实现对所述流式数据的实时打标；

将经过所述实时打标获取的打标行为数据以编码形式存储于远程存储数据库中。

7.根据权利要求5所述的数据处理方法，其特征在于，在基于所述预设标签规则分别对所述数值化客群数据进行静态标签、实时规则标签和动态模糊标签的打标，包括：

将所述数值化客群数据的非结构化数据存储于搜索服务器中以获取反向索引数据；

采用跳表形式存储所述反向索引数据；

依据预设过滤条件对所述反向索引数据中对应的位组进行遍历以实现打标。

8.根据权利要求1所述的数据处理方法，其特征在于，在对所述标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销，包括：

对所述标签客群数据进行归因计算以获取相应的所述目标客群数据，其中，包括：

根据关注指数数值与预设关注指数阈值之间的关系，对所述标签客群数据进行数据排列，以确定所述目标客群数据。

9.一种数据处理装置，其特征在于，包括：

数值化处理模块，用于获取与原始客群数据对应的数值化客群数据；

数据打标模块，用于基于预设标签规则对所述数值化客群数据进行打标以获取标签客群数据，其中，所述预设标签规则包括：预设静态标签规则、实时规则标签规则和动态模糊标签规则；以及

画像处理模块，用于对所述标签客群数据进行画像处理，确定目标客群数据以应用于精细化营销。

10.一种电子设备，其中，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现所述权利要求1-8中任一项所述的方法。