CN113051324A

CN113051324A - 基于大数据的用户画像构建方法、装置及存储介质

Info

Publication number: CN113051324A
Application number: CN202110294601.8A
Authority: CN
Inventors: 孙圣力; 陈忠毅; 李青山; 司华友
Original assignee: Nanjing Boya Blockchain Research Institute Co ltd
Current assignee: Nanjing Boya Blockchain Research Institute Co ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-29

Abstract

本发明提供了一种基于大数据的用户画像构建方法、装置及存储介质，其中的方法包括：建立用户画像标签体系；采集用户数据并存储至数据仓库内预先构建好的实体表和事实表内；将实体表和事实表进行ID‑Mapping关联以实现对用户数据的聚合；基于用户画像标签体系，对于每一个标签，从数据仓库中获取与所述标签相关的用户数据处理后保存至用户画像数据库。本发明采用数据仓库技术实现对海量用户数据的存储及处理，提高了大数据时代对海量数据的处理需求。此外，本发明采用包括机器学习算法在内的数据挖掘工具实现对非结构用户数据的处理，从而获得更加丰富的标签数据，提升了用户画像的标签丰富度。

Description

基于大数据的用户画像构建方法、装置及存储介质

技术领域

本发明涉及大数据领域，具体而言，本申请涉及一种基于大数据的用户画像构建方法及装置。

背景技术

在互联网步入大数据时代后，用户行为给企业的产品和服务，带来了一系列的改变和重塑，其中最大的变化在于，用户的一切行为在企业面前是可“追溯”，“分析”的。企业内保存了大量的原始数据和各种业务数据，这是企业经营活动的真实记录，如何更加有效地利用这些数据进行分析和评估，成为企业基于更大数据量背景的问题所在。随着大数据技术的入研究与应用，企业的关注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务，而要做精细化运营，首先要建立本企业的用户画像。

用户画像，即用户信息标签化，通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据，进而对用户或者产品特征属性进行刻画，并对这些特征进行分析、统计，挖掘潜在价值信息，从而抽象出用户的信息全貌。用户画像可看作企业应用大数据的根基，是定向广告投放与个性化推荐的前置条件，为数据驱动运营奠定了基础。由此看来，如何从海量数据中挖掘出有价值的信息越发重要。

当前的用户画像系统构建过程中，存在着海量非结构数据难以存储，标签开发形式单一，企业数据开发人员与业务人员交流困难等问题。

发明内容

为了解决上述技术问题中的至少一个，本发明第一方面提供了一种基于大数据的用户画像构建方法，其具体技术方案如下：

一种基于大数据的用户画像构建方法，其包括：

建立用户画像标签体系；

采集用户数据并将采集到的用户数据存储至数据仓库内预先构建好的实体表和事实表内，所述用户数据包括结构化用户数据和非结构化用户数据；

将实体表和事实表进行ID-Mapping关联以实现对用户数据的聚合；

基于用户画像标签体系，对于每一个标签，从数据仓库中获取与所述标签相关的用户数据处理后保存至用户画像数据库。

在一些实施例中，在所述用户画像标签体系中，从用户自然属性、行为属性、风险属性三个方面构建用户全面的用户画像。

在一些实施例中，所述采集用户数据并将采集到的用户数据存储至数据仓库内包括：在数据仓库内预先创建实体表和事实表，所述实体表用于存储用户的自然属性数据，所述事实表用于存储用户行为数据；根据用户画像标签体系，梳理需要采集的用户数据并形成数据埋点需求，数据埋点在客户端和服务器端进行数据采集；将采集到的用户数据分类存储至数据仓库内预先创建的实体表和事实表内。

在一些实施例中，所述事实表包括事务事实表、周期快照事实表及累计快照事实表。

在一些实施例中，所述用户画像标签体系内的标签类型包括统计类标签、规则类标签和挖掘类标签,所述从数据仓库中获取与所述标签相关的用户数据处理后保存至用户画像数据库包括：所述标签的类型为统计类标签时，从数据仓库中抽取出与所述标签相关的结构化用户数据后直接作为标签数据保存至用户画像数据库内，或对导出的结构化用户数据进行统计计算后作为标签数据保存至用户画像数据库内；所述标签的类型为规则标签时，从数据仓库中抽取出与所述标签相关的结构化用户数据，使用分类算法对所述结构化用户数据进行处理以获得与所述规则标签对应的标签数据，并标签数据保存至用户画像数据库内；所述标签的类型为挖掘类标签时，从数据仓库中抽取出与所述标签相关的非结构化用户数据，对所述非结构化用户数据进行挖掘以获得与所述挖掘类标签对应的标签数据，并将标签数据保存至用户画像数据库内。

在一些实施例中，所述对导出的结构化用户数据进行统计计算包括：将导出的结构化用户数据与构建好的统计函数封装成spark任务，将spark任务提交至spark集群上以完成统计计算。

在一些实施例中，所述用分类算法对所述用户数据进行处理以获得与所述规则标签对应的标签数据包括：将导出的结构化用户数据与构建好的分类函数封装成spark任务，将spark任务提交至spark集群上以完成分类。

在一些实施例中，所述对所述非结构化用户数据进行挖掘以获得与所述挖掘类标签对应的标签数据包括：对所述非结构化用户数据进行分词向量化处理以获得所述非结构化用户数据的特征词向量；采用贝叶斯分类模型或决策树模型对所述特征词向量进行挖掘以获得与所述挖掘类标签对应的标签数据。

本发明第二方面提供了一种电子装置，包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述的用户画像构建方法。

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述的用户画像构建方法。

与现有技术相比，本发明采用基于Hadoop/Spark生态的数据仓库技术实现对海量用户数据的存储及处理，提高了大数据时代对海量数据的处理需求。

此外，本发明采用包括机器学习算法在内的数据挖掘工具实现对非结构用户数据的处理，从而获得更加丰富的标签数据，提升了用户画像的标签丰富度。

附图说明

图1为本发明实施例提供的基于大数据的用户画像构建方法的流程图；

图2为本发明实施例提供的基于大数据的用户画像构建方法的流程图；

图3为本发明实施例提供的基于大数据的用户画像构建方法的流程图；

图4为可视化系统展示用户画像的数据流程图；

图5为可视化系统中的一个模块功能用例的逻辑示意图；

图6为可视化系统中的另一个模块功能用例的逻辑示意图；

图7为可视化系统中的又一个模块功能用例的逻辑示意图；

图8为本发明实施例提供的电子装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

鉴于此，本发明提供了一种基于大数据的用户画像构建方法、电子设备及存储介质，其采用基于Hadoop/Spark生态的数据仓库技术实现对海量用户数据的存储及处理，提高了大数据时代对海量数据的处理需求。此外，本发明采用包括机器学习算法在内的数据挖掘工具实现对非结构用户数据的处理，从而获得更加丰富的标签数据，提升了用户画像的标签丰富度。

实施例方法

图1示出了本实施例中的基于大数据的用户画像构建方法的实施流程。如图1所示，本实施例中的基于大数据的用户画像构建方法包括如下步骤：

S100、建立用户画像标签体系。

具体应用例中，可以结合业务需求，自顶向下地建立用户画像标签体系，用户画像标签体系中，从用户自然属性、行为属性、风险属性三个方面构建用户全面的用户画像。如在一个电商平台的大数据项目中，自然属性包括用户的性别、年龄、地域及地域等标签，行为属性包括用户近几日(如30日)访问次数、近几日消费次数、近几日消费时长、购买频度等标签。风险属性包括失信风险、潜在问题用户等标签。

按标签的类别划分，用户画像标签体系内的标签类型包括统计类标签、规则类标签和挖掘类标签。其中：

统计类标签是最为基础也最为常见的标签类型，例如，对于某个用户来说，其性别、年龄、地域、地域、近几日(如30日)访问次数、近几日消费次数、近几日消费时长、购买频度等字段可以从用户注册数据、用户访问、消费数据中统计得出，该类标签构成了用户画像的基础。

规则类标签基于用户行为及确定的规则产生，例如，对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥3。在实际开发画像的过程中，由于业务人员对业务更为熟悉，而数据人员对数据的结构、分布、特征更为熟悉，因此规则类标签的规则由业务人员和数据人员共同协商确定。

挖掘类标签通过机器学习挖掘产生，用于对用户的某些属性或某些行为进行预测判断。例如，根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度、根据一个用户的评论判断该用户是否为恶意用户或频繁差评用户。该类标签需要通过算法挖掘产生。

一般来说，上述三类标签，统计类标签、规则类标签基于结构化用户数据产生，挖掘类标签则很可能是基于非结构化用户数据产生，如用户的评论(文本数据)。

S200、采集用户数据并将采集到的用户数据存储至数据仓库内预先构建好的实体表和事实表内，所述用户数据包括结构化用户数据和非结构化用户数据。

在一些实施例中，如图2所示，步骤S200具体包括如下子步骤：

S201、在数据仓库内预先创建实体表和事实表，其中实体表用于存储用户的自然属性数据，事实表用于存储用户行为数据。

可选的，事实表又分为三类，分别为事务事实表、周期快照事实表及累计快照事实表。其中：事务事实表中的一条记录均表示用户的一个行为事务。行为事务出现以后，就会在事务事实表中出现一条记录，比如以订单为例，下单、付款、退款均为一个行为事实。周期事实表用来记录有规律的，可预见时间间隔的业务累计数据。通常的时间间隔可以是每天、每周或者每月。累积快照事实表用来涵盖一个事务的生命周期内的不确定的时间跨度。

S202、根据用户画像标签体系，梳理需要采集的用户数据并形成数据埋点需求，数据埋点在客户端和服务器端进行数据采集。

为了能够采集到更加丰富的用户数据，本发明实施例中采用前、后端埋点的方式同时采集用户数据。其中：前端埋点在用户客户端(手机、个人电脑等终端设备)部署数据采集模块，收集数据在用户客户端进行。后端埋点在服务器端部署数据采集模块，收集数据在服务器端进行。

S203、将采集到的用户数据分类存储至数据仓库内预先创建的实体表和事实表内。

S300、将实体表和事实表进行ID-Mapping关联以实现对用户数据的聚合。

经过步骤S200的处理后，用户数据被分类、分区存储在不同的表格内。但是对于特定用户而言，与其相关的标签数据被存储在不同的表格内并不方便数据的分析及查询。因此，需要采用ID-Mapping操作将属于同一用户的位于不同的分区的数据聚合在一起。

可选的，采用数据仓库内的ETL工具完成ID-Mapping操作。经ID-Mapping操作后，每个用户的经聚合后的数据均被转换成一Json字符串，并被统一存储在一张聚合信息表内。最后，将该聚合信息表到入至HBase中，便于线上接口实时、快速地调用其中的数据。

进一步的，使用ElasticSearch存储HBase的二级索引数据以满足根据复杂条件查询数据的去求。如，在使用组合标签规则查询的过程中，首先使用组合标签规则进行条件查询，从ElasticSearch中获取到HBase的row-key列表并根据返回的row-key列表，从Hbase中批量获取到目标数据。

S400、基于用户画像标签体系，对于每一个标签，从数据仓库中获取与所述标签相关的用户数据处理后保存至用户画像数据库。

如步骤S100中所提及的，用户画像标签体系内的标签类型区分为统计类标签、规则类标签和挖掘类标签。上述三类标签，统计类标签、规则类标签一般基于结构化用户数据产生，挖掘类标签则很一般基于非结构化用户数据产生，如用户的评论(文本数据)。

针对三种不同类型的标签，本发明的标签数据的获取过程如下：

针对统计类标签，从数据仓库的目标表中抽取出与该统计类标签相关的结构化用户数据后直接作为标签数据保存至用户画像数据库内，或对导出的结构化用户数据进行统计计算后作为标签数据保存至用户画像数据库内。可选的，将导出的结构化用户数据与构建好的统计函数封装成spark任务，然后将spark任务提交至spark集群上以完成统计计算。

针对规则类标签，从数据仓库的目标表中抽取出与该规则类标签相关的结构化用户数据，使用分类算法对抽取出的结构化用户数据进行处理以获得与该规则标签对应的标签数据，并将标签数据保存至用户画像数据库内。可选的，将导出的结构化用户数据与构建好的分类函数封装成spark任务，将spark任务提交至spark集群上以完成分类。

如，以用户价值类标签为例，在数据调研阶段，根据样本用户最近一次的交易时间，近期交易订单量和历史交易金额的分布情况，划定模型阈值，在Spark中提交任务，将用户按RFM模型分为八类用户并关联上相应的标签数据。

针对挖掘类标签，从数据仓库的目标表中抽取出与该挖掘类标签相关的非结构化用户数据，对抽取出的非结构化用户数据进行挖掘以获得与该挖掘类标签对应的标签数据，并将标签数据保存至用户画像数据库内。

可选的，如图3所示，对抽取出的非结构化用户数据进行挖掘获得与该挖掘类标签对应的标签数据包括如下子步骤：

S401、对抽取出的非结构化用户数据进行分词向量化处理以获得该非结构化用户数据的特征词向量。

S402、采用贝叶斯分类模型或决策树模型对特征词向量进行分类以获得与挖掘类标签对应的标签数据。

如，在一个实施例中，需要通过对用户的评论信息进行挖掘来判断用户是否为恶意用户或频繁差评用户。首先从目标表中抽取出用户的评论信息。将评论信息进行分词后，在采用TF-IDF算法将分词的文本转换为向量集。将向量集输入至预先训练好的决策树模型，从而得到评论信息的分类结果。综合考量同一用户的多条评论的分类结果，判断该用户是否。为恶意用户或频繁差评用户并打上相应的标签。

至此，用户画像标签体系中的每个标签下均已经关联上了相应的标签数据。最后通过可视化系统进行可视化展示即可获得用户的最终画像。

图4示出了可视化系统展示用户画像的数据流程图，其部分模块功能用例介绍如图5至图7所示。

实施例电子设备及存储介质

图8为本申请实施例提供的电子设备500的结构示意图，如图8所示，该电子设备500包括处理器501和存储器503，处理器501和存储器503相连，如通过总线503相连。

处理器501可以是CPU，通用处理器、DSP，ASIC，FPGA或者其他可编程器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包括一个或多个微处理器组合，DSP和微处理器的组合等。

总线502可以包括一通路，在上述组件之间传送信息。总线502可以是PCI总线或EISA总线等。总线502可以分为地址总线、数据总线、控制总线等。为了便于表示，图中仅以一条粗线表示，但是并不表示仅有一根总线或一种类型的总线。

存储器503可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可以储存信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储、磁盘存储介质或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器503用于存储本申请方案的应用程序代码，并由处理器501来控制执行。处理器501用于执行存储器503中存储的应用程序代码，以实现实施例一的用户画像构建方法。

本申请实施例最后还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现实施例中的用户画像构建方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普通技术人员应该理解，实施例中的描述仅仅是示例性的，在不偏离本发明的真实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所要求保护的范围是由所述的权利要求书进行限定的，而不是由实施例中的上述描述来限定的。

Claims

1.一种基于大数据的用户画像构建方法，其特征在于，其包括：

建立用户画像标签体系；

2.如权利要求1所述的用户画像构建方法，其特征在于，在所述用户画像标签体系中，从用户自然属性、行为属性、风险属性三个方面构建用户全面的用户画像。

3.如权利要求1所述的用户画像构建方法，其特征在于，所述采集用户数据并将采集到的用户数据存储至数据仓库内包括：

在数据仓库内预先创建实体表和事实表，所述实体表用于存储用户的自然属性数据，所述事实表用于存储用户行为数据；

根据用户画像标签体系，梳理需要采集的用户数据并形成数据埋点需求，数据埋点在客户端和服务器端进行数据采集；

将采集到的用户数据分类存储至数据仓库内预先创建的实体表和事实表内。

4.如权利要求3所述的用户画像构建方法，其特征在于，所述事实表包括事务事实表、周期快照事实表及累计快照事实表。

5.如权利要求1所述的用户画像构建方法，其特征在于，所述用户画像标签体系内的标签类型包括统计类标签、规则类标签和挖掘类标签,所述从数据仓库中获取与所述标签相关的用户数据处理后保存至用户画像数据库包括：

所述标签的类型为统计类标签时，从数据仓库中抽取出与所述标签相关的结构化用户数据后直接作为标签数据保存至用户画像数据库内，或对导出的结构化用户数据进行统计计算后作为标签数据保存至用户画像数据库内；

所述标签的类型为规则标签时，从数据仓库中抽取出与所述标签相关的结构化用户数据，使用分类算法对所述结构化用户数据进行处理以获得与所述规则标签对应的标签数据，并标签数据保存至用户画像数据库内；

所述标签的类型为挖掘类标签时，从数据仓库中抽取出与所述标签相关的非结构化用户数据，对所述非结构化用户数据进行挖掘以获得与所述挖掘类标签对应的标签数据，并将标签数据保存至用户画像数据库内。

6.如权利要求5所述的用户画像构建方法，其特征在于，所述对导出的结构化用户数据进行统计计算包括：

将导出的结构化用户数据与构建好的统计函数封装成spark任务，将spark任务提交至spark集群上以完成统计计算。

7.如权利要求5所述的用户画像构建方法，其特征在于，所述用分类算法对所述用户数据进行处理以获得与所述规则标签对应的标签数据包括：

将导出的结构化用户数据与构建好的分类函数封装成spark任务，将spark任务提交至spark集群上以完成分类。

8.如权利要求5所述的用户画像构建方法，其特征在于，所述对所述非结构化用户数据进行挖掘以获得与所述挖掘类标签对应的标签数据包括：

对所述非结构化用户数据进行分词向量化处理以获得所述非结构化用户数据的特征词向量；

采用贝叶斯分类模型或决策树模型对所述特征词向量进行挖掘以获得与所述挖掘类标签对应的标签数据。

9.一种电子装置，包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述的用户画像构建方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-8任一项所述的用户画像构建方法。