CN113822390B

CN113822390B - 用户画像构建方法、装置、电子设备和存储介质

Info

Publication number: CN113822390B
Application number: CN202111405247.8A
Authority: CN
Inventors: 杨阳; 喻秀峰; 朱兵兵
Original assignee: Hangzhou Beidu Technology Co ltd
Current assignee: Hangzhou Beidu Technology Co ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-15
Anticipated expiration: 2041-11-24
Also published as: CN113822390A

Abstract

本申请涉及一种用户画像构建方法、装置、电子设备和存储介质，其中，该方法包括：获取用户数据；基于所述用户数据获取基础特征数据；所述基础特征数据包括第一特征数据，所述第一特征数据为自定义特征数据；基于所述第一特征数据和预先训练好的标签生成模型，确定对应的用户标签；其中，所述标签生成模型的训练过程包括：基于所述基础特征数据进行聚类分析至损失函数满足预设条件，得到无监督学习模型；基于所述用户标签生成所述用户对应的画像。通过本申请，降低了人工调参成本。

Description

用户画像构建方法、装置、电子设备和存储介质

技术领域

本申请涉及大数据应用技术领域，特别是涉及一种用户画像构建方法、装置、电子设备和存储介质。

背景技术

对于服装定制行业，运营部门如何高效率管理客户，制定营销策略，顾问如何高效率服务客户或者提高客户复购率，促成最终成交，最终给客户留下很好的印象，是服装定制公司关心的问题之一。

现有的大数据分析通过汇聚海量、多样、实时的用户数据，获取用户数据背后的消费相关信息，借助大数据分析方法和分析工具从用户数据中挖掘用户信息、用户行为及各种有价值的信息，形成用户标签并关联对应的用户，得到用户画像。用户画像生成涉及到的技术主要包括机器学习中的无监督聚类、有监督的集成学习方法以及深度学习中的神经网络算法等。其中，无监督聚类存在的主要问题是无法自动进行聚类数的判别，需要将评价指标人工绘制图形，然后通过肉眼观察图形最佳转折点来选取最优的聚类数，增加了人工每次调试成本。

发明内容

本申请实施例提供了一种用户画像构建方法、装置、电子设备和存储介质，以至少解决相关技术中无监督学习模型训练时聚类数的判别调试成本高的问题。

第一方面，本申请实施例提供了一种用户画像构建方法，包括：

获取用户数据；

基于所述用户数据获取基础特征数据；所述基础特征数据包括第一特征数据，所述第一特征数据为自定义特征数据；

基于所述第一特征数据和预先训练好的标签生成模型，确定对应的用户标签；其中，所述标签生成模型的训练过程包括：基于所述基础特征数据进行聚类分析至损失函数满足预设条件，得到无监督学习模型；

基于所述用户标签生成所述用户对应的画像；

其中，在所述无监督学习模型的训练过程中聚类数的确定步骤包括：

获取聚类肘图中聚类数与损失函数的对应点序列；所述聚类肘图为所述损失函数与所述聚类数的关系图；

计算相邻所述对应点与聚类数对应坐标轴所形成夹角的正切值，得到对应不同聚类数的正切值序列；

基于所述正切值序列，确定得到最佳聚类数。

在其中一些实施例中，所述基于所述第一特征数据和预先训练好的标签生成模型，确定对应的用户标签包括：

基于强化学习模型对所述第一特征数据进行参数调优，得到第二特征数据；

至少将所述第二特征数据输入预先训练好的标签生成模型，得到对应的用户标签。

在其中一些实施例中，所述基础特征数据还包括第三特征数据，所述第三特征数据为客观数据，所述标签生成模型的训练过程包括：

以所述第三特征数据为输入，以对应的结果标签为输出进行模型训练，得到监督学习模型。

在其中一些实施例中，至少将所述第二特征数据输入预先训练好的标签生成模型，得到对应的用户标签包括：

将所述第二特征数据输入预先训练好的无监督学习模型，得到抽象标签；所述抽象标签为用户的特征分类信息；或，

将所述第二特征数据输入训练好的无监督学习模型，得到抽象标签，并将所述第三特征数据输入训练好的监督学习模型，得到基础标签；所述基础特征数据还包括第三特征数据，所述第三特征数据为客观数据，所述基础标签为用户的特征描述信息。

在其中一些实施例中，基于所述标签生成所述用户对应的画像之后，还包括：

动态更新用户的基础特征数据；

根据所述基础特征数据获取对应的用户标签，并根据用户标签动态更新所述画像。

确定所述用户标签在各个维度的标签信息；所述维度包括流失概率、价格区间、偏好、权重中的至少之一；

根据所述标签信息在所述画像中对所述用户标签进行可视化展示。

在其中一些实施例中，所述基于所述第一特征数据和预先训练好的标签生成模型，确定对应的用户标签之后，还包括：

将所述用户标签进行数值化处理后输入经深度学习训练得到的特征描述模型，得到用户对应的服务建议；所述特征描述模型经训练样本训练得到，所述训练样本包括用户标签和对应的描述文本。

第二方面，本申请实施例提供了一种用户画像构建装置，包括：

用户数据获取单元，用于获取用户数据；

基础特征数据获取单元，用于基于所述用户数据获取基础特征数据；所述基础特征数据包括第一特征数据，所述第一特征数据为自定义特征数据；

标签获取单元，用于基于所述第一特征数据和预先训练好的标签生成模型，确定对应的用户标签；其中，所述标签生成模型的训练过程包括：基于所述基础特征数据进行聚类分析至损失函数满足预设条件，得到无监督学习模型；其中，在所述无监督学习模型的训练过程中聚类数的确定步骤包括：获取聚类肘图中聚类数与损失函数的对应点序列；所述聚类肘图为所述损失函数与所述聚类数的关系图；计算相邻所述对应点与聚类数对应坐标轴所形成夹角的正切值，得到对应不同聚类数的正切值序列；基于所述正切值序列，确定得到最佳聚类数；

画像生成单元，用于基于所述用户标签生成所述用户对应的画像。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的用户画像构建方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的用户画像构建方法。

相比于相关技术，本申请实施例提供的用户画像构建方法，基于所述用户数据获取基础特征数据，所述基础特征数据包括第一特征数据，所述第一特征数据为自定义特征数据；通过基于所述基础特征数据进行聚类分析至损失函数满足预设条件，得到无监督学习模型；其中，在训练过程中通过获取聚类肘图中聚类数与损失函数的对应点序列；所述聚类肘图为所述损失函数与所述聚类数的关系图；计算相邻所述对应点与聚类数对应坐标轴所形成夹角的正切值，得到对应不同聚类数的正切值序列；基于所述正切值序列，确定得到最佳聚类数，实现了自动进行聚类数的判别并自动确定最佳聚类数。将该参数纳入模型训练过程中，使选取最优聚类参数的过程完全自动化，降低了人工调参成本。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请其中一个实施例中用户画像构建方法的流程示意图；

图2是本申请其中一个实施例中在所述无监督学习模型的训练过程中聚类数确定的流程示意图；

图3是本申请其中一个实施例中确定用户标签的流程示意图；

图4是本申请其中一个实施例中用户画像构建装置的结构框图；

图5是本申请其中一个实施例中电子设备的结构示意图。

附图说明：201、用户数据获取单元；202、基础特征数据获取单元；203、标签获取单元；204、画像生成单元；30、总线；31、处理器；32、存储器；33、通信接口。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

大数据技术是以任何系统的全部数据资源为对象并从中发现数据之间表现的相关性关系的信息处理技术，目前已经广泛应用于互联网的流程优化、目标化消息及广告推送、用户个性化服务与改善等方面，成为了网络服务背后强大的后台支撑。

用户画像又称用户角色，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。在大数据时代背景下，用户信息充斥在网络中，将用户的每个具体信息抽象成标签，可以利用这些标签将用户形象具体化，从而为用户提供有针对性的服务。

本实施例提供了一种用户画像构建方法。图1是根据本申请实施例的用户画像构建方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取用户数据。

步骤S102，基于所述用户数据获取基础特征数据；所述基础特征数据包括第一特征数据，所述第一特征数据为自定义特征数据。

在一些实施例中，用户数据包括用户相关的各种类型的数据，所述用户数据可以包括用户基本数据和用户行为数据。其中，用户基本数据包括用户的基本描述信息如性别、年龄、身份等；所述用户行为数据可以是用户在预定时间段内，基于用户账户、用户数据库、用户操作日志等渠道获取到的相关的操作行为如用户浏览记录、用户操作记录、用户消费记录等，本申请不做具体限定。当然在其他实施例中，对于不同的业务场景，所述用户数据还可以包括更多其他数据类型，本申请不做具体限定。

在本实施例中，基于海量的用户数据获取基础特征数据。所述基础特征数据可以通过对所述用户数据进行提炼、归纳等方式处理得到。在一些实施例中，基础特征数据可以包括第一特征数据，所述第一特征数据不同于总访问次数、消费金额等客观数据，其可以是例如：消费水平高低、客户流失可能性（如一年内没有消费记录则在业务上认定客户流失可能性为高）、消费频率（如用户七天内消费次数）等等自定义特征数据。

步骤S103，基于所述第一特征数据和预先训练好的标签生成模型，确定对应的用户标签；其中，所述标签生成模型的训练过程包括：基于所述基础特征数据进行聚类分析至损失函数满足预设条件，得到无监督学习模型。

在本实施例中，所述标签生成模型为基于机器学习算法构建的第二特征数据与用户标签的机器学习模型。机器学习算法包括但不限于无监督学习、监督学习、半监督学习等。在本实施例中，通过所述标签生成模型，可以基于第二特征数据，获取与所述第二特征数据相匹配的用户标签的预测结果。

在一些实施例中，对于第二特征数据，可以基于无监督学习模型对单个用户标签进行自动化最优划分，业务不用关注特征取值，只需要确定特征可以划分为几个类别，给出最优化分区间数和区间范围。比如消费金额划分为很低、较低、中等、较高、很高等。具体的，基于所述基础特征数据进行聚类分析至损失函数满足预设条件，得到无监督学习模型。在一些实施例中，可以以自聚类算法模型（如K-means算法、K-medoids算法）为代理agent，对第二特征数据是否在模型训练中收敛进行验证，具体包括：确定与所述无监督学习模型对应的损失函数。具体的，单个用户标签的划分主要是根据单个特征的取值列进行自动聚类，所得用户标签的不同类别之间的差异尽可能大，同类的标签差异尽可能小，根据这样的原则构建损失函数。可以以该模型在第二特征数据集上的损失函数Cost-Function的倒数作为reward，验证所述第二特征数据在所述无监督学习模型的训练中的收敛效果。示例性地，损失函数=（类内方差/类间方差）。所述类内方差为剔除样本异常点后同类的数据的方差，所述类间方差为剔除样本异常点后不同类的数据的方差。

相关技术在无监督学习模型训练过程中，传统聚类算法没有实现聚类数的自动判别，需要人工绘制图形来选择最佳的聚类数，是一个非自动化的过程。需要将评价指标人工绘制图形，然后通过肉眼观察图形最佳转折点来选取最优的聚类数，增加了人工每次调试成本。而神经网络聚类算法能实现自动聚类，但聚类结果往往差强人意，参数也非常多，计算量很大。

如图2所示，本实施例在无监督学习模型训练过程中通过可以自动确定最佳聚类数。具体包括以下步骤：

步骤S103A，获取聚类肘图中聚类数k与损失函数L的对应点序列（k,L）。其中，所述聚类肘图为所述损失函数与所述聚类数的关系图。通过所述聚类肘图可以确定不同聚类数k对应的损失函数值L，得到对应点序列。在一些实施例中，对应点序列确定之前需要剔除样本异常点，样本异常点为明显错误的数据样本，剔除样本异常点可以避免少数异常点带来的计算误差。

步骤S103B，计算相邻所述对应点与聚类数对应坐标轴所形成夹角的正切值，得到对应不同聚类数的正切值序列。具体的，取对应点序列中任意相邻的两个对应点（k_i,L_i）和（k_i+1,L_i+1）确定第一夹角边，基于聚类肘图中聚类数对应坐标轴确定第二夹角边，计算第一夹角边和第二夹角边所形成夹角的正切值，作为所述对应点对应聚类数k_i的正切值s（即tanα），遍历所有相邻对应点序列进行计算得到对应不同聚类数的正切值序列。需要说明的是，在计算过程中，所述正切值s取绝对值。

步骤S103C，基于所述正切值序列，确定得到最佳聚类数。具体的，当聚类数增加时，损失函数值呈逐渐下降趋势且趋于稳定，此时停止迭代，基于正切值序列计算得到正切值的突变点。

在一些实施方式中，首先对所述正切值序列中的正切值两两进行差分计算s(t)-s(t-1)，得到差分值序列，差分值序列种每一差分值对应一个索引t，由于差分计算后差分值序列数据量减少并小于聚类数，因此这里t<=k。然后将每一个差分值与差分值序列的样本统计均值进行比对，将差分值中的最大值与差分次数之和确定为最佳聚类数。其中，统计均值可以是差分值序列中位值、均值、方差等，本申请在此并不限定。优选的，为了减少计算量，可以预设差分值序列的选值窗口w，即数据量范围，在选值窗口w内进行差分计算。例如，对于数据点较少的聚类数确定，我们可以预设1<=w<=3。

在另一些实施方式中，基于所述正切值序列，以聚类数k和对应聚类数k的正切值tanα进行多项式曲线拟合，曲线拟合的误差在给定范围内即可。其中以p阶多项式为例，y=α1*k+α2*k^2+...+αm*k^p，然后依次按聚类数k递增的顺序求导，计算曲线在各个聚类数k处的梯度值，梯度值最大时对应的索引+1即为最佳聚类数。

当然，基于所述正切值序列确定得到最佳聚类数的具体的计算方式本申请在此并不限定，只要能够基于正切值序列计算得到正切值的突变点，进而确定聚类肘图中肘部处的位置对应的聚类数即可。通过自动识别聚类肘图进行聚类数的判别，可以自动确定聚成几类。将该参数纳入模型，使选取最优聚类参数的过程完全自动化，降低了人工调参成本。

步骤S104，基于所述用户标签生成所述用户对应的画像。

通过基于所述用户标签获取用户对应的画像，可以对用户的基本特征、行为特征、消费特征、渠道特征等几百项特征进行刻画，形成个性化的用户特征描述。

综上，本申请实施例提供的用户画像构建方法，基于所述用户数据获取基础特征数据，所述基础特征数据包括第一特征数据，所述第一特征数据为自定义特征数据；通过基于所述基础特征数据进行聚类分析至损失函数满足预设条件，得到无监督学习模型；其中，在训练过程中通过获取聚类肘图中聚类数与损失函数的对应点序列；所述聚类肘图为所述损失函数与所述聚类数的关系图；计算相邻所述对应点与聚类数对应坐标轴所形成夹角的正切值，得到对应不同聚类数的正切值序列；基于所述正切值序列，确定得到最佳聚类数，实现了自动进行聚类数的判别并自动确定最佳聚类数。将该参数纳入模型，使选取最优聚类参数的过程完全自动化，降低了人工调参成本。

下面通过优选实施例对本申请实施例进行描述和说明。

如图3所示，在一些实施例中，步骤S103包括以下步骤：

步骤S1031，基于强化学习模型对所述第一特征数据进行参数调优，得到第二特征数据；

在本实施例中，所述自定义特征数据中的参数包括根据经验人为主观定义的分割点，具有很大的随意性，不同于总访问次数、消费金额等客观特征，因此无法准确表征用户数据的基本情况。例如：对于流失的定义，很多情况下是业务自定义一个经验参数，如365天未来访即认为流失。但很可能365天不是最优参数，这也是业务在确定第一特征数据时的困扰，即第一特征数据涉及到的参数带有不确定性，非最优参数。因此本实施例中第一特征数据的确定所涉及到的参数是需要自适应的，而不是一个固定的值。在实际过程中需要对所述第一特征数据进行调优，避免后续进行模型训练时，纳入模型的原始特征带有较强的主观性，导致模型的训练效果不理想。

在本实施例中，强化学习是机器学习的范式和方法论之一，指的是智能体（agent）与环境（enviroment）交互过程中，通过不断学习获得某种策略（policy），以达成奖励（reward）最大化的过程。可以理解，利用强化学习模型进行参数优化为本领域的现有技术，本实施例在此不做赘述。

在一些实施例中，首先对所述第一特征数据进行数据预处理，包括获取第一特征数据（如确定访问频率为客户7天内的访问次数）后进行数据清洗（如异常值剔除等）等预处理。

然后基于所述第一特征数据训练强化学习模型，并确定训练得到的强化学习模型的第一奖励值。具体的，以强化学习模型作为代理agent，以所述第一特征数据为训练集，将训练的过程视为agent所采取的动作action，通过奖励函数（如F-score等）确定训练得到的强化学习模型的分数，将其作为采取action所获得的第一奖励值reward1。

接着基于所述第一奖励值reward1调整所述第一特征数据（如将“访问频率为用户7天内的访问次数”调整为“访问频率为用户14天内的访问次数”），并基于调整后的第一特征数据沿奖励值最大化方向迭代执行上述步骤，得到第二奖励值reward2，直到满足迭代结束条件。在一些实施例中，可以预设第一特征数据对应的窗口序列，即第一特征数据的可选的参数序列对应的各个窗口区间，调整时取不同的参数序列对不同的窗口区间进行迭代。所述迭代结束条件可以是奖励值达到最大或奖励值不再发生明显变化等。具体的，当所述第二奖励值reward2大于所述第一奖励值reward1时，继续迭代上述训练过程；当所述第二奖励值reward2达到最大值或所述第二奖励值reward2与所述第一奖励值reward1之差处于预设阈值范围内时，结束迭代训练过程。

最后输出窗口序列中调整所述第一特征数据得到的最优窗口区间对应的第二特征数据，该数据即为调整第一特征数据得到的最优参数。

相关技术中，强化学习主要是优化模型内部的参数，比如学习速率、深度等。本申请通过上述步骤，可以在对标签生成模型进行训练之前，对输入模型的外部参数进行自动化调优，得到第二特征数据。实现了对模型外部参数进行寻优，避开了业务中自定义特征数据的主观性、不合理性的风险，从而避免模型的输入特征中的主观性参数不合理给模型训练结果带来较大偏差，保证了模型训练效果。通过至少将所述第二特征数据输入预先训练好的标签生成模型，得到对应的用户标签，基于所述用户标签生成所述用户对应的画像，保证了用户画像的准确性。

步骤S1032，至少将所述第二特征数据输入预先训练好的标签生成模型，得到对应的用户标签。通过所述标签生成模型，可以基于第二特征数据，获取与所述第二特征数据相匹配的用户标签的预测结果。

在上述实施例的基础上，在一种具体的实施方式中，所述基础特征数据包括第一特征数据，则至少将所述第二特征数据输入预先训练好的无监督学习模型，得到对应的用户标签包括：将所述第二特征数据输入预先训练好的标签生成模型，得到抽象标签。

在另一种具体的实施方式中，所述基础特征数据还包括第三特征数据，所述第三特征数据为客观数据，则至少将所述第二特征数据输入预先训练好的标签生成模型，得到对应的用户标签包括：将所述第二特征数据输入训练好的无监督学习模型，得到抽象标签，并将所述第三特征数据输入训练好的监督学习模型，得到基础标签；所述基础标签为用户的特征描述信息如胸围、年龄、性别等基础数据，所述抽象标签为用户的特征分类信息，如消费能力高低等。

可以理解，所述基础特征数据还可以是其他数据类型。通过上述步骤，对于不同的基础特征数据类型，利用标签生成模型可以得到不同类型的用户标签，不用数据类型对应用户标签的种类、范围、数量不同。

在上述实施例的基础上，在其中一些实施例中，所述标签生成模型的训练过程包括：

以所述基础特征数据为输入，以对应的结果标签为输出进行模型训练，得到监督学习模型。具体的，标签生成模型包括监督学习模型，监督学习模型可以通过构建包含数据集与用户标签集的训练样本，以数据集为标签生成模型的输入，以对应用户标签集为标签生成模型的输出进行训练，得到训练完备的标签生成模型。其中，所述监督学习模型可以是循环神经网络RNN模型如LSTM（Long Short-Term Memory，长短期记忆网络）模型、GBDT(Gradient Boosting Decision Tree，梯度提升决策树)模型等，本申请在此并不限定。

在本实施例中，对于第三特征数据，在监督学习模型训练完成之后，可以将经训练的监督学习模型提供到具体的应用场景下，使用经训练的监督学习模型来进行标签预测，得到如偏好颜色、流失可能性、推荐品类、子类及商品等预测类的用户标签。

在上述实施例的基础上，在其中一些实施例中，基于所述标签生成所述用户对应的画像之后，还包括：

步骤S1061，动态更新用户的基础特征数据。

步骤S1071，根据所述基础特征数据获取对应的用户标签，并根据用户标签动态更新所述画像。

在本实施例中，基础特征数据是动态更新的。用户数据实时生成，因此所述第三特征数据不是固定不变的，同时第一特征数据作为自定义特征数据也不是固定不变的，它会随着数据样本变化、模型预测准确度以及实际业务使用效果的反馈来进行修正并动态更新。比如流失定义的天数参数，今天用户产生了购物或访问行为，用户流失可能性标签值降低。

在本实施例中，可以根据动态更新得到的基础特征数据构建用户标签，实现标签的实时或定时更新，使画像中的标签对时间动态变化，形成画像云。在一些实施例中，可以写到数据库中，业务直连数据库进行实时展示。

步骤S1062，确定所述用户标签在各个维度的标签信息；所述维度包括流失概率、价格区间、偏好、权重中的至少之一。

在本实施例中，可以将用户标签从各个维度进行自动化分类。在一些实施例中，可以将预设的流失模型、价格区间模型、偏好模型、权重模型等融入画像云中，对用户标签进行自动化分类，得到各个维度的标签信息如：流失概率低、推荐的价格区间为5000-7000、偏好蓝色，流失概率的特征权重是0.28等标签信息。

在一些实施例中，同时考虑标签的稀有性以及标签与消费的相关性，两者综合得到用户标签最终标签权重，将训练得到的用户标签给出特征的权重，实现画像云的个性化展示。

步骤S1072，根据所述标签信息在所述画像中对所述用户标签进行可视化展示。

在本实施例中，当得到用户标签在各个维度的标签信息后，可以对用户标签进行可视化展示。展示方式和展示对象可根据具体的业务需求而定，可根据用户画像进行动态更新，本申请在此并不限定。示例性地，可以将与消费相关性高且特征突出的标签进行放大展示，便于随时去筛选用户，制定对应的营销策略。

在上述实施例的基础上，在其中一些实施例中，所述基于所述第一特征数据和预先训练好的标签生成模型，确定对应的用户标签之后，还包括：

将所述用户标签进行数值化处理后输入经深度学习训练得到的特征描述模型，得到用户对应的服务建议。通过对服务建议的自动生成，不仅避免了人为写用户特征描述的繁琐，实现了更加智能化的服务，而且可以帮助顾问随时随地充分了解、更好地服务客户，同时更好地针对用户制定个性化营销策略。

其中，所述特征描述模型经训练样本训练得到。在一些实施例中，特征描述模型的训练过程包括：

首先获取训练样本，所述训练样本包括用户标签和对应的描述文本。其中，所述用户标签可以通过上述标签生成模型训练得到，也可以是自定义用户标签，用户标签对应的描述文本可以利用爬虫技术抓取大量关于用户形象描述的文本，也可以搜集现有的客户描述文本。

然后对所述用户标签和对应的描述文本进行分词和语料清洗，如去掉无意义的符号等。接着对所述用户标签和所述描述文本进行数值化处理，将文本转为模型可训练的数值化特征，得到标签样本和对应的描述向量。在一些实施例中，当用户标签对应的描述文本中的某一特征词出现的次数较多，在其他描述文本中出现的较少，则这个特征词向量化后具有较大权重，这时可以将对应的描述向量表示成高维度向量。示例性地，对于描述文本“该客户消费能力较强，活跃度很高，酷爱休闲类”，经分词后得到【该，客户，消费能力，较强，活跃度，很高，酷爱，休闲类】，经语料清洗后剔除无意义的词，可以得到【客户，消费能力，较强，活跃度，很高，酷爱，休闲类】，经数值化处理后可以得到描述文本对应的描述向量[1,1,1,1,1,1,1,0,0,0]。进一步地，将描述向量赋予各个特征词的权重，可以得到描述文本对应的高维度向量[0.2,0.01,0.0035,0.67,........]需要说明的是，为了表示简单直观，只考虑描述文本中针对该用户特征词是否出现进行赋值，若出现则为1，没出现则为0。

最后以所述标签样本为输入，以对应的描述向量为输出对深度学习模型进行训练，得到训练完备的特征描述模型。其中，所述深度学习模型可以是RNN, 双向RNN, LSTM,GRU等序列模型，本申请并不限定。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种用户画像构建装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本申请实施例的用户画像构建装置的结构框图，如图4所示，该装置包括：用户数据获取单元201、基础特征数据获取单元202、标签获取单元203和画像生成单元204。

用户数据获取单元201，用于获取用户数据；

基础特征数据获取单元202，用于基于所述用户数据获取基础特征数据；所述基础特征数据包括第一特征数据，所述第一特征数据为自定义特征数据；

标签获取单元203，用于基于所述第一特征数据和预先训练好的标签生成模型，确定对应的用户标签；其中，所述标签生成模型的训练过程包括：基于所述基础特征数据进行聚类分析至损失函数满足预设条件，得到无监督学习模型；其中，在所述无监督学习模型的训练过程中聚类数的确定步骤包括：获取聚类肘图中聚类数与损失函数的对应点序列；所述聚类肘图为所述损失函数与所述聚类数的关系图；计算相邻所述对应点与聚类数对应坐标轴所形成夹角的正切值，得到对应不同聚类数的正切值序列；基于所述正切值序列，确定得到最佳聚类数；

画像生成单元204，用于基于所述用户标签生成所述用户对应的画像。

在其中一些实施例中，标签获取单元203包括：第二特征数据获取模块和用户标签获取模块。

第二特征数据获取模块，用于基于强化学习模型对所述第一特征数据进行参数调优，得到第二特征数据；

用户标签获取模块，用于至少将所述第二特征数据输入预先训练好的标签生成模型，得到对应的用户标签。

在其中一些实施例中，所述基础特征数据还包括第三特征数据，所述第三特征数据为客观数据，标签获取单元203还包括：监督学习模型获取模块。

监督学习模型获取模块，用于以所述基础特征数据为输入，以对应的结果标签为输出进行模型训练，得到监督学习模型。

在其中一些实施例中，标签获取单元203包括：第一标签获取模块和第二标签获取模块。

第一标签获取模块，用于将所述第二特征数据输入预先训练好的无监督学习模型，得到抽象标签；所述抽象标签为用户的特征分类信息；

第二标签获取模块，用于将所述第二特征数据输入训练好的无监督学习模型，得到抽象标签，并将所述第三特征数据输入训练好的监督学习模型，得到基础标签；所述基础特征数据还包括第三特征数据，所述第三特征数据为客观数据，所述基础标签为用户的特征描述信息。

在其中一些实施例中，所述用户画像构建装置还包括：基础特征数据更新单元和画像更新单元。

基础特征数据更新单元，用于动态更新用户的基础特征数据；

画像更新单元，用于根据所述基础特征数据获取对应的用户标签，并根据用户标签动态更新所述画像。

在其中一些实施例中，所述用户画像构建装置还包括：标签信息获取单元和可视化显示单元。

标签信息获取单元，用于确定所述用户标签在各个维度的标签信息；所述维度包括流失概率、价格区间、偏好、权重中的至少之一；

可视化显示单元，用于根据所述标签信息在所述画像中对所述用户标签进行可视化展示。

在其中一些实施例中，所述用户画像构建装置还包括服务建议生成单元。

服务建议生成单元，用于将所述用户标签进行数值化处理后输入经深度学习训练得到的特征描述模型，得到用户对应的服务建议；所述特征描述模型经训练样本训练得到，所述训练样本包括用户标签和对应的描述文本。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

另外，结合图5描述的本申请实施例用户画像构建方法可以由电子设备来实现。图5为根据本申请实施例的电子设备的硬件结构示意图。

电子设备可以包括处理器31以及存储有计算机程序指令的存储器32。

具体地，上述处理器31可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器32可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器32可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（SolidState Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（Universal SerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器32可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器32可在数据处理装置的内部或外部。在特定实施例中，存储器32是非易失性（Non-Volatile）存储器。在特定实施例中，存储器32包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（RandomAccess Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（Erasable ProgrammableRead-Only Memory，简称为EPROM）、电可擦除PROM（Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM）、电可改写ROM（Electrically Alterable Read-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（Static Random-Access Memory，简称为SRAM）或动态随机存取存储器（Dynamic Random Access Memory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器（Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器32可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器31所执行的可能的计算机程序指令。

处理器31通过读取并执行存储器32中存储的计算机程序指令，以实现上述实施例中的任意一种用户画像构建方法。

在其中一些实施例中，电子设备还可包括通信接口33和总线30。其中，如图5所示，处理器31、存储器32、通信接口33通过总线30连接并完成相互间的通信。

通信接口33用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口33还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线30包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线30包括但不限于以下至少之一：数据总线（Data Bus）、地址总线（Address Bus）、控制总线（ControlBus）、扩展总线（Expansion Bus）、局部总线（Local Bus）。举例来说而非限制，总线30可包括图形加速接口（Accelerated Graphics Port，简称为AGP）或其他图形总线、增强工业标准架构（Extended Industry Standard Architecture，简称为EISA）总线、前端总线（FrontSide Bus，简称为FSB）、超传输（Hyper Transport，简称为HT）互连、工业标准架构（Industry Standard Architecture，简称为ISA）总线、无线带宽（InfiniBand）互连、低引脚数（Low Pin Count，简称为LPC）总线、存储器总线、微信道架构（Micro ChannelArchitecture，简称为MCA）总线、外围组件互连（Peripheral Component Interconnect，简称为PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（Serial AdvancedTechnology Attachment，简称为SATA）总线、视频电子标准协会局部（Video ElectronicsStandards Association Local Bus，简称为VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线30可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备可以基于获取到的程序指令，执行本申请实施例中的用户画像构建方法，从而实现结合图1描述的用户画像构建方法。

另外，结合上述实施例中的用户画像构建方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种用户画像构建方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用户画像构建方法，其特征在于，包括：

获取用户数据；

基于所述用户标签生成所述用户对应的画像；

基于所述正切值序列，确定最佳聚类数；

所述基于所述第一特征数据和预先训练好的标签生成模型，确定对应的用户标签包括：基于强化学习模型对所述第一特征数据进行参数调优，得到第二特征数据；至少将所述第二特征数据输入预先训练好的标签生成模型，得到对应的用户标签；

所述基于所述正切值序列，确定最佳聚类数包括以下至少之一：

对所述正切值序列中的正切值两两进行差分计算，得到差分值序列，差分值序列种每一差分值对应一个索引，索引<=聚类数，将每一个差分值与差分值序列的样本统计均值进行比对，将差分值中的最大值与差分次数之和确定为最佳聚类数；

基于所述正切值序列，以聚类数和对应聚类数的正切值进行多项式曲线拟合，曲线拟合的误差在给定范围内，依次按聚类数递增的顺序求导，计算曲线在各个聚类数处的梯度值，梯度值最大时对应的索引+1即为最佳聚类数。

2.根据权利要求1所述的用户画像构建方法，其特征在于，所述基础特征数据还包括第三特征数据，所述第三特征数据为客观数据，所述标签生成模型的训练过程包括：

3.根据权利要求1所述的用户画像构建方法，其特征在于，至少将所述第二特征数据输入预先训练好的标签生成模型，得到对应的用户标签包括：

将所述第二特征数据输入训练好的无监督学习模型，得到抽象标签，并将第三特征数据输入训练好的监督学习模型，得到基础标签；所述基础特征数据还包括第三特征数据，所述第三特征数据为客观数据，所述基础标签为用户的特征描述信息。

4.根据权利要求1所述的用户画像构建方法，其特征在于，基于所述标签生成所述用户对应的画像之后，还包括：

动态更新用户的基础特征数据；

5.根据权利要求1所述的用户画像构建方法，其特征在于，基于所述标签生成所述用户对应的画像之后，还包括：

6.根据权利要求1所述的用户画像构建方法，其特征在于，所述基于所述第一特征数据和预先训练好的标签生成模型，确定对应的用户标签之后，还包括：

7.一种用户画像构建装置，其特征在于，包括：

用户数据获取单元，用于获取用户数据；

基于所述正切值序列，以聚类数和对应聚类数的正切值进行多项式曲线拟合，曲线拟合的误差在给定范围内，依次按聚类数递增的顺序求导，计算曲线在各个聚类数处的梯度值，梯度值最大时对应的索引+1即为最佳聚类数；

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的用户画像构建方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的用户画像构建方法。