CN111861545B

CN111861545B - 用户行为画像的构建方法、装置、设备及存储介质

Info

Publication number: CN111861545B
Application number: CN202010573448.8A
Authority: CN
Inventors: 刘婧; 钟盛海; 肖崇蕙; 王丽宏; 闫昊; 马莉雅; 郭舒; 黄洪仁; 王士承; 黑一鸣
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2022-10-18
Anticipated expiration: 2040-06-22
Also published as: CN111861545A

Abstract

本申请涉及一种用户行为画像的构建方法、装置、设备及存储介质，所述方法包括：构建用户行为画像模型；生成用户行为特征向量和生成行为对象特征向量；计算分组判别结果与设定分组的分组误差，和，将用户行为特征向量和行为对象特征向量重构生成行为矩阵，并计算重构生成的行为矩阵为用户行为矩阵的生成概率；根据最小化模型方法，优化用户行为画像模型，更新用户行为画像模型参数；用户行为画像模型构建成功，向构建成功的用户行为画像模型输入用户行为数据，获得与用户行为数据对应的用户行为画像。用以解决现有的用户行为画像模型构建时更专注于用户的共性，难以获取具有个性化且可区分性的用户行为画像的问题。

Description

用户行为画像的构建方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种用户行为画像的构建方法、装置、设备及存储介质。

背景技术

用户行为画像作为建立于一系列真实的用户行为数据之上的目标用户模型，已经成功应用于互联网企业与各大公司的商品推荐、好友发现等传统的商业应用。目前，在异常用户发现、商品精准推广、用户个性化服务等新背景中，用户画像的个性化特征发挥着重大的作用。

目前构建用户行为画像进行用户行为描述的方式主要有两类方法:基于数据统计的方法和基于智能学习模型的方法。基于数据统计的方法主要是依赖于常用的统计方法获取原始数据的统计特征，并直接用其构建用户的行为画像；基于智能学习模型的方法主要是根据行为数据的特性和用户行为之间的共性构建对应的端到端的学习算法，直接通过用户数据学习用户的行为画像。当前的基于统计的用户行为画像仅能表示用户行为的统计信息，如果用户的用户行为画像存在其他关联时难以有效的判别该用户的差异特征和该用户准确的分组。此外，目前基于智能学习模型的方法构建的用户行为画像更专注于用户行为的表征和用户行为之间的共性，无法有效的量化用户之间的差异性。

发明内容

本申请提供了一种用户行为画像的构建方法、装置、设备及存储介质，用以解决现有的用户行为画像模型构建时更专注于用户的共性，难以获取具有个性化且可区分性的用户行为画像的问题。

第一方面，本申请提供了一种用户行为画像的构建方法，包括：

构建用户行为画像模型，其中，所述用户行为画像模型包括：用户行为特征生成模块和行为对象特征生成模块，所述用户行为特征生成模块包括用户行为分组变量参数和用户行为分布变量参数，所述行为对象特征生成模块包括行为对象分组变量参数和行为对象分布变量参数；

对所述用户行为分组变量参数和所述用户行为分布变量参数初始化处理，获得用户行为分组分布参数，对所述行为对象分组变量参数和所述行为对象分布变量参数初始化处理，获得行为对象分组分布参数；

由所述用户行为特征生成模块根据所述用户行为分组分布参数生成用户行为特征向量，由所述行为对象特征生成模块根据所述行为对象分组分布参数生成行为对象特征向量；

对生成的所述用户行为特征向量进行分组设定，获得设定分组，并计算分组判别结果与所述设定分组的分组误差，和，将所述用户行为特征向量和所述行为对象特征向量重构生成行为矩阵，并计算所述重构生成的所述行为矩阵为用户行为矩阵的生成概率，其中，所述分组判别结果为：给所述用户行为画像模型添加分组权重变量后获得的分组，所述用户行为矩阵通过用户行为数据构建得到；

根据最小化模型方法，优化所述用户行为画像模型，更新所述用户行为画像模型的所述用户行为分组变量参数、所述用户行为分布变量参、所述行为对象分组变量参数和所述行为对象分布变量参数；

当更新后的所述用户行为画像模型的所述分组误差和所述生成概率之和小于预设阈值时，所述用户行为画像模型构建成功，向构建成功的所述用户行为画像模型输入所述用户行为数据，获得与所述用户行为数据对应的用户行为画像。

可选地构建用户行为画像模型之前，还包括：

获取所述用户的用户行为数据；

提取所述用户行为数据的关键字段，构建用户行为记录，其中，所述关键字段包括：唯一标识、行为对象和发生时间；

遍历所述用户行为记录，滤除所述关键字段缺失的所述用户行为记录，并根据滤除后的所述用户行为记录的所述关键字段构建所述用户行为矩阵；

根据所述关键字段，统计用户行为的发生频次，并采用所述发生频次更新所述用户行为矩阵中对应的频度值。

可选地，对所述用户行为分组变量参数和所述用户行为分布变量参数初始化处理，获得用户行为分组分布参数之后，还包括：

给所述用户行为画像模型添加所述分组权重变量，所述分组权重变量用于减小所述分组判别结果与所述设定分组的所述分组误差；

对添加所述分组权重变量后的用户行为画像模型进行初始化处理，通过所述用户行为特征生成模块获得所述用户行为特征向量；

根据所述获得的用户行为特征向量，获得所述用户行为特征向量对应的分组判别结果。

可选地，由所述用户行为特征生成模块根据所述用户行为分组分布参数生成用户行为特征向量，包括：

由所述用户行为特征生成模块根据所述用户行为分组变量参数生成所述用户行为特征向量的分组划分概率；

选择所述分组划分概率大于预设概率值的分组划分概率所对应的组别；

根据所述组别，生成所述组别对应的用户行为特征向量。

可选地，计算分组判别结果与所述设定分组的分组误差，包括：

通过基于概率的分类算法，对所述分组判别结果对应的第二标签和所述设定分组对应的第一标签进行比较计算；

根据比较结果，确定所述分组判别结果与所述设定分组的分组误差；

其中，所述第一标签为所述设定分组中的用户行为特征，所述第二标签为所述分组判别结果中的用户行为特征。

可选地，计算所述分组判别结果与所述设定分组的分组误差之后，还包括：

获得分组误差计算结果；

当所述分组误差计算结果小于预设误差值时，不调整所述分组权重变量；

当所述分组误差计算结果不小于预设误差值时，调整所述分组权重变量，并在调整所述分组权重变量后，获得调整后的所述用户行为特征向量。

可选地，向构建成功的所述用户行为画像模型输入所述用户行为数据，获得与所述用户行为数据对应的用户行为画像之后，还包括：

通过构建成功的所述用户行为画像模型获得待识别用户的用户行为画像；

将所述获得的待识别用户的用户行为画像在画像库中进行距离判别；

当距离判别结果小于预设距离值时，判定所述待识别用户认证成功。

第二方面，本申请提供了一种用户行为画像的构建装置，包括：

构建单元，用于构建用户行为画像模型，其中，所述用户行为画像模型包括：用户行为特征生成模块和行为对象特征生成模块，所述用户行为特征生成模块包括用户行为分组变量参数和用户行为分布变量参数，所述行为对象特征生成模块包括行为对象分组变量参数和行为对象分布变量参数；

获得单元，用于对所述用户行为分组变量参数和所述用户行为分布变量参数初始化处理，获得用户行为分组分布参数，对所述行为对象分组变量参数和所述行为对象分布变量参数初始化处理，获得行为对象分组分布参数；

生成单元，用于由所述用户行为特征生成模块根据所述用户行为分组分布参数生成用户行为特征向量，由所述行为对象特征生成模块根据所述行为对象分组分布参数生成行为对象特征向量；

判别单元，用于对生成的所述用户行为特征向量进行分组设定，获得设定分组，并计算分组判别结果与所述设定分组的分组误差，和，将所述用户行为特征向量和所述行为对象特征向量重构生成行为矩阵，并计算所述重构生成的行为矩阵为用户行为矩阵的生成概率，其中，所述分组判别结果为：给所述用户行为画像模型添加分组权重变量后获得的分组，所述用户行为矩阵通过用户行为数据构建得到；

更新单元，用于根据最小化模型方法，优化所述用户行为画像模型，更新所述用户行为画像模型的所述用户行为分组变量参数、所述用户行为分布变量参、所述行为对象分组变量参数和所述行为对象分布变量参数；

判定单元，用于当更新后的所述用户行为画像模型的所述分组误差和所述生成概率之和小于预设阈值时，所述用户行为画像模型构建成功，向构建成功的所述用户行为画像模型输入所述用户行为数据，获得与所述用户行为数据对应的用户行为画像。

第三方面，本申请提供了一种电子设备，包括：处理器、通信组件、存储器和通信总线，其中，处理器、通信组件和存储器通过通信总线完成相互间的通信；所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器中所存储的程序，实现所述的用户行为画像的构建方法。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现所述的用户行为画像的构建方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：本申请实施例提供的该方法，通过构建用户行为画像模型，对该用户行为画像模型参数进行处理，生成用户行为特征向量和行为对象特征向量，更好的获得用户的用户行为特征和行为对象特征，即获得该用户所具有的各项特征。进一步地，对生成的用户行为特征向量进行分组设定，获得设定分组，并和添加分组权重变量后获得的分组判别结果进行分组误差计算，和，将生成的用户行为特征向量和行为对象特征向量进行矩阵重构，并计算重构生成的行为矩阵为用户行为矩阵的生成概率。通过添加分组权重变量参数，可以利用分组权重对不同分组用户的行为画像作出明显的区分，使该用户行为画像模型生成具有个性化和差异性的用户行为画像。再者，通过根据最小化模型方法优化该用户行为画像模型，并更新该用户行为画像模型的用户行为分组变量参数、用户行为分布变量参、行为对象分组变量参数和行为对象分布变量参数，直至更新后的用户行为画像模型的分组误差和生成概率之和小于预设阈值时，所述用户行为画像模型构建成功。此时的用户行为画像模型可以生成待识别用户的具有普遍性的和个性化的用户行为画像，且可以利用分组权重对不同分组用户的行为画像做出明显的区分。进一步的，商家可以根据生成的用户行为画像的普遍性特征进行用户商品推荐、好友发现等任务，同时可以利用用户行为画像的个性化特性进行用户认证、商品精准推广、用户个性化服务等对用户个体和群体具有偏向性的商业任务。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中用户行为画像的构建方法流程示意图；

图2为本申请实施例中用户行为画像模型的计算架构结构示意图；

图3为本申请实施例中用户行为画像模型的参数更新流程示意图；

图4为本申请实施例中用户行为画像的构建装置结构示意图；

图5为本申请实施例中电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中，提供了一种用户行为画像的构建方法，该方法可以应用在智能终端设备中，例如，手机、电脑、ipad，也可以应用在安装在智能终端设备的应用程序中，例如，购物类应用程序、游戏类应用程序、新闻类应用程序、视频类应用程序等，也可以应用在服务器中。如图1所示，该方法的构建过程具体如下：

步骤101，构建用户行为画像模型，其中，该用户行为画像模型包括：用户行为特征生成模块和行为对象特征生成模块，用户行为特征生成模块包括用户行为分组变量参数和用户行为分布变量参数，行为对象特征生成模块包括行为对象分组变量参数和行为对象分布变量参数。

一个具体实施例中，在构建用户行为画像模型时，该模型不具备任何用户行为特征，只是搭建该用户行为画像的计算框架。如图2所示，该用户行为画像模型的计算框架，包括：用户行为特征生成模块201、行为对象特征生成模块202和模型优化评估模块203。其中，该用户行为特征生成模块201用于将用户行为分组，进而生成用户行为特征向量，即用户行为画像；行为对象特征生成模块202用于将行为对象分组，进而生成行为对象特征向量；模型优化评估模块203，包括：误差评估模块2031和重构概率评估模块2032，误差评估模块2031用户计算用户错误分组的距离误差，即通过计算分组判别结果和设定分组之间的差异信息来限制不同分组用户的用户行为画像之间的类别差异；重构概率评估模块2032用于计算用户行为画像和行为对象特征向量重构成用户行为矩阵的概率大小。通过结合两种不同类型的误差计算方法，用以学习高质量的用户行为特征和行为对象特征，让用户行为画像具有较高的实用性，并且能具有较好的群体判别性。

步骤102，对用户行为分组变量参数和用户行为分布变量参数初始化处理，获得用户行为分组分布参数，对行为对象分组变量参数和行为对象分布变量参数初始化处理，获得行为对象分组分布参数。

一个具体实施例中，假设该用户行为画像模型的参数及其数据的分布如下：

(1)用户行为分组分布符合贝塔(Beta)分布：

(2)行为对象分组分布符合Beta分布：

进一步地，通过初始化处理获得：

(3)用户行为分组分布参数的数据为：

(4)行为对象分组分布参数的数据为：

其中，u_i表示第i个用户行为；

表示第i个用户行为分组分布参数；v_j表示第j个行为对象；

表示第j个行为对象分组分布参数；

表示第i个用户行为在第m个分组的可能性；

表示用户行为第m个分组的参数；

表示第j个行为对象在第n个分组的可能性；

表示表示行为对象第n个分组的参数，用户行为分组分布参数的初始均值为0，行为对象分组分布参数的初始均值为0；

且

且

t表示遍历已存在分组时的下标，t小于当前计算的分组的个数。

步骤103，由用户行为特征生成模块根据用户行为分组分布参数生成用户行为特征向量，由行为对象特征生成模块根据行为对象分组分布参数生成行为对象特征向量。

一个具体实施例中，用户行为特征生成模块根据用户行为分组变量参数生成用户行为特征向量的分组划分概率，可以定义为第一分组划分概率，选择第一分组划分概率大于第一预设概率值的分组划分概率所对应的组别。其中，该组别可能为一组也可能为多组。进一步地，根据该组别生成该用户的用户行为特征向量，即用户行为画像。另外，行为对象特征生成模块根据行为对象分组变量参数生成行为对象特征的分组划分概率，可以定义为第二分组划分概率，选择第二分组划分概率大于第二预设概率值的分组划分概率所对应的组别，其中，该组别可能为一组也可能为多组。进一步地，根据组别生成该用户的行为对象特征向量。

其中，假设用户行为特征向量的基础单位符合k维高斯(Gaussian)分布：

假设行为对象特征向量的基础单位符合k维Gaussian分布：

生成的用户行为特征向量为：

生成的行为对象特征向量为：

其中，

表示用户第i个用户行为对应分组的序号；

表示第i个用户行为对应分组分布的均值参数；

表示第i个用户行为对应分组的方差参数；

表示用户第j个行为对象对应分组的序号；

表示第j个行为对象对应分组分布的均值参数；

第j个行为对象对应分组分布的方差参数。

其中，大于第一预设概率值的分组划分概率所对应的第二组别的下标可以表示为：

其中，

表示第i个用户行为在第m个分组的可能性，最终将

最大的m作为该用户行为分组的索引号。另外，大于第二预设概率值的分组划分概率所对应的第三组别的下标可以表示为：

其中，

表示第i个用户行为在第n个分组的可能性，最终将

最大的n作为该行为对象分组的索引号。

又一具体实施例中，在用户行为特征向量生成的过程中，需要通过狄利克雷分布算法对用户行为进行聚类分析，并生成相对应的组别，然后根据该组别的数据的分组分布生成对应的用户行为特征向量；在行为对象特征向量生成的过程中，需要通过狄利克雷分布算法对行为对象进行聚类分析，并生成相对应的组别，然后根据该组别的数据的分组分布生成对应的行为对象特征向量。通过采用狄利克雷分布算法对用户行为和行为对象进行聚类分析，有利于减少模型的参数数量，提高模型的训练速度，加速模型的收敛。

步骤104，对生成的用户行为特征向量进行分组设定，获得设定分组，并计算分组判别结果与设定分组的分组误差，和，将用户行为特征向量和行为对象特征向量重构生成行为矩阵，并计算重构生成的行为矩阵为用户行为矩阵的生成概率，其中，分组判别结果为：给所述用户行为画像模型添加分组权重变量后获得的分组，用户行为矩阵通过用户行为数据构建得到。

一个具体实施例中，用户行为矩阵的构建过程为：通过数据接口获取用户某个时间段的用户行为数据，该时间段可以是近期一个月、半年或者一年等。然后，提取该用户行为数据的关键字段，包括：唯一标识、行为对象和发生时间等，并利用这些关键字段构成的数据信息构建用户行为记录。下一步，遍历该用户行为记录，滤除掉关键字段缺失和重复的用户行为记录，并根据滤除后的用户行为记录的关键字段建立用户行为矩阵R，用户行为矩阵的初始值为0。

例如，通过数据接口获取用户一个月内，打开购物类应用程序的程序名称、打开时间和打开次数，打开游戏类应用程序的程序名称、打开时间和打开次数，打开视频类应用程序的程序名称、打开时间和打开次数，并利用这些关键字段构成的数据信息构建用户行为记录。其中，这些关键字段中，打开时间和打开次数称为用户行为数据，程序名称称为行为对象数据。

具体地，可以将关键字段作为用户行为矩阵的横坐标，用u表示，行为对象作为用户行为矩阵的纵坐标，用v表示。根据关键字段统计用户行为的发生频次，并根据发生频次更新用户行为矩阵中的频度值来更新该用户行为矩阵，且该用户行为矩阵的基础单元符合泊松(Poisson)分布：

其中，

表示第i个用户行为的行为画像；

表示第j个行为对象的特征向量；

表示第i个用户行为的行为画像和第j个行为对象的特征向量的的内积。

一个具体实施例中，给用户行为画像模型添加分组权重变量，该分组权重变量包括：分组判别变量η和距离判别变量t，该分组权重变量用于减小分组判别结果与设定分组的分组误差。其中，

其中，z是归一化系数；ρ₀表示第t个分组对应的分组判别变量变量的先验分布；η_t表示用户行为真实对应的分组判别变量；η_c表示第c个分组对应的分组判别变量；M表示通过预设算法得到的用户分组的数量，通过用户聚类结果自动判定；集合C表示用户行为分组类别的集合，c是通过遍历所有的用户分组；

表示第c类对应的分类权重系数。

对添加分组权重变量后的用户行为画像模型进行初始化处理，通过用户行为特征生成模块获得该用户的用户行为特征向量。然后根据获得的用户行为特征向量，获得用户行为特征向量对应的分组判别结果。

一个具体实施例中，对分组判别结果与设定分组进行分组误差计算。通过采用基于概率的分类算法，对分组判别结果对应的第二标签和设定分组对应的第一标签进行比较计算，并根据比较结果，确定分组判别结果与设定分组的分组误差。其中，第一标签为设定分组中的用户行为特征，第二标签为分组判别结果中的用户行为特征。例如，第一标签包括：喜欢打游戏，且为益智类游戏，喜欢看宫廷剧等，第二标签包括：喜欢打游戏，且为益智类游戏，喜欢看宫廷剧、偶像剧等。

一个具体实施例中，获得分组误差计算结果，当该分组误差计算结果小于预设误差值时，判定第一组别与第二组别一致，不需要调整分组权重变量；当该分组误差计算结果不小于预设误差值时，判定第一组别与第二组别不一致，需要重新调整分组权重变量，并在调整分组权重变量后，重新获得调整后的用户行为特征向量。

另外，该分组误差计算还可以表示为：

其中，q表示行为矩阵重构时对无法进行计算的变量分布进行变分变换后的近似分布，θ为分组判别变量对应的变量参数，

表示表示第c类对应的分类权重系数，且CR(q(η,θ))越小，则说明该用户行为画像模型越好。

一个具体实施例中，将用户行为特征向量和行为对象特征向量进行矩阵重构生成用户行为矩阵，并计算能够生成用户行为矩阵的生成概率。并计算该概率的对数，若对数值越大，则说明该用户行为画像模型越好。

KL(q(η,θ)||p₀(η,θ))-E_q(η)[logp(R|η)]

其中，p₀表示行为矩阵重构变量对应的真实分布；q表示的是行为矩阵重构时对无法进行计算的变量分布进行变分变换后的近似分布；R表示行为矩阵；KL(q(η,θ)||p₀(η,θ))表示重构后的数据分布与用户真实数据分布的分布差异，KL表示KL-离散度，是一种距离度量的方式；E_q(η)[logp(R|η)]表示在分组权重变量中分组判别变量η的条件下，用户行为矩阵R出现的对数期望。

另外，该分组误差的计算可以在误差评估模块2031中完成，用户行为矩阵的生成概率的计算可以在重构概率评估模块2032中完成。

步骤105，根据最小化模型方法，优化用户行为画像模型，更新用户行为画像模型的用户行为分组变量参数、用户行为分布变量参数、行为对象分组变量参数和行为对象分布变量参数。

一个具体实施例中，利用最小化模型方法对用户行为画像模型进行评估，并对模型中的参数进行更新，对模型进行优化。该优化过程是通过更新参数来最小化带有距离限制的目标函数来达到模型评估和优化更新的目的。具体描述如下：

注：η表示分组判别变量，ρ₀表示先验分布，q表示近似分布，R表示行为矩阵，Ω表示重构矩阵分解模型变量设定的参数集合，Θ表示分组判别变量设定的参数集合。

通过最小化模型方法能够学习具有分组可标识性的用户行为画像，为此需要对模型中的变量进行逐一的更新，具体的更新流程如图3所示：

步骤301，更新用户行为特征向量的基础单位。

具体地，对于用户行为矩阵的矩阵元素R_ij，在k个不同的特征维度上对用户行为的分布函数进行训练和更新，其中，用户行为特征向量在第k维的值u_ik在训练时的分布更新如下：

其中，μ^k表示第j个用户行为其对应分组

下分组变量第k维度的均值，δ^k表示第j个行为对象其对应分组

下分组变量第k维度的方差，

表示第i用户行为其对应分组下分组

变量第k维度的方差，

表示第i个用户行为属于第

个分组的概率，

表示第j个行为对象属于第

组的概率。

步骤302，更新行为对象特征向量的基础单位。

具体地，对于用户行为矩阵的矩阵元素R_ij，在k个不同的特征维度上对行为对象的分布函数进行训练和更新，则行为对象特征向量在第k维的值v_ij在训练时的分布更新如下：

其中，

表示第i个用户行为其对应分组

下分组变量第k维度的均值，

表示第j个行为对象其对应分组

下分组变量第k维度的方差，

表示第i用户行为其对应分组下分组

变量第k维度的方差，

表示第i个用户行为属于第

个分组的概率，

表示第j个行为对象属于第

组的概率。

步骤303，更新分组判别变量。

其中，I表示分组数量的划分上限，一般情况会设定一个较大的值，最大可设置为用户的数量；T表示用户行为分组的数量，通过聚类分析获得。

其中，该公式是通过对分组判别变量分布似然函数对均值和方差求偏导获得偏导结果，来有效的更新分组判别变量。

步骤304，更新用户行为分组变量参数。

步骤305，更新行为对象分组变量参数。

其中，N表示行为对象分组的数量，通过聚类分析获得；该公式是通过对行为对象分组分布似然函数对形状参数和尺度参数求偏导，来更新行为对象分组变量参数，其中，形状参数和尺度参数是数学中通用化的名称。

步骤306，更新用户行为分布变量参数。

步骤307，更新行为对象分布变量参数。

步骤106，当更新后的用户行为画像模型的分组误差和生成概率之和小于预设阈值时，用户行为画像模型构建成功，向构建成功的所述用户行为画像模型输入所述用户行为数据，获得与所述用户行为数据对应的用户行为画像。

一个具体实施例中，利用已经构建成功的用户行为画像模型，将待识别用户的用户行为数据输入到该用户行为画像模型后，获得该用户的用户行为画像。将获得的用户行为画像与画像库中对应的行为画像进行距离判别，当判别距离小于预设距离值时，判定该待识别用户认证成功。例如：

其中，u_o表示画像库中的分组用户，u_u为待识别用户，η为用户行为画像分组判别时的权重，t为预设距离值。当判别函数ψ(u_u,u_o)的值为1时，判定待识别用户合法；当判别函数ψ(u_u,u_o)的值为0时，判定待识别用户非法。

又例如：

其中，

表示第i个用户的行为画像，η_t表示该用户的生成的分组的判别权重，η_c标识该用户获得的分组的判别权重，

表示用户的判别结果。当

的值为1时，判定待识别用户合法；当

的值为0时，判定待识别用户非法。

通过用户行为画像模型对用户行为画像进行判别及认证，可以让在线平台和运营商快速识别和发现非法用户。

一个具体实施例中，该训练成功的用户行为画像模型的一个具体应用为：

获取待识别用户的用户行为数据，将该用户行为数据进行过滤和矩阵生成操作，生成一个用户行为矩阵。将生成的用户行为矩阵输入到用户行为画像模型中，输出具有细粒度判别性的用户行为画像，进一步的，对该用户行为画像进行判别认证，将生成的用户行为画像在画像库中进行距离判别，当距离判别结果小于预设距离值时，判定该待识别用户认证成功。该模型能够更好的应用在服务平台中，使得商家利用生成的用户行为画像进行个性化物品推荐或进行个性化服务等。

本申请实施例提供的该方法，通过构建用户行为画像模型，对该用户行为画像模型参数进行处理，生成用户行为特征向量和行为对象特征向量，更好的获得用户的用户行为特征和行为对象特征，即获得该用户所具有的各项特征。进一步地，对生成的用户行为特征向量进行分组设定，获得设定分组，并和添加分组权重变量后获得的分组判别结果进行分组误差计算，和，将生成的用户行为特征向量和行为对象特征向量进行矩阵重构，并计算重构生成的行为矩阵为用户行为矩阵的生成概率。通过添加分组权重变量参数，可以利用分组权重对不同分组用户的行为画像作出明显的区分，使该用户行为画像模型生成具有个性化和差异性的用户行为画像。再者，通过根据最小化模型方法优化该用户行为画像模型，并更新该用户行为画像模型的用户行为分组变量参数、用户行为分布变量参、行为对象分组变量参数和行为对象分布变量参数，直至更新后的用户行为画像模型的分组误差和生成概率之和小于预设阈值时，所述用户行为画像模型构建成功。此时的用户行为画像模型可以生成待识别用户的具有普遍性的和个性化的用户行为画像，且可以利用分组权重对不同分组用户的行为画像做出明显的区分。进一步的，商家可以根据生成的用户行为画像的普遍性特征进行用户商品推荐、好友发现等任务，同时可以利用用户行为画像的个性化特性进行用户认证、商品精准推广、用户个性化服务等对用户个体和群体具有偏向性的商业任务。

本申请还提供了一种用户行为画像的构建装置，该装置的具体实施可参见方法实施例部分的描述，重复之处不再赘述，如图4所示，该装置主要包括：

构建单元401，用于构建用户行为画像模型，其中，所述用户行为画像模型包括：用户行为特征生成模块和行为对象特征生成模块，所述用户行为特征生成模块包括用户行为分组变量参数和用户行为分布变量参数，所述行为对象特征生成模块包括行为对象分组变量参数和行为对象分布变量参数。

获得单元402，用于对用户行为分组变量参数和用户行为分布变量参数初始化处理，获得用户行为分组分布参数，对行为对象分组变量参数和行为对象分布变量参数初始化处理，获得行为对象分组分布参数。

生成单元403，用于由用户行为特征生成模块根据用户行为分组分布参数生成用户行为特征向量，由行为对象特征生成模块根据行为对象分组分布参数生成行为对象特征向量。

判别单元404，对生成的用户行为特征向量进行分组设定，获得设定分组，并计算分组判别结果与设定分组的分组误差，和，将用户行为特征向量和行为对象特征向量重构生成行为矩阵，并计算重构生成的行为矩阵为用户行为矩阵的生成概率，其中，分组判别结果为：给所述用户行为画像模型添加分组权重变量后获得的分组，用户行为矩阵通过用户行为数据构建得到。

更新单元405，用于根据最小化模型方法，优化所述用户行为画像模型，更新所述用户行为画像模型的所述用户行为分组变量参数、所述用户行为分布变量参、所述行为对象分组变量参数和所述行为对象分布变量参数。

判定单元406，用于当更新后的所述用户行为画像模型的所述分组误差和所述生成概率之和小于预设阈值时，所述用户行为画像模型构建成功，向构建成功的用户行为画像模型输入用户行为数据，获得与用户行为数据对应的用户行为画像。

基于同一构思，本申请实施例中还提供了一种电子设备，如图5所示，该电子设备主要包括：处理器501、通信组件502、存储器503和通信总线504，其中，处理器501、通信组件502和存储器503通过通信总线504完成相互间的通信。其中，存储器503中存储有可被至处理器501执行的程序，处理器501执行存储器503中存储的程序，实现如下步骤：构建用户行为画像模型，其中，用户行为画像模型包括：用户行为特征生成模块和行为对象特征生成模块，用户行为特征生成模块包括用户行为分组变量参数和用户行为分布变量参数，行为对象特征生成模块包括行为对象分组变量参数和行为对象分布变量参数；对用户行为分组变量参数和用户行为分布变量参数初始化处理，获得用户行为分组分布参数，对行为对象分组变量参数和行为对象分布变量参数初始化处理，获得行为对象分组分布参数；由用户行为特征生成模块根据用户行为分组分布参数生成用户行为特征向量，由行为对象特征生成模块根据行为对象分组分布参数生成行为对象特征向量；对生成的用户行为特征向量进行分组设定，获得设定分组，并计算分组判别结果与设定分组的分组误差，和，将用户行为特征向量和行为对象特征向量重构生成行为矩阵，并计算重构生成的行为矩阵为用户行为矩阵的生成概率，其中，分组判别结果为：给用户行为画像模型添加分组权重变量后获得的分组，用户行为矩阵通过用户行为数据构建得到；根据最小化模型方法，优化用户行为画像模型，更新用户行为画像模型的用户行为分组变量参数、用户行为分布变量参、行为对象分组变量参数和行为对象分布变量参数；当更新后的用户行为画像模型的分组误差和生成概率之和小于预设阈值时，用户行为画像模型构建成功，向构建成功的用户行为画像模型输入用户行为数据，获得与用户行为数据对应的用户行为画像。

上述电子设备中提到的通信总线504可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信组件502用于上述电子设备与其他设备之间的通信。

存储器503可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器501的存储装置。

上述的处理器501可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等，还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行上述实施例中所描述的用户行为画像模型的构建方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用户行为画像的构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的用户行为画像的构建方法，其特征在于，构建用户行为画像模型之前，还包括：

获取所述用户的用户行为数据；

3.根据权利要求2所述的用户行为画像的构建方法，其特征在于，对所述用户行为分组变量参数和所述用户行为分布变量参数初始化处理，获得用户行为分组分布参数之后，还包括：

4.根据权利要求1所述的用户行为画像的构建方法，其特征在于，由所述用户行为特征生成模块根据所述用户行为分组分布参数生成用户行为特征向量，包括：

根据所述组别，生成所述组别对应的用户行为特征向量。

5.根据权利要求4所述的用户行为画像的构建方法，其特征在于，计算分组判别结果与所述设定分组的分组误差，包括：

6.根据权利要求5所述的用户行为画像的构建方法，其特征在于，计算所述分组判别结果与所述设定分组的分组误差之后，还包括：

获得分组误差计算结果；

7.根据权利要求1-6任一项所述的用户行为画像的构建方法，其特征在于，向构建成功的所述用户行为画像模型输入所述用户行为数据，获得与所述用户行为数据对应的用户行为画像之后，还包括：

8.一种用户行为画像的构建装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、通信组件、存储器和通信总线，其中，处理器、通信组件和存储器通过通信总线完成相互间的通信；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器中所存储的程序，实现权利要求1-7任一项所述的用户行为画像的构建方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的用户行为画像的构建方法。