CN110097066A

CN110097066A - 一种用户分类方法、装置及电子设备

Info

Publication number: CN110097066A
Application number: CN201810095690.1A
Authority: CN
Inventors: 张祺
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2019-08-06
Anticipated expiration: 2038-01-31
Also published as: CN110097066B

Abstract

本申请公开了一种用户分类方法，包括：收集用户的消息访问记录，并从所述的消息访问记录中提取所述用户的行为特征数据；基于所述行为特征数据，采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中。避免了传统人工分类中大量依赖人的经验，主观性和随意性强，分类结果不稳定的问题。

Description

一种用户分类方法、装置及电子设备

技术领域

本申请涉及用户运营领域，具体涉及一种用户分类方法。本申请同时涉及一种用户分类装置，以及一种用于实现所述用户分类方法的电子设备。

背景技术

在用户运营领域中，为了使得用户价值最大化，从而产生更大的收益，对用户群体进行分类或分层进行精细化运营模式，已经逐步替代了将用户群体作为一个简单整体的粗放运营模式。

目前应用消息推送、广告投放、用户权益推送等应用系统已经广泛采用用户群体分类或分层运营，运营人员对消息推送和投放的目标用户群进行细化分类或分层，根据分类结果提取各类细分的用户的人群画像数据，分析用户的人群画像与消息打开率、广告效果或者用户权益对用户黏性效应等效果之间的关系，采用相应的推送投放策略和运营手段进行更加精准的推送投放，从而提升消息打开率、用户的活跃度、留存率以及付费指标，同时减少消息推送、广告投放、权益投放等推送消息对用户的骚扰。

目前用户运营中经常采用的用户分类方法有两类，一类是基于已有用户画像分类结果数据进行分类。该类方法为，根据目标用户全集的人群画像数据集，选择一个或多个维度进行组合，然后在画像集中查找每个待分类用户所对应的画像类型归入相应的分类。另一类方案是依据消息系统自身积累的用户数据进行分类。该分类方法为，依据运营人员经验，由人工指定的阈值将数据划分为多个可枚举分类标准，然后根据此标准将用户划分入对应的分类。

上述现有技术提供的用户分类方法存在明显的缺陷。上述分类方法，在选择分类维度或者对分类阈值的划分完全依赖运营人员经验，因此分类效果存在较大的不确定性，无法保证最终产出的分类结果与分析目标的相关度。

发明内容

本申请提供一种用户分类方法，以解决现有的用户分类方法大量依赖人的经验，主观性和随意性强，分类结果不稳定的问题。

本申请另外提供一种用户分类装置。

本申请还提供一种实现所述用户分类方法的电子设备。

本申请提供的一种用户分类方法，包括：

收集用户的消息访问记录，并从所述的消息访问记录中提取所述用户的行为特征数据；

基于所述行为特征数据，采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中。

可选的，所述预先训练的用户聚类模型，采用如下方式训练获得：

收集待分类用户的消息访问记录，并从所述消息访问记录中提取所述用户的行为特征数据；

从所述行为特征数据中选取抽样数据，根据所述抽样数据采用聚类算法训练，获得所述用户聚类模型。

可选的，所述收集用户的消息访问记录，包括将用户识别出来并进行保存；其中，通过下述任一渠道获取用于识别用户的信息：用户注册ID、邮箱、手机号、第三方登录信息、cookie。

可选的，所述用户来源于下述任意一种用户群体：

注册用户、活跃设备用户、应用消息推送的目标用户群体、广告投放的目标用户群体、用户权益投放的目标用户群体。

可选的，所述用户的消息访问记录，包括用户对接收到的消息推送进行响应的消息访问记录；所述消息推送至少包括下述任一种消息推送类型：

应用消息推送；

广告投放推送；

用户权益推送；

用户访问业务时的相似业务推荐；

用户访问业务时的相似产品推荐。

可选的，所述收集用户的消息访问记录，包括如下渠道的至少一种：

从日志服务器收集所述用户的消息访问记录；

从消息服务器收集所述用户的消息访问记录；

从存储设备或单元上收集所述用户的消息访问记录。

可选的，所述的提取所述用户的行为特征数据，包括：从以下维度中的至少一个维度提取所述用户的行为特征数据：

推送消息发送时间、消息到达至用户打开时间、消息的推送渠道、用户页面停留时长、用户机型、用户打开消息使用的网络类型、推送消息内容的业务类型。

可选的，所述的提取所述用户的行为特征数据，还包括按照预定格式对所述行为特征数据进行数据转换，至少包括下述数据转换方式的一种：

所述的消息的推送渠道的特征取值预定格式采用离散化数值表示；

所述的用户页面停留时长的特征取值采用以秒标记的正整数格式；

所述的用户机型的特征采用离散化数值表示；

所述的用户打开消息使用的网络类型采用离散化数值表示。

可选的，所述的聚类算法，采用高斯混合模型作为用户聚类模型。

可选的，所述用户聚类模型的参数包括：所述用户聚类模型的各个聚类的概率中心、所述各个聚类的协方差、所述各个聚类概率在所述用户聚类模型中的权重；所述根据所述抽样数据采用聚类算法训练用户聚类模型，包括下述步骤：

确定所述的用户聚类模型参数的初始化值；

确定所述用户聚类模型的收敛条件；

基于所述抽样数据和所述初始化值，通过迭代方法计算所述用户聚类模型的参数，直到所述用户聚类模型满足所述收敛条件；

其中，所述收敛条件中包括相似性值和收敛性判断阈值；所述收敛性判断阈值，是根据所述用户聚类模型的精度要求和计算成本定义的常量；所述的相似性值，是评定本轮迭代和上一轮迭代得到的用户聚类模型的相似程度的数据。

可选的，所述的聚类算法还包括：在确定所述用户聚类模型的步骤中，首先确定用户的聚类数量。

可选的，所述确定用户的聚类数量，至少包括下述一种方式：

根据运营要求确定消息推送或投放的目标用户群体的聚类数量；

根据消息推送业务类型确定消息推送或投放的目标用户群体的聚类数量；

根据广告投放策略确定消息推送或投放的目标用户群体的聚类数量；

根据用户权益投放策略确定消息推送或投放的目标用户群体的聚类数量。

可选的，所述的从所述行为特征数据中选取抽样数据，包括：

基于对数据分类的精准度和/或计算成本，选取所述行为特征数据的全部数据作为抽样数据或者从所述行为特征数据中随机抽取抽样数据。

可选的，确定所述的用户聚类模型参数的初始化值，包括：

使用K-MEANS算法获得所述抽样数据的用户聚类模型的初始化概率中心；

计算所述抽样数据的协方差作为所述用户聚类模型的各个聚类的协方差初始值。

可选的，所述基于所述抽样数据和所述初始化值，通过迭代方法计算所述用户聚类模型的参数，包括如下计算步骤：

针对所有抽样数据，基于上一轮迭代计算得到的用户聚类模型的参数值，计算所述用户聚类模型的每个聚类中每个抽样数据的预期值概率；

基于所述的每个抽样数据的预期值概率，通过最大似然值计算所述用户聚类模型的每个聚类的概率中心和协方差，作为所述用户聚类模型本轮迭代的重新估计参数；

使用所述本轮迭代的重新估计参数，计算本轮迭代得到的所述用户聚类模型是否满足所述收敛条件；若是，则使用所述本轮迭代的重新估计参数作为所述的用户聚类模型的参数；若否，则进入下一轮迭代计算。

可选的，所述计算所述用户聚类模型的每个聚类中每个抽样数据的预期值概率，采用下述公式：

每个抽样数据在所述用户聚类模型的每个聚类的响应值等于该聚类在所述用户聚类模型中的权重乘以该抽样数据在该聚类的高斯概率密度；

每个抽样数据在所述用户聚类模型的响应值等于该抽样数据在所述用户聚类模型的每个聚类的响应值之和；

所述用户聚类模型的每个聚类中每个抽样数据的预期值概率等于该抽样数据在该聚类的响应值除以该抽样数据在所述用户聚类模型的响应值。

可选的，所述计算本轮迭代得到的所述用户聚类模型是否满足所述收敛条件，采用下述计算方法：

计算每个抽样数据在所述用户聚类中的每个聚类对应的高斯模型中的全部响应值，并对所述的每个抽样数据的全部响应值求和获取本轮迭代的相似性值；

计算本轮迭代的相似性值和上一轮迭代的相似性值之差的绝对值，判断所述绝对值是否小于或等于所述收敛性判断阈值，若是，则所述的用户聚类模型收敛；若否，则所述的用户聚类模型不收敛。

可选的，所述采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中，包括下述步骤：

根据所述的用户聚类模型的每个聚类的参数值，计算任意用户的行为特征数据在所述的每个聚类中的响应值，比较全部响应值得到最大响应值，则将该用户划分为响应值为最大值的聚类所对应的用户类型中；

对消息推送或投放的目标用户群体中的全部用户重复上述步骤，将全部用户划分到对应的用户类型中。

可选的，所述用户聚类模型按照固定的训练周期或者可设置的训练周期进行训练更新。

可选的，所述采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中，在此步骤之后，针对各个用户类型，采取相应的运营策略进行消息推送或投放，所述运营策略至少包括下述一种策略：消息推送策略、广告投放策略、用户权益投放策略。

可选的，所述采取相应的运营策略进行消息推送或投放，还包括按照下述任一种维度进行推送：

按照用户账号维度进行推送或投放；

按照设备类型维度进行推送或投放。

本申请还提供一种用户分类装置，包括：

消息访问行为特征数据提取单元，用于收集用户的消息访问记录，并从所述的消息访问记录中提取所述用户的行为特征数据；

用户聚类单元，用于基于所述行为特征数据，采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中。

确定所述的用户聚类模型参数的初始化值；

确定所述用户聚类模型的收敛条件；

本申请还提供一种电子设备，包括：

处理器；以及

存储器，所述存储器被配置成存储用户分类装置，所述用户分类装置被所述处理器执行时，包括如下步骤：

与现有技术相比，本申请具有以下优点：

本申请提供的用户分类方法、装置及电子设备，通过收集用户的消息访问记录，并从所述的消息访问记录中提取所述用户的行为特征数据；基于所述行为特征数据，采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中。

所述的用户分类方法，依据用户收到推送消息后的访问行为，对用户进行自动化分类，无需人工干预，避免了传统人工分类中大量依赖人的经验，主观性和随意性强，分类结果不稳定的问题。

附图说明

图1是本申请实施例提供的一种用户分类方法的第一种实施方式的流程图；

图2是本申请实施例提供的一种用户分类方法的生成用户聚类模型的处理流程图；

图3是本申请实施例提供的一种用户分类方法的第二种实施方式的流程图；

图4是本申请实施例提供的一种用户分类装置的第一种实施方式的示意图；

图5是本申请实施例提供的一种用户分类装置的第二种实施方式的示意图；

图6是本申请提供的一种电子设备实施例的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请提供一种用户分类的方法。本申请同时涉及一种用户分类的装置，以及一种用于实现所述用户分类的方法的电子设备。在下面的实施例中逐一进行详细说明。

本申请其一实施例提供一种用户分类的方法。

以下结合图1至图3对本申请实施例提供的用户分类方法进行说明。其中图1是本申请实施例提供的用户分类方法的第一种实施方式的流程图；图2是本申请实施例提供的用户分类方法的生成用户聚类模型的处理流程图；图3是本申请实施例提供的用户分类方法的第二种实施方式的流程图。

图1所示的本申请提供的用户分类方法实施例的流程图，包括如下步骤：

步骤S101，收集用户的消息访问记录，并从所述的消息访问记录中提取所述用户的行为特征数据。

随着网络和终端的发展，各种广告投放、应用消息和用户权益投放等针对用户进行的主动消息推送的运营方式已成为重要的运营手段。

所述的消息推送，至少包括下述任一种消息推送类型：应用消息推送、广告投放推送、用户权益推送、用户访问业务时的相似业务推荐、用户访问业务时的相似产品推荐。例如，淘宝商品列表广告信息、购物券和红包等运营活动优惠权益类信息、剧集视频花絮等内容咨询类信息会通过消息推送方式投放。实际应用中，消息推送渠道有多种，例如，短信推送、邮件推送、以及淘宝等各种移动APP的注册用户的系统消息推送等。

不同的用户在接收到消息推送后，会产生各种个性化的访问行为，所述消息访问记录中记录了这些访问行为信息，本申请提供的实施例，通过收集这些消息访问记录作为对用户分类的依据来进行用户数据分析，所述的用户消息访问记录信息能够提供不同场景下用户的不同消息响应轨迹，该信息包含了多个维度的用户画像信息。通过分析所述的消息访问行为记录，可以得出用户在使用服务或者消费过程中的兴趣、关注点、购物意图以及消费偏好等特征，将具有不同特征的用户进行分类，划分为具有不同特征或者不同需求的群体，针对这些不同群体提供更为精准高效的消息推送或者其他服务，另外还可以分析不同群体的用户属性信息从而确定正确的营销方向、选择合适的营销渠道、以及为广告创意提供灵感和素材。例如，用户A对母婴用品的广告投放进行立即打开，访问链接指向的页面并产生购买行为，而对化妆品类、游戏类等推送广告忽略，可以推断出用户A的关注点为母婴用品，用户A归类到对于此类产品广告投放为重点的目标用户群体中。

实际应用中，收集用户的消息访问记录，包括将用户识别出来并进行保存，具体的，可以通过多种渠道识别用户从而获取各种消息推送可以触达的全体用户，例如，从下述任一种渠道识别出并保存待分类用户：用户注册ID、邮箱、手机号、第三方登录信息、cookie。其中，第三方登录信息包括微信或微博或QQ等第三登录信息、；所述cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)，有时也用复数形式cookies。另外，按照消息推送内容或者推送维度不同，所述用户来源于下述任意一种用户群体：注册用户、活跃设备用户、应用消息推送的目标用户群体、广告投放的目标用户群体、用户权益投放的目标用户群体。实际应用中，消息推送一般会按照账号维度或者按照设备维度进行推送，以用户账号为维度进行消息推送，对全部APP注册用户进行分类；以设备维度进行推送时，则对活跃设备用户进行分类，一般为一段时间(如：3个月)内打开过APP的用户定义为活跃设备用户。

需要说明的是，用户的消息访问记录可以通过多种渠道采集，包括：从日志服务器收集所述用户的消息访问记录；从消息服务器收集所述用户的消息访问记录；从存储设备或单元上收集所述用户的消息访问记录。具体的，可以实时的采集，也可以从保存在日志服务器或者存储设备或存储单元上的日志文件中提取。本申请提供的实施例中，从消息服务器的记录文件中提取一周内的消息访问记录。

本申请提供的实施例中，针对所述用户接受到推送消息后的访问行为，首先从以下维度中的至少一个维度提取所述用户的行为特征数据：推送消息发送时间、消息到达至用户打开时间、消息的推送渠道、用户页面停留时长、用户机型、用户打开消息使用的网络类型、推送消息内容的业务类型。对于提取出的这些用户行为特征数据还要按照预定格式进行数据预处理，方便数据分析使用。

本实施例中，从所述的用户消息访问记录信息中提取到所述的用户的行为特征数据，经过进一步处理转换成预定格式的数据，具体的，按照预定格式对所述行为特征数据进行数据转换，至少包括下述数据转换方式的一种：所述的消息的推送渠道的特征取值采用离散化数值表示；所述的用户页面停留时长的特征取值采用以秒标记的正整数格式；所述的用户机型的特征采用离散化数值表示；所述的用户打开消息使用的网络类型采用离散化数值表示。例如，所述的消息推送渠道使用离散化数值定义，具体的，手机淘宝标记为1，支付宝标记为2，优酷标记为3，UC标记为4；所述的用户页面停留时长，使用以秒标记的正整数；所述的用户机型，使用离散化数值标记，具体的，iPhone7Plus标记为1，华为P9标记为2；所述的用户打开消息使用的网络类型，使用离散化数值标记，具体的，3G网络标记为1，4G网络标记为2，WIFI标记为3；所述的消息内容的业务类型，使用离散化数值标记，具体的，咨询类业务标记100，视频类业务标记为200，游戏类业务标记为300，社交类业务标记为400，产品广告类业务标记为500，母婴产品广告类标记为501，化妆品广告类标记为502，服装广告类标记为503。

具体举例如下：用户A的一条消息访问原始记录为

[2017-05-04 11:30:10]用户A,昵称BABYA,手机号12345678901,手机型号iphone7plus,4G网络,消息内容[手机淘宝推送的http://123.com/123.html],消息业务类型[母婴产品广告],消息投放时间[2017-05-03 11:00:00],停留时长2分钟。

提取到该条记录的多维度的特征数据如下：

推送消息的发送时间：2017-05-04 11:30:10

推送消息到达至用户打开时间：88210

消息的推送渠道：1

用户页面停留时长：120

用户机型：1

用户打开消息使用的网络类型：2

消息内容的业务类型：501

基于上述维度的特征数据进行分析实现对用户的分类。

步骤S102，基于所述行为特征数据，采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中。

本步骤是基于用户的消息访问行为信息的特征数据，采用训练后的用户聚类模型对用户进行分类。优选的，所述预先训练的用户聚类模型，采用如下方式训练获得：

上述步骤中，收集待分类用户的消息访问记录的渠道、方式等，和所述步骤S101提供的收集用户的消息访问记录的方式是一致的，在本步骤中不再另行详细说明。

所述聚类算法是以相似性为基础对物理或抽象对象的集合进行的分类问题研究和数据挖掘的一种分析方法，将所述对象的集合划分成多个由类似的对象组成的多个聚类，一个聚类中的对象比不在同一个聚类中的对象之间有更多的相似性。实际应用中，有多种聚类算法，例如划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。本申请提供的实施例中，所述的聚类算法，采用高斯混合模型(GMM，即Gaussian Mixture Models)作为用户聚类模型。

本申请提供的优选方案中，采用的高斯混合模型为用户概率密度模型，对于各聚类的划分以概率形式来表现，每一聚类特征用参数来表达；本步骤就是从所述的行为特征数据中选取抽样数据，根据抽样数据计算所述高斯混合模型的参数；在确定所述用户聚类模型的步骤中，首先确定用户的聚类数量。

本申请的用户分类要依据的数据为用户的消息访问行为特征数据，这些数据是高维度数据，已经在步骤S101中转换成预定格式，并且数据量也比较大。高斯混合模型支持同时输入多维度的数据进行混合分类计算，并且可依据运营需求将用户分成指定个数的类别，从而避免了传统分类方法中当输入数据维度增长后，输出的用户分类数量呈指数级增长的问题；另外，采用高斯混合模型，得到的用户群分类的类型数量可控，各个类型之间具有显著差异，从而能够支持运营人员快速聚焦核心问题点，不被冗余信息干扰，避免不同用户分类与最终结果有显著相关性的问题。

具体的，本实施例的高斯混合的模型参数包括：所述用户聚类模型的各个聚类的概率中心、所述各个聚类的协方差、所述各个聚类概率在所述用户聚类模型中的权重；另外，所述根据抽样数据采用聚类算法训练用户聚类模型，包括下述步骤：

确定所述的用户聚类模型参数的初始化值；

确定所述用户聚类模型的收敛条件；

基于所述抽样数据和所述初始化值，通过迭代方法计算所述用户聚类模型的参数，直到所述用户聚类模型满足所述收敛条件。

本实施例中，确定高斯混合模型参数的初始化值，具体包括使用基于划分法的K-MEANS聚类算法首先对抽样数据进行预处理，即对抽样数据进行无监督的自动聚类，聚类结果作为高斯混合模型的各个聚类的聚类中心；通过计算所述抽样数据的协方差计算作为高斯混合模型的各个聚类的协方差初始值。

需要说明的是，用户分类的高斯混合模型的参数使用K-MEANS算法对抽样数据自动聚类的结果作为初始值，可以降低计算量，加快算法的收敛。此外，所述初始值也可以用其他值定义，例如，选择随机数作为分类模型的各个聚类的概率中心，选择单位矩阵作为分类模型的各个聚类的协方差。通过其他方式选择初始值，也均在本申请的保护范围之内。

本申请提供的实施例中，所述基于所述抽样数据和所述初始化值，通过迭代方法计算所述用户聚类模型的参数，包括通过如下计算步骤计算高斯混合模型的参数：

其中，需要说明的是，本申请的实施例中，所述计算所述用户聚类模型的每个聚类中每个抽样数据的预期值概率，采用下述公式：

本申请实施例中，采用下述计算方法判断高斯混合模型是否满足收敛条件：

图2示出了本申请实施例提供的一种用户分类方法的生成用户聚类模型的处理流程，包括步骤S102-1至S102-8，具体如下：

步骤S102-1，确定用户聚类数量。

本步骤是确定消息推送或投放的目标用户群体的聚类数量。本实施例在确定所述用户聚类模型的步骤中，首先确定用户的聚类数量，具体的至少采用下述任一种方式：

本实施例中，根据广告投放策略确定广告投放的目标用户群的聚类数量为6。具体的，广告投放范围划分为上午11点母婴用品投放群，中午12点男装投放群，下午3点服装投放群，晚8点母婴用品投放群，晚9点化妆品投放群，晚10点奢侈品投放群。因此，本实例的用户聚类数量确定为6个。

步骤S102-2，选取抽样数据。

本步骤是从所述行为特征数据中选取抽样数据，包括：基于对数据分类的精准度和/或计算成本，选取所述行为特征数据的全部数据作为抽样数据或者从所述行为特征数据中随机抽取抽样数据。

实际应用中，根据对数据分类精度要求和计算成本，选取抽样数据作为训练样本。所述计算成本，包括算法的时间复杂度和空间复杂度。当训练样本数据集规模大，由于采用迭代算法，计算所需要的时长和存储空间的规模都会非常大，需要的计算成本很高。并且实际应用中可以选择获取到的全部用户消息访问行为特征数据作为训练样本数据，也可以随机从全部消息访问行为特征数据中抽取一定比例的抽样数据作为训练用户聚类模型的样本数据。本实施例中，从全部行为特征数据中随机抽样三分之一的数据，并且样本数据量不低于一万条。

步骤S102-3，定义用户聚类模型的收敛性判断阈值和相似性值的初始值。

本申请提供的实施例中，根据相似性值和所述收敛性判断阈值，在高斯混合模型参数的迭代计算过程中，判断高斯混合模型已经达到分类精度要求从而终止迭代计算。

所述收敛性判断阈值，是根据所述用户聚类模型的精度要求和计算成本定义的常量；所述的相似性值，是评定本轮迭代和上一轮迭代得到的用户聚类模型的相似程度的数据，具体的，本申请的实施例通过判断本轮迭代和上一轮迭代中训练样本数据的分布变化来判断高斯混合模型的相似程度。

实际应用中，根据分类精度要求和计算成本综合确定用户聚类模型的收敛性判断阈值，其一般定义为常量。

本步骤还定义所述相似性值的初始值，在计算用户聚类模型过程中第一轮迭代计算后判断用户聚类模型是否收敛计算时使用。

本实施例中，根据经验定义收敛性判断阈值为常量10e^-10，并判断两轮迭代的用户聚类模型的相似值之间的差值的绝对值是否小于所述的收敛性判断阈值。

步骤S102-4，使用K-MEANS算法获得所述抽样数据的用户聚类模型的初始化概率中心；计算所述抽样数据的协方差作为所述用户聚类模型的各个聚类的协方差初始值。

确定所述用户聚类模型的各个用户聚类的概率中心和协方差的初始值，由初始值开始针对作为训练样本的抽样数据进行迭代计算。

选择初始值有多种方法。例如，可以使用单位矩阵作为协方差的初始值，用随机数作为概率中心初始值。本实施例中，用K-MEANS算法对抽样数据进行聚类处理，使用得到的K-MEANS聚类中心作为高斯混合模型的各个聚类概率中心的初始值。使用该值初始化，可以降低计算量，加快算法的收敛。

所述K-MEANS算法，是基于划分法(Partition-based Method)的聚类方法，将N个对象划分成K个聚类，使得聚类内的对象有较高的相似性，聚类间的对象相似性低，其原理是首先随机选择K个对象作为每个聚类的初始中心或者平均值，对于剩余的对象，根据各个对象与各个聚类中心的距离划分到各个聚类，然后再重新计算每个聚类的中心或者平均值，不断重复上述过程，直到准则函数收敛，每个聚类中心变化不明显，一般采用误差的平方和作为准则函数。该算法时间复杂度低，但是不处理离群点，所述离群点是指与其他样本点的一般特征不一致的点。因此将使用K-MEAN算法对样本数据进行预处理后的初步聚类作为所述高斯混合模型的初始值进一步生成能够基于消息访问行为特征数据对用户进行精确分类的用户聚类模型。

步骤S102-5，计算估计预期值概率。

本步骤为基于上一轮的参数估计值，计算各个作为训练样本的抽样数据落在所述的每个用户聚类中的预期概率值。

本实施例中，在计算所述的用户聚类模型的参数时，采用EM算法(ExpectationMaximum Algorithm)对高斯混合模型进行参数估计。所述EM算法是在概率模型中求解参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐含变量，假定隐含变量的分布是一个以观测变量为前提条件的后验分布，使得参数的似然函数与其下界相等从而计算最大似然的期望值；然后最大化所述的最大似然的期望值，从而计算参数的最大似然估计，迭代计算直到拟合出参数。

具体到本申请提供的实施例，估计预期值概率的计算方法如下：

在本轮迭代计算中，使用上一轮迭代的参数值，计算第j个样本在第k个聚类中的响应值：

response_jk＝π_k*gaussian_jk，

其中gaussian_jk为第j个样本在第k个聚类中的概率密度，π_k是第k个聚类在高斯混合模型中的权重；

计算第j个样本在第k个聚类的预期值概率：

γ_jk＝response_jk/∑_kresponse_j，

其中response_jk为第j个样本在第k个聚类中的响应值，∑_kresponse_j为全部反应值的和；

重复上述两个计算步骤，直至完成所有的样本j和高斯混合模型的所有的聚类k组合计算。

步骤S102-6，重新估计参数值。

使用最大似然方法在本轮迭代计算重新估计高斯混合模型的参数值。

本实施例中，具体的估计参数值计算方法如下：

基于所述的每个训练样本的估计预期值概率，通过最大似然值，重新估计用户聚类中的第k个聚类的概率中心和协方差，并给第k个聚类赋值；

重复上述步骤，直至所有聚类的概率中心和协方差赋值完成，从而得到本轮迭代计算的用户聚类模型的参数值。

步骤S102-7，判断用户聚类模型是否收敛。

计算所述用户聚类模型的相似性值，如果满足预设的收敛条件，则说明用户聚类模型已经训练完成，可以用于对所有用户进行分类。

判断用户聚类模型是否收敛有多种方法，例如通过判断模型似然函数前后差值小于该收敛度阈值或者模型参数前后之间的差小于该阈值，从而确定所述用户聚类模型是否达到预设的收敛条件，并决定是否停止计算。

本实施例中，步骤S102-3中根据经验值预先定义收敛性判断阈值为常量，用THRESHOLD表示。具体的模型收敛判断步骤如下：

根据经验预先定义高斯混合模型的相似值初始值为常量，用likelyhood表示；

在EM算法估计高斯混合模型参数过程中，每个迭代步骤估计出新一轮模型的参数值，计算所有的响应值response_jk，对response_jk求和获取本次迭代的新的相似值：

newlikelyhood＝∑_kresponse_jk，其中，response_jk是第j个样本数据在第k个聚类中的响应值；

上次迭代的相似值：

likelyhood＝∑_kresponse_(j-1)k，其中，response_(j-1)k是第(j-1)个样本数据在第k个聚类中的响应值；

计算本次迭代与上一次迭代的相似值的差值绝对值，如果|newlikelyhood–likelyhood|>THRESHOLD，则进行迭代计算，重复EM算法估计高斯混合模型的参数值；如果所述相似值的差值绝对值不大于THRESHOLD，变化量忽略不计，则认为结果已经满足收敛条件。

步骤S102-8，输出模型参数。

所述模型参数为高斯混合模型的各个聚类的聚类中心、协方差以及各个聚类在高斯混合模型中的权重。

本实施例中，上述步骤根据抽样数据估计出满足收敛条件的用户聚类模型的参数后，输出各个参数，用此模型对全部用户进行分类，由于本方法使用自身抽样的样本数据作为分类依据，无需外部数据输入，避免了基于外部分类数据对目标人群进行分类时对外部输入强依赖的问题。具体的，针对全部用户使用训练后的聚类模型进行分类，包括如下步骤：

本实施例中，生成的用户聚类模型包含K个聚类，聚类模型参数确定后，第k个聚类的高斯概率密函数即确定下来N_k(x；μ_k；C_k)，其中x标示用户的行为特征数据。具体的分类步骤如下：

针对任意用户的多维度的消息访问行为特征数据，计算其在所述的全部K个聚类的第k个子类中的响应值：

response_k＝π_kN_k(x；μ_k；C_k)；

比较全部K个响应值，取响应值为最大时所对应的聚类，则将此用户划分到该用户类型中；

对用户群体中的每个用户进行上述分类操作，完成全部用户的分类。

本申请提供的方法使用自身的抽样数据作为分类依据，无需外部数据输入，避免了对外部输入强依赖问题；用户消息访问行为具有多维度特点，采用高斯混合模型函数为用户概率密度函数，支持同时输入多维度数据进行混合分类计算，可以依据运营需求将用户分成指定个数的类别，为后续业务效果分析排除干扰。

需要说明的是，本实施例中，所述用户聚类模型按照固定的训练周期或者可设置的训练周期进行训练更新，例如，设置每3个月对模型进行一次训练更新，以保证在业务变化的情况下，模型能及时更新适应新的数据环境。

图3所示的本申请实施例提供的用户分类方法的第二种实施方式的流程图，该实施例的处理流程是在图1所示的实施方式中增加一个处理步骤S304。

步骤S304，所述采用训练后的用户聚类模型，将所述用户划分到对应的用户类型中，在此步骤之后，针对各个用户类型，采取相应的运营策略进行消息推送或投放，所述运营策略至少包括下述一种策略：消息推送策略、广告投放策略、用户权益投放策略。

根据运营需要预先确定了用户分类的类型数量，在步骤S102完成用户分类后，运营人员可以针对不同的用户类型，制定不同业务的投放策略。

本实施例中，针对不同的用户类型的相应的投放策略进行更加精准的消息推送和广告投放，具体的，不同类型广告页面选择不同的投放频次、不同的投放时段选择不同的投放范围，例如，对于晚上八点时段投放的购物广告打开时间短并且打开率高，则购物广告选择七点半到八点半投放，投放范围按照用户分类结果选择晚八点打开购物广告子类。增加此步骤后，运营人员可以针对业务效果分析结果，能有效地控制不同页面的投放频次和投放范围，避免产生用户倦怠，并提高消息推送的打开率，所述的打开率一段时间内打开人数占总推送触达人数的比例，一般24小时或7天计算一次推送消息的打开率。

另外，通过对用户进行分类，还可以实现对不同用户定制性地投放引导承载页面，例如：在优酷端针对“游戏”类推送感兴趣的用户，推送手机淘宝的“游戏充值礼包”。通过这种措施，可以使一个优酷的用户可能成为手机淘宝的用户。

本申请的实施例中，所述采取相应的运营策略进行消息推送或投放，还包括按照下述任一种维度进行推送：按照用户账号维度进行推送或投放，或者按照设备类型维度进行推送或投放。具体举例如下：

用户聚类获取到3类用户，包括：1类用户是以iphone设备为主的用户，2类用户是以华为或三星或小米或魅族设备为主的用户，3类用户是以oppo或vivo手机为主的用户；

采用的运营策略：针对1类型的用户，主要投放“流量充值优惠券”；针对2类型的用户主要投放“话费充值优惠”；针对3类型的用户主要投放“QQ会员充值，游戏充值优惠”。

实际应用中，还会根据消息不同推送维度划定不同的用户范围，例如，以用户账号为维度进行消息推送，对全部APP注册用户分类；以设备维度进行推送时，则对活跃设备用户进行分类，一般为一段时间(如：3个月)内打开过APP的用户。

与本申请提供的用户分类的方法的实施例相对应，本申请还提供了一种用户分类的装置。

参照图4和图5，示出了根据本申请提供的一种用户分类的装置两种实施方式示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的部分请参见方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

图4是本申请实施例提供的一种用户分类装置的第一种实施方式的示意图，包括：

消息访问行为特征数据提取单元401，用于收集用户的消息访问记录，并从所述的消息访问记录中提取所述用户的行为特征数据；

用户聚类单元403，用于基于所述行为特征数据，采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中。

可选的，所述用户分类装置，包括用户聚类模型生成单元，用于训练获得所述预先训练的用户聚类模型，采用如下方式训练获得：

可选的，所述用户来源于下述任意一种用户群体：

应用消息推送；

广告投放推送；

用户权益推送；

用户访问业务时的相似业务推荐；

用户访问业务时的相似产品推荐。

从日志服务器收集所述用户的消息访问记录；

从消息服务器收集所述用户的消息访问记录；

从存储设备或单元上收集所述用户的消息访问记录。

可选的，所述消息访问行为特征数据提取单元401，包括数据预处理子单元，用于按照预定格式对所述行为特征数据进行数据转换，至少包括下述数据转换方式的一种：

所述的用户机型的特征采用离散化数值表示；

所述的用户打开消息使用的网络类型采用离散化数值表示。

确定所述的用户聚类模型参数的初始化值；

确定所述用户聚类模型的收敛条件；

可选的，所述用户聚类模型生成单元，包括聚类数量确定子单元，用于采用下述任一种方式确定用户聚类数量：

可选的，所述用户聚类模型生成单元，包括抽样子单元，用于基于对数据分类的精准度和/或计算成本，选取所述行为特征数据的全部数据作为抽样数据或者从所述行为特征数据中随机抽取抽样数据。

可选的，确定所述的用户聚类模型参数的初始化值，包括：

图5是本申请实施例提供的一种用户分类装置的第二种实施方式的示意图，在图4所示的用户分类装置第一种实施方式的基础上增加了一个单元，即：

消息精准推送单元504，所述采用训练后的用户聚类模型，将所述用户划分到对应的用户类型中，在此步骤之后，针对各个用户类型，采取相应的运营策略进行消息推送或投放，所述运营策略至少包括下述一种策略：消息推送策略、广告投放策略、用户权益投放策略。

按照用户账号维度进行推送或投放；

按照设备类型维度进行推送或投放。

以本申请提供的一种用户分类方法的实施例为基础，本申请还提供一种用于实现所述用户分类方法的电子设备。

参照图6，其示出了本申请实施例提供的所述电子设备。

本申请提供的所述电子设备实施例描述得比较简单，相关的部分请参见上述提供的所述用户分类方法实施例的对应说明即可。下述描述的实施例仅仅是示意性的。

本申请提供一种电子设备，包括：

存储器601，以及处理器602；

所述存储器601用于存储计算机可执行指令，所述处理器602用于执行所述计算机可执行指令：

可选的，所述用户来源于下述任意一种用户群体：

应用消息推送；

广告投放推送；

用户权益推送；

用户访问业务时的相似业务推荐；

用户访问业务时的相似产品推荐。

从日志服务器收集所述用户的消息访问记录；

从消息服务器收集所述用户的消息访问记录；

从存储设备或单元上收集所述用户的消息访问记录。

可选的，所述处理器602还用于执行下述计算机可执行指令：按照预定格式对所述行为特征数据进行数据转换，至少包括下述数据转换方式的一种：

所述的用户机型的特征采用离散化数值表示；

所述的用户打开消息使用的网络类型采用离散化数值表示。

确定所述的用户聚类模型参数的初始化值；

确定所述用户聚类模型的收敛条件；

可选的，所述处理器602还用于执行下述计算机可执行指令：至少采用下述一种方式确定用户的聚类数量：

可选的，所述处理器602还用于执行下述计算机可执行指令：采用下述方式从所述行为特征数据中选取抽样数据：

可选的，所述处理器602还用于执行下述计算机可执行指令：采用下述方式确定所述的用户聚类模型参数的初始化值：

可选的，所述处理器602还用于执行下述计算机可执行指令：采用如下计算步骤，基于所述抽样数据和所述初始化值，通过迭代方法计算所述用户聚类模型的参数：

可选的，所述处理器602还用于执行下述计算机可执行指令：采用下述公式，计算所述用户聚类模型的每个聚类中每个抽样数据的预期值概率：

可选的，所述处理器602还用于执行下述计算机可执行指令：采用下述计算方法，计算本轮迭代得到的所述用户聚类模型是否满足所述收敛条件：

可选的，所述处理器602还用于执行下述计算机可执行指令：通过下述步骤，采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中：

可选的，所述采用训练后的用户聚类模型，将所述用户划分到对应的用户类型中，在此步骤之后，针对各个用户类型，采取相应的运营策略进行消息推送或投放，所述运营策略至少包括下述一种策略：消息推送策略、广告投放策略、用户权益投放策略。

按照用户账号维度进行推送或投放；

按照设备类型维度进行推送或投放。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种用户分类方法，其特征在于，包括：

2.根据权利要求1所述的用户分类方法，其特征在于，所述预先训练的用户聚类模型，采用如下方式训练获得：

3.根据权利要求2所述的用户分类方法，其特征在于，所述收集用户的消息访问记录，包括将用户识别出来并进行保存；其中，通过下述任一渠道获取用于识别用户的信息：用户注册ID、邮箱、手机号、第三方登录信息、cookie。

4.根据权利要求2所述的用户分类方法，其特征在于，所述用户来源于下述任意一种用户群体：

5.根据权利要求2所述的用户分类方法，其特征在于，所述用户的消息访问记录，包括用户对接收到的消息推送进行响应的消息访问记录；所述消息推送至少包括下述任一种消息推送类型：

应用消息推送；

广告投放推送；

用户权益推送；

用户访问业务时的相似业务推荐；

用户访问业务时的相似产品推荐。

6.根据权利要求2所述的用户分类方法，其特征在于，所述收集用户的消息访问记录，包括如下渠道的至少一种：

从日志服务器收集所述用户的消息访问记录；

从消息服务器收集所述用户的消息访问记录；

从存储设备或单元上收集所述用户的消息访问记录。

7.根据权利要求2所述的用户分类方法，其特征在于，所述的提取所述用户的行为特征数据，包括：从以下维度中的至少一个维度提取所述用户的行为特征数据：

8.根据权利要求7所述的用户分类方法，其特征在于，所述的提取所述用户的行为特征数据，还包括按照预定格式对所述行为特征数据进行数据转换，至少包括下述数据转换方式的一种：

所述的用户机型的特征采用离散化数值表示；

所述的用户打开消息使用的网络类型采用离散化数值表示。

9.根据权利要求1所述的用户分类方法，其特征在于，所述的聚类算法，采用高斯混合模型作为用户聚类模型。

10.根据权利要求9所述的用户分类方法，其特征在于，所述用户聚类模型的参数包括：所述用户聚类模型的各个聚类的概率中心、所述各个聚类的协方差、所述各个聚类概率在所述用户聚类模型中的权重；所述根据所述抽样数据采用聚类算法训练用户聚类模型，包括下述步骤：

确定所述的用户聚类模型参数的初始化值；

确定所述用户聚类模型的收敛条件；

11.根据权利要求10所述的用户分类方法，其特征在于，所述的聚类算法还包括：在确定所述用户聚类模型的步骤中，首先确定用户的聚类数量。

12.根据权利要求11所述的用户分类方法，其特征在于，所述确定用户的聚类数量，至少包括下述一种方式：

13.根据权利要求10所述的用户分类方法，其特征在于，所述的从所述行为特征数据中选取抽样数据，包括：

14.根据权利要求10所述的用户分类方法，其特征在于，确定所述的用户聚类模型参数的初始化值，包括：

15.根据权利要求10所述的用户分类方法，其特征在于，所述基于所述抽样数据和所述初始化值，通过迭代方法计算所述用户聚类模型的参数，包括如下计算步骤：

16.根据权利要求15所述的用户分类方法，其特征在于，所述计算所述用户聚类模型的每个聚类中每个抽样数据的预期值概率，采用下述公式：

17.根据权利要求15所述的用户分类方法，其特征在于，所述计算本轮迭代得到的所述用户聚类模型是否满足所述收敛条件，采用下述计算方法：

18.根据权利要求15所述的用户分类方法，其特征在于，所述采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中，包括下述步骤：

19.根据权利要求9所述的用户分类方法，其特征在于，所述用户聚类模型按照固定的训练周期或者可设置的训练周期进行训练更新。

20.根据权利要求18所述的用户分类方法，其特征在于，所述采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中，在此步骤之后，针对各个用户类型，采取相应的运营策略进行消息推送或投放，所述运营策略至少包括下述一种策略：消息推送策略、广告投放策略、用户权益投放策略。

21.根据权利要求20所述的用户分类方法，其特征在于，所述采取相应的运营策略进行消息推送或投放，还包括按照下述任一种维度进行推送：

按照用户账号维度进行推送或投放；

按照设备类型维度进行推送或投放。

22.一种用户分类装置，其特征在于，包括：

23.根据权利要求22所述的用户分类装置，其特征在于，所述预先训练的用户聚类模型，采用如下方式训练获得：

24.根据权利要求23所述的用户分类装置，其特征在于，所述的聚类算法，采用高斯混合模型作为用户聚类模型。

25.根据权利要求24所述的用户分类装置，其特征在于，所述用户聚类模型的参数包括：所述用户聚类模型的各个聚类的概率中心、所述各个聚类的协方差、所述各个聚类概率在所述用户聚类模型中的权重；所述根据所述抽样数据采用聚类算法训练用户聚类模型，包括下述步骤：

确定所述的用户聚类模型参数的初始化值；

确定所述用户聚类模型的收敛条件；

26.根据权利要求25所述的用户分类装置，其特征在于，所述的聚类算法还包括：在确定所述用户聚类模型的步骤中，首先确定用户的聚类数量。

27.根据权利要求25所述的用户分类装置，其特征在于，所述基于所述抽样数据和所述初始化值，通过迭代方法计算所述用户聚类模型的参数，包括如下计算步骤：

28.根据权利要求27所述的用户分类装置，其特征在于，所述计算所述用户聚类模型的每个聚类中每个抽样数据的预期值概率，采用下述公式：

29.根据权利要求27所述的用户分类装置，其特征在于，所述计算本轮迭代得到的所述用户聚类模型是否满足所述收敛条件，采用下述计算方法：

30.根据权利要求27所述的用户分类装置，其特征在于，所述采用预先训练的用户聚类模型，将所述用户划分到对应的用户类型中，包括下述步骤：

31.一种电子设备，其特征在于，包括：

处理器；以及