CN110276382A

CN110276382A - 基于谱聚类的人群分类方法、装置及介质

Info

Publication number: CN110276382A
Application number: CN201910462022.2A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-09-24
Anticipated expiration: 2039-05-30
Also published as: CN110276382B

Abstract

本发明涉及智能决策，提供一种基于谱聚类的人群分类方法，包括：设人群分类类别；采集人群特征；建立随机森林模型，将人群特征输入随机森林模型得到第一分群结果及所属类别的预测标签；对各人群分类类别进行分组，分别构建各组的分类模型；将上述各用户的人群特征及对应预测标签输入各自对应分组的分类模型，得到各用户的第二分群结果，将第二分群结果作为最终分类结果；根据第二分群结果，对不同人群分类类别的用户推荐不同产品。本发明还提供一种电子装置及存储介质。本发明降低人群分类类别混淆情况。

Description

基于谱聚类的人群分类方法、装置及介质

技术领域

本发明涉及智能决策技术领域，更为具体地，涉及一种基于谱聚类的人群分类方法、装置及介质。

背景技术

分类问题是学术界和产业界所研究的热点问题之一，现有人群分类模型主要基于单一模型实现，模型可能在个别类上的分类精度不佳，存在类别混淆的情况，不能为所属类别的用户准确推荐用户偏好的产品。

发明内容

鉴于上述问题，本发明的目的是提供一种降低人群分类类别混淆情况，提升分类精度，准确推荐符合各类别用户偏好的产品的基于谱聚类的人群分类方法、电子装置及存储介质。

为了实现上述目的，本发明提供一种电子装置，所述电子装置包括存储器和处理器，所述存储器中包括基于谱聚类的人群分类程序，所述基于谱聚类的人群分类程序被所述处理器执行时实现如下步骤：

设定人群分类类别；

采集人群特征；

建立随机森林模型，将人群特征输入所述随机森林模型，得到第一分群结果，将第一分群结果中各用户所属的人群分类类别作为预测标签；

对各人群分类类别进行分组，分别构建各组的分类模型；

将上述各用户的人群特征及对应预测标签输入各自对应分组的分类模型，得到各用户的第二分群结果，将第二分群结果作为最终分类结果；

根据第二分群结果，对不同人群分类类别的用户推荐不同产品；

其中，所述对各人群分类类别进行分组，分别构建各组的分类模型的步骤包括：

构建样本库，用于存储样本，所述样本为已经确定人群分类类别的用户的人群特征；

将样本库中多个样本输入随机森林模型，得到样本的第一分群结果及样本的预测标签；

通过样本的第一分群结果利用混淆矩阵和谱聚类方法获得样本的预测标签的分组；

建立样本的各分组的分类模型。

此外，为了实现上述目的，本发明还提供一种基于谱聚类的人群分类方法，包括：

设定人群分类类别；

采集人群特征；

对各人群分类类别进行分组，分别构建各组的分类模型；

建立样本的各分组的分类模型。

优选地，所述对各人群分类类别进行分组，分别构建各组的分类模型的步骤还包括：

所述样本库中的一部分样本作为训练集，一部分样本作为验证集；

采用训练集对随机森林模型进行训练；

将验证集代入训练集训练后的随机森林模型，得到验证集各样本的预测标签，通过混淆矩阵和聚类方法确定人群分类类别的分组，根据各组的验证集的人群特征及预测标签构建各分组的分类模型。

优选地，通过样本的第一分群结果利用混淆矩阵和谱聚类方法获得样本的预测标签的分组的步骤包括：

输出样本的第一分群结果的混淆矩阵，混淆矩阵表示各个人群分类类别之间的混淆情况；

将混淆矩阵作为相似度矩阵建立向量空间，并将相似度作为空间距离进行聚类，得到人群分类类别的分组。

进一步，优选地，所述将混淆矩阵作为相似度矩阵建立向量空间的步骤包括：

将混淆矩阵中记录样本错误预测为其他人群分类类别的数量转换为比例，并将替换为比例的混淆矩阵与记录数量的混淆矩阵的转置乘积，获得相似度矩阵。

优选地，所述采集人群特征步骤之后还包括对人群特征进行数据处理的步骤，包括：

获得人群特征的特征变量；

将所述特征变量划分为连续变量和离散变量，所述连续变量是具有次序属性的数值型变量，所述离散变量是非数值型变量；

检查所述离散变量的离散值数量，将超过设定离散值数量的离散变量作为第一类离散变量，不超过设定离散值数量的离散变量作为第二类离散变量；

对第一离散变量进行衍生处理；

对离散特征为无序离散值的第二类离散变量和第一类离散变量进行编码；

对离散特征为有序离散值的第二类离散变量和第一类离散变量进行量化处理。

优选地，所述分类模型包括逻辑回归分类模型和决策树分类模型中的一种或两种。

进一步，优选地，所述逻辑回归分类模型的构建方法包括：

通过线性方式对分类概率进行拟合，并根据对数损失函数通过梯度下降方法进行训练，逻辑回归的输入特征为随机森林的输入特征，以及随机森林预测分类结果的one-hot形式特征。

优选地，所述建立随机森林模型的步骤包括：

通过训练样本的随机抽样以及可选特征的随机抽样，构造多个树模型进行分类预测投票，以输出分类预测结果，样本包含了人群特征以及人群分类类别标签。

此外，为了实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于谱聚类的人群分类程序，所述基于谱聚类的人群分类程序被处理器执行时，实现上述的基于谱聚类的人群分类方法的步骤。

本发明所述基于谱聚类的人群分类方法、电子装置及存储介质首先根据人群特征，建立随机森林模型，输出初步人群分类结果；随后根据初步结果所输出的混淆矩阵，通过谱聚类算法确定分类结果中的混淆类别；最终根据谱聚类结果，结合人群特征与随机森林预测标签，建立分类模型，进一步提升混淆类别分类精度，通过谱聚类改进了随机森林分类模型，降低了个别类别的混淆情况，提升了相关精度，能够准确推荐符合各类用户偏好的产品。

附图说明

图1是本发明基于谱聚类的人群分类方法较佳实施例的应用环境示意图；

图2是图1中基于谱聚类的人群分类程序较佳实施例的模块示意图；

图3是本发明基于谱聚类的人群分类方法较佳实施例的流程图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下将结合附图对本发明的具体实施例进行详细描述。

本发明提供一种基于谱聚类的人群分类方法，应用于一种电子装置1。参照图1所示，为本发明基于谱聚类的人群分类方法较佳实施例的应用环境示意图。

在本实施例中，电子装置1可以是服务器、手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端用户端。

该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于谱聚类的人群分类程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于谱聚类的人群分类程序10等。

网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子用户端之间建立通信连接。

通信总线14用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-14的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的用户端、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。

在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

可选地，该电子装置1还可以包括逻辑门电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作系统以及基于谱聚类的人群分类程序10；处理器12执行存储器11中存储的基于谱聚类的人群分类程序10时实现如下步骤：

设定人群分类类别；

采集人群特征；

对各人群分类类别进行分组，分别构建各组的分类模型；

建立样本的各分组的分类模型。

在其他实施例中，所述基于谱聚类的人群分类程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示，为图1中基于谱聚类的人群分类程序10较佳实施例的功能模块图。所述基于谱聚类的人群分类程序10可以被分割为设定模块110、采集模块120、第一分群模型构建模块130、第一分群模块140、第二分群模型构建模块150、第二分群模块160和推荐模块170，采集模块120采集人群特征，输入第一分群模型构建模块130构建的所述随机森林模型，得到第一分群结果，通过第一分群模块140将第一分群结果中各用户所属的设定模块110设定的人群分类类别作为预测标签；第二分群模型构建模块150对设定模块110设定的各人群分类类别进行分组，分别构建各组的分类模型，通过第二分群模块160将第一分群结果中各用户的人群特征及对应预测标签输入各自对应分组的分类模型，得到各用户的第二分群结果，将第二分群结果作为最终分类结果，推荐模块170根据第二分群模块160的分群结果，对属于不同人群分类类别的用户推荐不同产品。

上述第二分群模型构建模块150包括样本库151、输入单元152、分组单元153和分类模型构建单元154，样本库151存储有已经确定人群分类类别的用户的人群特征的样本，多个样本通过输入单元152输入随机森林模型，得到样本的第一分群结果及样本的预测标签，通过分组单元153利用混淆矩阵和谱聚类方法获得样本的预测标签的分组，所述分类模型构建单元154，建立各分组的分类模型，优选地，所述分类模型包括逻辑回归分类模型和决策树分类模型中的一种或两种。

此外，本发明还提供一种基于谱聚类的人群分类方法。参照图3所示，为本发明基于谱聚类的人群分类方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于谱聚类的人群分类方法包括：

步骤S1，设定人群分类类别，例如类别矩阵S＝[s₁...s_m]，其中，s_m为第m种人群分类类别；

步骤S2，采集人群特征，所述人群特征指人群各方面的信息，所述信息包括有工作、生活、背景等方面，例如工作方面则包括收入、职位、年限等具体特征，例如

c_nk为第n个用户的第k个人群特征；

步骤S3，建立随机森林模型，将人群特征输入所述随机森林模型，得到第一分群结果，将第一分群结果中各用户所属的人群分类类别作为预测标签；

步骤S4，对各人群分类类别进行分组，分别构建各组的分类模型；

步骤S5，将上述各用户的人群特征(步骤S2中采集的未确定人群分类类别的新用户的人群特征)及对应预测标签输入各自对应分组的分类模型，得到各用户的第二分群结果，将第二分群结果作为最终分类结果，例如，假设新用户经过随机森林模型得到的预测标签为类1，在类1属于第一组，将新用户的人群特征及预测标签输入第一组的逻辑回归分类模型或决策树分类模型，假设得到的第二分群结果为类2，则将新用户属于人群分类类别的类2；

步骤S6，根据第二分群结果，对不同人群分类类别的用户推荐不同产品。

在步骤S4中，所述对各人群分类类别进行分组，分别构建各组的分类模型的步骤包括：

步骤S41，构建样本库，用于存储样本，所述样本为已经确定人群分类类别的用户的人群特征；

步骤S42，将样本库中多个样本输入随机森林模型，得到样本的第一分群结果及样本的预测标签；

步骤S43，通过样本的第一分群结果利用混淆矩阵和谱聚类方法获得样本的预测标签的分组，例如人群分类类别包括5类(具体类别为业务方事先划分，此处以类1、类2、…类5类表示)，分组后类1与类2分为第一组，类3、类4、类5分为第二组；

步骤S44，建立样本的各分组的分类模型，如上例分别建立第一组和第二组的逻辑回归分类模型或决策树分类模型，又如，对于每一组构建单独的逻辑回归模型以预测混淆类中的具体人群分类类别(即对应随机森林的输出类别)，逻辑回归通过线性方式对分类概率进行拟合，并根据对数损失函数通过梯度下降方法进行训练，逻辑回归的输入特征为随机森林的输入特征，以及随机森林预测分类结果的one-hot形式特征。逻辑回归针对每一混淆大类中的人群分类类别进行划分，并输出最终预测结果。逻辑回归模型的建立，通过sklearn实现。

在一个可选实施例中，在步骤S4中，所述样本库中的一部分样本作为训练集，一部分样本作为验证集，例如，样本库中包括类1至类5样本的人群特征，每类中10个用户，即50个用户的人群特征作为训练集，每类中另外10个用户，即另外50个用户的人群特征作为验证集(本例中训练集和验证集的样本数量只是示意性说明，实际应用中样本数量较大)；采用训练集对随机森林模型进行训练；将验证集代入训练集训练后的随机森林模型，得到验证集各样本的预测标签，通过混淆矩阵、谱聚类方法确定人群分类类别的分组，根据各组的验证集的人群特征及预测标签构建各组的逻辑回归分类模型或决策树分类模型。

在一个可选实施例中，在步骤S43中，通过样本的第一分群结果利用混淆矩阵和谱聚类方法获得样本的预测标签的分组的步骤包括：

输出样本的第一分群结果的混淆矩阵，混淆矩阵可表示各个类别之间的混淆情况，即表示某个类样本被错误预测为其他某类的数量，为方形矩阵，混淆矩阵可以根据随机森林的第一分群结果，以及样本真实人群分类类别，通过sklearn库完成计算，根据随机森林在验证集上的输出结果输出混淆矩阵，混淆矩阵中的例子如下表1所示

表1

	预测类别1	预测类别2	预测类别3
				真实类别1	80	10	10
真实类别2	15	75	10
				真实类别3	5	5	90

其中，每行代表的是每类样本的数量；

将混淆矩阵作为相似度矩阵建立向量空间并将相似度作为空间距离进行聚类，得到人群分类类别的分组，具体地：由于混淆矩阵中记录的是数量，因此将数量替换为比例(如上表中第一行为0.8，0.1，0.1)，并将矩阵进行matrix*matrix.T(替换为比例的混淆矩阵与所述混淆矩阵转置的乘积)的计算，以构造类似于相似度矩阵的形式。矩阵计算完毕后，即可进行谱聚类的运算，谱聚类的输出结果，即为多个类别的聚类标签。谱聚类以相似度矩阵中的类别作为顶点，以相似度作为特征向量构造向量空间并进行切分，以实现较高类内相似度与较低类间相似度。谱聚类的运算可以通过sklearn库实现。

在一个可选实施例中，随机森林通过Python中的sklearn库实现，随机森林属于树模型中的Bagging算法，通过训练样本的随机抽样以及可选特征的随机抽样，构造多个树模型进行分类预测投票，以输出分类预测结果。随机森林训练所用数据包括特征以及标签两部分，以实现监督学习。树模型的节点，即一项具体特征，节点将根据特征数值对人群进行划分。模型训练，即对于样本的特征输入与标签进行学习，具体地，样本包含了人群特征以及人群分类类别标签(人群分类类别为业务方预先划分)，随机森林通过对样本学习即可实现对于新样本的人群分类标签预测。由于随机森林在当前阶段的预测结果精度有限，仅能作为初步结果。

在一个可选实施例中，所述采集人群特征步骤之后还包括对人群特征进行数据处理的步骤，具体地：

获得人群特征的特征变量，例如将人群特征转化为词向量，将词向量作为特征变量；

将所述特征变量划分为连续变量和离散变量，所述连续变量是具有次序属性的数值型变量，所述离散变量是非数值型变量(如地名、等级信息)，特征变量区分可通过编程自动实现；

检查所述离散变量的离散值数量，将超过设定离散值数量的离散变量作为第一类离散变量，不超过设定离散值数量的离散变量作为第二类离散变量，例如，通过编程语言进行distinct处理(去重处理)获取各离散变量的离散值数量，当离散值数量超过20个时，为第一类离散变量；

对第一离散变量进行衍生处理，所述衍生处理，是指对于第一类离散变量进行其他层面的特征拓展，例如，对“城市”这一变量进行“省份”以及“城市等级”这两方面的衍生，以扩展特征的信息量；

离散特征为无序离散值(教育水平等)的第二类离散变量和第一类离散变量进行编码，例如One-Hot编码；

离散特征为有序离散值(等级等)的第二类离散变量和第一类离散变量进行量化处理；

将经过上述处理的第一类离散变量和第二类离散变量及连续变量输入随机森林模型。

在一个具体实施例中，人群分类类别包括第一类用户、第二类用户和第三类用户，第一类用户为高预期用户，第二类用户为稳定用户，第三类用户为预流失用户，经过第二分群后，向属于第一类用户的人群分类类别的用户推荐第一产品，向属于第二类用户的人群分类类别的用户推荐第二产品，向属于第三类用户的人群分类类别的用户推荐第三产品，第一产品可以为效益成本率高的产品，第二类产品价值稳定的产品，第三类产品低成本的产品，例如，向用户推荐银行产品时，第一类用户为高投资期望用户，第二类用户为保值理财用户，第三类用户为潜在流失用户，对不同人群分类类别的用户推荐不同银行产品，其中，对高投资期望用户推荐高投资额高收益的银行产品，对保值理财用户推荐高保值银行产品，对潜在流失用户推荐低投入银行产品。此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括基于谱聚类的人群分类程序，所述基于谱聚类的人群分类程序被处理器执行时实现如下步骤：

设定人群分类类别；

采集人群特征，所述人群特征指人群各方面的信息；

对各人群分类类别进行分组，分别构建各组的分类模型；

建立样本的各分组的分类模型。

本发明之计算机可读存储介质的具体实施方式与上述基于谱聚类的人群分类方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端用户端(可以是手机，计算机，服务器，或者网络用户端等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于谱聚类的人群分类方法，其特征在于，包括：

设定人群分类类别；

采集人群特征；

对各人群分类类别进行分组，分别构建各组的分类模型；

建立样本的各分组的分类模型。

2.根据权利要求1所述的基于谱聚类的人群分类方法，其特征在于，所述对各人群分类类别进行分组，分别构建各组的分类模型的步骤还包括：

采用训练集对随机森林模型进行训练；

3.根据权利要求1所述的基于谱聚类的人群分类方法，其特征在于，通过样本的第一分群结果利用混淆矩阵和谱聚类方法获得样本的预测标签的分组的步骤包括：

4.根据权利要求3所述的基于谱聚类的人群分类方法，其特征在于，所述将混淆矩阵作为相似度矩阵建立向量空间的步骤包括：

5.根据权利要求1所述的基于谱聚类的人群分类方法，其特征在于，所述采集人群特征步骤之后还包括对人群特征进行数据处理的步骤，包括：

获得人群特征的特征变量；

对第一离散变量进行衍生处理；

6.根据权利要求1所述的基于谱聚类的人群分类方法，其特征在于，所述分类模型包括逻辑回归分类模型和决策树分类模型中的一种或两种。

7.根据权利要求6所述的基于谱聚类的人群分类方法，其特征在于，所述逻辑回归分类模型的构建方法包括：

8.根据权利要求1所述的基于谱聚类的人群分类方法，其特征在于，所述建立随机森林模型的步骤包括：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器中存储有基于谱聚类的人群分类程序，所述基于谱聚类的人群分类程序被所述处理器执行时实现如下步骤：

设定人群分类类别；

采集人群特征；

对各人群分类类别进行分组，分别构建各组的分类模型；

建立样本的各分组的分类模型。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括有基于谱聚类的人群分类程序，所述基于谱聚类的人群分类程序被处理器执行时，实现如权利要求1至8中任一项权利要求所述基于谱聚类的人群分类方法的步骤。