CN112559854A

CN112559854A - 一种分类方法及装置

Info

Publication number: CN112559854A
Application number: CN202011399123.9A
Authority: CN
Inventors: 蔡一欣; 许翀; 张溶芳; 李堃
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-26

Abstract

本申请公开了一种分类方法及装置，分类方法包括：基于用户的通信消费数据和预设特征维度构建一级特征向量，依据一级特征向量和预设特征阈值，获得二级特征向量；对二级特征向量进行标准化处理，获得标准化特征向量；基于因子分解机模型和标准化特征向量，获得组合特征向量，并对多个用户的组合特征向量进行聚类处理，获得用户分类，充分地利用了运营商自身数据实现用户分类，避免通过异业合作商获取数据时需要获取授权，且数据的准确度和实时性无法保障的问题。

Description

一种分类方法及装置

技术领域

本申请涉及互联网信息技术领域，具体涉及一种分类方法及装置。

背景技术

针对不同类型的用户制定个性化的管理方式，可以有效提升管理效率。目前，运营商在对用户进行分类时，主要通过对用户的社交和网络行为特征进行分析，确定用户偏好，从而根据用户偏好对用户进行分类。在这种分类方式中，运营商通常需要获取异业合作商授权来获得用户的社交和网络行为特征数据，且上述数据的准确度和实时性难以保障。同时，运营商自身的业务数据却没有得以充分利用。因此，如何充分利用运营商自身数据对用户进行分类，成为本领域亟待解决的问题。

发明内容

为此，本申请提供一种分类方法及装置，以解决在对用户进行分类时，从异业合作商获取的数据其准确度和实时性无法保障，同时运营商自身数据没有得以充分利用的问题。

为了实现上述目的，本申请第一方面提供一种分类方法，该分类方法包括：

基于用户的通信消费数据和预设特征维度构建一级特征向量；

依据一级特征向量和预设特征阈值，获得二级特征向量；

对二级特征向量进行标准化处理，获得标准化特征向量；

基于因子分解机模型和标准化特征向量，获得组合特征向量；

对多个用户的组合特征向量进行聚类处理，获得用户分类。

进一步地，预设特征维度包括业务使用量、业务使用时段、套餐消费和增值消费中的任意一种或多种。

进一步地，标准化处理包括独热编码处理和/或归一化处理。

进一步地，二级特征向量包括数值类二级特征向量和字符串类二级特征向量；

对二级特征向量进行标准化处理，获得标准化特征向量，包括：

对数值类二级特征向量进行归一化处理，获得与数值类二级特征向量对应的标准化特征向量；

对字符串类二级特征向量进行独热编码处理，获得与字符串类二级特征向量对应的标准化特征向量。

进一步地，基于因子分解机模型和标准化特征向量，获得组合特征向量，包括：

将标准化特征向量输入因子分解机模型，获得输出结果；其中，输出结果包括组合特征向量。

进一步地，对多个用户的组合特征向量进行聚类处理，获得用户分类，包括：

基于组合特征向量，构建组合特征矩阵；

基于预设的随机函数、预设聚类数和组合特征矩阵，构建初始隶属度矩阵；

基于初始隶属度矩阵和组合特征矩阵计算类中心矩阵；

基于类中心矩阵更新初始隶属度矩阵，获得更新的隶属度矩阵；

根据隶属度矩阵判断是否满足预设的停止条件；

在满足停止条件的情况下，根据当前隶属度矩阵获得用户分类；

在不满足停止条件的情况下，执行隶属度矩阵的迭代操作直至满足停止条件，并根据当前隶属度矩阵获得用户分类。

进一步地，执行隶属度矩阵的更新操作，包括：

根据隶属度矩阵和组合特征矩阵更新类中心矩阵；

基于更新的类中心矩阵更新隶属度矩阵。

进一步地，停止条件包括收敛精度小于或等于预设收敛阈值，或迭代次数达到预设的迭代阈值。

为了实现上述目的，本申请第二方面提供一种分类装置，该分类装置包括：

第一获取模块，用于基于用户的通信消费数据和预设特征维度构建一级特征向量；

第二获取模块，用于依据一级特征向量和预设特征阈值，获得二级特征向量；

处理模块，用于对二级特征向量进行标准化处理，获得标准化特征向量；

第三获取模块，用于基于因子分解机模型和标准化特征向量，获得组合特征向量；

分类模块，用于对多个用户的组合特征向量进行聚类处理，获得用户分类。

进一步地，分类模块，包括：

第一构建单元，用于基于组合特征向量，构建组合特征矩阵；

第二构建单元，用于基于预设的随机函数、预设聚类数和组合特征矩阵，构建初始隶属度矩阵；

计算单元，用于基于初始隶属度矩阵和组合特征矩阵计算类中心矩阵；

更新单元，用于基于类中心矩阵更新初始隶属度矩阵，获得更新的隶属度矩阵；

判断单元，用于根据隶属度矩阵判断是否满足预设的停止条件；

分类单元，用于在满足停止条件的情况下，根据当前隶属度矩阵获得用户分类；

迭代单元，用于在不满足停止条件的情况下，执行隶属度矩阵的迭代操作直至满足停止条件，并根据当前隶属度矩阵获得用户分类。

本申请具有如下优点：

本申请提供的分类方法，基于用户的通信消费数据和预设特征维度构建一级特征向量，依据一级特征向量和预设特征阈值，获得二级特征向量；对二级特征向量进行标准化处理，获得标准化特征向量；基于因子分解机模型和标准化特征向量，获得组合特征向量，并对多个用户的组合特征向量进行聚类处理，获得用户分类，充分地利用了运营商自身数据实现用户分类，避免通过异业合作商获取数据时需要获取授权，且数据的准确度和实时性无法保障的问题。

附图说明

附图是用来提供对本申请的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请，但并不构成对本申请的限制。

图1为本申请实施例提供的一种分类方法的流程图；

图2为本申请实施例提供的另一种分类方法的流程图；

图3为本申请实施例提供的一种分类装置的原理框图；

图4为本申请实施例提供的另一种分类装置的原理框图。

在附图中：

310：第一获取模块 320：第二获取模块

330：处理模块 340：第三获取模块

350：分类模块 351：第一构建单元

352：第二构建单元 353：计算单元

354：更新单元 355：判断单元

356：分类单元 357：迭代单元

具体实施方式

以下结合附图对本申请的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请，并不用于限制本申请。

目前，运营商通过与第三方企业进行异业合作的方式获取用户的社交和网络行为特征数据，并根据获取的数据对用户进行分类，进而根据用户分类进行个性化管理或定向营销。第三方企业即为异业合作商，运营商需经过异业合作商授权方可获取用户的社交和网络行为特征数据，且无法保障上述数据的准确度和实时性。同时，运营商为用户服务过程中积累了大量的业务数据，在对用户进行分类时，这些业务数据并没有得以充分利用。

有鉴于此，本申请提供一种分类方法及装置，利用运营商积累的业务数据对用户进行分类，不仅提升了自身业务数据的利用率，同时还可避免通过异业合作商获取数据导致数据的准确度和实时性无法保障的问题。

本申请的第一方面提供一种分类方法。图1是本申请实施例提供的一种分类方法的流程图。如图1所示，该分类方法包括如下步骤：

步骤S101，基于用户的通信消费数据和预设特征维度构建一级特征向量。

其中，用户的通信消费数据包括用户使用运营商通信服务过程中产生的相关消费数据，包括用户的套餐、通话、流量、短彩信(包括短信和彩信业务)、增值服务等消费数据。预设特征维度是根据分类需求预先设置的特征维度。在基于通信消费数据和预设特征维度构建一级特征向量时，只需将与预设特征维度相关的通信消费数据进行简单整理，形成向量形式即可，不涉及对通信消费数据的运算和其它处理。

例如，若需对用户套餐消费情况进行分类，则可以预设套餐消费作为特征维度，并使用用户通信消费数据中与套餐消费相关的数据作为套餐消费特征维度的对应取值；又如，若需对用户的消费时段进行分类，则可以预设业务使用时段的特征维度，并使用用户通信消费数据中与消费时段相关的数据作为业务使用时段特征维度的对应取值。

需要说明的是，以上对于通信消费数据和预设特征维度仅是举例说明，本领域技术人员可根据实际情况进行具体设定，其他未说明的通信消费数据和预设特征维度也在本申请的保护范围之内，在此不再赘述。

还需要说明的是，在执行基于用户的通信消费数据和预设特征维度构建一级特征向量之前，运营商需要获取用户的通信消费数据。在一些具体实现中，运营商通过业务支撑系统(Business Support Systems，BSS)获取用户的通信消费数据。

在一个实施方式中，用户的通信消费数据包括通话消费数据、短彩信消费数据、流量消费数据和套餐消费数据。假设预设特征维度包括通话业务使用量、短彩信业务使用量、流量业务使用量和套餐消费。因此，根据通话消费数据构建通话业务使用量对应的一级特征向量，根据短彩信消费数据构建短彩信业务使用量对应的一级特征向量，根据流量消费数据构建流量业务使用量对应的一级特征向量，根据套餐消费数据构建套餐消费对应的一级特征向量。

例如，通话消费数据包括通话总时长C1、本地通话时长C2、国际通话时长C3；短彩信消费数据包括套餐内包含短彩信条数M1、实际使用短彩信使用条数M2；流量消费数据包括流量总消耗量F1、本地流量消费量F2、漫游流量消费量F3；套餐消费数据包括消费总值S1、套餐月租S2、增值消费S3。

进一步地，根据上述信息可以构建通话业务使用量对应的一级特征向量FV1＝{C1，C2，C3}、短彩信业务使用量对应的一级特征向量FV2＝{M1，M2}、流量业务使用量对应的一级特征向量FV3＝{F1，F2，F3}、套餐消费对应的一级特征向量FV4＝{S1，S2，S3}。

步骤S102，依据一级特征向量和预设特征阈值，获得二级特征向量。

其中，预设特征阈值可以根据预设时间段内所有用户的通信消费数据的平均值进行设置，也可以根据用户在预设时间段内通信消费数据的最大取值或最小取值进行设置，还可以根据统计数据或经验进行设置。二级特征向量是基于一级特征向量和预设特征阈值构建的向量，二级特征向量内的元素不再是通信消费数据，其可以是字符串也可以是数值，且具有特定的含义，使得二级特征向量可以表征用户在对应特征维度的特性。

在第一个实施方式中，依据通话业务使用量对应的一级特征向量和预设特征阈值获得二级特征向量。

首先，获取当月内所有用户的通话总时长，计算通话总时长均值，并根据通话总时长均值分别设置第一特征阈值和第二特征阈值；根据第一特征阈值和第二特征阈值将用户的通话总时长划分为高、中、低三个等级。其中，第一特征阈值的取值为通话总时长均值的两倍，第二特征阈值的取值为通话总时长均值的70％。

例如，某一用户的通话消费数据中通话总时长为C1、本地通话时长为C2、国际通话时长为C3，通话业务使用量对应的一级特征向量FV1＝{C1，C2，C3}；通话总时长均值为

对应的第一特征阈值为thrc1_1，对应的第二特征阈值为thrc1_2，且

本地通话时长均值为

对应的第一特征阈值为thrc2_1，对应的第二特征阈值为thrc2_2，且

国际通话时长均值为

对应的第一特征阈值为thrc3_1，对应的第二特征阈值为thrc3_2，且

假设C1＞thrc1_1，C2＞thrc2_1，thrc3_1＜C3＜thrc3_2，则获取该用户通话业务使用量对应的二级特征向量为SV1＝{高，高，中}。

二级特征向量SV1可以表征用户对通话业务量的使用等级，等级越高，则说明该用户使用的业务量越大，等级越低，则说明该用户使用的业务量越小。在本实施方式中，SV1＝{高，高，中}，由此可知，该用户使用通话业务量的总体等级较高，使用本地通话业务量的等级较高，使用漫游通话业务量的等级属于中等。对于短彩信业务使用量和流量业务使用量对应的二级特征向量而言，均可以采用类似方式进行获取，在此不再赘述。

在第二个实施方式中，依据业务使用时段对应的一级特征向量和预设特征阈值获得二级特征向量。

首先，根据业务使用时间集中度将业务使用时段分为夜间型、工作型和生活型。其中，夜间型是指业务发生时间集中在晚上23点至次日早上5点，工作型是指业务发生时间集中在早上9点至晚上7点，生活型是指业务发生时间集中在早上6点至上午8点以及下午8点至晚上23点。针对夜间型，设置对应的第一特征阈值为70％，即将业务发生时间70％集中在晚上23点至次日早上5点的用户划分为夜间型；针对工作型，设置对应的第二特征阈值为70％，即将业务发生时间70％集中在早上9点至晚上7点的用户划分为工作型；针对生活型，设置对应的第三特征阈值为70％，即将业务发生时间70％集中在早上6点至上午8点以及下午8点至晚上23点的用户划分为生活型。

例如，某一用户的业务使用时段对应的一级特征向量为FV4＝{T1，T2，T3}，其中，T1表示该用户通话业务的发生时间段分布情况，T2表示该用户短彩信业务的发生时间段分布情况，T3表示该用户流量业务的发生时间段分布情况。

如果根据T1，获知用户的通话业务发生时间超过70％集中在晚上23点至次日早上5点，则将用户的通话业务划分为夜间型；如果根据T2，获知用户的短彩信业务发生时间超过70％集中在早上9点至晚上7点，则将用户的短彩信业务划分为工作型；如果根据T3，获知用户的流量业务发生时间超过70％集中在早上9点至晚上7点，则将用户的流量业务划分为工作型。由上可知，业务使用时段对应的的二级特征向量为SV2＝{夜间型，工作型，工作型}。

二级特征向量SV2可以表征用户使用业务的时段，从而获知用户在业务使用时间维度的类型。在本实施方式中，SV2＝{夜间型，工作型，工作型}，由此可知，该用户的通话业务大部分集中在夜间使用，短彩信业务和流量业务则集中在上班时间使用。

在第三个实施方式中，依据套餐消费对应的一级特征向量和预设特征阈值获得二级特征向量。

首先，将套餐中预设的业务供给量(即套餐本身提供的业务量，例如，套餐提供20G包月流量包)作为预设特征阈值，并根据实际消费量和预设的业务供给量计算套餐消费饱和度，根据获得的套餐消费饱和度获取二级特征向量。

例如，某用户套餐消费对应的一级特征向量FV4＝{S1，S2，S3}，S1为消费总值、S2为套餐月租、S3为增值消费。其中，消费总值S1即为实际消费量，套餐月租S2包括预设的套餐供给量。进一步地，S1＝{S11，S12，S13}，S2＝{S21，S22，S23}，其中，S11、S12、S13分别表示通话业务、短彩信业务和流量业务的实际消费量，S21、S22、S23分别表示通话业务、短彩信业务和流量业务的预设的套餐供给量。

根据S1和S2，可以获得对应的二级特征向量SV3，且SV3＝{SS1，SS2，SS3}。其中，SS1表示通话业务的消费饱和度，且SS1＝S11/S21；SS2表示短彩信业务的消费饱和度，且SS2＝S12/S22；SS3表示流量业务的消费饱和度，且SS3＝S13/S23。

二级特征向量SV3可以表征用户的套餐消费饱和程度。在本实施方式中，二级特征向量SV3＝{SS1，SS2，SS3}，若SS1大于1，则表示该用户通话业务的实际使用量大于套餐提供的通话业务量，若SS1等于1，则说明该用户通话业务的实际使用量正好等于套餐提供的通话业务量，若SS1小于1，则表示该用户通话业务的实际使用量小于套餐提供的通话业务量。短彩信业务和流量业务类似，在此不再赘述。

需要说明的是，除上述实施方式中示出的SV1、SV2和SV3之外，还包括其它二级特征向量，其获取方式与上述获取方式类似，在此不再赘述。

步骤S103，对二级特征向量进行标准化处理，获得标准化特征向量。

二级特征向量包括数值类二级特征向量和字符串类二级特征向量，其内容不统一，故而无法直接根据二级特征向量对用户进行分类。因此，首先对二级特征向量进行标准化处理，获得标准化特征向量，并在标准化特征向量的基础上执行后续的分类操作。

在第一个实施方式中，针对数值类二级特征向量进行归一化处理，获得与数值类二级特征向量对应的标准化特征向量。

其中，通过归一化处理，可以将有量纲的表达式变换为无量纲的表达式，成为标量，便于后续处理。

在第二个实施方式中，针对字符串类二级特征向量进行独热(one-hot)编码处理，获得与字符串类二级特征向量对应的标准化特征向量。

其中，独热编码又称为一位有效编码，主要是采用位状态寄存器来对个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。即通过独热编码可将分类字符串变量进行数值化处理。

例如，三个用户(分别为第一用户、第二用户和第三用户)通话业务使用量对应的二级特征向量分别为SV1_1＝{高，低，中}，SV1_2＝{高，高，低}和SV1_3＝{低，中，低}。对SV1_1、SV1_2和SV1_3进行独热编码之后，获得的编码数据如表1所示。

表1通话业务使用量二级特征向量独热编码示例表

进一步地，根据表1可知，第一用户的通话业务使用量对应的标准化特征向量BV1_1＝{1，0，0，0，0，1，0，1，0}；第二用户的通话业务使用量对应的标准化特征向量BV1_2＝{1，0，0，1，0，0，0，0，1}；第三用户的通话业务使用量对应的标准化特征向量BV1_3＝{0，0，1，0，1，0，0，0，1}。这些数值化的向量便于在后续分类中进行运算。

步骤S104，基于因子分解机模型和标准化特征向量，获得组合特征向量。

其中，因子分解机(Factorization Machines，FM)模型是一种基于矩阵分解的机器学习模型，对于稀疏数据具有很好的学习能力，在本实施例中用于生成组合特征向量，组合特征向量是指具有关联关系的特征向量。

通常情况下，在根据特征向量进行分类时，将每个特征向量作为独立的特征向量，而没有考虑特征向量与特征向量之间的关联关系，从而导致对用户的分类不精准。上述获取的标准化特征向量并非完全独立的向量，标准化向量之间可能具有相关性，将具有相关性的特征向量进行组合，根据组合后的特征向量对用户进行分类可以大大提升分类的准确性。例如，通常情况下通话业务消费饱和度较高的用户，其增值消费中通话业务对应的增值消费也相对较高，因此，通话业务消费饱和度对应的标准化特征向量与通话增值消费对应的标准化特征向量之间即具有关联关系。因此，在基于通话业务维度对用户进行分类时，将通话业务消费饱和度和通话增值消费对应的特征组合起来，根据组合后的特征对用户进行分类，可以获得更加精准的分类。

在本实施例中，考虑到通过独热编码获取的标准化特征向量具有稀疏特性，而FM模型适用于稀疏场景，因此，基于FM模型和标准化特征向量构建组合特征向量。

在一个实施方式中，首先构建初始的FM模型，并使用训练数据对初始的FM模型进行训练，获得参数良好的FM模型，再将标准化特征向量输入FM模型，获得输出结果，输出结果即包括组合特征向量。

在一些具体实现中，FM模型的建模函数采用

形式：

其中，n代表样本的特征数量；x_i表示第i个特征维度的值；w₀和w_i均为模型参数；v_i为x_i对应的隐向量；v_j为x_j对应的隐向量；k为超参数，用于表示隐向量的维数；＜v_i，v_j＞表示v_i和v_j的内积计算公式。

步骤S105，对多个用户的组合特征向量进行聚类处理，获得用户分类。

聚类处理包括多种处理方式，例如，划分聚类处理、层次聚类处理、模糊聚类处理以及基于密度聚类处理等。针对每一种聚类处理方式存在多种具体的聚类处理算法(例如，划分聚类处理包括K-均值(K-mean)算法和K-中心点(K-medoids)算法等，模糊聚类处理包括模糊C均值算法(Fuzzy C-Mean，FCM)等)。

在本实施例中，基于FCM聚类处理方法对组合特征向量进行聚类处理，从而获得用户分类。FCM算法是一种基于划分的聚类算法，可使被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小，从而实现分类。

在一个实施方式中，基于FCM实现用户分类，包括：首先，基于组合特征向量，构建组合特征矩阵，并基于预设的随机函数、预设聚类数和组合特征矩阵，构建初始隶属度矩阵；其次，基于初始隶属度矩阵和组合特征矩阵计算类中心矩阵，并基于类中心矩阵更新初始隶属度矩阵，获得更新的隶属度矩阵；然后，根据隶属度矩阵判断是否满足预设的停止条件。具体地，在满足停止条件的情况下，根据当前隶属度矩阵获得用户分类；在不满足停止条件的情况下，执行隶属度矩阵的迭代操作直至满足停止条件，并根据当前隶属度矩阵获得用户分类。其中，停止条件包括收敛精度小于或等于预设收敛阈值，或迭代次数达到预设的迭代阈值。

需要说明的是，在获取用户分类之后，运营商可根据用户分类进行个性化管理或者定向营销，以提升管理效率，增加营销收入。

在本实施例中，基于用户的通信消费数据和预设特征维度构建一级特征向量，依据一级特征向量和预设特征阈值，获得二级特征向量，对二级特征向量进行标准化处理，获得标准化特征向量；基于因子分解机模型和标准化特征向量，获得组合特征向量，对多个用户的组合特征向量进行聚类处理，获得用户分类，充分利用了运营商数据对用户进行分类，不再依赖于异业合作商获取数据实现对用户的分类。而且，考虑到不同特征之间的相关性，根据用户的通信消费数据构建组合特征向量，并在组合特征向量的基础上进行聚类处理，从而获得更加准确的用户分类。

图2是本申请实施例提供的另一种分类方法的流程图。如图2所示，该分类方法包括如下步骤：

步骤S201，基于用户的通信消费数据和预设特征维度构建一级特征向量。

步骤S202，依据一级特征向量和预设特征阈值，获得二级特征向量。

步骤S203，对二级特征向量进行标准化处理，获得标准化特征向量。

步骤S204，基于因子分解机模型和标准化特征向量，获得组合特征向量。

本实施例中的步骤S201～步骤S204与本申请上一实施例中步骤S101～步骤S104的内容相同，在此不再赘述。

步骤S205，基于组合特征向量，构建组合特征矩阵。

在一个实施方式中，根据多个用户的组合特征向量构建组合特征矩阵。

例如，组合特征矩阵T为n×s维矩阵，其中，n表示用户的数量，s表示每个用户的组合特征向量的维度。对于某个用户而言，其组合特征向量用x_j表示，其中，j表示该用户的编号，且j＝1，2，...，n。

步骤S206，基于预设的随机函数、预设聚类数和组合特征矩阵，构建初始隶属度矩阵。

隶属度矩阵可以表征用户对于每个分类的归属程度，归属程度越高，则说明用户属于该分类的概率越高。对于初始隶属度矩阵而言，其是根据预设的随机函数、预设聚类数和组合特征矩阵构建的初始矩阵，矩阵中的数值为随机数值，没有实际的物理含义。因此，初始隶属度矩阵并不具备表征用户对于每个分类的归属程度的能力。一般情况下，对初始隶属度矩阵进行若干次迭代过程之后获得的隶属度矩阵才具有表征用户分类归属程度的能力。

预设聚类数为目标分类数量，可以根据需求灵活设置。例如，若计划将用户分为3类，则将预设聚类数设置为3。

在一个实施方式中，初始隶属度矩阵U为l×n维矩阵，其中，n为用户的数量，l为预设聚类数，且

u_ij为基于预设的随机函数获得的数值，n和l均为大于1的整数。

需要说明的是，通常情况下，预设聚类数应远远小于用户数量(例如，在本实施方式中，l应远远小于n)，以获取良好的分类结果。

步骤S207，基于初始隶属度矩阵和组合特征矩阵计算类中心矩阵。

在类中心矩阵中，每个元素代表一个类中心。类中心的数量与预设聚类数应保持一致，即每一类对应一个类中心。

在一个实施方式中，类中心矩阵C为一维向量形式，且C＝{c_i}，i＝l。

其中，-u_ij表示初始隶属度矩阵中的元素，m为加权指数，-x_j表示第j个用户的组合特征向量。

步骤S208，基于类中心矩阵更新初始隶属度矩阵，获得更新的隶属度矩阵。

由于初始隶属度矩阵中的元素为随机设置的数值，初始隶属度矩阵不具备表征用户分类归属程度的能力。因此，需对初始隶属度矩阵进行迭代，从而获得具有表征意义的隶属度矩阵。

在一个实施方式中，使用类中心矩阵更新初始隶属度矩阵，包括：

其中，U为更新后的隶属度矩阵，d_ij＝‖c_i-x_j‖，c_i表示类中心矩阵中的元素，x_j表示第j个用户的组合特征向量，m为加权指数，l表示预设聚类数，k表示预设聚类数序号。

需要说明的是，加权指数m可以决定聚类算法的聚类模糊程度和样本在类间的分享程度，而且还会影响目标函数(表征相似性指标的函数)的凹凸性及算法的收敛性。因此，需根据经验或相应算法设置合理的加权指数m以获取良好的聚类结果。

需要说明的是，在每次更新隶属度矩阵之后，还需相应地更新预设的迭代次数。

步骤S209，根据隶属度矩阵判断是否满足预设的停止条件。

其中，预设的停止条件包括收敛精度小于或等于预设收敛阈值，或者迭代次数达到预设的迭代阈值，即如果收敛精度达到预设收敛阈值，即便未达到预设的迭代阈值也停止迭代，或者，如果收敛精度没有达到预设收敛精度，但是达到预设的迭代阈值，则认为当前获取的隶属度矩阵已经是具备表征用户分类能力的矩阵，同样停止迭代。

步骤S210，在满足停止条件的情况下，根据当前隶属度矩阵获得用户分类。

通过前述迭代过程获得的隶属度矩阵U为l×n维矩阵，隶属度矩阵的每一行代表一个分类，每一列中表示一个用户对于分类的归属程度，根据该列中元素的取值即可确定用户的分类。

例如，假设隶属度矩阵U为一个4×6的矩阵，其表示对6位用户进行分类，并将用户分为4类。具体地：

具体地，隶属度矩阵U的第一行代表第一分类，第二行代表第二分类，第三行代表第三分类，第四行代表第四分类；隶属度矩阵U的第一列表征第一用户的分类归属程度，第二列表征第二用户的分类归属程度，第三列表征第三用户的分类归属程度，第四列表征第四用户的分类归属程度，第五列表征第五用户的分类归属程度，第六列表征第六用户的分类归属程度。

以第一用户为例来说明如何基于隶属度矩阵U对用户进行分类。具体地，使用隶属度矩阵U的第一列来对第一用户进行分类。假设，u₂₁＞u₁₁＞u₄₁＞u₃₁，则获知第一用户归属于u₂₁对应分类的可能性最大，因此，确定第一用户的分类为第二分类(u₂₁对应分类为第二分类)。剩余五位用户的分类与第一用户类似，在此不再赘述。

步骤S211，在不满足停止条件的情况下，执行隶属度矩阵的迭代操作直至满足停止条件，并根据当前隶属度矩阵获得用户分类。

不满足停止条件，则说明当前的隶属度矩阵还不具备准确表征用户分类的能力，需继续执行迭代操作以获取可以准确表征用户分类的隶属度矩阵。

在一个实施方式中，执行隶属度矩阵的迭代操作，包括：首先根据隶属度矩阵和组合特征矩阵更新类中心矩阵，再基于更新的类中心矩阵更新隶属度矩阵，从而获得更新的隶属度矩阵。迭代过程可参考步骤S207和步骤S208的相关描述，在此不再赘述。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请的第二方面提供一种分类装置。图3是本申请实施例提供的一种分类装置的原理框图。如图3所示，该分类装置包括：第一获取模块310、第二获取模块320、处理模块330、第三获取模块340和分类模块350。

第一获取模块310，用于基于用户的通信消费数据和预设特征维度构建一级特征向量。

在一个实施方式中，用户的通信消费数据包括通话消费数据、短彩信消费数据、流量消费数据和套餐消费数据。假设预设特征维度包括通话业务使用量、短彩信业务使用量、流量业务使用量和套餐消费。通过第一获取模块310，根据通话消费数据构建通话业务使用量对应的一级特征向量，根据短彩信消费数据构建短彩信业务使用量对应的一级特征向量，根据流量消费数据构建流量业务使用量对应的一级特征向量，根据套餐消费数据构建套餐消费对应的一级特征向量。

第二获取模块320，用于依据一级特征向量和预设特征阈值，获得二级特征向量。

在第一个实施方式中，第二获取模块320依据通话业务使用量对应的一级特征向量和预设特征阈值获得二级特征向量，包括：

在第二个实施方式中，第二获取模块320依据业务使用时段对应的一级特征向量和预设特征阈值获得二级特征向量，包括：

在第三个实施方式中，第二获取模块320依据套餐消费对应的一级特征向量和预设特征阈值获得二级特征向量，包括：

处理模块330，用于对二级特征向量进行标准化处理，获得标准化特征向量。

在第一个实施方式中，针对数值类二级特征向量，通过处理模块330进行归一化处理，获得与数值类二级特征向量对应的标准化特征向量。

在第二个实施方式中，针对字符串类二级特征向量，通过处理模块330进行独热(one-hot)编码处理，获得与字符串类二级特征向量对应的标准化特征向量。

第三获取模块340，用于基于因子分解机模型和标准化特征向量，获得组合特征向量。

在一个实施方式中，首先构建初始的FM模型，并使用训练数据对初始的FM模型进行训练，获得参数良好的FM模型，再通过第三获取模块340将标准化特征向量输入FM模型，获得输出结果，输出结果即包括组合特征向量。

分类模块350，用于对多个用户的组合特征向量进行聚类处理，获得用户分类。

在一个实施方式中，通过分类模块350并基于FCM实现用户分类，包括：首先，基于组合特征向量，构建组合特征矩阵，并基于预设的随机函数、预设聚类数和组合特征矩阵，构建初始隶属度矩阵；其次，基于初始隶属度矩阵和组合特征矩阵计算类中心矩阵，并基于类中心矩阵更新初始隶属度矩阵，获得更新的隶属度矩阵；然后，根据隶属度矩阵判断是否满足预设的停止条件。具体地，在满足停止条件的情况下，根据当前隶属度矩阵获得用户分类；在不满足停止条件的情况下，执行隶属度矩阵的迭代操作直至满足停止条件，并根据当前隶属度矩阵获得用户分类。其中，停止条件包括收敛精度小于或等于预设收敛阈值，或迭代次数达到预设的迭代阈值。

图4是本申请实施例提供的另一种分类装置的原理框图。如图4所示，该分类装置包括：第一获取模块310、第二获取模块320、处理模块330、第三获取模块340、分类模块350；其中，分类模块350包括第一构建单元351、第二构建单元352、计算单元353、更新单元354、判断单元355、分类单元356和迭代单元357。

其中，本实施例中的第一获取模块310、第二获取模块320、处理模块330和第三获取模块340与上一实施例中第一获取模块310、第二获取模块320、处理模块330和第三获取模块340的内容相同，在此不再赘述。

分类模块350，用于对多个用户的组合特征向量进行聚类处理，获得用户分类，具体包括：

第一构建单元351，用于基于组合特征向量，构建组合特征矩阵。

在一个实施方式中，通过第一构建单元351使用多个用户的组合特征向量构建组合特征矩阵。例如，组合特征矩阵T为n×s维矩阵，其中，n表示用户的数量，s表示每个用户的组合特征向量的维度。对于某个用户而言，其组合特征向量用x_j表示，其中，j表示该用户的编号，且j＝1，2，...，n。

第二构建单元352，用于基于预设的随机函数、预设聚类数和组合特征矩阵，构建初始隶属度矩阵。

在一个实施方式中，通过第二构建单元352构建初始隶属度矩阵U，U为l×n维矩阵。其中，n为用户的数量，l为预设聚类数，且

计算单元353，用于基于初始隶属度矩阵和组合特征矩阵计算类中心矩阵。

在一个实施方式中，通过计算单元353获得的类中心矩阵C为一维向量形式，且C＝{c_i}，其中，i＝l。

其中，u_ij表示初始隶属度矩阵中的元素，m为加权指数，x_j表示第j个用户的组合特征向量。

更新单元354，用于基于类中心矩阵更新初始隶属度矩阵，获得更新的隶属度矩阵。

在一个实施方式中，通过更新单元354使用类中心矩阵更新初始隶属度矩阵，包括：

判断单元355，用于根据隶属度矩阵判断是否满足预设的停止条件。

其中，预设的停止条件包括收敛精度小于或等于预设收敛阈值，或者迭代次数达到预设的迭代阈值。

分类单元356，用于在满足停止条件的情况下，根据当前隶属度矩阵获得用户分类。

通过前述迭代过程获得的隶属度矩阵U为l×n维矩阵，隶属度矩阵的每一行代表一个分类，每一列中表示一个用户对于分类的归属程度，根据该列中元素的取值，通过分类单元356即可确定用户的分类。

迭代单元357，用于在不满足停止条件的情况下，执行隶属度矩阵的迭代操作直至满足停止条件，并根据当前隶属度矩阵获得用户分类。

在一个实施方式中，通过迭代单元357执行隶属度矩阵的迭代操作，包括：首先根据隶属度矩阵和组合特征矩阵更新类中心矩阵，再基于更新的类中心矩阵更新隶属度矩阵，从而获得更新的隶属度矩阵。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本申请的创新部分，本实施方式中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

可以理解的是，以上实施方式仅仅是为了说明本申请的原理而采用的示例性实施方式，然而本申请并不局限于此。对于本领域内的普通技术人员而言，在不脱离本申请的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本申请的保护范围。

Claims

1.一种分类方法，其特征在于，包括：

依据所述一级特征向量和预设特征阈值，获得二级特征向量；

对所述二级特征向量进行标准化处理，获得标准化特征向量；

基于因子分解机模型和所述标准化特征向量，获得组合特征向量；

对多个所述用户的所述组合特征向量进行聚类处理，获得用户分类。

2.根据权利要求1所述的分类方法，其特征在于，所述预设特征维度包括业务使用量、业务使用时段、套餐消费和增值消费中的任意一种或多种。

3.根据权利要求1所述的分类方法，其特征在于，所述标准化处理包括独热编码处理和/或归一化处理。

4.根据权利要求3所述的分类方法，其特征在于，所述二级特征向量包括数值类二级特征向量和字符串类二级特征向量；

所述对所述二级特征向量进行标准化处理，获得标准化特征向量，包括：

对所述数值类二级特征向量进行归一化处理，获得与所述数值类二级特征向量对应的所述标准化特征向量；

对所述字符串类二级特征向量进行独热编码处理，获得与所述字符串类二级特征向量对应的所述标准化特征向量。

5.根据权利要求1所述的分类方法，其特征在于，所述基于因子分解机模型和所述标准化特征向量，获得组合特征向量，包括：

将所述标准化特征向量输入所述因子分解机模型，获得输出结果；其中，所述输出结果包括所述组合特征向量。

6.根据权利要求1所述的分类方法，其特征在于，所述对多个所述用户的所述组合特征向量进行聚类处理，获得用户分类，包括：

基于所述组合特征向量，构建组合特征矩阵；

基于预设的随机函数、预设聚类数和所述组合特征矩阵，构建初始隶属度矩阵；

基于所述初始隶属度矩阵和所述组合特征矩阵计算类中心矩阵；

基于所述类中心矩阵更新所述初始隶属度矩阵，获得更新的隶属度矩阵；

根据所述隶属度矩阵判断是否满足预设的停止条件；

在满足所述停止条件的情况下，根据当前隶属度矩阵获得所述用户分类；

在不满足所述停止条件的情况下，执行所述隶属度矩阵的迭代操作直至满足所述停止条件，并根据当前隶属度矩阵获得所述用户分类。

7.根据权利要求6所述的分类方法，其特征在于，所述执行所述隶属度矩阵的更新操作，包括：

根据所述隶属度矩阵和所述组合特征矩阵更新所述类中心矩阵；

基于更新的所述类中心矩阵更新所述隶属度矩阵。

8.根据权利要求6所述的分类方法，其特征在于，所述停止条件包括收敛精度小于或等于预设收敛阈值，或迭代次数达到预设的迭代阈值。

9.一种分类装置，其特征在于，包括：

第二获取模块，用于依据所述一级特征向量和预设特征阈值，获得二级特征向量；

处理模块，用于对所述二级特征向量进行标准化处理，获得标准化特征向量；

第三获取模块，用于基于因子分解机模型和所述标准化特征向量，获得组合特征向量；

分类模块，用于对多个所述用户的所述组合特征向量进行聚类处理，获得用户分类。

10.根据权利要求9所述的分类装置，其特征在于，所述分类模块，包括：

第一构建单元，用于基于所述组合特征向量，构建组合特征矩阵；

第二构建单元，用于基于预设的随机函数、预设聚类数和所述组合特征矩阵，构建初始隶属度矩阵；

计算单元，用于基于所述初始隶属度矩阵和所述组合特征矩阵计算类中心矩阵；

更新单元，用于基于所述类中心矩阵更新所述初始隶属度矩阵，获得更新的隶属度矩阵；

判断单元，用于根据所述隶属度矩阵判断是否满足预设的停止条件；

分类单元，用于在满足所述停止条件的情况下，根据当前隶属度矩阵获得所述用户分类；

迭代单元，用于在不满足所述停止条件的情况下，执行所述隶属度矩阵的迭代操作直至满足所述停止条件，并根据当前隶属度矩阵获得所述用户分类。