CN111612491A

CN111612491A - 状态分析模型构建方法、分析方法及装置

Info

Publication number: CN111612491A
Application number: CN201910141206.9A
Authority: CN
Inventors: 杨凯迪; 谢梁
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2020-09-01
Anticipated expiration: 2039-02-25
Also published as: CN111612491B

Abstract

本申请实施例提供一种状态分析模型构建方法、分析方法及装置，涉及数据处理技术领域。方法包括获取多个训练用户在预设时间段内的训练特征数据；对训练特征数据进行分类操作获得分类结果；对分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；利用分类结果构建目标特征的回归模型，获得每一训练特征数据对应的特征系数和截距值；根据辨识度、每一训练特征数据对应的特征系数和截距值构建状态分析模型。本申请实施例通过利用状态分析模型对待测用户的特征数据进行分析，获得待测用户对应的状态分值，通过状态分值可以确定待测用户的状态信息，因此，本申请实施例能够针对待测用户个体进行分析，提高分析的准确性。

Description

状态分析模型构建方法、分析方法及装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种状态分析模型构建方法、分析方法及装置。

背景技术

针对服务型企业，例如：网约车或外卖等，需对所有的用户状态变化进行监控，通过发现用户状态的变化，及时进行单体化的策略干预。其中，“用户沉默预警”即为一个比较常见的状态监控场景。“用户沉默预警”是指发现用户状态异常，有流失的倾向的用户的预测。

现有技术中是针对某一类型的用户构建分析模型，因此其构建的分析模型只能针对某一类型的用户的状态进行分析，其对象粒度较大，因此，预测的准确性不高。

发明内容

有鉴于此，本申请实施例的目的在于提供一种状态分析模型构建方法、分析方法及装置，以解决上述构建的状态分析模型分析准确性低的技术问题。

根据本申请的一个方面，提供一种电子设备，可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，以执行一个或多个以下操作：

获取多个训练用户在预设时间段内的训练特征数据；对所述训练特征数据进行分类操作，获得分类结果；对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；利用所述分类结果构建目标特征的回归模型，根据所述回归模型获得每一训练特征数据对应的特征系数和截距值；根据所述辨识度、所述每一训练特征数据对应的特征系数和所述截距值构建所述状态分析模型。通过该状态分析模型能够准确地针对每个待测用户的状态进行分析。

在一些实施例中，所述对所述训练特征数据进行分类操作，获得分类结果，包括：对连续型的训练特征数据采用随机森林映射法进行分类操作，对离散型的训练特征数据采用Greenacre's分类合并法进行分类操作，获得分类结果。通过对连续型的训练特征数据采用随机森林映射法进行分类，对离散型的训练特征数据采用Greenacre's分类合并法进行分类，通过迭代的方式优化分类结果，能够提高状态分析模型分析的准确性。

在一些实施例中，所述对连续型的训练特征数据采用随机森林映射法进行分类操作，包括：对每一连续型的训练特征数据进行排序，并根据预设深度对排序后的训练特征数据进行预分类，获得多个聚合分裂点；计算每一所述聚合分裂点对应的信息增益，将最大的信息增益对应的聚合分裂点作为目标聚合分裂点。通过随机森林映射法实现了对连续型的训练特征数据的合理分箱操作。

在一些实施例中，所述计算每一所述聚合分裂点对应的信息增益，包括：利用g(D,A)＝H(D)-H(D|A)计算获得每一聚合分裂点对应的信息增益；其中，H(D)为所述排序后的训练特征数据的熵，H(A)为通过聚合分裂点A对所述排序后的训练特征数据进行划分后的熵。

在一些实施例中，对离散型的训练特征数据采用Greenacre's分类合并法进行分类操作，包括：构建每一离散型的训练特征数据对应的列联表，所述列联表包括多个类别；利用分层聚类算法将所述列联表中的多个类别进行多次聚类合并，得到一个类别，计算每次聚类结果对应的卡方值；根据各个聚类结果的卡方值和对应的预设自由度，获得对应的对数值，将最小的对数值对应的聚类结果作为目标聚类结果。通过Greenacre's分类合并法能够实现对离散型的训练特征数据进行合理的分箱操作。

在一些实施例中，所述对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度，包括：当所述训练特征数据的类型为二分类时，根据

计算每一训练特征数据对应的每一分类的辨识度；当所述训练特征数据的类型为连续型或多分类时，根据

计算每一训练特征数据对应的每一分类的辨识度；其中，B_i为第i组的第一类型用户的数量，G_i为第i组的第二类型用户的数量，B_T为第一类型用户的数量，G_T为第二类型用户的总数量，Records_i为第i组所有用户的数量。通过训练特征数据的类型不同采用不同的变换公式进行WoE变换，为待测用户的状态分值的计算做准备。

在一些实施例中，所述状态分析模型为：

其中，

baseScore为预设的基础分值，pdo为预设的好坏比，odds为预设的初始值；WoE_i为第i个训练特征数据对应的每一分类的辨识度，β_i为第i个训练特征数据对应所述特征系数，n为训练特征个数，α为所述截距值。

在一些实施例中，在获取多个训练用户在预设时间段内的训练特征数据之后，所述方法，还包括：采用随机森林预测法对所述训练特征数据中的缺失值进行补齐操作，以及对所述训练特征数据中的异常值进行删除操作。通过对训练用户的行为数据进行预处理后获得的训练特征数据，利用训练特征数据能够提高状态分析模型分析的准确率。

本申请的另一方面，提供一种用户状态分析方法，包括：

获取数据平台中待测用户的至少一个特征数据；利用上述构建的状态分析模型对所述至少一个特征数据进行分析，获得所述待测用户对应的状态分值；根据所述状态分值确定所述待测用户的状态信息。

本申请实施例通过利用状态分析模型对待测用户的特征数据进行分析，获得待测用户对应的状态分值，通过状态分值可以确定待测用户的状态信息，因此，本申请实施例能够针对待测用户个体进行分析，而不是针对某一个类型的用户进行分析，能够提高分析的准确性。

在一些实施例中，所述方法，还包括：利用状态分析模型对所述至少一个特征数据进行分析，获得所述至少一个特征数据分别对应的特征分值。本申请不但能够对待测用户的整体状态进行分析，还能够获得待测用户中每一特征数据的特征分值，从而能够获知影响该待测用户的状态的因素。

根据本申请的另一方面，本申请实施例提供一种用户状态分析装置，包括：

数据获取模块，用于获取多个训练用户在预设时间段内的训练特征数据；分类模块，用于对所述训练特征数据进行分类操作，获得分类结果；WoE变换模块，用于对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；第一模型构建模块，用于利用所述分类结果构建目标特征的回归模型，根据所述回归模型获得每一训练特征数据对应的特征系数和截距值；第二模型构建模块，用于根据所述辨识度、所述每一训练特征数据对应的特征系数和所述截距值构建所述状态分析模型。

在一些实施例中，所述分类模块，具体用于：

对连续型的训练特征数据采用随机森林映射法进行分类操作，对离散型的训练特征数据采用Greenacre's分类合并法进行分类操作，获得分类结果。

所述分类模块，具体用于：对连续型的训练特征数据采用随机森林映射法进行分类操作，对离散型的训练特征数据采用Greenacre's分类合并法进行分类操作，获得分类结果。

在一些实施例中，所述分类模块，具体用于：对每一连续型的训练特征数据进行排序，并根据预设深度对排序后的训练特征数据进行预分类，获得多个聚合分裂点；计算每一所述聚合分裂点对应的信息增益，将最大的信息增益对应的聚合分裂点作为目标聚合分裂点。

在一些实施例中，所述分类模块，具体用于：利用g(D,A)＝H(D)-H(D|A)计算获得每一聚合分裂点对应的信息增益；其中，H(D)为所述排序后的训练特征数据的熵，H(A)为通过聚合分裂点A对所述排序后的训练特征数据进行划分后的熵。

在一些实施例中，所述分类模块，具体用于：构建每一离散型的训练特征数据对应的列联表，所述列联表包括多个类别；利用分层聚类算法将所述列联表中的多个类别进行多次聚类合并，得到一个类别，计算每次聚类结果对应的卡方值；根据各个聚类结果的卡方值和对应的预设自由度，获得对应的对数值，将最小的对数值对应的聚类结果作为目标聚类结果。

在一些实施例中，所述WoE变换模块，具体用于：

当所述训练特征数据的类型为二分类时，根据

计算每一训练特征数据对应的每一分类的辨识度；

当所述训练特征数据的类型为连续型或多分类时，根据

计算每一训练特征数据对应的每一分类的辨识度；

其中，B_i为第i组的第一类型用户的数量，G_i为第i组的第二类型用户的数量，B_T为第一类型用户的数量，G_T为第二类型用户的总数量，Records_i为第i组所有用户的数量。

在一些实施例中，所述状态分析模型为：

其中，

在一些实施例中，所述装置，还包括预处理模块，用于采用随机森林预测法对所述训练特征数据中的缺失值进行补齐操作，以及对所述训练特征数据中的异常值进行删除操作。

根据本申请的另一方面，本申请实施例提供了一种用户状态分析装置，包括：

获取模块，用于获取待测用户的至少一个特征数据；第一分析模块，用于利用上述构建的状态分析模型对所述至少一个特征数据进行分析，获得所述待测用户对应的状态分值；确定模块，用于根据所述状态分值确定所述待测用户的状态信息。

在一些实施例中，所述装置，还包括：第二分析模块，用于利用状态分析模型对所述至少一个特征数据进行分析，获得所述至少一个特征数据分别对应的特征分值。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种状态分析模型构建方法流程示意图；

图2为本申请实施例提供的特征工程示意图；

图3为本申请实施例提供的一种用户状态分析方法流程示意图；

图4为本申请实施例提供的一种状态分析模型构建装置结构示意图；

图5为本申请实施例提供的一种用户状态分析装置结构示意图；

图6为本申请实施例提出的电子设备的示例性硬件和软件组件的示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请之前，多数针对某一个类别的用户进行建模，由于个体的差异性，在通过建模得到的模型对用户的状态进行分析时，其准确率较低。因此，本申请构建了状态分析模型，该状态分析模型的具体构建方法如下。

图1为本申请实施例提供的一种状态分析模型构建方法流程示意图，如图1所示，该方法包括：

步骤101：获取多个训练用户在预设时间段内的训练特征数据。

示例性地，分城市进行建模，即，每个城市可以构建一个状态分析模型。因此，可以获取对应城市中的训练用户在近n个月的行为数据作为训练特征数据，并对训练特征数进行预处理，其中预处理可以包括：先对行为数据进行特征工程，以从行为数据中筛选出所需的训练特征数据。其中，训练特征数据可以包括订单周期、发单率、订单损坏率、排队订单占比、订单投诉率等20多维的数据。

应当说明的是，图2为本申请实施例提供的特征工程示意图，如图2所示，特征工程主要的工作为特征处理，特征处理可以包括特征清洗和特征预处理；特征清洗包括异常值删除和采样。特征预处理包括对单个特征的处理、多个特征的处理和衍生变量。当对单个特征进行处理时，可以进行归一化、离散化、Dummy Coding、缺失值补齐操作和数据变换；其中数据变换可以包括：取对数log变换、取指数变换和Box-Cox变换。多个特征的特征预处理可以包括降维和特征选择。降维的方法可以包括主成分分析PCA技术和线性判别分析LDA技术。特征选择可以包括Filter、Wrapper和Embedde。Filter的思路为自变量和目标变量之间的关联，主要包括方差选择法、相关系数法、卡方检验、信息增益和互信法。Wrapper的思路为通过目标函数来决定是否加入一个变量，通过多次迭代来产生特征子集。Embedde的思路为学习器自身自动选择特征，主要包括正则化、决策树和深度学习。因此，特征工程的功能很多，本申请实施例可以从特征工程中选择所需的功能对行为数据进行预处理。

进一步地，在进行缺失值补齐操作时，可以采用随机森林预测法，缺失值补齐可以包括单变量缺失的数据填补和多变量缺失的数据填补。下面将分别进行描述：

一、单变量缺失的数据填补

假设有N个样本，P维特征，第i个样本的第j维特征值为x_ij，样本矩阵X如下：

假设含有缺失值数据的特征变量为x_s，据此，把数据矩阵X分为以下几个部分：

1、矩阵X中，特征变量x_s所在列中，未缺失的数据构成的向量，记为

另记

中各数据在其x_s列中的索引序列为

2、矩阵X中，特征变量x_s所在列中，缺失的数据构成的向量，记为

另记

中各数据在其x_s列中的索引序列为

3、矩阵X中，特征变量x_s所在列外，其他列在索引序列

相应位置的数据，组成矩阵x_obs；

4、矩阵X中，特征变量x_s所在列外，其他列在索引序列

相应位置的数据，组成矩阵x_miss；

采用

建立随机森林模型，并用该模型使用数据x_miss预测

从而可以得到特征变量x_s的缺失值。

二、多变量缺失的数据填补

多变量缺失的填补基本思想与单变量填补类似。首先，需要通过简单的填补(比如均值填补)对矩阵X进行初始填补，然后按照缺失数据的从少到多对矩阵X的列进行顺序调整(调整列顺序后的矩阵X第一列的缺失数据应该是最少的，最后一列的缺失数据应该是最多的)，再按照下述方式进行迭代：

1、记初始填补后得到的矩阵为X_old；

2、把X_old的第1列作为缺失变量列x_s，按照单变量填补方式对其进行填补，用的到的

更新X_old，得到更新后的矩阵X'_new；

3、把更新得到的矩阵X'_new中的第2列至最后一列，按照步骤2的方式进行填补，得到填补矩阵X_new；

4、判断是否满足迭代停止的条件，如果满足则填补结束，否则把X_new按照步骤2和步骤3的方式继续迭代更新。

步骤102：对所述训练特征数据进行分类操作，获得分类结果。

示例性地，训练特征数据中可以包括连续型特征和离散型特征，对连续型的训练特征数据可以采用随机森林映射法进行分类操作，对离散型的训练特征数据可以采用Greenacre's分类合并法进行分类操作。

应当说明的是，对连续型的训练特征数据的分类的步骤可以包括：

以订单差评率为例：遍历所有的训练用户的订单差评率数据，将订单差评率数据从小到大进行排序，根据预设深度的聚合分裂点对排序后的订单差评率进行预分类。可以理解的是，若数据为1-100，将100个数据分为10段，每段有10个数据，其预设深度即为10。

计算每一个聚合分裂点对应的信息增益，将最大的信息增益对应的聚合分裂点作为目标聚合分裂点。其中信息增益是以某特征划分数据集前后的熵的差值。其信息增益的计算公式为：

g(D,A)＝H(D)-H(D|A)

其中，H(D)为所述排序后的训练特征数据的熵，H(A)为通过聚合分裂点A对所述排序后的训练特征数据进行划分后的熵。通过上述公式可以计算获得每个聚合分裂点对应的信息增益。

对连续型的训练特征数据的分类的步骤可以包括：

Greenacre's分类合并法是一种对分类变量进行类别间合并，判断合并最优结果的方法。

以用户的订单周期为例，计算每一种订单周期的用户对应y＝1的占比，根据y＝1的占比生成k*2的列联表，该列联表中包括k个类别的订单周期。

基于生成的列联表，使用分层聚类算法将列联表中的多个类别逐次进行聚类合并，使得多个类别合并为一个类别。计算每次聚类结果对应的卡方值。应当说明的是，分层聚类算法可以为基于WARDS方法的聚类算法。

根据各个聚类结果的卡方值和对应的预设自由度，计算其在卡方分布下的对数值，即log(p-vaalue)，取最小的对数值对应的聚类结果作为目标聚类结果。其中，log(p-vaalue)＝logdf('CHISQ',x²,df)。

因此，本申请实施例通过将连续型的训练特征数据利用随机森林映射法进行分类，将离散型的训练特征数据利用Greenacre's分类，通过迭代的方式优化分类结果，能够提高状态分析模型分析的准确性。

步骤103：对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；

示例性地，在分别对连续型训练特征数据和离散型训练特征数据进行分类，获得分类结果之后，对每一分类进行WoE变换，获得每一训练特征数据对应的每一分类的辨识度。WoE采用“条件似然比”变换，极大化自变量分类结果的辨识度。

当训练特征数据的类型为二分类时，可以通过如下公式计算每一训练特征数据对应每一分类的辨识度：

当训练特征数据的类型为连续型或多分类时，可以通过如下公式计算每一训练特征数据对应每一分类的辨识度：

其中，B_i为第i组的第一类型用户的数量，G_i为第i组的第二类型用户的数量，B_T为第一类型用户的数量，G_T为第二类型用户的总数量，Records_i为第i组所有用户的数量，其中，第一类型用户可以为沉默用户，第二类型用户可以为留存用户。沉默用户是指在预设时间段内没有下过订单的用户，留存用户是指在预设时间段内下过订单的用户。

步骤104：利用所述分类结果构建目标特征的回归模型，根据所述回归模型获得每一训练特征数据对应的特征系数和截距值。

示例性地，在获得到每个训练特征数据对应的每一分类的辨识度后，利用分类结果构建目标特征的回归模型，应当说明的是，目标特征为根据业务需求预先选择的特征，例如：目标特征为用户在最近30天内是否下订单y。因此，可以以用户在最近30天内是否下订单构建回归模型，得到每个训练特征x_i对应的特征系数β_i以及截距值α。

应当说明的是，可以根据不同的关注点选择对应的目标特征，只需要修改建模时的y即可，y可以为连续型训练特征数据，也可以是离散型的训练特征数据。当应用场景为以用户连续30天是否下订单进行用户沉默预警；若将y修改为用户订单周期，即可针对用户订单周期的异常变动进行监控。

步骤105：根据所述辨识度、所述每一训练特征数据对应的特征系数和所述截距值构建所述状态分析模型。

示例性地，预先设定用户的基础分值，好坏比，并利用上述计算获得的每一训练特征数据在每一分类中的辨识度，每一训练特征数据对应的特征系数以及截距值构建状态分析模型。状态分析模型的具体公式如下：

其中，

baseScore为预设的基础分值，pdo为预设的好坏比，odds为预设的初始值；WoE_i为第i个训练特征数据对应的每一分类的辨识度，β_i为第i个训练特征数据对应特征系数，n为训练特征个数，α为截距值。

通过上述状态分析模型的公式可以计算出待测用户的状态分值，根据状态分值以及历史状态分值可以判断得知该待测用户的状态是否发生了异常。应当说明的是，根据状态分析模型还可以计算出待测用户对应的每个特征数据对应的特征分值。

本申请实施例通过在获取到训练特征数据后，利用随机森林预测法对连续型的训练特征数据进行分类操作，再对分类结果进行WoE变换获得对应的辨识度，以及根据目标特征构建回归模型，从而获得特征系数和截距值，根据辨识度、特征系数和截距值构建状态分析模型，由于本申请实施例在构建状态分析模型时是根据用户个体进行的，因此，本申请实施例能够针对待测用户个体进行分析，而不是针对某一个类型的用户进行分析，能够提高分析的准确性。

图3为本申请实施例提供的一种用户状态分析方法流程示意图，如图3所示，该方法包括：

步骤301：获取数据平台中待测用户的至少一个特征数据。

示例性地，对于一些企业，例如：网约车平台或外卖平台，每天都会产生大量的用户的行为数据，可以通过数据平台对用户的行为数据进行存储。当需要对待测用户的状态进行分析时，分析装置可以从数据平台中获取待测用户在预设时间段内的行为数据。应当说明的是，待测用户的状态可以为沉默用户和留存用户等等，其具体状态可以根据业务需求确定，本申请实施例对此不作具体限定。对待测用户的行为数据进行特征工程，所谓特征工程，其目的是最大限度地从原始数据中提取特征以供算法和模型使用，因此，可以获得至少一个特征数据。

进一步地，在获得到至少一个特征数据后，可以对至少一个特征数据进行预处理，例如：可以对特征数据中的缺失值进行补齐操作，具体的补齐方法可以采用随机森林预测法；还可以对特征数据中的异常值进行删除处理等。

步骤302：利用状态分析模型对所述至少一个特征数据进行分析，获得所述待测用户对应的状态分值；其中，所述状态分值用于表征所述待测用户的状态的指标，所述状态分析模型通过对多个训练用户对应的训练特征数据的数据类型采用对应的分类算法进行分类，并利用分类结果进行训练获得。

示例性地，对于网约车服务，不同城市的用户的行为状态可能不同，因此，可以预先进行分城市的构建状态分析模型。利用待测用户所在城市对应的状态分析模型对至少一个特征数据进行分析，获得该待测用户对应的状态分值。应当说明的是，状态分析模型在构建时，还可以根据其他因素进行构建，本申请实施例对此不作具体限定。状态分值为状态分析模型对待测用户的特征数据进行分析后输出的得分，该得分用于表征待测用户的状态的指标。状态分析模型为预先构建的，即，预先获取多个训练用户在预设时间段内对应的训练数据特征，然后根据训练数据特征的数据类型采用对应的分类算法进行分类，获得分类结果，然后利用分类结果进行模型训练。可以理解的是，数据类型包括连续型和离散型。

步骤303：根据所述状态分值确定所述待测用户的状态信息。

示例性地，在获得到待测用户对应的状态分值后，可以根据该状态分值确定待测用户的状态信息，即，判断该待测用户是否为沉默用户，可以理解的是，沉默用户为用户状态异常，有流失倾向的用户。

例如：可以每周对该待测用户进行分析，获得一个状态分值，累计8周后，即可针对待测用户在8周的波动情况，从而可以获得本次待测用户的状态分值是否异常。

图4为本申请实施例提供的一种状态分析模型构建装置结构示意图，如图4所示，该装置包括：数据获取模块401、分类模块402、WoE变换模块403、第一模型构建模块404和第二模型构建模块405，其中：

数据获取模块401用于获取多个训练用户在预设时间段内的训练特征数据；分类模块402用于对所述训练特征数据进行分类操作，获得分类结果；WoE变换模块403用于对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；第一模型构建模块404用于利用所述分类结果构建目标特征的回归模型，根据所述回归模型获得每一训练特征数据对应的特征系数和截距值；第二模型构建模块405用于根据所述辨识度、所述每一训练特征数据对应的特征系数和所述截距值构建所述状态分析模型。

在上述实施例的基础上，所述分类模块，具体用于：

对每一连续型的训练特征数据进行排序，并根据预设深度对排序后的训练特征数据进行预分类，获得多个聚合分裂点；

计算每一所述聚合分裂点对应的信息增益，将最大的信息增益对应的聚合分裂点作为目标聚合分裂点。

在上述实施例的基础上，所述分类模块，具体用于：

利用g(D,A)＝H(D)-H(D|A)计算获得每一聚合分裂点对应的信息增益；

其中，H(D)为所述排序后的训练特征数据的熵，H(A)为通过聚合分裂点A对所述排序后的训练特征数据进行划分后的熵。

在上述实施例的基础上，所述分类模块，具体用于：

构建每一离散型的训练特征数据对应的列联表，所述列联表包括多个类别；

利用分层聚类算法将所述列联表中的多个类别进行多次聚类合并，得到一个类别，计算每次聚类结果对应的卡方值；

根据各个聚类结果的卡方值和对应的预设自由度，获得对应的对数值，将最小的对数值对应的聚类结果作为目标聚类结果。

在上述实施例的基础上，所述WoE变换模块，具体用于：

当所述训练特征数据的类型为二分类时，根据

计算每一训练特征数据对应的每一分类的辨识度；

当所述训练特征数据的类型为连续型或多分类时，根据

计算每一训练特征数据对应的每一分类的辨识度；

在上述实施例的基础上，所述状态分析模型为：

其中，

baseScore为预设的基础分值，pdo为预设的好坏比，odds为预设的初始值；

WoE_i为第i个训练特征数据对应的每一分类的辨识度，β_i为第i个训练特征数据对应所述特征系数，n为训练特征个数，α为所述截距值。

在上述实施例的基础上，所述装置，还包括：

预处理模块，用于采用随机森林预测法对所述训练特征数据中的缺失值进行补齐操作，以及对所述训练特征数据中的异常值进行删除操作。

图5为本申请实施例提供的一种用户状态分析装置结构示意图，如图5所示，该装置包括：获取模块501、第一分析模块502和确定模块503，其中：

获取模块501用于获取待测用户的至少一个特征数据；第一分析模块502用于利用状态分析模型对所述至少一个特征数据进行分析，获得所述待测用户对应的状态分值；其中，所述状态分值用于表征所述待测用户的状态的指标，所述状态分析模型通过对多个训练用户对应的训练特征数据的数据类型采用对应的分类算法进行分类，并利用分类结果进行训练获得；确定模块503用于根据所述状态分值确定所述待测用户的状态信息。

在上述实施例的基础上，所述装置，还包括：

第二分析模块，用于利用状态分析模型对所述至少一个特征数据进行分析，获得所述至少一个特征数据分别对应的特征分值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

综上所述，本申请实施例通过利用状态分析模型对待测用户的特征数据进行分析，获得待测用户对应的状态分值，通过状态分值可以确定待测用户的状态信息，因此，本申请实施例能够针对待测用户个体进行分析，而不是针对某一个类型的用户进行分析，能够提高分析的准确性。

图6为本申请实施例提出的电子设备的示例性硬件和软件组件的示意图，如图6所示：

电子设备可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的用户状态分析方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备可以包括连接到网络的网络端口601、用于执行程序指令的一个或多个处理器602、通信总线603、和不同形式的存储介质604，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口250。

为了便于说明，在电子设备中仅描述了一个处理器。然而，应当注意，本申请中的电子设备还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种状态分析模型构建方法，其特征在于，包括：

获取多个训练用户在预设时间段内的训练特征数据；

对所述训练特征数据进行分类操作，获得分类结果；

对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；

利用所述分类结果构建目标特征的回归模型，根据所述回归模型获得每一训练特征数据对应的特征系数和截距值；

根据所述辨识度、所述每一训练特征数据对应的特征系数和所述截距值构建所述状态分析模型。

2.根据权利要求1所述的方法，其特征在于，所述对所述训练特征数据进行分类操作，获得分类结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述对连续型的训练特征数据采用随机森林映射法进行分类操作，包括：

4.根据权利要求3所述的方法，其特征在于，所述计算每一所述聚合分裂点对应的信息增益，包括：

5.根据权利要求2所述的方法，其特征在于，对离散型的训练特征数据采用Greenacre's分类合并法进行分类操作，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度，包括：

当所述训练特征数据的类型为二分类时，根据

计算每一训练特征数据对应的每一分类的辨识度；

当所述训练特征数据的类型为连续型或多分类时，根据

计算每一训练特征数据对应的每一分类的辨识度；

7.根据权利要求1所述的方法，其特征在于，所述状态分析模型为：

其中，

为预设的基础分值，pdo为预设的好坏比，odds为预设的初始值；

8.根据权利要求1所述的方法，其特征在于，在获取多个训练用户在预设时间段内的训练特征数据之后，所述方法，还包括：

采用随机森林预测法对所述训练特征数据中的缺失值进行补齐操作，以及对所述训练特征数据中的异常值进行删除操作。

9.一种用户状态分析方法，其特征在于，所述方法包括：

获取数据平台中待测用户的至少一个特征数据；

利用如权利要求1-8任一项构建的状态分析模型对所述至少一个特征数据进行分析，获得所述待测用户对应的状态分值；

根据所述状态分值确定所述待测用户的状态信息。

10.根据权利要求9所述的方法，其特征在于，所述方法，还包括：

利用状态分析模型对所述至少一个特征数据进行分析，获得所述至少一个特征数据分别对应的特征分值。

11.一种状态分析模型构建装置，其特征在于，包括：

数据获取模块，用于获取多个训练用户在预设时间段内的训练特征数据；

分类模块，用于对所述训练特征数据进行分类操作，获得分类结果；

WoE变换模块，用于对所述分类结果进行证据权重WoE变换，获得每一训练特征数据对应的每一分类的辨识度；

第一模型构建模块，用于利用所述分类结果构建目标特征的回归模型，根据所述回归模型获得每一训练特征数据对应的特征系数和截距值；

第二模型构建模块，用于根据所述辨识度、所述每一训练特征数据对应的特征系数和所述截距值构建所述状态分析模型。

12.根据权利要求11所述的装置，其特征在于，所述分类模块，具体用于：

13.根据权利要求12所述的装置，其特征在于，所述分类模块，具体用于：

14.根据权利要求13所述的装置，其特征在于，所述分类模块，具体用于：

15.根据权利要求12所述的装置，其特征在于，所述分类模块，具体用于：

16.根据权利要求11所述的装置，其特征在于，所述WoE变换模块，具体用于：

当所述训练特征数据的类型为二分类时，根据

计算每一训练特征数据对应的每一分类的辨识度；

当所述训练特征数据的类型为连续型或多分类时，根据

计算每一训练特征数据对应的每一分类的辨识度；

17.根据权利要求11所述的装置，其特征在于，所述状态分析模型为：

其中，

18.根据权利要求11所述的装置，其特征在于，所述装置，还包括：

19.一种用户状态分析装置，其特征在于，所述装置，包括：

获取模块，用于获取待测用户的至少一个特征数据；

第一分析模块，用于利用如权利要求1-8任一项构建的状态分析模型对所述至少一个特征数据进行分析，获得所述待测用户对应的状态分值；

确定模块，用于根据所述状态分值确定所述待测用户的状态信息。

20.根据权利要求19所述的装置，其特征在于，所述装置，还包括：

21.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至8任一所述的状态分析模型构建方法的步骤。

22.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一所述的状态分析模型构建方法的步骤。

23.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求9或10所述的状态分析模型构建方法的步骤。

24.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求9或10所述的状态分析模型构建方法的步骤。