CN111597348A

CN111597348A - 用户画像方法、装置、计算机设备和存储介质

Info

Publication number: CN111597348A
Application number: CN202010345625.7A
Authority: CN
Inventors: 孔清扬; 吴满芳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-28
Anticipated expiration: 2040-04-27
Also published as: CN111597348B

Abstract

本申请涉及一种基于大数据的用户画像方法、装置、计算机设备和存储介质。所述方法包括：获取待分析的用户数据，包括数值变量和非数值变量，对各非数值变量进行实体嵌入编码，将各非数值变量从语义空间映射至向量空间，从向量空间中确定与非数值变量对应的连续向量，对连续向量进行训练生成对应的代表向量。获取基于业务场景预设的聚类范围，根据训练后的K‑means模型，对聚类范围内的数值变量和代表向量进行穷举聚类，生成多个用户聚类结果。计算各用户聚类结果的轮廓系数，确定最大轮廓系数的聚类结果为目标聚类结果，根据目标聚类结果，得到对应的用户画像结果。此外，本发明还涉及区块链技术，用户聚类结果可存储于区块链节点中。

Description

用户画像方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种用户画像方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，以及智能终端设备在人们工作生活中的广泛应用，越来越多用户在金融企业的消费行为发生了变化。金融企业大多根据掌握的用户属性和用户消费行为等数据对于用户进行用户画像，来为提供更为满足用户需求的金融服务和更贴切的金融产品。其中，用户画像主要包括用户消费行为信息和用户人口属性信息如出生地，年龄等，利用聚类算法可将用户不同维度的信息进行组合，把行为、属性相似的用户聚在一起。

传统的用户画像方式通常为利用K-Means算法，以样本间距离为衡量标准，将所有样本划分到K个群体，使得群体和群体之间的距离最大化，同时群体内部的样本之间的距离最小化。由于K-Means算法对数据类型要求较高，类别变量比如受教育水平和所在城市等，由于无法在维度空间内刻画类别之间的距离，均不适用于K-Means算法，因此很多用户画像仅根据用户连续变量相关信息进行聚类，聚类完成之后再做统计每个簇在分类变量上的分布信息，或者将类别变量进行独热编码处理，再进行分类。

然而经独热编码后的特征会变成强特征，对K-Means算法的聚类结果有很大的影响，由于K-Means算法对所有聚类指标的权重均相同，会出现分类结果不符合实际业务需求的情况，导致得到的用户画像精确度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高用户画像精确度的用户画像方法、装置、计算机设备和存储介质。

一种用户画像方法，所述方法包括：

获取待分析的用户数据；所述用户数据包括数值变量和非数值变量；

利用实体嵌入的方式编码各所述非数值变量，将各所述非数值变量从语义空间映射至对应的向量空间；

从所述向量空间中确定与所述非数值变量对应的连续向量；

对所述连续向量进行训练，生成与各所述数值变量对应的代表向量；获取基于业务场景预设的聚类范围；

根据训练后的K-means模型，对所述聚类范围内的所述数值变量和所述代表向量进行穷举聚类，生成多个用户聚类结果；

计算各所述用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果；

根据所述目标聚类结果，得到对应的用户画像结果。

在其中一个实施例中，所述方法还包括：

获取各所述非数值变量的出现频次，并根据所述出现频次从所述向量空间中确定各所述非数值变量对应的识别标识向量；

将各所述非数值变量对应的识别标识向量确定为原始K-means模型的实际标签；

根据各所述实际标签对所述原始K-means模型进行训练，得到对应的训练后的K-means模型。

在其中一个实施例中，所述从所述向量空间中确定与所述非数值变量对应的连续向量，包括：

获取经所述实体嵌入的方式编码后的各所述非数值变量之间的间隔距离；

按照所述间隔距离的大小，将与各所述非数值变量邻近的向量分配至与所述非数值变量对应的类别向量；

将与所述非数值变量邻近的向量，确定为相应所述非数值变量对应的连续向量。

在其中一个实施例中，所述根据训练后的K-means模型，对所述聚类范围内的所述数值变量和所述代表向量进行穷举聚类，生成多个用户聚类结果，包括：

根据各所述实际标签，分别确定对应的数值变量和代表向量；所述数值变量和代表向量处于所述聚类范围；

将对应所述数值变量和所述代表向量，输入与所述实际标签对应的训练后的K-means模型；

分别获取各所述训练后的K-means模型输出的用户聚类结果，其中，所述用户聚类结果存储在区块链中。

在其中一个实施例中，所述计算各所述用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果，包括：

从所述用户数据中选取任一数据样本，确定为第一样本；

获取所述第一样本所在同簇的其他数据样本，并计算所述第一样本至同簇内其他数据样本间的平均距离，确定为所述第一样本的簇内不相似度；

从所述用户数据中选取任一簇，确定为目标簇，并获取所述目标簇内的所有数据样本；

计算所述第一样本至所述目标簇内的所有数据样本的平均距离，确定为所述第一样本的簇间不相似度；

根据所述簇内不相似度和所述簇间不相似度，计算所述第一样本的轮廓系数；

返回从所述用户数据中选取任一数据样本，确定为第一样本的步骤，直至确定最大轮廓系数的聚类结果，根据所述得到最大轮廓系数的聚类结果目标聚类结果。

在其中一个实施例中，所述方法还包括：采用以下公式计算所述第一样本的轮廓系数：

其中，s(i)为所述第一样本的轮廓系数，a(i)为所述第一样本的簇内不相似度，b(i)为所述第一样本的簇间不相似度；当所述s(i)接近1时，表明所述第一样本聚类合理，当所述s(i)接近-1时或0时，表明所述第一样本聚类不合理。

在其中一个实施例中，在所述获取待分析的用户数据之前，所述方法还包括：

采集各个用户的属性数据和消费行为数据，生成数据样本集；

对所述数据样本集内各样本数据进行数据类型识别，确定各所述样本数据所属的数据类型；

分别对不同数据类型的所述样本数据进行数据预处理，生成待分析的用户数据。

一种用户画像装置，所述装置包括：

用户数据获取模块，用于获取待分析的用户数据；所述用户数据包括数值变量和非数值变量；

实体嵌入编码模块，用于利用实体嵌入的方式编码各所述非数值变量，将各所述非数值变量从语义空间映射至对应的向量空间；

连续向量确定模块，用于从所述向量空间中确定与所述非数值变量对应的连续向量；

代表向量生成模块，用于对所述连续向量进行训练，生成与各所述数值变量对应的代表向量；

聚类范围获取模块，用于获取基于业务场景预设的聚类范围；

用户聚类结果生成模块，用于根据训练后的K-means模型，对所述聚类范围内的所述数值变量和所述代表向量进行穷举聚类，生成多个用户聚类结果；

目标聚类结果确定模块，用于计算各所述用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果；

用户画像结果生成模块，用于根据所述目标聚类结果，得到对应的用户画像结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

从所述向量空间中确定与所述非数值变量对应的连续向量；

根据所述目标聚类结果，得到对应的用户画像结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

从所述向量空间中确定与所述非数值变量对应的连续向量；

根据所述目标聚类结果，得到对应的用户画像结果。

上述用户画像方法、装置、计算机设备和存储介质，通过获取待分析的用户数据，包括数值变量和非数值变量，利用实体嵌入的方式编码各非数值变量，将各非数值变量从语义空间映射至对应的向量空间，并从向量空间中确定与非数值变量对应的连续向量，通过对连续向量进行训练，生成与各数值变量对应的代表向量，解决了传统K-Means模型无法处理类别变量的问题。通过获取基于业务场景预设的聚类范围，并根据训练后的K-means模型，对聚类范围内的数值变量和代表向量进行穷举聚类，生成多个用户聚类结果。通过计算各用户聚类结果的轮廓系数，确定最大轮廓系数的聚类结果为目标聚类结果，根据目标聚类结果，以提高针对不同用户的用户画像精确度，得到符合业务需求的用户画像结果。

附图说明

图1为一个实施例中用户画像方法的应用环境图；

图2为一个实施例中用户画像方法的流程示意图；

图3为一个实施例中计算各用户聚类结果的轮廓系数的流程示意图；

图4为一个实施例中预设的聚类范围下各用户聚类结果的轮廓系数分布示意图；

图5为一个实施例中用户聚类结果详细示意图；

图6为一个实施例中生成待分析的用户数据的流程示意图；

图7为一个实施例中数据类型识别逻辑示意图；

图8为一个实施例中用户画像装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的用户画像方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104通过从终端102获取待分析的用户数据，其中，用户数据包括数值变量和非数值变量，利用实体嵌入的方式编码各非数值变量，将各非数值变量从语义空间映射至对应的向量空间，并从向量空间中确定与非数值变量对应的连续向量，通过对连续向量进行训练，生成与各数值变量对应的代表向量。服务器104通过获取基于业务场景预设的聚类范围，并根据训练后的K-means模型，对聚类范围内的数值变量和代表向量进行穷举聚类，生成多个用户聚类结果。通过计算各用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果，进而根据目标聚类结果，得到对应的用户画像结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

需要强调的是，为进一步保证上述用户聚类结果的私密和安全性，上述用户聚类结果还可以存储于一区块链的节点中。

在一个实施例中，如图2所示，提供了一种用户画像方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取待分析的用户数据，用户数据包括数值变量和非数值变量。

具体地，从业务系统中采集各个用户的属性数据和消费行为数据，作为样本数据，生成数据样本集，通过对数据样本集内各样本数据进行数据类型识别，确定各样本数据所属的数据类型，分别对不同数据类型的样本数据进行数据预处理，生成待分析的用户数据。其中，用户数据包括数值变量和非数值变量，非数值变量包括用户的教育水平、所在城市、购买的产品类别以及用户职业等。

步骤S204，利用实体嵌入的方式编码各非数值变量，将各非数值变量从语义空间映射至对应的向量空间。

具体地，通过采用实体嵌入的方式编码非数值变量，即将各非数值变量从语义空间映射至对应的向量空间，实现将大型稀疏向量转换为保留语义关系的低维空间，进而可利用连续向量表示离散变量，并确定可用于代表相应非数值变量的代表向量，用于替代原始的非数值变量。

进一步地，嵌入是指向量的类别表示，原始的非数值变量为不可应用至原始K-Means模型的变量。具体而言，非数值变量可包括教育水平、所在城市、购买的产品类别以及客户职业等。这些变量为非数值型的，无法直接应用至原始K-Means模型。大部分非数值变量是无序的，比如职业中的医生，律师，教师等，直接用1、2、3来表征不符合业务逻辑的，无法直接进行编码。需要利用实体嵌入的方式，将大型稀疏向量转换为保留语义关系的低维空间，进而利用连续向量表示离散变量，将各非数值变量从语义空间映射至对应的向量空间。

步骤S206，从向量空间中确定与非数值变量对应的连续向量。

具体地，在将各非数值变量从语义空间映射至对应的向量空间后，根据实体嵌入提供的不同非数值变量之间距离大小，在训练过程中，将与非数值变量邻近的向量分配至对应类别向量，进而将与非数值变量临近的向量确定为与非数值变量对应的连续向量。

步骤S208，对连续向量进行训练，生成与各数值变量对应的代表向量。

具体地，通过对分配至不同非数值变量的连续向量进行训练，可生成多个可用于代表不同非数值变量的代表向量。也就是说，通过对从向量空间中分配至各非数值变量的邻近向量的训练，得到可用于代表非数值变量的代表向量，即可应用至K-Means模型。

进一步地，在一个实施例中，还包括生成训练后的K-Means模型：

获取各非数值变量的出现频次，并根据出现频次从向量空间中确定与各非数值变量对应的识别标识向量。其中，识别标识向量可用于指示非数值变量的出现次数，并将各非数值变量对应的识别标识向量确定为原始K-means模型的实际标签，进而根据各实际标签对原始K-means模型进行训练，得到对应的训练后的K-means模型。

其中，原始K-Means模型对数据进行分类的过程中，需要利用K-Means模型本身已有的多个明确标签对所输入的数据进行分析处理，输出相应的分类结果，而由于在不同场景下，所需要处理的数据的数据类型不一致。比如在金融场景下，针对不同用户的用户信息和消费行为数据，原始K-Means模型无法处理非数值变量，包括用户信息中的居住城市、教育程度等。

具体地，由于神经网络嵌入维度较低，并可令相似的实体在嵌入空间中相邻，可在嵌入空间中找到相邻近的实体。其中，嵌入空间用于表示存储有多个实体，即数值变量以及类别变量等的存储空间。可通过将每个非数值变量的出现频次，从向量空间中确定出与各非数值变量对应的识别标识向量，并将与各非数值变量对应的识别标识向量作为K-Means模型的实际标签，根据实际标签可对K-Means模型进行训练，获得训练后的K-Means模型。

步骤S210，获取基于业务场景预设的聚类范围。

具体地，用户可基于业务场景的实际需求，预先定义聚类范围，在进行聚类操作时，获取基于业务场景预设的聚类范围，在本实施例中，可将聚类范围预设为[3,50]。

步骤S212，根据训练后的K-means模型，对聚类范围内的数值变量和代表向量进行穷举聚类，生成多个用户聚类结果。

具体地，根据各实际标签，分别确定对应的数值变量和代表向量，其中，数值变量和代表向量处于聚类范围。通过将对应数值变量和代表向量，输入与实际标签对应的训练后的K-means模型，并分别获取各训练后的K-means模型输出的用户聚类结果。

其中，传统的聚类方式为：将一个给定的数据集X，以[kmin＝2]，[kmax＝Int(n)]对所有K值完成聚类，用内部聚类评价指标对所有聚类结果进行计算，聚类评价指标最优值所对应的K值即为最佳聚类数目。但由于需要实现K＝[[kmin]，[kmax]]的值穷举聚类，对于大数据集来说相应的计算量较大，用户可根据业务需求预先定义间距[dis]，[dis∈[kmin，kmax]]，其中，间距指的是与业务需求对应的K值取值范围。

进一步地，可通过获取基于用户需求设置的间距对应数据集部分，并对该部分数据进行聚类操作。先对一部分K值进行评价，缩小K的取值范围，然后再对[K0]＝[[k0min]，[k0max]]的值穷举聚类，一定程度上可减少计算量，得到对聚类范围内的数值变量和代表向量进行穷举聚类后得到的多个用户聚类结果。

其中，K0即为根据用户需求设置的K值，[k0min]和[k0max]分别表示用户定义的K值所能取的最大值和最小值，其中，[k0min]大于或等于[kmin]，[k0max]小于或等于[kmax]。

步骤S214，计算各用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果。

具体地，通过从用户数据中选取任一数据样本，确定为第一样本，并获取第一样本所在同簇的其他数据样本，计算第一样本至同簇内其他数据样本间的平均距离，确定为第一样本的簇内不相似度。通过从用户数据中选取任一簇，确定为目标簇，并获取目标簇内的所有数据样本，计算第一样本至目标簇内的所有数据样本的平均距离，确定为第一样本的簇间不相似度。根据簇内不相似度和簇间不相似度，计算第一样本的轮廓系数，确定最大轮廓系数的聚类结果为目标聚类结果。

其中，计算得到第一样本至同簇内其他数据样本间的平均距离，并确定为第一样本的簇间不相似度后，判定第一样本的簇间不相似度的大小，当第一样本的簇间不相似度越小时，表明第一样本越应该被聚类到该簇。计算得到一样本至目标簇内的所有数据样本的平均距离，确定为第一样本的簇间不相似度后，判定确定为第一样本的簇间不相似度的大小，当确定为第一样本的簇间不相似度越大时，表明第一样本越不属于其他目标簇。

步骤S216，根据目标聚类结果，得到对应的用户画像结果。

具体地，将具有最大轮廓系数的目标聚类结果，确定为相应的用户画像结果。其中，根据目标聚类结果，可得到根据该目标聚类结果得到的用户聚类情况，即该目标聚类结果对应何种类型的用户，包括不同学历、不同资产以及不同金融产品需求等。

上述用户画像方法中，通过获取待分析的用户数据，包括数值变量和非数值变量，利用实体嵌入的方式编码各非数值变量，将各非数值变量从语义空间映射至对应的向量空间，并从向量空间中确定与非数值变量对应的连续向量，通过对连续向量进行训练，生成与各数值变量对应的代表向量，解决了传统K-Means模型无法处理类别变量的问题。通过获取基于业务场景预设的聚类范围，并根据训练后的K-means模型，对聚类范围内的数值变量和代表向量进行穷举聚类，生成多个用户聚类结果。通过计算各用户聚类结果的轮廓系数，确定最大轮廓系数的聚类结果为目标聚类结果，根据目标聚类结果，以提高针对不同用户的用户画像精确度，得到符合业务需求的用户画像结果。

在一个实施例中，如图3所示，计算各用户聚类结果的轮廓系数的步骤，即计算各用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果的步骤，具体包括以下S302至S312的步骤：

步骤S302，从用户数据中选取任一数据样本，确定为第一样本。

具体地，进行聚类后的用户数据中，选取任一数据样本，确定为第一样本。其中，第一样本用于表示聚类后的用户数据中的任一数据样本，可以有多个。

步骤S304，获取第一样本所在同簇的其他数据样本，并计算第一样本至同簇内其他数据样本间的平均距离，确定为第一样本的簇内不相似度。

具体地，通过获取第一样本所在同簇的其他数据样本，并计算第一样本至同簇内其他数据样本间的平均距离，在计算得到第一样本至同簇内其他数据样本间的平均距离，并确定为第一样本的簇间不相似度后，判定第一样本的簇间不相似度的大小，当第一样本的簇间不相似度越小时，表明第一样本越应该被聚类到该簇。

步骤S306，从用户数据中选取任一簇，确定为目标簇，并获取目标簇内的所有数据样本。

具体地，从进行聚类后的用户数据中，选取任一簇，确定为目标簇，其中，目标簇为任意获取的，也可以是多个，并获取目标簇内的所有数据样本。

步骤S308，计算第一样本至目标簇内的所有数据样本的平均距离，确定为第一样本的簇间不相似度。

具体地，通过计算第一样本至目标簇内的所有数据样本的平均距离，确定为第一样本的簇间不相似度，并在计算得到一样本至目标簇内的所有数据样本的平均距离，确定为第一样本的簇间不相似度后，判定确定为第一样本的簇间不相似度的大小，当确定为第一样本的簇间不相似度越大时，表明第一样本越不属于其他目标簇。

步骤S310，根据簇内不相似度和簇间不相似度，计算第一样本的轮廓系数。

具体地，根据簇内不相似度和簇间不相似度，定义第一样本的轮廓系数，采用以下公式计算第一样本的轮廓系数：

其中，s(i)为第一样本的轮廓系数，a(i)为第一样本的簇内不相似度，b(i)为第一样本的簇间不相似度；当s(i)接近1时，表明第一样本聚类合理，当s(i)接近-1时或0时，表明第一样本聚类不合理。

具体来说，s(i)接近1，则说明第一样本聚类合理；s(i)接近-1，则说明第一样本更应该分类到另外的簇；若s(i)近似为0，则说明第一样本在两个簇的边界上。其中，所有样本的s(i)的均值称为聚类结果的轮廓系数，是该聚类是否合理、有效的度量。

步骤S312，返回从用户数据中选取任一数据样本，确定为第一样本的步骤，直至确定最大轮廓系数的聚类结果，根据得到最大轮廓系数的聚类结果目标聚类结果。

具体地，通过计算所选取的多个第一样本的聚类结果，并计算各个聚类结果的轮廓系数，直至确定出最大轮廓系数，将最大轮廓系数的聚类结果确定为目标聚类结果。

进一步地，如图4所示，图4提供了在预设的聚类范围下各用户聚类结果的轮廓系数分布。参照图4，当基于业务场景预设的聚类范围为[3,33]时，通过对k＝3以及k＝33之间的用户数据分别进行聚类，并计算评价指标，即轮廓系数大小。参照图4可知，得到当k等于5时，轮廓系数最大，即聚类效果最好，可将当前的聚类结果确定为目标聚类结果。

在一个实施例中，在计算各用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果之后，还包括输出并展示目标聚类结果。如图5所示，图5为用户聚类结果详细示意图，参照图5，得知训练后的K-means模型的输出结果，包括每条数据所对应的聚类簇编号即分群编号，不同分群的大小，分类变量的占比统计信息，以及连续变量自动分箱后的占比统计信息。

其中，分类变量的占比信息就是表格中学历的分布情况，连续变量对应车等级，计算连续变量分布情况前，会先将连续变量进行等频分箱。

进一步地，参照图5，分群号为1号的分群的群大小为23915，对应的分类变量的占比信，即学历分布情况为初中及以下占比0％，高中占比为4.2％，大专占比为36.9％，本科占比为49.3％。分群号为1号的分群对应的连续变量即车等级的分布情况为车价小于10万占比16.8％，车价10万至20万之间占比0.5％，车价为20万至50万以及50万至100万的占比均为0％。

上述计算各用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果的步骤，通过从用户数据中选取任一数据样本，确定为第一样本，并获取第一样本所在同簇的其他数据样本，计算第一样本至同簇内其他数据样本间的平均距离，确定为第一样本的簇内不相似度。通过从用户数据中选取任一簇，确定为目标簇，并获取目标簇内的所有数据样本，计算第一样本至目标簇内的所有数据样本的平均距离，确定为第一样本的簇间不相似度。根据簇内不相似度和簇间不相似度，计算第一样本的轮廓系数，确定最大轮廓系数的聚类结果为目标聚类结果。实现了快速并准确地确定目标聚类结果，进一步提高用户画像结果的准确度。

在一个实施例中，如图6所示，生成待分析的用户数据的步骤，包括以下步骤：

步骤S602，采集各个用户的属性数据和消费行为数据，生成数据样本集。

具体地，通过从业务系统采集各个用户的属性数据和消费行为数据，作为样本数据，生成数据样本集。

步骤S604，对数据样本集内各样本数据进行数据类型识别，确定各样本数据所属的数据类型。

具体地，数据类型包括数值变量、分类变量、布尔变量、空值变量、无意义变量以及唯一值变量。数值变量包括连续的数值变量，比如金额等非整数的数值变量，以及离散的数值变量，比如年龄等整数数值变量。分类变量包括有序的分类变量和无序的分类变量，有序的分类变量表示类型数量刚在一定区间内，且可用数值代表类别，比如教育程度等，无序的分类变量表示类型数据在一定区间内，可用文字代表类别，比如城市。布尔变量仅有两个唯一值，非A即B，比如，可实现是否为信用卡用户的判断。空值变量为整列为空的变量，唯一值变量仅有一个值。无意义变量可以是整数，但其不重复值超过行数的95％，比如ID，可以是文字，且其不重复值超过行数的80％，比如姓名。

进一步地，如图7所示，图7为一个实施例中数据类型识别逻辑示意图。参照图7，识别变量类型的逻辑具体为：

首先，判断样本数据的形态，包括float(小数)、int(整数)、object(字符)以及bool(布尔)等，再判断样本数据的不重复值数量。

具体地，当数据形态为float时，当检测到该float类型的样本数据为存在缺失数据的int类型数据时，判断该样本数据的不重复值数量，当不重复值数量为2时，且包含0或者1时，确定该样本数据为布尔变量，当为其他时，则确定该样本数据为有序的分类变量，比如教育程度等。当不重复值数量在3至10之间时，确定该样本数据为有序的分类变量。

当数据形态为int时，判断该样本数据的不重复值数量，当不重复值数量为2，且包含0和1时，确定该样本数据为布尔变量，当不重复值数量为3至10时，确定该样本数据为有序的分类变量，当不重复值数量占总行数的95％以上时，确定该样本数据为无意义变量。其他情况则确定为离散的数值型变量。

当数据形态为object时，判断该样本数据的不重复值数量，当不重复值数量为2，且包含0和1时，确定该样本数据为布尔变量，当不重复值数量为3至10时，确定该样本数据为有序的分类变量。其他情况下确定该样本数据为无意义变量。

当数据形态为bool时，确定该样本数据为布尔变量。其他情况则为无意义变量。

其中，唯一值变量和空值变量可直接通过不重复值/独特值的个数判断出。当一样本数据的不重复值数量为1时，判定该样本数据属于唯一值变量，当一样本数据的不重复值数量为0时，确定该样本数据为空值变量。

步骤S606，分别对不同数据类型的样本数据进行数据预处理，生成待分析的用户数据。

具体地，分别对不同数据类型的样本数据进行数据预处理，生成待分析的用户数据具体包括：

移除列缺失率高于预设缺失率阈值的变量，其中，预设缺失率阈值可设置为40％；

移除数据样本集中的无效变量，包括空值变量、唯一值变量以及无意义变量；

处理离群值变量，其中，小于均值3个标准方差或大于均值三个标准当方差的样本数据判定为离群值变量，用空值代替离群值，后续将用空值代替的离群值变量作为无效变量进行移除；

处理缺失值，当缺失值为连续的数值变量时，用均值填充该缺失值，其他情况下则用频次最高的值填充该缺失值。

上述生成待分析的用户数据的步骤，通过采集各个用户的属性数据和消费行为数据，生成数据样本集，并对数据样本集内各样本数据进行数据类型识别，确定各样本数据所属的数据类型，进而分别对不同数据类型的样本数据进行数据预处理，生成待分析的用户数据。避免对大量无效数据进行聚类分析，减少了资源消耗，并提高了用户画像过程的工作效率。

应该理解的是，虽然图2-3以及图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3以及图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种用户画像装置，包括：用户数据获取模块802、实体嵌入编码模块804、连续向量确定模块806、代表向量生成模块808、聚类范围获取模块810、用户聚类结果生成模块812、目标聚类结果确定模块814以及用户画像结果生成模块816，其中：

用户数据获取模块802，用于获取待分析的用户数据；用户数据包括数值变量和非数值变量。

实体嵌入编码模块804，用于对非数值变量进行实体嵌入编码，并确定各非数值变量的代表向量。

连续向量确定模块806，用于从向量空间中确定与非数值变量对应的连续向量。

代表向量生成模块808，用于对连续向量进行训练，生成与各数值变量对应的代表向量。

聚类范围获取模块810，用于获取基于业务场景预设的聚类范围。

用户聚类结果生成模块812，用于根据训练后的K-means模型，对聚类范围内的数值变量和代表向量进行穷举聚类，生成多个用户聚类结果。

目标聚类结果确定模块814，用于计算各用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果。

用户画像结果生成模块816，用于根据目标聚类结果，得到对应的用户画像结果。

上述用户画像装置中，通过获取待分析的用户数据，包括数值变量和非数值变量，利用实体嵌入的方式编码各非数值变量，将各非数值变量从语义空间映射至对应的向量空间，并从向量空间中确定与非数值变量对应的连续向量，通过对连续向量进行训练，生成与各数值变量对应的代表向量，解决了传统K-Means模型无法处理类别变量的问题。通过获取基于业务场景预设的聚类范围，并根据训练后的K-means模型，对聚类范围内的数值变量和代表向量进行穷举聚类，生成多个用户聚类结果。通过计算各用户聚类结果的轮廓系数，确定最大轮廓系数的聚类结果为目标聚类结果，根据目标聚类结果，以提高针对不同用户的用户画像精确度，得到符合业务需求的用户画像结果。

在一个实施例中，目标聚类结果确定模块，还用于：

从用户数据中选取任一数据样本，确定为第一样本；获取第一样本所在同簇的其他数据样本，并计算第一样本至同簇内其他数据样本间的平均距离，确定为第一样本的簇内不相似度；

从用户数据中选取任一簇，确定为目标簇，并获取目标簇内的所有数据样本；计算第一样本至目标簇内的所有数据样本的平均距离，确定为第一样本的簇间不相似度；

根据簇内不相似度和簇间不相似度，计算第一样本的轮廓系数；

返回从用户数据中选取任一数据样本，确定为第一样本的步骤，直至确定最大轮廓系数的聚类结果，根据得到最大轮廓系数的聚类结果目标聚类结果。

上述目标聚类结果确定模块，通过从用户数据中选取任一数据样本，确定为第一样本，并获取第一样本所在同簇的其他数据样本，计算第一样本至同簇内其他数据样本间的平均距离，确定为第一样本的簇内不相似度。通过从用户数据中选取任一簇，确定为目标簇，并获取目标簇内的所有数据样本，计算第一样本至目标簇内的所有数据样本的平均距离，确定为第一样本的簇间不相似度。根据簇内不相似度和簇间不相似度，计算第一样本的轮廓系数，确定最大轮廓系数的聚类结果为目标聚类结果。实现了快速并准确地确定目标聚类结果，进一步提高用户画像结果的准确度。

在一个实施例中，提供了一种用户画像装置，还包括待分析的用户数据生成模块，用于：

采集各个用户的属性数据和消费行为数据，生成数据样本集；对数据样本集内各样本数据进行数据类型识别，确定各样本数据所属的数据类型；分别对不同数据类型的样本数据进行数据预处理，生成待分析的用户数据。

上述用户画像装置，通过采集各个用户的属性数据和消费行为数据，生成数据样本集，并对数据样本集内各样本数据进行数据类型识别，确定各样本数据所属的数据类型，进而分别对不同数据类型的样本数据进行数据预处理，生成待分析的用户数据。避免对大量无效数据进行聚类分析，减少了资源消耗，并提高了用户画像过程的工作效率。

关于用户画像装置的具体限定可以参见上文中对于用户画像方法的限定，在此不再赘述。上述用户画像装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户画像方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待分析的用户数据；用户数据包括数值变量和非数值变量；

利用实体嵌入的方式编码各非数值变量，将各非数值变量从语义空间映射至对应的向量空间；

从向量空间中确定与非数值变量对应的连续向量；

对连续向量进行训练，生成与各数值变量对应的代表向量；获取基于业务场景预设的聚类范围；

根据训练后的K-means模型，对聚类范围内的数值变量和代表向量进行穷举聚类，生成多个用户聚类结果；

计算各用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果；

根据目标聚类结果，得到对应的用户画像结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取各非数值变量的出现频次，并根据出现频次从向量空间中确定各非数值变量对应的识别标识向量；

将各非数值变量对应的识别标识向量确定为原始K-means模型的实际标签；

根据各实际标签对原始K-means模型进行训练，得到对应的训练后的K-means模型。

获取经实体嵌入的方式编码后的各非数值变量之间的间隔距离；

按照间隔距离的大小，将与各非数值变量邻近的向量分配至与非数值变量对应的类别向量；

将与非数值变量邻近的向量，确定为相应非数值变量对应的连续向量。在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据各实际标签，分别确定对应的数值变量和代表向量；数值变量和代表向量处于聚类范围；

将对应数值变量和代表向量，输入与实际标签对应的训练后的K-means模型；

分别获取各训练后的K-means模型输出的用户聚类结果。

从用户数据中选取任一数据样本，确定为第一样本；

获取第一样本所在同簇的其他数据样本，并计算第一样本至同簇内其他数据样本间的平均距离，确定为第一样本的簇内不相似度；

从用户数据中选取任一簇，确定为目标簇，并获取目标簇内的所有数据样本；

计算第一样本至目标簇内的所有数据样本的平均距离，确定为第一样本的簇间不相似度；

采用以下公式计算第一样本的轮廓系数：

对数据样本集内各样本数据进行数据类型识别，确定各样本数据所属的数据类型；

分别对不同数据类型的样本数据进行数据预处理，生成待分析的用户数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

从向量空间中确定与非数值变量对应的连续向量；

根据目标聚类结果，得到对应的用户画像结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

将与非数值变量邻近的向量，确定为相应非数值变量对应的连续向量。

分别获取各训练后的K-means模型输出的用户聚类结果。

从用户数据中选取任一数据样本，确定为第一样本；

采用以下公式计算第一样本的轮廓系数：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用户画像方法，所述方法包括：

从所述向量空间中确定与所述非数值变量对应的连续向量；

根据所述目标聚类结果，得到对应的用户画像结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述向量空间中确定与所述非数值变量对应的连续向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据训练后的K-means模型，对所述聚类范围内的所述数值变量和所述代表向量进行穷举聚类，生成多个用户聚类结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述计算各所述用户聚类结果的轮廓系数，并确定最大轮廓系数的聚类结果为目标聚类结果，包括：

从所述用户数据中选取任一数据样本，确定为第一样本；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：采用以下公式计算所述第一样本的轮廓系数：

7.根据权利要求1所述的方法，其特征在于，在所述获取待分析的用户数据之前，所述方法还包括：

8.一种用户画像装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。