CN109885745A

CN109885745A - 一种用户画像方法、装置、可读存储介质及终端设备

Info

Publication number: CN109885745A
Application number: CN201910041270.XA
Authority: CN
Inventors: 杨晟; 陈爽; 陈源
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-06-14
Also published as: WO2020147259A1

Abstract

本发明属于计算机技术领域，尤其涉及一种用户画像方法、装置、计算机可读存储介质及终端设备。所述方法获取用户在各个评估维度上的特征信息，并根据所述特征信息构造所述用户的特征向量；从预设的历史用户信息数据库中选取N个训练样本，并组成训练样本集合；将预设的分类器集合中的各个分类器的各种排列顺序进行遍历，根据所述用户的特征向量和所述训练样本集合分别计算各种排列顺序的样本平均距离；从各种排列顺序中选取样本平均距离最小的一种排列顺序作为优选路径，并根据所述用户在所述优选路径中经各个分类器处理得到的标签值构造所述用户的标签向量。在前的分类器的结果会参与到在后的分类器的处理之中，大大提升了用户画像的准确率。

Description

一种用户画像方法、装置、可读存储介质及终端设备

技术领域

本发明属于计算机技术领域，尤其涉及一种用户画像方法、装置、计算机可读存储介质及终端设备。

背景技术

随着互联网的普及与发展，越来越多的数据可以被各个互联网运营商收集起来。例如，对于电商网站，可以获得用户的购买记录、浏览记录等信息；对于搜索引擎，可以获得用户的搜索记录、点击记录等信息。为了更好的利用这样的信息，以提供更为高效优质的服务，用户画像这一技术得到了普遍重视。用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。

但是，目前的用户画像一般都是针对单一的标签进行的，然而，在很多实际场景中，一个用户可能同时具有多个不同维度的标签。针对这种多标签的场景，现有技术一般会将各个不同的标签维度独立进行处理，分别在各个标签维度上进行用户画像，这种方式未能充分考虑到各个标签维度之间的关联性，往往导致用户画像的准确率较低。

发明内容

有鉴于此，本发明实施例提供了一种用户画像方法、装置、计算机可读存储介质及终端设备，以解决现有技术一般会将各个不同的标签维度独立进行处理，导致用户画像的准确率较低的问题。

本发明实施例的第一方面提供了一种用户画像方法，可以包括：

获取用户在预设的各个评估维度上的特征信息，并根据所述特征信息构造所述用户的特征向量；

从预设的历史用户信息数据库中选取N个训练样本，并组成训练样本集合，N为正整数；

将预设的分类器集合中的各个分类器的各种排列顺序进行遍历，根据所述用户的特征向量和所述训练样本集合分别计算各种排列顺序的样本平均距离，所述分类器集合中包括两个以上的不同分类器，每个分类器用于确定一个标签维度上的标签值；

从各种排列顺序中选取样本平均距离最小的一种排列顺序作为优选路径，并根据所述用户在所述优选路径中经各个分类器处理得到的标签值构造所述用户的标签向量。

本发明实施例的第二方面提供了一种用户画像装置，可以包括：

特征向量构造模块，用于获取用户在预设的各个评估维度上的特征信息，并根据所述特征信息构造所述用户的特征向量；

训练样本选取模块，用于从预设的历史用户信息数据库中选取N个训练样本，并组成训练样本集合，N为正整数；

遍历计算模块，用于将预设的分类器集合中的各个分类器的各种排列顺序进行遍历，根据所述用户的特征向量和所述训练样本集合分别计算各种排列顺序的样本平均距离，所述分类器集合中包括两个以上的不同分类器，每个分类器用于确定一个标签维度上的标签值；

标签向量构造模块，用于从各种排列顺序中选取样本平均距离最小的一种排列顺序作为优选路径，并根据所述用户在所述优选路径中经各个分类器处理得到的标签值构造所述用户的标签向量。

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

本发明实施例的第四方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

本发明实施例与现有技术相比存在的有益效果是：本发明实施例在获取到用户在预设的各个评估维度上的特征信息后，根据这些特征信息构造该用户的特征向量；然后将预设的分类器集合中的各个分类器的各种排列顺序进行遍历，根据该用户的特征向量和构造出的训练样本集合分别计算各种排列顺序的样本平均距离，最后从各种排列顺序中选取样本平均距离最小的一种排列顺序作为优选路径，并根据该用户在优选路径中各个标签维度上的标签值构造该用户的标签向量。通过这样的方式，排列顺序在前的分类器对用户的特征向量的处理结果会传递到排列顺序在后的分类器中，并参与到排列顺序在后的分类器的处理过程之中，从而将各个分类器有机的耦合在一起，充分利用了这些分类器之间的关联性，大大提升了用户画像的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中一种用户画像方法的一个实施例流程图；

图2为各个分类器之间的网状拓扑结构的示意图；

图3为在网状拓扑结构中的优选路径的示意图；

图4为根据用户的特征向量和训练样本集合分别计算各种排列顺序的样本平均距离的示意流程图；

图5为构造出的分类器序列的示意图；

图6为示例中4个分类器之间的网状拓扑结构的示意图；

图7为选取出的优选路径的示意图；

图8为本发明实施例中一种用户画像装置的一个实施例结构图；

图9为本发明实施例中一种终端设备的示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种用户画像方法的一个实施例可以包括：

步骤S101、获取用户在预设的各个评估维度上的特征信息，并根据所述特征信息构造所述用户的特征向量。

具体的评估维度可以根据实际情况进行设置，例如，若要判断用户对某些产品的购买意向，则所需的评估维度包括但不限于性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息等等。

由于上述各个评估维度上的特征信息并不是数值化的信息，不利于进行分析计算，因此，需要首先对各个维度的信息进行数值化处理。

例如，对于性别信息这一评估维度而言，若性别为男性，则可将该评估维度的取值数值化为1，若性别为女性，则可将该评估维度的取值数值化为0；对于年龄这一评估维度而言，若年龄为20岁以下，则可将该评估维度的取值数值化为0，若年龄为20岁至40岁，则可将该评估维度的取值数值化为1，若年龄为40岁至60岁，则可将该评估维度的取值数值化为2，若年龄为60岁以上，则可将该评估维度的取值数值化为3；对于受教育程度这一评估维度而言，若受教育程度为高中及高中以下，则可将该评估维度的取值数值化为0，若受教育程度为本科，则可将该评估维度的取值数值化为1，若受教育程度为硕士研究生，则可将该评估维度的取值数值化为2，若受教育程度为博士研究生及以上，则可将该评估维度的取值数值化为3；其它各个评估维度的数值化处理过程与之类似，此处不再赘述。

需要注意的是，以上的数值化处理过程只是一种可能的数值化处理方式，还可以根据实际情况进行其它类似的数值化处理，此处不对其做具体限制。

在进行完数值化处理之后，则可将各个评估维度上的特征信息构造为如下所示的特征向量：

TgtEgVec＝(TgtEgVal₁,TgtEgVal₂,...,TgtEgVal_en,...,TgtEgVal_EN)

其中，TgtEgVec为所述用户的特征向量，TgtEgVal_en为所述用户的特征向量在第en个评估维度上的特征信息，1≤en≤EN，EN为评估维度的总数。

步骤S102、从预设的历史用户信息数据库中选取N个训练样本，并组成训练样本集合。

N为正整数，其具体取值可以根据实际情况进行设置，一般地，为了保证训练结果的准确性，训练样本的数目应尽量的大，例如，可以将其设置为10000、20000、50000或者其它取值等等。

所述训练样本集合中的每个训练样本均包括一个历史用户的特征向量和标签向量，即：

Sample_n＝(EigenVec_n,LabelVec_n)

其中，Sample_n为所述训练样本集合中的第n个训练样本，1≤n≤N，EigenVec_n为第n个训练样本的特征向量，且：

EigenVec_n＝(EigenVal_n,1,EigenVal_n,2,...,EigenVal_n,en,...,EigenVal_n,EN)，

EigenVal_n,en为第n个训练样本的特征向量在第en个评估维度上的特征信息，1≤en≤EN，EN为评估维度的总数，LabelVec_n为第n个训练样本的标签向量，且：

LabelVec_n＝(LabelVal_n,1,LabelVal_n,2,...,LabelVal_n,ln,...,LabelVal_n,LN)，

LabelVal_n,ln为第n个训练样本的标签向量在第ln个标签维度上的标签值，1≤ln≤LN，LN为标签维度的总数。

为了保证训练结果的准确性，所述训练样本集合在任一标签维度上的标签值均应是均衡分布的，将第ln个标签维度上的标签值的总数，也即第ln个标签维度上的标签值的可能取值的个数记为LVN_ln，每个标签值的序号记为lvn_ln，1≤lvn_ln≤LVN_ln，第lvn_ln个标签值在所述训练样本集合中出现的次数记为且则应满足下列条件：

其中，Threshold为预设的均衡度阈值，其具体取值可以根据实际情况进行设置，例如，可以将其设置为50、100、200或者其它取值等等。

步骤S103、将预设的分类器集合中的各个分类器的各种排列顺序进行遍历，根据所述用户的特征向量和所述训练样本集合分别计算各种排列顺序的样本平均距离。

所述分类器集合中包括两个以上的不同分类器，每个分类器用于确定一个标签维度上的标签值。这些分类器可以是基于决策树、朴素贝叶斯、支持向量机、神经网络、遗传算法中的任意一种算法，各个分类器可以基于相同的算法，也可以基于不同的算法。

各个分类器之间可以建立如图2所示的网状拓扑结构，图2中给出了LN＝2，LN＝3，LN＝4，LN＝5这四种情况下各个分类器之间的网状拓扑结构，其中，圆圈表示分类器，箭头表示分类器的传递方向，任意两个分类器之间均有双向的路径连接，其它情况可以依此类推。

对于由LN个分类器所组成的网状拓扑结构，依次遍历各个分类器节点且每个分类器节点仅遍历一次的路径共有LN的阶乘，即LN！＝1×2×3×…×(LN-1)×LN，，本实施例中即是要通过对所有可能的路径进行遍历选择一条如图3所示的优选路径。

如图4所示，步骤S103具体可以包括以下过程：

步骤S1031、对所述用户的特征向量进行扩展。

例如，可以根据下式对所述用户的特征向量进行扩展：

ExTgtEgVec_CandiSq,ln＝(ExTgtEgVec_CandiSq,ln-1,SelTgtLbVal_CandiSq,ln-1)

其中，ExTgtEgVec_CandiSq,ln为所述用户在第CandiSq种排列顺序中的第ln个分类器的处理过程中扩展得到的特征向量，1≤CandiSq≤LN！，LN！为LN的阶乘，特殊地，设置ExTgtEgVec_CandiSq,0＝TgtEgVec，TgtEgVec为所述用户的特征向量，SelTgtLbVal_CandiSq,ln为所述用户与第CandiSq种排列顺序中的第ln个分类器对应的标签值，特殊地，设置即将其设为空，由此可知，ExTgtEgVec_CandiSq,1＝TgtEgVec。

步骤S1032、对所述训练样本集合的各个训练样本的特征向量进行扩展。

例如，可以根据下式对所述训练样本集合的各个训练样本的特征向量进行扩展：

ExEigenVec_CandiSq,ln,n＝(ExEigenVec_{CandiSq,ln-1,n},SelLabelVal_{CandiSq,ln-1,n})

其中，ExEigenVec_CandiSq,ln,n为第n个训练样本在第CandiSq种排列顺序中的第ln个分类器的处理过程中扩展得到的特征向量，特殊地，设置ExEigenVec_CandiSq,0,n＝EigenVec_n，SelLabelVal_CandiSq,ln,n为第n个训练样本与第CandiSq种排列顺序中的第ln个分类器对应的标签值，特殊地，设置即将其设为空，由此可知，ExEigenVec_CandiSq,1,n＝EigenVec_n。

步骤S1033、根据所述用户扩展得到的特征向量与各个训练样本扩展得到的特征向量分别计算各种排列顺序的样本平均距离。

首先，根据下式计算第CandiSq种排列顺序中的第ln个分类器的第clvn个标签值的样本平均距离：

其中，ExTgtElm(CandiSq,ln,i)为所述用户扩展得到的特征向量的第i个元素，ExSpElm(CandiSq,ln,clvn,SpSeq,i)为第CandiSq种排列顺序中的第ln个分类器的第clvn个标签值的第SpSeq个训练样本扩展得到的特征向量的第i个元素，1≤clvn≤CLVN(CandiSq,ln)，CLVN(CandiSq,ln)为第CandiSq种排列顺序中的第ln个分类器的标签值的总数，1≤SpSeq≤CValCount(CandiSq,ln,clvn)，CValCount(CandiSq,ln,clvn)为第CandiSq种排列顺序中的第ln个分类器的第clvn个标签值在所述训练样本集合中出现的次数，Dis(CandiSq,ln,clvn)为第CandiSq种排列顺序中的第ln个分类器的第clvn个标签值的样本平均距离；

然后，根据下式分别构造第CandiSq种排列顺序中的各个分类器的样本平均距离序列：

DisSq(CandiSq,ln)＝(Dis(CandiSq,ln,1),Dis(CandiSq,ln,2),...,

Dis(CandiSq,ln,clvn),...,Dis(CandiSq,ln,CLVN(CandiSq,ln)))

其中，DisSq(CandiSq,ln)为第CandiSq种排列顺序中的第ln个分类器的样本平均距离序列；

接着，根据下式分别计算第CandiSq种排列顺序中的各个分类器的样本平均距离：

MinDis(CandiSq,ln)＝MIN(DisSq(CandiSq,ln))

＝MIN(Dis(CandiSq,ln,1),Dis(t,sn,2),...,Dis(CandiSq,ln,clvn),...,Dis(CandiSq,ln,CLVN(CandiSq,ln)))其中，MIN为求最小值函数，MinDis(CandiSq,ln)为第CandiSq种排列顺序中的第ln个分类器的样本平均距离；

最后，根据下式计算第CandiSq种排列顺序的样本平均距离：

其中，TotalDis_CandiSq为第CandiSq种排列顺序的样本平均距离。

步骤S104、从各种排列顺序中选取样本平均距离最小的一种排列顺序作为优选路径，并根据所述用户在所述优选路径中经各个分类器处理得到的标签值构造所述用户的标签向量。

将各种排列顺序的样本平均距离构造为如下所示的序列：

TotalDisSq＝(TotalDis₁,TotalDis₂,...,TotalDis_CandiSq,...,TotalDis_LN！)

再从中选取样本平均距离最小的一种排列顺序作为优选路径，即：

SelPath＝argmin(TotalDisSq)

＝argmax(TotalDis₁,TotalDis₂,...,TotalDis_CandiSq,...,TotalDis_LN！)

其中，SelPath即为选取出的优选路径的序号。

经过上述的过程，确定了分类器所组成的网状拓扑结构的优选路径，按照该路径中各个分类器的顺序依次连接，即可构造出如图5所示的分类器序列。

最后，根据下式构造所述用户的标签向量：

TgtLbVec＝(TgtLbVal₁,TgtLbVal₂,...,TgtLbVal_ln,...,TgtLbVal_LN)

其中，TgtLbVal_ln为所述用户在所述优选路径中经第ln个分类器处理得到的标签值，TgtLbVec为所述用户的标签向量。

现对以上整个过程举例具体说明如下：

若采集的用户数据分别为性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息，现需要根据这些信息分别评估该用户对产品A、产品B、产品C、产品D这四类产品的购买意向，即4个标签值。

预先设置4个分类器，其中，分类器A用于对用户对产品A的购买意向进行评估，分类器B用于对用户对产品A的购买意向进行评估，分类器C用于对用户对产品C的购买意向进行评估，分类器D用于对用户对产品D的购买意向进行评估，4个分类器构成图6所示的网状拓扑结构。

其中的可选路径共有24种，分别为：

分类器A→分类器B→分类器C→分类器D

分类器A→分类器B→分类器D→分类器C

分类器A→分类器C→分类器B→分类器D

分类器A→分类器C→分类器D→分类器B

分类器A→分类器D→分类器B→分类器C

分类器A→分类器D→分类器C→分类器B

……

按照前述方式针对该用户选取出其优选路径，假设最终选取出的优选路径如7所示，则最终构造出的分类器序列即为：

分类器C→分类器B→分类器A→分类器D。

使用该分类器序列进行用户的多标签画像，首先，将待评估的用户的性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息这5个维度上的特征信息输入到分类器C中，得到该用户对产品C的购买意向，然后，将该用户的性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息以及对产品C的购买意向这6个维度上的特征信息输入到分类器B中，得到该用户对产品B的购买意向，再将该用户的性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息以及对产品C的购买意向、对产品B的购买意向这7个维度上的特征信息输入到分类器A中，得到该用户对产品A的购买意向，最后，将该用户的性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息以及对产品C的购买意向、对产品B的购买意向、对产品A的购买意向这8个维度上的特征信息输入到分类器D中，得到该用户对产品D的购买意向。

综上所述，本发明实施例在获取到用户在预设的各个评估维度上的特征信息后，根据这些特征信息构造该用户的特征向量；然后将预设的分类器集合中的各个分类器的各种排列顺序进行遍历，根据该用户的特征向量和构造出的训练样本集合分别计算各种排列顺序的样本平均距离，最后从各种排列顺序中选取样本平均距离最小的一种排列顺序作为优选路径，并根据该用户在优选路径中各个标签维度上的标签值构造该用户的标签向量。通过这样的方式，排列顺序在前的分类器对用户的特征向量的处理结果会传递到排列顺序在后的分类器中，并参与到排列顺序在后的分类器的处理过程之中，从而将各个分类器有机的耦合在一起，充分利用了这些分类器之间的关联性，大大提升了用户画像的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的一种用户画像方法，图8示出了本发明实施例提供的一种用户画像装置的一个实施例结构图。

本实施例中，一种用户画像装置可以包括：

特征向量构造模块801，用于获取用户在预设的各个评估维度上的特征信息，并根据所述特征信息构造所述用户的特征向量；

训练样本选取模块802，用于从预设的历史用户信息数据库中选取N个训练样本，并组成训练样本集合，N为正整数，所述训练样本集合中的每个训练样本均包括一个历史用户的特征向量和标签向量，即：

Sample_n＝(EigenVec_n,LabelVec_n)

EigenVec_n＝(EigenVal_n,1,EigenVal_n,2,...,EigenVal_n,en,...,EigenVal_n,EN)，

EigenVal_n,en为第n个训练样本的特征向量在第en个评估维度上的特征信息，1≤en≤EN，EN为评估维度的总数，LabelVec_n为第n个训练样本的标签向量，且：LabelVec_n＝(LabelVal_n,1,LabelVal_n,2,...,LabelVal_n,ln,...,LabelVal_n,LN)，LabelVal_n,ln为第n个训练样本的标签向量在第ln个标签维度上的标签值，1≤ln≤LN，LN为标签维度的总数。

所述训练样本集合满足下列条件：

其中，LVN_ln为第ln个标签维度上的标签值的总数，每个标签值的序号记为lvn_ln，1≤lvn_ln≤LVN_ln，为第lvn_ln个标签值在所述训练样本集合中出现的次数，且Threshold为预设的均衡度阈值。

遍历计算模块803，用于将预设的分类器集合中的各个分类器的各种排列顺序进行遍历，根据所述用户的特征向量和所述训练样本集合分别计算各种排列顺序的样本平均距离，所述分类器集合中包括两个以上的不同分类器，每个分类器用于确定一个标签维度上的标签值；

标签向量构造模块804，用于从各种排列顺序中选取样本平均距离最小的一种排列顺序作为优选路径，并根据所述用户在所述优选路径中经各个分类器处理得到的标签值构造所述用户的标签向量。

进一步地，所述遍历计算模块可以包括：

第一扩展单元，用于根据下式对所述用户的特征向量进行扩展：

ExTgtEgVec_CandiSq,ln＝(ExTgtEgVec_CandiSq,ln-1,SelTgtLbVal_CandiSq,ln-1)

其中，ExTgtEgVec_CandiSq,ln为所述用户在第CandiSq种排列顺序中的第ln个分类器的处理过程中扩展得到的特征向量，1≤CandiSq≤LN！，LN！为LN的阶乘，特殊地，设置ExTgtEgVec_CandiSq,0＝TgtEgVec，TgtEgVec为所述用户的特征向量，SelTgtLbVal_CandiSq,ln为所述用户与第CandiSq种排列顺序中的第ln个分类器对应的标签值，特殊地，设置

第二扩展单元，用于根据下式对所述训练样本集合的各个训练样本的特征向量进行扩展：

其中，ExEigenVec_CandiSq,ln,n为第n个训练样本在第CandiSq种排列顺序中的第ln个分类器的处理过程中扩展得到的特征向量，特殊地，设置ExEigenVec_CandiSq,0,n＝EigenVec_n，SelLabelVal_CandiSq,ln,n为第n个训练样本与第CandiSq种排列顺序中的第ln个分类器对应的标签值，特殊地，设置

样本平均距离计算单元，用于根据所述用户扩展得到的特征向量与各个训练样本扩展得到的特征向量分别计算各种排列顺序的样本平均距离。

进一步地，所述样本平均距离计算单元可以包括：

第一子单元，用于根据下式计算第CandiSq种排列顺序中的第ln个分类器的第clvn个标签值的样本平均距离：

第二子单元，用于根据下式分别构造第CandiSq种排列顺序中的各个分类器的样本平均距离序列：

DisSq(CandiSq,ln)＝(Dis(CandiSq,ln,1),Dis(CandiSq,ln,2),...,

Dis(CandiSq,ln,clvn),...,Dis(CandiSq,ln,CLVN(CandiSq,ln)))

第三子单元，用于根据下式分别计算第CandiSq种排列顺序中的各个分类器的样本平均距离：

MinDis(CandiSq,ln)＝MIN(DisSq(CandiSq,ln))

第四子单元，用于根据下式计算第CandiSq种排列顺序的样本平均距离：

其中，TotalDis_CandiSq为第CandiSq种排列顺序的样本平均距离。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图9示出了本发明实施例提供的一种终端设备的示意框图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本实施例中，所述终端设备9可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备9可包括：处理器90、存储器91以及存储在所述存储器91中并可在所述处理器90上运行的计算机可读指令92，例如执行上述的用户画像方法的计算机可读指令。所述处理器90执行所述计算机可读指令92时实现上述各个用户画像方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，所述处理器90执行所述计算机可读指令92时实现上述各装置实施例中各模块/单元的功能，例如图8所示模块801至804的功能。

示例性的，所述计算机可读指令92可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器91中，并由所述处理器90执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令92在所述终端设备9中的执行过程。

所述处理器90可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器91可以是所述终端设备9的内部存储单元，例如终端设备9的硬盘或内存。所述存储器91也可以是所述终端设备9的外部存储设备，例如所述终端设备9上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器91还可以既包括所述终端设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储所述计算机可读指令以及所述终端设备9所需的其它指令和数据。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用户画像方法，其特征在于，包括：

2.根据权利要求1所述的用户画像方法，其特征在于，所述训练样本集合中的每个训练样本均包括一个历史用户的特征向量和标签向量，即：

Sample_n＝(EigenVec_n,LabelVec_n)

EigenVec_n＝(EigenVal_n,1,EigenVal_n,2,...,EigenVal_n,en,...,EigenVal_n,EN)，

LabelVec_n＝(LabelVal_n,1,LabelVal_n,2,...,LabelVal_n,ln,...,LabelVal_n,LN)，

3.根据权利要求2所述的用户画像方法，其特征在于，所述分别计算各种排列顺序的样本平均距离包括：

根据下式对所述用户的特征向量进行扩展：

ExTgtEgVec_CandiSq,ln＝(ExTgtEgVec_CandiSq,ln-1,SelTgtLbVal_CandiSq,ln-1)

根据下式对所述训练样本集合的各个训练样本的特征向量进行扩展：

根据所述用户扩展得到的特征向量与各个训练样本扩展得到的特征向量分别计算各种排列顺序的样本平均距离。

4.根据权利要求3所述的用户画像方法，其特征在于，所述根据所述用户扩展得到的特征向量与各个训练样本扩展得到的特征向量分别计算各种排列顺序的样本平均距离包括：

根据下式计算第CandiSq种排列顺序中的第ln个分类器的第clvn个标签值的样本平均距离：

根据下式分别构造第CandiSq种排列顺序中的各个分类器的样本平均距离序列：

DisSq(CandiSq,ln)＝(Dis(CandiSq,ln,1),Dis(CandiSq,ln,2),...,

Dis(CandiSq,ln,clvn),...,Dis(CandiSq,ln,CLVN(CandiSq,ln)))

根据下式分别计算第CandiSq种排列顺序中的各个分类器的样本平均距离：

MinDis(CandiSq,ln)＝MIN(DisSq(CandiSq,ln))

＝MIN(Dis(CandiSq,ln,1),Dis(t,sn,2),...,Dis(CandiSq,ln,clvn),...,Dis(CandiSq,ln,CLVN(CandiSq,ln)))

其中，MIN为求最小值函数，MinDis(CandiSq,ln)为第CandiSq种排列顺序中的第ln个分类器的样本平均距离；

根据下式计算第CandiSq种排列顺序的样本平均距离：

其中，TotalDis_CandiSq为第CandiSq种排列顺序的样本平均距离。

5.根据权利要求1至4中任一项所述的用户画像方法，其特征在于，所述训练样本集合满足下列条件：

6.一种用户画像装置，其特征在于，包括：

7.根据权利要求6所述的用户画像装置，其特征在于，所述遍历计算模块包括：

ExTgtEgVec_CandiSq,ln＝(ExTgtEgVec_CandiSq,ln-1,SelTgtLbVal_CandiSq,ln-1)

8.根据权利要求7所述的用户画像装置，其特征在于，所述样本平均距离计算单元包括：

DisSq(CandiSq,ln)＝(Dis(CandiSq,ln,1),Dis(CandiSq,ln,2),...,

Dis(CandiSq,ln,clvn),...,Dis(CandiSq,ln,CLVN(CandiSq,ln)))

MinDis(CandiSq,ln)＝MIN(DisSq(CandiSq,ln))

其中，TotalDis_CandiSq为第CandiSq种排列顺序的样本平均距离。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的用户画像方法的步骤。

10.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的用户画像方法的步骤。