CN109858532A - 一种用户画像方法、装置、可读存储介质及终端设备 - Google Patents

一种用户画像方法、装置、可读存储介质及终端设备 Download PDF

Info

Publication number
CN109858532A
CN109858532A CN201910041707.XA CN201910041707A CN109858532A CN 109858532 A CN109858532 A CN 109858532A CN 201910041707 A CN201910041707 A CN 201910041707A CN 109858532 A CN109858532 A CN 109858532A
Authority
CN
China
Prior art keywords
classifier
user
label
clvn
screened
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910041707.XA
Other languages
English (en)
Inventor
吴欢
王晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910041707.XA priority Critical patent/CN109858532A/zh
Publication of CN109858532A publication Critical patent/CN109858532A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机技术领域,尤其涉及一种用户画像方法、装置、计算机可读存储介质及终端设备。所述方法获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;从预设的历史用户信息数据库中选取N个训练样本,并组成训练样本集合;使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行LN‑1轮筛选,每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值。通过这样的方式,先筛选出的分类器确定出的标签值会参与到后筛选出的分类器的处理过程之中,从而将各个分类器有机的耦合在一起,充分利用了这些分类器之间的关联性,提升了用户画像的准确率。

Description

一种用户画像方法、装置、可读存储介质及终端设备
技术领域
本发明属于计算机技术领域,尤其涉及一种用户画像方法、装置、计算机可读存储介质及终端设备。
背景技术
随着互联网的普及与发展,越来越多的数据可以被各个互联网运营商收集起来。例如,对于电商网站,可以获得用户的购买记录、浏览记录等信息;对于搜索引擎,可以获得用户的搜索记录、点击记录等信息。为了更好的利用这样的信息,以提供更为高效优质的服务,用户画像这一技术得到了普遍重视。用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。
但是,目前的用户画像一般都是针对单一的标签进行的,然而,在很多实际场景中,一个用户可能同时具有多个不同维度的标签。针对这种多标签的场景,现有技术一般会将各个不同的标签维度独立进行处理,分别在各个标签维度上进行用户画像,这种方式未能充分考虑到各个标签维度之间的关联性,往往导致用户画像的准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种用户画像方法、装置、计算机可读存储介质及终端设备,以解决现有技术一般会将各个不同的标签维度独立进行处理,导致用户画像的准确率较低的问题。
本发明实施例的第一方面提供了一种用户画像方法,可以包括:
获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;
从预设的历史用户信息数据库中选取N个训练样本,并组成训练样本集合,N为正整数;
使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行LN-1轮筛选,每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值,所述分类器集合中包括两个以上的不同分类器,每个分类器用于确定一个标签维度上的标签值,LN为标签维度的总数;
根据所述用户在各个标签维度上的标签值构造所述用户的标签向量。
本发明实施例的第二方面提供了一种用户画像装置,可以包括:
特征向量构造模块,用于获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;
训练样本选取模块,用于从预设的历史用户信息数据库中选取N个训练样本,并组成训练样本集合,N为正整数;
分类器筛选模块,用于使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行LN-1轮筛选,每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值,所述分类器集合中包括两个以上的不同分类器,每个分类器用于确定一个标签维度上的标签值,LN为标签维度的总数;
标签向量构造模块,用于根据所述用户在各个标签维度上的标签值构造所述用户的标签向量。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;
从预设的历史用户信息数据库中选取N个训练样本,并组成训练样本集合,N为正整数;
使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行LN-1轮筛选,每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值,所述分类器集合中包括两个以上的不同分类器,每个分类器用于确定一个标签维度上的标签值,LN为标签维度的总数;
根据所述用户在各个标签维度上的标签值构造所述用户的标签向量。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;
从预设的历史用户信息数据库中选取N个训练样本,并组成训练样本集合,N为正整数;
使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行LN-1轮筛选,每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值,所述分类器集合中包括两个以上的不同分类器,每个分类器用于确定一个标签维度上的标签值,LN为标签维度的总数;
根据所述用户在各个标签维度上的标签值构造所述用户的标签向量。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例在获取到用户在预设的各个评估维度上的特征信息后,根据这些特征信息构造该用户的特征向量,然后从预设的历史用户信息数据库中选取多个训练样本,组成训练样本集合,最后使用该用户的特征向量和该训练样本集合对预设的分类器集合中的各个分类器进行多轮筛选,每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值,通过这样的方式,先筛选出的分类器确定出的标签值会传递到后筛选出的分类器中,并参与到后筛选出的分类器的处理过程之中,从而将各个分类器有机的耦合在一起,充分利用了这些分类器之间的关联性,大大提升了用户画像的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种用户画像方法的一个实施例流程图;
图2为各个分类器之间的网状拓扑结构的示意图;
图3为在网状拓扑结构中的优选路径的示意图;
图4为使用用户的特征向量和训练样本集合对预设的分类器集合中的各个分类器进行第t轮筛选的过程的示意流程图;
图5为构造出的分类器序列的示意图;
图6为优选路径的确定过程的示意流程图;
图7为本发明实施例中一种用户画像装置的一个实施例结构图;
图8为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种用户画像方法的一个实施例可以包括:
步骤S101、获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量。
具体的评估维度可以根据实际情况进行设置,例如,若要判断用户对某些产品的购买意向,则所需的评估维度包括但不限于性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息等等。
由于上述各个评估维度上的特征信息并不是数值化的信息,不利于进行分析计算,因此,需要首先对各个维度的信息进行数值化处理。
例如,对于性别信息这一评估维度而言,若性别为男性,则可将该评估维度的取值数值化为1,若性别为女性,则可将该评估维度的取值数值化为0;对于年龄这一评估维度而言,若年龄为20岁以下,则可将该评估维度的取值数值化为0,若年龄为20岁至40岁,则可将该评估维度的取值数值化为1,若年龄为40岁至60岁,则可将该评估维度的取值数值化为2,若年龄为60岁以上,则可将该评估维度的取值数值化为3;对于受教育程度这一评估维度而言,若受教育程度为高中及高中以下,则可将该评估维度的取值数值化为0,若受教育程度为本科,则可将该评估维度的取值数值化为1,若受教育程度为硕士研究生,则可将该评估维度的取值数值化为2,若受教育程度为博士研究生及以上,则可将该评估维度的取值数值化为3;其它各个评估维度的数值化处理过程与之类似,此处不再赘述。
需要注意的是,以上的数值化处理过程只是一种可能的数值化处理方式,还可以根据实际情况进行其它类似的数值化处理,此处不对其做具体限制。
在进行完数值化处理之后,则可将各个评估维度上的特征信息构造为如下所示的特征向量:
TgtEgVec=(TgtEgVal1,TgtEgVal2,...,TgtEgValen,...,TgtEgValEN)
其中,TgtEgVec为所述用户的特征向量,TgtEgValen为所述用户的特征向量在第en个评估维度上的特征信息,1≤en≤EN,EN为评估维度的总数。
步骤S102、从预设的历史用户信息数据库中选取N个训练样本,并组成训练样本集合。
N为正整数,其具体取值可以根据实际情况进行设置,一般地,为了保证训练结果的准确性,训练样本的数目应尽量的大,例如,可以将其设置为10000、20000、50000或者其它取值等等。
所述训练样本集合中的每个训练样本均包括一个历史用户的特征向量和标签向量,即:
Samplen=(EigenVecn,LabelVecn)
其中,Samplen为所述训练样本集合中的第n个训练样本,1≤n≤N,EigenVecn为第n个训练样本的特征向量,且:
EigenVecn=(EigenValn,1,EigenValn,2,...,EigenValn,en,...,EigenValn,EN),
EigenValn,en为第n个训练样本的特征向量在第en个评估维度上的特征信息,1≤en≤EN,EN为评估维度的总数,LabelVecn为第n个训练样本的标签向量,且:
LabelVecn=(LabelValn,1,LabelValn,2,...,LabelValn,ln,...,LabelValn,LN),
LabelValn,ln为第n个训练样本的标签向量在第ln个标签维度上的标签值,1≤ln≤LN,LN为标签维度的总数。
为了保证训练结果的准确性,所述训练样本集合在任一标签维度上的标签值均应是均衡分布的,将第ln个标签维度上的标签值的总数,也即第ln个标签维度上的标签值的可能取值的个数记为LVNln,每个标签值的序号记为lvnln,1≤lvnln≤LVNln,第lvnln个标签值在所述训练样本集合中出现的次数记为则应满足下列条件:
其中,Threshold为预设的均衡度阈值,其具体取值可以根据实际情况进行设置,例如,可以将其设置为50、100、200或者其它取值等等。
步骤S103、使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行LN-1轮筛选。
每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值,所述分类器集合中包括两个以上的不同分类器,每个分类器用于确定一个标签维度上的标签值,LN为标签维度的总数。这些分类器可以是基于决策树、朴素贝叶斯、支持向量机、神经网络、遗传算法中的任意一种算法,各个分类器可以基于相同的算法,也可以基于不同的算法。
各个分类器之间可以建立如图2所示的网状拓扑结构,图2中给出了LN=2,LN=3,LN=4,LN=5这四种情况下各个分类器之间的网状拓扑结构,其中,圆圈表示分类器,箭头表示分类器的传递方向,任意两个分类器之间均有双向的路径连接,其它情况可以依此类推。
对于由LN个分类器所组成的网状拓扑结构,依次遍历各个分类器节点且每个分类器节点仅遍历一次的路径共有LN的阶乘,即LN!=1×2×3×…×(LN-1)×LN,本实施例中即是要在所有可能的路径中选择一条优选路径。
在本实施例中,需要通过LN-1轮的筛选过程筛选出优选路径,其中,第1轮筛选过程筛选出网状拓扑结构中的起始分类器节点(记为分类器#1),第2轮筛选过程筛选出网状拓扑结构中的下一个分类器节点(记为分类器#2),……,第LN-1轮筛选过程筛选出网状拓扑结构中的最后两个分类器节点(记为分类器#N-1和分类器#N),从而形成如图3所示的优选路径。
如图4所示,使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行第t轮筛选的过程包括:
步骤S1031、对所述用户的特征向量进行扩展。
例如,可以根据下式对所述用户的特征向量进行扩展:
ExTgtEgVect=(ExTgtEgVect-1,SelTgtLbValt-1)
其中,ExTgtEgVect为所述用户在第t轮筛选过程中扩展得到的特征向量,特殊地,设置ExTgtEgVec0=TgtEgVec,TgtEgVec为所述用户的特征向量,SelTgtLbValt为所述用户在第t轮筛选过程中确定出的标签值,特殊地,设置即将其设为空,由此可知,ExTgtEgVec1=TgtEgVec。
步骤S1032、对所述训练样本集合的各个训练样本的特征向量进行扩展。
例如,可以根据下式对所述训练样本集合的各个训练样本的特征向量进行扩展:
ExEigenVect,n=(ExEigenVect-1,n,SelLabelValt-1,n)
其中,ExEigenVect,n为第n个训练样本在第t轮筛选过程中扩展得到的特征向量,1≤t≤LN-1,特殊地,设置ExEigenVec0,n=EigenVecn,SelLabelValt,n为第n个训练样本与第t轮筛选过程中筛选出的分类器对应的标签值,特殊地,设置即将其设为空,由此可知,ExEigenVec1,n=EigenVecn
步骤S1033、从所述分类器集合中分别提取出各个待筛选的分类器。
由于在前t-1轮筛选过程中已经筛选出了t-1个分类器,则在第t轮筛选过程中待筛选的分类器的总数为SNt,且SNt=LN-t+1。
步骤S1034、根据所述用户扩展得到的特征向量与各个训练样本扩展得到的特征向量分别计算各个待筛选的分类器的样本平均距离。
首先,可以根据下式分别计算各个待筛选的分类器的第clvn个标签值的样本平均距离:
其中,ExTgtElm(t,i)为所述用户扩展得到的特征向量的第i个元素,ExSpElm(t,sn,clvn,SpSeq,i)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值的第SpSeq个训练样本扩展得到的特征向量的第i个元素,1≤sn≤SNt,1≤clvn≤CLVN(t,sn),CLVN(t,sn)为第t轮筛选过程中第sn个待筛选的分类器对应的标签值的总数,1≤SpSeq≤CValCount(t,sn,clvn),CValCount(t,sn,clvn)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值在所述训练样本集合中出现的次数,Dis(t,sn,clvn)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值的样本平均距离。
然后,可以根据下式分别构造各个待筛选的分类器的样本平均距离序列:
DisSq(t,sn)=(Dis(t,sn,1),Dis(t,sn,2),...,Dis(t,sn,clvn),...,Dis(t,sn,CLVN(t,sn)))
其中,DisSq(t,sn)为第t轮筛选过程中第sn个待筛选的分类器的样本平均距离序列。
最后,可以根据下式分别计算各个待筛选的分类器的样本平均距离:
MinDis(t,sn)=MIN(DisSq(t,sn))
=MIN(Dis(t,sn,1),Dis(t,sn,2),...,Dis(t,sn,clvn),...,Dis(t,sn,CLVN(t,sn)))
其中,MIN为求最小值函数,MinDis(t,sn)为第t轮筛选过程中第sn个待筛选的分类器的样本平均距离。
步骤S1035、选取样本平均距离最小的分类器作为第t轮筛选过程中筛选出的分类器。
首先,构造如下所示的第t轮筛选过程的样本平均距离序列:
DisSq(t)=(MinDis(t,1),MinDis(t,2),...,MinDis(t,sn),...,MinDis(t,SNt))
其中,DisSq(t)即为第t轮筛选过程的样本平均距离序列。
然后,根据下式选取样本平均距离最小的分类器作为第t轮筛选过程中筛选出的分类器:
SelClassifiert=argmin(DisSq(t))
=argmin(MinDis(t,1),MinDis(t,2),...,MinDis(t,sn),...,MinDis(t,SNt))
其中,argmin为最小自变量函数,SelClassifiert即为第t轮筛选过程中筛选出的分类器的序号,且MinDis(t,SelClassifiert)所对应的标签值即为该分类器对所述用户数据处理得到的标签值,该标签值将在t+1轮的筛选过程中被添加入扩展后得到的特征向量中,并不断重复上述过程,直至在第LN-1轮筛选中筛选出最后的两个分类器为止。在筛选出各个分类器之后,即可确定出分类器所组成的网状拓扑结构的优选路径,按照该路径中各个分类器的顺序依次连接,即可构造出如图5所示的分类器序列。
步骤S104、根据所述用户在各个标签维度上的标签值构造所述用户的标签向量。
例如,可以根据下式构造所述用户的标签向量:
TgtLbVec=(TgtLbVal1,TgtLbVal2,...,TgtLbValln,...,TgtLbValLN)
其中,TgtLbValln为所述用户在第ln个标签维度上的标签值,TgtLbVec为所述用户的标签向量。
现对以上整个过程举例具体说明如下:
若采集的用户数据分别为性别信息、年龄信息、受教育程度信息、收入水平信息、工作种类信息,现需要根据这些信息分别评估该用户对产品A、产品B、产品C、产品D这四类产品的购买意向,即4个标签值。
预先设置4个分类器,其中,分类器A用于对用户对产品A的购买意向进行评估,分类器B用于对用户对产品A的购买意向进行评估,分类器C用于对用户对产品C的购买意向进行评估,分类器D用于对用户对产品D的购买意向进行评估,4个分类器构成图2所示的网状拓扑结构。
然后,针对该用户筛选出其优选路径。在第1轮筛选中,用户数据中包括5个维度的特征信息,将这些特征信息构成的特征向量输入到各个分类器中进行计算,得到了该用户在4个维度上的预测标签值,根据前述算法,计算出各个分类器的样本平均距离,假设分类器C的样本平均距离最小,则分类器C即为在第1轮筛选过程中所确定的优选分类器。
在第2轮筛选中,将第1轮筛选所确定的优选分类器所对应的标签值(即用户对产品C的购买意向)加入到该用户的特征向量中(此时,该用户的特征向量包括6个维度的特征信息),并将扩展后的特征向量输入到剩余的分类器(A、B、D)中进行计算,得到了该用户在3个维度上的预测标签值,根据前述算法,计算出各个分类器的样本平均距离,假设分类器B的样本平均距离最小,则分类器B即为在第2轮筛选过程中所确定的优选分类器。
在第3轮筛选(最后一轮)中,将第2轮筛选所确定的优选分类器所对应的标签值(即用户对产品B的购买意向)也加入到该用户的特征向量中(此时,该用户的特征向量包括7个维度的特征信息),并将扩展后的特征向量输入到剩余的分类器(A、D)中进行计算,得到了该用户在2个维度上的预测标签值,根据前述算法,计算出各个分类器的样本平均距离,假设分类器A的样本平均距离最小,则分类器A即为在第3轮筛选过程中所确定的优选分类器。此时只剩下了分类器D,无需继续进行筛选,直接确定分类器A以及分类器D所分别对应的标签值(即用户对产品A的购买意向以及用户对产品D的购买意向),整个优选路径的确定过程如图6所示。
最终确定的与该用户对应的分类器序列即为:
分类器C→分类器B→分类器A→分类器D。
综上所述,本发明实施例在获取到用户在预设的各个评估维度上的特征信息后,根据这些特征信息构造该用户的特征向量,然后从预设的历史用户信息数据库中选取多个训练样本,组成训练样本集合,最后使用该用户的特征向量和该训练样本集合对预设的分类器集合中的各个分类器进行多轮筛选,每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值,通过这样的方式,先筛选出的分类器确定出的标签值会传递到后筛选出的分类器中,并参与到后筛选出的分类器的处理过程之中,从而将各个分类器有机的耦合在一起,充分利用了这些分类器之间的关联性,大大提升了用户画像的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种用户画像方法,图7示出了本发明实施例提供的一种用户画像装置的一个实施例结构图。
本实施例中,一种用户画像装置可以包括:
特征向量构造模块701,用于获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;
训练样本选取模块702,用于从预设的历史用户信息数据库中选取N个训练样本,并组成训练样本集合,N为正整数,所述训练样本集合中的每个训练样本均包括一个历史用户的特征向量和标签向量,即:
Samplen=(EigenVecn,LabelVecn)
其中,Samplen为所述训练样本集合中的第n个训练样本,1≤n≤N,EigenVecn为第n个训练样本的特征向量,且:
EigenVecn=(EigenValn,1,EigenValn,2,...,EigenValn,en,...,EigenValn,EN),
EigenValn,en为第n个训练样本的特征向量在第en个评估维度上的特征信息,1≤en≤EN,EN为评估维度的总数,LabelVecn为第n个训练样本的标签向量,且:
LabelVecn=(LabelValn,1,LabelValn,2,...,LabelValn,ln,...,LabelValn,LN),
LabelValn,ln为第n个训练样本的标签向量在第ln个标签维度上的标签值,1≤ln≤LN。
所述训练样本集合满足下列条件:
其中,LVNln为第ln个标签维度上的标签值的总数,每个标签值的序号记为lvnln,1≤lvnln≤LVNln为第lvnln个标签值在所述训练样本集合中出现的次数,且Threshold为预设的均衡度阈值。
分类器筛选模块703,用于使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行LN-1轮筛选,每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值,所述分类器集合中包括两个以上的不同分类器,每个分类器用于确定一个标签维度上的标签值,LN为标签维度的总数;
标签向量构造模块704,用于根据所述用户在各个标签维度上的标签值构造所述用户的标签向量。
进一步地,所述分类器筛选模块可以包括:
第一扩展单元,用于根据下式对所述用户的特征向量进行扩展:
ExTgtEgVect=(ExTgtEgVect-1,SelTgtLbValt-1)
其中,ExTgtEgVect为所述用户在第t轮筛选过程中扩展得到的特征向量,特殊地,设置ExTgtEgVec0=TgtEgVec,TgtEgVec为所述用户的特征向量,SelTgtLbValt为所述用户在第t轮筛选过程中确定出的标签值,特殊地,设置
第二扩展单元,用于根据下式对所述训练样本集合的各个训练样本的特征向量进行扩展:
ExEigenVect,n=(ExEigenVect-1,n,SelLabelValt-1,n)
其中,ExEigenVect,n为第n个训练样本在第t轮筛选过程中扩展得到的特征向量,1≤t≤LN-1,特殊地,设置ExEigenVec0,n=EigenVecn,SelLabelValt,n为第n个训练样本与第t轮筛选过程中筛选出的分类器对应的标签值,特殊地,设置
分类器提取单元,用于从所述分类器集合中分别提取出各个待筛选的分类器,其中,待筛选的分类器的总数为SNt,且SNt=LN-t+1;
分类器距离计算单元,用于根据所述用户扩展得到的特征向量与各个训练样本扩展得到的特征向量分别计算各个待筛选的分类器的样本平均距离;
分类器筛选单元,用于选取样本平均距离最小的分类器作为第t轮筛选过程中筛选出的分类器。
进一步地,所述分类器距离计算单元可以包括:
样本距离计算子单元,用于根据下式分别计算各个待筛选的分类器的第clvn个标签值的样本平均距离:
其中,ExTgtElm(t,i)为所述用户扩展得到的特征向量的第i个元素,ExSpElm(t,sn,clvn,SpSeq,i)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值的第SpSeq个训练样本扩展得到的特征向量的第i个元素,1≤sn≤SNt,1≤clvn≤CLVN(t,sn),CLVN(t,sn)为第t轮筛选过程中第sn个待筛选的分类器对应的标签值的总数,1≤SpSeq≤CValCount(t,sn,clvn),CValCount(t,sn,clvn)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值在所述训练样本集合中出现的次数,Dis(t,sn,clvn)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值的样本平均距离;
距离序列构造子单元,用于根据下式分别构造各个待筛选的分类器的样本平均距离序列:
DisSq(t,sn)=(Dis(t,sn,1),Dis(t,sn,2),...,Dis(t,sn,clvn),...,Dis(t,sn,CLVN(t,sn)))
其中,DisSq(t,sn)为第t轮筛选过程中第sn个待筛选的分类器的样本平均距离序列;
分类器距离计算子单元,用于根据下式分别计算各个待筛选的分类器的样本平均距离:
MinDis(t,sn)=MIN(DisSq(t,sn))
=MIN(Dis(t,sn,1),Dis(t,sn,2),...,Dis(t,sn,clvn),...,Dis(t,sn,CLVN(t,sn)))
其中,MIN为求最小值函数,MinDis(t,sn)为第t轮筛选过程中第sn个待筛选的分类器的样本平均距离。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图8示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备8可包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机可读指令82,例如执行上述的用户画像方法的计算机可读指令。所述处理器80执行所述计算机可读指令82时实现上述各个用户画像方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器80执行所述计算机可读指令82时实现上述各装置实施例中各模块/单元的功能,例如图7所示模块701至704的功能。
示例性的,所述计算机可读指令82可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令82在所述终端设备8中的执行过程。
所述处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述终端设备8的内部存储单元,例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备,例如所述终端设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机可读指令以及所述终端设备8所需的其它指令和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用户画像方法,其特征在于,包括:
获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;
从预设的历史用户信息数据库中选取N个训练样本,并组成训练样本集合,N为正整数;
使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行LN-1轮筛选,每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值,所述分类器集合中包括两个以上的不同分类器,每个分类器用于确定一个标签维度上的标签值,LN为标签维度的总数;
根据所述用户在各个标签维度上的标签值构造所述用户的标签向量。
2.根据权利要求1所述的用户画像方法,其特征在于,所述训练样本集合中的每个训练样本均包括一个历史用户的特征向量和标签向量,即:
Samplen=(EigenVecn,LabelVecn)
其中,Samplen为所述训练样本集合中的第n个训练样本,1≤n≤N,EigenVecn为第n个训练样本的特征向量,且:
EigenVecn=(EigenValn,1,EigenValn,2,...,EigenValn,en,...,EigenValn,EN),
EigenValn,en为第n个训练样本的特征向量在第en个评估维度上的特征信息,1≤en≤EN,EN为评估维度的总数,LabelVecn为第n个训练样本的标签向量,且:
LabelVecn=(LabelValn,1,LabelValn,2,...,LabelValn,ln,...,LabelValn,LN),
LabelValn,ln为第n个训练样本的标签向量在第ln个标签维度上的标签值,1≤ln≤LN。
3.根据权利要求2所述的用户画像方法,其特征在于,使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行第t轮筛选的过程包括:
根据下式对所述用户的特征向量进行扩展:
ExTgtEgVect=(ExTgtEgVect-1,SelTgtLbValt-1)
其中,ExTgtEgVect为所述用户在第t轮筛选过程中扩展得到的特征向量,特殊地,设置ExTgtEgVec0=TgtEgVec,TgtEgVec为所述用户的特征向量,SelTgtLbValt为所述用户在第t轮筛选过程中确定出的标签值,特殊地,设置
根据下式对所述训练样本集合的各个训练样本的特征向量进行扩展:
ExEigenVect,n=(ExEigenVect-1,n,SelLabelValt-1,n)
其中,ExEigenVect,n为第n个训练样本在第t轮筛选过程中扩展得到的特征向量,1≤t≤LN-1,特殊地,设置ExEigenVec0,n=EigenVecn,SelLabelValt,n为第n个训练样本与第t轮筛选过程中筛选出的分类器对应的标签值,特殊地,设置
从所述分类器集合中分别提取出各个待筛选的分类器,其中,待筛选的分类器的总数为SNt,且SNt=LN-t+1;
根据所述用户扩展得到的特征向量与各个训练样本扩展得到的特征向量分别计算各个待筛选的分类器的样本平均距离;
选取样本平均距离最小的分类器作为第t轮筛选过程中筛选出的分类器。
4.根据权利要求3所述的用户画像方法,其特征在于,所述根据所述用户扩展得到的特征向量与各个训练样本扩展得到的特征向量分别计算各个待筛选的分类器的样本平均距离包括:
根据下式分别计算各个待筛选的分类器的第clvn个标签值的样本平均距离:
其中,ExTgtElm(t,i)为所述用户扩展得到的特征向量的第i个元素,ExSpElm(t,sn,clvn,SpSeq,i)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值的第SpSeq个训练样本扩展得到的特征向量的第i个元素,1≤sn≤SNt,1≤clvn≤CLVN(t,sn),CLVN(t,sn)为第t轮筛选过程中第sn个待筛选的分类器对应的标签值的总数,1≤SpSeq≤CValCount(t,sn,clvn),CValCount(t,sn,clvn)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值在所述训练样本集合中出现的次数,Dis(t,sn,clvn)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值的样本平均距离;
根据下式分别构造各个待筛选的分类器的样本平均距离序列:
DisSq(t,sn)=(Dis(t,sn,1),Dis(t,sn,2),...,Dis(t,sn,clvn),...,Dis(t,sn,CLVN(t,sn)))
其中,DisSq(t,sn)为第t轮筛选过程中第sn个待筛选的分类器的样本平均距离序列;
根据下式分别计算各个待筛选的分类器的样本平均距离:
MinDis(t,sn)=MIN(DisSq(t,sn))
=MIN(Dis(t,sn,1),Dis(t,sn,2),...,Dis(t,sn,clvn),...,Dis(t,sn,CLVN(t,sn)))
其中,MIN为求最小值函数,MinDis(t,sn)为第t轮筛选过程中第sn个待筛选的分类器的样本平均距离。
5.根据权利要求1至4中任一项所述的用户画像方法,其特征在于,所述训练样本集合满足下列条件:
其中,LVNln为第ln个标签维度上的标签值的总数,每个标签值的序号记为lvnln,1≤lvnln≤LVNln为第lvnln个标签值在所述训练样本集合中出现的次数,且Threshold为预设的均衡度阈值。
6.一种用户画像装置,其特征在于,包括:
特征向量构造模块,用于获取用户在预设的各个评估维度上的特征信息,并根据所述特征信息构造所述用户的特征向量;
训练样本选取模块,用于从预设的历史用户信息数据库中选取N个训练样本,并组成训练样本集合,N为正整数;
分类器筛选模块,用于使用所述用户的特征向量和所述训练样本集合对预设的分类器集合中的各个分类器进行LN-1轮筛选,每轮筛选从所述分类器集合中筛选出一个分类器,并确定出所述用户在一个标签维度上的标签值,所述分类器集合中包括两个以上的不同分类器,每个分类器用于确定一个标签维度上的标签值,LN为标签维度的总数;
标签向量构造模块,用于根据所述用户在各个标签维度上的标签值构造所述用户的标签向量。
7.根据权利要求6所述的用户画像装置,其特征在于,所述分类器筛选模块包括:
第一扩展单元,用于根据下式对所述用户的特征向量进行扩展:
ExTgtEgVect=(ExTgtEgVect-1,SelTgtLbValt-1)
其中,ExTgtEgVect为所述用户在第t轮筛选过程中扩展得到的特征向量,特殊地,设置ExTgtEgVec0=TgtEgVec,TgtEgVec为所述用户的特征向量,SelTgtLbValt为所述用户在第t轮筛选过程中确定出的标签值,特殊地,设置
第二扩展单元,用于根据下式对所述训练样本集合的各个训练样本的特征向量进行扩展:
ExEigenVect,n=(ExEigenVect-1,n,SelLabelValt-1,n)
其中,ExEigenVect,n为第n个训练样本在第t轮筛选过程中扩展得到的特征向量,1≤t≤LN-1,特殊地,设置ExEigenVec0,n=EigenVecn,SelLabelValt,n为第n个训练样本与第t轮筛选过程中筛选出的分类器对应的标签值,特殊地,设置
分类器提取单元,用于从所述分类器集合中分别提取出各个待筛选的分类器,其中,待筛选的分类器的总数为SNt,且SNt=LN-t+1;
分类器距离计算单元,用于根据所述用户扩展得到的特征向量与各个训练样本扩展得到的特征向量分别计算各个待筛选的分类器的样本平均距离;
分类器筛选单元,用于选取样本平均距离最小的分类器作为第t轮筛选过程中筛选出的分类器。
8.根据权利要求7所述的用户画像装置,其特征在于,所述分类器距离计算单元包括:
样本距离计算子单元,用于根据下式分别计算各个待筛选的分类器的第clvn个标签值的样本平均距离:
其中,ExTgtElm(t,i)为所述用户扩展得到的特征向量的第i个元素,ExSpElm(t,sn,clvn,SpSeq,i)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值的第SpSeq个训练样本扩展得到的特征向量的第i个元素,1≤sn≤SNt,1≤clvn≤CLVN(t,sn),CLVN(t,sn)为第t轮筛选过程中第sn个待筛选的分类器对应的标签值的总数,1≤SpSeq≤CValCount(t,sn,clvn),CValCount(t,sn,clvn)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值在所述训练样本集合中出现的次数,Dis(t,sn,clvn)为第t轮筛选过程中第sn个待筛选的分类器的第clvn个标签值的样本平均距离;
距离序列构造子单元,用于根据下式分别构造各个待筛选的分类器的样本平均距离序列:
DisSq(t,sn)=(Dis(t,sn,1),Dis(t,sn,2),...,Dis(t,sn,clvn),...,Dis(t,sn,CLVN(t,sn)))
其中,DisSq(t,sn)为第t轮筛选过程中第sn个待筛选的分类器的样本平均距离序列;
分类器距离计算子单元,用于根据下式分别计算各个待筛选的分类器的样本平均距离:
MinDis(t,sn)=MIN(DisSq(t,sn))
=MIN(Dis(t,sn,1),Dis(t,sn,2),...,Dis(t,sn,clvn),...,Dis(t,sn,CLVN(t,sn)))
其中,MIN为求最小值函数,MinDis(t,sn)为第t轮筛选过程中第sn个待筛选的分类器的样本平均距离。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的用户画像方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的用户画像方法的步骤。
CN201910041707.XA 2019-01-16 2019-01-16 一种用户画像方法、装置、可读存储介质及终端设备 Pending CN109858532A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910041707.XA CN109858532A (zh) 2019-01-16 2019-01-16 一种用户画像方法、装置、可读存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910041707.XA CN109858532A (zh) 2019-01-16 2019-01-16 一种用户画像方法、装置、可读存储介质及终端设备

Publications (1)

Publication Number Publication Date
CN109858532A true CN109858532A (zh) 2019-06-07

Family

ID=66894980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910041707.XA Pending CN109858532A (zh) 2019-01-16 2019-01-16 一种用户画像方法、装置、可读存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN109858532A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613983A (zh) * 2020-12-25 2021-04-06 北京知因智慧科技有限公司 一种机器建模过程中的特征筛选方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615730A (zh) * 2015-02-09 2015-05-13 浪潮集团有限公司 一种多标签分类方法及装置
CN107526780A (zh) * 2017-07-22 2017-12-29 长沙兔子代跑网络科技有限公司 一种根据用户画像智能挖掘代跑客户的方法及装置
CN108229590A (zh) * 2018-02-13 2018-06-29 阿里巴巴集团控股有限公司 一种获取多标签用户画像的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615730A (zh) * 2015-02-09 2015-05-13 浪潮集团有限公司 一种多标签分类方法及装置
CN107526780A (zh) * 2017-07-22 2017-12-29 长沙兔子代跑网络科技有限公司 一种根据用户画像智能挖掘代跑客户的方法及装置
CN108229590A (zh) * 2018-02-13 2018-06-29 阿里巴巴集团控股有限公司 一种获取多标签用户画像的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613983A (zh) * 2020-12-25 2021-04-06 北京知因智慧科技有限公司 一种机器建模过程中的特征筛选方法、装置及电子设备
CN112613983B (zh) * 2020-12-25 2023-11-21 北京知因智慧科技有限公司 一种机器建模过程中的特征筛选方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Chen et al. Effective deep attributed network representation learning with topology adapted smoothing
US11544535B2 (en) Graph convolutional networks with motif-based attention
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
CN109241412B (zh) 一种基于网络表示学习的推荐方法、系统及电子设备
CN111798273A (zh) 产品的购买概率预测模型的训练方法及购买概率预测方法
Wan et al. Deep matrix factorization for trust-aware recommendation in social networks
CN112633426B (zh) 处理数据类别不均衡的方法、装置、电子设备及存储介质
Wang et al. Kernel framework based on non-negative matrix factorization for networks reconstruction and link prediction
CN113468227A (zh) 基于图神经网络的信息推荐方法、系统、设备和存储介质
CN110609960B (zh) 学习资源推荐方法、装置、数据处理设备及存储介质
Pan et al. Collaborative recommendation with multiclass preference context
Raza et al. Understanding and using rough set based feature selection: concepts, techniques and applications
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
Raza et al. A parallel rough set based dependency calculation method for efficient feature selection
CN112529071B (zh) 一种文本分类方法、系统、计算机设备和存储介质
CN113918832A (zh) 基于社交关系的图卷积协同过滤推荐系统
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN111159481A (zh) 图数据的边预测方法、装置及终端设备
Mahapatra et al. MRMR-SSA: a hybrid approach for optimal feature selection
CN109784406A (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN109886299B (zh) 一种用户画像方法、装置、可读存储介质及终端设备
Paul et al. ML-KnockoffGAN: Deep online feature selection for multi-label learning
Zhang et al. Complex exponential graph convolutional networks
Araújo et al. Information-theoretic clustering: A representative and evolutionary approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination