CN109002490B - 用户画像生成方法、装置、服务器及存储介质 - Google Patents

用户画像生成方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN109002490B
CN109002490B CN201810671091.XA CN201810671091A CN109002490B CN 109002490 B CN109002490 B CN 109002490B CN 201810671091 A CN201810671091 A CN 201810671091A CN 109002490 B CN109002490 B CN 109002490B
Authority
CN
China
Prior art keywords
data
user
portrait
identifier
target user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810671091.XA
Other languages
English (en)
Other versions
CN109002490A (zh
Inventor
李岩
王汉杰
叶浩
陈波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201810671091.XA priority Critical patent/CN109002490B/zh
Publication of CN109002490A publication Critical patent/CN109002490A/zh
Application granted granted Critical
Publication of CN109002490B publication Critical patent/CN109002490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Abstract

本发明实施例公开了一种用户画像生成方法、装置、服务器及存储介质;本发明实施例在需要生成用户画像时,在获取目标用户标识对应的行为日志的同时,还需要获取与目标用户标识存在关联关系的关联用户标识对应的画像数据,然后将这两类数据整合后作为目标用户标识对应的用户画像数据源,以生成目标用户标识对应的用户画像;这样,目标用户标识的用户画像同时反映了对应用户的行为数据以及关联用户的画像数据,可以更加准确的反映用户喜好或者兴趣,提高了用户画像生成技术所生成的户画像准确率。

Description

用户画像生成方法、装置、服务器及存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种用户画像生成方法、装置、服务器及存储介质。
背景技术
用户画像,是一种用于勾画目标用户的有效工具,其在各领域均得到了广泛的应用,比如,可以包括年龄、性别和/或学历等基础属性,也包括用户的兴趣特征,如微商和/或宠物达人等。用户画像的确定和更新对于后续信息的定向传播,比如文章或好友的定向投放有着重要的意义。
现有用户画像生成技术依赖用户展露出来的用户行为数据,如朋友圈发表的文章等,这类用户行为数据对所有用户可见。而在实际应用中,用户为了隐私考虑,往往不会真正发表喜好或者感兴趣的文章,因此,现有用户画像生成技术所依赖的用户行为数据,并不能真正反映用户喜好或者兴趣,进而导致所生成的用户画像与用户不匹配。
即现有用户画像生成技术所依赖的用户行为数据并不能真正反映用户喜好或者兴趣,将会导致所生成的用户画像准确率较低。
发明内容
本发明实施例提供一种用户画像生成方法、装置、服务器及存储介质,可以提高用户画像生成技术所生成的户画像准确率。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种用户画像生成方法,其包括:
获取目标用户标识对应的行为日志,作为第一数据;
获取关联用户标识对应的画像数据,作为第二数据;所述关联用户标识与所述目标用户标识存在关联关系;
对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源;
根据所述目标用户标识对应的用户画像数据源,生成所述目标用户标识对应的用户画像。
一种用户画像生成装置,其包括:
第一获取模块,用于获取目标用户标识对应的行为日志,作为第一数据;
第二获取模块,用于获取关联用户标识对应的画像数据,作为第二数据;所述关联用户标识与所述目标用户标识存在关联关系;
整合模块,用于对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源;
生成模块,用于根据所述目标用户标识对应的用户画像数据源,生成所述目标用户标识对应的用户画像。
一种服务器,包括处理器和存储器,所述存储器存储有多条指令,所述指令适于处理器进行加载,以执行上述用户画像生成方法中的步骤。
一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述用户画像生成方法中的步骤。
本发明实施例在需要生成用户画像时,在获取目标用户标识对应的行为日志的同时,还需要获取与目标用户标识存在关联关系的关联用户标识对应的画像数据,然后将这两类数据整合后作为目标用户标识对应的用户画像数据源,以生成目标用户标识对应的用户画像;这样,目标用户标识的用户画像同时反映了对应用户的行为数据以及关联用户的画像数据,可以更加准确的反映用户喜好或者兴趣,提高了用户画像生成技术所生成的户画像准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的通信系统的第一种组网示意图;
图2是本发明实施例提供的用户画像生成方法的第一种流程示意图;
图3是本发明实施例提供的通信系统的第二种组网示意图;
图4是本发明实施例提供的用户画像生成方法的第二种流程示意图;
图5是本发明实施例提供的用户画像生成装置的结构示意图;
图6是本发明实施例提供的用户界面的第一种示意图;
图7是本发明实施例提供的用户界面的第二种示意图;
图8是现有用户画像的示意图;
图9是本发明实施例提供的用户画像的示意图;
图10是本发明实施例提供的终端的结构示意图;
图11是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例所提供的通信系统的场景示意图,该通信系统可以包括用户终端11、网关12以及提供各种数据以及业务支持的服务器 13;其中:
用户终端11包括但不局限于手机、平板等便携终端,以及电脑等固定终端,用于为用户提供业务访问接口,并根据用户各种操作,生成对应的操作信息,并通过网关12传输至服务器13,如用户使用终端进行订阅、展示、互动、运动或者支付等操作时,生成对应的操作请求;
网关12是连接服务器13与用户终端11的枢纽,主要进行数据请求以及响应的交互;
服务器13用于为用户提供各种业务服务,如订阅、展示、互动、运动或者支付等功能,并生成对应的行为日志;基于这些行为日志,可以生成各用户的用户画像。在本发明中,服务器13至少用于获取待生成用户画像的用户的目标用户标识,然后从数据库中获取与目标用户标识存在关联关系的关联用户标识,该关联用户标识对应的用户可以是单个自然人或者是由自然人组成的团体 (本文记为群聊),然后获取目标用户标识对应的行为日志,作为第一数据,获取关联用户标识对应的画像数据,作为第二数据,对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源,最后根据所述目标用户标识对应的用户画像数据源,生成所述目标用户标识对应的用户画像;这样,服务器13所生成的目标用户标识的用户画像同时反映了对应用户的行为数据以及关联用户的画像数据,可以在一定程度上更加准确的反映用户喜好或者兴趣,提高了用户画像生成技术所生成的户画像准确率。
需要说明的是,图1所示的系统场景示意图仅仅是一个示例,本发明实施例描述的服务器以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别针对用户画像生成方法以及装置进行详细说明。
图2是本发明实施例提供的用户画像生成方法的第一种流程示意图,请参阅图2,该用户画像生成方法包括以下步骤:
S201:获取目标用户标识对应的行为日志,作为第一数据。
当需要为某个用户生成用户画像时,获取该用户在网络中的全文唯一标识,如用户名、手机号、身份证号、账号等可以唯一确定该用户的标识,作为该用户的目标用户标识。
在此基础上,从多个归属于图1中服务器13的平台,例如朋友圈、空间等展示平台,公众号订阅平台等订阅平台,以及运动平台或者支付平台等辅助平台,获取目标用户标识对应的行为日志,作为第一数据。
现有技术在进行用户画像生成时,仅将用户在朋友圈等展示平台的展示数据作为用户画像数据源,这就会导致服务器等为用户生成的用户画像与用户存在不匹配的问题。
在实际应用中,用户除了会在展示平台进行展示之外,还会在订阅平台进行一些数据的订阅,同时还会产生一些运动信息和支付信息,这些信息在一定程度上也可以反映用户喜好,因此本发明将这些数据一起作为用户画像数据源。
因此,在一些实施例中,行为日志包括目标用户在订阅平台中的订阅数据、以及在辅助平台中的辅助数据的至少一种,此时,本步骤可以包括以下步骤:
获取展示平台内发表者标识为所述目标用户标识的展示数据,作为所述第一数据中的个人展示数据;
获取订阅平台内订阅者标识为所述目标用户标识的订阅数据,作为所述第一数据中的个人隐私数据;
获取辅助平台内归属者标识为所述目标用户标识的辅助数据,作为所述第一数据中的个人辅助数据,所述辅助平台至少包括运动平台或者支付平台中的一种。
在实际应用中,如图6所示,用户在展示平台发布了10条动态,其中9条为商品推广信息,1条为宠物求购信息。现有技术经常会出现主导画像覆盖关键画像的问题,例如某用户是商品推广者,其展示数据95%以上为推广数据,剩下少量的自拍、宠物照片等,如图8所示,现有技术会将直接为该用户生成微商的用户画像,作为主导画像,覆盖了自拍、宠物达人等关键画像。
针对现有中主导画像覆盖关键画像的问题,在一些实施例中,本步骤在获取展示平台内发表者标识为所述目标用户标识的展示数据的步骤之后,作为所述第一数据中的个人展示数据的步骤之前,还包括:
使用主导画像检测器,检测所述展示数据是否为主导画像行为数据;
若是,则直接为所述目标用户标识分配主导画像;并丢弃对应的展示数据,防止主导画像覆盖其他关键画像;
若否,则作为所述第一数据中的个人展示数据。
这样通过本步骤的实现,针对图6所示的场景,可以生成如图9所示的用户画像,其包括微商和宠物达人。
在一些实施例中,主导画像检测器可以通过二分类器来实现,那么,在使用主导画像检测器,检测所述展示数据是否为主导画像行为数据的步骤之前,还包括:
收集所述主导画像对应的正例数据和负例数据;
使用所述主导画像对应的正例数据和负例数据,进行二分类训练器进行训练,得到所述主导画像对应的主导画像检测器。
S202:获取关联用户标识对应的画像数据,作为第二数据。
在本发明中,关联关系包括:所述关联用户标识属于所述目标用户标识的联系人列表,或者所述关联用户标识属于所述目标用户标识的群聊列表中的至少一种。
本发明在获取用户自身的行为数据之后,还需要获取该用户的社交群体的用户信息,例如该用户好友的用户画像,或者该用户所加入群聊的群聊画像等,作为第二数据;这些用户好友或者归属群聊可以作为第二用户,其对应的全文唯一标识记为关联用户标识。
在实际的社交网络中,用户除了会产生自身行为,同时也会产生大量社交行为,以通信系统是微信系统为例,用户会在微信中对好友发表的朋友圈进行点赞或者评论,用户也会加入一些感兴趣的群组进行某些垂直主题的讨论或分享,某些时候,用户周围的人往往比用户本身更能刻画该用户的画像,特别是在用户所能提供的自身行为本身就较少的情况下,例如某用户平时很少发表朋友圈,但是加入了多达七个关于垂钓的聊天群,这就可以判断该用户可能具有垂钓的兴趣爱好。
在一些实施例中,当关联用户标识对应的用户为个人用户时,即关联关系为联系人关系时,本步骤包括:
根据目标用户标识,在数据库中进行查找,获取所述目标用户标识对应的联系人列表;联系人列表对应存在有与该用户存在联系的联系人,如好友的联系人标识等;
从所述联系人列表中选择联系人标识,作为所述关联用户标识;
获取所述关联用户标识的用户画像,作为所述第二数据;关联用户标识的用户画像是指服务器为关联用户标识所对应用户生成的用户画像,如钓鱼达人等。
在一些实施例中,为了保证所选择的关联用户标识可以比较准确的体现用户画像,需要在联系人列表中选择满足预设要求的联系人标识,作为关联用户标识,具体的可以是:
获取所述目标用户标识与所述联系人列表中的联系人标识进行互动操作时,所产生的互动数据;互动数据包括用户之间的对话记录、对话频度、以及在展示平台的点赞以及留言等互动操作对应的数据;
根据所述互动数据,分别计算所述目标用户标识与所述联系人列表中的各联系人标识之间的互动值;互动值在一定程度上可以体现第一用户与其他用户之间的亲密度,亲密度越大的人可以更准确的反映用户喜好,例如该用户的多个亲密好友都是钓鱼达人,那么该用户很大程度上也是钓鱼达人;
将互动值大于互动阈值的联系人标识,作为所述关联用户标识。
在一些实施例中,当关联用户标识对应的用户为群聊时,即关联关系为群聊关系时,本步骤包括:
获取所述目标用户标识对应的群聊列表;群聊列表对应存在有该用户所加入的联系人群聊,如联系人标识等;
从所述群聊列表中选择群聊标识,作为所述关联用户标识;
获取所述关联用户标识的群聊画像,作为所述第二数据。
在一些实施例中,有些群聊是吃饭群聊等,其互动仅仅只是为了一次餐费等,这些群组在平时并不会太活跃,并不能很好的体现用户画像,因此为了保证所选择的群聊标识可以比较准确的体现用户画像,需要选择比较,此时所述从所述群聊列表中选择群聊标识,作为所述关联用户标识的步骤包括:
获取所述群聊列表中各群聊的活跃值;
将活跃值大于活跃阈值的群聊作为目标群聊。
S203:对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源。
本步骤涉及数据整合,在实际应用中,不同的整合权重对应不同的整合结果,为了使得整合更合理,在一些实施例中,本步骤包括:
根据所需数据源种类的数量,将用户画像分为单数据源用户画像和多数据源用户画像;
针对多数据源用户画像,获取各数据源的数量阈值;
根据各数据源的数量阈值,对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源;
针对单数据源用户画像,直接将其相关的数据源的整合系数设置为100%。
在一些实施例中,所述根据各数据源的数量阈值,对所述第一数据和所述第二数据进行整合的步骤包括:
若各数据源的实际数据数量均大于对应的数量阈值,则按照数据源种类的数量比例,作为所述第一数据和所述第二数据的整合权重,进行整合;
若各数据源的实际数量并非都大于对应的数量阈值,则将数据源行为数据实际数据数量与所述数量阈值的比值,作为对应数据源的整合权重,进行整合。
S204:根据所述目标用户标识对应的用户画像数据源,生成所述目标用户标识对应的用户画像。
本步骤可以通过各种方式实现,在一些实施例中,本步骤包括:
根据用户画像数据源,确定第一用户(即目标用户标识对应的用户)在多个第一预设维度上表现出来的用户特征;
通过第一用户在多个第一预设维度上表现出来的用户特征,刻画目标,生成用户的用户画像。
本发明采用在多个能够反映用户的不同特征的纬度上刻画任意一个用户的画像的方式,因而能够实现多角度多层面地刻画用户画像的目的,从而显著地扩展了用户画像的适应领域。
在一些实施例中,由于用户在各个第一预设维度上表现出来的用户特征通常比较抽象、冗长、复杂,为了克服这些缺陷,可以将用户在各预设维度上表现出的用户特征进行简化处理,使抽象、冗长、复杂的用户特征具体化、简单化。例如,可以将其做成标签,使其标签化。
其中,可以将各个预设维度上的用户特征进行标签化(有些预设维度上的用户特征也可以不进行标签化而直接使用),在标签化流程中,可以使用聚类等技术或人工标注方式,对某些预设维度上具有相似用户特征的用户进行归纳,便于使用。此外,用户特征的标签化方式至少可以包括如下文所述的方式 1和方式2。
方式1,可以对每类原始数据所表现出来的用户特征进行聚类,并结合神经语言程序学NLP,对每个类型形成描述。具体地,将该目标用户在该多个第一预设维度中的至少一个维度上表现出来的用户特征进行标签化,得到对应的用户特征标签;以及通过该用户特征标签和其余用户特征,刻画该目标用户的用户画像,其中,该其余用户特征包括:该目标用户在该多个第一预设维度中除该至少一个维度外的其它维度上表现出来的用户特征。需要说明的是,在刻画用户画像的过程中,标签化用户特征是一个优选方案,对于多个第一预设维度而言,可以选择将其全部标签化,也可以选择将其中一部分标签化,具体如何选择,可以根据实际需要确定,在此不做限定。
方式2,可以对每类原始数据所表现出来的用户特征进行统计整理,并加上人工验收环境,对每个类型形成描述。具体地,针对该至少一个维度中的每个维度,对该目标用户在该维度上表现出来的用户特征进行统计,得到对应的统计结果;获取外部输入的附加信息;以及基于该统计结果和该附加信息,给该目标用户在该维度上表现出来的用户特征打上标签,以得到该维度上的用户特征标签。在将对应的用户特征标签化后,可以将已标签化和未标签化的(即结构化的)数据输送到使用方(如线上服务、营销系统等),存为相应的格式,供其使用。
以图7所示的场景为例,用户在朋友圈仅展示了商品信息,但是加入了很多的宠物交流群,此时,现有技术仅考虑了展示数据,就会生成如图8所示的用户画像(仅包括微商),而本发明同时考虑了与用户存在关联关系的其他用户,如所接入群聊的群聊画像(宠物交流群),就会生成如图9所示的用户画像,其包括微商和宠物达人。
在一些实施例中,本发明在生成用户画像之后,还包括以下步骤:
根据生成用户画像的数据源种类,确定用户画像的公开属性;
关联用户画像与对应的公开属性。
例如,某些用户画像的数据源种类仅包括用户在展示平台内展示数据,如微商、宠物达人等,对应的公开属性是公开;另外一些用户画像的数据源种类仅包括用户在订阅平台的订阅数据、辅助平台的辅助数据、或者关联用户的用户画像,如辣妈等,对应的公开属性是不公开;又另外一些用户画像的数据源种类在包括用户在展示平台内展示数据的同时,还包括用户在订阅平台的订阅数据、辅助平台的辅助数据、或者关联用户的用户画像,对应的公开属性是半公开。
用户画像的公开属性主要为好友推荐、信息推送等作为参照,在进行好友推荐或信息推送时,需要考虑这些因素。
现以通信系统为微信平台为例,如图3所示,该通信系统包括:提供朋友圈等服务的展示平台31、提供公众号订阅等服务的订阅平台32、提供微信运动服务的运动平台33、提供微信支付服务的支付平台34、提供数据存储服务的数据服务器35、以及画像服务器36,还包括图1中的用户终端11和网关12等;其中,数据服务器35存储有各用户的联系人列表、所加入的群聊列表、以及一些用户的用户画像和群聊的群聊画像,画像服务器36则采用需要的数据,以生成用户画像。
具体的,如图4所示,本发明提供的用户画像生成方法包括以下步骤:
S401:训练得到主导画像分类器。
主导画像分类器是为了防止主导画像淹没其余关键画像,以主导画像为微商为例,此时主导画像分类器就是微商文本分类器。
微信俨然已经成为当今时代即时通信的重要工具之一,近年来在微信平台上也孕育出很多新的商机和职业,其中“微商”就是不得不提到的一个。顾名思义,微商就是基于微信生态集移动与社交为一体的新型电商模式,主要分为两个环节:B2C环节、C2C环节。基于微信公众号的微商称为B2C微商,基于朋友圈开店的称为C2C微商。很多微商会利用自己的朋友圈,在其中发表关于其所售卖商品的图文甚至视频介绍,据不完全统计,至少有2000万人在微信从事微商的职业。
这一类人群在朋友圈的内容发表具有鲜明的特点,例如经常发送大量的文字和九宫格图像来展示自己的商品,从语言的描述上也有着相似的高频关键词集,例如“专柜验货”、“经典款”、“包邮”等等。毫无疑问,可以很容易地从朋友圈分享这一数据源挖掘出用户在微商这一维画像,然而往往微商用户除了最显著的职业画像外,也含有一些其他很重要的画像,例如某位化妆品微商用户可能同时也属于母婴类人群和宠物达人,所以,提出在分析用户画像之前先进行微商内容的过滤。
本发明首先训练一个基于文本的微商内容分类器,用于对内容是否属于微商进行预测和判断。在本实施例中,采取了一个全自动方法收集微商的正例数据和负例数据,众所周知,微商在微信内的行为活动是非常频繁的,往往一天就可以在朋友圈发表数十条图文消息,基于此,选取朋友圈每日图文发表量大于30并且单条文字数多于100字、图像多于3张的头部用户,拉取满足要求的数百万条文本内容作为正例;对于负例,从发表量处于大盘平均水平的用户随机抽样拉取其发表的文本信息,规模在数千万以上。基于此数据,可以训练一个二分类的微商文本分类器。使用时,对于用户发表的每一条朋友圈文本先调用训练好的微商文本分类器进行微商身份过滤,如果不属于微商内容再将其作为有效的展示数据,以进行用户画像的生成。
S402:获取展示数据。
例如微信用户在朋友圈分享的文字、图像、小视频、图文信息、文章、音乐,以及地理位置签到信息等。通过数据观察、以及对各大门户网站的目录结构进行分析,归纳总结了一些维度的用户画像,包括但不限于运动爱好者、美食爱好者、育儿类群体、程序员群体、宠物达人、旅游达人、游戏达人、佛教群体、有车群体、微商群体、彩民群体、星座达人、军事爱好者、戏曲爱好者、房产中介、基督教群体、伊斯兰教群体、摄影爱好者、动漫达人等。
本发明为每一维画像指定若干查询关键词,比如对于佛教群体这维画像,以“佛教”作为查询关键词,通过海量用户的UGC语料训练一个词向量模型(词向量是指通过训练将某种语言中的每一个词映射成一个固定长度的向量,将所有这些向量放在一起形成一个词向量空间,而每个向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的在词法、语义上的相似性了),并通过词向量模型查找出与该关键词距离最近的词汇,以“佛教”为例,与其相近的词汇包括“佛教”、“佛法”、“心静”、“金刚经”等;接下来收集用户朋友圈文本中包含这些关键词的文本,以作为“佛教”主题的训练数据,类似的对于“程序员群体”,可以通过“码农”、“代码”、"debug",“程序员”、“程序猿”、“代码重构”这些关键词收集属于“程序员群体”主题的训练文本。完成全部训练数据的收集后,本发明以有监督的方式训练一个文本分类器,并利用该文本分类器对用户在朋友圈发表过的每一条文本内容进行主题预测。
此外,展示数据除了可以利用文本信息之外,朋友圈可供利用的还包括图像信息以及地理位置签到信息等,以图像信息为例,以通过分析用户发表图像所包含的内容辅助仅依赖纯文本的画像描述。
在图像方面,利用了一个6000余类的图像分类器对图像内容进行预测,可预测类别包括场景、动植物、生活常见物品等。通过对图像的分析,我们既可以补充文本已经覆盖了的画像,例如,宠物达人,美食爱好者、育儿类群体等,同事也可以弥补一些文本完全无法覆盖的画像,例如自拍爱好者是很难从用户发表的文本中感知到的,然而图像识别可以很容易地判断出一张图像是否为人物自拍像。最后,除了文本和图像,还能利用用户在朋友圈发表的地理位置签到信息配合上图像文本来观察用户是否属于经常性出差群体或者旅游爱好者等。
S403:使用主导画像分类器对展示数据进行筛选。
针对采集到的所有展示数据,都使用微商文本分类器进行筛选,若某个展示数据(用户发表的文章等)携带微商文本分类器的关键字,则认为该用户的用户画像包括微商,并将这一个展示数据删除,经过本步骤,参与整合的展示数据都可以用来反映用户的其他关键画像。
S404:获取订阅数据。
微信用户几乎每天都会进行订阅号文章的阅读,因此在一定的时间窗口内用户阅读的文章总数以及不同主题文章的比例分布直接决定了该用户的阅读兴趣,即阅读画像。将文章的主题概括为23个类别,包括文学、金融财经、时事政治、社会新闻、工业农业、汽车、科技互联网、教育培训、艺术文化、美妆时尚、娱乐、旅游、健康医疗、体育、餐饮美食、母婴育儿、情感、历史、军事、宗教、星座占卜。
本步骤对于用户阅读过的每一篇文章的标题文本内容进行主题预测,以有监督的方式训练一个文章标题文本分类器对每篇文章的标题文本进行主题预测。微信公众平台中,原创订阅号文章的作者会为文章进行主题录入,然而原创订阅号文章的比例在整个微信平台中并不高,只有不超过15%。也就是说,占据主要数据量的非原创订阅号文章应该是重点。因此,可以原创订阅号文章自带的主题作为监督信息训练一个23类的文本分类器,用于非原创订阅号文章的标题分类。这样一来,对于每一篇订阅号文章,可以为其预测主题分布。接下来,本发明固定一个时间周期,通常是三个月至半年,统计每位用户在该时间段内所阅读的所有订阅号文章的主题分布,以其作为该用户微信订阅号文章阅读兴趣画像。
S405:获取辅助数据。
本实施例涉及的辅助数据包括微信运动数据和微信支付数据。
除了上述涉及的订阅号文章阅读以及朋友圈内容发表之外,微信生态内还有一些辅助信息对用户画像的刻画发挥着极其重要的作用,以微信运动和微信支付作为案例,说明其他信息对于用户画像刻画的贡献。
微信运动是由微信开发的一个类似计步数据库的公众账号。用户可以通过关注微信运动公众号查看自己每天行走的步数,同时也可以和其他用户进行运动量的PK或点赞。用户每天行走的步数会间接反映出用户的职业(房产中介、快递员、外卖员等)、通勤方式、兴趣爱好(例如运动等)以及健康状况。而微信支付则是集成在微信客户端的支付功能,用户可以通过手机完成快速的支付流程。微信支付以绑定银行卡的快捷支付为基础,向用户提供安全、快捷、高效的支付服务。近年来随着移动支付的兴起,越来越多的消费者习惯或热衷于使用微信支付进行消费,因此用户的微信支付记录编码进了很多用户画像,包括收入水平、饮食习惯、兴趣爱好等。这些信息无疑也会辅助基于订阅号文章阅读以及朋友圈分享的用户画像刻画。
S406:获取用户联系人的用户画像。
用户画像是基于用户行为对用户的若干属性进行描述刻画,然而社交场景下的用户画像往往不同于非社交场景下的普通用户画像构建,例如电商场景下的用户画像。“人以类聚、物以群分”,相同兴趣、相同职业、相同宗教信仰的人往往在社交上联系得更紧密。
所以针对社交场景下的用户画像,本发明提出好友群体画像的概念,即社交上交互密切的好友,他们的画像间接地在一定程度上反映了该用户的真实画像。举一个例子,如果某位用户是IT程序员工程师,那么他/她的本科专业以及研究生专业很可能是计算机或信息相关专业,那么他/她的社交关系链中势必包含了大量的同专业本科同学或研究生同学以及现在从事工作的同事。这些社交关系所共同具有的画像很大概率地可以反映出该用户本身的用户画像,例如职业。本发明并不对一位用户的全部好友进行分析,因为一些好友可能只是因为某次业务上的往来偶然添加的,亲密度可能较弱。
本发明借助好友间朋友圈的点赞和评论等动作日志筛选出与当前用户互动率或者亲密度较高的用户子集并提取他们已有的用户画像,然后进行分布统计,以发现人群所具有的共性特征,并将此特征按照相应权重补充到用户基于纯自身行为所产生的画像中去。
在一些实施例中,在对某用户的好友进行筛选时,除了要考虑之前提到的互动率亲密度,还需要考虑这些好友用户的行为是否足够丰满,如果行为过于稀少应考虑放弃之以免影响整体统计效果。
S407:获取用户归属群聊的群聊画像。
用户联系人的用户画像从社交的角度间接地刻画了用户的各个维度画像,而微信生态内的群聊行为则主动反映出用户的某些画像属性,例如职业、年龄、爱好等。具体地,微信中能反映出用户属性的群聊有很多,除了直接分析群聊内分享过的文章链接,很多时候仅从群名称就可以推断出群属性,例如“王者农药鲁班交流群”、“北京四中2008级八班”、“链家地产一万科星园店”、“哈工大马拉松协会”等。
因此,本步骤通过对群聊名称以及群成员历史上在该群分享过的文章内容进行文本分析,进而对每一个群的主题进行预测;接着提取每位用户所加入的群聊列表,对列表中涉及的群聊主题进行统计整合,进而完成用户归属群聊的群聊画像。实际操作中用户所加入的群并不会都参与到用户画像的生成中去,因为很多群并不活跃,例如某次聚餐后为了AA群收款所发起的临时群,或者参加某次活动后所加入的临时群,相当长时间范围内都没有群成员在其中发言,通过进行日志查询,可以将活跃度不满足一定阈值的群不纳入考虑范围。
S408:对输入数据进行整合,并根据整合后的数据生成用户画像。
本步骤对之前获得的零散信息进行整合,首先对自我行为画像与社交行为画像所涉及的各维用户画像进行拆分和归并。举个例子,一类画像仅体现在有限的数据源,例如喜欢自拍这一维画像,仅能通过其朋友圈分享的图像被系统感知到;还有一类画像,不止单一数据源可以影响到它,例如对于宠物达人这一维画像,自我行为的表现可以体现在朋友圈中经常性地晒自己的宠物,并且关注、阅读甚至分享了很多宠物饲养方面的订阅号文章,社交行为方面则体现在加入了很多爱猫爱犬协会或者宠物饲养群聊等。
对于这一类在多数据源有所体现的画像维度,首先根据大盘数据统计,定义出不同数据源行为数量阈值,以半年为例用户订阅号文章阅读总量应不少于 500篇(过少的行为会影响画像绘制的精度),朋友圈内容分享行为应不少于60 条记录,所加入有效活跃群聊数应不小于10个,微信支付行为记录数不少于500 条。对于需要进行多数据源整合的用户画像,我们需要根据各数据源行为与对应阈值的比例确定最终融合比例,例如现在需要对某一维画像的两个数据源 (订阅号文章阅读与朋友圈发表)进行整合,订阅号文章阅读阈值为500,朋友圈发表阈值为60,如果两个数据源行为数均高于阈值,则两数据源对画像的贡献应为等比例,如果并非都高于各自阈值,则各数据源应按照实际行为数与对应阈值的比例作为整合权重。
本实施例在绘制用户画像的过程中,融合多数据源,而非单一数据源,具体体现在自我行为与社交行为都需要同时考虑,与以往用户画像技术仅关注自我行为相比,生成的用户画像更准确。进一步的,对于实际的社交场景下的用户画像分析,可以通过训练微商分类器的方式,先对用户进行是否是微商的判断,然后再进行其他微商外主题的预测,能有效地防止主导画像对其他关键画像的淹没。
相应的,图5是本发明实施例提供的用户画像生成装置的结构示意图,请参阅图5,该用户画像生成装置包括以下模块:
第一获取模块51,用于获取目标用户标识对应的行为日志,作为第一数据;
第二获取模块52,用于获取关联用户标识对应的画像数据,作为第二数据;所述关联用户标识与所述目标用户标识存在关联关系;
融合 模块53,用于对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源;
生成模块54,用于根据所述目标用户标识对应的用户画像数据源,生成所述目标用户标识对应的用户画像。
在一实施例中,第一获取模块51可以具体用于:获取展示平台内发表者标识为所述目标用户标识的展示数据,作为所述第一数据中的个人展示数据;获取订阅平台内订阅者标识为所述目标用户标识的订阅数据,作为所述第一数据中的个人隐私数据;获取辅助平台内归属者标识为所述目标用户标识的辅助数据,作为所述第一数据中的个人辅助数据。
在一实施例中,第一获取模块51可以具体用于:在获取展示平台内发表者标识为所述目标用户标识的展示数据的步骤之后,使用主导画像检测器,检测所述展示数据是否为主导画像行为数据;若是,则直接为所述目标用户标识分配主导画像;若否,则作为所述第一数据中的个人展示数据。
在一实施例中,第一获取模块51可以具体用于:收集所述主导画像对应的正例数据和负例数据;使用所述主导画像对应的正例数据和负例数据,进行二分类训练器进行训练,得到所述主导画像对应的主导画像检测器。
在一实施例中,第二获取模块52可以具体用于:获取所述目标用户标识对应的联系人列表;从所述联系人列表中选择联系人标识,作为所述关联用户标识;获取所述关联用户标识的用户画像,作为所述第二数据。
在一实施例中,第二获取模块52可以具体用于:获取所述目标用户标识与所述联系人列表中的联系人标识进行互动操作时,所产生的互动数据;根据所述互动数据,分别计算所述目标用户标识与所述联系人列表中的各联系人标识之间的互动值;将互动值大于互动阈值的联系人标识,作为所述关联用户标识。
在一实施例中,第二获取模块52可以具体用于:获取所述目标用户标识对应的群聊列表;从所述群聊列表中选择群聊标识,作为所述关联用户标识;获取所述关联用户标识的群聊画像,作为所述第二数据。
在一实施例中,第二获取模块52可以具体用于:获取所述群聊列表中各群聊的活跃值;将活跃值大于活跃阈值的群聊作为目标群聊。
在一实施例中,融合模块53可以具体用于:根据所需数据源种类的数量,将用户画像分为单数据源用户画像和多数据源用户画像;针对多数据源用户画像,获取各数据源的数量阈值;根据各数据源的数量阈值,对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源。
在一实施例中,融合模块53可以具体用于:若各数据源的实际数据数量均大于对应的数量阈值,则按照数据源种类的数量比例,作为所述第一数据和所述第二数据的整合权重,进行整合;若各数据源的实际数量并非都大于对应的数量阈值,则将数据源行为数据实际数据数量与所述数量阈值的比值,作为对应数据源的整合权重,进行整合。
相应的,本发明实施例还提供一种终端,如图10所示,该终端可以包括射频(RF,Radio Frequency)电路1001、包括有一个或一个以上计算机可读存储介质的存储器1002、输入单元1003、显示单元1004、传感器1005、音频电路1006、无线保真(WiFi,WirelessFidelity)模块1007、包括有一个或者一个以上处理核心的处理器1008、以及电源1009等部件。本领域技术人员可以理解,图10 中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路1001可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器1008处理;另外,将涉及上行的数据发送给基站。通常,RF电路1001包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路1001还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器1002可用于存储软件程序以及模块,处理器1008通过运行存储在存储器1002的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等) 等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1002还可以包括存储器控制器,以提供处理器1008 和输入单元1003对存储器1002的访问。
输入单元1003可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元1003可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。在一实施例中,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1008,并能接收处理器1008发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元1003还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1004可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1004可包括显示面板,在一实施例中,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器1008 以确定触摸事件的类型,随后处理器1008根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图10中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器1005,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1006、扬声器,传声器可提供用户与终端之间的音频接口。音频电路1006可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路1006接收后转换为音频数据,再将音频数据输出处理器1008处理后,经RF电路1001以发送给比如另一终端,或者将音频数据输出至存储器 1002以便进一步处理。音频电路1006还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块1007可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1007,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1008是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1002内的软件程序和/或模块,以及调用存储在存储器1002内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。在一实施例中,处理器1008可包括一个或多个处理核心;优选的,处理器1008可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1008中。
终端还包括给各个部件供电的电源1009(比如电池),优选的,电源可以通过电源管理系统与处理器1008逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1009还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器1008会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1002中,并由处理器1008来运行存储在存储器1002中的应用程序,从而实现各种功能:
获取目标用户标识对应的行为日志,作为第一数据;
获取关联用户标识对应的画像数据,作为第二数据;所述关联用户标识与所述目标用户标识存在关联关系;
对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源;
根据所述目标用户标识对应的用户画像数据源,生成所述目标用户标识对应的用户画像。
在一实施例中,实现功能:获取展示平台内发表者标识为所述目标用户标识的展示数据,作为所述第一数据中的个人展示数据;获取订阅平台内订阅者标识为所述目标用户标识的订阅数据,作为所述第一数据中的个人隐私数据;获取辅助平台内归属者标识为所述目标用户标识的辅助数据,作为所述第一数据中的个人辅助数据。
在一实施例中,实现功能:在获取展示平台内发表者标识为所述目标用户标识的展示数据的步骤之后,使用主导画像检测器,检测所述展示数据是否为主导画像行为数据;若是,则直接为所述目标用户标识分配主导画像;若否,则作为所述第一数据中的个人展示数据。
在一实施例中,实现功能:收集所述主导画像对应的正例数据和负例数据;使用所述主导画像对应的正例数据和负例数据,进行二分类训练器进行训练,得到所述主导画像对应的主导画像检测器。
在一实施例中,实现功能:获取所述目标用户标识对应的联系人列表;从所述联系人列表中选择联系人标识,作为所述关联用户标识;获取所述关联用户标识的用户画像,作为所述第二数据。
在一实施例中,实现功能:获取所述目标用户标识与所述联系人列表中的联系人标识进行互动操作时,所产生的互动数据;根据所述互动数据,分别计算所述目标用户标识与所述联系人列表中的各联系人标识之间的互动值;将互动值大于互动阈值的联系人标识,作为所述关联用户标识。
在一实施例中,实现功能:获取所述目标用户标识对应的群聊列表;从所述群聊列表中选择群聊标识,作为所述关联用户标识;获取所述关联用户标识的群聊画像,作为所述第二数据。
在一实施例中,实现功能:获取所述群聊列表中各群聊的活跃值;将活跃值大于活跃阈值的群聊作为目标群聊。
在一实施例中,实现功能:根据所需数据源种类的数量,将用户画像分为单数据源用户画像和多数据源用户画像;针对多数据源用户画像,获取各数据源的数量阈值;根据各数据源的数量阈值,对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源。
在一实施例中,实现功能:若各数据源的实际数据数量均大于对应的数量阈值,则按照数据源种类的数量比例,作为所述第一数据和所述第二数据的整合权重,进行整合;若各数据源的实际数量并非都大于对应的数量阈值,则将数据源行为数据实际数据数量与所述数量阈值的比值,作为对应数据源的整合权重,进行整合。
相应的,本发明实施例还提供一种服务器,如图11所示,该服务器可以包括有一个或一个以上计算机可读存储介质的存储器1101、、包括有一个或者一个以上处理核心的处理器1102等部件。本领域技术人员可以理解,图11中示出的结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
存储器1101可用于存储软件程序以及模块,处理器1102通过运行存储在存储器1101的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等) 等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1101可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1101还可以包括存储器控制器,以提供处理器1102对存储器1101的访问。
具体在本实施例中,服务器中的处理器1102会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1101中,并由处理器1102来运行存储在存储器1101中的应用程序,从而实现各种功能:
获取目标用户标识对应的行为日志,作为第一数据;
获取关联用户标识对应的画像数据,作为第二数据;所述关联用户标识与所述目标用户标识存在关联关系;
对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源;
根据所述目标用户标识对应的用户画像数据源,生成所述目标用户标识对应的用户画像。
在一实施例中,实现功能:获取展示平台内发表者标识为所述目标用户标识的展示数据,作为所述第一数据中的个人展示数据;获取订阅平台内订阅者标识为所述目标用户标识的订阅数据,作为所述第一数据中的个人隐私数据;获取辅助平台内归属者标识为所述目标用户标识的辅助数据,作为所述第一数据中的个人辅助数据。
在一实施例中,实现功能:在获取展示平台内发表者标识为所述目标用户标识的展示数据的步骤之后,使用主导画像检测器,检测所述展示数据是否为主导画像行为数据;若是,则直接为所述目标用户标识分配主导画像;若否,则作为所述第一数据中的个人展示数据。
在一实施例中,实现功能:收集所述主导画像对应的正例数据和负例数据;使用所述主导画像对应的正例数据和负例数据,进行二分类训练器进行训练,得到所述主导画像对应的主导画像检测器。
在一实施例中,实现功能:获取所述目标用户标识对应的联系人列表;从所述联系人列表中选择联系人标识,作为所述关联用户标识;获取所述关联用户标识的用户画像,作为所述第二数据。
在一实施例中,实现功能:获取所述目标用户标识与所述联系人列表中的联系人标识进行互动操作时,所产生的互动数据;根据所述互动数据,分别计算所述目标用户标识与所述联系人列表中的各联系人标识之间的互动值;将互动值大于互动阈值的联系人标识,作为所述关联用户标识。
在一实施例中,实现功能:获取所述目标用户标识对应的群聊列表;从所述群聊列表中选择群聊标识,作为所述关联用户标识;获取所述关联用户标识的群聊画像,作为所述第二数据。
在一实施例中,实现功能:获取所述群聊列表中各群聊的活跃值;将活跃值大于活跃阈值的群聊作为目标群聊。
在一实施例中,实现功能:根据所需数据源种类的数量,将用户画像分为单数据源用户画像和多数据源用户画像;针对多数据源用户画像,获取各数据源的数量阈值;根据各数据源的数量阈值,对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源。
在一实施例中,实现功能:若各数据源的实际数据数量均大于对应的数量阈值,则按照数据源种类的数量比例,作为所述第一数据和所述第二数据的整合权重,进行整合;若各数据源的实际数量并非都大于对应的数量阈值,则将数据源行为数据实际数据数量与所述数量阈值的比值,作为对应数据源的整合权重,进行整合。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对资源管理方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种方法中的步骤。例如,该指令可以执行如下步骤:
获取目标用户标识对应的行为日志,作为第一数据;
获取关联用户标识对应的画像数据,作为第二数据;所述关联用户标识与所述目标用户标识存在关联关系;
对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源;
根据所述目标用户标识对应的用户画像数据源,生成所述目标用户标识对应的用户画像。
在一实施例中,实现功能:获取展示平台内发表者标识为所述目标用户标识的展示数据,作为所述第一数据中的个人展示数据;获取订阅平台内订阅者标识为所述目标用户标识的订阅数据,作为所述第一数据中的个人隐私数据;获取辅助平台内归属者标识为所述目标用户标识的辅助数据,作为所述第一数据中的个人辅助数据。
在一实施例中,实现功能:在获取展示平台内发表者标识为所述目标用户标识的展示数据的步骤之后,使用主导画像检测器,检测所述展示数据是否为主导画像行为数据;若是,则直接为所述目标用户标识分配主导画像;若否,则作为所述第一数据中的个人展示数据。
在一实施例中,实现功能:收集所述主导画像对应的正例数据和负例数据;使用所述主导画像对应的正例数据和负例数据,进行二分类训练器进行训练,得到所述主导画像对应的主导画像检测器。
在一实施例中,实现功能:获取所述目标用户标识对应的联系人列表;从所述联系人列表中选择联系人标识,作为所述关联用户标识;获取所述关联用户标识的用户画像,作为所述第二数据。
在一实施例中,实现功能:获取所述目标用户标识与所述联系人列表中的联系人标识进行互动操作时,所产生的互动数据;根据所述互动数据,分别计算所述目标用户标识与所述联系人列表中的各联系人标识之间的互动值;将互动值大于互动阈值的联系人标识,作为所述关联用户标识。
在一实施例中,实现功能:获取所述目标用户标识对应的群聊列表;从所述群聊列表中选择群聊标识,作为所述关联用户标识;获取所述关联用户标识的群聊画像,作为所述第二数据。
在一实施例中,实现功能:获取所述群聊列表中各群聊的活跃值;将活跃值大于活跃阈值的群聊作为目标群聊。
在一实施例中,实现功能:根据所需数据源种类的数量,将用户画像分为单数据源用户画像和多数据源用户画像;针对多数据源用户画像,获取各数据源的数量阈值;根据各数据源的数量阈值,对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源。
在一实施例中,实现功能:若各数据源的实际数据数量均大于对应的数量阈值,则按照数据源种类的数量比例,作为所述第一数据和所述第二数据的整合权重,进行整合;若各数据源的实际数量并非都大于对应的数量阈值,则将数据源行为数据实际数据数量与所述数量阈值的比值,作为对应数据源的整合权重,进行整合。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种用户画像生成方法中的步骤,因此,可以实现本发明实施例所提供的任一种用户画像生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种用户画像生成方法、装置、服务器及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种用户画像生成方法,其特征在于,包括:
获取目标用户标识对应的行为日志,作为第一数据;
获取关联用户标识对应的画像数据,作为第二数据;所述关联用户标识与所述目标用户标识存在关联关系;
对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源;
根据所述目标用户标识对应的用户画像数据源,生成所述目标用户标识对应用户的用户画像;
其中,所述行为日志包括目标用户在展示平台中的展示数据,所述获取目标用户标识对应的行为日志,作为第一数据包括:获取展示平台内发表者标识为所述目标用户标识的展示数据,使用主导画像检测器,检测所述展示数据是否为主导画像行为数据,若是,则直接为所述目标用户标识分配主导画像,若否,则直接作为所述第一数据中的个人展示数据。
2.根据权利要求1所述的用户画像生成方法,其特征在于,所述行为日志包括目标用户在订阅平台中的订阅数据、以及在辅助平台中的辅助数据的至少一种。
3.根据权利要求1所述的用户画像生成方法,其特征在于,所述关联关系包括:所述关联用户标识属于所述目标用户标识的联系人列表,或者所述关联用户标识属于所述目标用户标识的群聊列表中的至少一种。
4.根据权利要求3所述的用户画像生成方法,其特征在于,所述获取关联用户标识对应的画像数据,作为第二数据的步骤包括:
获取所述目标用户标识对应的联系人列表;
从所述联系人列表中选择联系人标识,作为所述关联用户标识;
获取所述关联用户标识对应的用户画像,作为所述第二数据。
5.根据权利要求4所述的用户画像生成方法,其特征在于,所述从所述联系人列表中选择联系人标识,作为所述关联用户标识的步骤包括:
获取所述目标用户标识与所述联系人列表中的联系人标识进行互动操作时,所产生的互动数据;
根据所述互动数据,分别计算所述目标用户标识与所述联系人列表中的各联系人标识之间的互动值;
将互动值大于互动阈值的联系人标识,作为所述关联用户标识。
6.根据权利要求3所述的用户画像生成方法,其特征在于,所述获取关联用户标识对应的画像数据,作为第二数据的步骤包括:
获取所述目标用户标识对应的群聊列表;
从所述群聊列表中选择群聊标识,作为所述关联用户标识;
获取所述关联用户标识的群聊画像,作为所述第二数据。
7.根据权利要求6所述的用户画像生成方法,其特征在于,所述从所述群聊列表中选择群聊标识,作为所述关联用户标识的步骤包括:
获取所述群聊列表中各群聊的活跃值;
将活跃值大于活跃阈值的群聊作为目标群聊。
8.根据权利要求1所述的用户画像生成方法,其特征在于,在使用主导画像检测器,检测所述展示数据是否为主导画像行为数据的步骤之前,还包括:
收集所述主导画像对应的正例数据和负例数据;
使用所述主导画像对应的正例数据和负例数据,进行二分类训练器进行训练,得到所述主导画像对应的主导画像检测器。
9.根据权利要求1所述的用户画像生成方法,其特征在于,所述对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源的步骤包括:
根据所需数据源种类的数量,将用户画像分为单数据源用户画像和多数据源用户画像;
针对多数据源用户画像,获取各数据源的数量阈值;
根据各数据源的数量阈值,对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源。
10.根据权利要求9所述的用户画像生成方法,其特征在于,所述根据各数据源的数量阈值,对所述第一数据和所述第二数据进行整合的步骤包括:
若各数据源的实际数据数量均大于对应的数量阈值,则按照数据源种类的数量比例,作为所述第一数据和所述第二数据的整合权重,进行整合;
若各数据源的实际数量并非都大于对应的数量阈值,则将数据源行为数据实际数据数量与所述数量阈值的比值,作为对应数据源的整合权重,进行整合。
11.根据权利要求2所述的用户画像生成方法,其特征在于,所述辅助平台至少包括运动平台或者支付平台中的一种。
12.一种用户画像生成装置,其特征在于,包括:
第一获取模块,用于获取目标用户标识对应的行为日志,作为第一数据;所述行为日志包括目标用户在展示平台中的展示数据,所述第一获取模块用于获取展示平台内发表者标识为所述目标用户标识的展示数据,使用主导画像检测器,检测所述展示数据是否为主导画像行为数据,若是,则直接为所述目标用户标识分配主导画像,若否,则直接作为所述第一数据中的个人展示数据;
第二获取模块,用于获取关联用户标识对应的画像数据,作为第二数据;所述关联用户标识与所述目标用户标识存在关联关系;
整合模块,用于对所述第一数据和所述第二数据进行整合,生成所述目标用户标识对应的用户画像数据源;
生成模块,用于根据所述目标用户标识对应的用户画像数据源,生成所述目标用户标识对应的用户画像。
13.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至11任一项所述的用户画像生成方法中的步骤。
14.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至11任一项所述的用户画像生成方法中的步骤。
CN201810671091.XA 2018-06-26 2018-06-26 用户画像生成方法、装置、服务器及存储介质 Active CN109002490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810671091.XA CN109002490B (zh) 2018-06-26 2018-06-26 用户画像生成方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810671091.XA CN109002490B (zh) 2018-06-26 2018-06-26 用户画像生成方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN109002490A CN109002490A (zh) 2018-12-14
CN109002490B true CN109002490B (zh) 2020-09-04

Family

ID=64601881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810671091.XA Active CN109002490B (zh) 2018-06-26 2018-06-26 用户画像生成方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109002490B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711874A (zh) * 2018-12-17 2019-05-03 平安科技(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN109885745A (zh) * 2019-01-16 2019-06-14 平安科技(深圳)有限公司 一种用户画像方法、装置、可读存储介质及终端设备
CN109727077A (zh) * 2019-01-22 2019-05-07 深圳魔数智擎科技有限公司 用户未来画像生成方法、计算机存储介质及计算机设备
CN110059248B (zh) * 2019-03-21 2022-12-13 腾讯科技(深圳)有限公司 一种推荐方法、装置及服务器
CN110008228A (zh) * 2019-03-26 2019-07-12 北京字节跳动网络技术有限公司 用户群体数据的获取方法和装置、存储介质及电子设备
CN109994000B (zh) * 2019-03-28 2021-10-19 掌阅科技股份有限公司 一种伴读方法、电子设备及计算机存储介质
CN110309668A (zh) * 2019-05-16 2019-10-08 深圳市白唇鹿科技有限公司 多平台数据管理方法、装置、计算机设备和存储介质
CN111966885B (zh) * 2019-05-20 2023-10-31 腾讯科技(深圳)有限公司 一种用户画像的构建方法和装置
CN110162648B (zh) * 2019-05-21 2024-02-23 智者四海(北京)技术有限公司 图片处理方法、装置及记录介质
CN110147406A (zh) * 2019-05-29 2019-08-20 深圳市城市屋超科技有限公司 一种面向云计算的可视化数据挖掘系统及其架构方法
CN110196849B (zh) * 2019-06-05 2023-04-18 普元信息技术股份有限公司 基于大数据治理技术实现用户画像构建处理的系统及其方法
CN110362741B (zh) * 2019-06-11 2022-02-25 新浪网技术(中国)有限公司 一种Feed流信息的智能下发方法与系统
CN110263261A (zh) * 2019-06-14 2019-09-20 韶关市启之信息技术有限公司 一种基于盆栽养殖行为的好友推荐方法与装置
CN112115194B (zh) * 2019-06-21 2023-11-17 腾讯科技(深圳)有限公司 群体对比画像确定方法、服务器、终端、系统及存储介质
CN111182018B (zh) * 2019-07-02 2022-02-18 腾讯科技(深圳)有限公司 一种用户识别方法、装置、设备及介质
CN113950817A (zh) * 2019-07-23 2022-01-18 深圳市欢太科技有限公司 内容推送方法及相关产品
CN110688406A (zh) * 2019-09-06 2020-01-14 平安医疗健康管理股份有限公司 数据处理方法、装置、计算机设备和存储介质
CN110782128B (zh) * 2019-09-27 2024-03-29 北京淇瑀信息科技有限公司 一种用户职业标签生成方法、装置和电子设备
CN110677267B (zh) * 2019-10-09 2021-11-23 上海连尚网络科技有限公司 信息处理方法和装置
CN111079056A (zh) * 2019-10-11 2020-04-28 深圳壹账通智能科技有限公司 提取用户画像的方法、装置、计算机设备和存储介质
CN111080353A (zh) * 2019-12-09 2020-04-28 中国平安财产保险股份有限公司 基于车辆数据的产品推荐方法、系统和可读存储介质
CN111026975A (zh) * 2019-12-12 2020-04-17 深圳向量之美科技有限公司 基于视觉信息识别的信息检索方法及装置
CN111161104A (zh) * 2019-12-20 2020-05-15 青岛聚好联科技有限公司 一种社区用户画像的生成方法及装置
CN111026971B (zh) * 2019-12-25 2023-05-02 腾讯科技(深圳)有限公司 内容的推送方法及装置、计算机存储介质
CN111079023B (zh) * 2019-12-30 2023-06-16 Oppo广东移动通信有限公司 目标帐户的识别方法、装置、终端及存储介质
CN111163342A (zh) * 2020-01-14 2020-05-15 恒信东方文化股份有限公司 一种智能互动系统及其方法
CN111506805A (zh) * 2020-03-18 2020-08-07 威比网络科技(上海)有限公司 语言课程信息推送方法、系统、电子设备和存储介质
CN111753026B (zh) * 2020-06-28 2023-09-12 中国银行股份有限公司 一种用户画像生成系统、方法、装置、设备和介质
CN112328895A (zh) * 2020-11-25 2021-02-05 Oppo广东移动通信有限公司 用户画像生成方法、装置、服务器及存储介质
CN112487303B (zh) * 2020-11-26 2022-04-22 杭州电子科技大学 一种基于社交网络用户属性的主题推荐方法
CN113157652A (zh) * 2021-05-12 2021-07-23 中电福富信息科技有限公司 一种基于用户操作审计的用户行画像和异常行为检测方法
CN114676243B (zh) * 2022-05-25 2022-08-19 成都无糖信息技术有限公司 一种针对社交文本的用户画像分析方法及系统
CN115408617B (zh) * 2022-09-15 2023-05-26 布谷鸟数字科技(中山)股份有限公司 基于人工智能的互联网用户整合方法及大数据服务系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420460A (zh) * 2008-12-08 2009-04-29 腾讯科技(深圳)有限公司 创建聚合容器及为用户匹配聚合容器的方法及装置
CN103136253A (zh) * 2011-11-30 2013-06-05 腾讯科技(深圳)有限公司 获取信息的方法和装置
CN104657369A (zh) * 2013-11-19 2015-05-27 深圳市腾讯计算机系统有限公司 用户属性信息的生成方法及系统
CN103714130B (zh) * 2013-12-12 2017-08-22 深圳先进技术研究院 视频推荐系统及方法
CN105260908A (zh) * 2015-09-28 2016-01-20 魔线科技(深圳)有限公司 基于聊天会话内容推送靶向广告的方法及系统
CN107562875A (zh) * 2017-08-31 2018-01-09 北京麒麟合盛网络技术有限公司 一种模型的更新方法、装置及系统

Also Published As

Publication number Publication date
CN109002490A (zh) 2018-12-14

Similar Documents

Publication Publication Date Title
CN109002490B (zh) 用户画像生成方法、装置、服务器及存储介质
US11303590B2 (en) Suggested responses based on message stickers
US10862836B2 (en) Automatic response suggestions based on images received in messaging applications
CN106357517B (zh) 定向标签生成方法及装置
KR102067278B1 (ko) 친구 추천 방법 및 이를 위한 서버 및 단말
WO2019140703A1 (zh) 一种用户画像的生成方法及装置
US20150032535A1 (en) System and method for content based social recommendations and monetization thereof
CN105103105B (zh) 社交封面信息流界面
EP3627806A1 (en) Method for generating user portrait, and terminal
US20130282733A1 (en) Profile noise anonymity for mobile users
CN105279672A (zh) 线索推荐
CN112104642B (zh) 一种异常账号确定方法和相关装置
CN105074687A (zh) 重新排序故事内容
CN102947826A (zh) 基于情境的信息聚合系统
US20170214646A1 (en) Systems and methods for providing social media location information
US9596205B2 (en) System and method for mailing list identification and representation
CN110209810B (zh) 相似文本识别方法以及装置
CN105009024A (zh) 节省电池和数据使用
TW201931067A (zh) 用於自動地執行一隱含訊息搜尋之電腦化系統與方法
US20190362025A1 (en) Personalized query formulation for improving searches
CN112116391A (zh) 多媒体资源投放方法、装置、计算机设备及存储介质
Zhu et al. Human activity recognition using social media data
US20130282493A1 (en) Non-unique identifier for a group of mobile users
CN112685551B (zh) 语料库构建方法、聊天机器人会话方法及相关装置
WO2018046001A1 (zh) 信息过滤方法、交易控制方法及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190131

Address after: Room 1601-1608, Floor 16, Yinke Building, 38 Haidian Street, Haidian District, Beijing

Applicant after: Tencent Technology (Beijing) Co., Ltd

Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

GR01 Patent grant
GR01 Patent grant