CN111191092A - 画像数据处理方法和画像模型训练方法 - Google Patents

画像数据处理方法和画像模型训练方法 Download PDF

Info

Publication number
CN111191092A
CN111191092A CN201911424667.3A CN201911424667A CN111191092A CN 111191092 A CN111191092 A CN 111191092A CN 201911424667 A CN201911424667 A CN 201911424667A CN 111191092 A CN111191092 A CN 111191092A
Authority
CN
China
Prior art keywords
training
feature
user
target
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911424667.3A
Other languages
English (en)
Other versions
CN111191092B (zh
Inventor
闫肃
陈鑫
张旭
林乐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911424667.3A priority Critical patent/CN111191092B/zh
Publication of CN111191092A publication Critical patent/CN111191092A/zh
Application granted granted Critical
Publication of CN111191092B publication Critical patent/CN111191092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请涉及一种画像数据处理方法及画像模型训练方法,其中画像数据处理方法包括:获取目标用户对应的历史离散用户特征集合,获取目标特征域对应的目标画像模型,将历史离散用户特征集合输入其中,得到目标用户对应于目标特征域的用户画像,目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的,第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征,预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合。采用本申请的方法可以得到更加准确的用户画像。

Description

画像数据处理方法和画像模型训练方法
技术领域
本申请涉及计算机技术领域,特别是涉及一种画像数据处理方法和画像模型训练方法。
背景技术
随着计算机技术的发展,人们越来越多地依赖互联网来获取各方面的信息,为了达到向用户及时推荐各种有用信息又尽量避免推荐无用信息的目的,通常根据用户的用户画像确定接受信息的目标人群。用户画像的构建可以通过训练好的画像模型进行预测得到。
传统技术中,在训练画像模型时,对于存在多领域用户数据的场景,通常是分别对每个领域单独提取对应的用户行为数据,进行模型训练,得到每个领域对应的用户画像模型。这种方式忽略了多领域之间的关联,导致训练得到的画像模型生成的用户画像并不准确。
发明内容
基于此,有必要针对背景技术中引出的技术问题,提供一种画像数据处理方法和画像模型训练方法。
一种画像数据处理方法,包括:
获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;
获取目标特征域对应的目标画像模型;
所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;
所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;
将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像。
一种画像数据处理装置,所述装置包括:
特征获取模块,用于获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;
模型获取模块,用于获取目标特征域对应的目标画像模型;所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;
特征输入模块,用于将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述画像数据处理方法所述的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述画像数据处理方法所述的步骤。
上述画像数据处理方法、装置、计算机可读存储介质和计算机设备,由于目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的,第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征,而预训练画像模型则是根据第二训练样本对初始画像模型进行训练得到的,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合,因此目标画像模型能够充分地学习到多个特征域之间的特征关联性以及其他特征域的离散用户特征与目标特征域用户画像之间的映射关系,当将目标用户对应的历史离散用户特征集合输入到目标画像模型时,最终得到的用户画像考虑了其他特征域与目标特征域之间的特征关联性,因此相较于传统技术得到的用户画像,本申请得到的用户画像更加准确。
一种画像模型训练方法,包括:
获取预训练画像模型;所述预训练画像模型是根据第一训练样本对初始画像模型进行训练得到的;所述第一训练样本包括多个训练特征域对应的第一训练离散用户特征集合及训练标签集合;
获取第二训练样本;所述第二训练样本包括第二训练离散用户特征集合和所述目标特征域的训练标签,所述第二训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;
根据所述第二训练样本对所述预训练画像模型进行调整,得到所述目标特征域对应的目标画像模型。
一种画像模型训练装置,其特征在于,所述装置包括:
模型获取模块,用于获取预训练画像模型;所述预训练画像模型是根据第一训练样本对初始画像模型进行训练得到的;所述第一训练样本包括多个训练特征域对应的第一训练离散用户特征集合及训练标签集合;
样本获取模块,用于获取第二训练样本;所述第二训练样本包括第二训练离散用户特征集合和所述目标特征域的训练标签,所述第二训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;
模型调整模块,用于根据所述第二训练样本对所述预训练画像模型进行调整,得到所述目标特征域对应的目标画像模型。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述画像模型训练方法所述的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述画像模型训练方法所述的步骤。
上述画像模型训练方法、装置、计算机可读存储介质和计算机设备,由于目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的,第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征,而预训练画像模型则是根据第二训练样本对初始画像模型进行训练得到的,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合,因此目标画像模型能够充分地学习到多个特征域之间的特征关联性以及其他特征域的离散用户特征与目标特征域用户画像之间的映射关系,通过该目标画像模型得到用户画像时,由于可以考虑到特征域之间的关联性,因此相较于传统技术,能够得到更加准确的用户画像。
附图说明
图1为一个实施例中画像数据处理方法的应用环境图;
图2为一个实施例中画像数据处理方法的流程示意图;
图3为一个实施例中对离散特征向量进行融合的步骤示意图;
图4为一个实施例中目标画像模型的结构示意图;
图5为一个实施例中基于注意力机制对一个特征域下的离散特征向量进行融合的原理图;
图6为一个实施例中对域间特征向量中的子特征进行特征交叉处理的原理图;
图6A为一个实施例中对域间特征向量进行线性变换的原理图;
图7为一个实施例中画像数据处理装置的结构框图;
图8为一个实施例中画像模型训练方法的流程示意图;
图9为一个实施例中目标画像模型训练过程的示意图
图10为一个实施例中画像模型训练装置的结构框图;
图11为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中画像数据处理方法的应用环境图。参照图1,该画像数据处理方法应用于画像数据处理系统。该画像数据处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110和服务器120均可单独用于执行本申请实施例中提供的画像数据处理方法。终端110和服务器120也可协同用于执行本申请实施例中提供的画像数据处理方法。
如图2所示,在一个实施例中,提供了一种画像数据处理方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备可以是上述图1中的终端110或服务器120。参照图2,该画像数据处理方法具体包括如下步骤:
S202,获取目标用户对应的历史离散用户特征集合;历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征。
其中,目标用户指的是需要生成用户画像的用户。离散用户特征指的是根据用户的离散用户数据确定的用户特征。离散用户数据是指用户对应的离散的业务数据,包括用户的基础信息,比如性别、年龄、职业等,以及用户的离散行为数据,离散行为数据也就是用户的离散行为下所产生的行为数据,例如,用户点击了A视频、用户购买了B物品。
目标特征域指的是目标用户所需要生成的用户画像所对应的特征域。例如,需要对用户A生成视频领域的用户画像,则视频领域为目标特征域。非目标特征域指的是目标特征域以外的其他特征域。
历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征。可以理解的是,历史离散用户特征集合中可以包括目标特征域对应的历史离散用户特征,也可以不包括目标特征域对应的历史离散用户特征,当历史离散用户特征集合不包括目标特征域对应的历史离散用户特征时,该目标用户为冷启动用户。其中,历史离散用户特征指的是当前时间之前的离散用户特征;特征域是指不同属性的用户数据所属的领域。比如年龄领域、性别领域、视频领域或者图文领域等。可以理解的是,在一个特征域下,与目标用户对应的离散用户数据的数量可以是一个也可以多于一个。比如,在性别领域下,与目标用户对应的离散用户特征的数量为一个,即要么为男、要么为女。而在视频领域下,与目标用户对应的离散用户数据的数量则可以多于一个,如,A观看了《XXX》电视剧和A观看了《XX》电影等。
在一个实施例中,特征域的划分可根据实际需要自定义划分。在一种特征域划分方式下划分得到的多个的特征域,可以是另一种特征域划分方式下划分得到的一个特征域。比如,在A方式下划分得到年龄领域、性别领域和地域领域,在B方式下划分得到基础信息领域。那么,可以认为年龄领域、性别领域和地域领域可以是基础信息领域的子领域。在一种特征域划分方式下划分得到的一个特征域,也可以是另一种特征域划分方式下划分得到的多个的特征域。比如,在A方式下划分得到视频领域,在B方式下划分得到电影视频领域和电视剧视频领域。
在一个实施例中,在确定了目标用户后,计算机设备可以在网络上爬取至少一个非目标特征域下分别与目标用户对应的历史离散用户数据,根据目标用户对应的历史离散用户数据确定目标用户对应的历史离散用户特征。
举例说明,假设终端上运行有视频应用程序,该视频应用程序所对应的服务器在获取到终端当前登录视频应用程序所通过的用户标识后,即将该用户标识对应的用户确定作为目标用户,继而在网络上爬取至少一个非目标特征域下分别与目标用户标识对应的离散用户数据作为该目标用户对应的历史离散用户数据。
在另外的实施例中,计算机设备也可以获取其他计算机设备传输的用户标识,以及至少一个非目标特征域下分别与该用户标识对应的离散用户数据,从而将该用户标识对应的用户作为目标用户,并获得了多个特征域下分别与该目标用户对应的离散用户数据。
在一个实施例中,计算机设备在根据用户的离散用户数据确定用户的离散用户特征时,可以将所有的离散用户数据直接确定为离散用户特征。
在另一个实施例中,计算机设备可根据离散用户数据得到对应的用户标签,根据这些用户标签确定用户的离散用户特征。具体来说,计算机设备一方面可以根据用户的基础信息得到用户标签,例如根据性别、年龄,分别得到性别标签、年龄标签;另一方面,计算机设备可将用户的离散行为数据中各离散行为数据对应的标签作为用户标签,离散行为数据对应的标签指的是该离散行为所作用的对象对应的标签,其中,离散行为所作用的对象对应的标签通常是根据该对象的内容特征得到的,例如,用户A点击了某一条新闻,该条新闻对应标签“娱乐”,则将“娱乐”作为用户A的用户标签;又如,用户B购买了某物品,该物品对应标签“母婴”,则将“母婴”作为用户B的用户标签。
在根据用户标签确定用户的离散用户特征时,计算机设备可以将全部的用户标签确定为用户的离散用户特征,或者,计算机设备可以计算各个用户标签的权重,根据用户标签的权重选取一定数据的用户标签作为该用户的离散用户特征。例如,可以设置一个权重阈值,小于该权重阈值的用户标签对用户的代表意义不大,因此,可以舍弃掉权重小于该权重阈值的用户标签,将权重超过该权重阈值的用户标签作为该用户的离散用户特征。
S204,获取目标特征域对应的目标画像模型;目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征;预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合。
其中,目标画像模型指的是可用于生成目标特征域对应的用户画像的机器学习模型。这里的机器学习模型是通过对样本进行机器学习具备某种能力的数学模型。机器学习英文全称为Machine Learning,简称ML。机器学习模型可采用神经网络模型、支持向量机、逻辑回归模型、随机森林模型或者梯度提升树模型等。机器学习的学习方式可以是监督学习、非监督学习或者强化学习等。目标画像模型可以是计算机设备训练并存储在本地的,也可以是计算机设备通过网络从其他计算机设备获取到的。
目标画像模型具体可以通过以下方式确定:首先根据第二训练样本对初始画像模型进行训练得到预训练画像模型,然后根据第一训练样本对得到的预训练画像模型进行调整,得到目标特征域对应的目标画像模型。
其中,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合。第二训练样本是根据任意一个特征域下的用户的所有历史离散用户数据得到的。这里任意一个特征域可以是目标特征域,也可以是其他特征域。用户的所有历史离散用户数据包括用户在任意一个特征域下的历史离散用户数据,可以理解的是,对于有些用户,可能只会在某几个特征域下有历史离散用户数据,而在其他的特征域下并未有历史离散用户数据。第二训练样本对应的用户的所有离散用户数据所涉及的特征域,即为训练特征域。例如,总共有A、B、C、D、E、F五个特征域,第二训练样本对应的用户张三为A特征域下的用户,该用户张三的所有历史离散用户数据包括A、B、C这三个特征域对应的历史离散用户数据,此时,将A、B、C这三个特征域称为训练特征域。
根据第二训练样本对应的用户在其对应的每一个特征域下的历史离散用户数据可以得到对应的历史离散用户特征,这些历史离散用户特征即为第二训练离散用户特征,多个训练特征域对应的第二训练离散用户特征即组成第二训练离散用户特征集合。每一个训练特征域对应的训练离散用户特征都会存在对应的训练标签,这些训练标签组成训练标签集合。
由于第二训练样本是根据任意一个特征域下的用户的所有历史离散用户数据得到的,当分别获取到每一个特征域下的大部分用户甚至所有用户的所有历史离散用户数据来构建第二训练样本时,对初始画像模型进行训练得到的预训练画像模型能够充分地学习到每一个特征域对应的用户特征,因此可以很好地学习到多个特征域之间用户特征的关联。
第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征。第一训练样本是根据目标特征域下的用户的所有历史离散用户数据得到的。这里的用户的所有历史离散用户数据同样包括用户在任意一个特征域下的历史离散用户数据。根据第一训练样本对应的用户在其对应的每一个特征域下的历史离散用户数据可以得到对应的历史离散用户特征,这些历史离散用户特征即为第一训练离散用户特征,多个特征域对应的第一训练离散用户特征即组成第一训练离散用户特征集合。而由于第一训练样本是根据目标特征域下的用户的所有历史离散用户数据得到的,第一训练样本对应的用户在目标特征域下必然存在历史离散用户数据,也就是说,第一训练离散用户特征集合必然包括目标特征域对应的历史离散用户特征。第一训练样本对应的训练标签为用户在目标特征域下的用户标签。
由于第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,因此,根据第一训练样本对预训练画像模型进行调整得到的目标画像模型能够学习到多个特征域的用户特征与目标特征域用户画像之间的映射关系。
S206,将历史离散用户特征集合输入目标画像模型,得到目标用户对应于目标特征域的用户画像。
具体地,计算机设备可以将目标用户的历史离散用户特征集合输入到目标画像模型中,根据目标画像模型可以得到目标用户对应于目标特征域的用户标签,这些用户标签即为目标用户的用户画像。
在一个实施例中,对于每一个特征域,预先设置了对应的候选用户标签集合,计算机设备在历史离散用户特征集合输入到目标画像模型后,经过目标画像模型处理后,会得到目标用户对应的目标特征向量,计算机设备可以根据该目标特征向量从目标特征域对应的候选用户标签集合中进行筛选得到目标用户对应的用户标签。在进行筛选时,计算机设备可通过计算目标特征向量与各候选用户标签的差异度或者相似度,从而从候选用户标签中筛选出与目标特征向量相似度或者差异度满足匹配条件的候选用户标签,作为与目标用户标识对应的目标用户标签。例如,可以是筛选出与目标特征向量相似度高或者差异度小的用户标签。
上述画像数据处理方法,由于目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的,第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征,而预训练画像模型则是根据第二训练样本对初始画像模型进行训练得到的,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合,因此目标画像模型能够充分地学习到多个特征域之间的特征关联性以及其他特征域的离散用户特征与目标特征域用户画像之间的映射关系,当将目标用户对应的历史离散用户特征集合输入到目标画像模型时,最终得到的用户画像考虑了其他特征域与目标特征域之间的特征关联性,因此相较于传统技术得到的用户画像,本申请得到的用户画像更加准确。
进一步,本申请的用户画像模型由于学习到了其他特征域与目标特征域用户画像之间的映射关系,即使在目标用户为冷启动用户的场景也能够得到目标用户对应于目标特征域的用户画像,弥补了传统技术得到的用户画像模型无法对冷启动用户生成用户画像的缺陷。
在一个实施例中,第一训练样本的确定步骤包括:获取第一时间段对应的第一训练离散业务数据集合及第二时间段对应于目标特征域的第二训练离散业务数据集合;第二时间段为第一时间段之后的时间段;第一训练离散业务数据集合包括目标特征域对应的历史离散业务数据;根据第一训练离散业务数据集合确定第一训练离散用户特征集合;根据第二训练离散业务数据集合确定目标特征域的训练标签。
其中,第一训练离散业务数据集合指的是目标特征域下的用户在第一时间段内的所有历史离散用户数据组成的集合,而第二训练离散业务数据集合指的是该用户在第二时间段内在目标特征域下的所有历史离散用户数据组成的集合。可以理解的是,第一训练离散业务数据集合中必然会包括目标特征域对应的历史离散业务数据。
举个例子,目标特征域下的用户李四在特征域A、B、C、D都有离散用户数据,其中特征域A为目标特征域,则李四在第一时间段内在特征域A、B、C、D下的所有历史离散用户数据组成第一训练离散业务数据集合,李四在第二时间段内在特征域A下的所有历史离散用户数据组组成第二训练离散业务数据集合。
第二时间段为第一时间段之后的时间段,也就是说第二时间段的时间晚于第一时间段的时间。第一时间段和第二时间段的具体时间长度可根据需要进行设定。比如,当获取到用户四天内的离散业务数据时,可以将前三天视为第一时间段,将四天视为第二时间段。
计算机设备在获取到第一训练离散业务数据集合后,可以根据第一训练离散业务数据集合确定第一训练离散用户特征集合。在一个实施例中,计算机设备可以直接将第一训练离散业务数据集合中的离散业务数据确定为离散用户特征,得到第一训练离散用户特征集合。在另一个实施例中,计算机设备可根据第一训练离散业务数据集合中的离散业务数据得到对应的用户标签,根据这些用户标签得到第一训练离散用户特征集合。
对于获取到的第二训练离散业务数据集合,计算机设备可以根据该第二训练离散业务数据集合得到对应的用户标签,根据这些用户标签得到目标特征域的训练标签。在一个实施例中,计算机设备可以计算这些用户标签的权重,根据权重从这些用户标签中最终确定目标特征域的训练标签。例如,可以选取权重较大的用户标签作为训练标签。
本实施例中,第一训练样本中的第一训练离散用户特征集合是根据第一时间段对应的第一训练离散业务数据集合,而第一训练样本中的目标特征域的训练标签第二时间段对应于目标特征域的第二训练离散业务数据集合得到的,这样,由于第二时间段为第一时间段之后的时间段,因此,通过这种方式确定的第一训练样本在对预训练画像模型进行调整相当于是训练了画像模型通过多特征域的历史离散业务数据预测未来目标特征域的用户画像的能力,使得得到的画像模型能够很好地学习多特征域的离散业务数据与目标特征域的用户画像之间的映射关系。
在一个实施例中,预训练画像模型的调整步骤包括:获取预设的第一保留概率及第二保留概率;根据第一训练样本对预训练画像模型进行调整,并且以第一保留概率保留第一训练离散用户特征集合中目标特征域对应的历史离散用户特征,以第二保留概率保留第一训练离散用户特征集合中其他特征域对应的历史离散用户特征。
具体地,计算机设备在根据第一训练样本对预训练画像模型进行调整时,以第一保留概率保留第一训练离散用户特征集合中目标特征域对应的历史离散用户特征,也就是以(1-第一保留概率)的丢弃概率进行丢弃操作(dropout),丢弃第一训练离散用户特征集合中目标特征域对应的历史离散用户特征。当将目标特征域对应的历史离散用户特征丢弃后,第一训练离散用户特征集合中只剩下了其他特征域对应的历史离散用户特征,因此,通过这种方式可以拟合冷启动用户的训练样本,学习当目标特征域的特征缺失时,其他特征域的特征如何映射到目标特征域的用户画像,降低用户画像模型对目标特征域的依赖。
计算机设备在根据第一训练样本对预训练画像模型进行调整时,以第二保留概率保留第一训练离散用户特征集合中其他特征域对应的历史离散用户特征,也就是以(1-第二保留概率)的丢弃概率丢弃第一训练离散用户特征集合中其他特征域对应的历史离散用户特征,在对其他特征域对应的历史离散用户特征进行丢弃时,可以选择其他特征域中的一个或者多个特征域的特征进行丢弃,通过这种方式可以拟合其他特征域的冷启动用户,增加鲁棒性。
其中,第一保留概率和第二保留概率的大小可以根据需要进行设定,通常情况下,第一保留概率小于第二保留概率。可以理解的是,在对第一保留概率和第二保留概率进行设定时,也可以设定其对应的丢弃概率。
在一个具体的实施例中,可以设定以80%的丢弃概率丢弃第一训练离散用户特征集合中目标特征域对应的历史离散用户特征,以20%的丢弃概率丢弃第一训练离散用户特征集合中其他特征域对应的历史离散用户特征。举例说明,假设对对预训练画像模型调整了1000次,其中有800次对第一训练离散用户特征集合中目标特征域对应的历史离散用户特征进行丢弃,有200次对其他特征域对应的历史离散用户特征进行丢弃。
在一个实施例中,第二训练样本的确定步骤包括:分别获取各训练特征域对应的训练行为数据集合;获取各训练行为数据集合中各训练行为数据对应的标签,得到各训练特征域对应的第一标签集合;根据各第一标签集合中各标签对应的训练行为数据所对应的行为次数及时间衰减系数,确定各第一标签集合中各标签的权重;根据各第一标签集合中各标签的权重确定第二训练样本对应的候选标签集合;从候选标签集合中选取预设数量的候选标签作为第二训练样本对应的目标训练标签,根据目标训练标签得到第二训练样本对应的训练标签集合;将候选标签集合中剩下的标签组成第二训练样本对应的第二训练离散用户特征集合。
其中,训练特征域对应的训练行为数据集合指的是第二训练样本对应的用户在该训练特征域下的所有历史离散行为数据组成的集合。训练行为数据对应的标签指的是训练行为数据所作用的对象对应的标签。
具体地,计算机设备分别获取各训练行为数据集合中各训练行为数据对应的标签后,分别组成各训练特征域对应的第一标签集合。第一标签集合中各标签可能对应多个训练行为数据,而随着时间的过去,训练行为数据和当前的相关性不断减弱,因此计算机设备可进一步获取各标签对应的所有训练行为数据的行为次数及时间衰减系数,分别累加各标签对应的各训练行为数据的行为次数与时间衰减系数的乘积,得到各标签的权重。举个例子,标签A对应三个训练行为数据,分别为收藏某商品、浏览某商品、搜索某商品,这三个训练行为数据对应的行为次数分别为1、3、2,则标签A的权重为:1*时间衰减系数1+3*时间衰减系数2+2*时间衰减系数3,其中,时间衰减系数用于表征该训练行为数据和当前的相关性随时间衰减的程度,通常根据时间衰减因子与行为数据的时间间隔计算得到。
在一个实施例中,可以将该训练行为数据和当前的相关性的衰减规律视为指数衰减,则时间衰减系数为:exp(-时间衰减常数×间隔的时间),例如,上述收藏某商品的行为为三天前的行为,则该时间衰减系数1=exp(-时间衰减常数×3)。
在一个实施例中,考虑到不同类型的训练行为数据对用户而言有着不同的重要性,因此,在确定各标签的权重时,计算机设备可进一步获取各标签对应的所有行为数据所对应的行为类型权重,分别累加各标签对应的各训练行为数据的行为次数、时间衰减系数与行为类型权重的积,得到各标签的权重。如上述标签A的权重可确定为:1*时间衰减系数1*收藏行为对应的行为类型权重+3*时间衰减系数2*浏览行为对应的行为类型权重+2*时间衰减系数3*搜索行为对应的行为类型权重。
在确定了各第一标签集合中各标签的权重后,对于各第一标签集合,计算机设备可以根据权重对其中的标签进行排序,分别从各第一标签集合中选取预设数量权重较大的标签作为候选标签,将所有的候选标签组成候选标签集合,然后从候选标签集合中随机选取预设数量的候选标签作为第二训练样本对应的目标训练标签,根据这些目标训练标签得到第二训练样本对应的训练标签集合。而对于候选标签集合中剩下的标签,也就是目标训练标签之外的标签,则可作为离散用户特征,这些离散用户特征组成的集合即为第二训练离散用户特征集合。
在一个实施例中,根据目标训练标签得到第二训练样本对应的训练标签集合包括:将目标训练标签确定为第二训练样本对应的正训练标签;获取负训练标签;负训练标签为第一训练标签和第二训练标签中的至少一种;第一训练标签为其他训练样本对应的正训练标签;第二训练标签为预设的标签词典中的标签;将正训练标签和负训练标签组成第二训练样本对应的训练标签集合。
由于目标训练标签是根据用户真实的行为数据得到的,为用户的真实的标签,因此,可以将这一部分标签确定为正训练标签,而为了保证训练效果,计算机设备在确定了正训练标签后,还需要进一步确定负训练标签,将负训练标签和正训练标签共同组成训练标签集合。其中,负训练标签可以为第一训练标签和第二训练标签中的至少一种。
第一训练标签为其他训练样本对应的正训练标签,这里的其他训练样本指的是其他用户的训练样本。例如,当前第二训练样本为用户A对应的训练样本,则可以从用户A之外的已经确定第二训练样本的用户中选取一个用户的第二训练样本,获取该第二训练样本中的正训练标签作为用户A的负训练标签。
第二训练标签可以是预设的标签词典中的标签,标签词典也就是不同的标签所组成的集合。本实施例中,可以预先设置一个标签词典,在确定某个用户对应的第二训练样本的训练标签集合时,可以从该标签词典随机采样一部分标签,作为第二训练样本对应的负训练标签。可以理解的是,在从标签词典进行采样时,需要过滤掉与该用户的第二训练样本对应的正训练标签相同的标签。
本实施例中,由于补充了负训练标签,可以保证在用户行为数据较少时,得到的第二训练样本仍然能够有足够的准确率,保证训练效果。
在一个实施例中,将历史离散用户特征集合输入目标画像模型,得到目标用户对应于目标特征域的用户画像包括:将历史离散用户特征集合输入目标画像模型的输入层,通过输入层向量化历史离散用户特征集合,得到各特征域对应的离散特征向量;通过目标画像模型的融合层融合各特征域对应的离散特征向量,得到目标用户对应的目标特征向量;通过目标画像模型从目标特征域对应的候选用户标签集合中筛选出与目标特征向量对应的用户标签,得到用户画像。
具体地,计算机设备在获取到历史离散用户特征集合后,可将这些离散用户特征直接输入目标画像模型。目标画像模型的输入层则将每个离散用户特征分别映射为对应的离散特征向量。比如,目标画像模型的输入层将离散用户特征“女”映射为“[0 2 0 1 0 3 00 0 0...]”,将离散用户特征“21岁”映射为“[1 2 0 1 0 4 0 0 0 0...]”,将离散用户特征“北京朝阳区”映射为“[1 0 2 0 0 0 0 4 0...]”等。
在一个具体的实施例中,目标画像模型的输入层可将每个目标画像模型分别映射为对应的、固定长度的离散特征向量。该固定长度可以认为是离散特征向量的维度。这样将离散特征向量均统一到同一个维度便于后续的融合处理。可以理解,由于不同的特征域下离散用户特征的数量各不相同,部分特征域下的离散用户特征的数量级为百万级别,而部分特征域下的离散用户特征的数量仅为十级别;那么,需将离散特征向量的维度设置的尽可能大,以保留足够多的信息。离散特征向量的维度具体比如128或者256等。
通过目标画像模型的输入层向量化后,会得到历史离散用户特征集合所涉及的各特征域对应的离散特征向量。可以理解的是,对于一个特征域,通常会有多个离散用户特征,因此各特征域对应的离散特征向量也会有多个。
计算机设备进一步会通过目标画像模型的融合层融合各特征域对应的离散特征向量,融合的目的就是为了减少离散特征向量的数量,得到一个目标特征向量,该目标特征向量由于融合了所有离散特征向量的特征,因此,能够精准地对用户特征进行表达,根据该目标特征向量,计算机设备可以通过目标画像模型从目标特征域对应的候选用户标签集合中筛选出与目标用户对应的用户标签,从而得到该用户的用户画像。
在一个实施例中,目标画像模型可设置预测层,计算机设备在通过目标画像模型得到目标用户的目标特征向量后,可以将该目标特征向量和候选用户标签的用户标签向量输入目标画像模型的预测层,通过该预测层输出目标特征向量与各候选用户标签所对应标签向量的相关评分。计算机设备可再按照相关评分对对应的候选用户标签进行排序。与目标特征向量的相关评分高的标签向量所对应的候选用户标签排序靠前,与目标特征向量的相关评分低的标签向量所对应的候选用户标签排序靠后。这样计算机设备即可从排序的首个候选用户标签起,选取预设数量的候选用户标签作为与目标用户对应的用户标签。其中,用户标签向量通过对候选用户标签向量化得到。通过目标画像模型的预测层来对用户的标签分类进行评分,能够利用目标画像模型的强大的学习能力提高评分的准确率。
可以理解的是,从机器学习网络层所实现的功能的层面来说,目标画像模型的预测层可以看作是一个多用户标签分类器。目标特征向量与各候选用户标签所对应标签向量的相关评分,可以看作是目标特征向量被分类至各候选用户标签的概率。
在一个实施例中,融合层包括域内融合层、域间融合层、特征交叉层和全连接层;如图3所示,通过目标画像模型的融合层融合各特征域对应的离散特征向量,得到目标用户对应的目标特征向量包括:
S302,通过域内融合层融合各特征域对应的离散特征向量得到各特征域对应的域内特征向量。
其中,一个特征域对应的域内特征向量,是指融合了该特征域内的所有离散特征向量后得到的反映用户在该特征域内特性的向量。融合是指通过一个数据表示多于一个数据,并包含这多于一个数据表达的信息。融合具体可以是组合、拼接或者按权重加和等。
可以理解,一个特征域下的离散特征向量的数量通常有多个,数据量大且离散,计算机设备基于这样的数据进行用户画像生成时运算复杂,而且不一定能够得到较为准确的用户画像。本实施例中,对于历史离散用户特征集合对应的每一个特征域,基于该特征域下的所有离散特征向量,通过目标画像模型的域内融合层融合生成一个域内特征向量,通过该域内特征向量来表征目标用户在该特征域内特性,既可以抽象出用户特性,又可以去除数据的离散性,便于后续的用户画像生成过程。
举例说明,假设目标用户1在视频领域下的离散特征向量包括X1、X2、X3、X4。那么,可将X1、X2、X3和X4拼接得到视频领域下与目标用户1对应的域内特征向量X1+X2+X3+X4,也可将X1、X2、X3和X4求平均得到视频领域下与目标用户1对应的域内特征向量(X1+X2+X3+X4)/4等。
S304,通过域间融合层融合各域内特征向量,得到与目标用户对应的域间特征向量。
其中,域间特征向量是指融合了多个特征域对应的域内特征向量后得到的、既能反映用户各特征域内特性、又能反映用户在这些特征域之间的特性的向量。
本实施例中,历史离散用户特征集合中包括多个特征域对应的历史离散用户特征,也就是说目标用户对应多个特征域,即使每个特征域对应一个域内特征向量,这些域内特征向量的数据量也较大且离散,计算机设备基于这样的数据进行用户画像生成时运算复杂,而且不一定能够得到较为准确的用户画像。在本实施例中,计算机设备通过域间融合层将多个特征域的域内特征向量融合生成一个域间特征向量,既可以抽象出用户特性,又可以去除数据的离散性,便于后续的用户画像生成过程。
举例说明,假设目标用户1在四个特征域各自对应的域内特征向量为Y1、Y2、Y3、Y4,那么,可将Y1、Y2、Y3和Y4拼接得到与目标用户1对应的域间特征向量Y1+Y2+Y3+Y4,也可将Y1、Y2、Y3和Y4求平均得到与目标用户1对应的域间特征向量(Y1+Y2+Y3+Y4)/4等。
S306,通过特征交叉层,对域间特征向量中的子特征进行特征交叉处理,得到交叉特征向量。
其中,域间特征向量的每个向量元素即为域间特征向量的一个子特征,域间特征向量可以包括多个子特征。交叉特征向量则是指对域间特征向量中的子特征进行融合后得到的,反映各子特征间相关性的向量。
具体地,计算机设备可以对域间特征向量中任意的两个或两个以上的子特征进行交叉处理,经过交叉处理后便可得到多个可以表示子特征之间相关性的交叉子特征,然后将这些交叉子特征融合,即可得到与目标用户对应的交叉特征向量。
S208,通过全连接层融合域间特征向量和交叉特征向量,得到目标用户对应的目标特征向量。
本实施例中,先根据各特征域对应的离散特征向量得到各特征域对应的域内特征向量,然后融合各域内特征向量得到域间特征向量,再对域间特征向量中的子特征进行特征交叉处理获得交叉特征向量,便可以得到融合了所有离散用户特征的域间特征向量,和融合了域间特征中的子特征的交叉特征,从而得到融合了域间特征和交叉特征的目标特征,便可以更加精准地对用户特性进行表达。
在一个实施例中,通过域内融合层融合各特征域对应的离散特征向量得到各特征域对应的域内特征向量包括:在域内融合层中,分别获取各特征域对应的各离散特征向量各自对应的注意力分配权重;通过域内融合层,将各特征域对应的各离散特征向量按照各自对应的注意力分配权重进行线性融合,得到各特征域对应的域内特征向量。
一个特征域内可以有数量较多的离散用户特征,这些离散用户特征对用户特性体现的重要程度各不相同。比如,某用户在视频领域中有上万条体育视频的浏览记录,但仅有几条娱乐视频的浏览记录。那么,该用户在体育方面的兴趣明显高于娱乐方面的兴趣,在用户特性体现上体育比娱乐要重要。由此可见,在对一个特征域内的各离散用户数据对应的离散特征向量进行融合时,需要将对用户特性体现重要的离散特征向量体现出来,以得到更能表征用户特性的域内特征向量。在本实施例中,可以通过注意力机制(Attention)对不同的离散特征向量分配不同的注意力分配权重,通过注意力分配权重来体现离散特征向量的重要程度,从而凸显出对用户特性体现重要的离散特征向量。
在一个具体的实施例中,离散特征向量对应的注意力分配权重的计算公式如下式(1)所示:
Figure BDA0002353237300000181
其中,
Figure BDA0002353237300000182
Figure BDA0002353237300000183
均为离散特征向量。αi
Figure BDA0002353237300000184
的注意力分配权重。空间变化矩阵Wt、偏置
Figure BDA0002353237300000185
和域内注意力向量
Figure BDA0002353237300000186
为域内融合层的模型参数,经过模型训练学习得到。非线性函数relu为域内融合层中的激活函数。
Figure BDA0002353237300000191
经过空间变化矩阵Wt、偏置
Figure BDA0002353237300000192
和非线性函数relu可变换到注意力空间;然后与域内注意力向量
Figure BDA0002353237300000193
相乘,即能得到
Figure BDA0002353237300000194
在注意力空间、且在特征域内的注意力分配信息;再经过softmax进行权重计算,即可得到
Figure BDA0002353237300000195
在注意力空间、且在特征域内的注意力分配权重。H为特征域内离散特征向量的数量。
特征域k对应的域内特征向量即可通过如下公式(2)得到:
Figure BDA0002353237300000196
在一个具体的实施例中,计算机设备可以将各离散用户数据对应的离散特征向量统一到相同的维度,则得到的各特征域的域内特征向量的维度也相同、且与离散特征向量的维度相同。
上述实施例中,在对特性域内的离散特征向量进行融合时,采用注意力机制融合的方式,为不同的离散特征向量分配不同的融合权重,这样可以从大量的离散特征向量中有选择地选取更重要的信息作为辅助,更充分地对用户特性进行表示,大大提高了得到的域内特征向量的准确性和有效性。
在一个实施例中,通过域间融合层融合各域内特征向量,得到与目标用户对应的域间特征向量包括:在域间融合层中,分别获取各域内特征向量各自对应的注意力分配权重;通过域间融合层,将各域内特征向量按照各自对应的注意力分配权重进行线性融合,得到与目标用户对应的域间特征向量。
本实施例中,由于目标用户在多个特征域存在历史离散用户特征,这些不同特征域的历史离散用户特征对用户特性体现的重要程度各不相同。比如,某用户在图文领域中有上万条浏览记录,但在图文领域仅有几条浏览记录。那么,该用户在图文领域的兴趣明显高于视频领域的兴趣,在用户特性体现上图文领域比视频领域要重要。由此可见,在对多特征域各自对应的域内特征向量进行融合时,需要将对用户特性体现重要的特征域体现出来,以得到更能表征用户特性的域间特征向量。在本实施例中,可以通过注意力机制对不同的域内特征向量分配不同的注意力分配权重,通过注意力分配权重来体现特征域的重要程度,从而凸显出对用户特性体现重要的特征域。
在一个具体的实施例中,域内特征向量对应的注意力分配权重的计算公式如下式(3)所示:
Figure BDA0002353237300000201
其中,
Figure BDA0002353237300000202
Figure BDA0002353237300000203
均为域内特征向量。βk
Figure BDA0002353237300000204
的注意力分配权重。空间变化矩阵Wf、偏置
Figure BDA0002353237300000205
和域间注意力向量
Figure BDA0002353237300000206
为域间融合层的模型参数,经过模型训练学习得到。非线性函数relu为域间融合层中的激活函数。
Figure BDA0002353237300000207
经过空间变化矩阵Wf、偏置
Figure BDA0002353237300000208
和非线性函数relu可变换到注意力空间;然后与域间注意力向量
Figure BDA0002353237300000209
相乘,即能得到
Figure BDA00023532373000002010
在注意力空间、且在特征域间的注意力分配信息;再经过softmax进行权重计算,即可得到
Figure BDA00023532373000002011
在注意力空间、且在特征域间的注意力分配权重。M为域内特征向量的数量,也就是特征域的数量。
域间特征向量即可通过下式(4)得到:
Figure BDA00023532373000002012
在一个具体的实施例中,计算机设备可以将各离散用户特征对应的离散特征向量统一到相同的维度,得到的各特征域的域内特征向量的维度也相同、且与离散特征向量的维度相同。那么,对域内特征向量融合得到的域间特征向量的维度也与离散特征向量的维度相同。
上述实施例中,在对各特性域对应的域内特征向量进行融合时,采用注意力机制融合的方式,为不同的域内特征向量分配不同的融合权重,这样可以从大量的域内特征向量中有选择地选取更重要的信息作为辅助,更充分地对用户特性进行表示,大大提高了得到的域间特征向量的准确性和有效性。
在一个实施例中,通过特征交叉层,对域间特征向量中的子特征进行特征交叉处理,得到交叉特征向量包括:通过特征交叉层,将域间特征向量中的子特征分别映射为预设维度的隐层空间向量;对于域间特征向量中任意的两个子特征,将两个子特征以及两个子特征所映射得到的隐层空间向量的乘积,作为两个子特征的二阶交叉特征向量;组合各二阶交叉特征向量,得到交叉特征向量。
经过前述实施例,计算机设备已通过目标画像模型将获取的大量的目标用户的离散用户特征映射为一个域间特征向量。该域间特征向量经过基于注意力机制的域内融合和域间融合,在一定程度上能够比较好地对用户特性进行表达。但是,对于特征域间的用户特征的相关性缺少表达,那么可以通对域间特征进行交叉处理,得到能够表达域间用户特征之间相关性的交叉特征。
具体地,计算机设备在利用目标画像模型将离散用户数据映射为离散特征向量时,离散特征向量为了更多地保留信息,通常将离散特征向量的维度设置的较大,而基于离散特征向量经过域内融合和域间融合后得到的域间特征向量的维度也较大,因此域间特征向量的特征表达是较稀疏的,不便于运算。本实施例中计算机设备可以将这些子特征映射到另一空间,在这一空间里,这些子特征所映射得到的结果可以是稠密的,这一空间可以称为隐层向量空间,这些子特征所映射得到的结果可以是隐层空间向量。
进一步,计算机设备通过目标画像模型的特征交叉层计算两个子特征之间的相关性时,可以使用一个隐层空间向量作为子特征的表示,再通过隐层特征向量之间的运算来得到子特征之间的交叉子特征。
举例说明,假设本申请中目标画像模型的域间融合层所输出的域间特征向量为
Figure BDA0002353237300000211
对于
Figure BDA0002353237300000212
中的任意两个子特征Xi和Xj之间的相关性,目标画像模型的特征交叉层可以将子特征Xi映射为隐层空间向量Vi作为表达,将子特征Xj映射为隐层空间向量Vj作为表达,再通过计算(Vi·Vj)*Xi*Xj,得到子特征Xi和Xj之间的二阶交叉特征向量
Figure BDA0002353237300000213
基于此,目标画像模型的特征交叉层可以组合各二阶交叉特征向量,得到交叉特征向量如下式(5)所示:
Figure BDA0002353237300000214
其中,假设域间特征向量
Figure BDA0002353237300000215
的维度为N,那么交叉特征向量的维度则为N*(N-1)/2。
上述实施例中,通过对域间特征向量中的子特征进行交叉处理,可以避免因人工难以手动设计交叉特征的问题,从而即便是在特征分布复杂的场景下,也可以很容易地对特征进行拟合,得到二阶交叉特征,以便通过二阶交叉特征来实现不同特征域间用户特性相关性的表达,提高最终表征用户特性的目标特征向量的准确性。
在一个实施例中,全连接层包括第一全连接层和第二全连接层;通过全连接层融合域间特征向量和交叉特征向量,得到目标特征向量包括:通过第一全连接层,将交叉特征向量的维度调整至与域间特征向量的维度一致后,与域间特征向量拼接得到中间特征向量;通过第二全连接层,将中间特征向量映射为目标特征向量。
通常情况下,全连接层的每一个结点都与上一层的所有结点相连,用来把前序层提取到的特征综合起来。在实施例中,目标画像模型的特征交叉层在对域间特征向量进行特征交叉处理得到交叉特征向量后,将其输出至目标画像模型的第一全连接层(Fullyconnected layers,FC)。目标画像模型的特征交叉层还可对域间特征向量进行线性变化后输出至目标画像模型的第一全连接层。由于域间特征向量反映了用户在域内和域间的特征,交叉特征向量则反映了用户域间特征向量各子特征之间的相关性,都是前序层提取到的能够体现用户特性的特征,因此第一全连接层则可将这些特征综合起来协同表征用户特性。
具体地,根据前述实施例可知道,对域间特征向量进行特征交叉处理得到的交叉特征向量与域间特征向量的维度不同。那么,目标画像模型的第一全连接层可以先将交叉特征向量的维度调整至与域间特征向量的维度一致后,再与域间特征向量拼接得到中间特征向量,将得到的中间特征向量输出至第二全连接层,第二全连接层则进一步对前序层提取到的特征拼接的中间特征向量进行融合,最终得到能够更充分体现用户特性的目标特征向量。
在一个具体的实施例中,目标画像模型的全连接层可以通过relu非线性激活函数对输入的数据进行处理得到处理结果。
如图4所示,为一个具体的实施例中目标画像模型的结构示意图。参考图4,计算机设备可将目标用户对应的多个特征域对应的离散用户特征直接输入目标画像模型,目标画像模型的输入层(Feature-input layer)将离散用户特征映射为对应的离散特征向量。例如,将任一个特性域(feildi)下的离散用户特征x1、x2、…、xn,分别映射为对应的离散特性向量
Figure BDA0002353237300000231
目标画像模型的输入层输出的离散特征向量被输入至域内融合层(Attention-pooling layer),域内融合层基于注意力机制分别对每个特征域下的离散特征向量进行融合,得到各特征域各自对应的域内特征向量
Figure BDA0002353237300000232
Figure BDA0002353237300000233
输出至下一层。其中,M为目标用户对应的特征域的数量。其中,域内融合层基于注意力机制对一个特征域下的离散特征向量进行融合的原理如图5所示。
参考图5,目标画像模型的域内融合层可通过自身的模型参数,基于注意力机制为各离散特征向量计算出一个注意力分配权重。比如,某一特征域k下的离散特征向量
Figure BDA0002353237300000234
的注意力分配权重为α1、离散特征向量
Figure BDA0002353237300000235
的注意力分配权重为α2…离散特征向量
Figure BDA0002353237300000236
的注意力分配权重为αn。目标画像模型的域内融合层再将该特征域内的离散特征向量按照对应的注意力分配权重进行加权求平均,得到该特征域对应的域内特征向量
Figure BDA0002353237300000237
继续参考图4,目标画像模型的域内融合层输出的域内特征向量被输入至域间融合层(Attention-merge layer),域间融合层基于注意力机制对每个特征域对应的域内特征向量进行融合,得到域间特征向量
Figure BDA0002353237300000238
输出至特征交叉层(Feature-corss layer),特征交叉层对域间特征向量中的子特征进行特征交叉处理,得到交叉特征向量
Figure BDA0002353237300000239
输出至下一层。其中,特征交叉层对域间特征向量中的子特征进行特征交叉处理的原理如图6所示。
参考图6,目标画像模型的特征交叉层可通过自身的模型参数,为将域间特征向量(X1、X2、…、Xn)中的子特征各自映射为一个隐层空间向量:
Figure BDA00023532373000002310
Figure BDA00023532373000002311
那么,对于域间特征向量中的每一个子特征,都可以得到其本身与其映射得到的隐层空间向量的乘积:
Figure BDA00023532373000002312
目标画像模型的特征交叉层则对任意两个乘积进行点乘运算,得到多个交叉子特征
Figure BDA0002353237300000241
Figure BDA0002353237300000242
这样,目标画像模型的特性交叉层即可拼接这些交叉子特征得到交叉特征向量
Figure BDA0002353237300000243
在特征交叉层,还会对域间特征向量进行线性变换(linear transformation),线性变换是线性空间到其自身的线性映射,因此,域间特征向量向量
Figure BDA0002353237300000244
在经过线性变换后仍然为
Figure BDA0002353237300000245
参考图6A,为特征交叉层对域间特征向量进行线性变换的原理图,由图6A可以看出域间特征向量
Figure BDA0002353237300000246
的各个子特征X1、X2、…、Xn,在经过线性变换后仍然为X1、X2、…、Xn。
继续参考图4,目标画像模型的特征交叉层输出的交叉特征向量被输入第一全连接层,且线性变换后得到的域间特征向量也被输入第一全连接层。第一全连接层则将交叉特征向量的维度调整至与域间特征向量的维度一致后,与域间特征向量拼接得到中间特征向量,再输出到第二全连接层。第二全连接层则将中间特征向量映射为目标特征向量
Figure BDA0002353237300000247
目标画像模型的第二全连接层在将中间特征向量映射为目标特征向量后,传递至预测层(Predicting layer)。预测层再接收候选用户标签的标签向量(Tag-embedding:Tag1、Tag2、…、Tagk)作为输入,得到目标特征向量与各标签向量的相关评分(y1、y2、…、yk)。目标画像模型进一步可以根据评分选取预设数量的候选用户标签确定为目标用户对应的用户标签,从而得到目标用户的用户画像。
在一个实施例中,该画像数据处理方法还包括:获取对应于目标特征域的待推荐对象集合;确定待推荐对象集合中各个待推荐对象对应的用户标签;将对应的用户标签与用户画像匹配的待推荐对象,推荐至目标用户对应的终端。
其中,待推荐对象是待向用户推荐的对象。待推荐对象具体可以是推广信息、应用程序、视频、音频、新闻、文章或者商品等。每个待推荐对象存在对应的用户标签。待推荐对象对应的用户标签,可以根据待推荐对象的内容特征得到。待推荐对象对应的用户标签可以反映待推荐对象的内容特性。用户的用户标签可以反映用户的兴趣特性。因此,可以基于用户标签对用户进行内容推荐。当一个待推荐对象对应的用户标签与一个用户的用户标签相匹配时,可以认为该待推荐对象符合该用户的兴趣偏好,因此可以将该待推荐对象推荐给该用户。
具体地,计算机设备可以获取对应于目标特征域的待推荐对象集合,分别确定各待推荐对象各自对应的用户标签,然后分别将各待推荐对象对应的用户标签与目标用户标签进行比较,也就是与目标用户的用户画像对应的用户标签进行比较。当各待推荐对象对应的用户标签与目标用户标签匹配时,则将该待推荐对象推荐至目标用户所对应的终端。由于该用户画像是对应于目标特征域的,因此也就实现了对在目标特征域这一特定领域的个性化推荐。
在一个实施例中,目标用户标签可以多于一个,且存在先后顺序。因此,计算机设备在对待推荐对象进行推荐时,也存在推荐顺序。对应的用户标签与靠前的目标用户标签匹配的待推荐对象的推荐顺序靠前,对应的用户标签与靠后的目标用户标签匹配的待推荐对象的推荐顺序靠后。
举例说明,假设计算机设备通过目标画像模型生成的用户画像包括:用户标签1、用户标签2和用户标签3。计算机设备获取的待推荐对象包括:待推荐对象A、待推荐对象B、待推荐对象C、待推荐对象D和待推荐对象E。其中,待推荐对象A对应用户标签2、待推荐对象B对应用户标签1、待推荐对象C对应用户标签5、待推荐对象D对应用户标签3、待推荐对象E对应用户标签4。那么,待推荐对象A、B和D对应的用户标签与目标用户标签匹配,可以被推荐至目标用户,且推荐顺序为:待推荐对象B→待推荐对象A→待推荐对象D。该推荐顺序也就是推荐对象被展示给目标用户时的展示顺序。
在一个实施例中,该画像数据处理方法还包括:获取对应于目标特征域的待推荐对象集合;确定待推荐对象集合中各个待推荐对象对应的用户标签集合;根据各个待推荐对象对应的用户标签集合确定各个待推荐对象与所述目标用户的匹配度;根据各个待推荐对象对应的匹配度从待推荐对象集合中确定目标待推荐对象,将目标待推荐对象推荐至目标用户对应的终端。
本实施例中,当待推荐对象集合中各个待推荐对象对应的用户标签有多个时,通过计算待推荐对象与目标用户的匹配度来确定目标待推荐对象,其中,对于每一个待推荐对象与目标用户的匹配度,可通过计算该待推荐对象与目标用户相匹配的用户标签数量占该待推荐对象对应的用户标签总数量的比值来确定。举例说明,假设计算机设备通过目标画像模型生成的用户画像包括:用户标签1、用户标签2和用户标签3。计算机设备获取的待推荐对象包括:待推荐对象A、待推荐对象B,其中,待推荐对象A对应用户标签2、用户标签3、用户标签4、用户标签5,待推荐对象B对应用户标签1、用户标签6、用户标签7,那么,待推荐对象A与目标用户的匹配度为2/4,待推荐对象B与目标用户的匹配度为1/3。
在确定了匹配度后,计算机设备可以选取匹配度大于预设阈值的待推荐对象确定为目标待推荐对象,或者根据匹配度对待推荐对象进行排序,根据排序结果选取预设数量匹配度较大的待推荐对象确定为目标待推荐对象。例如,计算机设备可以对待推荐对象进行降序排列,从排在第一位的待推荐对象开始选取预设数量的待推荐对象确定为目标待推荐对象。
上述实施例中,在生成目标用户的用户画像后,可基于该用户画像进行推荐场景的个性化化推荐应用,提高了推荐的准确性与有效性。
在一个实施例中,如图7所示,提供了一种画像数据处理装置700,包括:
特征获取模块702,用于获取目标用户对应的历史离散用户特征集合;历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;
模型获取模块704,用于获取目标特征域对应的目标画像模型;目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征;预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;
特征输入模块706,用于将历史离散用户特征集合输入目标画像模型,得到目标用户对应于目标特征域的用户画像。
上述画像数据处理装置,由于目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的,第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征,而预训练画像模型则是根据第二训练样本对初始画像模型进行训练得到的,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合,因此目标画像模型能够充分地学习到多个特征域之间的特征关联性以及其他特征域的离散用户特征与目标特征域用户画像之间的映射关系,当将目标用户对应的历史离散用户特征集合输入到目标画像模型时,最终得到的用户画像考虑了其他特征域与目标特征域之间的特征关联性,因此相较于传统技术得到的用户画像,本申请得到的用户画像更加准确。
进一步,本申请的用户画像模型由于学习到了其他特征域与目标特征域用户画像之间的映射关系,即使在目标用户为冷启动用户的场景也能够得到目标用户对应于目标特征域的用户画像,弥补了传统技术得到的用户画像模型无法对冷启动用户生成用户画像的缺陷。
在一个实施例中,该画像数据处理装置还包括:第一训练样本确定模块,用于获取第一时间段对应的第一训练离散业务数据集合及第二时间段对应于目标特征域的第二训练离散业务数据集合;第二时间段为第一时间段之后的时间段;第一训练离散业务数据集合包括目标特征域对应的历史离散业务数据;根据第一训练离散业务数据集合确定第一训练离散用户特征集合;根据第二训练离散业务数据集合确定目标特征域的训练标签。
在一个实施例中,该画像数据处理装置还包括:调整模块,用于获取预设的第一保留概率及第二保留概率;根据第一训练样本对预训练画像模型进行调整,并且以第一保留概率保留第一训练离散用户特征集合中目标特征域对应的历史离散用户特征,以第二保留概率保留第一训练离散用户特征集合中其他特征域对应的历史离散用户特征。
在一个实施例中,该画像数据处理装置还包括:第二训练样本确定模块,用于分别获取各训练特征域对应的训练行为数据集合;获取各训练行为数据集合中各训练行为数据对应的标签,得到各训练特征域对应的第一标签集合;根据各第一标签集合中各标签对应的训练行为数据所对应的行为次数及时间衰减系数,确定各第一标签集合中各标签的权重;根据各第一标签集合中各标签的权重确定第二训练样本对应的候选标签集合;从候选标签集合中选取预设数量的候选标签作为第二训练样本对应的目标训练标签,根据目标训练标签得到第二训练样本对应的训练标签集合;将候选标签集合中剩下的标签组成第二训练样本对应的第二训练离散用户特征集合。
在一个实施例中,第二训练样本确定模块还用于将目标训练标签确定为第二训练样本对应的正训练标签;获取负训练标签;负训练标签为第一训练标签和第二训练标签中的至少一种;第一训练标签为其他训练样本对应的正训练标签;第二训练标签为预设的标签词典中的标签;将正训练标签和负训练标签组成第二训练样本对应的训练标签集合。
在一个实施例中,特征输入模块还用于将历史离散用户特征集合输入目标画像模型的输入层,通过输入层向量化历史离散用户特征集合,得到各特征域对应的离散特征向量;通过目标画像模型的融合层融合各特征域对应的离散特征向量,得到目标用户对应的目标特征向量;通过目标画像模型从目标特征域对应的候选用户标签集合中筛选出与目标特征向量对应的用户标签,得到用户画像。
在一个实施例中,融合层包括域内融合层、域间融合层、特征交叉层和全连接层;特征输入模块还用于通过域内融合层融合各特征域对应的离散特征向量得到各特征域对应的域内特征向量;通过域间融合层融合各域内特征向量,得到与目标用户对应的域间特征向量;通过特征交叉层,对域间特征向量中的子特征进行特征交叉处理,得到交叉特征向量;通过全连接层融合域间特征向量和交叉特征向量,得到目标用户对应的目标特征向量。
在一个实施例中,特征输入模块还用于在域内融合层中,分别获取各特征域对应的各离散特征向量各自对应的注意力分配权重;通过域内融合层,将各特征域对应的各离散特征向量按照各自对应的注意力分配权重进行线性融合,得到各特征域对应的域内特征向量。
在一个实施例中,特征输入模块还用于在域间融合层中,分别获取各域内特征向量各自对应的注意力分配权重;通过域间融合层,将各域内特征向量按照各自对应的注意力分配权重进行线性融合,得到与目标用户对应的域间特征向量。
在一个实施例中,特征输入模块还用于通过特征交叉层,将域间特征向量中的子特征分别映射为预设维度的隐层空间向量;对于域间特征向量中任意的两个子特征,将两个子特征以及两个子特征所映射得到的隐层空间向量的乘积,作为两个子特征的二阶交叉特征向量;组合各二阶交叉特征向量,得到交叉特征向量。
在一个实施例中,全连接层包括第一全连接层和第二全连接层;特征输入模块还用于通过第一全连接层,将交叉特征向量的维度调整至与域间特征向量的维度一致后,与域间特征向量拼接得到中间特征向量;通过第二全连接层,将中间特征向量映射为目标特征向量。
在一个实施例中,该画像数据处理装置还包括:推荐模块,用于获取对应于目标特征域的待推荐对象集合;确定待推荐对象集合中各个待推荐对象对应的用户标签;将对应的用户标签与用户画像匹配的待推荐对象,推荐至目标用户对应的终端。
在一个实施例中,如图8所示,提供了一种画像模型训练方法,包括:
S802,获取预训练画像模型;预训练画像模型是根据第一训练样本对初始画像模型进行训练得到的;第一训练样本包括多个训练特征域对应的第一训练离散用户特征集合及训练标签集合。
S804,获取第二训练样本;第二训练样本包括第二训练离散用户特征集合和目标特征域的训练标签,第二训练离散用户特征集合包括目标特征域对应的历史离散用户特征。
S806,根据第二训练样本对预训练画像模型进行调整,得到目标特征域对应的目标画像模型。
可以理解的是,本实施例中各步骤的相关解释可以参数上述实施例中的描述,本申请在此不赘述。
上述画像模型训练方法,由于目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的,第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征,而预训练画像模型则是根据第二训练样本对初始画像模型进行训练得到的,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合,因此目标画像模型能够充分地学习到多个特征域之间的特征关联性以及其他特征域的离散用户特征与目标特征域用户画像之间的映射关系,通过该目标画像模型得到用户画像时,由于可以考虑到特征域之间的关联性,因此相较于传统技术,能够得到更加准确的用户画像。
进一步,本申请的用户画像模型由于学习到了其他特征域与目标特征域用户画像之间的映射关系,即使在目标用户为冷启动用户的场景也能够得到目标用户对应于目标特征域的用户画像,弥补了传统技术得到的用户画像模型无法对冷启动用户生成用户画像的缺陷。
可以理解的是,本申请提供的画像模型训练方法在其他实施例中可部分结合上述画像数据处理方法所提供的实施例中的一些步骤,例如本申请提供的画像模型训练方法中的第一训练样本以及第二训练样本的确定步骤,可参考上述画像数据处理方法所提供的实施例中第一训练样本以及第二训练样本的确定步骤。可以理解的是,本申请提供的画像模型训练方法实施例中的第一训练样本相当于上述画像数据处理方法所提供的实施例中的第二训练样本,而本申请提供的画像模型训练方法实施例中的第二训练样本相当于上述画像数据处理方法所提供的实施例中的第一训练样本,此处的第一、第二只是为了区分样本的不同,并不是为了限定。
如图9所示,为一个实施例中,目标画像模型训练过程的示意图。参考图9,该目标画像模型的训练过程包括预训练(pretrain)和调整(finetune)两个阶段。在预训练阶段,训练样本中的输入样本为任意一个特征域的用户其所涉及的所有特征域的离散用户特征,训练样本对应的第一训练标签为该用户在涉及的各特征域的用户标签,进行训练时,将训练样本中的离散用户特征输入输入层,根据输入层得到离散特征向量,然后将离散特征向量输入融合层,得到目标特征向量,最后根据目标特征向量与训练样本中的训练标签训练模型,得到预训练画像模型。
在调整阶段,在预训练画像模型的基础上进行模型的调整,此时,模型的参数初始值为预训练阶段得到的参数值,在调整阶段,训练样本的输入样本为目标特征域的用户在其所涉及的所有特征域的离散用户特征,训练样本对应的第二为该用户在目标特征域的用户标签,进行训练时,将离散用户特征输入至预训练阶段得到的输入层中,从输入层输出离散特征向量,输出至训练阶段得到的融合层,输出目标特征向量,最后根据目标特征向量与训练标签对预训练画像模型进行调整,得到目标画像模型。
在一个实施例中,预训练画像模型的训练步骤包括:将第一训练离散用户特征集合输入初始画像模型的输入层,通过输入层向量化第一训练离散用户特征集合,得到各特征域对应的离散特征向量;通过初始画像模型的融合层融合各特征域对应的离散特征向量,得到目标特征向量;通过目标画像模型的预测层输出训练标签集合中各训练标签的预测值;预测值是根据目标特征向量得到的;根据各训练标签的预测值和真实值的差异,训练初始画像模型,以得到预训练画像模型。
计算机设备意图训练预训练画像模型学会的能力是对用户基于用户特征进行用户标签的分类,分类依据则是用户特性与用户标签的相关度。本实施例中,初始画像模型包括输入层、融合层和预测层,首先通过初始画像模型的输入层对第一训练离散用户特征集合进行向量化,得到离散特征向量,然后通过融合层融合各离散特征向量得到一个高阶的、能充分反映用户特性的目标特征向量,将该目标特征向量输入到预测层后,预测层能够对该目标特征向量与训练标签集合中各训练标签进行相关评分,该评分可用于表征目标特征向量被分类到各训练标签的概率,也就是各训练标签的预测值,由于各训练标签的真实值是已知的,正训练标签的真实值为1,负训练标签的真实值为0,因此可以进行有监督的模型训练来得到预训练画像模型。
进一步地,计算机设备可根据各训练标签的预测值和真实值的差异来构建损失函数,再按照最小化该损失函数的方向调整模型参数并继续训练,直至满足训练结束条件。
在一个具体的实施例中,计算机设备可通过使用sigmoid交叉熵定义损失函数,此时机器学习模型预测层的损失函数具体如下式(6)和(7):
Figure BDA0002353237300000321
Figure BDA0002353237300000322
其中,K为训练标签的数量。
Figure BDA0002353237300000323
为第一训练离散用户特征集合对应第k个训练标签的真实值。yk为预测层实际输出的对第k个训练标签的预测值。
Figure BDA0002353237300000324
为第一训练离散用户特征集合经过模型处理得到的目标特征向量,
Figure BDA0002353237300000325
为第k个训练标签的标签向量。
在一个实施例中,根据第二训练样本对预训练画像模型进行调整包括:获取预设的第一保留概率及第二保留概率;根据第二训练样本对预训练画像模型进行调整,并且以第一保留概率保留第二训练离散用户特征集合中目标特征域对应的历史离散用户特征,以第二保留概率保留第二训练离散用户特征集合中其他特征域对应的历史离散用户特征。
在一个实施例中,对本申请实施例训练得到的模型进行了实验。在该实验中,涉及8个特征域,分别为基础信息特征域、京东商城、看一看图文、看一看图文、看一看视频、腾讯新闻视频、公众号阅读、腾讯新闻图文领域。目标特征域为腾讯新闻图文领域。本实验中涉及三个模型,其中,第一模型是采用传统技术的方法,根据腾讯新闻图文领域的用户的在腾讯新闻图文领域的离散用户特征训练得到。第二模型是根据本申请其中一个实施例提供的方法得到的,即获取这8个特征域的所有用户在各个特征域下的所有离散用户数据构建训练样本训练初始画像模型得到预训练画像模型,然后根据腾讯新闻图文领域的用户在在各个特征域下的所有离散用户数据构建训练样本对预训练画像模型进行调整得到腾讯新闻图文领域的目标画像模型。第三模型是根据本申请另外一个实施例提供的方法得到的,即在第二模型的基础上,在对预训练画像模型进行调整时,以第一概率丢弃腾讯新闻图文领域的特征,以第二概率丢弃其他特征域的特征。
得到这三个模型后,对预设数量的冷启动用户生成用户画像,根据生成的用户画像对这部分用户进行腾讯新闻图文推荐。对于其中每一个用户,根据该用户对推荐的腾讯新闻图文的实际的点击行为得到对应的正训练标签,将其他任意一个用户的正训练标签作为该用户的负训练标签,以及从标签词典中随机选取一部分标签作为该用户的负训练标签,最后统计这三个模型分别得到的用户画像的准确率,部分实验结果如下表1所示:
表1
Prec@1 Prec@3
第一模型 0.468 0.436
第二模型 0.512 0.494
第三模型 0.519 0.498
其中,Prec@1指的是预测得到的用户画像中排在第一位的用户标签是正样本的概率;Prec@3指的是预测得到的用户画像中排在第三位的用户标签是正样本的概率。由上表可以看出,本申请实施例提供的画像模型训练方法,在预测用户画像的准确率方面明显优于传统技术。而且,本申请中,通过对目标特征域进行丢弃操作优化得到的模型准确率可以进一步提升。因为,对目标特征域进行丢弃操作,可以更有效拟合冷启动用户的训练样本,学习当腾讯新闻图文领域特征缺失时,别的特征域应该如何更好的映射到腾讯新闻图文领域的用户画像。
如图10所示,提供了一种画像模型训练装置1000,该装置包括:
模型获取模块1002,用于获取预训练画像模型;预训练画像模型是根据第一训练样本对初始画像模型进行训练得到的;第一训练样本包括多个训练特征域对应的第一训练离散用户特征集合及训练标签集合;
样本获取模块1004,用于获取第二训练样本;第二训练样本包括第二训练离散用户特征集合和目标特征域的训练标签,第二训练离散用户特征集合包括目标特征域对应的历史离散用户特征;
模型调整模块1006,用于根据第二训练样本对预训练画像模型进行调整,得到目标特征域对应的目标画像模型。
上述画像模型训练装置,由于目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的,第一训练样本包括第一训练离散用户特征集合和目标特征域的训练标签,第一训练离散用户特征集合包括目标特征域对应的历史离散用户特征,而预训练画像模型则是根据第二训练样本对初始画像模型进行训练得到的,第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合,因此目标画像模型能够充分地学习到多个特征域之间的特征关联性以及其他特征域的离散用户特征与目标特征域用户画像之间的映射关系,通过该目标画像模型得到用户画像时,由于可以考虑到特征域之间的关联性,因此相较于传统技术,能够得到更加准确的用户画像。
在一个实施例中,画像模型训练装置包括:预训练模块,用于将第一训练离散用户特征集合输入初始画像模型的输入层,通过输入层向量化第一训练离散用户特征集合,得到各特征域对应的离散特征向量;通过初始画像模型的融合层融合各特征域对应的离散特征向量,得到目标特征向量;通过目标画像模型的预测层输出训练标签集合中各训练标签的预测值;预测值是根据目标特征向量得到的;根据各训练标签的预测值和真实值的差异,训练初始画像模型,以得到预训练画像模型。
在一个实施例中,模型调整模块1006还用于获取预设的第一保留概率及第二保留概率;根据第二训练样本对预训练画像模型进行调整,并且以第一保留概率保留第二训练离散用户特征集合中目标特征域对应的历史离散用户特征,以第二保留概率保留第二训练离散用户特征集合中其他特征域对应的历史离散用户特征。
应该理解的是,虽然图2、图3、图8这些流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图3、图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端或服务器。如图11所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现画像数据处理方法或者画像模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行画像数据处理方法或者画像模型训练方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的画像数据处理装置以及画像模型训练装置可以实现为一种计算机程序的形式,计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该画像数据处理装置或者画像模型训练装置的各个程序模块,比如,图7所示的特征获取模块、模型获取模块和特征输入模块。再比如,图10中的模型获取模块、样本获取模块以及模型调整模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的画像数据处理方法或者画像模型训练方法中的步骤。
例如,图11所示的计算机设备可以通过如图7所示的画像数据处理装置中的特征获取模块执行步骤S202。计算机设备可通过模型获取模块执行步骤S204。计算机设备可通过特征输入模块执行步骤S206。
又如,图11所示的计算机设备可以通过如图10所示的画像模型训练装置中的模型获取模块执行步骤S802。计算机设备可通过样本获取模块执行步骤S804。计算机设备可通过模型调整模块执行步骤S806。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述画像数据处理方法或者画像模型训练方法的步骤。此处画像数据处理方法或者画像模型训练方法的步骤可以是上述各个实施例的画像数据处理方法或者画像模型训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述画像数据处理方法或者画像模型训练方法的步骤。此处画像数据处理方法或者画像模型训练方法的步骤可以是上述各个实施例的画像数据处理方法或者画像模型训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种画像数据处理方法,包括:
获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;
获取目标特征域对应的目标画像模型;
所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;
所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;
将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像。
2.根据权利要求1所述的方法,其特征在于,所述第一训练样本的确定步骤包括:
获取第一时间段对应的第一训练离散业务数据集合及第二时间段对应于所述目标特征域的第二训练离散业务数据集合;所述第二时间段为第一时间段之后的时间段;所述第一训练离散业务数据集合包括所述目标特征域对应的历史离散业务数据;
根据所述第一训练离散业务数据集合确定所述第一训练离散用户特征集合;
根据所述第二训练离散业务数据集合确定所述目标特征域的训练标签。
3.根据权利要求1所述的方法,其特征在于,所述预训练画像模型的调整步骤包括:
获取预设的第一保留概率及第二保留概率;
根据所述第一训练样本对所述预训练画像模型进行调整,并且以所述第一保留概率保留第一训练离散用户特征集合中目标特征域对应的历史离散用户特征,以第二保留概率保留第一训练离散用户特征集合中其他特征域对应的历史离散用户特征。
4.根据权利要求1所述的方法,其特征在于,所述第二训练样本的确定步骤包括:
分别获取各训练特征域对应的训练行为数据集合;
获取各所述训练行为数据集合中各训练行为数据对应的标签,得到各训练特征域对应的第一标签集合;
根据各所述第一标签集合中各标签对应的训练行为数据所对应的行为次数及时间衰减系数,确定各所述第一标签集合中各标签的权重;
根据各所述第一标签集合中各标签的权重确定所述第二训练样本对应的候选标签集合;
从所述候选标签集合中选取预设数量的候选标签作为所述第二训练样本对应的目标训练标签,根据所述目标训练标签得到所述第二训练样本对应的训练标签集合;
将所述候选标签集合中剩下的标签组成所述第二训练样本对应的第二训练离散用户特征集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标训练标签得到所述第二训练样本对应的训练标签集合包括:
将所述目标训练标签确定为所述第二训练样本对应的正训练标签;
获取负训练标签;所述负训练标签为第一训练标签和第二训练标签中的至少一种;所述第一训练标签为其他训练样本对应的正训练标签;所述第二训练标签为预设的标签词典中的标签;
将所述正训练标签和负训练标签组成所述第二训练样本对应的训练标签集合。
6.根据权利要求1所述的方法,其特征在于,所述将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像包括:
将所述历史离散用户特征集合输入所述目标画像模型的输入层,通过所述输入层向量化所述历史离散用户特征集合,得到各特征域对应的离散特征向量;
通过所述目标画像模型的融合层融合各特征域对应的离散特征向量,得到所述目标用户对应的目标特征向量;
通过所述目标画像模型从所述目标特征域对应的候选用户标签集合中筛选出与所述目标特征向量对应的用户标签,得到所述用户画像。
7.根据权利要求6所述的方法,其特征在于,所述融合层包括域内融合层、域间融合层、特征交叉层和全连接层;所述通过所述目标画像模型的融合层融合各特征域对应的离散特征向量,得到所述目标用户对应的目标特征向量包括:
通过所述域内融合层融合各所述特征域对应的离散特征向量得到各特征域对应的域内特征向量;
通过所述域间融合层融合各所述域内特征向量,得到与所述目标用户对应的域间特征向量;
通过所述特征交叉层,对所述域间特征向量中的子特征进行特征交叉处理,得到交叉特征向量;
通过所述全连接层融合所述域间特征向量和所述交叉特征向量,得到所述目标用户对应的目标特征向量。
8.根据权利要求7所述的方法,其特征在于,所述通过所述域内融合层融合各所述特征域对应的离散特征向量得到各特征域对应的域内特征向量包括:
在所述域内融合层中,分别获取各所述特征域对应的各离散特征向量各自对应的注意力分配权重;
通过所述域内融合层,将各所述特征域对应的各离散特征向量按照各自对应的注意力分配权重进行线性融合,得到各所述特征域对应的域内特征向量。
9.根据权利要求7所述的方法,其特征在于,所述通过所述域间融合层融合各所述域内特征向量,得到与所述目标用户对应的域间特征向量包括:
在所述域间融合层中,分别获取各所述域内特征向量各自对应的注意力分配权重;
通过所述域间融合层,将各所述域内特征向量按照各自对应的注意力分配权重进行线性融合,得到与所述目标用户对应的域间特征向量。
10.根据权利要求1至9任意一项所述的方法,其特征在于,所述方法还包括:
获取对应于所述目标特征域的待推荐对象集合;
确定所述待推荐对象集合中各个待推荐对象对应的用户标签;
将对应的用户标签与所述用户画像匹配的待推荐对象,推荐至所述目标用户对应的终端。
11.一种画像模型训练方法,包括:
获取预训练画像模型;所述预训练画像模型是根据第一训练样本对初始画像模型进行训练得到的;所述第一训练样本包括多个训练特征域对应的第一训练离散用户特征集合及训练标签集合;
获取第二训练样本;所述第二训练样本包括第二训练离散用户特征集合和所述目标特征域的训练标签,所述第二训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;
根据所述第二训练样本对所述预训练画像模型进行调整,得到所述目标特征域对应的目标画像模型。
12.一种画像数据处理装置,其特征在于,所述装置包括:
特征获取模块,用于获取目标用户对应的历史离散用户特征集合;所述历史离散用户特征集合中包括至少一个非目标特征域对应的历史离散用户特征;
模型获取模块,用于获取目标特征域对应的目标画像模型;所述目标画像模型是根据第一训练样本对预训练画像模型进行调整得到的;所述第一训练样本包括第一训练离散用户特征集合和所述目标特征域的训练标签,所述第一训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;所述预训练画像模型是根据第二训练样本对初始画像模型进行训练得到的;所述第二训练样本包括多个训练特征域对应的第二训练离散用户特征集合及训练标签集合;
特征输入模块,用于将所述历史离散用户特征集合输入所述目标画像模型,得到所述目标用户对应于所述目标特征域的用户画像。
13.一种画像模型训练装置,其特征在于,所述装置包括:
模型获取模块,用于获取预训练画像模型;所述预训练画像模型是根据第一训练样本对初始画像模型进行训练得到的;所述第一训练样本包括多个训练特征域对应的第一训练离散用户特征集合及训练标签集合;
样本获取模块,用于获取第二训练样本;所述第二训练样本包括第二训练离散用户特征集合和所述目标特征域的训练标签,所述第二训练离散用户特征集合包括所述目标特征域对应的历史离散用户特征;
模型调整模块,用于根据所述第二训练样本对所述预训练画像模型进行调整,得到所述目标特征域对应的目标画像模型。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
CN201911424667.3A 2019-12-31 2019-12-31 标签确定方法和标签确定模型训练方法 Active CN111191092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911424667.3A CN111191092B (zh) 2019-12-31 2019-12-31 标签确定方法和标签确定模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911424667.3A CN111191092B (zh) 2019-12-31 2019-12-31 标签确定方法和标签确定模型训练方法

Publications (2)

Publication Number Publication Date
CN111191092A true CN111191092A (zh) 2020-05-22
CN111191092B CN111191092B (zh) 2023-07-14

Family

ID=70708086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911424667.3A Active CN111191092B (zh) 2019-12-31 2019-12-31 标签确定方法和标签确定模型训练方法

Country Status (1)

Country Link
CN (1) CN111191092B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737520A (zh) * 2020-06-22 2020-10-02 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN111898031A (zh) * 2020-08-14 2020-11-06 腾讯科技(深圳)有限公司 一种获得用户画像的方法及装置
CN112115169A (zh) * 2020-09-17 2020-12-22 北京奇艺世纪科技有限公司 用户画像生成、对象分发、内容推荐方法、装置及介质
CN112232890A (zh) * 2020-11-11 2021-01-15 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN112465565A (zh) * 2020-12-11 2021-03-09 加和(北京)信息科技有限公司 一种基于机器学习的用户画像预测的方法及装置
CN112819024A (zh) * 2020-07-10 2021-05-18 腾讯科技(深圳)有限公司 模型处理方法、用户数据处理方法及装置、计算机设备
CN113297576A (zh) * 2021-06-16 2021-08-24 深信服科技股份有限公司 威胁检测方法、装置、行为画像方法、装置及电子设备
CN113806656A (zh) * 2020-06-17 2021-12-17 华为技术有限公司 确定用户的特征的方法、设备及计算机可读介质
CN113836439A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用户匹配方法、计算设备和计算机可读存储介质
CN114462502A (zh) * 2022-01-06 2022-05-10 支付宝(杭州)信息技术有限公司 一种核身推荐模型训练方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170286826A1 (en) * 2016-03-30 2017-10-05 Nec Laboratories America, Inc. Real-time deep learning for danger prediction using heterogeneous time-series sensor data
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
US20180373994A1 (en) * 2016-04-08 2018-12-27 Pearson Education, Inc. Personalized content distribution
CN109657135A (zh) * 2018-11-13 2019-04-19 华南理工大学 一种基于神经网络的学者用户画像信息抽取方法及模型
CN109934619A (zh) * 2019-02-13 2019-06-25 北京三快在线科技有限公司 用户画像标签建模方法、装置、电子设备及可读存储介质
CN110020201A (zh) * 2019-03-26 2019-07-16 中国科学院软件研究所 一种基于用户画像聚类的用户类型自动化标注系统
CN110245719A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种面向实体和用户画像的特征融合方法
CN110263265A (zh) * 2019-04-10 2019-09-20 腾讯科技(深圳)有限公司 用户标签生成方法、装置、存储介质和计算机设备
US20190325259A1 (en) * 2018-04-12 2019-10-24 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis
CN110390033A (zh) * 2019-07-25 2019-10-29 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、电子设备及存储介质
CN110399465A (zh) * 2019-07-30 2019-11-01 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN110458600A (zh) * 2019-07-08 2019-11-15 平安科技(深圳)有限公司 画像模型训练方法、装置、计算机设备及存储介质
CN110489639A (zh) * 2019-07-15 2019-11-22 北京奇艺世纪科技有限公司 一种内容推荐方法及装置
CN110598845A (zh) * 2019-08-13 2019-12-20 中国平安人寿保险股份有限公司 数据处理方法、装置、计算机设备和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170286826A1 (en) * 2016-03-30 2017-10-05 Nec Laboratories America, Inc. Real-time deep learning for danger prediction using heterogeneous time-series sensor data
US20180373994A1 (en) * 2016-04-08 2018-12-27 Pearson Education, Inc. Personalized content distribution
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
US20190325259A1 (en) * 2018-04-12 2019-10-24 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis
CN109657135A (zh) * 2018-11-13 2019-04-19 华南理工大学 一种基于神经网络的学者用户画像信息抽取方法及模型
CN109934619A (zh) * 2019-02-13 2019-06-25 北京三快在线科技有限公司 用户画像标签建模方法、装置、电子设备及可读存储介质
CN110020201A (zh) * 2019-03-26 2019-07-16 中国科学院软件研究所 一种基于用户画像聚类的用户类型自动化标注系统
CN110245719A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种面向实体和用户画像的特征融合方法
CN110263265A (zh) * 2019-04-10 2019-09-20 腾讯科技(深圳)有限公司 用户标签生成方法、装置、存储介质和计算机设备
CN110458600A (zh) * 2019-07-08 2019-11-15 平安科技(深圳)有限公司 画像模型训练方法、装置、计算机设备及存储介质
CN110489639A (zh) * 2019-07-15 2019-11-22 北京奇艺世纪科技有限公司 一种内容推荐方法及装置
CN110390033A (zh) * 2019-07-25 2019-10-29 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、电子设备及存储介质
CN110399465A (zh) * 2019-07-30 2019-11-01 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN110598845A (zh) * 2019-08-13 2019-12-20 中国平安人寿保险股份有限公司 数据处理方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张壮 等: "基于多模态融合技术的用户画像方法" *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806656B (zh) * 2020-06-17 2024-04-26 华为技术有限公司 确定用户的特征的方法、设备及计算机可读介质
CN113806656A (zh) * 2020-06-17 2021-12-17 华为技术有限公司 确定用户的特征的方法、设备及计算机可读介质
CN111737520A (zh) * 2020-06-22 2020-10-02 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN111737520B (zh) * 2020-06-22 2023-07-25 Oppo广东移动通信有限公司 一种视频分类方法、视频分类装置、电子设备及存储介质
CN112819024A (zh) * 2020-07-10 2021-05-18 腾讯科技(深圳)有限公司 模型处理方法、用户数据处理方法及装置、计算机设备
CN112819024B (zh) * 2020-07-10 2024-02-13 腾讯科技(深圳)有限公司 模型处理方法、用户数据处理方法及装置、计算机设备
CN111898031A (zh) * 2020-08-14 2020-11-06 腾讯科技(深圳)有限公司 一种获得用户画像的方法及装置
CN111898031B (zh) * 2020-08-14 2024-04-05 腾讯科技(深圳)有限公司 一种获得用户画像的方法及装置
CN112115169B (zh) * 2020-09-17 2023-09-08 北京奇艺世纪科技有限公司 用户画像生成、对象分发、内容推荐方法、装置及介质
CN112115169A (zh) * 2020-09-17 2020-12-22 北京奇艺世纪科技有限公司 用户画像生成、对象分发、内容推荐方法、装置及介质
CN112232890A (zh) * 2020-11-11 2021-01-15 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN112232890B (zh) * 2020-11-11 2023-07-04 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN112465565A (zh) * 2020-12-11 2021-03-09 加和(北京)信息科技有限公司 一种基于机器学习的用户画像预测的方法及装置
CN112465565B (zh) * 2020-12-11 2023-09-26 加和(北京)信息科技有限公司 一种基于机器学习的用户画像预测的方法及装置
CN113297576A (zh) * 2021-06-16 2021-08-24 深信服科技股份有限公司 威胁检测方法、装置、行为画像方法、装置及电子设备
CN113836439B (zh) * 2021-09-14 2024-01-30 上海任意门科技有限公司 用户匹配方法、计算设备和计算机可读存储介质
CN113836439A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用户匹配方法、计算设备和计算机可读存储介质
CN114462502A (zh) * 2022-01-06 2022-05-10 支付宝(杭州)信息技术有限公司 一种核身推荐模型训练方法及装置

Also Published As

Publication number Publication date
CN111191092B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
WO2020207196A1 (zh) 用户标签生成方法、装置、存储介质和计算机设备
CN111191092B (zh) 标签确定方法和标签确定模型训练方法
US11030415B2 (en) Learning document embeddings with convolutional neural network architectures
CN110929206B (zh) 点击率预估方法、装置、计算机可读存储介质和设备
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
US9449271B2 (en) Classifying resources using a deep network
CN111382361B (zh) 信息推送方法、装置、存储介质和计算机设备
US20200159832A1 (en) Device and text representation method applied to sentence embedding
CN111626832B (zh) 产品推荐方法、装置及计算机设备
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN113011172A (zh) 文本处理方法、装置、计算机设备和存储介质
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
Zhang et al. SEMA: Deeply learning semantic meanings and temporal dynamics for recommendations
Meng et al. Variational Bayesian representation learning for grocery recommendation
KR20220151453A (ko) 상품의 가격 예측 방법
Fu et al. Sequence-based recommendation with bidirectional lstm network
Chen et al. Expert2Vec: distributed expert representation learning in question answering community
Fathim Sentiment Analysis of News Tweets
Mahesh et al. A Study on Deep Learning based News Recommender Systems
García-Ramírez et al. Forecasting Government Project Costs in Colombia: Combining Regression-Based and Text-Mining Approaches for Predictive Analysis
Zhang et al. A click-through rate prediction model incorporating user review text and behavior sequence
김지영 Time-varying Item Feature Conditional Variational Autoencoder for Collaborative filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant