CN110399404A - 一种计算机的用户表示生成方法及装置 - Google Patents

一种计算机的用户表示生成方法及装置 Download PDF

Info

Publication number
CN110399404A
CN110399404A CN201910678358.2A CN201910678358A CN110399404A CN 110399404 A CN110399404 A CN 110399404A CN 201910678358 A CN201910678358 A CN 201910678358A CN 110399404 A CN110399404 A CN 110399404A
Authority
CN
China
Prior art keywords
data
vector
target
user
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910678358.2A
Other languages
English (en)
Inventor
张�杰
罗华刚
吴信东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910678358.2A priority Critical patent/CN110399404A/zh
Publication of CN110399404A publication Critical patent/CN110399404A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本发明提供了一种计算机的用户表示生成方法及装置,其中,该方法包括:通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;根据所述数据属性对所述数据进行分类,得到多类数据;分别为所述多类数据创建目标数据模型;对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;将所述多类数据的向量进行汇总,得到所述目标用户的用户表示,因此,可以解决相关技术中通过打标签的方式确定用户画像,由于标签本身不包含动态变化的过程信息,而是截取某一时间点的行为快照数据做标签加工导致刻画的用户画像不够准确的问题,能够更全面精准的刻画用户,增强了表达能力。

Description

一种计算机的用户表示生成方法及装置
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种计算机的用户表示生成方法及装置。
背景技术
随着互联网技术在各行各业中的广泛应用,如何让计算机从比特流中解读用户成为尤其重要的任务,只有准确的刻画了用户、理解了用户,才能在接下来的任务中(比如商品推荐、关键词检索、用户信用评分等)为用户提供更为精准的服务,提高企业的运营效率。
相关技术中应用最为广泛的当属用户画像技术。为了更清晰直观的勾画目标用户,用户画像技术在各领域得到了广泛的应用。人们在实际操作的过程中往往会以最为浅显和贴近生活的词语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能代表产品的主要受众和目标群体。
用户画像的初衷是为了让人读懂,因此每个标签都有直观的业务含义并具有群体代表性。标签集作为一个受限制的词典,其表达范围大为受限。
针对上述问题,相关技术中还提出了对用户做刻画描述时,主要是使用打标签的方法,大致思路是:先设计一套标签体系或标签集,再对每个标签设计对应的加工规则。最终,每个用户对应一组标签集合,比如:(性别:女;收入等级:5;信用评分:645;行业:互联网;……)。这类技术的优点是每个维度都有明确的加工逻辑和可解释性。
虽然一定程度上增强了上述方案的表达能力,使其能否让计算机理解并在后续的任务(比如用户分类、用户评分)中可计算,但其仍然存在以下局限性:
标签的值是静态值,标签本身不包含动态变化的过程信息,而是截取某一时间点的行为快照数据做标签加工。
针对相关技术中通过打标签的方式确定用户画像,由于标签本身不包含动态变化的过程信息,而是截取某一时间点的行为快照数据做标签加工导致刻画的用户画像不够准确的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种计算机的用户表示生成方法及装置,以至少解决相关技术中通过打标签的方式确定用户画像,由于标签本身不包含动态变化的过程信息,而是截取某一时间点的行为快照数据做标签加工导致刻画的用户画像不够准确的问题。
根据本发明的一个实施例,提供了一种计算机的用户表示生成方法,包括:
通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;
根据所述数据属性对所述数据进行分类,得到多类数据;
分别为所述多类数据创建目标数据模型;
对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;
将所述多类数据的向量进行汇总,得到所述目标用户的用户表示。
可选地,分别为所述多类数据创建目标数据模型包括:
对所述多类数据中的每类数据执行以下操作,其中,执行以下操作的所述每类数据被称为目标数据:
将所述目标数据输入预先训练好的目标神经网络模型,得到所述目标神经网络模型输出的所述目标数据对应每种数据模型的概率,其中,所述概率大于第一预定阈值的数据模型确定为所述目标数据模型。
可选地,在分别为所述多类数据创建目标数据模型之前,所述方法还包括:
获取预定数量的数据、以及所述数据实际对应的数据模型;
使用所述预定数量的数据、以及所述数据实际对应的数据模型对原始神经网络模型进行训练,得到所述目标神经网络模型,其中,所述预定数量的数据为所述原始神经网络模型的输入,训练好的所述目标神经网络模型输出的所述目标数据对应的目标数据模型与所述目标数据实际对应的数据模型满足预定目标函数。
可选地,在根据所述数据属性对所述数据进行分类,得到多类数据之后,所述方法还包括:
将分类后的所述多类数据分别保存到预先设置的多个类别中。
可选地,所述预先设置的多个类别至少包括:页面行为类、地理轨迹类、社交关系类、属性变更类、兴趣行为类、身份标识类、静态属性类。
可选地,对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量包括:
使用嵌入式算法和/或长短期记忆网络对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量。
可选地,在将所述多类数据的向量进行汇总,得到所述目标用户的用户表示之前,所述方法还包括:
分别将所述多类数据的向量输入预定映射函数或预定网络结构,得到预定维度的向量。
可选地,将所述多类数据的向量进行汇总,得到所述目标用户的用户表示包括:
将所述多类数据的向量进行拼接,得到汇总向量,其中所述汇总向量为所述目标用户的用户表示,所述汇总向量的维度为所述多类数据的向量的维度之和。
可选地,在将所述多类数据的向量进行汇总,得到所述目标用户的用户表示之前,所述方法还包括:
计算所述多类数据的向量中任意两类数据的向量的相关性;
随机删除相关性大于预定阈值的两类数据的向量中的一类数据的向量;
将所述多类数据的向量进行汇总,得到所述目标用户的用户表示包括:
将相关性大于预定阈值的两类数据的向量中的另一类数据的向量与所述多类向量中除所述两类数据的向量之外的其他类数据的向量进行汇总,得到所述目标用户的用户表示。
根据本发明的另一个实施例,还提供了一种计算机的用户表示生成装置,包括:
第一获取模块,用于通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;
分类模块,用于根据所述数据属性对所述数据进行分类,得到多类数据;
创建模块,用于分别为所述多类数据创建目标数据模型;
处理模块,用于对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;
汇总模块,用于将所述多类数据的向量进行汇总,得到所述目标用户的用户表示。
可选地,所述创建模块,还用于
对所述多类数据中的每类数据执行以下操作,其中,执行以下操作的所述每类数据被称为目标数据:
将所述目标数据输入预先训练好的目标神经网络模型,得到所述目标神经网络模型输出的所述目标数据对应每种数据模型的概率,其中,所述概率大于第一预定阈值的数据模型确定为所述目标数据模型。
可选地,所述装置还包括:
第二获取模块,用于获取预定数量的数据、以及所述数据实际对应的数据模型;
训练模块,用于使用所述预定数量的数据、以及所述数据实际对应的数据模型对原始神经网络模型进行训练,得到所述目标神经网络模型,其中,所述预定数量的数据为所述原始神经网络模型的输入,训练好的所述目标神经网络模型输出的所述目标数据对应的目标数据模型与所述目标数据实际对应的数据模型满足预定目标函数。
可选地,所述处理模块还用于
使用嵌入式算法和/或长短期记忆网络对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量。
可选地,所述装置还包括:
输入模块,用于分别将所述多类数据的向量输入预定映射函数或预定网络结构,得到预定维度的向量。
可选地,所述汇总模块包括:
拼接单元,用于将所述多类数据的向量进行拼接,得到汇总向量,其中所述汇总向量为所述目标用户的用户表示,所述汇总向量的维度为所述多类数据的向量的维度之和。
可选地,所述装置还包括:
计算模块,用于在将所述多类数据的向量进行汇总,得到所述目标用户的用户表示之前,计算所述多类数据的向量中任意两类数据的向量的相关性;
删除模块,用于随机删除相关性大于预定阈值的两类数据的向量中的一类数据的向量;
所述汇总模块,还用于将相关性大于预定阈值的两类数据的向量中的另一类数据的向量与所述多类向量中除所述两类数据的向量之外的其他类数据的向量进行汇总,得到所述目标用户的用户表示。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;根据所述数据属性对所述数据进行分类,得到多类数据;分别为所述多类数据创建目标数据模型;对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;将所述多类数据的向量进行汇总,得到所述目标用户的用户表示,因此,可以解决相关技术中通过打标签的方式确定用户画像,由于标签本身不包含动态变化的过程信息,而是截取某一时间点的行为快照数据做标签加工导致刻画的用户画像不够准确的问题,能够更全面精准的刻画用户,增强了表达能力。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种计算机的用户表示生成方法的移动终端的硬件结构框图;
图2是根据本发明实施例的计算机的用户表示生成方法的流程图;
图3是根据本发明实施例的计算机的用户表示生成装置的框图;
图4是根据本发明优选实施例的计算机的用户表示生成装置的框图一;
图5是根据本发明优选实施例的计算机的用户表示生成装置的框图二;
图6是根据本发明优选实施例的计算机的用户表示生成装置的框图三。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种计算机的用户表示生成方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于上述的移动终端,本实施例提供了一种计算机的用户表示生成方法,图2是根据本发明实施例的计算机的用户表示生成方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;
上述的数据至少包括以下之一:人口统计学数据、客户端软硬件数据、通讯历史、社交关系、地理位置数据、浏览操作行为数据、时间日期数据、产品相关数据,环境及上下文相关数据。
步骤S204,根据所述数据属性对所述数据进行分类,得到多类数据;
步骤S206,分别为所述多类数据创建目标数据模型;
步骤S208,对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;
上述步骤S208具体可以包括:使用嵌入式算法和/或长短期记忆网络对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量。
步骤S210,将所述多类数据的向量进行汇总,得到所述目标用户的用户表示。
通过上述步骤S202至S206,通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;根据所述数据属性对所述数据进行分类,得到多类数据;分别为所述多类数据创建目标数据模型;对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;将所述多类数据的向量进行汇总,得到所述目标用户的用户表示,因此,可以解决相关技术中通过打标签的方式确定用户画像,由于标签本身不包含动态变化的过程信息,而是截取某一时间点的行为快照数据做标签加工导致刻画的用户画像不够准确的问题,能够更全面精准的刻画用户,增强了表达能力。
本发明实施例中,上述步骤S206具体可以包括:
对所述多类数据中的每类数据执行以下操作,其中,执行以下操作的所述每类数据被称为目标数据:
将所述目标数据输入预先训练好的目标神经网络模型,得到所述目标神经网络模型输出的所述目标数据对应每种数据模型的概率,其中,所述概率大于第一预定阈值的数据模型确定为所述目标数据模型。
本发明实施例中,在分别为所述多类数据创建目标数据模型之前,获取预定数量的数据、以及所述数据实际对应的数据模型;使用所述预定数量的数据、以及所述数据实际对应的数据模型对原始神经网络模型进行训练,得到所述目标神经网络模型,其中,所述预定数量的数据为所述原始神经网络模型的输入,训练好的所述目标神经网络模型输出的所述目标数据对应的目标数据模型与所述目标数据实际对应的数据模型满足预定目标函数。
本发明实施例中,在根据所述数据属性对所述数据进行分类,得到多类数据之后,将分类后的所述多类数据分别保存到预先设置的多个类别中,便于针对每个类别的数据创建数据模型,其中,所述预先设置的多个类别至少包括:页面行为类、地理轨迹类、社交关系类、属性变更类、兴趣行为类、身份标识类、静态属性类。
本发明实施例中,还可以将每类数据的向量统一成相同维度的向量,具体的,分别将所述多类数据的向量输入预定映射函数或预定网络结构,得到预定维度的向量,即可得到相同维度的向量,将相同维度的所述多类数据的向量进行汇总,得到所述目标用户的用户表示。
在另一可选的实施例中,上述步骤S210具体可以包括:
将所述多类数据的向量进行拼接,得到汇总向量,其中所述汇总向量为所述目标用户的用户表示,所述汇总向量的维度为所述多类数据的向量的维度之和。
在另一可选的实施例中,在将所述多类数据的向量进行汇总,得到所述目标用户的用户表示之前,计算所述多类数据的向量中任意两类数据的向量的相关性;随机删除相关性大于预定阈值的两类数据的向量中的一类数据的向量;对应的,上述步骤S210还可以通过以下方式实现:将相关性大于预定阈值的两类数据的向量中的另一类数据的向量与所述多类向量中除所述两类数据的向量之外的其他类数据的向量进行汇总,得到所述目标用户的用户表示,使得不同维度之间的信息冗余性更低。
下面举例对本发明实施例进行详细说明。
本发明实施例提供了一种向量化的用户表示方法,包括如下步骤:
数据采集:通过直接或间接的方式采集用户相关的各项数据,包含但不限于:人口统计学数据、客户端软硬件数据、通讯历史、社交关系、地理位置数据、浏览操作行为数据、时间日期数据、产品相关数据,环境及上下文相关数据等;
数据分类:将上述各项数据分配到预定义好的不同类别当中。
在一个实施例中,分配数据到不同类别时,对于类别的设置,可以考虑到数据之间的时间相关性:将时间先后顺序强相关的数据放到同一类别之内,同时要求不同类别之间的数据时间弱相关。比如,类别设置如下:页面行为类、地理轨迹类、社交关系类、属性变更类、兴趣行为类、身份标识类、静态属性类。
在一个实施例中,数据分类可以在数据采集的阶段同时完成。
按类别建模并做向量化表示:
将每个类别的数据用一种数据模型来表示,不同类别的表示方法可以不同。例如:用有向图表示地理位置轨迹,用无向图表示社交关系、用直方图(histogram)表示页面停留时长,用数组表示时间序列,用词袋(bag of words)表示文本,用多维向量或一维数值表示静态属性。
将上述各个类别内的数据做向量化处理。比如:使用嵌入式(embedding)算法将社交关系图压缩为向量,使用长短期记忆网络(LSTM)将行为时间序列表示为向量。
向量汇总:将上述多个类别的子向量汇总在一起,用一个新的向量对用户做最终的表示。
在一个实施例中,对多个向量做简单的拼接处理,最终向量的维度是各个类别向量的维度之和。
在另一个实施例中,对多个向量中每个维度,做两两之间的相关性验证,去掉相关性较强的维度,从而使得最终向量的维度小于各个类别向量的维度之和。
在另一个实施例中,设计一种映射函数或一种网络结构,其输入为多个不同维度的向量,其输出为固定维度的向量。
数据类别设置时考虑了数据之间的时间相关性,将时间顺序强相关的数据放入同一类别,从而使得用户的行为数据得以有效利用。
不同类别的数据使用不同方法做向量化压缩,有效组合了多种建模手段。
本发明实施例,数据的使用范围更广、利用率更高:不限于仅使用具有业务含义的数据、具有群体代表性的数据,用户个性化的数据也能使用,甚至用户动态产生的行为数据。
对用户的表示更完备、不同维度之间的信息冗余性更低;同的类别分别使用向量化技术进行压缩,该技术保证了压缩后的低维向量具有两两正交性和表达空间的完备性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
本发明实施例,还提供了一种计算机的用户表示生成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的计算机的用户表示生成装置的框图,如图3所示,包括:
第一获取模块32,用于通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;
分类模块34,用于根据所述数据属性对所述数据进行分类,得到多类数据;
创建模块36,用于分别为所述多类数据创建目标数据模型;
处理模块38,用于对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;
汇总模块310,用于将所述多类数据的向量进行汇总,得到所述目标用户的用户表示。
可选地,所述创建模块36,还用于
对所述多类数据中的每类数据执行以下操作,其中,执行以下操作的所述每类数据被称为目标数据:
将所述目标数据输入预先训练好的目标神经网络模型,得到所述目标神经网络模型输出的所述目标数据对应每种数据模型的概率,其中,所述概率大于第一预定阈值的数据模型确定为所述目标数据模型。
可选地,所述装置还包括:
第二获取模块,用于获取预定数量的数据、以及所述数据实际对应的数据模型;
训练模块,用于使用所述预定数量的数据、以及所述数据实际对应的数据模型对原始神经网络模型进行训练,得到所述目标神经网络模型,其中,所述预定数量的数据为所述原始神经网络模型的输入,训练好的所述目标神经网络模型输出的所述目标数据对应的目标数据模型与所述目标数据实际对应的数据模型满足预定目标函数。
可选地,所述处理模块38还用于
使用嵌入式算法和/或长短期记忆网络对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量。
图4是根据本发明优选实施例的计算机的用户表示生成装置的框图一,如图4所示,所述装置还包括:
输入模块42,用于分别将所述多类数据的向量输入预定映射函数或预定网络结构,得到预定维度的向量。
图5是根据本发明优选实施例的计算机的用户表示生成装置的框图二,如图5所示,所述汇总模块310包括:
拼接单元52,用于将所述多类数据的向量进行拼接,得到汇总向量,其中所述汇总向量为所述目标用户的用户表示,所述汇总向量的维度为所述多类数据的向量的维度之和。
图6是根据本发明优选实施例的计算机的用户表示生成装置的框图三,如图6所示,所述装置还包括:
计算模块62,用于在将所述多类数据的向量进行汇总,得到所述目标用户的用户表示之前,计算所述多类数据的向量中任意两类数据的向量的相关性;
删除模块64,用于随机删除相关性大于预定阈值的两类数据的向量中的一类数据的向量;
所述汇总模块310,还用于将相关性大于预定阈值的两类数据的向量中的另一类数据的向量与所述多类向量中除所述两类数据的向量之外的其他类数据的向量进行汇总,得到所述目标用户的用户表示。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S11,用于通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;
S12,根据所述数据属性对所述数据进行分类,得到多类数据;
S13,分别为所述多类数据创建目标数据模型;
S14,对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;
S15,将所述多类数据的向量进行汇总,得到所述目标用户的用户表示。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S11,用于通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;
S12,根据所述数据属性对所述数据进行分类,得到多类数据;
S13,分别为所述多类数据创建目标数据模型;
S14,对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;
S15,将所述多类数据的向量进行汇总,得到所述目标用户的用户表示。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种计算机的用户表示生成方法,其特征在于,包括:
通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;
根据所述数据属性对所述数据进行分类,得到多类数据;
分别为所述多类数据创建目标数据模型;
对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;
将所述多类数据的向量进行汇总,得到所述目标用户的用户表示。
2.根据权利要求1所述的方法,其特征在于,分别为所述多类数据创建目标数据模型包括:
对所述多类数据中的每类数据执行以下操作,其中,执行以下操作的所述每类数据被称为目标数据:
将所述目标数据输入预先训练好的目标神经网络模型,得到所述目标神经网络模型输出的所述目标数据对应每种数据模型的概率,其中,所述概率大于第一预定阈值的数据模型确定为所述目标数据模型。
3.根据权利要求2所述的方法,其特征在于,在分别为所述多类数据创建目标数据模型之前,所述方法还包括:
获取预定数量的数据、以及所述数据实际对应的数据模型;
使用所述预定数量的数据、以及所述数据实际对应的数据模型对原始神经网络模型进行训练,得到所述目标神经网络模型,其中,所述预定数量的数据为所述原始神经网络模型的输入,训练好的所述目标神经网络模型输出的所述目标数据对应的目标数据模型与所述目标数据实际对应的数据模型满足预定目标函数。
4.根据权利要求1所述的方法,其特征在于,对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量包括:
使用嵌入式算法和/或长短期记忆网络对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量。
5.根据权利要求1所述的方法,其特征在于,在将所述多类数据的向量进行汇总,得到所述目标用户的用户表示之前,所述方法还包括:
分别将所述多类数据的向量输入预定映射函数或预定网络结构,得到预定维度的向量。
6.根据权利要求1至5中任一项所述的方法,其特征在于,将所述多类数据的向量进行汇总,得到所述目标用户的用户表示包括:
将所述多类数据的向量进行拼接,得到汇总向量,其中所述汇总向量为所述目标用户的用户表示,所述汇总向量的维度为所述多类数据的向量的维度之和。
7.根据权利要求1至5中任一项所述的方法,其特征在于,
在将所述多类数据的向量进行汇总,得到所述目标用户的用户表示之前,所述方法还包括:
计算所述多类数据的向量中任意两类数据的向量的相关性;
随机删除相关性大于预定阈值的两类数据的向量中的一类数据的向量;
将所述多类数据的向量进行汇总,得到所述目标用户的用户表示包括:
将相关性大于预定阈值的两类数据的向量中的另一类数据的向量与所述多类向量中除所述两类数据的向量之外的其他类数据的向量进行汇总,得到所述目标用户的用户表示。
8.一种计算机的用户表示生成装置,其特征在于,包括:
第一获取模块,用于通过多个数据源获取与目标用户关联的数据,其中,所述数据中携带有数据属性;
分类模块,用于根据所述数据属性对所述数据进行分类,得到多类数据;
创建模块,用于分别为所述多类数据创建目标数据模型;
处理模块,用于对所述多类数据的目标数据模型进行向量化处理,得到所述多类数据的向量;
汇总模块,用于将所述多类数据的向量进行汇总,得到所述目标用户的用户表示。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7中任一项所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的方法。
CN201910678358.2A 2019-07-25 2019-07-25 一种计算机的用户表示生成方法及装置 Pending CN110399404A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910678358.2A CN110399404A (zh) 2019-07-25 2019-07-25 一种计算机的用户表示生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910678358.2A CN110399404A (zh) 2019-07-25 2019-07-25 一种计算机的用户表示生成方法及装置

Publications (1)

Publication Number Publication Date
CN110399404A true CN110399404A (zh) 2019-11-01

Family

ID=68325247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910678358.2A Pending CN110399404A (zh) 2019-07-25 2019-07-25 一种计算机的用户表示生成方法及装置

Country Status (1)

Country Link
CN (1) CN110399404A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274907A (zh) * 2020-01-16 2020-06-12 支付宝(杭州)信息技术有限公司 使用类别识别模型来确定用户的类别标签的方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260742A (zh) * 2015-09-29 2016-01-20 深圳大学 一种针对多种数据类型的统一分类方法及系统
US20170293836A1 (en) * 2016-04-11 2017-10-12 International Business Machines Corporation Customer profile learning based on semi-supervised recurrent neural network using partially labeled sequence data
CN108596679A (zh) * 2018-04-27 2018-09-28 中国联合网络通信集团有限公司 用户画像的构建方法、装置、终端及计算机可读存储介质
CN108804704A (zh) * 2018-06-19 2018-11-13 北京顶象技术有限公司 一种用户深度画像方法及装置
CN109165249A (zh) * 2018-08-07 2019-01-08 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
CN109711874A (zh) * 2018-12-17 2019-05-03 平安科技(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN109740620A (zh) * 2018-11-12 2019-05-10 平安科技(深圳)有限公司 人群画像分类模型的建立方法、装置、设备和存储介质
CN109785034A (zh) * 2018-11-13 2019-05-21 北京码牛科技有限公司 用户画像生成方法、装置、电子设备及计算机可读介质
CN109886299A (zh) * 2019-01-16 2019-06-14 平安科技(深圳)有限公司 一种用户画像方法、装置、可读存储介质及终端设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260742A (zh) * 2015-09-29 2016-01-20 深圳大学 一种针对多种数据类型的统一分类方法及系统
US20170293836A1 (en) * 2016-04-11 2017-10-12 International Business Machines Corporation Customer profile learning based on semi-supervised recurrent neural network using partially labeled sequence data
CN108596679A (zh) * 2018-04-27 2018-09-28 中国联合网络通信集团有限公司 用户画像的构建方法、装置、终端及计算机可读存储介质
CN108804704A (zh) * 2018-06-19 2018-11-13 北京顶象技术有限公司 一种用户深度画像方法及装置
CN109165249A (zh) * 2018-08-07 2019-01-08 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
CN109740620A (zh) * 2018-11-12 2019-05-10 平安科技(深圳)有限公司 人群画像分类模型的建立方法、装置、设备和存储介质
CN109785034A (zh) * 2018-11-13 2019-05-21 北京码牛科技有限公司 用户画像生成方法、装置、电子设备及计算机可读介质
CN109711874A (zh) * 2018-12-17 2019-05-03 平安科技(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN109886299A (zh) * 2019-01-16 2019-06-14 平安科技(深圳)有限公司 一种用户画像方法、装置、可读存储介质及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高广尚: "用户画像构建方法研究综述", 《数据分析与知识发现》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274907A (zh) * 2020-01-16 2020-06-12 支付宝(杭州)信息技术有限公司 使用类别识别模型来确定用户的类别标签的方法和装置
CN111274907B (zh) * 2020-01-16 2023-04-25 支付宝(中国)网络技术有限公司 使用类别识别模型来确定用户的类别标签的方法和装置

Similar Documents

Publication Publication Date Title
CN110198310B (zh) 一种网络行为反作弊方法、装置及存储介质
CN110532451A (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN109271521A (zh) 一种文本分类方法及装置
CN109245996B (zh) 邮件推送方法、装置、计算机设备和存储介质
CN108563680A (zh) 资源推荐方法及装置
CN104951544A (zh) 用户数据处理方法、用户数据的提供方法和系统
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN110674188A (zh) 一种特征提取方法、装置及设备
CN108966158A (zh) 短信发送方法、系统、计算机设备和存储介质
CN113688923B (zh) 订单异常智能检测方法、装置、电子设备及存储介质
CN112287238B (zh) 用户特征的确定方法和装置、存储介质及电子设备
CN110458296A (zh) 目标事件的标记方法和装置、存储介质及电子装置
CN114297509A (zh) 用户兴趣向量生成方法、产品推荐方法、装置、设备、介质
CN108520045B (zh) 数据的服务响应方法及装置
CN112765364A (zh) 群聊会话排序方法、装置、存储介质和电子设备
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN104468330A (zh) 分布式消息队列系统的数据处理方法和装置
CN108090041A (zh) 一种广告创意的生成方法及装置
CN105426392A (zh) 一种协同过滤推荐方法及系统
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN110390315A (zh) 一种图像处理方法及装置
CN110399404A (zh) 一种计算机的用户表示生成方法及装置
CN106257449A (zh) 一种信息确定方法和装置
CN111191065A (zh) 一种同源图像确定方法及装置
CN109120509A (zh) 一种信息收集的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191101

RJ01 Rejection of invention patent application after publication