CN110888945A - 用户行为预测方法、装置、电子设备及存储介质 - Google Patents

用户行为预测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110888945A
CN110888945A CN201911195953.7A CN201911195953A CN110888945A CN 110888945 A CN110888945 A CN 110888945A CN 201911195953 A CN201911195953 A CN 201911195953A CN 110888945 A CN110888945 A CN 110888945A
Authority
CN
China
Prior art keywords
behavior
target
target user
sequence
behavior sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911195953.7A
Other languages
English (en)
Inventor
黄楷
梁新敏
陈羲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fengzhi Technology Co Ltd
Original Assignee
Shanghai Fengzhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fengzhi Technology Co Ltd filed Critical Shanghai Fengzhi Technology Co Ltd
Priority to CN201911195953.7A priority Critical patent/CN110888945A/zh
Publication of CN110888945A publication Critical patent/CN110888945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种用户行为预测方法、装置、电子设备及存储介质,获取目标用户的行为序列和非目标用户的行为序列;所述目标用户的行为序列中包括目标行为,所述非目标用户的行为序列中不包括所述目标行为;所述行为序列为用户基于时间顺序对商品或者页面进行一系列操作而产生的行为数据;确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量;基于所述第一特征向量,确定出所述非目标用户的行为序列中的各种行为分别对应的第二特征向量;确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度;其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大,以在保证预测结果准确度的同时,降低计算复杂度。

Description

用户行为预测方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种用户行为预测方法、装置、电子设备及存储介质。
背景技术
由于现有的分类算法利用所有目标用户和非目标用户的行为数据进行有监督的模型训练,然而,在非目标用户和目标用户数量相差较大,这种方式容易产生预测结果倾斜的问题,继而降低分类模型输出的预测结果的准确度,同时,利用所有用户的行为数据进行训练,计算复杂度也比较大。
申请内容
鉴于此,本申请实施例的目的在于提供一种用户行为预测方法、装置、电子设备及存储介质,以在保证预测结果准确度的同时,降低计算复杂度。
第一方面,本申请实施例提供一种用户行为预测方法,所述方法包括:获取目标用户的行为序列和非目标用户的行为序列;其中,所述目标用户的行为序列中包括目标行为,所述非目标用户的行为序列中不包括所述目标行为;所述行为序列为用户基于时间顺序对商品或者页面进行一系列操作而产生的行为数据;确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量;基于所述第一特征向量,确定出所述非目标用户的行为序列中的各种行为分别对应的第二特征向量;确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度;其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大。
在上述实现过程中,只利用目标用户的行为序列进行特征向量训练,得到目标用户的行为序列中的各种行为分别对应的第一特征向量,避免样本不均衡的问题,由于相同的行为对应的特征向量是相同的,继而基于所述第一特征向量,就能简单快速的确定出非目标用户的行为序列中的各种行为对应的第二特征向量,避免了直接对数量庞大的非目标用户进行特征向量计算,降低计算复杂度,最后确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度,其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大,由于该方式避免了样本不均衡而导致的预测结果不准确的问题,继而保证行为预测结果的准确度。
基于第一方面,在一种可能的设计中,确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量,包括:利用word2vec技术确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量。
在上述实现过程中,由于word2vec技术充分考虑了行为之间的关联性,什么样的行为可能导致目标行为,继而能够利用上述方式保证对目标行为贡献最大的行为的第一特征向量与目标行为的第一特征向量的相似度最高。
基于第一方面,在一种可能的设计中,确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度,包括:针对每个第二特征向量,确定该第二特征向量与所述目标行为对应的第一特征向量之间的第一相似度;从多个所述第一相似度中,确定值最大的第一相似度为所述相似度。
若一个行为与目标行为越相似,那么执行过该行为的非目标用户越可能执行所述目标行为,因此,在上述实现过程中,针对同一个非目标用户,计算该非目标用户对应的每个第二特征向量与目标行为对应的第一特征向量之间的第一相似度,将多个第一相似度中的值最大的第一相似度确定为所述相似度,继而能够准确的确定出每个非目标用户可能执行所述目标用户的可能性。
基于第一方面,在一种可能的设计中,确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度,包括:针对每个第二特征向量,确定该第二特征向量与所述目标行为的特征向量之间的第二相似度;确定出多个所述第二相似度的均值;其中,所述均值为所述相似度。
在上述实现过程中,针对每个非目标用户,将该非目标用户的多个第二相似度的均值作为所述相似度,充分考虑了该非目标用户的行为序列中的所有行为对用户可能执行目标行为的整体贡献,继而能够更准确的确定出每个非目标用户可能执行所述目标用户的可能性。
基于第一方面,在一种可能的设计中,确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度,包括:确定多个所述第二特征向量的向量均值;确定所述向量均值与所述目标行为对应的第一特征向量之间的所述相似度。
在上述实现过程中,针对所述非目标用户的行为序列,仅需计算一次相似度,降低计算复杂度,同时,由于上述方式利用多个所述第二特征向量的向量均值来计算所述相似度,考虑了该非目标用户的行为序列中的所有行为对用户可能执行目标行为的整体贡献,保证确定出的每个非目标用户可能执行所述目标用户的可能性的准确度。
基于第一方面,在一种可能的设计中,在获取目标用户的行为序列和非目标用户的行为序列之前,所述方法还包括:获取目标用户的初始行为序列和非目标用户的初始行为序列;基于所述目标用户的初始行为序列和所述非目标用户的初始行为序列,确定出共有行为;其中,所述共有行为为在所述目标用户的初始行为序列和所述非目标用户的初始行为序列中出现的概率大于预设值的行为;从所述目标用户的初始行为序列中去除所述共有行为,得到所述目标用户的行为序列;从所述非目标用户的初始行为序列中去除所述共有行为,得到所述非目标用户的行为序列。
在上述实现过程中,通过去除共有行为,不仅降低后续对目标用户的行为序列对应的特征向量的计算负担,而且,避免了共有行为对每个非目标用户的相似度计算结果的干扰,进一步保证确定出的每个非目标用户可能执行所述目标用户的可能性的准确度。
基于第一方面,在一种可能的设计中,获取目标用户的行为序列和非目标用户的行为序列,包括:获取各个用户的行为;针对每个用户,基于时间的先后顺序,对该用户的行为进行排序,得到该用户的行为序列;基于各个所述行为序列和所述目标行为,确定包括所述目标行为的行为序列为所述目标用户的行为序列,以及不包括所述目标行为的行为序列为所述非目标用户的行为序列。
在上述实现过程中,上述方式充分考虑了行为发生的先后顺序,继而考虑了行为之间的关联性,保证后续对行为特征向量计算的准确度,同时,通过目标行为能够准确的对非目标用户和目标用户进行区分。
第二方面,本申请实施例提供一种用户行为预测装置,所述装置包括:行为序列获取单元,用于获取目标用户的行为序列和非目标用户的行为序列;其中,所述目标用户的行为序列中包括目标行为,所述非目标用户的行为序列中不包括所述目标行为;所述行为序列为用户基于时间顺序对商品或者页面进行一系列操作而产生的行为数据;第一特征向量确定单元,用于确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量;第二特征向量确定单元,用于基于所述第一特征向量,确定出所述非目标用户的行为序列中的各种行为分别对应的第二特征向量;相似度确定单元,用于确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度;其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大。
在上述实现过程中,只利用目标用户的行为序列进行特征向量训练,得到目标用户的行为序列中的各种行为分别对应的第一特征向量,避免样本不均衡的问题,由于相同的行为对应的特征向量是相同的,继而基于所述第一特征向量,就能简单快速的确定出非目标用户的行为序列中的各种行为对应的第二特征向量,避免了直接对数量庞大的非目标用户进行特征向量计算,降低计算复杂度,最后确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度,其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大,由于该方式避免了样本不均衡而导致的预测结果不准确的问题,继而保证行为预测结果的准确度。
基于第二方面,在一种可能的设计中,所述装置还包括:所述第一特征向量确定单元,具体用于利用word2vec技术确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量。
基于第二方面,在一种可能的设计中,所述相似度确定单元,具体用于针对每个第二特征向量,确定该第二特征向量与所述目标行为对应的第一特征向量之间的第一相似度;以及从多个所述第一相似度中,确定值最小的第一相似度为所述相似度。
基于第二方面,在一种可能的设计中,所述相似度确定单元,具体用于针对每个第二特征向量,确定该第二特征向量与所述目标行为的特征向量之间的第二相似度;确定出多个所述第二相似度的均值;其中,所述均值为所述相似度。
基于第二方面,在一种可能的设计中,所述相似度确定单元,具体用于确定多个所述第二特征向量的向量均值;确定所述向量均值与所述目标行为对应的第一特征向量之间的所述相似度。
基于第二方面,在一种可能的设计中,所述行为序列获取单元,具体用于获取目标用户的初始行为序列和非目标用户的初始行为序列;以及基于所述目标用户的初始行为序列和所述非目标用户的初始行为序列,确定出共有行为;其中,所述共有行为为在所述目标用户的初始行为序列和所述非目标用户的初始行为序列中出现的概率大于预设值的行为;从所述目标用户的初始行为序列中去除所述共有行为,得到所述目标用户的行为序列;从所述非目标用户的初始行为序列中去除所述共有行为,得到所述非目标用户的行为序列。
基于第二方面,在一种可能的设计中,所述行为序列获取单元,具体用于获取各个用户的行为;针对每个用户,基于时间的先后顺序,对该用户的行为进行排序,得到该用户的行为序列;基于各个所述行为序列和所述目标行为,确定包括所述目标行为的行为序列为所述目标用户的行为序列,以及不包括所述目标行为的行为序列为所述非目标用户的行为序列。
第三方面,本申请实施例提供一种电子设备,包括处理器以及与所述处理器连接的存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行第一方面所述的方法。
第四方面,本申请实施例提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行第一方面所述的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的用户行为预测方法的流程示意图。
图2为本申请实施例提供的用户行为预测装置的结构示意图。
图3为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1为本申请实施例提供的用户行为预测方法的流程图,所述方法包括步骤:S100、S200、S300以及S400。
S100:获取目标用户的行为序列和非目标用户的行为序列;其中,所述目标用户的行为序列中包括目标行为,所述非目标用户的行为序列中不包括所述目标行为;所述行为序列为用户基于时间顺序对商品或者页面进行一系列操作而产生的行为数据。
S200:确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量。
S300:基于所述第一特征向量,确定出所述非目标用户的行为序列中的各种行为分别对应的第二特征向量。
S400:确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度;其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大。
下面对上述方法进行详细介绍。
S100:获取目标用户的行为序列和非目标用户的行为序列;其中,所述目标用户的行为序列中包括目标行为,所述非目标用户的行为序列中不包括所述目标行为;所述行为序列为用户基于时间顺序对商品或者页面进行一系列操作而产生的行为数据。
作为一种实施方式,S100包括步骤:A1、A2和A3。
A1:获取各个用户的行为。
其中,各个用户的行为信息可以从微信小程序、公众号等的历史行为日志中获取,该行为信息包括但不限于用户点击商品、购买商品、将商品加入购物车等行为日志,用户浏览各个页面的行为日志,也可以通过在微信小程序、公众号等中植入SDK来获取用户的行为信息。
可以理解的是,行为日志中包括:用户的身份标识、时间信息和行为名称,例如:2019.8.12.上午8点20分15秒打开APP,2019.8.12.上午8点20分30秒浏览网页1,2019.8.12.上午8点20分35秒点击商品A,2019.8.12.上午8点21分15秒点击商品B,2019.8.12.上午8点22分20秒将商品B加入购物车等。
A2:针对每个用户,基于时间的先后顺序,对该用户的行为进行排序,得到该用户的行为序列。
可以理解的是,针对每个用户,在获取到各个用户在一段时间内的历史行为信息之后,首先,基于用户的身份标识,从一系列历史行为中确定出每个用户的历史行为,继而,针对每个用户的一系列历史行为,基于行为发生时间的先后顺序,对该用户的历史行为进行排序,得到该用户的行为序列。
例如,用户A在2019.8.12上午8点20分15秒打开APP,2019.8.12上午8点20分30秒浏览网页1,2019.8.12上午8点21分10秒浏览网页2,2019.8.12.上午8点22分35秒点击商品A,2019.8.12上午8点23分15秒浏览网页3,在2019.8.12上午8点25分30秒购买商品A。
例如,用户B在2019.8.12上午9点20分15秒打开APP,2019.8.12上午9点20分20秒浏览网页2,2019.8.12.上午9点25分将商品B加入购物车,2019.8.12上午9点28分15秒浏览网页3,在2019.8.12上午9点30分浏览页面4。
那么,用户A的行为序列为和用户B的行为序列如下表1所示。
Figure BDA0002292887570000091
表1
作为一种实施方式,在相邻两个行为发生的时间间隔大于预设时长时,将所述相邻两个行为中的行为发生时间靠后的行为作为该用户的下一个行为序列的开始行为。
其中,所述预设时间间隔根据用户需求设定,在本实施例中,所述预设时间间隔为30分钟,在其他实施例中,所述预设时间间隔也可以为20分钟、40分钟等,其中,所述预设时间间隔越短,各个行为序列的长度越短,反之,各个行为序列的长度越长。
作为一种实施方式,将打开APP作为一个行为序列的开始行为,将关闭APP作为一个行为序列的结束行为。
A3:基于各个所述行为序列和所述目标行为,确定包括所述目标行为的行为序列为所述目标用户的行为序列,以及不包括所述目标行为的行为序列为所述非目标用户的行为序列。
其中,目标行为根据用户需求定义,可以定义购买某种商品为目标行为,可以为定义购买某类商品的所有行为均为目标行为,也可以定义浏览某个页面的行为为目标行为等。
针对每个行为序列,通过将该行为序列中的每个行为与所述目标行为进行比较,若该行为序列中存在所述目标行为,则确定该行为序列为目标用户的行为序列,若该行为序列中不存在所述目标行为,则确定该行为序列为所述非目标用户的行为序列。可以理解的是,包括目标行为的行为序列可能有多个,不包括所述目标行为的行为序列也可能有多个,而且,不同的行为序列可能属于不同的用户,相当于目标用户可能有多个,非目标用户也可能有多个。
上述方式充分考虑了行为发生的先后顺序,继而考虑了行为之间的关联性,保证后续对行为特征向量计算的准确度,同时,通过目标行为能够准确的对非目标用户和目标用户进行区分。
作为另一种实施方式,S100包括步骤:B1、B2、B3和B4。
B1:获取目标用户的初始行为序列和非目标用户的初始行为序列。
其中,B1的具体实施方式请参照步骤A1、A2和A3,因此在此不再赘述。其中,目标用户的数量为至少一个,非目标用户的数量为至少一个。可以理解的是,不同的非目标用户的初始行为序列可能不同,也可能相同,不同的目标用户的初始行为序列可能不同,也可能相同。目标用户的初始行为序列和非目标用户的初始行为序列必然不同。
B2:基于所述目标用户的初始行为序列和所述非目标用户的初始行为序列,确定出共有行为;其中,所述共有行为为在所述目标用户的初始行为序列和所述非目标用户的初始行为序列中出现的概率大于预设值的行为。
在获取到所述目标用户的初始行为序列和所述非目标用户的初始行为序列之后,针对所述目标用户的初始行为序列和所述非目标用户的初始行为序列中的每种行为,确定包括该行为的初始行为序列的第一数量,确定所述第一数量和所述目标用户的初始行为序列和所述非目标用户的初始行为序列中的所有初始行为序列的总数量的商,该商为该行为在所述目标用户的初始行为序列和所述非目标用户的初始行为序列中出现的概率,通过将所述概率与所述预设值进行大小比较,若所述概率大于所述预设值时,确定该行为属于所述共有行为,若所述概率小于等于所述预设值,确定该行为不属于所述共有行为。
其中,所述预设值的取值范围为80%-100%,在本实施例中,所述预设值为90%,在其他实施例中,所述预设值也可以为85%,95%,100%等其中,所所述预设值越大,筛选出的共有行为数量越少,所述预设值越小,筛选出的共有行为的数量越多。
在确定出所述共有行为之后,执行步骤B3:从所述目标用户的初始行为序列中去除所述共有行为,得到所述目标用户的行为序列。
其中,所述共有行为的行为数量为至少一个。
针对所述目标用户的初始行为序列中的每个初始行为序列,通过将该初始行为序列中的每个行为与所述共有行为中的每个行为进行比较,在该初始行为序列中存在与所述共有行为相同的行为时,将所述相同的行为从该初始行为序列中删除。例如:在所述共有行为包括:打开APP和退出APP时,所述目标用户的初始行为序列包括:目标用户A的初始行为序列:打开APP->浏览页面1->点击商品A->点击商品B->将商品A加入购物车->购买商品A。目标用户B的初始行为序列:打开APP->浏览页面2->点击商品B->点击商品A->将商品B加入购物车->购买商品B->退出APP。那么,针对目标用户A,所述相同的行为包括:打开APP,将所述打开APP从该初始行为序列中删除之后,得到目标用户A的行为序列为:浏览页面1->点击商品A->点击商品B->将商品A加入购物车->购买商品A。针对目标用户B,所述相同的行为包括:打开APP和退出APP,将所述打开APP和所述退出APP从该初始行为序列中删除之后,得到目标用户B的行为序列为:浏览页面1->点击商品B->点击商品A->将商品B加入购物车->购买商品B。
B4:从所述非目标用户的初始行为序列中去除所述共有行为,得到所述非目标用户的行为序列。
其中,步骤B4的具体实施方式请参照步骤B3,在此不再赘述。
通过去除共有行为,不仅降低后续对目标用户的行为序列对应的特征向量的计算负担,而且,避免了共有行为对每个非目标用户的相似度计算结果的干扰,进一步保证确定出的每个非目标用户可能执行所述目标用户的可能性的准确度。
在获取到所述目标用户的行为序列之后,S200:确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量。
作为一种实施方式,S200包括:利用word2vec技术确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量。
针对所述目标用户的行为序列中的各种行为的行为发生顺序,分别确定出所述目标用户的行为序列中的各种行为发生的条件概率,或者确定出所述目标用户的行为序列中的部分行为发生的条件概率,其中,所述部分行为中包括所述目标行为。
在获取到各种行为或者部分行为发生的条件概率之后,基于预设表达式、各种行为的特征向量构建各个条件概率的等式,其中,所述预设表达式为:P(a行为|b行为,c行为)=ea行为的第一特征向量/(eb行为的第一特征向量*ec为的第一特征向量),继而利用多个等式确定出各种行为分别对应的第一特征向量。其中,利用所述多个等式求解第一特征向量的方式为本领域熟知技术手段,因此,在此不再赘述。
例如:P(购买商品a|浏览页面3,点击商品a)=e购买商品a的第一特征向量/(e浏览页面3的第一特征向量*e点击商品a的第一特征向量)=0.8。
由于word2vec技术充分考虑了行为之间的关联性,什么样的行为可能导致目标行为,继而能够利用上述方式保证对目标行为贡献最大的行为的第一特征向量与目标行为的第一特征向量的相似度最高。
在其他实施例中,也可以采用其他方式确定所述目标用户的行为序列中的各种行为分别对应的第一特征向量。
由于相同行为对应的特征向量相同,因此,在获取到各种行为分别对应的第一特征向量之后,执行步骤S300:基于所述第一特征向量,确定出所述非目标用户的行为序列中的各种行为分别对应的第二特征向量。
针对所述非目标用户的行为序列中的每种行为,从预先获取到的各种行为的第一特征向量中,查找与该行为相同的行为的第一特征向量,继而将所述相同的行为的第一特征向量作为所述目标用户的行为序列中的该行为的第二特征向量。可以理解的是,针对同一种行为,第一特征向量和第二特征向量相同。
例如,目标用户A的行为序列:A行为->B行为->C行为->D行为;目标用户B的行为序列:B行为->A行为->E行为-C行为。在确定出A行为、B行为、C行为、D行为和E行为中每个行为对应的第一特征向量之后,若非目标用户C的行为序列为:A行为->C行为->E行为。
则,所述非目标用户C的行为序列中的A行为的第二特征向量与目标用户的行为序列中的A行为的第一特征向量相同,所述非目标用户C的行为序列中的C行为的第二特征向量与目标用户的行为序列中的C行为的第一特征向量相同,所述非目标用户C的行为序列中的E行为的第二特征向量与目标用户B的行为序列中的E行为的第一特征向量相同。
例如:有非目标用户K的初始行为序列,如表2所示,其中,共有行为包括打开APP。
Figure BDA0002292887570000131
表2
通过步骤S300得到的各种行为的第一特征向量向量,进行行为-向量的映射,如下表3所示。
Figure BDA0002292887570000132
表3
通过上述避免了直接对非目标用户的行为序列中各种行为对应的特征向量的计算,降低计算复杂度。
在确定出所述第二特征向量和所述目标行为对应的第一特征向量之后,执行步骤S400:确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度;其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大。
作为一种实施方式,S400包括步骤C1和C2。
C1:针对每个第二特征向量,确定该第二特征向量与所述目标行为对应的第一特征向量之间的第一相似度。
针对所述非目标用户的行为序列,在确定出所述目标用户的行为序列中的一个行为的第二特征向量之后,确定所述第二特征向量和所述目标行为对应的第二特征向量的余弦距离,其中,所述余弦距离的倒数为所述第一相似度。
其中,确定余弦距离的表达式为:
Figure BDA0002292887570000141
其中,v(a)表示a行为的特征向量,||v(a)||2表征a行为的特征向量的模,bT表征b行为向量的转置。
作为一种实施方式,针对所述非目标用户的行为序列,也可以在确定出所述非目标用户的行为序列中的各种行为分别对应的第二特征向量之后,再确定每个第二特征向量和所述目标行为对应的第二特征向量的第一相似度。
针对每个非目标用户,在确定出所述非目标用户的行为序列中的每种行为对应的第一相似度之后,执行步骤C2:从多个所述第一相似度中,确定值最大的第一相似度为所述相似度。
将多个所述第一相似度进行大小比较,从多个所述第一相似度中,确定值最大的第一相似度为所述目标用户的所述相似度。
若一个行为与目标行为越相似,那么执行过该行为的非目标用户越可能执行所述目标行为,因此,在上述实现过程中,针对同一个非目标用户,计算该非目标用户对应的每个第二特征向量与目标行为对应的第一特征向量之间的第一相似度,将多个第一相似度中的值最大的第一相似度确定为所述相似度,继而能够准确的确定出每个非目标用户可能执行所述目标用户的可能性。
作为一种实施方式,S400包括步骤:D1和D2。
D1:针对每个第二特征向量,确定该第二特征向量与所述目标行为的特征向量之间的第二相似度。
其中,D1的具体实施方式和C1相同,因此在此不再赘述。
针对每个非目标用户,在确定出所述非目标用户的行为序列中的每种行为对应的第二相似度之后,执行步骤D2:确定出多个所述第二相似度的均值;其中,所述均值为所述相似度。
在上述实现过程中,针对每个非目标用户,将该非目标用户的多个第二相似度的均值作为所述相似度,充分考虑了该非目标用户的行为序列中的所有行为对用户可能执行目标行为的整体贡献,继而能够更准确的确定出每个非目标用户可能执行所述目标用户的可能性。
作为一种实施方式,S400包括步骤:E1和E2。
E1:确定多个所述第二特征向量的向量均值。
针对每个非目标用户,在确定出所述非目标用户的行为序列中的各种行为对应的第二特征向量之后,对多个所述第二特征向量中的每个第二特征向量中对应位置上的元素进行求和后,得到一个和向量,其中,所述和向量的维度和所述第二特征向量的维度相同,确实所述和向量与所述多个第二特征向量的数量的商,其中,所述商为所述向量均值。
例如:在所述多个第二特征向量包括:[0.2,0.3,0.1]和[0.1,0.2,0.8],所述合向量为[0.3,0.5,0.9],所述向量均值为[0.15,0.25,0.45]。
值的一提的是,也可以采用其他的方式确定所述向量均值。
E2:确定所述向量均值与所述目标行为对应的第一特征向量之间的所述相似度。
其中,E2的具体实施方式和C1相同,因此在此不再赘述。
在上述实现过程中,针对所述非目标用户的行为序列,仅需计算一次相似度,降低计算复杂度,同时,由于上述方式利用多个所述第二特征向量的向量均值来计算所述相似度,考虑了该非目标用户的行为序列中的所有行为对用户可能执行目标行为的整体贡献,保证确定出的每个非目标用户可能执行所述目标用户的可能性的准确度。
作为一种实施方式,在确定出各个非目标用户的所述相似度之后,所述方法还包括:按照从大到小的顺序将各个非目标用户的所述相似度进行排序输出。
作为一种实施方式,在确定出各个非目标用户的所述相似度之后,所述方法还包括:根据预先确定的需要选取的待选用户数量,按照相似度从大到小的顺序输出所述待选用户数量的用户的标识。
作为一种实施方式,在确定出所述非目标用户的所述相似度之后,所述方法还包括:将所述相似度与预设相似度值进行比较,在所述相似度大于所述预设相似度时,确定所述非目标用户为待选用户,反之,确定所述非目标用户为非待选用户。
请参照图2,图2为本申请实施例提供的一种用户行为预测装置400的结构框图。下面将对图2所示的结构框图进行阐述,所示装置包括:
行为序列获取单元410,用于获取目标用户的行为序列和非目标用户的行为序列;其中,所述目标用户的行为序列中包括目标行为,所述非目标用户的行为序列中不包括所述目标行为;所述行为序列为用户基于时间顺序对商品或者页面进行一系列操作而产生的行为数据。
第一特征向量确定单元420,用于确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量。
第二特征向量确定单元430,用于基于所述第一特征向量,确定出所述非目标用户的行为序列中的各种行为分别对应的第二特征向量;
相似度确定单元440,用于确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度;其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大。
作为一种实施方式,第一特征向量确定单元420,具体用于利用word2vec技术确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量。
作为一种实施方式,所述相似度确定单元440,具体用于针对每个第二特征向量,确定该第二特征向量与所述目标行为对应的第一特征向量之间的第一相似度;以及从多个所述第一相似度中,确定值最小的第一相似度为所述相似度。
作为一种实施方式,所述相似度确定单元440,具体用于针对每个第二特征向量,确定该第二特征向量与所述目标行为的特征向量之间的第二相似度;确定出多个所述第二相似度的均值;其中,所述均值为所述相似度。
作为一种实施方式,所述相似度确定单元440,具体用于确定多个所述第二特征向量的向量均值;确定所述向量均值与所述目标行为对应的第一特征向量之间的所述相似度。
作为一种实施方式,所述行为序列获取单元410,具体用于获取目标用户的初始行为序列和非目标用户的初始行为序列;以及基于所述目标用户的初始行为序列和所述非目标用户的初始行为序列,确定出共有行为;其中,所述共有行为为在所述目标用户的初始行为序列和所述非目标用户的初始行为序列中出现的概率大于预设值的行为;从所述目标用户的初始行为序列中去除所述共有行为,得到所述目标用户的行为序列;从所述非目标用户的初始行为序列中去除所述共有行为,得到所述非目标用户的行为序列。
作为一种实施方式,所述行为序列获取单元410,具体用于获取各个用户的行为;针对每个用户,基于时间的先后顺序,对该用户的行为进行排序,得到该用户的行为序列;基于各个所述行为序列和所述目标行为,确定包括所述目标行为的行为序列为所述目标用户的行为序列,以及不包括所述目标行为的行为序列为所述非目标用户的行为序列。
本实施例对的各功能单元实现各自功能的过程,请参见上述图1示实施例中描述的内容,此处不再赘述。
请参照图3,本申请实施例提供一种电子设备100,应用于图1所述的方法,在本申请实施例中,电子设备100可以是平板电脑、智能手机、个人数字助理(personal digitalassistant,PDA)等。
电子设备可以包括:存储器102、处理101和通信总线,通信总线用于实现这些组件的连接通信。
存储器102用于存储目标用户的行为序列和非目标用户的行为序列,各种行为分别对应的第一特征向量,本申请实施例提供的用户行为预测方法及装置对应的计算程序指令等各种数据,其中,存储器102可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)等。
处理器101用于读取并运行存储于存储器中的与用户行为预测方法对应的计算机程序指令时,执行本申请实施例提供的用户行为预测方法,以确定每个非目标用户对应的相似度。
其中,处理器101可能是一种集成电路芯片,具有信号的处理能力。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、分立门或者晶体管逻辑器件、分立硬件组件。
此外,本申请实施例还提供了一种存储介质,在该存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行本申请任一项实施方式所提供的方法。
综上所述,本申请各实施例提出的用户行为预测方法、装置、电子设备及存储介质,只利用目标用户的行为序列进行特征向量训练,得到目标用户的行为序列中的各种行为分别对应的第一特征向量,避免样本不均衡的问题,由于相同的行为对应的特征向量是相同的,继而基于所述第一特征向量,就能简单快速的确定出非目标用户的行为序列中的各种行为对应的第二特征向量,避免了直接对数量庞大的非目标用户进行特征向量计算,降低计算复杂度,最后确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度,其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大,由于该方式避免了样本不均衡而导致的预测结果不准确的问题,继而保证行为预测结果的准确度。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

Claims (10)

1.一种用户行为预测方法,其特征在于,所述方法包括:
获取目标用户的行为序列和非目标用户的行为序列;其中,所述目标用户的行为序列中包括目标行为,所述非目标用户的行为序列中不包括所述目标行为;所述行为序列为用户基于时间顺序对商品或者页面进行一系列操作而产生的行为数据;
确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量;
基于所述第一特征向量,确定出所述非目标用户的行为序列中的各种行为分别对应的第二特征向量;
确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度;其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大。
2.根据权利要求1所述的方法,其特征在于,确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量,包括:
利用word2vec技术确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量。
3.根据权利要求1所述的方法,其特征在于,确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度,包括:
针对每个第二特征向量,确定该第二特征向量与所述目标行为对应的第一特征向量之间的第一相似度;
从多个所述第一相似度中,确定值最大的第一相似度为所述相似度。
4.根据权利要求1所述的方法,其特征在于,确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度,包括:
针对每个第二特征向量,确定该第二特征向量与所述目标行为的特征向量之间的第二相似度;
确定出多个所述第二相似度的均值;其中,所述均值为所述相似度。
5.根据权利要求1所述的方法,其特征在于,确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度,包括:
确定多个所述第二特征向量的向量均值;
确定所述向量均值与所述目标行为对应的第一特征向量之间的所述相似度。
6.根据权利要求1所述的方法,其特征在于,获取目标用户的行为序列和非目标用户的行为序列,包括:
获取目标用户的初始行为序列和非目标用户的初始行为序列;
基于所述目标用户的初始行为序列和所述非目标用户的初始行为序列,确定出共有行为;其中,所述共有行为为在所述目标用户的初始行为序列和所述非目标用户的初始行为序列中出现的概率大于预设值的行为;
从所述目标用户的初始行为序列中去除所述共有行为,得到所述目标用户的行为序列;
从所述非目标用户的初始行为序列中去除所述共有行为,得到所述非目标用户的行为序列。
7.根据权利要求1所述的方法,其特征在于,获取目标用户的行为序列和非目标用户的行为序列,包括:
获取各个用户的行为;
针对每个用户,基于时间的先后顺序,对该用户的行为进行排序,得到该用户的行为序列;
基于各个所述行为序列和所述目标行为,确定包括所述目标行为的行为序列为所述目标用户的行为序列,以及不包括所述目标行为的行为序列为所述非目标用户的行为序列。
8.一种用户行为预测装置,其特征在于,所述装置包括:
行为序列获取单元,用于获取目标用户的行为序列和非目标用户的行为序列;其中,所述目标用户的行为序列中包括目标行为,所述非目标用户的行为序列中不包括所述目标行为;所述行为序列为用户基于时间顺序对商品或者页面进行一系列操作而产生的行为数据;
第一特征向量确定单元,用于确定出所述目标用户的行为序列中的各种行为分别对应的第一特征向量;
第二特征向量确定单元,用于基于所述第一特征向量,确定出所述非目标用户的行为序列中的各种行为分别对应的第二特征向量;
相似度确定单元,用于确定所述第二特征向量与所述目标行为对应的第一特征向量之间的相似度;其中,所述相似度越高,表征所述非目标用户执行所述目标行为的可能性越大。
9.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器中存储有计算机程序指令,其特征在于,所述计算机程序指令被所述处理器读取并运行时,执行如权利要求1-7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序指令,所述计算机程序指令被计算机读取并运行时,执行如权利要求1-7中任一项所述的方法。
CN201911195953.7A 2019-11-28 2019-11-28 用户行为预测方法、装置、电子设备及存储介质 Pending CN110888945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911195953.7A CN110888945A (zh) 2019-11-28 2019-11-28 用户行为预测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911195953.7A CN110888945A (zh) 2019-11-28 2019-11-28 用户行为预测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110888945A true CN110888945A (zh) 2020-03-17

Family

ID=69749422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911195953.7A Pending CN110888945A (zh) 2019-11-28 2019-11-28 用户行为预测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110888945A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742569A (zh) * 2021-01-08 2022-07-12 广州视源电子科技股份有限公司 用户生命阶段预测方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220852A (zh) * 2017-05-26 2017-09-29 北京小度信息科技有限公司 用于确定目标推荐用户的方法、装置和服务器
CN107579956A (zh) * 2017-08-07 2018-01-12 北京奇安信科技有限公司 一种用户行为的检测方法和装置
CN108062342A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 应用程序的推荐方法及装置
CN109087138A (zh) * 2018-07-26 2018-12-25 北京京东金融科技控股有限公司 数据处理方法及系统、计算机系统和可读存储介质
CN109543107A (zh) * 2018-11-21 2019-03-29 网易无尾熊(杭州)科技有限公司 数据处理方法、介质、装置和计算设备
CN109857935A (zh) * 2019-01-24 2019-06-07 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN110322281A (zh) * 2019-06-06 2019-10-11 阿里巴巴集团控股有限公司 相似用户的挖掘方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062342A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 应用程序的推荐方法及装置
CN107220852A (zh) * 2017-05-26 2017-09-29 北京小度信息科技有限公司 用于确定目标推荐用户的方法、装置和服务器
CN107579956A (zh) * 2017-08-07 2018-01-12 北京奇安信科技有限公司 一种用户行为的检测方法和装置
CN109087138A (zh) * 2018-07-26 2018-12-25 北京京东金融科技控股有限公司 数据处理方法及系统、计算机系统和可读存储介质
CN109543107A (zh) * 2018-11-21 2019-03-29 网易无尾熊(杭州)科技有限公司 数据处理方法、介质、装置和计算设备
CN109857935A (zh) * 2019-01-24 2019-06-07 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN110322281A (zh) * 2019-06-06 2019-10-11 阿里巴巴集团控股有限公司 相似用户的挖掘方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742569A (zh) * 2021-01-08 2022-07-12 广州视源电子科技股份有限公司 用户生命阶段预测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN108875776B (zh) 模型训练方法和装置、业务推荐的方法和装置、电子设备
CN110569427B (zh) 一种多目标排序模型训练、用户行为预测方法及装置
CN112529663B (zh) 商品推荐方法、装置、终端设备及存储介质
CN110647696B (zh) 一种业务对象的排序方法及装置
CN111767796B (zh) 一种视频关联方法、装置、服务器和可读存储介质
WO2017092623A1 (zh) 文本向量表示方法及装置
CN104951965A (zh) 广告投放方法及装置
CN108509466A (zh) 一种信息推荐方法和装置
CN111461164B (zh) 样本数据集的扩容方法及模型的训练方法
CN110287409B (zh) 一种网页类型识别方法及装置
CN110705585A (zh) 网络欺诈识别方法、装置、计算机装置及存储介质
CN109933678B (zh) 艺术品推荐方法、装置、可读介质及电子设备
CN111275205A (zh) 虚拟样本的生成方法、终端设备及存储介质
CN111914159A (zh) 一种信息推荐方法及终端
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN111680213B (zh) 信息推荐方法、数据处理方法及装置
CN114638704A (zh) 非法资金转移的识别方法及其装置、电子设备及存储介质
CN113592593A (zh) 序列推荐模型的训练及应用方法、装置、设备及存储介质
CN110888945A (zh) 用户行为预测方法、装置、电子设备及存储介质
CN110956209B (zh) 模型训练和预测方法、装置、电子设备及存储介质
WO2021081914A1 (zh) 推送对象确定方法、装置、终端设备及存储介质
CN116663008A (zh) 漏洞检测方法、装置、电子设备、存储介质及程序产品
CN110991172A (zh) 域名推荐方法、域名推荐模型训练方法及电子设备
CN111062449A (zh) 预测模型的训练方法、兴趣度预测方法、装置和存储介质
CN116342906A (zh) 一种跨域小样本图像识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200317

RJ01 Rejection of invention patent application after publication