CN113656699B - 用户特征向量确定方法、相关设备及介质 - Google Patents

用户特征向量确定方法、相关设备及介质 Download PDF

Info

Publication number
CN113656699B
CN113656699B CN202110979364.9A CN202110979364A CN113656699B CN 113656699 B CN113656699 B CN 113656699B CN 202110979364 A CN202110979364 A CN 202110979364A CN 113656699 B CN113656699 B CN 113656699B
Authority
CN
China
Prior art keywords
sample
user
vector
target
operation sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110979364.9A
Other languages
English (en)
Other versions
CN113656699A (zh
Inventor
陈浩
谯轶轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110979364.9A priority Critical patent/CN113656699B/zh
Publication of CN113656699A publication Critical patent/CN113656699A/zh
Priority to PCT/CN2022/071262 priority patent/WO2023024408A1/zh
Application granted granted Critical
Publication of CN113656699B publication Critical patent/CN113656699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请实施例公开了一种用户特征向量确定方法、相关设备及介质,应用于数据分析技术领域。其中方法包括:获取数据集,该数据集包括由样本用户操作过的多个对象组成的对象操作序列,根据对象操作序列确定样本用户的正样本序列,将对象操作序列和正样本序列输入初始的神经网络模型,得到对象操作序列的第一向量以及正样本序列的第二向量,利用第一向量和第二向量训练初始的神经网络模型,得到训练后的神经网络模型,获取目标用户的对象操作序列,将目标用户的对象操作序列输入训练后的神经网络模型,得到目标用户的特征向量。采用本申请实施例,可以提高生成的特征向量的应用效果。本申请涉及区块链技术,如可将目标用户的特征向量等写入区块链。

Description

用户特征向量确定方法、相关设备及介质
技术领域
本申请涉及数据分析技术领域,具体涉及一种用户特征向量确定方法、相关设备及介质。
背景技术
目前,在推荐场景等领域中,可以根据用户的行为数据确定用户的特征向量以用于下游任务中,例如利用用户的特征向量进行用户之间相似度计算,进而基于相似度实现推荐场景下的精准推送等。现有的特征向量确定方法通常是通过构建特征向量词典,通过用户的特征数据或行为数据从特征向量词典中确定该用户的特征向量。然而,此方法并没有很好的学习到多个用户之间特征的共同之处和/或不同之处,可能会导致后续将用户的特征向量用于下游任务时取得的效果不佳。
发明内容
本申请实施例提供了一种用户特征向量确定方法、相关设备及介质,可以提高生成的特征向量的应用效果。
一方面,本申请实施例提供了一种用户特征向量确定方法,该方法包括:
获取数据集;所述数据集包括由样本用户操作过的多个对象组成的对象操作序列;
根据所述对象操作序列确定所述样本用户的正样本序列;所述正样本序列包括对所述对象操作序列中的一个或多个进行替换操作后得到的对象操作序列中的所有对象;
将所述对象操作序列和所述正样本序列输入初始的神经网络模型,得到所述对象操作序列的第一向量以及所述正样本序列的第二向量;
利用所述第一向量和所述第二向量训练所述初始的神经网络模型,得到训练后的神经网络模型;
获取目标用户的对象操作序列,将所述目标用户的对象操作序列输入所述训练后的神经网络模型,得到所述目标用户的特征向量。
在一种可能的实施方式中,所述根据所述对象操作序列确定所述样本用户的正样本序列,包括:
从所述样本用户的对象操作序列中随机选取目标数量个对象;
从预设类别词典中查找与选取的对象具有相同类别的目标对象;
将所述对象操作序列中随机选取的目标数量个对象替换为所述目标对象,并将替换后的对象操作序列中的所有对象作为所述样本用户的正样本序列。
在一种可能的实施方式中,所述得到所述对象操作序列的第一向量,包括:
获取所述样本用户的对象操作序列的初始向量集合;所述初始向量集合包括所述对象操作序列包括的多个对象中每个对象的初始向量;
分别对每个对象的初始向量进行均值处理,得到所述每个对象的均值处理结果;
将由所述每个对象的均值处理结果组成的向量,确定为所述样本用户的对象操作序列的第一向量。
在一种可能的实施方式中,所述样本用户为N个,所述N为大于1的整数,所述数据集包括所述N个样本用户中每个样本用户的对象操作序列,所述样本用户的正样本序列为所述每个样本用户的正样本序列,所述对象操作序列的第一向量包括所述N个样本用户中每个样本用户的对象操作序列的第一向量,所述正样本序列的第二向量包括所述N个样本用户中每个样本用户的正样本序列的第二向量;
所述利用所述第一向量和所述第二向量训练所述初始的神经网络模型,得到训练后的神经网络模型,包括:
根据所述N个样本用户中每个样本用户的正样本序列的第二向量,确定所述每个样本用户的对象操作序列的第一向量对应的正样本;
根据所述N个样本用户中除样本用户i以外的各个样本用户的对象操作序列的第一向量以及所述各个样本用户的正样本序列的第二向量,确定所述样本用户i的对象操作序列的第一向量对应的负样本;i依次取1至N之间的整数;
利用所述每个样本用户的对象操作序列的第一向量、所述每个样本用户的对象操作序列的第一向量对应的正样本、所述每个样本用户的对象操作序列的第一向量对应的负样本,训练所述初始的神经网络模型。
在一种可能的实施方式中,所述目标用户为M个,所述M为大于1的整数;所述得到所述目标用户的特征向量之后,所述方法还包括:
根据所述M个目标用户中每个目标用户的特征向量,计算所述M个目标用户之间的相似度;
根据所述M个目标用户之间的相似度,从所述M个目标用户中确定出与目标用户j之间的相似度满足预设条件的K个目标用户,并将所述K个目标用户确定为所述目标用户j的相似用户;所述目标用户j为所述M个目标用户中的任一目标用户;K为小于M的正整数;
将所述目标用户j的相似用户的对象操作序列包括的多个对象推送至所述目标用户的用户终端。
在一种可能的实施方式中,所述根据所述M个目标用户中每个目标用户的特征向量,计算所述M个目标用户之间的相似度,包括:
获取所述每个目标用户的特征数据,根据所述每个目标用户的特征数据分别构建所述每个目标用户的特征矩阵;
根据所述每个目标用户的特征矩阵,计算所述M个目标用户之间的第一初始相似度;
根据所述每个目标用户的特征向量,计算所述M个目标用户之间的第二初始相似度;
根据所述第一初始相似度和所述第二初始相似度,确定所述M个目标用户之间的相似度。
在一种可能的实施方式中,所述得到所述目标用户的特征向量之后,所述方法还包括:
将所述目标用户的特征向量输入预训练的决策树模型;
利用所述预训练的决策树模型包括的至少一个决策树对所述目标用户的特征向量进行特征划分,以确定所述目标用户的特征向量在所述至少一个决策树中的每个决策树中所在的叶子节点;
根据所述所在的叶子节点确定所述目标用户的预测分类值;
根据所述预测分类值确定所述目标用户的目标类别。
一方面,本申请实施例提供了一种用户特征向量确定装置,该装置包括:
获取模块,用于获取数据集;所述数据集包括由样本用户操作过的多个对象组成的对象操作序列;
确定模块,用于根据所述对象操作序列确定所述样本用户的正样本序列;所述正样本序列包括对所述对象操作序列中的一个或多个进行替换操作后得到的对象操作序列中的所有对象;
输入模块,用于将所述对象操作序列和所述正样本序列输入初始的神经网络模型,得到所述对象操作序列的第一向量以及所述正样本序列的第二向量;
训练模块,用于利用所述第一向量和所述第二向量训练所述初始的神经网络模型,得到训练后的神经网络模型;
所述输入模块,还用于获取目标用户的对象操作序列,将所述目标用户的对象操作序列输入所述训练后的神经网络模型,得到所述目标用户的特征向量。
一方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,其中,存储器用于存储计算机程序,该计算机程序包括程序指令,处理器被配置用于调用该程序指令,以执行上述方法中的部分或全部步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时,用于执行上述方法中的部分或全部步骤。
本申请实施例中,获取数据集,该数据集包括由样本用户操作过的多个对象组成的对象操作序列,根据对象操作序列确定样本用户的正样本序列,将对象操作序列和正样本序列输入初始的神经网络模型,得到对象操作序列的第一向量以及正样本序列的第二向量,利用第一向量和第二向量训练初始的神经网络模型,得到训练后的神经网络模型,获取目标用户的对象操作序列,将目标用户的对象操作序列输入训练后的神经网络模型,得到目标用户的特征向量。通过实施本申请实施例所提出的方法,可以利用样本用户的对象操作序列和正样本序列训练初始的神经网络模型,得到可以用于生成目标用户的特征向量的训练后的神经网络模型,该模型可以很好的学习到多个样本用户之间针对特征的共同之处和/或不同之处,以使得特征向量所表征的目标用户特征更全面,进而可以提高生成的特征向量的应用效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种用户特征向量确定方法的流程示意图;
图2为本申请实施例提供的一种用户特征向量确定方法的流程示意图;
图3为本申请实施例提供的一种训练模型的场景示意图;
图4为本申请实施例提供的一种用户特征向量确定装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例提出的用户特征向量确定方法实现于电子设备,该电子设备可以为终端设备或服务器。其中,终端设备可以为智能手机、平板电脑、笔记本电脑、台式计算机等。服务器可以是独立的服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。本申请涉及区块链技术,电子设备可将涉及的数据如多个目标用户的特征向量等写入区块链中,以便于电子设备可以在区块链上获取所需信息,如指定的目标用户的特征向量;或者还可以将得到的每个目标用户的相似用户写入区块链中,当需要对目标用户进行推荐时,可以在区块链上获取该相似用户,并将该相似用户所操作过的对象推送给目标用户。
在一些实施例中,电子设备可根据实际的业务需求,执行该用户特征向量确定方法,以提高所生成的特征向量的应用效果。例如,本申请技术方案可以应用于推荐场景中,电子设备根据目标用户在推荐场景下针对指定对象(如商品、图书等)的操作行为得到目标用户的对象操作序列,并将该对象操作序列输入训练后的神经网络模型中,得到目标用户的特征向量,后续可以将目标用户应用到下游任务中,如可以是利用多个目标用户的特征向量得到多个目标用户之间的相关度,并在推荐场景下基于相关度实现该指定对象的精准推送,或者,可以利用目标用户的特征向量对目标用户进行分类,后续可以对不同群体进行兴趣分析等;该训练后的神经网络模型可以是利用多个样本用户的对象操作序列并采用对比学习方式训练得到的。
可以理解的是,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述的描述,本申请实施例提出了一种用户特征向量确定方法,该方法可以由上述提及的电子设备来执行。如图1所示,本申请实施例的用户特征向量确定方法的流程可以包括如下:
S101、获取数据集;该数据集包括由样本用户操作过的多个对象组成的对象操作序列。
其中,样本用户操作过的多个对象可以为样本用户在对应的用户终端的界面上所显示的且触控过的多个对象,如点击过或者购买过的对象等,以及该界面可以是应用程序提供的界面,或者可以是小程序提供的界面,或者可以是网页程序提供的界面等,该对象可以是界面上显示的目标元素,如商品、新闻、图书等等,此处对对象不作限制。
可选的,在一些实施例中,上述对象可以根据具体的应用场景确定,如根据具体的推荐场景确定,例如,若推荐场景为电商产品推荐场景,则对象可以是电商产品,若推荐场景为图书推荐场景,则对象可以是图书等等。
在一些实施例中,电子设备可以根据样本用户操作过的多个对象组成样本用户的对象操作序列,以作为数据集,具体可以是获取样本用户在预设时间段内(如3个月内)的对象操作记录,并根据该对象操作记录得到样本用户操作过的多个对象,并根据样本用户针对该多个对象的操作时间按照倒序对多个对象进行排列得到样本用户的对象操作序列,此时,在不同的样本用户的对象操作序列中,包括的对象个数可以相同也可以不同;或者,也可以是获取指定数量(如100)个样本用户操作过的对象,并根据样本用户针对该指定数量个对象的操作时间按照倒序对该指定数量个对象进行排列得到样本用户的对象操作序列,此时,在不同样本用户的对象操作序列中,包括的对象个数相同;可选的,该操作可以是点击操作等。
在一些实施例中,电子设备可以构建样本用户集合,该样本用户集合可以用于训练初始的神经网络模型,因此该样本用户可以是从样本用户集合中随机选取的样本用户,也可以是根据样本用户集合中每个样本用户的特征选取的样本用户,该样本用户可以有多个,当样本用户为多个时,即实现以批量数据对模型进行训练。例如,可以根据样本用户集合中每个样本用户的特征数据(如样本用户的性别、年龄、职业等)对样本用户进行分类,从属于同一类别的样本用户子集中随机选取多个样本用户。
S102、根据对象操作序列确定样本用户的正样本序列。
在一些实施例中,正样本序列可以包括对样本用户的对象操作序列中的一个或多个对象进行替换操作后得到的对象操作序列中的所有对象。替换操作表示将该一个或多个对象替换为同类别的其他对象。因此,电子设备根据根据对象操作序列确定样本用户的正样本序列具体可以是,从样本用户的对象操作序列包括的多个对象中选取目标数量个对象,并获取与所选取的对象类别相同的对象,在对象操作序列中,将所选取的对象替换为该与所选取的对象类别相同的对象,得到样本用户的正样本序列;目标数量可以为一个或多个。
例如,样本用户的对象操作序列为【对象1、对象2、对象3、.....、对象N】,在该对象操作序列中所选取的对象为对象2,以及设与该对象2类别相同的对象为对象M,因此得到正样本序列为【对象1、对象M、对象3、.....、对象N】。
S103、将对象操作序列和正样本序列输入初始的神经网络模型,得到对象操作序列的第一向量以及正样本序列的第二向量。
在一个可能的实施方式中,该神经网络模型可以是transformer模型,电子设备可以将样本用户的对象操作序列和正样本序列输入初始的transformer模型,并利用transformer模型中的编码器部分得到样本用户的对象操作序列的第一向量和样本用户的正样本序列的第二向量。因此,在对初始的神经网络模型的训练过程中,训练的是神经网络模型中编码器部分。
在一些实施例中,电子设备利用神经网络模型得到样本用户的对象操作序列的第一向量以及样本用户的正样本序列的第二向量具体可以是,通过初始的神经网络模型得到样本用户的对象操作序列的初始向量集合,该初始向量集合包括对象操作序列包括的多个对象中每个对象的初始向量,分别对每个对象的初始向量进行均值处理,得到每个对象的均值处理结果,将由每个对象的均值处理结果组成的向量,确定为样本用户的对象操作序列的第一向量。即,将对象操作序列输入初始的神经网络模型,可以通过神经网络模型中包括的编码器对对象操作序列包括的多个对象进行编码处理,得到每个对象对应的初始向量,并可以基于每个对象对应的初始向量得到样本用户的对象操作序列的第一向量。可选的,可以是在初始的神经网络模型中基于每个对象对应的初始向量得到样本用户的对象操作序列的第一向量,也可以是由电子设备基于每个对象对应的初始向量得到样本用户的对象操作序列的第一向量。
例如,对象操作序列为【对象1、对象2、对象3、.....、对象N】,每个对象对应的初始向量依次为【初始向量1、初始向量2、初始向量3、.....、初始向量N】,并对每个初始向量进行均值处理,得到每个对象的均值处理结果(设对象1的初始向量1的均值处理结果为均值1、对象2的初始向量2的均值处理结果为均值2、对象3的初始向量3的均值处理结果为均值3、.....、对象N的初始向量N的均值处理结果为均值N),因此可以将每个对象的均值处理结果所组成的向量【均值1、均值2、均值3、.....、均值N】,作为对象操作序列的第一向量。
可选的,电子设备得到样本用户的对象操作序列的第一向量还可以是,通过初始的神经网络模型得到对象操作序列中每个对象的初始向量,并确定每个对象的权重参数,利用每个对象的权重参数对每个对象的初始向量进行加权求和,得到对象操作序列的第一向量。每个对象的权重参数可由相关业务人员根据经验值设置。
S104、利用第一向量和第二向量训练初始的神经网络模型,得到训练后的神经网络模型。
可选的,样本用户可以为N个,N为大于1的整数,因此数据集可以包括N个样本用户中每个样本用户的对象操作序列,样本用户的正样本序列可以为每个样本用户的正样本序列,对象操作序列的第一向量可以包括N个样本用户中每个样本用户的对象操作序列的第一向量,正样本序列的第二向量包括N个样本用户中每个样本用户的正样本序列的第二向量。
因此,在一个可能的实施方式中,电子设备可以基于对比学习的方式并利用第一向量和第二向量对初始的神经网络模型进行训练,具体可以是,将N个样本用户中每个样本用户的正样本序列的第二向量作为每个样本用户的对象操作序列的第一向量对应的正样本,并将多个样本用户中其余样本用户的对象操作序列的第一向量和正样本序列的第二向量作为每个样本用户的对象操作序列的第一向量对应的负样本,并利用对象操作序列的第一向量、正样本和负样本对初始的神经网络模型进行训练,得到训练后的神经网络模型。利用该训练后的神经网络模型所得到的目标用户的特征向量可以表示目标用户针对对象的操作行为特征,如针对对象的点击行为特征,两个目标用户的特征向量的距离越近,表示两个目标用户越相似,针对对象的操作行为也相似。
由于此处训练模型,可以通过设置正样本和负样本实现以对比学习的方式训练模型,该方式为自监督学习,因此可以通过未进行标注的数据集以及设置该数据集的正样本和负样本进行模型训练,在模型训练过程中,目的就是让学习到的输入的对象操作序列的特征和正样本的特征更相似,因此正样本序列应为与对象操作序列相似的序列,即此处将对象操作序列中随机选取的一个(或多个)对象替换为同类别的目标对象以作为该对象操作序列的正样本序列,随机选取的方式可以提高模型的泛化能力,以及在模型训练过程中还需要让学习到的输入的对象操作序列的特征同时和N-1个负样本的特征更不相似,由于不同的样本用户的对象操作序列不同,因此可以直接将某一轮模型训练中同一批量的样本用户中的其他样本用户的对象操作序列和正样本序列对应的向量作为负样本。
以及,模型训练目标可以理解为使得越不同的序列预测到的向量的距离越远,如果不存在正样本(或负样本),仅是利用其他样本用户的对象操作序列作为负样本(或仅利用正样本)来训练,只能实现使得学习到的输入的对象操作序列的特征和N-1个负样本的特征更不相似(或只能实现使得学习到的输入的对象操作序列的特征与正样本的特征更相似),并没有正样本(或负样本)的特征来对学习到的对象操作序列的特征进行约束,因此在模型训练时,对于样本用户i而言,正样本和负样本需要互相存在。不同样本用户的对象操作序列和正样本序列通常是不同的,因此对于一个样本用户而言,仅替换一个对象的对象操作序列作为正样本序列,使得对象操作序列与正样本序列(可以理解为正的参照物)的预测向量的距离越近,以及将其他样本用户的对象操作序列和正样本序列作为负样本,使得该样本用户的对象操作序列与负样本的距离越远(可以理解为负的参照物)。
通过结合正样本和负样本可以使得训练后的神经网络模型从对象操作序列中学习到更多特征,后续通过该训练后的神经网络模型预测得到的目标用户的特征向量所涵盖的目标用户的特征可以更准确和完整,从而在后续应用中针对目标用户的特征向量所取得的应用效果更高,如在推荐场景中,利用目标用户的特征向量可以获取到更准确的相似用户,以实现精准推送。
S105、获取目标用户的对象操作序列,将目标用户的对象操作序列输入训练后的神经网络模型,得到目标用户的特征向量。
在一个可能的实现方式中,目标用户可以有一个或多个,如可为推荐场景下任一或多个待推荐的用户,电子设备将目标用户的对象操作序列输入训练后的神经网络模型得到目标用户的特征向量,即可以将训练后的神经网络模型对对象操作序列所输出的向量作为目标用户的特征向量,以用于下游任务,如目标用户的推荐任务或目标用户的分类任务等。
本申请实施例中,电子设备可以获取数据集,该数据集包括由样本用户操作过的多个对象组成的对象操作序列,根据对象操作序列确定样本用户的正样本序列,将对象操作序列和正样本序列输入初始的神经网络模型,得到对象操作序列的第一向量以及正样本序列的第二向量,利用第一向量和第二向量训练初始的神经网络模型,得到训练后的神经网络模型,获取目标用户的对象操作序列,将目标用户的对象操作序列输入训练后的神经网络模型,得到目标用户的特征向量。通过实施本申请实施例所提出的方法,可以利用样本用户的对象操作序列和正样本序列训练初始的神经网络模型,得到可以用于生成目标用户的特征向量的训练后的神经网络模型,该模型可以很好的学习到多个样本用户之间针对特征的共同之处和/或不同之处,以使得特征向量所表征的目标用户特征更全面,进而可以提高生成的特征向量的应用效果。
请参见图2,图2为本申请实施例提供的一种用户特征向量确定方法的流程示意图,该方法可以由上述提及的电子设备执行。如图2所示,本申请实施例中用户特征向量确定方法的流程可以包括如下:
S201、获取数据集;该数据集包括由样本用户操作过的多个对象组成的对象操作序列。其中,步骤S201的具体实施方式可参见上述步骤S101的相关描述。
S202、根据对象操作序列确定样本用户的正样本序列。
在一个可能的实施方式中,电子设备可以构建预设类别词典,该预设类别词典记录了对象集合中每个对象与类别集合中的所属类别之间的映射关系。
其中,对象集合可以是根据样本用户集合中每个样本用户的对象操作序列(或对象操作记录)中包含的多个对象所构建的;或者根据推荐场景下所有目标用户的对象操作序列(或对象操作记录)中包含的多个对象所构建的;或者,通过统计推荐场景下用于存储对象信息的数据库中的所有对象,以构建对象集合。例如,在图书推荐场景下,对象为图书,因此电子设备可以根据样本用户集合中每个样本用户的图书点击序列(或图书点击记录)中包含的多个图书构建图书集合;或者,可以根据图书管理平台上所有用户的图书点击序列(或图书点击记录)所统计到的图书信息构建图书集合;或者可以根据存储图书信息的数据库中的所有图书信息构建图书集合。在得到对象集合后,确定对象集合中每个对象的类别,并根据对象集合中每个对象的类别构建得到类别集合。
因此,电子设备建立对象集合中的每个对象与类别集合中每个对象所属类别之间的映射关系,根据映射关系构建得到预设类别词典。例如,设对象集合为r,类别集合为c,类别词典为D,r>>c,设目标对象为rp(rp表示为对象集合r中的第p个对象),因此类别词典中包括的对象rp到类别ct的映射关系为D(rp)=ct,表示对象集合r中第p个样本对象所属类别为类别集合c中第t个类别。以图书推荐场景为例,图书集合的类别集合可以包括:都市、言情、武侠、玄幻、悬疑、游戏、推理等。
在一些实施例中,电子设备根据对象操作序列确定样本用户的正样本序列具体可以是,从样本用户的对象操作序列中随机选取目标数量个对象,从预设类别词典中查找与选取的对象具有相同类别的目标对象,将对象操作序列中的随机选取的目标数量个对象替换为目标对象,并将替换后的对象操作序列中的所有对象作为样本用户的正样本序列。其中,所随机选择的目标数量个对象可以为对象操作序列中的一个或多个对象。
例如,电子设备可以根据类别词典确定选取的对象的类别,并根据类别词典和选取的对象的类别在对象集合中确定出对象子集,该对象子集中包括与选取的对象的类别相同的所有对象(不包括该选取的对象),从对象子集随机选取一个对象作为与选取的对象的类别相同的对象,以用于在对象操作序列中将该选取的对象进行替换。
S203、将对象操作序列和正样本序列输入初始的神经网络模型,得到对象操作序列的第一向量以及正样本序列的第二向量。其中,步骤S203的具体实施方式可参见上述步骤S103的相关描述。
S204、利用第一向量和第二向量训练初始的神经网络模型,得到训练后的神经网络模型。
在一个可能的实施方式中,若样本用户为N个,N为大于1的整数,则数据集包括N个样本用户中每个样本用户的对象操作序列,样本用户的正样本序列为每个样本用户的正样本序列,对象操作序列的第一向量包括N个样本用户中每个样本用户的对象操作序列的第一向量,正样本序列的第二向量包括N个样本用户中每个样本用户的正样本序列的第二向量。电子设备利用第一向量和第二向量训练初始的神经网络模型的具体方式可以是,根据N个样本用户中每个样本用户的正样本序列的第二向量,确定每个样本用户的对象操作序列的第一向量对应的正样本,即可以是将每个样本用户的正样本序列的第二向量确定为每个样本用户的对象操作序列的第一向量对应的正样本,并根据N个样本用户中除样本用户i以外的各个样本用户的对象操作序列的第一向量以及各个样本用户的正样本序列的第二向量,确定样本用户i的对象操作序列的第一向量对应的负样本,利用每个样本用户的对象操作序列的第一向量、每个样本用户的对象操作序列的第一向量对应的正样本、每个样本用户的对象操作序列的第一向量对应的负样本,训练初始的神经网络模型;其中,i依次取1至N之间的整数。
因此,每个样本用户的对象操作序列的第一向量对应的正样本是通过该样本用户的正样本序列的第二向量得到的,每个样本用户的对象操作序列的第一向量对应的负样本是通过其他样本用户的对象操作序列的第一向量和正样本序列的第二向量得到的。可以通过结合正样本和负样本以对比学习的方式对模型进行训练。
例如,多个样本用户包含样本用户1、样本用户2、样本用户3,对于样本用户1来说,设样本用户1的对象点击序列对应的第一向量为Eu1,样本用户1的正样本序列的第二向量为样本用户2的对象点击序列对应的第一向量为Eu2,样本用户2的正样本序列的第二向量为/>样本用户3的对象点击序列对应的第一向量为Eu3,样本用户3的正样本序列的第二向量为/>因此在模型训练时,样本用户1的对象点击序列对应的第一向量的正样本为以及负样本为Eu2、/>和/>样本用户2的对象点击序列对应的第一向量的正样本为/>以及负样本为Eu1、/>Eu3和/>样本用户3的对象点击序列对应的第一向量的正样本为/>以及负样本为Eu1、/>Eu2和/>
在一些实施例中,由于每个样本用户的对象点击序列或正样本序列包含的多个对象的个数可能不同,因此得到第一向量或第二向量中的元素个数可能不同,因此在利用第一向量和第二向量对模型进行训练时,需对第一向量和/或第二向量进行插值处理(padding处理)以使每个样本用户的对象点击序列对应的第一向量和正样本序列的第二向量中包含的元素个数相同,该插值处理可以是在第一向量和/或第二向量后插入指定值,如0(即补零操作)等,此处对插入的指定值不作限定。
在一个可能的实施方式中,电子设备利用每个样本用户的对象操作序列的第一向量、每个样本用户的对象操作序列对象的第一向量对应的正样本、每个样本用户的对象操作序列的第一向量对应的负样本训练初始的神经网络模型具体可以是,利用第一向量、第一向量对应的正样本和对应的负样本得到损失函数的值,利用损失函数的值修正初始的神经网络模型的模型参数,直至模型收敛,得到训练后的神经网络模型。
其中,电子设备利用第一向量、第一向量对应的正样本和对应的负样本得到损失函数的值具体可以是,利用样本用户i的对象操作序列的第一向量、该第一向量对应的正样本和对应的负样本得到样本用户i对应的初始损失值,根据每个样本用户对应的初始损失值之和得到损失函数的值。即可以是,
其中,B表示数据集的多个样本用户,Lui表示样本用户i对应的初始损失值。
可选的,Lui可以通过如下方式计算:
其中,Eui表示样本用户i的对象操作序列的第一向量,表示样本用户i的对象操作序列的第一向量对应的正样本,Ek和/>表示样本用户i的对象操作序列的第一向量对应的负样本(也即Ek表示多个样本用户中除样本用户i以外的样本用户的对象操作序列的第一向量和/>表示除样本用户i以外的样本用户的正样本序列的第二向量);sim()可以表示两个向量的相似度,即计算方式可以为:
例如,如图3所示,图3为本申请实施例提供的一种训练模型的场景示意图,其中,多个样本用户包含样本用户1、样本用户2、样本用户3,对于样本用户1来说,设样本用户1的对象点击序列为Ru1以及正样本序列为样本用户2的对象点击序列为Ru2以及正样本序列为/>样本用户3的对象点击序列为Ru3以及正样本序列为/>因此将Ru1、/>Ru2Ru3和/>依次输入初始的神经网络模型,得到Ru1对应的第一向量为Eu1,/>对应的第二向量为/>Ru2对应的第一向量为Eu2,/>对应的第二向量为/>Ru3对应的第一向量为Eu3,/>对应的第二向量为/>可选的,可以对前述第一向量和/或第二向量进行插值处理,利用插值处理后的第一向量和/或第二向量并以对比学习的方式对模型进行训练,得到训练后的神经网络模型。
S205、获取目标用户的对象操作序列,将目标用户的对象操作序列输入训练后的神经网络模型,得到目标用户的特征向量。其中,步骤S205的具体实施方式可参见上述步骤S105的相关描述。
S206、若目标用户为M个,根据M个目标用户中每个目标用户的特征向量,确定每个目标用户对应的相似用户,并将每个目标用户对应的相似用户的对象操作序列包括的多个对象推送至每个目标用户的用户终端。
在一个可能的实施方式中,若目标用户为M个时,电子设备可以根据M个目标用户中每个目标用户的特征向量,计算M个目标用户之间的相似度,并从M个目标用户中确定出每个目标用户对应的相似用户。其中,电子设备确定每个目标用户的相似用户的过程和原理相同,此处以确定目标用户j的相似用户为例进行说明,目标用户j述M个目标用户中的任一目标用户,因此电子设备确定目标用户j的相似用户具体可以是,根据M个目标用户之间的相似度,从M个目标用户中确定出与目标用户j之间的相似度满足预设条件的K个目标用户,并将K个目标用户确定为目标用户j的相似用户;K为小于M的正整数。
其中,预设条件可以是将M个目标用户中与目标用户j之间的相似度大于相似度阈值的相似用户确定为K个目标用户,相似度阈值可由相关业务人员根据经验值设定;或者还可以是,根据相似度对M个目标用户除目标用户j以外的各目标用户按降序的顺序进行排序,从排序后的除目标用户j以外的各目标用户中确定出K个目标用户,此时K可由相关业务人员根据经验值设定。在得到每个目标用户的相似用户之后,可以将相似用户的对象操作序列包括的多个对象推送至每个目标用户的用户终端,以实现精准推送。
例如,在图书推荐场景中,获取目标用户1对应的特征向量、目标用户2、目标用户3和目标用户4分别对应的特征向量,以目标用户1为例,将目标用户1对应的特征向量和目标用户2对应的特征向量代入向量余弦值公式得到目标用户1和目标用户2之间的相似度,将目标用户1对应的特征向量和目标用户3对应的特征向量代入向量余弦值公式得到目标用户1和目标用户3之间的相似度,将目标用户1对应的特征向量和目标用户4对应的特征向量代入向量余弦值公式得到目标用户1和目标用户4之间的相似度,将目标用户2-4中相似度大于相似度阈值的目标用户作为目标用户1的相似用户;或者,利用相似度对目标用户2-4进行排序,从排序后的目标用户2-4中选取K个目标用户作为目标用户1的相似用户,并将该相似用户的图书点击序列包括的多个图书推送至目标用户1的用户终端。
在一个可能的实施方式中,电子设备根据M个目标用户中每个目标用户的特征向量,计算M个目标用户之间的相似度具体可以是,利用向量余弦值公式计算每两个目标用户的特征向量之间的值,以作为该两个目标用户之间的相似度;或者,根据M个目标用户中每个目标用户的特征向量,计算M个目标用户之间的相似度具体还可以是,获取每个目标用户的特征数据,并根据每个目标用户的特征数据分别构建每个目标用户对应的特征矩阵,根据每个目标用户对应的特征矩阵和对应的特征向量,计算M个目标用户之间的相似度。其中,目标用户的特征数据可以包括目标用户多种维度的特征,如可以是目标用户的年龄、性别、职业、操作次数最高的对象(如点击次数最多的图书)以及最喜欢的对象类别(如最喜欢的图书类别)等等。
其中,根据每个目标用户的特征数据分别构建每个目标用户对应的特征矩阵具体可以是,对目标用户的特征数据进行热独编码,得到特征数据包括的多种特征分别对应的初始向量,根据多种特征分别对应的初始向量得到目标用户的特征矩阵。例如,目标用户的特征数据中包含年龄特征,设将年龄特征划分为[<18,19-30,31-40,41-50,51-60,>60],若该目标用户的年龄为24,则进行热独编码所得到的年龄特征对应的初始向量可以表示为[0,1,0,0,0,0]。
在一个可能的实施方式中,电子设备根据每个目标用户对应的特征矩阵和对应的特征向量,计算M个目标用户之间的相似度具体可以是,根据每个目标用户的特征矩阵,计算M个目标用户之间的第一初始相似度,并根据每个目标用户的特征向量,计算M个目标用户之间的第二初始相似度,根据第一初始相似度和第二初始相似度,确定M个目标用户之间的相似度。
其中,以目标用户j为例,电子设备根据每个目标用户的特征矩阵,计算M个目标用户之间的第一初始相似度具体可以是,利用距离公式计算目标用户j的特征矩阵与其余每个用户的特征矩阵之间的矩阵距离,并对其余每个用户的矩阵距离进行归一化处理,根据归一化处理后的矩阵距离确定第一初始相似度。电子设备根据归一化处理后的矩阵距离确定第一初始相似度具体可以是,将[1-归一化处理后的矩阵距离]的值作为目标用户j的特征矩阵与其余每个用户的特征矩阵的第一初始相似度,由此得到M个目标用户之间的第一初始相似度。例如,对目标用户1的特征矩阵与目标用户2-4的特征矩阵之间的矩阵距离进行归一化处理,得到目标用户2对应的归一化处理后的矩阵距离,并将[1-归一化处理后的矩阵距离]作为目标用户2的第一初始相似度。以及电子设备根据每个目标用户的特征向量,计算M个目标用户之间的第二初始相似度具体可以是,利用向量余弦值公式计算目标用户j对应的特征向量与其余每个用户对应的特征向量之间的余弦值,以作为第二初始相似度,由此得到M个目标用户之间的第二初始相似度。
在一些实施例中,电子设备根据第一初始相似度和第二初始相似度,确定M个目标用户之间的相似度具体可以是,获取第一初始相似度的第一权重参数和第二初始相似度的第二权重参数,利用第一权重参数对第一初始相似度进行加权,利用第二权重参数对第二初始相似度进行加权,将加权后的第一初始相似度和加权后的第二初始相似度求和得到M个目标用户之间的相似度。后续,可以基于该相似度确定每个目标用户的相似用户。
在一个可能的实施方式中,除了可以利用特征向量得到目标用户的相似用户,还可以对目标用户进行用户类别的分类,以进行群体分析,如分析具有相同对象类别喜好的目标用户群体(即为相同用户类别的目标用户群体)的年龄分布等。该对目标用户进行分类的用户类别可以有多个,以及可由相关业务人员根据实际业务需求设置。可选的,电子设备利用目标用户的特征向量对目标用户进行分类可以是利用k-means聚类算法实现,或者,也可以是构建决策树模型并通过样本用户对应的特征向量和样本用户的用户类别(此处训练模型的样本用户可以与上述训练初始的神经网络模型所使用的样本用户相同也可以是另外的样本用户)对该决策树模型进行训练,训练完成后,电子设备可以将目标用户的特征向量输入预训练的决策树模型,利用预训练的决策树模型包括的至少一个决策树对目标用户的特征向量进行特征划分,以确定目标用户的特征向量在至少一个决策树中的每个决策树中所在的叶子节点,根据所在的叶子节点确定目标用户的预测分类值,根据预测分类值确定目标用户的目标类别;该预训练的决策树模型可以用于对目标用户进行分类,目标类别属于用户类别。
其中,电子设备根据所在的叶子节点确定目标用户的预测分类值可以是将所在叶子节点表示的数值之和确定为预测分类值。以及根据预测分类值确定目标用户的目标类别可以是建立预测分类值与用户类别的对应关系表,在得到目标用户的预测分类值后根据对应关系表得到该目标用户的在用户类别中的目标类别。
本申请实施例中,电子设备可以获取数据集,该数据集包括由样本用户操作过的多个对象组成的对象操作序列,根据对象操作序列确定样本用户的正样本序列,将对象操作序列和正样本序列输入初始的神经网络模型,得到对象操作序列的第一向量以及正样本序列的第二向量,利用第一向量和第二向量训练初始的神经网络模型,得到训练后的神经网络模型,获取目标用户的对象操作序列,将目标用户的对象操作序列输入训练后的神经网络模型,得到目标用户的特征向量,若目标用户为M个,根据M个目标用户中每个目标用户的特征向量,确定每个目标用户对应的相似用户,并将每个目标用户对应的相似用户的对象操作序列包括的多个对象推送至每个目标用户的用户终端。通过实施本申请实施例所提出的方法,可以利用样本用户的对象操作序列和正样本序列训练初始的神经网络模型,得到可以用于生成目标用户的特征向量的训练后的神经网络模型,可以提高生成的特征向量的应用效果,即可以根据特征向量获取到目标用户所对应的更准确的相似用户,进而可以实现精准推荐。
请参见图4,图4为本申请提供的一种用户特征向量确定装置的结构示意图。需要说明的是,图4所示的用户特征向量确定装置,用于执行本申请图1和图2所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示,经参照本申请图1和图2所示的实施例。该用户特征向量确定装置400可包括:获取模块401、确定模块402、输入模块403、训练模块404。其中:
获取模块401,用于获取数据集;所述数据集包括由样本用户操作过的多个对象组成的对象操作序列;
确定模块402,用于根据所述对象操作序列确定所述样本用户的正样本序列;所述正样本序列包括对所述对象操作序列中的一个或多个进行替换操作后得到的对象操作序列中的所有对象;
输入模块403,用于将所述对象操作序列和所述正样本序列输入初始的神经网络模型,得到所述对象操作序列的第一向量以及所述正样本序列的第二向量;
训练模块404,用于利用所述第一向量和所述第二向量训练所述初始的神经网络模型,得到训练后的神经网络模型;
所述输入模块403,还用于获取目标用户的对象操作序列,将所述目标用户的对象操作序列输入所述训练后的神经网络模型,得到所述目标用户的特征向量。
在一个可能的实施方式中,所述确定模块402在用于根据所述对象操作序列确定所述样本用户的正样本序列时,具体用于:
从所述样本用户的对象操作序列中随机选取目标数量个对象;
从预设类别词典中查找与选取的对象具有相同类别的目标对象;
将所述对象操作序列中随机选取的目标数量个对象替换为所述目标对象,并将替换后的对象操作序列中的所有对象作为所述样本用户的正样本序列。
在一个可能的实施方式中,所述输入模块403在用于得到所述对象操作序列的第一向量时,具体用于:
获取所述样本用户的对象操作序列的初始向量集合;所述初始向量集合包括所述对象操作序列包括的多个对象中每个对象的初始向量;
分别对每个对象的初始向量进行均值处理,得到所述每个对象的均值处理结果;
将由所述每个对象的均值处理结果组成的向量,确定为所述样本用户的对象操作序列的第一向量。
在一个可能的实施方式中,所述样本用户为N个,所述N为大于1的整数,所述数据集包括所述N个样本用户中每个样本用户的对象操作序列,所述样本用户的正样本序列为所述每个样本用户的正样本序列,所述对象操作序列的第一向量包括所述N个样本用户中每个样本用户的对象操作序列的第一向量,所述正样本序列的第二向量包括所述N个样本用户中每个样本用户的正样本序列的第二向量;
所述训练模块404在用于利用所述第一向量和所述第二向量训练所述初始的神经网络模型,得到训练后的神经网络模型时,具体用于:
根据所述N个样本用户中每个样本用户的正样本序列的第二向量,确定所述每个样本用户的对象操作序列的第一向量对应的正样本;
根据所述N个样本用户中除样本用户i以外的各个样本用户的对象操作序列的第一向量以及所述各个样本用户的正样本序列的第二向量,确定所述样本用户i的对象操作序列的第一向量对应的负样本;i依次取1至N之间的整数;
利用所述每个样本用户的对象操作序列的第一向量、所述每个样本用户的对象操作序列的第一向量对应的正样本、所述每个样本用户的对象操作序列的第一向量对应的负样本,训练所述初始的神经网络模型。
在一个可能的实施方式中,所述目标用户为M个,所述M为大于1的整数;所述输入模块403在用于得到所述目标用户的特征向量之后,还用于:
根据所述M个目标用户中每个目标用户的特征向量,计算所述M个目标用户之间的相似度;
根据所述M个目标用户之间的相似度,从所述M个目标用户中确定出与目标用户j之间的相似度满足预设条件的K个目标用户,并将所述K个目标用户确定为所述目标用户j的相似用户;所述目标用户j为所述M个目标用户中的任一目标用户;K为小于M的正整数;
将所述目标用户j的相似用户的对象操作序列包括的多个对象推送至所述目标用户的用户终端。
在一个可能的实施方式中,所述输入模块403在用于根据所述M个目标用户中每个目标用户的特征向量,计算所述M个目标用户之间的相似度,还用于:
获取所述每个目标用户的特征数据,根据所述每个目标用户的特征数据分别构建所述每个目标用户的特征矩阵;
根据所述每个目标用户的特征矩阵,计算所述M个目标用户之间的第一初始相似度;
根据所述每个目标用户的特征向量,计算所述M个目标用户之间的第二初始相似度;
根据所述第一初始相似度和所述第二初始相似度,确定所述M个目标用户之间的相似度。
在一个可能的实施方式中,所述输入模块403在用于得到所述目标用户的特征向量之后,还用于:
将所述目标用户的特征向量输入预训练的决策树模型;
利用所述预训练的决策树模型包括的至少一个决策树对所述目标用户的特征向量进行特征划分,以确定所述目标用户的特征向量在所述至少一个决策树中的每个决策树中所在的叶子节点;
根据所述所在的叶子节点确定所述目标用户的预测分类值;
根据所述预测分类值确定所述目标用户的目标类别。
本申请实施例中,获取模块获取数据集,数据集包括由样本用户操作过的多个对象组成的对象操作序列;确定模块根据对象操作序列确定样本用户的正样本序列,该正样本序列包括对对象操作序列中的一个或多个进行替换操作后得到的对象操作序列中的所有对象;输入模块将对象操作序列和正样本序列输入初始的神经网络模型,得到对象操作序列的第一向量以及正样本序列的第二向量;训练模块利用第一向量和第二向量训练初始的神经网络模型,得到训练后的神经网络模型;输入模块获取目标用户的对象操作序列,将目标用户的对象操作序列输入训练后的神经网络模型,得到目标用户的特征向量。通过实施本申请实施例所提出的装置,可以利用样本用户的对象操作序列和正样本序列训练初始的神经网络模型,得到可以用于生成目标用户的特征向量的训练后的神经网络模型,该模型可以很好的学习到多个样本用户之间针对特征的共同之处和/或不同之处,以使得特征向量所表征的目标用户特征更全面,进而可以提高生成的特征向量的应用效果。
请参见图5,图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示,该电子设备500包括:至少一个处理器501、存储器502。可选的,该电子设备还可包括网络接口。其中,所述处理器501、存储器502以及网络接口之间可以交互数据,网络接口受所述处理器501的控制用于收发消息,存储器502用于存储计算机程序,所述计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令。其中,处理器501被配置用于调用所述程序指令执行上述方法。
所述存储器502可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器502也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;所述存储器502还可以包括上述种类的存储器的组合。
所述处理器501可以是中央处理器501(central processing unit,CPU)。在一个实施例中,所述处理器501还可以是图形处理器501(Graphics Processing Unit,GPU)。所述处理器501也可以是由CPU和GPU的组合。
在一个可能的实施方式中,所述存储器502用于存储程序指令,所述处理器501可以调用所述程序指令,执行以下步骤:
获取数据集;所述数据集包括由样本用户操作过的多个对象组成的对象操作序列;
根据所述对象操作序列确定所述样本用户的正样本序列;所述正样本序列包括对所述对象操作序列中的一个或多个进行替换操作后得到的对象操作序列中的所有对象;
将所述对象操作序列和所述正样本序列输入初始的神经网络模型,得到所述对象操作序列的第一向量以及所述正样本序列的第二向量;
利用所述第一向量和所述第二向量训练所述初始的神经网络模型,得到训练后的神经网络模型;
获取目标用户的对象操作序列,将所述目标用户的对象操作序列输入所述训练后的神经网络模型,得到所述目标用户的特征向量。
在一个可能的实施方式中,所述处理器501在用于根据所述对象操作序列确定所述样本用户的正样本序列时,具体用于:
从所述样本用户的对象操作序列中随机选取目标数量个对象;
从预设类别词典中查找与选取的对象具有相同类别的目标对象;
将所述对象操作序列中随机选取的目标数量个对象替换为所述目标对象,并将替换后的对象操作序列中的所有对象作为所述样本用户的正样本序列。
在一个可能的实施方式中,所述处理器501在用于得到所述对象操作序列的第一向量时,具体用于:
获取所述样本用户的对象操作序列的初始向量集合;所述初始向量集合包括所述对象操作序列包括的多个对象中每个对象的初始向量;
分别对每个对象的初始向量进行均值处理,得到所述每个对象的均值处理结果;
将由所述每个对象的均值处理结果组成的向量,确定为所述样本用户的对象操作序列的第一向量。
在一个可能的实施方式中,所述样本用户为N个,所述N为大于1的整数,所述数据集包括所述N个样本用户中每个样本用户的对象操作序列,所述样本用户的正样本序列为所述每个样本用户的正样本序列,所述对象操作序列的第一向量包括所述N个样本用户中每个样本用户的对象操作序列的第一向量,所述正样本序列的第二向量包括所述N个样本用户中每个样本用户的正样本序列的第二向量;
所述处理器501在用于利用所述第一向量和所述第二向量训练所述初始的神经网络模型,得到训练后的神经网络模型时,具体用于:
根据所述N个样本用户中每个样本用户的正样本序列的第二向量,确定所述每个样本用户的对象操作序列的第一向量对应的正样本;
根据所述N个样本用户中除样本用户i以外的各个样本用户的对象操作序列的第一向量以及所述各个样本用户的正样本序列的第二向量,确定所述样本用户i的对象操作序列的第一向量对应的负样本;i依次取1至N之间的整数;
利用所述每个样本用户的对象操作序列的第一向量、所述每个样本用户的对象操作序列的第一向量对应的正样本、所述每个样本用户的对象操作序列的第一向量对应的负样本,训练所述初始的神经网络模型。
在一个可能的实施方式中,所述目标用户为M个,所述M为大于1的整数;所述处理器501在用于得到所述目标用户的特征向量之后,还用于:
根据所述M个目标用户中每个目标用户的特征向量,计算所述M个目标用户之间的相似度;
根据所述M个目标用户之间的相似度,从所述M个目标用户中确定出与目标用户j之间的相似度满足预设条件的K个目标用户,并将所述K个目标用户确定为所述目标用户j的相似用户;所述目标用户j为所述M个目标用户中的任一目标用户;K为小于M的正整数;
将所述目标用户j的相似用户的对象操作序列包括的多个对象推送至所述目标用户的用户终端。
在一个可能的实施方式中,所述处理器501在用于根据所述M个目标用户中每个目标用户的特征向量,计算所述M个目标用户之间的相似度时,还用于:
获取所述每个目标用户的特征数据,根据所述每个目标用户的特征数据分别构建所述每个目标用户的特征矩阵;
根据所述每个目标用户的特征矩阵,计算所述M个目标用户之间的第一初始相似度;
根据所述每个目标用户的特征向量,计算所述M个目标用户之间的第二初始相似度;
根据所述第一初始相似度和所述第二初始相似度,确定所述M个目标用户之间的相似度。
在一个可能的实施方式中,所述处理器501在用于得到所述目标用户的特征向量之后,还用于:
将所述目标用户的特征向量输入预训练的决策树模型;
利用所述预训练的决策树模型包括的至少一个决策树对所述目标用户的特征向量进行特征划分,以确定所述目标用户的特征向量在所述至少一个决策树中的每个决策树中所在的叶子节点;
根据所述所在的叶子节点确定所述目标用户的预测分类值;
根据所述预测分类值确定所述目标用户的目标类别。
具体实现中,本申请实施例中所描述的装置、处理器501、存储器502等可执行上述方法实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。
本申请实施例中还提供一种计算机(可读)存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使所述处理器可执行上述方法实施例中所执行的部分或全部步骤。可选的,该计算机存储介质可以是易失性的,也可以是非易失性的。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该计算机存储介质可以为计算机可读存储介质,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。

Claims (8)

1.一种用户特征向量确定方法,其特征在于,所述方法包括:
获取数据集;所述数据集包括由样本用户操作过的多个对象组成的对象操作序列;所述对象为样本用户的界面上所显示且触控过的目标元素;
从所述样本用户的对象操作序列中随机选取目标数量个对象;
根据预设类别词典确定选取的对象的类别,并根据所述预设类别词典和选取的对象的类别在对象集合中确定出对象子集,所述对象子集中包括与选取的对象的类别相同的所有对象;
从所述对象子集确定与选取的对象具有相同类别的目标对象,将所述对象操作序列中随机选取的目标数量个对象替换为所述目标对象,并将替换后的对象操作序列中的所有对象作为所述样本用户的正样本序列;所述正样本序列包括对所述对象操作序列中的一个或多个对象进行替换操作后得到的对象操作序列中的所有对象;
将所述对象操作序列和所述正样本序列输入初始的神经网络模型,得到所述对象操作序列的第一向量以及所述正样本序列的第二向量;
利用所述第一向量和所述第二向量训练所述初始的神经网络模型,得到训练后的神经网络模型;
获取目标用户的对象操作序列,将所述目标用户的对象操作序列输入所述训练后的神经网络模型,得到所述目标用户的特征向量;
其中,所述样本用户为N个,所述N为大于1的整数,所述数据集包括所述N个样本用户中每个样本用户的对象操作序列,所述样本用户的正样本序列为所述每个样本用户的正样本序列,所述对象操作序列的第一向量包括所述N个样本用户中每个样本用户的对象操作序列的第一向量,所述正样本序列的第二向量包括所述N个样本用户中每个样本用户的正样本序列的第二向量;所述利用所述第一向量和所述第二向量训练所述初始的神经网络模型,得到训练后的神经网络模型,包括:
根据所述N个样本用户中每个样本用户的正样本序列的第二向量,确定所述每个样本用户的对象操作序列的第一向量对应的正样本;
根据所述N个样本用户中除样本用户i以外的各个样本用户的对象操作序列的第一向量以及所述各个样本用户的正样本序列的第二向量,确定所述样本用户i的对象操作序列的第一向量对应的负样本;i依次取1至N之间的整数;
利用所述每个样本用户的对象操作序列的第一向量、所述每个样本用户的对象操作序列的第一向量对应的正样本、所述每个样本用户的对象操作序列的第一向量对应的负样本,训练所述初始的神经网络模型。
2.根据权利要求1所述的方法,其特征在于,所述得到所述对象操作序列的第一向量,包括:
获取所述样本用户的对象操作序列的初始向量集合;所述初始向量集合包括所述对象操作序列包括的多个对象中每个对象的初始向量;
分别对每个对象的初始向量进行均值处理,得到所述每个对象的均值处理结果;
将由所述每个对象的均值处理结果组成的向量,确定为所述样本用户的对象操作序列的第一向量。
3.根据权利要求1所述的方法,其特征在于,所述目标用户为M个,所述M为大于1的整数;所述得到所述目标用户的特征向量之后,所述方法还包括:
根据所述M个目标用户中每个目标用户的特征向量,计算所述M个目标用户之间的相似度;
根据所述M个目标用户之间的相似度,从所述M个目标用户中确定出与目标用户j之间的相似度满足预设条件的K个目标用户,并将所述K个目标用户确定为所述目标用户j的相似用户;所述目标用户j为所述M个目标用户中的任一目标用户;K为小于M的正整数;
将所述目标用户j的相似用户的对象操作序列包括的多个对象推送至所述目标用户的用户终端。
4.根据权利要求3所述的方法,其特征在于,所述根据所述M个目标用户中每个目标用户的特征向量,计算所述M个目标用户之间的相似度,包括:
获取所述每个目标用户的特征数据,根据所述每个目标用户的特征数据分别构建所述每个目标用户的特征矩阵;
根据所述每个目标用户的特征矩阵,计算所述M个目标用户之间的第一初始相似度;
根据所述每个目标用户的特征向量,计算所述M个目标用户之间的第二初始相似度;
根据所述第一初始相似度和所述第二初始相似度,确定所述M个目标用户之间的相似度。
5.根据权利要求1所述的方法,其特征在于,所述得到所述目标用户的特征向量之后,所述方法还包括:
将所述目标用户的特征向量输入预训练的决策树模型;
利用所述预训练的决策树模型包括的至少一个决策树对所述目标用户的特征向量进行特征划分,以确定所述目标用户的特征向量在所述至少一个决策树中的每个决策树中所在的叶子节点;
根据所述所在的叶子节点确定所述目标用户的预测分类值;
根据所述预测分类值确定所述目标用户的目标类别。
6.一种用户特征向量确定装置,其特征在于,所述装置包括:
获取模块,用于获取数据集;所述数据集包括由样本用户操作过的多个对象组成的对象操作序列;所述对象为样本用户的界面上所显示且触控过的目标元素;
确定模块,用于从所述样本用户的对象操作序列中随机选取目标数量个对象;根据预设类别词典确定选取的对象的类别,并根据所述预设类别词典和选取的对象的类别在对象集合中确定出对象子集,所述对象子集中包括与选取的对象的类别相同的所有对象;从所述对象子集确定与选取的对象具有相同类别的目标对象,将所述对象操作序列中随机选取的目标数量个对象替换为所述目标对象,并将替换后的对象操作序列中的所有对象作为所述样本用户的正样本序列;所述正样本序列包括对所述对象操作序列中的一个或多个进行替换操作后得到的对象操作序列中的所有对象;
输入模块,用于将所述对象操作序列和所述正样本序列输入初始的神经网络模型,得到所述对象操作序列的第一向量以及所述正样本序列的第二向量;
训练模块,用于利用所述第一向量和所述第二向量训练所述初始的神经网络模型,得到训练后的神经网络模型;
所述输入模块,还用于获取目标用户的对象操作序列,将所述目标用户的对象操作序列输入所述训练后的神经网络模型,得到所述目标用户的特征向量;
其中,所述样本用户为N个,所述N为大于1的整数,所述数据集包括所述N个样本用户中每个样本用户的对象操作序列,所述样本用户的正样本序列为所述每个样本用户的正样本序列,所述对象操作序列的第一向量包括所述N个样本用户中每个样本用户的对象操作序列的第一向量,所述正样本序列的第二向量包括所述N个样本用户中每个样本用户的正样本序列的第二向量;所述训练模块具体用于:
根据所述N个样本用户中每个样本用户的正样本序列的第二向量,确定所述每个样本用户的对象操作序列的第一向量对应的正样本;
根据所述N个样本用户中除样本用户i以外的各个样本用户的对象操作序列的第一向量以及所述各个样本用户的正样本序列的第二向量,确定所述样本用户i的对象操作序列的第一向量对应的负样本;i依次取1至N之间的整数;
利用所述每个样本用户的对象操作序列的第一向量、所述每个样本用户的对象操作序列的第一向量对应的正样本、所述每个样本用户的对象操作序列的第一向量对应的负样本,训练所述初始的神经网络模型。
7.一种电子设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。
CN202110979364.9A 2021-08-25 2021-08-25 用户特征向量确定方法、相关设备及介质 Active CN113656699B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110979364.9A CN113656699B (zh) 2021-08-25 2021-08-25 用户特征向量确定方法、相关设备及介质
PCT/CN2022/071262 WO2023024408A1 (zh) 2021-08-25 2022-01-11 用户特征向量确定方法、相关设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110979364.9A CN113656699B (zh) 2021-08-25 2021-08-25 用户特征向量确定方法、相关设备及介质

Publications (2)

Publication Number Publication Date
CN113656699A CN113656699A (zh) 2021-11-16
CN113656699B true CN113656699B (zh) 2024-02-13

Family

ID=78481886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110979364.9A Active CN113656699B (zh) 2021-08-25 2021-08-25 用户特征向量确定方法、相关设备及介质

Country Status (2)

Country Link
CN (1) CN113656699B (zh)
WO (1) WO2023024408A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656699B (zh) * 2021-08-25 2024-02-13 平安科技(深圳)有限公司 用户特征向量确定方法、相关设备及介质
CN114756677B (zh) * 2022-03-21 2023-07-25 马上消费金融股份有限公司 样本生成方法、文本分类模型的训练方法及文本分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134783A (zh) * 2018-02-09 2019-08-16 阿里巴巴集团控股有限公司 个性化推荐的方法、装置、设备和介质
CN110415022A (zh) * 2019-07-05 2019-11-05 阿里巴巴集团控股有限公司 处理用户行为序列的方法及装置
CN111160484A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN111461812A (zh) * 2020-02-28 2020-07-28 北京三快在线科技有限公司 对象推荐方法、装置、电子设备及可读存储介质
CN111738311A (zh) * 2020-06-04 2020-10-02 北京字节跳动网络技术有限公司 面向多任务的特征提取方法、装置及电子设备
CN112085565A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 基于深度学习的信息推荐方法、装置、设备及存储介质
CN112307351A (zh) * 2020-11-23 2021-02-02 中国科学院计算技术研究所 用户行为的模型训练、推荐方法、装置和设备
CN112380319A (zh) * 2020-11-12 2021-02-19 平安科技(深圳)有限公司 一种模型训练的方法及相关装置
CN112836081A (zh) * 2021-03-01 2021-05-25 腾讯音乐娱乐科技(深圳)有限公司 一种神经网络模型训练方法、信息推荐方法及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200226476A1 (en) * 2019-01-10 2020-07-16 Visa International Service Association System, Method, and Computer Program Product for Incorporating Knowledge from More Complex Models in Simpler Models
CN110413812B (zh) * 2019-08-06 2022-04-26 北京字节跳动网络技术有限公司 神经网络模型的训练方法、装置、电子设备及存储介质
CN112560880A (zh) * 2019-09-25 2021-03-26 中国电信股份有限公司 目标分类方法、目标分类装置及计算机可读存储介质
CN113127727A (zh) * 2019-12-31 2021-07-16 国信优易数据股份有限公司 信息推荐模型确定方法、信息推荐方法及装置
CN111681059B (zh) * 2020-08-14 2020-11-13 支付宝(杭州)信息技术有限公司 行为预测模型的训练方法及装置
CN112734034A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 模型训练方法、调用方法、装置、计算机设备和存储介质
CN113656699B (zh) * 2021-08-25 2024-02-13 平安科技(深圳)有限公司 用户特征向量确定方法、相关设备及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134783A (zh) * 2018-02-09 2019-08-16 阿里巴巴集团控股有限公司 个性化推荐的方法、装置、设备和介质
CN110415022A (zh) * 2019-07-05 2019-11-05 阿里巴巴集团控股有限公司 处理用户行为序列的方法及装置
CN111160484A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN111461812A (zh) * 2020-02-28 2020-07-28 北京三快在线科技有限公司 对象推荐方法、装置、电子设备及可读存储介质
CN111738311A (zh) * 2020-06-04 2020-10-02 北京字节跳动网络技术有限公司 面向多任务的特征提取方法、装置及电子设备
CN112085565A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 基于深度学习的信息推荐方法、装置、设备及存储介质
CN112380319A (zh) * 2020-11-12 2021-02-19 平安科技(深圳)有限公司 一种模型训练的方法及相关装置
CN112307351A (zh) * 2020-11-23 2021-02-02 中国科学院计算技术研究所 用户行为的模型训练、推荐方法、装置和设备
CN112836081A (zh) * 2021-03-01 2021-05-25 腾讯音乐娱乐科技(深圳)有限公司 一种神经网络模型训练方法、信息推荐方法及存储介质

Also Published As

Publication number Publication date
CN113656699A (zh) 2021-11-16
WO2023024408A1 (zh) 2023-03-02

Similar Documents

Publication Publication Date Title
CN109919316B (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
US11170395B2 (en) Digital banking platform and architecture
Kosinski et al. Mining big data to extract patterns and predict real-life outcomes.
CN110503531B (zh) 时序感知的动态社交场景推荐方法
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
CN105224699B (zh) 一种新闻推荐方法及装置
CN109492772B (zh) 生成信息的方法和装置
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN111506820B (zh) 推荐模型、方法、装置、设备及存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN112989169B (zh) 目标对象识别方法、信息推荐方法、装置、设备及介质
CN113011884B (zh) 账户特征的提取方法、装置、设备及可读存储介质
Vilakone et al. Movie recommendation system based on users’ personal information and movies rated using the method of k-clique and normalized discounted cumulative gain
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN115062732A (zh) 基于大数据用户标签信息的资源共享合作推荐方法及系统
CN111538909A (zh) 一种信息推荐方法及装置
CN112989182B (zh) 信息处理方法、装置、信息处理设备及存储介质
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
Iwański et al. Application of the Information Bottleneck method to discover user profiles in a Web store
CN115329183A (zh) 数据处理方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant