CN113742532A - 用户画像方法、装置和计算机可读存储介质 - Google Patents

用户画像方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN113742532A
CN113742532A CN202110254509.9A CN202110254509A CN113742532A CN 113742532 A CN113742532 A CN 113742532A CN 202110254509 A CN202110254509 A CN 202110254509A CN 113742532 A CN113742532 A CN 113742532A
Authority
CN
China
Prior art keywords
user
vector
article
item
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110254509.9A
Other languages
English (en)
Inventor
张乐中
闫家润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110254509.9A priority Critical patent/CN113742532A/zh
Publication of CN113742532A publication Critical patent/CN113742532A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种用户画像方法、装置和计算机可读存储介质,涉及大数据技术领域。用户画像方法包括:根据物品间的关联关系,构建多条物品关联序列,其中,每个物品关联序列中的元素表示具有关联关系的物品的向量,每个物品的向量包括相应物品在多个标签维度的标签值所对应的、初始的向量;将物品关联序列输入到词语转向量模型中,获得每个物品的嵌入向量;根据每个物品的嵌入向量,构建每个标签维度的标签值与嵌入向量之间的对应关系;基于待画像用户的操作所涉及的物品的嵌入向量,确定待画像用户的画像向量;根据画像向量与每个标签值的嵌入向量之间的相似度,确定用于描述待画像用户的标签值。本发明能够提升用户画像的准确度。

Description

用户画像方法、装置和计算机可读存储介质
技术领域
本发明涉及大数据技术领域,特别涉及一种用户画像方法、装置和计算机可读存储介质。
背景技术
用户画像根据存储在服务器上的海量日志数据和数据库中的大量数据进行分析和挖掘,给用户分配“标签”。“标签”是能表示用户某一维度特征的标识,例如表征用户的兴趣偏好、行为偏好、消费特征等等。用户画像结果可以应用于个性化推荐、广告系统、内容分发等各种领域。
在相关技术中,基于用户自身的行为数据进行用户画像。并且,针对每类标签维度,都需要进行一次用户标签构建。
发明内容
发明人对相关技术进行分析后发现,在电商等领域存在明显的马太效应,即90%以上的用户行为是稀疏的。如果基于用户自身行为构建标签,难以解决由于用户行为的稀疏性导致用户画像不够全面、准确的问题。
本发明实施例所要解决的一个技术问题是:如何提高用户画像的准确性。
根据本发明一些实施例的第一个方面,提供一种用户画像方法,包括:根据物品间的关联关系,构建多条物品关联序列,其中,每个物品关联序列中的元素表示具有关联关系的物品的向量,每个物品的向量包括相应物品在多个标签维度的标签值所对应的、初始的向量;将物品关联序列输入到词语转向量模型中,获得每个物品的嵌入向量,其中,物品的嵌入向量包括物品的每个标签维度的标签值的嵌入向量;根据每个物品的嵌入向量,构建每个标签维度的标签值与嵌入向量之间的对应关系;基于待画像用户的操作所涉及的物品的嵌入向量,确定待画像用户的画像向量;根据画像向量与每个标签值的嵌入向量之间的相似度,确定用于描述待画像用户的标签值。
在一些实施例中,根据物品间的关联关系,构建多条物品关联序列包括:从用户数据中获取多个操作行为序列,其中,每个操作行为序列中的元素为同一用户依次操作的物品的向量,物品的向量包括物品多个标签维度的标签值所对应的、初始的向量;根据多个操作行为序列,构建多条物品关联序列。
在一些实施例中,用户数据为会话数据,会话数据包括用户操作的物品以及操作时间,操作行为序列中的物品为用户连续操作、并且操作的时间间隔小于预设值的物品。
在一些实施例中,根据多个操作行为序列,构建多条物品关联序列包括:根据多个操作行为序列中物品的相邻关系,构建图结构,其中,图结构中的节点表示物品,并且在操作行为序列中相邻的两个物品所对应的节点之间具有边;基于图结构进行多次随机游走,获得多个物品关联序列,其中,每个物品关联序列中的元素表示游走过程中被访问的物品的向量。
在一些实施例中,在图结构中,边的权重根据其所连接的两个节点所对应的物品在多个操作行为序列中相邻的次数确定,并且,随机游走的概率与边的权重成正相关关系。
在一些实施例中,语转向量模型为Word2Vec模型,并且,Word2Vec模型的目标函数包括正样本计算项、负样本计算项和全局计算项,其中,全局计算项根据物品关联序列中产生了下单行为的物品的向量确定。
在一些实施例中,基于待画像用户的操作所涉及的物品的嵌入向量,确定待画像用户的画像向量包括:获取待画像用户的操作行为序列,其中,每个操作行为序列中的元素为待画像用户依次操作的物品的嵌入向量,元素包括物品多个标签维度的标签值所对应的嵌入向量、与相应标签维度的预设权重的乘积;根据操作行为序列,确定待画像用户的画像向量。
在一些实施例中,根据操作行为序列,确定待画像用户的画像向量包括:通过对待画像用户的操作行为序列中的各个元素进行加权求和,获得中间向量;根据每个标签维度所对应的预设权重,对中间向量中每个标签值对应的向量进行加权,获得待画像用户的画像向量。
在一些实施例中,对于待画像用户的操作行为序列中的每个元素,元素对应的物品的被操作时间越早、元素的权重越小。
在一些实施例中,元素的权重是根据分段指数衰减函数确定的,分段指数衰减函数的自变量为元素对应的物品的被操作时间距离当前时间的长度,并且自变量与分段指数衰减函数成负相关关系。
根据本发明一些实施例的第二个方面,提供一种用户画像装置,包括:序列构建模块,被配置为根据物品间的关联关系,构建多条物品关联序列,其中,每个物品关联序列中的元素表示具有关联关系的物品的向量,每个物品的向量包括相应物品在多个标签维度的标签值所对应的、初始的向量;嵌入向量获得模块,被配置为将物品关联序列输入到词语转向量模型中,获得每个物品的嵌入向量,其中,物品的嵌入向量包括物品的每个标签维度的标签值的嵌入向量;对应关系构建模块,被配置为根据每个物品的嵌入向量,构建每个标签维度的标签值与嵌入向量之间的对应关系;画像向量确定模块,被配置为基于待画像用户的操作所涉及的物品的嵌入向量,确定待画像用户的画像向量;用户标签值确定模块,被配置为根据画像向量与每个标签值的嵌入向量之间的相似度,确定用于描述待画像用户的标签值。
根据本发明一些实施例的第三个方面,提供一种用户画像装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种用户画像方法。
根据本发明一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意一种用户画像方法。
上述发明中的一些实施例具有如下优点或有益效果。本发明的实施例基于海量的用户行为挖掘物品和标签值的嵌入向量,能够学习到用户群体特性,缓解了单一用户行为的稀疏性对画像体系构建的影响,使得生成的嵌入向量能够更准确地表示物品和标签值的特性。在此基础上,结合用户所操作的物品,基于生成的嵌入向量计算用户的画像向量以描述用户的特性,并基于用户的画像向量与标签值的嵌入向量的相似程度确定更能够描述用户特性的标签值,从而能够确定更贴近用户特点的标签值,提高了用户画像的准确度。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一些实施例的用户画像方法的流程示意图。
图2示出了根据本发明一些实施例的物品关联序列的构建方法的流程示意图。
图3示出了根据本发明一些实施例的画像向量确定方法的流程示意图。
图4示出了根据本发明一些实施例的用户画像装置的结构示意图。
图5示出了根据本发明另一些实施例的用户画像装置的结构示意图。
图6示出了根据本发明又一些实施例的用户画像装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出了根据本发明一些实施例的用户画像方法的流程示意图。如图1所示,该实施例的用户画像方法包括步骤S102~S110。
在步骤S102中,根据物品间的关联关系,构建多条物品关联序列,其中,每个物品关联序列中的元素表示具有关联关系的物品的向量,每个物品的向量包括相应物品在多个标签维度的标签值所对应的、初始的向量。
标签维度是指标签类别,例如用户购买力、收入等级等等,标签值则指每个标签维度下的所有取值,例如用户购买力维度下的标签值包括土豪型、性价比型等等。
通过分析海量用户的行为,可以获得物品间的关联关系。例如,如果某两个物品在同一用户的同一行为涉及的物品集合中出现,则认为这两个物品间具有关联关系。物品集合例如为预设时段内的点击物品集合、单次购物行为中的购买物品集合、用户某个分类的收藏物品集合等等。通过对大量用户的行为所涉及的物品进行统计,可以得到多条物品关联序列。
在一些实施例中,从用户数据中获取多个操作行为序列,其中,每个操作行为序列中的元素为同一用户依次操作的物品的向量,物品的向量包括物品多个标签维度的标签值所对应的、初始的向量;根据多个操作行为序列,构建多条物品关联序列。例如,直接将操作行为序列作为物品关联序列,或者,进一步通过操作行为序列挖掘物品之间的关联关系,以生成物品关联序列。
在一些实施例中,根据用户的会话(Session)数据确定物品关联序列。例如在用户A的Session数据中,用户先后点击了物品A、物品B、物品C、物品D,其中,用户点击物品A和物品B的时间间隔很短、点击物品B和物品C的时间间隔较长、点击物品C和物品D的时间间隔很短,则可以根据用户A的Session数据生成{物品A,物品B}、{物品C,物品D}两个序列。进一步地,每个商品又包括多个维度的标签值,例如{物品A,物品B}可以进一步表示为{[物品A的类目,物品A的品牌,物品A的科技属性,…],[物品B的类目,物品B的品牌,物品B的科技属性,…]}。将上述序列中的各个对象使用向量表示,则得到了物品关联序列。
在一些实施例中,使用向量初始化模型获得每个标签值对应的向量,并将向量初始化模型的输出结果乘以该标签值所在的标签维度对应的预设权重,得到标签值所对应的、初始的向量。例如,Ui为物品关联序列中第i个实体(即物品)的向量初始化信息,Ei,j是第i个实体在第j个标签维度的向量初始化信息,wi是第j个标签的初始化权重,则Ui={w1·Ei,1,w2·Ei,2,w3·Ei,3,…}。每个标签维度对应的权重例如通过随机初始化并结合训练过程进行更新得到,标签值所对应的、初始的向量例如通过Xavier等向量初始化模型得到。
在步骤S104中,将物品关联序列输入到词语转向量模型中,获得每个物品的嵌入向量,其中,物品的嵌入向量包括物品的每个标签维度的标签值的嵌入向量。
在自然语言处理领域中,由较小粒度的词语组成句子,句子组成段落、篇章、文档。在Word2Vec等词向量挖掘算法中,将一个句子当作一条训练样本,词语作为样本中的实体。本发明的实施例借鉴了文本处理的思想,将一条物品关联序列当作一个“句子”,用户操作的每个物品的信息作为一个“词语”,物品的信息例如由品牌、类目、价格等级等各种标签值共同组成。
本发明将物品关联序列视为文本进行处理,从而序列中的每个物品作为其他物品的“上下文”。通过用于根据文本的上下文确定文本中每个词语的嵌入向量的词语转向量模型,可以根据物品关联序列中每个物品,确定每个物品的嵌入向量。从而,能够根据物品间的关联关系确定物品的嵌入向量。
在一些实施例中,词语转向量模型为Word2Vec模型。在Word2Vec模型中,主要包括用于给定输入词并预测上下文的Skip-Gram模型和通过给定的上下文来预测输入词的CBOW模型。
在一些实施例中,使用Skip-Gram模型,并且对其使用的目标函数进行改进,以将用户的购买信息引入到嵌入向量的计算中。公式(1)示例性地示出了改进的目标函数。
Figure BDA0002967475750000071
在公式(1)中,针对一个物品关联序列中的物品,Dp表示正样本集合、Dn表示负样本集合,l表示当前物品、c表示当前物品以外的其他物品。当物品c处于物品l的预设窗口范围内时,即认为二者具有上下文关系时,(l,c)∈Dp;当物品c不处于物品l的预设窗口范围内时,(l,c)∈Dn
Figure BDA0002967475750000072
表示计算其后的公式具有最大值时,Word2Vec模型的参数值θ。
在公式(1)的求和计算中,除了基于第一部分的正样本和第二部分的负样本进行计算以外,还包括第三部分
Figure BDA0002967475750000081
其中,
Figure BDA0002967475750000082
表示用户下单购买的物品。在每个序列中,如果其中某个用户操作的物品被用户下单、即带来了真实购买行为,则将该行为引入到Skip-Gram的目标函数中。无论该物品是否在Skip-Gram的滑动窗口中,都会假设该行为与滑动窗口的中心点相关,即,引入了一个全局行为到Skip-Gram的目标函数中。
从而,在通过该模型获得的嵌入向量、以及嵌入向量的相似关系中,更倾向于基于序列中的购买交易转化信息来进行计算。Word2Vec的算法本身是非监督的,用户对物品的点击、收藏等某些操作只能代表用户对其感兴趣,但是不能保证用户最后一定会购买。通过加入一个监督信息的约束,能够将学到的嵌入向量更好地向业务目标靠近。
在一些实施例中,当使用上述改进的目标函数计算嵌入向量时,同一个物品关联序列中至多包括一个用户下单购买的物品。
在步骤S106中,根据每个物品的嵌入向量,构建每个标签维度的标签值与嵌入向量之间的对应关系。
由于物品的向量是由物品的标签值对应的向量组成的,因此在获得物品的向量后,通过标签值的向量在物品的向量中的位置信息,可以获得各个标签值对应的嵌入向量。
在进行物品的向量初始化时,是针对物品的每个标签值进行向量初始化的,以由标签值的初始化向量构成物品的初始化向量。在模型训练过程中,不同物品中同一标签值的向量是同步进行更新的。从而,可以根据物品的嵌入向量获得每个标签值的嵌入向量。
在步骤S108中,基于待画像用户的操作所涉及物品的嵌入向量,确定待画像用户的画像向量。该操作例如为点击、购买、收藏等操作。
待画像用户的操作所涉及物品表示待画像用户感兴趣的物品,这些物品能够反映待画像用户的特点。因此,在获得了物品的嵌入向量后,可以基于待画像用户的操作所涉及的物品来描述用户。
在一些实施例中,对待画像用户的操作所涉及物品的标签值的嵌入向量进行加权求和,以获得待画像用户的画像向量。
在步骤S110中,根据画像向量与每个标签值的嵌入向量之间的相似度,确定用于描述待画像用户的标签值,从而生成用户画像。
例如,将相似度大于预设阈值的标签值作为待画像用户的标签值,或者,将相似度最高的预设数量个标签值作为待画像用户的标签值。
上述实施例的方法基于海量的用户行为挖掘物品和标签值的嵌入向量,能够学习到用户群体特性,缓解了单一用户行为的稀疏性对画像体系构建的影响,使得生成的嵌入向量能够更准确地表示物品和标签值的特性。在此基础上,结合用户所操作的物品,基于生成的嵌入向量计算用户的画像向量以描述用户的特性,并基于用户的画像向量与标签值的嵌入向量的相似程度确定更能够描述用户特性的标签值,从而能够确定更贴近用户特点的标签值,提高了用户画像的准确度。
在一些实施例中,在从用户数据中获取多个操作行为序列后,可以基于随机游走模型进一步挖掘物品之间的关联关系,以获得物品关联序列。随机游走是指从一个节点出发后,随机选择它的一个邻接点,再从这个邻接点出发到下一个节点。重复这个步骤然后记录下所经过的所有节点。通过随机游走,可以得到从每个节点出发的一条路径,这条路径就代表了这个节点对应的结构信息。下面参考图2描述本发明物品关联序列的构建方法的实施例。
图2示出了根据本发明一些实施例的物品关联序列的构建方法的流程示意图。如图2所示,该实施例的物品关联序列的构建方法包括步骤S202~S206。
在步骤S202中,从用户数据中获取多个操作行为序列,其中,每个操作行为序列中的元素为同一用户依次操作的物品的向量,物品的向量包括物品多个标签维度的标签值所对应的、初始的向量。
在一些实施例中,操作行为序列为点击行为序列。
在一些实施例中,用户数据为会话数据,会话数据包括用户操作的物品以及操作时间,操作行为序列中的物品为用户连续操作、并且操作的时间间隔小于预设值的物品。
在步骤S204中,根据多个操作行为序列中物品的相邻关系,构建图结构,其中,图结构中的节点表示物品,并且在操作行为序列中相邻的两个物品所对应的节点之间具有边。
该实施例基于行为序列中相邻的两个实体(即两个物品)存在相似关系、非相邻的实体间不存在相似关系的假定,通过分析海量的操作行为序列特征,构建了一个图结构。
在一些实施例中,在图结构中,边的权重根据其所连接的两个节点所对应的物品在多个操作行为序列中相邻的次数确定。例如,通过将操作行为序列中两个实体之间相似关系进行累加,获得图结构中节点之间边的权重。
例如,在某些操作行为序列中,物品A和物品B相邻,即某用户在操作物品A后,下一个操作的物品为物品B。从而,物品A和物品B对应的节点之间具有边。如果在5个操作行为序列中出现了物品A和物品B相邻的情况,则基于5确定物品A和物品B对应的节点之间的边的权重。例如,直接将5作为权重,或者将每个边对应的操作行为序列数进行归一化处理以获得权重。
在步骤S206中,基于图结构进行多次随机游走,获得多个物品关联序列,其中,每个物品关联序列中的元素表示游走过程中被访问的物品的向量。
在一些实施例中,随机游走的概率与边的权重成正相关关系。例如,随机游走的概率与边的权重成正比。
在一些实施例中,在从当前节点游走到下一个节点时,获取当前节点与备选的下一个节点之间的所有备选边的权重,备选的节点为与当前节点存在直接连接的边的节点。然后,将备选边中的每个边的权重与所有备选边的权重的总和之比作为每个边对应的随机游走的概率,再采用轮盘赌等方式确定实际选择的备选边、及其对应的下一个节点。
通过上述实施例,能够基于海量的用户数据构建表示物品间相似度的图结构,并基于随机游走的方式生成基于该相似关系的大量数据,作为物品关联序列,以根据物品关联序列进一步挖掘物品和标签值的向量表示。从而,可以生成更丰富、全面的数据,提高了用户画像的准确度。
下面参考图3描述确定待画像用户的画像向量的实施例。
图3示出了根据本发明一些实施例的画像向量确定方法的流程示意图。如图3所示,该实施例的画像向量确定方法包括步骤S302~S304。
在步骤S302中,获取待画像用户的操作行为序列。操作行为序列的结构与物品关联序列类似,每个操作行为序列中的元素为待画像用户依次操作的物品的嵌入向量,元素包括物品多个标签维度的标签值所对应的嵌入向量、与相应标签维度的预设权重的乘积。
在步骤S304中,根据操作行为序列,确定待画像用户的画像向量。
操作行为序列不仅能够反映用户感兴趣的物品,还带有用户操作物品的时序信息。从而,能够更准确地反映用户的画像向量。
在一些实施例中,通过对待画像用户的操作行为序列中的各个元素进行加权求和,获得中间向量,从而中间向量消除了物品维度,其中包括各个标签值所对应的向量。然后,根据每个标签维度所对应的预设权重,对中间向量中每个标签值对应的向量进行加权,获得待画像用户的画像向量。从而,加权求和后的画像向量的维度与标签值的维度一致,便于二者进行相似度计算。
在一些实施例中,对于待画像用户的操作行为序列中的每个元素,元素对应的物品的被操作时间越早、元素的权重越小。由于距离当前时间更近的操作更能够反映用户当前的特点,因此可以更准确地确定用户的画像向量。
在一些实施例中,元素的权重是根据分段指数衰减函数确定的,分段指数衰减函数的自变量为元素对应的物品的被操作时间距离当前时间的长度,并且自变量与分段指数衰减函数成负相关关系。公式(2)示例性地示出了一种衰减函数。
Figure BDA0002967475750000111
在公式(2)中,k表示物品的被操作时间距离当前时间的长度,F(k)表示该物品对应的权重;w1、w2、……、wi、……表示预设的权重系数,并且这些系数的总和为1;t1、t2、……、ti、……表示预设的时间系数,表示第1、2、……、i、……段衰减所控制的时间范围,并且ti的值较大时,代表该段衰减函数对时间间隔在ti左右的用户行为的衰减较弱、对远超过ti和远小于ti的时间间隔的衰减较强。在实际应用中,可以通过调节函数的段数、权重系数、时间系数来对衰减函数的影响进行控制。
如果用户最近依次点击了物品A、物品B和物品C,物品A、物品B和物品C对应的嵌入向量分别由a、b、c表示,并且三次点击距离当前的时间间隔分别为k1、k2和k3,则用户画像向量可以表示为F(k1)a+F(k2)b+F(k3)c。
下面参考图4描述本发明用户画像装置的实施例。
图4示出了根据本发明一些实施例的用户画像装置的结构示意图。如图4所示,该实施例的用户画像装置40包括:序列构建模块410,被配置为根据物品间的关联关系,构建多条物品关联序列,其中,每个物品关联序列中的元素表示具有关联关系的物品的向量,每个物品的向量包括相应物品在多个标签维度的标签值所对应的、初始的向量;嵌入向量获得模块420,被配置为将物品关联序列输入到词语转向量模型中,获得每个物品的嵌入向量,其中,物品的嵌入向量包括物品的每个标签维度的标签值的嵌入向量;对应关系构建模块430,被配置为根据每个物品的嵌入向量,构建每个标签维度的标签值与嵌入向量之间的对应关系;画像向量确定模块440,被配置为基于待画像用户的操作所涉及的物品的嵌入向量,确定待画像用户的画像向量;用户标签值确定模块450,被配置为根据画像向量与每个标签值的嵌入向量之间的相似度,确定用于描述待画像用户的标签值。
在一些实施例中,序列构建模块410、嵌入向量获得模块420、对应关系构建模块430部署在离线装置中,画像向量确定模块440、用户标签值确定模块450部署在在线装置中。
在一些实施例中,序列构建模块410进一步被配置为从用户数据中获取多个操作行为序列,其中,每个操作行为序列中的元素为同一用户依次操作的物品的向量,物品的向量包括物品多个标签维度的标签值所对应的、初始的向量;根据多个操作行为序列,构建多条物品关联序列。
在一些实施例中,用户数据为会话数据,会话数据包括用户操作的物品以及操作时间,操作行为序列中的物品为用户连续操作、并且操作的时间间隔小于预设值的物品。
在一些实施例中,序列构建模块410进一步被配置为根据多个操作行为序列中物品的相邻关系,构建图结构,其中,图结构中的节点表示物品,并且在操作行为序列中相邻的两个物品所对应的节点之间具有边;基于图结构进行多次随机游走,获得多个物品关联序列,其中,每个物品关联序列中的元素表示游走过程中被访问的物品的向量。
在一些实施例中,在图结构中,边的权重根据其所连接的两个节点所对应的物品在多个操作行为序列中相邻的次数确定,并且,随机游走的概率与边的权重成正相关关系。
在一些实施例中,词语转向量模型为Word2Vec模型,并且,Word2Vec模型的目标函数包括正样本计算项、负样本计算项和全局计算项,其中,全局计算项根据物品关联序列中产生了下单行为的物品的向量确定。
在一些实施例中,画像向量确定模块440进一步被配置为获取待画像用户的操作行为序列,其中,每个操作行为序列中的元素为待画像用户依次操作的物品的嵌入向量,元素包括物品多个标签维度的标签值所对应的嵌入向量、与相应标签维度的预设权重的乘积;根据操作行为序列,确定待画像用户的画像向量。
在一些实施例中,画像向量确定模块440进一步被配置为通过对待画像用户的操作行为序列中的各个元素进行加权求和,获得中间向量;根据每个标签维度所对应的预设权重,对中间向量中每个标签值对应的向量进行加权,获得待画像用户的画像向量。
在一些实施例中,对于待画像用户的操作行为序列中的每个元素,元素对应的物品的被操作时间越早、元素的权重越小。
在一些实施例中,元素的权重是根据分段指数衰减函数确定的,分段指数衰减函数的自变量为元素对应的物品的被操作时间距离当前时间的长度,并且自变量与分段指数衰减函数成负相关关系。
图5示出了根据本发明另一些实施例的用户画像装置的结构示意图。如图5所示,该实施例的用户画像装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行前述任意一个实施例中的用户画像方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图6示出了根据本发明又一些实施例的用户画像装置的结构示意图。如图6所示,该实施例的用户画像装置60包括:存储器610以及处理器620,还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种用户画像方法。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种用户画像方法,包括:
根据物品间的关联关系,构建多条物品关联序列,其中,每个物品关联序列中的元素表示具有关联关系的物品的向量,每个物品的向量包括相应物品在多个标签维度的标签值所对应的、初始的向量;
将所述物品关联序列输入到词语转向量模型中,获得每个物品的嵌入向量,其中,所述物品的嵌入向量包括所述物品的每个标签维度的标签值的嵌入向量;
根据所述每个物品的嵌入向量,构建每个标签维度的标签值与嵌入向量之间的对应关系;
基于待画像用户的操作所涉及的物品的嵌入向量,确定所述待画像用户的画像向量;
根据所述画像向量与每个标签值的嵌入向量之间的相似度,确定用于描述所述待画像用户的标签值。
2.根据权利要求1所述的用户画像方法,其中,所述根据物品间的关联关系,构建多条物品关联序列包括:
从用户数据中获取多个操作行为序列,其中,每个操作行为序列中的元素为同一用户依次操作的物品的向量,所述物品的向量包括所述物品多个标签维度的标签值所对应的、初始的向量;
根据所述多个操作行为序列,构建多条物品关联序列。
3.根据权利要求2所述的用户画像方法,其中,所述用户数据为会话数据,所述会话数据包括用户操作的物品以及操作时间,所述操作行为序列中的物品为用户连续操作、并且操作的时间间隔小于预设值的物品。
4.根据权利要求2所述的用户画像方法,其中,所述根据所述多个操作行为序列,构建多条物品关联序列包括:
根据所述多个操作行为序列中物品的相邻关系,构建图结构,其中,所述图结构中的节点表示物品,并且在所述操作行为序列中相邻的两个物品所对应的节点之间具有边;
基于所述图结构进行多次随机游走,获得多个物品关联序列,其中,每个物品关联序列中的元素表示游走过程中被访问的物品的向量。
5.根据权利要求4所述的用户画像方法,其中,在所述图结构中,边的权重根据其所连接的两个节点所对应的物品在所述多个操作行为序列中相邻的次数确定,并且,随机游走的概率与边的权重成正相关关系。
6.根据权利要求1所述的用户画像方法,其中,所述词语转向量模型为Word2Vec模型,并且,所述Word2Vec模型的目标函数包括正样本计算项、负样本计算项和全局计算项,其中,所述全局计算项根据所述物品关联序列中产生了下单行为的物品的向量确定。
7.根据权利要求1所述的用户画像方法,其中,所述基于待画像用户的操作所涉及的物品的嵌入向量,确定所述待画像用户的画像向量包括:
获取待画像用户的操作行为序列,其中,每个操作行为序列中的元素为所述待画像用户依次操作的物品的嵌入向量,所述元素包括所述物品多个标签维度的标签值所对应的嵌入向量、与相应标签维度的预设权重的乘积;
根据所述操作行为序列,确定所述待画像用户的画像向量。
8.根据权利要求7所述的用户画像方法,其中,所述根据所述操作行为序列,确定所述待画像用户的画像向量包括:
通过对所述待画像用户的操作行为序列中的各个元素进行加权求和,获得中间向量;
根据每个标签维度所对应的预设权重,对所述中间向量中每个标签值对应的向量进行加权,获得所述待画像用户的画像向量。
9.根据权利要求8所述的用户画像方法,其中,对于所述待画像用户的操作行为序列中的每个元素,所述元素对应的物品的被操作时间越早、所述元素的权重越小。
10.根据权利要求9所述的用户画像方法,其中,所述元素的权重是根据分段指数衰减函数确定的,所述分段指数衰减函数的自变量为所述元素对应的物品的被操作时间距离当前时间的长度,并且所述自变量与所述分段指数衰减函数成负相关关系。
11.一种用户画像装置,包括:
序列构建模块,被配置为根据物品间的关联关系,构建多条物品关联序列,其中,每个物品关联序列中的元素表示具有关联关系的物品的向量,每个物品的向量包括相应物品在多个标签维度的标签值所对应的、初始的向量;
嵌入向量获得模块,被配置为将所述物品关联序列输入到词语转向量模型中,获得每个物品的嵌入向量,其中,所述物品的嵌入向量包括所述物品的每个标签维度的标签值的嵌入向量;
对应关系构建模块,被配置为根据所述每个物品的嵌入向量,构建每个标签维度的标签值与嵌入向量之间的对应关系;
画像向量确定模块,被配置为基于待画像用户的操作所涉及的物品的嵌入向量,确定所述待画像用户的画像向量;
用户标签值确定模块,被配置为根据所述画像向量与每个标签值的嵌入向量之间的相似度,确定用于描述所述待画像用户的标签值。
12.一种用户画像装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-10中任一项所述的用户画像方法。
13.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-10中任一项所述的用户画像方法。
CN202110254509.9A 2021-03-09 2021-03-09 用户画像方法、装置和计算机可读存储介质 Pending CN113742532A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110254509.9A CN113742532A (zh) 2021-03-09 2021-03-09 用户画像方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110254509.9A CN113742532A (zh) 2021-03-09 2021-03-09 用户画像方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113742532A true CN113742532A (zh) 2021-12-03

Family

ID=78728197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110254509.9A Pending CN113742532A (zh) 2021-03-09 2021-03-09 用户画像方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113742532A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190114703A (ko) * 2018-03-29 2019-10-10 네이버 주식회사 상품 추천 방법 및 이를 이용하는 서버
CN110555753A (zh) * 2019-08-14 2019-12-10 中国平安人寿保险股份有限公司 基于推荐的排序控制方法、装置、计算机设备及存储介质
CN111553763A (zh) * 2020-04-26 2020-08-18 上海风秩科技有限公司 一种物品推荐方法、装置、电子设备及可读存储介质
CN111651668A (zh) * 2020-05-06 2020-09-11 上海晶赞融宣科技有限公司 用户画像的标签生成方法及装置、存储介质、终端
CN112163897A (zh) * 2020-10-19 2021-01-01 科技谷(厦门)信息技术有限公司 一种基于Flink的电商平台用户行为分析方法
US20210034683A1 (en) * 2019-07-30 2021-02-04 Walmart Apollo, Llc Methods and apparatus for automatically providing personalized search results

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190114703A (ko) * 2018-03-29 2019-10-10 네이버 주식회사 상품 추천 방법 및 이를 이용하는 서버
US20210034683A1 (en) * 2019-07-30 2021-02-04 Walmart Apollo, Llc Methods and apparatus for automatically providing personalized search results
CN110555753A (zh) * 2019-08-14 2019-12-10 中国平安人寿保险股份有限公司 基于推荐的排序控制方法、装置、计算机设备及存储介质
CN111553763A (zh) * 2020-04-26 2020-08-18 上海风秩科技有限公司 一种物品推荐方法、装置、电子设备及可读存储介质
CN111651668A (zh) * 2020-05-06 2020-09-11 上海晶赞融宣科技有限公司 用户画像的标签生成方法及装置、存储介质、终端
CN112163897A (zh) * 2020-10-19 2021-01-01 科技谷(厦门)信息技术有限公司 一种基于Flink的电商平台用户行为分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈冬东;汪海涛;姜瑛;陈星;: "基于知识图谱嵌入与多神经网络的序列推荐算法", 计算机工程与科学, no. 09, 15 September 2020 (2020-09-15), pages 144 - 152 *

Similar Documents

Publication Publication Date Title
US10958748B2 (en) Resource push method and apparatus
US11403532B2 (en) Method and system for finding a solution to a provided problem by selecting a winner in evolutionary optimization of a genetic algorithm
CN106251174A (zh) 信息推荐方法及装置
CN111242310B (zh) 特征有效性评估方法、装置、电子设备及存储介质
CN108777701B (zh) 一种确定信息受众的方法及装置
CN109359180B (zh) 用户画像生成方法、装置、电子设备及计算机可读介质
CN109767308A (zh) 金融欺诈检测中时间与成本特征选择方法、设备、介质
CN112288554B (zh) 商品推荐方法和装置、存储介质及电子装置
CN112183881A (zh) 一种基于社交网络的舆情事件预测方法、设备及存储介质
CN111667024B (zh) 内容推送方法、装置、计算机设备和存储介质
CN114240555A (zh) 训练点击率预测模型和预测点击率的方法和装置
CN113592593A (zh) 序列推荐模型的训练及应用方法、装置、设备及存储介质
CN114077661A (zh) 信息处理装置、信息处理方法和计算机可读介质
Koduvely Learning Bayesian Models with R
US11755979B2 (en) Method and system for finding a solution to a provided problem using family tree based priors in Bayesian calculations in evolution based optimization
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN111930944B (zh) 文件标签分类方法及装置
Wu et al. RETRACTED ARTICLE: Artificial neural network based high dimensional data visualization technique for interactive data exploration in E-commerce
CN111460302A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
Bhargavi et al. Comparative study of consumer purchasing and decision pattern analysis using pincer search based data mining method
CN110807646A (zh) 数据分析方法、装置和计算机可读存储介质
CN114298118B (zh) 一种基于深度学习的数据处理方法、相关设备及存储介质
CN113742532A (zh) 用户画像方法、装置和计算机可读存储介质
CN114463590A (zh) 信息处理方法、装置、设备、存储介质及程序产品
CN112328899A (zh) 信息处理方法、信息处理装置、存储介质与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination