CN112487199A - 一种基于用户购买行为的用户特征预测方法 - Google Patents

一种基于用户购买行为的用户特征预测方法 Download PDF

Info

Publication number
CN112487199A
CN112487199A CN202011331045.9A CN202011331045A CN112487199A CN 112487199 A CN112487199 A CN 112487199A CN 202011331045 A CN202011331045 A CN 202011331045A CN 112487199 A CN112487199 A CN 112487199A
Authority
CN
China
Prior art keywords
user
entity
vector
entities
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011331045.9A
Other languages
English (en)
Other versions
CN112487199B (zh
Inventor
周仁杰
刘畅
张纪林
万健
赵乃良
胡强
谢忠毅
殷昱煜
蒋从锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011331045.9A priority Critical patent/CN112487199B/zh
Publication of CN112487199A publication Critical patent/CN112487199A/zh
Application granted granted Critical
Publication of CN112487199B publication Critical patent/CN112487199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于用户购买行为的用户特征预测方法,该方法包括:采集目标用户特征信息、历史订单信息以及订单商品信息,并利用订单商品信息从公开知识图谱获取商品相关的三元组知识,构建知识子图,利用图卷积神经网络聚合实体近邻局部特征,充分学习实体的表示向量;在用户特征预测模型中根据不同的商品特征以及不同的具有相似购买行为用户的特征学习到目标用户与不同商品以及相似购买行为用户的相似度,充分根据用户间以及用户实体间的相似度学习其特征向量,满足用户的个性化需求。本发明提高了用户特征预测的准确性,从而可以更准确地预测用户特征,构造更完整的用户画像。

Description

一种基于用户购买行为的用户特征预测方法
技术领域
本发明涉及一种用户特征预测方法,更具体地说,本发明涉及一种基于用户历史购买记录的用户特征预测方法。
背景技术
现如今,人们在生活中都会接触各式各样的网络平台。这些网络平台除了能够给用户提供相关服务之外,用户也会在这些网络中留下“足迹”,这些“足迹”除了用户的个人属性、发布内容、收藏、购买等真实可见的直接数据外,还存在着大量用户的间接数据,如点击数据、关注关系等行为数据。利用用户留在网络中的数据,构建出准确、全面、有效的用户在互联网中的虚拟画像,进而推动推荐系统性能的提升对平台具有重要意义。
现存的用户画像预测方法大多根据文本、关系、用户行为(浏览、点击、购买)等信息抽取用户特征,对用户画像进行推断。由于构建用户画像的目的不同,有许多不同的用户画像预测方法被提出,常用的如基于机器学习的用户画像预测方法、数据统计分析方法的用户模型、基于加权关键字的用户向量空间模型等。
在电子商务领域,用户历史购买行为往往蕴藏了大量的用户兴趣信息。对于用户画像来说,通过用户历史购买行为进行特征预测是十分必要的。虽然上述许多用户画像预测方法对用户行为记录进行挖掘,大大提升了用户画像准确性,提升了推荐系统准确性,但是上述工作都忽略了用户选择一个项目时,是否更加偏重于项目的某个隐性特征,例如某用户是华为品牌爱好者,那么其购买商品时可能会更加注重商品品牌是否是华为,或者说某用户是喜欢观看成龙主演的电影,那么他在选择电影时可能会优先选择成龙主演的电影。上述的“品牌”、“主演”都是隐藏在项目背后的特征,可以称之为项目隐性特征,还有一些其他的隐性特征,如商品的“功效”、“类型”、“价格”、“代言人”等等或者电影的“导演”、“制片人”、“类型”等等。项目的隐性特征在网络平台中可能存在稀疏性问题,可以利用项目在公开知识图谱中的特征来进行缓解。此外,上述大多数没有挖掘用户之间以及项目之间的关联,大多将用户特征预测作为一个分类任务,且用户各个特征相对独立,造成用户之间以及项目之间的关联特征有一定程度的损失,无法有效地学得一个用户的表示向量用作用户特征预测。
本发明利用知识图谱对用户历史购买商品特征进行补充,提出了基于图卷积神经网络的学习用户高阶结构特征的用户画像预测方法,构建了完整的基于用户购买行为的用户特征预测模型。
发明内容
本发明的一个目的是针对现有技术的不足,提供一种基于用户历史购买记录的用户特征预测方法,基于用户产生的电商数据,利用知识图谱扩充商品特征以及图卷积网络充分对用户历史购买记录进行挖掘,以提升用户画像完整度。
本发明所采用的技术方案如下:
步骤1:采集目标用户特征信息、历史订单信息、订单商品信息;
步骤2:对步骤1采集得到的订单商品信息中的商品名称进行分词,提取商品名称中包含一定信息的实体,构建商品名称中包含所有实体的实体集合;
步骤3:构建知识子图;
步骤4:构建用户邻接矩阵、实体邻接矩阵、实体关系矩阵;
步骤5:构造基于图卷积神经网络的用户特征预测模型并进行训练,模型参数收敛后得到最佳参数模型。
本发明的另一个目的是提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的方法。
本发明的又一个目的是提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述的方法。
本发明提供的技术方案包含以下有益效果:
本发明通过采集用户历史购买行为,获取其相关知识图谱信息,对商品特征进行扩充,弥补了电商数据中商品特征稀缺的问题;
本发明利用商品及其相关知识图谱三元组构建知识子图,利用图卷积网络充分学习知识子图结点特征,尽可能地保留图本身的结构特征,避免训练过程造成的特征损失,获得能够充分表示实体及其局部近邻特征的表示向量;此外,根据用户交互实体和用户近邻用户表示向量与用户自身表示向量的相似度获得不同的权重,符合用户偏好,对个性化推荐具有重要意义。
附图说明
图1为本发明所涉及的流程图;
图2为模型结构图;
图3为商品包含实体关联图;
具体实施方式
下面结合附图,对本发明的具体实施方案作进一步详细描述。其具体流程描述如图1所示,其中:
步骤1:采集目标用户特征信息、历史订单信息、订单商品信息;
目标用户特征信息包括用户画像信息,如性别、年龄;
历史订单信息包括订单用户编号、购买商品编号;
订单商品信息包括商品名称;
步骤2:对步骤1中订单商品信息中的商品名称进行分词,提取商品名称中包含一定信息的实体,构建商品名称中包含所有实体的实体集合S(e);
所述实体可以是品牌名、商品名等;
步骤3:构建知识子图
Figure BDA0002795830870000031
在公开知识图谱中查找步骤2获得的实体集合S(e)中的各个实体ei∈S(e),若存在则获取该实体ei相关的三元组特征
Figure BDA0002795830870000032
并进行三元组特征拓展,得到所有实体拓展后的三元组特征,构建知识子图
Figure BDA0002795830870000033
若不存在则跳过该实体,并将其从实体集合中删除。其中,ei代表实体集合S(e)中第i个实体并作为三元组
Figure BDA0002795830870000034
的头实体;
Figure BDA0002795830870000035
表示第1轮拓展得到的第j个实体,并作为三元组
Figure BDA0002795830870000036
的尾实体;r代表ei
Figure BDA0002795830870000037
之间的关系。
公开知识图谱中存在若干条实体相关的三元组特征,其组织形式为(头实体,关系,尾实体),例如电影《功夫》存在一条三元组特征为(《功夫》,导演,周星驰)。
实体的三元组特征拓展具体如下:
(1)初始化:迭代次数H=1;
(2)将
Figure BDA0002795830870000038
中尾实体
Figure BDA0002795830870000039
作为头实体,在公开知识图谱查找
Figure BDA00027958308700000310
相关的三元组特征
Figure BDA00027958308700000311
(3)更新迭代次数H=H+1,将上一轮迭代得到的三元组特征尾实体作为头实体,继续在公开知识图谱查找与该头实体相关的三元组特征,直至迭代次数达到最大迭代次数。
步骤4:构建用户邻接矩阵、实体邻接矩阵、实体关系矩阵
将步骤3获得的所有实体拓展后的知识图谱三元组作为知识子图
Figure BDA00027958308700000312
并定义关联关系contain将用户历史订单信息中购买商品与购买商品名称中的实体进行关联,将购买商品加入到知识子图
Figure BDA00027958308700000313
根据知识子图
Figure BDA00027958308700000314
以及历史订单信息构建用户邻接矩阵、实体邻接矩阵、实体关系矩阵:
(1)根据历史订单信息,构建用户邻接矩阵
Figure BDA00027958308700000315
用来保存每名用户的前Ku名具有相同交互商品的用户即为近邻用户,其中M代表用户数,Ku表示购买相同商品用户采样数且Ku<M。
(2)根据知识子图
Figure BDA0002795830870000041
构建实体邻接矩阵
Figure BDA0002795830870000042
用来存储两个直接相连的实体,这两个实体即为近邻实体,其中I表示实体数量,Ke表示近邻实体采样数且Ke<I;
(3)根据知识子图
Figure BDA0002795830870000043
构建实体关系矩阵
Figure BDA0002795830870000044
用来保存实体邻接矩阵中两个近邻实体之间的知识子图关系,其中I表示实体数量,Kr表示关系采样数且Kr=Ke,Kr<I;
图3为商品包含实体关联图;
步骤5:根据步骤4中得到的知识子图
Figure BDA00027958308700000417
用户邻接矩阵
Figure BDA0002795830870000045
实体邻接矩阵
Figure BDA0002795830870000046
Figure BDA0002795830870000047
以及实体关系矩阵
Figure BDA0002795830870000048
构造基于图卷积神经网络的用户特征预测模型。
如图2所述的基于图卷积神经网络的用户特征预测模型包括输入层、嵌入层、图卷积层、聚合层、全连接层、输出层:
(1)输入层的输入为用户、用户交互过的实体,构建用户交互实体集合Ne(u);
(2)嵌入层将用户、用户交互过的实体进行向量化表示,并根据用户邻接矩阵
Figure BDA0002795830870000049
获得用户的近邻用户嵌入向量,构建近邻用户集合Nu(u)。
(3)图卷积层对嵌入层输出实体特征向量进行局部近邻特征学习,分别从实体邻接矩阵
Figure BDA00027958308700000410
以及实体关系矩阵
Figure BDA00027958308700000411
中获得实体的近邻实体和相应的两个近邻实体间关系,利用图卷积网络根据两个近邻实体间关系与用户u的嵌入向量的相似度对实体的近邻实体进行加权聚合,获得具有近邻结构特征的实体嵌入向量,具体方法为:
a)从实体邻接矩阵
Figure BDA00027958308700000412
中找到用户交互实体集合Ne(u)中任意实体e∈Ne(u)对应的近邻实体,并构建集合Se(e);根据集合Se(e),从实体关系矩阵
Figure BDA00027958308700000413
找到连接两个近邻实体的关系,构建集合Sr(e);
b)根据用户对实体间不同关系的相似度迭代聚合近邻实体特征,近邻实体表示向量计算公式如下:
Figure BDA00027958308700000414
其中,
Figure BDA00027958308700000415
表示实体e的近邻实体表示向量,vi为集合Se(e)中第i个实体ei的嵌入向量,
Figure BDA00027958308700000416
为连接实体e与实体ei的关系嵌入向量与用户u的嵌入向量经过softmax归一化后的相似度,作为实体ei归一化后的聚合权重,用于表示用户偏好。
αi的计算公式如下:
αi=g(u,ri)
其中u表示用户u的嵌入向量,ri表示连接实体e与实体ei的关系ri∈Sr(e)的嵌入向量,g(·)表示向量的内积计算。
对于任意实体ei∈Se(e),其聚合权重αi的softmax归一化过程为:
Figure BDA0002795830870000051
其中αj表示实体ej的聚合权重,exp(·)表示以自然常数e为底的指数函数。
c)使用加和聚合对实体e的嵌入向量v与近邻实体表示向量
Figure BDA0002795830870000057
进行聚合,得到具有近邻结构特征的实体嵌入向量:
Figure BDA0002795830870000052
其中W、b分别表示权重矩阵和偏移向量,σ表示激活函数。
图卷积层训练完毕后,每个实体的嵌入向量都包含其本身以及近邻实体及关系的特征。
(4)聚合层:对嵌入层输出的用户嵌入向量、近邻用户嵌入向量以及图卷积层输出的具有近邻结构特征的实体嵌入向量进行聚合,得到输入用户最终的嵌入向量,具体如下:
a)根据用户u的嵌入向量u与用户u交互实体集合Ne(u)中各实体嵌入向量的相似度,对集合Ne(u)中实体进行加权求和,得到用户u的交互实体表示向量:
Figure BDA0002795830870000053
其中
Figure BDA0002795830870000054
表示用户u的交互实体表示向量,vi为集合Ne(u)中第i个实体ei的嵌入向量,
Figure BDA0002795830870000055
为经过softmax函数归一化后的u与vi的相似度,作为用户u的交互实体嵌入向量的归一化后的聚合权重。
βi的计算方式如下:
βi=g(u,vi)
其中,g(·)表示向量内积计算。
对于任意交互实体ei∈Ne(u),其聚合权重βi的softmax归一化过程如下:
Figure BDA0002795830870000056
其中βj表示交互实体ej的聚合权重,exp(·)表示以自然常数e为底的指数函数。
b)根据用户u的嵌入向量u与用户u的近邻用户集合Nu(u)中各用户的嵌入向量的相似度,对集合Nu(u)中的元素进行加权求和,得到用户u的近邻用户表示向量:
Figure BDA0002795830870000061
其中,
Figure BDA0002795830870000062
表示用户u的近邻用户表示向量,ui为集合Nu(u)中第i个用户的嵌入向量,
Figure BDA0002795830870000063
为u与ui经过softmax归一化后的相似度,作为用户u的近邻用户嵌入向量归一化后的聚合权重。
γi的计算方式如下:
γi=g(u,ui)
同样,g(·)表示向量内积计算。
对于任意近邻用户ui∈Nu(u),其聚合权重γi的softmax归一化过程如下:
Figure BDA0002795830870000064
其中γj表示近邻用户uj的聚合权重,exp(·)表示以自然常数e为底的指数函数。
c)对用户交互实体表示向量
Figure BDA0002795830870000065
和用户近邻用户表示向量
Figure BDA0002795830870000066
进行串联,将串联后得到的中间向量变换为与用户嵌入向量相同维度的用户近邻特征表示向量:
Figure BDA0002795830870000067
其中
Figure BDA0002795830870000068
代表用户u的近邻特征表示向量,W、b分别代表权重矩阵和偏置向量,concat(·)代表串联操作。
d)将用户u的嵌入向量u与
Figure BDA0002795830870000069
相加,得到用户u的最终表示向量:
Figure BDA00027958308700000610
其中ufinal表示用户u的最终表示向量,σ表示激活函数ReLU。
(5)全连接层:全连接层将聚合层输出的输入用户最终的嵌入向量转化为与预测特征种类数相同维度的输出向量。
o=Wufinal+b
其中,o表示用户输出向量,ufinal表示用户u最终的嵌入向量,W表示权重矩阵,b表示偏移向量。
(6)输出层:输出层利用softmax函数将用户的输出向量做归一化处理,将输出向量转化为用户对应各个类别的概率分布,并获取其中最大值所在索引作为模型输出的输入用户预测标签。
a)对于输出向量o,进行softmax归一化操作,得到用户输出向量对维度特征的概率表示,softmax函数对用户输出向量o的操作如下:
Figure BDA0002795830870000071
其中,o′i表示通过softmax函数得到的第i个维度的概率表示,oi表示输出向量o第i个维度的值。通过softmax函数即可得到用户输出向量对第0,1,...,f-1维对应用户特征的概率表示。
根据得到的表示用户特征概率分布的输出向量o′中的最大值对应的维度作为用户预测标签,例如:
Figure BDA0002795830870000072
其中,在第0维到第4维中第1维值最大,则用户u的预测标签值为1。
将用户真实标签与用户预测标签带入损失函数计算模型损失,并通过反向传播得到最优参数模型。
整个模型的反向传播过程采用softmax交叉熵损失函数,其公式为:
Figure BDA0002795830870000073
上述公式中i代表第i个类型,y′i代表目标用户第i维特征真实值,yi代表目标用户第i维特征的预测值,第二项为L2正则化项防止模型过拟合,其中λ为L2正则化系数,Θ为模型参数。
本发明性能评估分别采用盘石电商数据集、MovieLens-1M电影数据集以及京东电商数据集。其中,模型在三个数据集上都进行了性别预测二分类性能评估;在MovieLens-1M电影数据集以及京东电商数据集上进行了模型年龄预测多分类性能评估。下表为三个数据集进行知识图谱实体筛选后的数据量情况:
Figure BDA0002795830870000074
Figure BDA0002795830870000081
其中三个数据集分别采用了CNDB-pedia中文知识图谱、MicrosoftSatori以及zhishi.me中文知识图谱对商品名称的实体集合进行三元组特征拓展。各个数据集的用户特征分布情况如下:
(1)性别方面:
a)盘石数据集男性用户占比为42%,女性用户占比为58%;
b)MovieLens-1M电影数据集中男性用户占比72%,女性用户占比28%;
c)京东电商数据集中男性用户占比44%,女性用户占比56%。
(2)年龄方面:
a)MovieLens-1M电影数据集中年龄小于25岁的用户占22%,25岁至34岁的用户占35%,35岁至50岁的用户占29%,50岁以上的用户占15%;
b)京东电商数据集中年龄小于26岁的用户占14%,26岁至35岁的用户占55%,36岁至55岁的用户占30%,55岁以上的用户占1%。
下表为本发明在上述三个数据集上性别预测实验结果:
Figure BDA0002795830870000082
下表为本发明在上述三个数据集上年龄预测实验结果:
Figure BDA0002795830870000083
上述性别预测及年龄预测实验结果表中,逻辑回归与支持向量机为传统的机器学习分类器,LightGBM为微软提出的基于梯度提升决策树的高效分类模型,异构知识图卷积网络(HKGCN)即为本发明中的基于图卷积神经网络的用户特征预测模型。实验采用准确率Accuracy以及macro-F1作为用户特征预测性能评价指标。Accuracy是广泛用于分类问题的评价指标,以TP、FP、TN、FN分别代表真正例、假正例、真反例以及假反例,准确率Accuracy为:
Figure BDA0002795830870000091
即分类器预测真正例和真反例在整个数据集中占的比例,表示预测准确性。
macro-F1是机器学习中常用的衡量二分类模型的评价指标F1-score的变体,F1-score评价指标公式如下:
Figure BDA0002795830870000092
其中,precision以及recall分别表示分类精确率和召回率,分别评价模型正例分类是否准确以及分类器判别的正例占全部正例的比例,从上式可以看出F1-score是结合评价分类器精确率及召回率的评价指标。
由于传统F1-score多用于评价二分类,实验中年龄预测为多分类问题故采用macro-F1作为评价指标,macro-F1为各个类F1-score的平均值,即:
Figure BDA0002795830870000093
其中,F1-score1,F1-score2,…,F1-scoren分别代表第1,2,...n类的F1-score,N为类别数量。由公式可见,当macro-F1应用于本发明中的性别预测,即二分类问题时,会自动退化成F1-score。

Claims (9)

1.一种基于用户购买行为的用户特征预测方法,其特征在于该方法包括以下步骤:
步骤1:采集目标用户特征信息、历史订单信息、订单商品信息;
目标用户特征信息包括用户画像信息;
历史订单信息包括订单用户编号、购买商品编号;
订单商品信息包括商品名称;
步骤2:对步骤1中订单商品信息中的商品名称进行分词,提取商品名称中包含一定信息的实体,构建商品名称中包含所有实体的实体集合S(e);
步骤3:构建知识子图
Figure FDA0002795830860000011
在公开知识图谱中查找步骤2获得的实体集合S(e)中的各个实体ei∈S(e);若存在则获取该实体ei相关的三元组特征
Figure FDA0002795830860000012
并进行三元组特征拓展,得到所有实体拓展后的三元组特征,构建知识子图
Figure FDA0002795830860000013
若不存在则跳过该实体,并将其从实体集合中删除;其中,ei代表实体集合S(e)中第i个实体并作为三元组
Figure FDA0002795830860000014
的头实体;
Figure FDA0002795830860000015
表示第1轮拓展得到的第j个实体,并作为三元组
Figure FDA0002795830860000016
的尾实体;r代表ei
Figure FDA0002795830860000017
之间的关系;
步骤4:构建用户邻接矩阵、实体邻接矩阵、实体关系矩阵
将步骤3获得的所有实体拓展后的知识图谱三元组作为知识子图
Figure FDA0002795830860000018
并定义关联关系contain将用户历史订单信息中购买商品与购买商品名称中的实体进行关联,将购买商品加入到知识子图
Figure FDA0002795830860000019
根据知识子图
Figure FDA00027958308600000110
以及历史订单信息构建用户邻接矩阵、实体邻接矩阵、实体关系矩阵:
(1)根据历史订单信息,构建用户邻接矩阵
Figure FDA00027958308600000111
用来保存每名用户的前Ku名具有相同交互商品的用户即为近邻用户,其中M代表用户数,Ku表示购买相同商品用户采样数且Ku<M;
(2)根据知识子图
Figure FDA00027958308600000112
构建实体邻接矩阵
Figure FDA00027958308600000113
用来存储两个直接相连的实体,这两个实体即为近邻实体,其中I表示实体数量,Ke表示近邻实体采样数且Ke<I;
(3)根据知识子图
Figure FDA00027958308600000114
构建实体关系矩阵
Figure FDA00027958308600000115
用来保存实体邻接矩阵中两个近邻实体之间的知识子图关系,其中I表示实体数量,Kr表示关系采样数且Kr=Ke,Kr<I;
步骤5:根据步骤4中得到的知识子图
Figure FDA00027958308600000116
用户邻接矩阵
Figure FDA00027958308600000117
实体邻接矩阵
Figure FDA00027958308600000118
Figure FDA00027958308600000119
以及实体关系矩阵
Figure FDA00027958308600000120
构造基于图卷积神经网络的用户特征预测模型;
所述的基于图卷积神经网络的用户特征预测模型包括输入层、嵌入层、图卷积层、聚合层、全连接层、输出层。
2.如权利要求1所述的一种基于用户购买行为的用户特征预测方法,其特征在于步骤(3)公开知识图谱中存在若干条实体相关的三元组特征,其组织形式为(头实体,关系,尾实体)。
3.如权利要求1所述的一种基于用户购买行为的用户特征预测方法,其特征在于步骤(3)实体的三元组特征拓展具体如下:
(1)初始化:迭代次数H=1;
(2)将
Figure FDA0002795830860000021
中尾实体
Figure FDA0002795830860000022
作为头实体,在公开知识图谱查找
Figure FDA0002795830860000023
相关的三元组特征
Figure FDA0002795830860000024
(3)更新迭代次数H=H+1,将上一轮迭代得到的三元组特征尾实体作为头实体,继续在公开知识图谱查找与该头实体相关的三元组特征,直至迭代次数达到最大迭代次数。
4.如权利要求1所述的一种基于用户购买行为的用户特征预测方法,其特征在于步骤(5)基于图卷积神经网络的用户特征预测模型中:
(1)输入层的输入为用户、用户交互过的实体,构建用户交互实体集合Ne(u);
(2)嵌入层将用户、用户交互过的实体进行向量化表示,并根据用户邻接矩阵
Figure FDA0002795830860000025
获得用户的近邻用户嵌入向量,构建近邻用户集合Nu(u);
(3)图卷积层对嵌入层输出实体特征向量进行局部近邻特征学习,分别从实体邻接矩阵
Figure FDA0002795830860000026
以及实体关系矩阵
Figure FDA0002795830860000027
中获得实体的近邻实体和相应的两个近邻实体间关系,利用图卷积网络根据两个近邻实体间关系与用户u的嵌入向量的相似度对实体的近邻实体进行加权聚合,获得具有近邻结构特征的实体嵌入向量;
(4)聚合层:对嵌入层输出的用户嵌入向量、近邻用户嵌入向量以及图卷积层输出的具有近邻结构特征的实体嵌入向量进行聚合,得到输入用户最终的嵌入向量;
(5)全连接层:全连接层将聚合层输出的输入用户最终的嵌入向量转化为与预测特征种类数相同维度的输出向量;
o=Wufinal+b
其中,o表示用户输出向量,ufinal表示用户u最终的嵌入向量,W表示权重矩阵,b表示偏移向量;
输出层:输出层利用softmax函数将用户的输出向量做归一化处理,将输出向量转化为用户对应各个类别的概率分布,并获取其中最大值所在索引作为模型输出的输入用户预测标签。
5.如权利要求4所述的一种基于用户购买行为的用户特征预测方法,其特征在于图卷积层获得具有近邻结构特征的实体嵌入向量具体操作如下:
a)从实体邻接矩阵
Figure FDA0002795830860000031
中找到用户交互实体集合Ne(u)中任意实体e∈Ne(u)对应的近邻实体,并构建集合Se(e);根据集合Se(e),从实体关系矩阵
Figure FDA0002795830860000032
找到连接两个近邻实体的关系,构建集合Sr(e);
b)根据用户对实体间不同关系的相似度迭代聚合近邻实体特征,近邻实体表示向量计算公式如下:
Figure FDA0002795830860000033
其中,
Figure FDA0002795830860000034
表示实体e的近邻实体表示向量,vi为集合Se(e)中第i个实体ei的嵌入向量,
Figure FDA0002795830860000035
为连接实体e与实体ei的关系嵌入向量与用户u的嵌入向量经过softmax归一化后的相似度,作为实体ei归一化后的聚合权重,用于表示用户偏好;
αi的计算公式如下:
αi=g(u,ri)
其中u表示用户u的嵌入向量,ri表示连接实体e与实体ei的关系ri的嵌入向量,g(·)表示向量的内积计算;
对于任意实体ei∈Se(e),其聚合权重αi的softmax归一化过程为:
Figure FDA0002795830860000036
其中αj表示实体ej的聚合权重,exp(·)表示以自然常数e为底的指数函数;
c)使用加和聚合对实体e的嵌入向量v与近邻实体表示向量
Figure FDA0002795830860000037
进行聚合,得到具有近邻结构特征的实体嵌入向量:
Figure FDA0002795830860000038
其中W、b分别表示权重矩阵和偏移向量,σ表示激活函数。
6.如权利要求4所述的一种基于用户购买行为的用户特征预测方法,其特征在于聚合层获得输入用户最终的嵌入向量具体操作如下:
a)根据用户u的嵌入向量u与用户u交互实体集合Ne(u)中各实体嵌入向量的相似度,对集合Ne(u)中实体进行加权求和,得到用户u的交互实体表示向量:
Figure FDA0002795830860000041
其中
Figure FDA0002795830860000042
表示用户u的交互实体表示向量,vi为集合Ne(u)中第i个实体ei的嵌入向量,
Figure FDA0002795830860000043
为经过softmax函数归一化后的u与vi的相似度,作为用户u的交互实体嵌入向量的归一化后的聚合权重;
βi的计算方式如下:
βi=g(u,vi)
其中,g(·)表示向量内积计算;
对于任意交互实体ei∈Ne(u),其聚合权重βi的softmax归一化过程如下:
Figure FDA0002795830860000044
其中βj表示交互实体ej的聚合权重,exp(·)表示以自然常数e为底的指数函数;
b)根据用户u的嵌入向量u与用户u的近邻用户集合Nu(u)中各用户的嵌入向量的相似度,对集合Nu(u)中的元素进行加权求和,得到用户u的近邻用户表示向量:
Figure FDA0002795830860000045
其中,
Figure FDA0002795830860000046
表示用户u的近邻用户表示向量,ui为集合Nu(u)中第i个用户的嵌入向量,
Figure FDA0002795830860000047
为u与ui经过softmax归一化后的相似度,作为用户u的近邻用户嵌入向量归一化后的聚合权重;
γi的计算方式如下:
γi=g(u,ui)
同样,g(·)表示向量内积计算;
对于任意近邻用户ui∈Nu(u),其聚合权重γi的softmax归一化过程如下:
Figure FDA0002795830860000048
其中γj表示近邻用户uj的聚合权重,exp(·)表示以自然常数e为底的指数函数;
c)对用户交互实体表示向量
Figure FDA0002795830860000049
和用户近邻用户表示向量
Figure FDA00027958308600000410
进行串联,将串联后得到的中间向量变换为与用户嵌入向量相同维度的用户近邻特征表示向量:
Figure FDA00027958308600000411
其中
Figure FDA0002795830860000051
代表用户u的近邻特征表示向量,W、b分别代表权重矩阵和偏置向量,concat(·)代表串联操作;
d)将用户u的嵌入向量u与
Figure FDA0002795830860000052
相加,得到用户u的最终表示向量:
Figure FDA0002795830860000053
其中ufinal表示用户u的最终表示向量,σ表示激活函数ReLU。
7.如权利要求1-6任一所述的一种基于用户购买行为的用户特征预测方法,其特征在于基于图卷积神经网络的用户特征预测模型的反向传播过程采用softmax交叉熵损失函数,其公式为:
Figure FDA0002795830860000054
上述公式中i代表第i个类型,y′i代表目标用户第i维特征真实值,yi代表目标用户第i维特征的预测值,第二项为L2正则化项防止模型过拟合,其中λ为L2正则化系数,Θ为模型参数。
8.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项所述的方法。
9.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
CN202011331045.9A 2020-11-24 2020-11-24 一种基于用户购买行为的用户特征预测方法 Active CN112487199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011331045.9A CN112487199B (zh) 2020-11-24 2020-11-24 一种基于用户购买行为的用户特征预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011331045.9A CN112487199B (zh) 2020-11-24 2020-11-24 一种基于用户购买行为的用户特征预测方法

Publications (2)

Publication Number Publication Date
CN112487199A true CN112487199A (zh) 2021-03-12
CN112487199B CN112487199B (zh) 2022-02-18

Family

ID=74933930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011331045.9A Active CN112487199B (zh) 2020-11-24 2020-11-24 一种基于用户购买行为的用户特征预测方法

Country Status (1)

Country Link
CN (1) CN112487199B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393279A (zh) * 2021-07-08 2021-09-14 北京沃东天骏信息技术有限公司 一种订单数量的预估方法及系统
CN113592607A (zh) * 2021-08-12 2021-11-02 脸萌有限公司 产品推荐方法、装置、存储介质及电子设备
CN114693389A (zh) * 2021-08-12 2022-07-01 山东浪潮爱购云链信息科技有限公司 一种针对采购商的线上寻源方法、设备及介质
CN114925273A (zh) * 2022-05-23 2022-08-19 天津众群科技有限公司 基于大数据分析的用户行为预测方法及ai预测分析系统
WO2023039901A1 (zh) * 2021-09-18 2023-03-23 京东方科技集团股份有限公司 一种文本推荐方法、模型训练方法、装置及可读存储介质
WO2023093205A1 (zh) * 2021-11-26 2023-06-01 中国银联股份有限公司 一种实体标签关联预测方法、装置及计算机可读存储介质
CN117952656A (zh) * 2024-03-25 2024-04-30 珠海芯烨电子科技有限公司 一种数据挖掘方法以及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213872A (zh) * 2018-09-11 2019-01-15 中国电子科技集团公司第二十八研究所 基于知识表示学习的实体关系预测方法及预测系统
CN110955834A (zh) * 2019-11-27 2020-04-03 西北工业大学 一种知识图谱驱动的个性化精准推荐方法
US20200134362A1 (en) * 2017-06-28 2020-04-30 Zhejiang University System and method of connection information regularization, graph feature extraction and graph classification based on adjacency matrix
CN111369318A (zh) * 2020-02-28 2020-07-03 安徽农业大学 一种基于商品知识图谱特征学习的推荐方法及系统
CN111507796A (zh) * 2020-04-07 2020-08-07 桂林电子科技大学 一种基于知识图谱的网上商城商品推荐方法
CN111651613A (zh) * 2020-07-08 2020-09-11 海南大学 一种基于知识图谱嵌入的动态推荐方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200134362A1 (en) * 2017-06-28 2020-04-30 Zhejiang University System and method of connection information regularization, graph feature extraction and graph classification based on adjacency matrix
CN109213872A (zh) * 2018-09-11 2019-01-15 中国电子科技集团公司第二十八研究所 基于知识表示学习的实体关系预测方法及预测系统
CN110955834A (zh) * 2019-11-27 2020-04-03 西北工业大学 一种知识图谱驱动的个性化精准推荐方法
CN111369318A (zh) * 2020-02-28 2020-07-03 安徽农业大学 一种基于商品知识图谱特征学习的推荐方法及系统
CN111507796A (zh) * 2020-04-07 2020-08-07 桂林电子科技大学 一种基于知识图谱的网上商城商品推荐方法
CN111651613A (zh) * 2020-07-08 2020-09-11 海南大学 一种基于知识图谱嵌入的动态推荐方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOWEN JIN等: ""Multi-behavior Recommendation with Graph Convolutional Networks"", 《PROCEEDINGS OF THE 43RD INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
王红等: ""基于Att_GCN模型的知识图谱推理算法"", 《计算机工程与应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393279A (zh) * 2021-07-08 2021-09-14 北京沃东天骏信息技术有限公司 一种订单数量的预估方法及系统
CN113592607A (zh) * 2021-08-12 2021-11-02 脸萌有限公司 产品推荐方法、装置、存储介质及电子设备
CN114693389A (zh) * 2021-08-12 2022-07-01 山东浪潮爱购云链信息科技有限公司 一种针对采购商的线上寻源方法、设备及介质
CN114693389B (zh) * 2021-08-12 2024-05-28 山东浪潮爱购云链信息科技有限公司 一种针对采购商的线上寻源方法、设备及介质
WO2023039901A1 (zh) * 2021-09-18 2023-03-23 京东方科技集团股份有限公司 一种文本推荐方法、模型训练方法、装置及可读存储介质
WO2023093205A1 (zh) * 2021-11-26 2023-06-01 中国银联股份有限公司 一种实体标签关联预测方法、装置及计算机可读存储介质
CN114925273A (zh) * 2022-05-23 2022-08-19 天津众群科技有限公司 基于大数据分析的用户行为预测方法及ai预测分析系统
CN117952656A (zh) * 2024-03-25 2024-04-30 珠海芯烨电子科技有限公司 一种数据挖掘方法以及相关装置
CN117952656B (zh) * 2024-03-25 2024-05-28 珠海芯烨电子科技有限公司 一种数据挖掘方法以及相关装置

Also Published As

Publication number Publication date
CN112487199B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN112487199B (zh) 一种基于用户购买行为的用户特征预测方法
CN111538912B (zh) 内容推荐方法、装置、设备及可读存储介质
CN111339415B (zh) 一种基于多交互式注意力网络的点击率预测方法与装置
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
US8977629B2 (en) Image-based popularity prediction
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN106445988A (zh) 一种大数据的智能处理方法和系统
CN109948735B (zh) 一种多标签分类方法、系统、装置及存储介质
CN111737578A (zh) 一种推荐方法及系统
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
JP2019164402A (ja) 情報処理装置、情報処理方法、およびプログラム
CN108427754B (zh) 信息推送方法、分析方法、装置、计算机存储介质及终端
CN111259140A (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN111695024A (zh) 对象评估值的预测方法及系统、推荐方法及系统
CN112633690A (zh) 服务人员信息分配方法、装置、计算机设备和存储介质
CN111209469A (zh) 一种个性化推荐方法、装置、计算机设备及存储介质
CN111767474A (zh) 一种基于用户操作行为构建用户画像的方法及设备
CN114238758B (zh) 一种基于多源跨界数据融合的用户画像预测方法
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
CN115344794A (zh) 一种基于知识图谱语义嵌入的旅游景点推荐方法
Ghosh et al. Understanding machine learning
CN109670552B (zh) 一种图像分类方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant