CN113409121A - 一种基于异构图表达学习的跨境电商推荐方法 - Google Patents

一种基于异构图表达学习的跨境电商推荐方法 Download PDF

Info

Publication number
CN113409121A
CN113409121A CN202110728252.6A CN202110728252A CN113409121A CN 113409121 A CN113409121 A CN 113409121A CN 202110728252 A CN202110728252 A CN 202110728252A CN 113409121 A CN113409121 A CN 113409121A
Authority
CN
China
Prior art keywords
product
user
theme
border
commerce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110728252.6A
Other languages
English (en)
Other versions
CN113409121B (zh
Inventor
朱桂祥
曹杰
张瑾
夏天豪
王宇琛
温宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Finance and Economics
Original Assignee
Nanjing University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Finance and Economics filed Critical Nanjing University of Finance and Economics
Priority to CN202110728252.6A priority Critical patent/CN113409121B/zh
Publication of CN113409121A publication Critical patent/CN113409121A/zh
Application granted granted Critical
Publication of CN113409121B publication Critical patent/CN113409121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于异构图表达学习的跨境电商推荐方法,在一个真实的跨境电商数据集上进行定量分析,通过隐语义主题模型LDA,得到跨境电商产品的主题概率分布,选择最大的概率分布值对应的主题作为最终产品的主题,构造“用户‑产品‑主题”三部图,针对“用户‑产品‑主题”三部图中存在高阶边关系的用户和项目,提出HNGR分别进行嵌入式的传播学习,包含信息传播和信息聚合,得到高质量的用户和产品表达向量,通过多层感知机MLP去建模“用户‑产品”的交互产生推荐结果。本发明以跨境电商平台用户购买记录数据为驱动,以异构图表达学习的图神经网络为模型,能够有助于识别用户的兴趣偏好,同时能缓解“用户‑产品”购买矩阵的稀疏性问题。

Description

一种基于异构图表达学习的跨境电商推荐方法
技术领域
本发明涉及人工智能领域,具体涉及一种基于异构图表达学习的跨境电商推荐方法(Heterogeneous Neural Graph Recommendation,简写为HNGR)。
背景技术
针对传统的购物场景,已经有一些成熟的推荐算法在被广泛应用,其中最为经典的就是基于协同过滤的推荐、基于矩阵分解的推荐和基于内容的推荐这三种,但由于跨境电商产品信息类型多样、种类复杂、“用户-项目”矩阵极为稀疏并且冷启动问题突出,导致这三种模型在推荐过程中很难奏效。此外,基于协同过滤或者矩阵分解等改进的推荐模型,只考虑了用户对产品的“显式”和“隐式”的反馈信息,而忽视了由用户与项目组成的图结构信息和产品之间的隐语义主题关联,推荐性能很难满足平台和用户的要求。
发明内容
本发明的目的在于提供一种基于异构图表达学习的跨境电商推荐方法。具体而言,在一个真实的跨境电商数据集上进行定量分析,通过隐语义主题模型(LatentDirichlet Allocation,LDA),得到跨境电商产品的主题概率分布,选择最大的概率分布值对应的主题作为最终产品的主题。然后构造“用户-产品-主题”三部图,针对“用户-产品-主题”三部图中存在高阶边关系的用户和项目,本发明设计了Heterogeneous Neural GraphRecommendation(HNGR)推荐模型,分别进行嵌入式的传播学习,具体包含信息传播和信息聚合,得到高质量的用户和产品表达向量,通过多层感知机(Multi-Layer Perceptron,MLP)去建模“用户-产品”的交互,基于此来预测用户对产品的交互分值,最后采用
Figure BDA0003138334230000011
函数获取模型的输出(即用户u购买推荐候选项集中每一个产品的概率)。
实现本发明目的的技术解决方案为:一种基于异构图表达学习的跨境电商推荐方法,包括如下步骤:
步骤1):对跨境电商用户的原始数据进行提取,分别获得订单数据和产品描述数据;其中,订单数据表示为一个3元组:描述为<User_ID,Item_ID,Quantity>,其中User_ID为用户标识,Item_ID为用户购买的产品的唯一标识,Quantity为用户累计购买产品的数量;产品描述数据描述为<Item_ID,Title,Price>,其中Title为商品的标题;Price为产品价格;对订单数据进行去除噪音数据和缺失数据的操作,获得最终“用户-产品”购买矩阵M,对产品描述数据进行去除噪音数据和缺失数据的操作获得产品文本描述数据D;转入步骤2)。
步骤2):基于产品文本描述数据D,挖掘产品的隐语义主题,利用主题信息识别用户的兴趣偏好;对于任意一个产品经过隐语义主题模型泛化后获取所有电商产品的主题,最终获得“主题-产品”矩阵T,转入步骤3)。
步骤3):基于“用户-产品”购买矩阵M和“主题-产品”矩阵T,构造跨境电商“用户-产品-主题”三部图:
若“用户-产品”购买矩阵M和“主题-产品”矩阵T中的元素不为空,则其分别对应的用户u和产品i,以及主题t和产品i之间的节点则会产生一条边;遍历完跨境电商“用户-产品”购买矩阵M和“主题-产品”矩阵T中的元素,从而构造出“用户-产品-主题”三部图,记为G=(V,R),其中V为“用户-产品-主题”三部图中节点集合,R为“用户-产品-主题”三部图中的边集合,转入步骤4)。
步骤4):将构造的跨境电商“用户-产品-主题”三部图G划分为训练集TrainingSet和测试集Test Set,并建立HNGR;在训练阶段,将训练集Training Set输入HNGR,并采用传统的图神经网络中的信息传播架构,沿着跨境电商“用户-产品-主题”三部图结构来获取协同过滤信号,从而分别求得用户的表征向量ru和产品的表征向量ri,通过激励函数产生推荐结果;在优化阶段,通过Adam优化器获得HNGR的最优参数配置,并保存训练好的HNGR,转入步骤5)。
步骤5):通过将测试集Test Set输入到训练好的HNGR,分别对测试集中待推荐的用户计算产生个性化的电商产品推荐列表,从而实现跨境电商产品推荐。
本发明与现有技术相比,其显著优点在于:
(1)本发明提出了一种基于异构图表达学习的跨境电商推荐方法,用于跨境电商平台用户的个性化产品推荐。
(2)能够对复杂的商品和用户之间的交互信息进行表征学习,同时以隐语义主题模型为桥梁,利用聚合层聚合更多的用户和产品邻居节点以获取更加丰富的信息,从而得到高质量的用户和产品表达向量,通过多层感知机(Multi-Layer Perceptron,MLP)去建模“用户-产品”的交互,基于此来预测用户对产品的交互分值。
(3)本发明借助Adam优化器来最小化损失函数
Figure BDA0003138334230000031
从而将模型中的参数调为最优配置,与现有的推荐方法相比,本方法能有效地挖掘出负样本中的有用信息,进一步降低了模型训练的计算成本,因此,本发明的可以更容易地在大量的电子商务交互数据上进行训练。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中
图1是用户购买产品种类数量分布柱状图。
图2是用户购买次数分布曲线图。
图3是产品销量分布曲线图。
图4是基于异构图表达学习的图神经网络推荐模型的系统框架图。
图5是“用户-产品-主题”三部图。
图6是隐语主题可视化展示图。
图7为本发明基于异构图表达学习的跨境电商推荐方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或更多。
由于电商产品信息类型多样、种类复杂、“用户-项目”矩阵极为稀疏并且冷启动问题突出,传统的基于协同过滤的推荐、基于矩阵分解的推荐和基于内容的推荐很难奏效,而基于协同过滤或者矩阵分解等改进的推荐模型,只考虑了用户对产品的“显式”和“隐式”的反馈信息,而忽视了由用户与项目组成的图结构信息和产品之间的隐语义主题关联,推荐性能很难满足平台和用户的要求。故本发明提出了一种基于异构图表达学习的跨境电商推荐方法,结合图7,包括以下步骤:
步骤1):对跨境电商用户的原始数据进行提取,分别获得订单数据和产品描述数据。其中,订单数据可以表示为一个3元组:描述为<User_ID,Item_ID,Quantity>,其中User_ID为用户标识,Item_ID为用户购买的产品的唯一标识,Quantity为用户累计购买产品的数量;产品描述数据描述为<Item_ID,Title,Price>,其中Title为商品的标题;Price为产品价格;对这两种数据均进行去除噪音数据和缺失数据操作,获得最终“用户-产品”购买矩阵M以及产品文本描述数据D;并从统计学角度分析跨境电商“用户-产品”购买矩阵M的特点包括“用户-产品”购买矩阵极度稀疏、用户冷启动问题严重、产品销量长尾现象显著。这些特点启示了本发明在设计跨境电商推荐方法时要面临的难题和挑战,转入步骤2)。
步骤2):基于跨境电商产品文本描述数据D,挖掘产品的隐语义主题,利用主题信息识别用户的兴趣偏好;对于任意一个产品经过隐语义主题模型(Latent DirichletAllocation,LDA)泛化后获取所有电商产品的主题,最终获得“主题-产品”矩阵T,转入步骤3)。
步骤3):基于跨境电商“用户-产品”购买矩阵M和“主题-产品”矩阵T,构造跨境电商“用户-产品-主题”三部图:
若“用户-产品”购买矩阵和“主题-产品”矩阵中的元素不为空,则其分别对应的用户u和产品i,以及主题t和产品i之间的节点则会产生一条边;遍历完跨境电商“用户-产品”购买矩阵M和“主题-产品”矩阵T中的元素,从而构造出“用户-产品-主题”三部图,记为G=(V,R),其中V为“用户-产品-主题”三部图中节点集合,R为“用户-产品-主题”三部图中的边集合;点集合V分为3类,即用户集合U、产品集合I和主题集合T,转入步骤4)。
步骤4):建立基于异构图表达学习的跨境电商推荐方法HNGR(HeterogeneousNeural Graph Recommendation),将构造的跨境电商“用户-产品-主题”三部图G划分为训练集Training Set和测试集Test Set在训练阶段,将训练集Training Set输入HNGR,并采用传统的图神经网络中(GNN)中的信息传播架构,沿着跨境电商“用户-产品-主题”三部图结构来获取协同过滤信号,从而分别求得用户的表征向量ru和产品的表征向量ri,通过激励函数产生推荐结果;在优化阶段,通过Adam优化器获得HNGR的最优参数配置,并保存训练好的HNGR,转入步骤5)。
步骤5):通过将测试集Test Set输入到训练好的HNGR,分别对测试集中待推荐的用户计算产生个性化的电商产品推荐列表,从而实现跨境电商产品推荐。本发明可以准确分析出用户的兴趣偏好并推荐跨境电商产品,既提升了平台的订单转化率,又提升了用户体验。该方法还能够解决传统的推荐方法(如,协同过滤和矩阵分解)面临的“用户-产品”矩阵稀疏性、以及冷启动的难题。
以下将结合附图,对上述步骤逐一说明。
所述步骤1)中所使用的跨境电商商品数据集来自于国内某知名跨境电商平台。该数据主要分为2大类:订单数据和产品描述数据。其中,订单数据可以表示为一个3元组:描述为<User_ID,Item_ID,Quantity>,其中User_ID为用户标识,Item_ID为用户购买的产品的唯一标识,Quantity为用户累计购买产品的数量;产品描述数据描述为<Item_ID,Title,Price>,其中Title为商品的标题;Price为产品价格;本发明对这两种数据均进行去除噪音数据和缺失数据操作,获得最终“用户-产品”购买矩阵M以及产品文本描述数据D
表1预处理后购买矩阵的特征
Figure BDA0003138334230000051
表1描述了数据集中“用户-产品”购买矩阵M的基本特点,首先本发明可以看出商品数量远少于用户数量,如果使用该数据构建“用户-项目”购买矩阵,并在此基础上使用协同过滤算法进行推荐,“用户-项目”矩阵的非零值比例仅为1.27%,而常用的MovieLens100K中的“用户-项目”评分矩阵的稀疏度为6.3%。本发明再观察用户购买不同的跨境电商产品次数的分布,如图1所示,可以发现该图具有显著的长尾现象,其中24211(77.2%)的用户只购买了1种跨境电商产品,而购买跨境电商产品不少于5种的仅有492人(1.56%),因此传统的协同过滤算法很难在该“用户-项目”购买矩阵上直接运行。
图2展示了用户累计购买次数的分布,可以看出仅有一次购买记录的用户比例高达64.8%,即超过60%的用户为冷启动用户,而累计购买三次以上的用户仅占16.8%。因此,跨境电商数据集中用户冷启动问题较为严重。如果直接构造“用户-项目”的购买频率矩阵,矩阵稀疏性的问题同样无法避免,传统的协同过滤算法也难以凑效。
图3展示了跨境电商中产品销售的分布,可以看出该图具有显著的长尾现象,即只有少部分产品被频繁购买,其中销量超过1万的产品仅有8种(4.9%),而销量低于1千的产品高达116种(71.6%)。众所周知,对于推荐系统而言推荐流行的商品较为容易也微不足道,而推荐长尾物品增加了推荐商品的新颖性,同时也是一个挑战。因此,如何设计新颖的推荐模型将更多符合用户兴趣偏好的长尾产品推荐给用户是跨境电商推荐关注的焦点。
上述分析从用户购买产品种类数量分布、用户下单频率分布、产品销量分布这3个角度对跨境电商“用户-产品”购买矩阵M进行量化分析,分析结果解释了本发明在设计跨境电商推荐方法时要面临的难题和挑战:“用户-产品”购买矩阵极度稀疏、用户冷启动问题严重、产品销量长尾现象显著。
基于跨境电商“用户-产品”购买矩阵M和“主题-产品”矩阵T,构造跨境电商“用户-产品-主题”三部图,记为G=(V,R),其中V为“用户-产品-主题”三部图中节点,R为“用户-产品-主题”三部图中的边集合。
对于产品文本描述数据D中任意一个产品i经过隐语义主题模型(LatentDirichlet Allocation,LDA)泛化后获得其主题概率分布,记为θi={θi,k},k=1,2,…,K,
Figure BDA0003138334230000061
其中K为产品泛化后的主题数量,k为主题的序号;选择θi集合中最大的概率分布值对应的主题作为最终产品的主题,抽象为函数
Figure BDA0003138334230000062
Figure BDA0003138334230000063
其中,tk表示为产品i经泛化后的主题,最终获得“主题-产品”矩阵T。
将构造的跨境电商“用户-产品-主题”三部图以4:1的比例进行Training Set和Test Set的划分,以用于HNGR的训练和测试。实际上,有交互历史记录的产品往往能体现出用户的兴趣偏好,而对同一个产品有交互记录的用户群体可以视为产品的特征,能够反映产品之间的相似性。HNGR采用图神经网络(GNN)中的信息传播架构沿着跨境电商“用户-产品-主题”三部图结构来获取协同过滤信号,从而分别求得用户和产品的表征向量,用户u的表征向量具体如下:
1)信息传播:在通用的单层GNN(Graph Neural Network)网络中,对于由“用户-产品”购买矩阵M构造的传统的二部图而言,存在边连接的任意一组“用户-产品”可以记为(u,i),其含义为用户u对产品i产生过购买记录,产品i至用户u的信息记为mu←i
mu←i=f(xi,xu,cu,i),
此处,f(·)是信息的编码函数,xi和xu分别代表产品i和用户u的表征向量,其中xi由One-Hot编码求得,xu均由训练好的BERT模型求得;cu,i是用于控制任意一条边(u,i)传播的衰减因子,采用正则化变量
Figure BDA0003138334230000071
表示;f(·)通过以下方式实现:
Figure BDA0003138334230000072
其中,Nu代表与用户u存在边连接的产品数量,权重
Figure BDA0003138334230000073
W1、W2和W3是GNN网络中可训练的权重矩阵,在信息传播中用于提取有用信息;
Figure BDA0003138334230000074
表示向量拼接,上述公式简化为:
Figure BDA0003138334230000075
类似地,对于“用户-产品-主题”三部图中存在边连接的任意一组(u,i),产品i至用户u的信息记为mu←i
Figure BDA0003138334230000076
其中,z代表与产品i同属一个主题的所有产品,
Figure BDA0003138334230000077
代表产品i所属主题包含的产品数量。W'1、W'2和W'3是GNN网络中可训练的权重矩阵。
2)信息聚合:在信息传播的基础之上,进一步对从用户u的所有邻居节点传播的信息进行聚合,从而获得用户u的表达向量;用户u的所有邻居节点包括传统二部图中的邻居节点以及通过“用户-产品-主题”三部图G获取的邻居节点,信息聚合的函数hu定义为:
Figure BDA0003138334230000078
其中,σ(·)是激励函数,选择ReLU(·)=max(0,·)作为激励函数。
为了获得用户u最终的表达向量,将向量hu经过如下方式转换:
ru=σ(Wuhu+bu),
其中,Wu和bu分别代表可训练的权重矩阵和偏置向量,ru代表经过GNN中嵌入传播层学习所获得的用户u表达向量;此处,同样采用ReLU作为激励函数。
与用户u表达向量ru计算方法类似,同样获得产品i的表达向量为ri。总而言之,基于图神经网络的三部图表达学习可以利用嵌入传播层显式地利用连接信息来关联用户和项表示,同时以隐语义主题为桥梁,利用聚合层聚合更多的用户和产品邻居节点以获取更加丰富的信息,从而获得高质量的用户和产品表达向量。
采用用户u的表达向量ru和产品i的表达向量ri来预测用户u对产品i的交互分值,定义为:
Figure BDA0003138334230000081
Figure BDA0003138334230000082
其中,Wj和bj分别代表MLP中可训练的权重矩阵和偏置向量,l代表MLP网络的总层数;σ(·)是激励函数,选择ReLU作为激励函数;MLP的最终输出为得到的u对产品i的交互分值,即
Figure BDA0003138334230000083
给定用户u对产品i的交互分值
Figure BDA0003138334230000084
采用
Figure BDA0003138334230000085
函数去获取模型的输出,即用户u购买产品i的概率
Figure BDA0003138334230000086
Figure BDA0003138334230000087
在训练阶段,就对用户进行产品推荐而言,积极标签是用户真实购买的产品集,即存在交互,记为Y+;而消极标签是从产品集合I中去除积极标签进行log-uniform采样形成,即不存在交互,记为Y-;采用基于二元交叉熵作为HNGR的损失函数,即:购买概率和真实情况的损失函数
Figure BDA0003138334230000088
如下:
Figure BDA0003138334230000089
其中,yu,i是产品i被用户u真实购买的概率分布;具体而言,如果(u,i)∈Y+,则yu,i=1,反之yu,i=0。
此处,本发明借助Adam优化器来最小化损失函数
Figure BDA00031383342300000810
从而将HNGR模型中的参数调为最优配置。与现有的训练方案相比,该方法能有效地挖掘出消极样本中的有用信息,进一步降低了模型训练的计算成本。因此,HNGR模型可以更容易地在海量的跨境电子商务交互数据上进行训练。
通过将测试集Test Set输入到训练好的HNGR,可分别对测试集中待推荐的用户计算产生个性化的电商产品推荐列表,从而实现跨境电商产品推荐。该方法可以准确分析出用户的兴趣偏好并推荐跨境电商产品,既提升了平台的订单转化率,又提升了用户体验。该方法还能够解决传统的推荐方法(如,协同过滤和矩阵分解)面临的“用户-产品”矩阵稀疏性、以及冷启动的难题。
图1展示了实施例数据集中用户购买跨境电商产品种类的分布,观察该图表本发明发现,在64730条购买记录中,只购买了一种物品的用户有24211人,占了所有用户的77.2%,而购买物品种类数量不少于五种的仅有492人(1.56%)。传统的协同过滤算法很难在该数据矩阵上直接运行。
图2展示了该数据集中购买次数相同的用户,该图展示了31357个用户在数据集中购买商品次数的人数分布。其中高达64.8%的用户仅有一次购买记录,即超过60%的用户为冷启动用户。而购买次数在三次以上的用户仅占了16.8%,所以如果直接构造“User-Item”的购买频率矩阵,矩阵稀疏性的问题同样无法避免,因此使用传统的协同过滤算法也难以凑效。
图3展示了该数据集上产品销量的分布可以看出该图具有显著的长尾现象,即只有少部分产品被频繁购买,其中销量超过1万的产品仅有8种(4.9%),而销量低于1千的产品高达116种(71.6%)。众所周知,对于推荐系统而言推荐流行的商品较为容易也微不足道,而推荐长尾物品增加了推荐商品的新颖性,同时也是一个挑战。因此,如何设计新颖的推荐模型将更多符合用户兴趣偏好的长尾产品推荐给用户是跨境电商推荐关注的焦点。
图4展示了HNGR推荐模型的框架图。通过分析用户购买记录等数据得到“用户-商品”的交互信息,构造三部图。在三部图的基础上进行嵌入式的传播学习,最后通过多层感知机(Multi-Layer Perceptron,MLP)去建模“用户-产品”的交互,以学习交互过程中的非线性协同信号。HNGR包含4个子模块:异构图构建层,信息传播和聚合层,交互建模层,分值预测层。
图5展示了所构造的“用户-产品-主题”三部图。令G=(V,R)为如图4左侧所示构造的“用户-产品-主题”三部图,其中V和R分别是图中节点和边集合。本图中的节点可以分为3类,即用户集合U,产品集合I和主题集合T。
图6展示了LDA主题6个主题概率值最高的100个单词。我们可以从中观察出以下现象:首先,6个主题下涵盖的产品比较丰富,包含了奶粉、成人和婴幼儿保健品、化妆品、饮料。其次,每个主题都体现出了主要特点。例如,主题1、2、3侧重于体现用户购买奶粉和保健品的主题,主题5侧重于保健品和运动饮料的主题;其次,每个主题内的产品存在着隐语义关联,例如,主题1内的奶粉品牌既包含了惠氏、还包含了雀巢、喜宝,产地既包含了港版,还包含了德国。从这些现象可以看出,在传统的二部图上,利用LDA主题模型进行异构图神经网络的构建,能够传播更多的潜在关联信息,有助于识别用户的潜在的兴趣偏好。
以上所述,仅为本发明的具体实施方式,但是,本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替代,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种基于异构图表达学习的跨境电商推荐方法,其特征在于,包括如下步骤:
步骤1):对跨境电商用户的原始数据进行提取,分别获得订单数据和产品描述数据;其中,订单数据表示为一个3元组:描述为<User_ID,Item_ID,Quantity>,其中User_ID为用户标识,Item_ID为用户购买的产品的唯一标识,Quantity为用户累计购买产品的数量;产品描述数据描述为<Item_ID,Title,Price>,其中Title为商品的标题;Price为产品价格;对订单数据进行去除噪音数据和缺失数据的操作,获得最终“用户-产品”购买矩阵M,对产品描述数据进行去除噪音数据和缺失数据的操作获得产品文本描述数据D;转入步骤2);
步骤2):基于产品文本描述数据D,挖掘产品的隐语义主题,利用主题信息识别用户的兴趣偏好;对于任意一个产品经过隐语义主题模型泛化后获取所有电商产品的主题,最终获得“主题-产品”矩阵T,转入步骤3);
步骤3):基于“用户-产品”购买矩阵M和“主题-产品”矩阵T,构造跨境电商“用户-产品-主题”三部图:
若“用户-产品”购买矩阵M和“主题-产品”矩阵T中的元素不为空,则其分别对应的用户u和产品i,以及主题t和产品i之间的节点则会产生一条边;遍历完跨境电商“用户-产品”购买矩阵M和“主题-产品”矩阵T中的元素,从而构造出“用户-产品-主题”三部图,记为G=(V,R),其中V为“用户-产品-主题”三部图中节点集合,R为“用户-产品-主题”三部图中的边集合,转入步骤4);
步骤4):将构造的跨境电商“用户-产品-主题”三部图G划分为训练集Training Set和测试集Test Set,并建立HNGR;在训练阶段,将训练集Training Set输入HNGR,并采用传统的图神经网络中的信息传播架构,沿着跨境电商“用户-产品-主题”三部图结构来获取协同过滤信号,从而分别求得用户的表征向量ru和产品的表征向量ri,通过激励函数产生推荐结果;在优化阶段,通过Adam优化器获得HNGR的最优参数配置,并保存训练好的HNGR,转入步骤5);
步骤5):通过将测试集Test Set输入到训练好的HNGR,分别对测试集中待推荐的用户计算产生个性化的电商产品推荐列表,从而实现跨境电商产品推荐。
2.根据权利要求1所述的基于异构图表达学习的跨境电商推荐方法,其特征在于:步骤1)中,首先从用户购买产品种类数量分布、用户下单频率分布、产品销量分布这3个角度对跨境电商“用户-产品”购买矩阵M进行量化分析。
3.根据权利要求2所述的基于异构图表达学习的跨境电商推荐方法,其特征在于:步骤2)中,产品文本描述数据D,对于D中任意一个产品i经过隐语义主题模型泛化后获得其主题概率分布,记为θi={θi,k},k=1,2,…,K,
Figure FDA0003138334220000021
其中K为产品泛化后的主题数量,k为主题的序号;选择θi集合中最大的概率分布值对应的主题作为最终产品的主题,抽象为函数
Figure FDA0003138334220000022
Figure FDA0003138334220000023
其中,tk表示为产品i经泛化后的主题,最终,获得“主题-产品”矩阵T。
4.根据权利要求3所述的基于异构图表达学习的跨境电商推荐方法,其特征在于:步骤4)中,将构造的跨境电商“用户-产品-主题”三部图G以4:1的比例进行Training Set和TestSet的划分,以用于HNGR的训练和测试。
5.根据权利要求4所述的基于异构图表达学习的跨境电商推荐方法,其特征在于:步骤4)中,HNGR采用图神经网络中的信息传播架构沿着跨境电商“用户-产品-主题”三部图结构来获取协同过滤信号,从而分别求得用户的表征向量ru和产品的表征向量ri,用户u的表征向量ru具体如下:
1)信息传播:在通用的单层GNN网络中,对于由“用户-产品”购买矩阵M构造的传统的二部图而言,存在边连接的任意一组“用户-产品”记为(u,i),其含义为用户u对产品i产生过购买记录,产品i至用户u的信息记为mu←i
mu←i=f(xi,xu,cu,i)
此处,f(·)是信息的编码函数,xi和xu分别代表产品i和用户u的表征向量,其中xi由One-Hot编码求得,xu均由训练好的BERT模型求得;cu,i是用于控制任意一条边(u,i)传播的衰减因子,采用正则化变量
Figure FDA0003138334220000024
表示;f(·)通过以下方式实现:
Figure FDA0003138334220000025
其中,Nu代表与用户u存在边连接的产品数量,权重
Figure FDA0003138334220000026
W1、W2和W3是GNN网络中可训练的权重矩阵,在信息传播中用于提取有用信息;
Figure FDA0003138334220000027
表示向量拼接,上述公式简化为:
Figure FDA0003138334220000028
类似地,对于“用户-产品-主题”三部图中存在边连接的任意一组(u,i),产品i至用户u的信息记为mu←i
Figure FDA0003138334220000031
其中,z代表与产品i同属一个主题的所有产品,
Figure FDA0003138334220000032
代表产品i所属主题包含的产品数量,W’1、W’2和W’3是GNN网络中可训练的权重矩阵;
2)信息聚合:在信息传播的基础之上,进一步对从用户u的所有邻居节点传播的信息进行聚合,从而获得用户u的表达向量;用户u的所有邻居节点包括传统二部图中的邻居节点以及通过“用户-产品-主题”三部图G获取的邻居节点,信息聚合的函数hu定义为:
Figure FDA0003138334220000033
其中,σ(·)是激励函数,选择ReLU(·)=max(0,·)作为激励函数;
为了获得用户u最终的表达向量,将向量hu经过如下方式转换:
ru=σ(Wuhu+bu),
其中,Wu和bu分别代表可训练的权重矩阵和偏置向量,ru代表经过GNN中嵌入传播层学习所获得的用户u表达向量;此处,同样采用ReLU作为激励函数。
6.根据权利要求5所述的基于异构图表达学习的跨境电商推荐方法,其特征在于:步骤4)中,与用户u表达向量ru计算方法类似,同样获得产品i的表达向量为ri
7.根据权利要求6所述的基于异构图表达学习的跨境电商推荐方法,其特征在于:步骤4)中,采用用户u的表达向量ru和产品i的表达向量ri来预测用户u对产品i的交互分值,定义为:
Figure FDA0003138334220000034
Figure FDA0003138334220000035
其中,Wj和bj分别代表MLP中可训练的权重矩阵和偏置向量,l代表MLP网络的总层数;σ(·)是激励函数,选择ReLU作为激励函数;MLP的最终输出为得到的u对产品i的交互分值,即
Figure FDA0003138334220000036
给定用户u对产品i的交互分值
Figure FDA0003138334220000037
采用
Figure FDA0003138334220000041
函数去获取模型的输出,即用户u购买产品i的概率
Figure FDA0003138334220000042
Figure FDA0003138334220000043
在训练阶段,就对用户进行产品推荐而言,积极标签是用户真实购买的产品集,即存在交互,记为Y+;而消极标签是从产品集合I中去除积极标签进行log-uniform采样形成,即不存在交互,记为Y-;采用基于二元交叉熵作为HNGR的损失函数,即:购买概率和真实情况的损失函数
Figure FDA0003138334220000044
定义如下:
Figure FDA0003138334220000045
其中,yu,i是产品i被用户u真实购买的概率分布;具体而言,如果(u,i)∈Y+,则yu,i=1,反之yu,i=0。
CN202110728252.6A 2021-06-29 2021-06-29 一种基于异构图表达学习的跨境电商推荐方法 Active CN113409121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110728252.6A CN113409121B (zh) 2021-06-29 2021-06-29 一种基于异构图表达学习的跨境电商推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110728252.6A CN113409121B (zh) 2021-06-29 2021-06-29 一种基于异构图表达学习的跨境电商推荐方法

Publications (2)

Publication Number Publication Date
CN113409121A true CN113409121A (zh) 2021-09-17
CN113409121B CN113409121B (zh) 2022-02-15

Family

ID=77680291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110728252.6A Active CN113409121B (zh) 2021-06-29 2021-06-29 一种基于异构图表达学习的跨境电商推荐方法

Country Status (1)

Country Link
CN (1) CN113409121B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869992A (zh) * 2021-12-03 2021-12-31 平安科技(深圳)有限公司 基于人工智能的产品推荐方法、装置、电子设备及介质
CN115009689A (zh) * 2022-05-09 2022-09-06 南京财经大学 一种共享快递包装循环再利用运作方法
CN115098931A (zh) * 2022-07-20 2022-09-23 江苏艾佳家居用品有限公司 一种用于挖掘用户室内设计个性化需求的小样本分析方法
CN115545822A (zh) * 2022-09-20 2022-12-30 中国电信股份有限公司 产品属性推荐方法和装置、计算机存储介质、电子设备
CN116305461A (zh) * 2023-03-13 2023-06-23 清华大学 结构响应计算方法、装置、电子设备及存储介质
CN116596570A (zh) * 2023-05-11 2023-08-15 广东德澳智慧医疗科技有限公司 一种基于大数据分析算法的同产品在不同电商平台中的信息对比系统
CN116823321A (zh) * 2023-07-06 2023-09-29 青岛酒店管理职业技术学院 一种电商用经济管理数据分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140317033A1 (en) * 2013-04-23 2014-10-23 International Business Machines Corporation Predictive and descriptive analysis on relations graphs with heterogeneous entities
US20180103052A1 (en) * 2016-10-11 2018-04-12 Battelle Memorial Institute System and methods for automated detection, reasoning and recommendations for resilient cyber systems
CN111967972A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 理财产品推荐方法及装置
CN112131480A (zh) * 2020-09-30 2020-12-25 中国海洋大学 基于多层异质属性网络表征学习的个性化商品推荐方法及系统
CN112633978A (zh) * 2020-12-22 2021-04-09 重庆大学 图神经网络模型构建方法、用于商品推荐的方法、装置及设备
CN112950324A (zh) * 2021-03-15 2021-06-11 重庆邮电大学 一种知识图谱辅助的成对排序个性化电商推荐方法及系统
CN112990972A (zh) * 2021-03-19 2021-06-18 华南理工大学 一种基于异构图神经网络的推荐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140317033A1 (en) * 2013-04-23 2014-10-23 International Business Machines Corporation Predictive and descriptive analysis on relations graphs with heterogeneous entities
US20180103052A1 (en) * 2016-10-11 2018-04-12 Battelle Memorial Institute System and methods for automated detection, reasoning and recommendations for resilient cyber systems
CN111967972A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 理财产品推荐方法及装置
CN112131480A (zh) * 2020-09-30 2020-12-25 中国海洋大学 基于多层异质属性网络表征学习的个性化商品推荐方法及系统
CN112633978A (zh) * 2020-12-22 2021-04-09 重庆大学 图神经网络模型构建方法、用于商品推荐的方法、装置及设备
CN112950324A (zh) * 2021-03-15 2021-06-11 重庆邮电大学 一种知识图谱辅助的成对排序个性化电商推荐方法及系统
CN112990972A (zh) * 2021-03-19 2021-06-18 华南理工大学 一种基于异构图神经网络的推荐方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869992A (zh) * 2021-12-03 2021-12-31 平安科技(深圳)有限公司 基于人工智能的产品推荐方法、装置、电子设备及介质
CN113869992B (zh) * 2021-12-03 2022-03-18 平安科技(深圳)有限公司 基于人工智能的产品推荐方法、装置、电子设备及介质
CN115009689A (zh) * 2022-05-09 2022-09-06 南京财经大学 一种共享快递包装循环再利用运作方法
CN115009689B (zh) * 2022-05-09 2024-01-26 南京财经大学 一种共享快递包装循环再利用运作方法
CN115098931A (zh) * 2022-07-20 2022-09-23 江苏艾佳家居用品有限公司 一种用于挖掘用户室内设计个性化需求的小样本分析方法
CN115098931B (zh) * 2022-07-20 2022-12-16 江苏艾佳家居用品有限公司 一种用于挖掘用户室内设计个性化需求的小样本分析方法
CN115545822A (zh) * 2022-09-20 2022-12-30 中国电信股份有限公司 产品属性推荐方法和装置、计算机存储介质、电子设备
CN116305461A (zh) * 2023-03-13 2023-06-23 清华大学 结构响应计算方法、装置、电子设备及存储介质
CN116305461B (zh) * 2023-03-13 2023-10-13 清华大学 结构响应计算方法、装置、电子设备及存储介质
CN116596570A (zh) * 2023-05-11 2023-08-15 广东德澳智慧医疗科技有限公司 一种基于大数据分析算法的同产品在不同电商平台中的信息对比系统
CN116823321A (zh) * 2023-07-06 2023-09-29 青岛酒店管理职业技术学院 一种电商用经济管理数据分析方法及系统
CN116823321B (zh) * 2023-07-06 2024-02-06 青岛酒店管理职业技术学院 一种电商用经济管理数据分析方法及系统

Also Published As

Publication number Publication date
CN113409121B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN113409121B (zh) 一种基于异构图表达学习的跨境电商推荐方法
Pan et al. Study on convolutional neural network and its application in data mining and sales forecasting for E-commerce
Brogi et al. The effects of online brand communities on brand equity in the luxury fashion industry
CN111242729A (zh) 一种基于长短期兴趣的序列化推荐方法
CN109785064A (zh) 一种基于多源信息融合的移动电子商务推荐方法和系统
CN109584006B (zh) 一种基于深度匹配模型的跨平台商品匹配方法
CN111949887A (zh) 物品推荐方法、装置及计算机可读存储介质
CN107609060A (zh) 资源推荐方法及装置
Wang et al. Multitask feature learning approach for knowledge graph enhanced recommendations with RippleNet
CN112950324A (zh) 一种知识图谱辅助的成对排序个性化电商推荐方法及系统
CN111949886B (zh) 一种用于信息推荐的样本数据生成方法和相关装置
CN112699310A (zh) 基于深度神经网络的冷启动跨域混合推荐的方法及系统
CN112364242A (zh) 针对上下文感知型的图卷积推荐系统
CN115860880B (zh) 基于多层异质图卷积模型的个性化商品推荐方法及系统
CN112861006A (zh) 融合元路径语义的推荐方法及系统
CN115329215A (zh) 异构网络中基于自适应动态知识图谱的推荐方法及系统
Ahamed et al. A recommender system based on deep neural network and matrix factorization for collaborative filtering
CN116992099B (zh) 一种基于交互选择的图神经网络推荐方法、系统及终端
Chen et al. Graph enhanced neural interaction model for recommendation
CN113761388A (zh) 一种推荐方法、装置、电子设备及存储介质
Lin et al. Improving the effectiveness of experiential decisions by recommendation systems
CN111310029A (zh) 一种基于用户商品画像和潜在因子特征提取的混合推荐方法
Minjing et al. Recognizing intentions of E-commerce consumers based on ant colony optimization simulation
CN115599990A (zh) 一种知识感知结合深度强化学习的跨域推荐方法及系统
Lu Knowledge distillation-enhanced multitask framework for recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant