CN112905906A - 一种融合局部协同与特征交叉的推荐方法及系统 - Google Patents

一种融合局部协同与特征交叉的推荐方法及系统 Download PDF

Info

Publication number
CN112905906A
CN112905906A CN202110097853.1A CN202110097853A CN112905906A CN 112905906 A CN112905906 A CN 112905906A CN 202110097853 A CN202110097853 A CN 202110097853A CN 112905906 A CN112905906 A CN 112905906A
Authority
CN
China
Prior art keywords
scoring
node
local
feature
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110097853.1A
Other languages
English (en)
Other versions
CN112905906B (zh
Inventor
陈建海
周骏丰
沈睿
荣大中
何钦铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110097853.1A priority Critical patent/CN112905906B/zh
Publication of CN112905906A publication Critical patent/CN112905906A/zh
Application granted granted Critical
Publication of CN112905906B publication Critical patent/CN112905906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合局部协同与特征交叉的推荐方法及系统,属于推荐系统领域。首先在历史评分矩阵上,为输入的用户和物品目标组合动态地采样局部评分子图,设计启发式和图卷积两种方法先后挖掘其中的协同模式,该局部协同挖掘模块无需全局的历史评分信息,可以将模型参数知识泛化到新添加的实例上。同时将用户和物品的多种异构上下文信息统一编码成向量形式,采用因子分解机挖掘上下文特征之间的交叉模式,并利用多层感知机将协同模式与特征向量映射到评分空间,结合两个模块的输出得到用户对物品的最终预测评分值。本发明有效利用了用户和物品的上下文信息,缓解了历史行为数据的稀疏性问题,实现了协同模式的可泛化性,取得了更好的推荐效果。

Description

一种融合局部协同与特征交叉的推荐方法及系统
技术领域
本发明涉及推荐系统领域,尤其涉及一种融合局部协同与特征交叉的推荐方法及系统。
背景技术
大数据时代下,互联网上的数据在不断激增,大量无关的数据给人们从中获取有价值的信息带来了巨大的困难。推荐系统作为一种解决信息过载问题的有效技术途径,已经被广泛应用到电子商务、社交网络等领域。作为推荐系统的核心,推荐算法受到来自工业界和学术界的广泛关注,成为当前研究的一大热点。
推荐算法一般根据用户的历史评分行为,估计用户的当前偏好,最终生成推荐列表。用户对物品的历史交互数据通常用评分矩阵表示,矩阵中的每一项代表用户对物品的偏好值。构建好的评分矩阵可以直接用来计算用户相似度或物品相似度。如果将用户-物品评分矩阵转换成一个二分图,那么推荐算法中的评分预测问题可以看作是图上的边权重预测问题。该图包含用户和物品两种类型的节点,且只有用户节点和物品节点之间存在连边,同类节点间不存在边。用户节点和物品节点之间的边代表用户对物品的行为。
大多数推荐算法依赖于用户和物品评分矩阵的全局信息,在本质上是学习一个和全局ID相关联的表示向量查找表,这样的方法无法直接适用于不在预定义查找表范围内的新加入节点,缺少必要的泛化特性。与此同时,基于历史行为数据的协同推荐算法只考虑了用户和物品两类实体,忽略了它们丰富的上下文属性,在历史评分数据稀疏的情况下,推荐质量就会急剧下降。
本发明针对传统推荐方法在处理历史评分数据时面临的泛化性缺失和稀疏数据制约的问题,提出了一种融合局部协同与特征交叉的推荐方法及系统。本方法对输入的用户-物品组合采样局部评分子图,挖掘其中的高阶局部协同模式,同时编码用户和物品多种异构上下文信息,挖掘上下文特征中的交叉模式,综合局部协同与特征交叉,得到用户对物品最终的预测评分值。本发明所设计的推荐算法完全依赖于局部评分子图,可以将模型参数知识泛化到新添加的实例上,并且有效利用了用户和物品的上下文信息,可以缓解历史行为数据的稀疏性问题,取得更好的推荐效果。
发明内容
针对基于传统协同过滤的推荐算法面临的泛化缺失和稀疏制约问题,本发明提供了一种融合局部协同与特征交叉的推荐方法及系统。该方法利用图卷积神经网络和因子分解机,分别挖掘目标评分组合的局部协同模式和上下文特征交叉模式,实现了模型参数知识对新实例的泛化能力,提升了模型在稀疏历史交互情况下的推荐效果。
为了实现上述目的,本发明提供了如下的技术方案:
本发明的其中一个目的是提供一种融合局部协同与特征交叉的推荐方法,包括以下步骤:
步骤1:获取用户与物品的历史评分数据,构建评分矩阵;将评分矩阵转换为评分二分图;
获取用户与物品的上下文属性,包括数值属性、类别属性、图像属性和文本属性;对所述上下文属性进行编码,得到每一种属性对应的异构上下文特征向量;
步骤2:将不同属性的上下文特征向量拼接得到上下文特征,采用因子分解机对所述的上下文特征进行交叉组合建模,挖掘上下文特征之间的交叉模式,得到基于上下文特征低阶交叉模式的预测评分项;
针对用户和物品组合,在步骤1所述的评分二分图上采样得到局部评分子图;利用启发式方法抽取局部评分子图的初始化协同特征,并将其作为关系图卷积神经网络的输入,利用所述的关系图卷积神经网络挖掘高阶协同模式,得到局部评分子图特征;
拼接局部评分子图特征和上下文特征得到联合向量,利用多层感知机将所述的联合向量映射到目标评分空间,得到基于局部协同模式和上下文特征高阶交叉模式的预测评分项;
步骤3:将步骤2得到的两项预测评分项之和作为最终的预测评分,根据最终的预测评分对物品进行排序,生成推荐列表,将高评分物品作为推荐结果输出。
进一步的,步骤1中获得评分二分图的方法包括:
1.1)获取用户与物品的历史评分数据,构建评分矩阵记为R,矩阵R中的行和列分别表示用户集合U和物品集合I;矩阵R中非空的每一项Ru,i代表用户u对物品i的历史评分,Ru,i=0则表示未被观察到的评分;
1.2)将所述的评分矩阵转换为评分二分图,转换方法为:所述的评分二分图采用无向图表示,评分二分图中的节点包括用户节点和物品节点,两个用户节点或两个物品节点之间不会存在评分关系;将矩阵R中Ru,i转换为评分二分图中的评分边(u,i)以及评分数值r=Ru,i,表示用户u对物品i的历史评分。
进一步的,针对所述的数值属性,采用归一化方法将数值压缩到0至1区间内;针对所述的类别属性,采用编码方法转换为特征向量形式;针对所述的图像属性,采用图像特征提取模型转换为特征向量形式;针对所述的文本属性,采用词嵌入方法转换为特征向量形式。
进一步的,所述的类别属性包括有序类别、无序单值类别和无序多值类别,分别采用标签编码、One-hot编码和Multi-hot编码来转换这三种类别属性。
进一步的,所述的局部评分子图的采样方法为:
i)利用目标用户和物品,初始化采样节点集合Usampled,Isampled和前哨节点集合Ufringe,Ifringe,其中,初始化后的采样节点集合Usampled,Isampled,以及初始化后的前哨节点集合Ufringe,Ifringe中分别为待预测用户节点u和待预测物品节点i;
ii)基于前哨节点集合Ufringe,Ifringe,采样用户节点的邻居物品节点和物品节点的邻居用户节点,并删除其中已经被采样节点集合包含的节点,将更新后的前哨节点集合作为下一次采样的前哨节点集合,同时将去重后的前哨节点集合加入到采样节点集合中,更新采样节点集合;
iii)重复h次步骤ii),采样得到距离目标边h阶之内的局部采样节点集合Usampled,Isampled;从步骤1所述的评分二分图中抽取出包含局部采样节点集合Usampled,Isampled中的所有节点和节点连边的局部评分子图
Figure BDA0002915078250000031
如果是在模型的训练阶段,则需要额外删除目标评分边(u,i)。
进一步的,所述的启发式方法包括节点标记法和节点指纹法;
所述的节点标记法为:首先给目标用户节点和目标物品节点分别赋予标记值0和1;针对其他邻域节点,若属于第h跳采样得到的用户节点,将其标记为2i,若属于第h跳采样得到的物品节点,将其标记为2i+1;对标记值进行独热编码,得到节点标记向量xtab
所述的节点指纹法为:选取诱导子图,根据节点在诱导子图上不同的度数区分节点对应的不同角色;然后对局部评分子图上的每个节点所处的特定位置进行计数,得到多维的节点指纹向量xgdv
拼接节点标记向量和节点指纹向量,得到局部评分子图的初始化协同特征x0=concat(xtab,xgdv)。
进一步的,将初始化协同特征作为关系图卷积神经网络的输入,利用所述的关系图卷积神经网络挖掘高阶协同特征,所述的关系图卷积神经网络每一层中的关系图卷积操作如下式:
Figure BDA0002915078250000041
其中,
Figure BDA0002915078250000042
表示节点a在第l层的特征向量,
Figure BDA0002915078250000043
Figure BDA0002915078250000044
是可优化学习的参数矩阵,
Figure BDA0002915078250000045
是通过边类型r与节点a相连的邻居集合,
Figure BDA0002915078250000046
则表示该邻居集合的数量,σ(·)表示非线性激活函数,
Figure BDA0002915078250000047
表示用户对物品所有可能评分的集合;
经过L层关系图卷积操作之后,局部评分子图中的每个节点得到共L个中间特征向量,将节点a在不同层中的中间特征向量拼接起来,作为节点a的最后表示特征
Figure BDA0002915078250000048
针对于目标用户和物品组合(u,i),得到特征hu,hi,拼接后作为局部评分子图特征g=concat(hu,hi)。
进一步的,步骤2所述因子分解机的建模公式如下:
Figure BDA0002915078250000049
式中,w0和wi表示可训练参数,vi,f表示引入的辅助向量中的第f个元素,d表示上下文特征的维度,k表示辅助向量的维度,xi表示上下文特征中的第i个特征分量,
Figure BDA00029150782500000410
表示基于上下文特征低阶交叉模式的预测评分项。
本发明的另一个目的在于提供一种基于上述方法的融合局部协同与特征交叉的推荐系统,包括:
数据处理模块,其用于获取用户与物品的历史评分数据和上下文属性,针对历史评分数据构建评分矩阵,并转换为评分二分图;针对上下文属性进行编码,得到每一种属性对应的上下文特征向量;
评分预测模块,其用于根据评分二分图,并结合异构上下文特征向量,输出该用户对物品的预测评分;在线下训练阶段时,根据预测评分与实际评分计算训练损失值,以梯度下降的方式寻找最优的模型参数;
推荐查询模块,其用于对评分预测模块输出的评分对物品进行排序,将高评分物品作为推荐结果输出。
与现有技术相比,本发明的有益效果为:
1)本发明在历史评分交互得到的评分二分图上,针对输入的用户和物品目标组合动态地采样出局部评分子图,设计启发式和图卷积两种方法先后挖掘其中的高阶局部协同模式,该局部协同模式挖掘时无需全局的历史评分信息,可以将模型参数知识泛化到新添加的实例上;同时结合用户与物品的上下文属性,针对性地获取属性编码,采用因子分解机挖掘用户和物品上下文特征之间的交叉模式;综合局部协同模式与特征交叉模式的融合结果,得到用户对物品最终的预测评分值。本方法克服了传统推荐算法对全局评分矩阵的依赖,缓解了历史评分行为的稀疏性问题,无需模型重训练就可以直接将参数指数泛化到新添加的用户和物品节点,有更好的推荐效果和线上运行性能。
2)本发明设计了节点标记和节点指纹两种启发式协同特征,其中节点标记法将目标用户和目标物品节点分别赋予整数标记值,再经过独热编码后作为局部子图上节点的初始协同特征的一部分;节点指纹法利用了多个小型非同构的诱导子图,根据节点在诱导子图上不同的度数可以区分不同角色的节点,对局部子图上的每个节点在图上所处的特定位置计数,得到节点指纹向量,作为初始协同特征的另一部分;利用两种特征相结合的方式获取更全面的局部子图特征,提升了模型的训练及推荐效果。
附图说明
图1为本发明的推荐系统模块结构和流程示意图;
图2为本发明的数据处理模块的工作流程示意图。
图3为本发明的评分预测模块的工作流程示意图。
图4为本发明的局部协同模式挖掘单元中的的诱导子图示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
下面结合附图和实例对本发明做进一步详细描述。
如图1所示,本发明的实施的融合局部协同与特征交叉的推荐系统包括数据处理模块、评分预测模块和推荐查询模块,其整体流程主要包括以下几个步骤:
(1)获取平台的用户和物品上下文属性,以及历史评分信息,分别编码多种异构上下文属性,并根据历史评分交互构建评分矩阵和评分二分图;
(2)预测目标用户-物品的评分值,在原评分二分图上采样出局部评分子图,挖掘目标评分边的局部协同模式,同时利用因子分解机挖掘上下文特征的交叉模式,融合局部协同与特征交叉得到预测评分;
(3)根据用户对未交互物品的预测评分,按照偏好大小从高到低排序,生成推荐列表。
数据处理模块的工作流程参考图2,如下:
(1-1)获取用户与物品的历史评分数据,构建评分矩阵R和评分二分图G。
评分矩阵R中的中的行和列分别表示用户集合U和物品集合I。矩阵中非空的每一项Ru,i代表用户对物品的历史评分,Ru,i=0则表示未被观察到的评分。
无向二分图G包含用户U和物品I两种类型节点,分别对应着评分矩阵R中的行和列。评分边只存在于用户节点和物品节点之间,两个用户节点或两个物品之间不会存在评分关系。每条评分边(u,i)包含一个评分数值r=Ru,i,表示用户u对物品i的历史评分。
(1-2)获取用户和物品的上下文属性,包括数值属性、类别属性、图像属性和文本属性,并编码成模型可以计算的向量形式,得到异构上下文特征向量;具体如下:
对于数值属性,如年龄,采用最大最小归一化操作,将数值压缩到0到1区间内;
对于类别属性,可再细分为有序类别、无序单值类别和无序多值类别,比如等级、性别和电影类别。等级类型之间存在大小关系,性别属性不存在大小关系,一个用户有且只有一种性别属性值,而一部电影可能既属于喜剧片也属于爱情片。本发明分别采用标签编码、One-hot编码和Multi-hot编码来编码这三种类别属性;
对于图像属性,将图像输入VGG16模型,将模型中卷积池化层的输出作为图像的向量特征;
对于文本属性,首先对文本分词得到词列表,并删除其中的停用词,然后查表glove.840B.300d预训练词向量,对所有词组向量取均值作为文本的向量特征。
构建评分矩阵和评分二分图,并编码上下文向量之后,所述的评分预测模块分别挖掘局部协同模式和特征交叉模式,综合计算得到用户对物品的评分值,如图3所示,具体过程如下:
(2-1)对输入的待预测用户和物品组合(u,i),局部协同模式挖掘单元在原评分二分图上采样得到局部评分子图
Figure BDA0002915078250000071
并抽取局部协同模式g;
具体的步骤包括:
(2-1a)局部评分子图采样:
i)利用目标用户和物品,初始化采样节点集合Usampled,Isampled和前哨节点集合Ufringe,Ifringe,其中,初始化后的采样节点集合Usampled,Isampled中分别为待预测用户节点u和待预测物品节点i,初始化后的前哨节点集合Ufringe,Ifringe中分别为待预测用户节点u和待预测物品节点i;
ii)基于前哨节点集合Ufringe,Ifringe,采样用户节点的邻居物品节点和物品节点的邻居用户节点,并删除其中已经被采样节点集合包含的节点,将更新后的前哨节点集合作为下一次采样的前哨节点集合,同时将去重后的前哨节点集合加入采样节点集合中;
iii)重复h次步骤ii),采样得到距离目标边h阶之内的采样节点集合Usampled,Isampled,从原评分二分图中抽取出包含局部采样节点集合Usampled,Isampled中的所有节点和节点连边的局部评分子图
Figure BDA0002915078250000072
如果是在模型的训练阶段,则需要额外删除目标评分边(u,i)。
(2-1b)局部协同模式抽取:
利用局部协同模式挖掘单元采用节点标记和节点指纹两种启发式方法,抽取协同特征作为后续输出给图卷积神经网络的初始化节点特征。
节点标记方法:
首先给目标用户节点和目标物品节点分别赋予标记值0和1;然后对于其他邻域节点,根据节点在步骤(2-1a)中被采样到的第几阶跳数来确定它们具体的标记值,如果一个用户节点在第i跳时候被采样到,则将其标记为2i,如果是一个物品节点(即,一个物品节点在第i跳时候被采样到),将标记为2i+1。得到的整数值节点标记经过独热编码后,作为局部评分子图上节点的初始协同特征的一部分,记为节点标记向量xtab
节点指纹方法:
首先选取了节点数目为2-4个的共9种小型非同构的诱导子图,如图4所示,根据节点在诱导子图上不同的度数可以区分不同角色的节点,该9种诱导子图中共有15种不同的节点角色。节点指纹方法对局部评分子图上的每个节点在图上所处的特定位置进行计数,也就是在局部评分子图上抽取这9种诱导子图,统计节点处于这15种位置的次数,得到15维的节点指纹向量xgdv
拼接节点标记向量和节点指纹向量,可以得到局部评分子图的初始化协同特征x0=concat(xtab,xgdv),其中将局部评分子图中的第i个节点的初始化协同特征表示为
Figure BDA0002915078250000081
(2-1c)将初始化协同特征x0=concat(xtab,xgdv)作为关系图卷积神经网络的初始化节点特征,应用L层的关系图卷积算子,传递聚合邻居节点的特征,如下式:
Figure BDA0002915078250000082
其中,
Figure BDA0002915078250000083
表示局部评分子图上的节点a在第l层的特征向量,包括用户节点和物品节点,
Figure BDA0002915078250000084
Figure BDA0002915078250000085
是可优化学习的参数矩阵,
Figure BDA0002915078250000086
是通过边类型r与节点a相连的邻居集合,
Figure BDA0002915078250000087
则表示该邻居集合数量,σ(·)表示非线性激活函数tanh,
Figure BDA0002915078250000089
表示用户对物品的所有可能评分的集合。
经过L层关系图卷积操作之后,局部评分子图中的每个节点可以得到共L个中间特征向量,将节点a在不同层中的中间特征向量拼接起来,作为节点a的最后表示特征
Figure BDA0002915078250000088
(2-1d)考虑到目标用户和目标物品两个节点与局部评分子图的其他节点相比而言有特殊的重要性,所述的局部协同模式挖掘单元只选取这两个目标节点的最后表示特征hu,hi,拼接组成该局部评分子图的图级表示,记为局部协同模式g=concat(hu,hi)。
(2-2)所述的上下文特征交叉挖掘单元首先拼接用户和物品所有的异构上下文特征向量,得到评分组合(u,i)的上下文特征x,其维度为d。
针对上下文特征x中的每个维度的特征分量xi,引入辅助向量
Figure BDA0002915078250000091
Figure BDA0002915078250000092
其中k∈N+,表示辅助向量中的元素个数,vi,f表示辅助向量中的第f个元素,k的实际大小远小于特征维度d。
采用因子分解机建模上下文特征x的交叉模式,得到基于特征交叉的预测评分项
Figure BDA0002915078250000093
建模公式如下:
Figure BDA0002915078250000094
式中,w0、wi表示可训练参数;
(2-3)所述的回归预测单元拼接局部子图特征g和上下文特征x,输入到以多层感知机为基础的回归预测模块,将联合向量映射到目标评分空间,得到基于上下文特征高阶组合和局部协同模式的预测评分
Figure BDA0002915078250000095
本发明中,回归预测模块采用的模型没有具体的限定,可以是单独的多层感知机,也可以是包括多层感知机的其他网络形式,能够实现将联合向量映射到目标评分空间的目的即可。
综合因子分解机和多层感知机的输出,得到最终的预测评分
Figure BDA0002915078250000096
最后,根据最终的预测评分进行排序,将高评分物品作为推荐结果输出。
需要说明的是,上述方法提及的图卷积神经网络、因子分解机和多层感知机需要先进行训练,再用于实际推荐工作中。在训练阶段,以历史评分数据中的评分值作为标签,以最终输出的评分为预测结果进行训练。
本发明还提供了一种融合局部协同与特征交叉的推荐系统,主要包括:
数据处理模块,其用于获取用户与物品的历史评分数据和上下文属性,所述的评分数据包括用户ID、物品ID、用户对物品的评分数值;所述的上下文属性包括用户上下文属性和物品上下文属性;
针对历史评分数据构建评分矩阵,并转换为评分二分图;针对上下文属性进行编码,得到每一种属性对应的上下文特征向量。
评分预测模块,其用于根据评分二分图,并结合异构上下文特征向量,输出该用户对物品的预测评分;在线下训练阶段时,根据预测评分与实际评分计算训练损失值,以梯度下降的方式寻找最优的模型参数,并用于线上实际部署预测。
推荐查询模块,其用于对评分预测模块输出的评分对物品进行排序,将高评分物品作为推荐结果输出。
具体的,所述的评分预测模块包括:
局部协同模式挖掘单元,其用于从评分二分图上采样得到局部评分子图,利用启发式方法抽取局部评分子图的初始化协同特征,利用关系图卷积神经网络得到局部评分子图特征;
上下文特征交叉挖掘单元,其用于将不同属性的异构上下文特征向量拼接得到上下文特征,采用因子分解机对所述的上下文特征进行交叉组合建模,挖掘上下文特征之间的交叉模式,抽取一阶和二阶交叉特征,得到基于上下文特征低阶交叉模式的预测评分项;
回归预测单元,其用于拼接局部评分子图特征和上下文特征得到联合向量,利用多层感知机将所述的联合向量映射到目标评分空间,得到基于局部协同模式和上下文特征高阶交叉模式的预测评分项;结合该预测评分项和上下文特征交叉挖掘单元输出的预测评分项,得到最终的预测评分。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。例如,所述的局部协同模式挖掘单元、上下文特征交叉挖掘单元与回归预测单元的具体实现方法可参考上述对方法部分的描述,此处不再赘述。
其中,以上所描述的模块或单元仅仅是示意性的,为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。模块或单元之间的间接耦合或通信连接等形式。
另外,对各个模块或单元的控制器可以集成在一个处理单元中,也可以是各个处理单元单独物理存在,也可以两个或两个以上模块或单元的控制器集成在一个单元中。上述集成的单元或者单独的模块既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
为了进一步证明本发明提出的融合局部协同和特征交叉的推荐方法的实施效果,在MovieLens大小两个数据集MovieLens-100K和MovieLens-1M上,以目前被广泛应用的PinSage、DeepFM模型为基准算法,比较本发明方法的测试RMSE指标,如表1所示。MovieLens是一个关于电影评分的开源数据集,被普遍用来测试推荐算法的能力,RMSE指标越低说明算法的推荐效果越好。
表1:推荐算法RMSE指标对比结果
MovieLens-100K MovieLens-1M
PinSage 0.951 0.906
DeepFM 0.938 0.904
本发明 0.898 0.855
从对比结果可以看出,本发明在MovieLens-100K和MovieLens-1M两个数据集上,分别取得了0.898和0.855的测试RMSE结果,远小于过两个基准模型的指标结果。通过该实验结果可以得出结论:本发明提出的融合局部协同和特征交叉的推荐方法,在最终能达到的RMSE测试指标上相比于当前广泛应用的基准模型有较大提升。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种融合局部协同与特征交叉的推荐方法,其特征在于,包括以下步骤:
步骤1:获取用户与物品的历史评分数据,构建评分矩阵;将评分矩阵转换为评分二分图;
获取用户与物品的上下文属性,包括数值属性、类别属性、图像属性和文本属性;对所述上下文属性进行编码,得到每一种属性对应的异构上下文特征向量;
步骤2:将不同属性的上下文特征向量拼接得到上下文特征,采用因子分解机对所述的上下文特征进行交叉组合建模,挖掘上下文特征之间的交叉模式,得到基于上下文特征低阶交叉模式的预测评分项;
针对用户和物品组合,在步骤1所述的评分二分图上采样得到局部评分子图;利用启发式方法抽取局部评分子图的初始化协同特征,并将其作为关系图卷积神经网络的输入,利用所述的关系图卷积神经网络挖掘高阶协同模式,得到局部评分子图特征;
拼接局部评分子图特征和上下文特征得到联合向量,利用多层感知机将所述的联合向量映射到目标评分空间,得到基于局部协同模式和上下文特征高阶交叉模式的预测评分项;
步骤3:将步骤2得到的两项预测评分项之和作为最终的预测评分,根据最终的预测评分对物品进行排序,生成推荐列表,将高评分物品作为推荐结果输出。
2.根据权利要求1所述的融合局部协同与特征交叉的推荐方法,其特征在于,步骤1中获得评分二分图的方法包括:
1.1)获取用户与物品的历史评分数据,构建评分矩阵记为R,矩阵R中的行和列分别表示用户集合U和物品集合I;矩阵R中非空的每一项Ru,i代表用户u对物品i的历史评分,Ru,i=0则表示未被观察到的评分;
1.2)将所述的评分矩阵转换为评分二分图,转换方法为:所述的评分二分图采用无向图表示,评分二分图中的节点包括用户节点和物品节点,两个用户节点或两个物品节点之间不会存在评分关系;将矩阵R中Ru,i转换为评分二分图中的评分边(u,i)以及评分数值r=Ru,i,表示用户u对物品i的历史评分。
3.根据权利要求1所述的融合局部协同与特征交叉的推荐方法,其特征在于,针对所述的数值属性,采用归一化方法将数值压缩到0至1区间内;针对所述的类别属性,采用编码方法转换为特征向量形式;针对所述的图像属性,采用图像特征提取模型转换为特征向量形式;针对所述的文本属性,采用词嵌入方法转换为特征向量形式。
4.根据权利要求4所述的融合局部协同与特征交叉的推荐方法,其特征在于,所述的类别属性包括有序类别、无序单值类别和无序多值类别,分别采用标签编码、One-hot编码和Multi-hot编码来转换这三种类别属性。
5.根据权利要求1所述的融合局部协同与特征交叉的推荐方法,其特征在于,所述的局部评分子图的采样方法为:
i)利用目标用户和物品,初始化采样节点集合Usampled,Isampled和前哨节点集合Ufringe,Ifringe,其中,初始化后的采样节点集合Usampled,Isampled,以及初始化后的前哨节点集合Ufringe,Ifringe中分别为待预测用户节点u和待预测物品节点i;
ii)基于前哨节点集合Ufringe,Ifringe,采样用户节点的邻居物品节点和物品节点的邻居用户节点,并删除其中已经被采样节点集合包含的节点,将更新后的前哨节点集合作为下一次采样的前哨节点集合,同时将去重后的前哨节点集合加入到采样节点集合中,更新采样节点集合;
iii)重复h次步骤ii),采样得到距离目标边h阶之内的局部采样节点集合Usampled,Isampled;从步骤1所述的评分二分图中抽取出包含局部采样节点集合Usampled,Isampled中的所有节点和节点连边的局部评分子图
Figure FDA0002915078240000021
如果是在模型的训练阶段,则需要额外删除目标评分边(u,i)。
6.根据权利要求5所述的融合局部协同与特征交叉的推荐方法,其特征在于,所述的启发式方法包括节点标记法和节点指纹法;
所述的节点标记法为:首先给目标用户节点和目标物品节点分别赋予标记值0和1;针对其他邻域节点,若属于第h跳采样得到的用户节点,将其标记为2i,若属于第h跳采样得到的物品节点,将其标记为2i+1;对标记值进行独热编码,得到节点标记向量xtab
所述的节点指纹法为:选取诱导子图,根据节点在诱导子图上不同的度数区分节点对应的不同角色;然后对局部评分子图上的每个节点所处的特定位置进行计数,得到多维的节点指纹向量xgdv
拼接节点标记向量和节点指纹向量,得到局部评分子图的初始化协同特征x0=concat(xtab,xgdv)。
7.根据权利要求6所述的融合局部协同与特征交叉的推荐方法,其特征在于,将初始化协同特征作为关系图卷积神经网络的输入,利用所述的关系图卷积神经网络挖掘高阶协同特征,所述的关系图卷积神经网络每一层中的关系图卷积操作如下式:
Figure FDA0002915078240000031
其中,
Figure FDA0002915078240000032
表示节点a在第l层的特征向量,
Figure FDA0002915078240000033
Figure FDA0002915078240000034
是可优化学习的参数矩阵,
Figure FDA0002915078240000035
是通过边类型r与节点a相连的邻居集合,
Figure FDA0002915078240000036
则表示该邻居集合的数量,σ(·)表示非线性激活函数,
Figure FDA0002915078240000037
表示用户对物品所有可能评分的集合;
经过L层关系图卷积操作之后,局部评分子图中的每个节点得到共L个中间特征向量,将节点a在不同层中的中间特征向量拼接起来,作为节点a的最后表示特征
Figure FDA0002915078240000038
针对于目标用户和物品组合(u,i),得到特征hu,hi,拼接后作为局部评分子图特征g=concat(hu,hi)。
8.根据权利要求1所述的融合局部协同与特征交叉的推荐方法,其特征在于,步骤2所述因子分解机的建模公式如下:
Figure FDA0002915078240000039
式中,w0和wi表示可训练参数,vi,f表示引入的辅助向量中的第f个元素,d表示上下文特征的维度,k表示辅助向量的维度,xi表示上下文特征中的第i个特征分量,
Figure FDA00029150782400000310
表示基于上下文特征低阶交叉模式的预测评分项。
9.一种基于权利要求1所述方法的融合局部协同与特征交叉的推荐系统,其特征在于,包括:
数据处理模块,其用于获取用户与物品的历史评分数据和上下文属性,针对历史评分数据构建评分矩阵,并转换为评分二分图;针对上下文属性进行编码,得到每一种属性对应的上下文特征向量;
评分预测模块,其用于根据评分二分图,并结合异构上下文特征向量,输出该用户对物品的预测评分;在线下训练阶段时,根据预测评分与实际评分计算训练损失值,以梯度下降的方式寻找最优的模型参数;
推荐查询模块,其用于对评分预测模块输出的评分对物品进行排序,将高评分物品作为推荐结果输出。
10.根据权利要求9所述的融合局部协同与特征交叉的推荐系统,其特征在于,所述的评分预测模块包括:
局部协同模式挖掘单元,其用于从评分二分图上采样得到局部评分子图,利用启发式方法抽取局部评分子图的初始化协同特征,利用关系图卷积神经网络得到局部评分子图特征;
上下文特征交叉挖掘单元,其用于将不同属性的异构上下文特征向量拼接得到上下文特征,采用因子分解机对所述的上下文特征进行交叉组合建模,挖掘上下文特征之间的交叉模式,得到基于上下文特征低阶交叉模式的预测评分项;
回归预测单元,其用于拼接局部评分子图特征和上下文特征得到联合向量,利用多层感知机将所述的联合向量映射到目标评分空间,得到基于局部协同模式和上下文特征高阶交叉模式的预测评分项;结合该预测评分项和上下文特征交叉挖掘单元输出的预测评分项,得到最终的预测评分。
CN202110097853.1A 2021-01-25 2021-01-25 一种融合局部协同与特征交叉的推荐方法及系统 Active CN112905906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110097853.1A CN112905906B (zh) 2021-01-25 2021-01-25 一种融合局部协同与特征交叉的推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110097853.1A CN112905906B (zh) 2021-01-25 2021-01-25 一种融合局部协同与特征交叉的推荐方法及系统

Publications (2)

Publication Number Publication Date
CN112905906A true CN112905906A (zh) 2021-06-04
CN112905906B CN112905906B (zh) 2022-07-15

Family

ID=76119526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110097853.1A Active CN112905906B (zh) 2021-01-25 2021-01-25 一种融合局部协同与特征交叉的推荐方法及系统

Country Status (1)

Country Link
CN (1) CN112905906B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434659A (zh) * 2021-06-17 2021-09-24 天津大学 一种在协同设计过程中隐性冲突感知方法
CN113821723A (zh) * 2021-09-22 2021-12-21 广州博冠信息科技有限公司 搜索方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090229A (zh) * 2018-01-10 2018-05-29 广东工业大学 一种基于卷积神经网络确定评分矩阵的方法和装置
CN109299373A (zh) * 2018-10-20 2019-02-01 上海交通大学 基于图卷积技术的推荐系统
CN109947987A (zh) * 2019-03-22 2019-06-28 江西理工大学 一种交叉协同过滤推荐方法
CN110162693A (zh) * 2019-03-04 2019-08-23 腾讯科技(深圳)有限公司 一种信息推荐的方法以及服务器
CN110704753A (zh) * 2019-09-12 2020-01-17 创新奇智(合肥)科技有限公司 一种基于时间序列性的个性化推荐方法
CN112115378A (zh) * 2020-09-16 2020-12-22 长沙理工大学 基于图卷积协同过滤的推荐预测系统以及推荐预测方法
CN112214685A (zh) * 2020-09-27 2021-01-12 电子科技大学 一种基于知识图谱的个性化推荐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090229A (zh) * 2018-01-10 2018-05-29 广东工业大学 一种基于卷积神经网络确定评分矩阵的方法和装置
CN109299373A (zh) * 2018-10-20 2019-02-01 上海交通大学 基于图卷积技术的推荐系统
CN110162693A (zh) * 2019-03-04 2019-08-23 腾讯科技(深圳)有限公司 一种信息推荐的方法以及服务器
CN109947987A (zh) * 2019-03-22 2019-06-28 江西理工大学 一种交叉协同过滤推荐方法
CN110704753A (zh) * 2019-09-12 2020-01-17 创新奇智(合肥)科技有限公司 一种基于时间序列性的个性化推荐方法
CN112115378A (zh) * 2020-09-16 2020-12-22 长沙理工大学 基于图卷积协同过滤的推荐预测系统以及推荐预测方法
CN112214685A (zh) * 2020-09-27 2021-01-12 电子科技大学 一种基于知识图谱的个性化推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
邱宁佳等: ""多头注意力评论量化的聚类优化推荐算法"", 《计算机应用研究》 *
邱宁佳等: ""多头注意力评论量化的聚类优化推荐算法"", 《计算机应用研究》, 20 May 2020 (2020-05-20), pages 1376 - 1380 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434659A (zh) * 2021-06-17 2021-09-24 天津大学 一种在协同设计过程中隐性冲突感知方法
CN113434659B (zh) * 2021-06-17 2023-03-17 天津大学 一种在协同设计过程中隐性冲突感知方法
CN113821723A (zh) * 2021-09-22 2021-12-21 广州博冠信息科技有限公司 搜索方法、装置及电子设备
CN113821723B (zh) * 2021-09-22 2024-04-12 广州博冠信息科技有限公司 搜索方法、装置及电子设备

Also Published As

Publication number Publication date
CN112905906B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
Zhang et al. An end-to-end deep learning architecture for graph classification
Li et al. Hierarchical bipartite graph neural networks: Towards large-scale e-commerce applications
CN109614614B (zh) 一种基于自注意力的bilstm-crf产品名称识别方法
CN109903117B (zh) 一种用于商品推荐的知识图谱处理方法及装置
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN103064970B (zh) 优化译员的检索方法
CN111523051A (zh) 基于图卷积矩阵分解的社交兴趣推荐方法及系统
CN111190968A (zh) 基于知识图谱的数据预处理和内容推荐方法
CN113032516B (zh) 基于近似本体匹配的知识图谱融合方法
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及系统
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐系统
CN112529071B (zh) 一种文本分类方法、系统、计算机设备和存储介质
CN108427756B (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
CN112559764A (zh) 一种基于领域知识图谱的内容推荐方法
Xia et al. A regularized optimization framework for tag completion and image retrieval
Jin et al. Deepwalk-aware graph convolutional networks
Sun et al. Graph force learning
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN111523040A (zh) 一种基于异构信息网络的社交推荐方法
CN111597428A (zh) 一种具有q分离k稀疏的用户与物品拼接的推荐方法
CN117574915A (zh) 基于多方数据源的公共数据平台及其数据分析方法
CN116340635A (zh) 物品推荐方法、模型训练方法、装置及设备
CN115344794A (zh) 一种基于知识图谱语义嵌入的旅游景点推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant