CN116910371A

CN116910371A - 一种基于深层关系的推荐方法及系统

Info

Publication number: CN116910371A
Application number: CN202311148689.8A
Authority: CN
Inventors: 许扬汶; 韩冬; 刘天鹏; 刘方波; 叶嘉宾; 李彦辰
Original assignee: Nanjing Big Data Group Co ltd
Current assignee: Nanjing Big Data Group Co ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-10-20
Anticipated expiration: 2043-09-07
Also published as: CN116910371B

Abstract

本发明公开了一种基于深层关系的推荐方法及系统，所述方法包括：对不同属性对象数据集进行预处理；构建推荐模型，将预处理后的不同属性对象的向量分别输入深层网络模块和浅层网络模块进行关系建模和特征学习，通过融合网络模块得到推荐相关度；通过构建关系距离权重损失函数和分数权重损失函数更新所述推荐模型的参数来训练推荐模型；基于训练好的推荐模型生成不同属性对象的推荐相关度，按照推荐相关度高低顺序获取推荐结果。本发明将度量学习和特征学习相结合，从宏观关系和潜在关系的融合角度将不同属性对象的特征映射到可以建模关系的公共空间，利用加权网络和融合网络融合两个层次的信息，并通过优化损失函数，提升推荐准确性。

Description

一种基于深层关系的推荐方法及系统

技术领域

本发明涉及一种推荐方法，尤其涉及一种基于深层关系的推荐方法及系统。

背景技术

推荐算法旨在为用户推荐其可能感兴趣的应用、物品等，为用户带来更好的使用体验和更周到的服务。推荐算法被广泛用于各种APP中，是一个比较经典的问题和任务。随着深度学习的发展，现有的推荐算法包括基于关系的算法和基于特征的算法。基于关系的算法只关注于浅层关系的建模，没有考虑到深层的特征，导致模型无法挖掘较深的潜在对应关系。基于特征学习的方法倾向于学习较深的特征，例如对于图像，可以进行多尺度的学习以保证尺度特征的多样性；对于文本，可以进行时序的学习来保证语义的连贯性和模型的推理性。但是对于不同属性的对象，例如用户和物品，不同属性对象之间的特征没有明显地联系在一起，这影响了模型对于宏观上整体相关度的判断。

中国专利202111161447.3公开了一种信息处理方法，该方法使用的推荐模型是根据相同分类的对象数据和不同分类的对象数据联合训练得到的，在根据不同分类的对象数据训练推荐模型的过程中，仅传递和更新用于增强共性特征的第二参数，而不会传递和更新用于增强个性特征的第一参数。如此，既能充分保留不同分类对象数据的个性特征，还能最大程度地利用不同分类对象数据的共性特征，使得训练得到的推荐模型，既能针对单个用户的个人需求提供贴合用户个性特征的信息推荐，又能兼顾不同用户的不同需求，适用于更多用户和更多场景，在准确度、泛化能力和稳定性上都有所提升。虽然公开了不同属性对象的特征学习方法，但是还需要解决的问题是，如何将不同的特征进行合理的映射以到达准确度量的目的从而实现准确推荐任务。

发明内容

发明目的：本发明旨在提供一种通过度量不同属性对象的相关度以及引导相关度的计算从而提升推荐准确性的基于深层关系的推荐方法及系统。

技术方案：本发明所述的一种基于深层关系的推荐方法，包括以下步骤：

（1）对不同属性对象数据集进行预处理；

（2）构建推荐模型，将预处理后的不同属性对象的向量分别输入深层网络模块和浅层网络模块进行关系建模和特征学习，基于深层网络模块和浅层网络模块的学习结果通过融合网络模块得到推荐相关度；

（3）训练推荐模型，在训练中通过构建关系距离权重损失函数和分数权重损失函数更新所述推荐模型的参数；关系距离权重损失函数使用权重调整不同属性对象特征之间的关系距离；分数权重损失函数，对关系距离分数进行引导，并利用权重进一步调整，基于真值直接指导相关度分数；

（4）基于训练好的推荐模型生成不同属性对象的推荐相关度，按照推荐相关度高低顺序获取推荐结果。

优选地，步骤（1）中所述对不同属性对象数据集进行预处理包括：对所有属性对象数据进行onehot向量化处理，得到预处理后的第一属性对象向量和第二属性对象向量/>以及不同属性对象的真值相关度矩阵，并根据相关性将第二属性对象划分为正相关对象和负相关对象。

优选地，步骤（2）中，所述深层网络模块包括自加权网络和相互加权网络，所述自加权网络用于深度挖掘同一属性对象之间的相关关系，所述相互加权网络用于深度挖掘不同属性对象之间的交互信息；

式中，为预处理后的第一属性对象向量，/>为预处理后的第二属性对象向量；/>为用户的自加权特征，/>为物品的自加权特征；/>为自加权网络，/>为相互加权网络，/>为深层网络模块输出的第一属性对象向量，/>为深层网络模块输出的第二属性对象向量。

优选地，所述自加权网络和相互加权网络的计算过程为：

式中，为自加权网络中的权重参数，/>为自加权网络的偏置参数；/>为相互加权网络中的权重参数，/>为相互加权网络的偏置参数；x表示自加权网络的输入数据，y和z表示相互加权网络的输入数据。

优选地，步骤（2）中所述浅层网络模块直接计算不同属性对象的浅层相关度的计算过程如下：

式中，为浅层网络模块的第一属性对象相关权重参数，/>为浅层网络模块的第二属性对象相关权重参数。

优选地，步骤（2）中所述融合网络模块将深层网络模块输出的第一属性对象向量和第二属性对象向量计算相关度，再和浅层网络模块输出的浅层相关度拼接，得到第一属性对象和第二属性对象的推荐相关度：

其中，表示拼接操作，将矩阵/>和/>在最后一个维度上进行拼接；/>为融合网络模块的权重参数，/>为融合网络模块的偏置参数。

优选地，步骤（2）还包括将深层网络模块输出的第一属性对象向量和第二属性对象向量/>通过乘方简化损失函数进行约束，乘方简化损失函数为

式中，为求矩阵/>所有元素之和。

优选地，步骤（3）中所述关系距离权重损失函数为：

式中，为第/>个第一属性对象的特征，/>为第一属性对象的个数；/>为第/>个正相关对象的特征，/>为第一属性对象的正相关对象个数；/>为第/>个负相关对象的特征，/>为第一属性对象的负相关对象个数；/>为关系距离权重损失中对应第一属性对象向量的权重参数，/>为对应正相关对象的权重参数，/>为对应负相关对象的权重参数；/>表示矩阵的转置。

优选地，步骤（3）中所述分数权重损失函数为：

式中，、分别为正相关分数权重损失函数和负相关分数权重损失函数；为第个第一属性对象特征和第个正相关对象特征的相关度，为第个第一属性对象和第个正相关对象的相关度真值，为正相关度乘积的均值提取网络，为正相关度乘积的方差提取网络；为第个第一属性对象特征和第个负相关对象特征的相关度；为第个第一属性对象和第个负相关对象的相关度真值；为负相关度乘积的均值提取网络，为负相关度乘积的方差提取网络；为高斯分布函数。

本发明所述的一种基于深层关系的推荐系统，包括：

数据预处理模块，用于对不同属性对象数据集进行预处理，对所有属性对象数据进行onehot向量化处理，得到预处理后的第一属性对象向量和第二属性对象向量以及不同属性对象的真值相关度矩阵；

推荐模型构建模块，用于将预处理后的不同属性对象向量分别输入深层网络模块和浅层网络模块进行关系建模和特征学习，基于深层网络模块和浅层网络模块的学习结果通过融合网络模块得到推荐相关度；

推荐模型训练模块，用于在训练中共同更新所述推荐模型的参数，包括构建关系距离权重损失函数，使用权重调整不同属性对象特征之间的关系距离；构建分数权重损失函数，对关系距离分数进行引导，并利用权重进一步调整，用真值指导关系分数；

推荐结果输出模块，用于在推荐任务中，基于训练好的推荐模型生成不同属性对象的推荐相关度，按照推荐相关度高低顺序获取推荐结果。

有益效果：与现有技术相比，本发明具有如下显著优点：1、将度量学习和特征学习相结合，从宏观关系和潜在关系的融合角度将不同属性对象的特征映射到可以建模关系的公共空间，利用加权网络和融合网络融合两个层次的信息，并通过提出和优化损失函数，通过度量不同属性对象的相关度以及引导相关度的计算，从而提高模型训练的效率，加强模型的稳定性，并提升模型推荐准确性；2、以深层网络的特征关系建模为主导，融合宏观的浅层相关度信息和潜在的深层特征相关度信息，计算的相关度分数更加全面、准确和稳定；3、利用关系距离权重损失函数，通过赋予不同正样本和负样本权重，并尽可能拉大正样本和负样本的相关度，可以引导模型更快地区分正样本和负样本，间接促进模型捕捉相关度信息；4、使用分数权重损失函数进一步指导相关度的学习，通过将特征的相关度转换为更具有适配性的高斯分布，并配合权重让模型有侧重性地训练，提升模型对于广泛数据地适配性，整体上提高模型计算相关度的准确性。

附图说明

图1为本发明的方法流程图；

图2为本发明的方法框架图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，本发明所述的一种基于深层关系的推荐方法，不同属性对象以用户和物品为例，根据用户的应用和物品浏览习惯以及数据库中记录的其余用户与物品的关系，自动为用户推荐其可能感兴趣的应用和物品。该推荐方法具体包括以下步骤：

（1）对用户和物品数据集进行预处理

数据集包括用户和物品，每个用户都有感兴趣和不感兴趣的物品。对所有用户和物品都要进行单热（onehot）向量化处理，得到用户向量和物品向量/>以及用户和物品的真值相关度矩阵，再将物品划分为用户感兴趣的正相关物品和不感兴趣的负相关物品。

本实施例中，数据集中用户数为5000，物品数为6000，则用户向量长度为5000，物品向量长度为6000，作为真值的相关度矩阵需要统计所有用户和物品的相关度，因此相关度矩阵的大小为。如果某个用户和某个物品相关，则将相关度矩阵中的相应位置设置为1，否则为0。设定输入的用户是第100位用户，与其相关的物品为1000-1500号物品，因此对于用户100，其用户向量就是在向量的第100位取值为1，其余为0；同理，其物品向量中对应的1000-1500位均为1，其余全为0，将这些相关的物品划分为正样本，不相关的物品划分为负样本，即感兴趣的正相关物品和不感兴趣的负相关物品。在真值相关度矩阵中，第100位用户的第1000-1500号物品位置均为1，其余全为0。按照上述规则，完成用户和物品的单热向量化，以及相关度矩阵的获取。

（2）建立推荐模型，如图2所示。

预处理后的数据集经过含有浅层网络模块、深层网络模块和融合网络模块的推荐模型，得到用户特征、物品特征/>和全部的相关度分数/>，并生成该模型的初始参数，其中物品特征/>可以分为正相关特征/>和负相关特征/>。

（2.1）通过深层网络模块进行关系建模和特征学习

（2.1.1）将预处理后得到的用户向量和物品向量/>输入深层网络模块中。深层网络模块包括自加权网络和相互加权网络，首先由自加权网络分别提取用户和物品本身的相关信息，然后由相互加权网络提取用户和物品交互的信息。即/>和/>先分别经过3层自加权网络，再经过相互加权网络得到深层网络模块输出的用户特征/>和物品特征/>。所述自加权网络和相互加权网络由一系列全连接网络层组成，生成的特征为：

式中，为用户的自加权特征，/>为物品的自加权特征；/>为自加权网络，/>为相互加权网络。其中，自加权网络和相互加权网络的计算过程为：

式中，式中，、、、分别为自加权网络中的权重参数，为自加权网络的偏置参数；、、、为相互加权网络中的权重参数，为相互加权网络的偏置参数。

因为用户和物品不具有空间和时域信息，相较于普通的卷积网络和记忆网络，使用普通的全连接网络能保留更加纯粹的用户和物品信息，化繁为简，可以缩小模型的复杂度，加快模型的训练和推理速度。而通过让向量和向量相乘获得不同位之间的权重，可以学习到向量每一位对于其他位的关注程度，在推荐任务中就是相关程度。自加权网络挖掘不同用户之间的相关度和不同物品之间的相关度。本实施例中，第100位用户和第200位用户对物品的喜好程度类似，则可以将用户200感兴趣的相关物品推荐给用户100，这种潜在的相关度可以通过自加权网络被捕捉到。而相互加权网络是捕捉用户和物品之间的潜在相关度。在特征中捕捉上述的相关度就可以丰富特征信息，从而计算更准确和全面的相关度。

（2.1.2）构建关系距离权重损失函数，使用权重调整用户和物品深层特征之间的关系距离，间接帮助模型区分正样本和负样本，加强深层特征所蕴含的相关度信息。关系距离权重损失函数为：

式中，为数据集中用户的个数，/>为用户的正相关物品个数，/>为用户的负相关物品个数；/>为第/>个用户特征，/>为第/>个正相关物品特征，/>为第/>个负相关物品特征；为关系距离权重损失中对应用户向量的权重参数，/>为对应正相关物品的权重参数，为对应负相关物品的权重参数；/>表示矩阵的转置。

通常的度量学习直接尝试区分正样本距离和负样本距离，并没有考虑正样本和负样本的学习难度。通常来说，一个数据集中会存在相对较难学的正样本和负样本，这些样本对应的损失应该拥有更大的惩罚梯度，让模型侧重于学会这样的样本所蕴含的信息。因此，关系距离权重损失函数中使用深层特征本身计算出权重，让模型自己区分难以学习的样本并给予重视，极大地提升了模型的信息获取能力。

（2.1.3）将深层网络模块输出的用户特征和物品特征/>通过乘方简化损失函数进行约束，乘方简化损失函数为

式中，为求矩阵/>所有元素之和；使用简单的乘方简化损失函数直接减轻深层特征的复杂度，防止模型过拟合，加快模型的收敛速度。

（2.2）通过浅层网络模块进行关系建模和特征学习

将预处理后得到的用户向量和物品向量/>输入浅层网络模块中。浅层网络模块由全连接网络构成，直接计算浅层和宏观上的用户和物品的相关度，得到浅层相关度/>：

式中，为浅层网络模块的用户相关权重参数，/>为浅层网络模块的物品相关权重参数。这种浅层的相关度可以保证模型初步拥有直接的相关度计算能力，加快模型的收敛速度。本实施例中，浅层相关度/>的大小为/>。

（2.3）通过融合网络模块构建最终的推荐相关度，

（2.3.1）将深层网络模块输出的用户特征和物品特征/>以及浅层网络模块输出的浅层相关度/>输入融合网络模块中，得到最终的推荐相关度/>：

其中，表示拼接操作，将矩阵/>和/>在最后一个维度上进行拼接；/>为融合网络模块中的权重参数，/>为融合网络模块的偏置参数。融合网络模块将浅层的宏观信息和深层的潜在信息融合，加强不同属性对象关系的学习，让模型拥有综合处理信息的能力，使得模型的推荐结果更加准确和稳定。本实施例中，推荐相关度/>的大小为/>，即每一个用户和每一个物品的相关度分数的计算结果。

（2.3.2）构建分数权重损失函数，直接对关系相关度分数进行引导，并利用权重进一步调整，用真值直接指导关系的相关度分数。损失函数为：

式中，为第/>个用户特征和第/>个正相关物品特征的相关度，/>为第/>个用户特征和第/>个负相关物品特征的相关度；/>为第/>个用户和第/>个正相关物品的相关度真值，为第/>个用户和第/>个负相关物品的相关度真值；/>为正相关度乘积的均值提取网络，为负相关度乘积的均值提取网络，/>为正相关度乘积的方差提取网络，/>为负相关度乘积的方差提取网络，这些网络均由全连接网络组成；/>为高斯分布函数。

不同于传统的交叉熵损失函数或者差值损失函数的直接引导，本发明将相关度分数和真值转换为高斯分布，并直接通过分布引导推荐算法。直接计算差值的方式很容易引起过拟合，并且会拘束于数据集的值或者分布，而转换为高斯分布则拥有更强的泛化性和稳定性，降低模型过拟合的风险，从整体上提升模型推荐的准确性。

（2.4）基于关系距离权重损失函数、分数权重损失函数和乘方简化损失函数构建总损失函数，以总损失函数为目标训练推荐模型。本实施例中，训练200轮，学习率为0.001，使用Adam优化算法进行优化。其中，总损失函数为：

（3）根据训练好的推荐模型，输入用户和物品生成最终推荐相关度，对于每个用户，相关度分数最高的1个或若干个物品即为推荐的结果。

对于已经训练完成的推荐模型，输入任意的用户和物品，分别得到对应的特征以及最终的相关度分数，根据相关度分数对物品进行排序。用户进入APP界面，推荐模型根据该用户推荐可能相关的物品，按照上述的方式计算相关度，并选择排名最高的若干个物品进行推荐。

本实施例中，对于用户100，输入所有的物品，得到的推荐相关度从高往低排序分别为足球0.9、体育馆0.8、球鞋0.7，…汉堡0.1，若推荐3个物品，则分数最高的3个物品足球、体育馆、球鞋为推荐项，分数仅为0.1的汉堡就并不会被推荐。

因此，推荐算法需要合适的度量方法和特征学习方法来保证算法的准确性和稳定性。同时，度量方法和特征学习可以互相促进，好的度量可以促进特征的学习，充分的特征学习也可以计算出更准确的相关度。

为了进一步验证本发明的方法，使用MovieLens 1M数据集（ML-1M），包含了来自6040位在2000年加入MovieLens的用户，对大约3900部电影的1000209条匿名评价。选择经典的推荐方法如多层感知机模型MLP、矩阵分解模型MF和神经网络矩阵分解模型NMF进行对比，评估指标采用命中率指标HR（Hit Ratio）和归一化折损累计增益NDCG，实验对比结果下表所示。

方法	HR	NDCG
			MLP	61.31	35.20
MF	64.24	37.09
			NMF	66.03	38.83
本发明	70.13	42.76

HR计算的是模型对每个用户预测的前K个关联度最高的物品和真正有关联的物品数的比例，计算公式如下：

其中表示用户i的前K个关联度最高的物品中在真值中的个数，其中K取值为 10；表示用户i关联的物品的个数，是真值。因此，HR值越大，准确率越高。

NDCG不只统计预测相关联的物品个数，还会根据前K个的排序位置计算折扣，计算公式如下：

其中j表示对每个用户预测的前K个最关联物品中的第j个。其中，NDCG值越大，准确率越高。

从表中可以看出，本发明所述的基于深层关系的推荐方法得到的HR和NDCG指标值均高于其他方法，说明本发明的方法推荐准确率更高，具有更优的推荐性能。

不同属性对象同样以用户和物品为例，本发明所述的一种基于深层关系的推荐系统，包括：

数据预处理模块，用于对用户和物品数据集进行预处理，并将物品数据划分为正相关物品和负相关物品；

推荐模型构建模块，用于将预处理后的用户向量和物品向量分别输入深层网络模块和浅层网络模块进行关系建模和特征学习，并通过融合网络模块结合得到最终的相关度；

推荐模型训练模块，用于在训练中共同更新所述推荐模型的参数，包括构建关系距离权重损失函数，使用权重调整用户和物品特征之间的关系距离；构建分数权重损失函数，对关系距离分数进行引导，并利用权重进一步调整，用真值直接指导关系分数；

推荐结果输出模块，用于在推荐任务中，基于训练好的推荐模型生成用户特征、物品特征和推荐相关度，按照推荐相关性高低顺序选择1个或多个物品作为推荐结果。

Claims

1.一种基于深层关系的推荐方法，其特征在于，包括以下步骤：

（1）对不同属性对象数据集进行预处理；

（3）训练推荐模型，在训练中通过构建关系距离权重损失函数和分数权重损失函数更新所述推荐模型的参数；所述关系距离权重损失函数使用权重调整不同属性对象特征之间的关系距离；所述分数权重损失函数对关系距离分数进行引导，并利用权重进一步调整，基于真值指导相关度分数；

2.根据权利要求1所述的基于深层关系的推荐方法，其特征在于，步骤（1）中所述对不同属性对象数据集进行预处理包括：对所有属性对象数据进行onehot向量化处理，得到预处理后的第一属性对象向量和第二属性对象向量以及不同属性对象的真值相关度矩阵，并根据相关性将第二属性对象划分为正相关对象和负相关对象。

3.根据权利要求2所述的基于深层关系的推荐方法，其特征在于，步骤（2）中，所述深层网络模块包括用于挖掘同一属性对象之间的相关关系的自加权网络和用于挖掘不同属性对象之间的交互信息的相互加权网络；

4.根据权利要求3所述的基于深层关系的推荐方法，其特征在于，所述自加权网络和相互加权网络的计算过程为：

式中，、/>、/>、/>分别为自加权网络中的权重参数，/>为自加权网络的偏置参数；/>、/>、/>、/>为相互加权网络中的权重参数，/>为相互加权网络的偏置参数；x表示自加权网络的输入数据，y和z表示相互加权网络的输入数据。

5.根据权利要求4所述的基于深层关系的推荐方法，其特征在于，步骤（2）中所述浅层网络模块计算不同属性对象的浅层相关度的计算过程如下：

6.根据权利要求5所述的基于深层关系的推荐方法，其特征在于，步骤（2）中所述融合网络模块将深层网络模块输出的第一属性对象向量和第二属性对象向量计算相关度，再和浅层网络模块输出的浅层相关度拼接，得到第一属性对象和第二属性对象的推荐相关度：

7.根据权利要求3所述的基于深层关系的推荐方法，其特征在于，步骤（2）还包括将深层网络模块输出的第一属性对象向量和第二属性对象向量/>通过乘方简化损失函数进行约束，乘方简化损失函数L_reg为

式中，为求矩阵/>所有元素之和。

8.根据权利要求2所述的基于深层关系的推荐方法，其特征在于，步骤（3）中所述关系距离权重损失函数L_dis为：

9.根据权利要求2所述的基于深层关系的推荐方法，其特征在于，步骤（3）中所述分数权重损失函数为：

式中，、/>分别为正相关分数权重损失函数和负相关分数权重损失函数；/>为第/>个第一属性对象特征和第/>个正相关对象特征的相关度，/>为第/>个第一属性对象和第/>个正相关对象的相关度真值，/>为正相关度乘积的均值提取网络，/>为正相关度乘积的方差提取网络；/>为第/>个第一属性对象特征和第/>个负相关对象特征的相关度；/>为第/>个第一属性对象和第/>个负相关对象的相关度真值；/>为负相关度乘积的均值提取网络，/>为负相关度乘积的方差提取网络；/>为高斯分布函数。

10.一种基于深层关系的推荐系统，其特征在于，包括：