CN113204713A

CN113204713A - 一种大规模商品销售中核心用户和核心物品的挖掘方法

Info

Publication number: CN113204713A
Application number: CN202110755421.5A
Authority: CN
Inventors: 董云泉; 张壮壮
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-08-03
Anticipated expiration: 2041-07-05
Also published as: CN113204713B; WO2023279685A1

Abstract

本发明涉及一种大规模商品销售中核心用户和核心物品的挖掘方法，包括初始化物品对用户重要性权重矩阵和物品的核心用户。依次循环迭代更新用户对物品的喜爱权重矩阵、每个用户的核心物品、物品对用户的重要性权重矩阵和每个物品的核心用户，当满足收敛条件时，停止迭代，输出最优的核心用户、核心物品，以及两权重矩阵。本发明中通过依次循环迭代更新用户对物品的喜爱权重矩阵、每个用户的核心物品、物品对用户的重要性权重矩阵和每个物品的核心用户，能够在较少的迭代次数收敛，挖掘出两种权重矩阵的最优值、以及核心用户、核心物品，为后续推荐生成提供更多知识，提高推荐准确度。

Description

一种大规模商品销售中核心用户和核心物品的挖掘方法

技术领域

本发明属于数据挖掘推荐技术领域，具体涉及一种大规模商品销售中核心用户和核心物品的挖掘方法。

背景技术

基于邻域的协同过滤，其核心思想是向用户推荐与他喜爱物品相似的物品，因此推荐的准确性由两方面决定：首先是对用户喜爱物品的度量，即判断出用户的喜爱物品是什么；其次是物品间的相似性度量。在日常生活中，人们经常观察到某个用户更喜欢某些物品，而有些用户对某项物品更加忠诚，即物品对这些用户更重要。由于偏好的存在，那每个用户也存在其最喜爱的物品、每个物品存在对其最重要的用户。将这两种偏好应用到常见的相似度度量中可提高相似度的准确度，进一步地可通过制定合适的策略求出用户的核心物品和物品的核心用户，提高推荐的准确度。但由于知识的缺乏，无法直接求出用户或物品的偏好程度。

发明内容

本发明提出一种大规模商品销售中核心用户和核心物品的挖掘方法，提高相似度度量准确度及后续推荐准确度。

本发明所采用的技术方案为：

一种大规模商品销售中核心用户和核心物品的挖掘方法，包括如下步骤：

步骤一、初始化物品对用户重要性权重矩阵

和物品i的核心用户

；

步骤二、依次循环迭代更新用户对物品的喜爱权重矩阵

、每个用户的核心物品、物品对用户的重要性权重矩阵

和每个物品的核心用户，l表示第l轮迭代；当满足收敛条件时，停止迭代，输出最优的核心用户、核心物品、权重矩阵

和

。

进一步地，步骤一包括：

以初始物品对用户重要性权重矩阵

开始，元素

定义为用户u对物品i的评分

除以用户u对

中物品的评分之和，即满足

（1）

其中，

为用户u的喜爱物品集合，

；

选择相似度度量，将权重矩阵

与选择的相似度加权；计算物品i在喜爱物品i的用户集合

中，每对用户u和v的加权相似度

；

对于每个用户u，以用户u为中心的总体加权相似度和为

（2）

当用户满足

（3）

时，被选作为物品i的核心用户，表示物品i的最大总体加权相似度和为

，即以

为中心的总体加权相似度。

进一步地，步骤二包括：

步骤201、更新用户对物品的喜爱权重矩阵

对于每个物品i，权重系数

，即用户

对于物品i的重要性，是由该用户与物品i的核心用户

的加权相似度决定的；即

（4）

可简化表示为

，且

；

步骤202、更新核心物品

对于每个用户u和每对物品

，

表示用户u的喜爱物品集合；选择相似度度量，将权重系数

与选择的相似度加权；计算两个物品间的加权相似度

；以物品i为中心，计算总体加权相似度

，即由物品i对用户u的贡献为

（5）

越大，物品i对于用户u越重要且越有代表性；

用户u的核心物品

满足

（6）

表示用户u的最大总体相似度和为

（7）

即以

为中心的总体加权相似度；

步骤203、更新物品对用户的重要性权重矩阵

对于每个用户u，通过归一化的加权相似度来量化每个物品i的重要性；

（8）

，且一个物品i离

越近，它对用户u越重要，且有等式

成立；

步骤204、更新核心用户

基于已经更新的权重系数

，重新评估对于每个物品i的集合

内每对用户u和v的加权相似度

；

以用户u为中心，总体加权相似度和

，即他作为核心对物品i的总贡献为

（9）

当

最大时的用户为物品i的核心用户，即

（10）

表示物品i的第l轮最大总体加权相似度和

，即以

为中心的总体加权相似度；

步骤205、设置收敛条件，并重复步骤201至205，当满足收敛条件时，停止迭代，输出最优的核心用户、核心物品、权重矩阵

和

。

进一步地，步骤205中，所述收敛条件为

，其中，

表示第l+1轮的

矩阵，

表示无穷范数或最大范数，

为可接受的迭代误差。

进一步地，所述相似度度量包括欧氏距离取反、余弦相似度和皮尔逊相关系数。

本发明的有益效果在于：

本发明中通过依次循环迭代更新用户对物品的喜爱权重矩阵、每个用户的核心物品、物品对用户的重要性权重矩阵和每个物品的核心用户，能够在较少的迭代次数收敛，挖掘出两种权重矩阵的最优值、以及核心用户、核心物品，为后续推荐生成提供更多知识，提高推荐准确度。

附图说明

图1为本发明的方法流程图；

图2为本发明的方法模型原理图；

图3为本发明在两个数据集的运行效果图。

具体实施方式

本发明的挖掘方法通过顺序迭代更新用户对物品的喜爱权重矩阵

、用户的核心物品、物品对用户的重要性权重矩阵

和物品的核心用户，最后收敛到最优值，为后续推荐提供更多知识，提高相似准确度和推荐精度。并且，通过公开的数据集多次实验，本发明的方法能够在较少的迭代次数收敛，挖掘出两种权重矩阵的最优值，核心用户和核心物品。

下面结合附图和具体的实施例对本发明的大规模商品销售中核心用户和核心物品的挖掘方法作进一步地详细说明。

如图1所示，一种大规模商品销售中核心用户和核心物品的挖掘方法，在该挖掘方法前，需预先收集用户对物品的交互行为，将其量化为评分形式，对异常值进行删除，缺失值进行填充，并转换成用户-物品评分矩阵形式。

本发明的挖掘方法包括如下步骤：

步骤一、初始化物品对用户重要性权重矩阵

和物品i的核心用户

。

以初始物品对用户重要性权重矩阵

开始，元素

定义为用户u对物品i的评分

除以用户u对

中物品的评分之和，即满足

（1）

其中，

为用户u的喜爱物品集合，

。

选择相似度度量（如欧氏距离取反、余弦相似度、皮尔逊相关系数），将权重矩阵

与选择的相似度加权（即加权相似度）。计算物品i在喜爱物品i的用户集合

中，每对用户u和v的加权相似度

。

对于每个用户u，以用户u为中心的总体加权相似度和为

（2）

当用户满足

（3）

，即以

为中心的总体加权相似度。

步骤二、依次循环迭代更新用户对物品的喜爱权重矩阵

、每个用户的核心物品、物品对用户的重要性权重矩阵

和每个物品的核心用户，l表示第l轮迭代。当满足收敛条件时，停止迭代，输出最优的核心用户、核心物品、权重矩阵

和

。

步骤二包括：

步骤201、更新用户对物品的喜爱权重矩阵

对于每个物品i，权重系数

，即用户

对于物品i的重要性，是由该用户与物品i的核心用户

的加权相似度决定的。即

（4）

可简化表示为

，且

。

步骤202、更新核心物品

对于每个用户u和每对物品

，

表示用户u的喜爱物品集合。选择相似度度量（如欧氏距离取反、余弦相似度、皮尔逊相关系数），将权重系数

与选择的相似度加权（即加权相似度）。计算两个物品间的加权相似度

。以物品i为中心，计算总体加权相似度

，即由物品i对用户u的贡献为

（5）

越大，物品i对于用户u越重要且越有代表性。

用户u的核心物品

满足

（6）

表示用户u的最大总体相似度和为

（7）

即以

为中心的总体加权相似度。

步骤203、更新物品对用户的重要性权重矩阵

对于每个用户u，通过归一化的加权相似度来量化每个物品i的重要性。

（8）

，且一个物品i离

越近，它对用户u越重要，且有等式

成立。

步骤204、更新核心用户

基于已经更新的权重系数

，重新评估对于每个物品i的集合

内每对用户u和v的加权相似度

。

以用户u为中心，总体加权相似度和

，即他作为核心对物品i的总贡献为

（9）

当

最大时的用户为物品i的核心用户，即

（10）

表示物品i的第l轮最大总体加权相似度和为

，即以

为中心的总体加权相似度。

和

。

步骤205中，收敛条件为

，其中，

表示第l+1轮的

矩阵，

表示无穷范数或最大范数，

为可接受的迭代误差。

图2为本发明的方法模型原理图，其中，M表示物品数，N表示用户数，其中矩阵中的元素1表示对应用户对物品感兴趣。

表示用户u的喜爱物品集合，

表示喜爱物品i的用户集合，不同物品对用户u的重要性程度不同，其总和为1。不同对物品i的喜爱程度也不同，总和为1。在计算相似度时，在评分前加上权重，即加权相似度，可提高相似度的准确性。

下面以一个例子作示例性说明。考虑一个四个物品(行)和四个用户(列)构成的系统，其评分矩阵为

，循环迭代6次收敛，最终的权重矩阵

和

如表1所示。各用户的核心物品和各物品的核心用户，最大总体加权相似度如表2所示。

表1 权重矩阵

和

表2 核心物品、核心用户、最大总体加权相似度

首先，容易看出物品i ₄只被用户u ₃喜爱，用户u ₄只喜爱一个物品i ₁，那么i ₄的核心用户必然是u ₃，u ₄的核心物品必然是i ₁，可在表2中得到。其次，尽管物品i ₁被u ₁和u ₄同时喜爱，用户u ₄是更重要的，因为u ₄是更忠实于它，所以u ₄是i ₁的核心用户。对于系统来说，研究用户的概况和了解他的独特需求是有用的，特别是对于i ₁。同样地，尽管用户u ₃喜爱三个物品i ₂，i ₃，i ₄，u ₃选择了i ₄作为他的独特品味（其他用户都没有关注i ₄），所以有理由相信i ₄是对u ₃更重要的，即是他的核心物品。

图3为本发明在两个数据集的运行收敛效果图，其中，图3（a）为数据集ML100k的运行收敛效果图，图3（b）为数据集ML1m的运行收敛效果图。实验中，使用两个真实电影评分数据集，MovieLens100k（缩写为ML100k）和MovieLens1m（缩写为ML1m），两个数据集的特征如下表3所示。

表3 数据集及其特征

在初始数据集中，每个用户至少对20部影片评分，评分为整数1-5。为了方便运行，将评分4和5映射为

（即用户u喜爱影片i），将1，2和3映射为

（用户u不喜爱或者还没观察到影片i）。并且得到的评分矩阵R中全零行和全零列将被移除。

为了证明算法的收敛性，评估了每个用户相邻迭代的总加权相似和

，计算了每个用户

与

的比值，其中，

由公式（7）将l替换成第l-1轮获得，

表示在所有用户中最大的

，并按升序排序。在ML100k数据集的结果可看出，只经过四轮迭代

对于绝大多数用户来说趋于稳定，类似地在ML1m数据集经过九轮迭代收敛。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术方法范围内，可轻易想到的替换或变换方法，都应该涵盖在本发明的保护范围之内。