CN113239265B - 基于连接矩阵的个性化推荐方法及系统 - Google Patents
基于连接矩阵的个性化推荐方法及系统 Download PDFInfo
- Publication number
- CN113239265B CN113239265B CN202110372751.6A CN202110372751A CN113239265B CN 113239265 B CN113239265 B CN 113239265B CN 202110372751 A CN202110372751 A CN 202110372751A CN 113239265 B CN113239265 B CN 113239265B
- Authority
- CN
- China
- Prior art keywords
- user
- commodity
- network
- relationship
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013604 expression vector Substances 0.000 claims abstract description 110
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 76
- 238000010276 construction Methods 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000005295 random walk Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 11
- 238000005070 sampling Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101100001672 Emericella variicolor andG gene Proteins 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Finance (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Analysis (AREA)
- Marketing (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于个性化推荐技术领域,特别涉及一种基于连接矩阵的个性化推荐方法及系统,依据用户社交数据、商品类别数据及用户对商品评分数据分贝构建用户关系网络和商品关系网络;利用网络表示学习算法获取用户关系网络和商品关系网络中的用户特征表示向量和商品特征表示向量;构建评分预测模型,将用户特征表示向量和商品特征表示向量作为模型输入,并通过连接矩阵对用户特征表示向量和商品特征表示向量进行拟合,将三者内积作为模型输出的预测评分,利用随机梯度下降算法对模型进行训练;利用已训练的评分预测模型来获取未知用户对商品预测评分。本发明能够解决HIN中基于元路径NRL算法语义关系丢失的问题,优化个性化推荐性能,具有较好的应用前景。
Description
技术领域
本发明属于个性化推荐技术领域,特别涉及一种基于连接矩阵的个性化推荐方法及系统。
背景技术
推荐系统(Recommender System)作为一种应对信息过载的工具,被广泛应用于购物、社交、内容分享等各种平台中。推荐系统可以帮助用户从海量数据中获取其感兴趣的内容,提升用户体验。在早期的推荐方法中,往往将用户和商品的交互数据(例如评分)看作二分图,推荐系统的任务是对二分图内的未知链接进行预测。事实上,商业平台中通常包含了更为丰富的辅助信息。例如,在Yelp中,用户与用户之间存在交互信息,商品的种类信息等。这些数据信息从多个角度描述了用户、商品。如何利用丰富的数据信息,更准确地描述用户和商品是一项亟待解决的问题。为了融合丰富的辅助数据信息,异构信息网络(Heterogeneous Information Network,简称HIN)被用来对多源辅助数据进行建模,并被广泛应用于推荐系统之中。可以将实体类型多样、关系种类不同的数据信息(如,用户社交关系信息、商品的类别信息、用户对商品的评分信息)建模为HIN。HIN中包含了大量的语义信息,HIN中的推荐问题一般被认为是基于路径的相似性搜索问题。需要定义语义路径对HIN中的信息进行采样,将用户和商品表示为同一特征空间内的同维向量。如,定义具有特定语义的元路径,通过基于元路径的游走策略得到节点序列集合。之后,通过网络表示学习算法(Network Representation Learning,简称从HIN中表征用户、商品的表示向量。表示向量保留了HIN中语义和结构信息,可以一定程度上反映出用户(商品)的特征。通过定义多种元路径,分别得到具有不同语义的节点表示向量,对不同元路径下的预测评分进行加权得到最终推荐结果。该方法考虑了不同的元路径下得到的具有不同的语义关系的表示向量对推荐结果的影响,在评分预测准确性上得到了提高。在元路径的基础上提出元图meta-graph的概念,并利用元图对HIN中的信息进行采样。相对于元路径,元图从HIN中捕捉到更为复杂的语义信息,更准确的表征了用户和商品,提升了推荐系统的性能。
现有基于HIN的推荐模型一般利用NRL获取用户、商品的特征,给出了一种融合多源数据的方法,但是仍然面临两个个问题。首先,基于NRL的推荐算法主要依赖元路径对节点序列进行采样,然后学习出节点的表示向量。基于元路径的NRL算法得到的节点表示向量只表征了在特定元路径下节点的语义特征,在选择一种特定元路径的同时,丢失了HIN中剩余的语义关系。同时,在异构网络中可以定义大量的元路径,不同的元路径具有不同的语义,表现出不同的节点关系。选择不同的元路径对学习节点表示向量有很大的影响。如何选取有效的元路径是难以确定的。第二,基于元路径的NRL将不同类型的节点映射为同一向量空间。由于用户和商品本身具有不同的属性,用同一向量空间中向量对他们进行表示,并进行相似性计算是不合理的。
发明内容
为此,本发明提供一种基于连接矩阵的个性化推荐方法及系统,解决HIN中基于元路径NRL算法语义关系丢失的问题,优化个性化推荐性能。
按照本发明所提供的设计方案,提供一种基于连接矩阵的个性化推荐方法,包含如下内容:
依据用户社交数据、商品类别数据及用户对商品评分数据分贝构建用户关系网络和商品关系网络;
利用网络表示学习算法获取用户关系网络和商品关系网络中的用户特征表示向量和商品特征表示向量;
构建评分预测模型,将用户特征表示向量和商品特征表示向量作为模型输入,并通过连接矩阵对用户特征表示向量和商品特征表示向量进行拟合,将三者内积作为模型输出的预测评分,利用随机梯度下降算法对模型进行训练;
针对目标用户,利用已训练的评分预测模型来获取其对商品预测评分,依据商品预测评分进行个性化推荐。
作为本发明基于连接矩阵的个性化推荐方法,进一步地,依据用户社交信息及由商品构建的用户关系来构建用户关系网络,依据商品类别信息及用户构建的商品关系来构建商品关系网络。
作为本发明基于连接矩阵的个性化推荐方法,进一步地,用户关系网络构建中,以商品为中间节点,在购买同一商品的两用户之间建立间接连接关系;通过对间接连接关系和用户社交关系取并集来构建用户关系网络。
作为本发明基于连接矩阵的个性化推荐方法,进一步地,商品关系网络构建中,在属于同一种类的两种商品之间建立类别联系,在购买同一商品的两用户之间建立间接连接关系;通过对类别联系和间接连接关系取并集来构建商品关系网络。
作为本发明基于连接矩阵的个性化推荐,进一步地,在用户关系网络和商品关系网络上分别进行随机游走,生成对应的两个节点序列集合;针对两个节点序列集合,分别利用SGNS向量训练方法学习节点表示向量。
作为本发明基于连接矩阵的个性化推荐,进一步地,评分预测模型表示为:其中,分别为用户特征表示向量和商品特征表示向量,为连接矩阵,k1×k2为随机初始化参数,m、n分别为用户特征表示向量和商品特征表示向量的大小。
作为本发明基于连接矩阵的个性化推荐,进一步地,通过设定目标函数,最小化预测评分与可观测评分误差来优化模型的连接矩阵。
作为本发明基于连接矩阵的个性化推荐,进一步地,目标函数表示为:其中,rij为用户i对商品j的可观测评分,为用户i对商品j的预测评分,且 为连接矩阵,k1×k2为随机初始化参数,表示用户i的k1维特征向量,表示商品j的k2维特征向量;将已有可观测评分作为标签,最小化预测评分和可观测评分的误差,利用随机梯度下降算法和可观测评分优化连接矩阵,以训练评分预测模型。
作为本发明基于连接矩阵的个性化推荐,进一步地,连接矩阵、用户特征表示向量和商品特征表示向量三者的内积计算中,将用户特征表示向量与连接矩阵相乘得到行向量,将行向量与商品特征表示向量相乘得到对应用户对对应商品的预测评分,其中,商品特征表示向量中的每一维和用户特征表示向量中的任一维均进行交互拟合。
进一步地,本发明还提供一种基于连接矩阵的个性化推荐系统,包含:网络构建模块、特征学习模块、模型训练模块和预测评分模块,其中,
网络构建模块,用于依据用户社交数据、商品类别数据及用户对商品评分数据分贝构建用户关系网络和商品关系网络;
特征学习模块,用于利用网络表示学习算法获取用户关系网络和商品关系网络中的用户特征表示向量和商品特征表示向量;
模型训练模块,用于构建评分预测模型,将用户特征表示向量和商品特征表示向量作为模型输入,并通过连接矩阵对用户特征表示向量和商品特征表示向量进行拟合,将三者内积作为模型输出的预测评分,利用随机梯度下降算法对模型进行训练;
预测评分模块,用于针对目标用户,利用已训练的评分预测模型来获取其对商品预测评分,依据商品预测评分进行个性化推荐。
本发明的有益效果:
本发明通过在用户、商品关系网络上分别进行学习来获取用户和商品的表示向量,利用用户和商品网络融合多源数据,可以更精准的反映出用户和商品的特征;通过多源数据构建用户、商品同构网络,并在两种同构网络内学习节点表示向量,将用户和商品的表示向量映射到两种向量空间更为合理,并利用连接矩阵C的概念去拟合,将用户、商品的表示向量作为评分预测模型的输入,通过连接矩阵C对用户和商品的表示向量进行拟合,三者的內积作为预测评分,能够有效提升用户对项目评分预测精确度及个性化推荐性能。并进一步通过两个真实数据集的实验结果证明本案方案的有效性,具有较好的应用前景。
附图说明:
图1为实施例中基于连接矩阵的个性化推荐方法流程示意;
图2为实施例中评分预测模型示意;
图3为实施例中用户和商品关系网络构建示意;
图4为实施例中模型改进对推荐系统性能影响示意;
图5为实施例中训练集数据比例对推荐系统性能影响示意;
图6为实施例中向量维数对RMSE值影响示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
如何利用用户的社交信息和商品关系信息构建预测模型,提升预测的性能是推荐系统领域研究的难点和热点。本发明实施例,提供一种基于连接矩阵的个性化推荐方法,参见图1所示,包含如下内容:
S101、依据用户社交数据、商品类别数据及用户对商品评分数据分贝构建用户关系网络和商品关系网络;
S102、利用网络表示学习算法获取用户关系网络和商品关系网络中的用户特征表示向量和商品特征表示向量;
S103、构建评分预测模型,将用户特征表示向量和商品特征表示向量作为模型输入,并通过连接矩阵对用户特征表示向量和商品特征表示向量进行拟合,将三者内积作为模型输出的预测评分,利用随机梯度下降算法对模型进行训练;
S104、针对目标用户,利用已训练的评分预测模型来获取其对商品预测评分,依据商品预测评分进行个性化推荐。
用户之间的关系不仅可以通过社交关系来体现,同样可以通过用户对商品的偏好关系来体现。如果两个用户购买了同一件商品,他们可能对某一类的商品感兴趣,具有相似的偏好,则这两个用户之间存在潜在的关系。用户关系网络融合了用户社交、偏好等多种关系。商品的关系网络由用户-商品评分数据和商品类别数据构成。商品之间的关系不仅可以由本身的类别属性反映,同样可以从用户的角度反映出商品之间的联系。通过实体(用户、商品)关系网络的建立,在推荐系统中融合了多源数据信息,同时避免了基于元路径方法的数据丢失问题。第二,针对基于HIN的推荐方法将不同属性的对象在同一向量空间进行表示的问题。本案实施例中,通过在用户、商品关系网络上分别进行学习来获取用户和商品的表示向量,利用用户和商品网络融合多源数据,可以更精准的反映出用户和商品的特征;通过多源数据构建用户、商品同构网络,并在两种同构网络内学习节点表示向量,将用户和商品的表示向量映射到两种向量空间更为合理,并利用连接矩阵C的概念去拟合,将用户、商品的表示向量作为评分预测模型的输入,通过连接矩阵C对用户和商品的表示向量进行拟合,三者的內积作为预测评分,解决HIN中基于元路径NRL算法语义关系丢失的问题,优化个性化推荐性能。
参见图2所示,扩展的矩阵分解模型(Extended Matrix Factorization,简称EMF)。该模型的基本思想是,把异构信息网络转化为两个同构实体网络,即用户关系网络、商品关系网络,避免了使用基于元路径的采样方法导致的语义丢失问题。第二,EMF在传统矩阵分解中引入连接矩阵的概念,拟合fit位于不同空间的用户、商品表示向量,实现多源数据的融合。图2中,(a)所示,推荐系统中包含了多种不同类型的数据(例如,用户之间的社交关系数据,用户与商品之间的评分数据,商品的类别数据等),这些多源数据首先被建模为HIN。在HIN中,通过用户社交信息以及由商品构建的用户关系构建成用户关系网络,通过商品的类别信息以及用户构建的商品关系构建商品关系网络;(c)所示,从用户关系网络和商品关系网络,学习得到用户、商品的表示向量。最后,将用户、商品表示向量作为改进的评分预测模型的输入。通过可观测评分学习得到评分预测模型。
作为本发明实施例中的基于连接矩阵的个性化推荐方法,进一步地,依据用户社交信息及由商品构建的用户关系来构建用户关系网络,依据商品类别信息及用户构建的商品关系来构建商品关系网络。进一步地,用户关系网络构建中,以商品为中间节点,在购买同一商品的两用户之间建立间接连接关系;通过对间接连接关系和用户社交关系取并集来构建用户关系网络。进一步地,商品关系网络构建中,在属于同一种类的两种商品之间建立类别联系,在购买同一商品的两用户之间建立间接连接关系;通过对类别联系和间接连接关系取并集来构建商品关系网络。
使用用户社交关系数据与用户-商品评分数据构建用户关系网络Guser,使用商品类别数据与用户-商品评分数据构建商品关系网络Gitem。
以商品为中间节点,如果两个用户购买过同一商品,则在两个用户直接建立一条连接关系,称之为间接关系(Implicit relation)εuser_im。间接关系的构建过程形式化表示如下:
将商品构建的用户间接关系εuser_im和用户社交关系εuser_social取并集构建用户关系网络,表示为Guser={Vuser,εuser}.Vuser是节点的集合,每一个节点代表一名用户,εuser是边的集合。εuser由两部分组成εuser=εuser_social∪εuser_im,包括用户的社交关系εuser_social和由用户-商品交互矩阵构建的用户εuser_im。
在商品类别数据中,如果两种商品vi,vj属于同一种类,可为其建立一种联系εitem_cat。构建过程如下:
通过两种关系集合εitem_cat和εitem_im取并集,构建商品关系网络,表示为Gitem={Vitem,εitem}.其中Vitem是节点的集合,εitem是边的集合。边的集合εitem=εitem_cat∪εitem_im,包括商品的种类关系εitem_cat和由用户构建的商品关系εitem_im。
作为本发明实施例中基于连接矩阵的个性化推荐,进一步地,在用户关系网络和商品关系网络上分别进行随机游走,生成对应的两个节点序列集合;针对两个节点序列集合,分别利用SGNS向量训练方法学习节点表示向量。进一步地,连接矩阵、用户特征表示向量和商品特征表示向量三者的内积计算中,将用户特征表示向量与连接矩阵相乘得到行向量,将行向量与商品特征表示向量相乘得到对应用户对对应商品的预测评分,其中,商品特征表示向量中的每一维和用户特征表示向量中的任一维均进行交互拟合。
在构建完user relation network and item relation network之后,将两种网络中的节点映射到两种向量空间,分别学习得到用户与商品的表示向量。具体算法可设计如下:
输入:用户关系网络Guser,商品关系网络Gitem;
Step1.在用户关系网络Guser和商品关系网络Gitem上分别进行随机游走,生成节点序列的集合Duser,Ditem。
Step2.将Duser,Ditem作为输入,利用run skip-gram with negative sampling(SGNS)[24]学习节点的表示向量。
将已有可观测评分rij作为标签,最小化预测评分和可观测评分rij的误差。英勇随机梯度下降算法(stochastic gradient descent,简称SGD)和可观测的评分同时优化连接矩阵经过模型训练,得到最终的评分预测模型。
用户(商品)关系网络由用户-商品评分数据与用户社交数据(商品类别数据)构成。从多源数据中建立的用户(商品)的关系,可以更全面的反映出用户和商品的特性。避免了传统推荐系统仅能通过评分矩阵对用户和商品的关系进行建模的缺点。如图2中的b所示,将多源数据建模为HIN,分别包含了用户、商品、类别等3种节点类型,以及社交关系、种类关系、评分关系等3种边的关系。在评分矩阵稀疏的情况下,用户社交、商品类别等信息可以会从其他角度更为全面的描述用户与商品。HIN中丰富的数据信息,为推荐系统性能的改进提供了帮助。如图3所示,user3没有进行任何评分,无法获得user3的偏好。在推荐系统中加入社交关系后,基于朋友之间会有相似爱好的假设,预测user3会对item3的评分更高是合理的。另一方面,用户之间的关系除了社交关系之外,通过商品作为中介来建立的关系同样是有助于提升推荐系统的性能。例如,两个用户购买过同一种商品说明了用户的偏好存在潜在的关联。这种关系使从商品的角度反映出的。在yelp商业平台内,包含了22,464种商品的82,264条了类别信息,这些属性信息可以从多个方面的对商品进行描述。当用户关注某一件商品的时候,实际上他们对属于这一类别的其他商品也会感兴趣。因此,本案方案中,通过商品类别信息建立一种商品之间的关系。另一方面,通过用户与商品的交互信息(评分),也可以由用户作为连接点建立商品的关系。基于交互信息挖掘对象之间的联系是一种常用的数据分析方法。在关联分析、传统基于商品的推荐系统中都被广泛应用。比较著名的如“啤酒-尿布”的联系,虽然两种商品在本身属性上无交集,但通过用户使两者的关联性得以体现。融合多个数据源的信息的同时保留了多源数据中的语义,更全面的描述了用户和商品属性特征。
在评分矩阵中,存在无任何评分的用户,对于这样的冷启动用户,无法捕获其偏好特征。本案中模型构建了包含社交信息的关系网络,可以提取到这些无评分用户的表示向量。这些表示向量中已经包含了用户的社交特征,易于应用于各种机器学习任务。同样的,对于还没有购买记录的新上架商品,可以根据该商品的种类信息提取到商品的表示向量。从一定程度上缓解了评分矩阵稀疏性问题。在传统的基于meta-path的表示学习算法中,首先需要定义元路径对HIN进行节点采样。指定的元路径确定了需要采样的节点序列的语义,与此同时忽略了HIN中其他有效节点序列的语义。在本案的评分预测模型中,通过用户、商品关系网络的建立,保留原有HIN中的连接关系。同时采取随机游走策略减少了对节点序列采样的限制。因此,避免了基于元路径方法采样的数据丢失问题,节点表示向量的泛化能力更强。并可以采用不同的NRL算法分别对两种网络进行节点学习,分别得到属于两种向量空间的用户、商品特征矩阵对于属性截然不同的用户和商品来说,特征向量属于不同向量空间更为合理。避免了原有多源数据的NRL算法将用户和商品向量必须映射到同一向量空间的条件,增强模型的灵活性和可扩展性。本案模型并进一步考虑用户、商品表示向量内部更为复杂的交互特征。在预测模型中,加入连接矩阵C后,预测评分的计算方法展开可表示如下:
从上式可以看出,商品j表示向量的每一维(如vj1)和用户表示向量的任意一维都进行了交互。通过对连接矩阵的训练,模型可以拟合用户和商品表示向量内部的交互关系,使得预测模型具有更好的性能,进一步优化个性化推荐系统。
进一步地,基于上述的方法,本发明实施例还提供一种基于连接矩阵的个性化推荐系统,包含:网络构建模块、特征学习模块、模型训练模块和预测评分模块,其中,
网络构建模块,用于依据用户社交数据、商品类别数据及用户对商品评分数据分贝构建用户关系网络和商品关系网络;
特征学习模块,用于利用网络表示学习算法获取用户关系网络和商品关系网络中的用户特征表示向量和商品特征表示向量;
模型训练模块,用于构建评分预测模型,将用户特征表示向量和商品特征表示向量作为模型输入,并通过连接矩阵对用户特征表示向量和商品特征表示向量进行拟合,将三者内积作为模型输出的预测评分,利用随机梯度下降算法对模型进行训练;
预测评分模块,用于针对目标用户,利用已训练的评分预测模型来获取其对商品预测评分,依据商品预测评分进行个性化推荐。
为验证本案方案有效性,下面结合具体仿真数据做进一步解释说明:
在Yelp与Douban两个真实数据集上进行。Yelp是商业点评网站,用户可以在平台上对自己消费过的item进行评分。平台内还保留有用户的社交关系,以及item的属性信息,例如商品类别。数据集中包含36100个用户对22496个项目的191506条评分,评分范围是1-5。在yelp数据集中,共包含了140344条用户的社交关系,82,264个项目的类别信息,其中商品类别有900种。该数据集由Yelp Dataset Challenge提供。
Douban movie是中国热门的电影社区网站。该网站中包含用户对电影的评评分信息,用户之间的社交关系信息,电影类别等信息。具体的,Douban数据集中包括了3022个用户对6971部电影的195493条评分,评分范围是1-5。在该数据集中包含了1366条社交关系信息,15,598项电影类别信息,其中电影类别有36种。该数据集由douban提供。数据集统计信息如表一所示:
Table 1:Statistics of Yelp and Douban
实验在python3.5环境中进行,并在一台服务器上进行了测试。服务器的配置是Intel Core E5-2620 CPU,64GB RAM,Windows 10professional x64。随机将数据集以8:2的比例分为训练集和测试集。重复进行5次实验,取平均RMSE和MAE作为实验结果。
使用平均绝对误差(MAE)与均方根(RMSE)作为评价指标来评估模型评分预测的性能。RMAE与MAE是一种广泛应用的推荐性能评价指标,定义如下:
其中,Dtest表示评分数据的测试集,ri,j表示用户i对商品j的真实打分值,表示模型预测的分数。RMSE和MAE的值表示真实值与模型预测值之间的误差。因此当RMSE和MAE的值越小时,模型的性能越好。
将以下几种baselines与EMF进行对比:
RegSVD[:一种标准矩阵分解模型,使用评分矩阵作为输入数据源。该模型的性能高度依赖于评分矩阵的质量。评分数据越丰富,则Regsvd预测评分越精确。
LLORMA:一种局部矩阵分解方法。基于矩阵局部低秩假设,首先将评分矩阵划分为子矩阵。然后在子矩阵上进行矩阵分解算法。
SocReg:将用户社交信息作为正则项加入到矩阵分解模型。
SemRec:该算法是一种应用于HIN环境下的推荐算法。在HIN中,SemRec计算用户基于元路径的相似性,将用户相似性以及相似用户的数量共同作为预测评分的依据。
FMG:该算法提出矩阵分解模型+因此分解机方法,首先利用矩阵分解模型到的用户、商品隐特征,然后通过FM方法训练出预测模型。
EMF:本案中基于连接矩阵的个性化推荐方案。
所选的baselines覆盖了经典的评分预测方法、利用辅助信息的预测方法以及state-of-the-art HIN based methods。在基于矩阵分解的模型中,实验测试了不同的隐特征向量维数对系统性能的影响。在Yelp中将隐特征向量维数设为16时,在Douban中将隐特征向量维数设为6时,模型预测准确性达到最优。先前的实验表明short meta-path可以得到更好的预测结果,长meta-path会引入噪声。因此在基于HIN的推荐算法中,采用shortmeta-path采集节点序列。在基于HIN的baseline中,分别测试了表示向量取不同维数(d)对性能的影响,并取最优值作为对比实验的结果。具体的,当d=64时,系统取得了最优的性能;当d=10时,系统可获得最优性能。
分别由单一源数据构建四个网络。使用用户社交数据构建用户社交关系网络Guser_social={Vuser,εuser_social}。使用评分数据构建用户间接关系网络Guser_im={Vuser,εuser_im}。使用商品类别数据构建商品类别网络Gitem_cat={Vitem,εitem_cat}。使用评分数据构建商品间接关系网络Gitem_im={Vitem,εitem_im}。在网络构建有效性实验中,分别从Guser_social和Guser_im两种网络中学习用户的表示向量类似的,分别从Gitem_catandGitem_im学习商品的表示向量通过结合不同的用户、商品表示向量,可以得到四种推荐模型:M1:M2:M3:M4:M5:是2.2节通过多种数据融合得到的推荐模型。实验结果如下图4所示,在两个数据集中M5的得到的RMSE要低于前四种模型,取得了更好的系统性能。这证明了对多源数据进行融合后,通过本案方案中的模型可以有效改善推荐系统性能。具体的,针对M2模型,用户、商品表示向量分别由用户社交网络和商品隐性网络得到,在两种数据集上的性能最差。M2和M3的商品表示向量均通过商品隐性网络学习得到。和M2不同的是,在M3中,用户表示向量由用户隐性网络学习得到。M3取得了更好的性能。这说明,用户的社交关系数据较为粗糙,数据中存在噪声,不足反映出用户对商品的偏好。相对于用户的社交网络,用户的隐性网络更能反映出用户的偏好关系。商品的表示向量也可以由两种网络分别学习得到。在M3与M4中,用户表示向量均从用户隐性网络中学习得到。不同的是,商品表示向量在M3中由商品隐性网络中学习得到,在M4中由商品种类网络中学习得到。从实验结果中可以发现,M4的性能要略优于M3。这说明,相比于用户的购买行为,商品种类准确的描述了出商品的特性。
M1-M4利用单源数据网络学习表示向量,构建的推荐模型。M5融合了多源数据,取得了最优的推荐系统性能。这证明了本案方案中网络构建方法可以有效融合多源数据。同时发现,相对于用户社交关系与商品隐性关系,用户隐性关系和商品种类关系在描述用户、商品特性上具有更好的效果。
相对于Yelp数据集,每一种推荐模型在Douban数据集上会取得更低的RMSE值。这意味着在Douban数据集上推荐模型会有更好的的效果。对比两种数据集的Rating Density可以发现,由于在douban数据集上评分矩阵更为稠密,拥有更多的历史数据。充足的历史数据用户历史数据丰富有助于推荐系统得到更为精确的用户偏好。从另一方面可以看出,在yelp数据集上,本案方案比baseline有了更大的提升。这说明,对于评分分别以2:8,3:7,5:5,6:4,7:3,and8:2作为训练集的比例,分割训练集和测试集,对比试验结果。实验结果如下图5所示。训练集的比例越少,意味着用户的历史行为越少,因此推荐性能要低于高比例训练集的实验。实验结果印证了这一结论。
在本案方案EMF中,用表示向量分别描述用户和商品的特征,维数k表示表示向量的维数。在Yelp与Douban数据集上,对不同的表示向量维数k值进行了实验,其中设置k的取值范围是range of(4,5,8,16,32,48,64)。图6中给出了实验结果。从Yelp数据集上可以看出,当k值较小(k=4,5)的时候模型的性能较差。表示向量维数过低,无法反映出用户和商品的特征。同样的,在Douban数据集中,表示向量维数较低时,RMSE值较高,模型性能较差。随着k值增加,Yelp数据集的RMSE开始降低。说明表示向量维数的增加更精准的帮助模型对用户和商品进行描述。在Yelp数据集中,当表示向量维数k升高到32维后,RMSE值开始稳定。这说明32维的表示向量已经足以表现出对象的全部特征。在Douban数据集中,当维数k增加到16维之后,模型性能开始稳定。这意味着在Douban数据集中,16维的表示向量就已经可以表示出对象的全部特征。Douban数据集中的表示向量维数要小于Yelp数据集中的表示向量维数。可认为这是由于Douban数据集中的数据信息较少造成,使用较少的表示向量维数就足以反映出规模较小的数据集中数据的特性。Douban数据集中仅有1,366条socialrelations,远少于Yelp数据集中的140,344条。相比于Yelp数据集中包含的21060种商品的854个类别,douban数据集中的6,971种电影仅有36个类别。因此,Yelp数据集中的数据更为复杂,因此表示向量需要更高的维数才能反映出节点的属性特征。数据规模、属性的不同造成了表示向量维数的差异。
Table 2.Performance of different methods with K=50
对比实验的结果如表2所示。Regsvd是最初始的矩阵分解算法。该算法使用评分矩阵作为算法输入,因此其性能依赖于评分矩阵。LLORMA算法在矩阵分解的基础上考虑到了评分矩阵的局部低秩现象,将属性相近的用户划分为子矩阵,然后在子矩阵上进行矩阵分解。以相似偏好的用户为群体进行推荐是符合常理的,实验结果也印证了这一点。LLORMA算法的性能在Regsvd的基础上有所提高。Regsvd与LLORMA没有利用任何评分数据之外的附加数据。EMF算法在矩阵分解算法中融合了多数据源数据,对比Regsvd算法有了39.34%and5.01%的性能提升。和LLORMA相比,EMF在两个数据集上也有23.84%和2.19%的性能提升。
SocReg将用户的社交关系作为矩阵分解算法的正则项入推荐模型。从Yelp数据集的实验结果看出,相对于RegSVD算法,加入附加信息的SocReg算法将推荐系统性能提高了17%,证明了用户社交数据可以提升推荐系统的性能。SocReg是社会化推荐的一种有效方法。在Yelp中,EMF在社会化推荐算法SocReg上有22%的提升。这是因为EMF在融合社交数据的同时,也利用了商品类别信息对商品特征进行了更精确的描述。SemRec算法在推荐模型中加入了更加丰富的属性信息,如用户评分信息、用户社交关系、商品属性信息等。从实验可以看出,SemRec的性能要好于Regsvd与LLORMA,较于SocReg也有3%的提升。这是因为SemRec融合了更丰富的数据信息,通过元路径获得的用户表示向量可以很好地反应用户和商品特征。EMF在SemRec的基础上提升了20%(Yelp)的性能。可认为SemRec依赖用户的相似性计算出用户的预测评分,忽略了商品的属性。另一方面,相比较于SemRec,EMF capture更为准确的用户、商品表示向量。FMG算法融合了多源数据,取得了优异的推荐性能。相比FMG,EMF的获得了较小的性能提升。EMF中的连接矩阵C拟合了了用户、商品特征每一维之间更多的交互属性,更精准的反映出用户、商品表示向量之间的关系,从而提升了推荐系统的性能。
通过以上实验数据进一步证明了本案方案的有效性。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种基于连接矩阵的个性化推荐方法,其特征在于,包含如下内容:
依据用户社交数据、商品类别数据及用户对商品评分数据分别构建用户关系网络和商品关系网络;
利用网络表示学习算法获取用户关系网络和商品关系网络中的用户特征表示向量和商品特征表示向量;
构建评分预测模型,将用户特征表示向量和商品特征表示向量作为模型输入,并通过连接矩阵对用户特征表示向量和商品特征表示向量进行拟合,将三者内积作为模型输出的预测评分,利用随机梯度下降算法对模型进行训练;
针对目标用户,利用已训练的评分预测模型来获取其对商品预测评分,依据商品预测评分进行个性化推荐;
依据用户社交信息及由商品构建的用户关系来构建用户关系网络,依据商品类别信息及用户构建的商品关系来构建商品关系网络;
用户关系网络构建中,以商品为中间节点,在购买同一商品的两用户之间建立间接连接关系;通过对间接连接关系和用户社交关系取并集来构建用户关系网络,并表示为Guser={Vuser,εuser},Vuser为用户关系网络节点的集合,每一个节点代表一名用户,εuser为用户关系网络边的集合,且εuser=εuser_social∪εuser_im,εuser_social为用户的社交关系,εuser_im为由用户-商品交互矩阵构建的间接连接关系;
商品关系网络构建中,在属于同一种类的两种商品之间建立类别联系,在购买同一商品的两用户之间建立间接连接关系;通过对类别联系和间接连接关系取并集来构建商品关系网络,并表示为Gitem={Vitem,εitem},Vitem为商品关系网络节点的集合,εitem为商品关系网络边的集合,且εitem=εitem_cat∪εitem_im,εitem_cat为商品的种类关系,εitem_im为购买同一商品的两用户之间建立的间接连接关系;
采用不同的NRL算法分别对用户关系网络和商品关系网络进行节点学习,得到属于两种向量空间的用户特征表示向量和商品特征表示向量。
2.根据权利要求1所述的基于连接矩阵的个性化推荐方法,其特征在于,在用户关系网络和商品关系网络上分别进行随机游走,生成对应的两个节点序列集合;针对两个节点序列集合,分别利用SGNS向量训练方法学习节点表示向量。
4.根据权利要求1或3所述的基于连接矩阵的个性化推荐方法,其特征在于,通过设定目标函数,最小化预测评分与可观测评分误差来优化模型的连接矩阵。
6.根据权利要求1所述的基于连接矩阵的个性化推荐方法,其特征在于,连接矩阵、用户特征表示向量和商品特征表示向量三者的内积计算中,将用户特征表示向量与连接矩阵相乘得到行向量,将行向量与商品特征表示向量相乘得到对应用户对对应商品的预测评分,其中,商品特征表示向量中的每一维和用户特征表示向量中的任一维均进行交互拟合。
7.一种基于连接矩阵的个性化推荐系统,其特征在于,基于权利要求1的方法实现,包含:网络构建模块、特征学习模块、模型训练模块和预测评分模块,其中,
网络构建模块,用于依据用户社交数据、商品类别数据及用户对商品评分数据分别构建用户关系网络和商品关系网络;
特征学习模块,用于利用网络表示学习算法获取用户关系网络和商品关系网络中的用户特征表示向量和商品特征表示向量;
模型训练模块,用于构建评分预测模型,将用户特征表示向量和商品特征表示向量作为模型输入,并通过连接矩阵对用户特征表示向量和商品特征表示向量进行拟合,将三者内积作为模型输出的预测评分,利用随机梯度下降算法对模型进行训练;
预测评分模块,用于针对目标用户,利用已训练的评分预测模型来获取其对商品预测评分,依据商品预测评分进行个性化推荐;
依据用户社交信息及由商品构建的用户关系来构建用户关系网络,依据商品类别信息及用户构建的商品关系来构建商品关系网络;
用户关系网络构建中,以商品为中间节点,在购买同一商品的两用户之间建立间接连接关系;通过对间接连接关系和用户社交关系取并集来构建用户关系网络,并表示为Guser={Vuser,εuser},Vuser为用户关系网络节点的集合,每一个节点代表一名用户,εuser为用户关系网络边的集合,且εuser=εuser_social∪εuser_im,εuser_social为用户的社交关系,εuser_im为由用户-商品交互矩阵构建的间接连接关系;
商品关系网络构建中,在属于同一种类的两种商品之间建立类别联系,在购买同一商品的两用户之间建立间接连接关系;通过对类别联系和间接连接关系取并集来构建商品关系网络,并表示为Gitem={Vitem,εitem},Vitem为商品关系网络节点的集合,εitem为商品关系网络边的集合,且εitem=εitem_cat∪εitem_im,εitem_cat为商品的种类关系,εitem_im为购买同一商品的两用户之间建立的间接连接关系;
采用不同的NRL算法分别对用户关系网络和商品关系网络进行节点学习,得到属于两种向量空间的用户特征表示向量和商品特征表示向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110372751.6A CN113239265B (zh) | 2021-04-07 | 2021-04-07 | 基于连接矩阵的个性化推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110372751.6A CN113239265B (zh) | 2021-04-07 | 2021-04-07 | 基于连接矩阵的个性化推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239265A CN113239265A (zh) | 2021-08-10 |
CN113239265B true CN113239265B (zh) | 2023-04-07 |
Family
ID=77131001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110372751.6A Active CN113239265B (zh) | 2021-04-07 | 2021-04-07 | 基于连接矩阵的个性化推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239265B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002157394A (ja) * | 2000-11-20 | 2002-05-31 | Sheena Kk | ネットワークマーケティングシステム |
CN107944629A (zh) * | 2017-11-30 | 2018-04-20 | 北京邮电大学 | 一种基于异质信息网络表示的推荐方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563841B (zh) * | 2017-08-03 | 2021-02-05 | 电子科技大学 | 一种基于用户评分分解的推荐系统 |
CN108596774B (zh) * | 2018-04-24 | 2021-10-01 | 山东师范大学 | 基于深层次网络嵌入特征的社会化信息推荐算法及系统 |
CN111401936B (zh) * | 2020-02-26 | 2023-05-26 | 中国人民解放军战略支援部队信息工程大学 | 一种基于评论空间和用户偏好的推荐方法 |
-
2021
- 2021-04-07 CN CN202110372751.6A patent/CN113239265B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002157394A (ja) * | 2000-11-20 | 2002-05-31 | Sheena Kk | ネットワークマーケティングシステム |
CN107944629A (zh) * | 2017-11-30 | 2018-04-20 | 北京邮电大学 | 一种基于异质信息网络表示的推荐方法及装置 |
Non-Patent Citations (1)
Title |
---|
王泽楷.异质信息网络中基于表征学习的推荐算法研究.《中国优秀硕士学位论文全文数据库》.2019,I138-1243. * |
Also Published As
Publication number | Publication date |
---|---|
CN113239265A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428147B (zh) | 结合社交和兴趣信息的异源图卷积网络的社交推荐方法 | |
CN106682114B (zh) | 一种融合用户信任关系和评论信息的个性化推荐方法 | |
CN107833117B (zh) | 一种考虑标签信息的贝叶斯个性化排序推荐方法 | |
CN107545471B (zh) | 一种基于高斯混合的大数据智能推荐方法 | |
Yu et al. | Joint user knowledge and matrix factorization for recommender systems | |
CN104063481A (zh) | 一种基于用户实时兴趣向量的电影个性化推荐方法 | |
CN104199818B (zh) | 一种基于分类的社会化推荐方法 | |
CN113918832B (zh) | 基于社交关系的图卷积协同过滤推荐系统 | |
CN113918833B (zh) | 通过社交网络关系的图卷积协同过滤实现的产品推荐方法 | |
CN112231583B (zh) | 基于动态兴趣组标识和生成对抗网络的电商推荐方法 | |
CN113239264A (zh) | 基于元路径网络表示学习的个性化推荐方法及系统 | |
CN113918834B (zh) | 融合社交关系的图卷积协同过滤推荐方法 | |
CN113590976A (zh) | 一种空间自适应图卷积网络的推荐方法 | |
CN117788122B (zh) | 一种基于异质图神经网络商品推荐方法 | |
Hassan et al. | Performance analysis of neural networks-based multi-criteria recommender systems | |
Yin et al. | A survey of learning-based methods for cold-start, social recommendation, and data sparsity in e-commerce recommendation systems | |
Li et al. | Task recommendation with developer social network in software crowdsourcing | |
CN116932923B (zh) | 一种结合行为特征与三角协作度量的项目推荐方法 | |
CN113342994A (zh) | 一种基于无采样协作知识图网络的推荐系统 | |
Siddik et al. | Collaborative filtering based food recommendation system using matrix factorization | |
Hekmatfar et al. | Attention-based recommendation on graphs | |
CN117194765A (zh) | 一种兴趣感知的双通道图对比学习会话推荐方法 | |
CN113239265B (zh) | 基于连接矩阵的个性化推荐方法及系统 | |
CN111125541A (zh) | 面向多用户的可持续多云服务组合的获取方法 | |
Mhammedi et al. | A highly scalable CF recommendation system using ontology and SVD-based incremental approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |