CN111708937A - 基于标签迁移的跨域推荐方法 - Google Patents

基于标签迁移的跨域推荐方法 Download PDF

Info

Publication number
CN111708937A
CN111708937A CN202010462560.4A CN202010462560A CN111708937A CN 111708937 A CN111708937 A CN 111708937A CN 202010462560 A CN202010462560 A CN 202010462560A CN 111708937 A CN111708937 A CN 111708937A
Authority
CN
China
Prior art keywords
user
matrix
field
users
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010462560.4A
Other languages
English (en)
Other versions
CN111708937B (zh
Inventor
姚全珠
吕鹏
费蓉
陈晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Read Tv Infinite Technology Co ltd
Xi'an Huaqi Zhongxin Technology Development Co ltd
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202010462560.4A priority Critical patent/CN111708937B/zh
Publication of CN111708937A publication Critical patent/CN111708937A/zh
Application granted granted Critical
Publication of CN111708937B publication Critical patent/CN111708937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于标签迁移的跨域推荐方法,首先假设A领域为源领域,B领域为目标领域,A领域与B领域存在重叠的用户,用户共用一套相同的标签系统并且A领域和B领域中都有对应的用户物品评分信息,通过迁移上述共享的标签信息,实现以A领域为源领域辅助目标领域B领域完成推荐任务,或者以B领域为源领域辅助目标领域A领域完成推荐任务;利用用户对A领域的评分信息构建A领域用户评分矩阵;然后对A领域用户评分矩阵进行分解,得到用户潜在特征矩阵和物品潜在特征矩阵,进而得到每一类别下的用户;最后对每一类下的用户进行跨域推荐。本发明解决了现有跨域推荐方法中存在的仅利用评分信息或标签信息进行推荐的局限性。

Description

基于标签迁移的跨域推荐方法
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于标签迁移的跨域推荐方法。
背景技术
身处大数据时代,互联网用户每天都在生产数据、创造数据和使用数据,一方面,数据量与日俱增,信息过载问题严重,另一方面,用户面对大量的信息不能及时有效地去寻找到自己所需的信息,为了解决这些问题,推荐系统应运而生,并在各个领域中得到了广泛的应用,但是传统的推荐主要还是集中在单一领域中,随着互联网技术的高速发展,急剧增多的用户和物品数量使得传统单一的推荐系统面临数据稀疏和冷启动问题的严峻挑战。
目前,基于迁移学习技术,结合推荐算法,出现了跨领域推荐的方法,旨在缓解传统单一领域推荐中存在的稀疏性问题和新用户新物品的冷启动问题,比如抹平不同领域间的评分刻度差异,直接迁移评分矩阵的方法,还有基于领域间标签的迁移学习方法,但是这些方法存在很多的不足,如果忽略领域间的评分刻度差异,可能会发生负迁移的现象,而只利用领域间的标签信息,忽略评分信息,可能会削弱最终的推荐效果。
发明内容
本发明的目的是提供一种基于标签迁移的跨域推荐方法,解决了现有跨域推荐方法中存在的仅利用评分信息或标签信息进行推荐的局限性。
本发明所采用的技术方案是,基于标签迁移的跨域推荐方法,具体按照以下步骤实施:
步骤1、假设A领域为源领域,B领域为目标领域,实现A领域与B领域之间的跨域推荐的前提条件如下:A领域与B领域存在重叠的用户,所述用户共用一套相同的标签系统并且A领域和B领域中都有对应的用户物品评分信息,通过迁移上述共享的标签信息,实现以A领域为源领域辅助目标领域B领域完成推荐任务,或者以B领域为源领域辅助目标领域A领域完成推荐任务;
步骤2、利用用户对A领域的评分信息构建A领域用户评分矩阵;
步骤3、对A领域用户评分矩阵进行分解,得到用户潜在特征矩阵Usrc和物品潜在特征矩阵Vsrc
步骤4、基于用户潜在特征矩阵对用户进行聚类,聚类采用K-Means聚类方法,得到每一类别下的用户;
步骤5、构建神经网络模型,对步骤4得到的不同类型下的用户使用的标签进行学习,并训练神经网络,得到能根据用户使用标签的特征对用户进行分类的神经网络模型,经过不断地训练得到最优网络模型;
步骤6、对每一类下的用户进行跨域推荐。
本发明的特点还在于,
步骤1中A领域与B领域重叠的用户共用一套相同的标签,标签包括属性标签和行为标签,其中属性标签包括性别、年龄、职业,行为标签包括用户对物品所属标签的使用次数。
步骤2具体如下:
步骤2.1、利用Pandas库中的read_table函数读入用户物品评分表,该表中包括的字段有用户ID、物品ID和评分,该函数指定要打开文件的位置、用作列名的行号、用作行索引的列编号或列名,并设置python引擎来对用户物品评分表进行解析;
步骤2.2、利用读到的用户物品评分表,使用Pandas的unique函数获取用户列名和物品列名的所有唯一值,然后使用len函数得到唯一的用户和物品的个数,结合numpy的zeros函数,创建行为用户数,列为物品数的全零二维数组;
步骤2.3、按元组的方式遍历用户物品评分表,使用pandas的loc函数和python的内建函数getattr,将每个用户对每部物品的评分值对应起来并填充到创建的全零二维数组的对应位置,从而得到用户对物品的评分矩阵user_item_matrix,并保存为user_item_matrix.csv。
步骤3具体如下:
步骤3.1、利用Pandas库中的read_csv函数读入步骤2得到的用户物品评分矩阵user_item_matrix.csv,通过设置用户潜在评分因子k和物品潜在评分因子l的大小以及最大迭代次数max_iter约束矩阵的分解;
步骤3.2、不断调整用户潜在评分因子k和物品潜在评分因子l以及最大迭代次数max_iter的值以最小化目标函数,目标函数达到最小值,得到源领域中的用户潜在特征矩阵Usrc、物品潜在特征矩阵Vsrc以及集群级的用户和物品评分矩阵S。
步骤3.2具体如下:
通过不断地迭代以最小化目标函数:
Figure BDA0002511519600000041
Figure BDA0002511519600000042
其中,
Figure BDA0002511519600000043
m代表源领域中的用户数,k代表用户潜在评分因子,n代表源领域中物品的个数,l代表物品潜在评分因子,Usrc的大小为m×k,表示源领域中m个用户对k个用户潜在评分因子的用户潜在特征矩阵,同样,Vsrc的大小为n×l,表示源领域中n个物品对l个物品潜在评分因子的物品潜在特征矩阵。
步骤3.2中当k=l=40,max_iter=200时,目标函数达到最小值。
步骤4具体如下:
步骤4.1、设聚类个数为K,即对应K个初始的类簇,然后由用户潜在特征矩阵Usrc和聚类个数K,随机初始化质心矩阵centroids,再将用户特征矩阵Usrc中的每一行和质心矩阵centroids中的每一个质心之间计算欧氏距离,按照距离最短原则,将用户特征矩阵中的每一行划分到距离最近的类簇中,形成K个类簇;
步骤4.2、更新每个类簇的中心,对每个簇内的数据求均值,得到新的质心矩阵centroids,再重新计算用户特征矩阵Usrc中的每一行和新的质心矩阵centroids中的每一个质心之间的欧氏距离,直到质心不再发生改变或者达到设定的迭代次数,最终得到了质心矩阵centroids和对应的类簇矩阵clusterAssment,这样就得到了每一类别下的用户。
步骤4.1中计算用户特征矩阵中的每一行和质心矩阵中的每一个质心之间的欧氏距离,计算公式为:
Figure BDA0002511519600000051
其中,X表示用户特征矩阵中的某一个数据,Y表示质心矩阵中的某一个数据,xi表示用户特征矩阵中的某一个数据点的坐标,yi表示某一个质心点的坐标,f为用户特征矩阵中所有数据的个数,i代表用户特征矩阵中的某一个数据。
步骤5具体如下:
步骤5.1、结合用户的属性标签和行为标签,通过量化处理后作为神经网络的输入,用户的属性标签包括用户的年龄、性别、职业,将用户的性别字段进行量化处理,假设用M表示男性,量化后用0表示,F表示女性,量化后用1表示,对于用户的职业字段,分别用0~6七个值表示,用户的行为标签包括用户使用每个物品所属标签的次数,通过统计得到;
步骤5.2、将用户的属性标签和行为标签作为网络的输入特征经过隐藏层进行特征提取,设置隐藏层的神经元个数为h;
隐藏层的神经元个数h由下面的公式确定:
Figure BDA0002511519600000052
其中,p为神经网络输入的神经元个数,q为神经网络输出的神经元个数,a为1~10的常数;
步骤5.3、将隐藏层h个神经元的输出作为全连接层的输入,再经过softmax函数后得到分类结果,最终对应L个概率值,其中,L=K,再将L个概率值和1~K个类簇对应,判断属于哪个类别的概率值最大,则属于哪个类别;
其中,softmax函数表示为:
Figure BDA0002511519600000061
其中,w表示分类数,z属于1~w,yz表示全连接层第z个神经元的输出,将w个输出分别经过softmax函数,得到符合概率分布的分类结果。
步骤6具体如下:
步骤6.1、将所述步骤5得到的在同一类下的所有用户在B领域中的评分矩阵进行重组,即将同一类别下的每一个用户的评分矩阵按行放置,得到新的用户在B领域中的评分矩阵user_item_matrix_tar;
步骤6.2、使用近邻评分预测方法对步骤6.1得到的评分矩阵user_item_matrix_tar进行填充:
近邻评分预测公式为:
Figure BDA0002511519600000062
其中,Au是B领域中目标用户u对所有评分物品的平均分,Rvt是B领域中用户v对物品t的评分值,Av是B领域中用户u的邻居用户v对所有评分物品的平均分,sim(u,v)是B领域中目标用户u和u的邻居用户v之间的相似度数值,c是B领域中目标用户u的最近邻个数,j代表1~c中某一个最近邻;
步骤6.3、构造对照评分矩阵contrast_score_matrix:对评分矩阵user_item_matrix_tar按列求平均值,得到对照评分矩阵contrast_score_matrix;
步骤6.4、将需要进行跨域推荐的用户在B领域中的评分矩阵user_item_matrix_tar与该用户所属类别下的对照评分矩阵contrast_score_matrix进行对比,利用阈值比较的方法,如果对应位置的评分大于阈值,则对用户推荐B领域内的物品,如果对应位置评分小于阈值,则不给用户推荐B领域内的物品,即实现A领域和B领域的跨域推荐。
本发明的有益效果是,一种基于标签迁移的跨域推荐方法,通过结合领域中的标签信息和评分信息,来更好地辅助目标领域完成推荐任务,不仅结合了评分知识,也融入了领域间的标签信息,以标签为知识迁移的桥梁,更好地辅助目标领域完成推荐,同时也缓解了目标领域评分稀疏的问题,提升了推荐的效果。
附图说明
图1是本发明的网络模型架构图;
图2是本发明的神经网络模型图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于标签迁移的跨域推荐方法,如图1所示,具体按照以下步骤实施:
步骤1、假设A领域为源领域,B领域为目标领域,实现A领域与B领域之间的跨域推荐的前提条件如下:A领域与B领域存在重叠的用户,所述用户共用一套相同的标签系统并且A领域和B领域中都有对应的用户物品评分信息,通过迁移上述共享的标签信息,实现以A领域为源领域辅助目标领域B领域完成推荐任务,或者以B领域为源领域辅助目标领域A领域完成推荐任务;
步骤1中A领域与B领域重叠的用户共用一套相同的标签,标签包括属性标签和行为标签,其中属性标签包括性别、年龄、职业,行为标签包括用户对物品所属标签的使用次数。
步骤2、利用用户对A领域的评分信息构建A领域用户评分矩阵;
步骤2具体如下:
步骤2.1、利用Pandas库中的read_table函数读入用户物品评分表,该表中包括的字段有用户ID、物品ID和评分,该函数指定要打开文件的位置、用作列名的行号、用作行索引的列编号或列名,并设置python引擎来对用户物品评分表进行解析;
步骤2.2、利用读到的用户物品评分表,使用Pandas的unique函数获取用户列名和物品列名的所有唯一值,然后使用len函数得到唯一的用户和物品的个数,结合numpy的zeros函数,创建行为用户数,列为物品数的全零二维数组;
步骤2.3、按元组的方式遍历用户物品评分表,使用pandas的loc函数和python的内建函数getattr,将每个用户对每部物品的评分值对应起来并填充到创建的全零二维数组的对应位置,从而得到用户对物品的评分矩阵user_item_matrix,并保存为user_item_matrix.csv。
步骤3、对A领域用户评分矩阵进行分解,得到用户潜在特征矩阵Usrc和物品潜在特征矩阵Vsrc
步骤3具体如下:
步骤3.1、利用Pandas库中的read_csv函数读入步骤2得到的用户物品评分矩阵user_item_matrix.csv,通过设置用户潜在评分因子k和物品潜在评分因子l的大小以及最大迭代次数max_iter约束矩阵的分解;
步骤3.2、不断调整用户潜在评分因子k和物品潜在评分因子l以及最大迭代次数max_iter的值以最小化目标函数,目标函数达到最小值,得到源领域中的用户潜在特征矩阵Usrc、物品潜在特征矩阵Vsrc以及集群级的用户和物品评分矩阵S。
步骤3.2具体如下:
通过不断地迭代以最小化目标函数:
Figure BDA0002511519600000091
Figure BDA0002511519600000092
其中,
Figure BDA0002511519600000093
m代表源领域中的用户数,k代表用户潜在评分因子,n代表源领域中物品的个数,l代表物品潜在评分因子,Usrc的大小为m×k,表示源领域中m个用户对k个用户潜在评分因子的用户潜在特征矩阵,同样,Vsrc的大小为n×l,表示源领域中n个物品对l个物品潜在评分因子的物品潜在特征矩阵。
步骤3.2中当k=l=40,max_iter=200时,目标函数达到最小值。
步骤4、基于用户潜在特征矩阵对用户进行聚类,聚类采用K-Means聚类方法,得到每一类别下的用户;
步骤4具体如下:
步骤4.1、设聚类个数为K,即对应K个初始的类簇,然后由用户潜在特征矩阵Usrc和聚类个数K,随机初始化质心矩阵centroids,再将用户特征矩阵Usrc中的每一行和质心矩阵centroids中的每一个质心之间计算欧氏距离,按照距离最短原则,将用户特征矩阵中的每一行划分到距离最近的类簇中,形成K个类簇;
步骤4.2、更新每个类簇的中心,对每个簇内的数据求均值,得到新的质心矩阵centroids,再重新计算用户特征矩阵Usrc中的每一行和新的质心矩阵centroids中的每一个质心之间的欧氏距离,直到质心不再发生改变或者达到设定的迭代次数,最终得到了质心矩阵centroids和对应的类簇矩阵clusterAssment,这样就得到了每一类别下的用户。
步骤4.1中计算用户特征矩阵中的每一行和质心矩阵中的每一个质心之间的欧氏距离,计算公式为:
Figure BDA0002511519600000101
其中,X表示用户特征矩阵中的某一个数据,Y表示质心矩阵中的某一个数据,xi表示用户特征矩阵中的某一个数据点的坐标,yi表示某一个质心点的坐标,f为用户特征矩阵中所有数据的个数,i代表用户特征矩阵中的某一个数据。
步骤5、如图2所示,构建神经网络模型,对步骤4得到的不同类型下的用户使用的标签进行学习,并训练神经网络,得到能根据用户使用标签的特征对用户进行分类的神经网络模型,经过不断地训练得到最优网络模型;
步骤5具体如下:
步骤5.1、结合用户的属性标签和行为标签,通过量化处理后作为神经网络的输入,用户的属性标签包括用户的年龄、性别、职业,将用户的性别字段进行量化处理,假设用M表示男性,量化后用0表示,F表示女性,量化后用1表示,对于用户的职业字段,分别用0~6七个值表示,用户的行为标签包括用户使用每个物品所属标签的次数,通过统计得到;
步骤5.2、将用户的属性标签和行为标签作为网络的输入特征经过隐藏层进行特征提取,设置隐藏层的神经元个数为h;
隐藏层的神经元个数h由下面的公式确定:
Figure BDA0002511519600000111
其中,p为神经网络输入的神经元个数,q为神经网络输出的神经元个数,a为1~10的常数;
步骤5.3、将隐藏层h个神经元的输出作为全连接层的输入,再经过softmax函数后得到分类结果,最终对应L个概率值,其中,L=K,再将L个概率值和1~K个类簇对应,判断属于哪个类别的概率值最大,则属于哪个类别;
其中,softmax函数表示为:
Figure BDA0002511519600000112
其中,w表示分类数,z属于1~w,yz表示全连接层第z个神经元的输出,将w个输出分别经过softmax函数,得到符合概率分布的分类结果。
步骤6、对每一类下的用户进行跨域推荐。
步骤6具体如下:
步骤6.1、将所述步骤5得到的在同一类下的所有用户在B领域中的评分矩阵进行重组,即将同一类别下的每一个用户的评分矩阵按行放置,得到新的用户在B领域中的评分矩阵user_item_matrix_tar;
步骤6.2、使用近邻评分预测方法对步骤6.1得到的评分矩阵user_item_matrix_tar进行填充:
近邻评分预测公式为:
Figure BDA0002511519600000121
其中,Au是B领域中目标用户u对所有评分物品的平均分,Rvt是B领域中用户v对物品t的评分值,Av是B领域中用户u的邻居用户v对所有评分物品的平均分,sim(u,v)是B领域中目标用户u和u的邻居用户v之间的相似度数值,c是B领域中目标用户u的最近邻个数,j代表1~c中某一个最近邻;
步骤6.3、构造对照评分矩阵contrast_score_matrix:对评分矩阵user_item_matrix_tar按列求平均值,得到对照评分矩阵contrast_score_matrix;
步骤6.4、将需要进行跨域推荐的用户在B领域中的评分矩阵user_item_matrix_tar与该用户所属类别下的对照评分矩阵contrast_score_matrix进行对比,利用阈值比较的方法,如果对应位置的评分大于阈值,则对用户推荐B领域内的物品,如果对应位置评分小于阈值,则不给用户推荐B领域内的物品,即实现A领域和B领域的跨域推荐。
本发明基于标签迁移的跨域推荐方法,在迁移学习的过程中,将评分稠密的领域作为源领域,将评分稀疏的领域作为目标领域,迁移的目的是通过将源领域中的知识迁移到目标领域中,辅助目标领域来完成推荐的任务。对源领域中稠密的用户物品评分矩阵,由于维度较高,首先对评分矩阵进行非负正交矩阵分解,得到用户潜在特征矩阵和物品潜在特征矩阵,然后基于用户潜在特征矩阵,使用K-Means聚类方法,对用户进行聚类,这样就可以得到不同类型下的用户,接下来,通过设计神经网络模型,对每个类别下用户使用的标签特征进行学习,通过不断地训练得到最优的网络模型,得到一个能根据用户使用的标签特征来对用户进行分类的神经网络模型,然后对用户进行跨域推荐。
实施例
本发明基于标签迁移的跨领域推荐方法,针对单域推荐中存在的数据稀疏性问题和冷启动问题,结合用户的属性标签(性别、年龄、职业等)和用户的行为标签(用户对物品所属标签的使用次数),在电影领域和图书领域之间完成跨域推荐。架构图如图1所示。
(1)以电影领域作为源领域,首先利用用户对电影的评分信息构建用户电影评分矩阵:利用Pandas库中的read_table函数读入用户电影评分表ratings.dat,其中该表中包括的字段包括用户ID,电影ID和评分。通过该方法可以指定要打开文件的位置、用作列名的行号、用作行索引的列编号或列名等,并设置python引擎来对用户物品评分表进行解析。利用读到的用户电影评分表,使用Pandas的unique函数获取用户列名和电影列名的所有唯一值,然后使用len函数得到唯一的用户和电影的个数,结合numpy的zeros函数,创建一个行为用户数,列为电影数的全零的一个二维数组,再按元组的方式遍历用户电影评分表,使用pandas的loc函数和python的内建函数getattr,将每个用户对每部电影的评分值对应起来并填充到创建的全零的二维数组的对应位置,从而得到用户对电影的评分矩阵user_item_matrix,并保存为user_item_matrix.csv。
(2)对用户电影评分矩阵user_item_matrix进行分解,得到用户潜在特征矩阵Usrc和电影潜在特征矩阵Vsrc:首先利用Pandas库中的read_csv函数读入用户电影评分矩阵user_item_matrix.csv,通过设置用户潜在特征k和电影潜在特征l的大小以及最大迭代次数max_iter来约束矩阵的分解,通过不断地调整k、l和max_iter的值以最小化目标函数,当k=l=40,max_iter=200时,目标函数达到最小值,就得到了源领域中的用户潜在特征矩阵Usrc、电影潜在特征矩阵Vsrc以及集群级的用户和电影评分矩阵S。
(3)基于用户潜在特征矩阵Usrc,对用户进行聚类,聚类所采用的方法是K-Means聚类方法,得到每一类别下的用户。首先设定聚类个数K=5,即对应5个初始的类簇,然后由用户潜在特征矩阵Usrc和聚类个数K,随机初始化质心矩阵centroids,再将用户特征矩阵Usrc中的每一行和质心矩阵centroids中的每一个质心之间计算欧氏距离,按照距离最短原则,将用户特征矩阵中的每一行划分到距离最近的类簇中,形成5个类簇,再更新每个簇类的中心,对每个簇内的数据求均值,就得到新的质心矩阵centroids,再重新计算用户特征矩阵Usrc中的每一行和新的质心矩阵centroids中的每一个质心之间的欧氏距离,直到质心不再发生改变或者达到设定的迭代次数,最终得到的质心矩阵centroids和对应的簇类矩阵clusterAssment。
(4)设计神经网络模型,对不同类型下的用户使用的标签进行学习,训练神经网络,得到一个能根据用户使用标签特征对用户进行分类的神经网络模型,经过不断地训练得到最优网络模型。首先结合用户的属性标签和行为标签,通过量化处理后作为神经网络的输入。用户的属性标签包括用户的年龄、性别、职业等,将用户的性别字段进行量化处理,M用0来表示,F用1来表示,对于用户的职业字段,分别用0~6这七个值来表示,用户的行为标签包括用户使用每个物品所属标签的次数,通过统计得到。再将用户的属性标签和行为标签作为网络的输入特征经过隐藏层进行特征提取,设置输入特征数为21,输出为5,所以设置隐藏层的节点数为5。最后将隐藏层的输出作为全连接层的输入,再经过softmax函数后得到分类结果,最终对应5个概率值,哪个概率值较大,则属于哪个类别。
(5)对每一类下的用户进行跨域推荐。将图书领域作为目标领域,首先将同一类下的所有用户在图书领域中的评分矩阵进行重组,重组的方法就是将同一类别下的每一个用户的评分矩阵按行放置,得到一个新的用户在图书领域中的评分矩阵user_item_matrix_tar,然后使用近邻评分预测方法对该矩阵进行填充。接下来构造对照评分矩阵contrast_score_matrix。对评分矩阵user_item_matrix_tar,按列求平均值,得到对照评分矩阵contrast_score_matrix。最后将需要进行跨域推荐的用户在图书领域中的评分矩阵user_item_matrix_tar与该用户所属类别下的对照评分矩阵contrast_score_matrix进行对比,利用阈值比较的方法,考虑到用户对物品的打分范围为1~5分,所以设定阈值的大小为3,如果对应位置的评分大于阈值,则可以对用户推荐这类图书,如果对应位置评分小于阈值,则不给用户推荐这类图书。这样就实现了电影领域和图书领域的跨域推荐。
本发明应用在跨领域的推荐系统中,用于将源领域稠密的知识通过迁移学习的方法应用到评分知识稀疏的目标领域中,辅助目标领域完成对用户的推荐任务。传统的推荐算法大都集中在单一领域的推荐任务中,随着大数据时代的来临,传统的单域推荐中存在的数据稀疏性问题和冷启动问题愈发严重,迫切需要跨领域的方法来缓解这种问题。本发明提出利用评分知识和领域中的标签信息,通过迁移领域中的标签信息,对目标领域中的用户进行分类,再对每一类用户进行跨域推荐。

Claims (10)

1.基于标签迁移的跨域推荐方法,其特征在于,具体按照以下步骤实施:
步骤1、假设A领域为源领域,B领域为目标领域,实现A领域与B领域之间的跨域推荐的前提条件如下:A领域与B领域存在重叠的用户,所述用户共用一套相同的标签系统并且A领域和B领域中都有对应的用户物品评分信息,通过迁移上述共享的标签信息,实现以A领域为源领域辅助目标领域B领域完成推荐任务,或者以B领域为源领域辅助目标领域A领域完成推荐任务;
步骤2、利用用户对A领域的评分信息构建A领域用户评分矩阵;
步骤3、对A领域用户评分矩阵进行分解,得到用户潜在特征矩阵Usrc和物品潜在特征矩阵Vsrc
步骤4、基于用户潜在特征矩阵对用户进行聚类,聚类采用K-Means聚类方法,得到每一类别下的用户;
步骤5、构建神经网络模型,对步骤4得到的不同类型下的用户使用的标签进行学习,并训练神经网络,得到能根据用户使用标签的特征对用户进行分类的神经网络模型,经过不断地训练得到最优网络模型;
步骤6、对每一类下的用户进行跨域推荐。
2.根据权利要求1所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤1中A领域与B领域重叠的用户共用一套相同的标签,标签包括属性标签和行为标签,其中属性标签包括性别、年龄、职业,行为标签包括用户对物品所属标签的使用次数。
3.根据权利要求1所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤2具体如下:
步骤2.1、利用Pandas库中的read_table函数读入用户物品评分表,该表中包括的字段有用户ID、物品ID和评分,该函数指定要打开文件的位置、用作列名的行号、用作行索引的列编号或列名,并设置python引擎来对用户物品评分表进行解析;
步骤2.2、利用读到的用户物品评分表,使用Pandas的unique函数获取用户列名和物品列名的所有唯一值,然后使用len函数得到唯一的用户和物品的个数,结合numpy的zeros函数,创建行为用户数,列为物品数的全零二维数组;
步骤2.3、按元组的方式遍历用户物品评分表,使用pandas的loc函数和python的内建函数getattr,将每个用户对每部物品的评分值对应起来并填充到创建的全零二维数组的对应位置,从而得到用户对物品的评分矩阵user_item_matrix,并保存为user_item_matrix.csv。
4.根据权利要求3所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤3具体如下:
步骤3.1、利用Pandas库中的read_csv函数读入步骤2得到的用户物品评分矩阵user_item_matrix.csv,通过设置用户潜在评分因子k和物品潜在评分因子l的大小以及最大迭代次数max_iter约束矩阵的分解;
步骤3.2、不断调整用户潜在评分因子k和物品潜在评分因子l以及最大迭代次数max_iter的值以最小化目标函数,目标函数达到最小值,得到源领域中的用户潜在特征矩阵Usrc、物品潜在特征矩阵Vsrc以及集群级的用户和物品评分矩阵S。
5.根据权利要求4所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤3.2具体如下:
通过不断地迭代以最小化目标函数:
Figure FDA0002511519590000031
Figure FDA0002511519590000032
其中,
Figure FDA0002511519590000033
m代表源领域中的用户数,k代表用户潜在评分因子,n代表源领域中物品的个数,l代表物品潜在评分因子,Usrc的大小为m×k,表示源领域中m个用户对k个用户潜在评分因子的用户潜在特征矩阵,同样,Vsrc的大小为n×l,表示源领域中n个物品对l个物品潜在评分因子的物品潜在特征矩阵。
6.根据权利要求4所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤3.2中当k=l=40,max_iter=200时,目标函数达到最小值。
7.根据权利要求4所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤4具体如下:
步骤4.1、设聚类个数为K,即对应K个初始的类簇,然后由用户潜在特征矩阵Usrc和聚类个数K,随机初始化质心矩阵centroids,再将用户特征矩阵Usrc中的每一行和质心矩阵centroids中的每一个质心之间计算欧氏距离,按照距离最短原则,将用户特征矩阵中的每一行划分到距离最近的类簇中,形成K个类簇;
步骤4.2、更新每个类簇的中心,对每个簇内的数据求均值,得到新的质心矩阵centroids,再重新计算用户特征矩阵Usrc中的每一行和新的质心矩阵centroids中的每一个质心之间的欧氏距离,直到质心不再发生改变或者达到设定的迭代次数,最终得到了质心矩阵centroids和对应的类簇矩阵clusterAssment,这样就得到了每一类别下的用户。
8.根据权利要求7所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤4.1中计算用户特征矩阵中的每一行和质心矩阵中的每一个质心之间的欧氏距离,计算公式为:
Figure FDA0002511519590000041
其中,X表示用户特征矩阵中的某一个数据,Y表示质心矩阵中的某一个数据,xi表示用户特征矩阵中的某一个数据点的坐标,yi表示某一个质心点的坐标,f为用户特征矩阵中所有数据的个数,i代表用户特征矩阵中的某一个数据。
9.根据权利要求7所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤5具体如下:
步骤5.1、结合用户的属性标签和行为标签,通过量化处理后作为神经网络的输入,用户的属性标签包括用户的年龄、性别、职业,将用户的性别字段进行量化处理,假设用M表示男性,量化后用0表示,F表示女性,量化后用1表示,对于用户的职业字段,分别用0~6七个值表示,用户的行为标签包括用户使用每个物品所属标签的次数,通过统计得到;
步骤5.2、将用户的属性标签和行为标签作为网络的输入特征经过隐藏层进行特征提取,设置隐藏层的神经元个数为h;
隐藏层的神经元个数h由下面的公式确定:
Figure FDA0002511519590000042
其中,p为神经网络输入的神经元个数,q为神经网络输出的神经元个数,a为1~10的常数;
步骤5.3、将隐藏层h个神经元的输出作为全连接层的输入,再经过softmax函数后得到分类结果,最终对应L个概率值,其中,L=K,再将L个概率值和1~K个类簇对应,判断属于哪个类别的概率值最大,则属于哪个类别;
其中,softmax函数表示为:
Figure FDA0002511519590000051
其中,w表示分类数,z属于1~w,yz表示全连接层第z个神经元的输出,将w个输出分别经过softmax函数,得到符合概率分布的分类结果。
10.根据权利要求9所述的基于标签迁移的跨域推荐方法,其特征在于,所述步骤6具体如下:
步骤6.1、将所述步骤5得到的在同一类下的所有用户在B领域中的评分矩阵进行重组,即将同一类别下的每一个用户的评分矩阵按行放置,得到新的用户在B领域中的评分矩阵user_item_matrix_tar;
步骤6.2、使用近邻评分预测方法对步骤6.1得到的评分矩阵user_item_matrix_tar进行填充:
近邻评分预测公式为:
Figure FDA0002511519590000052
其中,Au是B领域中目标用户u对所有评分物品的平均分,Rvt是B领域中用户v对物品t的评分值,Av是B领域中用户u的邻居用户v对所有评分物品的平均分,sim(u,v)是B领域中目标用户u和u的邻居用户v之间的相似度数值,c是B领域中目标用户u的最近邻个数,j代表1~c中某一个最近邻;
步骤6.3、构造对照评分矩阵contrast_score_matrix:对评分矩阵user_item_matrix_tar按列求平均值,得到对照评分矩阵contrast_score_matrix;
步骤6.4、将需要进行跨域推荐的用户在B领域中的评分矩阵user_item_matrix_tar与该用户所属类别下的对照评分矩阵contrast_score_matrix进行对比,利用阈值比较的方法,如果对应位置的评分大于阈值,则对用户推荐B领域内的物品,如果对应位置评分小于阈值,则不给用户推荐B领域内的物品,即实现A领域和B领域的跨域推荐。
CN202010462560.4A 2020-05-27 2020-05-27 基于标签迁移的跨域推荐方法 Active CN111708937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010462560.4A CN111708937B (zh) 2020-05-27 2020-05-27 基于标签迁移的跨域推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010462560.4A CN111708937B (zh) 2020-05-27 2020-05-27 基于标签迁移的跨域推荐方法

Publications (2)

Publication Number Publication Date
CN111708937A true CN111708937A (zh) 2020-09-25
CN111708937B CN111708937B (zh) 2022-12-16

Family

ID=72538546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010462560.4A Active CN111708937B (zh) 2020-05-27 2020-05-27 基于标签迁移的跨域推荐方法

Country Status (1)

Country Link
CN (1) CN111708937B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398313A (zh) * 2022-03-22 2022-04-26 北京数腾软件科技有限公司 一种文件级数据的智能迁移操作方法及系统
CN115952360A (zh) * 2023-03-14 2023-04-11 中国海洋大学 基于用户和物品共性建模的域自适应跨域推荐方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150052003A1 (en) * 2013-08-19 2015-02-19 Wal-Mart Stores, Inc. Providing Personalized Item Recommendations Using Scalable Matrix Factorization With Randomness
EP2960849A1 (en) * 2014-06-26 2015-12-30 Deutsche Telekom AG Method and system for recommending an item to a user
EP2983123A1 (en) * 2014-07-17 2016-02-10 Deutsche Telekom AG Self transfer learning recommendation method and system
CN107357793A (zh) * 2016-05-10 2017-11-17 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN108182264A (zh) * 2018-01-09 2018-06-19 武汉大学 一种基于跨领域排名推荐模型的排名推荐方法
CN108920647A (zh) * 2018-07-03 2018-11-30 安徽工业大学 基于谱聚类的低秩矩阵填充top-n推荐方法
CN109711925A (zh) * 2018-11-23 2019-05-03 西安电子科技大学 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统
CN110781401A (zh) * 2019-11-07 2020-02-11 电子科技大学 一种基于协同自回归流实现的Top-n项目推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150052003A1 (en) * 2013-08-19 2015-02-19 Wal-Mart Stores, Inc. Providing Personalized Item Recommendations Using Scalable Matrix Factorization With Randomness
EP2960849A1 (en) * 2014-06-26 2015-12-30 Deutsche Telekom AG Method and system for recommending an item to a user
EP2983123A1 (en) * 2014-07-17 2016-02-10 Deutsche Telekom AG Self transfer learning recommendation method and system
CN107357793A (zh) * 2016-05-10 2017-11-17 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN108182264A (zh) * 2018-01-09 2018-06-19 武汉大学 一种基于跨领域排名推荐模型的排名推荐方法
CN108920647A (zh) * 2018-07-03 2018-11-30 安徽工业大学 基于谱聚类的低秩矩阵填充top-n推荐方法
CN109711925A (zh) * 2018-11-23 2019-05-03 西安电子科技大学 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统
CN110781401A (zh) * 2019-11-07 2020-02-11 电子科技大学 一种基于协同自回归流实现的Top-n项目推荐方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SHATHA JARADAT: "Deep Cross-Domain Fashion Recommendation", 《ACM》 *
李林峰等: "基于共享知识模型的跨领域推荐算法", 《电子学报》 *
欧辉思等: "面向跨领域的推荐系统研究现状与趋势", 《小型微型计算机系统》 *
邢长征等: "基于SVD++与标签的跨域推荐模型", 《计算机工程》 *
陶鸿等: "跨领域推荐研究进展", 《长春师范大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398313A (zh) * 2022-03-22 2022-04-26 北京数腾软件科技有限公司 一种文件级数据的智能迁移操作方法及系统
CN114398313B (zh) * 2022-03-22 2022-06-14 北京数腾软件科技有限公司 一种文件级数据的智能迁移操作方法及系统
CN115952360A (zh) * 2023-03-14 2023-04-11 中国海洋大学 基于用户和物品共性建模的域自适应跨域推荐方法及系统

Also Published As

Publication number Publication date
CN111708937B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
Song et al. Quantization-based hashing: a general framework for scalable image and video retrieval
Steck Embarrassingly shallow autoencoders for sparse data
Hu et al. Collective reconstructive embeddings for cross-modal hashing
Ren et al. Semi-supervised deep embedded clustering
Dong et al. A hybrid collaborative filtering model with deep structure for recommender systems
Iscen et al. Efficient diffusion on region manifolds: Recovering small objects with compact cnn representations
Lu et al. Efficient supervised discrete multi-view hashing for large-scale multimedia search
Ding et al. Extreme learning machine with kernel model based on deep learning
Yin et al. Incomplete multi-view clustering via subspace learning
Xia et al. Sparse projections for high-dimensional binary codes
Bachrach et al. Speeding up the xbox recommender system using a euclidean transformation for inner-product spaces
CN110309306B (zh) 一种基于wsd层级记忆网络的文档建模分类方法
Cui et al. Subspace clustering guided convex nonnegative matrix factorization
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
Benabderrahmane et al. On the predictive analysis of behavioral massive job data using embedded clustering and deep recurrent neural networks
Yin et al. Incomplete multi-view clustering with reconstructed views
Yang et al. Triplet Enhanced AutoEncoder: Model-free Discriminative Network Embedding.
Liu et al. Feature selection with unsupervised consensus guidance
Huang et al. Sketch-based image retrieval with deep visual semantic descriptor
CN111708937B (zh) 基于标签迁移的跨域推荐方法
Deng et al. Large-scale multi-task image labeling with adaptive relevance discovery and feature hashing
Lu et al. Learning from multi-view multi-way data via structural factorization machines
Cao et al. Rankcompete: Simultaneous ranking and clustering of information networks
Chen et al. Collaborative multiview hashing
Tong et al. A deep discriminative and robust nonnegative matrix factorization network method with soft label constraint

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221122

Address after: 100000 No. 68, Floor 6, Building 17, Yard 30, Shixing Street, Shijingshan District, Beijing

Applicant after: BEIJING READ TV INFINITE TECHNOLOGY Co.,Ltd.

Address before: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province

Applicant before: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd.

Effective date of registration: 20221122

Address after: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province

Applicant after: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd.

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Applicant before: XI'AN University OF TECHNOLOGY

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant