CN114969520A - 基于标签信息和商品属性的商品推荐方法、系统及设备 - Google Patents
基于标签信息和商品属性的商品推荐方法、系统及设备 Download PDFInfo
- Publication number
- CN114969520A CN114969520A CN202210527650.6A CN202210527650A CN114969520A CN 114969520 A CN114969520 A CN 114969520A CN 202210527650 A CN202210527650 A CN 202210527650A CN 114969520 A CN114969520 A CN 114969520A
- Authority
- CN
- China
- Prior art keywords
- matrix
- commodity
- user
- similarity
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000011159 matrix material Substances 0.000 claims abstract description 276
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 56
- 238000002372 labelling Methods 0.000 claims abstract description 34
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 230000006399 behavior Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 2
- 241001633942 Dais Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了基于标签信息和商品属性的商品推荐方法、系统及设备,方法包括:获取用户对商品的评分和标注信息,基于用户标注行为和语义信息计算商品标签相似度,进行标签扩展,并计算商品间相似度,利用基于商品的协同过滤法计算得到初始评分矩阵;计算用户对商品属性的偏好信息,将偏好信息融入矩阵分解,结合初始评分矩阵,构建矩阵分解模型;基于优化后矩阵分解模型的参数、冷启动用户的商品属性偏好信息以及冷启动用户评分信息,得到冷启动用户的预测评分矩阵;基于预测评分矩阵,为冷启动用户进行商品推荐。本发明采用结合标签信息和用户偏好的矩阵分解推荐方法,从而从根源上解决了现有的对冷启动用户推荐难、推荐准确率低的问题。
Description
技术领域
本发明属于个性化推荐领域,具体涉及一种基于标签信息和商品属性的商品推荐方法、系统及设备。
背景技术
步入21世纪后,个性化推荐逐渐成为各大互联网平台的重要研究方向,通过挖掘用户的潜在兴趣,预测其对其它商品的评分,有效解决海量数据带来的信息过载问题。同时,对于互联网中的弱势群体“老年人”而言,产品推荐往往对其遥不可及。此外,基于矩阵分解的协同过滤商品推荐方法,给推荐效果带来了极大的提升,在不断完善老用户使用体验的同时,也吸引着更多新用户。新用户的加入便带来了用户冷启动问题,而对于评分记录非常少的冷启动用户群体,无法用传统方法挖掘信息。
现有的基于矩阵分解的协同过滤推荐方法中,目前存在有冷启动用户推荐难、推荐准确性不高、用户满意度低的问题。
因此,如何克服冷启动用户推荐难、提高推荐准确性以及提升用户满意度,是本领域亟待解决的问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种基于标签信息和商品属性的商品推荐方法、系统及设备。本发明基于标签信息和商品属性的矩阵分解推荐方法,将标签信息和根据商品属性构建的用户偏好信息融入矩阵分解模型中,获取最优模型后融入冷启动用户的偏好信息,构建最终的冷启动用户的矩阵分解模型并完成冷启动用户的商品推荐,从而从根源上解决了现有的冷启动用户推荐难、推荐准确性低、用户满意度低的问题。
为了实现以上目的,本发明采用以下技术方案:
一种基于标签信息和商品属性的商品推荐方法,其特征在于,包括步骤:
S1、获取用户对商品的评分信息和商品标注信息,基于用户标注行为和语义信息计算商品标签相似度,进行标签扩展,并计算商品间相似度,利用基于商品的协同过滤算法计算得到初始评分矩阵;具体步骤包括:
S11、获取用户对商品的评分信息和商品标注信息,并基于所述评分信息和商品标注信息分别构建用户-商品评分矩阵和商品-标签矩阵;
S12、基于商品-标签矩阵和标签共现计算商品标签相似度,得到基于用户标注行为的标签相似度矩阵C;
S13、基于标签的语义信息,利用匈牙利算法和戴斯系数,计算词语和短语间的相似度,得到基于语义信息的标签相似度矩阵N;
S14、将所述基于用户标注行为的标签相似度矩阵和基于语义信息的标签相似度矩阵进行合并,得到最终的标签相似度矩阵M;
S15、利用所述标签相似度矩阵M中标签之间相似数据,对所述商品-标签矩阵进行扩充;
S16、利用扩充后的商品-标签矩阵,计算商品间的相似度,得到基于标签的商品相似度矩阵;
S17、基于所述商品相似度矩阵和所述用户-商品评分矩阵,利用基于商品的协同过滤算法预测初始评分,得到初始评分矩阵R’;
S2、计算用户对商品属性的偏好信息,将偏好信息融入矩阵分解,结合所述初始评分矩阵,构建矩阵分解模型,具体步骤包括:
S21、基于商品的属性信息构建商品的属性矩阵G;并基于所述属性矩阵和所述用户-商品评分矩阵,构建用户对商品的偏好矩阵Z;
S22、初始化参数商品评分偏置bu、用户评分偏置bi、用户特征矩阵P、商品特征矩阵Q、用户对商品属性的偏好矩阵PF、商品属性特征矩阵QF;
S23、将商品的所述属性矩阵、所述用户对商品的偏好矩阵Z和所述初始评分矩阵融入到矩阵分解模型中,得到预测评分,所述预测评分的计算方法如下式:
其中,r′为初始评分矩阵R’中的初始预测评分,bu代表商品评分偏置,bi代表用户评分偏置,Z表示用户对商品属性的偏好矩阵,G为商品的属性矩阵;
S24、计算所述预测评分和实际评分之间的差值,利用随机梯度下降法结合损失函数更新预测评分矩阵,所述损失函数如下式:
优化函数中更新公式如下:
bu←bu+η(eui-λbu)
bi←bi+η(eui-λbi)
其中,pu表示用户隐向量,qi表示项目隐向量、hj表示用户偏好隐向量、cg表示项目属性隐向量;
S25,返回步骤S23,直至误差不再变化则结束;
S26、获得优化后矩阵分解模型的参数bu、bi、P、Q、PF、QF;
S3、对于任一冷启动用户,基于所述优化后矩阵分解模型的参数、冷启动用户的商品属性偏好信息以及冷启动用户评分信息,得到冷启动用户的预测评分矩阵;
S31、对冷启动用户的评分记录进行分析,得到冷启动用户的用户-商品评分矩阵;并基于所述冷启动用户的用户-商品评分矩阵和所述商品的属性矩阵,计算得到冷启动用户对商品的属性偏好矩阵;
S32、基于步骤S26得到的参数、所述冷启动用户对商品的属性偏好矩阵、所述冷启动用户的用户-商品评分矩阵,采取随机梯度下降方法更新所述参数,直至误差不再变化则结束;
S33、根据步骤S32得到的优化后的参数,计算冷启动用户的预测评分,生成冷启动用户的预测评分矩阵;
S4、基于所述冷启动用户的预测评分矩阵,生成商品推荐列表,为冷启动用户进行商品推荐。
进一步地,步骤S12包括:结合基于邻域的思想,使用余弦相似度计算公式来计算标签之间的相似度,相应标签间相似度的计算公式如下:
标签相似度矩阵C的表现形式如下:
其中,矩阵C的大小是k×k,k表示标签的个数,矩阵中的值表示对应两个标签的相似度,值的范围是0到1,越接近1则表示两个标签间越相似。
进一步地,在步骤S13中,所述词语相似度计算方法具体包括:
(1)分析词性,利用词形还原方法还原每个单词;
(2)结合WordNet获取词语w1和w2的同义词,生成同义词集合s1和s2;
(3)对集合内的每个词语检索注释,通过拆解词语、去除停用词、词性标注和词形还原操作,得到S1和S2的注释G1和G2;
(4)基于集合S1和S2、以及注释集合G1和G2,计算词语w1和w2的语义相似度,具体公式如下:
所述短语间的相似度的计算方法具体包括:
(1)判断标签是否为短语,若是,将其拆分为单词,如否,进入步骤(2);
(2)利用所述词语相似度计算方法计算得到词语间相似度矩阵;
(3)结合匈牙利算法,将词语当作图中的点,把两个短语的相似度计算转化为图的最大匹配权重计算;
(4)利用戴斯相似性系数(Dice similarity coefficient)计算短语间的相似度,短语A和短语B的相似度计算公式如下:
(5)基于短语间的相似性计算结果,得到基于语义信息的标签相似度矩阵N,基于语义信息的标签相似度矩阵N的表现形式如下:
其中,simT(ti,tj)表示标签ti和tj标签相似度。
进一步地,步骤S14包括:将标签相似度矩阵C和基于语义分析得到的矩阵N按照如下公式进行合并:
sim(ti,tj)=α*simU(ti,tj)+(1-α)simT(ti,tj)
其中,其中α为用于调节两个相似度值权重的系数,取值范围为[0.1,0.9];经过合并后得到最终的标签相似度矩阵M。
进一步地,步骤S15包括:对于标注了商品i但没有标注商品j的标签x,根据下式计算其被标注到商品j的可能性:
其中,Nj表示商品j上的标签总数,nt,j表示商品j中标签t出现的次数;
对矩阵中取值为0的位置,即标签未被标注到当前商品时,利用计算得到的该标签标注该商品的概率进行填充,以完成标签扩展。
进一步地,步骤S16中,所述计算商品间的相似度的具体公式如下:
其中,pit和pjt分别表示标签t标注商品i和j的概率,Tij表示商品i和j共有的标签。
步骤S17包括:所述预测初始评分的计算方法如下式:
其中,ruj表示用户-商品评分矩阵中的第u行第j列的值;
并基于所述预测初始评分构建初始评分矩阵R’。
进一步地,步骤S21包括:基于商品的属性信息构建商品的属性矩阵G,其中G为m×n的矩阵,m为商品总数,n为商品具备的所有属性的属性值个数的总和;基于所述属性矩阵和所述用户-商品评分矩阵,用户对于所有商品中第i个属性的第j个值的偏好程度Cij的计算方法如下式:
其中,Countij表示该属性值的累计出现次数,sum表示该用户评价过的商品的总数,rij用户对该属性的商品的已有评分的平均值;
基于Cij构建用户对商品的偏好矩阵Z。
一种基于标签信息和商品属性的商品推荐系统,其特征在于,所述商品推荐系统执行所述的基于标签信息和商品属性的商品推荐方法,包括:初始评分矩阵构建模块、矩阵分解模型构建模块、冷启动用户的预测评分矩阵生成模块、商品推荐模块;
所述初始评分矩阵构建模块,获取用户对商品的评分信息和商品标注信息,基于用户标注行为和语义信息计算商品标签相似度,进行标签扩展,并计算商品间相似度,利用基于商品的协同过滤算法计算得到初始评分矩阵;
所述矩阵分解模型构建模块,计算用户对商品属性的偏好信息,将偏好信息融入矩阵分解,结合所述初始评分矩阵,构建矩阵分解模型;
所述冷启动用户的预测评分矩阵生成模块,对于任一冷启动用户,基于所述优化后矩阵分解模型的参数、冷启动用户的商品属性偏好信息以及冷启动用户评分信息,得到冷启动用户的预测评分矩阵;
所述商品推荐模块,基于所述冷启动用户的预测评分矩阵,生成商品推荐列表,为冷启动用户进行商品推荐。
本发明还提出一种计算机设备,所述设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明公开的一种基于标签信息和商品属性的商品推荐方法、系统及设备。本发明基于标签信息和商品属性的矩阵分解推荐方法,将标签信息和根据商品属性构建的用户偏好信息融入矩阵分解模型中,获取最优矩阵分解模型后融入冷启动用户的偏好信息,构建最终的冷启动用户的矩阵分解模型并完成冷启动用户的商品推荐,从而从根源上解决了现有的冷启动用户推荐难、推荐准确性低、用户满意度低的问题。
与现有技术相比,具有如下优点:本发明的基于标签信息与商品属性的矩阵分解推荐方法,利用标签信息扩展用户相似关系,获取初始评分矩阵,再根据商品属性构建的用户偏好信息,并基于初始评分矩阵和用户偏好信息改进矩阵分解模型,获取最优矩阵分解模型后融入冷启动用户的偏好信息,构建最终的冷启动用户的矩阵分解模型并完成对冷启动用户的商品推荐,提升了对冷启动用户的商品推荐的准确性,进而提升了用户体验。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于标签信息与商品属性的矩阵分解推荐方法流程示意图。
图2为本发明实施例提供的基于标签信息与商品属性的矩阵分解推荐方法具体流程图。
图3为本发明实施例提供的改进的矩阵分解模型示意图。
图4为本发明实施例提供的基于标签信息与商品属性的矩阵分解推荐系统的各模块的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明一种基于标签信息和商品属性的商品推荐方法。如图1所示,基于标签信息和商品属性的商品推荐方法包括以下步骤S1至S4。同时,基于标签信息与商品属性的矩阵分解推荐方法流程图如图2所示。
S1、获取用户对商品的评分信息和商品标注信息,基于用户标注行为和语义信息计算商品标签相似度,进行标签扩展,并计算商品间相似度,利用基于商品的协同过滤算法计算得到初始评分矩阵。步骤S1具体步骤包括以下步骤S11-S17。
S11、获取用户对商品的评分信息和商品标注信息,并基于所述评分信息和商品标注信息分别构建用户-商品评分矩阵和商品-标签矩阵。
具体地,所述商品为书籍、电影、餐厅等;对于针对老年人的商品推荐,所述商品包括“线上广场舞”、“低值损耗商品”等。
进一步地,步骤S11中,构建用户-商品评分矩阵具体包括:根据用户对商品的评分记录,构造用户-商品评分矩阵R。
在步骤S11中,构建商品-标签矩阵包括:根据数据中已有的商品标注信息,对每个商品进行统计,查看每个标签是否出现。以Tik代表标签k标注商品i的情况,如果标签k被标注过商品i,则Tik取值为1,否则为0,由此得到商品-标签矩阵T。
S12、基于商品-标签矩阵和标签共现计算商品标签相似度,得到基于用户标注行为的标签相似度矩阵C。
由于每个人的语言习惯不同,不同用户对同一商品标注的不同标签可能是意思相近的。针对此类用户标注物品行为,同时也是为了降低矩阵的稀疏性,可利用标签共现的思想查找近义标签,完善标签间的相似度。标签共现是指从统计学的角度理解标签的出现情况,当一个商品上出现了多个不同的标签,就可称为这些标签共现。
步骤S12中,具体包括:结合基于邻域的思想,使用余弦相似度计算公式来计算标签之间的相似度,相应标签间相似度的计算公式如下:
标签相似度矩阵C的表现形式如下:
其中,矩阵C的大小是k×k,k表示标签的个数,矩阵中的值表示对应两个标签的相似度,值的范围是0到1,越接近1则表示两个标签间越相似。
S13、基于标签的语义信息,利用匈牙利算法和戴斯系数,计算词语和短语间的相似度,得到基于语义信息的标签相似度矩阵N。
标签具有短语或单个字词的多种表现形式,从语义入手对标签进行处理,首先就需要分析单个词语的语义,而WordNet恰好满足这样的需求。WordNet是由普林斯顿大学的多位学者以认知语言学为基础设计的词典,在词语含义处理上表现不俗,利用WordNet处理标签就可以得到标签内词语的近义词集合,进而完善标签之间的相似度。StanfordCoreNLP是斯坦福大学的研究者制作的自然语言处理工具包,它由Java编写,功能包含分词、词性标注、句法分析等。
在步骤S13中,所述词语相似度计算方法具体包括:
(1)分析词性,利用词形还原方法还原每个单词;
(2)结合WordNet获取词语w1和w2的同义词,生成同义词集合s1和s2;
(3)对集合内的每个词语检索注释,通过拆解词语、去除停用词、词性标注和词形还原操作,得到S1和S2的注释G1和G2;
(4)基于集合S1和S2、以及注释集合G1和G2,计算词语w1和w2的语义相似度,具体公式如下:
所述短语间的相似度的计算方法具体包括:
(1)判断标签是否为短语,若是,将其拆分为单词,如否,进入步骤(2);
(2)利用所述词语相似度计算方法计算得到词语间相似度矩阵;
(3)结合匈牙利算法,将词语当作图中的点,把两个短语的相似度计算转化为图的最大匹配权重计算;
(4)利用戴斯相似性系数(Dice similarity coefficient)计算短语间的相似度,短语A和短语B的相似度计算公式如下:
(5)基于短语间的相似性计算结果,得到基于语义信息的标签相似度矩阵N,基于语义信息的标签相似度矩阵N的表现形式如下:
其中,simT(ti,tj)表示标签ti和tj标签相似度。
进一步地,将短语分别对应标签ti和tj,则sim(A,B)就是基于语义信息得到的标签相似度simT(ti,tj)。先对词汇计算相似度,然后结合短语完成短语相似度计算,按这样的方法处理标签信息就得到了基于语义信息的标签相似度矩阵N。
S14、将所述基于用户标注行为的标签相似度矩阵和基于语义信息的标签相似度矩阵进行合并,得到最终的标签相似度矩阵M。
进一步地,步骤S14包括:将标签相似度矩阵c和基于语义分析得到的矩阵N按照如下公式进行合并:
sim(ti,tj)=α*simU(ti,tj)+(1-a)simT(ti,tj)
其中,其中α为用于调节两个相似度值权重的系数,取值范围为[0.1,0.9];经过合并后得到最终的标签相似度矩阵M。
α控制两种方法得到的标签相似度的合并权重,不同取值推荐准确性不同。在一实施例中,当α的取值为0.4时,MAE和RMSE的值最小,即基于语义信息的相似度对于标签的影响程度更大,该情况下推荐效果更佳。
S15、利用所述标签相似度矩阵M中标签之间相似数据,对所述商品-标签矩阵进行扩充。
具体地,步骤S15包括:对于标注了商品i但没有标注商品j的标签x,根据下式计算其被标注到商品j的可能性:
其中,Nj表示商品j上的标签总数,nt,j表示商品j中标签t出现的次数;
计算得到标签标注概率后对前文得到的项目-标签矩阵T进行扩充。具体地,对矩阵中取值为0的位置,即标签未被标注到当前商品时,利用计算得到的该标签标注该商品的概率进行填充,以完成标签扩展。
S16、利用扩充后的商品-标签矩阵,计算商品间的相似度,得到基于标签的商品相似度矩阵。
具体地,步骤S16中,所述计算商品间的相似度的具体公式如下:
其中,pit和pjt分别表示标签t标注商品i和j的概率,Tij表示商品i和j共有的标签。
S17、基于所述商品相似度矩阵和所述用户-商品评分矩阵,利用基于商品的协同过滤算法预测初始评分,得到初始评分矩阵R’。
步骤S17包括:所述预测初始评分的计算方法如下式:
其中,ruj表示用户-商品评分矩阵中的第u行第j列的值;
并基于所述预测初始评分构建初始评分矩阵R’。
在基于结合标签信息得到的项目相似度矩阵进行基于项目的协同过滤推荐中,邻近项目数量K对推荐准确性影响很大。在一具体实施例中,经过模型训练,对于协同过滤中邻近商品的数量K的参数选择,当K取22时,推荐效果最好。
S2、计算用户对商品属性的偏好信息,将偏好信息融入矩阵分解,结合所述初始评分矩阵,构建矩阵分解模型,具体步骤包括如下S21-S26:
S21、基于商品的属性信息构建商品的属性矩阵G;并基于所述属性矩阵和所述用户-商品评分矩阵,构建用户对商品的偏好矩阵Z。
具体地,步骤S21包括:基于商品的属性信息构建商品的属性矩阵G,其中G为m×n的矩阵,m为商品总数,n为商品具备的所有属性的属性值个数的总和,具体为:用aij来表示商品中第i种属性的第j个值,如果商品具备该属性值,则aij取值为1,否则取值为0,由此就可以得到商品的属性集合C,C={a11,a12,…a1m,a21,…aij},进而得到m×n的商品的属性矩阵G。
基于所述属性矩阵和所述用户-商品评分矩阵,用户对于所有商品中第i个属性的第j个值的偏好程度Cij的计算方法如下式:
其中,Countij表示该属性值的累计出现次数,sum表示该用户评价过的商品的总数,rij用户对该属性的商品的已有评分的平均值;
基于Cij构建用户对商品的偏好矩阵Z。
S22、初始化参数商品评分偏置bu、用户评分偏置bi、用户特征矩阵P、商品特征矩阵Q、用户对商品属性的偏好矩阵PF、商品属性特征矩阵QF。
S23、将商品的所述属性矩阵、所述用户对商品的偏好矩阵Z和所述初始评分矩阵融入到矩阵分解模型中,得到预测评分,所述预测评分的计算方法如下式:
其中,r′为初始评分矩阵R’中的初始预测评分,bu代表商品评分偏置,bi代表用户评分偏置,Z表示用户对商品属性的偏好矩阵,G为商品的属性矩阵。
由于不同用户的评分习惯差异,有的用户打分普遍偏高,而有的则偏低,为了使评分更加准确,在矩阵分解中加入了考虑用户和项目的偏置信息。现有技术中,预测函数和损失函数如下式所示。
其中μ代表全局平均分,bu代表项目评分偏置,bi代表用户评分偏置,一般使用梯度下降方法来求解最优值。而对于冷启动用户,由于其已有评分项目比较少,除了从评分的角度去进行偏好分析,更适合从评价过商品的自身信息入手,抽离出其自带的属性信息,结合已有的评分行为构造用户对于这些商品属性的偏好情况。
利用基于用户已评分商品的标签信息进行标签扩展,而后选择每个用户已评高分的商品的近似项目集合,用基于商品的协同过滤方法得到新的用户初始评分矩阵R’,在此基础上,结合用户对于商品的偏好信息和商品自身属性信息,对矩阵的隐类分解进行加强。如图3所示。
S24、计算所述预测评分和实际评分之间的差值,利用随机梯度下降法结合损失函数更新预测评分矩阵,所述损失函数如下式:
优化函数中更新公式如下:
bu←bu+η(eui-λbu)
bi←bi+η(eui-λbi)
其中,pu表示用户隐向量,qi表示项目隐向量、hj表示用户偏好隐向量、cg表示项目属性隐向量。
在矩阵分解中,参数λ控制着正则化项,对推荐准确性有着很大的影响。在一具体实施例中,经过模型训练,λ取值为0.2或0.05,在小数据集中,λ为0.2时推荐准确性最好,而大数据集中取0.05时最优。
S25,返回步骤S23,直至误差不再变化则结束;
S26、获得优化后矩阵分解模型的参数bu、bi、P、Q、PF、QF;
S3、对于任一冷启动用户,基于所述优化后矩阵分解模型的参数、冷启动用户的商品属性偏好信息以及冷启动用户评分信息,得到冷启动用户的预测评分矩阵;
S31、对冷启动用户的评分记录进行分析,得到冷启动用户的用户-商品评分矩阵;并基于所述冷启动用户的用户-商品评分矩阵和所述商品的属性矩阵,计算得到冷启动用户对商品的属性偏好矩阵;
S32、基于步骤S26得到的参数、所述冷启动用户对商品的属性偏好矩阵、所述冷启动用户的用户-商品评分矩阵,采取随机梯度下降方法更新所述参数,直至误差不再变化则结束;
S33、根据步骤S32得到的优化后的参数,计算冷启动用户的预测评分,生成冷启动用户的预测评分矩阵;
S4、基于所述冷启动用户的预测评分矩阵,生成商品推荐列表,为冷启动用户进行商品推荐。
具体地,根据预测评分矩阵为冷启动用户完成topN推荐。
图4是本发明实施例提供的一种基于标签信息和商品属性的商品推荐系统。如图4所示,该基于标签信息和商品属性的商品推荐系统包括初始评分矩阵构建模块、矩阵分解模型构建模块、冷启动用户的预测评分矩阵生成模块、商品推荐模块。
所述初始评分矩阵构建模块,获取用户对商品的评分信息和商品标注信息,基于用户标注行为和语义信息计算商品标签相似度,进行标签扩展,并计算商品间相似度,利用基于商品的协同过滤算法计算得到初始评分矩阵;
所述矩阵分解模型构建模块,计算用户对商品属性的偏好信息,将偏好信息融入矩阵分解,结合所述初始评分矩阵,构建矩阵分解模型;
所述冷启动用户的预测评分矩阵生成模块,对于任一冷启动用户,基于所述优化后矩阵分解模型的参数、冷启动用户的商品属性偏好信息以及冷启动用户评分信息,得到冷启动用户的预测评分矩阵;
所述商品推荐模块,基于所述冷启动用户的预测评分矩阵,生成商品推荐列表,为冷启动用户进行商品推荐。
上述基于标签信息和商品属性的商品推荐系统可以实现为一种计算机程序的形式,该计算机程序可以在计算机设备上运行。
该计算机设备可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
该非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行一种基于标签信息和商品属性的商品推荐方法。
该处理器用于提供计算和控制能力,以支撑整个计算机设备的运行。
该内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行一种基于标签信息和商品属性的商品推荐方法。
该网络接口用于与其它设备进行网络通信。本领域技术人员可以理解,上述计算机设备结构仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器用于运行存储在存储器中的计算机程序,该程序实现实施例一所述的基于标签信息和商品属性的商品推荐方法。
应当理解,在本申请实施例中,处理器可以是中央处理单元(Central ProcessingUnit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行实施例一所述的一种基于标签信息和商品属性的商品推荐方法。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种基于标签信息和商品属性的商品推荐方法,其特征在于,包括步骤:
S1、获取用户对商品的评分信息和商品标注信息,基于用户标注行为和语义信息计算商品标签相似度,进行标签扩展,并计算商品间相似度,利用基于商品的协同过滤算法计算得到初始评分矩阵;具体步骤包括:
S11、获取用户对商品的评分信息和商品标注信息,并基于所述评分信息和商品标注信息分别构建用户-商品评分矩阵和商品-标签矩阵;
S12、基于商品-标签矩阵和标签共现计算商品标签相似度,得到基于用户标注行为的标签相似度矩阵C;
S13、基于标签的语义信息,利用匈牙利算法和戴斯系数,计算词语和短语间的相似度,得到基于语义信息的标签相似度矩阵N;
S14、将所述基于用户标注行为的标签相似度矩阵和基于语义信息的标签相似度矩阵进行合并,得到最终的标签相似度矩阵M;
S15、利用所述标签相似度矩阵M中标签之间相似数据,对所述商品-标签矩阵进行扩充;
S16、利用扩充后的商品-标签矩阵,计算商品间的相似度,得到基于标签的商品相似度矩阵;
S17、基于所述商品相似度矩阵和所述用户-商品评分矩阵,利用基于商品的协同过滤算法预测初始评分,得到初始评分矩阵R’;
S2、计算用户对商品属性的偏好信息,将偏好信息融入矩阵分解,结合所述初始评分矩阵,构建矩阵分解模型,具体步骤包括:
S21、基于商品的属性信息构建商品的属性矩阵G;并基于所述属性矩阵和所述用户-商品评分矩阵,构建用户对商品的偏好矩阵Z;
S22、初始化参数商品评分偏置bu、用户评分偏置bi、用户特征矩阵P、商品特征矩阵Q、用户对商品属性的偏好矩阵PF、商品属性特征矩阵QF;
S23、将商品的所述属性矩阵、所述用户对商品的偏好矩阵Z和所述初始评分矩阵融入到矩阵分解模型中,得到预测评分,所述预测评分的计算方法如下式:
其中,r′为初始评分矩阵R’中的初始预测评分,bu代表商品评分偏置,bi代表用户评分偏置,Z表示用户对商品属性的偏好矩阵,G为商品的属性矩阵;
S24、计算所述预测评分和实际评分之间的差值,利用随机梯度下降法结合损失函数更新预测评分矩阵,所述损失函数如下式:
优化函数中更新公式如下:
bu←bu+η(eui-λbu)
bi←bi+η(eui-λbi)
其中,pu表示用户隐向量,qi表示项目隐向量、hj表示用户偏好隐向量、cg表示项目属性隐向量;
S25,返回步骤S23,直至误差不再变化则结束;
S26、获得优化后矩阵分解模型的参数bu、bi、P、Q、PF、QF;
S3、对于任一冷启动用户,基于所述优化后矩阵分解模型的参数、冷启动用户的商品属性偏好信息以及冷启动用户评分信息,得到冷启动用户的预测评分矩阵;
S31、对冷启动用户的评分记录进行分析,得到冷启动用户的用户-商品评分矩阵;并基于所述冷启动用户的用户-商品评分矩阵和所述商品的属性矩阵,计算得到冷启动用户对商品的属性偏好矩阵;
S32、基于步骤S26得到的参数、所述冷启动用户对商品的属性偏好矩阵、所述冷启动用户的用户-商品评分矩阵,采取随机梯度下降方法更新所述参数,直至误差不再变化则结束;
S33、根据步骤S32得到的优化后的参数,计算冷启动用户的预测评分,生成冷启动用户的预测评分矩阵;
S4、基于所述冷启动用户的预测评分矩阵,生成商品推荐列表,为冷启动用户进行商品推荐。
3.根据权利要求1所述的方法,其特征在于,在步骤S13中,所述词语相似度计算方法具体包括:
(1)分析词性,利用词形还原方法还原每个单词;
(2)结合WordNet获取词语w1和w2的同义词,生成同义词集合s1和s2;
(3)对集合内的每个词语检索注释,通过拆解词语、去除停用词、词性标注和词形还原操作,得到S1和S2的注释G1和G2;
(4)基于集合S1和S2、以及注释集合G1和G2,计算词语w1和w2的语义相似度,具体公式如下:
所述短语间的相似度的计算方法具体包括:
(1)判断标签是否为短语,若是,将其拆分为单词,如否,进入步骤(2);
(2)利用所述词语相似度计算方法计算得到词语间相似度矩阵;
(3)结合匈牙利算法,将词语当作图中的点,把两个短语的相似度计算转化为图的最大匹配权重计算;
(4)利用戴斯相似性系数(Dice similarity coefficient)计算短语间的相似度,短语A和短语B的相似度计算公式如下:
(5)基于短语间的相似性计算结果,得到基于语义信息的标签相似度矩阵N,基于语义信息的标签相似度矩阵N的表现形式如下:
其中,simT(ti,tj)表示标签ti和tj标签相似度。
4.根据权利要求1所述的方法,其特征在于,步骤S14包括:将标签相似度矩阵C和基于语义分析得到的矩阵N按照如下公式进行合并:
sim(ti,tj)=α*simU(ti,tj)+(1-α)simT(ti,tj)
其中,其中α为用于调节两个相似度值权重的系数,取值范围为[0.1,0.9];经过合并后得到最终的标签相似度矩阵M。
8.一种基于标签信息和商品属性的商品推荐系统,其特征在于,所述商品推荐系统执行如权利要求1所述的基于标签信息和商品属性的商品推荐方法,包括:初始评分矩阵构建模块、矩阵分解模型构建模块、冷启动用户的预测评分矩阵生成模块、商品推荐模块;
所述初始评分矩阵构建模块,获取用户对商品的评分信息和商品标注信息,基于用户标注行为和语义信息计算商品标签相似度,进行标签扩展,并计算商品间相似度,利用基于商品的协同过滤算法计算得到初始评分矩阵;
所述矩阵分解模型构建模块,计算用户对商品属性的偏好信息,将偏好信息融入矩阵分解,结合所述初始评分矩阵,构建矩阵分解模型;
所述冷启动用户的预测评分矩阵生成模块,对于任一冷启动用户,基于所述优化后矩阵分解模型的参数、冷启动用户的商品属性偏好信息以及冷启动用户评分信息,得到冷启动用户的预测评分矩阵;
所述商品推荐模块,基于所述冷启动用户的预测评分矩阵,生成商品推荐列表,为冷启动用户进行商品推荐。
9.一种计算机设备,其特征在于,所述设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210527650.6A CN114969520A (zh) | 2022-05-16 | 2022-05-16 | 基于标签信息和商品属性的商品推荐方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210527650.6A CN114969520A (zh) | 2022-05-16 | 2022-05-16 | 基于标签信息和商品属性的商品推荐方法、系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114969520A true CN114969520A (zh) | 2022-08-30 |
Family
ID=82982738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210527650.6A Withdrawn CN114969520A (zh) | 2022-05-16 | 2022-05-16 | 基于标签信息和商品属性的商品推荐方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969520A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051241A (zh) * | 2023-02-01 | 2023-05-02 | 浙江红太阳企业管理咨询有限公司 | 一种基于大数据的电商管理平台 |
CN113254773B (zh) * | 2021-06-02 | 2023-07-07 | 南京邮电大学 | 一种基于预测值分析的新项目推荐方法 |
CN116596640A (zh) * | 2023-07-19 | 2023-08-15 | 国网山东省电力公司营销服务中心(计量中心) | 电力零售电费套餐的推荐方法、系统、设备及存储介质 |
CN117710020A (zh) * | 2024-02-06 | 2024-03-15 | 湖南惟客科技集团有限公司 | 一种基于大数据的用户喜好的分析方法 |
-
2022
- 2022-05-16 CN CN202210527650.6A patent/CN114969520A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254773B (zh) * | 2021-06-02 | 2023-07-07 | 南京邮电大学 | 一种基于预测值分析的新项目推荐方法 |
CN116051241A (zh) * | 2023-02-01 | 2023-05-02 | 浙江红太阳企业管理咨询有限公司 | 一种基于大数据的电商管理平台 |
CN116051241B (zh) * | 2023-02-01 | 2023-12-12 | 变购(武汉)物联网科技有限公司 | 一种基于大数据的电商管理平台 |
CN116596640A (zh) * | 2023-07-19 | 2023-08-15 | 国网山东省电力公司营销服务中心(计量中心) | 电力零售电费套餐的推荐方法、系统、设备及存储介质 |
CN117710020A (zh) * | 2024-02-06 | 2024-03-15 | 湖南惟客科技集团有限公司 | 一种基于大数据的用户喜好的分析方法 |
CN117710020B (zh) * | 2024-02-06 | 2024-05-17 | 湖南惟客科技集团有限公司 | 一种基于大数据的用户喜好的分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yasen et al. | Movies reviews sentiment analysis and classification | |
CN110717106B (zh) | 信息推送的方法及装置 | |
KR101778679B1 (ko) | 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템 | |
CN114969520A (zh) | 基于标签信息和商品属性的商品推荐方法、系统及设备 | |
Peng et al. | Information extraction from research papers using conditional random fields | |
US8027977B2 (en) | Recommending content using discriminatively trained document similarity | |
WO2018049960A1 (zh) | 一种为文本信息匹配资源的方法及装置 | |
US8538898B2 (en) | Interactive framework for name disambiguation | |
US20180158078A1 (en) | Computer device and method for predicting market demand of commodities | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN107357793B (zh) | 信息推荐方法和装置 | |
CN109948121A (zh) | 文章相似度挖掘方法、系统、设备及存储介质 | |
US9141966B2 (en) | Opinion aggregation system | |
JP2002230021A (ja) | 情報検索装置及び情報検索方法並びに記憶媒体 | |
CN105988990A (zh) | 用于汉语中的零指代消解的装置和方法以及模型训练方法 | |
CN109359180B (zh) | 用户画像生成方法、装置、电子设备及计算机可读介质 | |
US11074595B2 (en) | Predicting brand personality using textual content | |
AU2018226420B2 (en) | Voice assisted intelligent searching in mobile documents | |
US20220036003A1 (en) | Methods and systems for automated detection of personal information using neural networks | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN112990973A (zh) | 线上店铺画像构建方法及系统 | |
CN113032676A (zh) | 基于微反馈的推荐方法和系统 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN113988057A (zh) | 基于概念抽取的标题生成方法、装置、设备及介质 | |
Nugraha et al. | Chatbot-Based Movie Recommender System Using POS Tagging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220830 |