CN112036979A - 评分预测方法、推荐方法、处理装置及存储介质 - Google Patents

评分预测方法、推荐方法、处理装置及存储介质 Download PDF

Info

Publication number
CN112036979A
CN112036979A CN202010869742.3A CN202010869742A CN112036979A CN 112036979 A CN112036979 A CN 112036979A CN 202010869742 A CN202010869742 A CN 202010869742A CN 112036979 A CN112036979 A CN 112036979A
Authority
CN
China
Prior art keywords
user
users
items
scoring
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010869742.3A
Other languages
English (en)
Inventor
过弋
钱梦薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN202010869742.3A priority Critical patent/CN112036979A/zh
Publication of CN112036979A publication Critical patent/CN112036979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及数据处理技术领域,公开了一种评分预测方法包括:获取多个用户对多个项目的评分,所述多个用户对多个项目的评分包括:所述目标用户对至少一个所述非目标项目的评分、以及至少一个所述非目标用户对所述目标项目的评分;根据所述多个用户对多个项目的评分生成距离矩阵,其中,所述距离矩阵包括根据所述多个用户对多个项目的评分计算得到的所述多个用户与所述多个项目之间的距离;将所述距离矩阵输入预先训练好的深度神经网络中得到预测评分矩阵,所述预测评分矩阵至少包括:所述目标用户对所述目标项目的预测评分。本发明中评分预测方法、推荐方法、处理装置及存储介质,能够提高模型预测评分的准确性。

Description

评分预测方法、推荐方法、处理装置及存储介质
技术领域
本发明实施例涉及数据处理技术领域,特别涉及一种评分预测方法、推荐方法、处理装置及存储介质。
背景技术
随着信息技术的不断发展,人们工作生活所需要的各种服务和产品基本都能在互联网上得到满足。随着这种趋势的不断演变,互联网所提供的服务和产品的种类也越来越多,给人们带来更多选择的同时,也催促着信息过载现象的产生。在信息过载时代,互联网用户会发现很难从各种各样的产品和服务中做出选择。在这种情况下,推荐系统应运而生,并随着人们的需求不断发展提升。而评分预测不仅能给用户推荐其可能感兴趣的物品,也能让提供物品的电商或其他服务平台更精准的了解不同物品在用户中的评分口碑,捕捉大众兴趣风向,以此提升平台服务质量。
然而,发明人发现现有技术中至少存在如下问题:现有模型预测评分方法在历史数据稀疏的情况下,得到的预测评分的准确性较低。
发明内容
本发明实施方式的目的在于提供一种评分预测方法、推荐方法、处理装置及存储介质,能够提高模型预测评分的准确性。
为解决上述技术问题,本发明的实施方式提供了一种评分预测方法,包括:获取多个用户对多个项目的评分,其中,所述多个用户包括目标用户和非目标用户,所述多个项目包括:目标项目和非目标项目;所述多个用户对多个项目的评分包括:所述目标用户对至少一个所述非目标项目的评分、以及至少一个所述非目标用户对所述目标项目的评分;根据所述多个用户对多个项目的评分生成距离矩阵,其中,所述距离矩阵包括根据所述多个用户对多个项目的评分计算得到的所述多个用户与所述多个项目之间的距离;将所述距离矩阵输入预先训练好的深度神经网络中得到预测评分矩阵,所述预测评分矩阵至少包括:所述目标用户对所述目标项目的预测评分。
另外,所述根据所述多个用户对多个项目的评分生成距离矩阵,包括:获取预设评分上限值;利用所述预设评分上限值减去每个所述评分,得到所述多个用户与所述多个项目之间的距离以形成所述距离矩阵。
另外,所述预先训练好的深度神经网络包括:第一神经网络和第二神经网络;所述将所述距离矩阵输入预先训练好的深度神经网络中得到预测评分矩阵,包括:将所述距离矩阵中每个所述用户与所有项目的距离输入所述第一神经网络得到每个所述用户的预测特征向量,并将所述距离矩阵中每个所述项目与所有用户的距离输入所述第二神经网络得到每个所述项目的预测特征向量;根据每个所述用户的预测特征向量以及每个所述项目的预测特征向量,计算每个所述用户与每个所述项目的预测距离;根据每个所述用户与每个所述项目的预测距离得到所述预测评分矩阵。
另外,所述计算每个所述用户与每个所述项目的预测距离包括:根据每个所述用户的预测特征向量以及每个所述项目的预测特征向量得到初始距离;将所述初始距离加上所述用户的偏置项、所述项目的偏置项以及全局偏置项得到所述预测距离;其中,所述用户的偏置项以及所述项目的偏置项通过训练得到,所述全局偏置项为所述距离矩阵中所有距离的均值。
另外,所述预先训练好的深度神经网络的损失函数值L通过以下公式计算:
Figure BDA0002650599860000021
其中,u表示所述用户、i表示所述项目、Yui表示所述用户与所述项目的实际距离、Y’表示所述用户与所述项目的预测距离、Dmax表示所述距离矩阵中所有距离的最大值、α和N为常数。
另外,所述用户的预测特征向量和所述项目的预测特征向量均为多维向量;在训练所述深度神经网络的过程中,丢弃所述用户的预测特征向量以及所述项目的预测特征向量中部分维度的向量值。
另外,所述项目为微博话题,所述评分为用户对所述微博话题的兴趣度,其中,所述兴趣度为所述微博话题下所述用户发布的微博总数、与所述微博话题下发表微博数目最多的用户发表的最大微博总数的比值。
本发明的实施方式还提供了一种处理装置,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述评分预测方法;或者,执行上述推荐方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述评分预测方法;或者,实现上述推荐方法。
本发明实施方式相对于现有技术而言提供了一种评分预测方法,通过获取多个用户对多个项目的评分,其中,多个用户包括目标用户和非目标用户,多个项目包括:目标项目和非目标项目;多个用户对多个项目的评分包括:目标用户对至少一个非目标项目的评分、以及至少一个非目标用户对目标项目的评分。之后,根据多个用户对多个项目的评分生成距离矩阵,其中,距离矩阵包括根据多个用户对多个项目的评分计算得到的多个用户与多个项目之间的距离。当获取到的多个用户对多个项目的评分数据较少时,由于将多个用户对多个项目的评分转换为多个用户与多个项目之间的距离后,所得到的距离矩阵中的数据更加稠密,如此,利用上述距离矩阵输入预先训练好的深度神经网络中得到的预测评分矩阵中,目标用户对目标项目的评分预测结果更加准确。且由于本实施例的评分预测方法对于评分数据的数据量要求不高,因此,不论是针对数据密集的场景,还是数据稀疏的场景都能够达到较为准确的预测结果,对于不同场景下预测结果的稳定性较佳,通用性较好。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式的评分预测方法中的流程示意图;
图2是根据本发明第二实施方式的推荐方法中的流程示意图;
图3是根据本发明第三实施方式的处理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种评分预测方法,本实施方式的核心在于通过获取多个用户对多个项目的评分,其中,多个用户包括目标用户和非目标用户,多个项目包括:目标项目和非目标项目;多个用户对多个项目的评分包括:目标用户对至少一个非目标项目的评分、以及至少一个非目标用户对目标项目的评分。之后,根据多个用户对多个项目的评分生成距离矩阵,其中,距离矩阵包括根据多个用户对多个项目的评分计算得到的多个用户与多个项目之间的距离。当获取到的多个用户对多个项目的评分数据较少时,由于将多个用户对多个项目的评分转换为多个用户与多个项目之间的距离后,所得到的距离矩阵中的数据更加稠密,如此,利用上述距离矩阵输入预先训练好的深度神经网络中得到的预测评分矩阵中,目标用户对目标项目的评分预测结果更加准确。且由于本实施例的评分预测方法对于评分数据的数据量要求不高,因此,不论是针对数据密集的场景,还是数据稀疏的场景都能够达到较为准确的预测结果,对于不同场景下预测结果的稳定性较佳,通用性较好。
下面对本实施方式的评分预测方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施方式中的评分预测方法的流程示意图如图1所示:
步骤101:获取多个用户对多个项目的评分。
具体地说,多个用户包括目标用户和非目标用户,多个项目包括:目标项目和非目标项目;多个用户对多个项目的评分包括:目标用户对至少一个非目标项目的评分、以及至少一个非目标用户对目标项目的评分。本实施例中项目可以为食品、物品、应用APP等可以由用户进行打分的事物,也可以为新闻、头条、微博话题等用户可以评论的事件。当项目为食品、物品、应用APP等可以由用户进行打分的事物时,评分可直接根据用户的打分来确定;当项目为新闻、头条、微博话题等用户可以评论的事件时,评分可根据用户对该事件的评论状况来进行折算。
步骤102:根据多个用户对多个项目的评分生成距离矩阵,其中,距离矩阵包括根据多个用户对多个项目的评分计算得到的多个用户与多个项目之间的距离。
首先,对获取到的多个用户对多个项目的评分进行预处理,为所有的用户以及所有的项目进行重新编号,例如:重新编号后的用户包括:用户1、用户2、用户3以及用户4;重新编号后的项目包括:项目1、项目2、项目3以及项目4。
之后,分别将用户和项目作为矩阵的行和列构成评分矩阵,记评分矩阵为RM×N,其中M是用户的总数目,N是项目的总数,评分矩阵中的数据Rij表示用户i对项目j的评分,其中,可以将用户作为矩阵的行,将项目作为矩阵的列;也可将用户作为矩阵的列,将项目作为矩阵的行,本实施方式中虽然以用户作为矩阵的行,将项目作为矩阵的列进行示例性说明,但不以此为限。
假设获取到的多个用户对多个项目的评分如下表1所示:
表1
Figure BDA0002650599860000051
其中,用户对项目的评分数据为0表示该用户并未对该项目进行评分。根据上述多个用户对多个项目的评分数据可以得到如下公式1所示的评分矩阵R:
Figure BDA0002650599860000052
最后,将评分矩阵转化为距离矩阵D。具体的,根据多个用户对多个项目的评分计算得到多个用户与多个项目之间的距离,距离矩阵D中的数据Dij表示用户i与项目j之间的距离。
其中,根据多个用户对多个项目的评分生成距离矩阵包括:获取预设评分上限值;利用预设评分上限值减去每个评分,得到多个用户与多个项目之间的距离以形成距离矩阵。也就是说,用户对项目的评分具有统一的一个预设评分上限值Rmax,预设评分上限值Rmax减去评分Rij便可得到用户与项目之间的距离。例如:以预设评分上限值Rmax=5为例进行说明,根据公式1所示的评分矩阵R所得到的距离矩阵D如下公式(2)所示:
Figure BDA0002650599860000053
从上述距离矩阵D和评分矩阵R可以看出,在将由于将多个用户对多个项目的评分转换为多个用户与多个项目之间的距离后,所得到的距离矩阵中的数据更加稠密。
步骤103:将距离矩阵输入预先训练好的深度神经网络中得到预测评分矩阵,预测评分矩阵至少包括:目标用户对目标项目的预测评分。
由于将多个用户对多个项目的评分转换为多个用户与多个项目之间的距离后,所得到的距离矩阵D中的数据更加稠密,如此,利用上述距离矩阵D输入预先训练好的深度神经网络中得到的预测评分矩阵中,目标用户对目标项目的评分预测结果更加准确。且由于本实施例的评分预测方法对于评分数据的数据量要求不高,因此,不论是针对数据密集的场景,还是数据稀疏的场景都能够达到较为准确的预测结果,对于不同场景下预测结果的稳定性较佳,通用性较好。
本实施例中预先训练好的深度神经网络包括:第一神经网络和第二神经网络;将距离矩阵输入预先训练好的深度神经网络中得到预测评分矩阵,包括:将距离矩阵中每个用户与所有项目的距离输入第一神经网络得到每个用户的预测特征向量,并将距离矩阵中每个项目与所有用户的距离输入第二神经网络得到每个项目的预测特征向量;根据每个用户的预测特征向量以及每个项目的预测特征向量,计算每个用户与每个项目的预测距离;根据每个用户与每个项目的预测距离得到预测评分矩阵。
具体地说,预先训练好的深度神经网络包括:第一神经网络和第二神经网络。在一个k维的欧氏空间内,两个点u(用户)和v(项目)之间的距离D(u,v)如下公式(3)所示:
Figure BDA0002650599860000061
其中,D(u,v)可以表示为两个k维向量(用户的预测特征向量
Figure BDA0002650599860000062
项目的预测特征向量
Figure BDA0002650599860000063
之间的距离。
第一神经网络的任务就是在这个k维的空间内找到每个用户的预测特征向量
Figure BDA0002650599860000064
第二神经网络的任务就是在这个k维的空间内找到每个项目的预测特征向量
Figure BDA0002650599860000065
且用户的预测特征向量
Figure BDA0002650599860000066
与项目的预测特征向量
Figure BDA0002650599860000067
所得到的预测距离D(u,v)与用户与项目之间的实际距离值相近。之后,根据计算得到的每个用户与每个项目的预测距离D(u,v)来得到预测评分矩阵,具体的,利用预设评分上限值Rmax减去预测距离D(u,v)便可得到每个用户对每个项目的预测评分,从而形成预测评分矩阵,其中,预测评分矩阵至少包括:目标用户对目标项目的预测评分,从而实现对用户未交互过的项目进行预测评分。
值得说明的是,本实施方式中第一神经网络和第二神经网络均为全连接神经网络,且所使用的全连接神经网络可以相同。两个神经网络均包括N层,且每层网络层的结构相同,其中,第一网络层的输出向量
Figure BDA0002650599860000068
如下公式(4)所示:
Figure BDA0002650599860000071
其中,W1表示第一网络层对应的权重矩阵,
Figure BDA0002650599860000072
表示该第一网络层的输入向量。
第i层网络层的输出向量
Figure BDA0002650599860000073
如下公式(4)所示:
Figure BDA0002650599860000074
其中,Wi-1表示第i-1层网络层对应的权重矩阵,
Figure BDA0002650599860000075
表示第i-1层网络层的输出向量,bi-1表示第i-1层网络层的偏置项,i=1~N,N为常数。本实施方式中激活函数f(x)采用ReLU(取最大值)函数,即就是说,f(x)=max(0,x)。
本实施例中将距离矩阵D按行输入第一神经网络中便可得到用户的预测特征向量
Figure BDA0002650599860000076
用户的预测特征向量
Figure BDA0002650599860000077
的表达式如下公式(6)所示:
Figure BDA0002650599860000078
其中,Di为距离矩阵D中表示用户的行矩阵,Wu1表示用户u1在第一层网络层中的权重矩阵。
将距离矩阵D按列输入第二神经网络中得到项目的预测特征向量
Figure BDA0002650599860000079
项目的预测特征向量
Figure BDA00026505998600000710
的表达式如下公式(7)所示:
Figure BDA00026505998600000711
其中,
Figure BDA00026505998600000712
为距离矩阵D中表示项目的行矩阵,Wv1表示项目v1在第一层网络层中的权重矩阵。
另外,计算每个用户与每个项目的预测距离包括:根据每个用户的预测特征向量以及每个项目的预测特征向量得到初始距离;将初始距离加上用户的偏置项、项目的偏置项以及全局偏置项得到预测距离。其中,用户的偏置项以及项目的偏置项通过训练得到,全局偏置项为距离矩阵中所有距离的均值。
具体地说,考虑到不同用户的打分习惯不同,有的用户倾向于给高分,而有的倾向于给低分。类似地,不同的项目得到的评分也有一定偏差,有的项目得分偏高,有的项目得分偏低。因此,为了使预测的距离值Y'更接近实际情况,在用户u与项目v的距离公式中加入三个偏置因子用户的偏置项bu、项目的偏置项bv和全局偏置项μ,具体的预测的距离值Y'如下公式(8)所示:
Y'=||Pu-Qv||2+bu+bv+μ (8)
值得说明的是,本实施例中在训练深度神经网络的过程中先获取评分样本集,并形成上述评分矩阵,之后将评分矩转换为距离矩阵,并将距离矩阵按照上述方式输入第一神经网络和第二神经网络中得到用户的预测特征向量
Figure BDA0002650599860000081
和项目的预测特征向量
Figure BDA0002650599860000082
之后,根据用户的预测特征向量
Figure BDA0002650599860000083
和项目的预测特征向量
Figure BDA0002650599860000084
计算预测的距离值Y',并将预测的距离值Y'与用户u和项目v之间的实际距离值Y输入损失函数L中来计算损失值,将多个评分样本集输入该深度神经网络中以使得损失值降到预设值,该预设值可以由用户根据实际需要自行设置。
其中,预先训练好的深度神经网络的损失函数值L通过以下公式(9)计算:
Figure BDA0002650599860000085
其中,u表示用户、i表示项目、Yui表示所述用户与所述项目的实际距离、Y’表示所述用户与所述项目的预测距离、Dmax表示所述距离矩阵中所有距离的最大值、α和N为常数,其中,α用来控制置信度的大小,发明人在实验中α取值为0.1。
值得说明的是,上述深度神将网络中的每层网络的权重值、用户的偏置项bu、项目的偏置项bv和全局偏置项μ均通过模型训练得到。
较佳地,本实施例中用户的预测特征向量和项目的预测特征向量均为多维向量;在训练深度神经网络的过程中,为避免过拟合现象,会丢弃用户的预测特征向量以及项目的预测特征向量中部分维度的向量值。
可实现地,本实施例中的评分预测方法可以用于预测用户对应某一事件的兴趣度。例如:项目可以为微博话题j,评分为用户i对微博话题j的兴趣度,其中,兴趣度Qij为微博话题j下用户发布的微博总数N、与微博话题j下发表微博数目最多的用户发表的最大微博总数Nmax的比值,具体的兴趣度的计算方式如下公式(10)所示:
Figure BDA0002650599860000086
以下为发明人的部分实验结果:
本实验采用了三个公开数据集和一个从微博爬取的数据集。三个公开数据集分别是MovieLens 100K、MovieLens 1M和Amazon数据集中的子数据集Jazz。为了提高模型的实用性和社会价值,本发明结合新型冠状病毒突然在全球范围内突然爆发,使人们的生活进入隔离状态,只能依靠各大社交平台获取信息的现状,选取了用户群体较大、话题热度较高的新浪微博作为数据来源。考虑到微博话题的时效性,历史话题的时间跨度不宜太大,因此爬取了从2020年4月6日到2020年4月12日,微博热搜话题榜上与疫情相关的23个话题下用户的所有微博,共一万余条,基于用户在部分话题上的参与度来预测该用户可能对其他话题产生的兴趣度。
本发明的评分预测结果在四个数据集上均优于以下五个模型:
MF(Matrix Factorization):最经典的矩阵分解算法。
NNMF(Neural Network Matrix Factorization):用多层的神经网络取代了传统矩阵分解算法的点积运算,为用户和物品分别生成一个隐向量。
NRR(Neural Rating Regression):用神经网络回归来获取用户和物品之间的交互关系。
AutoRec(User-bsed AutoRec):基于用户的自动编码器,将已有的用户评分投射到一个低维度的潜在空间,然后在输出空间中重构该用户评分矩阵,从而预测出丢失的评分。
MetricF(Metric Factorization):将传统矩阵分解算法对具体评分值进行分解的思路,转变为对距离矩阵的分解,为每个用户和物品在低维空间内生成一个点,以此计算用户与物品之间的距离。
具体的实验结果数值如表2所示:
表2不同模型的评分预测实验结果对比
Figure BDA0002650599860000091
从上述实验结果可以看出相比于其他模型进行评分的方式来说,利用本实施例中预先训练好的深度神经网络进行评分预测所得到的结果与实际结果最为接近,预测效果最佳。
与现有技术相比,本发明实施方式由于将多个用户对多个项目的评分转换为多个用户与多个项目之间的距离后,所得到的距离矩阵中的数据更加稠密,如此,利用上述距离矩阵输入预先训练好的深度神经网络中得到的预测评分矩阵中,目标用户对目标项目的评分预测结果更加准确。且由于本实施例的评分预测方法对于评分数据的数据量要求不高,因此,不论是针对数据密集的场景,还是数据稀疏的场景都能够达到较为准确的预测结果,对于不同场景下预测结果的稳定性较佳,通用性较好。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明的第二实施方式涉及一种推荐方法。考虑到目前的推荐技术需要依赖于物品或用户的相关信息,模型的可扩展性和通用性较差,且一些辅助信息难以直接获取。
推荐系统目前的主流算法主要包括:传统推荐算法,例如基于内容的过滤算法、协同过滤算法和混合算法,以及一些改进算法。这些算法也被广泛地实验在不同领域的公开数据集和实际项目数据集上,推荐效果均有所提升,但仍存在以下问题:
基于内容的过滤算法虽然保持了用户间的独立性,能够通过每个用户的兴趣有针对性地推荐物品,但存在着冷启动和推荐物品缺乏新颖性的问题;
协同过滤算法需要大量的历史数据,因此,很多模型在冷启动和数据稀疏的情况下无法保持稳定的预测和推荐效果;
混合算法虽然糅合了两种或多种推荐算法,能够取长补短,但需要更丰富的用户和物品数据作为模型捕捉用户兴趣的支撑。但随着数据集的类别变化,需要重新获取相关外部数据,考虑到不同物品的种类繁杂,外部数据匹配难度高,因此很难收集每个物品的详细信息。
针对于这些现有推荐算法存在的问题,本实施例中提出了一种基于上述评分预测方法的新的推荐算法。本实施方式中的推荐方法的流程示意图如图2所示,具体包括:
步骤201:通过第一实施方式中的评分预测方法得到预测评分矩阵。
由于第一实施方式中对于评分预测方法以及如何得到预测评分矩阵进行了详细说明,因此,本实施例中对于步骤201不做具体说明,可参考第一实施方式中的内容。
步骤202:根据预测评分矩阵中目标用户对目标项目的预测评分确定是否为目标用户推荐所述目标项目。
具体的说,由于预测评分矩阵中的数据表征了用户对该项目的关心程度,该数据越大,表明目标用户对于该未交互过的项目越关心。因此,可根据该预测评分矩阵中数据值的大小,来确定是否要为目标用户推荐其并未交互过的目标项目。
可将用户对该项目的关心程度进行划分,并设置预设阈值,当用户对项目的评分达到该预设阈值时,便认为该用户对该项目较为关心,即向该用户推荐该项目;当用户对项目的评分低于该预设阈值时,便认为该用户对该项目并不关心,不向用户推荐该项目。其中,预设阈值可根据实际情况自行设置,本实施方式中不做具体限定。
与现有技术相比,本发明实施方式中提供的推荐算法,只依靠已有的用户对项目的评分,来预测用户对未产生交互的项目的评分,以此作为给用户进行物品推荐的依据,从而满足不同用户的个性化需求。且本发明不仅在电影、电商等公开数据集上能够有效预测用户评分,在微博数据集上也能较为准确地预测用户对不同热搜话题的兴趣度,帮助用户第一时间了解话题最新动态,良好的体现了模型的实用性和时效性。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种处理装置,如图3所示,包括至少一个处理器301;以及,与至少一个处理器301通信连接的存储器302;其中,存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行上述评分预测方法;或者,执行上述推荐方法。
其中,存储器302和处理器301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器301。
处理器301负责管理总线和通常的处理,还可以提供各种功能,包括定时、外围接口、电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。
本发明的第四实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述评分预测方法;或者,执行上述推荐方法。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种评分预测方法,其特征在于,包括:
获取多个用户对多个项目的评分,其中,所述多个用户包括目标用户和非目标用户,所述多个项目包括:目标项目和非目标项目;所述多个用户对多个项目的评分包括:所述目标用户对至少一个所述非目标项目的评分、以及至少一个所述非目标用户对所述目标项目的评分;
根据所述多个用户对多个项目的评分生成距离矩阵,其中,所述距离矩阵包括根据所述多个用户对多个项目的评分计算得到的所述多个用户与所述多个项目之间的距离;
将所述距离矩阵输入预先训练好的深度神经网络中得到预测评分矩阵,所述预测评分矩阵至少包括:所述目标用户对所述目标项目的预测评分。
2.根据权利要求1所述的评分预测方法,其特征在于,所述根据所述多个用户对多个项目的评分生成距离矩阵,包括:
获取预设评分上限值;
利用所述预设评分上限值减去每个所述评分,得到所述多个用户与所述多个项目之间的距离以形成所述距离矩阵。
3.根据权利要求1所述的评分预测方法,其特征在于,所述预先训练好的深度神经网络包括:第一神经网络和第二神经网络;
所述将所述距离矩阵输入预先训练好的深度神经网络中得到预测评分矩阵,包括:
将所述距离矩阵中每个所述用户与所有项目的距离输入所述第一神经网络得到每个所述用户的预测特征向量,并将所述距离矩阵中每个所述项目与所有用户的距离输入所述第二神经网络得到每个所述项目的预测特征向量;
根据每个所述用户的预测特征向量以及每个所述项目的预测特征向量,计算每个所述用户与每个所述项目的预测距离;
根据每个所述用户与每个所述项目的预测距离得到所述预测评分矩阵。
4.根据权利要求3所述的评分预测方法,其特征在于,所述计算每个所述用户与每个所述项目的预测距离包括:
根据每个所述用户的预测特征向量以及每个所述项目的预测特征向量得到初始距离;
将所述初始距离加上所述用户的偏置项、所述项目的偏置项以及全局偏置项得到所述预测距离;
其中,所述用户的偏置项以及所述项目的偏置项通过训练得到,所述全局偏置项为所述距离矩阵中所有距离的均值。
5.根据权利要求3所述的评分预测方法,其特征在于,所述预先训练好的深度神经网络的损失函数值L通过以下公式计算:
Figure FDA0002650599850000021
其中,u表示所述用户、i表示所述项目、Yui表示所述用户与所述项目的实际距离、Y’表示所述用户与所述项目的预测距离、Dmax表示所述距离矩阵中所有距离的最大值、α和N为常数。
6.根据权利要求3所述的评分预测方法,其特征在于,所述用户的预测特征向量和所述项目的预测特征向量均为多维向量;
在训练所述深度神经网络的过程中,丢弃所述用户的预测特征向量以及所述项目的预测特征向量中部分维度的向量值。
7.根据权利要求1所述的评分预测方法,其特征在于,所述项目为微博话题,所述评分为用户对所述微博话题的兴趣度,其中,所述兴趣度为所述微博话题下所述用户发布的微博总数、与所述微博话题下发表微博数目最多的用户发表的最大微博总数的比值。
8.一种推荐方法,其特征在于,通过上述权利要求1至7中任一项所述的评分预测方法得到所述预测评分矩阵;
根据所述预测评分矩阵中所述目标用户对所述目标项目的预测评分确定是否为所述目标用户推荐所述目标项目。
9.一种处理装置,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的评分预测方法;或者,执行如权利要求8中所述的推荐方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的评分预测方法;或者,实现如权利要求8中所述的推荐方法。
CN202010869742.3A 2020-08-26 2020-08-26 评分预测方法、推荐方法、处理装置及存储介质 Pending CN112036979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010869742.3A CN112036979A (zh) 2020-08-26 2020-08-26 评分预测方法、推荐方法、处理装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010869742.3A CN112036979A (zh) 2020-08-26 2020-08-26 评分预测方法、推荐方法、处理装置及存储介质

Publications (1)

Publication Number Publication Date
CN112036979A true CN112036979A (zh) 2020-12-04

Family

ID=73580958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010869742.3A Pending CN112036979A (zh) 2020-08-26 2020-08-26 评分预测方法、推荐方法、处理装置及存储介质

Country Status (1)

Country Link
CN (1) CN112036979A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836437A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于帖子推荐的方法、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924384A (zh) * 2015-03-11 2018-04-17 阿雅斯迪公司 用于使用预测学习模型预测结果的系统和方法
CN109241454A (zh) * 2018-07-18 2019-01-18 广东工业大学 一种将社交网络和图像内容融合的兴趣点推荐方法
US20190318227A1 (en) * 2018-04-13 2019-10-17 Fabula Al Limited Recommendation system and method for estimating the elements of a multi-dimensional tensor on geometric domains from partial observations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924384A (zh) * 2015-03-11 2018-04-17 阿雅斯迪公司 用于使用预测学习模型预测结果的系统和方法
US20190318227A1 (en) * 2018-04-13 2019-10-17 Fabula Al Limited Recommendation system and method for estimating the elements of a multi-dimensional tensor on geometric domains from partial observations
CN109241454A (zh) * 2018-07-18 2019-01-18 广东工业大学 一种将社交网络和图像内容融合的兴趣点推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUAI ZHANG 等: "Metric Factorization: Recommendation beyond Matrix Factorization", 《ARXIV:1802.04606V2》, pages 1 - 12 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836437A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于帖子推荐的方法、电子设备和存储介质
CN113836437B (zh) * 2021-09-14 2024-01-30 上海任意门科技有限公司 用于帖子推荐的方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Steck Calibrated recommendations
CN110275964B (zh) 基于知识图谱与循环神经网络的推荐模型
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN107729444B (zh) 一种基于知识图谱的个性化旅游景点推荐方法
CN106802956B (zh) 一种基于加权异构信息网络的电影推荐方法
US10515424B2 (en) Machine learned query generation on inverted indices
JP4906846B2 (ja) ソーシャルネットワークにおける利用者の相性の得点化
US8589434B2 (en) Recommendations based on topic clusters
Salehi et al. Hybrid recommendation approach for learning material based on sequential pattern of the accessed material and the learner’s preference tree
Yeung et al. A proactive personalized mobile news recommendation system
CN112119388A (zh) 训练图像嵌入模型和文本嵌入模型
US20140250115A1 (en) Prototype-Based Re-Ranking of Search Results
CN107679239B (zh) 一种基于用户行为的个性化社区推荐方法
CN109947987B (zh) 一种交叉协同过滤推荐方法
CN104063481A (zh) 一种基于用户实时兴趣向量的电影个性化推荐方法
CN109840833B (zh) 贝叶斯协同过滤推荐方法
CN109903138B (zh) 一种个性化商品推荐方法
CN109992674B (zh) 一种融合自动编码器和知识图谱语义信息的推荐方法
CN107577736B (zh) 一种基于bp神经网络的文件推荐方法及系统
CN112074828A (zh) 训练图像嵌入模型和文本嵌入模型
CN112948625B (zh) 一种基于属性异质信息网络嵌入的电影推荐方法
US20150074544A1 (en) Information processing apparatus, information processing method, and program
CN115600017A (zh) 特征编码模型训练方法及装置、媒体对象推荐方法及装置
CN108875071B (zh) 一种基于多视角兴趣的学习资源推荐方法
CN112036979A (zh) 评分预测方法、推荐方法、处理装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination