CN103377296A - 一种多指标评价信息的数据挖掘方法 - Google Patents

一种多指标评价信息的数据挖掘方法 Download PDF

Info

Publication number
CN103377296A
CN103377296A CN2012101165619A CN201210116561A CN103377296A CN 103377296 A CN103377296 A CN 103377296A CN 2012101165619 A CN2012101165619 A CN 2012101165619A CN 201210116561 A CN201210116561 A CN 201210116561A CN 103377296 A CN103377296 A CN 103377296A
Authority
CN
China
Prior art keywords
ijc
uic
data
ujc
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101165619A
Other languages
English (en)
Other versions
CN103377296B (zh
Inventor
王劲林
吕红亮
邓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Shanghai 3Ntv Network Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Shanghai 3Ntv Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Shanghai 3Ntv Network Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201210116561.9A priority Critical patent/CN103377296B/zh
Publication of CN103377296A publication Critical patent/CN103377296A/zh
Application granted granted Critical
Publication of CN103377296B publication Critical patent/CN103377296B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多指标评价信息的数据挖掘方法,包括:读取已有的交互数据;所述已有的交互数据包括显性的打分数据,所述显性的打分数据包括:一用户在与要打分的物品或服务相类似的已经打过分的其他物品或服务上的打分数据;其他用户之前在要打分的物品或服务上的打分数据;根据已有的交互数据,采用经过训练的关联模型预先计算一用户对某一物品或服务在某一指标上的打分值。本发明可以支持多指标打分的预测,并具有较高的预测准确度和分类准确度;收敛速度快,运行时间短,适合于在线实时推荐。

Description

一种多指标评价信息的数据挖掘方法
技术领域
本发明涉及数据挖掘领域,特别涉及一种多指标评价信息的数据挖掘方法。
背景技术
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载(Information overload)的时代。数据挖掘领域的个性化推荐技术是用来帮助用户发现内容,克服信息过载的重要技术。
个性化推荐是数据挖掘的一个重要分支,也是当前研究的热点方向。现有的个性化推荐技术解决的主要是单一评分场景下的推荐问题,基于已知的用户对某些物品(比如Netflix的电影和Amazon的书籍)整体印象的评价信息,预测用户对其他物品偏好,并给用户推荐合适的物品。对于此类问题的研究已经相对成熟,主要有:基于内容的推荐方法,基于协作过滤的推荐方法和混合推荐方法。而对于具有多指标评价信息场景下的推荐问题,目前并没有成熟的方法。
多指标推荐问题主要解决已知产品或者服务的多个方面的评价信息,如何预测用户偏好并给用户推荐合适的产品或服务的问题。比如已知用户对酒店的位置,服务,卫生和整体印象等方面的打分评价信息,给用户推荐合适的酒店。如果使用现有的单指标推荐算法,则很难利用所有的打分数据。而多指标推荐方法则可以利用所有的打分数据,从而得出更准确的推荐。
现有的用于实现多指标推荐的数据挖掘方法主要有:融合多个指标相似度作为整体相似度的方法;多维空间距离作为整体相似度的方法;针对各个指标进行预测,然后采用聚集函数的方法。但这些方法均以指标相互独立为前提,有较大的局限性。而多维奇异值分解(Singular value decomposition,SVD)技术采用填充三维矩阵,然后分解的方式,考虑了指标之间的关联,但是本来稀释的打分矩阵经过填充之后增加了大量的数据,造成算法时间和空间复杂度都比较高,不利于在大规模数据场景下使用。
可见,现有数据挖掘方法在多指标推荐应用场景中,无法做到在综合考虑指标间的关联以及降低算法复杂度,且推荐精度也无法满足实际商业应用的需求。
发明内容
本发明的目的在于克服现有的数据挖掘方法算法复杂度高、推荐精度无法满足商业应用的需求等缺陷,从而提供一种复杂度低、精度高的数据挖掘方法。
为了实现上述目的,本发明提供了一种多指标评价信息的数据挖掘方法,包括:
步骤1)、读取已有的交互数据;所述已有的交互数据包括显性的打分数据,所述显性的打分数据包括:一用户在与要打分的物品或服务相类似的已经打过分的其他物品或服务上的打分数据;其他用户之前在要打分的物品或服务上的打分数据;
步骤2)、根据步骤1)得到的已有的交互数据,采用经过训练的关联模型预先计算一用户对某一物品或服务在某一指标上的打分值;其中,所述关联模型包括
r ^ uic = μ + b u + b i + b c + | R k ( i ; u , c ) | - 1 / 2 Σ j ∈ R k ( i ; u , c ) ( r ujc - b ujc ) w ijc +
| N k ( i ; u , c ) | - 1 / 2 Σ j ∈ N k ( i ; u , c ) d ijc
所述
Figure BDA0000155005160000023
为用户u对于物品或服务i在指标c上打分值的估计值,μ为全局打分平均值,bu为用户评分偏置项,bi为物品或服务偏置项,bc为指标偏置项,ωijc为全局权重,dijc为隐性反馈因子;rujc是用户u对于物品或服务j在指标c上的实际打分值,bujc为用户u对于物品或服务j在指标c上的所有打分偏置,bujc=μ+bu+bj+bc;Rk(i;u,c)为用户u在指标c上打过分且与物品i相似度最高的k个物品或服务的集合,Nk(i;u,c)为用户u在指标c上有过隐性反馈行为且与物品或服务i相似度最高的k个物品或服务的集合。
上述技术方案中,所述已有的交互数据还包括用于表示诸如用户是否浏览、是否收藏、是否预定、是否购买在内的能够反映用户偏好行为的隐性的反馈数据。
上述技术方案中,在所述的步骤1)与步骤2)之间还包括利用已有的交互数据对所述的关联模型进行训练的步骤;该步骤包括:
步骤a)、用euic来描述预测值
Figure BDA0000155005160000024
和实际值ruic之间的误差,即:
Figure BDA0000155005160000025
步骤b)、通过最小化损失函数C(κ)来获得所述关联模型中的五类参数bu、bi、bc、wijc和dijc的大小,从而实现对所述关联模型的训练;所述损失函数C(κ)的表达式如下:
C ( κ ) = Σ ( u , i , c ) ∈ κ ( e uic 2 + λ 5 ( b u 2 + b i 2 + b c 2 + Σ j ∈ R k ( i ; u , c ) w ijc 2 + Σ j ∈ N k ( i ; u , c ) d ijc 2 ) )
= Σ ( u , i , c ) ∈ κ ( r uic - u - b u - b i - b c - | R k ( i ; u , c ) | - 1 / 2 Σ j ∈ R k ( i ; u , c ) ( r ujc - b ujc ) w ijc -
| N k ( i ; u , c ) | - 1 / 2 Σ j ∈ N k ( i ; u , c ) ( r ujc - b ujc ) w ijc ) 2 + λ ( b u 2 + b i 2 + b c 2 + Σ j ∈ R k ( i ; u , c ) w ijc 2 + Σ j ∈ N k ( i ; u , c ) d ijc 2 )
其中,κ表示包含有已知交互数据的整个训练集,
Figure BDA0000155005160000034
用来防止训练出现过拟合,λ是用来调节正则化项的比例的正则化因子。
上述技术方案中,在所述的步骤b)中,所述的最小化损失函数C(κ)采用随机梯度下降法实现,包括:
步骤b-1)、对所述关联模型中的bu,bi,bc,wijc和dijc进行初始化;其中对bu,bi,bc进行初始化的方法是求平均值,对wijc和dijc进行初始化的方法是在0左右随机取值;
步骤b-2)、在一次迭代过程中,对于由所述已有的交互数据所组成的训练集中的每一个已知的显性打分ruic利用如下预测模型预测
Figure BDA0000155005160000035
并计算预测误差 e uic ← r uic - r ^ uic ;
r ^ uic = μ + b u + b i + b c + | R k ( i ; u , c ) | - 1 / 2 Σ j ∈ R k ( i ; u , c ) ( r ujc - b ujc ) w ijc + | N k ( i ; u , c ) | - 1 / 2 Σ j ∈ N k ( i ; u , c ) d ijc ;
步骤b-3)利用步骤b-2)计算得到的预测误差euic更新模型参数bu、bi和bc;其中,所述更新的方法是沿着负梯度方向修正,包括:
首先计算bu,bi和bc在损失函数C(κ)中的偏导数:
dC ∂ b u = - 2 e uic + 2 λb u
dC ∂ b i = - 2 e uic + 2 λb i
dC ∂ b c = - 2 e uic + 2 λb c
然后沿着负梯度方向修正:
bu←bu+η(euic-λbu)
bi←bi+η(euic-λbi)
bc←bc+η(euic-λbc)
所述η为学习速率;
步骤b-4)利用步骤b-2)计算得到的预测误差euic更新模型参数wijc和dijc;其中更新的方法同样是沿着负梯度方向修正,包括:
首先计算wijc和dijc在损失函数C(κ)中的偏导数:
∀ j ∈ R k ( i ; u , c ) :
∂ C ∂ w ijc - 2 | R k ( i ; u , c ) | - 1 / 2 ( r ujc - b ujc ) e uic + 2 λw ijc
∂ C ∂ d ijc = - 2 | N k ( i ; u , c ) | - 1 / 2 e uic + 2 λd ijc ;
然后沿着负梯度方向修正:
∀ j ∈ R k ( i ; u , c ) :
wijc←wijc+η(|Rk(i;u,c)|-1/2(rujc-bujc)euic-λwijc)
dijc←dijc+η(|Nk(i;u,c)|-1/2euic-λdijc);
步骤b-5)根据步骤b-4)计算得到的预测误差euic以及已知的显性的打分数据的数量计算本次预测的均方根误差RMSE,如果本次迭代所得到的RMSE的值与前一次迭代所得到的RMSE的值相比开始增大或者迭代次数超过一定阀值,则结束参数估计过程,步骤b-3)和步骤b-4)中计算得到的本次预测所得到的参数的大小就是所要求取的参数大小,否则回到步骤b-2)继续训练模型参数。
上述技术方案中,所述的正则化因子λ的大小为0.01。
上述技术方案中,所述学习速率η为通过多次实验测试所得到的一个能尽快收敛且不过拟合的值,其大小为0.005。
上述技术方案中,在所述的步骤b)中,所述的最小化损失函数C(κ)采用交替最小二乘法实现。
本发明的优点在于:
本发明可以支持多指标打分的预测,并具有较高的预测准确度和分类准确度;收敛速度快,运行时间短,适合于在线实时推荐。
附图说明
图1是本发明的多指标评价信息的数据挖掘方法的流程图;
图2是本发明的多指标评价信息的数据挖掘方法中采用随机梯度下降法训练模型的流程图。
具体实施方式
为了便于理解,在下面的实施例中,将结合具体的实例对本发明的数据挖掘方法进行说明,但本领域普通技术人员应当了解,本发明的数据挖掘方法的应用并不限于实施例中所描述的实例,在其他实施例中亦可应用。
用户评价一个物品或服务时通常可以从多个角度加以考虑,如在评价一个酒店时,可以从酒店的位置、价格、服务、卫生状况、周围环境、餐点的可口程度等多个方面进行评价。这些已有的评价信息可以给其他用户提供参考。但不同的用户,在选择物品或服务时可能会有不同的侧重点,例如,有的用户在选择酒店时主要考虑位置,对酒店的价格不太在意,有的用户则更注重价格。即使是同一用户,在不同的场景下,所考虑的重点也存在差异。例如,在商务活动时,可能更注重酒店的位置、价格等,而在旅游时,更注重酒店的周围环境、服务状况等。当用户到一个新的环境中时,总是希望能够得到准确、合适的推荐信息,避免花费不必要的时间和金钱。本发明所要完成的工作就是要根据用户的个性习惯,从已有评价信息中挖掘出有用的数据,从而为后续生成更准确、更合适的推荐信息提供帮助。
本发明的方法可分为两个阶段,第一阶段是模型的建立与训练,第二阶段是利用经过训练的模型挖掘数据。
下面结合附图1分别对这两个阶段所要完成的工作做详细说明。
一、模型的建立与训练
步骤101)、在本步骤中,要为用户对某一物品或服务的某个指标的估计打分值与已有的交互数据之间建立关联模型。
在本实施例中,作为一种优选实现方式,所述的已有的交互数据包括显性的打分数据和隐性的反馈数据。所述的显性的打分数据反映了用户为物品或服务给出的评价的分值的大小。所述的隐性的反馈数据能够反映用户的偏好行为。所述的显性的打分数据具体包括:其他客户之前在要打分的物品或服务上的打分数据,该客户在与要打分的物品或服务相类似的已经打过分的其他物品或服务上的打分数据。所述的隐性的反馈数据包括诸如用户是否浏览、是否收藏、是否预定、是否购买等行为,此外,用户为物品或服务打分的行为本身也能视作隐性的反馈数据的一种。在其他实施例中,所述隐性反馈数据可以仅包含用于描述用户是否打分的数据,不包含用于描述所述用户是否浏览、是否收藏、是否预定、是否购买等行为的数据。
所述关联模型的表达式如下:
r ^ uic = μ + b u + b i + b c + | R k ( i ; u , c ) | - 1 / 2 Σ j ∈ R k ( i ; u , c ) ( r ujc - b ujc ) w ijc +
| N k ( i ; u , c ) | - 1 / 2 Σ j ∈ N k ( i ; u , c ) d ijc - - - ( 1 )
其中,
Figure BDA0000155005160000053
为用户u对于物品或服务i在指标c上打分值的估计值,μ为全局打分平均值,bu为用户评分偏置项,bi为物品或服务偏置项,bc为指标偏置项,ωijc为全局权重,dijc为隐性反馈因子。rujc是用户u对于物品或服务j在指标c上的实际打分值,bujc为用户u对于物品或服务j在指标c上的所有打分偏置,计算方法为bujc=μ+bu+bj+bc。Rk(i;u,c)为用户u在指标c上打过分且与物品i相似度最高的k个物品或服务的集合,Nk(i;u,c)为用户u在指标c上有过隐性反馈行为(比如购买、浏览、预定或者收藏等)且与物品或服务i相似度最高的k个物品或服务的集合。
上述公式中,为该模型所要计算的值。用户评分偏置项bu为用于描述用户的打分偏好的值(如某些用户习惯上喜欢打高分,而有些用户习惯上喜欢打低分),物品或服务偏置项bi为用于描述用户对某一物品或服务的普遍的打分偏好的值(如因物品本身的质量原因,用户都对某一物品都偏好打高分,或用户都对另一物品都偏好打低分),指标偏置项bc为用于描述用户对某一指标的普遍的打分偏好的值(如对于要求较高的指标,用户的打分情况较为苛刻,而对于不太重要的指标i,用户的打分情况较为放松)、全局权重ωijc用于表示物品或服务i和物品或服务j在指标c上的显性关联关系、隐性反馈因子dijc用于表示物品或服务i和物品或服务j在指标c上的隐性关联关系。上述的五类参数在初始时未知,需要通过对该模型加以训练得到。该公式中其他项的值可通过已有的打分数据或前述五类参数得到。
步骤102)、利用已有的交互数据训练步骤101)中所建立的模型。
在本步骤中,在训练模型时,可以利用由已知交互数据所生成的训练集,以最小化估计打分值与实际值之间的误差为目标,对模型进行训练,从而获得参数用户评分偏置项bu、物品或服务偏置项bi、指标偏置项bc、全局权重ωijc、隐性反馈因子dijc的大小。
在训练模型时,首先用euic来描述预测值
Figure BDA0000155005160000062
和实际值ruic之间的误差,即:
Figure BDA0000155005160000063
然后通过最小化损失函数C(κ)来获得模型中的五类参数bu、bi、bc、wijc和dijc
C ( κ ) = Σ ( u , i , c ) ∈ κ ( e uic 2 + λ 5 ( b u 2 + b i 2 + b c 2 + Σ j ∈ R k ( i ; u , c ) w ijc 2 + Σ j ∈ N k ( i ; u , c ) d ijc 2 ) )
= Σ ( u , i , c ) ∈ κ ( r uic - u - b u - b i - b c - | R k ( i ; u , c ) | - 1 / 2 Σ j ∈ R k ( i ; u , c ) ( r ujc - b ujc ) w ijc -
| N k ( i ; u , c ) | - 1 / 2 Σ j ∈ N k ( i ; u , c ) ( r ujc - b ujc ) w ijc ) 2 + λ ( b u 2 + b i 2 + b c 2 + Σ j ∈ R k ( i ; u , c ) w ijc 2 + Σ j ∈ N k ( i ; u , c ) d ijc 2 )
其中,κ表示包含有已知交互数据的整个训练集,
Figure BDA0000155005160000067
用来防止训练出现过拟合,λ是用来调节正则化项比例的正则化因子。所述正则化因子的大小可以根据实验测试获得,它是通过多次测试得到的一个能使训练集预测误差和测试集预测误差比较接近的值,在本实施例中其大小可以取0.01。
前述的最小化损失函数C(κ)可采用随机梯度下降法或交替最小二乘法实现。在本实施例中,以随机梯度下降法为例,对如何求取前述五个参数的过程进行说明。在其他实施例中,也可采用交替最小二乘法来求取模型中的前述五个参数。下面结合图2,对如何利用随机梯度下降法求取前述五个参数的过程进行说明。
步骤201)对bu,bi,bc,wijc和dijc进行初始化,对bu,bi,bc进行初始化的方法是求平均值,对wijc和dijc进行初始化的方法是在0左右随机取值。
步骤202)在一次迭代过程中,对于训练集中的每一个已知的显性的打分ruic,利用如下预测模型预测
Figure BDA0000155005160000071
并计算预测误差
Figure BDA0000155005160000072
r ^ uic = μ + b u + b i + b c + | R k ( i ; u , c ) | - 1 / 2 Σ j ∈ R k ( i ; u , c ) ( r ujc - b ujc ) w ijc + | N k ( i ; u , c ) | - 1 / 2 Σ j ∈ N k ( i ; u , c ) d ijc
步骤203)利用步骤202)计算得到的预测误差euic更新模型参数bu、bi和bc。所述更新的方法是沿着负梯度方向修正。
首先计算bu,bi和bc在损失函数C(κ)中的偏导数:
dC ∂ b u = - 2 e uic + 2 λb u
dC ∂ b i = - 2 e uic + 2 λb i
dC ∂ b c = - 2 e uic + 2 λb c
然后沿着负梯度方向修正:
bu←bu+η(euic-λbu)
bi←bi+η(euic-λbi)
bc←bc+η(euic-λbc)
上式中η为学习速率,所述η根据实验测试获得,通过多次测试取一个能尽快收敛且不会导致过拟合的值,在本实施例中,其大小可以取0.005,实验结果证明,学习速率取该值时,所生成的训练模型更佳。
步骤204)利用步骤202)计算得到的预测误差euic更新模型参数wijc和dijc。更新的方法同样是沿着负梯度方向修正。
首先计算wijc和dijc在损失函数C(κ)中的偏导数:
∀ j ∈ R k ( i ; u , c ) :
∂ C ∂ w ijc - 2 | R k ( i ; u , c ) | - 1 / 2 ( r ujc - b ujc ) e uic + 2 λw ijc
∂ C ∂ d ijc = - 2 | N k ( i ; u , c ) | - 1 / 2 e uic + 2 λd ijc
然后沿着负梯度方向修正:
∀ j ∈ R k ( i ; u , c ) :
wijc←wijc+η(|Rk(i;u,c)|-1/2(rujc-bujc)euic-λwijc)
dijc←dijc+η(|Nk(i;u,c)|-1/2euic-λdijc)
上式中η为学习速率。
步骤205)根据步骤204)计算得到的预测误差euic以及已知的显性打分数据的数量计算本次预测的均方根误差RMSE,如果本次迭代所得到的RMSE的值与前一次迭代所得到的RMSE的值相比开始增大或者迭代次数超过一定阀值,则结束参数估计过程,步骤203)和步骤204)中计算得到的本次预测所得到的参数的大小就是所要求取的参数大小,否则回到步骤202)继续训练模型参数。
经过上述模型训练后,模型中的参数用户评分偏置项bu、物品或服务偏置项bi、指标偏置项bc、全局权重ωijc、隐性反馈因子dijc的大小为已知值,利用训练好的模型参数可在下一阶段做数据挖掘。
以上是对第一阶段如何建立模块、如何训练模型的说明。经过训练的模型只要其在训练过程中所采用的交互数据没有发生变化,则该模型可以反复使用。在实际应用中,可以间隔一定时间或当新增数据达到一定规模后再重新训练模型。
二、数据挖掘
步骤103)、将已知的交互数据代入训练好的模型中,计算用户对于未打分物品或服务的多个指标的打分值的估计值。
在本步骤中,所述的已知的交互数据与步骤102)中训练模型时所采用的交互数据相同。在本实施例中,所述多个指标的具体的指标类型与已知的交互数据中显性的打分数据有关,在所述已知交互数据中包含有N个指标类型的显性的打分数据,则在本步骤中就能计算出该N个指标的打分值的估计值。在其他实施例中,也可根据需要计算所述N个指标中的M(M<N)个指标的显性打分值的估计值,与计算所有N个指标的显性打分值的估计值相比,根据需要计算其中M个指标的显性打分值的估计值显然能够降低工作量,节省工作时间。
通过本发明的方法计算出未打分物品或服务的多个指标的估计值以后,在后续操作中,就可以根据用户之前的消费习惯,从多个未打分物品或服务中选取相应指标较高的若干个物品或服务向用户推荐。
在一个例子中,一客户打算在近期到海南省三亚市旅游。由于该客户之前未曾去过三亚,因此希望能够向他提供推荐信息以帮助他遴选合适的酒店。在本发明的方法中,首先获取已有的交互数据,这些交互数据包括其他客户在三亚各个酒店居住后所给出的打分数据以及该客户对其他地区的酒店的打分数据,这些打分数据可包括酒店位置、价格、服务水平、周边环境等多个指标的内容。所述交互数据还包括用户是否浏览、是否收藏、是否预定等隐性反馈数据。在得到已有的交互数据后,将这些交互数据输入一已经训练好的模型,根据该模型可以估计出该客户对三亚各个酒店在多项指标上的打分值。在得到这些预估出来的打分值以后,就可以以这些预估出来的打分值为基础,根据需要选取在某些指标上预估打分值较高的若干个酒店向该客户推荐。这将极大地方便用户。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种多指标评价信息的数据挖掘方法,包括:
步骤1)、读取已有的交互数据;所述已有的交互数据包括显性的打分数据,所述显性的打分数据包括:一用户在与要打分的物品或服务相类似的已经打过分的其他物品或服务上的打分数据;其他用户之前在要打分的物品或服务上的打分数据;
步骤2)、根据步骤1)得到的已有的交互数据,采用经过训练的关联模型预先计算一用户对某一物品或服务在某一指标上的打分值;其中,所述关联模型包括
r ^ uic = μ + b u + b i + b c + | R k ( i ; u , c ) | - 1 / 2 Σ j ∈ R k ( i ; u , c ) ( r ujc - b ujc ) w ijc +
| N k ( i ; u , c ) | - 1 / 2 Σ j ∈ N k ( i ; u , c ) d ijc
所述
Figure FDA0000155005150000013
为用户u对于物品或服务i在指标c上打分值的估计值,μ为全局打分平均值,bu为用户评分偏置项,bi为物品或服务偏置项,bc为指标偏置项,ωijc为全局权重,dijc为隐性反馈因子;rujc是用户u对于物品或服务j在指标c上的实际打分值,bujc为用户u对于物品或服务j在指标c上的所有打分偏置,bujc=μ+bu+bj+bc;Rk(i;u,c)为用户u在指标c上打过分且与物品i相似度最高的k个物品或服务的集合,Nk(i;u,c)为用户u在指标c上有过隐性反馈行为且与物品或服务i相似度最高的k个物品或服务的集合。
2.根据权利要求1所述的多指标评价信息的数据挖掘方法,其特征在于,所述已有的交互数据还包括用于表示诸如用户是否浏览、是否收藏、是否预定、是否购买在内的能够反映用户偏好行为的隐性的反馈数据。
3.根据权利要求1或2所述的多指标评价信息的数据挖掘方法,其特征在于,在所述的步骤1)与步骤2)之间还包括利用已有的交互数据对所述的关联模型进行训练的步骤;该步骤包括:
步骤a)、用euic来描述预测值
Figure FDA0000155005150000014
和实际值ruic之间的误差,即:
Figure FDA0000155005150000015
步骤b)、通过最小化损失函数C(κ)来获得所述关联模型中的五类参数bu、bi、bc、wijc和dijc的大小,从而实现对所述关联模型的训练;所述损失函数C(κ)的表达式如下:
C ( κ ) = Σ ( u , i , c ) ∈ κ ( e uic 2 + λ 5 ( b u 2 + b i 2 + b c 2 + Σ j ∈ R k ( i ; u , c ) w ijc 2 + Σ j ∈ N k ( i ; u , c ) d ijc 2 ) )
= Σ ( u , i , c ) ∈ κ ( r uic - u - b u - b i - b c - | R k ( i ; u , c ) | - 1 / 2 Σ j ∈ R k ( i ; u , c ) ( r ujc - b ujc ) w ijc -
| N k ( i ; u , c ) | - 1 / 2 Σ j ∈ N k ( i ; u , c ) ( r ujc - b ujc ) w ijc ) 2 + λ ( b u 2 + b i 2 + b c 2 + Σ j ∈ R k ( i ; u , c ) w ijc 2 + Σ j ∈ N k ( i ; u , c ) d ijc 2 )
其中,κ表示包含有已知交互数据的整个训练集,用来防止训练出现过拟合,λ是用来调节正则化项的比例的正则化因子。
4.根据权利要求3所述的多指标评价信息的数据挖掘方法,其特征在于,在所述的步骤b)中,所述的最小化损失函数C(κ)采用随机梯度下降法实现,包括:
步骤b-1)、对所述关联模型中的bu,bi,bc,wijc和dijc进行初始化;其中对bu,bi,bc进行初始化的方法是求平均值,对wijc和dijc进行初始化的方法是在0左右随机取值;
步骤b-2)、在一次迭代过程中,对于由所述已有的交互数据所组成的训练集中的每一个已知的显性打分ruic利用如下预测模型预测
Figure FDA0000155005150000025
并计算预测误差 e uic ← r uic - r ^ uic ;
r ^ uic = μ + b u + b i + b c + | R k ( i ; u , c ) | - 1 / 2 Σ j ∈ R k ( i ; u , c ) ( r ujc - b ujc ) w ijc + | N k ( i ; u , c ) | - 1 / 2 Σ j ∈ N k ( i ; u , c ) d ijc ;
步骤b-3)利用步骤b-2)计算得到的预测误差euic更新模型参数bu、bi和bc;其中,所述更新的方法是沿着负梯度方向修正,包括:
首先计算bu,bi和bc在损失函数C(κ)中的偏导数:
dC ∂ b u = - 2 e uic + 2 λb u
dC ∂ b i = - 2 e uic + 2 λb i
dC ∂ b c = - 2 e uic + 2 λb c
然后沿着负梯度方向修正:
bu←bu+η(euic-λbu)
bi←bi+η(euic-λbi)
bc←bc+η(euic-λbc)
所述η为学习速率;
步骤b-4)利用步骤b-2)计算得到的预测误差euic更新模型参数wijc和dijc;其中更新的方法同样是沿着负梯度方向修正,包括:
首先计算wijc和dijc在损失函数C(κ)中的偏导数:
∀ j ∈ R k ( i ; u , c ) :
∂ C ∂ w ijc - 2 | R k ( i ; u , c ) | - 1 / 2 ( r ujc - b ujc ) e uic + 2 λw ijc
∂ C ∂ d ijc = - 2 | N k ( i ; u , c ) | - 1 / 2 e uic + 2 λd ijc ;
然后沿着负梯度方向修正:
∀ j ∈ R k ( i ; u , c ) :
wijc←wijc+η(|Rk(i;u,c)|-1/2(rujc-bujc)euic-λwijc)
dijc←dijc+η(|Nk(i;u,c)|-1/2euic-λdijc);
步骤b-5)根据步骤b-4)计算得到的预测误差euic以及已知的显性的打分数据的数量计算本次预测的均方根误差RMSE,如果本次迭代所得到的RMSE的值与前一次迭代所得到的RMSE的值相比开始增大或者迭代次数超过一定阀值,则结束参数估计过程,步骤b-3)和步骤b-4)中计算得到的本次预测所得到的参数的大小就是所要求取的参数大小,否则回到步骤b-2)继续训练模型参数。
5.根据权利要求4所述的多指标评价信息的数据挖掘方法,其特征在于,所述的正则化因子λ的大小为0.01。
6.根据权利要求4所述的多指标评价信息的数据挖掘方法,其特征在于,所述学习速率η为通过多次实验测试所得到的一个能尽快收敛且不过拟合的值,其大小为0.005。
7.根据权利要求3所述的多指标评价信息的数据挖掘方法,其特征在于,在所述的步骤b)中,所述的最小化损失函数C(κ)采用交替最小二乘法实现。
CN201210116561.9A 2012-04-19 2012-04-19 一种多指标评价信息的数据挖掘方法 Expired - Fee Related CN103377296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210116561.9A CN103377296B (zh) 2012-04-19 2012-04-19 一种多指标评价信息的数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210116561.9A CN103377296B (zh) 2012-04-19 2012-04-19 一种多指标评价信息的数据挖掘方法

Publications (2)

Publication Number Publication Date
CN103377296A true CN103377296A (zh) 2013-10-30
CN103377296B CN103377296B (zh) 2016-05-18

Family

ID=49462404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210116561.9A Expired - Fee Related CN103377296B (zh) 2012-04-19 2012-04-19 一种多指标评价信息的数据挖掘方法

Country Status (1)

Country Link
CN (1) CN103377296B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636447A (zh) * 2015-01-21 2015-05-20 上海天呈医流科技股份有限公司 一种面向医疗器械b2b网站用户的智能评价方法和系统
CN104699732A (zh) * 2013-12-05 2015-06-10 联想(新加坡)私人有限公司 形成用户简档的方法和信息处理设备
CN105630793A (zh) * 2014-10-28 2016-06-01 阿里巴巴集团控股有限公司 信息权重的确定方法和装置
CN105653683A (zh) * 2015-12-30 2016-06-08 东软集团股份有限公司 一种个性化推荐方法及装置
CN105824897A (zh) * 2016-03-14 2016-08-03 湖南大学 基于卡尔曼滤波的混合推荐系统及方法
CN106471819A (zh) * 2015-04-23 2017-03-01 乐威指南公司 用于提高媒体资产推荐模型中的精确性的系统和方法
CN108256583A (zh) * 2018-01-25 2018-07-06 北京东方科诺科技发展有限公司 一种基于匹配学习的多标签分类学习方法
CN108665120A (zh) * 2017-03-27 2018-10-16 阿里巴巴集团控股有限公司 打分模型的建立、用户信用的评估方法及装置
CN109102127A (zh) * 2018-08-31 2018-12-28 杭州贝购科技有限公司 商品推荐方法及装置
CN109559020A (zh) * 2018-11-08 2019-04-02 南京邮电大学 一种基于同行互评的数据质量评价方法
CN112308173A (zh) * 2020-12-28 2021-02-02 平安科技(深圳)有限公司 基于多评价因子融合的多目标对象评价方法及其相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162238A1 (en) * 2006-12-28 2008-07-03 Rajesh Venkat Subbu Methods and interface for set-partitioning decision support tool
CN102163310A (zh) * 2010-02-22 2011-08-24 深圳市腾讯计算机系统有限公司 一种基于用户信用度等级的信息推送方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162238A1 (en) * 2006-12-28 2008-07-03 Rajesh Venkat Subbu Methods and interface for set-partitioning decision support tool
CN102163310A (zh) * 2010-02-22 2011-08-24 深圳市腾讯计算机系统有限公司 一种基于用户信用度等级的信息推送方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YEHUDA KOREN等: "Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model", 《PROCEEDINGS OF THE L4TH ACM SIUKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING 》, 27 August 2008 (2008-08-27) *
张付志等: "基于Widrow_Hoff神经网络的多指标推荐算法", 《模式识别与人工智能》, vol. 24, no. 2, 30 April 2011 (2011-04-30), pages 233 - 242 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699732A (zh) * 2013-12-05 2015-06-10 联想(新加坡)私人有限公司 形成用户简档的方法和信息处理设备
CN104699732B (zh) * 2013-12-05 2019-09-06 联想(新加坡)私人有限公司 形成用户简档的方法和信息处理设备
CN105630793A (zh) * 2014-10-28 2016-06-01 阿里巴巴集团控股有限公司 信息权重的确定方法和装置
CN104636447A (zh) * 2015-01-21 2015-05-20 上海天呈医流科技股份有限公司 一种面向医疗器械b2b网站用户的智能评价方法和系统
CN104636447B (zh) * 2015-01-21 2017-12-29 上海天呈医流科技股份有限公司 一种面向医疗器械b2b网站用户的智能评价方法和系统
CN106471819A (zh) * 2015-04-23 2017-03-01 乐威指南公司 用于提高媒体资产推荐模型中的精确性的系统和方法
CN105653683A (zh) * 2015-12-30 2016-06-08 东软集团股份有限公司 一种个性化推荐方法及装置
CN105824897A (zh) * 2016-03-14 2016-08-03 湖南大学 基于卡尔曼滤波的混合推荐系统及方法
CN108665120A (zh) * 2017-03-27 2018-10-16 阿里巴巴集团控股有限公司 打分模型的建立、用户信用的评估方法及装置
CN108665120B (zh) * 2017-03-27 2020-10-20 创新先进技术有限公司 打分模型的建立、用户信用的评估方法及装置
US11188565B2 (en) 2017-03-27 2021-11-30 Advanced New Technologies Co., Ltd. Method and device for constructing scoring model and evaluating user credit
CN108256583A (zh) * 2018-01-25 2018-07-06 北京东方科诺科技发展有限公司 一种基于匹配学习的多标签分类学习方法
CN109102127A (zh) * 2018-08-31 2018-12-28 杭州贝购科技有限公司 商品推荐方法及装置
CN109102127B (zh) * 2018-08-31 2021-10-26 杭州贝购科技有限公司 商品推荐方法及装置
CN109559020A (zh) * 2018-11-08 2019-04-02 南京邮电大学 一种基于同行互评的数据质量评价方法
CN112308173A (zh) * 2020-12-28 2021-02-02 平安科技(深圳)有限公司 基于多评价因子融合的多目标对象评价方法及其相关设备
CN112308173B (zh) * 2020-12-28 2021-04-09 平安科技(深圳)有限公司 基于多评价因子融合的多目标对象评价方法及其相关设备

Also Published As

Publication number Publication date
CN103377296B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN103377296A (zh) 一种多指标评价信息的数据挖掘方法
CN105630946B (zh) 一种基于大数据的领域交叉推荐方法及装置
CN104391849B (zh) 融入时间上下文信息的协同过滤推荐方法
EP3179434A1 (en) Designing context-aware recommendation systems, based on latent contexts
CN102982107B (zh) 一种融合用户、项目和上下文属性信息的推荐系统优化方法
Zhang et al. Collaborative filtering for recommender systems
Ma et al. Recommender systems with social regularization
CN105574003B (zh) 一种基于评论文本和评分分析的信息推荐方法
EP4181026A1 (en) Recommendation model training method and apparatus, recommendation method and apparatus, and computer-readable medium
CN106489166A (zh) 服装尺码推荐与合身分析系统以及方法
CN103309967B (zh) 基于相似性传递的协同过滤方法及系统
CN111767466B (zh) 基于人工智能的推荐信息推荐方法、装置及电子设备
CN103744917B (zh) 混合推荐方法及系统
CA2944652C (en) Inference model for traveler classification
Zhao et al. How much novelty is relevant? it depends on your curiosity
Zhang et al. Dynamic tensor recommender systems
CN107301247B (zh) 建立点击率预估模型的方法及装置、终端、存储介质
CN105976229A (zh) 一种基于用户和项目混合的协同过滤算法
CN102495837B (zh) 一种数字信息推荐预测模型的训练方法和系统
CN108205775A (zh) 一种业务对象的推荐方法、装置和客户端
WO2018214503A1 (zh) 一种样本权重设置方法及装置、电子设备
US11321724B1 (en) Product evaluation system and method of use
CN110490625A (zh) 用户偏好确定方法及装置、电子设备、存储介质
CN107545471A (zh) 一种基于高斯混合的大数据智能推荐方法
CN109978660A (zh) 一种基于强化学习框架的推荐系统离线训练方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160518

Termination date: 20200419

CF01 Termination of patent right due to non-payment of annual fee