CN104298787A

CN104298787A - 一种基于融合策略的个性化推荐方法及装置

Info

Publication number: CN104298787A
Application number: CN201410639932.0A
Authority: CN
Inventors: 吴健; 苏栋梁; 张宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-11-13
Filing date: 2014-11-13
Publication date: 2015-01-21

Abstract

本申请公开了一种基于融合策略的个性化推荐方法及装置，方法包括：分别确定基于用户的协同过滤推荐方法所得到的目标用户对目标项目的第一评分值，以及确定基于图像相似性的推荐方法所得到的目标用户对目标项目的第二评分值，然后将目标用户对目标项目的最终评分值确定第一评分值与第二评分值的加权相加，也即综合考虑了两种方法所预测的评分值，从而解决了单一推荐算法所存在的推荐质量不高，可信度低的问题。

Description

一种基于融合策略的个性化推荐方法及装置

技术领域

本申请涉及协同推荐技术领域，更具体地说，涉及一种基于融合策略的个性化推荐方法及装置。

背景技术

随着电子商务的发展，图像的使用比例在网上购物商城中不断扩大，据统计其在视觉信息中的比例已经超过25％。图像中包含的丰富数据信息量对用户的购物体验起着至关重要的作用。因此，如何有效地利用这些图像信息，快速、高效地推荐给用户需要的商品是一个非常值得研究和解决的问题。

传统的方法包括基于用户的协同过滤方法和基于图像相似性的推荐方法。其中，前者在预测某一用户对某一视觉商品喜好时，通过判断其它用户与该用户的相似性，通过与该用户相似性较大的一些用户对该商品的评分来预测该用户的喜好程度。但是，如果只有很少用户对产品进行评分，那么推荐的准确性将受到影响。而基于图像相似性的推荐将信息流中的所有信息基于图像特征相似性进行过滤，每一个项目都独立操作，不存在评价级别多少的问题，只要相似度高就能推荐给用户，使得许多项目(商品)在没有任何用户评价的情况下就直接进行了推荐，因此就带来了推荐质量以及可信度不高的问题。

发明内容

有鉴于此，本申请提供了一种基于融合策略的个性化推荐方法及装置，用于解决现有推荐方法推荐质量及可信度不高的问题。

为了实现上述目的，现提出的方案如下：

一种基于融合策略的个性化推荐方法，包括：

确定基于用户的协同过滤推荐方法所得到的目标用户U_a对目标项目I_i的第一评分值R1_a,i；

确定基于图像相似性的推荐方法所得到的目标用户U_a对目标项目I_i的第二评分值R2_a,i；

将目标用户U_a对目标项目I_i的最终评分值R_a,i确定为：

R_a,i＝λ×R1_a,i+(1-λ)×R2_a,i

其中，λ为加权平衡因子；

根据所述最终评分值R_a,i来确定是否将目标项目I_i推荐给目标用户U_a。

优选地，所述确定基于用户的协同过滤推荐方法所得到的目标用户U_a对目标项目I_i的第一评分值R1_a,i包括：

确定第一评分值R1_a,i为：

{R 1}_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b})}

其中，表示目标用户U_a对所有评价项目的打分平均值，表示用户U_b对所有评价项目的打分平均值，R_b,i表示用户U_b对项目I_i的评分值，S(U_a)表示用户U_a的近邻用户集合，sim(U_a,U_b)表示用户U_a与用户U_b的相似度值。

优选地，所述用户U_a与用户U_b的相似度值为：

sim(U_a,U_b)由皮尔森相关相似度方法所确定：

sim (U_{a}, U_{b}) = sim 1 (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

其中，R_a,k表示用户U_a对项目I_k的评分值，R_b,k表示用户U_b对项目I_k的评分值，和分别表示用户U_a和U_b各自所有评分项目的评分均值；

或者，

sim(U_a,U_b)为对皮尔森相关相似度方法确定的相似度值sim1(U_a,U_b)的一次修正：

sim(U_a,U_b)＝ε*sim1(U_a,U_b)

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

其中，ε为用户相似度影响因子，与分别表示用户U_a与U_b已评分项目集合；

或者，

sim(U_a,U_b)为对皮尔森相关相似度方法确定的相似度值sim1(U_a,U_b)的二次修正：

sim(U_a,U_b)＝ε*β*sim1(U_a,U_b)

其中，β为目标用户U_a选择用户U_b作为最近邻的偏好因子，

\begin{matrix} β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x) \\ NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\} \end{matrix}

其中，x为目标用户U_a和用户U_b共同评分的项目，R_a,x表示用户U_a对项目I_x的评分值，R_b,x表示用户U_b对项目I_x的评分值，

{Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}}

{Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}}

R_ai表示用户U_a对项目I_i的评分，R_a表示用户U_a对所有项目的评分集合，表示用户U_a所有评分项目的评分均值。

优选地，所述确定基于图像相似性的推荐方法所得到的目标用户U_a对目标项目I_i的第二评分值R2_a,i，包括：

确定第二评分值R2_a,i为：

{R 2}_{a, i} = \overset{&OverBar;}{R_{i}} + \frac{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y}) \times (\overset{&OverBar;}{R_{a}} - \overset{&OverBar;}{R_{y}})}{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y})}

ED (P_{i}, P_{y}) = \frac{1}{\sqrt{Σ_{k = 1}^{n} {(P_{ik} - P_{yk})}^{2}}}

其中，和分别表示所有用户对项目I_i和I_y的评分平均值，P_i和P_y分别表示项目I_i和I_y的对应的图片，S(P_i)表示项目图像P_i的近邻集合，ED(P_i,P_y)表示图片间的相似度结果，P_ik和P_yk分别提取图片P_i和P_y的特征后，量化的n维向量。

优选地，所述加权平衡因子λ为：

λ = \frac{m}{m + n}, 1 - λ = \frac{n}{m + n}

其中，m为用户U_a的近邻用户集合S(U_a)的元素个数，n为项目图像P_i的近邻集合S(P_i)的元素个数。

一种基于融合策略的个性化推荐装置，包括：

第一评分值预测单元，用于确定基于用户的协同过滤推荐方法所得到的目标用户U_a对目标项目I_i的第一评分值R1_a,i；

第二评分值预测单元，确定基于图像相似性的推荐方法所得到的目标用户U_a对目标项目I_i的第二评分值R2_a,i；

最终评分值预测单元，用于将目标用户U_a对目标项目I_i的最终评分值R_a,i确定为：

R_a,i＝λ×R1_a,i+(1-λ)×R2_a,i

其中，λ为加权平衡因子；

推荐处理单元，用于根据所述最终评分值R_a,i来确定是否将目标项目I_i推荐给目标用户U_a。

优选地，所述第一评分值预测单元包括：

第一评分值预测子单元，用于确定第一评分值R1_a,i为：

{R 1}_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b})}

优选地，所述第一评分值预测子单元包括：

第一用户相似度值确定单元，用于利用皮尔森相关相似度方法确定sim(U_a,U_b)为：

sim (U_{a}, U_{b}) = sim 1 (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

第二用户相似度值确定单元，用于确定sim(U_a,U_b)为对皮尔森相关相似度方法确定的相似度值sim1(U_a,U_b)的一次修正：

sim(U_a,U_b)＝ε*sim1(U_a,U_b)

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

第三用户相似度值确定单元，用于确定sim(U_a,U_b)为对皮尔森相关相似度方法确定的相似度值sim1(U_a,U_b)的二次修正：

sim(U_a,U_b)＝ε*β*sim1(U_a,U_b)

其中，β为目标用户U_a选择用户U_b作为最近邻的偏好因子，

\begin{matrix} β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x) \\ NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\} \end{matrix}

{Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}}

{Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}}

优选地，所述第二评分值预测单元包括：

第二评分值预测子单元，用于确定第二评分值R2_a,i为：

{R 2}_{a, i} = \overset{&OverBar;}{R_{i}} + \frac{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y}) \times (\overset{&OverBar;}{R_{a}} - \overset{&OverBar;}{R_{y}})}{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y})}

ED (P_{i}, P_{y}) = \frac{1}{\sqrt{Σ_{k = 1}^{n} {(P_{ik} - P_{yk})}^{2}}}

优选地，所述最终评分值预测单元所确定的加权平衡因子λ为：

λ = \frac{m}{m + n}, 1 - λ = \frac{n}{m + n}

从上述的技术方案可以看出，本申请实施例提供的基于融合策略的个性化推荐方法，分别确定基于用户的协同过滤推荐方法所得到的目标用户对目标项目的第一评分值，以及确定基于图像相似性的推荐方法所得到的目标用户对目标项目的第二评分值，然后将目标用户对目标项目的最终评分值确定第一评分值与第二评分值的加权相加，也即综合考虑了两种方法所预测的评分值，从而解决了单一推荐算法所存在的推荐质量不高，可信度低的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种基于融合策略的个性化推荐方法流程图；

图2为本申请实施例公开的一种基于融合策略的个性化推荐装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1为本申请实施例公开的一种基于融合策略的个性化推荐方法流程图。

如图1所示，该方法包括：

步骤S100、确定基于用户的协同过滤推荐方法所得到的目标用户对目标项目的第一评分值；

具体地，利用基于用户的协同过滤推荐方法来预测目标用户U_a对目标项目I_i的评分值，将其确定为第一评分值R1_a,i。

步骤S110、确定基于图像相似性的推荐方法所得到的目标用户对目标项目的第二评分值；

具体地，利用基于图像相似性的推荐方法来预测目标用户U_a对目标项目I_i的评分值，将其确定为第二评分值R2_a,i。

步骤S120、利用所述第一评分值及所述第二评分值，确定目标用户对目标项目的最终评分值；

具体地，本步骤中综合考虑两种不同方法所确定的评分值，将目标用户U_a对目标项目I_i的最终评分值R_a,i确定为：

R_a,i＝λ×R1_a,i+(1-λ)×R2_a,i

其中，λ为加权平衡因子。通过这个加权平衡因子来融合基于用户协同过滤和基于项目图片相似性的推荐结果产生最终推荐结果。引入加权平衡因子λ这个参数，可以用来协调基于用户以及基于项目的图像相似性度量之间的不同影响，对两个不同维度的目标对象权重进行调和，对于提高推荐质量有重要作用。

步骤S130、根据所述最终评分值，确定是否将目标项目推荐给目标用户。

具体地，根据最终评分值R_a,i来确定是否将目标项目I_i推荐给目标用户U_a。通常，可以设置一个评分阈值，若最终评分值超过该评分阈值，则将目标项目推荐给目标用户，否则不推荐。当然，除此之外还可以设置其它的推荐方法。

本申请实施例提供的基于融合策略的个性化推荐方法，分别确定基于用户的协同过滤推荐方法所得到的目标用户对目标项目的第一评分值，以及确定基于图像相似性的推荐方法所得到的目标用户对目标项目的第二评分值，然后将目标用户对目标项目的最终评分值确定第一评分值与第二评分值的加权相加，也即综合考虑了两种方法所预测的评分值，从而解决了单一推荐算法所存在的推荐质量不高，可信度低的问题。

接下来，我们介绍确定基于用户的协同过滤推荐方法所得到的目标用户U_a对目标项目I_i的第一评分值R1_a,i的过程，如下：

确定第一评分值R1_a,i为：

{R 1}_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b})}

具体地，用户U_a与用户U_b的相似度值sim(U_a,U_b)可以通过下述方式确定：

第一，sim(U_a,U_b)由皮尔森相关相似度方法所确定：

sim (U_{a}, U_{b}) = sim 1 (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

其中，R_a,k表示用户U_a对项目I_k的评分值，R_b,k表示用户U_b对项目I_k的评分值，和分别表示用户U_a和U_b各自所有评分项目的评分均值。

第二，sim(U_a,U_b)为对皮尔森相关相似度方法确定的相似度值sim1(U_a,U_b)的一次修正：

sim(U_a,U_b)＝ε*sim1(U_a,U_b)

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

其中，ε为用户相似度影响因子，与分别表示用户U_a与U_b已评分项目集合。

权重因子ε保证两个用户同时对越多的物品评分，则他们计算出来的相似度就越高，相反两个用户共同评分的物品越少，相似度越低。

(1)当时，ε＝0，表示用户U_a和U_b已评分项目完全不同，则余弦相似性、皮尔森相关相似性等常用的相似性度量方法不能度量出用户间的相似性，因此sim'(U_a,U_b)＝0；

(2)当时，0<ε<1，表示用户U_a和U_b已评分的项目间存在交集项目以及非交集项目，影响因子将根据交集项目以及非交集项目所占比例的大小自动调整常用相似性度量的结果。

第三，sim(U_a,U_b)为对皮尔森相关相似度方法确定的相似度值sim1(U_a,U_b)的二次修正：

sim(U_a,U_b)＝ε*β*sim1(U_a,U_b)

其中，β为目标用户U_a选择用户U_b作为最近邻的偏好因子，

\begin{matrix} β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x) \\ NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\} \end{matrix}

{Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}}

{Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}}

近邻偏好因子以用户共同评分的项目作为计算基础，为目标用户和另一用户的共同评分项目分配相同的权重值。在共同评分的项目中任取一项，当另一用户U_b与目标用户U_a在该项目上同为消极评分或同为积极评分时，认为U_a与U_b在该项目上的偏好相同，近邻偏好性为正。同理，当另一用户U_b与目标用户U_a在该项目上不同时为消极评分或不同时为积极评分时，近邻偏好计算结果为负。

接着，我们再介绍一下上述确定基于图像相似性的推荐方法所得到的目标用户U_a对目标项目I_i的第二评分值R2_a,i的过程，如下：

确定第二评分值R2_a,i为：

{R 2}_{a, i} = \overset{&OverBar;}{R_{i}} + \frac{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y}) \times (\overset{&OverBar;}{R_{a}} - \overset{&OverBar;}{R_{y}})}{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y})}

ED (P_{i}, P_{y}) = \frac{1}{\sqrt{Σ_{k = 1}^{n} {(P_{ik} - P_{yk})}^{2}}}

在上述基础上，我们可以进一步设置上述加权平衡因子λ为：

λ = \frac{m}{m + n}, 1 - λ = \frac{n}{m + n}

当m＝0且n>0，带入上式可知，λ的值为0，表示推荐的结果和基于用户的协同过滤无关，完全由基于项目的图像相似性推荐所决定。当n＝0且m>0时，可知推荐的结果和基于项目的图像相似性推荐无关，完全由基于用户的协同过滤推荐所决定。

对于上述基于图像相似性的推荐方法中，求解图片间的相似度的过程，进行下述解释。

本申请针对大规模图像数据检索模块而设计系统时，采用视觉词汇树方式实现基于图像匹配的检索系统，解决时耗过高，用户体验效果不佳的问题。

本申请将图像库中所有从商品图像上提取的CGCI-SIFT特征作为模型的输入，每幅图片的CGCI-SIFT特征是若干个一维向量。如今在电子商务海量商品的前提下，图像库的中图片也是数以百万计的，在面对如此大量的图像特征数据时，如果直接采用KD树或欧氏距离执行相似性检索，这不仅是一个十分耗时的过程，而且严重影响了用户体验。因此必须对图片产生的特征集合进行聚类管理，来大幅度降低图片搜索的时间，提高搜索的效率。

词汇树使用树形结构，是一种基于文本信息检索的聚类方法，依据单词出现的频率来将其进行归类，其优点在于可以存储更多的视觉特征，最终将待聚类的对象集合归类成目标数量的子集合。词汇树方法同样可以应用于图像局部特征(比如CGCI-SIFT特征)。词汇树降低了查找对象的搜索时间，它不需要遍历所有的单词，这大幅度降低了查找单词所需的时间。构造词汇树时采用了K-Means进行分层聚类，方法常数K为每个节点下的子节点的数量，采用这种分层结构。

K-Means聚类最后产生的每个子集，我们把它定义为单词，接下来，我们把数据库中的图片通过词汇树结构量化到这些单词中，每个单词再与一个倒排文件相关联，倒排文件可以改善查找的效率，最后利用TF-IDF模型对查询图片进行相似性匹配。

构造视觉词汇树是无监督的条件下进行的，提取数据库中所有图片的CGCI-SIFT特征，特征集合用Feature＝{feature_i}来表示，接下来采用K-Means算法层层聚类。假定每次聚类生成K个节点，同时我们计算每个子集的聚类中心C_i，层层重复，直到词汇树的高度到预设值P为止。

树中的节点数目为：

Σ_{l - 1}^{L} k^{l} = (k^{L + 1} - k) / (k - 1)

它们都是对图像特征向量内容聚类而产生的簇集结果节点：

F_{i} (1 \leq i \leq Σ_{l - 1}^{L} k^{l})

有了词汇树后，就可将图片特征转换为权值向量，从而实现特征的量化。

通过构造词汇树，就生成了M个聚类簇集，且每个聚类簇集都有一个中心向量C_m，我们把生成的聚类簇集称作视觉词汇单词，把图像库中的每幅图片称作一个文档，通过计算每张图片和词汇单词中聚类中心的距离，来判断图片与单词的相关程度，同时将这个图片量化到词汇树的M个根节点中，即图片特征可以用一个新的M维向量来表示。假定W_m代表词汇树的视觉单词，F_i表示文档，Weight(i,m)即为文档与单词的之间的相关度，NUM_im为W_m在文档F_i中出现的次数。N_m表示词汇单词W_m一共包含的图片文档数目，定义：

id f_{m} = \lg \frac{N}{N_{m}}

则最终图片文档F_i和视觉词汇单词W_m的相关度为

Weight(i,m)＝NUM_im×idf_m

通过构造SIFT词汇树，在检索过程中，每个查询图片也利用相同方法量化到视觉词汇单词上。

基于此，在确定项目图像的近邻集合时，首先获取用户当前浏览商品的图像，并对其提取局部特征信息(CGCI-SIFT特征)，每张图片可得到若干个特征点，每个特征点用特征向量Y＝{y₁,y₂......y_n}来表示。通过视觉词汇树将图片的CGCI-SIFT特征量化到CGCI-SIFT词汇树的若干个视觉词汇单词上，例如有m个视觉单词，那么就可以用一个新的m维的特征向量V＝{v₁,v₂......v_m}来表示图片。详细过程如下：逐层计算图片提取到的CGCI-SIFT特征向量与词汇树各层节点的欧氏距离，距离最小的节点作为关键节点。对所有提取到的特征点重复上述操作，在所有操作完成后，商品图片的特征点会落到这些视觉词汇单词上，统计每个词汇单词上被落到的次数NUM_m。利用上面所讲到的idf_m值、图片以及词汇单词间的相关程度w_m，就可以最终得出关于项目图片的一个m维的特征向量L＝{l₁,l₂......l_m}。在得到商品图片的词汇树特征向量L＝{l₁,l₂......l_m}后，就把多个一维空间向量降维到一维空间向量，在此基础上再和数据库中的图片进行匹配，计算项目图片和每张图片得到一个匹配值Wt₁，目前暂定商品的推荐程度为Weight＝Wt₁，选取TOP-N个项目作为近邻项目集合。

下面对本申请实施例提供的基于融合策略的个性化推荐装置进行描述，下文描述的基于融合策略的个性化推荐装置与上文描述的基于融合策略的个性化推荐方法可相互对应参照。

参见图2，图2为本申请实施例公开的一种基于融合策略的个性化推荐装置结构示意图。

如图2所示，该装置包括：

第一评分值预测单元21，用于确定基于用户的协同过滤推荐方法所得到的目标用户U_a对目标项目I_i的第一评分值R1_a,i；

第二评分值预测单元22，确定基于图像相似性的推荐方法所得到的目标用户U_a对目标项目I_i的第二评分值R2_a,i；

最终评分值预测单元23，用于将目标用户U_a对目标项目I_i的最终评分值R_a,i确定为：

R_a,i＝λ×R1_a,i+(1-λ)×R2_a,i

其中，λ为加权平衡因子；

推荐处理单元24，用于根据所述最终评分值R_a,i来确定是否将目标项目I_i推荐给目标用户U_a。

可选的，所述第一评分值预测单元21包括：

第一评分值预测子单元，用于确定第一评分值R1_a,i为：

{R 1}_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b})}

可选的，所述第一评分值预测子单元包括：

sim (U_{a}, U_{b}) = sim 1 (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

sim(U_a,U_b)＝ε*sim1(U_a,U_b)

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

sim(U_a,U_b)＝ε*β*sim1(U_a,U_b)

其中，β为目标用户U_a选择用户U_b作为最近邻的偏好因子，

\begin{matrix} β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x) \\ NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\} \end{matrix}

{Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}}

{Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}}

可选的，所述第二评分值预测单元包括：

第二评分值预测子单元，用于确定第二评分值R2_a,i为：

{R 2}_{a, i} = \overset{&OverBar;}{R_{i}} + \frac{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y}) \times (\overset{&OverBar;}{R_{a}} - \overset{&OverBar;}{R_{y}})}{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y})}

ED (P_{i}, P_{y}) = \frac{1}{\sqrt{Σ_{k = 1}^{n} {(P_{ik} - P_{yk})}^{2}}}

可选的，所述最终评分值预测单元所确定的加权平衡因子λ为：

λ = \frac{m}{m + n}, 1 - λ = \frac{n}{m + n}

本申请实施例提供的基于融合策略的个性化推荐装置，分别确定基于用户的协同过滤推荐方法所得到的目标用户对目标项目的第一评分值，以及确定基于图像相似性的推荐方法所得到的目标用户对目标项目的第二评分值，然后将目标用户对目标项目的最终评分值确定第一评分值与第二评分值的加权相加，也即综合考虑了两种方法所预测的评分值，从而解决了单一推荐算法所存在的推荐质量不高，可信度低的问题。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于融合策略的个性化推荐方法，其特征在于，包括：

将目标用户U_a对目标项目I_i的最终评分值R_a,i确定为：

R_a,i＝λ×R1_a,i+(1-λ)×R2_a,i

其中，λ为加权平衡因子；

2.根据权利要求1所述的推荐方法，其特征在于，所述确定基于用户的协同过滤推荐方法所得到的目标用户U_a对目标项目I_i的第一评分值R1_a,i包括：

确定第一评分值R1_a,i为：

{R 1}_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b})}

3.根据权利要求2所述的推荐方法，其特征在于，所述用户U_a与用户U_b的相似度值为：

sim(U_a,U_b)由皮尔森相关相似度方法所确定：

sim (U_{a}, U_{b}) = sim 1 (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

或者，

sim(U_a,U_b)＝ε*sim1(U_a,U_b)

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

或者，

sim(U_a,U_b)＝ε*β*sim1(U_a,U_b)

其中，β为目标用户U_a选择用户U_b作为最近邻的偏好因子，

\begin{matrix} β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x) \\ NeighborTendency (x) \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\} \end{matrix}

{Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}}

{Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}}

4.根据权利要求2或3所述的推荐方法，其特征在于，所述确定基于图像相似性的推荐方法所得到的目标用户U_a对目标项目I_i的第二评分值R2_a,i，包括：

确定第二评分值R2_a,i为：

{R 2}_{a, i} = \overset{&OverBar;}{R_{i}} + \frac{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y}) \times (\overset{&OverBar;}{R_{a}} - \overset{&OverBar;}{R_{y}})}{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y})}

ED (P_{i}, P_{y}) = \frac{1}{\sqrt{Σ_{k = 1}^{n} {(P_{ik} - P_{yk})}^{2}}}

5.根据权利要求4所述的推荐方法，其特征在于，所述加权平衡因子λ为：

λ = \frac{m}{m + n}, 1 - λ = \frac{n}{m + n}

6.一种基于融合策略的个性化推荐装置，其特征在于，包括：

R_a,i＝λ×R1_a,i+(1-λ)×R2_a,i

其中，λ为加权平衡因子；

7.根据权利要求6所述的推荐装置，其特征在于，所述第一评分值预测单元包括：

第一评分值预测子单元，用于确定第一评分值R1_a,i为：

{R 1}_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; S (U_{a})}{Σ} sim (U_{a}, U_{b})}

8.根据权利要求7所述的推荐装置，其特征在于，所述第一评分值预测子单元包括：

sim (U_{a}, U_{b}) = sim 1 (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

sim(U_a,U_b)＝ε*sim1(U_a,U_b)

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

sim(U_a,U_b)＝ε*β*sim1(U_a,U_b)

其中，β为目标用户U_a选择用户U_b作为最近邻的偏好因子，

β = \underset{x &Element; I_{U_{s}} \cap I_{U_{b}}}{Σ} NeighborTendency (x)

NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{poditive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a . x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{poditive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\}

{Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}}

{Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}}

9.根据权利要求7或8所述的推荐装置，其特征在于，所述第二评分值预测单元包括：

第二评分值预测子单元，用于确定第二评分值R2_a,i为：

{R 2}_{a, i} = \overset{&OverBar;}{R_{i}} + \frac{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y}) \times (\overset{&OverBar;}{R_{a}} - \overset{&OverBar;}{R_{y}})}{\underset{P_{y} &Element; S (P_{i})}{Σ} ED (P_{i}, P_{y})}

ED (P_{i}, P_{y}) = \frac{1}{\sqrt{Σ_{k = 1}^{n} {(P_{ik} - P_{yk})}^{2}}}

10.根据权利要求9所述的推荐装置，其特征在于，所述最终评分值预测单元所确定的加权平衡因子λ为：

λ = \frac{m}{m + n}, 1 - λ = \frac{n}{m + n}