CN111291260A

CN111291260A - 一种多元信息驱动的近似融合网络推荐传播方法

Info

Publication number: CN111291260A
Application number: CN202010067924.9A
Authority: CN
Inventors: 王程; 何克慧
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-16

Abstract

本发明提供的一种多元信息驱动的近似融合网络推荐传播方法，基于近似融合网络推荐传播算法，可以有效的改善传统的推荐算法信息源单一，数据初始阶段推荐质量问题，从近似融合网络推荐传播算法的三个关键步骤入手，将网络推荐系统中的参与者分为四种实体类和六种联系，根据实体间不同类型的联系，确定概率转移矩阵。本发明有效融合了推荐对象、项目、标签、属性多种类型的信息及其联系，缓解了信息源单一带来的数据稀疏问题和数据初始阶段推荐质量问题，使得推荐结果更加多样化，推荐准确性明显提高，鲁棒性健壮性好，计算复杂度适中、整体实现容易，能快速的推广到网络推荐系统应用中，市场实用价值较大。

Description

一种多元信息驱动的近似融合网络推荐传播方法

技术领域

本发明涉及一种近似融合网络推荐传播方法，特别涉及一种多元信息驱动的近似融合网络推荐传播方法，属于网络推荐传播方法技术领域。

背景技术

随着互联网的大规模普及和快速发展，各种信息的传递和发布越来越方便快捷，这使得互联网上的信息量以前所未有的速度增长。数以万计的推荐对象每天不断的上传访问使得整个互联网的数据与日俱增，数据量突飞猛进，人类早已从一个信息匮乏时代进入了一个信息严重过载的时代，面对海量的数据，信息的过滤、识别和选择显得至关重要。

分类整理是解决互联网信息过载问题的重要手段，当今基于分类整理比较有代表性的解决方案有两种：一种是门户网站，比如新浪、网易等，另一种是导航网站，例如hao123等。门户网站被称作互联网内容服务的提供商，通过对互联网资源和信息收集和处理等，以公用计算机信息网络的方式向推荐对象提供服务，门户网站是提供综合性信息的网站，整合了各类资源和多个领域的信息，提供丰富多彩的网页内容供推荐对象查询阅览。导航网站是对各种不同类别的网站分类整理并加以标注，方便使用者快速定位需访问的链接。虽然门户网站和导航网站可以帮助推荐对象快速定位感兴趣的领域，在一定程度上缩小了推荐对象的查询范围，虽其提供的内容具有普适性，但明显没有针对性，不同使用者查询同一类信息，看到的内容都是完全一样的，没有考虑推荐对象之间的差异性和独特性。

搜索引擎的逐渐兴起，在一定时期内成为解决互联网信息过载问题的重要方式，为推荐对象提供交互式的接口，推荐对象通过输入感兴趣的关键字的形式，查询所需内容，而搜索引擎则通过一定的搜索、加工、处理等步骤返回相关程度高的信息。搜索引擎是互联网发展的关键技术之一，尤其在搜索引擎提供商谷歌提出网页排名算法后，搜索引擎根据网页的重要性和近似度对网站排名，有效改善了推荐对象搜索信息的质量。但搜索引擎也存在一些明显弊端，一是由于关键字依赖于推荐对象的输入，有些用户不能准确用相应的关键词表达自己的需求，或表达与实际需求偏差很大，搜索结果不理想，二是搜索引擎在检索所有含有关键词的页面时，只进行文本匹配，只要页面含有关键词就会被检索出来，难免导致检索出的页面主题与相关度不高甚至大相径庭的情况，三是对同一搜索关键词，不同搜索对象返回的排序结果完全一样，没有考虑推荐对象的背景和差异。搜索引擎没有考虑推荐对象的偏好，没有利用推荐对象的背景、个人相关信息，搜索结果与推荐对象的期望有一定的距离。

网络推荐系统兴起之初，是简单利用推荐对象信息，随着对于推荐精度越来越高的要求，其它领域的建模方法越来越多的应用于推荐对象信息的建模，挖掘与推荐对象有关的隐形需求。推荐算法是推荐系统的核心，为了提高推荐算法的推荐精度，机器学习、数据挖掘等领域的研究方法被逐渐引入网络推荐系统，使得推荐对象信息建模的思路更开阔，网络推荐系统越来越智能化，精度越来越高。推荐系统的好坏对于服务商的服务质量和效益有很大的影响。现有技术的网络推荐算法中，协同过滤算法应用最广泛，但还是面临严重的初始阶段推荐质量问题和数据信息不完全问题，随着推荐对象和项目数据规模越来越大，两个推荐对象选择同一个项目的概率越来越小，评分矩阵严重缺失评分记录。为了解决初始阶段推荐质量和评分矩阵数据信息不完全问题，现有技术提出一些解决方案，主要分为两类：一类是缺省和预测填充，缺省填充方式主要有平均值和众数两种，这类解决方案低效，而且抹杀了推荐对象的个性化信息。预测填充根据推荐对象和项目的近邻评分预测，而现有技术的预测填充方案是一次性填充，未考虑预测的先后顺序对推荐性能的影响；另一类是通过改进推荐对象兴趣模型，从某一角度对推荐对象和产品信息进行处理，弥补评分记录缺失的不足，降低稀疏度，这类方案能在一定程度上缓和评分矩阵数据信息不完全问题，但由于利用的信息源单一，单一的信息源本身存在数据信息不完全问题，而信息量不足还会带来推荐不准确，推荐结果单一，不能满足推荐对象多样化需求的问题。现有技术缺少通过加入多种类型的信息来缓解数据信息不完全的问题，鉴于以上所言，本发明将结合多元信息网络在推荐模型中融合多种类型的信息和联系，缓解单一信息源的数据信息不完全问题，提高推荐的准确度。

综合来看，现有技术主要存在以下几点缺陷：一是基于分类整理的代表性的解决方案明显没有针对性，不同使用者查询同一类信息，看到的内容都是完全一样的，没有考虑推荐对象之间的差异性和独特性；二是搜索引擎由于关键字依赖于推荐对象的输入，对使用者要求较高，没有考虑推荐对象的偏好，没有利用推荐对象的背景、个人相关信息，搜索结果与推荐对象的期望有一定的距离；三是现有技术的协同过滤推荐系统在生成推荐结果时，由于利用的信息源单一，一方面存在数据初始阶段推荐质量和数据信息不完全问题，虽通过预测填充的方式缓解数据信息不完全问题，但这些算法采用一次性填充的方式，只能在一定程度上缓解评分矩阵的稀疏性问题，仍然存在评分预测偏差过大甚至失真的问题，信息源的单一往往导致推荐结果的单调，不能满足推荐对象越来越多元化的需求，而试图融合多种推荐算法优点的混合推荐算法，运行复杂度非常高，但推荐效果却因组合单元而异，组合权重的选择耗费大量精力，实用价值很低。

发明内容

针对现有技术的不足，本发明提供的一种多元信息驱动的近似融合网络推荐传播方法，基于近似融合网络推荐传播算法，可以有效的改善传统的推荐算法信息源单一，数据初始阶段推荐质量问题，从近似融合网络推荐传播算法的三个关键步骤入手，将网络推荐系统中的参与者分为四种实体类和六种联系，根据实体间不同类型的联系，确定概率转移矩阵，然后基于三个假设原则：一是两个实体间的元路径数目越多，两个实体越相似，二是两个实体越相似，则它们对与之相连的实体间相似性贡献越大，三是实体间的路径越多两个实体越相似，提出了实体间相似性传播算法。本发明的方法有效融合了推荐对象、项目、标签、属性多种类型的信息及其联系，缓解了信息源单一带来的数据稀疏问题和数据初始阶段推荐质量问题，使得推荐结果更加多样化，推荐准确性明显提高。本发明的方法结构清晰逻辑清楚、鲁棒性健壮性好，计算复杂度适中、整体实现容易，能快速的推广到网络推荐系统应用中，运用效果较好，市场实用价值较大。

为达到以上技术效果，本发明所采用的技术方案如下：

一种多元信息驱动的近似融合网络推荐传播方法，基于抽象概念模型，建立多元信息融合推荐网络，将实体类间的联系具体到单个实体之间，对于不同类型的联系采用不同的赋值方法，初始化近似融合转移矩阵，最后进行近似融合网络推荐传播，计算得到推荐对象近似融合矩阵和项目近似融合矩阵；

多元信息驱动的近似融合网络推荐传播方法主要分为三大步：

第一步，建立多元信息融合推荐网络；

第二步，初始化近似融合转移矩阵；

第三步，近似融合网络推荐传播。

一种多元信息驱动的近似融合网络推荐传播方法，进一步的，第一定义为多元信息融合，信息网络可表示成图的形式A＝(C,F,W)，其中C＝C₁∪C₂∪C₃∪…C_t表示t种类型对象的集合，F＝F₁∪F₂∪F₃∪…F_n表示不同类型边的集合，如果实体i、j之间存在联系，则(c_i,c_j)∈F，W表示边的权值集合，特别的，当t≥2，信息网络为多元信息融合网络；

网络推荐系统中收集到的信息，分为四类实体：属性类、推荐对象类、项目类、标签类，将网络推荐系统中的实体和联系进行抽象，抽象概念模型表示出四类实体间和六类实体间不同类型的联系：推荐对象与属性之间的联系UP，推荐对象与项目之间的联系UI，推荐对象与标签之间的联系UT，项目与属性之间的联系IP，项目与标签之间的联系IT，将同构类型实体间的联系表示为B。

一种多元信息驱动的近似融合网络推荐传播方法，进一步的，第二定义为元路径：将多元信息融合中任意两个节点c_i、c_j之间长度为2的路径定义为元路径，表示为

其中l_im、l_mj表示相同或者不同类型的联系；

推荐对象类中的每一个推荐对象通过UP类型的联系与属性类相连，通过UI类型的联系与项目相连，通过UT类型的联系与标签相连，在多元信息融合中，基于随机游走模型融合多种类型的联系和实体的近似特征，对于推荐对象u₁、u₂，当u₁、u₂满足下列条件之一时，u₁、u₂之间存在元路径：

u₁、u₂具有相同属性p，

u₁、u₂具有相同的标签t，

u₁、u₂购买过相同的项目i，

如果两个推荐对象间元路径越多，则两推荐对象越近似，相反，如果两个推荐对象间的元路径很少甚至没有，则两个推荐对象近似度低；同理于项目之间、标签之间、属性之间和异构的实体之间；在多元信息融合中，实体之间因元路径而存在着一定相似性，本发明对这种蕴含在不同类型联系中的相似性进行建模计算，提高近似融合计算的准确性，提高基于协同过滤的评分预测的准确度。

一种多元信息驱动的近似融合网络推荐传播方法，进一步的，第一步，建立多元信息融合推荐网络中，推荐多元信息融合定义为：A_r＝(C,F,W)，其中，C＝C_u∪C_i∪C_t∪C_p，C_u表示推荐对象集合，C_i表示项目集合，C_t表示标签集合，C_p表示属性集合，F＝F_UP∪F_UI∪F_UT∪F_IP∪F_IT∪F_B，其中F_UP表示推荐对象与属性之间的联系，F_UI表示推荐对象与项目之间的联系，F_UT表示推荐对象与标签之间的联系，F_IP表示项目与属性之间的联系，F_IT表示项目与标签之间的联系，F_B表示同构实体间的联系；

推荐对象与属性：如果推荐对象u具有某个属性p，则<u,p>∈F_up∈F；

推荐对象与项目：如果推荐对象u购买了某个项目i，并有评分d，d*为d的加权平均数，则当且仅当d≥d*时，<u,i>∈F_uI∈F；

推荐对象与标签：如果推荐对象u被标记为t，则<u,t>∈F_uT∈F；

项目与属性：如果项目i具有某个属性p，则<i,p>∈F_IP∈F；

项目与标签：如果项目i被标记为t，则<i,t>∈F_IT∈F。

一种多元信息驱动的近似融合网络推荐传播方法，进一步的，第二步，初始化近似融合转移矩阵中，第三定义为近似融合转移概率矩阵：用U表示推荐对象集，I表示项目集，T表示标签集，P表示属性集，近似融合转移概率矩阵定义如下：

近似融合转移概率矩阵是对称矩阵，其中，t_uc∈T_UU表示推荐对象u与推荐对象c之间的近似融合转移概率，t_ui∈T_UI表示推荐对象u与项目i之间的近似融合转移概率，t_ut∈T_UT表示推荐对象u与标签t之间的近似融合转移概率，t_up∈T_UP表示推荐对象u与属性p之间的近似融合转移概率，t_ij∈T_II表示项目i与项目j之间的近似融合转移概率，t_it∈T_IT表示项目i与标签t之间的近似融合转移概率，t_ip∈T_IP表示项目i与属性p之间的近似融合转移概率，t_mn∈T_TT表示标签m与标签n之间近似融合转移概率，t_tp∈T_TP表示标签t与属性p之间的近似融合转移概率，t_pq∈T_PP表示属性p与属性q之间的近似融合转移概率；

在随机游走过程中，不同类型的联系具有不同程度的贡献，因此对于五种不同类型的联系F_UP、F_UI、F_UT、F_IP、F_IT，赋予不同的权重w_up、w_ui、w_ut、w_ip、w_it，同构实体间的联系，将权重设为g，将参数都初始化为1。

一种多元信息驱动的近似融合网络推荐传播方法，进一步的，属性与标签间概率转移矩阵初始化中，T_TP表示属性与标签之间的转移概率，属性和标签之间没有直接联系，因此T_TP为全0矩阵。

一种多元信息驱动的近似融合网络推荐传播方法，进一步的，属性间的概率转移矩阵初始化中，T_PP表示属性之间的转移概率，因为属性之间没有必然的联系，因此T_PP为全0矩阵。

一种多元信息驱动的近似融合网络推荐传播方法，进一步的，推荐对象与项目间转移矩阵初始化中，T_UI表示推荐对象与项目之间的转移概率；

如果推荐对象u_i购买项目I_j，且评分为s，如果s大于阈值h则e_ui＝1，否则e_ui＝0，即：

w_ui表示UI类型的联系所占的权重。

一种多元信息驱动的近似融合网络推荐传播方法，进一步的，推荐对象与属性间的转移矩阵初始化中，T_UP表示推荐对象与属性间的转移矩阵，如果推荐对象u_i具有某个属性p_j，则e_up＝1，否则e_up＝0，即：

其中，w_up表示UP类型联系的权重。

一种多元信息驱动的近似融合网络推荐传播方法，进一步的，第三步，近似融合网络推荐传播中，任意两个节点c₀、c_s之间如果存在长度为d路径，从c₀出发经过d次随机游走就可到达c_s，这条从c₀到c_s的路径就是长度为d的随机游走路径，在游走的过程中，当走到某个节点c_t时，或以节点c_t与其邻居节点之间的转移概率，选择一个节点继续游走，或以一定概率m重新开始，最后随机游走过程所产生节点序列是一条马尔科夫链；

随机游走路径由元路径组成的，元路径中蕴含着实体间的相似性，随机游走过程传播了实体间的相似性，节点间的相似与节点间随机游走的路径长度和数目有关，两个节点之间随机游走路径的数目越多，随机游走路径的长度越短，节点之间越相似；

计算推荐对象近似融合矩阵和项目近似融合矩阵，基于近似融合矩阵，构建评分预测图，生成预测节点序列，填充评分矩阵生成推荐列表，根据推荐列表完成网络推荐传播。

与现有技术相比，本发明的优点在于：

1.本发明提供的一种多元信息驱动的近似融合网络推荐传播方法，基于近似融合网络推荐传播算法，可以有效的改善传统的推荐算法信息源单一，数据初始阶段推荐质量问题，从近似融合网络推荐传播算法的三个关键步骤入手，将网络推荐系统中的参与者分为四种实体类和六种联系，根据实体间不同类型的联系，确定概率转移矩阵，然后基于三个假设原则：一是两个实体间的元路径数目越多，两个实体越相似，二是两个实体越相似，则它们对与之相连的实体间相似性贡献越大，三是实体间的路径越多两个实体越相似，提出了实体间相似性传播算法。本发明的方法有效融合了推荐对象、项目、标签、属性多种类型的信息及其联系，缓解了信息源单一带来的数据稀疏问题和数据初始阶段推荐质量问题，使得推荐结果更加多样化，推荐准确性明显提高。本发明的方法结构清晰逻辑清楚、鲁棒性健壮性好，计算复杂度适中、整体实现容易，能快速的推广到网络推荐系统应用中，运用效果较好，市场实用价值较大。

2.本发明提供的一种多元信息驱动的近似融合网络推荐传播方法，解决了基于分类整理的代表性的解决方案明显没有针对性，不同使用者查询同一类信息，看到的内容都是完全一样的，没有考虑推荐对象之间的差异性和独特性问题，将更多的信息融入信息网络，通过挖掘连接中的隐含信息以弥补信息不足，考虑潜在信息，建立新模型，网络推荐的专业性和针对性明显增强。

3.本发明提供的一种多元信息驱动的近似融合网络推荐传播方法，解决了现有技术的搜索引擎由于关键字依赖于推荐对象的输入，对使用者要求较高，没有考虑推荐对象的偏好的问题，无需推荐对象的主动输入，充分利用推荐对象的背景、个人相关信息，搜索结果与推荐对象的期望更加吻合。

4.本发明提供的一种多元信息驱动的近似融合网络推荐传播方法，解决了现有技术的网络推荐传播方法信息源单一带来的初始阶段推荐质量问题和数据信息不完全问题，解决了现有技术的推荐结果单调变化少的问题，预测填充不充分不准确的问题。改善了现有技术的推荐算法的缺陷，提出了一种多元信息驱动的近似融合网络推荐传播方法，近似融合网络推荐传播算法通过加入多种类型的信息，达到从多个角度分析推荐对象偏好的目的，弥补单一信息源的缺陷和不足，实现推荐信息的多样化和精准化。

附图说明

图1是本发明的多元信息驱动的近似融合网络推荐传播方法的基本流程图。

图2是本发明的的实体和联系的抽象概念模型示意图。

图3是本发明的构建出的多元信息融合网络示意图。

图4是本发明的多元信息融合网络中的推荐对象间的三种元路径信息示意图。

具体实施方式

下面结合附图，对本发明提供的一种多元信息驱动的近似融合网络推荐传播方法的技术方案进行进一步的描述，使本领域的技术人员可以更好的理解本发明并能予以实施。

参见图1至图4，本发明提供的一种多元信息驱动的近似融合网络推荐传播方法，基于抽象概念模型，建立多元信息融合推荐网络，将实体类间的联系具体到单个实体之间，对于不同类型的联系采用不同的赋值方法，初始化近似融合转移矩阵，最后进行近似融合网络推荐传播，计算得到推荐对象近似融合矩阵和项目近似融合矩阵；

第一步，建立多元信息融合推荐网络；

第二步，初始化近似融合转移矩阵；

第三步，近似融合网络推荐传播。

一、方法框架

在互联网数据挖掘领域，多元信息融合受到广泛关注，并与主题概率模型概率潜在语义分析和线性判别式分析结合，在微博排序、书目推荐、引用预测等方面取得了很好的效果。多元信息融合是一种特殊的信息网络，基于多元信息融合的互联网数据挖掘方法是将更多的信息融入信息网络，通过挖掘连接中的隐含信息以弥补信息不足，考虑潜在信息，建立新模型，多元信息融合的基本定义如下：

(一)第一定义，第一定义为多元信息融合：信息网络可表示成图的形式A＝(C,F,W)，其中C＝C₁∪C₂∪C₃∪…C_t表示t种类型对象的集合，F＝F₁∪F₂∪F₃∪…F_n表示不同类型边的集合，如果实体i、j之间存在联系，则(c_i,c_j)∈F，W表示边的权值集合，特别的，当t≥2，信息网络为多元信息融合网络。

网络推荐系统中，能收集到的信息，分为四类实体：属性类、推荐对象类、项目类、标签类，在四类实体中，除属性类与标签类之间没有必然的联系，其余任意两个实体类之间都可能存在联系，推荐对象的个人信息包含很多属性，例如年龄、薪资、性别等，另外推荐对象也有自己的标签，比如80后、漫画爱好者、爱读书等；对项目来说，项目特征描述的参数信息都是项目的属性，在很多系统中，项目都有自己的标签信息。因此，将网络推荐系统中的实体和联系进行抽象，抽象概念模型如图2所示。

抽象概念模型表示出四类实体间和六类实体间不同类型的联系：推荐对象与属性之间的联系UP，推荐对象与项目之间的联系UI，推荐对象与标签之间的联系UT，项目与属性之间的联系IP，项目与标签之间的联系IT，除此之外，将同构类型实体间的联系表示为B。

(二)第二定义，第二定义为元路径：将多元信息融合中任意两个节点c_i、c_j之间长度为2的路径定义为元路径，表示为

其中l_im、l_mj表示相同或者不同类型的联系。

推荐对象类中的每一个推荐对象通过UP类型的联系与属性类相连，通过UI类型的联系与项目相连，通过UT类型的联系与标签相连，本发明提出了一种近似融合网络推荐传播算法，在多元信息融合中，基于随机游走模型融合了多种类型的联系和实体的近似特征，在多元信息融合中，对于推荐对象u₁、u₂，当u₁、u₂满足下列条件之一时，u₁、u₂之间存在元路径：

(1)u₁、u₂具有相同属性p，

(2)u₁、u₂具有相同的标签t，

(3)u₁、u₂购买过相同的项目i，

多元信息驱动的近似融合网络推荐传播方法主要分为三大步：第一步，建立多元信息融合推荐网络；第二步，初始化近似融合转移矩阵；第三步，近似融合网络推荐传播；基本流程如图1所示，基于抽象概念模型，建立多元信息融合推荐网络，将六种实体类间的联系具体到单个实体之间，然后对多元信息融合中的边权进行赋值，对于不同类型的联系采用不同的赋值方法，从而初始化近似融合转移矩阵，最后进行近似融合网络推荐传播，计算出任意两个实体间的近似融合，得到推荐对象近似融合矩阵和项目近似融合矩阵。

二、方法步骤

(一)建立多元信息融合推荐网络

网络推荐系统是利用现有的推荐对象和项目的相关信息，对当前推荐对象推荐感兴趣或可能会购买的项目，随着互联网的日新月异，当前的推荐系统中可收集和利用的数据信息越来越广泛，当前的推荐系统中包含的实体主要可以分为四个类：推荐对象类、项目类、标签类、属性类，网络推荐系统中的实体关系主要有六大类：推荐对象与属性之间的联系UP，推荐对象与项目之间的联系UI，推荐对象与标签之间的联系UT，项目与属性之间的联系IP，项目与标签之间的联系IT和同构联系B。

推荐多元信息融合定义为：A_r＝(C,F,W)，其中，C＝C_u∪C_i∪C_t∪C_p，C_u表示推荐对象集合，C_i表示项目集合，C_t表示标签集合，C_p表示属性集合，F＝F_UP∪F_UI∪F_UT∪F_IP∪F_IT∪F_B，其中F_UP表示推荐对象与属性之间的联系，F_UI表示推荐对象与项目之间的联系，F_UT表示推荐对象与标签之间的联系，F_IP表示项目与属性之间的联系，F_IT表示项目与标签之间的联系，F_B表示同构实体间的联系。

项目与属性：如果项目i具有某个属性p，则<i,p>∈F_IP∈F；

项目与标签：如果项目i被标记为t，则<i,t>∈F_IT∈F；

构建出的多元信息融合网络如图3所示。

推荐多元信息融合中的推荐对象之间的三种元路径信息，如图4所示。

元路径蕴含潜在知识，蕴含实体间的相似性，购买同一个项目的推荐对象间具有一定的相似性，使用同一个标签的推荐对象间具有相似性，具有相同属性的推荐对象间具有相似性，以u₁、u₂为例，u₁、u₂看过的相同电影越多，u₁、u₂使用过的相同的标签越多，则两个推荐对象越相似，u₁、u₂相同的属性越多，两个推荐对象越相似。

实体间的相似性具有传播性，如图4所示，u₁、u₂之间，u₂和u₃由于存在一条或多条元路径而具有一定的相似性，u₁与u₃之间虽没有元路径信息，但由于二者都有元路径与u₂相连，因此它们之间也有相似性，u₁与u₃之间有一条随机游走路径，由两条或多条元路径组成。

(二)初始化近似融合转移矩阵

1.第三定义，第三定义为近似融合转移概率矩阵：用U表示推荐对象集，I表示项目集，T表示标签集，P表示属性集，近似融合转移概率矩阵定义如下：

近似融合转移概率矩阵是对称矩阵，其中，t_uc∈T_UU表示推荐对象u与推荐对象c之间的近似融合转移概率，t_ui∈T_UI表示推荐对象u与项目i之间的近似融合转移概率，t_ut∈T_UT表示推荐对象u与标签t之间的近似融合转移概率，t_up∈T_UP表示推荐对象u与属性p之间的近似融合转移概率，t_ij∈T_II表示项目i与项目j之间的近似融合转移概率，t_it∈T_IT表示项目i与标签t之间的近似融合转移概率，t_ip∈T_IP表示项目i与属性p之间的近似融合转移概率，t_mn∈T_TT表示标签m与标签n之间近似融合转移概率，t_tp∈T_TP表示标签t与属性p之间的近似融合转移概率，t_pq∈T_PP表示属性p与属性q之间的近似融合转移概率。

在随机游走过程中，不同类型的联系具有不同程度的贡献，因此对于五种不同类型的联系F_UP、F_UI、F_UT、F_IP、F_IT，赋予不同的权重w_up、w_ui、w_ut、w_ip、w_it，同构实体间的联系，将权重设为g，将参数都初始化为1，那么T中的每个子矩阵的初始化过程如下：

(1)属性与标签间概率转移矩阵初始化

T_TP表示属性与标签之间的转移概率，因为属性和标签之间没有直接联系，因此T_TP为全0矩阵。

(2)属性间的概率转移矩阵初始化

T_PP表示属性之间的转移概率，因为属性之间没有必然的联系，因此T_PP为全0矩阵。

(3)推荐对象间转移矩阵初始化

T_UU表示推荐对象之间的转移概率，推荐对象之间的相似性作为初始转移矩阵的值，当推荐对象之间有共同的评分项目时，使用改进的皮尔森系数衡量推荐对象实体间的相似性，

sim(u_i,u_j)表示推荐对象之间的相似性，P表示推荐对象u_i、u_j共同评分过的项目，r为评分，

分别表示推荐对象u_i、u_j的平均评分。

如果推荐对象没有共同的评分项目，则将两个推荐对象买的相同的项目数量在所买的所有项目所占的比例作为推荐对象间的近似融合。

P_i表示推荐对象u_i购买的项目集，P_j表示推荐对象u_j购买的项目集。

T_UU子矩阵的计算公式如公式所示，

其中，g是同构联系所占的权重。

(4)推荐对象与项目间转移矩阵初始化

T_UI表示推荐对象与项目之间的转移概率；

如果推荐对象u_i购买项目I_j，且评分为s，如果s大于阈值h，则e_ui＝1，否则e_ui＝0，即：

w_ui表示UI类型的联系所占的权重。

(5)推荐对象与标签间转移矩阵初始化

T_UT表示推荐对象与标签之间的转移概率，推荐对象与标签之间的相似性使用词频-逆向文件频率算法进行计算，推荐对象u_i使用标签t_j或被标记为标签t_j的次数越多，标签t_j的流行度越低，推荐对象u_i与标签t_j越相似。

e_ut取值为1或0，表示推荐对象是否使用过该标签，n_u,t表示推荐对象使用该标签的次数，

表示该标签被使用的总次数，w_ut表示UT类型联系的权重。

(6)推荐对象与属性间的转移矩阵初始化

T_UP表示推荐对象与属性间的转移矩阵，如果推荐对象u_i具有某个属性p_j，则e_up＝1，否则e_up＝0，即：

其中，w_up表示UP类型联系的权重。

(7)项目间转移矩阵的初始化

T_II表示项目之间的转移概率矩阵，项目之间的相似性作为初始转移矩阵的值。

当项目I_i、I_j有共同的推荐对象评分时，使用改进的皮尔森系数衡量项目实体间的相似性。

sim(I_i,I_j)表示项目I_i、I_j之间的相似性，U表示同时评分过I_i和I_j的推荐对象集，r为评分，

分别表示推荐对象u_i，u_j的平均评分。

如果项目I_i、I_j没有被相同的推荐对象评分过，则将同时购买了项目I_i和项目I_j的推荐对象数量在所有购买的推荐对象中所占的比例作为两推荐对象的相似性，

U_i表示购买了项目I_i的推荐对象集，U_j表示购买了项目I_j的推荐对象集。

T_II子矩阵的计算公式为：

其中，g是同构联系所占的权重。

(8)项目与标签间的转移矩阵初始化

T_IT表示项目与标签之间的转移概率，与推荐对象与标签转移矩阵初始化类似，采用词频-逆向文件频率算法计算项目与标签之间的相似性，项目I_i被标记为标签T_j的次数越多，且标签T_j的流行度越低，则I_i与T_j越相似，即:

e_it＝1表示项目被标签t标记过，n_i,t表示项目I_i被标签T_j标记过得的次数，n_t ⁽ⁱ⁾表示标签I_i被使用的总次数，w_it表示IT类型联系的权重。

(9)项目与属性间的转移概率矩阵初始化

T_IP表示项目与属性间的转移矩阵，如果项目I_i具有属性P_j，e_ip＝1，否则e_ip＝0，即：

其中，w_ip表示IP类型联系的权重。

(10)标签间的概率转移矩阵初始化

T_TT表示标签之间的转移概率，用标签之间的相似性表示标签之间的转移概率，b和b，分别表示标签，N(b)表示有标签b的项目集合，n_b,i表示为项目i打上标签b的推荐对象数目,

w_tt表示TT类型的联系所占的权重。

因为转移概率矩阵中，每一行相加之和为1，因此将概率转移矩阵中的数据进行归一化，对于矩阵项T_UU(i，j)，T_UI(i，j)，T_UT(i，j)，T_UP(i，j)，与所在行的总和

相除进行归一化，同样的，对矩阵项T_IU(i，j)，T_II(i，j)，T_IT(i，j)，T_IP(i，j)的归一化，也是用它除以这一行的和

对T_TU(i，j)，T_TI(i，j)，T_TT(i，j)，T_TP(i，j)的归一化是用它除以这一行的和

对矩阵项T_PU(i，j)，T_PI(i，j)，T_PT(i，j)，T_PP(i，j)的归一化也是用它除以这一行的总和即

(三)近似融合网络推荐传播

在多元信息融合中，任意两个节点c₀、c_s之间如果存在长度为d路径，从c₀出发经过d次随机游走就可到达c_s，这条从c₀到c_s的路径就是长度为d的随机游走路径，在游走的过程中，当走到某个节点c_t时，或以节点c_t与其邻居节点之间的转移概率，选择一个节点继续游走，或以一定概率m重新开始，不管何种方式，最后随机游走过程所产生节点序列是一条马尔科夫链。

随机游走路径由元路径组成的，元路径中蕴含着实体间的相似性，随机游走过程传播了实体间的相似性，因此节点间的相似与节点间随机游走的路径长度和数目有关，两个节点之间随机游走路径的数目越多，随机游走路径的长度越短，节点之间越相似。

因此，定义节点c_i、c_j的近似融合网络推荐传播公式如下：

sim(v_i，v_j)＝∑_q∈/p(k)m(l-m)^length(q)

l表示从c_i到c_j的一条路径，q是路径中的一个节点，length(q)表示从节点c_i到节点c_j的路径q的长度，p(k)为近似融合网络推荐函数，

上述公式，转换为矩阵形式则为近似融合矩阵，其计算为如下公式：

其中，R_UU是推荐对象近似融合矩阵，R_II是项目近似融合矩阵。

计算出推荐对象近似融合矩阵和项目近似融合矩阵后，依照现有技术的方法，基于近似融合矩阵，根据近邻选择方法或者其他方法构建评分预测图，然后按照影响越小越先预测的原则，生成预测节点序列，最后按照预测节点序列逐步有序填充评分矩阵，生成推荐列表，根据推荐列表完成网络推荐传播工作。

本发明提供的一种多元信息驱动的近似融合网络推荐传播方法，基于近似融合网络推荐传播算法，可以有效的改善传统的推荐算法信息源单一，数据初始阶段推荐质量问题。记载了近似融合网络推荐传播算法的基本框架和三个关键步骤：建立多元信息融合推荐网络、近初始化近似融合转移矩阵、近似融合网络推荐传播。从近似融合网络推荐传播算法的三个关键步骤入手，对近似融合网络推荐传播算法进行了详细的介绍。将网络推荐系统中的参与者分为四种实体类和六种联系，四种实体类分别为：推荐对象类、标签类、属性类、项目类，六种联系包括异构实体间的四种联系及同构实体间的一种联系：推荐对象与属性之间的联系UP，推荐对象与项目之间的联系UI，推荐对象与标签之间的联系UT，项目与属性之间的联系IP，项目与标签之间的联系IT，除此之外，同构类型实体间的联系H，根据实体间不同类型的联系，确定概率转移矩阵，然后基于三个假设原则：一是两个实体间的元路径数目越多，两个实体越相似，二是两个实体越相似，则它们对与之相连的实体间相似性贡献越大，三是实体间的路径越多两个实体越相似，提出了实体间相似性传播算法。本发明的方法有效融合了推荐对象、项目、标签、属性多种类型的信息及其联系，缓解了信息源单一带来的数据稀疏问题和数据初始阶段推荐质量问题，使得推荐结果更加多样化，推荐准确性明显提高。

Claims

1.一种多元信息驱动的近似融合网络推荐传播方法，其特征在于：基于抽象概念模型，建立多元信息融合推荐网络，将实体类间的联系具体到单个实体之间，对于不同类型的联系采用不同的赋值方法，初始化近似融合转移矩阵，最后进行近似融合网络推荐传播，计算得到推荐对象近似融合矩阵和项目近似融合矩阵；

第一步，建立多元信息融合推荐网络；

第二步，初始化近似融合转移矩阵；

第三步，近似融合网络推荐传播。

2.根据权利要求1所述的一种多元信息驱动的近似融合网络推荐传播方法，其特征在于，第一定义为多元信息融合，信息网络可表示成图的形式A＝(C,F,W)，其中C＝C₁∪C₂∪C₃∪…C_t表示t种类型对象的集合，F＝F₁∪F₂∪F₃∪…F_n表示不同类型边的集合，如果实体i、j之间存在联系，则(c_i,c_j)∈F，W表示边的权值集合，特别的，当t≥2，信息网络为多元信息融合网络；

3.根据权利要求1所述的一种多元信息驱动的近似融合网络推荐传播方法，其特征在于，第二定义为元路径：将多元信息融合中任意两个节点c_i、c_j之间长度为2的路径定义为元路径，表示为

其中l_im、l_mj表示相同或者不同类型的联系；

u₁、u₂具有相同属性p，

u₁、u₂具有相同的标签t，

u₁、u₂购买过相同的项目i，

如果两个推荐对象间元路径越多，则两推荐对象越近似，相反，如果两个推荐对象间的元路径很少甚至没有，则两个推荐对象近似度低；同理于项目之间、标签之间、属性之间和异构的实体之间；实体之间因元路径而存在着一定相似性，本发明对蕴含在不同类型联系中的相似性进行建模计算，提高近似融合计算的准确性，提高基于协同过滤的评分预测的准确度。

4.根据权利要求1所述的一种多元信息驱动的近似融合网络推荐传播方法，其特征在于，第一步，建立多元信息融合推荐网络中，推荐多元信息融合定义为：A_r＝(C,F,W)，其中，C＝C_u∪C_i∪C_t∪C_p，C_u表示推荐对象集合，C_i表示项目集合，C_t表示标签集合，C_p表示属性集合，F＝F_UP∪F_UI∪F_UT∪F_IP∪F_IT∪F_B，其中F_UP表示推荐对象与属性之间的联系，F_UI表示推荐对象与项目之间的联系，F_UT表示推荐对象与标签之间的联系，F_IP表示项目与属性之间的联系，F_IT表示项目与标签之间的联系，F_B表示同构实体间的联系；

项目与属性：如果项目i具有某个属性p，则<i,p>∈F_IP∈F；

项目与标签：如果项目i被标记为t，则<i,t>∈F_IT∈F。

5.根据权利要求1所述的一种多元信息驱动的近似融合网络推荐传播方法，其特征在于，第二步，初始化近似融合转移矩阵中，第三定义为近似融合转移概率矩阵：用U表示推荐对象集，I表示项目集，T表示标签集，P表示属性集，近似融合转移概率矩阵定义如下：

6.根据权利要求5所述的一种多元信息驱动的近似融合网络推荐传播方法，其特征在于，属性与标签间概率转移矩阵初始化中，T_TP表示属性与标签之间的转移概率，因为属性和标签之间没有直接联系，因此T_TP为全0矩阵。

7.根据权利要求5所述的一种多元信息驱动的近似融合网络推荐传播方法，其特征在于，属性间的概率转移矩阵初始化中，T_PP表示属性之间的转移概率，属性之间没有必然的联系，因此T_PP为全0矩阵。

8.根据权利要求5所述的一种多元信息驱动的近似融合网络推荐传播方法，其特征在于，推荐对象与项目间转移矩阵初始化中，T_UI表示推荐对象与项目之间的转移概率；

w_ui表示UI类型的联系所占的权重。

9.根据权利要求5所述的一种多元信息驱动的近似融合网络推荐传播方法，其特征在于，推荐对象与属性间的转移矩阵初始化中，T_UP表示推荐对象与属性间的转移矩阵，如果推荐对象u_i具有某个属性p_j，则e_up＝1，否则e_up＝0，即：

其中，w_up表示UP类型联系的权重。

10.根据权利要求1所述的一种多元信息驱动的近似融合网络推荐传播方法，其特征在于，第三步，近似融合网络推荐传播中，任意两个节点c₀、c_s之间如果存在长度为d路径，从c₀出发经过d次随机游走就可到达c_s，这条从c₀到c_s的路径就是长度为d的随机游走路径，在游走的过程中，当走到某个节点c_t时，或以节点c_t与其邻居节点之间的转移概率，选择一个节点继续游走，或以一定概率m重新开始，最后随机游走过程所产生节点序列是一条马尔科夫链；