CN111026974B

CN111026974B - 一种基于过滤融合的预测方法

Info

Publication number: CN111026974B
Application number: CN201911146446.4A
Authority: CN
Inventors: 马碧云; 康琦; 丁跃华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-04-28
Anticipated expiration: 2039-11-21
Also published as: CN111026974A

Abstract

本发明公开的一种基于过滤融合的预测方法，首先预测系统服务器获取每个对象对各个项目做出的行为记录以构建行为记录矩阵、每个对象的特征以构建对象特征矩阵、每个项目的特征以构建项目特征矩阵；然后预测系统服务器分别计算出基于对象的行为相似性矩阵、基于项目的行为相似性矩阵、对象特征相似性矩阵、项目特征相似性矩阵；通过定义稀疏系数，用其将内容过滤和协同过滤融合，并且寻找与给定对象或者项目最相似的N个对象或者项目；最后利用它们的相似性来设计滤波器，并且找到滤波器的最优参数。本发明考虑了传统预测的数据类型单一性和数据稀疏性对误差造成的影响，建立稀疏系数，将两种过滤思想有机地融合起来，从而降低了系统预测的误差。

Description

一种基于过滤融合的预测方法

技术领域

本发明涉及信息与数据处理领域，特别涉及一种基于过滤融合的预测方法。

背景技术

当今世界数据与信息均呈现爆炸式增长，数据形态呈现出多维性与不完整性，甚至稀疏性。基于已知的存量数据对未知的缺失数据进行预测是预测系统的核心任务。预测系统利用已有的关于某些对象对特定项目的行为数据记录来预测类似对象对类似项目的行为。

协同过滤技术是推荐系统中应用最广泛的技术之一，其假设的前提是：如果两个对象(比如用户，但不局限于此)对部分已知项目(比如商品，但不局限于此)有相似的行为记录(比如评价记录，但不局限于此)，那么这两个对象对于其他类似项目也可能做出相似的行为。故而协同过滤算法通过计算对象(或者项目)之间的相似性，找出给定对象(或者项目)的相似对象集(或者项目集)，利用这些相似的对象(或者项目)的相关数据记录预测给定对象的未知行为。由此，协同过滤算法在一定程度上借鉴了其他对象的经验，来获得较准确的预测。

存量的行为记录往往是通过一个较为稀疏的矩阵实现，而行为记录矩阵的稀疏性会对预测的准确度造成较大影响。这个影响可以通过合理利用对象的特征和项目的特征得以减轻从而降低系统预测误差。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于过滤融合的预测方法，能够减轻行为记录矩阵稀疏性和算法单一性的影响。

本发明的目的通过以下的技术方案实现：

一种基于过滤融合的预测方法，其预测系统服务器获取如下信息：

(a)每个对象对各个项目做出的行为记录以构建行为记录矩阵；

(b)每个对象的特征以构建对象特征矩阵；

(c)每个项目的特征以构建项目特征矩阵。

然后预测系统服务器分别计算出基于对象的行为相似性矩阵B、基于项目的行为相似性矩阵C、对象特征相似性矩阵E、项目特征相似性矩阵F。通过定义稀疏系数，用其将内容过滤和协同过滤融合，并且寻找与给定对象(或者项目)最相似的N个对象(或者项目)。最后，利用它们的相似性并基于一定规则来设计滤波器，并且找到滤波器的最优参数。

该方法具体包括以下步骤：

S1、预测系统服务器获取每个对象对各个项目做出的行为记录，分为训练集数据和测试集数据，并且建立行为记录矩阵；

S2、预测系统服务器获取每个对象的特征和每个项目的特征，并建立对象特征矩阵和项目特征矩阵；

S3、基于协同过滤算法，预测系统服务器根据行为记录计算出基于对象的行为相似性矩阵B和基于项目的行为相似性矩阵C；基于内容过滤算法，预测系统服务器根据对象自身特征计算出对象特征相似性矩阵E，根据项目特征计算出项目相似性矩阵F；

S4、预测系统服务器通过实际获取数据量、对象数目和项目数目定义稀疏系数，并用稀疏系数将内容过滤法和协同过滤法融合，得到对象相似性矩阵B_new和项目相似性矩阵C_new；

S5、对于某一给定对象或者项目，预测系统服务器寻找与其最相似的N个对象或者项目，利用它们之间的相似性设计一个滤波器以最小化预测误差，并且找到各阶滤波器最优的系数；

S6、预测系统服务器利用设计好的滤波器来预测某些给定对象有可能做出但未做出或者某些给定对象有做出过但是缺乏数据记录的行为。

所述行为记录矩阵，其矩阵行数为对象数目，矩阵列数为项目数目。

所述行为记录矩阵，其未知的对象对项目的行为记录用0表示。

所述稀疏系数，定义为：稀疏系数Sparse＝(实际训练集的数据量)/(评分矩阵的行数*评分矩阵的列数)。

所述对象相似性矩阵B_new＝(Sparse*项目数目)/(Sparse*项目数目+对象特征数目)*B+(对象特征数)/(Sparse*项目数目+对象特征数目)*E；融合后的项目相似性矩阵为C_new＝(Sparse*对象数目)/(Sparse*对象数目+项目特征数目)*C+(项目特征数目)/(Sparse*对象数目+项目特征数目)*F。

一种基于过滤融合的预测方法，包括以下步骤：

步骤S101、预测系统获取每个对象对各个项目做出的评级记录，建立评价矩阵R；特别地，未做出评价的用0表示，对象数目用n表示，项目数目用m表示，实际数据量为p条，训练集数据为R_train，测试集数据为R_test；

步骤S102、预测系统获取每个对象的特征和每个项目的特征并建立对象特征矩阵和项目特征矩阵；

步骤S103、选取一种相关系数计算方法，得出相似性矩阵B、C、E和F；

步骤S104、计算出稀疏系数；

步骤S105、计算融合后的对象相似性矩阵B_new＝(Sparse*m)/(Sparse*m+对象特征数)*B+(对象特征数)/(Sparse*m+对象特征数)*E；项目相似性矩阵C_new＝(Sparse*n)/(Sparse*n+项目特征数)*C+(项目特征数)/(Sparse*n+项目特征数)*F；

步骤S106、通过B_new和C_new选出最相似的N个对象或者项目，建立滤波器，利用它们之间的相似性设计一个滤波器以最小化预测误差，并且找到各阶滤波器最优的系数；

步骤S107、利用上一步骤设计好的滤波器对未知的评级做出预测。

所述对象的特征包括用户年龄、性别、职业，所述项目的特征包括商品的类别、上市年份。

所述相关系数包括Pearson相关系数。

所述最小化预测误差通过最小二乘法实现，所述预测误差可以通过如下公式计算：

本发明与现有技术相比，具有如下优点和有益效果：

本发明建立了稀疏系数的概念，将内容过滤算法和协同过滤算法融合在一起，降低数据的稀疏性和算法的单一性对误差造成的影响，提高了该预测系统的灵活性和预测的准确性。另外，仿真结果表明，采用本发明方法的预测系统可任意降低部分滤波器的阶数，达到降低模型复杂度的目的。

本发明考虑了传统预测的数据类型单一性和数据稀疏性对误差造成的影响，建立稀疏系数，将两种过滤思想有机地融合起来，从而降低了系统预测的误差。

附图说明

图1为本发明所述一种基于过滤融合的预测方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

一种基于过滤融合的预测方法，包括以下步骤：

S5、对于某一给定对象或者项目，预测系统服务器寻找与其最相似的N个对象或者项目，利用它们之间的相似性并基于一定的规则来设计一个滤波器以最小化预测误差，并且找到各阶滤波器最优的系数；

具体地，如图1，一种基于过滤融合的预测方法，包括以下步骤：

步骤S102、预测系统获取每个对象的特征和每个项目的特征并建立对象特征矩阵和项目特征矩阵，例如对象的特征可以为(但不局限于)用户年龄，性别，职业等等，项目的特征可以为(但不局限于)商品的类别、上市年份等等；

步骤S103、选取一种相关系数计算方法，例如(但不局限于)Pearson相关系数，得出相似性矩阵B、C、E和F；

步骤S104、根据一定规则计算出稀疏系数，例如(但不局限于)Sparse＝p/(m*n)；

步骤S105、根据一定规则计算融合后的对象相似性矩阵，例如(但不局限于)B_new＝(Sparse*m)/(Sparse*m+对象特征数)*B+(对象特征数)/(Sparse*m+对象特征数)*E；项目相似性矩阵C_new＝(Sparse*n)/(Sparse*n+项目特征数)*C+(项目特征数)/(Sparse*n+项目特征数)*F；

步骤S106、通过B_new和C_new选出最相似的N个对象(或者项目)，建立滤波器，例如(但不局限于此)可通过一定的规则最优化滤波器系数，例如(但不局限于)用最小二乘法最小化预测误差，预测误差可以(但不局限于)利用如下公式计算

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于过滤融合的预测方法，其特征在于，包括以下步骤：

所述稀疏系数，定义为：稀疏系数Sparse＝(实际训练集的数据量)/(评价矩阵的行数*评价矩阵的列数)；

所述对象相似性矩阵B_new＝(Sparse*项目数目)/(Sparse*项目数目+对象特征数目)*B+(对象特征数)/(Sparse*项目数目+对象特征数目)*E；融合后的项目相似性矩阵为C_new＝(Sparse*对象数目)/(Sparse*对象数目+项目特征数目)*C+(项目特征数目)/(Sparse*对象数目+项目特征数目)*F；

S6、预测系统服务器利用设计好的滤波器来预测某些给定对象有可能做出但未做出或者某些给定对象有做出过但是缺乏数据记录的行为；

具体包括以下步骤：

步骤S104、计算出稀疏系数；

2.根据权利要求1所述基于过滤融合的预测方法，其特征在于，所述行为记录矩阵，其矩阵行数为对象数目，矩阵列数为项目数目。

3.根据权利要求1所述基于过滤融合的预测方法，其特征在于，所述行为记录矩阵，其未知的对象对项目的行为记录用0表示。

4.根据权利要求1所述基于过滤融合的预测方法，其特征在于，所述对象的特征包括用户年龄、性别、职业，所述项目的特征包括商品的类别、上市年份。

5.根据权利要求1所述基于过滤融合的预测方法，其特征在于，所述相关系数包括Pearson相关系数。

6.根据权利要求1所述基于过滤融合的预测方法，其特征在于，所述最小化预测误差通过最小二乘法实现，所述预测误差通过如下公式计算：