CN111026974B - 一种基于过滤融合的预测方法 - Google Patents
一种基于过滤融合的预测方法 Download PDFInfo
- Publication number
- CN111026974B CN111026974B CN201911146446.4A CN201911146446A CN111026974B CN 111026974 B CN111026974 B CN 111026974B CN 201911146446 A CN201911146446 A CN 201911146446A CN 111026974 B CN111026974 B CN 111026974B
- Authority
- CN
- China
- Prior art keywords
- item
- matrix
- objects
- prediction
- sparse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 82
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开的一种基于过滤融合的预测方法,首先预测系统服务器获取每个对象对各个项目做出的行为记录以构建行为记录矩阵、每个对象的特征以构建对象特征矩阵、每个项目的特征以构建项目特征矩阵;然后预测系统服务器分别计算出基于对象的行为相似性矩阵、基于项目的行为相似性矩阵、对象特征相似性矩阵、项目特征相似性矩阵;通过定义稀疏系数,用其将内容过滤和协同过滤融合,并且寻找与给定对象或者项目最相似的N个对象或者项目;最后利用它们的相似性来设计滤波器,并且找到滤波器的最优参数。本发明考虑了传统预测的数据类型单一性和数据稀疏性对误差造成的影响,建立稀疏系数,将两种过滤思想有机地融合起来,从而降低了系统预测的误差。
Description
技术领域
本发明涉及信息与数据处理领域,特别涉及一种基于过滤融合的预测方法。
背景技术
当今世界数据与信息均呈现爆炸式增长,数据形态呈现出多维性与不完整性,甚至稀疏性。基于已知的存量数据对未知的缺失数据进行预测是预测系统的核心任务。预测系统利用已有的关于某些对象对特定项目的行为数据记录来预测类似对象对类似项目的行为。
协同过滤技术是推荐系统中应用最广泛的技术之一,其假设的前提是:如果两个对象(比如用户,但不局限于此)对部分已知项目(比如商品,但不局限于此)有相似的行为记录(比如评价记录,但不局限于此),那么这两个对象对于其他类似项目也可能做出相似的行为。故而协同过滤算法通过计算对象(或者项目)之间的相似性,找出给定对象(或者项目)的相似对象集(或者项目集),利用这些相似的对象(或者项目)的相关数据记录预测给定对象的未知行为。由此,协同过滤算法在一定程度上借鉴了其他对象的经验,来获得较准确的预测。
存量的行为记录往往是通过一个较为稀疏的矩阵实现,而行为记录矩阵的稀疏性会对预测的准确度造成较大影响。这个影响可以通过合理利用对象的特征和项目的特征得以减轻从而降低系统预测误差。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于过滤融合的预测方法,能够减轻行为记录矩阵稀疏性和算法单一性的影响。
本发明的目的通过以下的技术方案实现:
一种基于过滤融合的预测方法,其预测系统服务器获取如下信息:
(a)每个对象对各个项目做出的行为记录以构建行为记录矩阵;
(b)每个对象的特征以构建对象特征矩阵;
(c)每个项目的特征以构建项目特征矩阵。
然后预测系统服务器分别计算出基于对象的行为相似性矩阵B、基于项目的行为相似性矩阵C、对象特征相似性矩阵E、项目特征相似性矩阵F。通过定义稀疏系数,用其将内容过滤和协同过滤融合,并且寻找与给定对象(或者项目)最相似的N个对象(或者项目)。最后,利用它们的相似性并基于一定规则来设计滤波器,并且找到滤波器的最优参数。
该方法具体包括以下步骤:
S1、预测系统服务器获取每个对象对各个项目做出的行为记录,分为训练集数据和测试集数据,并且建立行为记录矩阵;
S2、预测系统服务器获取每个对象的特征和每个项目的特征,并建立对象特征矩阵和项目特征矩阵;
S3、基于协同过滤算法,预测系统服务器根据行为记录计算出基于对象的行为相似性矩阵B和基于项目的行为相似性矩阵C;基于内容过滤算法,预测系统服务器根据对象自身特征计算出对象特征相似性矩阵E,根据项目特征计算出项目相似性矩阵F;
S4、预测系统服务器通过实际获取数据量、对象数目和项目数目定义稀疏系数,并用稀疏系数将内容过滤法和协同过滤法融合,得到对象相似性矩阵B_new和项目相似性矩阵C_new;
S5、对于某一给定对象或者项目,预测系统服务器寻找与其最相似的N个对象或者项目,利用它们之间的相似性设计一个滤波器以最小化预测误差,并且找到各阶滤波器最优的系数;
S6、预测系统服务器利用设计好的滤波器来预测某些给定对象有可能做出但未做出或者某些给定对象有做出过但是缺乏数据记录的行为。
所述行为记录矩阵,其矩阵行数为对象数目,矩阵列数为项目数目。
所述行为记录矩阵,其未知的对象对项目的行为记录用0表示。
所述稀疏系数,定义为:稀疏系数Sparse=(实际训练集的数据量)/(评分矩阵的行数*评分矩阵的列数)。
所述对象相似性矩阵B_new=(Sparse*项目数目)/(Sparse*项目数目+对象特征数目)*B+(对象特征数)/(Sparse*项目数目+对象特征数目)*E;融合后的项目相似性矩阵为C_new=(Sparse*对象数目)/(Sparse*对象数目+项目特征数目)*C+(项目特征数目)/(Sparse*对象数目+项目特征数目)*F。
一种基于过滤融合的预测方法,包括以下步骤:
步骤S101、预测系统获取每个对象对各个项目做出的评级记录,建立评价矩阵R;特别地,未做出评价的用0表示,对象数目用n表示,项目数目用m表示,实际数据量为p条,训练集数据为Rtrain,测试集数据为Rtest;
步骤S102、预测系统获取每个对象的特征和每个项目的特征并建立对象特征矩阵和项目特征矩阵;
步骤S103、选取一种相关系数计算方法,得出相似性矩阵B、C、E和F;
步骤S104、计算出稀疏系数;
步骤S105、计算融合后的对象相似性矩阵B_new=(Sparse*m)/(Sparse*m+对象特征数)*B+(对象特征数)/(Sparse*m+对象特征数)*E;项目相似性矩阵C_new=(Sparse*n)/(Sparse*n+项目特征数)*C+(项目特征数)/(Sparse*n+项目特征数)*F;
步骤S106、通过B_new和C_new选出最相似的N个对象或者项目,建立滤波器,利用它们之间的相似性设计一个滤波器以最小化预测误差,并且找到各阶滤波器最优的系数;
步骤S107、利用上一步骤设计好的滤波器对未知的评级做出预测。
所述对象的特征包括用户年龄、性别、职业,所述项目的特征包括商品的类别、上市年份。
所述相关系数包括Pearson相关系数。
所述最小化预测误差通过最小二乘法实现,所述预测误差可以通过如下公式计算:
本发明与现有技术相比,具有如下优点和有益效果:
本发明建立了稀疏系数的概念,将内容过滤算法和协同过滤算法融合在一起,降低数据的稀疏性和算法的单一性对误差造成的影响,提高了该预测系统的灵活性和预测的准确性。另外,仿真结果表明,采用本发明方法的预测系统可任意降低部分滤波器的阶数,达到降低模型复杂度的目的。
本发明考虑了传统预测的数据类型单一性和数据稀疏性对误差造成的影响,建立稀疏系数,将两种过滤思想有机地融合起来,从而降低了系统预测的误差。
附图说明
图1为本发明所述一种基于过滤融合的预测方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
一种基于过滤融合的预测方法,包括以下步骤:
S1、预测系统服务器获取每个对象对各个项目做出的行为记录,分为训练集数据和测试集数据,并且建立行为记录矩阵;
S2、预测系统服务器获取每个对象的特征和每个项目的特征,并建立对象特征矩阵和项目特征矩阵;
S3、基于协同过滤算法,预测系统服务器根据行为记录计算出基于对象的行为相似性矩阵B和基于项目的行为相似性矩阵C;基于内容过滤算法,预测系统服务器根据对象自身特征计算出对象特征相似性矩阵E,根据项目特征计算出项目相似性矩阵F;
S4、预测系统服务器通过实际获取数据量、对象数目和项目数目定义稀疏系数,并用稀疏系数将内容过滤法和协同过滤法融合,得到对象相似性矩阵B_new和项目相似性矩阵C_new;
S5、对于某一给定对象或者项目,预测系统服务器寻找与其最相似的N个对象或者项目,利用它们之间的相似性并基于一定的规则来设计一个滤波器以最小化预测误差,并且找到各阶滤波器最优的系数;
S6、预测系统服务器利用设计好的滤波器来预测某些给定对象有可能做出但未做出或者某些给定对象有做出过但是缺乏数据记录的行为。
所述行为记录矩阵,其矩阵行数为对象数目,矩阵列数为项目数目。
所述行为记录矩阵,其未知的对象对项目的行为记录用0表示。
所述稀疏系数,定义为:稀疏系数Sparse=(实际训练集的数据量)/(评分矩阵的行数*评分矩阵的列数)。
所述对象相似性矩阵B_new=(Sparse*项目数目)/(Sparse*项目数目+对象特征数目)*B+(对象特征数)/(Sparse*项目数目+对象特征数目)*E;融合后的项目相似性矩阵为C_new=(Sparse*对象数目)/(Sparse*对象数目+项目特征数目)*C+(项目特征数目)/(Sparse*对象数目+项目特征数目)*F。
具体地,如图1,一种基于过滤融合的预测方法,包括以下步骤:
步骤S101、预测系统获取每个对象对各个项目做出的评级记录,建立评价矩阵R;特别地,未做出评价的用0表示,对象数目用n表示,项目数目用m表示,实际数据量为p条,训练集数据为Rtrain,测试集数据为Rtest;
步骤S102、预测系统获取每个对象的特征和每个项目的特征并建立对象特征矩阵和项目特征矩阵,例如对象的特征可以为(但不局限于)用户年龄,性别,职业等等,项目的特征可以为(但不局限于)商品的类别、上市年份等等;
步骤S103、选取一种相关系数计算方法,例如(但不局限于)Pearson相关系数,得出相似性矩阵B、C、E和F;
步骤S104、根据一定规则计算出稀疏系数,例如(但不局限于)Sparse=p/(m*n);
步骤S105、根据一定规则计算融合后的对象相似性矩阵,例如(但不局限于)B_new=(Sparse*m)/(Sparse*m+对象特征数)*B+(对象特征数)/(Sparse*m+对象特征数)*E;项目相似性矩阵C_new=(Sparse*n)/(Sparse*n+项目特征数)*C+(项目特征数)/(Sparse*n+项目特征数)*F;
步骤S106、通过B_new和C_new选出最相似的N个对象(或者项目),建立滤波器,例如(但不局限于此)可通过一定的规则最优化滤波器系数,例如(但不局限于)用最小二乘法最小化预测误差,预测误差可以(但不局限于)利用如下公式计算
步骤S107、利用上一步骤设计好的滤波器对未知的评级做出预测。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于过滤融合的预测方法,其特征在于,包括以下步骤:
S1、预测系统服务器获取每个对象对各个项目做出的行为记录,分为训练集数据和测试集数据,并且建立行为记录矩阵;
S2、预测系统服务器获取每个对象的特征和每个项目的特征,并建立对象特征矩阵和项目特征矩阵;
S3、基于协同过滤算法,预测系统服务器根据行为记录计算出基于对象的行为相似性矩阵B和基于项目的行为相似性矩阵C;基于内容过滤算法,预测系统服务器根据对象自身特征计算出对象特征相似性矩阵E,根据项目特征计算出项目相似性矩阵F;
S4、预测系统服务器通过实际获取数据量、对象数目和项目数目定义稀疏系数,并用稀疏系数将内容过滤法和协同过滤法融合,得到对象相似性矩阵B_new和项目相似性矩阵C_new;
所述稀疏系数,定义为:稀疏系数Sparse=(实际训练集的数据量)/(评价矩阵的行数*评价矩阵的列数);
所述对象相似性矩阵B_new=(Sparse*项目数目)/(Sparse*项目数目+对象特征数目)*B+(对象特征数)/(Sparse*项目数目+对象特征数目)*E;融合后的项目相似性矩阵为C_new=(Sparse*对象数目)/(Sparse*对象数目+项目特征数目)*C+(项目特征数目)/(Sparse*对象数目+项目特征数目)*F;
S5、对于某一给定对象或者项目,预测系统服务器寻找与其最相似的N个对象或者项目,利用它们之间的相似性设计一个滤波器以最小化预测误差,并且找到各阶滤波器最优的系数;
S6、预测系统服务器利用设计好的滤波器来预测某些给定对象有可能做出但未做出或者某些给定对象有做出过但是缺乏数据记录的行为;
具体包括以下步骤:
步骤S101、预测系统获取每个对象对各个项目做出的评级记录,建立评价矩阵R;特别地,未做出评价的用0表示,对象数目用n表示,项目数目用m表示,实际数据量为p条,训练集数据为Rtrain,测试集数据为Rtest;
步骤S102、预测系统获取每个对象的特征和每个项目的特征并建立对象特征矩阵和项目特征矩阵;
步骤S103、选取一种相关系数计算方法,得出相似性矩阵B、C、E和F;
步骤S104、计算出稀疏系数;
步骤S105、计算融合后的对象相似性矩阵B_new=(Sparse*m)/(Sparse*m+对象特征数)*B+(对象特征数)/(Sparse*m+对象特征数)*E;项目相似性矩阵C_new=(Sparse*n)/(Sparse*n+项目特征数)*C+(项目特征数)/(Sparse*n+项目特征数)*F;
步骤S106、通过B_new和C_new选出最相似的N个对象或者项目,建立滤波器,利用它们之间的相似性设计一个滤波器以最小化预测误差,并且找到各阶滤波器最优的系数;
步骤S107、利用上一步骤设计好的滤波器对未知的评级做出预测。
2.根据权利要求1所述基于过滤融合的预测方法,其特征在于,所述行为记录矩阵,其矩阵行数为对象数目,矩阵列数为项目数目。
3.根据权利要求1所述基于过滤融合的预测方法,其特征在于,所述行为记录矩阵,其未知的对象对项目的行为记录用0表示。
4.根据权利要求1所述基于过滤融合的预测方法,其特征在于,所述对象的特征包括用户年龄、性别、职业,所述项目的特征包括商品的类别、上市年份。
5.根据权利要求1所述基于过滤融合的预测方法,其特征在于,所述相关系数包括Pearson相关系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911146446.4A CN111026974B (zh) | 2019-11-21 | 2019-11-21 | 一种基于过滤融合的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911146446.4A CN111026974B (zh) | 2019-11-21 | 2019-11-21 | 一种基于过滤融合的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111026974A CN111026974A (zh) | 2020-04-17 |
CN111026974B true CN111026974B (zh) | 2023-04-28 |
Family
ID=70206067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911146446.4A Active CN111026974B (zh) | 2019-11-21 | 2019-11-21 | 一种基于过滤融合的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026974B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320461A (zh) * | 2008-07-01 | 2008-12-10 | 浙江大学 | 基于电阻网络和稀疏数据预测的协同过滤方法 |
CN106021329A (zh) * | 2016-05-06 | 2016-10-12 | 西安电子科技大学 | 基于用户相似度的稀疏数据协同过滤推荐方法 |
-
2019
- 2019-11-21 CN CN201911146446.4A patent/CN111026974B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320461A (zh) * | 2008-07-01 | 2008-12-10 | 浙江大学 | 基于电阻网络和稀疏数据预测的协同过滤方法 |
CN106021329A (zh) * | 2016-05-06 | 2016-10-12 | 西安电子科技大学 | 基于用户相似度的稀疏数据协同过滤推荐方法 |
Non-Patent Citations (1)
Title |
---|
庞海龙 ; 赵辉 ; 李万龙 ; 马莹 ; 崔岩 ; .融合协同过滤的线性回归推荐算法.计算机应用研究.2018,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111026974A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11748379B1 (en) | Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis | |
Frohlich et al. | A taxonomy of manufacturing strategies revisited | |
CN112131480B (zh) | 基于多层异质属性网络表征学习的个性化商品推荐方法及系统 | |
US10007655B2 (en) | Table size dependent transaction target table display | |
CN106471491A (zh) | 一种时变的协同过滤推荐方法 | |
CN109918563B (zh) | 一种基于公开数据的图书推荐的方法 | |
Ba et al. | Clustering collaborative filtering recommendation system based on SVD algorithm | |
CN107220365A (zh) | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 | |
CN105608600A (zh) | 一种对b2b卖家效果评估和优化方法 | |
CN107256238B (zh) | 一种多约束条件下的个性化信息推荐方法及信息推荐系统 | |
CN112100512A (zh) | 一种基于用户聚类和项目关联分析的协同过滤推荐方法 | |
CN115860880B (zh) | 基于多层异质图卷积模型的个性化商品推荐方法及系统 | |
CN112613953A (zh) | 一种商品选品方法、系统及计算机可读存储介质 | |
CN111310038A (zh) | 信息推荐方法、装置、电子设备及计算机可读存储介质 | |
CN108920709B (zh) | 基于随机森林修正的大数据下改进协同过滤推荐方法 | |
CN109977299A (zh) | 一种融合项目热度和专家系数的推荐算法 | |
CN104899321A (zh) | 一种基于项目属性评分均值的协同过滤推荐方法 | |
CN114386513A (zh) | 一种集成评论与评分的交互式评分预测方法及系统 | |
CN113239266B (zh) | 基于局部矩阵分解的个性化推荐方法及系统 | |
CN111026974B (zh) | 一种基于过滤融合的预测方法 | |
CN110020918B (zh) | 一种推荐信息生成方法和系统 | |
CN116911949A (zh) | 基于边界排名损失和邻域感知图神经网络的物品推荐方法 | |
CN108763515B (zh) | 一种基于概率矩阵分解的时间敏感个性化推荐方法 | |
Aras et al. | Forecasting Hotel Room Sales within Online Travel Agencies by Combining Multiple Feature Sets. | |
CN109344329B (zh) | 一种改良Widrow-Hoff网络的用户偏好协同推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |