CN109816015B - 一种基于材料数据的推荐方法及系统 - Google Patents
一种基于材料数据的推荐方法及系统 Download PDFInfo
- Publication number
- CN109816015B CN109816015B CN201910060291.6A CN201910060291A CN109816015B CN 109816015 B CN109816015 B CN 109816015B CN 201910060291 A CN201910060291 A CN 201910060291A CN 109816015 B CN109816015 B CN 109816015B
- Authority
- CN
- China
- Prior art keywords
- material data
- user
- data
- recommendation
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于材料数据的推荐方法及系统,涉及数据推荐技术领域,能够混合基于内容和基于协同过滤的推荐方法,结合两者的优点,转换评价值为输入向量,实现线下训练预测模型和线上利用模型进行推荐,从而有效地提高系统的推荐性能;该方法步骤包括:S1、根据爬取的数据得到材料数据内容属性信息的特征向量表示和用户‑材料数据评价矩阵;S2、分别基于内容和基于协同过滤进行聚类,得到内容隶属度矩阵、材料数据隶属度矩阵和用户隶属度矩阵;S3、将内容隶属度矩阵和材料数据隶属度矩阵进行线性组合,再串联用户隶属度矩阵,得到输入向量;S4、训练模型并利用模型预测评估。本发明提供的技术方案适用于材料数据的推荐过程中。
Description
【技术领域】
本发明涉及数据推荐技术领域,尤其涉及一种基于材料数据的推荐方法及系统。
【背景技术】
随着Web 2.0技术的发展,信息过载是网络用户面临的主要问题。面对如何在海量数据中探索到用户偏好的信息,提高用户满意度以及网站的收益率的难题,推荐系统应运而生。历经二十多年的发展,推荐系统的应用遍及电子商务、音乐视频、文献图书、餐饮娱乐等诸多领域。学术界、工业界对推荐算法的研究热情高涨,推荐算法研究已成为一门独立的学科。
传统的推荐算法大致分为三类:基于内容的推荐算法,基于协同过滤的推荐算法以及混合推荐算法。其中,基于协同过滤的推荐算法又分为基于记忆的协同过滤和基于模型的协同过滤。推荐算法任务的第一步是进行预测,包括评分预测和排位预测,然后再进行推荐。传统的基于内容的推荐算法有较强的解释性,但缺乏用户隐含偏好的挖掘能力;基于协同过滤的推荐算法能处理难以进行内容分析的数据,具有发现用户隐含偏好的能力,但存在数据稀疏性、冷启动性、可扩展性等问题。因此,各种混合推荐算法应运而生。本发明所提供的关于材料数据的混合推荐算法利用深度学习、机器学习方法,在混合基于内容和基于协同过滤算法的基础上,利用聚类算法和机器学习预测模型,转换用户-材料数据评价值为输入向量,线下训练机器学习预测模型,线上利用模型进行推荐,从而有效地提高了系统推荐性能。
【发明内容】
有鉴于此,本发明提供了一种基于材料数据的推荐方法及系统,能够混合基于内容和基于协同过滤的推荐方法,结合两者的优点,转换评价值为输入向量,实现线下训练预测模型和线上利用模型进行推荐,从而有效地提高系统的推荐性能。
一方面,本发明提供一种基于材料数据的推荐方法,其特征在于,具体步骤包括:
S1、爬取材料数据内容属性信息和用户历史评分数据;
S2、根据S1中爬取的数据得到材料数据内容属性信息的特征向量表示和用户-材料数据评价矩阵;
S3、对S2中的特征向量表示进行聚类,得到内容隶属度矩阵;
S4、对S2中的用户-材料数据评价矩阵分别进行材料数据聚类和用户聚类,得到材料数据隶属度矩阵和用户隶属度矩阵;
S5、将所述内容隶属度矩阵和所述材料数据隶属度矩阵进行线性组合,得到复合隶属度矩阵;将所述复合隶属度矩阵和所述用户隶属度矩阵进行串联,得到输入向量;
S6、根据S2中的用户-材料数据评价矩阵和S5中的输入向量训练学习模型,并用训练好的学习模型进行推荐工作。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S1中的所述材料数据内容属性信息包括材料数据的名称、类别和摘要描述;所述用户历史评分数据为用户对所述材料数据内容属性信息的评分信息,采用不同的分值表示用户偏好。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S2的具体步骤包括:
S21、将S1得到的材料数据内容属性信息向量化;
S22、对所述用户-材料数据评价矩阵中尚未被评价的材料数据做出评价补充,得到完整的所述用户-材料数据评价矩阵。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S21的具体步骤包括:
S211、对所述材料数据内容属性信息进行分词处理;
S212、将经S201处理后的结果表征成高维稀疏表示;
S213、对所述高维稀疏表示进行特征选择,选出兼顾统计和语义信息的低维密集表示。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S3中的聚类使用的聚类方法为k-means聚类算法;所述S4中的聚类使用的聚类方法为FCM聚类算法。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S6的具体步骤包括:
S601、将S2中的用户-材料数据评价矩阵分为训练集和测试集;
S602、用训练集的数据和S5中的输入向量训练学习模型;
S603、用训练好的学习模型对测试集进行预测,评估学习模型的准确度和推荐方法的准确度;
S604、用训练好的学习模型预测S2中用户-材料数据评价矩阵中缺失的项,得出推荐方案,进行推荐。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述S211中使用jieba分词对所述材料数据内容属性信息进行分词处理;在所述S212中采用TF-IDF方法将经S201处理后的结果表征成高维稀疏表示;在所述S213中使用深度自编码器对所述高维稀疏表示进行特征选择。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述S603中,通过计算RMSE和MAE来对学习模型的准确度进行评估;通过计算precision、recall和F1来对推荐方法的准确度进行评估。
另一方面,本发明提供一种基于材料数据的推荐系统,其特征在于,包括
数据采集和分析模块,用于采集材料数据内容属性信息和用户历史评分数据,并对采集到的数据进行预处理,并得到材料数据内容属性信息的特征向量表示和用户-材料数据评价矩阵;
聚类模块,用于根据材料数据内容属性信息的特征向量表示和用户-材料数据评价矩阵,得到内容隶属度矩阵、材料数据隶属度矩阵和用户隶属度矩阵;
数据转换模块,用于将基于内容的内容隶属度矩阵和基于协同过滤的材料数据隶属度矩阵进行线性组合;将组合后的复合隶属度矩阵和用户评价信息的用户隶属度矩阵串联,转换数据形式得到输入向量;
模型训练模块,利用输入向量的数据形式,将评价值已存在的输入向量作为模型的训练样本用于训练模型的预测规则;模型训练模块与所述数据采集和分析模块连接;
预测、评估及推荐模块,在线推荐时,根据模型的预测规则进行评分预测;预测、评估及推荐模块与所述数据采集和分析模块连接;
所述数据采集和分析模块、所述聚类模块、所述数据转换模块、所述模型训练模块以及所述预测、评估及推荐模块,依次连接。
再一方面,本发明提供一种实现如上任一项所述的基于材料数据的推荐方法的计算机程序。
与现有技术相比,本发明可以获得包括以下技术效果:混合基于内容和基于协同过滤的推荐,结合两种方法的优点,利用聚类和预测模型,转换评价值为输入向量,线下训练预测模型,线上利用模型进行推荐,从而有效地提高了系统推荐性能。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一个实施例提供的基于材料数据的推荐方法的流程图;
图2是本发明一个实施例提供的基于材料数据的推荐方法的步骤示意图;
图3是本发明一个实施例提供的基于材料数据的推荐系统的模块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
一种基于材料数据的推荐方法,从Web平台上爬取材料数据内容属性信息和用户历史评分数据,利用分词和表征技术将材料数据内容属性表征成高维稀疏表示,再通过降维将高维稀疏表示提取为低维密集表示,同时对评价矩阵进行预处理;再使用聚类算法,对材料数据基于内容和基于评价矩阵分别进行聚类,将聚类隶属度矩阵线性组合;对用户基于评级矩阵进行聚类,将材料数据隶属度和用户隶属度串联为输入向量,用输入向量和评价值训练模型,最后用训练模型预测、评估和推荐。
图1是本发明一个实施例提供的基于材料数据的推荐方法的流程图;图2是本发明一个实施例提供的基于材料数据的推荐方法的步骤示意图。如图1和图2所示,基于材料数据的推荐方法的具体步骤包括:
步骤1,使用Python第三方库Requests,从基于高通量实验和计算的材料结构-性能数据采集与数据库融合技术的Web平台上爬取所需实验数据,包括材料数据内容属性信息和用户历史评分数据;
爬取数据的过程包括两步:
步骤11、爬取材料数据内容属性信息,包括材料数据的名称、类别和摘要描述等;
步骤12、爬取用户的历史行为数据,即用户对材料数据的评分信息,采用1-5分制表示用户偏好。
步骤2,对步骤1中爬虫所得的数据进行预处理,得到材料数据内容属性信息的低维空间密集表示以及用户-材料数据评价矩阵Rm×n;
预处理的具体步骤包括:
步骤21、采用TF-IDF方法将步骤11得到的材料内容属性信息向量化,并筛选出需要的特征表示;
步骤22、将步骤12中未被用户评价过的材料数据的评价数据记为0,得到用户-材料数据评价矩阵Rm×n。
步骤21的具体步骤包括:步骤211、使用jieba分词将材料数据内容属性信息进行分词处理;步骤212、采用TF-IDF方法将步骤211的文本分词处理结果表征成高维空间的稀疏向量表示;步骤213、使用深度自编码器,对步骤212的高维空间稀疏向量表示进行特征选择,将其降维成低维空间的密集向量表示,筛选出兼顾统计和语义信息的特征表示。
jieba分词是一款常用的词处理工具,结巴中文分词涉及到的算法包括:(1)基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);(2)采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;(3)对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。结巴中文分词支持的三种分词模式包括:(1)精确模式:试图将句子最精确地切开,适合文本分析;(2)全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义问题;(3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。在构建VSM向量空间模型过程或者把文本转换成数学形式计算中,需要运用到关键词提取的技术,jieba分词可以帮助实现。
步骤3,对步骤2所得的材料数据内容属性信息的密集表示进行k-means聚类,聚类中心为c,计算每一个材料数据对各个聚类中心的隶属度,得到隶属度矩阵Pn×c;
具体的,用k-means聚类算法将步骤21所得材料数据的向量特征表示聚成c类,得到c个聚类中心;用余弦相似度度量方法计算各个材料数据特征表示和各个聚类中心的相似度,作为各个材料数据对于各个聚类簇的隶属度,得到隶属度矩阵Pn×c,则材料数据i对c个聚类簇的隶属度向量可表示为pi=(pi1,pi2,…,pic)。
步骤4,对步骤2所得的用户-材料数据评价矩阵分别进行材料数据聚类和用户聚类,聚类中心数分别为c、d,并计算每一个材料数据对各个聚类中心的隶属度,得到隶属度矩阵Qn×c,相应地,计算每一个用户对各个聚类中心的隶属度,得到隶属度矩阵Lm×d;
具体的,用FCM聚类算法对步骤22所得评价矩阵进行材料数据聚类,聚类中心数为c,得到各个材料数据对于各个聚类簇的隶属度,从而得到隶属度矩阵Qn×c,其中材料数据i的隶属度向量表示为qi=(qi1,qi2,…,qic);相应地,基于评价矩阵对用户进行聚类,聚类中心数为d,最后得到隶属度矩阵Lm×d,其中用户u的隶属度向量可表示为lu=(lu1,lu2,…,lud)。
步骤5,将步骤3中所得的隶属度矩阵Pn×c与步骤4中所得的材料数据隶属度矩阵Qn×c的对应元素位进行线性组合,得到新的复合隶属度矩阵Fn×c,即Fn×c=μPn×c+(1-μ)Qn×c,其中材料数据i可表示为fi=(fi1,fi2,…,fic)=μpi+(1-μ)qi;接着将该线性组合后的隶属度向量Fn×c与步骤S4中的用户隶属度向量Lm×d进行串联,即得到一个(fi1,fi2,…,fic,lu1,lu2,…,lud)形式的输入数据,从而将用户u对材料数据i的评价数据表示为一个(c+d)维输入向量;经数据转换后,每个样本的输入向量隐含着该样本对应的用户和材料数据的信息,且不存在缺失值;样本的输出向量是步骤22中用户u对材料数据i的评价值rui。
步骤6,将步骤2所得用户-材料数据评价矩阵的评分值分为a%的训练集和(1-a%)的测试集;具体的,将步骤22评价矩阵中评价值存在的数据分为80%的训练集和20%的测试集。
步骤7,选择一种机器学习模型或学习算法进行训练,如随机森林,用a%的训练集和步骤5中得到的输入向量训练该学习模型,再用步骤6中划分的测试集数据和步骤5中的输入向量对训练好的模型进行预测评估,评估该机器学习模型的准确度,并进一步评估该推荐算法的准确度;
评估推荐算法的准确度是通过评估该推荐算法的RMSE(均方根误差)、MAE(平均绝对误差)评价指标来实现的,RMSE和MAE越小说明模型预测的精度越高;
RMSE和MAE的计算公式如下:
步骤8,用步骤7中训练好的模型预测步骤2用户-材料数据评价矩阵中缺失评价值的项,得出推荐结果,完成整个推荐算法;
具体的,用步骤7中训练好的模型预测步骤2用户-材料数据评价矩阵中缺失评价值的项,产生推荐结果;将测试集数据的模型预测值与缺失评价值数据的模型预测值进行排序,产生TOP-N推荐结果,并结合测试集数据的真实评价值评估推荐算法的precision(精确率)、recall(召回率)、F1评价指标,precision、recall和F1的值越高表示推荐效果越好。
准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。正确率=提取出的正确信息条数/提取出的信息条数;召回率=提取出的正确信息条数/样本中的信息条数;F1是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的精确率和召回率,F1分数可以看作是模型精确率和召回率的一种加权平均,它的最大值是1,最小值是0。
Precision和recall的计算公式如下:
其中,u表示用户u,U表示全体用户,R(u)表示针对用户u的TOP-N推荐结果,T(u)表示用户u的测试样本。
图3是本发明一个实施例提供的基于材料数据的推荐系统的模块图。如图3所示,本发明提出一种基于材料数据的推荐系统,包括:
材料数据内容属性信息和用户行为数据采集及分析处理模块;
聚类模块,得到材料数据隶属度矩阵和用户评价信息隶属度矩阵;
数据转换模块,将基于内容的材料数据隶属度矩阵与基于协同过滤的材料数据隶属度矩阵进行线性组合;将材料数据隶属度向量与用户评价信息隶属度向量串联,转换数据形式;
模型训练模块,利用转换后的数据形式,将评价值已存在的输入向量作为模型的训练样本用于学习模型的预测规则,这个训练过程可离线完成;
预测、评估及推荐模块,在线推荐时,系统根据训练模型的预测规则进行评分预测,无需查找最近邻用户或材料数据,可提高实时推荐的效率。
其中,数据转换模块中,将基于内容的材料数据隶属度矩阵Pn×c与基于评价矩阵的材料数据隶属度矩阵Qn×c的对应元素位进行线性组合,得到新的复合隶属度矩阵Fn×c,即Fn×c=μPn×c+(1-μ)Qn×c,其中材料数据i可表示为fi=(fi1,fi2,…,fic)=μpi+(1-μ)qi;
将该线性组合后的隶属度向量与基于评价矩阵的用户隶属度向量Lm×d进行串联,将每一个评价值对应的用户和材料数据信息转换成(c+d)维输入向量,即得到一个(fi1,fi2,…,fic,lu1,lu2,…,lud)形式的输入数据转换,每个样本的输入向量隐含着该样本对应的用户和材料数据的信息,且不存在缺失值;样本的输出向量是评价值rui。
所谓材料数据,在本发明中包括力学、电化学、图像方面的数据,通过计算或实验得到的有关材料结构和性能的数据。
材料数据内容属性信息,包括材料数据的名称、类别和摘要描述等举例说明:
“材料名称:铁镍合金
材料类别:600c热力学性质
数据摘要:Fe-C-Mn合金精确的热力学数据、
关键词信息:Fe,C,Mn,600c,热力学数据,熵,焓,热容,吉布斯自由能,相组成”。
“用户”、“材料数据”可以看作是个体,可以统一称为“用户(User)”-“物品(Item)”。用户的历史行为数据,即用户对材料数据的评分信息,评分信息构成的评价矩阵中的每一个评价值(entry),指的是一个user对一个item的打分值。
本发明具有以下优点:本发明混合基于内容的推荐算法和基于协同过滤的推荐算法,充分利用了材料数据的内容属性信息和用户的历史行为数据,能避免两种方式单独使用的缺陷。并且,本发明利用聚类算法和机器学习预测模型,转换用户-材料数据评价值为输入向量,线下训练机器学习预测模型,线上利用模型进行推荐,从而有效地提高了系统推荐性能。
以上对本申请实施例所提供的一种基于材料数据的推荐方法及系统,进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语,故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求书的保护范围内。
Claims (7)
1.一种基于材料数据的推荐方法,其特征在于,具体步骤包括:
S1、爬取材料数据内容属性信息和用户历史评分数据;
S2、根据S1中爬取的数据得到材料数据内容属性信息的特征向量表示和用户-材料数据评价矩阵;
S3、对S2中的特征向量表示进行聚类,得到内容隶属度矩阵;
S4、对S2中的用户-材料数据评价矩阵分别进行材料数据聚类和用户聚类,得到材料数据隶属度矩阵和用户隶属度矩阵;
S5、将所述内容隶属度矩阵和所述材料数据隶属度矩阵进行线性组合,得到复合隶属度矩阵;将所述复合隶属度矩阵和所述用户隶属度矩阵进行串联,得到输入向量;
S6、根据S2中的用户-材料数据评价矩阵和S5中的输入向量训练学习模型,并用训练好的学习模型进行推荐工作;
所述S2的具体步骤包括:
S21、将S1得到的材料数据内容属性信息向量化;
S22、对所述用户-材料数据评价矩阵中尚未被评价的材料数据做出评价补充,得到完整的所述用户-材料数据评价矩阵;
所述S21的具体步骤包括:
S211、对所述材料数据内容属性信息进行分词处理;
S212、将经S211处理后的结果表征成高维稀疏表示;
S213、对所述高维稀疏表示进行特征选择,选出兼顾统计和语义信息的低维密集表示。
2.根据权利要求1所述的基于材料数据的推荐方法,其特征在于,所述S1中的所述材料数据内容属性信息包括材料数据的名称、类别和摘要描述;所述用户历史评分数据为用户对所述材料数据内容属性信息的评分信息,采用不同的分值表示用户偏好。
3.根据权利要求1所述的基于材料数据的推荐方法,其特征在于,所述S3中的聚类使用的聚类方法为k-means聚类算法;所述S4中的聚类使用的聚类方法为FCM聚类算法。
4.根据权利要求1所述的基于材料数据的推荐方法,其特征在于,所述S6的具体步骤包括:
S601、将S2中的用户-材料数据评价矩阵分为训练集和测试集;
S602、用训练集的数据和S5中的输入向量训练学习模型;
S603、用训练好的学习模型对测试集进行预测,评估学习模型的准确度和推荐方法的准确度;
S604、用训练好的学习模型预测S2中用户-材料数据评价矩阵中缺失的项,得出推荐方案,进行推荐。
5.根据权利要求1所述的基于材料数据的推荐方法,其特征在于,在所述S211中,使用jieba分词对所述材料数据内容属性信息进行分词处理;在所述S212中,采用TF-IDF方法将经S211处理后的结果表征成高维稀疏表示;在所述S213中,使用深度自编码器对所述高维稀疏表示进行特征选择。
6.根据权利要求4所述的基于材料数据的推荐方法,其特征在于,在所述S603中,通过计算RMSE和MAE来对学习模型的准确度进行评估;通过计算precision、recall和F1来对推荐方法的准确度进行评估。
7.一种基于材料数据的推荐系统,其特征在于,包括
数据采集和分析模块,用于采集材料数据内容属性信息和用户历史评分数据,并对采集到的数据进行预处理,并得到材料数据内容属性信息的特征向量表示和用户-材料数据评价矩阵;
聚类模块,用于根据材料数据内容属性信息的特征向量表示和用户-材料数据评价矩阵,得到内容隶属度矩阵、材料数据隶属度矩阵和用户隶属度矩阵;
数据转换模块,用于将基于内容的内容隶属度矩阵和基于协同过滤的材料数据隶属度矩阵进行线性组合;将组合后的复合隶属度矩阵和用户评价信息的用户隶属度矩阵串联,转换数据形式得到输入向量;
模型训练模块,利用输入向量的数据形式,将评价值已存在的输入向量作为模型的训练样本用于训练模型的预测规则;模型训练模块与所述数据采集和分析模块连接;
预测、评估及推荐模块,在线推荐时,根据模型的预测规则进行评分预测;预测、评估及推荐模块与所述数据采集和分析模块连接;
所述数据采集和分析模块、所述聚类模块、所述数据转换模块、所述模型训练模块以及所述预测、评估及推荐模块,依次连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910060291.6A CN109816015B (zh) | 2019-01-22 | 2019-01-22 | 一种基于材料数据的推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910060291.6A CN109816015B (zh) | 2019-01-22 | 2019-01-22 | 一种基于材料数据的推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109816015A CN109816015A (zh) | 2019-05-28 |
CN109816015B true CN109816015B (zh) | 2021-01-08 |
Family
ID=66604740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910060291.6A Expired - Fee Related CN109816015B (zh) | 2019-01-22 | 2019-01-22 | 一种基于材料数据的推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109816015B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472152B (zh) * | 2019-08-16 | 2022-09-16 | 云帐房网络科技有限公司 | 在线离线混合推荐方法及系统 |
CN111831808B (zh) * | 2020-07-16 | 2022-04-22 | 中国科学院计算机网络信息中心 | 一种数据驱动的人工智能材料预测系统 |
CN113077159B (zh) * | 2021-04-13 | 2023-12-15 | 中能融合智慧科技有限公司 | 数据处理方法及数据处理装置 |
CN113378076B (zh) * | 2021-06-29 | 2022-10-18 | 哈尔滨工业大学 | 面向在线教育的学习者协同学习社交关系构建方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106201465A (zh) * | 2016-06-23 | 2016-12-07 | 扬州大学 | 面向开源社区的软件项目个性化推荐方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7650303B2 (en) * | 1998-11-05 | 2010-01-19 | Financeware, Inc. | Method and system for financial advising |
CN108932318B (zh) * | 2018-06-26 | 2022-03-04 | 四川政资汇智能科技有限公司 | 一种基于政策资源大数据的智能分析及精准推送方法 |
CN108920647B (zh) * | 2018-07-03 | 2021-06-18 | 安徽工业大学 | 基于谱聚类的低秩矩阵填充top-n推荐方法 |
-
2019
- 2019-01-22 CN CN201910060291.6A patent/CN109816015B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106201465A (zh) * | 2016-06-23 | 2016-12-07 | 扬州大学 | 面向开源社区的软件项目个性化推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109816015A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816015B (zh) | 一种基于材料数据的推荐方法及系统 | |
CN110309427B (zh) | 一种对象推荐方法、装置及存储介质 | |
CN106802915B (zh) | 一种基于用户行为的学术资源推荐方法 | |
US20080313179A1 (en) | Information storage and retrieval | |
US8527564B2 (en) | Image object retrieval based on aggregation of visual annotations | |
EP1426882A2 (en) | Information storage and retrieval | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN106610970A (zh) | 基于协同过滤的内容推荐系统与方法 | |
CN107545276A (zh) | 联合低秩表示和稀疏回归的多视角学习方法 | |
Kang et al. | Nafm: neural and attentional factorization machine for web api recommendation | |
CN115712780A (zh) | 一种基于云计算和大数据的信息推送方法及装置 | |
CN109582868A (zh) | 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法 | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
WO2020095357A1 (ja) | 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法 | |
TW201243627A (en) | Multi-label text categorization based on fuzzy similarity and k nearest neighbors | |
Ma et al. | The SOM based improved k-means clustering collaborative filtering algorithm in TV recommendation system | |
Chu et al. | Towards a deep learning autoencoder algorithm for collaborative filtering recommendation | |
Szymański et al. | LNEMLC: Label network embeddings for multi-label classification | |
Feng et al. | Retracted: Recommendation Algorithm Based on Tag Time Weighting | |
Ogunde et al. | A K-nearest neighbour algorithm-based recommender system for the dynamic selection of elective undergraduate courses | |
AT&T | ||
Wang | Movie Recommendation System Based on SVD Collaborative Filtering | |
Zhang et al. | Integrating Spectral-CF and FP-Growth for Recommendation | |
Nazari et al. | MoGaL: Novel Movie Graph Construction by Applying LDA on Subtitle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210108 Termination date: 20220122 |