CN110209928A - 一种信息推荐方法、装置及存储介质 - Google Patents
一种信息推荐方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110209928A CN110209928A CN201910350722.2A CN201910350722A CN110209928A CN 110209928 A CN110209928 A CN 110209928A CN 201910350722 A CN201910350722 A CN 201910350722A CN 110209928 A CN110209928 A CN 110209928A
- Authority
- CN
- China
- Prior art keywords
- user
- project
- cluster centre
- scoring
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 52
- 238000010606 normalization Methods 0.000 claims description 28
- 238000002203 pretreatment Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000013065 commercial product Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种信息推荐方法、电子装置及存储介质。该方法包括:对所有项目的用户评分原始数据进行预处理,根据预处理后的数据,利用聚类算法从所有用户中随机选取预设数量的用户作为原聚类中心。之后,该方法根据用户对每个项目的评测分,采用归一化处理后的时间函数与皮尔逊相关系数结合的公式分别计算每个用户到各个聚类中心的距离,并将每个用户归到距离最近的聚类中心对应的集合中;根据每个集合中包含的用户数据计算得出目标用户对每个项目的预测分,按照所述预测分分值大小顺序依次排列所有项目得到推荐项目集合,根据排序顺序将所述项目集合中的项目推荐给目标用户。利用本发明,结合时间属性可以更准确地对用户感兴趣的信息进行预测。
Description
技术领域
本发明涉及智能决策领域,尤其涉及一种信息推荐方法、装置及存储介质。
背景技术
以用户为基础的协同算法是通过找到与目标用户相近的一组用户数据,利用这组用户数据去预测目标用户得到目标用户的评分值,从而根据评分值对用户进行推荐。这样没有考虑到用户的兴趣是随着时间而发生变化的,是不准确的。
发明内容
本发明提供一种信息推荐方法、装置及存储介质,其主要目的是结合时间属性预测用户感兴趣的信息并推荐给用户,提升向用户推荐信息的准确度。
为实现上述目的,本发明提供一种信息推荐方法,该方法包括:
预处理步骤:对所有项目的用户评分原始数据进行预处理;
选择步骤:根据预处理后的数据,利用聚类算法从所有用户中随机选取预设数量的用户作为原聚类中心;
聚类步骤:根据评分用户对每个项目的评测分,采用归一化处理后的时间函数与皮尔逊相关系数结合的公式分别计算每个用户到各个聚类中心的距离,将每个用户归到距离最近的聚类中心对应的集合中,并重新计算得到各个集合的新聚类中心;及
推荐步骤:重复聚类步骤直至新聚类中心与原聚类中心处于相同位置或距离小于指定阈值,根据每个聚类集合中包含的用户数据采用预测评分公式计算出目标用户对每个项目的预测分,按照所述预测分分值大小顺序依次排列所有项目得到推荐项目集合,根据排序顺序将所述项目集合中的项目推荐给用户。
优选地,所述预处理包括:删除对每个项目评分次数多于或者少于预设次数的用户数据,对剩余用户的未评分项目赋予默认评分分值。
优选地,所述时间函数公式如下:
其中,T是已评分项目的时间权重,是某一商品的平均评分时间,T0是当前时间,α是时间衰减参数。
优选地,归一化处理时间函数的公式如下:
其中,T是要做归一化的数据,Xmax是归一化之前的函数的最大值,Xmin是归一化之前的函数的最小值,Ymax是归一化之后的函数的最大值,Ymin是归一化之后的函数的最小值。
优选地,归一化处理后的时间函数与皮尔逊相关系数结合的公式如下:
其中,sim(x,y)是用户到聚类中心的距离,NT=Norm(T,Xmax3,Xmin3,1,0),Xmax1,Xmin1,Xmax2,Xmin2,Xmax3,Xmin3是各个系数的阈值范围,Ymax1,Ymin1,Ymax2,Ymin2,Ymax3,Ymin3是要归一化的阈值,x,y为两个用户,xi,yi为两个用户的共同打分项。
优选地,所述预测评分的公式如下:
其中,Rui表示用户u对项目i的预测评分,m与用户u是相似用户,在同组集合N中,Rmi表示用户m对项目i的实际评分,sim(u,m)表示用户u和m的相似度系数。
此外,本发明还提供一种电子装置,该电子装置包括存储器和处理器,所述存储器中包括信息推荐程序,该信息推荐程序被所述处理器执行时实现如下步骤:
预处理步骤:对所有项目的用户评分原始数据进行预处理;
选择步骤:根据预处理后的数据,利用聚类算法从所有用户中随机选取预设数量的用户作为原聚类中心;
聚类步骤:根据评分用户对每个项目的评测分,采用归一化处理后的时间函数与皮尔逊相关系数结合的公式分别计算每个用户到各个聚类中心的距离,将每个用户归到距离最近的聚类中心对应的集合中,并重新计算得到各个集合的新聚类中心;及
推荐步骤:重复聚类步骤直至新聚类中心与原聚类中心处于相同位置或距离小于指定阈值,根据每个聚类集合中包含的用户数据采用预测评分公式计算出目标用户对每个项目的预测分,按照所述预测分分值大小顺序依次排列所有项目得到推荐项目集合,根据排序顺序将所述项目集合中的项目推荐给用户。
优选地,删除对每个项目评分次数多于或者少于预设次数的用户数据,对剩余用户的未评分项目赋予默认评分分值。
优选地,所述时间函数公式如下:
其中,T是已评分项目的时间权重,是某一商品的平均评分时间,T0是当前时间,α是时间衰减参数。
优选地,归一化处理时间函数的公式如下:
其中,data是要做归一化的数据,Xmax是归一化之前的函数的最大值,Xmin是归一化之前的函数的最小值,Ymax是归一化之后的函数的最大值,Ymin是归一化之后的函数的最小值。
优选地,归一化处理后的时间函数与皮尔逊相关系数结合的公式如下:
其中,sim(x,y)是用户到聚类中心的距离,NT=Norm(T,Xmax3,Xmin3,1,0),Xmax1,Xmin1,Xmax2,Xmin2,Xmax3,Xmin3是各个系数的阈值范围,Ymax1,Ymin1,Ymax2,Ymin2,Ymax3,Ymin3是要归一化的阈值,x,y为两个用户,xi,yi为两个用户的共同打分项。
优选地,所述预测评分的公式如下:
其中,Rui表示用户u对项目i的预测评分,m与用户u是相似用户,在同组集合N中,Rmi表示用户m对项目i的实际评分,sim(u,m)表示用户u和m的相似度系数。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括信息推荐程序,该信息推荐程序被处理器执行时实现如上所述的信息推荐方法中的任意步骤。
本发明提出了一种信息推荐方法、电子装置及存储介质。该方法包括:对所有项目的用户评分原始数据进行预处理,根据预处理后的数据,利用聚类算法从所有用户中随机选取预设数量的用户作为原聚类中心。之后,该方法根据评分用户对每个项目的评测分,采用归一化处理后的时间函数与皮尔逊相关系数结合的公式分别计算每个用户到各个聚类中心的距离,并将每个用户归到距离最近的聚类中心对应的集合中。最后,该方法根据每个聚类集合中包含的用户数据、采用预测评分公式计算出目标用户对每个项目的预测分,按照所述预测分分值大小顺序依次排列所有项目得到推荐项目集合,根据排序顺序将所述项目集合中的项目推荐给目标用户。利用本发明,结合已评分项目的时间属性,可以更准确地对用户感兴趣的信息进行预测、推荐。
附图说明
图1为本发明信息推荐方法第一实施例的流程图;
图2为本发明电子装置一实施例的示意图;
图3为图1、图2中信息推荐程序一实施例的程序模块图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种信息推荐方法。参照图1所示,为本发明一实施例提供的信息推荐方法的流程示意图。该方法可以由一个电子装置执行,该电子装置可以由软件和/或硬件实现。
在本实施例中,信息推荐方法包括:
步骤S10,对所有项目的用户评分原始数据进行预处理。
所述项目可以为用户浏览过的电子信息或商品,例如网页新闻、网络购物平台的商品、金融机构提供的线上理财产品,等等。本实施例以项目为网络购物平台的商品为例说明。预处理包括删除不具有参考价值或是参考价值较低的用户评分,例如:删除对商品评分次数多于预设上限次数的用户数据,删除对商品评分次数少于预设下限次数的用户数据,对余下用户的未评分商品赋予默认评分分值。例如,本实施例对用户的未评分的商品赋予的默认分值为零。
步骤S20,根据预处理后的数据,利用聚类算法从所有用户中随机选取预设数量的用户作为原聚类中心。
在本实施例中,聚类的目的是将具有相同爱好的用户聚为一类,将同一类中某用户感兴趣的商品推荐给该用户的相似用户,例如某目标用户。本实施例采用K-MEANS聚类算法对用户进行分组。K-MEANS聚类算法对用户进行分组时需要事先确定分组的数量。人们对商品的评价分为喜欢、一般和讨厌三种类型,根据人们对商品的喜欢程度(例如通过商品评分)将用户分为三组。之后,从所有用户中随机选定三个用户(预设数量为3)作为初始聚类中心,以用户对商品的评测分分值作为坐标(例如纵坐标)建立坐标系。
步骤S30,根据评分用户对每个项目的评测分,采用归一化处理后的时间函数与皮尔逊相关系数结合的公式分别计算每个用户到各个聚类中心的距离,将每个用户归到距离最近的聚类中心对应的集合中,并重新计算得到各个集合的新聚类中心。
在本实施例中,针对用户对商品评分的时间,在计算用户相似度的时候引入时间权重,使得评分时间最近的商品评分的权重更高。本实施例采用一个随时间递减的函数T作为评分的时间系数,其公式如下:
其中,T是已评分项目的时间权重,是某一商品的平均评分时间,T0是当前时间,α是时间衰减参数,α的大小决定了时间系数T随时间的递减速度,快速出现并消失的商品可将α的值调大,而稳定性较强的商品可将α的值调小。采用归一化函数将时间系数T进行归一化处理,使得其阈值在可控的范围内,这样通过实验可以找到取值范围的最优解。归一化函数的公式如下:
其中,T是要做归一化的数据,Xmax是归一化之前的函数的最大值,Xmin是归一化之前的函数的最小值,Ymax是归一化之后的函数的最大值,Ymin是归一化之后的函数的最小值。
对时间系数T进行归一化处理后,得到以下公式:
采用归一化处理后的时间函数与皮尔逊相关系数(Pearson correlationcoefficient)结合的公式计算每个用户到各个聚类中心的距离。其中,皮尔逊相关系数是一种度量两个变量X和Y之间的相关程度(线性相关)的方法。皮尔逊相关系数与欧式距离相似度的最大区别在于它比欧式距离更重视数据集的整体性,得出用户之间的相关程度(相对距离)是一个介于1和-1之间的值,其中,1表示变量完全正相关,0表示无关,-1表示完全负相关。两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母ρ作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母r代表:
r亦可由(Xi,Yi)样本点的标准分数均值估计,得到与上式等价的表达式:
其中及σX分别是对Xi样本的标准分数、样本平均值和样本标准差。得到的皮尔逊相关系数的公式如下:
其中,sim(x,y)是用户到聚类中心的距离,x,y为两个用户,xi,yi为两个用户的共同打分项(即x,y两个用户都评过分的项目),n为共同打分项的个数,sim(x,y)为用户x与用户y之间的相似度(即相关程度)。
在皮尔逊相关系数计算用户兴趣之间相似度的基础之上引入时间系数T,得到改进的函数公式为:
其中,sim(x,y)是用户到聚类中心的距离,NT=Norm(T,Xmax3,Xmin3,1,0),Xmax1,Xmin1,Xmax2,Xmin2,Xmax3,Xmin3是各个系数的阈值范围,是通过计算得出的。Ymax1,Ymin1,Ymax2,Ymin2,Ymax3,Ymin3是要归一化的阈值,x,y为两个用户,xi,yi为两个用户的共同打分项。由于数据的复杂性,不可能有一个算法是适用于所有的推荐场景的,针对不同的数据,要做不同的优化和改进。本实施例归一化处理是为了让改进后的皮尔逊相关系数公式尽量能用于计算多种数据,在不同的应用场景下,调整各个参数的归一化阈值,再通过实验数据测试,找到适合当前数据的最优阈值。这样这个函数就可以应用于多种推荐场景。
根据改进后的皮尔逊相关系数计算出用户之间兴趣相似度的数值,将用户归到距离最近的聚类中心的集合中。然后,根据集合中的每个用户在坐标系的位置,重新计算该集合的平均值,把与该集合平均值对应的点作为新的聚类中心。
步骤S40,重复步骤S30直至新聚类中心与原聚类中心处于相同位置或距离小于指定阈值,根据每个聚类集合中包含的用户数据采用预测评分公式计算出目标用户对每个项目的预测分,按照所述预测分的分值大小顺序依次排列所有项目得到推荐项目集合,根据排序顺序将所述项目集合中的项目推荐给用户。
在本实施例中,预测评分可以用以下公式进行说明:
其中,Rui表示用户u对商品i的预测评分,m与用户u是相似用户,在同组集合N中,Rmi表示用户m对商品i的实际评分,sim(u,m)表示用户u和m的相似度系数。Rui的值越大,代表用户u对项目i的预测喜爱程度越高,越有可能购买该商品。
在本实施例中,是将所诉项目集合中的所有项目根据预测分的分值按照高低排序顺序推荐给目标用户。在另一实施例中,也可以采用TOP-N推荐算法向目标用户推荐预测分分值排名前N(例如前5)的商品。
本发明还提出一种电子装置。参照图2所示,为本发明一实施例提供的电子装置的内部结构示意图。
在本实施例中,电子装置1可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该电子装置1至少包括存储器11、处理器12,网络接口13,以及通信总线。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子装置1的内部存储单元,例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子装置1的应用软件及各类数据,例如信息推荐程序10的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行信息推荐程序10等。
网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线用于实现这些组件之间的连接通信。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-13以及信息推荐程序10的电子装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的电子装置1实施例中,存储器11中存储有信息推荐程序10;处理器12执行存储器11中存储的信息推荐程序10时实现如下步骤:
预处理步骤:对所有项目的用户评分原始数据进行预处理。
所述项目可以为用户浏览过的电子信息或商品,例如网页新闻、网络购物平台的商品、金融机构提供的线上理财产品,等等。
选择步骤:根据预处理后的数据,利用聚类算法从所有用户中随机选取预设数量的用户作为原聚类中心。
在本实施例中,聚类的目的是将具有相同爱好的用户聚为一类,将同一类中某用户感兴趣的商品推荐给该用户的相似用户,例如某目标用户。本实施例采用K-MEANS聚类算法对用户进行分组。
聚类步骤:根据评分用户对每个项目的评测分,采用归一化处理后的时间函数与皮尔逊相关系数结合的公式分别计算每个用户到各个聚类中心的距离,将每个用户归到距离最近的聚类中心对应的集合中,并重新计算得到各个集合的新聚类中心。
在本实施例中,针对用户对商品评分的时间,在计算用户相似度的时候引入时间权重,使得评分时间最近的商品评分的权重更高。本实施例采用一个随时间递减的函数T作为评分的时间系数,其公式如下:
其中,T是已评分项目的时间权重,是某一商品的平均评分时间,T0是当前时间,α是时间衰减参数,α的大小决定了时间系数T随时间的递减速度,快速出现并消失的商品可将α的值调大,而稳定性较强的商品可将α的值调小。采用归一化函数将时间系数T进行归一化处理,使得其阈值在可控的范围内,这样通过实验可以找到取值范围的最优解。归一化函数的公式如下:
其中,T是要做归一化的数据,Xmax是归一化之前的函数的最大值,Xmin是归一化之前的函数的最小值,Ymax是归一化之后的函数的最大值,Ymin是归一化之后的函数的最小值。
对时间系数T进行归一化处理后,得到以下公式:
采用归一化处理后的时间函数与皮尔逊相关系数结合的公式计算每个用户到各个聚类中心的距离。其中,皮尔逊相关系数是一种度量两个变量X和Y之间的相关程度(线性相关)的方法。皮尔逊相关系数与欧式距离相似度的最大区别在于它比欧式距离更重视数据集的整体性,得出用户之间的相关程度(相对距离)是一个介于1和-1之间的值,其中,1表示变量完全正相关,0表示无关,-1表示完全负相关。两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母ρ作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母r代表:
r亦可由(Xi,Yi)样本点的标准分数均值估计,得到与上式等价的表达式:
其中,及σX分别是对Xi样本的标准分数、样本平均值和样本标准差。得到的皮尔逊相关系数的公式如下:
其中,sim(x,y)是用户到聚类中心的距离,x,y为两个用户,xi,yi为两个用户的共同打分项(即x,y两个用户都评过分的项目),n为共同打分项的个数,sim(x,y)为用户x与用户y之间的相似度(即相关程度)。
在皮尔逊相关系数计算用户兴趣之间相似度的基础之上引入时间系数T,得到改进的函数公式为:
其中,sim(x,y)是用户到聚类中心的距离,NT=Norm(T,Xmax3,Xmin3,1,0),Xmax1,Xmin1,Xmax2,Xmin2,Xmax3,Xmin3是各个系数的阈值范围,是通过计算得出的。Ymax1,Ymin1,Ymax2,Ymin2,Ymax3,Ymin3是要归一化的阈值,x,y为两个用户,xi,yi为两个用户的共同打分项。由于数据的复杂性,不可能有一个算法是适用于所有的推荐场景的,针对不同的数据,要做不同的优化和改进。本实施例归一化处理是为了让改进后的皮尔逊相关系数公式尽量能用于计算多种数据,在不同的应用场景下,调整各个参数的归一化阈值,再通过实验数据测试,找到适合当前数据的最优阈值。这样这个函数就可以应用于多种推荐场景。
根据改进后的皮尔逊相关系数计算出用户之间兴趣相似度的数值,将用户归到距离最近的聚类中心的集合中。然后,根据集合中的每个用户在坐标系的位置,重新计算该集合的平均值,把与该集合平均值对应的点作为新的聚类中心。
推荐步骤:重复聚类步骤直至新聚类中心与原聚类中心处于相同位置或距离小于指定阈值,根据每个聚类集合中包含的用户数据采用预测评分公式计算出目标用户对每个项目的预测分,按照所述预测分的分值大小顺序依次排列所有项目得到推荐项目集合,根据排序顺序将所述项目集合中的项目推荐给用户。
在本实施例中,预测评分可以用以下公式进行说明:
其中,Rui表示用户u对项目i的预测评分,m与用户u是相似用户,在同组集合N中,Rmi表示用户m对项目i的实际评分,sim(u,m)表示用户u和m的相似度系数。Rui的值越大,代表用户u对项目i的喜爱程度越高,越有可能购买该商品。在本实施例中,是将所诉项目集合中的所有项目根据预测分的分值按照高低排序顺序推荐给目标用户。
可选地,在其他的实施例中,信息推荐程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述信息推荐程序10在电子装置1中的执行过程。
例如,参照图3所示,为本发明提供的电子装置1一实施例中的信息推荐程序10的程序模块示意图,该实施例中,信息推荐程序10可以被分割为预处理模块110、选择模块120、聚类模块130、推荐模块140,示例性地:
预处理模块110,用于对所有项目的用户评分原始数据进行预处理。
所述项目可以为用户浏览过的电子信息或商品,例如网页新闻、网络购物平台的商品、金融机构提供的线上理财产品,等等。
选择模块120,用于根据预处理后的数据,利用聚类算法从所有用户中随机选取预设数量的用户作为原聚类中心。
在本实施例中,聚类的目的是将具有相同爱好的用户聚为一类,将同一类中某用户感兴趣的商品推荐给该用户的相似用户,例如某目标用户。
聚类模块130,用于根据评分用户对每个项目的评测分,采用归一化处理后的时间函数与皮尔逊相关系数结合的公式分别计算每个用户到各个聚类中心的距离,将每个用户归到距离最近的聚类中心对应的集合中,并重新计算得到各个集合的新聚类中心。
在本实施例中,针对用户对商品评分的时间,在计算用户相似度的时候引入时间权重,使得评分时间最近的商品评分的权重更高。本实施例采用一个随时间递减的函数T作为评分的时间系数,其公式如下:
其中,T是已评分项目的时间权重,是某一商品的平均评分时间,T0是当前时间,α是时间衰减参数,α的大小决定了时间系数T随时间的递减速度,快速出现并消失的商品可将α的值调大,而稳定性较强的商品可将α的值调小。采用归一化函数将时间系数T进行归一化处理,使得其阈值在可控的范围内,这样通过实验可以找到取值范围的最优解。归一化函数的公式如下:
其中,T是要做归一化的数据,Xmax是归一化之前的函数的最大值,Xmin是归一化之前的函数的最小值,Ymax是归一化之后的函数的最大值,Ymin是归一化之后的函数的最小值。
对时间系数T进行归一化处理后,得到以下公式:
采用归一化处理后的时间函数与皮尔逊相关系数结合的公式计算每个用户到各个聚类中心的距离。其中,皮尔逊相关系数是一种度量两个变量X和Y之间的相关程度(线性相关)的方法。皮尔逊相关系数与欧式距离相似度的最大区别在于它比欧式距离更重视数据集的整体性,得出用户之间的相关程度(相对距离)是一个介于1和-1之间的值,其中,1表示变量完全正相关,0表示无关,-1表示完全负相关。两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母ρ作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母r代表:
r亦可由(Xi,Yi)样本点的标准分数均值估计,得到与上式等价的表达式:
其中,及σX分别是对Xi样本的标准分数、样本平均值和样本标准差。得到的皮尔逊相关系数的公式如下:
其中,sim(x,y)是用户到聚类中心的距离,x,y为两个用户,xi,yi为两个用户的共同打分项(即x,y两个用户都评过分的项目),n为共同打分项的个数,sim(x,y)为用户x与用户y之间的相似度(即相关程度)。
在皮尔逊相关系数计算用户兴趣之间相似度的基础之上引入时间系数T,得到改进的函数公式为:
其中,sim(x,y)是用户到聚类中心的距离,NT=Norm(T,Xmax3,Xmin3,1,0),Xmax1,Xmin1,Xmax2,Xmin2,Xmax3,Xmin3是各个系数的阈值范围,是通过计算得出的。Ymax1,Ymin1,Ymax2,Ymin2,Ymax3,Ymin3是要归一化的阈值,x,y为两个用户,xi,yi为两个用户的共同打分项。由于数据的复杂性,不可能有一个算法是适用于所有的推荐场景的,针对不同的数据,要做不同的优化和改进。本实施例归一化处理是为了让改进后的皮尔逊相关系数公式尽量能用于计算多种数据,在不同的应用场景下,调整各个参数的归一化阈值,再通过实验数据测试,找到适合当前数据的最优阈值。这样这个函数就可以应用于多种推荐场景。
根据改进后的皮尔逊相关系数计算出用户之间兴趣相似度的数值,将用户归到距离最近的聚类中心的集合中。然后,根据集合中的每个用户在坐标系的位置,重新计算该集合的平均值,把与该集合平均值对应的点作为新的聚类中心。
推荐模块140,用于重复聚类模块130直至新聚类中心与原聚类中心处于相同位置或距离小于指定阈值,根据每个聚类集合中包含的用户数据采用预测评分公式计算出目标用户对每个项目的预测分,按照所述预测分的分值大小顺序依次排列所有项目得到推荐项目集合,根据排序顺序将所述项目集合中的项目推荐给用户。
在本实施例中,预测评分可以用以下公式进行说明:
其中,Rui表示用户u对项目i的预测评分,m与用户u是相似用户,在同组集合N中,Rmi表示用户m对项目i的实际评分,sim(u,m)表示用户u和m的相似度系数。Rui的值越大,代表用户u对项目i的喜爱程度越高,越有可能购买该商品。在本实施例中,是将所诉项目集合中的所有项目根据预测分的分值按照高低排序顺序推荐给目标用户。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有信息推荐程序10,所述信息推荐程序10可被一个或多个处理器执行,以实现如下步骤:
预处理步骤:对所有项目的用户评分原始数据进行预处理;
选择步骤:根据预处理后的数据,利用聚类算法从所有用户中随机选取预设数量的用户作为原聚类中心;
聚类步骤:根据评分用户对每个项目的评测分,采用归一化处理后的时间函数与皮尔逊相关系数结合的公式分别计算每个用户到各个聚类中心的距离,将每个用户归到距离最近的聚类中心对应的集合中,并重新计算得到各个集合的新聚类中心;及
推荐步骤:重复聚类步骤直至新聚类中心与原聚类中心处于相同位置或距离小于指定阈值,根据每个聚类集合中包含的用户数据采用预测评分公式计算出目标用户对每个项目的预测分,按照所述预测分分值大小顺序依次排列所有项目得到推荐项目集合,根据排序顺序将所述项目集合中的项目推荐给用户。
本发明存储介质具体实施方式与上述电子装置1和方法各实施例基本相同,在此不作累述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种信息推荐方法,应用于电子装置,其特征在于,该方法包括:
预处理步骤:对所有项目的用户评分原始数据进行预处理;
选择步骤:根据预处理后的数据,利用聚类算法从所有用户中随机选取预设数量的用户作为原聚类中心;
聚类步骤:根据评分用户对每个项目的评测分,采用归一化处理后的时间函数与皮尔逊相关系数结合的公式分别计算每个用户到各个聚类中心的距离,将每个用户归到距离最近的聚类中心对应的集合中,并重新计算得到各个集合的新聚类中心;及
推荐步骤:重复聚类步骤直至新聚类中心与原聚类中心处于相同位置或距离小于指定阈值,根据每个聚类集合中包含的用户数据采用预测评分公式计算出目标用户对每个项目的预测分,按照所述预测分分值大小顺序依次排列所有项目得到推荐项目集合,根据排序顺序将所述项目集合中的项目推荐给用户。
2.如权利要求1所述的信息推荐方法,其特征在于,所述预处理包括:删除对每个项目评分次数多于或者少于预设次数的用户数据,对剩余用户的未评分项目赋予默认评分分值。
3.如权利要求1所述的信息推荐方法,其特征在于,所述时间函数公式如下:
其中,T是已评分项目的时间权重,是某一商品的平均评分时间,T0是当前时间,α是时间衰减参数。
4.如权利要求3所述的信息推荐方法,其特征在于,归一化处理时间函数的公式如下:
其中,data是要做归一化的数据,Xmax是归一化之前的函数的最大值,Xmin是归一化之前的函数的最小值,Ymax是归一化之后的函数的最大值,Ymin是归一化之后的函数的最小值。
5.如权利要求4所述的信息推荐方法,其特征在于,归一化处理后的时间函数与皮尔逊相关系数结合的公式如下:
其中,sim(x,y)是用户到聚类中心的距离,NT=Norm(T,Xmax3,Xmin3,1,0),Xmax1,Xmin1,Xmax2,Xmin2,Xmax3,Xmin3是各个系数的阈值范围,Ymax1,Ymin1,Ymax2,Ymin2,Ymax3,Ymin3是要归一化的阈值,x,y为两个用户,xi,yi为两个用户的共同打分项。
6.如权利要求1所述的信息推荐方法,其特征在于,所述预测评分的公式如下:
其中,Rui表示用户u对项目i的预测评分,m与用户u是相似用户,在同组集合N中,Rmi表示用户m对项目i的实际评分,sim(u,m)表示用户u和m的相似度系数。
7.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中包括信息推荐程序,该信息推荐程序被所述处理器执行时实现如下步骤:
预处理步骤:对所有项目的用户评分原始数据进行预处理;
选择步骤:根据预处理后的数据,利用聚类算法从所有用户中随机选取预设数量的用户作为原聚类中心;
聚类步骤:根据评分用户对每个项目的评测分,采用归一化处理后的时间函数与皮尔逊相关系数结合的公式分别计算每个用户到各个聚类中心的距离,将每个用户归到距离最近的聚类中心对应的集合中,并重新计算得到各个集合的新聚类中心;及
推荐步骤:重复聚类步骤直至新聚类中心与原聚类中心处于相同位置或距离小于指定阈值,根据每个聚类集合中包含的用户数据采用预测评分公式计算出目标用户对每个项目的预测分,按照所述预测分分值大小顺序依次排列所有项目得到推荐项目集合,根据排序顺序将所述项目集合中的项目推荐给用户。
8.如权利要求7所述的电子装置,其特征在于,所述时间函数公式如下:
其中,T是已评分项目的时间权重,是某一商品的平均评分时间,T0是当前时间,α是时间衰减参数。
9.如权利要求8所述的电子装置,其特征在于,归一化处理时间函数的公式如下:
其中,data是要做归一化的数据,Xmax是归一化之前的函数的最大值,Xmin是归一化之前的函数的最小值,Ymax是归一化之后的函数的最大值,Ymin是归一化之后的函数的最小值。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括信息推荐程序,所述信息推荐程序被处理器执行时,实现如权利要求1至6中任一项所述的信息推荐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910350722.2A CN110209928A (zh) | 2019-04-28 | 2019-04-28 | 一种信息推荐方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910350722.2A CN110209928A (zh) | 2019-04-28 | 2019-04-28 | 一种信息推荐方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110209928A true CN110209928A (zh) | 2019-09-06 |
Family
ID=67786547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910350722.2A Pending CN110209928A (zh) | 2019-04-28 | 2019-04-28 | 一种信息推荐方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209928A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930259A (zh) * | 2019-11-15 | 2020-03-27 | 安徽海汇金融投资集团有限公司 | 一种基于混合策略的债权推荐方法及系统 |
CN111445304A (zh) * | 2020-02-26 | 2020-07-24 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN111475719A (zh) * | 2020-03-30 | 2020-07-31 | 招商局金融科技有限公司 | 基于数据挖掘的信息推送方法、装置及存储介质 |
CN111738812A (zh) * | 2020-08-21 | 2020-10-02 | 深圳索信达数据技术有限公司 | 一种基于用户群微细分的信息推送方法及系统 |
CN115237876A (zh) * | 2022-05-16 | 2022-10-25 | 中航信移动科技有限公司 | 航旅用户分类方法、电子设备和计算机可读存储介质 |
CN115830030A (zh) * | 2023-02-22 | 2023-03-21 | 日照皓诚电子科技有限公司 | 一种石英晶片的外观质量评估方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657336A (zh) * | 2015-03-10 | 2015-05-27 | 湖北大学 | 一种基于半余弦函数的个性化推荐算法 |
WO2016191959A1 (zh) * | 2015-05-29 | 2016-12-08 | 深圳市汇游智慧旅游网络有限公司 | 一种时变的协同过滤推荐方法 |
US20180004819A1 (en) * | 2016-06-30 | 2018-01-04 | Hewlett Packard Enterprise Development Lp | Effect of operations on application requests |
CN108205682A (zh) * | 2016-12-19 | 2018-06-26 | 同济大学 | 一种用于个性化推荐的融合内容和行为的协同过滤方法 |
CN109190023A (zh) * | 2018-08-15 | 2019-01-11 | 深圳信息职业技术学院 | 协同推荐的方法、装置及终端设备 |
-
2019
- 2019-04-28 CN CN201910350722.2A patent/CN110209928A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657336A (zh) * | 2015-03-10 | 2015-05-27 | 湖北大学 | 一种基于半余弦函数的个性化推荐算法 |
WO2016191959A1 (zh) * | 2015-05-29 | 2016-12-08 | 深圳市汇游智慧旅游网络有限公司 | 一种时变的协同过滤推荐方法 |
US20180004819A1 (en) * | 2016-06-30 | 2018-01-04 | Hewlett Packard Enterprise Development Lp | Effect of operations on application requests |
CN108205682A (zh) * | 2016-12-19 | 2018-06-26 | 同济大学 | 一种用于个性化推荐的融合内容和行为的协同过滤方法 |
CN109190023A (zh) * | 2018-08-15 | 2019-01-11 | 深圳信息职业技术学院 | 协同推荐的方法、装置及终端设备 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930259A (zh) * | 2019-11-15 | 2020-03-27 | 安徽海汇金融投资集团有限公司 | 一种基于混合策略的债权推荐方法及系统 |
CN111445304A (zh) * | 2020-02-26 | 2020-07-24 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN111475719A (zh) * | 2020-03-30 | 2020-07-31 | 招商局金融科技有限公司 | 基于数据挖掘的信息推送方法、装置及存储介质 |
CN111475719B (zh) * | 2020-03-30 | 2023-04-07 | 招商局金融科技有限公司 | 基于数据挖掘的信息推送方法、装置及存储介质 |
CN111738812A (zh) * | 2020-08-21 | 2020-10-02 | 深圳索信达数据技术有限公司 | 一种基于用户群微细分的信息推送方法及系统 |
CN111738812B (zh) * | 2020-08-21 | 2020-12-08 | 深圳索信达数据技术有限公司 | 一种基于用户群微细分的信息推送方法及系统 |
CN115237876A (zh) * | 2022-05-16 | 2022-10-25 | 中航信移动科技有限公司 | 航旅用户分类方法、电子设备和计算机可读存储介质 |
CN115830030A (zh) * | 2023-02-22 | 2023-03-21 | 日照皓诚电子科技有限公司 | 一种石英晶片的外观质量评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209928A (zh) | 一种信息推荐方法、装置及存储介质 | |
CN110163476A (zh) | 项目智能推荐方法、电子装置及存储介质 | |
CN105808685B (zh) | 推广信息的推送方法及装置 | |
US8103667B2 (en) | Ranking results of multiple intent queries | |
US9767144B2 (en) | Search system with query refinement | |
US9146915B2 (en) | Method, apparatus, and computer storage medium for automatically adding tags to document | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
CN108629043A (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN104572717B (zh) | 信息搜索方法和装置 | |
CN103136228A (zh) | 一种图片搜索方法以及图片搜索装置 | |
CN109062972A (zh) | 网页分类方法、装置及计算机可读存储介质 | |
CN104142999A (zh) | 搜索结果展示方法及装置 | |
CN110968789B (zh) | 电子书推送方法、电子设备及计算机存储介质 | |
CN101593270A (zh) | 一种手绘形状识别的方法及装置 | |
WO2020258481A1 (zh) | 个性化文本智能推荐方法、装置及计算机可读存储介质 | |
CN110275952A (zh) | 基于用户短期兴趣的新闻推荐方法、装置及介质 | |
CN111737473B (zh) | 文本分类方法、装置及设备 | |
US9418058B2 (en) | Processing method for social media issue and server device supporting the same | |
US9002832B1 (en) | Classifying sites as low quality sites | |
CN109299235A (zh) | 知识库搜索方法、装置及计算机可读存储介质 | |
CN109300041A (zh) | 理财策略推荐方法、电子装置及可读存储介质 | |
AU2018313274B2 (en) | Diversity evaluation in genealogy search | |
CN104881447A (zh) | 搜索方法及装置 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
Jiang et al. | Classifying user search intents for query auto-completion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |