CN103870972A - 数据推荐方法及系统 - Google Patents

数据推荐方法及系统 Download PDF

Info

Publication number
CN103870972A
CN103870972A CN201210525924.4A CN201210525924A CN103870972A CN 103870972 A CN103870972 A CN 103870972A CN 201210525924 A CN201210525924 A CN 201210525924A CN 103870972 A CN103870972 A CN 103870972A
Authority
CN
China
Prior art keywords
data
user
interest
representative
eigenwert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210525924.4A
Other languages
English (en)
Inventor
王文广
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengle Information Technolpogy Shanghai Co Ltd
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CN201210525924.4A priority Critical patent/CN103870972A/zh
Publication of CN103870972A publication Critical patent/CN103870972A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数据推荐方法及系统,所述方法包括:从用户对数据的历史行为中获取正反馈数据和负反馈数据;根据每个数据的特点和预设的数据特征生成该数据相对于每个数据特征的特征值;将正反馈数据和负反馈数据随机结对,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值;根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值;将所述兴趣值从大到小排序,并获取前K个兴趣值最高的数据推荐给该用户,K为正整数。本发明能够解决采用单向绝对兴趣建模的过拟合问题和用户数据稀疏性的问题,增强用户对推荐系统的粘性和系统的鲁棒性。

Description

数据推荐方法及系统
技术领域
本发明涉及一种数据推荐方法及系统。
背景技术
在当今互联网中,海量数据已经不是新闻。据悉,人类有史以来的所有印刷信息是200PB(1PB=1024TB=1048576GB),而目前单个大型网站的信息处理,也已经进入PB时代,并将往EB(1EB=1024PB)时代前行。如此浩瀚的信息,如果没有一个合适的获取信息的途径和方法,则不仅会使得人们在信息面前束手无策,甚至会造成人们的压抑感,使之成为一个负担。人类为了解决信息获取的便捷和舒适,不断在进行着探索。互联网上信息获取方式逐渐由原始阶段分门别类按图索骥的门户时代,过渡到通过搜索为各类信息进行网状关联筛选的搜索引擎时代,进而进入大规模数据分析和挖掘的推荐系统时代。
推荐系统就是根据对用户和对内容的理解为用户推荐其可能感兴趣的内容,这种推荐方案是从人类社会交往中抽象出来的,在人类的社会交往中,一个常见的场景是,小莉买了一件衣服,穿着很舒服很得体很漂亮,有一天,她遇到了她的好朋友小敏,小莉就可能对小敏说“我知道有一家店,店家很好,价格合理,质量一流,他家卖的连衣裙很适合你”。小莉的行为便是一个典型的推荐行为。如果小莉是一个推荐系统,那么她要给小敏推荐,则需要有如下几个条件:
1)小敏需要成为推荐系统“小莉”的用户,以让小敏有机会向小莉推荐,就如同上面这个例子,小莉和小敏是朋友关系,他们碰上了就会进行交流;
2)小敏需要在“小莉”的系统上留下一些行为和资料,以让小莉可以理解小敏,在上面这个例子中,小莉和小敏是好朋友,小莉很了解小敏,知道小敏喜欢穿连衣裙,并且知道她的品味;
3)推荐系统“小莉”需要对内容进行理解,以便给用户推荐内容,如上例,小莉去某个店买过衣服,知道这个店不错,并且有适合小敏的连衣裙。
因此,为了使得推荐系统的效果更好,需要更好的理解用户的行为。传统的做法是记录用户在网站上的各种点击、购买、浏览、观看等用户正反馈的行为。并用这些正反馈行为,以及用户资料,为用户建立模型,以便理解用户喜欢什么,关注什么。这样如果推荐系统中出现了合适的内容时,则会把这些内容推荐给用户。这种推荐系统中,当用户行为足够丰富,推荐系统所理解的内容也足够丰富的话,其效果会表现的很好。比如,小莉和小敏两人是闺蜜,互相之间无话不说,而小莉恰好又是逛街狂人,基本上一天一大逛,两天一小逛。这样小莉给小敏推荐的连衣裙,就会深得小敏的喜欢;反过来如果哪天小敏想买衣服,也一定会征询小莉的意见。
然而,当今互联网的一个推荐系统的用户会成万上亿,这其中大部分的用户在系统上的历史行为会很稀疏。当行为稀疏,不能很好的理解用户时,就无法为其推荐合适的内容,现有的推荐系统中常见的问题如下:
1)由于用户行为的稀疏导致无法理解用户喜欢哪些数据,无法推荐给用户他所喜欢的数据;
2)由于用户行为过少,只了解该用户小部分的喜好,为其推荐的内容就会局限在一个很小的范围向用户,导致推荐给该用户的数据与推荐给其他用户的数据太过近似或者雷同;
3)会向用户推荐超出理解范围内的数据,通常只会随机或按照热点向用户进行推荐,导致推荐给用户的是大量其不感兴趣的内容,造成用户对推荐系统产生负面情绪;
4)由于对用户喜好的理解的敏感度较低,无法及时捕获到用户兴趣的变化,导致推荐给用户的是其过去喜欢而现在已经不喜欢了的数据,造成过拟合问题。
发明内容
本发明的目的在于提供一种数据推荐方法及系统,能够解决采用单向绝对兴趣建模的过拟合问题和用户数据稀疏性的问题,增强用户对推荐系统的粘性和系统的鲁棒性。
为解决上述问题,本发明提供一种数据推荐方法,包括:
从用户对数据的历史行为中获取正反馈数据和负反馈数据;
根据每个数据的特点和预设的数据特征生成该数据相对于每个数据特征的特征值;
将正反馈数据和负反馈数据随机结对,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值;
根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值;
将所述兴趣值从大到小排序,并获取前K个兴趣值最高的数据推荐给该用户,K为正整数。
进一步的,在上述方法中,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值的步骤中,通过对公式 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 求导,获取当luij(x)的值最小时对应的兴趣权值w,wi,wij
其中,e=2.71828,xm代表第m个正反馈数据,xn代表与xm结对的第n个负反馈数据,yu(xm)代表用户u对xm的兴趣值,yu(xn)代表用户u对xn的兴趣值,i、j、m、n为正整数,
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij ,
数据x包括xm和xn,yu(x)代表用户u对数据x的兴趣值,w代表用户u的基本兴趣权值,xi代表数据x对应于第i个数据特征的特征值,xj代表数据x对应于第j个数据特征的特征值,wi代表用户u对第i个数据特征的兴趣权值,xij等于xi*xj,wij代表用户u对第ij个结对的数据特征的兴趣权值。
进一步的,在上述方法中,根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值的步骤中,根据下述公式获取所述兴趣值:
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij .
进一步的,在上述方法中,根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值的步骤包括:
从所述数据中获取该用户未访问过的数据;
根据每个未访问过的数据的特征值和用户对每个数据特征的兴趣权值获取该用户对每个未访问过的数据的兴趣值。
进一步的,在上述方法中,所述正反馈数据包括所述用户浏览、点击、观看、购买或高评分的数据中一种或任意组合,所述负反馈数据包括所述用户跳过、取消、忽略、否定或低评分的数据中一种或任意组合。
根据本发明的另一面,提供一种数据推荐系统,包括:
数据获取模块,用于从用户对数据的历史行为中获取正反馈数据和负反馈数据;
特征值模块,用于根据每个数据的特点和预设的数据特征生成该数据相对于每个数据特征的特征值;
兴趣权值模块,用于将正反馈数据和负反馈数据随机结对,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值;
兴趣值模块,用于根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值;
推荐模块,用于将所述兴趣值从大到小排序,并获取前K个兴趣值最高的数据推荐给该用户,K为正整数。
进一步的,在上述系统中,所述兴趣权值模块通过对公式 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 求导,获取当luij(x)的值最小时对应的兴趣权值w,wi,wij
其中,e=2.71828,xm代表第m个正反馈数据,xn代表与xm结对的第n个负反馈数据,yu(xm)代表用户u对xm的兴趣值,yu(xn)代表用户u对xn的兴趣值,i、j、m、n为正整数,
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij ,
数据x包括xm和xn,yu(x)代表用户u对数据x的兴趣值,w代表用户u的基本兴趣权值,xi代表数据x对应于第i个数据特征的特征值,xj代表数据x对应于第j个数据特征的特征值,wi代表用户u对第i个数据特征的兴趣权值,xij等于xi*xj,wij代表用户u对第ij个结对的数据特征的兴趣权值。
进一步的,在上述系统中,所述兴趣值模块根据下述公式获取所述兴趣值:
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij .
进一步的,在上述系统中,所述正反馈数据包括所述用户浏览、点击、观看、购买或高评分的数据中一种或任意组合,所述负反馈数据包括所述用户跳过、取消、忽略、否定或低评分的数据中一种或任意组合。
进一步的,在上述系统中,所述兴趣值模块用于从所述数据获取该用户未访问过的数据,并根据每个未访问过的数据的特征值和用户对每个数据特征的兴趣权值获取该用户对每个未访问过的数据的兴趣值。
与现有技术相比,本发明通过从用户对数据的历史行为中获取正反馈数据和负反馈数据,根据每个数据的特点和预设的数据特征生成该数据相对于每个数据特征的特征值,将正反馈数据和负反馈数据随机结对,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值,根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值,将所述兴趣值从大到小排序,并获取前K个兴趣值最高的数据推荐给该用户,K为正整数,从而在用户历史行为稀疏的情况下,有效利用用户历史行为的正负反馈的相对关系,采用正负反馈结对建模的方式,更好地处理对于用户兴趣不太明朗的中间部分内容,精确地向用户推荐其所感兴趣的内容,解决采用单向绝对兴趣建模的过拟合问题和用户数据稀疏性的问题,增强用户对推荐系统的粘性和系统的鲁棒性。通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
附图说明
图1是本发明实施例一的数据推荐方法的流程图;
图2是本发明实施例一的步骤S13的流程图;
图3是本发明实施例一的原理图;
图4是本发明实施例二的数据推荐方法的流程图;
图5是本发明实施例二数据流向图;
图6是本发明实施例三的数据推荐模块示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明提供一种数据推荐方法,包括:
步骤S11,从用户对数据的历史行为中获取正反馈数据和负反馈数据。具体的,所述数据为各类资讯如服装资讯等,本实施例中在用户的正反馈行为所产生的正反馈数据之外,引进了负反馈行为所产生的负反馈数据的概念。
优选的,所述正反馈数据包括所述用户浏览、点击、观看、购买或高评分等的能够表达用户对数据有兴趣的行为所产生的数据中一种或任意组合,所述负反馈数据包括所述用户跳过、取消、忽略、否定或低评分等能够反映用户对数据的兴趣很小或者有厌恶情绪的行为所产生的数据中一种或任意组合。例如给用户推荐了A、B和C三个内容,用户点击了B,忽略了A和C,则可以表明用户对内容B是感兴趣的,而对内容A和C是不感兴趣的。
步骤S12,根据每个数据的特点和预设的数据特征生成该数据相对于每个数据特征的特征值。
步骤S13,将正反馈数据和负反馈数据随机结对,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值。具体的,本步骤是对用户的正反馈数据和负反馈数据进行正负反馈结对建模(pairwise modeling)的过程,即根据用户历史行为,用数学的方式抽象出用户行为数据,通过正负反馈结对建模的方式对用户进行建模,生成用户模型,以理解用户、知道用户的喜好,实现在推荐合适的数据给用户。由于人类的情感是很微妙的,并没有绝对的喜爱或者厌恶,故这里不去评价用户对内容的感兴趣的绝对值,而是采用相对的方式来考量,即从用户的角度上考虑了用户对数据的正反馈和对数据的负反馈之间的关系,考量对象可从用户对数据如A的正反馈和对数据如B的负反馈的绝对关系转化成用户对A比对B更感兴趣的结果。从直观的角度,如果有内容C和A类似,而内容D和B类似,那么推荐系统会优先推荐C给用户。
优选的,步骤S13中,通过对公式 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 求导,获取当luij(x)的值最小时对应的兴趣权值w,wi,wij
其中,e是自然对数的底数,e=2.71828,xm代表第m个正反馈数据,xn代表与xm结对的第n个负反馈数据,yu(xm)代表用户u对xm的兴趣值,yu(xn)代表用户u对xn的兴趣值,i、j、m、n为正整数,
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij ,
数据x包括xm和xn,yu(x)代表用户u对数据x的兴趣值,w代表用户u的基本兴趣权值,xi代表数据x对应于第i个数据特征的特征值,xj代表数据x对应于第j个数据特征的特征值,wi代表用户u对第i个数据特征的兴趣权值,xij等于xi*xj,wij代表用户u对第ij个结对的数据特征的兴趣权值。
具体的,结对建模的过程是一个最优化求解的过程,最优化的目标是使得 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 方程式的值最小。在结对建模的过程中,yu(xm)和yu(xn)是已知的,利用这些已知的yu(xm)和yu(xn),通过上述步骤S3就可以获得兴趣权值w,wi,wij。步骤S3的目标是使得根据模型计算出来的结果能够最大化的表明,用户对于数据xm比xn更感兴趣,对公式 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 进行求导,并根据大量用户的大量的历史正负反馈数据更新该公式所对应的参数即可求解出兴趣权值w,wi,wij
如图2所示,步骤S13具体可包括如下步骤:
步骤S131,从用户历史行为数据库11中选择一个用户;
步骤S132,从用户历史行为数据库11中随机选择该用户的一个历史行为;
步骤S133,判断是所述历史行为是正反馈行为还是负反馈行为,若是正反馈行为,则执行步骤S134,若是负反馈行为,则执行步骤S135;步骤S134,从用户历史行为数据库11中随机选择该用户的一个负反馈行为,然后转到步骤S136;
步骤S135,从用户历史行为数据库11中随机选择该用户的一个正反馈行为,然后转到步骤S136;
步骤S136,将结对正反馈行为和负反馈行为进行模型训练;
步骤S137,判断是还还有未结对的正反馈行为或负反馈行为,若有,则转到步骤S132,若无,则转到步骤S138;
步骤S138,判断是否还有下一用户,若有,则转到步骤S131,若无,则转到步骤S139;
步骤S139,生成用户模型。
步骤S14,根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值。
优选的,步骤S14中,根据下述公式获取所述兴趣值:
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij .
具体的,步骤S14中根据已经求得的兴趣权值w,wi,wij,即可预测u对数据x的兴趣值yu(x)。
步骤S15,将所述兴趣值从大到小排序,并获取前K个兴趣值最高的数据推荐给该用户,K为正整数。具体的,本步骤是为用户推荐合适的数据的过程,即根据兴趣值向用户推荐数据。
如图3所示,可以根据一历史行为数据库11中的用户的正反馈数据和负反馈数据进行正负反馈结对建模(pairwise modeling)12以获取包含该用户对每个数据特征的兴趣权值的用户模型13,用户模型13生成后即可利用该模型从一内容数据库14中选择用户感兴趣的数据向该用户进行推荐15。
本实施例能够在用户历史行为稀疏的情况下,有效利用用户历史行为的正负反馈的相对关系,采用正负反馈结对建模的方式,更好地处理对于用户兴趣不太明朗的中间部分内容,精确地向用户推荐其所感兴趣的内容,解决采用单向绝对兴趣建模的过拟合问题和用户数据稀疏性的问题,增强用户对推荐系统的粘性和系统的鲁棒性。通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
实施例二
如图4所示,本发明还提供另一种数据推荐方法,本实施例与实施例一的区别在于从所述数据中过滤掉所述用户已经访问过的数据以获取该用户未访问过的数据,根据每个未访问过的数据的特征值和用户对每个数据特征的兴趣权值获取该用户对每个未访问过的数据的兴趣值,从而使推荐结果更精确,所述方法包括:
步骤S21,从用户对数据的历史行为中获取正反馈数据和负反馈数据。具体的,所述数据为各类资讯如服装资讯等,本实施例中在用户的正反馈行为所产生的正反馈数据之外,引进了负反馈行为所产生的负反馈数据的概念。
优选的,所述正反馈数据包括所述用户浏览、点击、观看、购买或高评分等的能够表达用户对数据有兴趣的行为所产生的数据中一种或任意组合,所述负反馈数据包括所述用户跳过、取消、忽略、否定或低评分等能够反映用户对数据的兴趣很小或者有厌恶情绪的行为所产生的数据中一种或任意组合。例如给用户推荐了A、B和C三个内容,用户点击了B,忽略了A和C,则可以表明用户对内容B是感兴趣的,而对内容A和C是不感兴趣的。
步骤S22,根据每个数据的特点和预设的数据特征生成该数据相对于每个数据特征的特征值。
步骤S23,将正反馈数据和负反馈数据随机结对,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值。具体的,本步骤是对用户的正反馈数据和负反馈数据进行正负反馈结对建模(pairwise modeling)的过程,即根据用户历史行为,用数学的方式抽象出用户行为数据,通过正负反馈结对建模的方式对用户进行建模,生成用户模型,以理解用户、知道用户的喜好,实现在推荐合适的数据给用户。由于人类的情感是很微妙的,并没有绝对的喜爱或者厌恶,故这里不去评价用户对内容的感兴趣的绝对值,而是采用相对的方式来考量,即从用户的角度上考虑了用户对数据的正反馈和对数据的负反馈之间的关系,考量对象可从用户对数据如A的正反馈和对数据如B的负反馈的绝对关系转化成用户对A比对B更感兴趣的结果。从直观的角度,如果有内容C和A类似,而内容D和B类似,那么推荐系统会优先推荐C给用户。
优选的,步骤S23中,通过对公式 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 求导,获取当luij(x)的值最小时对应的兴趣权值w,wi,wij
其中,e是自然对数的底数,e=2.71828,xm代表第m个正反馈数据,xn代表与xm结对的第n个负反馈数据,yu(xm)代表用户u对xm的兴趣值,yu(xn)代表用户u对xn的兴趣值,i、j、m、n为正整数,
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij ,
数据x包括xm和xn,yu(x)代表用户u对数据x的兴趣值,w代表用户u的基本兴趣权值,xi代表数据x对应于第i个数据特征的特征值,xj代表数据x对应于第j个数据特征的特征值,wi代表用户u对第i个数据特征的兴趣权值,xij等于xi*xj,wij代表用户u对第ij个结对的数据特征的兴趣权值。
具体的,结对建模的过程是一个最优化求解的过程,最优化的目标是使得 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 方程式的值最小。在结对建模的过程中,yu(xm)和yu(xn)是已知的,利用这些已知的yu(xm)和yu(xn),通过上述步骤S3就可以获得兴趣权值w,wi,wij。步骤S3的目标是使得根据模型计算出来的结果能够最大化的表明,用户对于数据xm比xn更感兴趣,对公式 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 进行求导,并根据大量用户的大量的历史正负反馈数据更新该公式所对应的参数即可求解出兴趣权值w,wi,wij
步骤S24,从所述数据中过滤掉所述用户已经访问过(如阅读/浏览/观看等)的数据以获取该用户未访问过的数据,根据每个未访问过的数据的特征值和用户对每个数据特征的兴趣权值获取该用户对每个未访问过的数据的兴趣值。
优选的,步骤S24中,根据下述公式获取所述兴趣值:
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij .
具体的,步骤S14中根据已经求得的兴趣权值w,wi,wij,即可预测u对数据x的兴趣值yu(x)。
步骤S25,将所述兴趣值从大到小排序,并获取前K个兴趣值最高的数据推荐给该用户,K为正整数。具体的,本步骤是为用户推荐合适的数据的过程,即根据兴趣值向用户推荐数据,推荐数据可以是视频或用户。
如图3所示,可以根据一历史行为数据库11中的用户的正反馈数据和负反馈数据进行正负反馈结对建模(pairwise modeling)12以获取包含该用户对每个数据特征的兴趣权值的用户模型13,用户模型13生成后即可利用该模型从一内容数据库14中选择用户感兴趣的数据向该用户进行推荐15。
如图5所示,用户可以根据其用户标记获取对应于其的用户模型(对应于图3中数据流向1、2和3),另外,用户获取数据并过滤掉历史访问过的数据仅留下未访问过的数据(对应于图3中数据流向4、5和6),最后,利用用户模型和未访问过的数据向用户推荐匹配度最高的数据(对应于图3中数据流向7、8和9)。
本实施例能够在用户历史行为稀疏的情况下,有效利用用户历史行为的正负反馈的相对关系,采用正负反馈结对建模的方式,更好地处理对于用户兴趣不太明朗的中间部分内容,精确地向用户推荐其所感兴趣的内容,解决采用单向绝对兴趣建模的过拟合问题和用户数据稀疏性的问题,增强用户对推荐系统的粘性和系统的鲁棒性。另外,本实施从所述数据中过滤掉所述用户已经访问过的数据以获取该用户未访问过的数据,根据每个未访问过的数据的特征值和用户对每个数据特征的兴趣权值获取该用户对每个未访问过的数据的兴趣值,从而使推荐结果更精确。通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
实施例三
如图6所示,本发明还提供另一种数据推荐系统,包括数据获取模块61、特征值模块62、兴趣权值模块63、兴趣值模块64和推荐模块65。
数据获取模块61用于从用户对数据的历史行为中获取正反馈数据和负反馈数据。具体的,所述数据为各类资讯如服装资讯等,本实施例中在用户的正反馈行为所产生的正反馈数据之外,引进了负反馈行为所产生的负反馈数据的概念。
优选的,所述正反馈数据包括所述用户浏览、点击、观看、购买或高评分等的能够表达用户对数据有兴趣的行为所产生的数据中一种或任意组合,所述负反馈数据包括所述用户跳过、取消、忽略、否定或低评分等能够反映用户对数据的兴趣很小或者有厌恶情绪的行为所产生的数据中一种或任意组合。例如给用户推荐了A、B和C三个内容,用户点击了B,忽略了A和C,则可以表明用户对内容B是感兴趣的,而对内容A和C是不感兴趣的。
特征值模块62用于根据每个数据的特点和预设的数据特征生成该数据相对于每个数据特征的特征值。
兴趣权值模块63用于将正反馈数据和负反馈数据随机结对,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值。具体的,本模块是对用户的正反馈数据和负反馈数据进行正负反馈结对建模(pairwise modeling),即根据用户历史行为,用数学的方式抽象出用户行为数据,通过正负反馈结对建模的方式对用户进行建模,生成用户模型,以理解用户、知道用户的喜好,实现在推荐合适的数据给用户。由于人类的情感是很微妙的,并没有绝对的喜爱或者厌恶,故这里不去评价用户对内容的感兴趣的绝对值,而是采用相对的方式来考量,即从用户的角度上考虑了用户对数据的正反馈和对数据的负反馈之间的关系,考量对象可从用户对数据如A的正反馈和对数据如B的负反馈的绝对关系转化成用户对A比对B更感兴趣的结果。从直观的角度,如果有内容C和A类似,而内容D和B类似,那么推荐系统会优先推荐C给用户。
优选的,所述兴趣权值模块63通过对公式 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 求导,获取当luij(x)的值最小时对应的兴趣权值w,wi,wij
其中,e=2.71828,xm代表第m个正反馈数据,xn代表与xm结对的第n个负反馈数据,yu(xm)代表用户u对xm的兴趣值,yu(xn)代表用户u对xn的兴趣值,i、j、m、n为正整数,
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij ,
数据x包括xm和xn,yu(x)代表用户u对数据x的兴趣值,w代表用户u的基本兴趣权值,xi代表数据x对应于第i个数据特征的特征值,xj代表数据x对应于第j个数据特征的特征值,wi代表用户u对第i个数据特征的兴趣权值,xij等于xi*xj,wij代表用户u对第ij个结对的数据特征的兴趣权值。
具体的,结对建模的过程是一个最优化求解的过程,最优化的目标是使得 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 方程式的值最小。在结对建模的过程中,yu(xm)和yu(xn)是已知的,利用这些已知的yu(xm)和yu(xn),就可以获得兴趣权值w,wi,wij。兴趣权值模块63的目标是使得根据模型计算出来的结果能够最大化的表明,用户对于数据xm比xn更感兴趣,对公式 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 进行求导,并根据大量用户的大量的历史正负反馈数据更新该公式所对应的参数即可求解出兴趣权值w,wi,wij
兴趣值模块64用于根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值。
优选的,所述兴趣值模块64根据下述公式获取所述兴趣值:
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij ,
较佳的,所述兴趣值模块64用于从所述数据中过滤掉所述用户已经访问过的数据以获取该用户未访问过的数据,并根据每个未访问过的数据的特征值和用户对每个数据特征的兴趣权值获取该用户对每个未访问过的数据的兴趣值,从而使推荐结果更加精确。
推荐模块65用于将所述兴趣值从大到小排序,并获取前K个兴趣值最高的数据推荐给该用户,K为正整数。具体的,本模块负责为用户推荐合适的数据,即根据兴趣值向用户推荐数据,推荐数据可以是视频或用户。
本实施例能够在用户历史行为稀疏的情况下,有效利用用户历史行为的正负反馈的相对关系,采用正负反馈结对建模的方式,更好地处理对于用户兴趣不太明朗的中间部分内容,精确地向用户推荐其所感兴趣的内容,解决采用单向绝对兴趣建模的过拟合问题和用户数据稀疏性的问题,增强用户对推荐系统的粘性和系统的鲁棒性。另外,本实施从所述数据中过滤掉所述用户已经访问过的数据以获取该用户未访问过的数据,根据每个未访问过的数据的特征值和用户对每个数据特征的兴趣权值获取该用户对每个未访问过的数据的兴趣值,从而使推荐结果更精确。
综上,本发明通过从用户对数据的历史行为中获取正反馈数据和负反馈数据,根据每个数据的特点和预设的数据特征生成该数据相对于每个数据特征的特征值,将正反馈数据和负反馈数据随机结对,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值,根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值,将所述兴趣值从大到小排序,并获取前K个兴趣值最高的数据推荐给该用户,K为正整数,从而在用户历史行为稀疏的情况下,有效利用用户历史行为的正负反馈的相对关系,采用正负反馈结对建模的方式,更好地处理对于用户兴趣不太明朗的中间部分内容,精确地向用户推荐其所感兴趣的内容,解决采用单向绝对兴趣建模的过拟合问题和用户数据稀疏性的问题,增强用户对推荐系统的粘性和系统的鲁棒性。通过上述的智能推荐方案,可以大大提高用户快速寻找感兴趣内容的效率,减少用户无效浏览时间,尤其是在移动设备使用网络流量费用比较高的环境中,节省了大量的通信流量,为用户节省流量费用,提高用户的阅读满意度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种数据推荐方法,其特征在于,包括:
从用户对数据的历史行为中获取正反馈数据和负反馈数据;
根据每个数据的特点和预设的数据特征生成该数据相对于每个数据特征的特征值;
将正反馈数据和负反馈数据随机结对,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值;
根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值;
将所述兴趣值从大到小排序,并获取前K个兴趣值最高的数据推荐给该用户,K为正整数。
2.如权利要求1所述的数据推荐方法,其特征在于,所述数据为各类资讯。
3.如权利要求1所述的数据推荐方法,其特征在于,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值的步骤中,通过对公式 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 求导,获取当luij(x)的值最小时对应的兴趣权值w,wi,wij
其中,e=2.71828,xm代表第m个正反馈数据,xn代表与xm结对的第n个负反馈数据,yu(xm)代表用户u对xm的兴趣值,yu(xn)代表用户u对xn的兴趣值,i、j、m、n为正整数,
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij ,
数据x包括xm和xn,yu(x)代表用户u对数据x的兴趣值,w代表用户u的基本兴趣权值,xi代表数据x对应于第i个数据特征的特征值,xj代表数据x对应于第j个数据特征的特征值,wi代表用户u对第i个数据特征的兴趣权值,xij等于xi*xj,wij代表用户u对第ij个结对的数据特征的兴趣权值。
4.如权利要求3所述的数据推荐方法,其特征在于,根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值的步骤中,根据下述公式获取所述兴趣值:
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij .
5.如权利要求1所述的数据推荐方法,其特征在于,根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值的步骤包括:
从所述数据中获取该用户未访问过的数据;
根据每个未访问过的数据的特征值和用户对每个数据特征的兴趣权值获取该用户对每个未访问过的数据的兴趣值。
6.如权利要求1所述的数据推荐方法,其特征在于,所述正反馈数据包括所述用户浏览、点击、观看、购买或高评分的数据中一种或任意组合,所述负反馈数据包括所述用户跳过、取消、忽略、否定或低评分的数据中一种或任意组合。
7.一种数据推荐系统,其特征在于,包括:
数据获取模块,用于从用户对数据的历史行为中获取正反馈数据和负反馈数据;
特征值模块,用于根据每个数据的特点和预设的数据特征生成该数据相对于每个数据特征的特征值;
兴趣权值模块,用于将正反馈数据和负反馈数据随机结对,根据正反馈数据和负反馈数据的特征值和结对后的正反馈数据和负反馈数据获取该用户对每个数据特征的兴趣权值;
兴趣值模块,用于根据每个数据的特征值和用户对每个数据特征的兴趣权值获取该用户对该数据的兴趣值;
推荐模块,用于将所述兴趣值从大到小排序,并获取前K个兴趣值最高的数据推荐给该用户,K为正整数。
8.如权利要求7所述的数据推荐系统,其特征在于,所述兴趣权值模块通过对公式 l uij ( x ) = - 1 1 + e - ( y u ( x m ) - y u ( x n ) ) 求导,获取当luij(x)的值最小时对应的兴趣权值w,wi,wij
其中,e=2.71828,xm代表第m个正反馈数据,xn代表与xm结对的第n个负反馈数据,yu(xm)代表用户u对xm的兴趣值,yu(xn)代表用户u对xn的兴趣值,i、j、m、n为正整数,
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij ,
数据x包括xm和xn,yu(x)代表用户u对数据x的兴趣值,w代表用户u的基本兴趣权值,xi代表数据x对应于第i个数据特征的特征值,xj代表数据x对应于第j个数据特征的特征值,wi代表用户u对第i个数据特征的兴趣权值,xij等于xi*xj,wij代表用户u对第ij个结对的数据特征的兴趣权值。
9.如权利要求8所述的数据推荐系统,其特征在于,所述兴趣值模块根据下述公式获取所述兴趣值:
y u ( x ) = w + Σ i w i x i + Σ i Σ j w ij x ij .
10.如权利要求7所述的数据推荐系统,其特征在于,所述兴趣值模块用于从所述数据获取该用户未访问过的数据,并根据每个未访问过的数据的特征值和用户对每个数据特征的兴趣权值获取该用户对每个未访问过的数据的兴趣值。
CN201210525924.4A 2012-12-07 2012-12-07 数据推荐方法及系统 Pending CN103870972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210525924.4A CN103870972A (zh) 2012-12-07 2012-12-07 数据推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210525924.4A CN103870972A (zh) 2012-12-07 2012-12-07 数据推荐方法及系统

Publications (1)

Publication Number Publication Date
CN103870972A true CN103870972A (zh) 2014-06-18

Family

ID=50909484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210525924.4A Pending CN103870972A (zh) 2012-12-07 2012-12-07 数据推荐方法及系统

Country Status (1)

Country Link
CN (1) CN103870972A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268155A (zh) * 2014-09-02 2015-01-07 百度在线网络技术(北京)有限公司 用户移动端个性化推荐的及时反馈优化方法和装置
CN105469263A (zh) * 2014-09-24 2016-04-06 阿里巴巴集团控股有限公司 一种商品推荐方法及装置
CN106126544A (zh) * 2016-06-15 2016-11-16 晶赞广告(上海)有限公司 一种互联网内容的投放方法及装置
CN106919653A (zh) * 2017-01-24 2017-07-04 广西师范学院 基于用户行为的日志过滤方法
CN108307207A (zh) * 2017-12-28 2018-07-20 北京达佳互联信息技术有限公司 一种视频推送方法及装置
CN108446635A (zh) * 2018-03-19 2018-08-24 西北大学 一种利用脑电信号辅助偏好获取协同过滤推荐系统及方法
CN108460060A (zh) * 2017-02-22 2018-08-28 合网络技术(北京)有限公司 视频推荐方法及装置
CN109102127A (zh) * 2018-08-31 2018-12-28 杭州贝购科技有限公司 商品推荐方法及装置
CN109800324A (zh) * 2018-12-18 2019-05-24 北京达佳互联信息技术有限公司 视频数据推荐方法、装置、服务器及存储介质
CN110069714A (zh) * 2019-04-25 2019-07-30 北京酷我科技有限公司 一种视频推荐系统
CN110598949A (zh) * 2019-09-20 2019-12-20 腾讯科技(深圳)有限公司 一种用户兴趣度分析方法、装置、电子设备及存储介质
CN114513686A (zh) * 2020-11-17 2022-05-17 北京达佳互联信息技术有限公司 视频信息的确定方法、装置以及存储介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268155A (zh) * 2014-09-02 2015-01-07 百度在线网络技术(北京)有限公司 用户移动端个性化推荐的及时反馈优化方法和装置
CN105469263A (zh) * 2014-09-24 2016-04-06 阿里巴巴集团控股有限公司 一种商品推荐方法及装置
CN106126544B (zh) * 2016-06-15 2020-01-24 晶赞广告(上海)有限公司 一种互联网内容的投放方法及装置
CN106126544A (zh) * 2016-06-15 2016-11-16 晶赞广告(上海)有限公司 一种互联网内容的投放方法及装置
CN106919653A (zh) * 2017-01-24 2017-07-04 广西师范学院 基于用户行为的日志过滤方法
CN106919653B (zh) * 2017-01-24 2020-12-15 南宁师范大学 基于用户行为的日志过滤方法
CN108460060A (zh) * 2017-02-22 2018-08-28 合网络技术(北京)有限公司 视频推荐方法及装置
CN108307207A (zh) * 2017-12-28 2018-07-20 北京达佳互联信息技术有限公司 一种视频推送方法及装置
CN108446635A (zh) * 2018-03-19 2018-08-24 西北大学 一种利用脑电信号辅助偏好获取协同过滤推荐系统及方法
CN108446635B (zh) * 2018-03-19 2022-03-22 西北大学 一种利用脑电信号辅助偏好获取协同过滤推荐系统及方法
CN109102127A (zh) * 2018-08-31 2018-12-28 杭州贝购科技有限公司 商品推荐方法及装置
CN109102127B (zh) * 2018-08-31 2021-10-26 杭州贝购科技有限公司 商品推荐方法及装置
CN109800324A (zh) * 2018-12-18 2019-05-24 北京达佳互联信息技术有限公司 视频数据推荐方法、装置、服务器及存储介质
CN110069714A (zh) * 2019-04-25 2019-07-30 北京酷我科技有限公司 一种视频推荐系统
CN110069714B (zh) * 2019-04-25 2021-06-22 北京酷我科技有限公司 一种视频推荐系统
CN110598949A (zh) * 2019-09-20 2019-12-20 腾讯科技(深圳)有限公司 一种用户兴趣度分析方法、装置、电子设备及存储介质
CN114513686A (zh) * 2020-11-17 2022-05-17 北京达佳互联信息技术有限公司 视频信息的确定方法、装置以及存储介质
CN114513686B (zh) * 2020-11-17 2024-04-16 北京达佳互联信息技术有限公司 视频信息的确定方法、装置以及存储介质

Similar Documents

Publication Publication Date Title
CN103870972A (zh) 数据推荐方法及系统
CN109685631B (zh) 一种基于大数据用户行为分析的个性化推荐方法
CN106156127B (zh) 选择数据内容向终端推送的方法及装置
Shmueli et al. Care to comment? Recommendations for commenting on news stories
Liu et al. Social temporal collaborative ranking for context aware movie recommendation
CN107341268B (zh) 一种热搜榜排序方法及系统
CN108629665A (zh) 一种个性化商品推荐方法和系统
US11727014B2 (en) Dynamic filter recommendations
CN104008184A (zh) 信息的推送方法和装置
CN101482884A (zh) 一种基于用户偏好评分分布的协作推荐系统
CN102902744A (zh) 一种图书推荐方法
CN110597987A (zh) 一种搜索推荐方法及装置
CN109446402B (zh) 一种搜索方法及装置
Hao et al. Annular-graph attention model for personalized sequential recommendation
Li Accurate digital marketing communication based on intelligent data analysis
KR20130033506A (ko) 아이템 추천 방법 및 장치
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN105590234A (zh) 一种向目标用户推荐商品的方法和系统
CN114841760B (zh) 一种基于受众行为特征分析的广告推荐管理方法及系统
CN114022233A (zh) 一种新型的商品推荐方法
Ramampiaro et al. New ideas in ranking for personalized fashion recommender systems
Ma Modeling users for online advertising
Sopchoke et al. A step towards high quality one-class collaborative filtering using online social relationships
CN113902526B (zh) 基于人工智能的产品推荐方法、装置和计算机设备及介质
CN116402565B (zh) 一种基于大数据分析的商品推荐方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140618