CN103678672B - 一种信息推荐方法 - Google Patents

一种信息推荐方法 Download PDF

Info

Publication number
CN103678672B
CN103678672B CN201310726417.1A CN201310726417A CN103678672B CN 103678672 B CN103678672 B CN 103678672B CN 201310726417 A CN201310726417 A CN 201310726417A CN 103678672 B CN103678672 B CN 103678672B
Authority
CN
China
Prior art keywords
user
item
information
project
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310726417.1A
Other languages
English (en)
Other versions
CN103678672A (zh
Inventor
程嘉薪
李丽丽
雷翻翻
马雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tongde Zte Network Technology Co Ltd
Original Assignee
Beijing Tongde Zte Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tongde Zte Network Technology Co Ltd filed Critical Beijing Tongde Zte Network Technology Co Ltd
Priority to CN201310726417.1A priority Critical patent/CN103678672B/zh
Publication of CN103678672A publication Critical patent/CN103678672A/zh
Application granted granted Critical
Publication of CN103678672B publication Critical patent/CN103678672B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息技术领域,特别涉及一种信息推荐方法,包括:接收到访问请求时,提取与访问请求相对应的当前用户的特征信息,根据特征信息确定当前用户是否为新用户;确定当前用户为新用户时,根据当前用户的历史访问记录,按照点击率排名向当前用户进行热点推荐;确定当前用户为老用户时,对预先存储的用户信息及项目信息进行聚类,生成用户聚类;在用户聚类中,生成基于项目内容的第一推荐列表,还生成基于用户‑项目网络的协同过滤的第二推荐列表;根据第一推荐列表及第二推荐列表生成混合推荐列表;根据混合推荐列表向当前用户进行信息推荐。该信息推荐方法形成的推荐信息的实时性提高,精确性及关联性提高,能够有效为用户进行信息推荐。

Description

一种信息推荐方法
技术领域
本发明涉及信息技术领域,具体而言,涉及一种信息推荐方法。
背景技术
随着信息技术的发展,用户可方便快捷地接触到大量信息。但,海量信息及海量用户的同时出现,一方面令用户难以从海量数据信息中发现自己的目标数据,同时也造成大量信息的无人问津,使得信息利用率低;另一方面,用户访问量的增加造成原始日志文件的增加。为了有针对性的向用户提供其所需要的信息,进而出现了用于向用户推荐相关信息的推荐系统及推荐方法。具体地,推荐系统,就是通过建立用户与信息产品之间的二元关系,利用已有的选择过程或相似性关系挖掘每个用户潜在的感兴趣的对象,进而进行个性化推荐,其本质就是信息过滤。
相关技术中的信息推荐方法的推荐形式主要有两种,一种是基于内容的推荐,另一种是基于协同过滤算法的推荐。但,现有的该两种推荐方法均存在着一定局限性。
例如,基于协同过滤算法的推荐方法需通过计算用户或是项目的相似度以识别“最近邻居”,在大数据情况下,计算量的增加直接影响信息推荐的实时性和精确度。而基于内容的推荐则过分依赖信息的特征,使得实现后的推荐不能够很好的表达信息的关联性,进而导致不能够为用户进行有效的信息推荐。
发明内容
本发明的目的在于提供一种信息推荐方法,以解决上述的问题。
在本发明的实施例中提供了一种信息推荐方法,包括:
接收到访问请求时,提取与所述访问请求相对应的当前用户的特征信息,根据所述特征信息确定所述当前用户是否为新用户;
确定所述当前用户为新用户时,根据所述当前用户的历史访问记录,按照点击率排名向所述当前用户进行热点推荐;
确定所述当前用户为老用户时,对预先存储的用户信息及项目信息进行聚类,生成用户聚类;在所述用户聚类中,生成基于项目内容的第一推荐列表,还生成基于用户-项目网络的协同过滤的第二推荐列表;根据所述第一推荐列表及所述第二推荐列表生成混合推荐列表;根据所述混合推荐列表向当前用户进行信息推荐。
本发明上述实施例的信息推荐方法,接收到用户的访问请求,向用户进行信息推荐时,能够根据用户的特征信息将用户分为新用户及老用户,对于新用户进行热点推荐;而向老用户进行信息推荐时,会将系统中存储的大量数据进行聚类,如此能够将海量用户降维成有限的几个聚类,在形成的用户聚类中对用户形成推荐信息,如此能够简化海量数据的计算,保证信息推荐的实时性,而且在形成的聚类中形成面向老用户的推荐信息时,能够基于项目内容生成第一推荐列表及基于用户-项目网络的协同过滤生成第二推荐列表,其中用户-项目网络是指根据用户信息及项目信息形成的信息网络。根据第一推荐列表及第二推荐列表形成混合推荐列表,通过混合推荐列表能够避免基于内容推荐的过于依赖信息特征的缺陷,而且通过混合推荐列表向用户进行信息推荐,保证推荐的信息的精确性,及推荐的信息的关联性,因此通过本发明的信息推荐方法形成的推荐信息的实时性提高,推荐信息的精确性及关联性提高,保证能够有效为用户进行信息推荐。
附图说明
图1示出了本发明实施例信息推荐方法的流程图;
图2示出了本发明实施例中对预先存储的用户信息及项目信息进行聚类的流程图;
图3示出了本发明实施例中构建用户偏好向量的流程图;
图4示出了本发明实施例中基于Hadoop技术,采用MapReduce编程模型下的K-Means算法对构建的所有用户偏好向量进行聚类操作的流程图;
图5示出了本发明实施例中在用户聚类中生成基于项目内容的第一推荐列表的流程图;
图6示出了本发明实施例中在用户聚类中生成基于用户-项目网络的协同过滤的第二推荐列表的流程图;
图7示出了本发明实施例中在用户聚类中构建项目网络的流程图。
具体实施方式
下面通过具体的实施例子并结合附图对本发明做进一步的详细描述。
本发明实施例提供一种推荐方法,如图1所示,主要处理步骤包括:
步骤A:接收到访问请求时,提取与所述访问请求相对应的当前用户的特征信息,根据所述特征信息确定所述当前用户是否为新用户;
确定所述当前用户为新用户时,执行步骤B:根据所述当前用户的历史访问记录,按照点击率排名向所述当前用户进行热点推荐;
确定所述当前用户为老用户时,执行步骤C:对预先存储的用户信息及项目信息进行聚类,生成用户聚类;在所述用户聚类中,生成基于项目内容的第一推荐列表,还生成基于用户-项目网络的协同过滤的第二推荐列表;根据所述第一推荐列表及所述第二推荐列表生成混合推荐列表;根据所述混合推荐列表向当前用户进行信息推荐。
步骤A中,所述根据所述特征信息确定所述当前用户是否为新用户,包括:
所述特征信息为发出所述访问请求的当前用户的已参与项目数目;将提取的所述已参与项目数目与预设的项目数目阈值进行比较,若所述已参与项目数目不大于所述项目数目阈值,则确定所述当前用户为新用户,否则确定所述当前用户为老用户。
步骤C中,所述对预先存储的用户信息及项目信息进行聚类,生成用户聚类,如图2所示,包括:
步骤C1:根据预先存储的用户信息及项目信息,构建用户偏好向量;
步骤C2:基于Hadoop技术,采用MapReduce编程模型下的K-Means算法对构建的所有所述用户偏好向量进行聚类操作,生成用户聚类。
步骤C1中所述根据预先存储的用户信息及项目信息,构建用户偏好向量,如图3所示,包括:
步骤C11:所述项目信息对应设置有项目类别标签,根据所述项目类别标签确定所述用户偏好向量的分量及维度;
其中,所述用户偏好向量的数学表达式为:
所述用户偏好向量的分量的前部为项目类别标签,后部为分量权重;所述用户偏好向量的维度k由项目类别数目确定;
步骤C12:采用TF-IDF算法确定所述用户偏好向量的分量权重。
具体地,步骤C12采用TF-IDF算法确定所述用户偏好向量的分量权重,包括:
存储的所有所述项目信息组成项目集,所述项目集中的项目信息的项目数目记为N;
所述项目集中设置有项目类别标签ti的项目信息的项目数目为ni
所述项目集中,将项目类别标签ti在任意用户u已参与项目信息中出现的次数记为fiu
则,项目类别标签ti在所述用户u已参与项目集中出现的词频为
其中,maxzfzu是指所述用户u已参与项目集中项目类别标签出现的最大次数;
项目类别标签ti在所述项目集中出现的逆频为
根据所述项目类别标签ti在所述用户u已参与项目集中出现的词频及在所述项目集中出现的逆频,确定项目类别标签ti在与用户u相关的用户偏好向量中的分量权重为:
步骤C2中基于Hadoop技术,采用MapReduce编程模型下的K-Means算法对构建的所有所述用户偏好向量进行聚类操作,生成用户聚类,如图4所示,包括:
步骤C21:所有所述用户偏好向量组成用户偏好向量集合;
其中,用户偏好向量集合表达式为{P1,P2,...,Pn}
步骤C22:从所述用户偏好向量集合中随机选取K个用户偏好向量分别作为K个类的初始中心,该K个初始中心分别记为C1,C2,...CK
步骤C23:利用Split过程按预设规则对所述用户偏好向量集合中的所有用户偏好向量进行分组;
步骤C24:利用Map过程,按照所述Split过程分组的结果,计算所述用户偏好向量集合中每个所述用户偏好向量分别到K个所述初始中心的中心距离,并根据最短中心距离原则,形成K个聚类,同时确定K个所述聚类的用户中心;
其中,中心距离的计算公式为:
(1≤i≤n,1≤j≤K);
根据最短中心距离原则,确定每个用户偏好向量的最短中心距离,其中最短中心距离的计算公式为Δi={||Pi-C1||,||Pi-C2||,…,||Pi-CK||}(1≤i≤n),将每个用户偏好向量归于与最短中心距离对应的聚类中。
步骤C25:利用Shuffle过程,对K个所述聚类进行洗牌归类;
步骤C26:利用Reduce过程,重新计算所述洗牌归类后的K个聚类的聚类中心:
(1≤j≤K,1≤t≤|{Cj}|);
表示类Cj中第t个用户,|{Cj}|表示类Cj中用户的个数。
该步骤中,利用Reduce过程重新计算洗牌归类后的K个聚类的聚类中心后,进行Reduce结果输出,具体地,将重新计算得到的所述聚类中心与所述用户中心对应排列输出。
步骤C27:将重新计算得到的所述聚类中心分别对应地与所述用户中心进行比较;
步骤C28:若重新计算得到的所述聚类中心分别对应地与所述用户中心相等,则完成聚类操作,输出聚类结果;否则,按预设规则重新计算聚类用户中心,直至聚类用户中心稳定。
重新计算得到的所述聚类中心分别对应地与所述用户中心相等,即Λi=Ci,(1≤i≤K),输出聚类结果,最终聚类中心为O1,O2,...,OK
步骤C28中,按预设规则重新计算聚类用户中心,是指重新执行步骤C24至C28,进行迭代更新,直到聚类用户中心稳定,此处稳定是指得到的聚类的中心不再移动。
步骤C中,在所述用户聚类中,生成基于项目内容的第一推荐列表,如图5所示,包括:
步骤SC11:在当前用户所属的用户聚类中,构建项目属性向量;
其中,所述项目属性向量的数学表达式为:
所述项目属性向量的分量的前部为项目信息的项目类别标签,后部为分量权重;所述项目属性向量的维度k由项目类别数目确定;所述项目属性向量的分量的权重中的i取值为1或0;
步骤SC12:计算当前用户的用户偏好向量与所述项目属性向量间的相似度;
当前用户记为用户a,用户a与任意项目d之间的相似度的计算过程为:
其中,
步骤SC13:根据所述相似度的计算结果,选取当前用户的用户偏好向量相似度值满足预设阈值的多个项目作为当前用户的第一推荐列表。
步骤C中,在所述用户聚类中,还生成基于用户-项目网络的协同过滤的第二推荐列表,如图6所示,包括:
步骤CC11:在所述用户聚类中,构建项目网络;
步骤CC12:基于所述项目网络构建用户网络;
步骤CC13:在所述用户网络中,按预设规则确定当前用户的最近邻居集;
其中,用户的最近邻居集用Sa表示。
步骤CC14:根据所述当前用户的已参与项目信息集合及所述最近邻居集的已参与项目信息集合,形成候选推荐项目集合;
设定当前用户a的已参与项目信息集合记为Ia,其最近邻居集的已参与项目信息集合记为D,则候选推荐项目集合为
步骤CC15:计算所述候选推荐项目集合中的项目信息对于当前用户的推荐度;
步骤CC16:根据所述推荐度的计算结果,从所述候选推荐项目集合中选取项目信息形成第二推荐列表。
其中,步骤CC15及CC16中,候选项目则候选项目i对于当前用户a的推荐度为
其中,用户s对项目i感兴趣,则counts,i=1,否则counts,i=0。
步骤CC11中,在所述用户聚类中,构建项目网络,如图7所示,包括:
步骤CC111:在所述用户聚类中,所有项目信息形成项目集I,根据任意两个项目信息之间的边权值,确定边集E;
其中,所述边权值的数学表达式为:
Ui表示已参与项目i的用户信息的集合,Uj表示已参与项目j的用户信息的集合;
步骤CC112:根据所述项目集I及所述边集E,构建初步项目网络;
步骤CC113:将所述初步项目网络中,任意两个项目间边权值小于预设的边权阈值的边去掉,形成项目网络G=(I,E)。
步骤CC12中,基于所述项目网络构建用户网络,包括:
构建用户网络u=(Iu,Eu);
其中,Iu为任意用户u已参与项目的项目信息集合,Eu={(i,j)|(i,j)∈E且i,j∈Iu}为任意用户u已参与的任意两个项目之间的边集,所述E指所述项目网络中的边集E。
步骤CC13中,在所述用户网络中,按预设规则确定当前用户的最近邻居集,包括:
步骤CC131:根据预设的同一项目对关系计算当前用户与任意用户u之间的Jaccard相似性,其中当前用户记为用户a,计算公式为:
步骤CC132:根据预设的相似项目对关系,计算用户a和任意用户u之间的相似性,计算公式为:
步骤CC133:根据预设的相关项目对关系,计算用户a和任意用户u之间的相似性,计算公式为:
步骤CC134:根据所述Jaccard相似性、所述相似项目相似性及所述相关项目相似性的计算结果,确定用户a和任意用户u之间的相似度量值,所述相似度量值的计算公式为:
sim(a,u)=αsim1(a,u)+βsim2(a,u)+γsim3(a,u),其中α+β+γ=1;
步骤CC135:根据所述相似度量值的计算确定当前用户的最近邻居集。
本发明实施例中,按预设规则确定当前用户的最近邻居集时,会根据任意项目所属的用户网络,预先确定任意两个项目间的相似关系,其中确定出的相似关系包括:同一项目对、相似项目对、相关项目对和无关项目对。
具体地,同一项目对关系、相似项目对关系、相关项目对关系分别为:
设任意两个用户a和u,Iu为用户u已参与项目的项目信息集合,Ia为用户a已参与项目的项目信息集合,i及j分别表示任意项目i及任意项目j;
若i∈Ia,j∈Iu,i,j∈Ia∩Iu,称i,j为同一项目对;
若i∈Ia/Iu,j∈Iu/Ia,(i,j)∈E,称i,j为用户a和u之间的相似项目对;
且w(i,j)>θ,称i,j为用户a和u之间的相关项目对,其中且N(Iu)={(k,t)|w(k,t)≤0.01,且k,t∈Iu},|N(Iu)|表示集合N(Iu)的元素个数。
称用户a和u之间的其余项目对为无关项目对。
步骤CC134中,所述根据所述Jaccard相似性、所述相似项目相似性及所述相关项目相似性的计算结果,确定用户a和任意用户u之间的相似度量值,包括:
在所述用户聚类中,除构建项目网络外,还构建用户-项目兴趣度矩阵;
利用所述用户-项目兴趣度矩阵实现所述sim1(a,u)、sim2(a,u)及sim3(a,u);
利用矩阵实现的所述sim1(a,u)、sim2(a,u)及sim3(a,u)确定用户a和任意用户u之间的相似度量值。
信息推荐时,仅仅根据用户的评价并不能完整体现用户真实兴趣,进而结合用户浏览记录和购买记录等隐式数据,将其转换成评分数据,构建伪评分数据,获取用户综合兴趣度,构造用户-项目兴趣度矩阵,其中所述用户-项目兴趣度矩阵R的数学表达式为:
可以看出,用户-项目兴趣度矩阵表现形式为一个m×n的矩阵R,m表示用户数,n表示项目数目。
该矩阵中,rui=1或0,1≤u≤m,1≤i≤n。
利用所述用户-项目兴趣度矩阵实现所述sim1(a,u)、sim2(a,u)及sim3(a,u)的实现方法具体包括:
项目集中的任意项目i,j之间的边权值定义为
利用矩阵R实现边权值为:
其中,Ri=(r1i,r2i,…,rmi)T为用户-项目兴趣度矩阵R中第i列的元素构成的向量,Ri T为向量Ri的转置。
sim1(a,u)的矩阵实现为:
其中,Ru=(ru1,ru2,…,run)为用户-项目矩阵R中第u行的元素构成的向量,表示用户u兴趣项目的向量。
sim2(a,u)的矩阵实现包括:
矩阵实现为:
取矩阵Ru T·Ra对角线元素组成向量A=(A1,A2,…An),(1≤i≤n),Ai=1表示用户a和用户u共同对项目i感兴趣,Ai=0表示用户a和用户u至少有一个对项目i不感兴趣。
则,
|Ia/Iu|=||Ra-A||2
|Iu/Ia|=||Ru-A||2
其中,||Ru||2如步骤C24所定义。
|{(i,j)|(i,j)∈E,i∈Ia/Iu,j∈Iu/Ia}|
=(Ra-A)·L·(Ru-A)T
其中,为项目-项目矩阵,lij=1表示项目i与项目j项目之间有边,即(i,j)∈E,lij=0表示1≤i,j≤n。
于是,
sim3(a,u)的矩阵实现:
根据相关项目相似定义,计算用户a和u之间的相似性,有
其中,
N(Iu)={(k,t)|w(k,t)≤0.01,且k,t∈Iu}
矩阵实现为:
其中
再由边权值的矩阵实现可知
由此可知θ可由矩阵形式实现。
定义矩阵
li,j′=1表示项目i与项目j之间满足:且i∈Ia/Iu,j∈Iu/Ia;li,j′=0表示w(i,j)≤θ,,且i∈Ia/Iu,j∈Iu/Ia
于是
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种信息推荐方法,其特征在于,包括:
接收到访问请求时,提取与所述访问请求相对应的当前用户的特征信息,根据所述特征信息确定所述当前用户是否为新用户;
确定所述当前用户为新用户时,根据所述当前用户的历史访问记录,按照点击率排名向所述当前用户进行热点推荐;
确定所述当前用户为老用户时,对预先存储的用户信息及项目信息进行聚类,生成用户聚类;在所述用户聚类中,生成基于项目内容的第一推荐列表,还生成基于用户-项目网络的协同过滤的第二推荐列表;根据所述第一推荐列表及所述第二推荐列表生成混合推荐列表;根据所述混合推荐列表向当前用户进行信息推荐;
所述对预先存储的用户信息及项目信息进行聚类,生成用户聚类,包括:根据预先存储的用户信息及项目信息,构建用户偏好向量;基于Hadoop技术,采用MapReduce编程模型下的K-Means算法对构建的所有所述用户偏好向量进行聚类操作,生成用户聚类;
所述根据预先存储的用户信息及项目信息,构建用户偏好向量,包括:所述项目信息对应设置有项目类别标签,根据所述项目类别标签确定所述用户偏好向量的分量及维度;其中,所述用户偏好向量的数学表达式为:所述用户偏好向量的分量的前部为项目类别标签,后部为分量权重;所述用户偏好向量的维度k由项目类别数目确定;采用TF-IDF算法确定所述用户偏好向量的分量权重。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特征信息确定所述当前用户是否为新用户,包括:
所述特征信息为发出所述访问请求的当前用户的已参与项目数目;
将提取的所述已参与项目数目与预设的项目数目阈值进行比较,若所述已参与项目数目不大于所述项目数目阈值,则确定所述当前用户为新用户,否则确定所述当前用户为老用户。
3.根据权利要求1所述的方法,其特征在于,所述采用TF-IDF算法确定所述用户偏好向量的分量权重,包括:
存储的所有所述项目信息组成项目集,所述项目集中的项目信息的项目数目记为N;
所述项目集中设置有项目类别标签ti的项目信息的项目数目为ni
所述项目集中,将项目类别标签ti在任意用户u已参与项目信息中出现的次数记为fiu
则,项目类别标签ti在所述用户u已参与项目集中出现的词频为
其中,maxzfzu是指所述用户u已参与项目集中项目类别标签出现的最大次数;
项目类别标签ti在所述项目集中出现的逆频为
根据所述项目类别标签ti在所述用户u已参与项目集中出现的词频及在所述项目集中出现的逆频,确定项目类别标签ti在与用户u相关的用户偏好向量中的分量权重为:
w i u = f i u max z f z u · l o g N n i .
4.根据权利要求1所述的方法,其特征在于,所述基于Hadoop技术,采用MapReduce编程模型下的K-Means算法对构建的所有所述用户偏好向量进行聚类操作,生成用户聚类,包括:
所有所述用户偏好向量组成用户偏好向量集合;
从所述用户偏好向量集合中随机选取K个用户偏好向量分别作为K个类的初始中心;
利用Split过程按预设规则对所述用户偏好向量集合中的所有用户偏好向量进行分组;
利用Map过程,按照所述Split过程分组的结果,计算所述用户偏好向量集合中每个所述用户偏好向量分别到K个所述初始中心的中心距离,并根据最短中心距离原则,形成K个聚类,同时确定K个所述聚类的用户中心;
利用Shuffle过程,对K个所述聚类进行洗牌归类;
利用Reduce过程,重新计算所述洗牌归类后的K个聚类的聚类中心;
将重新计算得到的所述聚类中心分别对应地与所述用户中心进行比较;
若重新计算得到的所述聚类中心分别对应地与所述用户中心相等,则完成聚类操作,输出聚类结果;否则,按预设规则重新计算聚类用户中心,直至聚类用户中心稳定。
5.根据权利要求1所述的方法,其特征在于,所述在所述用户聚类中,生成基于项目内容的第一推荐列表,包括:
在当前用户所属的用户聚类中,构建项目属性向量;
其中,所述项目属性向量的数学表达式为:
i = { ( t 1 , w 1 i ) , ( t 2 , w 2 i ) , ... , ( t k , w k i ) } ;
所述项目属性向量的分量的前部为项目信息的项目类别标签,后部为分量权重;所述项目属性向量的维度k由项目类别数目确定;所述项目属性向量的分量的权重中的i取值为1或0;
计算当前用户的用户偏好向量与所述项目属性向量间的相似度;
根据所述相似度的计算结果,选取当前用户的用户偏好向量相似度值满足预设阈值的多个项目作为当前用户的第一推荐列表。
6.根据权利要求1所述的方法,其特征在于,在所述用户聚类中,还生成基于用户-项目网络的协同过滤的第二推荐列表,包括:
在所述用户聚类中,构建项目网络;
基于所述项目网络构建用户网络;
在所述用户网络中,按预设规则确定当前用户的最近邻居集;
根据所述当前用户的已参与项目信息集合及所述最近邻居集的已参与项目信息集合,形成候选推荐项目集合;
计算所述候选推荐项目集合中的项目信息对于当前用户的推荐度;
根据所述推荐度的计算结果,从所述候选推荐项目集合中选取项目信息形成第二推荐列表。
7.根据权利要求6所述的方法,其特征在于,所述在所述用户聚类中,构建项目网络,包括:
在所述用户聚类中,所有项目信息形成项目集I,根据任意两个项目信息之间的边权值,确定边集E;
其中,所述边权值的数学表达式为:
w ( i , j ) = | U i ∩ U j | | U i | + | U j | ;
Ui表示已参与项目i的用户信息的集合,Uj表示已参与项目j的用户信息的集合;
根据所述项目集I及所述边集E,构建初步项目网络;
将所述初步项目网络中,任意两个项目间边权值小于预设的边权阈值的边去掉,形成项目网络G=(I,E)。
8.根据权利要求7所述的方法,其特征在于,所述基于所述项目网络构建用户网络,包括:
构建用户网络u=(Iu,Eu);
其中,Iu为任意用户u已参与项目的项目信息集合,Eu={(i,j)|(i,j)∈E且i,j∈Iu}为任意用户u已参与的任意两个项目之间的边集,所述E指所述项目网络中的边集E。
9.根据权利要求8所述的方法,其特征在于,所述在所述用户网络中,按预设规则确定当前用户的最近邻居集,包括:
根据预设的同一项目对关系计算当前用户与任意用户u之间的Jaccard相似性,其中当前用户记为用户a,计算公式为:
sim 1 ( a , u ) = | I a ∩ I u | | I a ∪ I u | ;
根据预设的相似项目对关系,计算用户a和任意用户u之间的相似项目相似性,计算公式为:
根据预设的相关项目对关系,计算用户a和任意用户u之间的相关项目相似性,计算公式为:
根据所述Jaccard相似性、所述相似项目相似性及所述相关项目相似性的计算结果,确定用户a和任意用户u之间的相似度量值,所述相似度量值的计算公式为:
sim(a,u)=αsim1(a,u)+βsim2(a,u)+γsim3(a,u),其中α+β+γ=1;
根据所述相似度量值的计算确定当前用户的最近邻居集。
10.根据权利要求9所述的方法,其特征在于,所述根据所述Jaccard相似性、所述相似项目相似性及所述相关项目相似性的计算结果,确定用户a和任意用户u之间的相似度量值,包括:
在所述用户聚类中,除构建项目网络外,还构建用户-项目兴趣度矩阵;
利用所述用户-项目兴趣度矩阵实现所述sim1(a,u)、sim2(a,u)及sim3(a,u);
利用矩阵实现的所述sim1(a,u)、sim2(a,u)及sim3(a,u)确定用户a和任意用户u之间的相似度量值。
11.根据权利要求9所述的方法,其特征在于,所述同一项目对关系、相似项目对关系、相关项目对关系分别为:
设任意两个用户a和用户u,Iu为用户u已参与项目的项目信息集合,Ia为用户a已参与项目的项目信息集合,i及j分别表示任意项目i及任意项目j;
若i∈Ia,j∈Iu,i,j∈Ia∩Iu,则称i,j为同一项目对;
若i∈Ia/Iu,j∈Iu/Ia,(i,j)∈E,称i,j为用户a和u之间的相似项目对;
且w(i,j)>θ,称i,j为用户a和用户u之间的相关项目对,其中且N(Iu)={(k,t)|w(k,t)≤0.01,且k,t∈Iu},|N(Iu)|表示集合N(Iu)的元素个数。
CN201310726417.1A 2013-12-25 2013-12-25 一种信息推荐方法 Expired - Fee Related CN103678672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310726417.1A CN103678672B (zh) 2013-12-25 2013-12-25 一种信息推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310726417.1A CN103678672B (zh) 2013-12-25 2013-12-25 一种信息推荐方法

Publications (2)

Publication Number Publication Date
CN103678672A CN103678672A (zh) 2014-03-26
CN103678672B true CN103678672B (zh) 2017-05-24

Family

ID=50316216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310726417.1A Expired - Fee Related CN103678672B (zh) 2013-12-25 2013-12-25 一种信息推荐方法

Country Status (1)

Country Link
CN (1) CN103678672B (zh)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095256B (zh) * 2014-05-07 2019-06-11 阿里巴巴集团控股有限公司 基于用户之间相似度进行信息推送的方法及装置
CN104065981A (zh) * 2014-06-20 2014-09-24 海信集团有限公司 一种视频推荐方法和装置
CN105718488A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 基于计算机系统的推荐方法及其装置
CN104573331B (zh) * 2014-12-19 2018-04-24 西安工程大学 一种基于MapReduce的K近邻数据预测方法
CN106156250A (zh) * 2015-04-28 2016-11-23 天脉聚源(北京)科技有限公司 一种搜索热点推荐方法及系统
CN106156256A (zh) * 2015-04-28 2016-11-23 天脉聚源(北京)科技有限公司 一种用户信息分类透传方法及系统
CN104850645B (zh) * 2015-05-28 2018-08-14 苏州大学张家港工业技术研究院 一种基于矩阵分解的主动学习评分引导方法及系统
CN106294497B (zh) * 2015-06-09 2020-05-12 深圳市腾讯计算机系统有限公司 信息推荐方法和装置
CN104951563A (zh) * 2015-07-08 2015-09-30 北京理工大学 一种待推荐对象的确定方法及装置
CN105138574A (zh) * 2015-07-28 2015-12-09 黄杨 用于推荐旅游休闲出行地的基于人机交互的混合推荐系统
US10909571B2 (en) * 2015-08-11 2021-02-02 Adobe Inc. Visitor identification based on feature selection
RU2632131C2 (ru) 2015-08-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и устройство для создания рекомендуемого списка содержимого
RU2632100C2 (ru) 2015-09-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер создания рекомендованного набора элементов
RU2629638C2 (ru) 2015-09-28 2017-08-30 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер создания рекомендуемого набора элементов для пользователя
CN105183904B (zh) * 2015-09-30 2020-01-10 北京金山安全软件有限公司 一种信息推送方法、装置及电子设备
CN106708883B (zh) * 2015-11-17 2020-09-29 阿里巴巴集团控股有限公司 推荐方法及装置
CN105550207B (zh) * 2015-12-02 2021-02-09 阿里巴巴(中国)有限公司 一种信息推广方法及装置
CN107203772B (zh) * 2016-03-16 2020-11-06 创新先进技术有限公司 一种用户类型识别方法及装置
RU2632144C1 (ru) 2016-05-12 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Компьютерный способ создания интерфейса рекомендации контента
RU2632132C1 (ru) 2016-07-07 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и устройство для создания рекомендаций содержимого в системе рекомендаций
RU2636702C1 (ru) 2016-07-07 2017-11-27 Общество С Ограниченной Ответственностью "Яндекс" Способ и устройство для выбора сетевого ресурса в качестве источника содержимого для системы рекомендаций
WO2018027459A1 (zh) * 2016-08-08 2018-02-15 深圳市博信诺达经贸咨询有限公司 分类比对在大数据中的应用方法及系统
CN106339483B (zh) * 2016-08-30 2020-04-21 电子科技大学 一种移动社交网络中的社交活动推荐方法
CN106469398A (zh) * 2016-09-30 2017-03-01 华南理工大学 一种分离式混合移动广告推荐方法
CN106776959B (zh) * 2016-12-05 2019-12-17 东北大学 一种基于线上线下双重社交关系的活动推荐系统及方法
CN106779946A (zh) * 2016-12-16 2017-05-31 Tcl集团股份有限公司 一种电影推荐方法及装置
CN108205682B (zh) * 2016-12-19 2021-10-08 同济大学 一种用于个性化推荐的融合内容和行为的协同过滤方法
CN111262953B (zh) * 2016-12-26 2022-09-02 北京五八信息技术有限公司 一种实时推送信息的方法和装置
USD882600S1 (en) 2017-01-13 2020-04-28 Yandex Europe Ag Display screen with graphical user interface
CN106844649A (zh) * 2017-01-22 2017-06-13 河北中废通网络技术有限公司 一种基于混合多种模式的废旧行业推荐系统以及其方法
CN107122989B (zh) * 2017-03-21 2021-06-18 浙江工业大学 一种面向化妆品的多角度混合推荐方法
CN107194754A (zh) * 2017-04-11 2017-09-22 美林数据技术股份有限公司 基于混合协同过滤的券商产品推荐方法
CN108733696B (zh) * 2017-04-19 2021-05-04 创新先进技术有限公司 一种征信表单的生成方法及装置
CN107329994A (zh) * 2017-06-08 2017-11-07 天津大学 一种基于用户特征的改进协同过滤推荐方法
CN107657004A (zh) * 2017-09-21 2018-02-02 广州华多网络科技有限公司 视频推荐方法、系统及设备
CN107657034A (zh) * 2017-09-28 2018-02-02 武汉大学 一种社交信息增强的事件社交网络推荐算法
CN108090749A (zh) * 2018-02-08 2018-05-29 陈丽娜 一种财务顾问智能管理方法
CN108829819B (zh) * 2018-06-12 2021-05-07 上海智臻智能网络科技股份有限公司 个性化文本推荐方法及系统、服务器、可读存储介质
CN109087711A (zh) * 2018-06-28 2018-12-25 郑州大学第附属医院 医疗大数据挖掘方法和系统
RU2720899C2 (ru) 2018-09-14 2020-05-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для определения зависящих от пользователя пропорций содержимого для рекомендации
RU2720952C2 (ru) 2018-09-14 2020-05-15 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для создания рекомендации цифрового содержимого
RU2714594C1 (ru) 2018-09-14 2020-02-18 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения параметра релевантность для элементов содержимого
RU2725659C2 (ru) 2018-10-08 2020-07-03 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для оценивания данных о взаимодействиях пользователь-элемент
RU2731335C2 (ru) 2018-10-09 2020-09-01 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для формирования рекомендаций цифрового контента
CN109766495A (zh) * 2018-12-26 2019-05-17 网易传媒科技(北京)有限公司 资讯推送方法和装置
CN110430477A (zh) * 2019-08-12 2019-11-08 广州华多网络科技有限公司 直播内容的推荐方法、装置、计算机设备和存储介质
RU2757406C1 (ru) 2019-09-09 2021-10-15 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для обеспечения уровня сервиса при рекламе элемента контента
CN111047360B (zh) * 2019-12-16 2024-04-09 北京搜狐新媒体信息技术有限公司 一种基于视觉画像的数据处理方法及系统
CN111782953A (zh) * 2020-06-30 2020-10-16 北京金山安全软件有限公司 推荐方法、装置、设备及存储介质
CN111782954B (zh) * 2020-06-30 2024-07-23 深圳前海微众银行股份有限公司 一种异常数据搜索模型的确定方法及装置
CN111859160B (zh) * 2020-08-07 2023-06-16 成都理工大学 一种基于图神经网络会话序列推荐方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101535944A (zh) * 2005-08-15 2009-09-16 谷歌公司 基于集的相似性的可扩展用户聚类
CN102609523A (zh) * 2012-02-10 2012-07-25 上海视畅信息科技有限公司 基于物品分类和用户分类的协同过滤推荐算法
CN102946566A (zh) * 2012-10-24 2013-02-27 北京奇虎科技有限公司 基于历史信息的视频推荐方法和装置
CN103412948A (zh) * 2013-08-27 2013-11-27 北京交通大学 基于聚类的协同过滤的商品推荐方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101535944A (zh) * 2005-08-15 2009-09-16 谷歌公司 基于集的相似性的可扩展用户聚类
CN102609523A (zh) * 2012-02-10 2012-07-25 上海视畅信息科技有限公司 基于物品分类和用户分类的协同过滤推荐算法
CN102946566A (zh) * 2012-10-24 2013-02-27 北京奇虎科技有限公司 基于历史信息的视频推荐方法和装置
CN103412948A (zh) * 2013-08-27 2013-11-27 北京交通大学 基于聚类的协同过滤的商品推荐方法及系统

Also Published As

Publication number Publication date
CN103678672A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103678672B (zh) 一种信息推荐方法
WO2022041979A1 (zh) 一种信息推荐模型的训练方法和相关装置
WO2020048084A1 (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
EP4181026A1 (en) Recommendation model training method and apparatus, recommendation method and apparatus, and computer-readable medium
US20240311411A1 (en) System and method for information recommendation
CN103377250B (zh) 基于邻域的top‑k推荐方法
CN107833117B (zh) 一种考虑标签信息的贝叶斯个性化排序推荐方法
JP5897019B2 (ja) 候補製品のリンクリストを判定する方法および装置
JP6414363B2 (ja) 予測システム、方法およびプログラム
CN108805598B (zh) 相似度信息确定方法、服务器及计算机可读存储介质
US9251292B2 (en) Search result ranking using query clustering
JP6261547B2 (ja) 判定装置、判定方法及び判定プログラム
US9128988B2 (en) Search result ranking by department
CN110335123B (zh) 基于社交电商平台的商品推荐方法、系统、计算机可读介质以及装置
JP6311851B2 (ja) 共クラスタリングシステム、方法およびプログラム
US8725735B2 (en) Information processing system, information processing method, program, and non-transitory information storage medium
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN110543603B (zh) 基于用户行为的协同过滤推荐方法、装置、设备和介质
CN104077723A (zh) 一种社交网络推荐系统及方法
CN111611496A (zh) 产品推荐方法及其装置
CN112149003B (zh) 商品社群推荐方法、装置和计算机设备
CN111553742A (zh) 联邦产品推荐方法、装置、设备及计算机存储介质
Veiga et al. Privacy leakage through innocent content sharing in online social networks
CN112036987B (zh) 确定推荐商品的方法和装置
CN113065067A (zh) 一种物品推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170421

Address after: 100094 Beijing City, Haidian District, North East Road, No. 10, East Hospital, building No. 15, block B, floor four, layer 404

Applicant after: Beijing Tongde ZTE Network Technology Co. Ltd.

Address before: 100085 C, block, 3rd Street, Beijing, Haidian District, China C1007

Applicant before: BEIJING ZHONG XING TONG SOFTWARE TECHNOLOGY CO., LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170524

Termination date: 20191225

CF01 Termination of patent right due to non-payment of annual fee