CN104123321B - 一种确定推荐图片的方法及装置 - Google Patents

一种确定推荐图片的方法及装置 Download PDF

Info

Publication number
CN104123321B
CN104123321B CN201310156965.5A CN201310156965A CN104123321B CN 104123321 B CN104123321 B CN 104123321B CN 201310156965 A CN201310156965 A CN 201310156965A CN 104123321 B CN104123321 B CN 104123321B
Authority
CN
China
Prior art keywords
page
picture
feature
user
active user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310156965.5A
Other languages
English (en)
Other versions
CN104123321A (zh
Inventor
刘鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310156965.5A priority Critical patent/CN104123321B/zh
Publication of CN104123321A publication Critical patent/CN104123321A/zh
Application granted granted Critical
Publication of CN104123321B publication Critical patent/CN104123321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明提供了一种确定推荐图片的方法及装置,其中所述方法包括:预先获取图片集合中的图片在预设的属性下的特征以及网站中的页面在所述属性下的特征;预测当前用户在所述网站访问的当前页面对应的后继点击页面;根据所述当前用户对历史推荐图片的评价对所述后继点击页面的特征进行修正;计算所述后继点击页面经修正的特征与所述图片集合中的图片特征之间的相似度,并将所述相似度超过预设第一阈值的图片作为向所述当前用户提供的推荐图片。通过上述方式,本发明可以实现用户在网页浏览时进行图片的精准推荐。

Description

一种确定推荐图片的方法及装置
【技术领域】
本发明涉及互联网技术,特别涉及一种确定推荐图片的方法及装置。
【背景技术】
图片推荐在图片搜索领域有着广泛应用,准确的推荐图片能够帮助用户尽快找到自己所需要的图片,节约用户的搜索时间。
现有的图片推荐技术,通常是根据图片的文本信息与查询关键词之间的匹配程度决定推荐图片的,或者是根据用户对图片的历史点击记录、兴趣记录来决定推荐图片的。这些方法无法结合用户当前浏览网页的情况实现精准的图片推荐。
【发明内容】
本发明所要解决的技术问题是提供一种确定推荐图片的方法及装置,以实现用户在网页浏览时进行图片的精准推荐。
本发明为解决技术问题而采用的技术方案是提供一种确定推荐图片的方法,包括:预先获取图片集合中的图片在预设的属性下的特征以及网站中的页面在所述属性下的特征;预测当前用户在所述网站访问的当前页面对应的后继点击页面;根据所述当前用户对历史推荐图片的评价对所述后继点击页面的特征进行修正;计算所述后继点击页面经修正的特征与所述图片集合中的图片特征之间的相似度,并将所述相似度超过预设第一阈值的图片作为向所述当前用户提供的推荐图片。
根据本发明之一优选实施例,预测当前用户访问的当前页面对应的后继点击页面的步骤包括:分别获取对所述网站的访问用户进行聚类的结果和对所述网站中的页面进行聚类的结果,其中所述访问用户的聚类结果中,相同的用户类别具有相同的访问模式,所述网站页面的聚类结果中,相同的页面类别被具有相同访问模式的用户所访问;确定所述当前用户所属的用户类别,并将该类别用户访问的页面作为第一页面子集;确定所述当前页面所属的页面类别,并将该类别页面作为第二页面子集;确定所述当前页面对应的各条频繁访问路径,并将各条频繁访问路径的终止节点对应页面作为第三页面子集,其中所述当前页面对应的频繁访问路径是指从所述当前页面出发到所述网站的其他页面的路径中,终止节点对应页面通过最短路径获取到的点击数与所述网站的所有页面点击数的和之间的比值大于预设第二阈值的路径;将所述第一页面子集、第二页面子集及第三页面子集的交集页面作为所述当前页面的后继点击页面。
根据本发明之一优选实施例,根据所述当前用户对历史推荐图片的评价对所述后 继点击页面的特征进行修正的步骤中,采用下列公式对所述后继点击页面的特征进行修 正:其中T(page)′表示 修正后的后继点击页面的特征,T(page)表示修正前的后继点击页面的特征,Ti(picture) 表示历史第i次向所述当前用户推荐的图片的特征,si表示所述当前用户对历史第i次推荐 图片的评价,n表示向所述当前用户推荐图片的总次数,y为[0,1]区间的实数。
根据本发明之一优选实施例,所述方法进一步包括:在向所述当前用户提供推荐图片前,获取用户的网络条件,并将所述相似度超过所述第一阈值的图片中与所述网络条件不匹配的图片过滤掉。
根据本发明之一优选实施例,所述属性至少包括以下类型中的一种:时间类型、地理类型、领域类型和与时效相关的类型。
本发明还提供了一种确定推荐图片的装置,包括:特征获取单元,用于预先获取图片集合中的图片在预设的属性下的特征以及网站中的页面在所述属性下的特征;预测单元,用于预测当前用户在所述网站访问的当前页面对应的后继点击页面;修正单元,用于根据所述当前用户对历史推荐图片的评价对所述后继点击页面的特征进行修正;相似度计算单元,用于计算所述后继点击页面经修正的特征与所述图片集合中的图片特征之间的相似度,并将所述相似度超过预设第一阈值的图片作为向所述当前用户提供的推荐图片。
根据本发明之一优选实施例,所述预测单元包括:获取聚类结果单元,用于分别获取对所述网站的访问用户进行聚类的结果和对所述网站中的页面进行聚类的结果,其中所述访问用户的聚类结果中,相同的用户类别具有相同的访问模式,所述网站页面的聚类结果中,相同的页面类别被具有相同访问模式的用户所访问;第一确定单元,用于确定所述当前用户所属的用户类别,并将该类别用户访问的页面作为第一页面子集;第二确定单元,用于确定所述当前页面所属的页面类别,并将该类别页面作为第二页面子集;第三确定单元,用于确定所述当前页面对应的各条频繁访问路径,并将各条频繁访问路径的终止节点对应页面作为第三页面子集,其中所述当前页面对应的频繁访问路径是指从所述当前页面出发到所述网站的其他页面的路径中,终止节点对应页面通过最短路径获取到的点击数与所述网站的所有页面点击数的和之间的比值大于预设第二阈值的路径;交集单元,用于将所述第一页面子集、第二页面子集及第三页面子集的交集页面作为所述当前页面的后继点击页面。
根据本发明之一优选实施例,所述修正单元采用下列公式对所述后继点击页面的特征进行修正:
其中 T(page)′表示修正后的后继点击页面的特征,T(page)表示修正前的后继点击页面的特征, Ti(picture)表示历史第i次向所述当前用户推荐的图片的特征,si表示所述当前用户对历 史第i次推荐图片的评价,n表示向所述当前用户推荐图片的总次数,y为[0,1]区间的实数。
根据本发明之一优选实施例,所述装置进一步包括:过滤单元,用于在向所述当前用户提供推荐图片前,获取用户的网络条件,并将所述相似度超过预设第一阈值的图片中与所述网络条件不匹配的图片过滤掉。
根据本发明之一优选实施例,所述属性至少包括以下一类型中的一种:时间类型、地理类型、领域类型和与时效相关的类型。
由以上技术方案可以看出,本发明预先基于相同的属性对图片和网页建立特征,然后预测用户想要点击的页面,通过历史推荐给用户的图片特征修正用户想要点击的页面的特征,最后使用修正后的页面特征去匹配适宜的图片推荐给用户,能够有效地根据用户的最终目标页面特征获取准确的推荐图片,大大提高了用户在网页浏览时进行图片推荐的精准度。
【附图说明】
图1为本发明中确定推荐图片的方法的实施例的流程示意图;
图2本发明中确定推荐图片的装置的实施例一的结构示意框图;
图3为本发明中预测单元102的一个实施例的结构示意框图;
图4为本发明中确定推荐图片的装置的实施例二的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中确定推荐图片的方法的实施例的流程示意图。如图1所示,该方法包括:
步骤S1:预先获取图片集合中的图片在预设的属性下的特征以及网站中的页面在所述属性下的特征。
步骤S2:预测当前用户在所述网站访问的当前页面对应的后继点击页面。
步骤S3:根据所述当前用户对历史推荐图片的评价对所述后继点击页面的特征进行修正。
步骤S4:计算所述后继点击页面经修正的特征与所述图片集合中的图片特征之间的相似度,并将所述相似度超过预设第一阈值的图片作为向所述当前用户提供的推荐图片。
下面对上述步骤进行详细说明。
步骤S1可以预先在线下执行。本发明中的图片集合可以是一个图片库,其中的图片可从互联网上收集得到。在一个实施例中,属性至少包括以下几种中的一种:时间类型、地理类型、领域类型和与时效相关的类型。其中时间类型是描述时间信息的属性类型,如对白天或晚上进行限定的属性类型就属于时间类型;地理类型是描述地理信息的属性类型,如对所处的位置进行限定的属性类型就属于地理类型;领域类型是描述各种分类的领域的属性类型,如对经济、政治、体育等领域进行限定的属性类型就属于领域类型;与时效相关的类型是描述时效信息的属性类型,如对天气、历史上的相同日期进行限定的属性类型就属于与时效相关的属性类型。
在步骤S1中,先设定好用于确定图片和页面特征的属性,例如选定了经济、政治、体育三个属性,则在步骤S1中,将提取图片中用于描述这三个属性的特征,以及网页中用于描述这三个属性的特征。
作为一个实施例,为了得到图片的特征,可以首先采用K-means算法对图片集合中的图片进行聚类。将图片集合中的图片初始划分为与属性的个数相同的集合,例如前面是3个属性,则初始的图片集合为3个,然后确定每个集合的聚类中心与这3个属性分别对应,再通过对初始集合不断进行迭代计算以重新对每个图片的类别进行定位,在K-means算法结束时,每张图片被分到一个集合中。由于K-means算法属于现有技术,在此不再详细介绍。作为一个实施例,每张图片的特征可以表示为一个特征向量,其中图片所在的集合对应的属性在这个特征向量中的分量表示为1,其余表示为0,例如一个图片被确定为经济类,则其特征向量可表示为[1,0,0],其中向量的第一至第三列分别表示经济、政治、体育。
获取网页的特征,可以分别从网页中提取与经济、政治、体育这3个属性对应的文本信息,以对网页的内容偏向进行判断,例如一个主要描述经济内容的文本网页的特征向量可以表示为[1,0,0]。
作为一个实施例,步骤S2具体可包括:
步骤S21:分别获取对网站的访问用户进行聚类的结果和对网站中的页面进行聚类的结果。可以先在线下对网站的访问用户进行聚类以及对网站中的页面进行聚类,然后在步骤S21中直接读取保存的聚类结果即可。
线下对网站的访问用户和网站中的页面进行聚类,首先需要利用用户访问日志构建访问用户与页面的关联矩阵。访问用户与页面的关联矩阵中,每一行表示一个页面,每一列表示一个访问用户,交叉元素表示所处列的用户对所处行的页面进行访问的次数。作为一种方式,可将构建好的关联矩阵中大于0的元素均表示1,这样就得到若干个行向量和若干个列向量。对访问用户进行聚类,就是计算列向量之间的汉明距离,汉明距离小于一个设定阈值的列向量表示的访问用户就是属于一个类的用户,同理,对页面进行聚类,就是计算行向量之间的汉明距离,汉明距离小于一个设定阈值的行向量表示的页面就是属于一个类的页面。可以看出,在本发明中,访问用户的聚类结果中,相同的用户类别具有相同的访问模式,而页面的聚类结果中,相同的页面类别被具有相同访问模式的用户所访问。相同的访问模式指的是访问用户所访问的全部页面作为一个整体看来是相似的。
有了访问用户的聚类结果及网站网页的聚类结果之后,就可以执行步骤S22。
步骤S22:确定当前用户所属的用户类别,并将该类别用户访问的页面作为第一页面子集。例如步骤S21中得到的访问用户的聚类结果中有类别c1,c2,c3,当前用户属于类别c1,则c1类别的用户访问过的页面就属于第一页面子集。
步骤S23:确定当前页面所属的页面类别,并将该类别页面作为第二页面子集。例如步骤S21中得到的页面聚类结果中有类别d1,d2,d3,而当前页面属于d1,则d1类别的页面就属于第二页面子集。
步骤S24:确定当前页面对应的各条频繁访问路径,并将各条频繁访问路径的终止节点对应页面作为第三页面子集。当前页面对应的频繁访问路径是指从当前页面出发到网站的其他页面的路径中,终止节点对应页面通过最短路径获取到的点击数与网站的所有页面点击数的和之间的比值大于预设第二阈值的路径。例如当前页面为p1,除此之外,网站还有网页p2、p3、p4,有两条路径可以从p1到达p4,分别为p1->p2->p4和p1->p2->p3->p4,则p1到p4的最短路径为p1->p2->p4,如果p4通过最短路径p1->p2->p4获得的点击数与网站的所有页面点击数之和之间的比值大于预设的第二阈值,则p1->p2->p4就是频繁访问路径,p4就属于第三页面子集。例如p4通过p1->p2->p4获取的点击数为1000,网站所有页面点击数之和为10000,1000/10000=0.1,假设第二阈值为0.05,则p1->p2->p4就是频繁访问路径,p4就属于第三页面子集。
步骤S24:将第一页面子集、第二页面子集及第三页面子集的交集页面作为当前页面的后继点击页面。假设第一页面子集中包含页面p5、p6、p7,第二页面子集中包含页面p6、p8、p9,第三页面子集中包含页面p6、p10、p11,则交集为页面p6,且p6就是当前页面的后继点击页面。
以上对本发明中步骤S1和S2的实施方式已经进行了完整介绍,下面对步骤S3的实施方式进行介绍。
得到当前页面的后继点击页面后,在步骤S3中,将利用当前用户对历史推荐图片的评价来对后继点击页面的特征进行修正。具体地,步骤S3中,可以采用下列公式对后继点击页面的特征进行修正:
其中 T(page)′表示修正后的后继点击页面的特征,T(page)表示修正前的后继点击页面的特征, Ti(picture)表示历史第i次向所述当前用户推荐的图片的特征,si表示所述当前用户对历 史第i次推荐图片的评价,n表示向所述当前用户推荐图片的总次数,y为[0,1]区间的实数。
如果对当前用户而言,没有历史推荐图片,则当前用户不存在对历史推荐图片的评价,因此不需要对后继点击页面的特征进行修正。但是如果对当前用户而言,曾经三次向其推荐图片,分别为图i1、i2和i3,当前用户对i1、i2和i3的评价分别为0.1、0.5和0.9,则后继点击页面的修正特征可以表示为:
步骤S4中,利用特征经修正的后继点击页面,就可以获取到适宜推荐的图片。具体地,可计算修正后的后继点击页面的特征向量与图片集合中的图片的特征向量之间的相似度,即求两个特征向量之间的距离,距离小于第一阈值的特征向量对应的图片就是适宜推荐的图片。适宜推荐的图片,可以在用户从当前页面向下一页面跳转的间隙向用户进行推荐。作为一种优选的实施例,本发明还可以在向当前用户提供推荐图片前,获取用户的网络条件,例如用户使用的带宽、能够达到的下载速度、上网的客户端类型等信息,并将在前述相似度超过第一阈值的图片中与所述网络条件不匹配的图片过滤掉。如用户使用手机上网,则将文件尺寸过大的图片过滤掉,不向用户推荐。
请参考图2,图2为本发明中确定推荐图片的装置的实施例一的结构示意框图。如图2所示,该装置包括特征获取单元101、预测单元102、修正单元103及相似度计算单元104。
其中特征获取单元101,用于预先获取图片集合中的图片在预设的属性下的特征以及网站中的页面在该属性下的特征。本发明中的图片集合可以是一个图片库,其中的图片可从互联网上收集得到。在一个实施例中,属性至少包括以下几种中的一种:时间类型、地理类型、领域类型和与时效相关的类型。其中时间类型是描述时间信息的属性类型,如对白天或晚上进行限定的属性类型就属于时间类型;地理类型是描述地理信息的属性类型,如对所处的位置进行限定的属性类型就属于地理类型;领域类型是描述各种分类的领域的属性类型,如对经济、政治、体育等领域进行限定的属性类型就属于领域类型;与时效相关的类型是描述时效信息的属性类型,如对天气、历史上的相同日期进行限定的属性类型就属于与时效相关的属性类型。
特征获取单元101先设定好用于确定图片和页面特征的属性,例如选定了经济、政治、体育三个属性,则特征获取单元101将提取图片集合中的图片描述这三个属性的特征,以及网站中的网页描述这三个属性的特征。
作为一个实施例,特征获取单元101为了得到图片的特征,可以首先采用K-means算法对图片集合中的图片进行聚类。特征获取单元101将图片集合中的图片初始划分为与属性的个数相同的集合,例如前面是3个属性,则初始的图片集合为3个,然后确定每个集合的聚类中心与这3个属性分别对应,再通过对初始集合不断进行迭代计算以重新对每个图片的类别进行定位,在K-means算法结束时,每张图片被分到一个集合中。作为一个实施例,每张图片的特征可以表示为一个特征向量,其中图片所在的集合对应的属性类别在这个特征向量中的分量表示为1,其余表示为0,例如一个图片被确定为经济类,则其特征向量可表示为[1,0,0],其中向量的第一至第三列分别表示经济、政治、体育。
特征获取单元101获取网页的特征,可以分别从网页中提取与经济、政治、体育这三个属性对应的文本信息,以对网页内容的偏向进行判断,例如一个主要描述经济内容的文本网页的特征向量可以表示为[1,0,0]。
预测单元102,用于预测当前用户在上述网站访问的当前页面对应的后继点击页面。请参考图3,图3为本发明中预测单元102的一个实施例的结构示意框图。如图3所示,预测单元102包括:获取聚类结果单元1021、第一确定单元1022、第二确定单元1023、第三确定单元1024及交集单元1025。
其中,获取聚类结果单元1021,用于分别获取对网站的访问用户进行聚类的结果和对网站中的网页进行聚类的结果。对网站的访问用户进行聚类的结果和对网站中的网页进行聚类的结果可以先在线下对网站的访问用户进行聚类以及对网站中的页面进行聚类得到,获取聚类结果单元1021直接读取之前保存的聚类结果即可。
线下对网站的访问用户和网站中的页面进行聚类,首先需要利用用户访问日志构建访问用户与页面的关联矩阵。访问用户与页面的关联矩阵中,每一行表示一个页面,每一列表示一个访问用户,交叉元素表示所处列的用户对所处行的页面进行访问的次数。作为一种方式,可将构建好的关联矩阵中大于0的元素均表示1,这样就得到若干个行向量和若干个列向量。对访问用户进行聚类,就是计算列向量之间的汉明距离,汉明距离小于一个设定阈值的列向量表示的访问用户就是属于一个类的用户,同理,对页面进行聚类,就是计算行向量之间的汉明距离,汉明距离小于一个设定阈值的行向量表示的页面就是属于一个类的页面。可以看出,在本发明中,访问用户的聚类结果中,相同的用户类别具有相同的访问模式,而页面的聚类结果中,相同的页面类别被具有相同访问模式的用户所访问。相同的访问模式指的是访问用户所访问的全部页面作为一个整体看来是相似的。
第一确定单元1022,用于确定当前用户所属的用户类别,并将该类别用户访问的页面作为第一页面子集。例如获取聚类结果单元1021得到的访问用户的聚类结果中有类别c1,c2,c3,当前用户属于类别c1,则第一确定单元1022确定c1类别的用户访问过的页面属于第一页面子集。
第二确定单元1023,用于确定当前页面所属的页面类别,并将该类别页面作为第二页面子集。例如获取聚类结果单元1021得到的页面聚类结果中有类别d1,d2,d3,而当前页面属于d1,则第二确定单元1023确定d1类别的页面属于第二页面子集。
第三确定单元1024,用于确定当前页面对应的各条频繁访问路径,并将各条频繁访问路径的终止节点对应页面作为第三页面子集。当前页面对应的频繁访问路径是指从当前页面出发到网站的其他页面的路径中,终止节点对应页面通过最短路径获取到的点击数与网站的所有页面点击数的和之间的比值大于预设第二阈值的路径。例如当前页面为p1,除此之外,网站还有网页p2、p3、p4,有两条跳转路径可以从p1到达p4,分别为p1->p2->p4和p1->p2->p3->p4,则p1到p4的最短路径为p1->p2->p4,如果p4通过最短路径p1->p2->p4获得的点击数与网站的所有页面点击数之和之间的比值大于预设的第二阈值,则p1->p2->p4就是频繁访问路径,p4就属于第三页面子集。例如p4通过p1->p2->p4获取的点击数为1000,网站所有页面点击数之和为10000,1000/10000=0.1,假设第二阈值为0.05,则p1->p2->p4就是频繁访问路径,p4就属于第三页面子集。
交集单元1025,用于将第一页面子集、第二页面子集及第三页面子集的交集页面作为当前页面的后继点击页面。假设第一页面子集中包含页面p5、p6、p7,第二页面子集中包含页面p6、p8、p9,第三页面子集中包含页面p6、p10、p11,则交集为页面p6,且p6就是当前页面的后继点击页面。
下面请继续参考图2。
修正单元103,用于根据当前用户对历史推荐图片的评价对后继点击页面的特征进行修正。具体地,修正单元103可以采用下列公式对后继点击页面的特征进行修正:
其中T(page)′表示修正后的后继点击页面的特征,T(page)表示修正前的后继点击页面的特征,Ti(picture)表示历史第i次向所述当前用户推荐的图片的特征,si表示所述当前用户对历史第i次推荐图片的评价,n表示向所述当前用户推荐图片的总次数,y为[0,1]区间的实数。
如果对当前用户而言,没有历史推荐图片,则当前用户不存在对历史推荐图片的评价,因此修正单元103不需要对后继点击页面的特征进行修正。但是如果对当前用户而言,曾经三次向其推荐图片,分别为图i1、i2和i3,当前用户对i1、i2和i3的评价分别为0.1、0.5和0.9,则修正单元103可将后继点击页面的修正特征表示为:
相似度计算单元104,用于计算后继点击页面经修正的特征与图片集合中的图片特征之间的相似度,并将相似度超过预设第一阈值的图片作为向当前用户提供的推荐图片。其中推荐图片可由装置在用户从当前页面向下一页面跳转的间隙向用户进行推荐。
请参考图4,图4为本发明中确定推荐图片的装置的实施例二的结构示意框图。如图4所示,在该实施例中,所述装置进一步包括过滤单元105,用于在向当前用户提供推荐图片前,获取用户的网络条件,并将相似度超过第一阈值的图片中与获取的网络条件不匹配的图片过滤掉。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种确定推荐图片的方法,包括:
预先获取图片集合中的图片在预设的属性下的特征以及网站中的页面在所述属性下的特征;
预测当前用户在所述网站访问的当前页面对应的后继点击页面;
根据所述当前用户对历史推荐图片的评价对所述后继点击页面在所述属性下的特征进行修正;
计算所述后继点击页面经修正的特征与所述图片集合中的图片在所述属性下的特征之间的相似度,并将所述相似度超过预设第一阈值的图片作为向所述当前用户提供的推荐图片。
2.根据权利要求1所述的方法,其特征在于,预测当前用户访问的当前页面对应的后继点击页面的步骤包括:
分别获取对所述网站的访问用户进行聚类的结果和对所述网站中的页面进行聚类的结果,其中所述访问用户的聚类结果中,相同的用户类别具有相同的访问模式,所述网站页面的聚类结果中,相同的页面类别被具有相同访问模式的用户所访问;
确定所述当前用户所属的用户类别,并将该类别用户访问的页面作为第一页面子集;
确定所述当前页面所属的页面类别,并将该类别页面作为第二页面子集;
确定所述当前页面对应的各条频繁访问路径,并将各条频繁访问路径的终止节点对应页面作为第三页面子集,其中所述当前页面对应的频繁访问路径是指从所述当前页面出发到所述网站的其他页面的路径中,终止节点对应页面通过最短路径获取到的点击数与所述网站的所有页面点击数的和之间的比值大于预设第二阈值的路径;
将所述第一页面子集、第二页面子集及第三页面子集的交集页面作为所述当前页面的后继点击页面。
3.根据权利要求1所述的方法,其特征在于,根据所述当前用户对历史推荐图片的评价对所述后继点击页面在所述属性下的特征进行修正的步骤中,采用下列公式对所述后继点击页面的特征进行修正:
其中T(page)′表示修正后的后继点击页面的特征,T(page)表示修正前的后继点击页面的特征,Ti(picture)表示历史第i次向所述当前用户推荐的图片的特征,si表示所述当前用户对历史第i次推荐图片的评价,n表示向所述当前用户推荐图片的总次数,y为[0,1]区间的实数。
4.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:在向所述当前用户提供推荐图片前,获取用户的网络条件,并将所述相似度超过所述第一阈值的图片中与所述网络条件不匹配的图片过滤掉。
5.根据权利要求1所述的方法,其特征在于,所述属性至少包括以下类型中的一种:时间类型、地理类型、领域类型和与时效相关的类型。
6.一种确定推荐图片的装置,包括:
特征获取单元,用于预先获取图片集合中的图片在预设的属性下的特征以及网站中的页面在所述属性下的特征;
预测单元,用于预测当前用户在所述网站访问的当前页面对应的后继点击页面;
修正单元,用于根据所述当前用户对历史推荐图片的评价对所述后继点击页面在所述属性下的特征进行修正;
相似度计算单元,用于计算所述后继点击页面经修正的特征与所述图片集合中的图片在所述属性下的特征之间的相似度,并将所述相似度超过预设第一阈值的图片作为向所述当前用户提供的推荐图片。
7.根据权利要求6所述的装置,其特征在于,所述预测单元包括:
获取聚类结果单元,用于分别获取对所述网站的访问用户进行聚类的结果和对所述网站中的页面进行聚类的结果,其中所述访问用户的聚类结果中,相同的用户类别具有相同的访问模式,所述网站页面的聚类结果中,相同的页面类别被具有相同访问模式的用户所访问;
第一确定单元,用于确定所述当前用户所属的用户类别,并将该类别用户访问的页面作为第一页面子集;
第二确定单元,用于确定所述当前页面所属的页面类别,并将该类别页面作为第二页面子集;
第三确定单元,用于确定所述当前页面对应的各条频繁访问路径,并将各条频繁访问路径的终止节点对应页面作为第三页面子集,其中所述当前页面对应的频繁访问路径是指从所述当前页面出发到所述网站的其他页面的路径中,终止节点对应页面通过最短路径获取到的点击数与所述网站的所有页面点击数的和之间的比值大于预设第二阈值的路径;
交集单元,用于将所述第一页面子集、第二页面子集及第三页面子集的交集页面作为所述当前页面的后继点击页面。
8.根据权利要求6所述的装置,其特征在于,所述修正单元采用下列公式对所述后继点击页面在所述属性下的特征进行修正:
其中
T(page)′表示修正后的后继点击页面的特征,T(page)表示修正前的后继点击页面的特征,Ti(picture)表示历史第i次向所述当前用户推荐的图片的特征,si表示所述当前用户对历史第i次推荐图片的评价,n表示向所述当前用户推荐图片的总次数,y为[0,1]区间的实数。
9.根据权利要求6所述的装置,其特征在于,所述装置进一步包括:
过滤单元,用于在向所述当前用户提供推荐图片前,获取用户的网络条件,并将所述相似度超过预设第一阈值的图片中与所述网络条件不匹配的图片过滤掉。
10.根据权利要求6所述的装置,其特征在于,所述属性至少包括以下一类型中的一种:时间类型、地理类型、领域类型和与时效相关的类型。
CN201310156965.5A 2013-04-28 2013-04-28 一种确定推荐图片的方法及装置 Active CN104123321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310156965.5A CN104123321B (zh) 2013-04-28 2013-04-28 一种确定推荐图片的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310156965.5A CN104123321B (zh) 2013-04-28 2013-04-28 一种确定推荐图片的方法及装置

Publications (2)

Publication Number Publication Date
CN104123321A CN104123321A (zh) 2014-10-29
CN104123321B true CN104123321B (zh) 2019-01-15

Family

ID=51768733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310156965.5A Active CN104123321B (zh) 2013-04-28 2013-04-28 一种确定推荐图片的方法及装置

Country Status (1)

Country Link
CN (1) CN104123321B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361062B (zh) * 2014-11-03 2017-10-31 百度在线网络技术(北京)有限公司 一种关联信息的推荐方法及装置
CN105512326B (zh) * 2015-12-23 2019-03-22 成都品果科技有限公司 一种图片推荐的方法及系统
CN106933911A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 最短路径识别方法及装置
CN106933896B (zh) * 2015-12-31 2021-06-22 北京国双科技有限公司 最短访问路径识别方法及装置
CN108255886B (zh) * 2016-12-29 2021-08-13 北京国双科技有限公司 推荐系统的评估方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826114A (zh) * 2010-05-26 2010-09-08 南京大学 一种基于多马尔可夫链的内容推荐方法
CN101968802A (zh) * 2010-09-30 2011-02-09 百度在线网络技术(北京)有限公司 一种基于用户浏览行为进行互联网内容推荐的方法与设备
CN102855245A (zh) * 2011-06-28 2013-01-02 北京百度网讯科技有限公司 一种用于确定图片相似度的方法与设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7966225B2 (en) * 2007-03-30 2011-06-21 Amazon Technologies, Inc. Method, system, and medium for cluster-based categorization and presentation of item recommendations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826114A (zh) * 2010-05-26 2010-09-08 南京大学 一种基于多马尔可夫链的内容推荐方法
CN101968802A (zh) * 2010-09-30 2011-02-09 百度在线网络技术(北京)有限公司 一种基于用户浏览行为进行互联网内容推荐的方法与设备
CN102855245A (zh) * 2011-06-28 2013-01-02 北京百度网讯科技有限公司 一种用于确定图片相似度的方法与设备

Also Published As

Publication number Publication date
CN104123321A (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
US11710054B2 (en) Information recommendation method, apparatus, and server based on user data in an online forum
TWI636416B (zh) 內容個人化之多相排序方法和系統
JP7222022B2 (ja) 情報検索方法、装置、設備、記憶媒体、及びプログラム
US20180375949A1 (en) Provisioning personalized content recommendations
CN107424043A (zh) 一种产品推荐方法及装置,电子设备
US9720913B1 (en) Automatic generation of snippets based on context and user interest
CN103514304B (zh) 一种项目推荐方法和装置
CN103324645B (zh) 一种网页推荐方法和装置
CN107862553A (zh) 广告实时推荐方法、装置、终端设备及存储介质
US9230030B2 (en) Method and system for mining websites
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和系统
WO2014134940A1 (en) Method and server of group recommendation
KR102340463B1 (ko) 샘플 가중치 설정방법 및 장치, 전자 기기
CN102929928A (zh) 基于多维相似度的个性化新闻推荐方法
CN103886090A (zh) 基于用户喜好的内容推荐方法及装置
CN104123321B (zh) 一种确定推荐图片的方法及装置
KR20100015479A (ko) 의도성 매칭
CN105740448B (zh) 面向话题的多微博时序文摘方法
Sandholm et al. Real-time, location-aware collaborative filtering of web content
KR102601545B1 (ko) 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치
CN106897398B (zh) 一种视频展示方法及装置
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
WO2014183544A1 (en) Method and device for generating a personalized navigation webpage
CN112989169A (zh) 目标对象识别方法、信息推荐方法、装置、设备及介质
CN110020152B (zh) 应用推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant