CN103544313B - 用于网页推荐的数据处理方法和装置 - Google Patents

用于网页推荐的数据处理方法和装置 Download PDF

Info

Publication number
CN103544313B
CN103544313B CN201310538627.8A CN201310538627A CN103544313B CN 103544313 B CN103544313 B CN 103544313B CN 201310538627 A CN201310538627 A CN 201310538627A CN 103544313 B CN103544313 B CN 103544313B
Authority
CN
China
Prior art keywords
path
webpage
access
current accessed
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310538627.8A
Other languages
English (en)
Other versions
CN103544313A (zh
Inventor
刘合翔
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201310538627.8A priority Critical patent/CN103544313B/zh
Publication of CN103544313A publication Critical patent/CN103544313A/zh
Application granted granted Critical
Publication of CN103544313B publication Critical patent/CN103544313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于网页推荐的数据处理方法和装置。该用于网页推荐的数据处理方法包括:获取页面访问的当前访问路径;在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径;以及基于参考访问路径提示当前访问路径下一步访问的推荐网页。通过本发明,能够根据用户当前浏览网页动态进行网页推荐。

Description

用于网页推荐的数据处理方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种用于网页推荐的数据处理方法和装置。
背景技术
传统的页面推荐技术主要是基于个人浏览的历史、群体浏览的热度以及社会关系网络来进行推荐,其技术方案更多是利用个人及群体的历史行为及其历史的显性关系来形成推荐依据,通常只能在用户单次访问中基于该推荐依据做单次推荐,无法根据基于用户的访问进行追踪性的动态推荐。
针对现有技术无法根据用户当前浏览网页动态进行网页推荐的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于网页推荐的数据处理方法和装置,以解决现有技术无法实时地根据用户当前浏览网页动态进行网页推荐的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页推荐数据处理方法。根据本发明的网页推荐数据处理方法包括:获取页面访问的当前访问路径;在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径;以及基于参考访问路径提示当前访问路径下一步访问的推荐网页。
进一步地,在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径包括:查找预先设置的路径库中与当前访问路径的当前访问页面的内容相同且访问顺序相同的路径记录;根据路径记录与当前访问路径计算路径记录的配对频数,其中,配对频数为从第一网页到第二网页的路径出现的次数;在路径记录中查找配对频数最大的记录;以及将配对频数最大的路径记录作为参考访问路径。
进一步地,查找预先设置的路径库中与当前访问路径的当前访问页面的内容相同且访问顺序相同的路径记录包括:获取第二网页的页面内容;获取第二网页的访问顺序;判断当前访问页面的内容与第二网页的页面内容是否相同;判断当前访问页面的访问顺序与第二网页的访问顺序是否相同;以及如果判断出当前访问页面的内容与第 二网页的页面内容相同,且当前访问页面的访问顺序与第二网页的访问顺序相同,确定从第一网页到第二网页的路径为路径记录。
进一步地,基于参考访问路径提示当前访问路径下一步访问的推荐网页之后,网页推荐数据处理方法包括:记录当前访问路径的下一步访问的实际访问网页;判断实际访问网页与推荐网页是否相同;如果实际访问网页与推荐网页相同,则在当前访问路径中记录实际访问网页;以及如果实际访问网页与推荐网页不同,则记录是实际访问网页与推荐网页不相符,并在当前会话路径中记录实际访问网页。
进一步地,在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径之前,网页推荐数据处理方法包括:记录当前访问路径;判断当前访问路径是否结束;
如果当前访问路径没有结束,记录当前访问路径和下一步访问路径;统计当前访问路径和下一步访问路径的配对频数;如果当前访问路径结束,计算当前访问路径的配对频数与上一次访问结束时配对频数的变化量;判断配对频数的变化量是否小于预定阈值;如果判断出频数变化量大于预定阈值,则继续记录下一步访问路径;如果判断出频数变化量小于预定阈值,则记录当前访问路径的频数;以及通过记录的路径生成路径库。
为了实现上述目的,根据本发明的另一方面,提供了一种网页推荐数据处理装置。根据本发明的网页推荐数据处理装置包括:获取单元,用于获取页面访问的当前访问路径;查找单元,用于在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径;以及提示单元,用于基于参考访问路径提示当前访问路径下一步访问的推荐网页。
进一步地,查找单元包括:第一查找模块,用于查找预先设置的路径库中与当前访问路径的当前访问页面的内容相同且访问顺序相同的路径记录;计算模块,用于根据路径记录与当前访问路径计算路径记录的配对频数,其中,配对频数为从第一网页到第二网页的路径出现的次数;第二查找模块,用于在路径记录中查找配对频数最大的记录;以及记录模块,用于将配对频数最大的路径记录作为参考访问路径。
进一步地,第一查找模块包括:内容获取子模块,用于获取第二网页的页面内容;顺序获取子模块,用于获取第二网页的访问顺序;内容判断子模块,用于判断当前访问页面的内容与第二网页的页面内容是否相同;顺序判断子模块,用于判断当前访问页面的访问顺序与第二网页的访问顺序是否相同;以及确定子模块,用于在判断出当前访问页面的内容与第二网页的页面内容相同,且当前访问页面的访问顺序与第二网页的访问顺序相同时,确定从第一网页到第二网页的路径为路径记录。
进一步地,数据处理装置还包括:第一记录单元,用于记录当前访问路径的下一步访问的实际访问网页;判断单元,用于判断实际访问网页与推荐网页是否相同;第二记录单元,用于在实际访问网页与推荐网页相同时,在当前访问路径中记录实际访 问网页;以及第三记录单元,用于在实际访问网页与推荐网页不同时,记录实际访问网页与推荐网页不相符,并在当前会话路径中记录实际访问网页。
进一步地,数据处理装置还包括:第四记录单元,用于在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径之前,记录当前访问路径;路径判断单元,用于判断当前访问路径是否结束;第五记录单元,用于在当前访问路径没有结束时,记录当前访问路径和下一步访问路径;统计单元,用于统计当前访问路径和下一步访问路径的配对频数;计算单元,用于在当前访问路径结束时,计算当前访问路径的配对频数与上一次访问结束时配对频数的变化量;频数判断单元,用于判断配对频数的变化量是否小于预定阈值;第六记录单元,用于在判断出频数变化量大于预定阈值时,继续记录下一步访问路径;第七记录单元,用于在判断出频数变化量小于预定阈值时,记录当前访问路径的频数;以及生成单元,用于通过记录的路径生成路径库。
通过本发明,采用获取页面访问的当前访问路径,在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径,以及基于参考访问路径提示当前访问路径下一步访问的推荐网页,解决了现有技术无法根据用户当前浏览网页动态进行网页推荐的问题,进而达到了根据用户当前浏览网页动态进行网页推荐的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明第一实施例的用于网页推荐的数据处理方法的流程图;
图2是根据本发明第二实施例的数据处理方法的流程图;
图3是根据本发明第三实施例的数据处理方法的流程图;
图4是根据本发明第一实施例的数据处理装置的示意图;
图5是根据本发明第二实施例的数据处理装置的示意图;以及
图6是根据本发明第三实施例的数据处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领 域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种用于网页推荐的数据处理方法。该数据处理方法可以运行在计算机处理装置上,以下结合附图对该数据处理方法进行说明。
图1是根据本发明第一实施例的用于网页推荐的数据处理方法的流程图。
步骤S101,获取页面访问的当前访问路径。在浏览网页时,往往会通过一个网页跳转到另外一个网页,这样由一个网页跳转到另外一个网页的过程就形成了网页的访问路径。获取的当前访问路径可以是当前浏览的网页所处的访问路径。例如,当前访问的页面为B,上一个访问页面为A,则当前访问路径为A-B。如果下一个访问的页面为C,则当前访问路径为A-B-C。
由于在处于当前访问页面的时候不确定下一个要访问的页面,因此当前访问路径为A-B。如果当前处于的页面是A,即当次浏览刚刚开始,则当前访问路径为A。
以下举例说明访问路径:
网站总页面数为M,通常M很大且M的大小未知;
网站所有页面集合为S={Page1,Page2,…,PageM}
假设网站所有页面都具有指向站内任何其他页面的内部链接,用户在网站内不同页面之间进行连续访问被视为一次访问,而用户退出页面或跳转至网站外其他链接则视为访问结束,根据用户一次访问的访问行为,可以归纳访问路径为:
Begin——Page1——Page2——……——PageN——End;
定义一次访问开始的着落页为PageA,用户第二页访问页面为PageB,则记本次访问当前的访问路径轨迹为PathNow=PageA-B,以此类推。
用户一般浏览网站的行为包括三种,分别是在本网站内进行浏览和交互、通过出链跳转至新的网站或退出,由于假设网站所有页面都具有指向站内其他页面的内部链接,因此有M-1种下一步访问路径的可能,除此之外,跳转至其他网站和退出都会导致访问结束,记为1种下一步浏览路径的可能。因此,每一步当前访问路径轨迹都有M-1+1=M种下一步浏览路径的可能性,当前页面为PageI时,下一步浏览路径的集合为Next={S-PageI,Exit},其中Exit表示访问结束。
步骤S102,在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径。预先设置的路径库中存储了多个访问路径,路径库中的访问路径可以是根据历史浏览记录建立的访问路径,也可以随着用户访问加入新的访问路径。
任意一个网页都可以存在指向下个网页的链接,因此,可以根据网页的链接确定可能跳转的下个网页。另外,根据用户的浏览记录也可以确定当前页面可以跳转的下个页面。
在访问当前页面时,可以在路径库中查找与当前访问路径一致的参考访问路径。例如,当前访问的路径为A-B,那么查找与当前访问路径A-B匹配的路径。如果路径库中存在路径A-B-C、路径A-B-C或者路径D-A-B-C,这三种访问路径都可以认为与当前访问路径A匹配,可以将这三种访问路径中的任一个作为参考访问路径。
需要说明的是,如果当前访问路径为A-B-C,可以根据访问路径B-C在路径库中查找参考访问路径,也可以根据访问路径A-B-C在路径库中查找参考访问路径,容易理解的是,利用访问路径A-B-C查找的参考访问路径会较少也较准确。
经过上述方法查找到的路径可能较多,可以采用计算并比较多个路径的配对频数来确定一个路径作为参考访问路径,具体的方法将在下面的实施例中进行说明,在此不做赘述。
步骤S103,基于参考访问路径提示当前访问路径下一步访问的推荐网页。在确定参考访问路径之后,可以将参考访问路径中与当前访问页面内容相同且访问顺序相同的网页的下一个网页推荐给用户,推荐的网页可以为一个或者多个。确定推荐的网页之后,可以在网页中明文显示下一个访问的一个或者多个网页。
为了更准确的推荐网页,可以只推荐一个网页。在推荐多个网页的时候,可以将匹配度较高的网页显示在网页的显示部分的前端,将匹配度较低的网页显示在网页的显示部分的后面。例如,对于上述访问路径A-B,下一步访问的推荐网页为网页C。
通过上述方法,可以根据当前访问路径在路径库中查找参考访问路径,并基于参考访问路径推荐网页,能够实时根据当前访问路径动态推荐网页。
图2是根据本发明第二实施例的数据处理方法的流程图。图2所示实施例可以作为图1所示实施例的优选实施方式,在执行步骤S102之后执行如下步骤:
步骤S201,查找预先设置的路径库中与当前访问路径的当前访问页面的内容相同且访问顺序相同的路径记录。如果当前访问的页面为网页B,当前访问的路径为A-B,那么与当前访问路径的当前访问页面的内容相同且访问顺序相同的路径为A-B,查找到包含路径A-B的记录都可以作为路径记录,例如,路径A-B-C或者D-A-B,甚至更长的路径。
如果当前访问的路径为Q-W-E-R-B,则需要查找路径库中包含路径Q-W-E-R-B的记录作为路径记录。
步骤S202,根据路径记录与当前访问路径计算路径记录的配对频数,其中,配对频数为从第一网页到第二网页的路径出现的次数。在预先设置的路径库中能够找到多个路径记录,为了准确推荐网页,可以计算路径记录的配对频数,通过比较配对频数的大小确定推荐的网页。
配对频数为第一网页到第二网页的路径出现的次数,例如,网页A可以跳转的网页包括B1、B2、B3、B4,在路径库中出现路径A-B1的次数为6次,出现路径A-B2的次数为5次,出现路径A-B3的次数为3次,出现路径A-B4的次数为1次,上述6次、5次、3次和1次都为配对频数。
步骤S203,在路径记录中查找配对频数最大的记录。配对频数最大的记录中的网页作为推荐网页能够更加准确。在网页A跳转的网页为B1、B2、B3、B4的例子中,配对频数最大的记录为路径A-B1,配对频数为6。
步骤S204,将配对频数最大的路径记录作为参考访问路径。参考访问路径的可以包含上述配对频数最大的路径记录,但不限于仅包含频数最大的路径记录。例如,参考访问路径可以为A-B1-B2,也可以是路径Q-W-E-A-B1-B2,那么B2可以作为推荐网页。
优选地,查找预先设置的路径库中与当前访问路径的当前访问页面的内容相同且访问顺序相同的路径记录包括如下步骤:
步骤S2011,获取第二网页的页面内容。第二网页可以是路径库中路径记录的页面。获取第二网页的页面内容是为了与当前访问的网页内容比较是否相同。
步骤S2012,获取第二网页的访问顺序。获取第二网页的访问顺序可以是路径库中任一包含第二网页的路径中第二网页所处的访问顺序。
步骤S2013,判断当前访问页面的内容与第二网页的页面内容是否相同。
步骤S2014,判断当前访问页面的访问顺序与第二网页的访问顺序是否相同。
步骤S2015,如果判断出当前访问页面的内容与第二网页的页面内容相同,且当前访问页面的访问顺序与第二网页的访问顺序相同,确定从第一网页到第二网页的路径为路径记录。
例如,第一网页为网页A,第二网页为B,那么第二网页所在的访问路径为A-B,或者为包含A-B的路径。当前访问页面为B,如果当前访问页面B的上一个访问页面为A,则当前访问页面B的访问路径为A-B。综上,第一网页到第二网页的访问路径与当前访问页面的访问路径相同,可以作为路径记录。
通过步骤S2011至步骤S2015能够确定一个或者多个路径记录,从一个或者多个路径记录中确定参考访问路径。
图3是根据本发明第三实施例的数据处理方法的流程图。在基于参考访问路径提示当前访问路径下一步访问的推荐网页之后,该数据处理方法包括如下步骤:
步骤S301,记录当前访问路径的下一步访问的实际访问网页。在推荐网页之后,记录当前访问路径下的下一步访问的实际访问网页X,以确定实际访问网页X与推荐网页C是否相同,检测推荐的网页是否准确。
步骤S302,判断实际访问网页与推荐网页是否相同。在此步骤只需要判断实际访问网页内容是否与推荐网页内容相同,通过能够判断实际访问网页与推荐网页是同一个网页的方法都可以用于判断实际访问网页与推荐网页是否相同。
步骤S303,如果实际访问网页与推荐网页相同,则在当前访问路径中记录实际访问网页。记录实际访问的网页之后,当前访问路径由路径A-B变为路径A-B-C,将该记录的路径A-B-C存储到路径表中。
步骤S304,如果实际访问网页与推荐网页不同,则记录是实际访问网页与推荐网页不相符,并在当前会话路径中记录实际访问网页。如果实际访问的网页X与推荐的网页C不相同,则当前访问路径由路径A-B变为路径A-B-X,存储该路径A-B-X至路径表中,并且记录实际访问页面与推荐的网页不相符。
在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径之前,本发明实施例的网页推荐数据处理方法包括生成路径库的方法。生成的路径库可以包含历史访问路径,还可以包含当前生成的访问路径。具体的生成路径库的方法如下:
步骤S401,记录当前访问路径。例如,访问路径轨迹为PATH=PageA-B-C-…N,可以用k来表示当前访问页面,用N表示结束页面;确定判止参数ε=0.0001,用于 判断当前访问路径与上一个访问路径是否相同。
步骤S402,判断当前访问路径是否结束。如果访问路径的下一个页面指向网站外部链接则认为当前访问路径结束。判断K是否大于等于N,如果K大于等于N,则当前访问路径结束;如果判断K小于N,则当前访问继续。
步骤S403,如果当前访问路径没有结束,记录当前访问路径和下一步访问路径。如果判断K小于N,则当前访问继续,记录当前访问路径和下一步访问路径。
步骤S401,统计当前访问路径和下一步访问路径的配对频数。例如,记录当前访问路径和下一步访问路径如下{[(PathNow1,PathNext1),Freq11],[(PathNow1,PathNext2),Freq12],…,[(PathNowm,PathNextn),Freqmn]}。
步骤S404,如果当前访问路径结束,计算当前访问路径的配对频数与上一次访问结束时配对频数的变化量。通过以下公式可以计算当前访问路径的配对频数与上一次访问结束时配对频数的变化量:
其中,A为配对频数的变化量,nF为当前路径的配对频数,oF为上一次访问路径的配对频数。
步骤S405,判断配对频数的变化量是否小于预定阈值。预定阈值可以为ε=0.0001,判断A是否小于ε。如果A小于ε,则确定当前访问路径与上一访问路径相同。
步骤S406,如果判断出频数变化量大于预定阈值,则继续记录下一步访问路径。如果判断出频数变化量A大于预定阈值ε,则继续下一步的访问路径。
步骤S407,如果判断出频数变化量小于预定阈值,则记录当前访问路径的频数。如果判断出频数变化量A小于预定阈值ε,则当前访问路径与上一步访问路径相同,记录当前访问路径的频数。
步骤S408,通过记录的路径生成路径库。在当前访问路径结束之后,存储记录的当前访问路径生成路径库。
本发明实施例还提供了一种用于网页推荐的数据处理装置。
本发明实施例的数据处理方法可以通过本发明实施例所提供的数据处理装置来执行,本发明实施例的数据处理装置也可以用于执行本发明实施例所提供的数据处理方法。
图4是根据本发明第一实施例的数据处理装置的示意图。如图,该数据处理装置包括获取单元10、查找单元20和提示单元30。
获取单元10用于获取页面访问的当前访问路径。在浏览网页时,往往会通过一个网页跳转到另外一个网页,这样由一个网页跳转到另外一个网页的过程就形成了网页的访问路径。获取的当前访问路径可以是当前浏览的网页所处的访问路径。例如,当前访问的页面为B,上一个访问页面为A,则当前访问路径为A-B。如果下一个访问的页面为C,则当前访问路径为A-B-C。
由于在处于当前访问页面的时候不确定下一个要访问的页面,因此当前访问路径为A-B。如果当前处于的页面是A,即当次浏览刚刚开始,则当前访问路径为A。
以下举例说明访问路径:
网站总页面数为M,通常M很大且M的大小未知;
网站所有页面集合为S={Page1,Page2,…,PageM}
假设网站所有页面都具有指向站内任何其他页面的内部链接,用户在网站内不同页面之间进行连续访问被视为一次访问,而用户退出页面或跳转至网站外其他链接则视为访问结束,根据用户一次访问的访问行为,可以归纳访问路径为:
Begin——Page1——Page2——……——PageN——End;
定义一次访问开始的着落页为PageA,用户第二页访问页面为PageB,则记本次访问当前的访问路径轨迹为PathNow=PageA-B,以此类推。
用户一般浏览网站的行为包括三种,分别是在本网站内进行浏览和交互、通过出链跳转至新的网站或退出,由于假设网站所有页面都具有指向站内其他页面的内部链接,因此有M-1种下一步访问路径的可能,除此之外,跳转至其他网站和退出都会导致访问结束,记为1种下一步浏览路径的可能。因此,每一步当前访问路径轨迹都有M-1+1=M种下一步浏览路径的可能性,当前页面为PageI时,下一步浏览路径的集合为Next={S-PageI,Exit},其中Exit表示访问结束。
查找单元20用于在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径。在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径。预先设置的路径库中存储了多个访问路径,路径库中的访问路径可以是根据历史浏览记录建立的访问路径,也可以随着用户访问加入新的访问路径。
任意一个网页都可以存在指向下个网页的链接,因此,可以根据网页的链接确定可能跳转的下个网页。另外,根据用户的浏览记录也可以确定当前页面可以跳转的下个页面。
在访问当前页面时,可以在路径库中查找与当前访问路径一致的参考访问路径。例如,当前访问的路径为A-B,那么查找与当前访问路径A-B匹配的路径。如果路径库中存在路径A-B-C、路径A-B-C或者路径D-A-B-C,这三种访问路径都可以认为与当前访问路径A匹配,可以将这三种访问路径中的任一个作为参考访问路径。
需要说明的是,如果当前访问路径为A-B-C,可以根据访问路径B-C在路径库中查找参考访问路径,也可以根据访问路径A-B-C在路径库中查找参考访问路径,容易理解的是,利用访问路径A-B-C查找的参考访问路径会较少也较准确。
经过上述装置查找到的路径可能较多,可以采用计算并比较多个路径的配对频数来确定一个路径作为参考访问路径,具体的方法将在下面的实施例中进行说明,在此不做赘述。
提示单元30用于基于参考访问路径提示当前访问路径下一步访问的推荐网页。在确定参考访问路径之后,可以将参考访问路径中与当前访问页面内容相同且访问顺序相同的网页的下一个网页推荐给用户,推荐的网页可以为一个或者多个。确定推荐的网页之后,可以在网页中明文显示下一个访问的一个或者多个网页。
为了更准确的推荐网页,可以只推荐一个网页。在推荐多个网页的时候,可以将匹配度较高的网页显示在网页的显示部分的前端,将匹配度较低的网页显示在网页的显示部分的后面。例如,对于上述访问路径A-B,下一步访问的推荐网页为网页C。
通过上述装置,可以根据当前访问路径在路径库中查找参考访问路径,并基于参考访问路径推荐网页,能够实时根据当前访问路径动态推荐网页。
图5是根据本发明第二实施例的数据处理装置的示意图。如图,该数据处理装置包括获取单元10、查找单元20和提示单元30,其中,查找单元20包括第一查找模块201、计算模块202、第二查找模块203和记录模块204。其中,获取单元10和提示单元30的功能与图5所示获取单元10和提示单元30的功能相同,在此不作赘述。
第一查找模块201用于查找预先设置的路径库中与当前访问路径的当前访问页面的内容相同且访问顺序相同的路径记录。如果当前访问的页面为网页B,当前访问的路径为A-B,那么与当前访问路径的当前访问页面的内容相同且访问顺序相同的路径为A-B,查找到包含路径A-B的记录都可以作为路径记录,例如,路径A-B-C或者D-A-B,甚至更长的路径。
如果当前访问的路径为Q-W-E-R-B,则需要查找路径库中包含路径Q-W-E-R-B的记录作为路径记录。
计算模块202用于根据路径记录与当前访问路径计算路径记录的配对频数,其中,配对频数为从第一网页到第二网页的路径出现的次数。在预先设置的路径库中能够找到多个路径记录,为了准确推荐网页,可以计算路径记录的配对频数,通过比较配对频数的大小确定推荐的网页。
配对频数为第一网页到第二网页的路径出现的次数,例如,网页A可以跳转的网页包括B1、B2、B3、B4,在路径库中出现路径A-B1的次数为6次,出现路径A-B2的次数为5次,出现路径A-B3的次数为3次,出现路径A-B4的次数为1次,上述6次、5次、3次和1次都为配对频数。
第二查找模块203用于在路径记录中查找配对频数最大的记录。配对频数最大的记录中的网页作为推荐网页能够更加准确。在网页A跳转的网页为B1、B2、B3、B4的例子中,配对频数最大的记录为路径A-B1,配对频数为6。
记录模块204用于将配对频数最大的路径记录作为参考访问路径。参考访问路径的可以包含上述配对频数最大的路径记录,但不限于仅包含频数最大的路径记录。例如,参考访问路径可以为A-B1-B2,也可以是路径Q-W-E-A-B1-B2,那么B2可以作为推荐网页。
优选地,第一查找模块201通过以下子模块查找预先设置的路径库中与当前访问路径的当前访问页面的内容相同且访问顺序相同的路径记录:
内容获取子模块用于获取第二网页的页面内容。第二网页可以是路径库中路径记录的页面。获取第二网页的页面内容是为了与当前访问的网页内容比较是否相同。
顺序获取子模块用于获取第二网页的访问顺序。获取第二网页的访问顺序可以是路径库中任一包含第二网页的路径中第二网页所处的访问顺序。
内容判断子模块用于判断当前访问页面的内容与第二网页的页面内容是否相同。
顺序判断子模块用于判断当前访问页面的访问顺序与第二网页的访问顺序是否相同。
确定子模块用于在判断出当前访问页面的内容与第二网页的页面内容相同,且当前访问页面的访问顺序与第二网页的访问顺序相同时,确定从第一网页到第二网页的路径为路径记录。
例如,第一网页为网页A,第二网页为B,那么第二网页所在的访问路径为A-B,或者为包含A-B的路径。当前访问页面为B,如果当前访问页面B的上一个访问页面为A,则当前访问页面B的访问路径为A-B。综上,第一网页到第二网页的访问路径 与当前访问页面的访问路径相同,可以作为路径记录。
通过第一查找模块201的子模块能够确定一个或者多个路径记录,从一个或者多个路径记录中确定参考访问路径。
图6是根据本发明第三实施例的数据处理装置的示意图。如图所述,该数据处理装置包括获取单元10、查找单元20和提示单元30,还包括第一记录单元11、判断单元22、第二记录单元33和第三记录单元44。
该图所示获取单元10、查找单元20和提示单元30与图4所示实施例的获取单元10、查找单元20和提示单元30的功能相同,在此不作赘述。
第一记录单元11用于记录当前访问路径的下一步访问的实际访问网页。在推荐网页之后,记录当前访问路径下的下一步访问的实际访问网页X,以确定实际访问网页X与推荐网页C是否相同,检测推荐的网页是否准确。
判断单元22用于判断实际访问网页与推荐网页是否相同。在此步骤只需要判断实际访问网页内容是否与推荐网页内容相同,通过能够判断实际访问网页与推荐网页是同一个网页的方法都可以用于判断实际访问网页与推荐网页是否相同。
第二记录单元33用于在实际访问网页与推荐网页相同时,在当前访问路径中记录实际访问网页。记录实际访问的网页之后,当前访问路径由路径A-B变为路径A-B-C,将该记录的路径A-B-C存储到路径表中。
第三记录单元44用于在实际访问网页与推荐网页不同时,记录实际访问网页与推荐网页不相符,并在当前会话路径中记录实际访问网页。如果实际访问的网页X与推荐的网页C不相同,则当前访问路径由路径A-B变为路径A-B-X,存储该路径A-B-X至路径表中,并且记录实际访问页面与推荐的网页不相符。
本发明实施例的网页推荐数据处理装置包括生成路径库的装置。生成的路径库可以包含历史访问路径,还可以包含当前生成的访问路径。具体的生成路径库的装置包括如下单元:
第四记录单元,用于在预先设置的路径库中查找与当前访问路径相匹配的参考访问路径之前,记录当前访问路径。例如,访问路径轨迹为PATH=PageA-B-C-…N,可以用k来表示当前访问页面,用N表示结束页面;确定判止参数ε=0.0001,用于判断当前访问路径与上一个访问路径是否相同。
路径判断单元,用于判断当前访问路径是否结束。如果访问路径的下一个页面指向网站外部链接则认为当前访问路径结束。判断K是否大于等于N,如果K大于等于N,则当前访问路径结束;如果判断K小于N,则当前访问继续。
第五记录单元,用于在当前访问路径没有结束时,记录当前访问路径和下一步访问路径。如果判断K小于N,则当前访问继续,记录当前访问路径和下一步访问路径。
统计单元,用于统计当前访问路径和下一步访问路径的配对频数。例如,记录当前访问路径和下一步访问路径如下{[(PathNow1,PathNext1),Freq11],[(PathNow1,PathNext2),Freq12],…,[(PathNowm,PathNextn),Freqmn]}。
计算单元,用于在当前访问路径结束时,计算当前访问路径的配对频数与上一次访问结束时配对频数的变化量。通过以下公式可以计算当前访问路径的配对频数与上一次访问结束时配对频数的变化量:
其中,A为配对频数的变化量,nF为当前路径的配对频数,oF为上一次访问路径的配对频数。
频数判断单元,用于判断配对频数的变化量是否小于预定阈值。预定阈值可以为ε=0.0001,判断A是否小于ε。如果A小于ε,则确定当前访问路径与上一访问路径相同。
第六记录单元,用于在判断出频数变化量大于预定阈值时,继续记录下一步访问路径。如果判断出频数变化量A大于预定阈值ε,则继续下一步的访问路径。
第七记录单元,用于在判断出频数变化量小于预定阈值时,记录当前访问路径的频数。如果判断出频数变化量A小于预定阈值ε,则当前访问路径与上一步访问路径相同,记录当前访问路径的频数。
生成单元,用于通过记录的路径生成路径库。在当前访问路径结束之后,存储记录的当前访问路径生成路径库。
生成的路径库能够存储路径记录,可以计算推荐网页,还可以对推荐不准确的网页计算进行维护和修正。
本发明实施例还提供了一种计算机存储介质。该计算机存储介质可存储有程序,该程序用于执行上述的用于网页推荐的数据处理方法中的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于网页推荐的数据处理方法,其特征在于,包括:
获取页面访问的当前访问路径;
在预先设置的路径库中查找与所述当前访问路径相匹配的参考访问路径;以及
基于所述参考访问路径提示所述当前访问路径下一步访问的推荐网页,
其中,在基于所述参考访问路径提示所述当前访问路径下一步访问的推荐网页之后,所述数据处理方法包括:
记录所述当前访问路径的下一步访问的实际访问网页;
判断所述实际访问网页与所述推荐网页是否相同,其中,判断所述实际访问网页与所述推荐网页是否相同包括:判断所述实际访问网页的内容是否与所述推荐网页的内容是否相同;
如果所述实际访问网页与所述推荐网页相同,则在所述当前访问路径中记录所述实际访问网页;以及
如果所述实际访问网页与所述推荐网页不同,则记录所述实际访问网页与所述推荐网页不相符,并在所述当前访问路径中记录所述实际访问网页,
其中,将记录有所述实际访问网页的所述当前访问路径记录到所述路径库中,所述路径库用于对与所述推荐网页不相符的实际网页进行维护和修正。
2.根据权利要求1所述的数据处理方法,其特征在于,在预先设置的路径库中查找与所述当前访问路径相匹配的参考访问路径包括:
查找所述预先设置的路径库中与所述当前访问路径的当前访问页面的内容相同且访问顺序相同的路径记录;
根据所述路径记录与所述当前访问路径计算所述路径记录的配对频数,其中,所述配对频数为从第一网页到第二网页的路径出现的次数;
在所述路径记录中查找所述配对频数最大的记录;以及
将所述配对频数最大的路径记录作为所述参考访问路径。
3.根据权利要求2所述的数据处理方法,其特征在于,查找所述预先设置的路径库中与所述当前访问路径的当前访问页面的内容相同且访问顺序相同的路径记录包括:
获取所述第二网页的页面内容;
获取所述第二网页的访问顺序;
判断所述当前访问页面的内容与所述第二网页的页面内容是否相同;
判断所述当前访问页面的访问顺序与所述第二网页的访问顺序是否相同;以及
如果判断出所述当前访问页面的内容与所述第二网页的页面内容相同,且所述当前访问页面的访问顺序与所述第二网页的访问顺序相同,确定从所述第一网页到所述第二网页的路径为所述路径记录。
4.根据权利要求1所述的数据处理方法,其特征在于,在预先设置的路径库中查找与所述当前访问路径相匹配的参考访问路径之前,所述数据处理方法包括:
记录所述当前访问路径;
判断所述当前访问路径是否结束;
如果所述当前访问路径没有结束,记录当前访问路径和下一步访问路径;
统计所述当前访问路径和所述下一步访问路径的配对频数;
如果所述当前访问路径结束,计算所述当前访问路径的配对频数与上一次访问结束时配对频数的变化量;
判断所述配对频数的变化量是否小于预定阈值;
如果判断出所述频数变化量大于预定阈值,则继续记录下一步访问路径;
如果判断出所述频数变化量小于预定阈值,则记录当前访问路径的频数;以及
通过记录的路径生成所述路径库。
5.一种用于网页推荐的数据处理装置,其特征在于,包括:
获取单元,用于获取页面访问的当前访问路径;
查找单元,用于在预先设置的路径库中查找与所述当前访问路径相匹配的参考访问路径;以及
提示单元,用于基于所述参考访问路径提示所述当前访问路径下一步访问的推荐网页,
其中,所述数据处理装置还包括:
第一记录单元,用于记录所述当前访问路径的下一步访问的实际访问网页;
判断单元,用于判断所述实际访问网页与所述推荐网页是否相同,其中,所述判断单元还用于判断所述实际访问网页的内容是否与所述推荐网页的内容是否相同;
第二记录单元,用于在所述实际访问网页与所述推荐网页相同时,在所述当前访问路径中记录所述实际访问网页;以及
第三记录单元,用于在所述实际访问网页与所述推荐网页不同时,记录所述实际访问网页与所述推荐网页不相符,并在所述当前访问路径中记录所述实际访问网页,
其中,将记录有所述实际访问网页的所述当前访问路径记录到所述路径库中,所述路径库用于对与所述推荐网页不相符的实际网页进行维护和修正。
6.根据权利要求5所述的数据处理装置,其特征在于,所述查找单元包括:
第一查找模块,用于查找所述预先设置的路径库中与所述当前访问路径的当前访问页面的内容相同且访问顺序相同的路径记录;
计算模块,用于根据所述路径记录与所述当前访问路径计算所述路径记录的配对频数,其中,所述配对频数为从第一网页到第二网页的路径出现的次数;
第二查找模块,用于在所述路径记录中查找所述配对频数最大的记录;以及
记录模块,用于将所述配对频数最大的路径记录作为所述参考访问路径。
7.根据权利要求6所述的数据处理装置,其特征在于,所述第一查找模块包括:
内容获取子模块,用于获取所述第二网页的页面内容;
顺序获取子模块,用于获取所述第二网页的访问顺序;
内容判断子模块,用于判断所述当前访问页面的内容与所述第二网页的页面内容是否相同;
顺序判断子模块,用于判断所述当前访问页面的访问顺序与所述第二网页的访问顺序是否相同;以及
确定子模块,用于在判断出所述当前访问页面的内容与所述第二网页的页面内容相同,且所述当前访问页面的访问顺序与所述第二网页的访问顺序相同时,确定从所述第一网页到所述第二网页的路径为所述路径记录。
8.根据权利要求5所述的数据处理装置,其特征在于,所述数据处理装置还包括:
第四记录单元,用于在预先设置的路径库中查找与所述当前访问路径相匹配的参考访问路径之前,记录所述当前访问路径;
路径判断单元,用于判断所述当前访问路径是否结束;
第五记录单元,用于在所述当前访问路径没有结束时,记录当前访问路径和下一步访问路径;
统计单元,用于统计所述当前访问路径和所述下一步访问路径的配对频数;
计算单元,用于在所述当前访问路径结束时,计算所述当前访问路径的配对频数与上一次访问结束时配对频数的变化量;
频数判断单元,用于判断所述配对频数的变化量是否小于预定阈值;
第六记录单元,用于在判断出所述频数变化量大于预定阈值时,继续记录下一步访问路径;
第七记录单元,用于在判断出所述频数变化量小于预定阈值时,记录当前访问路径的频数;以及
生成单元,用于通过记录的路径生成所述路径库。
CN201310538627.8A 2013-11-04 2013-11-04 用于网页推荐的数据处理方法和装置 Active CN103544313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310538627.8A CN103544313B (zh) 2013-11-04 2013-11-04 用于网页推荐的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310538627.8A CN103544313B (zh) 2013-11-04 2013-11-04 用于网页推荐的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN103544313A CN103544313A (zh) 2014-01-29
CN103544313B true CN103544313B (zh) 2017-09-08

Family

ID=49967765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310538627.8A Active CN103544313B (zh) 2013-11-04 2013-11-04 用于网页推荐的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN103544313B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823904B (zh) * 2014-03-19 2014-11-26 广东绿瘦健康信息咨询有限公司 网页浏览路径优化方法及其系统
CN105094787B (zh) * 2014-05-21 2020-01-03 中兴通讯股份有限公司 企业互联网应用的处理方法及装置
CN105426363A (zh) * 2014-05-26 2016-03-23 阿里巴巴集团控股有限公司 一种确定分享转化信息的方法与设备
CN107239462B (zh) * 2016-03-28 2021-12-21 北京搜狗科技发展有限公司 一种搜索方法和装置以及浏览器
CN105893569A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 新闻权重计算方法和装置
CN109299417B (zh) * 2017-07-24 2022-04-08 北京国双科技有限公司 查询访问路径的方法及装置
CN111950834A (zh) * 2019-05-17 2020-11-17 阿里巴巴集团控股有限公司 信息处理方法、信息展示方法、装置及计算设备
CN112507213B (zh) * 2020-11-26 2022-09-30 杭州讯酷科技有限公司 一种基于行为大数据分析的推荐优化的系统方案的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001025947A1 (en) * 1999-10-04 2001-04-12 Meidar Liad Y Method of dynamically recommending web sites and answering user queries based upon affinity groups
CN1198224C (zh) * 2003-06-24 2005-04-20 南京大学 一种自适应的因特网目录网页推荐方法
CN102054004B (zh) * 2009-11-04 2015-05-06 清华大学 一种网页推荐方法和装置
CN102436512B (zh) * 2012-01-17 2013-05-08 电子科技大学 一种基于偏好度的网页文本内容管控方法

Also Published As

Publication number Publication date
CN103544313A (zh) 2014-01-29

Similar Documents

Publication Publication Date Title
CN103544313B (zh) 用于网页推荐的数据处理方法和装置
CN103886068B (zh) 用于互联网用户行为分析的数据处理方法和装置
CN105956161B (zh) 一种信息推荐方法和装置
CN104123332B (zh) 搜索结果的显示方法及装置
CN102214169B (zh) 关键词信息与目标信息的提供方法及装置
CN105022801B (zh) 一种热门视频挖掘方法和装置
CN106997358A (zh) 信息推荐方法及装置
CN103942712A (zh) 基于产品相似度的电子商务推荐系统及其方法
CN109447713A (zh) 一种基于知识图谱的推荐方法及装置
CN106161569A (zh) 网络内容的推荐、缓存替换方法和设备
CN103839172B (zh) 商品推荐方法及系统
CN104598643A (zh) 一种物品相似度贡献系数、相似度获取方法及物品推荐方法及其系统
CN110335123B (zh) 基于社交电商平台的商品推荐方法、系统、计算机可读介质以及装置
CN104615631B (zh) 一种信息推荐的方法及装置
CN108763274A (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN106919611A (zh) 产品信息推送方法和装置
CN103729439B (zh) 一种网页预加载方法和装置
CN103646341A (zh) 一种网站提供对象的推荐方法和装置
CN106919582A (zh) 网络项目的关联及关联信息统计方法和装置
CN104090908A (zh) 统计页面组的平均停留时间、网站内容推广的方法和装置
CN111680246A (zh) 基于recyclerview左右联动控件的分组标题置顶方法、装置、设备
CN110309410A (zh) 一种资讯推荐方法、平台及计算机可读存储介质
CN103678312B (zh) 一种推荐网址的方法与客户端
CN106326403A (zh) 网页生成方法及装置
CN104933099A (zh) 一种为用户提供目标搜索结果的方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data processing method and device for webpage recommendation

Effective date of registration: 20190531

Granted publication date: 20170908

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: Beijing Guoshuang Technology Co.,Ltd.

CP02 Change in the address of a patent holder