发明内容
本发明提供了一种网页中确定链接文字权重的方法和设备,以解决链接文字与实际情况不符的问题,实现有效地获取网页中重要的连接文字,该方法包括:
获取一个网页的数据信息和所述网页的访问信息;
根据所述网页的数据信息和所述网页的访问信息结合预设策略确定在所述网页中的各个链接文字的权重。
其中,所述网页的数据信息,包括:
所述网页的权重和网页中的各个链接文字,以及所述网页的指向网页。
其中,所述获取网页的访问信息,包括:
通过用户监控系统获取所述网页的总访问量和所述网页中各个链接文字的点击次数。
其中,所述预设策略,具体包括:
当所述网页访问信息是用户监控系统监控到的访问和点击情况时,根据所述网页中不同链接文字点击数的不同确定所述网页中不同的链接文字的权重。
其中,所述根据所述网页中不同链接文字点击数的不同确定所述网页中不同的链接文字的权重,具体包括:
所述网页的权重乘以所述网页中链接文字的点击次数与所述网页总访问量的比值。
一种网页中确定链接文字权重的设备,所述设备包括:
获取单元,获取一个网页的数据信息和所述网页的访问信息;
数据确定单元,与所述获取单元连接,根据所述网页的数据信息和所述网页的访问信息结合预设策略确定在所述网页中的各个链接文字的权重。
其中,所述获取单元用于,获取所述网页的权重和网页中的链接文字,以及所述网页的指向网页。
其中,所述获取单元还用于,通过用户监控系统获取所述网页的总访问量和所述网页中各个链接文字的点击次数。
其中,所述数据确定单元包括:
判断子单元,用于判断网页访问信息是否为用户监控系统监控到的访问和点击情况;
确定子单元,与所述判断子单元相连,用于当所述网页访问信息是用户监控系统监控到的访问和点击情况时,根据所述网页中不同链接文字点击数的不同确定所述网页中不同的链接文字的权重。
其中,所述确定子单元具体用于,所述网页的权重乘以所述网页中链接文字的点击次数与所述网页总访问量的比值。
与现有技术相比,本发明至少具有以下优点:
本方案通过对同一个网页上的出链链接文字采用不同的权重计算方法,可以更准确地得到链接文字的权重,更好地表征每个链接文字的作用,解决了链接文字权重与实际情况不符的问题,优化了搜索引擎的链接排序。
具体实施方式
本发明提供一种网页中确定链接文字权重的方法,如图2所示,该方法包括:
步骤201,获取一个网页的数据信息和所述网页的访问信息。
具体的,所述网页的数据信息包括所述网页的权重和所述网页中的各个链接文字,以及所述网页的指向网页;所述获取网页的访问信息包括通过用户监控系统获取所述网页的总访问量和所述网页中各个链接文字的点击次数。
步骤202,根据所述网页的数据信息和所述网页的访问信息结合预设策略确定在所述网页中的各个链接文字的权重。
具体的,当所述网页的访问信息是用户监控系统监控到的访问和点击情况时,根据所述网页中不同链接文字点击数的不同确定所述网页中不同的链接文字的权重,具体方法是,所述网页的权重乘以所述网页中链接文字的点击次数与所述网页总访问量的比值。
当所述网页访问信息是用户监控系统没有监控到的访问和点击情况时,通过平均分配的方法确定链接文字权重。
本发明提供的另一种网页中确定链接文字权重的方法,如图3所示,该方法包括:
步骤301,获取一个网页的数据信息。
具体的,当需要计算某个网页(例如网页A)中各个链接文字的权重时,需要先获取该网页(网页A)的数据信息,其中,该网页A的数据信息可以包括该网页A的权重、属性信息、网页中的链接文字信息、网页地址URL、网页A指向的网页等。
步骤302,获取所述网页的访问信息。
具体的,获取网页的数据信息的同时,还需要获取该网页(网页A)的访问信息。其中,网页A的访问信息可以包括,网页A的总访问量和网页A中各个链接文字的点击次数。
需要说明的是,步骤301和步骤302没有次序关系,是一种并行关系。
步骤303,判断所述网页的访问信息是否为用户监控系统监控到的访问和点击情况。
如果否,则执行步骤304;
如果是,则执行步骤305。
步骤304,根据平均分配的方法确定链接文字权重。
具体的,通过用户监控系统监控网页A的访问信息时,对于部分长尾网页,可能会出现没能监控到用户访问和点击情况,则对于这种页面,采用传统的平均分配的方式确定页面A中链接文字的权重。
步骤305,根据所述网页中不同链接文字点击数的不同确定所述网页中不同的链接文字的权重。
具体的,如果网页A的所有访问信息全部被用户监控系统监控到,那么根据所述网页中不同链接文字点击数的不同确定所述网页中不同的链接文字的权重。
例如:网页A中包括链接文字AB,AC,AD都是从网页A中指向其他页面的,假设对于网页A有N个点击链接文字的行为,其中有NB个点击链接文字AB,NC个点击链接文字AC,ND个点击AD(N=NB+NC+ND)。传统的链接文字权重的计算方法是采用平均分配的方法,通过网页A的链接文字权重RA/M(RA表示网页A的权重,M为网页A的出链个数)得到链接文字的权重,所以三者的权重是一样的。
对于网页A出链的三个链接文字而言,由于点击次数的不同,其权重也应该是不相同的。对于网页A各个链接文字根据链接文字点击数的不同确定链接文字权重,具体为:网页A的权重乘以网页A中链接文字(AB或AC或AD)的点击次数(NB或NC或ND)与所述网页总访问量N的比值,如表1所示。
表1:平均分配法与预设方法计算链接文字权重对比表
|
用户点击数 |
平均分配法确定链接文字权重 |
根据链接文字点击数的不同确定链接文字权重 |
链接文字AB |
NB |
RA/M |
RA*(NB/N) |
链接文字AC |
NC |
RA/M |
RA*(NC/N) |
链接文字AD |
ND |
RA/M |
RA*(ND/N) |
Total |
N=NB+NC+ND |
RA |
RA |
表1中,RA表示网页A的权重,N为网页A总用户点击数,M为网页A的出链个数。
因此,平均分配法是将网页RA的权重平均分配给网页A中每个链接文字(出链),所以对于在网页A中指向其他页面的链接文字AB,AC,AD,三者的权重是一样的。
而本方案中的预设方法在所述网页中不同链接文字点击数的不同来分配所述网页中不同的链接文字的权重。
与现有技术相比,本发明至少具有以下优点:
本方案通过对同一个网页上的出链链接文字采用不同的权重计算方法,可以更准确地得到链接文字的权重,更好地表征每个链接文字的作用,解决了链接文字权重与实际情况不符的问题。
基于上述思想,下面结合具体应用场景详细介绍本发明提供的有效链接文字的获取方法。如图4所示,是本发明所提出的一种网页中确定链接文字权重的方法的应用场景流程示意图。
步骤401,确定需要计算链接文字权重的网页。
需要说明的是,所述网页可以是指向另一个网页,也可以是指向相同网页上的不同位置,还可以是指向一个图片,一个电子邮件地址,一个文件,一个本地链接,甚至是指向一个应用程序。而在一个网页中用来链接的,并不局限于链接文字,可以数字或者是图片以及其他可实现链接形式。当浏览者单击已经链接的文字或图片后,链接目标将显示在浏览器上,并且根据目标的类型来打开或运行。可以一次计算一个网页内链接文字权重,也可以一次计算多个。
步骤402,通过网页爬虫系统获取所述网页的数据信息。
具体的,通过网页爬虫系统获取到所述网页地址、所述网页的权重和所述网页中的链接文字,以及所述网页的指向网页。
步骤403,通过记录网页链接关系系统确定链接文字和所述网页的指向网页的对应关系。
具体的,不同的链接文字可以指向不同或相同的网页,因此,需要由记录网页链接关系系统来确定各个链接文字对应的指向网页。
步骤404,通过用户监控系统获取所述网页的用户总访问量和所有链接文字的点击次数。
需要说明的是,所述用户监控系统可以在用户终端侧,只是针对该用户终端在所述网页上的访问量和点击次数进行监控;所述用户监控系统也可以在网络服务器侧,对网络上所有在所述网页上的访问量和点击次数进行监控。
步骤405,判断所述网页的访问信息是否为用户监控系统监控到的访问和点击情况。
如果否,则执行步骤406;
如果是,则执行步骤407。
步骤406,根据平均分配的方法确定链接文字权重。
需要说明的是,执行完本步骤后,继续执行步骤408。
具体计算过程和方法在上述实施例中已经详细阐述,在这里不作过多赘述。
步骤407,根据所述网页中不同链接文字点击数的不同确定所述网页中不同的链接文字的权重。
步骤408,将结果给入每个被指向的网页。
需要说明的是,链接文字的权重决定了所述链接文字对应出链的权重,如果所述链接文字指向的网页只有这一个入链,那么所述链接文字的权重就是所述链接文字指向网页的权重。因此,将链接文字的权重给入每个被指向的网页对确定每个被指向的网页的权重有着重要作用。
在实际应用中,网页中链接文字的排序会受到网页自定义的管理设置的影响,例如:一个使用本技术方案的搜索引擎网站,对于任意一个搜索结果的排序首先是按照本方案计算的权重的结果进行排序,但是自定义的管理设置可能会设定一个内容相关被访问次数很少的网页(例如:一个广告页面)优先排序显示。因此,从实际应用角度来看,虽然本发明方案优化了搜索引擎的链接排序,但是在应用过程中是结合网站自定义的管理设置来实现的。
可见,通过使用本发明提供的技术方案,对同一个网页上的出链链接文字采用不同的权重计算方法,可以更准确地得到链接文字的权重,更好地表征每个链接文字的作用,解决了链接文字权重与实际情况不符的问题,优化了搜索引擎的链接排序。
本发明提供了一种网页中确定链接文字权重的设备,如图5所示,所述设备包括:
获取单元11,用于获取一个网页的数据信息和所述网页的访问信息。
具体的,获取单元11用于获取所述网页的权重和网页中的出链文字,以及所述网页的指向网页,并通过用户监控系统获取所述网页的总访问量和所有链接文字的点击量。
数据确定单元12,与所述获取单元11连接,根据所述网页的数据信息和所述网页的访问信息结合预设策略确定在所述网页中的各个链接文字的权重。
具体的,所述数据确定单元12包括:
判断子单元121,用于判断是否为用户监控系统监控到的访问和点击情况。
确定子单元122,与所述判断子单元121相连,用于当所述网页访问信息是用户监控系统监控到的访问和点击情况时,根据所述网页中不同链接文字点击数的不同确定所述网页中不同的链接文字的权重。
所述确定子单元122具体用于,所述网页的权重乘以所述网页中链接文字的点击次数与所述网页总访问量的比值。
本方案通过对同一个网页上的出链链接文字采用不同的权重计算方法,可以更准确地得到链接文字的权重,更好地表征每个链接文字的作用,解决了链接文字权重与实际情况不符的问题。通过本发明的技术方案,在网页上将权重大的链接文字进行优先或突出显示,优化了搜索引擎链接排序。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。