发明内容
本发明的目的在于,提供一种索引页更新方法及装置,采用基于概率和分时间段的更新方案,能够精确预测索引页变化时间点,减少更新时延,提高时效性,提高用户体验。
为了实现上述目的,本发明实施例提供了一种索引页更新方法,包括:
根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;
根据所述相关信息,判断所述索引页当前是否需要更新;
当所述判断结果为是时,根据所述相关信息更新所述索引页。
优选地,所述根据所述相关信息,判断所述索引页当前是否需要更新,包括:
根据所述相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
判断所述累积概率是否大于1;
当所述判断结果为是时,判定所述索引页当前需要更新。
优选地,所述根据所述相关信息更新所述索引页,包括:
根据所述索引页的url,从网络中抓取所述url对应的网页源内容;
对所述抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。
优选地,所述根据所述相关信息更新所述索引页之后,还包括:
根据所述新的索引页的主要内容,计算所述新的索引页的页面指纹;
判断所述计算得到的新的索引页的页面指纹和从所述索引页数据库读取的所述索引页的页面指纹是否相同;
如果判断结果为是,则将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;
如果判断结果为否,则将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹。
优选地,所述根据预设的周期,从索引页数据库读取索引页的相关信息之前,还包括:预先设定索引页数据库的访问周期,所述索引页数据库包括:多个索引页以及各索引页的相关信息;预先将一天分为多个预设时间段;预先设定索引页在所述各个预设时间段内的页面变化概率。
相应地,本发明实施例还提供了一种索引页更新装置,包括:
调度模块,用于根据预设的周期,从索引页数据库读取索引页的相关信息,并根据所述相关信息,判断所述索引页当前是否需要更新;
更新模块,用于当所述调度模块判断结果为是时,根据所述相关信息更新所述索引页。
优选地,所述调度模块包括:
读取单元,用于根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;
计算单元,用于根据所述读取单元读取的相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
第一判断单元,用于判断所述计算单元计算的所述累积概率是否大于1;
更新判定单元,用于当所述第一判断单元判断结果为是时,判定所述索引页当前需要更新。
优选地,所述更新模块包括:
抓取单元,用于根据所述调度模块读取的所述索引页的url,从网络中抓取所述url对应的网页源内容;
抽取单元,用于对所述抓取单元抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。
优选地,所述装置还包括:
回写模块,用于计算所述更新模块更新后的新的索引页的页面指纹,对比所述调度模块读取的所述索引页的页面指纹,根据所述对比的结果调整所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率。
优选地,所述回写模块包括:
指纹计算单元,用于根据所述更新模块更新后的新的索引页的主要内容,计算所述新的索引页的页面指纹;
第二判断单元,用于判断所述指纹计算单元计算得到的新的索引页的页面指纹与所述调度模块读取的所述索引页的页面指纹是否相同;
概率调整单元,用于当所述第二判断单元判断结果为是时,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;
或,
当所述第二判断单元判断结果为否时,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述指纹计算单元计算得到的新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹。
优选地,所述装置还包括预设模块,用于预先设定索引页数据库的访问周期,预先将一天分为多个预设时间段,以及预先设定索引页在所述各个预设时间段内的页面变化概率。
本发明实施例通过定期从索引页数据库获取索引页的相关信息,并根据相关信息判断该索引页当前时刻是否需要更新,当该索引页需要更新时才进行更新,减少了更新时延,提高了时效性,提高了用户体验;通过预设时间段和各时间段内的页面变化概率,根据当前时刻距离上一次更新时间之间所覆盖的各时间段概率之和来判断是否更新该索引页,实现了对索引页的更新采用基于概率和分时间段的方式,从而实现了精确预测索引页变化时间点;另外,每次更新结束后根据索引页相对上次更新得到的页面是否发生变化,对各时间段的页面变化概率进行动态调整,使该索引页在各时间段的页面变化概率更符合实际变化情况,进一步提高了预测索引页变化时间点的精确度,提高了用户体验。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,为本发明的索引页更新装置的实施例的结构示意图;具体实现中,图1所示的索引页更新装置可以为搜索引擎;如图1所示,所述装置包括:调度模块10和更新模块20。
所述调度模块10,用于根据预设的周期,从索引页数据库读取索引页的相关信息,并根据所述相关信息,判断所述索引页当前是否需要更新;
具体实现中,所述索引页数据库为搜索引擎自身的索引页数据库,所述索引页数据库包括:多个索引页以及各索引页的相关信息;所述索引页数据库可以表的形式进行索引页数据的存储,如下表:
表一:索引页数据库
索引页 |
相关信息 |
索引页1 |
索引页1的相关信息 |
索引页2 |
索引页2的相关信息 |
索引页3 |
索引页3的相关信息 |
...... |
...... |
具体地,所述索引页的相关信息包括:索引页的url(Uniform/UniversalResource Locator,统一资源定位符,又叫网页地址),索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种。所述索引页数据库同样可以表的形式进行某索引页的相关信息的存储,如下表:
表二:索引页相关信息表
索引页的相关信息 |
相关信息的值 |
url |
http://...... |
各预设时间段的页面变化概率 |
时间段1概率值,时间段2概率值,...... |
页面指纹 |
...... |
上次更新时间 |
XX时XX分XX秒 |
...... |
...... |
可以理解的是,索引表数据库用于存储多个索引页以及各索引页的相关信息,上述索引表数据库以表的形式(表一和表二)体现仅为举例,其他情况类似分析,在此不赘述。
所述调度模块10,根据预设的周期,定期从上述的索引页数据库(表一)中读取索引页以及该索引页的相关信息,并利用相关信息(主要是上述表二中各预设时间段的页面变化概率)来分析判断该索引页当前是否需要进行更新,即判断是否需要对该索引页发起调度。
所述更新模块20,用于当所述调度模块10判断结果为是时,根据所述相关信息更新所述索引页。
具体实现中,当所述调度模块10判断所述索引页当前需要更新时,即发起调度,向所述更新模块20发送所述索引页的相关信息,所述更新模块20根据所述调度模块10发送的相关信息更新所述索引页。
再请参见图1,所述装置还包括:回写模块30和预设模块40。
所述回写模块30,用于计算所述更新模块20更新后的新的索引页的页面指纹,对比所述调度模块10读取的所述索引页的页面指纹,根据所述对比的结果调整所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率。
所述预设模块40,用于预先设定索引页数据库的访问周期,预先将一天分为多个预设时间段,以及预先设定索引页在所述各个预设时间段内的页面变化概率。
具体实现中,所述预设模块40可将一天分为多个时间段,并且预设各个时间段内的页面变化概率,该概率要求0-1之间取值,比如:可将一天24小时分为144个时间段,每个时间段10分钟,则第1时间段为00:00-00:10,其概率值可为:0.11;第2时间段为:00:10-00:20,其概率值为0.12......第144时间段为:23:50-24:00(00:00),其概率值为0.23;所述预设模块40还可预先设定索引页数据库的访问周期,所述调度模块10根据该周期定期读取所述索引页数据库的数据。具体地,为了保证索引页的及时更新,所述预设的索引页数据库的访问周期需要短于所述预设的时间段,比如:上述的每个时间段为10分钟,可预设其访问周期为5分钟,即所述调度模块10每5分钟读取一次索引页数据库的数据,如第一次读取时间为00:00,则第二次读取时间为00:05......,以此类推。
可以理解的是,上述预设的各种情况仅为举例,其他情况,比如:预设的时间段可根据实际情况进行设定,如设为288个时间段等,时间段的设定需要考虑服务器的性能,包括存储能力和计算能力等;再如:预设的访问周期可根据所述调度模块10实际遍历一次索引页数据库所需要的时间确定,一般地,其时间长度要求短于预设的时间段,以保证当某索引页需要更新时,所述调度模块10已完成了本次数据的读取;再如:预设的各时间段的页面变化概率值可根据实际情况进行设定,其需要满足0-1之间取值,当所述预设的概率值越为合理、越接近实际情况时,可使搜索引擎对索引页变化的预测更快的达到更高的精确度,节省资源;上述各种情况可类似分析,在此不赘述。
本发明实施例通过定期从索引页数据库获取索引页的相关信息,并根据相关信息判断该索引页当前时刻是否需要更新,当该索引页需要更新时才进行更新,减少了更新时延,提高了时效性,提高了用户体验;通过预设时间段和各时间段内的页面变化概率,根据当前时刻距离上一次更新时间之间所覆盖的各时间段概率之和来判断是否更新该索引页,实现了对索引页的更新采用基于概率和分时间段的方式,从而实现了精确预测索引页变化时间点;另外,每次更新结束后根据索引页相对上次更新得到的页面是否发生变化,对各时间段的页面变化概率进行动态调整,使该索引页在各时间段的页面变化概率更符合实际变化情况,进一步提高了预测索引页变化时间点的精确度,提高了用户体验。
为了更清楚的说明本发明,下面将对本发明的索引页更新装置的调度模块10进行详细介绍。
请参见图2,为本发明的索引页更新装置的调度模块的实施例的结构示意图;所述调度模块10包括:读取单元101,计算单元102,第一判断单元103和更新判定单元104。
所述读取单元101,用于根据预设的周期,从索引页数据库读取索引页的相关信息;
具体实现中,所述读取单元101根据预设的周期,定期从索引页数据库(上述的表一和表二)中读取索引页以及该索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种。比如:假设预设索引页数据库的访问周期为5分钟,所述读取单元101每5分钟读取一次索引页数据库的数据,如第一次读取时间为00:00,则第二次读取时间为00:05......,以此类推。
所述计算单元102,用于根据所述读取单元101读取的相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
具体实现中,所述计算单元102采用如下计算公式:
∑时间段i概率值,i∈{上次更新时间到当前时间所覆盖的预设时间段}
比如:假设预先将一天24小时分为144个时间段,每个时间段10分钟,则第1时间段为00:00-00:10,其概率值可为:0.11;第2时间段为:00:10-00:20,其概率值为0.12......第144时间段为:23:50-24:00(00:00),其概率值为0.23。假设所述读取单元101读取到所述索引页的上次更新时间为00:00,当前时间为00:25,则当前时间与所述索引页的上次更新时间覆盖了两个时间段:第1时间段00:00-00:10和第2时间段00:10-00:20,则所述计算单元102计算其累积概率为:0.11+0.12=0.23。
所述第一判断单元103,用于判断所述计算单元102计算的所述累积概率是否大于1;
具体实现中,如上述例子,所述计算单元102计算得到的累积概率为0.23,所述第一判断单元103即判断该值小于1,并向所述更新判定单元104输出该判断结果。
所述更新判定单元104,用于当所述第一判断单元103判断结果为是时,判定所述索引页当前需要更新。
具体实现中,所述更新判定单元104接收到所述第一判断单元103输出的否定结果时,判定该索引页当前不需要更新,则不作任何处理;当接收到所述第一判断单元103输出的肯定结果时,即判定该索引页当前需要更新,并向后续的更新模块20输出判定结果,同时触发调度模块10向所述更新模块20发起调度,以使所述更新模块20根据索引页的相关信息更新所述索引页。
本发明实施例通过定期从索引页数据库获取索引页的相关信息,并根据相关信息判断该索引页当前时刻是否需要更新,当该索引页需要更新时才进行更新,减少了更新时延,提高了时效性,提高了用户体验;通过预设时间段和各时间段内的页面变化概率,根据当前时刻距离上一次更新时间之间所覆盖的各时间段概率之和来判断是否更新该索引页,实现了基于概率的分时间段的索引页的更新,从而实现了对索引页变化时间点精确预测。
为了更清楚的说明本发明,下面将对本发明的索引页更新装置的更新模块20进行详细介绍。
请参见图3,为本发明的索引页更新装置的更新模块的实施例的结构示意图;所述更新模块20包括:抓取单元201和抽取单元202。
所述抓取单元201,用于根据所述调度模块10读取的所述索引页的url,从网络中抓取所述url对应的网页源内容;
具体实现中,所述抓取单元201为网络爬虫程序等网页的抓取工具,其根据所述url,不断地从网络中抓取该指定url对应的网页的源内容(源代码)。具体地抓取过程与现有的搜索引擎的爬虫对网页的抓取类似,在此不赘述。
所述抽取单元202,用于对所述抓取单元201抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。
具体实现中,所述抓取单元201抓取的为指定的url对应的网页(即新的索引页)的源内容,所述抽取单元202可利用硬件或软件工具,比如:单片机或其他芯片等,对所述抓取单元201抓取的源内容进行自动分析,从中提取该网页(新的索引页)上的文本信息和链接。
本发明实施例通过对新的索引页的抓取和抽取过程,获取了原索引页上新发布的文本和链接,实现了对索引页的更新。
为了更清楚的说明本发明,下面将对本发明的索引页更新装置的回写模块30进行详细介绍。
请参见图4,为本发明的索引页更新装置的回写模块的实施例的结构示意图;所述回写模块30包括:指纹计算单元301,第二判断单元302和概率调整单元303。
所述指纹计算单元301,用于根据所述抽取单元202获得的新的索引页的主要内容,计算所述新的索引页的页面指纹;
具体实现中,所述指纹计算单元301将所述抽取单元202获得的新的索引页的主要内容用算法进行指纹计算,所述算法包括但不限于哈希算法,摘要算法等,比如:将获得的主要内容采用字符串哈希MD5(Message Digest Algorithm5,消息摘要算法第5版)值的方式,可获取所述新的索引页的页面特征,包括但不限于:标题关键字词,文本内容关键字词等特征,所述页面特征又叫做页面指纹。
所述第二判断单元302,用于判断所述指纹计算单元301计算得到的新的索引页的页面指纹与所述调度模块10读取的所述索引页的页面指纹是否相同;
所述概率调整单元303,用于当所述第二判断单元302判断结果为是时,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;或,
当所述第二判断单元302判断结果为否时,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述指纹计算单元301计算得到的新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹;
具体实现中,当某索引页第一次被更新时,各时间段的页面变化概率均为预设的概率值,之后,所述回写模块30即根据每次更新索引页时,该索引页的页面是否已经变化来动态调整各时间段的页面变化概率值。具体调整方式为:每次更新索引页时,所述指纹计算单元301计算新的索引页的页面指纹,所述第二判断单元302判断该计算得到的页面指纹与索引库中记录的索引页的历史页面指纹是否相同,如果二者相同,则判断该索引页页面未发生变化,所述概率调整单元303将该索引页上次更新时间到当前时间覆盖的各个预设时间段内的页面变化概率下调,比如:将这些时间段的概率值均除以2。如果二者不同,则判断该索引页发生了变化,所述概率调整单元303将该索引页上次更新时间到当前时间覆盖的各个预设时间段内的页面变化概率上调,比如:将这些时间段的概率值均乘以2;同时,所述概率调整单元303将新的索引页的页面指纹写入索引页数据库,替换索引页的历史页面指纹,以提供下一次调度模块10进行读取调用。经所述概率调整单元303调整过的各时间段的页面变化概率值均替换了原来预设的概率值,并存储于索引页数据库中提供下一次读取调用。
可以理解的是,上述回写模块30对各时间段的页面变化概率的调整系数为2仅为举例,该系数可根据实际情况进行设定,一般地,系数选择越大,就能使预设的页面变化概率越快逼近实际概率,但同时误差也相对较大;系数选择越小,使预设的页面变化概率逼近实际概率的速度较慢,但同时误差也相对较小。所述页面变化概率经过所述回写模块30的多次迭代调整后,可以逼近该索引页在各时间段的实际变化概率,使搜索引擎能够更为精准地预测该索引页的变化。
本发明实施例每次更新结束后根据索引页相对上次更新得到的页面是否发生变化,对各时间段的页面变化概率进行动态调整,使该索引页在各时间段的页面变化概率更符合实际变化情况,进一步提高了预测索引页变化时间点的精确度,提高了用户体验。
为了更清楚的说明本发明,下面将对利用上述索引页更新装置实现的索引页更新方法进行详细介绍。
请参见图5,为本发明的索引页更新方法的第一实施例的流程图;所述方法包括:
S101,根据预设的周期,从索引页数据库读取索引页的相关信息;
具体实现中,所述索引页数据库为搜索引擎自身的索引页数据库,所述索引页数据库包括:多个索引页以及各索引页的相关信息;所述索引页数据库可以表的形式进行索引页数据的存储,如上述表一。具体地,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种。所述索引页数据库同样可以表的形式进行某索引页的相关信息的存储,如上述表二。
可以理解的是,索引表数据库用于存储多个索引页以及各索引页的相关信息,上述索引表数据库以表的形式(表一和表二)体现仅为举例,其他情况类似分析,在此不赘述。
所述S101,根据预设的周期,定期从上述的索引页数据库(表一和表二)中读取索引页以及该索引页的相关信息。
S102,根据所述相关信息,判断所述索引页当前是否需要更新;如果所述判断结果为是,则执行S103;否则,结束;
具体实现中,所述S102利用所述S101读取的相关信息(主要是上述表二中各预设时间段的页面变化概率)来分析判断该索引页此时是否需要进行更新,即判断是否需要对该索引页发起调度。
S103,根据所述相关信息更新所述索引页。
具体实现中,当所述S102判断所述索引页当前需要更新时,即发起调度,所述S103根据所述S102读取的相关信息更新所述索引页。
本发明实施例采用基于概率和分时间段的更新方案,能够精确预测索引页变化时间点,减少更新时延,提高时效性,提高用户体验。
请参见图6,为本发明的索引页更新方法的第二实施例的流程图;所述方法包括:
S201,预先设定索引页数据库的访问周期,预先将一天分为多个预设时间段,以及预先设定索引页在所述各个预设时间段内的页面变化概率;
具体实现中,所述S201可将一天分为多个时间段,并且预设各个时间段内的页面变化概率,该概率要求0-1之间取值,比如:可将一天24小时分为144个时间段,每个时间段10分钟,则第1时间段为00:00-00:10,其概率值可为:0.11;第2时间段为:00:10-00:20,其概率值为0.12......第144时间段为:23:50-24:00(00:00),其概率值为0.23;所述S201还可预先设定索引页数据库的访问周期,使搜索引擎按该周期定期读取所述索引页数据库的数据。具体地,为了保证索引页的及时更新,所述预设的索引页数据库的访问周期需要短于所述预设的时间段,比如:上述的每个时间段为10分钟,可预设其访问周期为5分钟,则搜索引擎每5分钟读取一次索引页数据库的数据,如第一次读取时间为00:00,则第二次读取时间为00:05......,以此类推。
可以理解的是,上述预设的各种情况仅为举例,其他情况,比如:预设的时间段可根据实际情况进行设定,如设为288个时间段等,时间段的设定需要考虑服务器的性能,包括存储能力和计算能力等;再如:预设的访问周期可根据实际遍历一次索引页数据库所需要的时间确定,一般地,其时间长度要求短于预设的时间段,以保证当某索引页需要更新时,已完成了本次数据的读取;再如:预设的各时间段的页面变化概率值可根据实际情况进行设定,其需要满足0-1之间取值,当所述预设的概率值越为合理、越接近实际情况时,可使搜索引擎对索引页变化的预测更快的达到更高的精确度,节省资源;上述各种情况可类似分析,在此不赘述。
S202,根据预设的周期,从索引页数据库读取索引页的相关信息;
具体实现中,所述S202根据预设的周期,定期从索引页数据库(上述的表一和表二)中读取索引页以及该索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种。比如:假设预设索引页数据库的访问周期为5分钟,所述S202每5分钟读取一次索引页数据库的数据,如第一次读取时间为00:00,则第二次读取时间为00:05......,以此类推。
S203,根据所述相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索页的页面变化概率的累积概率;
具体实现中,所述S203采用如下计算公式:
∑时间段i概率值,i∈{上次更新时间到当前时间所覆盖的预设时间段}
比如:假设预先将一天24小时分为144个时间段,每个时间段10分钟,则第1时间段为00:00-00:10,其概率值可为:0.11;第2时间段为:00:10-00:20,其概率值为0.12......第144时间段为:23:50-24:00(00:00),其概率值为0.23。假设所述S202读取到所述索引页的上次更新时间为00:00,当前时间为00:25,则当前时间与所述索引页的上次更新时间覆盖了两个时间段:第1时间段00:00-00:10和第2时间段00:10-00:20,则所述S203计算其累积概率为:0.11+0.12=0.23。
S204,判断所述累积概率是否大于1,如果判断结果为是,执行S205;否则,结束;
S205,判定所述索引页当前需要更新;
S206,根据所述索引页的url,从网络中抓取所述url对应的网页源内容;
具体实现中,所述S206使用网络爬虫程序等网页的抓取工具,其根据所述url,不断地从网络中抓取该指定url对应的网页的源内容(源代码)。具体地抓取过程与现有的搜索引擎的爬虫对网页的抓取类似,在此不赘述。
S207,对所述抓取的网页源内容进行抽取分析,获得新的索引页的主要内容;
具体实现中,所述S207抓取的为指定的url对应的网页(即新的索引页)的源内容,所述S207可利用硬件或软件工具,比如:单片机或其他芯片等,对所述S206抓取的源内容进行自动分析,从中提取该网页(新的索引页)上的文本信息和链接。
S208,根据所述新的索引页的主要内容,计算所述新的索引页的页面指纹;
具体实现中,所述S208将所述S207获得的新的索引页的主要内容用算法进行指纹计算,所述算法包括但不限于哈希算法,摘要算法等,比如:将获得的主要内容采用字符串哈希MD5值的方式,可获取所述新的索引页的页面特征,包括但不限于:标题关键字词,文本内容关键字词等特征,所述页面特征又叫做页面指纹。
S209,判断所述计算得到的新的索引页的页面指纹是否与从所述索引页数据库读取的所述索引页的页面指纹相同,如果判断结果为是,则执行S210;否则,执行S211;
S210,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;
具体实现中,如果所述S209判断结果为是,则判断该索引页页面未发生变化,所述S210将该索引页上次更新时间到当前时间覆盖的各个预设时间段内的页面变化概率下调,比如将这些时间段的概率值均除以2。经所述S210调整过的各时间段的页面变化概率值均替换了原来预设的概率值,并存储于索引页数据库中提供下一次读取调用。具体地,如S203中所述,假设该索引页上次更新时间到当前时间总共覆盖两个时间段:第1时间段00:00-00:10和第2时间段00:10-00:20;所述S209判断结果为是时,所述S210分别将第1时间段和第2时间段内的页面变化概率值下调,其下调系数为2,则经所述S210调整后,索引页数据库中存储的第1时间段内的页面变化概率替换为:0.11/2=0.055;索引页数据库中存储的第2时间段内的页面变化概率替换为:0.12/2=0.06。
S211,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹;
具体实现中,如果所述S209判断结果为否,则判断该索引页发生了变化,所述S211将该索引页上次更新时间到当前时间覆盖的各个预设时间段内的页面变化概率上调,比如:将这些时间段的概率值均乘以2;经所述S211调整过的各时间段的页面变化概率值均替换了原来预设的概率值,并存储于索引页数据库中提供下一次读取调用;具体地,如S203中所述,假设该索引页上次更新时间到当前时间总共覆盖两个时间段:第1时间段00:00-00:10和第2时间段00:10-00:20;所述S209判断结果为否时,所述S211分别将第1时间段和第2时间段内的页面变化概率值上调,其上调系数为2,则经所述S211调整后,索引页数据库中存储的第1时间段内的页面变化概率替换为:0.11*2=0.22;索引页数据库中存储的第2时间段内的页面变化概率替换为:0.12*2=0.24。同时,所述S211将新的索引页的页面指纹写入索引页数据库,替换索引页的历史页面指纹,以提供下一次读取调用。
可以理解的是,上述S210和S211对各时间段的页面变化概率的调整系数均为2仅为举例,所述S210和S211的调整系数可以不相同,该系数可根据实际情况进行设定,一般地,系数选择越大,就能使预设的页面变化概率越快逼近实际概率,但同时误差也相对较大;系数选择越小,使预设的页面变化概率逼近实际概率的速度较慢,但同时误差也相对较小。所述页面变化概率经过所述S210和/或S211的多次迭代调整后,可以逼近该索引页在各时间段的实际变化概率,使搜索引擎能够更为精准地预测该索引页的变化。
通过上述各实施例的描述,本发明实施例通过定期从索引页数据库获取索引页的相关信息,并根据相关信息判断该索引页当前时刻是否需要更新,当该索引页需要更新时才进行更新,减少了更新时延,提高了时效性,提高了用户体验;通过预设时间段和各时间段内的页面变化概率,根据当前时刻距离上一次更新时间之间所覆盖的各时间段概率之和来判断是否更新该索引页,实现了对索引页的更新采用基于概率和分时间段的方式,从而实现了精确预测索引页变化时间点;另外,每次更新结束后根据索引页相对上次更新得到的页面是否发生变化,对各时间段的页面变化概率进行动态调整,使该索引页在各时间段的页面变化概率更符合实际变化情况,进一步提高了预测索引页变化时间点的精确度,提高了用户体验。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。