CN102236674A - 一种索引页更新方法及装置 - Google Patents

一种索引页更新方法及装置 Download PDF

Info

Publication number
CN102236674A
CN102236674A CN 201010165297 CN201010165297A CN102236674A CN 102236674 A CN102236674 A CN 102236674A CN 201010165297 CN201010165297 CN 201010165297 CN 201010165297 A CN201010165297 A CN 201010165297A CN 102236674 A CN102236674 A CN 102236674A
Authority
CN
China
Prior art keywords
index page
page
index
time
relevant information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010165297
Other languages
English (en)
Other versions
CN102236674B (zh
Inventor
邓大付
颜俊伟
薛晶晶
文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 201010165297 priority Critical patent/CN102236674B/zh
Publication of CN102236674A publication Critical patent/CN102236674A/zh
Application granted granted Critical
Publication of CN102236674B publication Critical patent/CN102236674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种索引页更新方法,包括:根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;根据所述相关信息,判断所述索引页当前是否需要更新;当所述判断结果为是时,根据所述相关信息更新所述索引页。相应地,本发明还公开了一种索引页更新装置。本发明基于概率、分时间段的更新索引页,能够精确预测索引页变化时间点,减少更新时延,提高时效性,提高用户体验。

Description

一种索引页更新方法及装置
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种索引页更新方法及装置。
背景技术
互联网上的网页,分为索引页和信息页。索引页,指网站内不断发布新内容(新链接)的页面,比如:新闻频道首页、体育频道首页、论坛版的页面、博客日志列表页等。信息页,指包括文本信息的页面,比如:点击新闻频道首页的某链接而打开的页面、点击体育频道首页的某链接而打开的页面、点击博客日志列表页中某列表而打开的某日志的页面等。
搜索引擎(search engine)指根据一定的策略,运用特定的计算机程序搜集互联网上的信息,对信息进行组织和处理后,将处理后的信息显示给用户,并为用户提供检索服务。搜索引擎发现互联网上出现的新页面的主要途径即是对索引页的更新,当搜索引擎预测到索引页发生变化时,及时从互联网上获取新内容以更新索引页,并提供给用户检索。
现有通过搜索引擎对索引页更新的方案主要有两种:
其一为:搜索引擎根据经验或统计,将索引页数据库内的各个索引页分别预先设定更新频率的简单分级,比如:一分钟一次、一小时一次、一天一次、一星期一次等多个级别,每个索引页分别按各自的更新频率进行更新。这种更新方法采用固定频率更新方式,由于索引页的变化是动态的,比如:某索引页可能一段时间更新变快或忽然变慢,采用固定频率更新的方式显然不符合对动态变化的索引页的更新,降低了用户体验。
其二为:搜索引擎预先为每个索引页设定一个更新频率序列,比如为某索引页预设等比的更新频率序列:5分钟、10分钟、20分钟、40分钟、80分钟、160分钟、320分钟......,第一次更新该索引页时采用一个默认级别,比如160分钟,当本次更新索引页后,将更新得到的索引页内容与上次的内容对比,如果页面有变化,则将更新频率调整为80分钟,如果页面没有变化,则将更新频率调整为320分钟。这种更新方法采用动态调整更新频率的方式,对于变化频率较低,比如:一天变化一次的索引页,或者在一天内变化频率比较均匀的索引页,其更新效果较好,可以比较精确的预测索引变化的时间点。
上述的索引页的更新方案都是基于频率的,发明人在实施本发明的过程中发现,现有的基于频率的索引页的更新方案主要存在以下缺陷:
1、存在更新时延,时效性差。现有的方案并不适用于一天内变化频率较高,且在不同时间段变化频率有明显变化的索引页的更新。比如:大部分新闻频道首页上午变化很快,但夜间基本不变化,采用现有的方案,由于在夜间长期探测到页面没有变化,多次探测以后,搜索引擎会将这个新闻频道首页的更新频率下调到很低,比如:几个小时才更新一次,第二天上午再更新这个新闻频道首页时,可能已经产生了几个小时的时延,甚至可能更早时发布的新闻已经从该新闻频道的首页上撤下,搜索引擎无法发现这个新闻,从而造成了更新时延,降低了搜索引擎的收录时效性,同时降低了用户体验;
2、耗费资源。如1所述,大部分索引页白天变化频繁,夜间基本不变化;由于在白天探测到页面频繁变化,多次探测后,搜索引擎会将这个索引页的更新频率上调到很高,比如:几分钟就更新一次,到夜晚时,索引页基本未变化,但依然会根据该频率进行多次更新,造成搜索引擎的资源浪费,降低了对索引页变化时间点的探测精确度。
发明内容
本发明的目的在于,提供一种索引页更新方法及装置,采用基于概率和分时间段的更新方案,能够精确预测索引页变化时间点,减少更新时延,提高时效性,提高用户体验。
为了实现上述目的,本发明实施例提供了一种索引页更新方法,包括:
根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;
根据所述相关信息,判断所述索引页当前是否需要更新;
当所述判断结果为是时,根据所述相关信息更新所述索引页。
优选地,所述根据所述相关信息,判断所述索引页当前是否需要更新,包括:
根据所述相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
判断所述累积概率是否大于1;
当所述判断结果为是时,判定所述索引页当前需要更新。
优选地,所述根据所述相关信息更新所述索引页,包括:
根据所述索引页的url,从网络中抓取所述url对应的网页源内容;
对所述抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。
优选地,所述根据所述相关信息更新所述索引页之后,还包括:
根据所述新的索引页的主要内容,计算所述新的索引页的页面指纹;
判断所述计算得到的新的索引页的页面指纹和从所述索引页数据库读取的所述索引页的页面指纹是否相同;
如果判断结果为是,则将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;
如果判断结果为否,则将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹。
优选地,所述根据预设的周期,从索引页数据库读取索引页的相关信息之前,还包括:预先设定索引页数据库的访问周期,所述索引页数据库包括:多个索引页以及各索引页的相关信息;预先将一天分为多个预设时间段;预先设定索引页在所述各个预设时间段内的页面变化概率。
相应地,本发明实施例还提供了一种索引页更新装置,包括:
调度模块,用于根据预设的周期,从索引页数据库读取索引页的相关信息,并根据所述相关信息,判断所述索引页当前是否需要更新;
更新模块,用于当所述调度模块判断结果为是时,根据所述相关信息更新所述索引页。
优选地,所述调度模块包括:
读取单元,用于根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;
计算单元,用于根据所述读取单元读取的相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
第一判断单元,用于判断所述计算单元计算的所述累积概率是否大于1;
更新判定单元,用于当所述第一判断单元判断结果为是时,判定所述索引页当前需要更新。
优选地,所述更新模块包括:
抓取单元,用于根据所述调度模块读取的所述索引页的url,从网络中抓取所述url对应的网页源内容;
抽取单元,用于对所述抓取单元抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。
优选地,所述装置还包括:
回写模块,用于计算所述更新模块更新后的新的索引页的页面指纹,对比所述调度模块读取的所述索引页的页面指纹,根据所述对比的结果调整所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率。
优选地,所述回写模块包括:
指纹计算单元,用于根据所述更新模块更新后的新的索引页的主要内容,计算所述新的索引页的页面指纹;
第二判断单元,用于判断所述指纹计算单元计算得到的新的索引页的页面指纹与所述调度模块读取的所述索引页的页面指纹是否相同;
概率调整单元,用于当所述第二判断单元判断结果为是时,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;
或,
当所述第二判断单元判断结果为否时,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述指纹计算单元计算得到的新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹。
优选地,所述装置还包括预设模块,用于预先设定索引页数据库的访问周期,预先将一天分为多个预设时间段,以及预先设定索引页在所述各个预设时间段内的页面变化概率。
本发明实施例通过定期从索引页数据库获取索引页的相关信息,并根据相关信息判断该索引页当前时刻是否需要更新,当该索引页需要更新时才进行更新,减少了更新时延,提高了时效性,提高了用户体验;通过预设时间段和各时间段内的页面变化概率,根据当前时刻距离上一次更新时间之间所覆盖的各时间段概率之和来判断是否更新该索引页,实现了对索引页的更新采用基于概率和分时间段的方式,从而实现了精确预测索引页变化时间点;另外,每次更新结束后根据索引页相对上次更新得到的页面是否发生变化,对各时间段的页面变化概率进行动态调整,使该索引页在各时间段的页面变化概率更符合实际变化情况,进一步提高了预测索引页变化时间点的精确度,提高了用户体验。
附图说明
图1为本发明的索引页更新装置的实施例的结构示意图;
图2为本发明的索引页更新装置的调度模块的实施例的结构示意图;
图3为本发明的索引页更新装置的更新模块的实施例的结构示意图;
图4为本发明的索引页更新装置的回写模块的实施例的结构示意图;
图5为本发明的索引页更新方法的第一实施例的流程图;
图6为本发明的索引页更新方法的第二实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,为本发明的索引页更新装置的实施例的结构示意图;具体实现中,图1所示的索引页更新装置可以为搜索引擎;如图1所示,所述装置包括:调度模块10和更新模块20。
所述调度模块10,用于根据预设的周期,从索引页数据库读取索引页的相关信息,并根据所述相关信息,判断所述索引页当前是否需要更新;
具体实现中,所述索引页数据库为搜索引擎自身的索引页数据库,所述索引页数据库包括:多个索引页以及各索引页的相关信息;所述索引页数据库可以表的形式进行索引页数据的存储,如下表:
表一:索引页数据库
  索引页   相关信息
  索引页1   索引页1的相关信息
  索引页2   索引页2的相关信息
  索引页3   索引页3的相关信息
  ......   ......
具体地,所述索引页的相关信息包括:索引页的url(Uniform/UniversalResource Locator,统一资源定位符,又叫网页地址),索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种。所述索引页数据库同样可以表的形式进行某索引页的相关信息的存储,如下表:
表二:索引页相关信息表
  索引页的相关信息 相关信息的值
  url http://......
  各预设时间段的页面变化概率 时间段1概率值,时间段2概率值,......
  页面指纹 ......
  上次更新时间 XX时XX分XX秒
  ...... ......
可以理解的是,索引表数据库用于存储多个索引页以及各索引页的相关信息,上述索引表数据库以表的形式(表一和表二)体现仅为举例,其他情况类似分析,在此不赘述。
所述调度模块10,根据预设的周期,定期从上述的索引页数据库(表一)中读取索引页以及该索引页的相关信息,并利用相关信息(主要是上述表二中各预设时间段的页面变化概率)来分析判断该索引页当前是否需要进行更新,即判断是否需要对该索引页发起调度。
所述更新模块20,用于当所述调度模块10判断结果为是时,根据所述相关信息更新所述索引页。
具体实现中,当所述调度模块10判断所述索引页当前需要更新时,即发起调度,向所述更新模块20发送所述索引页的相关信息,所述更新模块20根据所述调度模块10发送的相关信息更新所述索引页。
再请参见图1,所述装置还包括:回写模块30和预设模块40。
所述回写模块30,用于计算所述更新模块20更新后的新的索引页的页面指纹,对比所述调度模块10读取的所述索引页的页面指纹,根据所述对比的结果调整所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率。
所述预设模块40,用于预先设定索引页数据库的访问周期,预先将一天分为多个预设时间段,以及预先设定索引页在所述各个预设时间段内的页面变化概率。
具体实现中,所述预设模块40可将一天分为多个时间段,并且预设各个时间段内的页面变化概率,该概率要求0-1之间取值,比如:可将一天24小时分为144个时间段,每个时间段10分钟,则第1时间段为00:00-00:10,其概率值可为:0.11;第2时间段为:00:10-00:20,其概率值为0.12......第144时间段为:23:50-24:00(00:00),其概率值为0.23;所述预设模块40还可预先设定索引页数据库的访问周期,所述调度模块10根据该周期定期读取所述索引页数据库的数据。具体地,为了保证索引页的及时更新,所述预设的索引页数据库的访问周期需要短于所述预设的时间段,比如:上述的每个时间段为10分钟,可预设其访问周期为5分钟,即所述调度模块10每5分钟读取一次索引页数据库的数据,如第一次读取时间为00:00,则第二次读取时间为00:05......,以此类推。
可以理解的是,上述预设的各种情况仅为举例,其他情况,比如:预设的时间段可根据实际情况进行设定,如设为288个时间段等,时间段的设定需要考虑服务器的性能,包括存储能力和计算能力等;再如:预设的访问周期可根据所述调度模块10实际遍历一次索引页数据库所需要的时间确定,一般地,其时间长度要求短于预设的时间段,以保证当某索引页需要更新时,所述调度模块10已完成了本次数据的读取;再如:预设的各时间段的页面变化概率值可根据实际情况进行设定,其需要满足0-1之间取值,当所述预设的概率值越为合理、越接近实际情况时,可使搜索引擎对索引页变化的预测更快的达到更高的精确度,节省资源;上述各种情况可类似分析,在此不赘述。
本发明实施例通过定期从索引页数据库获取索引页的相关信息,并根据相关信息判断该索引页当前时刻是否需要更新,当该索引页需要更新时才进行更新,减少了更新时延,提高了时效性,提高了用户体验;通过预设时间段和各时间段内的页面变化概率,根据当前时刻距离上一次更新时间之间所覆盖的各时间段概率之和来判断是否更新该索引页,实现了对索引页的更新采用基于概率和分时间段的方式,从而实现了精确预测索引页变化时间点;另外,每次更新结束后根据索引页相对上次更新得到的页面是否发生变化,对各时间段的页面变化概率进行动态调整,使该索引页在各时间段的页面变化概率更符合实际变化情况,进一步提高了预测索引页变化时间点的精确度,提高了用户体验。
为了更清楚的说明本发明,下面将对本发明的索引页更新装置的调度模块10进行详细介绍。
请参见图2,为本发明的索引页更新装置的调度模块的实施例的结构示意图;所述调度模块10包括:读取单元101,计算单元102,第一判断单元103和更新判定单元104。
所述读取单元101,用于根据预设的周期,从索引页数据库读取索引页的相关信息;
具体实现中,所述读取单元101根据预设的周期,定期从索引页数据库(上述的表一和表二)中读取索引页以及该索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种。比如:假设预设索引页数据库的访问周期为5分钟,所述读取单元101每5分钟读取一次索引页数据库的数据,如第一次读取时间为00:00,则第二次读取时间为00:05......,以此类推。
所述计算单元102,用于根据所述读取单元101读取的相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
具体实现中,所述计算单元102采用如下计算公式:
∑时间段i概率值,i∈{上次更新时间到当前时间所覆盖的预设时间段}
比如:假设预先将一天24小时分为144个时间段,每个时间段10分钟,则第1时间段为00:00-00:10,其概率值可为:0.11;第2时间段为:00:10-00:20,其概率值为0.12......第144时间段为:23:50-24:00(00:00),其概率值为0.23。假设所述读取单元101读取到所述索引页的上次更新时间为00:00,当前时间为00:25,则当前时间与所述索引页的上次更新时间覆盖了两个时间段:第1时间段00:00-00:10和第2时间段00:10-00:20,则所述计算单元102计算其累积概率为:0.11+0.12=0.23。
所述第一判断单元103,用于判断所述计算单元102计算的所述累积概率是否大于1;
具体实现中,如上述例子,所述计算单元102计算得到的累积概率为0.23,所述第一判断单元103即判断该值小于1,并向所述更新判定单元104输出该判断结果。
所述更新判定单元104,用于当所述第一判断单元103判断结果为是时,判定所述索引页当前需要更新。
具体实现中,所述更新判定单元104接收到所述第一判断单元103输出的否定结果时,判定该索引页当前不需要更新,则不作任何处理;当接收到所述第一判断单元103输出的肯定结果时,即判定该索引页当前需要更新,并向后续的更新模块20输出判定结果,同时触发调度模块10向所述更新模块20发起调度,以使所述更新模块20根据索引页的相关信息更新所述索引页。
本发明实施例通过定期从索引页数据库获取索引页的相关信息,并根据相关信息判断该索引页当前时刻是否需要更新,当该索引页需要更新时才进行更新,减少了更新时延,提高了时效性,提高了用户体验;通过预设时间段和各时间段内的页面变化概率,根据当前时刻距离上一次更新时间之间所覆盖的各时间段概率之和来判断是否更新该索引页,实现了基于概率的分时间段的索引页的更新,从而实现了对索引页变化时间点精确预测。
为了更清楚的说明本发明,下面将对本发明的索引页更新装置的更新模块20进行详细介绍。
请参见图3,为本发明的索引页更新装置的更新模块的实施例的结构示意图;所述更新模块20包括:抓取单元201和抽取单元202。
所述抓取单元201,用于根据所述调度模块10读取的所述索引页的url,从网络中抓取所述url对应的网页源内容;
具体实现中,所述抓取单元201为网络爬虫程序等网页的抓取工具,其根据所述url,不断地从网络中抓取该指定url对应的网页的源内容(源代码)。具体地抓取过程与现有的搜索引擎的爬虫对网页的抓取类似,在此不赘述。
所述抽取单元202,用于对所述抓取单元201抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。
具体实现中,所述抓取单元201抓取的为指定的url对应的网页(即新的索引页)的源内容,所述抽取单元202可利用硬件或软件工具,比如:单片机或其他芯片等,对所述抓取单元201抓取的源内容进行自动分析,从中提取该网页(新的索引页)上的文本信息和链接。
本发明实施例通过对新的索引页的抓取和抽取过程,获取了原索引页上新发布的文本和链接,实现了对索引页的更新。
为了更清楚的说明本发明,下面将对本发明的索引页更新装置的回写模块30进行详细介绍。
请参见图4,为本发明的索引页更新装置的回写模块的实施例的结构示意图;所述回写模块30包括:指纹计算单元301,第二判断单元302和概率调整单元303。
所述指纹计算单元301,用于根据所述抽取单元202获得的新的索引页的主要内容,计算所述新的索引页的页面指纹;
具体实现中,所述指纹计算单元301将所述抽取单元202获得的新的索引页的主要内容用算法进行指纹计算,所述算法包括但不限于哈希算法,摘要算法等,比如:将获得的主要内容采用字符串哈希MD5(Message Digest Algorithm5,消息摘要算法第5版)值的方式,可获取所述新的索引页的页面特征,包括但不限于:标题关键字词,文本内容关键字词等特征,所述页面特征又叫做页面指纹。
所述第二判断单元302,用于判断所述指纹计算单元301计算得到的新的索引页的页面指纹与所述调度模块10读取的所述索引页的页面指纹是否相同;
所述概率调整单元303,用于当所述第二判断单元302判断结果为是时,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;或,
当所述第二判断单元302判断结果为否时,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述指纹计算单元301计算得到的新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹;
具体实现中,当某索引页第一次被更新时,各时间段的页面变化概率均为预设的概率值,之后,所述回写模块30即根据每次更新索引页时,该索引页的页面是否已经变化来动态调整各时间段的页面变化概率值。具体调整方式为:每次更新索引页时,所述指纹计算单元301计算新的索引页的页面指纹,所述第二判断单元302判断该计算得到的页面指纹与索引库中记录的索引页的历史页面指纹是否相同,如果二者相同,则判断该索引页页面未发生变化,所述概率调整单元303将该索引页上次更新时间到当前时间覆盖的各个预设时间段内的页面变化概率下调,比如:将这些时间段的概率值均除以2。如果二者不同,则判断该索引页发生了变化,所述概率调整单元303将该索引页上次更新时间到当前时间覆盖的各个预设时间段内的页面变化概率上调,比如:将这些时间段的概率值均乘以2;同时,所述概率调整单元303将新的索引页的页面指纹写入索引页数据库,替换索引页的历史页面指纹,以提供下一次调度模块10进行读取调用。经所述概率调整单元303调整过的各时间段的页面变化概率值均替换了原来预设的概率值,并存储于索引页数据库中提供下一次读取调用。
可以理解的是,上述回写模块30对各时间段的页面变化概率的调整系数为2仅为举例,该系数可根据实际情况进行设定,一般地,系数选择越大,就能使预设的页面变化概率越快逼近实际概率,但同时误差也相对较大;系数选择越小,使预设的页面变化概率逼近实际概率的速度较慢,但同时误差也相对较小。所述页面变化概率经过所述回写模块30的多次迭代调整后,可以逼近该索引页在各时间段的实际变化概率,使搜索引擎能够更为精准地预测该索引页的变化。
本发明实施例每次更新结束后根据索引页相对上次更新得到的页面是否发生变化,对各时间段的页面变化概率进行动态调整,使该索引页在各时间段的页面变化概率更符合实际变化情况,进一步提高了预测索引页变化时间点的精确度,提高了用户体验。
为了更清楚的说明本发明,下面将对利用上述索引页更新装置实现的索引页更新方法进行详细介绍。
请参见图5,为本发明的索引页更新方法的第一实施例的流程图;所述方法包括:
S101,根据预设的周期,从索引页数据库读取索引页的相关信息;
具体实现中,所述索引页数据库为搜索引擎自身的索引页数据库,所述索引页数据库包括:多个索引页以及各索引页的相关信息;所述索引页数据库可以表的形式进行索引页数据的存储,如上述表一。具体地,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种。所述索引页数据库同样可以表的形式进行某索引页的相关信息的存储,如上述表二。
可以理解的是,索引表数据库用于存储多个索引页以及各索引页的相关信息,上述索引表数据库以表的形式(表一和表二)体现仅为举例,其他情况类似分析,在此不赘述。
所述S101,根据预设的周期,定期从上述的索引页数据库(表一和表二)中读取索引页以及该索引页的相关信息。
S102,根据所述相关信息,判断所述索引页当前是否需要更新;如果所述判断结果为是,则执行S103;否则,结束;
具体实现中,所述S102利用所述S101读取的相关信息(主要是上述表二中各预设时间段的页面变化概率)来分析判断该索引页此时是否需要进行更新,即判断是否需要对该索引页发起调度。
S103,根据所述相关信息更新所述索引页。
具体实现中,当所述S102判断所述索引页当前需要更新时,即发起调度,所述S103根据所述S102读取的相关信息更新所述索引页。
本发明实施例采用基于概率和分时间段的更新方案,能够精确预测索引页变化时间点,减少更新时延,提高时效性,提高用户体验。
请参见图6,为本发明的索引页更新方法的第二实施例的流程图;所述方法包括:
S201,预先设定索引页数据库的访问周期,预先将一天分为多个预设时间段,以及预先设定索引页在所述各个预设时间段内的页面变化概率;
具体实现中,所述S201可将一天分为多个时间段,并且预设各个时间段内的页面变化概率,该概率要求0-1之间取值,比如:可将一天24小时分为144个时间段,每个时间段10分钟,则第1时间段为00:00-00:10,其概率值可为:0.11;第2时间段为:00:10-00:20,其概率值为0.12......第144时间段为:23:50-24:00(00:00),其概率值为0.23;所述S201还可预先设定索引页数据库的访问周期,使搜索引擎按该周期定期读取所述索引页数据库的数据。具体地,为了保证索引页的及时更新,所述预设的索引页数据库的访问周期需要短于所述预设的时间段,比如:上述的每个时间段为10分钟,可预设其访问周期为5分钟,则搜索引擎每5分钟读取一次索引页数据库的数据,如第一次读取时间为00:00,则第二次读取时间为00:05......,以此类推。
可以理解的是,上述预设的各种情况仅为举例,其他情况,比如:预设的时间段可根据实际情况进行设定,如设为288个时间段等,时间段的设定需要考虑服务器的性能,包括存储能力和计算能力等;再如:预设的访问周期可根据实际遍历一次索引页数据库所需要的时间确定,一般地,其时间长度要求短于预设的时间段,以保证当某索引页需要更新时,已完成了本次数据的读取;再如:预设的各时间段的页面变化概率值可根据实际情况进行设定,其需要满足0-1之间取值,当所述预设的概率值越为合理、越接近实际情况时,可使搜索引擎对索引页变化的预测更快的达到更高的精确度,节省资源;上述各种情况可类似分析,在此不赘述。
S202,根据预设的周期,从索引页数据库读取索引页的相关信息;
具体实现中,所述S202根据预设的周期,定期从索引页数据库(上述的表一和表二)中读取索引页以及该索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种。比如:假设预设索引页数据库的访问周期为5分钟,所述S202每5分钟读取一次索引页数据库的数据,如第一次读取时间为00:00,则第二次读取时间为00:05......,以此类推。
S203,根据所述相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索页的页面变化概率的累积概率;
具体实现中,所述S203采用如下计算公式:
∑时间段i概率值,i∈{上次更新时间到当前时间所覆盖的预设时间段}
比如:假设预先将一天24小时分为144个时间段,每个时间段10分钟,则第1时间段为00:00-00:10,其概率值可为:0.11;第2时间段为:00:10-00:20,其概率值为0.12......第144时间段为:23:50-24:00(00:00),其概率值为0.23。假设所述S202读取到所述索引页的上次更新时间为00:00,当前时间为00:25,则当前时间与所述索引页的上次更新时间覆盖了两个时间段:第1时间段00:00-00:10和第2时间段00:10-00:20,则所述S203计算其累积概率为:0.11+0.12=0.23。
S204,判断所述累积概率是否大于1,如果判断结果为是,执行S205;否则,结束;
S205,判定所述索引页当前需要更新;
S206,根据所述索引页的url,从网络中抓取所述url对应的网页源内容;
具体实现中,所述S206使用网络爬虫程序等网页的抓取工具,其根据所述url,不断地从网络中抓取该指定url对应的网页的源内容(源代码)。具体地抓取过程与现有的搜索引擎的爬虫对网页的抓取类似,在此不赘述。
S207,对所述抓取的网页源内容进行抽取分析,获得新的索引页的主要内容;
具体实现中,所述S207抓取的为指定的url对应的网页(即新的索引页)的源内容,所述S207可利用硬件或软件工具,比如:单片机或其他芯片等,对所述S206抓取的源内容进行自动分析,从中提取该网页(新的索引页)上的文本信息和链接。
S208,根据所述新的索引页的主要内容,计算所述新的索引页的页面指纹;
具体实现中,所述S208将所述S207获得的新的索引页的主要内容用算法进行指纹计算,所述算法包括但不限于哈希算法,摘要算法等,比如:将获得的主要内容采用字符串哈希MD5值的方式,可获取所述新的索引页的页面特征,包括但不限于:标题关键字词,文本内容关键字词等特征,所述页面特征又叫做页面指纹。
S209,判断所述计算得到的新的索引页的页面指纹是否与从所述索引页数据库读取的所述索引页的页面指纹相同,如果判断结果为是,则执行S210;否则,执行S211;
S210,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;
具体实现中,如果所述S209判断结果为是,则判断该索引页页面未发生变化,所述S210将该索引页上次更新时间到当前时间覆盖的各个预设时间段内的页面变化概率下调,比如将这些时间段的概率值均除以2。经所述S210调整过的各时间段的页面变化概率值均替换了原来预设的概率值,并存储于索引页数据库中提供下一次读取调用。具体地,如S203中所述,假设该索引页上次更新时间到当前时间总共覆盖两个时间段:第1时间段00:00-00:10和第2时间段00:10-00:20;所述S209判断结果为是时,所述S210分别将第1时间段和第2时间段内的页面变化概率值下调,其下调系数为2,则经所述S210调整后,索引页数据库中存储的第1时间段内的页面变化概率替换为:0.11/2=0.055;索引页数据库中存储的第2时间段内的页面变化概率替换为:0.12/2=0.06。
S211,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹;
具体实现中,如果所述S209判断结果为否,则判断该索引页发生了变化,所述S211将该索引页上次更新时间到当前时间覆盖的各个预设时间段内的页面变化概率上调,比如:将这些时间段的概率值均乘以2;经所述S211调整过的各时间段的页面变化概率值均替换了原来预设的概率值,并存储于索引页数据库中提供下一次读取调用;具体地,如S203中所述,假设该索引页上次更新时间到当前时间总共覆盖两个时间段:第1时间段00:00-00:10和第2时间段00:10-00:20;所述S209判断结果为否时,所述S211分别将第1时间段和第2时间段内的页面变化概率值上调,其上调系数为2,则经所述S211调整后,索引页数据库中存储的第1时间段内的页面变化概率替换为:0.11*2=0.22;索引页数据库中存储的第2时间段内的页面变化概率替换为:0.12*2=0.24。同时,所述S211将新的索引页的页面指纹写入索引页数据库,替换索引页的历史页面指纹,以提供下一次读取调用。
可以理解的是,上述S210和S211对各时间段的页面变化概率的调整系数均为2仅为举例,所述S210和S211的调整系数可以不相同,该系数可根据实际情况进行设定,一般地,系数选择越大,就能使预设的页面变化概率越快逼近实际概率,但同时误差也相对较大;系数选择越小,使预设的页面变化概率逼近实际概率的速度较慢,但同时误差也相对较小。所述页面变化概率经过所述S210和/或S211的多次迭代调整后,可以逼近该索引页在各时间段的实际变化概率,使搜索引擎能够更为精准地预测该索引页的变化。
通过上述各实施例的描述,本发明实施例通过定期从索引页数据库获取索引页的相关信息,并根据相关信息判断该索引页当前时刻是否需要更新,当该索引页需要更新时才进行更新,减少了更新时延,提高了时效性,提高了用户体验;通过预设时间段和各时间段内的页面变化概率,根据当前时刻距离上一次更新时间之间所覆盖的各时间段概率之和来判断是否更新该索引页,实现了对索引页的更新采用基于概率和分时间段的方式,从而实现了精确预测索引页变化时间点;另外,每次更新结束后根据索引页相对上次更新得到的页面是否发生变化,对各时间段的页面变化概率进行动态调整,使该索引页在各时间段的页面变化概率更符合实际变化情况,进一步提高了预测索引页变化时间点的精确度,提高了用户体验。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (11)

1.一种索引页更新方法,其特征在于:
根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;
根据所述相关信息,判断所述索引页当前是否需要更新;
当所述判断结果为是时,根据所述相关信息更新所述索引页。
2.如权利要求1所述的方法,其特征在于,所述根据所述相关信息,判断所述索引页当前是否需要更新,包括:
根据所述相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
判断所述累积概率是否大于1;
当所述判断结果为是时,判定所述索引页当前需要更新。
3.如权利要求2所述的方法,其特征在于,所述根据所述相关信息更新所述索引页,包括:
根据所述索引页的url,从网络中抓取所述url对应的网页源内容;
对所述抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。
4.如权利要求3所述的方法,其特征在于,所述根据所述相关信息更新所述索引页之后,还包括:
根据所述新的索引页的主要内容,计算所述新的索引页的页面指纹;
判断所述计算得到的新的索引页的页面指纹和从所述索引页数据库读取的所述索引页的页面指纹是否相同;
如果判断结果为是,则将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;
如果判断结果为否,则将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹。
5.如权利要求1-4任一项所述的方法,其特征在于,所述根据预设的周期,从索引页数据库读取索引页的相关信息之前,还包括:
预先设定索引页数据库的访问周期,所述索引页数据库包括:多个索引页以及各索引页的相关信息;
预先将一天分为多个预设时间段;
预先设定索引页在所述各个预设时间段内的页面变化概率。
6.一种索引页更新装置,其特征在于,包括:
调度模块,用于根据预设的周期,从索引页数据库读取索引页的相关信息,并根据所述相关信息,判断所述索引页当前是否需要更新;
更新模块,用于当所述调度模块判断结果为是时,根据所述相关信息更新所述索引页。
7.如权利要求6所述的装置,其特征在于,所述调度模块包括:
读取单元,用于根据预设的周期,从索引页数据库读取索引页的相关信息,所述索引页的相关信息包括:索引页的url,索引页在各个预设时间段内的页面变化概率,索引页的页面指纹和索引页的上次更新时间中的任一种或多种;
计算单元,用于根据所述读取单元读取的相关信息,计算当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内所述索引页的页面变化概率的累积概率;
第一判断单元,用于判断所述计算单元计算的所述累积概率是否大于1;
更新判定单元,用于当所述第一判断单元判断结果为是时,判定所述索引页当前需要更新。
8.如权利要求7所述的装置,其特征在于,所述更新模块包括:
抓取单元,用于根据所述调度模块读取的所述索引页的url,从网络中抓取所述url对应的网页源内容;
抽取单元,用于对所述抓取单元抓取的网页源内容进行抽取分析,获得新的索引页的主要内容,所述主要内容包括所述新的索引页的文本信息和链接。
9.如权利要求8所述的装置,其特征在于,还包括:
回写模块,用于计算所述更新模块更新后的新的索引页的页面指纹,对比所述调度模块读取的所述索引页的页面指纹,根据所述对比的结果调整所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率。
10.如权利要求9所述的装置,其特征在于,所述回写模块包括:
指纹计算单元,用于根据所述更新模块更新后的新的索引页的主要内容,计算所述新的索引页的页面指纹;
第二判断单元,用于判断所述指纹计算单元计算得到的新的索引页的页面指纹与所述调度模块读取的所述索引页的页面指纹是否相同;
概率调整单元,用于当所述第二判断单元判断结果为是时,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别下调;
或,
当所述第二判断单元判断结果为否时,将所述索引页数据库内、所述当前时间与所述索引页的上次更新时间之间所覆盖的各个预设时间段内的页面变化概率分别上调,并用所述指纹计算单元计算得到的新的索引页的页面指纹替换所述索引页数据库内的所述索引页的页面指纹。
11.如权利要求6-10任一项所述的装置,其特征在于,还包括:
预设模块,用于预先设定索引页数据库的访问周期,预先将一天分为多个预设时间段,以及预先设定索引页在所述各个预设时间段内的页面变化概率。
CN 201010165297 2010-04-29 2010-04-29 一种索引页更新方法及装置 Active CN102236674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010165297 CN102236674B (zh) 2010-04-29 2010-04-29 一种索引页更新方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010165297 CN102236674B (zh) 2010-04-29 2010-04-29 一种索引页更新方法及装置

Publications (2)

Publication Number Publication Date
CN102236674A true CN102236674A (zh) 2011-11-09
CN102236674B CN102236674B (zh) 2013-11-06

Family

ID=44887330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010165297 Active CN102236674B (zh) 2010-04-29 2010-04-29 一种索引页更新方法及装置

Country Status (1)

Country Link
CN (1) CN102236674B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN104133852A (zh) * 2014-07-04 2014-11-05 小米科技有限责任公司 网页访问方法、装置、服务器及终端
CN104361005A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种垂直搜索引擎中对信息单元的调度方法
CN105095395A (zh) * 2015-06-30 2015-11-25 北京金山安全软件有限公司 一种信息处理方法及装置
CN105760441A (zh) * 2016-02-02 2016-07-13 腾讯科技(深圳)有限公司 事件结果的展示方法和装置
CN106407218A (zh) * 2015-07-31 2017-02-15 北京国双科技有限公司 导航网页的检测方法和装置
CN106547776A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 网站内容的检测方法及装置
CN108710549A (zh) * 2015-10-19 2018-10-26 广东欧珀移动通信有限公司 一种保证指纹数据稳定的方法及装置
CN109284350A (zh) * 2018-11-16 2019-01-29 天津字节跳动科技有限公司 检索内容的更新方法、装置、存储介质及电子设备
CN109669756A (zh) * 2018-12-25 2019-04-23 北京金山安全软件有限公司 数据刷新方法、装置、电子设备及存储介质
CN112118246A (zh) * 2020-09-11 2020-12-22 北京微密科技发展有限公司 基于融合内存的区块链可信存储执行硬件环境
CN113343141A (zh) * 2021-05-12 2021-09-03 北京三快在线科技有限公司 一种网页获取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004258708A (ja) * 2003-02-24 2004-09-16 Fujitsu Ltd 共有データ更新管理方法、プログラム及び装置
CN1945576A (zh) * 2006-10-31 2007-04-11 上海态格文化传播有限公司 自适应网页更新时间预测方法
CN101165687A (zh) * 2006-10-20 2008-04-23 北京酷讯科技有限公司 搜索引擎结果新信息自动“冒泡”的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004258708A (ja) * 2003-02-24 2004-09-16 Fujitsu Ltd 共有データ更新管理方法、プログラム及び装置
CN101165687A (zh) * 2006-10-20 2008-04-23 北京酷讯科技有限公司 搜索引擎结果新信息自动“冒泡”的方法
CN1945576A (zh) * 2006-10-31 2007-04-11 上海态格文化传播有限公司 自适应网页更新时间预测方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN103176983B (zh) * 2011-12-20 2016-04-27 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103092999B (zh) * 2013-02-22 2016-06-29 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN104133852B (zh) * 2014-07-04 2018-03-16 小米科技有限责任公司 网页访问方法、装置、服务器及终端
CN104133852A (zh) * 2014-07-04 2014-11-05 小米科技有限责任公司 网页访问方法、装置、服务器及终端
CN104361005A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种垂直搜索引擎中对信息单元的调度方法
CN104361005B (zh) * 2014-10-11 2017-10-31 北京中搜网络技术股份有限公司 一种垂直搜索引擎中对信息单元的调度方法
CN105095395A (zh) * 2015-06-30 2015-11-25 北京金山安全软件有限公司 一种信息处理方法及装置
CN106407218B (zh) * 2015-07-31 2020-03-03 北京国双科技有限公司 导航网页的检测方法和装置
CN106407218A (zh) * 2015-07-31 2017-02-15 北京国双科技有限公司 导航网页的检测方法和装置
CN106547776A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 网站内容的检测方法及装置
CN106547776B (zh) * 2015-09-21 2019-12-03 北京国双科技有限公司 网站内容的检测方法及装置
CN108710549A (zh) * 2015-10-19 2018-10-26 广东欧珀移动通信有限公司 一种保证指纹数据稳定的方法及装置
CN108710549B (zh) * 2015-10-19 2020-09-01 Oppo广东移动通信有限公司 一种保证指纹数据稳定的方法及装置
CN105760441A (zh) * 2016-02-02 2016-07-13 腾讯科技(深圳)有限公司 事件结果的展示方法和装置
CN105760441B (zh) * 2016-02-02 2021-01-05 腾讯科技(深圳)有限公司 事件结果的展示方法和装置
CN109284350A (zh) * 2018-11-16 2019-01-29 天津字节跳动科技有限公司 检索内容的更新方法、装置、存储介质及电子设备
CN109284350B (zh) * 2018-11-16 2020-11-13 天津字节跳动科技有限公司 检索内容的更新方法、装置、存储介质及电子设备
CN109669756A (zh) * 2018-12-25 2019-04-23 北京金山安全软件有限公司 数据刷新方法、装置、电子设备及存储介质
CN112118246A (zh) * 2020-09-11 2020-12-22 北京微密科技发展有限公司 基于融合内存的区块链可信存储执行硬件环境
CN113343141A (zh) * 2021-05-12 2021-09-03 北京三快在线科技有限公司 一种网页获取方法及装置

Also Published As

Publication number Publication date
CN102236674B (zh) 2013-11-06

Similar Documents

Publication Publication Date Title
CN102236674B (zh) 一种索引页更新方法及装置
US8745183B2 (en) System and method for adaptively refreshing a web page
US8145622B2 (en) System for finding queries aiming at tail URLs
CN108710639B (zh) 一种基于Ceph的海量小文件存取优化方法
CN104731974A (zh) 基于大数据流式计算的动态页面加载方法
CN105389349A (zh) 词典更新方法及装置
US20080104257A1 (en) System and method using a refresh policy for incremental updating of web pages
CN101178736A (zh) 网页抓取方法和网页抓取服务器
US11809505B2 (en) Method for pushing information, electronic device
CN103425564A (zh) 一种智能手机软件使用预测方法
CN111917882B (zh) 文件缓存方法、装置及电子设备
CN112181919A (zh) 一种压缩方法、系统及电子设备和存储介质
CN114817651A (zh) 数据存储方法、数据查询方法、装置和设备
CN103324641A (zh) 信息记录推荐方法和装置
CN117236348A (zh) 一种多语言自动转换系统、方法、装置及介质
CN111459939B (zh) 数据的处理方法及装置
CN111444411A (zh) 网络数据增量采集方法、装置、设备及存储介质
ZA202308509B (en) Prediction method for subject literature retrieval
CN113032575B (zh) 一种基于主题模型的文档血缘关系挖掘的方法及装置
Batsaras et al. VAT: Asymptotic Cost Analysis for Multi-Level Key-Value Stores
CN112307198B (zh) 一种单文本的摘要确定方法和相关装置
CN111831585B (zh) 数据储存设备及其数据预测方法
CN101980209B (zh) 自适应多领域搜索引擎调用方法及系统
Gu et al. Adaptive cache policy scheduling for big data applications on distributed tiered storage system
CN104615756A (zh) 网页加载方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131030

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20131030

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518057 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.