CN105630942A - 电子书更新章节的调度方法和装置 - Google Patents

电子书更新章节的调度方法和装置 Download PDF

Info

Publication number
CN105630942A
CN105630942A CN201510977669.0A CN201510977669A CN105630942A CN 105630942 A CN105630942 A CN 105630942A CN 201510977669 A CN201510977669 A CN 201510977669A CN 105630942 A CN105630942 A CN 105630942A
Authority
CN
China
Prior art keywords
book
url
pattern
website
chapters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510977669.0A
Other languages
English (en)
Other versions
CN105630942B (zh
Inventor
邝景胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510977669.0A priority Critical patent/CN105630942B/zh
Publication of CN105630942A publication Critical patent/CN105630942A/zh
Priority to PCT/CN2016/085545 priority patent/WO2017107403A1/zh
Application granted granted Critical
Publication of CN105630942B publication Critical patent/CN105630942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种电子书更新章节的调度方法和装置,该方法包括:针对电子书相关站点内新增的统一资源定位符URL,根据所述URL所属站点的URL模式Pattern词典,确定出所述URL的Pattern;根据所述URL的Pattern,从预设的电子书模式信息库中反向识别出所述URL所对应的电子书;并将识别出的电子书确定为已更新的电子书;在所述URL所属站点内对已更新的电子书的章节列表页发起调度,从中抓取已更新的电子书的所有更新章节。应用本发明,能够快速识别已更新的电子书,提高更新章节的抓取速度;而且无需频繁地进行抓取操作,提高了更新章节的抓取效率。

Description

电子书更新章节的调度方法和装置
技术领域
本发明涉及电子书技术领域,具体而言,本发明涉及一种电子书更新章节的调度方法和装置。
背景技术
近几年来,网络上追书成为了一种时尚,追书的用户都希望在第一时间看到连载电子书(比如,小说)更新的内容。因此,电子书更新章节的时效性需求极为紧迫。
若能准确了解电子书的更新时间点,将可以快速抓取电子书更新章节。然而,作者对于一本电子书的更新带有一定的随机性,电子书的更新时间点难以预测。
目前,现有可以针对目标电子书,不断抓取各电子书相关站点中该目标电子书的章节列表页,将当前抓取的章节列表页与之前抓取的章节列表页进行比对,由此确定出已更新的章节列表页,继而,根据已更新的章节列表页抓取目标电子书的更新章节。
采用现有的方案来抓取电子书更新章节,虽然无需预测电子书的更新时间点,但需要在各个站点对电子书的章节列表页进行频繁的抓取操作,存在抓取量大;而且,事实上,在电子书未发生更新的情况下,将会存在大量的无效抓取操作,由此造成更新章节的抓取效率低。
发明内容
针对上述现有技术存在的缺陷,本发明提供了一种电子书更新章节的调度方法和装置,能够快速识别已更新的电子书,提高更新章节的抓取速度;而且无需频繁地进行抓取操作,提高了更新章节的抓取效率。
本发明提供了电子书更新章节的调度方法,其特征在于,包括:
针对电子书相关站点内新增的统一资源定位符URL,根据所述URL所属站点的URL模式Pattern词典,确定出所述URL的Pattern;
根据所述URL的Pattern,从预设的电子书模式信息库中反向识别出所述URL所对应的电子书;并将识别出的电子书确定为已更新的电子书;
在所述URL所属站点内对已更新的电子书的章节列表页发起调度,从中抓取已更新的电子书的所有更新章节。
较佳地,站点的URLPattern词典通过如下方法预先建立:
对于每个电子书相关站点,预先收集属于该站点的设定数量的URL;
根据URL的片段结构,将收集的URL进行分组;其中,同一分组内的URL共有同一种片段结构;
针对每个分组,将该分组内的URL所共有的片段结构识别为该站点的一个Pattern;
将识别出的该站点的各个Pattern,添加到该站点的URLPattern词典中。
较佳地,电子书模式信息库通过如下方法预先设置:
对于每个电子书相关站点,预先收集该站点当前包含的所有电子书;
根据该站点的URLPattern词典,确定电子书的各章节内容页的URL的Pattern,并由此统计出电子书所涉及的Pattern;
将各章节内容页的URL的Pattern之间的公共部分作为电子书在该站点的ID;
针对电子书所涉及的每个Pattern,确定出所述ID在该Pattern中所处的位置,并作为该Pattern的公共部分位置;
根据电子书所涉及的Pattern、Pattern的公共部分位置、电子书在站点的ID,建立倒排索引后存储于所述电子书模式信息库中。
较佳地,所述根据所述URL的Pattern,从预设的电子书模式信息库中反向识别出所述URL所对应的电子书,具体包括:
从预设的电子书模式信息库中查找出所述URL的Pattern所对应的公共部分位置;
将所述URL中处于所述公共部分位置的内容提取为所述URL的身份标识码ID;
将所述电子书模式信息库中与所述ID对应的电子书识别为所述URL所对应的电子书。
较佳地,电子书相关站点内新增的URL是预先识别出的:
按照预设的调度周期,获取电子书相关站点的活性索引页;
针对所述活性索引页中的每个URL,查询该URL是否属于现有链接库;若否,则将该URL识别为新增的URL;
其中,所述现有链接库中存储有本次调度之前电子书相关站点包含的所有URL。
较佳地,所述现有链接库采用布隆过滤器BloomFilter算法存储电子书相关站点包含的所有URL。
较佳地,所述针对所述活性索引页中的每个URL,查询该URL是否属于现有链接库,具体包括:
针对所述活性索引页中的每个URL,通过所述BloomFilter算法查询该URL是否属于所述现有链接库。
根据本发明的另一方面,还提供了一种电子书更新章节的调度装置,包括:
URL模式确定模块,用于针对电子书相关站点内新增的URL,根据所述URL所属站点的URLPattern词典,确定出所述URL的Pattern;
更新电子书识别模块,用于根据所述URL的Pattern,从预设的电子书模式信息库中反向识别出所述URL所对应的电子书;并将识别出的电子书确定为已更新的电子书;
更新章节调度模块,用于针对所述更新电子书识别模块识别出的已更新的电子书,在所述URL所属站点内对该电子书的章节列表发起调度,从中抓取该电子书的所有更新章节。
较佳地,所述电子书更新章节的调度装置还包括:
URLPattern词典构建模块,用于对于每个电子书相关站点,预先收集属于该站点的设定数量的URL;根据URL的片段结构,将收集的URL进行分组;其中,同一分组内的URL共有同一种片段结构;针对每个分组,将该分组内的URL所共有的片段结构识别为该站点的一个Pattern;将识别出的该站点的各个Pattern,添加到该站点的URLPattern词典中。
较佳地,所述电子书更新章节的调度装置还包括:
电子书模式信息库设置模块,用于对于每个电子书相关站点,预先收集该站点当前包含的所有电子书;根据该站点的URLPattern词典,确定电子书的各章节内容页的URL的Pattern,并由此统计出电子书所涉及的Pattern;将各章节内容页的URL的Pattern之间的公共部分作为电子书在该站点的ID;针对电子书所涉及的每个Pattern,确定出所述ID在该Pattern中所处的位置,并作为该Pattern的公共部分位置;根据电子书所涉及的Pattern、Pattern的公共部分位置、电子书在站点的ID,建立倒排索引后存储于所述电子书模式信息库中。
较佳地,所述更新电子书识别模块具体用于从预设的电子书模式信息库中查找出所述URL的Pattern所对应的公共部分位置;将所述URL中处于所述公共部分位置的内容提取为所述URL的ID;将所述电子书模式信息库中与所述ID对应的电子书识别为所述URL所对应的电子书。
较佳地,所述电子书更新章节的调度装置还包括:
新增URL识别模块,用于按照预设的调度周期,获取电子书相关站点的活性索引页;针对所述活性索引页中的每个URL,查询该URL是否属于现有链接库;若否,则将该URL识别为新增的URL;
其中,所述现有链接库中存储有本次调度之前电子书相关站点包含的所有URL。
较佳地,所述电子书更新章节的调度装置还包括:
URL存储模块,用于采用BloomFilter算法将电子书相关站点当前包含的所有URL存储于所述现有链接库。
较佳地,所述新增URL识别模块具体用于按照预设的调度周期,获取电子书相关站点的活性索引页;针对所述活性索引页中的每个URL,通过所述BloomFilter算法查询该URL是否属于所述现有链接库;若否,则将该URL识别为新增的URL。
本发明的技术方案中,本发明的技术方案中,可以预先识别出电子书相关站点内新增的URL;之后,根据新增的URL的Pattern,识别出该URL所对应的电子书为已更新的电子书,通过已更新的电子书的章节列表页来抓取所有的更新章节。这样,相比现有通过不断抓取章节列表页来确定更新的章节列表页,本发明通过新增的章节内容页反向确定已更新的电子书,继而确定出更新的章节列表页;并基于更新的章节列表页抓取出所有的更新章节。本发明的方案中无需对电子书的章节列表页进行频繁的抓取操作,就可以及时识别出已更新的电子书,保障了已更新电子书的更新章节的时效性,且大大减少了抓取操作,提高了更新章节的抓取效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的电子书更新章节的调度方法的流程示意图;
图2为本发明实施例的一种电子书模式信息库的存储结构示意图;
图3a、3b均为本发明实施例的电子书更新章节的调度装置的内部结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunicationsService,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(PersonalDigitalAssistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(MobileInternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本发明的发明人发现,实际应用中,当电子书在某一站点进行更新时,在该站点内将会新增更新章节的章节内容页URL(UniformResourceLocator,统一资源定位符)。
因此,本发明的发明人考虑,可以先确定出站点内新增的章节内容页URL(UniformResourceLocator,统一资源定位符);之后,反向识别新增的章节内容页URL所对应的电子书为已更新的电子书,并确定已更新的电子书的章节列表页;通过已更新的电子书的章节列表页抓取所有的更新章节。这样,相比现有确定更新的章节列表页后从章节列表页中确定出更新章节的方案,本发明提出的根据更新的章节内容页来反向确定更新的章节列表页,不仅可以快速识别出已更新的电子书,还无需对电子书的章节列表页进行频繁的抓取操作,提高了更新章节的抓取效率。
进一步地,本发明的发明人还发现,实际应用中,电子书相关站点通常设有经常变更并且能够持续提供站点内新链接的页面的活性索引页。因此,本发明的发明人考虑,可以通过电子书相关站点的活性索引页,快速识别出站点内新增的章节内容页URL。这样,有利于进一步提高更新章节的抓取效率。
下面将结合附图来详细说明本发明的技术方案。
本发明实施例中,在进行电子书更新章节的调度之前,可以预先建立电子书相关站点的URLPattern(模式)词典。
具体地,对于每个电子书相关站点,可以预先收集属于该站点的设定数量的URL。其中,设定数量由本领域技术人员根据经验进行设定。
之后,根据URL的片段结构,将收集的URL进行分组。其中,同一分组内的URL共有同一种片段结构。
针对每个分组,将该分组内的URL所共有的片段结构识别为该站点的Pattern。将识别出的该站点的各个Pattern,添加到该站点的URLPattern词典中。
例如,对于某个电子书相关站点,收集了如下URL:
http://read.***.com/BookReader/dQv0z50b27Q1,PGnD-w-U8wQex0RJOkJclQ2.aspx;
http://vipreader.***.com/BookReader/vip,3615564,91338738.aspx;
http://read.***.com/BookReader/dQv0z50b27Q1,4JP4TS5F50cex0RJOkJclQ2.aspx;
http://read.***.com/BookReader/3qBoEm8m3j41,ua6SKk-yETAex0RJOkJclQ2.aspx;
http://read.***.com/BookReader/dQv0z50b27Q1,q73U8ohhJScex0RJOkJclQ2.aspx;
http://vipreader.***.com/BookReader/vip,3615564,91338739.aspx;
http://vipreader.***.com/BookReader/vip,3588468,88861202.aspx。
根据URL的片段结构,可以将上述收集的URL分为两组。
其中一组共有“http://vipreader.***.com/BookReader/vip,(\d+).aspx”这一片段结构。
而另一组共有“http://read.***.com/BookReader/(\d+).aspx”这一片段结构。
其中,(\d+)为通配符,对于每个分组,该分组内的各URL在通配符所在位置上的内容不同。
分组后,可将“http://vipreader.***.com/BookReader/vip,(\d+).aspx”、“http://read.***.com/BookReader/(\d+).aspx”识别为该站点的两个Pattern。并将识别出的这两个Pattern添加到该站点的URLPattern词典中。
基于预先建立的各个站点的URLPattern词典,本发明实施例提供了一种电子书更新章节的调度方法,如图1所示,其流程具体包括如下步骤:
S101:针对电子书相关站点内新增的URL,根据该新增的URL所属站点的URLPattern词典,确定出该新增的URL的Pattern。
实际应用中,当电子书的章节已发生更新时,通常会针对每个更新章节,在站点新增对应的章节内容页。因此,本发明实施例中,可以预先识别出电子书相关站点内新增的URL,之后通过后续步骤识别出新增的URL所对应的电子书,这样也就识别出了已更新的电子书。关于电子书相关站点内新增的URL的识别将在后续补充。
本发明实施例中,在识别出电子书相关站点内新增的URL之后,可以确定每个新增的URL的所属站点,并获取所属站点的URLPattern词典。之后,针对每个新增的URL,根据该URL所属站点的URLPattern词典,确定出该新增的URL的Pattern。例如,可以将新增的URL与URLPattern词典中的各个Pattern进行一一比对,查找出与新增的URL匹配度最高的Pattern,并将查找出的Pattern确定为该新增的URL的Pattern。
S102:根据新增的URL的Pattern,从预设的电子书模式信息库中反向识别出该URL所对应的电子书;并将识别出的电子书确定为已更新的电子书。
其中,电子书模式信息库是预先设置的,在电子书模式信息库中,针对每个电子书相关站点,存储有该站点的Pattern、Pattern各自的公共部分位置,以及该站点当前包含的所有电子书的ID(Identity,身份标识码)。关于如何设置电子书模式信息库,将在后续详细介绍。
本发明实施例中,通过步骤S101确定出新增的URL的Pattern之后,可以从预设的电子书模式信息库中查找出新增的URL的Pattern所对应的公共部分位置。具体地,可以将新增的URL的Pattern与电子书模式信息库中存储的该站点的Pattern进行比对,从中查找到与新增的URL的Pattern一致的Pattern,并将电子书模式信息库中与查找到的Pattern对应存储的公共部分位置作为新增的URL的Pattern所对应的公共部分位置。
继而,将新增的URL中处于查找出的公共部分位置的内容提取为该URL的ID。并将电子书模式信息库中与新增的URL的ID对应的电子书识别为该URL所对应的电子书。由于该URL是站点内新增的,且该URL具有与识别出的电子书的章节列表页的URL具有相同的Pattern和ID,因此,可以确定该URL是识别出的电子书的更新章节页;同时,可以将识别出的电子书确定为已更新的电子书。
S103:在新增的URL所属站点内对已更新的电子书的章节列表页发起调度,从中抓取已更新的电子书的所有更新章节。
实际应用中,当电子书的章节已发生更新时,除了可以针对每个更新章节,在站点新增对应的章节内容页,还可以在该电子书的章节列表页进行更新,将新增的章节内容页的链接添加到章节列表页中。
因此,本发明实施例中,通过步骤S101-S102确定出已更新的电子书之后,可以在新增的URL所属站点内对已更新的电子书的章节列表页发起调度,从章节列表页中确定出新增的章节内容页的链接,从而抓取已更新的电子书的所有更新章节。
本发明的方案中,从新增的章节内容页反向确定出已更新的电子书,继而确定出更新的章节列表页。相比现有通过不断抓取章节列表页来确定更新的章节列表页,本发明的方案可以及时识别出已更新的电子书,从而保障了已更新电子书的更新章节的时效性,且大大减少了抓取操作,提高了更新章节的抓取效率。
本发明实施例中,关于步骤S101提及的电子书相关站点内新增的URL,可以通过如下方法来识别:
按照预设的调度周期,获取电子书相关站点的活性索引页;针对活性索引页中的每个URL,查询该URL是否属于现有链接库;若否,则将该URL识别为新增的URL。
其中,现有链接库中存储有本次调度之前电子书相关站点包含的所有URL。实际应用中,现有链接库可以采用布隆过滤器BloomFilter算法存储电子书相关站点包含的所有URL。
这样,针对活性索引页中的每个URL,可以通过BloomFilter算法查询该URL是否属于现有链接库。
本发明实施例中,关于步骤S102所提及的电子书模式信息库,可以通过如下方法来设置:
对于每个电子书相关站点,预先收集该站点当前包含的所有电子书。根据该站点的URLPattern词典,确定电子书的各章节内容页的URL的Pattern,并由此统计出电子书所涉及的Pattern。事实上,站点的URLPattern词典中包含了该电子书所涉及的所有Pattern。之后,针对每本电子书,提取出该电子书的各章节内容页的URL的Pattern之间的公共部分,并将各章节内容页的URL的Pattern之间的公共部分作为该电子书在该站点的ID。之后,针对电子书所涉及的每个Pattern,确定出电子书的ID在该Pattern中所处的位置,并作为该Pattern的公共部分位置。
根据电子书所涉及的Pattern、Pattern的公共部分位置、电子书在站点的ID,建立倒排索引后存储于电子书模式信息库中。图2示出了一种电子书模式信息库的存储结构。
实际应用中,不同的电子书具有不同的身份标识码。因此,如图2所示,针对站点的每个Pattern,不同的电子书在该Pattern的公共部分位置上的内容不同。例如,电子书1在Pattern1的公共部分位置上的内容为ID1;而电子书2在Pattern1的公共部分位置上的内容为ID2。
实际应用中,电子书在站点内可具有唯一的代码或多种代码。电子书的代码可以是由一组数字组成的数字代码(比如,3615564),或者也可以是由字母与数字组成的组合代码(比如,dQv0z50b27Q1)。
在电子书在站点内具有唯一的代码的情况下,针对每个电子书,该电子书在不同的Pattern的公共部分位置上的ID相同。
而在电子书在站点内具有多种代码的情况下,该电子书在不同的Pattern的公共部分位置上的ID可以不同。比如,在模式1下,电子书的ID可以是数字代码;而在模式2下,电子书的ID为组合代码。
实际应用中,在站点内新增电子书的情况下,可以获取该新增电子书当前包含的章节内容页的URL;根据该站点的URLPattern词典,确定新增的电子书的各章节内容页的URL的Pattern,并由此统计出该新增的电子书所涉及的Pattern。
继而,提取出新增的电子书的各章节内容页的URL的Pattern之间的公共部分,并将各章节内容页的URL的Pattern之间的公共部分作为新增的电子书在该站点的ID。针对电子书所涉及的每个Pattern,确定出电子书的ID在该Pattern中所处的位置,并作为该Pattern的公共部分位置。之后,将新增的电子书、电子书在所涉及的各个Pattern的公共部分位置所对应的ID,添加到电子书模式信息库中。
基于上述电子书更新章节的调度方法,本发明还提供了一种电子书更新章节的调度装置,如图3a所示,该装置包括:URL模式确定模块301、更新电子书识别模块302、以及更新章节调度模块303。
其中,URL模式确定模块301用于针对电子书相关站点内新增的URL,根据该新增的URL所属站点的URLPattern词典,确定出该新增的URL的Pattern。
更新电子书识别模块302用于根据新增的URL的Pattern,从预设的电子书模式信息库中反向识别出该URL所对应的电子书;并将识别出的电子书确定为已更新的电子书。
具体地,更新电子书识别模块302可以从预设的电子书模式信息库中查找出新增的URL的Pattern所对应的公共部分位置;将新增的URL中处于查找出的公共部分位置的内容提取为该URL的ID。继而,更新电子书识别模块303可以将电子书模式信息库中与提取的ID对应的电子书识别为URL所对应的电子书。
更新章节调度模块303用于针对更新电子书识别模块302识别出的已更新的电子书,在新增的URL所属站点内对该电子书的章节列表发起调度,从中抓取该电子书的所有更新章节。
进一步地,本发明实施例中,如图3b所示,本发明提供的电子书更新章节的调度装置除了包括:URL模式确定模块301、更新电子书识别模块302、更新章节调度模块303,还可以包括:新增URL识别模块304。
新增URL识别模块304用于按照预设的调度周期,获取电子书相关站点的活性索引页;针对活性索引页中的每个URL,查询该URL是否属于现有链接库;若否,则将该URL识别为新增的URL。
其中,现有链接库中存储有本次调度之前电子书相关站点包含的所有URL。
进一步地,电子书更新章节的调度装置还可以包括:URL存储模块305。URL存储模块305用于采用BloomFilter算法将电子书相关站点当前包含的所有URL存储于现有链接库。
相应地,新增URL识别模块301可以按照预设的调度周期,获取电子书相关站点的活性索引页;针对活性索引页中的每个URL,通过BloomFilter算法查询该URL是否属于现有链接库;若否,则将该URL识别为新增的URL。
更优地,如图3b所示,本发明提供的电子书更新章节的调度装置中还可以进一步包括:URLPattern词典构建模块306。
URLPattern词典构建模块306用于对于每个电子书相关站点,预先收集属于该站点的设定数量的URL;根据URL的片段结构,将收集的URL进行分组;其中,同一分组内的URL共有同一种片段结构;针对每个分组,将该分组内的URL所共有的片段结构识别为该站点的一个Pattern;将识别出的该站点的各个Pattern,添加到该站点的URLPattern词典中。
更优地,如图3b所示,本发明提供的电子书更新章节的调度装置还可以进一步包括:电子书模式信息库设置模块307。
电子书模式信息库设置模块307用于对于每个电子书相关站点,预先收集该站点当前包含的所有电子书;根据该站点的URLPattern词典,确定电子书的各章节内容页的URL的Pattern,并由此统计出电子书所涉及的Pattern;将各章节内容页的URL的Pattern之间的公共部分作为电子书在该站点的ID;针对电子书所涉及的每个Pattern,确定出ID在该Pattern中所处的位置,并作为该Pattern的公共部分位置;根据电子书所涉及的Pattern、Pattern的公共部分位置、电子书在站点的ID,建立倒排索引后存储于电子书模式信息库中。
本发明的技术方案中,可以预先识别出电子书相关站点内新增的URL;之后,根据新增的URL的Pattern,识别出该URL所对应的电子书为已更新的电子书,通过已更新的电子书的章节列表页来抓取所有的更新章节。这样,相比现有通过不断抓取章节列表页来确定更新的章节列表页,本发明通过新增的章节内容页反向确定已更新的电子书,继而确定出更新的章节列表页;并基于更新的章节列表页抓取出所有的更新章节。本发明的方案中无需对电子书的章节列表页进行频繁的抓取操作,就可以及时识别出已更新的电子书,保障了已更新电子书的更新章节的时效性,且大大减少了抓取操作,提高了更新章节的抓取效率。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-OnlyMemory,只读存储器)、RAM(RandomAccessMemory,随即存储器)、EPROM(ErasableProgrammableRead-OnlyMemory,可擦写可编程只读存储器)、EEPROM(ElectricallyErasableProgrammableRead-OnlyMemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种电子书更新章节的调度方法,其特征在于,包括:
针对电子书相关站点内新增的统一资源定位符URL,根据所述URL所属站点的URL模式Pattern词典,确定出所述URL的Pattern;
根据所述URL的Pattern,从预设的电子书模式信息库中反向识别出所述URL所对应的电子书;并将识别出的电子书确定为已更新的电子书;
在所述URL所属站点内对已更新的电子书的章节列表页发起调度,从中抓取已更新的电子书的所有更新章节。
2.如权利要求1所述的方法,其特征在于,站点的URLPattern词典通过如下方法预先建立:
对于每个电子书相关站点,预先收集属于该站点的设定数量的URL;
根据URL的片段结构,将收集的URL进行分组;其中,同一分组内的URL共有同一种片段结构;
针对每个分组,将该分组内的URL所共有的片段结构识别为该站点的一个Pattern;
将识别出的该站点的各个Pattern,添加到该站点的URLPattern词典中。
3.如权利要求2所述的方法,其特征在于,电子书模式信息库通过如下方法预先设置:
对于每个电子书相关站点,预先收集该站点当前包含的所有电子书;
根据该站点的URLPattern词典,确定电子书的各章节内容页的URL的Pattern,并由此统计出电子书所涉及的Pattern;
将各章节内容页的URL的Pattern之间的公共部分作为电子书在该站点的ID;
针对电子书所涉及的每个Pattern,确定出所述ID在该Pattern中所处的位置,并作为该Pattern的公共部分位置;
根据电子书所涉及的Pattern、Pattern的公共部分位置、电子书在站点的ID,建立倒排索引后存储于所述电子书模式信息库中。
4.如权利要求3所述的方法,其特征在于,所述根据所述URL的Pattern,从预设的电子书模式信息库中反向识别出所述URL所对应的电子书,具体包括:
从预设的电子书模式信息库中查找出所述URL的Pattern所对应的公共部分位置;
将所述URL中处于所述公共部分位置的内容提取为所述URL的身份标识码ID;
将所述电子书模式信息库中与所述ID对应的电子书识别为所述URL所对应的电子书。
5.如权利要求1-4任一所述的方法,其特征在于,电子书相关站点内新增的URL是预先识别出的:
按照预设的调度周期,获取电子书相关站点的活性索引页;
针对所述活性索引页中的每个URL,查询该URL是否属于现有链接库;若否,则将该URL识别为新增的URL;
其中,所述现有链接库中存储有本次调度之前电子书相关站点包含的所有URL。
6.一种电子书更新章节的调度装置,其特征在于,包括:
URL模式确定模块,用于针对电子书相关站点内新增的URL,根据所述URL所属站点的URLPattern词典,确定出所述URL的Pattern;
更新电子书识别模块,用于根据所述URL的Pattern,从预设的电子书模式信息库中反向识别出所述URL所对应的电子书;并将识别出的电子书确定为已更新的电子书;
更新章节调度模块,用于针对所述更新电子书识别模块识别出的已更新的电子书,在所述URL所属站点内对该电子书的章节列表发起调度,从中抓取该电子书的所有更新章节。
7.如权利要求6所述的装置,其特征在于,还包括:
URLPattern词典构建模块,用于对于每个电子书相关站点,预先收集属于该站点的设定数量的URL;根据URL的片段结构,将收集的URL进行分组;其中,同一分组内的URL共有同一种片段结构;针对每个分组,将该分组内的URL所共有的片段结构识别为该站点的一个Pattern;将识别出的该站点的各个Pattern,添加到该站点的URLPattern词典中。
8.如权利要求7所述的装置,其特征在于,还包括:
电子书模式信息库设置模块,用于对于每个电子书相关站点,预先收集该站点当前包含的所有电子书;根据该站点的URLPattern词典,确定电子书的各章节内容页的URL的Pattern,并由此统计出电子书所涉及的Pattern;将各章节内容页的URL的Pattern之间的公共部分作为电子书在该站点的ID;针对电子书所涉及的每个Pattern,确定出所述ID在该Pattern中所处的位置,并作为该Pattern的公共部分位置;根据电子书所涉及的Pattern、Pattern的公共部分位置、电子书在站点的ID,建立倒排索引后存储于所述电子书模式信息库中。
9.如权利要求8所述的装置,其特征在于,
所述更新电子书识别模块具体用于从预设的电子书模式信息库中查找出所述URL的Pattern所对应的公共部分位置;将所述URL中处于所述公共部分位置的内容提取为所述URL的ID;将所述电子书模式信息库中与所述ID对应的电子书识别为所述URL所对应的电子书。
10.如权利要求6-9任一所述的装置,其特征在于,还包括:
新增URL识别模块,用于按照预设的调度周期,获取电子书相关站点的活性索引页;针对所述活性索引页中的每个URL,查询该URL是否属于现有链接库;若否,则将该URL识别为新增的URL;
其中,所述现有链接库中存储有本次调度之前电子书相关站点包含的所有URL。
CN201510977669.0A 2015-12-23 2015-12-23 电子书更新章节的调度方法和装置 Active CN105630942B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510977669.0A CN105630942B (zh) 2015-12-23 2015-12-23 电子书更新章节的调度方法和装置
PCT/CN2016/085545 WO2017107403A1 (zh) 2015-12-23 2016-06-13 电子书更新章节的调度方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510977669.0A CN105630942B (zh) 2015-12-23 2015-12-23 电子书更新章节的调度方法和装置

Publications (2)

Publication Number Publication Date
CN105630942A true CN105630942A (zh) 2016-06-01
CN105630942B CN105630942B (zh) 2019-05-21

Family

ID=56045875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510977669.0A Active CN105630942B (zh) 2015-12-23 2015-12-23 电子书更新章节的调度方法和装置

Country Status (2)

Country Link
CN (1) CN105630942B (zh)
WO (1) WO2017107403A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107403A1 (zh) * 2015-12-23 2017-06-29 北京奇虎科技有限公司 电子书更新章节的调度方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177522B (zh) * 2018-11-09 2023-08-18 百度在线网络技术(北京)有限公司 页面聚合方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853300A (zh) * 2010-05-26 2010-10-06 中国科学技术大学 一种视频下载服务网站的识别、评估方法及系统
CN103049451A (zh) * 2011-10-14 2013-04-17 腾讯科技(深圳)有限公司 网络内容更新的跟踪方法和装置
CN103295426A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 处理电子书的方法、设备及系统
CN103823879A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向在线百科的知识库自动更新方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622383B (zh) * 2011-03-14 2017-05-10 小米科技有限责任公司 一种读取网络章回文件的方法
CN103164435B (zh) * 2011-12-13 2016-03-09 北大方正集团有限公司 一种网络数据的采集方法和系统
CN103123640A (zh) * 2012-02-22 2013-05-29 深圳市谷古科技有限公司 一种小说的搜索方法和装置
CN104361005B (zh) * 2014-10-11 2017-10-31 北京中搜网络技术股份有限公司 一种垂直搜索引擎中对信息单元的调度方法
CN105630942B (zh) * 2015-12-23 2019-05-21 北京奇虎科技有限公司 电子书更新章节的调度方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853300A (zh) * 2010-05-26 2010-10-06 中国科学技术大学 一种视频下载服务网站的识别、评估方法及系统
CN103049451A (zh) * 2011-10-14 2013-04-17 腾讯科技(深圳)有限公司 网络内容更新的跟踪方法和装置
CN103295426A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 处理电子书的方法、设备及系统
CN103823879A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向在线百科的知识库自动更新方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107403A1 (zh) * 2015-12-23 2017-06-29 北京奇虎科技有限公司 电子书更新章节的调度方法和装置

Also Published As

Publication number Publication date
WO2017107403A1 (zh) 2017-06-29
CN105630942B (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN101514898B (zh) 移动终端、显示兴趣点的方法及系统
CN101996195A (zh) 音频文件中语音信息的搜索方法、装置及设备
CN104808892A (zh) 一种应用图标排序方法、装置、系统及相关设备
CN103077171B (zh) 一种添加快速链接的方法及终端
CN102483748A (zh) 用于地图搜索的查询解析
CN104166683B (zh) 一种数据挖掘方法
CN104881717A (zh) 一种路线推荐方法及用户终端
CN102033947A (zh) 一种基于检索词的地域识别装置及方法
CN102968494A (zh) 通过微博采集交通信息的系统及方法
CN105373604A (zh) 书籍库中相似书的挖掘、净化方法和装置
CN105302778A (zh) 文章章节生成方法、系统和电子书阅读器
CN103631769A (zh) 一种判断文件内容与标题间一致性的方法及装置
CN103677931B (zh) 一种软件搬家的方法及装置
CN105630942A (zh) 电子书更新章节的调度方法和装置
CN103218452A (zh) 一种识别Hub页中有效链接的方法和装置
CN103123640A (zh) 一种小说的搜索方法和装置
CN109241031B (zh) 模型生成方法、模型使用方法、装置、系统及存储介质
Sasaki Analysis of the attitude within asia-pacific countries towards disaster risk reduction: Text mining of the official statements of 2018 Asian ministerial conference on disaster risk reduction
CN103218390A (zh) 一种站点资源管理方法及装置
CN104346151B (zh) 一种信息处理方法及电子设备
CN204790999U (zh) 一种工业大数据收集和处理系统
CN105608206A (zh) 一种面向数据广播的位置相关skyline查询处理方法
CN107301177A (zh) 一种文件存储方法及装置
CN102446186A (zh) 中文地理编码及解码方法和装置
CN102096693A (zh) 文档变更追踪系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220725

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.