CN103123640A - 一种小说的搜索方法和装置 - Google Patents

一种小说的搜索方法和装置 Download PDF

Info

Publication number
CN103123640A
CN103123640A CN2012100412464A CN201210041246A CN103123640A CN 103123640 A CN103123640 A CN 103123640A CN 2012100412464 A CN2012100412464 A CN 2012100412464A CN 201210041246 A CN201210041246 A CN 201210041246A CN 103123640 A CN103123640 A CN 103123640A
Authority
CN
China
Prior art keywords
novel
url
web page
page contents
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100412464A
Other languages
English (en)
Inventor
黄炯炫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN GUGU TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN GUGU TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN GUGU TECHNOLOGY Co Ltd filed Critical SHENZHEN GUGU TECHNOLOGY Co Ltd
Priority to CN2012100412464A priority Critical patent/CN103123640A/zh
Publication of CN103123640A publication Critical patent/CN103123640A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种小说的搜索方法,包括:S1.抓取至少一个小说目标网站的多个网站信息并保存,所述的网站信息包括统一资源定位符URL;S2.判断所述的统一资源定位符URL是否符合预设的规则,S3.解析所述的URL网页内容,获得多个解析网页信息,所述的网页信息包括小说的下载地址,并保存于下载地址库中;S4.获取用户输入的小说搜索关键字,从所述的下载地址库中找到对应的统一资源定位符URL的小说网站,呈现给用户。本发明还公开了一种小说搜索装置。实施本发明的一种小说的搜索方法和装置将多个小说目标网站进行汇合,提高用户搜索的效率,搜索更加具备人性化,提高用户体验。

Description

一种小说的搜索方法和装置
技术领域
本发明涉及网络搜索领域,具体涉及一种小说搜索方法和装置。
背景技术
随着计算机技术的不断发展,尤其是随着互联网的普及使人们可以突破空间地域的限制,方便地共享信息资源。www是互联网上提供最主要、应用最广泛的一种信息服务。互联网上信息的日益庞大、垃圾信息、广告信息等越来越多,以及搜索用户的日益增长,想要从海量的数据中发掘出有价值的信息越来越复杂,而大到全世界,小到每个企业、商家,甚至是一个家庭和个人来说,信息是人们工作与生活关系最为密切的重要因素。虽然这些年来搜索引擎的技术是越来越先进,可是在互联网上的信息搜索不论成功与否仍然存在一个很大的问题。使用过搜索引擎的人都有过这样的感受:有的时候会搜不到你想要的结果,相反的,有的时候竟会搜索出上百万条不需要的结果。而实际上,第二种结果是最令人头疼也是最难以处理的。如果想从这百万条搜索结果中找到自己真正需要的信息,就如同是大海捞针。
近年来互联网上的小说门户网站已经是五花八门,多不胜数,如何将这些网站的小说信息有效的汇总起来,然后提供给用户便利的搜索,成为了一个新的需求。
发明内容
为了解决以上的技术问题,本发明提供一种小说的搜索方法和装置。
本发明公开了一种小说的搜索方法,包括:
S1.抓取至少一个小说目标网站的多个网站信息并保存,所述的网站信息包括统一资源定位符URL;
S2.判断所述的统一资源定位符URL是否符合预设的规则,若是,进入步骤S3,若否,进入步骤S21,丢弃所述的统一资源定位符URL;
S3.解析所述的URL网页内容,获得多个解析网页信息,所述的网页信息包括小说的下载地址,并保存于下载地址库中;
S4.获取用户输入的小说搜索关键字,从所述的下载地址库中找到对应的统一资源定位符URL的小说网站,呈现给用户。
在本发明所述的小说的搜索方法中,在步骤S2及步骤S3间还包括步骤S22,判断所述的URL网页内容是否被解析过,若否,进入步骤S3,若是,进入步骤S221,丢弃所述的URL网页内容。
在本发明所述的小说的搜索方法中,在步骤S3及步骤S4间还包括步骤S31,判断所述的URL网页内容是否已经存在,若是,进入步骤S311,更新原有的URL网页内容并进入步骤S4,若否,进入步骤S312,保存所述的URL网页内容并进入步骤S4。
在本发明所述的小说的搜索方法中,所述的URL网页内容包括:小说的名字、作者、状态、类别、字数、小说的下载地址、小说的目录页、小说章节。
在本发明所述的小说的搜索方法中,步骤S1前还包括步骤S0,创建具有多个规则的URL规则库。
本发明公开了一种小说的搜索装置,用于实现上述的方法,包括:
小说目标网站抓取单元,用于抓取至少一个小说目标网站的多个网站信息并保存,所述的网站信息包括统一资源定位符URL;
链接判断单元:与所述的小说目标网站抓取单元相连,用于判断所述的统一资源定位符URL是否符合预设的规则;
网页内容解析单元:与所述的链接判断单元相连,用于解析所述的URL网页内容,获得多个解析网页信息,所述的网页信息包括小说的下载地址,并保存于下载地址库中;
小说搜索单元,与所述的网页内容解析单元相连,用于获取用户输入的小说搜索关键字,从所述的下载地址库中找到对应的统一资源定位符URL的小说网站,呈现给用户。
在本发明所述的小说的搜索装置中,还包括过滤单元,连接于所述的链接判断单元及网页内容解析单元相连,用于判断所述的URL网页内容是否被解析过。
在本发明所述的小说的搜索装置中,还包括更新判断单元,连接于所述的网页内容解析单元和小说搜索单元之间,判断所述的URL网页内容是否已经存在。
在本发明所述的小说的搜索装置中,所述的URL网页内容包括:小说的名字、作者、状态、类别、字数、小说的下载地址、小说的目录页、小说章节。
在本发明所述的小说的搜索装置中,还包括URL规则库建立单元,与所述的小说目标网站抓取单元相连,用于创建具有多个规则的URL规则库。
实施本发明的一种社交搜索方法和装置,具有以下有益的技术效果:
将多个小说目标网站进行汇合,提高用户搜索的效率,搜索更加具备人性化,提高用户体验。
附图说明
图1是本发明实施例一种社交搜索方法流程图;
图2是本发明实施例一种社交搜索装置方框图;
图3为本发明实施例社交搜索系统结构图。
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。
请参阅图1,一种社交搜索方法,包括:
S0,创建具有多个规则的URL规则库;
针对每一个目标网站,创建有效信息URL规则库。
S1.抓取至少一个小说目标网站的多个网站信息并保存,所述的网站信息包括统一资源定位符URL;
针对每一个目标网站,将目标小说网站的首页,目录页,列表页的URL作为入口地址,添加到入口地址库中。
从入口地址库取出入口地址的URL,抓取网页内容,提取网页中包含的统一资源定位符URL。
S2.判断所述的统一资源定位符URL是否符合预设的规则,若是,进入步骤S3,若否,进入步骤S21,丢弃所述的统一资源定位符URL;
将网页中包含的URL,通过有效信息URL规则库过滤,只保留符合规则的URL,将之存储在爬虫任务池中,待后续进行下一步操作。
S22,判断所述的URL网页内容是否被解析过,若否,进入步骤S3,若是,进入步骤S221,丢弃所述的URL网页内容。
判断任务池中的URL是否已经被解析采集过,只保留未采集过的URL地址。
S3.解析所述的URL网页内容,获得多个解析网页信息,所述的网页信息包括小说的下载地址,并保存于下载地址库中;
解析URL网页内容,得到小说的名称、封面图、作者、字数、写作状态、类别、简介等信息,将之存储在小说信息总库中。将小说的站点名称以及书名、小说作者,设为一个主题,连同最新章节信息(默认为空)存储在小说站点信息库中。
解析URL网页内容,得到小说的下载地址,按下载的文件格式区分存储在小说下载地址库中,只保存新的下载地址。
S31,判断所述的URL网页内容是否已经存在,若是,进入步骤S311,更新原有的URL网页内容并进入步骤S4,若否,进入步骤S312,保存所述的URL网页内容并进入步骤S4。
解析URL网页内容,从中得到小说的目录页,再解析小说目录页,得出每一个章节的统一资源定位符URL和章节的标题。同时对比小说站点信息库中,针对这个站点,这一本书的最新章节信息,是否相对已经存储的最新章节有更新,如果有更新,将更新的章节标题和URL信息,建入索引系统中,同时更新小说站点信息库中的最新章节信息。
S4.获取用户输入的小说搜索关键字,从所述的下载地址库中找到对应的统一资源定位符URL的小说网站,呈现给用户。
请参阅图2、一种小说的搜索装置,用于实现上述的方法,包括:
URL规则库建立单元5、小说目标网站抓取单元10、链接判断单元20、过滤单元25、网页内容解析单元30、更新判断单元35、小说搜索单元40。
URL规则库建立单元5,与小说目标网站抓取单元10相连,用于创建具有多个规则的URL规则库。
小说目标网站抓取单元10,用于抓取至少一个小说目标网站的多个网站信息并保存,所述的网站信息包括统一资源定位符URL;
链接判断单元20,与小说目标网站抓取单元10相连,用于判断所述的统一资源定位符URL是否符合预设的规则;
过滤单元25,连接于链接判断单元20及网页内容解析单元30相连,用于判断所述的URL网页内容是否被解析过。
网页内容解析单元30,与链接判断单元20相连,用于解析所述的URL网页内容,获得多个解析网页信息,所述的网页信息包括小说的下载地址,并保存于下载地址库中;
更新判断单元35,连接于网页内容解析单元30和小说搜索单元40之间,判断所述的URL网页内容是否已经存在。
小说搜索单元40,与网页内容解析单元30相连,用于获取用户输入的小说搜索关键字,从所述的下载地址库中找到对应的统一资源定位符URL的小说网站,呈现给用户。
进一步地,URL网页内容包括:小说的名字、作者、状态、类别、字数、小说的下载地址、小说的目录页、小说章节。
请参阅图3,一种小说的搜索系统,包括:爬虫模块100、索引模块200、检索模块300、索引数据库400、WEB服务器500,所述的索引模块200包括上述的一种小说的搜索装置。
爬虫模块100:在启动前,在互联网中选定一些小说门户网站,将这些网站的主页,以及各主要板块的URL地址,添加到入口地址库中。并且针对这些网站,编写特定的URL规则表达式(符合规则的Ur1包含小说信息),添加到URL规则库中。
索引模块200,使用HTTP协议下载网页,并解析网页中的链接,将所有链接的URL地址提取出来,提交给URL规则过滤。将所有URL地址,通过相应的URL过则来过滤,不符合正则的直接丢弃掉,符合正则的提交给URL去重,记录了所以已经采集过的URL地址,根据采集的历史记录,判断当前的URL是否已经被采集过,只将未采集过的URL地址添加到任务池(索引数据库400)中。针对不同的网站,编写特定的小说信息解析程式,从网页中提取各种小说相关的信息,存储到全本书信息库、小说站点信息库、以及下载地址库。并将解析出来的章节地址,根据小说站点信息库判断是否有更新,将最新的章节信息提交给索引系统。
索引系统200会24小时不间断的监听爬虫系统,一但有新的章节信息,立刻将新的章节信息添加到小说章节索引中。同时还会定时在指定的时间间隔内根据全本书信息库,重新建立全本书索引,以达到及时更新的目的。
WEB服务器500结合检索系统300,根据用户搜索的关键字,检索出相应的小说信息。
WEB服务500:根据用户搜索的关键字,提交给检索系统300,在全本书信息索引中检索出于关键字匹配的全本书信息,以一本书为单位作为列表在页面中反馈给用户。当用户具体点击某一本书时,以书名和作者名为Key提交给检索系统,得出这本书的所有章节信息,以站点为单位,反馈给用户。
综上所述,本发明通过,下载网页,提取网页中的URL,对每个URL根据规则过滤,去重,可以得到较精确的包含小说信息的URL。再通过定制的小说信息解析程式,将小说信息提交给索引系统汇总。能够高效,快速的将众多小说网站的小说信息汇总在一起,方便用户的查阅,不用一个一个网站的查找,并能在众多网站中,得到每本书的最新章节。
实施本发明的一种社交搜索方法和装置,具有以下有益的技术效果:
将多个小说目标网站进行汇合,提高用户搜索的效率,搜索更加具备人性化,提高用户体验。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护范围之内。

Claims (10)

1.一种小说的搜索方法,其特征在于,包括:
S1.抓取至少一个小说目标网站的多个网站信息并保存,所述的网站信息包括统一资源定位符URL;
S2.判断所述的统一资源定位符URL是否符合预设的规则,若是,进入步骤S3,若否,进入步骤S21,丢弃所述的统一资源定位符URL;
S3.解析所述的URL网页内容,获得多个解析网页信息,所述的网页信息包括小说的下载地址,并保存于下载地址库中;
S4.获取用户输入的小说搜索关键字,从所述的下载地址库中找到对应的统一资源定位符URL的小说网站,呈现给用户。
2.根据权利要求1所述的小说的搜索方法,其特征在于,在步骤S2及步骤S3间还包括步骤S22,判断所述的URL网页内容是否被解析过,若否,进入步骤S3,若是,进入步骤S221,丢弃所述的URL网页内容。
3.根据权利要求1或2任一项所述的小说的搜索方法,其特征在于,在步骤S3及步骤S4间还包括步骤S31,判断所述的URL网页内容是否已经存在,若是,进入步骤S311,更新原有的URL网页内容并进入步骤S4,若否,进入步骤S312,保存所述的URL网页内容并进入步骤S4。
4.根据权利要求1或2任一项所述的小说的搜索方法,其特征在于,所述的URL网页内容包括:小说的名字、作者、状态、类别、字数、小说的下载地址、小说的目录页、小说章节。
5.根据权利要求1或2任一项所述的小说的搜索方法,其特征在于,步骤S1前还包括步骤S0,创建具有多个规则的URL规则库。
6.一种小说的搜索装置,用于实现权利要求1所述的方法,其特征在于,包括:
小说目标网站抓取单元,用于抓取至少一个小说目标网站的多个网站信息并保存,所述的网站信息包括统一资源定位符URL;
链接判断单元:与所述的小说目标网站抓取单元相连,用于判断所述的统一资源定位符URL是否符合预设的规则;
网页内容解析单元:与所述的链接判断单元相连,用于解析所述的URL网页内容,获得多个解析网页信息,所述的网页信息包括小说的下载地址,并保存于下载地址库中;
小说搜索单元,与所述的网页内容解析单元相连,用于获取用户输入的小说搜索关键字,从所述的下载地址库中找到对应的统一资源定位符URL的小说网站,呈现给用户。
7.根据权利要求6所述的小说的搜索装置,其特征在于,还包括过滤单元,连接于所述的链接判断单元及网页内容解析单元相连,用于判断所述的URL网页内容是否被解析过。
8.根据权利要求6或7任一项所述的小说的搜索装置,其特征在于,还包括更新判断单元,连接于所述的网页内容解析单元和小说搜索单元之间,判断所述的URL网页内容是否已经存在。
9.根据权利要求6或7任一项所述的小说的搜索装置,其特征在于,所述的URL网页内容包括:小说的名字、作者、状态、类别、字数、小说的下载地址、小说的目录页、小说章节。
10.根据权利要求6或7任一项所述的小说的搜索装置,其特征在于,还包括URL规则库建立单元,与所述的小说目标网站抓取单元相连,用于创建具有多个规则的URL规则库。
CN2012100412464A 2012-02-22 2012-02-22 一种小说的搜索方法和装置 Pending CN103123640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100412464A CN103123640A (zh) 2012-02-22 2012-02-22 一种小说的搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100412464A CN103123640A (zh) 2012-02-22 2012-02-22 一种小说的搜索方法和装置

Publications (1)

Publication Number Publication Date
CN103123640A true CN103123640A (zh) 2013-05-29

Family

ID=48454618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100412464A Pending CN103123640A (zh) 2012-02-22 2012-02-22 一种小说的搜索方法和装置

Country Status (1)

Country Link
CN (1) CN103123640A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617225A (zh) * 2013-11-25 2014-03-05 北京奇虎科技有限公司 一种关联网页搜索方法和系统
CN104317903A (zh) * 2014-10-24 2015-01-28 北京奇虎科技有限公司 章节式文本的章节完整性的识别方法和装置
CN104484415A (zh) * 2014-12-16 2015-04-01 北京百度网讯科技有限公司 提供电子书的方法及装置
CN105302913A (zh) * 2015-11-12 2016-02-03 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN106547821A (zh) * 2016-09-29 2017-03-29 广东工业大学 一种浏览器内根据关键词搜索相关网页的方法
WO2017107403A1 (zh) * 2015-12-23 2017-06-29 北京奇虎科技有限公司 电子书更新章节的调度方法和装置
CN108920610A (zh) * 2018-06-28 2018-11-30 上海连尚网络科技有限公司 一种小说索引方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060245367A1 (en) * 2003-08-15 2006-11-02 British Telecommunications Public Ltd, Co. System and method for selecting data providers
CN101114285A (zh) * 2006-07-25 2008-01-30 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
CN101158981A (zh) * 2007-11-28 2008-04-09 深圳市迅雷网络技术有限公司 一种对下载资源进行分类的方法、系统和装置
CN101256568A (zh) * 2008-03-18 2008-09-03 深圳市迅雷网络技术有限公司 一种提供多媒体资源的方法、系统及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060245367A1 (en) * 2003-08-15 2006-11-02 British Telecommunications Public Ltd, Co. System and method for selecting data providers
CN101114285A (zh) * 2006-07-25 2008-01-30 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
CN101158981A (zh) * 2007-11-28 2008-04-09 深圳市迅雷网络技术有限公司 一种对下载资源进行分类的方法、系统和装置
CN101256568A (zh) * 2008-03-18 2008-09-03 深圳市迅雷网络技术有限公司 一种提供多媒体资源的方法、系统及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617225A (zh) * 2013-11-25 2014-03-05 北京奇虎科技有限公司 一种关联网页搜索方法和系统
CN103617225B (zh) * 2013-11-25 2019-03-08 北京奇虎科技有限公司 一种关联网页搜索方法和系统
CN104317903A (zh) * 2014-10-24 2015-01-28 北京奇虎科技有限公司 章节式文本的章节完整性的识别方法和装置
CN104317903B (zh) * 2014-10-24 2017-10-13 北京奇虎科技有限公司 章节式文本的章节完整性的识别方法和装置
CN104484415A (zh) * 2014-12-16 2015-04-01 北京百度网讯科技有限公司 提供电子书的方法及装置
CN105302913A (zh) * 2015-11-12 2016-02-03 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN105302913B (zh) * 2015-11-12 2018-09-18 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
WO2017107403A1 (zh) * 2015-12-23 2017-06-29 北京奇虎科技有限公司 电子书更新章节的调度方法和装置
CN106547821A (zh) * 2016-09-29 2017-03-29 广东工业大学 一种浏览器内根据关键词搜索相关网页的方法
CN108920610A (zh) * 2018-06-28 2018-11-30 上海连尚网络科技有限公司 一种小说索引方法及设备
CN108920610B (zh) * 2018-06-28 2021-07-16 上海连尚网络科技有限公司 一种小说索引方法及设备

Similar Documents

Publication Publication Date Title
CN103123640A (zh) 一种小说的搜索方法和装置
EP2321745B1 (en) Providing posts to discussion threads in response to a search query
US9940391B2 (en) System, method and computer readable medium for web crawling
CN1858733B (zh) 信息检索系统和检索方法
CN101399818B (zh) 基于导航路径信息的主题相关网页过滤方法和系统
CN101329687B (zh) 一种新闻网页定位方法
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN106095979B (zh) Url合并处理方法和装置
US20150088846A1 (en) Suggesting keywords for search engine optimization
CN103324669A (zh) 一种对网页书签进行处理的方法和客户端
CN104182482B (zh) 一种新闻列表页判断方法及筛选新闻列表页的方法
CN102521251A (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
CN101782919A (zh) 一种网页表单数据输出方法、装置及表单处理系统
CN101960455A (zh) 用于对搜索结果重新排序的系统、方法和/或设备
CN102663062A (zh) 一种处理搜索结果中无效链接的方法及装置
CN103744856A (zh) 联动性扩展搜索方法及装置、系统
CN102710795A (zh) 热点聚合方法及装置
CN105302876A (zh) 基于正则表达式的url过滤方法
CN102375833A (zh) 记录及搜索网页的方法以及记录浏览网页的方法
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN101133415B (zh) 使用页面集而提供信息搜索服务的服务器、方法和系统
CN102682011A (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN103617225A (zh) 一种关联网页搜索方法和系统
CN103605742A (zh) 识别网络资源实体目录页的方法及装置
US8706705B1 (en) System and method for associating data relating to features of a data entity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130529