CN105893622A - 一种聚合搜索方法及聚合搜索系统 - Google Patents
一种聚合搜索方法及聚合搜索系统 Download PDFInfo
- Publication number
- CN105893622A CN105893622A CN201610283618.2A CN201610283618A CN105893622A CN 105893622 A CN105893622 A CN 105893622A CN 201610283618 A CN201610283618 A CN 201610283618A CN 105893622 A CN105893622 A CN 105893622A
- Authority
- CN
- China
- Prior art keywords
- search
- keyword
- webpage
- crawled
- syndication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种聚合搜索方法及聚合搜索系统,用于根据关键词词库确定搜索关键词对应的搜索主题,并筛除掉不符合预置规则的待爬取网页,使得聚合搜索系统的工作量减小且提高了搜索信息的准确率。本发明实施例方法包括:建立关键词词库;接收用户输入的搜索关键词,根据关键词词库确定搜索主题;根据搜索主题得到待爬取网页;根据预置规则对待爬取网页进行筛选,得到目标网页;使用网络爬虫爬取目标网页,得到爬取结果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种聚合搜索方法及聚合搜索系统。
背景技术
随着网络技术日新月异的发展,互联网俨然已成为信息的最大载体。因此如何在浩瀚如海的信息空间里快速查找并获取自己需要或感兴趣的信息已成为信息时代最根本的问题之一。
目前的搜索引擎大多数是面向全部信息的,可以称之为综合性搜索引擎,网络爬虫应用于综合性搜索引擎,是一个自动提取网页的程序,它为综合性搜索引擎从互联网上爬取网页,其工作原理为:从一个或若干初始网页的统一资源定位器(Uniform Resoure Locator,URL)开始爬取,在爬取网页的过程中,不断从当前网页上抽取新的URL放入队列,直到满足搜索系统的一定停止条件。综合性搜索引擎的搜索方法为:接收用户输入的搜索信息,根据搜索信息使用网络爬虫爬取相关信息的网页,得到爬取结果。
但是,随着信息多元化的发展,这种适用于所有用户的综合性搜索引擎显然已经不能满足特定用户更加深入的查询要求,特殊用户对信息的需求往往是针对某些受限领域和面向特定主题的,综合性搜索引擎的网络爬虫在爬取网页信息时,由于没有确定的搜索主题,使得网络爬虫爬取的覆盖范围将非常广,从而使得网络爬虫的工作量巨大,爬取结果的准确率低;并且爬取结果中会包含无用信息,例如广告等,进一步的降低了爬取结果的准确率。
发明内容
本发明实施例提供了一种聚合搜索方法及聚合搜索系统,用于根据关键词词库确定搜索关键词对应的搜索主题,并筛除掉不符合预置规则的待爬取网页,使得聚合搜索系统的工作量减小且提高了搜索信息的准确率。
本发明第一方面提供一种聚合搜索方法,应用于聚合搜索系统,所述聚合搜索系统包括业务组件及核心组件,所述聚合搜索方法包括:
建立关键词词库;
接收用户输入的搜索关键词,根据所述关键词词库确定搜索主题;
根据所述搜索主题得到待爬取网页;
根据预置规则对所述待爬取网页进行筛选,得到目标网页;
使用网络爬虫爬取所述目标网页,得到爬取结果。
结合本发明第一方面,本发明第一方面第一实施方式中,所述建立关键词词库包括:
获取预设关键词;
确定所述预设关键词的预设主题,并根据所述预设关键词和所述预设主题生成主题索引表,根据所述主题索引表生成关键词词库。
结合本发明第一方面第一实施方式,本发明第一方面第二实施方式中,所述接收用户输入的搜索关键词,根据所述关键词词库确定搜索主题,包括:
接收用户输入的搜索关键词;
根据所述搜索关键词从所述关键词词库中提取出主题索引表,根据所述搜索关键词和所述主题索引表确定搜索主题。
结合本发明第一方面第二实施方式,本发明第一方面第三实施方式中,所述接收用户输入的搜索关键词之后及所述根据所述关键词词库确定搜索主题之前,还包括:
根据预先设置的关键词数据库表设置关键词配置信息;
或,
在关键词配置界面设置关键词配置信息,所述关键词配置信息包含关键词关系表、关键词过滤表及关键词采集频率。
结合本发明第一方面第三实施方式,本发明第一方面第四实施方式中,所述接收用户输入的搜索关键词之前,还包括:
建立聚合网址库,所述聚合网址库包含至少一个网址源;
建立帐号资源库,所述帐号资源库包含至少一个网页的登录帐号;
设置网页访问优先级。
结合本发明第一方面第四实施方式,本发明第一方面第五实施方式中,所述根据所述搜索主题得到待爬取网页包括:
根据所述关键词配置信息确定搜索频率;
根据所述聚合网址库确定搜索范围;
根据所述搜索主题、所述搜索频率及所述搜索范围搜索得到待爬取网页。
结合本发明第一方面,本发明第一方面第六实施方式中,所述根据预置规则对所述待爬取网页进行筛选,得到目标网页,包括:
获取所述待爬取网页的网页参数;
根据所述网页参数判断所述待爬取网页是否符合预置规则;
若是,则确定所述待爬取网页是目标网页;
若否,则确定所述待爬取网页不是目标网页。
结合本发明第一方面第六实施方式,本发明第一方面第七实施方式中,所述使用网络爬虫爬取所述目标网页,得到爬取结果,包括:
获取所述目标网页的网页URL;
根据所述网页URL,使用网络爬虫爬取所述目标网页的网页数据,得到爬取结果。
结合本发明第一方面第七实施方式,本发明第一方面第八实施方式中,所述聚合搜索方法还包括:
将所述爬取结果保存至爬取结果数据库中;
获取查询指令,根据所述查询指令从所述数据库中抽取出查询结果;
将所述查询结果保存至查询结果数据库中。
本发明第二方面提供一种聚合搜索系统,包括:
业务组件及核心组件;
所述业务组件,用于建立关键词词库;
所述业务组件,还用于接收用户输入的搜索关键词,根据所述关键词词库确定搜索主题;
所述业务组件,还用于根据所述搜索主题得到待爬取网页;
所述核心组件,用于根据预置规则对所述待爬取网页进行筛选,得到目标网页;
所述核心组件,还用于使用网络爬虫爬取所述目标网页,得到爬取结果。
结合本发明第二方面,本发明第二方面第一实施方式中,所述业务组件包括:获取单元和关键词词库创建单元;
所述获取单元,用于获取预设关键词;
所述关键词词库创建单元,用于确定所述预设关键词的预设主题,并根据所述预设关键词和所述预设主题生成主题索引表,根据所述主题索引表生成关键词词库。
结合本发明第二方面第一实施方式,本发明第二方面第二实施方式中,所述业务组件还包括:接收单元和关键词词库单元;
所述接收单元,用于接收用户输入的搜索关键词;
所述关键词词库单元,用于根据所述搜索关键词从所述关键词词库中提取出主题索引表,根据所述搜索关键词和所述主题索引表确定搜索主题。
结合本发明第二方面第二实施方式,本发明第二方面第三实施方式中,所述业务组件还包括:配置单元;
所述配置单元,用于根据预先设置的关键词数据库表设置关键词配置信息;
或,
所述配置单元,还用于在关键词配置界面设置所述关键词配置信息,所述关键词配置信息包含关键词关系表、关键词过滤表及关键词采集频率。
结合本发明第二方面第三实施方式,本发明第二方面第四实施方式中,所述业务组件还包括:聚合网址库创建单元和帐号资源库创建单元;
所述聚合网址库创建单元,用于建立聚合网址库,所述聚合网址库包含至少一个网址源;
所述帐号资源库创建单元,用于建立帐号资源库,所述帐号资源库包含至少一个网页的登录帐号;
所述配置单元,还用于设置网页访问优先级。
结合本发明第二方面第四实施方式,本发明第二方面第五实施方式中,所述业务组件还包括:搜索单元;
所述搜索单元,用于根据所述关键词配置信息确定搜索频率;
所述搜索单元,还用于根据所述聚合网址库确定搜索范围;
所述搜索单元,还用于根据所述搜索主题、所述搜索频率及所述搜索范围搜索得到待爬取网页。
结合本发明第二方面,本发明第二方面第六实施方式中,所述核心组件包括:添加队列接口及网页筛选单元;
所述添加队列接口,用于获取所述待爬取网页的网页参数;
所述网页筛选单元,用于根据所述网页参数判断所述待爬取网页是否符合预置规则;
所述网页筛选单元,还用于当所述网页参数符合预置规则时,确定所述待爬取网页是目标网页;
所述网页筛选单元,还用于当所述网页参数不符合预置规则时,确定所述待爬取网页不是目标网页。
结合本发明第二方面第六实施方式,本发明第二方面第七实施方式中,所述核心组件还包括:获取下载任务接口;
所述获取下载任务接口,用于获取所述目标网页的网页URL;
所述获取下载任务接口,还用于根据所述网页URL,使用网络爬虫爬取所述目标网页的网页数据,得到爬取结果。
结合本发明第二方面第七实施方式,本发明第二方面第八实施方式中,所述核心组件还包括:保存下载任务接口、获取抽取任务接口及保存抽取任务接口;
所述保存下载任务接口,用于将所述爬取结果保存至爬取结果数据库中;
所述获取抽取任务接口,用于获取查询指令,根据所述查询指令从所述数据库中抽取出查询结果;
所述保存抽取任务接口,用于将所述查询结果保存至查询结果数据库中。
综上所述,本发明实施例具有以下优点:
根据关键词词库可以确定搜索关键词所对应的搜索主题,与现有技术中没有确定的搜索主题相比,可以减少得到待爬取网页的数量,使得网络爬虫的工作量减小,并且提高了爬取结果的准确率;筛除掉不符合预置规则的待爬取网页,可以进一步减少网络爬虫的工作量,因此提高了聚合搜索系统的搜索信息准确率,同时降低了聚合搜索系统的工作量。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中聚合搜索系统的系统示意图;
图2为本发明实施例中聚合搜索方法一个实施例的流程示意图;
图3为本发明实施例中判断待爬取网页是否符合预置规则的流程示意图;
图4为本发明实施例中聚合搜索系统的一个实施例的结构示意图;
图5为本发明实施例中聚合搜索系统的另一个实施例的结构示意图。
具体实施方式
本发明实施例提供了一种聚合搜索方法及聚合搜索系统,用于根据关键词词库确定搜索关键词对应的搜索主题,并筛除掉不符合预置规则的待爬取网页,使得聚合搜索系统的工作量减小且提高了搜索信息的准确率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明中,聚合搜索系统按组件化进行设计,如图1所示,分为核心组件及业务组件,业务组件是面向用户的,例如关键词组件可以用于接收用户输入的搜索关键词,核心组件具有外部服务接口,外部服务接口可以是多个,并且可以定义功能,业务组件通过调用外部服务接口与核心组件建立组件连接,然后核心组件执行外部服务接口对应的功能。
下面通过具体实施例,对应用于聚合搜索系统的聚合搜索方法进行详细说明。
请参阅图2,本发明实施例提供一种聚合搜索方法,应用于聚合搜索系统,聚合搜索系统包括业务组件及核心组件,聚合搜索方法包括:
201、建立关键词词库;
本实施例中,在聚合搜索系统运行之前,需要先建立关键词词库,关键词词库的作用是可以根据搜索关键词确定搜索主题。
202、接收用户输入的搜索关键词,根据关键词词库确定搜索主题;
本实施例中,当用户需要获得特定信息时,在关键词输入界面输入搜索关键词,例如,用户想要搜索关于物理分子方面的信息,在关键词输入界面输入“原子、分子和中子”,接收用户输入的搜索关键词,在得到搜索关键词之后,根据关键词词库和搜索关键词确定搜索主题。
203、根据搜索主题得到待爬取网页;
本实施例中,根据搜索关键词确定了要搜索的搜索主题后,通过搜索引擎按照搜索主题在互联网中获得待爬取网页。
204、根据预置规则对待爬取网页进行筛选,得到目标网页;
本实施例中,搜索引擎获得的待爬取网页虽然符合搜索主题,但待爬取网页中的信息依然可能会存在对用户无用的信息,比如广告信息,因此,预先设置一套预置规则,对待爬取网页进行筛选,将不符合预置规则要求的待爬取网页过滤掉,符合预置规则的待爬取网页留下来,作为目标网页。
205、使用网络爬虫爬取目标网页,得到爬取结果。
本实施例中,确定了目标网页后,聚合搜索系统从爬虫数据库中选择出网络爬虫,使用网络爬虫爬取目标网页,得到爬取结果。
本发明实施例中,根据关键词词库可以确定搜索关键词所对应的搜索主题,与现有技术中没有确定的搜索主题相比,可以减少得到待爬取网页的数量,使得网络爬虫的工作量减小,并且提高了爬取结果的准确率;筛除掉不符合预置规则的待爬取网页,可以进一步减少网络爬虫的工作量,因此提高了聚合搜索系统的搜索信息准确率,同时降低了聚合搜索系统的工作量。
可选的,本发明的一些实施例中,建立关键词词库包括:
获取预设关键词;
确定预设关键词的预设主题,并根据预设关键词和预设主题生成主题索引表,根据主题索引表生成关键词词库。
本实施例中,聚合搜索系统在建立关键词词库时,可以通过网络导入或者用户输入的方式获取预设关键词,预设主题可以是根据解析预设关键词的词义得到的,还可以是通过其他方式获得的,具体方式不做限定,在得到预设关键词的预设主题后,根据预设关键词和预设主题生成主题索引表,根据主题索引表生成关键词词库。
可选的,本发明的一些实施例中,接收用户输入的搜索关键词,根据关键词词库确定搜索主题,包括:
接收用户输入的搜索关键词;
根据搜索关键词从关键词词库中提取出主题索引表,根据搜索关键词和主题索引表确定搜索主题。
本实施例中,接收到用户输入的搜索关键词,根据关键词提取出关键词词库中的主题索引表,如果搜索关键词与预设关键词是一致的或者是语义相近的,则通过主题索引表可以得到搜索主题,需要说明的是,如果不一致,不确定搜索主题,则不进行后续的操作。
可选的,本发明的一些实施例中,接收用户输入的搜索关键词之后及根据关键词词库确定搜索主题之前,还包括:
根据预先设置的关键词数据库表设置关键词配置信息;
或,
在关键词配置界面设置关键词配置信息,关键词配置信息包含关键词关系表、关键词过滤表及关键词采集频率。
本实施例中,关键词配置信息可以是用户在关键词配置界面进行设置,也可以是根据根据预先设置的关键词数据库表设置的,关键词数据库表如表1所示。表1包含关键词关系表及关键词采集频率,关键词过滤表未体现在表1中。
表1
可选的,本发明的一些实施例中,接收用户输入的搜索关键词之前,还包括:
建立聚合网址库,聚合网址库包含至少一个网址源;
建立帐号资源库,帐号资源库包含至少一个网页的登录帐号;
设置网页访问优先级。
本实施例中,聚合搜索系统在接收搜索关键词之前,还需要建立聚合网址库、帐号资源库并且设置网页访问优先级,聚合网址库包含至少一个网址源,至少一个网址源用于搜索得到与关键词词库相关的网页,网址源可以是百度知道、360问答或者搜狗问问等具有搜索引擎功能的网址源,帐号资源库包含至少一个网页的登录帐号,用于登录进入后续操作中得到目标网页中,由于聚合搜索一般覆盖范围广,涉及到的网页数量多,因此需要设置网页访问优先级。
可选的,本发明的一些实施例中,根据预置规则对待爬取网页进行筛选,得到目标网页,包括:
获取待爬取网页的网页参数;
根据网页参数判断待爬取网页是否符合预置规则;
若是,则确定待爬取网页是目标网页;
若否,则确定待爬取网页不是目标网页。
本实施例中,得到待爬取网页后获取待爬取网页的网页参数,将待爬取网页及网页参数添加进入待下载任务队列中,根据网页参数判断待爬取网页是否符合预置规则的步骤如图3所示:
301、待下载任务队列中每个队列对象的对象参数中包含一个待爬取网页的相关信息以及队列对象的相关信息,对象参数如表2,
表2
从待爬取网页所对应的队列对象的对象参数中可以得到网页参数,例如,参数“url”。根据网页参数判断待爬取网页是否符合预置规则可以分为如下三步:
302、验证待下载任务队列中队列对象的合法性,检查队列对象是否为空,如果为空,则队列对象对应的待爬取网页不是目标网页,执行步骤306;如果队列对象不为空,继续检查对象参数中每一项必填参数是否值缺失,例如网页参数的参数“url”的正则验证:
^(https|http|ftp|rtsp|mms):\/\/(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))+(\\?\\S*)?$
如果参数“url”正则验证不通过,则确定该队列对象对应的待爬取网页不是目标网页;如果如果参数“url”正则验证通过了,则执行步骤303。
303、将合法性验证通过的队列对象加入待分析任务队列中;
304、对待分析任务队列中队列对象的待爬取网页进行过滤和去重;
过滤步骤为:根据网页参数确定待爬取网页的网页规则,剔除网页规则服务中不满足网页规则的待爬取网页,如互联网中有许多广告链接,爬取广告链接并无益处,为了过滤无用的广告链接,则网页规则服务中必须要识别广告链接或者不满足网页规则的都要过滤掉,例如爬取规则:http://.*chinatax.gov.cn/n810341/.*/index_.*._[1-9].html,此规则爬取此域名下的前9页,包含第9页,则第10,11,..页不符合此规则,则过滤掉;
去重步骤为:根据网页统一资源定位器URL判重复,网络中网页URL具有唯一行,将网页URL进行md5加密,转化成长度为2的字节数组,数组第一和第二位值(都是数字)存储在数据库字段keyHigh,keyLow,并对keyHigh,keyLow建立联合索引,数字建立索引小,占用内存小和查询速度快,比较多个待爬取网页的网页参数的“keyHigh”和“keyLow”,如果多个待爬取网页的网页参数的“keyHigh”和“keyLow”一致,则只留下一个待爬取网页作为目标网页;
如果通过过滤和去重,则执行步骤305,未通过过滤或/和去重的执行步骤306。
305、将目标网页加入处理完成队列中。
306、将待爬取网页删除或移除队列等处理。
307、如果在执行步骤302和步骤304时,队列对象存在无法判断的异常情况时,将队列对象的待爬取网页加入异常任务队列中。
可选的,本发明的一些实施例中,使用网络爬虫爬取目标网页,得到爬取结果,包括:
获取目标网页的网页URL;
根据网页URL,使用网络爬虫爬取目标网页的网页数据,得到爬取结果。
本实施例中,爬虫数据库中包含的网络爬虫的类型有批量型爬虫、增量型爬虫和垂直型爬虫。批量型爬虫有比较明确的爬取范围和目标,当爬虫达到设定的目标后,即停止爬取过程,至于具体目标可能各异,也许是设定爬取一定数量的网页即可,也许是设定爬取消耗的时间等。增量型爬虫与批量型爬虫不同,会保持持续不断的爬取,对于爬取到的网页,要定期更新,因为互联网的网页处于不断变化中,新增网页、网页被删除或者网页内容更改都很常见,而增量型爬虫需要及时反映这种变化,所以处于持续不断的爬取过程中,不是在爬取新网页,就是在更新已有网页。垂直型爬虫关注特定主题内容或者属于特定行业的网页,比如对于健康网站来说,只需要从互联网页而里找到与健康相关的页面内容即可,其他行业的内容不在考虑范围。
一般情况下本方案选择的网络爬虫是垂直型爬虫,但是特殊情况下,也可以选择其他类型的网络爬虫,具体选择视情况而定,不做具体限定。
选择了网络爬虫后,使用网络爬虫根据网页URL爬取目标网页的网页数据,得到爬取结果。
需要说明的是,如果目标网页的设置是需要登录才能获取网页数据,则查询业务组件中的资源账号库,获取资源账号库中目标网页的僵尸账号,通过僵尸账号模拟登录获取网页数据,得到爬取结果。
可选的,本发明的一些实施例中,聚合搜索方法还包括:
将爬取结果保存至爬取结果数据库中;
获取查询指令,根据查询指令从爬取结果数据库中抽取出查询结果;
将查询结果保存至查询结果数据库中。
本实施例中,聚合搜索系统在获得爬取结果后,将爬取结果存储到爬取结果数据库中,爬取结果包含结构化数据(如主题和作者等)和非结构化数据(主要指视频、excel及ppt等资源文件),存储结构化数据的爬取结果数据库为关系型数据库,在获取到用户或者系统发出的的查询指令后,根据查询指令从爬取结果数据库中抽取出满足查询需求的查询结果,将查询结果保存在查询结果数据库中。
上述实施例介绍了聚合搜索方法,下面通过实施例详细介绍本发明中的聚合搜索系统。
请参阅图4,本发明实施例提供一种聚合搜索系统,包括:
业务组件401及核心组件402;
业务组件401,用于建立关键词词库;
业务组件401,还用于接收用户输入的搜索关键词,根据关键词词库确定搜索主题;
业务组件401,还用于根据搜索主题得到待爬取网页;
核心组件402,用于根据预置规则对待爬取网页进行筛选,得到目标网页;
核心组件402,还用于使用网络爬虫爬取目标网页,得到爬取结果。
本发明实施例中,业务组件401根据关键词词库可以确定搜索关键词所对应的搜索主题,与现有技术中没有确定的搜索主题相比,可以减少得到待爬取网页的数量,使得网络爬虫的工作量减小,并且提高了爬取结果的准确率;核心组件402筛除掉不符合预置规则的待爬取网页,可以进一步减少网络爬虫的工作量,因此提高了聚合搜索系统的搜索信息准确率,同时降低了聚合搜索系统的工作量。
可选的,如图5所示,本发明的一些实施例中,业务组件401包括:获取单元501和关键词词库创建单元502;
获取单元501,用于获取预设关键词;
关键词词库创建单元502,用于确定预设关键词的预设主题,并根据预设关键词和预设主题生成主题索引表,根据主题索引表生成关键词词库。
可选的,如图5所示,本发明的一些实施例中,业务组件401还包括:接收单元503和关键词词库单元504;
接收单元503,用于接收用户输入的搜索关键词;
关键词词库单元504,用于根据=搜索关键词从=关键词词库中提取出主题索引表,根据搜索关键词和主题索引表确定搜索主题。
可选的,如图5所示,本发明的一些实施例中,业务组件401还包括:配置单元505;
配置单元505,用于根据预先设置的关键词数据库表设置关键词配置信息;
或,
配置单元505,还用于在关键词配置界面设置关键词配置信息,关键词配置信息包含关键词关系表、关键词过滤表及关键词采集频率。
可选的,如图5所示,本发明的一些实施例中,业务组件401还包括:聚合网址库创建单元506和帐号资源库创建单元507;
聚合网址库创建单元506,用于建立聚合网址库,聚合网址库包含至少一个网址源;
帐号资源库创建单元507,用于建立帐号资源库,帐号资源库包含至少一个网页的登录帐号;
配置单元505,还用于设置网页访问优先级。
可选的,如图5所示,本发明的一些实施例中,业务组件401还包括:搜索单元508;
搜索单元508,用于根据关键词配置信息确定搜索频率;
搜索单元508,还用于根据聚合网址库确定搜索范围;
搜索单元508,还用于根据搜索主题、搜索频率及搜索范围搜索得到待爬取网页。
可选的,如图5所示,本发明的一些实施例中,核心组件402包括:添加队列接口509及网页筛选单元510;
添加队列接口509,用于获取待爬取网页的网页参数;
网页筛选单元510,用于根据网页参数判断待爬取网页是否符合预置规则;
网页筛选单元510,还用于当网页参数符合预置规则时,确定待爬取网页是目标网页;
网页筛选单元510,还用于当网页参数不符合预置规则时,确定待爬取网页不是目标网页。
可选的,如图5所示,本发明的一些实施例中,核心组件402还包括:获取下载任务接口511;
获取下载任务接口511,用于获取目标网页的网页URL;
获取下载任务接口511,还用于根据网页URL,使用网络爬虫爬取目标网页的网页数据,得到爬取结果。
可选的,如图5所示,本发明的一些实施例中,核心组件402还包括:保存下载任务接口512、获取抽取任务接口513及保存抽取任务接口514;
保存下载任务接口512,用于将爬取结果保存至爬取结果数据库中;
获取抽取任务接口513,用于获取查询指令,根据查询指令从爬取结果数据库中抽取出查询结果;
保存抽取任务接口514,用于将查询结果保存至查询结果数据库中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (18)
1.一种聚合搜索方法,其特征在于,应用于聚合搜索系统,所述聚合搜索系统包括业务组件及核心组件,所述聚合搜索方法包括:
建立关键词词库;
接收用户输入的搜索关键词,根据所述关键词词库确定搜索主题;
根据所述搜索主题得到待爬取网页;
根据预置规则对所述待爬取网页进行筛选,得到目标网页;
使用网络爬虫爬取所述目标网页,得到爬取结果。
2.根据权利要求1所述的聚合搜索方法,其特征在于,所述建立关键词词库包括:
获取预设关键词;
确定所述预设关键词的预设主题,并根据所述预设关键词和所述预设主题生成主题索引表,根据所述主题索引表生成关键词词库。
3.根据权利要求2所述的聚合搜索方法,其特征在于,所述接收用户输入的搜索关键词,根据所述关键词词库确定搜索主题,包括:
接收用户输入的搜索关键词;
根据所述搜索关键词从所述关键词词库中提取出主题索引表,根据所述搜索关键词和所述主题索引表确定搜索主题。
4.根据权利要求3所述的聚合搜索方法,其特征在于,所述接收用户输入的搜索关键词之后及所述根据所述关键词词库确定搜索主题之前,还包括:
根据预先设置的关键词数据库表设置关键词配置信息;
或,
在关键词配置界面设置关键词配置信息,所述关键词配置信息包含关键词关系表、关键词过滤表及关键词采集频率。
5.根据权利要求4所述的聚合搜索方法,其特征在于,所述接收用户输入的搜索关键词之前,还包括:
建立聚合网址库,所述聚合网址库包含至少一个网址源;
建立帐号资源库,所述帐号资源库包含至少一个网页的登录帐号;
设置网页访问优先级。
6.根据权利要求5所述的聚合搜索方法,其特征在于,所述根据所述搜索主题得到待爬取网页包括:
根据所述关键词配置信息确定搜索频率;
根据所述聚合网址库确定搜索范围;
根据所述搜索主题、所述搜索频率及所述搜索范围搜索得到待爬取网页。
7.根据权利要求1所述的聚合搜索方法,其特征在于,所述根据预置规则对所述待爬取网页进行筛选,得到目标网页,包括:
获取所述待爬取网页的网页参数;
根据所述网页参数判断所述待爬取网页是否符合预置规则;
若是,则确定所述待爬取网页是目标网页;
若否,则确定所述待爬取网页不是目标网页。
8.根据权利要求7所述的聚合搜索方法,其特征在于,所述使用网络爬虫爬取所述目标网页,得到爬取结果,包括:
获取所述目标网页的网页统一资源定位器URL;
根据所述网页URL,使用网络爬虫爬取所述目标网页的网页数据,得到爬取结果。
9.根据权利要求8所述的聚合搜索方法,其特征在于,所述聚合搜索方法还包括:
将所述爬取结果保存至爬取结果数据库中;
获取查询指令,根据所述查询指令从所述爬取结果数据库中抽取出查询结果;
将所述查询结果保存至查询结果数据库中。
10.一种聚合搜索系统,其特征在于,包括:
业务组件及核心组件;
所述业务组件,用于建立关键词词库;
所述业务组件,还用于接收用户输入的搜索关键词,根据所述关键词词库确定搜索主题;
所述业务组件,还用于根据所述搜索主题得到待爬取网页;
所述核心组件,用于根据预置规则对所述待爬取网页进行筛选,得到目标网页;
所述核心组件,还用于使用网络爬虫爬取所述目标网页,得到爬取结果。
11.根据权利要求10所述的聚合搜索系统,其特征在于,所述业务组件包括:获取单元和关键词词库创建单元;
所述获取单元,用于获取预设关键词;
所述关键词词库创建单元,用于确定所述预设关键词的预设主题,并根据所述预设关键词和所述预设主题生成主题索引表,根据所述主题索引表生成关键词词库。
12.根据权利要求11所述的聚合搜索系统,其特征在于,所述业务组件还包括:接收单元和关键词词库单元;
所述接收单元,用于接收用户输入的搜索关键词;
所述关键词词库单元,用于根据所述搜索关键词从所述关键词词库中提取出主题索引表,根据所述搜索关键词和所述主题索引表确定搜索主题。
13.根据权利要求12所述的聚合搜索系统,其特征在于,所述业务组件还包括:配置单元;
所述配置单元,用于根据预先设置的关键词数据库表设置关键词配置信息;
或,
所述配置单元,还用于在关键词配置界面设置所述关键词配置信息,所述关键词配置信息包含关键词关系表、关键词过滤表及关键词采集频率。
14.根据权利要求13所述的聚合搜索系统,其特征在于,所述业务组件还包括:聚合网址库创建单元和帐号资源库创建单元;
所述聚合网址库创建单元,用于建立聚合网址库,所述聚合网址库包含至少一个网址源;
所述帐号资源库创建单元,用于建立帐号资源库,所述帐号资源库包含至少一个网页的登录帐号;
所述配置单元,还用于设置网页访问优先级。
15.根据权利要求14所述的聚合搜索系统,其特征在于,所述业务组件还包括:搜索单元;
所述搜索单元,用于根据所述关键词配置信息确定搜索频率;
所述搜索单元,还用于根据所述聚合网址库确定搜索范围;
所述搜索单元,还用于根据所述搜索主题、所述搜索频率及所述搜索范围搜索得到待爬取网页。
16.根据权利要求10所述的聚合搜索系统,其特征在于,所述核心组件包括:添加队列接口及网页筛选单元;
所述添加队列接口,用于获取所述待爬取网页的网页参数;
所述网页筛选单元,用于根据所述网页参数判断所述待爬取网页是否符合预置规则;
所述网页筛选单元,还用于当所述网页参数符合预置规则时,确定所述待爬取网页是目标网页;
所述网页筛选单元,还用于当所述网页参数不符合预置规则时,确定所述待爬取网页不是目标网页。
17.根据权利要求16所述的聚合搜索系统,其特征在于,所述核心组件还包括:获取下载任务接口;
所述获取下载任务接口,用于获取所述目标网页的网页统一资源定位器URL;
所述获取下载任务接口,还用于根据所述网页URL,使用网络爬虫爬取所述目标网页的网页数据,得到爬取结果。
18.根据权利要求17所述的聚合搜索系统,其特征在于,所述核心组件还包括:保存下载任务接口、获取抽取任务接口及保存抽取任务接口;
所述保存下载任务接口,用于将所述爬取结果保存至爬取结果数据库中;
所述获取抽取任务接口,用于获取查询指令,根据所述查询指令从所述爬取结果数据库中抽取出查询结果;
所述保存抽取任务接口,用于将所述查询结果保存至查询结果数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610283618.2A CN105893622A (zh) | 2016-04-29 | 2016-04-29 | 一种聚合搜索方法及聚合搜索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610283618.2A CN105893622A (zh) | 2016-04-29 | 2016-04-29 | 一种聚合搜索方法及聚合搜索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105893622A true CN105893622A (zh) | 2016-08-24 |
Family
ID=56702102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610283618.2A Pending CN105893622A (zh) | 2016-04-29 | 2016-04-29 | 一种聚合搜索方法及聚合搜索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105893622A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480297A (zh) * | 2017-08-30 | 2017-12-15 | 福建中金在线信息科技有限公司 | 一种文章收录方法及装置 |
CN107844596A (zh) * | 2017-11-22 | 2018-03-27 | 福建中金在线信息科技有限公司 | 一种文章检索方法及系统 |
CN108197311A (zh) * | 2018-01-31 | 2018-06-22 | 平安好房(上海)电子商务有限公司 | 房源数据聚合展示方法、装置、设备及可读存储介质 |
CN108664646A (zh) * | 2018-05-16 | 2018-10-16 | 电子科技大学 | 一种基于关键字的音视频自动下载系统 |
CN109918428A (zh) * | 2019-01-17 | 2019-06-21 | 重庆金融资产交易所有限责任公司 | 网页数据解析方法、装置及计算机可读存储介质 |
CN110334280A (zh) * | 2019-07-10 | 2019-10-15 | 中国民航信息网络股份有限公司 | 一种发现保密信息泄露的方法及装置 |
CN110413859A (zh) * | 2019-06-27 | 2019-11-05 | 平安科技(深圳)有限公司 | 网页信息搜索方法、装置、计算机设备及存储介质 |
CN110609952A (zh) * | 2019-08-15 | 2019-12-24 | 中国平安财产保险股份有限公司 | 数据采集方法、系统和计算机设备 |
CN112650908A (zh) * | 2020-12-25 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 基于网络主题爬虫的数据处理方法、系统及装置 |
CN112818212A (zh) * | 2020-04-23 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 语料数据采集方法、装置、计算机设备和存储介质 |
CN114443928A (zh) * | 2022-01-25 | 2022-05-06 | 西藏民族大学 | 一种网络文本数据爬虫方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫系统的设计方法 |
CN100595753C (zh) * | 2007-05-29 | 2010-03-24 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐方法和装置 |
CN105302876A (zh) * | 2015-09-28 | 2016-02-03 | 孙燕群 | 基于正则表达式的url过滤方法 |
CN103186676B (zh) * | 2013-04-08 | 2016-03-02 | 湖南农业大学 | 一种主题知识自增长型聚焦网络爬虫搜索方法 |
CN105528422A (zh) * | 2015-12-07 | 2016-04-27 | 中国建设银行股份有限公司 | 一种主题爬虫处理方法及装置 |
-
2016
- 2016-04-29 CN CN201610283618.2A patent/CN105893622A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100595753C (zh) * | 2007-05-29 | 2010-03-24 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐方法和装置 |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫系统的设计方法 |
CN103186676B (zh) * | 2013-04-08 | 2016-03-02 | 湖南农业大学 | 一种主题知识自增长型聚焦网络爬虫搜索方法 |
CN105302876A (zh) * | 2015-09-28 | 2016-02-03 | 孙燕群 | 基于正则表达式的url过滤方法 |
CN105528422A (zh) * | 2015-12-07 | 2016-04-27 | 中国建设银行股份有限公司 | 一种主题爬虫处理方法及装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480297A (zh) * | 2017-08-30 | 2017-12-15 | 福建中金在线信息科技有限公司 | 一种文章收录方法及装置 |
CN107844596A (zh) * | 2017-11-22 | 2018-03-27 | 福建中金在线信息科技有限公司 | 一种文章检索方法及系统 |
CN108197311B (zh) * | 2018-01-31 | 2020-06-05 | 平安好房(上海)电子商务有限公司 | 房源数据聚合展示方法、装置、设备及可读存储介质 |
CN108197311A (zh) * | 2018-01-31 | 2018-06-22 | 平安好房(上海)电子商务有限公司 | 房源数据聚合展示方法、装置、设备及可读存储介质 |
CN108664646A (zh) * | 2018-05-16 | 2018-10-16 | 电子科技大学 | 一种基于关键字的音视频自动下载系统 |
CN108664646B (zh) * | 2018-05-16 | 2021-11-16 | 电子科技大学 | 一种基于关键字的音视频自动下载系统 |
CN109918428A (zh) * | 2019-01-17 | 2019-06-21 | 重庆金融资产交易所有限责任公司 | 网页数据解析方法、装置及计算机可读存储介质 |
CN110413859A (zh) * | 2019-06-27 | 2019-11-05 | 平安科技(深圳)有限公司 | 网页信息搜索方法、装置、计算机设备及存储介质 |
CN110334280A (zh) * | 2019-07-10 | 2019-10-15 | 中国民航信息网络股份有限公司 | 一种发现保密信息泄露的方法及装置 |
CN110609952A (zh) * | 2019-08-15 | 2019-12-24 | 中国平安财产保险股份有限公司 | 数据采集方法、系统和计算机设备 |
CN110609952B (zh) * | 2019-08-15 | 2024-04-26 | 中国平安财产保险股份有限公司 | 数据采集方法、系统和计算机设备 |
CN112818212A (zh) * | 2020-04-23 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 语料数据采集方法、装置、计算机设备和存储介质 |
CN112818212B (zh) * | 2020-04-23 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 语料数据采集方法、装置、计算机设备和存储介质 |
CN112650908A (zh) * | 2020-12-25 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 基于网络主题爬虫的数据处理方法、系统及装置 |
CN114443928A (zh) * | 2022-01-25 | 2022-05-06 | 西藏民族大学 | 一种网络文本数据爬虫方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893622A (zh) | 一种聚合搜索方法及聚合搜索系统 | |
Uzun | A novel web scraping approach using the additional information obtained from web pages | |
Mahto et al. | A dive into Web Scraper world | |
CN112749284A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN101853300B (zh) | 一种视频下载服务网站的识别、评估方法及系统 | |
US11263062B2 (en) | API mashup exploration and recommendation | |
CN108268635B (zh) | 用于获取数据的方法和装置 | |
CN107391775A (zh) | 一种通用的网络爬虫模型实现方法及系统 | |
US20240012863A1 (en) | Systems and methods for intelligent content filtering and persistence | |
CN102663319A (zh) | 下载链接安全提示方法及装置 | |
CN103294732A (zh) | 网页抓取方法及爬虫 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN106021418A (zh) | 新闻事件的聚类方法及装置 | |
CN102870118A (zh) | 用户行为的获取方法、设备及系统 | |
CN110738049A (zh) | 相似文本的处理方法、装置及计算机可读存储介质 | |
CN107862039A (zh) | 网页数据获取方法、系统和数据匹配推送方法 | |
CN103530390A (zh) | 网页抓取的方法及设备 | |
US11334592B2 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data | |
CN106874368B (zh) | 一种rtb竞价广告位价值分析方法及系统 | |
CN102375847A (zh) | 形成用于生成文档模板的合并树的方法以及装置 | |
CN115687810A (zh) | 网页搜索方法、装置及相关设备 | |
CN109145307A (zh) | 用户画像识别方法、推送方法、装置、设备和存储介质 | |
CN109359274B (zh) | 一种对批量生成的字符串进行识别的方法、装置及设备 | |
CN103530392A (zh) | 确定抓取流量的方法及设备 | |
CN116226494A (zh) | 一种用于信息搜索的爬虫系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160824 |