CN105138547B - 一种数据搜索方法及装置 - Google Patents
一种数据搜索方法及装置 Download PDFInfo
- Publication number
- CN105138547B CN105138547B CN201510406364.4A CN201510406364A CN105138547B CN 105138547 B CN105138547 B CN 105138547B CN 201510406364 A CN201510406364 A CN 201510406364A CN 105138547 B CN105138547 B CN 105138547B
- Authority
- CN
- China
- Prior art keywords
- keyword
- crawler
- task
- execution
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据搜索方法及装置,用以根据待搜索的关键词的权重动态调整爬虫执行时间。所述方法包括:获取用户输入的搜索关键词;从预设的关键词库中提取出所述搜索关键词对应的关键词属性;根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;执行对应的爬虫任务,获取爬虫结果;具有根据待搜索的关键词的权重动态调整爬虫执行时间的有益效果。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种数据搜索方法及装置。
背景技术
经过近几年的互联网技术的飞速发展,互联网的业务不断增加,人们基于互联网可以接触到各种各样的信息,网络也成为人们日常工作和生活中不可或缺的一部分。比如,用户可以利用互联网收发工作邮件、进行视频会议等;或者,利用互联网浏览新闻、听音乐、购物、订餐、观看视频等。当用户获取自身需要的信息时,需要利用对应的搜索工具,从互联网海量的信息中搜索并查找出自身所需要的信息;在这种情况下,互联网作为海量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。
搜索引擎作为一个辅助人们检索信息的工具,成为用户访问互联网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。例如,搜索引擎接收到是用户输入的关键词后,WEB服务器根据上述关键词进行爬虫搜索,得到对应的爬虫结果数据;在对上述关键词进行爬虫搜索时,针对每个关键词所采用的爬虫执行时间是一样的;或者说,针对每一类关键词,执行爬虫搜索时所采用的爬虫执行时间是相同的。如此一来,针对紧急任务中权重较大的关键词的爬虫搜索则不能优先处理,数据搜索方式不够智能。
发明内容
本发明实施例提供一种数据搜索方法及装置,用以根据待搜索的关键词的权重动态调整爬虫执行时间,实现基于关键词的权重,执行高效、精确的数据搜索。
本发明实施例提供一种数据搜索方法,包括:
获取用户输入的搜索关键词;
从预设的关键词库中提取出所述搜索关键词对应的关键词属性;
根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;
根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;
执行对应的爬虫任务,获取爬虫结果。
在一个实施例中,所述搜索关键词对应的关键词属性包括:
关键词唯一标识码、关键词本身、关键词科目、关键词权重、执行所述关键词爬虫任务的前一次执行时间和本次执行时间、关键词访问量以及关键词状态;
其中,所述关键词访问量包括:执行所述关键词爬虫任务的前一次执行时间至本次执行时间所对应时长内的访问量。
在一个实施例中,所述根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列,包括:
按照本次执行时间小于当前时间为预设执行条件,提取满足所述预设执行条件的所有关键字;
识别提取出的所述关键字对应的搜索任务类型为日常任务或者紧急任务;
根据识别结果,将紧急任务对应的所述关键字,循环发送至爬虫任务执行队列中由前至后存放紧急任务所对应的执行队列;将日常任务对应的所述关键字,循环发送至爬虫任务执行队列中由后至前存放日常任务所对应的执行队列。
在一个实施例中,所述执行对应的爬虫任务,获取爬虫结果,包括:
识别执行的爬虫任务是日常任务还是紧急任务;
若识别出执行的爬虫任务为日常任务,则执行如下操作:
查找缓存数据库,判断是否存在所述爬虫任务对应的历史数据;
若存在所述爬虫任务对应的历史数据,则将所述历史数据反馈至用户;
若不存在所述爬虫任务对应的历史数据,则在预设的关键词库中新增所述爬虫任务对应的关键字,同时执行对新增关键字的搜索任务,获取搜索结果,并将所述搜索结果存储至缓存数据库中;
若识别出执行的爬虫任务为紧急任务,则执行如下操作:
更新所述爬虫任务中关键字的权重值,同时执行爬虫任务,将获取的爬虫结果反馈至用户,并将所述爬虫结果存储至缓存数据库中。
在一个实施例中,所述一种数据搜索方法还包括:
按照预设更新周期,更新所述预设的关键词库中所有搜索关键词的权重值。
对应于以上实施例所提供的一种数据搜索方法,本发明实施例还提供了一种数据搜索装置,包括:
获取模块,用于获取用户输入的搜索关键词;
提取模块,用于从预设的关键词库中提取出所述搜索关键词对应的关键词属性;
发送模块,用于根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;
配置模块,用于根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;
执行模块,用于执行对应的爬虫任务,获取爬虫结果。
在一个实施例中,所述搜索关键词对应的关键词属性包括:
关键词唯一标识码、关键词本身、关键词科目、关键词权重、执行所述关键词爬虫任务的前一次执行时间和本次执行时间、关键词访问量以及关键词状态;
其中,所述关键词访问量包括:执行所述关键词爬虫任务的前一次执行时间至本次执行时间所对应时长内的访问量。
在一个实施例中,所述发送模块包括:
提取单元,用于按照本次执行时间小于当前时间为预设执行条件,提取满足所述预设执行条件的所有关键字;
类型识别单元,用于识别提取出的所述关键字对应的搜索任务类型为日常任务或者紧急任务;
发送单元,用于根据识别结果,将紧急任务对应的所述关键字,循环发送至爬虫任务执行队列中由前至后存放紧急任务所对应的执行队列;将日常任务对应的所述关键字,循环发送至爬虫任务执行队列中由后至前存放日常任务所对应的执行队列。
在一个实施例中,所述执行模块包括:
任务识别单元,用于识别执行的爬虫任务是日常任务还是紧急任务;
日常任务执行单元,用于若所述任务识别单元识别出执行的爬虫任务为日常任务,则执行如下操作:
查找缓存数据库,判断是否存在所述爬虫任务对应的历史数据;
若存在所述爬虫任务对应的历史数据,则将所述历史数据反馈至用户;
若不存在所述爬虫任务对应的历史数据,则在预设的关键词库中新增所述爬虫任务对应的关键字,同时执行对新增关键字的搜索任务,获取搜索结果,并将所述搜索结果存储至缓存数据库中;
紧急任务执行单元,用于若所述任务识别单元识别出执行的爬虫任务为紧急任务,则执行如下操作:
更新所述爬虫任务中关键字的权重值,同时执行爬虫任务,将获取的爬虫结果反馈至用户,并将所述爬虫结果存储至缓存数据库中。
在一个实施例中,所述一种数据搜索装置还包括:
更新模块,用于按照预设更新周期,更新所述预设的关键词库中所有搜索关键词的权重值。
以上实施例所描述的一种数据搜索方法及装置可以达到如下有益效果:
通过获取用户输入的搜索关键词;从预设的关键词库中提取出所述搜索关键词对应的关键词属性;根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;执行对应的爬虫任务,获取爬虫结果;具有根据待搜索的关键词的权重动态调整爬虫执行时间的有益效果,达到了基于关键词的权重执行高效、精确的数据搜索的目的,提高了数据搜索效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明根据一示例性实施例示出的一种数据搜索方法的一种实施例方式的流程图;
图2为本发明根据一示例性实施例示出的一种数据搜索方法中步骤S30的流程图;
图3为本发明根据一示例性实施例示出的一种数据搜索方法中步骤S50的流程图;
图4为本发明根据一示例性实施例示出的一种数据搜索方法的另一种实施方式的流程图;
图5为本发明根据一示例性实施例示出的一种数据搜索装置的一种实施方式的框图;
图6为本发明根据一示例性实施例示出的一种数据搜索装置中发送模块130的框图;
图7为本发明根据一示例性实施例示出的一种数据搜索装置中执行模块150的框图;
图8为本发明根据一示例性实施例示出的一种数据搜索装置的另一种实施方式的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明公开的一实施例中提供了一种数据搜索方法,用以根据待搜索的关键词的权重动态调整爬虫执行时间,实现基于关键词的权重,执行高效、精确的数据搜索。如图1所示,本发明实施例中一种数据搜索方法包括步骤S10-S50:
步骤S10、获取用户输入的搜索关键词;
步骤S20、从预设的关键词库中提取出所述搜索关键词对应的关键词属性;
本发明实施例中,用户利用对应的用户接口比如搜索引擎、应用程序APP等输入对应的搜索关键词,服务器获取到用户输入的搜索关键词后,从预先设置并存储的关键词库中提取出用户输入的搜索关键所对应的关键词属性。本发明实施例中,所述搜索关键词对应的关键词属性包括:
关键词唯一标识码ID、关键词本身、关键词科目、关键词权重、执行所述关键词爬虫任务的前一次执行时间和本次执行时间、关键词访问量以及关键词状态;其中,所述关键词访问量包括:执行所述关键词爬虫任务的前一次执行时间至本次执行时间所对应时长内的访问量。其中,所述搜索关键词被搜索一次,其对应的访问量增加1。
本发明实施例中,所述本次执行时间由该关键词所对应的权重值确定。在一个具体应用场景中,权重值越大,本次执行时间越靠前。
步骤S30、根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;
提取出用户输入的关键词后,服务器根据提取出的所述关键字对应的关键词属性,找出满足预设执行条件的所有关键字,并将找出的满足上述预设执行条件的所有关键字循环发送至爬虫任务执行队列。
本发明实施例中,由于满足预设执行条件的关键字可以有多个,因此需要对关键字对应的爬虫任务进行拆分;例如,使一个关键字生成一个爬虫任务等。
在一个实施例中,如图2,所述步骤S30可以实施为如下描述的步骤S301-S303:
步骤S301、按照本次执行时间小于当前时间为预设执行条件,提取满足所述预设执行条件的所有关键字;
本发明实施例中,以本次执行时间小于当前时间为预设执行条件,获取各关键字所对应的本次执行时间,查找并提取出满足上述预设执行条件的所有关键字。
步骤S302、识别提取出的所述关键字对应的搜索任务类型为日常任务或者紧急任务;
步骤S303、根据识别结果,将紧急任务对应的所述关键字,循环发送至爬虫任务执行队列中由前至后存放紧急任务所对应的执行队列;将日常任务对应的所述关键字,循环发送至爬虫任务执行队列中由后至前存放日常任务所对应的执行队列。
为了提高任务搜索的效率和智能性,将任务搜索分为日常搜索任务和紧急搜索任务。在提取出满足预设执行条件的关键字后,对提取出的上述关键字所对应的搜索任务进行识别,区分出上述搜索任务哪些是日常搜索任务,哪些是紧急搜索任务。由于在数据库对应的爬虫任务执行队列中,分别存放了日常搜索任务和紧急搜索任务;另外,为了便于执行紧急搜索任务,根据识别结果,将紧急任务对应的所述关键字,循环发送至爬虫任务执行队列中由前至后存放紧急任务所对应的执行队列;将日常任务对应的所述关键字,循环发送至爬虫任务执行队列中由后至前存放日常任务所对应的执行队列中。由此一来,在执行对应的爬虫任务时,紧急任务将优先执行。
步骤S40、根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;
本发明实施例中,将满足预设执行条件的关键字循环发送至爬虫任务执行队列后,同时根据每个关键字对应的访问量和前一次执行时间与本次执行时间之间的时间差,来计算并更新关键字所对应的权重值,进而,根据更新后的关键字所分别对应的权重值,配置每个关键字对应的爬虫执行时间,再根据配置后的爬虫执行时间,生成对应的爬虫任务。
步骤S50、执行对应的爬虫任务,获取爬虫结果。
在生成对应的爬虫任务后,根据爬虫任务对应的任务类型和执行时间,执行上述爬虫任务,从而获取对应的爬虫结果。
在一个实施例中,如图3所示,所述步骤S50可以实施为如下描述的步骤S501-S505:
步骤S501、识别执行的爬虫任务是日常任务还是紧急任务;若识别出执行的爬虫任务为日常任务,则执行如下步骤S502-S504的操作:若识别出执行的爬虫任务为紧急任务,则执行如下步骤S505的操作。
当识别出执行的爬虫任务为日常任务时:
步骤S502、查找缓存数据库,判断是否存在所述爬虫任务对应的历史数据;若存在所述爬虫任务对应的历史数据,则执行步骤S503;若不存在所述爬虫任务对应的历史数据,则执行步骤S504;
步骤S503、将所述历史数据反馈至用户;
步骤S504、在预设的关键词库中新增所述爬虫任务对应的关键字,同时执行对新增关键字的搜索任务,获取搜索结果,并将所述搜索结果存储至缓存数据库中;
本发明实施例中,当识别出执行的爬虫任务为日常任务时,查找缓存数据库,判断是否存在所述爬虫任务对应的历史数据;若存在该爬虫任务对应的历史数据,则直接将上述爬虫任务对应的历史数据反馈至用户;同时,更新该关键字对应的关键字属性,比如增加该关键字对应的访问量、改变该关键词的下次执行时间、更新该关键字的权重值等。若不存在上述爬虫任务对应的历史数据,则将该关键词存入对应的数据库中,并同时执行对该关键词的搜素任务,同时将搜索结果也一同存储在缓存数据库比如本地数据库中,以更新本地数据库,便于后续对该关键字的搜索;在上述存储该关键字的同时,一并存储该关键字对应的关键字属性。
当识别出执行的爬虫任务为紧急任务时,执行如下操作:
步骤S505、更新所述爬虫任务中关键字的权重值,同时执行爬虫任务,将获取的爬虫结果反馈至用户,并将所述爬虫结果存储至缓存数据库中。
在识别出所执行的爬虫任务为紧急任务时,直接更新该爬虫任务对应的关键字的权重值,同时执行对应的爬虫任务,对该关键词进行爬虫搜索,并将获取的爬虫结果反馈给用户,同时将对应的爬虫结果存储至缓存数据库中。
在上述实施例所提供的一种数据搜索方法的基础上,为了防止权重值只高不低,需要定期调整关键词库中所有搜索关键词的权重值。如图4所示,本发明实施例一种数据搜索方法还包括:
步骤S60、按照预设更新周期,更新所述预设的关键词库中所有搜索关键词的权重值。
本发明实施例中所描述的步骤S60可以在图1所述实施例中的任何一个执行过程当中执行,图4所述实施例仅以步骤S60在图1所示的步骤S50之后执行为例,进行描述。
本发明实施例中,为了防止权重值只高不低,需要按照预设更新周期,更新预设的关键词库中所有搜索关键词所对应的权重值。其具体的更新权重值的方式包括但不限于:
每天或者每周进行一次清零,即将所有关键词对应的权重值均执行清零操作。或者,将所有的关键词的权重值乘以更新系数比如0.2,根据乘以0.2后得到的结果值,进行对应的权重值更新操作。或者,将所有关键字的权重值均减去更新系数比如500,将差值为负数的关键字的权重值均置为0,等。本发明实施例对权重值更新操作的具体操作方式不进行限定。
以上实施例所描述的一种数据搜索方法,通过获取用户输入的搜索关键词;从预设的关键词库中提取出所述搜索关键词对应的关键词属性;根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;执行对应的爬虫任务,获取爬虫结果;具有根据待搜索的关键词的权重动态调整爬虫执行时间的有益效果,达到了基于关键词的权重执行高效、精确的数据搜索的目的,提高了数据搜索效率。
对应本发明实施例提供的一种数据搜索方法,本发明还提供了一种数据搜索装置;如图5所示,所述一种数据搜索装置,包括:获取模块110、提取模块120、发送模块130、配置模块140以及执行模块150,其中:
所述获取模块110,用于获取用户输入的搜索关键词;
所述提取模块120,用于从预设的关键词库中提取出所述搜索关键词对应的关键词属性;
在一个实施例中,所述搜索关键词对应的关键词属性包括:
关键词唯一标识码、关键词本身、关键词科目、关键词权重、执行所述关键词爬虫任务的前一次执行时间和本次执行时间、关键词访问量以及关键词状态;
其中,所述关键词访问量包括:执行所述关键词爬虫任务的前一次执行时间至本次执行时间所对应时长内的访问量。
所述发送模块130,用于根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;
在一个实施例中,如图6所示,所述发送模块130包括:
提取单元131,用于按照本次执行时间小于当前时间为预设执行条件,提取满足所述预设执行条件的所有关键字;
类型识别单元132,用于识别提取出的所述关键字对应的搜索任务类型为日常任务或者紧急任务;
发送单元133,用于根据识别结果,将紧急任务对应的所述关键字,循环发送至爬虫任务执行队列中由前至后存放紧急任务所对应的执行队列;将日常任务对应的所述关键字,循环发送至爬虫任务执行队列中由后至前存放日常任务所对应的执行队列。
所述配置模块140,用于根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;
所述执行模块150,用于执行对应的爬虫任务,获取爬虫结果。
在一个实施例中,如图7所示,所述执行模块150包括:
任务识别单元151,用于识别执行的爬虫任务是日常任务还是紧急任务;
日常任务执行单元152,用于若所述任务识别单元识别出执行的爬虫任务为日常任务,则执行如下操作:
查找缓存数据库,判断是否存在所述爬虫任务对应的历史数据;
若存在所述爬虫任务对应的历史数据,则将所述历史数据反馈至用户;
若不存在所述爬虫任务对应的历史数据,则在预设的关键词库中新增所述爬虫任务对应的关键字,同时执行对新增关键字的搜索任务,获取搜索结果,并将所述搜索结果存储至缓存数据库中;
紧急任务执行单元153,用于若所述任务识别单元识别出执行的爬虫任务为紧急任务,则执行如下操作:
更新所述爬虫任务中关键字的权重值,同时执行爬虫任务,将获取的爬虫结果反馈至用户,并将所述爬虫结果存储至缓存数据库中。
在一个实施例中,如图8所示,所述一种数据搜索装置还包括:
更新模块160,用于按照预设更新周期,更新所述预设的关键词库中所有搜索关键词的权重值。
以上实施例所描述的一种数据搜索装置,通过获取用户输入的搜索关键词;从预设的关键词库中提取出所述搜索关键词对应的关键词属性;根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;执行对应的爬虫任务,获取爬虫结果;具有根据待搜索的关键词的权重动态调整爬虫执行时间的有益效果,达到了基于关键词的权重执行高效、精确的数据搜索的目的,提高了数据搜索效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种数据搜索方法,其特征在于,包括:
获取用户输入的搜索关键词;
从预设的关键词库中提取出所述搜索关键词对应的关键词属性;
根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;
根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;
执行对应的爬虫任务,获取爬虫结果;
所述根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列,包括:
按照本次执行时间小于当前时间为预设执行条件,提取满足所述预设执行条件的所有关键字;
识别提取出的所述关键字对应的搜索任务类型为日常任务或者紧急任务;
根据识别结果,将紧急任务对应的所述关键字,循环发送至爬虫任务执行队列中由前至后存放紧急任务所对应的执行队列;将日常任务对应的所述关键字,循环发送至爬虫任务执行队列中由后至前存放日常任务所对应的执行队列;
所述执行对应的爬虫任务,获取爬虫结果,包括:
识别执行的爬虫任务是日常任务还是紧急任务;
若识别出执行的爬虫任务为日常任务,则执行如下操作:
查找缓存数据库,判断是否存在所述爬虫任务对应的历史数据;
若存在所述爬虫任务对应的历史数据,则将所述历史数据反馈至用户;
若不存在所述爬虫任务对应的历史数据,则在预设的关键词库中新增所述爬虫任务对应的关键字,同时执行对新增关键字的搜索任务,获取搜索结果,并将所述搜索结果存储至缓存数据库中;
若识别出执行的爬虫任务为紧急任务,则执行如下操作:
更新所述爬虫任务中关键字的权重值,同时执行爬虫任务,将获取的爬虫结果反馈至用户,并将所述爬虫结果存储至缓存数据库中。
2.如权利要求1所述的方法,其特征在于,所述搜索关键词对应的关键词属性包括:
关键词唯一标识码、关键词本身、关键词科目、关键词权重、执行所述关键词爬虫任务的前一次执行时间和本次执行时间、关键词访问量以及关键词状态;
其中,所述关键词访问量包括:执行所述关键词爬虫任务的前一次执行时间至本次执行时间所对应时长内的访问量。
3.如权利要求1所述的方法,其特征在于,所述一种数据搜索方法还包括:
按照预设更新周期,更新所述预设的关键词库中所有搜索关键词的权重值。
4.一种数据搜索装置,其特征在于,包括:
获取模块,用于获取用户输入的搜索关键词;
提取模块,用于从预设的关键词库中提取出所述搜索关键词对应的关键词属性;
发送模块,用于根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;
配置模块,用于根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;
执行模块,用于执行对应的爬虫任务,获取爬虫结果;
所述发送模块包括:
提取单元,用于按照本次执行时间小于当前时间为预设执行条件,提取满足所述预设执行条件的所有关键字;
类型识别单元,用于识别提取出的所述关键字对应的搜索任务类型为日常任务或者紧急任务;
发送单元,用于根据识别结果,将紧急任务对应的所述关键字,循环发送至爬虫任务执行队列中由前至后存放紧急任务所对应的执行队列;将日常任务对应的所述关键字,循环发送至爬虫任务执行队列中由后至前存放日常任务所对应的执行队列;
所述执行模块包括:
任务识别单元,用于识别执行的爬虫任务是日常任务还是紧急任务;
日常任务执行单元,用于若所述任务识别单元识别出执行的爬虫任务为日常任务,则执行如下操作:
查找缓存数据库,判断是否存在所述爬虫任务对应的历史数据;
若存在所述爬虫任务对应的历史数据,则将所述历史数据反馈至用户;
若不存在所述爬虫任务对应的历史数据,则在预设的关键词库中新增所述爬虫任务对应的关键字,同时执行对新增关键字的搜索任务,获取搜索结果,并将所述搜索结果存储至缓存数据库中;
紧急任务执行单元,用于若所述任务识别单元识别出执行的爬虫任务为紧急任务,则执行如下操作:
更新所述爬虫任务中关键字的权重值,同时执行爬虫任务,将获取的爬虫结果反馈至用户,并将所述爬虫结果存储至缓存数据库中。
5.如权利要求4所述的装置,其特征在于,所述搜索关键词对应的关键词属性包括:
关键词唯一标识码、关键词本身、关键词科目、关键词权重、执行所述关键词爬虫任务的前一次执行时间和本次执行时间、关键词访问量以及关键词状态;
其中,所述关键词访问量包括:执行所述关键词爬虫任务的前一次执行时间至本次执行时间所对应时长内的访问量。
6.如权利要求4所述的装置,其特征在于,所述一种数据搜索装置还包括:
更新模块,用于按照预设更新周期,更新所述预设的关键词库中所有搜索关键词的权重值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510406364.4A CN105138547B (zh) | 2015-07-10 | 2015-07-10 | 一种数据搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510406364.4A CN105138547B (zh) | 2015-07-10 | 2015-07-10 | 一种数据搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105138547A CN105138547A (zh) | 2015-12-09 |
CN105138547B true CN105138547B (zh) | 2019-03-26 |
Family
ID=54723897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510406364.4A Expired - Fee Related CN105138547B (zh) | 2015-07-10 | 2015-07-10 | 一种数据搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105138547B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930482A (zh) * | 2016-04-29 | 2016-09-07 | 北京小米移动软件有限公司 | 对网络数据进行关键词匹配的方法及装置 |
CN106383842A (zh) * | 2016-08-30 | 2017-02-08 | 广联达科技股份有限公司 | 模型文件的解析方法、解析装置和服务器 |
CN106534481A (zh) * | 2016-09-28 | 2017-03-22 | 努比亚技术有限公司 | 一种照片或视频分享系统及方法 |
CN106815766A (zh) * | 2016-11-23 | 2017-06-09 | 北海高创电子信息孵化器有限公司 | 一种草本植物抗药性信息收集和整治系统 |
CN106777886A (zh) * | 2016-11-23 | 2017-05-31 | 北海高创电子信息孵化器有限公司 | 一种人体病理剖析诊断系统 |
CN106780077A (zh) * | 2016-11-23 | 2017-05-31 | 北海高创电子信息孵化器有限公司 | 一种草本植物抗药性信息收集和整治系统的工作方法 |
CN107545035A (zh) * | 2017-07-25 | 2018-01-05 | 无锡天脉聚源传媒科技有限公司 | 一种信息搜索方法及装置 |
CN107577779A (zh) * | 2017-09-13 | 2018-01-12 | 陕西铺铺旺数字科技有限公司 | 基于查询条件权重比例查询数据组的方法及装置 |
CN108681579A (zh) * | 2018-05-10 | 2018-10-19 | 北京鼎泰智源科技有限公司 | 一种大数据遗漏率分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033914A (zh) * | 2010-11-29 | 2011-04-27 | 百度在线网络技术(北京)有限公司 | 基于权威度确定链接资源的可靠描述信息的方法与设备 |
CN103530390A (zh) * | 2013-10-22 | 2014-01-22 | 北京奇虎科技有限公司 | 网页抓取的方法及设备 |
CN104349418A (zh) * | 2014-11-04 | 2015-02-11 | 广东石油化工学院 | 面向突发事件的无线传感器网络中数据快速路由传输方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2514126A (en) * | 2013-05-14 | 2014-11-19 | Ibm | Interruption of chip component managing tasks |
-
2015
- 2015-07-10 CN CN201510406364.4A patent/CN105138547B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033914A (zh) * | 2010-11-29 | 2011-04-27 | 百度在线网络技术(北京)有限公司 | 基于权威度确定链接资源的可靠描述信息的方法与设备 |
CN103530390A (zh) * | 2013-10-22 | 2014-01-22 | 北京奇虎科技有限公司 | 网页抓取的方法及设备 |
CN104349418A (zh) * | 2014-11-04 | 2015-02-11 | 广东石油化工学院 | 面向突发事件的无线传感器网络中数据快速路由传输方法 |
Non-Patent Citations (1)
Title |
---|
实时信息采集任务的服务质量保证技术研究;曹博然;《中国优秀硕士学位论文全文数据库信息科技辑》;20140315(第03期);第1-53页 |
Also Published As
Publication number | Publication date |
---|---|
CN105138547A (zh) | 2015-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105138547B (zh) | 一种数据搜索方法及装置 | |
CN107145496B (zh) | 基于关键词将图像与内容项目匹配的方法 | |
CN105224959B (zh) | 排序模型的训练方法和装置 | |
CN105101093B (zh) | 一种关于地理位置信息的网络拓扑可视化方法 | |
TW201931222A (zh) | 一種文案產生方法及裝置 | |
CN107133345A (zh) | 基于人工智能的交互方法和装置 | |
CN107609152A (zh) | 用于扩展查询式的方法和装置 | |
CN105474204A (zh) | 确定性的渐进式大数据分析 | |
CN105956087B (zh) | 数据版本管理系统及方法 | |
CN106663130A (zh) | 一种问答方法、系统和机器人 | |
CN107832440B (zh) | 一种数据挖掘方法、装置、服务器及计算机可读存储介质 | |
CN108197091B (zh) | 一种创建数据表的方法、系统及相关设备 | |
CN109309878A (zh) | 弹幕的生成方法及装置 | |
CN107291337A (zh) | 一种提供业务访问的方法及装置 | |
CN110428046A (zh) | 神经网络结构的获取方法及装置、存储介质 | |
CN105812937A (zh) | 一种电视节目推荐方法和电视节目推荐装置 | |
CN102968510B (zh) | 互联网人物信息的搜索方法及系统 | |
CN103678336A (zh) | 实体词识别方法及装置 | |
CN103856462A (zh) | 一种会话的管理方法及系统 | |
CN104683872A (zh) | 电视设备上使用人脸识别技术分账户管理用户的方法 | |
CN106980900A (zh) | 一种特征数据处理方法及设备 | |
CN104796300A (zh) | 一种数据包特征提取方法及装置 | |
CN109885651A (zh) | 一种问题推送方法和装置 | |
CN103605957A (zh) | 一种图片识别方法及装置 | |
CN106202470B (zh) | 脚本的处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A data search method and device Effective date of registration: 20210104 Granted publication date: 20190326 Pledgee: Inner Mongolia Huipu Energy Co.,Ltd. Pledgor: WUXI TVMINING MEDIA SCIENCE & TECHNOLOGY Co.,Ltd. Registration number: Y2020990001517 |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190326 Termination date: 20210710 |