CN105893559A - 一种数据推送方法及装置 - Google Patents
一种数据推送方法及装置 Download PDFInfo
- Publication number
- CN105893559A CN105893559A CN201610201534.XA CN201610201534A CN105893559A CN 105893559 A CN105893559 A CN 105893559A CN 201610201534 A CN201610201534 A CN 201610201534A CN 105893559 A CN105893559 A CN 105893559A
- Authority
- CN
- China
- Prior art keywords
- data
- data file
- description information
- captured
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例公开了一种数据推送方法及装置,该方法包括:根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件;将所述数据文件存储在所述服务器中;向用户推送用于访问存储在所述服务器中的数据文件的链接,以使用户根据数据文件的链接访问并搜索存储在所述服务器中的数据文件。使得用户可以快速的搜索到大量、全面的数据文件,提高了数据搜索的效率。
Description
技术领域
本发明涉及智能信息处理技术领域,特别涉及一种数据推送方法及装置。
背景技术
随着互联网技术的快速发展,互联网已经成为了用户越来越依赖的获取信息的途径,用户可以通过互联网获取各种类型的文件,如视频、音频、图片及文档等。
目前,视频、音频、图片及文档等数据散落在互联网的各个地方,各个网站上的视频、音频、图片及文档等数据都是有限的、不全面的,用户很难从单一的网站上获取所需要的数据。以图片为例,各个网站上的图片均是依靠手动编辑从其它网站下载,或者通过用户上传,因此,单一的网站上只有少量、不全面的图片,如果用户在某一网站上没有获取到所需的图片,则需要切换多个网站进行查找,需要花费用户较长的时间,数据搜索效率较低。
发明内容
本发明实施例的目的在于提供一种数据推送方法及装置,用于解决如何提高数据查找效率的问题。技术方案如下:
第一方面,本发明实施例提供一种数据推送方法,应用于服务器,包括:
根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件;
将所述数据文件存储在所述服务器中;
向用户推送用于访问存储在所述服务器中的数据文件的链接,以使用户根据数据文件的链接访问并搜索存储在所述服务器中的数据文件。
可选地,所述根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件,包括:
根据预设的数据文件抓取策略,利用分布式爬虫技术,从至少两个网站抓取与待抓取数据的类型对应的数据文件。
可选地,预先设置用于存储网页URL的待抓取队列;
所述根据预设的数据抓取策略,从至少两个网站抓取与待抓取数据类型对应的数据文件,包括:
判断所述待抓取队列中是否存在网页URL,其中,所述网页URL为所述至少两个网站包含的网页URL;
如果存在,根据预设的数据抓取策略,基于所述待抓取队列中存在的网页URL抓取与待抓取数据的类型对应的数据文件。
可选地,还包括:
针对所述至少两个网站包含的任一目标网页URL,判断是否基于所述目标网页URL抓取与待抓取数据类型对应的数据文件;
如果否,将所述目标网页URL添加在所述待抓取队列中。
可选地,还包括:
根据预设的提取规则,在所述至少两个网站包含的网页中提取与所述数据文件对应的描述信息;
根据所述描述信息,建立与所述描述信息对应的数据文件的索引。
可选地,所述根据所述描述信息,建立与所述描述信息对应的数据文件的索引,包括:
将所述描述信息存储在数据库中;
定时或每隔预设时间段检测所述数据库中是否存在新增的描述信息;
如果存在,建立与所述新增的描述信息对应的数据文件的索引。
可选地,在根据所述描述信息,建立与所述描述信息对应的数据文件的索引之前,还包括:
利用分词技术,对所述描述信息进行分词,得到分词结果;
所述根据所述描述信息,建立与所述描述信息对应的数据文件的索引,包括:
根据所述分词结果,建立与所述描述信息对应的数据文件的索引。
第二方面,本发明实施例提供一种数据推送装置,应用于服务器,包括:抓取模块、存储模块和推送模块;
所述抓取模块,用于根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件;
所述存储模块,用于将所述数据文件存储在所述服务器中;
所述推送模块,用于向用户推送用于访问存储在所述服务器中的数据文件的链接,以使用户根据数据文件的链接访问并搜索存储在所述服务器中的数据文件。
可选地,所述抓取模块,具体用于:
根据预设的数据文件抓取策略,利用分布式爬虫技术,从至少两个网站抓取与待抓取数据的类型对应的数据文件。
可选地,预先设置用于存储网页URL的待抓取队列;
所述抓取模块,包括:判断子模块和抓取子模块;
所述判断子模块,用于判断所述待抓取队列中是否存在网页URL,其中,所述网页URL为所述至少两个网站包含的网页URL;
所述抓取子模块,用于在所述判断子模块判断结果为是的情况下,根据预设的数据抓取策略,基于所述待抓取队列中存在的网页URL抓取与待抓取数据类型对应的数据文件。
可选地,还包括:判断模块和添加模块;
所述判断模块,用于针对所述至少两个网站包含的任一目标网页URL,判断是否基于所述目标网页URL抓取与待抓取数据类型对应的数据文件;
所述添加模块,用于所述判断模块判断为否的情况下,将所述目标网页URL添加在所述待抓取队列中。
可选地,还包括:提取模块和索引建立模块;
所述提取模块,用于根据预设的提取规则,在所述至少两个网站包含的网页中提取与所述数据文件对应的描述信息;
所述索引建立模块,用于根据所述描述信息,建立与所述描述信息对应的数据文件的索引,以使用户根据数据文件的索引搜索存储在所述服务器中的数据文件。
可选地,所述索引建立模块,包括:存储子模块、检测子模块和索引建立子模块;
所述存储子模块,用于将所述描述信息存储在数据库中;
所述检测子模块,用于定时或每隔预设时间段检测所述数据库中是否存在新增的描述信息;
所述索引建立子模块,用于在所述检测子模块检测为是的情况下,建立与所述新增的描述信息对应的数据文件的索引。
可选地,还包括:分词模块;
所述分词模块,用于利用分词技术,对所述描述信息进行分词,得到分词结果;
所述索引建立模块,具体用于:
根据所述分词结果,建立与所述描述信息对应的数据文件的索引。
本发明实施例提供的一种数据推送方法及装置,通过从至少两个网站抓取与待抓取数据的类型对应的数据文件,并将抓取到的数据文件的链接推送给用户,用户通过数据文件的链接对抓取到的数据文件进行访问和搜索。用户不需要花费大量的时间来回切换不同的网站进行数据搜索,即可在短时间内搜索到不同网站中的数据,从而提高了数据查找效率。同时,对抓取到的数据文件的描述信息进行索引和分词,在保证用户可以快速搜索到大量、全面的数据的同时,保证了数据搜索的准确性。而且,对于网站运营人员来说,克服了依靠编辑手动的从其它网站下载数据,或者通过用户上传费时费力的缺点,从而有助于网站引流和扩展品牌知名度。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的第一种数据推送方法的流程示意图;
图2为本发明实施例提供的第二种数据推送方法的流程示意图;
图3为本发明实施例提供的第三种数据推送方法的流程示意图;
图4为本发明实施例提供的第四种数据推送方法的流程示意图;
图5为本发明实施例提供的第一种数据推送装置的结构示意图;
图6为本发明实施例提供的第二种数据推送装置的结构示意图;
图7为本发明实施例提供的第三种数据推送装置的结构示意图;
图8为本发明实施例提供的第四种数据推送装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的第一种数据推送方法的流程示意图,应用于服务器,可以包括:
S101、根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件;
需要说明的是,本实施例中的待抓取数据的类型包括视频文件、音频文件及图片文件等,但本实施例不限定待抓取文件的具体类型,本领域技术人员可根据实际情况,设定其它的待抓取数据的类型。
需要说明的是,本实施例中的至少两个网站的确定方式为:预先对各大网站进行调研,确定要抓取的网站数量和类型。
需要说明的是,本实施例中可以根据用户的需求的变化,对确定要抓取的网站数量、类型进行增减、变更,以及对待抓取的数据的类型进行变更时。
可选地,本实施例中的预设的数据文件抓取策略,包括抓取频率、抓取顺序和过滤条件。
需要说明的是,本实施例中的数据文件抓取策略包括的内容仅为举例说明,本实施例不限定数据文件抓取策略的具体内容,本领域技术人员可根据实际情况,确定数据文件抓取策略的具体内容。
下面对本实施例中的数据文件抓取策略中的抓取频率、抓取顺序和过滤条件在实际应用中的情况进行说明:
需要说明的是,在实际应用中,本实施例中的抓取频率的设置需要模拟正常用户的搜索频率,并且每次使用不同的IP地址进行抓取,以防止由于使用同一个IP地址或者访问频率过快而导致访问被禁止。
需要说明的是,本实施例中的过滤条件包括但不限于待抓取数据文件的大小、占用空间、文件格式、文件生成的时间等条件,本领域技术人员可根据实际情况,采用其它的过滤条件对数据文件进行过滤。
在实际应用中,通过设置不同的过滤条件,保证了抓取到的数据文件的准确性。
具体地,可采用布隆过滤算法(BloomFilter)、URL相似度过滤算法、关键字过滤算法以及其它过滤方法执行上述根据过滤条件进行过滤的过程。
需要说明的是,本实施例不限定具体的抓取频率、具体的抓取顺序和具体的过滤条件,本领域技术人员可根据实际情况,设置不同的抓取频率和不同的过滤条件,进行数据文件的抓取。
具体的,在实际应用中,可以预先设置用于存储网页URL的待抓取队列,根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件,可以判断所述待抓取队列中是否存在网页URL,其中,所述网页URL为所述至少两个网站包含的网页URL;如果存在,根据预设的数据抓取策略,基于所述待抓取队列中存在的网页URL抓取与待抓取数据的类型对应的数据文件。
需要说明的是,本发明实施例中的判断待抓取队列中是否存在网页URL的过程与现有技术相同,此处不再赘述。
可以理解的是,若待抓取队列中不存在网页URL,则整个抓取过程结束。
S102、将所述数据文件存储在所述服务器中;
具体地,将抓取到的数据文件存储在服务器中或缓存在服务器中。
S103、向用户推送用于访问存储在所述服务器中的数据文件的链接,以使用户根据数据文件的链接访问并搜索存储在所述服务器中的数据文件。
可选地,服务器可以实时的、定时的或者每隔预设时间段向用户推送用于访问在所述服务器中的数据文件的链接,也可以根据用户的触发指令,向用户推送用于访问在所述服务器中的数据文件的链接。
在实际应用中,本实施例中的根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件,可以包括:根据预设的数据文件抓取策略,利用分布式爬虫技术,从至少两个网站抓取与待抓取数据的类型对应的数据文件。
需要说明的是,利用分布式爬虫技术抓取数据文件为现有技术,本发明实施例在此不再对其进行赘述。
需要说明的是,本发明实施例提供的数据推送方法中采用的分布式爬虫技术是一个快速、高层次的屏幕抓取和网页抓取框架,用于抓取网站并从页面中提取结构化的据,爬虫技术用途广泛,可以用于数据挖掘、监测和自动化测试,而且,还可以根据实际情况的变化对该爬虫框架进行修改,具有更高的实用性。
还需要说明的是,本发明实施例中的爬虫框架提供了多种类型的爬虫基类,如BaseSpider、sitemap爬虫等,本领域技术人员可根据实际情况选择具体类型的爬虫基类。
应用本发明图1所示实施例,通过从至少两个网站抓取数据文件,将抓取到的数据文件存储在服务器中,并向用户推送用于访问在服务器中的数据文件的链接,使用户可以在短时间内查找到至少两个网站中的视频、音频、图片、文档等数据,与传统方法相比,不需要切换多个网站进行搜索,即可搜索到大量、全面的数据,从而提高了视频、音频、图片、文档等数据的搜索效率。
图2为本发明实施例提供的第二种数据推送方法的流程示意图,本发明图2所示实施例在图1所示实施例的基础上,预先设置用于存储网页URL的待抓取队列,增加以下两个步骤:
S104、针对所述至少两个网站包含的任一目标网页URL,判断是否基于所述目标网页URL抓取与待抓取数据类型对应的数据文件,如果否,执行S105;
S105、将所述目标网页URL添加在所述待抓取队列中。
本实施例的S101可以包括S101A和S101B,其中,
S101A、判断所述待抓取队列中是否存在网页URL,如果存在,执行S101B,其中,所述网页URL为所述至少两个网站包含的网页URL;
S101B、根据预设的数据抓取策略,基于所述待抓取队列中存在的网页URL抓取与待抓取数据的类型对应的数据文件。
需要说明的是,本发明实施例中的判断待抓取队列中是否存在网页URL的过程与现有技术相同,此处不再赘述。
可以理解的是,若待抓取队列中不存在网页URL,则整个抓取过程结束。
具体地,根据预设的文件抓取策略中的抓取顺序,基于所述待抓取队列中存在的网页URL抓取与待抓取数据的类型对应的数据文件。
需要说明的是,本实施例不限定具体的抓取顺序,在实际应用中,本领域技术人员可根据实际情况采用诸如先添加先抓取、先添加后抓取、随机抓取或者其它的抓取顺序。
可以理解的是,如果已经基于该目标网页URL抓取过与待抓取数据类型对应的数据文件,则不抓取该网页URL。
可选地,本发明实施例中通过对已经抓取过的网页URL进行标记,并根据待抓取的网页URL是否存在标记,来判断该网页URL是否被抓取过。
需要说明的是,本发明实施例中的判断网页URL是否被抓取的方法仅为举例说明,本实施例不限定具体的判断网页URL是否被抓取过的过程,本领域技术人员可根据实际情况,采用URL去重方法、URL相似性判断方法等其它方法来判断待抓取的网页URL是否被抓取过。
应用本发明图2所示实施例,通过从至少两个网站抓取数据文件,将抓取到的数据文件存储在服务器中,并向用户推送用于访问在服务器中的数据文件的链接,使用户可以在短时间内查找到至少两个网站中的视频、音频、图片、文档等数据,与传统方法相比,不需要切换多个网站进行搜索,即可搜索到大量、全面的数据,从而提高了视频、音频、图片、文档等数据的搜索效率。并且仅对未抓取的网页进行抓取,避免了重复抓取所消耗的资源,提高了资源利用率。
图3为本发明实施例提供的第三种数据推送方法的流程示意图,本发明图3所示实施例在图1所示实施例的基础上,增加以下两个步骤:
S106、根据预设的提取规则,在所述至少两个网站包含的网页中提取与所述数据文件对应的描述信息;
可选地,预设的提取规则包括字符串匹配算法,例如KMP算法,AC算法等。
需要说明的是,数据文件对应的描述信息包括至少两个网站中的网页中对抓取的数据文件的内容的描述、标题的描述及摘要的描述等内容。
可选地,本实施例中将描述信息保存在DongoDB数据库中。
需要说明的是,本实施例不限定具体的数据库类型,本领域技术人员可根据实际情况将描述信息保存在NoSQL数据库或redis数据库等其它数据库中。
S107、根据所述描述信息,建立与所述描述信息对应的数据文件的索引。
具体地,在实际应用中,将描述信息保存在DongoDB数据库中后,后端程序利用ElasticSearch建立对应数据文件的索引。
需要说明的是,ElasticSearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。ElasticSearch是用Iava开发的,并作为Apache许可条款下的开放源码分布,是流行的企业搜索引擎,应用于云计算中,能够达到稳定、可靠、快速的实时搜索,而且安装使用方便。
具体地,在实际应用中,在建立数据文件的索引时后,根据数据文件的索引来搜索存储在服务器中的数据文件。
具体地,本发明实施中的步骤:根据所述描述信息,建立与所述描述信息对应的数据文件的索引,可以将所述描述信息存储在数据库中;定时或每隔预设时间段检测所述数据库中是否存在新增的描述信息;如果存在,建立与所述新增的描述信息对应的数据文件的索引。
在实际应用中,可以事先对各大网站的数据更新时间进行调查,获取各大网站数据更新频率高的时间点,比如中午十二点、晚上八点等时间点,就可以设置每天中午十二点和每天晚上八点检测数据库中是否存在新增的描述信息。
需要说明的是,本领域技术人员可根据各个网站的实际情况,确定具体的间隔时间段,来检测数据库中的是否有新增的描述信息。
需要说明的是,在实际应用中,还可以实时的或者根据相关人员的检测指令来检测数据库中是否存在新增的描述信息。
需要说明的是,本发明实施例中的检测数据库中是否有新增的描述信息的过程与现有技术中的检测过程相同,本领域技术人员可以通过查看数据库日志等方式来检测数据库中是否有新增的描述信息,详细过程,此处不再赘述。
具体地,在实际应用中,本发明实施例中通过专门的API接口对索引进行增加、查询、更新、删减等操作。举例说明,可以根据用户新的需求,增加或删除相应数据文件的索引,对数据文件的索引进行更新。
需要说明的是,本实施例中的API接口,是一套简单易用的接口,前端不需要考虑具体的索引接口和原理,通过简单的http请求,即可创建、搜索、更新和删除索引。
应用本发明图3所示实施例,通过从至少两个网站中抓取待抓取的数据文件,并从至少两个网站的网页上提取与数据文件对应的描述信息,然后根据描述信息建立对应数据文件的索引,将数据文件的索引推送给用户。使得用户可以快速的搜索到大量、全面的数据,提高数据搜索的效率,同时采用索引技术,提高了搜索的准确性。进一步地提高了用户体验。并且通过对数据库中新增的描述信息进行检测,并根据新增的描述信息建立对应的数据文件的索引,进一步提高了通过索引搜索相关数据的准确性和实时性,保证最新的数据文件可以被用户搜索、浏览到。
图4为本发明实施例提供的第四种数据推送方法的流程示意图,本发明图4所示实施例在图3所示实施例的基础上,在S107之前,增加S108、利用分词技术,对所述描述信息进行分词,得到分词结果。
本发明实施例所示的S107为S107A:根据所述分词结果,建立与所述描述信息对应的数据文件的索引。
优选地,本实施例中采用IK分词技术,对描述信息进行分词,得到分词结果。
需要说明的是,本实施例不限定具体的分词技术,本领域技术人员可根据实际情况采用其他的分词技术对描述信息进行分词。
本发明实施例提供的一种数据推送方法,通过对描述信息进行分词,并根据分词结果,建立相应数据文件的索引,使得用户根据推送的用于访问存储在服务器中的数据文件的索引,可以快速、准确的搜索所需数据。
具体地,本实施例中的前端通过调用API接口,向用户提供了搜索展示界面,用户在该界面上能对所需数据进行搜索,并且对搜索到的喜欢的内容进行评分、点赞等操作。
举例说明,用户根据搜索到的图片的画质是否清晰、图片内容是否搞笑等因素,在前端网站页面上对搜索到的图片进行评分或者点赞,使得网站运营人员能够根据统计的图片的分数、点赞次数,来逐渐的从海量的图片内容中找出优质的图片。
应用本发明图4所示实施例,通过从至少两个网站中抓取待抓取的数据文件,并从至少两个网站的网页上提取与数据文件对应的描述信息,利用分词技术,对所述描述信息进行分词,得到分词结果;根据所述分词结果,建立与所述描述信息对应的数据文件的索引,将数据文件的索引推送给用户。使得用户可以快速的搜索到大量、全面的数据,提高数据搜索的效率,同时采用分词技术和索引技术,提高了搜索的准确性。进一步地提高了用户体验。
与上述的方法实施例相对应,本发明实施例还提供一种数据推送装置。
图5为本发明实施例提供的一种数据推送装置的结构示意图,可以包括:抓取模块201、存储模块202和推送模块203;
抓取模块201,用于根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件;
存储模块202,用于将所述数据文件存储在所述服务器中;
推送模块203,用于向用户推送用于访问存储在所述服务器中的数据文件的链接,以使用户根据数据文件的链接访问并搜索存储在所述服务器中的数据文件。
在实际应用中,本发明实施例所示的抓取模块201,具体可以用于:
根据预设的数据文件抓取策略,利用分布式爬虫技术,从至少两个网站抓取与待抓取数据的类型对应的数据文件。
在实际应用中,可以预先设置用于存储网页URL的待抓取队列,本发明实施例所示的抓取模块201可以包括:判断子模块和抓取子模块(图中未示出),其中,
判断子模块,用于判断所述待抓取队列中是否存在网页URL,其中,所述网页URL为所述至少两个网站包含的网页URL;
抓取子模块,用于在所述判断子模块判断结果为是的情况下,根据预设的数据抓取策略,基于所述待抓取队列中存在的网页URL抓取与待抓取数据类型对应的数据文件。
应用本发明图5所示实施例,通过从至少两个网站抓取数据文件,将抓取到的数据文件存储在服务器中,并向用户推送用于访问在服务器中的数据文件的链接,使用户可以在短时间内查找到至少两个网站中的视频、音频、图片、文档等数据,与传统方法相比,不需要切换多个网站进行搜索,即可搜索到大量、全面的数据,从而提高了视频、音频、图片、文档等数据的搜索效率。
图6为本发明实施例提供的第二种数据推送装置的结构示意图,预先设置用于存储网页URL的待抓取队列;本发明图6所示实施例在图5所示实施例基础上增加:判断模块204和添加模块205;
判断模块204,用于针对所述至少两个网站包含的任一目标网页URL,判断是否基于所述目标网页URL抓取与待抓取数据类型对应的数据文件;
添加模块205,用于在判断模块204判断为否的情况下,将所述目标网页URL添加在所述待抓取队列中。
本发明实施例所示的抓取模块201可以包括:判断子模块和抓取子模块(图中未示出),其中,
判断子模块,用于判断所述待抓取队列中是否存在网页URL,其中,所述网页URL为所述至少两个网站包含的网页URL;
抓取子模块,用于在所述判断子模块判断结果为是的情况下,根据预设的数据抓取策略,基于所述待抓取队列中存在的网页URL抓取与待抓取数据类型对应的数据文件。
应用本发明图6所示实施例,通过从至少两个网站抓取数据文件,将抓取到的数据文件存储在服务器中,并向用户推送用于访问在服务器中的数据文件的链接,使用户可以在短时间内查找到至少两个网站中的视频、音频、图片、文档等数据,与传统方法相比,不需要切换多个网站进行搜索,即可搜索到大量、全面的数据,从而提高了视频、音频、图片、文档等数据的搜索效率。并且仅对未抓取的网页进行抓取,避免了重复抓取所消耗的资源,提高了资源利用率。
图7为本发明实施例提供的第三种数据推送装置的结构示意图,本发明图7所示实施例在图5所示实施例的基础上,增加:提取模块206和索引建立模块207;
提取模块206,用于根据预设的提取规则,在所述至少两个网站包含的网页中提取与所述数据文件对应的描述信息;
索引建立模块207,用于根据所述描述信息,建立与所述描述信息对应的数据文件的索引,以使用户根据数据文件的索引搜索存储在所述服务器中的数据文件。
本发明实施例所示的索引建立模块207,可以包括:存储子模块、检测子模块和索引建立子模块(图中未示出);
存储子模块,用于将所述描述信息存储在数据库中;
检测子模块,用于定时或每隔预设时间段检测所述数据库中是否存在新增的描述信息;
索引建立子模块,用于在所述检测子模块检测为是的情况下,建立与所述新增的描述信息对应的数据文件的索引。
应用本发明图7所示实施例,通过从至少两个网站中抓取待抓取的数据文件,并从至少两个网站的网页上提取与数据文件对应的描述信息,然后根据描述信息建立对应数据文件的索引,将数据文件的索引推送给用户。使得用户可以快速的搜索到大量、全面的数据,提高数据搜索的效率,同时采用索引技术,提高了搜索的准确性。进一步地提高了用户体验。并且通过对数据库中新增的描述信息进行检测,并根据新增的描述信息建立对应的数据文件的索引,进一步提高了通过索引搜索相关数据的准确性和实时性,保证最新的数据文件可以被用户搜索、浏览到。
图8为本发明实施例提供的第四种数据推送装置的结构示意图,本发明图8所示实施例在图7所示实施例的基础上,增加分词模块208;
分词模块208,用于利用分词技术,对所述描述信息进行分词,得到分词结果。
本发明实施例所示的索引建立模块207,具体可以用于:
根据所述分词结果,建立与所述描述信息对应的数据文件的索引。
应用本发明图8所示实施例,通过从至少两个网站中抓取待抓取的数据文件,并从至少两个网站的网页上提取与数据文件对应的描述信息,利用分词技术,对所述描述信息进行分词,得到分词结果;根据所述分词结果,建立与所述描述信息对应的数据文件的索引,将数据文件的索引推送给用户。使得用户可以快速的搜索到大量、全面的数据,提高数据搜索的效率,同时采用分词技术和索引技术,提高了搜索的准确性。进一步地提高了用户体验。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (14)
1.一种数据推送方法,应用于服务器,其特征在于,包括:
根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件;
将所述数据文件存储在所述服务器中;
向用户推送用于访问存储在所述服务器中的数据文件的链接,以使用户根据数据文件的链接访问并搜索存储在所述服务器中的数据文件。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件,包括:
根据预设的数据文件抓取策略,利用分布式爬虫技术,从至少两个网站抓取与待抓取数据的类型对应的数据文件。
3.根据权利要求1所述的方法,其特征在于,预先设置用于存储网页URL的待抓取队列;
所述根据预设的数据抓取策略,从至少两个网站抓取与待抓取数据类型对应的数据文件,包括:
判断所述待抓取队列中是否存在网页URL,其中,所述网页URL为所述至少两个网站包含的网页URL;
如果存在,根据预设的数据抓取策略,基于所述待抓取队列中存在的网页URL抓取与待抓取数据的类型对应的数据文件。
4.根据权利要求3所述的方法,其特征在于,还包括:
针对所述至少两个网站包含的任一目标网页URL,判断是否基于所述目标网页URL抓取与待抓取数据类型对应的数据文件;
如果否,将所述目标网页URL添加在所述待抓取队列中。
5.根据权利要求1所述的方法,其特征在于,还包括:
根据预设的提取规则,在所述至少两个网站包含的网页中提取与所述数据文件对应的描述信息;
根据所述描述信息,建立与所述描述信息对应的数据文件的索引。
6.根据权利要求5所述的方法,其特征在于,所述根据所述描述信息,建立与所述描述信息对应的数据文件的索引,包括:
将所述描述信息存储在数据库中;
定时或每隔预设时间段检测所述数据库中是否存在新增的描述信息;
如果存在,建立与所述新增的描述信息对应的数据文件的索引。
7.根据权利要求5所述的方法,其特征在于,在根据所述描述信息,建立与所述描述信息对应的数据文件的索引之前,还包括:
利用分词技术,对所述描述信息进行分词,得到分词结果;
所述根据所述描述信息,建立与所述描述信息对应的数据文件的索引,包括:
根据所述分词结果,建立与所述描述信息对应的数据文件的索引。
8.一种数据推送装置,应用于服务器,其特征在于,包括:抓取模块、存储模块和推送模块;
所述抓取模块,用于根据预设的数据文件抓取策略,从至少两个网站抓取与待抓取数据的类型对应的数据文件;
所述存储模块,用于将所述数据文件存储在所述服务器中;
所述推送模块,用于向用户推送用于访问存储在所述服务器中的数据文件的链接,以使用户根据数据文件的链接访问并搜索存储在所述服务器中的数据文件。
9.根据权利要求8所述的装置,其特征在于,所述抓取模块,具体用于:
根据预设的数据文件抓取策略,利用分布式爬虫技术,从至少两个网站抓取与待抓取数据的类型对应的数据文件。
10.根据权利要求8所述的装置,其特征在于,预先设置用于存储网页URL的待抓取队列;
所述抓取模块,包括:判断子模块和抓取子模块;
所述判断子模块,用于判断所述待抓取队列中是否存在网页URL,其中,所述网页URL为所述至少两个网站包含的网页URL;
所述抓取子模块,用于在所述判断子模块判断结果为是的情况下,根据预设的数据抓取策略,基于所述待抓取队列中存在的网页URL抓取与待抓取数据类型对应的数据文件。
11.根据权利要求10所述的装置,其特征在于,还包括:判断模块和添加模块;
所述判断模块,用于针对所述至少两个网站包含的任一目标网页URL,判断是否基于所述目标网页URL抓取与待抓取数据类型对应的数据文件;
所述添加模块,用于所述判断模块判断为否的情况下,将所述目标网页URL添加在所述待抓取队列中。
12.根据权利要求8所述的装置,其特征在于,还包括:提取模块和索引建立模块;
所述提取模块,用于根据预设的提取规则,在所述至少两个网站包含的网页中提取与所述数据文件对应的描述信息;
所述索引建立模块,用于根据所述描述信息,建立与所述描述信息对应的数据文件的索引,以使用户根据数据文件的索引搜索存储在所述服务器中的数据文件。
13.根据权利要求12所述的装置,其特征在于,所述索引建立模块,包括:存储子模块、检测子模块和索引建立子模块;
所述存储子模块,用于将所述描述信息存储在数据库中;
所述检测子模块,用于定时或每隔预设时间段检测所述数据库中是否存在新增的描述信息;
所述索引建立子模块,用于在所述检测子模块检测为是的情况下,建立与所述新增的描述信息对应的数据文件的索引。
14.根据权利要求12所述的装置,其特征在于,还包括:分词模块;
所述分词模块,用于利用分词技术,对所述描述信息进行分词,得到分词结果;
所述索引建立模块,具体用于:
根据所述分词结果,建立与所述描述信息对应的数据文件的索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610201534.XA CN105893559A (zh) | 2016-03-31 | 2016-03-31 | 一种数据推送方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610201534.XA CN105893559A (zh) | 2016-03-31 | 2016-03-31 | 一种数据推送方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105893559A true CN105893559A (zh) | 2016-08-24 |
Family
ID=57011985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610201534.XA Pending CN105893559A (zh) | 2016-03-31 | 2016-03-31 | 一种数据推送方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105893559A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247763A (zh) * | 2017-05-31 | 2017-10-13 | 北京凤凰理理它信息技术有限公司 | 业务数据统计方法、装置、系统、存储介质及电子设备 |
CN107273450A (zh) * | 2017-05-31 | 2017-10-20 | 成都明途科技有限公司 | 一种新型智能推荐资源的系统 |
CN111367870A (zh) * | 2018-12-25 | 2020-07-03 | 深圳市优必选科技有限公司 | 一种绘本共享方法、装置和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833587A (zh) * | 2010-05-28 | 2010-09-15 | 上海交通大学 | 网络视频搜索系统 |
CN101937469A (zh) * | 2010-09-15 | 2011-01-05 | 深圳市任子行网络技术股份有限公司 | 视频网站的信息抓取方法 |
CN104601712A (zh) * | 2015-01-27 | 2015-05-06 | 黄瑞锋 | 资源推送方法及系统 |
CN104765885A (zh) * | 2015-04-29 | 2015-07-08 | 北京奇艺世纪科技有限公司 | 一种ugc内容库扩充方法及装置 |
CN104881501A (zh) * | 2015-06-19 | 2015-09-02 | 四川大学 | 互联网信息的自动获取与推送方法 |
CN105005576A (zh) * | 2015-03-27 | 2015-10-28 | 合一信息技术(北京)有限公司 | 一种视频网站相似用户搜索系统和方法 |
CN105279272A (zh) * | 2015-10-30 | 2016-01-27 | 南京未来网络产业创新有限公司 | 一种基于分布式网络爬虫的内容聚合方法 |
-
2016
- 2016-03-31 CN CN201610201534.XA patent/CN105893559A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833587A (zh) * | 2010-05-28 | 2010-09-15 | 上海交通大学 | 网络视频搜索系统 |
CN101937469A (zh) * | 2010-09-15 | 2011-01-05 | 深圳市任子行网络技术股份有限公司 | 视频网站的信息抓取方法 |
CN104601712A (zh) * | 2015-01-27 | 2015-05-06 | 黄瑞锋 | 资源推送方法及系统 |
CN105005576A (zh) * | 2015-03-27 | 2015-10-28 | 合一信息技术(北京)有限公司 | 一种视频网站相似用户搜索系统和方法 |
CN104765885A (zh) * | 2015-04-29 | 2015-07-08 | 北京奇艺世纪科技有限公司 | 一种ugc内容库扩充方法及装置 |
CN104881501A (zh) * | 2015-06-19 | 2015-09-02 | 四川大学 | 互联网信息的自动获取与推送方法 |
CN105279272A (zh) * | 2015-10-30 | 2016-01-27 | 南京未来网络产业创新有限公司 | 一种基于分布式网络爬虫的内容聚合方法 |
Non-Patent Citations (1)
Title |
---|
任严: "基于网络视频业务的搜索引擎的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247763A (zh) * | 2017-05-31 | 2017-10-13 | 北京凤凰理理它信息技术有限公司 | 业务数据统计方法、装置、系统、存储介质及电子设备 |
CN107273450A (zh) * | 2017-05-31 | 2017-10-20 | 成都明途科技有限公司 | 一种新型智能推荐资源的系统 |
CN111367870A (zh) * | 2018-12-25 | 2020-07-03 | 深圳市优必选科技有限公司 | 一种绘本共享方法、装置和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543086B (zh) | 一种面向多数据源的网络数据采集与展示方法 | |
Mahto et al. | A dive into Web Scraper world | |
CN105989074B (zh) | 一种通过移动设备信息进行推荐冷启动的方法和装置 | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
US8682882B2 (en) | System and method for automatically identifying classified websites | |
CN103077250B (zh) | 一种网页内容抓取方法及装置 | |
CN102724184B (zh) | 一种网页收藏分享方法及服务器 | |
CN102446225A (zh) | 一种实时搜索的方法、装置和系统 | |
CN108021598B (zh) | 页面抽取模板匹配方法、装置及服务器 | |
CN107766399A (zh) | 用于使图像与内容项目匹配的方法和系统及机器可读介质 | |
CN100416556C (zh) | 信息检索方法和系统、数据处理设备和视频采集处理设备 | |
CN106033428B (zh) | 统一资源定位符的选择方法和统一资源定位符的选择装置 | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN107203588A (zh) | 一种数据分类管理系统 | |
CN107590236A (zh) | 一种面向建筑施工企业的大数据采集方法和系统 | |
CN105893559A (zh) | 一种数据推送方法及装置 | |
CN103226609A (zh) | 一种web聚焦搜索系统的搜索方法 | |
CN103186666A (zh) | 基于收藏进行搜索的方法、装置与设备 | |
CN103823907A (zh) | 一种整合在线视频资源地址的方法、装置及引擎 | |
CN103177022A (zh) | 一种恶意文件搜索方法及装置 | |
CN108280102A (zh) | 上网行为记录方法、装置及用户终端 | |
CN105183843A (zh) | 列表页识别系统及方法 | |
CN104915439A (zh) | 搜索结果推送方法和装置 | |
CN105488166A (zh) | 一种索引建立方法及装置 | |
CN104881501A (zh) | 互联网信息的自动获取与推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160824 |
|
RJ01 | Rejection of invention patent application after publication |