CN108549678A - 信息采集系统 - Google Patents

信息采集系统 Download PDF

Info

Publication number
CN108549678A
CN108549678A CN201810283352.0A CN201810283352A CN108549678A CN 108549678 A CN108549678 A CN 108549678A CN 201810283352 A CN201810283352 A CN 201810283352A CN 108549678 A CN108549678 A CN 108549678A
Authority
CN
China
Prior art keywords
information
acquisition
adding device
acquisition tasks
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810283352.0A
Other languages
English (en)
Other versions
CN108549678B (zh
Inventor
上官育松
付小东
孙涛
张金红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Current Online Technology Co Ltd
Original Assignee
Beijing Current Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Current Online Technology Co Ltd filed Critical Beijing Current Online Technology Co Ltd
Priority to CN201810283352.0A priority Critical patent/CN108549678B/zh
Publication of CN108549678A publication Critical patent/CN108549678A/zh
Application granted granted Critical
Publication of CN108549678B publication Critical patent/CN108549678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种信息采集系统,包括采集任务添加模块和采集爬虫模块;采集任务添加模块和采集爬虫模块均与数据库进行数据交互;采集任务添加模块包括任务管理子模块;任务管理子模块,用于添加多项采集任务信息,并将添加的多项采集任务信息上传至数据库;采集爬虫模块包括列表采集子模块;列表采集子模块,用于实时检索数据库,由数据库中获取每项采集任务信息,并采用分布式爬虫技术根据每项采集任务信息采集相应的目的信息,并将采集到的目的信息上传至数据库中进行存储。其实现了多项采集任务的并行执行,其相对于传统的爬虫信息采集单线程执行有效提高了信息采集效率。

Description

信息采集系统
技术领域
本发明涉及互联网技术领域,特别是涉及一种信息采集系统。
背景技术
传统的爬虫进行任务信息的采集过程中,由于采集的间隔时间较长,导致信息采集耗时长,效率低。
发明内容
基于此,有必要针对传统的爬虫进行任务信息采集时耗时较长,效率低的问题,提供一种信息采集系统。
基于上述目的,本发明提供的一种信息采集系统,包括采集任务添加模块和采集爬虫模块;所述采集任务添加模块和所述采集爬虫模块均与数据库进行数据交互;
其中,所述采集任务添加模块包括任务管理子模块;
所述任务管理子模块,用于添加多项采集任务信息,并将添加的多项所述采集任务信息上传至所述数据库;
所述采集爬虫模块包括列表采集子模块;
所述列表采集子模块,用于实时检索所述数据库,由所述数据库中获取每项所述采集任务信息,并采用分布式爬虫技术根据每项所述采集任务信息采集相应的目的信息,并将采集到的所述目的信息上传至所述数据库中进行存储。
在其中一个实施例中,所述任务管理子模块包括任务网址添加单元、搜索类型设置单元、列表类型添加单元、源码替换添加单元、网站域名添加单元、机构选择添加单元、标题添加单元、信息来源添加单元、信息数量添加单元、主题分类添加单元、时间添加单元、体裁分类添加单元、地域添加单元、信息类型添加单元和地址添加单元;
所述任务网址添加单元,用于添加所述采集任务信息中的网址信息;
所述搜索类型设置单元,用于设置所述采集任务信息中的信息类型;
所述列表类型添加单元,用于添加所述采集任务信息的列表形式;
所述源码替换添加单元,用于添加所述采集任务信息的替换源码信息;
所述网站域名添加单元,用于添加所述采集任务信息中的网站域名信息;
所述机构选择添加单元,用于添加所述采集任务信息中的机构信息;
所述标题添加单元,用于添加所述采集任务信息中的标题信息;
所述信息来源添加单元,用于添加所述采集任务信息中的来源信息;
所述信息数量添加单元,用于添加所述采集任务信息中的数量信息;
所述主题分类添加单元,用于添加所述采集任务信息中的主题信息;
所述时间添加单元,用于添加所述采集任务信息中的时间信息;
所述体裁分类添加单元,用于添加所述采集任务信息中的体裁信息;
所述地域添加单元,用于添加所述采集任务信息中的地域信息;
所述信息类型添加单元,用于添加所述采集任务信息的信息类型;
所述地址添加单元,用于添加所述采集任务信息中的地址信息。
在其中一个实施例中,所述采集任务添加模块还包括标签管理子模块,所述采集爬虫模块还包括内容采集子模块;
所述标签管理子模块,用于读取所述数据库,由所述数据库中获取所述目的信息中的详细页信息,根据所述详细页信息添加相应的标签信息,并将添加的所述标签信息上传至所述数据库;
所述内容采集子模块,用于读取所述数据库,由所述数据库中实时获取所述标签信息,并根据所述标签信息对所述详细页信息进行截取,获取相应的字段信息。
在其中一个实施例中,所述标签管理子模块包括网址编辑单元、开始标签编辑单元、结束标签编辑单元和替换标签编辑单元;
所述网址编辑单元,用于添加所述详细页信息对应的网址信息;
所述开始标签编辑单元,用于添加所述标签信息中的开头字段信息;
所述结束标签编辑单元,用于添加所述标签信息中的结尾字段信息;
所述替换标签编辑单元,用于添加所述标签信息中可替换字段信息。
在其中一个实施例中,所述采集任务添加模块还包括采集信息管理子模块;
所述采集信息管理子模块,用于读取所述数据库,由所述数据库中获取所述目的信息,并对所述目的信息进行处理。
在其中一个实施例中,所述采集信息管理子模块包括体裁分类单元、主题分类单元、发布机构单元、地域选择单元、文种选择单元、编辑单元、日期类型选择单元、排序单元、搜索类型选择单元、采集状态选择单元和图片快照选择单元;
所述体裁分类单元,用于对所述目的信息进行体裁设置;
所述主题分类单元,用于对所述目的信息进行主题设置;
所述发布机构单元,用于对所述目的信息进行发布机构设置;
所述地域选择单元,用于对所述目的信息进行地域选择设置;
所述文种选择单元,用于对所述目的信息进行文种分类设置;
所述编辑单元,用于对所述目的信息进行编辑设置;
所述日期类型选择单元,用于对所述目的信息进行日期设置;
所述排序单元,用于对多项所述目的信息进行排序设置;
所述搜索类型选择单元,用于对所述目的信息进行类型设置;
所述采集状态选择单元,用于对所述目的信息进行状态设置;
所述图片快照选择单元,用于对所述目的信息进行图片快照状态设置。
在其中一个实施例中,所述采集爬虫模块包括每日列表运行程序子模块;
所述每日列表运行程序子模块,用于实时获取所述采集任务信息对应的网站发布的更新目的信息,对所述目的信息进行实时更新。
在其中一个实施例中,所述每日列表运行程序子模块包括网络数据抽取单元和网页浏览单元;
所述网络数据抽取单元,用于实时获取所述采集任务信息对应的网站发布的网络数据;
所述网页浏览单元,用于浏览所述采集任务信息对应的网页中的各项详细信息。
在其中一个实施例中,还包括图片快照模块;
所述图片快照模块,用于利用GDI对所述目的信息中的网页进行截图保存,将所述目的信息保存至所述数据库中。
在其中一个实施例中,还包括网页快照模块;
所述网页快照模块,用于将所述目的信息中的网页源码保存至数据库中。
上述信息采集系统,通过设置采集任务添加模块和采集爬虫模块分别与数据库进行数据交互,由采集任务添加模块中的任务管理子模块添加多项采集任务信息,并将添加的多项采集任务信息上传至数据库中,进而再由采集爬虫模块中的列表采集子模块实时读取数据库,由数据库中获取每项采集任务信息,并采用分布式爬虫技术进行每项采集任务信息的同时采集,以获取相应的目的信息,实现了多项采集任务的并行执行,其相对于传统的爬虫信息采集单线程执行有效提高了信息采集效率。同时,通过设置采集爬虫模块与数据库的实时数据交互,进一步节省了信息采集时间,简化了爬虫结构,这也就更进一步的提高了信息采集效率。
附图说明
图1为本发明的信息采集系统的一具体实施例的架构图;
图2为本发明的信息采集系统的一具体实施例中采集任务添加模块中的任务管理子模块的界面图;
图3为本发明的信息采集系统的一具体实施例中采集任务添加模块中的标签管理子模块的界面图;
图4为本发明的信息采集系统的一具体实施例中采集任务添加模块中的采集信息管理子模块的界面图;
图5为本发明的信息采集系统的一具体实施例中采集爬虫模块中的每日列表运行程序子模块的界面图;
图6为本发明的信息采集系统的一具体实施例中图片快照模块界面示意图。
具体实施方式
为使本发明技术方案更加清楚,以下结合具体实施例对本发明做进一步详细说明。其中,应当说明的是,以下描述包括帮助理解的各种具体细节,但是这些细节将被视为仅是示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可对本文所述的各种实施例进行各种改变和修改。另外,为了清晰和简洁,公知功能和构造的描述可被省略。
以下描述和权利要求书中所使用的术语和词汇不限于文献含义,而是仅由发明人用来使本公开能够被清晰和一致地理解。因此,对于本领域技术人员而言应该明显的是,提供以下对本公开的各种实施例的描述仅是为了示例性目的,而非限制由所附权利要求及其等同物限定的本公开的目的。
应该理解,除非上下文明确另外指示,否则单数形式也包括复数指代。因此,例如,对“组件表面”的引用包括对一个或更多个这样的表面的引用。
参见图1,作为本发明的信息采集系统100的一具体实施例,其包括采集任务添加模块110和采集爬虫模块120。其中,采集任务添加模块110和采集爬虫模块120均与数据库130进行数据交互。采集任务添加模块110,用于添加多项采集任务信息。采集爬虫模块120,用于获取每项采集任务信息,并采用分布式爬虫技术根据每项采集任务信息获取相应的目的信息。
其中,在本发明的信息采集系统100的一具体实施例中,采集任务添加模块110具有任务管理功能、标签管理功能和采集信息管理功能。具体的,任务管理任务管理,主要用来添加需要采集的翻页网址,爬虫会通过这些翻页网址获取对应的详细页网址。标签管理是针对爬虫,爬虫会根据每个页面的信息进行标签截取,获取相应信息。采集信息管理可以对采集到的信息进行查看和人工修改,对信息进行集中处理和纠错。
由此,为满足上述采集任务添加模块110的各项功能,参见图2,在上述本发明的信息采集系统100的一具体实施例中,采集任务添加模块110包括任务管理子模块。其中,任务管理子模块,用于添加多项采集任务信息,并将添加的多项采集任务信息上传至数据库。此处,需要说明的是,所添加的多项采集任务信息中包括翻页网址信息。
对应的,采集爬虫模块120则包括列表采集子模块(图中未示出)。列表采集子模块,用于实时检索数据库130,由数据库130中获取每项采集任务信息,并采用分布式爬虫技术根据每项采集任务信息采集相应的目的信息,并将采集到的目的信息上传至数据库130中进行存储。也就是说,列表采集子模块是用于通过翻页网址信息获取相应的详细页网址信息的。即,列表采集子模块主要用于从采集任务添加中的翻页地址获取其中的每条信息的网址,并将网址存入数据库130。
由此,其通过采集任务添加模块110中的任务管理子模块添加多项采集任务信息,并将添加的多项采集任务信息上传至数据库130中,进而再由采集爬虫模块120中的列表采集子模块实时读取数据库130,由数据库130中获取每项采集任务信息,并采用分布式爬虫技术进行每项采集任务信息的同时采集,以获取相应的目的信息,实现了多项采集任务的并行执行,其相对于传统的爬虫信息采集单线程执行有效提高了信息采集效率。
同时,其通过设置采集任务添加模块110和采集爬虫模块120均能够与数据库130进行实时数据交互,这也就更进一步的节省了信息采集时间,简化了爬虫结构,从而更加有效的提高了信息采集效率。
参见图2,更为具体的,作为本发明的信息采集系统100的优选实施例,任务管理子模块包括任务网址添加单元、搜索类型设置单元、列表类型添加单元、源码替换添加单元、网站域名添加单元、机构选择添加单元、标题添加单元、信息来源添加单元、信息数量添加单元、主题分类添加单元、时间添加单元、体裁分类添加单元、地域添加单元、信息类型添加单元和地址添加单元。其中,任务网址添加单元,用于添加采集任务信息中的网址信息。搜索类型设置单元,用于设置采集任务信息中的信息类型。列表类型添加单元,用于添加采集任务信息的列表形式。源码替换添加单元,用于添加采集任务信息的替换源码信息。网站域名添加单元,用于添加采集任务信息中的网站域名信息。机构选择添加单元,用于添加采集任务信息中的机构信息。标题添加单元,用于添加采集任务信息中的标题信息。信息来源添加单元,用于添加采集任务信息中的来源信息。信息数量添加单元,用于添加采集任务信息中的数量信息。主题分类添加单元,用于添加采集任务信息中的主题信息。时间添加单元,用于添加采集任务信息中的时间信息。体裁分类添加单元,用于添加采集任务信息中的体裁信息。地域添加单元,用于添加采集任务信息中的地域信息。信息类型添加单元,用于添加采集任务信息的信息类型。地址添加单元,用于添加采集任务信息中的地址信息。
其通过设置任务管理子模块中的上述各项添加单元,使得添加的多项采集任务信息具有更强的针对性,避免了传统的爬虫信息采集中错误信息和冗余信息的出现,这也就有效提高了目的信息采集的准确性。
进一步的,在上述本发明的信息采集系统100的一具体实施例中,采集任务添加模块110还包括标签管理子模块。其中,标签管理子模块,用于读取数据库130,由数据库130中获取目的信息中的详细页信息,根据详细页信息添加相应的标签信息,并将添加的标签信息上传至数据库130。即,在本发明的信息采集系统100的一具体实施例中,标签管理是针对爬虫,爬虫会根据每个页面的信息进行标签截取,获取相应信息。
对应的,采集爬虫模块120则包括内容采集子模块(图中未示出)。其中,内容采集子模块,用于读取数据库130,由数据库130中实时获取标签信息,并根据标签信息对详细页信息进行截取,获取相应的字段信息。即,通过内容采集子模块根据标签管理子模块添加的标签信息,从详细页网址信息中进行截取,获取详细页网址信息中所需要的字段信息,使得所获取的信息更加详细具体。
具体的,参见图3,在本发明的信息采集系统100的具体实施例中,标签管理子模块包括网址编辑单元、开始标签编辑单元、结束标签编辑单元和替换标签编辑单元。其中,网址编辑单元,用于添加详细页信息对应的网址信息。开始标签编辑单元,用于添加标签信息中的开头字段信息。结束标签编辑单元,用于添加标签信息中的结尾字段信息。替换标签编辑单元,用于添加标签信息中可替换字段信息。
其通过在标签管理子模块中设置上述各项单元,保证了采集爬虫所采集到的字段信息的准确性,从而提高了信息采集的正确率。
更为优选的,在本发明的信息采集系统100的一具体实施例中,采集任务添加模块110还包括采集信息管理子模块。其中,采集信息管理子模块,主要用于对采集爬虫模块120所采集到的目的信息进行查看和人工修改,并对目的信息进行集中处理和纠错。
具体的,参见图4,采集信息管理子模块包括体裁分类单元、主题分类单元、发布机构单元、地域选择单元、文种选择单元、编辑单元、日期类型选择单元、排序单元、搜索类型选择单元、采集状态选择单元和图片快照选择单元。其中,体裁分类单元,用于对目的信息进行体裁设置。主题分类单元,用于对目的信息进行主题设置。发布机构单元,用于对目的信息进行发布机构设置。地域选择单元,用于对目的信息进行地域选择设置。文种选择单元,用于对目的信息进行文种分类设置。编辑单元,用于对目的信息进行编辑设置。日期类型选择单元,用于对目的信息进行日期设置。排序单元,用于对多项目的信息进行排序设置。搜索类型选择单元,用于对目的信息进行类型设置。采集状态选择单元,用于对目的信息进行状态设置。图片快照选择单元,用于对目的信息进行图片快照状态设置。
其通过设置上述采集信息管理子模块中的各项单元,实现了对采集到的信息的不同机构和不同地域的分类,这就使得所采集到的信息更加清晰,为后续的信息查找提供了便利。
另外,还需要说明的是,为了保证所采集的信息的实时性,在本发明的信息采集系统100中,采集爬虫模块120还包括每日列表运行程序子模块(图中未示出)。其中,每日列表运行程序子模块,用于实时获取采集任务信息对应的网站发布的更新目的信息。其通过设置每日列表运行程序子模块,实现了更新网站每天更新的信息,由此可以实时的获取每天官网发布的前台信息,保证了信息采集的实时性。
具体的,参见图5,每日列表运行程序子模块包括网络数据抽取单元和网页浏览单元。其中,网络数据抽取单元,用于实时获取采集任务信息对应的网站发布的网络数据。网页浏览单元,用于浏览采集任务信息对应的网页中的各项详细信息。
此处,需要说明的是,在上述各项子模块中还包括除上述文字描述的各项功能单元外,还包括其他一些功能单元并在图示中有所描述。此处为了避免重复不再进行赘述。
更进一步的,参见图1和图6,作为本发明的信息采集系统100的一具体实施例,优选的,其还包括图片快照模块140。其中,图片快照模块140,用于利用GDI对采集爬虫模块120获取的目的信息中的网页进行截图保存,将目的信息保存至数据库130中。其通过设置信息采集系统100的图片快照功能,利用GDI实现对网页的截图保存,截取的图片具有占用空间小,图片完整,图片清晰等特点,图片快照可以方便的对网页进行历史回溯。
更为优选的,在本发明的信息采集系统100的一具体实施例中,其还包括网页快照模块150。其中,网页快照模块150,用于将采集爬虫模块120采集到的目的信息中的网页源码保存至数据库130中,这样可以有效地对网页文字版信息进行资源典藏。
由此,本发明的信息采集系统100由后台任务网站(即采集任务添加模块110),采集爬虫模块120,图片快照模块140和网页快照模块150等构成,以http协议抓取分布在互联网的官方网站信息,并与服务器的数据库130进行交互,然后前台发布系统通过数据库130的查询,将相关的信息展示在前台,进而实现对信息的推送和整合分类,具有快速,高效,准确的特点,并且可以对采集到的信息进行不同机构和不同地域的分类。
另外,还需要说明的是,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种信息采集系统,其特征在于,包括采集任务添加模块和采集爬虫模块;所述采集任务添加模块和所述采集爬虫模块均与数据库进行数据交互;
其中,所述采集任务添加模块包括任务管理子模块;
所述任务管理子模块,用于添加多项采集任务信息,并将添加的多项所述采集任务信息上传至所述数据库;
所述采集爬虫模块包括列表采集子模块;
所述列表采集子模块,用于实时检索所述数据库,由所述数据库中获取每项所述采集任务信息,并采用分布式爬虫技术根据每项所述采集任务信息采集相应的目的信息,并将采集到的所述目的信息上传至所述数据库中进行存储。
2.根据权利要求1所述的信息采集系统,其特征在于,所述任务管理子模块包括任务网址添加单元、搜索类型设置单元、列表类型添加单元、源码替换添加单元、网站域名添加单元、机构选择添加单元、标题添加单元、信息来源添加单元、信息数量添加单元、主题分类添加单元、时间添加单元、体裁分类添加单元、地域添加单元、信息类型添加单元和地址添加单元;
所述任务网址添加单元,用于添加所述采集任务信息中的网址信息;
所述搜索类型设置单元,用于设置所述采集任务信息中的信息类型;
所述列表类型添加单元,用于添加所述采集任务信息的列表形式;
所述源码替换添加单元,用于添加所述采集任务信息的替换源码信息;
所述网站域名添加单元,用于添加所述采集任务信息中的网站域名信息;
所述机构选择添加单元,用于添加所述采集任务信息中的机构信息;
所述标题添加单元,用于添加所述采集任务信息中的标题信息;
所述信息来源添加单元,用于添加所述采集任务信息中的来源信息;
所述信息数量添加单元,用于添加所述采集任务信息中的数量信息;
所述主题分类添加单元,用于添加所述采集任务信息中的主题信息;
所述时间添加单元,用于添加所述采集任务信息中的时间信息;
所述体裁分类添加单元,用于添加所述采集任务信息中的体裁信息;
所述地域添加单元,用于添加所述采集任务信息中的地域信息;
所述信息类型添加单元,用于添加所述采集任务信息的信息类型;
所述地址添加单元,用于添加所述采集任务信息中的地址信息。
3.根据权利要求1所述的信息采集系统,其特征在于,所述采集任务添加模块还包括标签管理子模块,所述采集爬虫模块还包括内容采集子模块;
所述标签管理子模块,用于读取所述数据库,由所述数据库中获取所述目的信息中的详细页信息,根据所述详细页信息添加相应的标签信息,并将添加的所述标签信息上传至所述数据库;
所述内容采集子模块,用于读取所述数据库,由所述数据库中实时获取所述标签信息,并根据所述标签信息对所述详细页信息进行截取,获取相应的字段信息。
4.根据权利要求3所述的信息采集系统,其特征在于,所述标签管理子模块包括网址编辑单元、开始标签编辑单元、结束标签编辑单元和替换标签编辑单元;
所述网址编辑单元,用于添加所述详细页信息对应的网址信息;
所述开始标签编辑单元,用于添加所述标签信息中的开头字段信息;
所述结束标签编辑单元,用于添加所述标签信息中的结尾字段信息;
所述替换标签编辑单元,用于添加所述标签信息中可替换字段信息。
5.根据权利要求1至4任一项所述的信息采集系统,其特征在于,所述采集任务添加模块还包括采集信息管理子模块;
所述采集信息管理子模块,用于读取所述数据库,由所述数据库中获取所述目的信息,并对所述目的信息进行处理。
6.根据权利要求5所述的信息采集系统,其特征在于,所述采集信息管理子模块包括体裁分类单元、主题分类单元、发布机构单元、地域选择单元、文种选择单元、编辑单元、日期类型选择单元、排序单元、搜索类型选择单元、采集状态选择单元和图片快照选择单元;
所述体裁分类单元,用于对所述目的信息进行体裁设置;
所述主题分类单元,用于对所述目的信息进行主题设置;
所述发布机构单元,用于对所述目的信息进行发布机构设置;
所述地域选择单元,用于对所述目的信息进行地域选择设置;
所述文种选择单元,用于对所述目的信息进行文种分类设置;
所述编辑单元,用于对所述目的信息进行编辑设置;
所述日期类型选择单元,用于对所述目的信息进行日期设置;
所述排序单元,用于对多项所述目的信息进行排序设置;
所述搜索类型选择单元,用于对所述目的信息进行类型设置;
所述采集状态选择单元,用于对所述目的信息进行状态设置;
所述图片快照选择单元,用于对所述目的信息进行图片快照状态设置。
7.根据权利要求1至4任一项所述的信息采集系统,其特征在于,所述采集爬虫模块包括每日列表运行程序子模块;
所述每日列表运行程序子模块,用于实时获取所述采集任务信息对应的网站发布的更新目的信息,对所述目的信息进行实时更新。
8.根据权利要求7所述的信息采集系统,其特征在于,所述每日列表运行程序子模块包括网络数据抽取单元和网页浏览单元;
所述网络数据抽取单元,用于实时获取所述采集任务信息对应的网站发布的网络数据;
所述网页浏览单元,用于浏览所述采集任务信息对应的网页中的各项详细信息。
9.根据权利要求1至4任一项所述的信息采集系统,其特征在于,还包括图片快照模块;
所述图片快照模块,用于利用GDI对所述目的信息中的网页进行截图保存,将所述目的信息保存至所述数据库中。
10.根据权利要求1至4任一项所述的信息采集系统,其特征在于,还包括网页快照模块;
所述网页快照模块,用于将所述目的信息中的网页源码保存至数据库中。
CN201810283352.0A 2018-04-02 2018-04-02 信息采集系统 Active CN108549678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810283352.0A CN108549678B (zh) 2018-04-02 2018-04-02 信息采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810283352.0A CN108549678B (zh) 2018-04-02 2018-04-02 信息采集系统

Publications (2)

Publication Number Publication Date
CN108549678A true CN108549678A (zh) 2018-09-18
CN108549678B CN108549678B (zh) 2020-06-19

Family

ID=63513737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810283352.0A Active CN108549678B (zh) 2018-04-02 2018-04-02 信息采集系统

Country Status (1)

Country Link
CN (1) CN108549678B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254027A (zh) * 2011-07-29 2011-11-23 四川长虹电器股份有限公司 批量获取网页内容的方法
US8190556B2 (en) * 2006-08-24 2012-05-29 Derek Edwin Pappas Intellegent data search engine
CN103678511A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 根据可视化模板进行网页内容抽取的方法及装置
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统
CN105243159A (zh) * 2015-10-28 2016-01-13 福建亿榕信息技术有限公司 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN105447184A (zh) * 2015-12-15 2016-03-30 北京百分点信息科技有限公司 信息抓取方法及装置
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法
CN107273409A (zh) * 2017-05-03 2017-10-20 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8190556B2 (en) * 2006-08-24 2012-05-29 Derek Edwin Pappas Intellegent data search engine
CN102254027A (zh) * 2011-07-29 2011-11-23 四川长虹电器股份有限公司 批量获取网页内容的方法
CN103678511A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 根据可视化模板进行网页内容抽取的方法及装置
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统
CN105243159A (zh) * 2015-10-28 2016-01-13 福建亿榕信息技术有限公司 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN105447184A (zh) * 2015-12-15 2016-03-30 北京百分点信息科技有限公司 信息抓取方法及装置
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法
CN107273409A (zh) * 2017-05-03 2017-10-20 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及系统

Also Published As

Publication number Publication date
CN108549678B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
Harris et al. Global maps of twenty-first century forest carbon fluxes
Chamberlain et al. R Python, and Ruby clients for GBIF species occurrence data
Park et al. Web-based collaborative big data analytics on big data as a service platform
US10025880B2 (en) Methods for integrating semantic search, query, and analysis and devices thereof
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
US20100205168A1 (en) Thread-Based Incremental Web Forum Crawling
CN107563725A (zh) 一种优化繁琐人才招聘过程的招聘系统
van Sinderen et al. Empowering enterprises through next-generation enterprise computing
CN111259627A (zh) 文档分析方法、装置、计算机存储介质及设备
CN103631937B (zh) 构建列存储索引的方法、装置及系统
US8001154B2 (en) Library description of the user interface for federated search results
US20170139939A1 (en) Method of suggestion of content retrieved from a set of information sources
CN104317948A (zh) 页面数据抓取方法和系统
CN102135976A (zh) 超文本标识语言页面结构化数据提取方法及装置
Wang et al. What is the gist? Understanding the use of public gists on GitHub
Dharmapal et al. Big data analytics using agile model
TWI544348B (zh) 開端式偵測及文字資料中之字叢集之分類
Bissyandé et al. Orion: A software project search engine with integrated diverse software artifacts
Brisaboa et al. A reusable software architecture for geographic information systems based on software product line engineering
Manjunath et al. A Big Data MapReduce Hadoop distribution architecture for processing input splits to solve the small data problem
Bazán-Vera et al. The current state and effects of agromatic: a systematic literature review
CN108549678A (zh) 信息采集系统
Di Martino et al. Machine learning, big data analytics and natural language processing techniques with application to social media analysis for energy communities
Ganapathy et al. Easy urls in the content management system with crawlers for added security
Belcastro et al. A parallel library for social media analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant