CN112445958A - 一种基于人工智能的大数据采集存储系统及方法 - Google Patents
一种基于人工智能的大数据采集存储系统及方法 Download PDFInfo
- Publication number
- CN112445958A CN112445958A CN202011293708.2A CN202011293708A CN112445958A CN 112445958 A CN112445958 A CN 112445958A CN 202011293708 A CN202011293708 A CN 202011293708A CN 112445958 A CN112445958 A CN 112445958A
- Authority
- CN
- China
- Prior art keywords
- storage system
- data
- firewall
- artificial intelligence
- temporary storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims description 15
- 238000002955 isolation Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 abstract description 3
- 238000013481 data capture Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了大数据抓取技术领域的一种基于人工智能的大数据采集存储系统,该基于人工智能的大数据采集存储系统包括:抓取系统,通过所述抓取系统对全网的公开数据进行抓取;防火墙系统,所述防火墙的输入端链接到所述抓取系统的输出端上;临时存储系统,所述临时存储系统的输入端链接到所述防火墙系统的输出端上,经过所述防火墙系统的数据输入到所述临时存储系统内进行临时存储;存储系统,所述存储系统的输入端链接到所述临时存储系统的输出端上,本发明通过防火墙以及临时存储系统对抓取的数据进行过滤,隔离清查等方式对抓取的数据进行处理,减少了对无用数据的存储,并且提高了数据的安全性。
Description
技术领域
本发明涉及大数据抓取技术领域,具体为一种基于人工智能的大数据采集存储系统及方法。
背景技术
大数据,IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
随着信息化时代的到来,云计算技术、数字技术、互联网技术等获得了进一步的发展和应用,信息产业的竞争力也在不断的加剧,对大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据,还有就是把计算机聚合成服务器集群越来越简单,把那些具有潜在价值,可以给商业带来巨大利润。
网上的数据充斥着大量的无用数据以及不安全数据,在通过大数据平台对全网公开数据进行抓取过程中,极易将无用数据以及不安全数据抓取并存储,虽然现有的大数据平台均安装有防火墙对数据进行过滤隔离,但是,具有长期潜伏的不安全数据却没有多大的效果,严重影响了数据安全。
发明内容
本发明的目的在于提供一种基于人工智能的大数据采集存储系统及方法,以解决上述背景技术中提出的网上的数据充斥着大量的无用数据以及不安全数据,在通过大数据平台对全网公开数据进行抓取过程中,极易将无用数据以及不安全数据抓取并存储,虽然现有的大数据平台均安装有防火墙对数据进行过滤隔离,但是,具有长期潜伏的不安全数据却没有多大的效果,严重影响了数据安全的问题。
为实现上述目的,本发明提供如下技术方案:一种基于人工智能的大数据采集存储系统,该基于人工智能的大数据采集存储系统包括:
抓取系统,通过所述抓取系统对全网的公开数据进行抓取;
防火墙系统,所述防火墙的输入端链接到所述抓取系统的输出端上,通过所述抓取系统将抓取的公开数据输入到所述防火墙上;
临时存储系统,所述临时存储系统的输入端链接到所述防火墙系统的输出端上,经过所述防火墙系统的数据输入到所述临时存储系统内进行临时存储;
存储系统,所述存储系统的输入端链接到所述临时存储系统的输出端上,经过所述临时存储的数据输入到所述存储系统内进行存储。
优选的,所述防火墙系统为市面上常见的防火墙系统。
优选的,所述临时存储系统的存储时间为1-2周。
优选的,所述存储系统为分布式存储系统。
一种基于人工智能的大数据采集存储系统的使用方法,该基于人工智能的大数据采集存储系统的使用方法包括如下步骤:
S1:通过所述抓取系统对全网的公开数据进行抓取;
S2:是防火墙系统设置在所述抓取系统的输出端,通过所述防火墙系统对抓取的数据进行过滤处理,筛除不安全数据和无用数据;
S3:经过所述防火墙筛除的数据进入到所述临时存储系统内,数据在所述临时存储系统内进行临时存储,进行隔离观察,对突破所述防火墙的不安全系统以及无用系统进行清查;
S4:经过所述临时存储系统清查后的数据进入到所述存储系统内进行分布式存储。
与现有技术相比,本发明的有益效果是:本发明通过防火墙以及临时存储系统对抓取的数据进行过滤,隔离清查等方式对抓取的数据进行处理,减少了对无用数据的存储,并且提高了数据的安全性。
附图说明
图1为本发明结构框图;
图2为本发明使用方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于人工智能的大数据采集存储系统及方法,能够对抓取的数据进行过滤,隔离清查等方式对抓取的数据进行处理,减少了对无用数据的存储,并且提高了数据的安全性,请参阅图1,
该基于人工智能的大数据采集存储系统包括:
抓取系统,通过抓取系统对全网的公开数据进行抓取;
防火墙系统,防火墙的输入端链接到抓取系统的输出端上,通过抓取系统将抓取的公开数据输入到防火墙上,防火墙系统为市面上常见的防火墙系统;
临时存储系统,临时存储系统的输入端链接到防火墙系统的输出端上,经过防火墙系统的数据输入到临时存储系统内进行临时存储,临时存储系统的存储时间为1-2周;
存储系统,存储系统的输入端链接到临时存储系统的输出端上,经过临时存储的数据输入到存储系统内进行存储,存储系统为分布式存储系统。
请参阅图2,本发明还提供一种基于人工智能的大数据采集存储系统的使用方法,
该基于人工智能的大数据采集存储系统的使用方法包括如下步骤:
S1:通过抓取系统对全网的公开数据进行抓取;
S2:是防火墙系统设置在抓取系统的输出端,通过防火墙系统对抓取的数据进行过滤处理,筛除不安全数据和无用数据;
S3:经过防火墙筛除的数据进入到临时存储系统内,数据在临时存储系统内进行临时存储,进行隔离观察,对突破防火墙的不安全系统以及无用系统进行清查;
S4:经过临时存储系统清查后的数据进入到存储系统内进行分布式存储。
虽然在上文中已经参考实施例对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施例中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。
Claims (5)
1.一种基于人工智能的大数据采集存储系统,其特征在于:该基于人工智能的大数据采集存储系统包括:
抓取系统,通过所述抓取系统对全网的公开数据进行抓取;
防火墙系统,所述防火墙的输入端链接到所述抓取系统的输出端上,通过所述抓取系统将抓取的公开数据输入到所述防火墙上;
临时存储系统,所述临时存储系统的输入端链接到所述防火墙系统的输出端上,经过所述防火墙系统的数据输入到所述临时存储系统内进行临时存储;
存储系统,所述存储系统的输入端链接到所述临时存储系统的输出端上,经过所述临时存储的数据输入到所述存储系统内进行存储。
2.根据权利要求1所述的一种基于人工智能的大数据采集存储系统,其特征在于:所述防火墙系统为市面上常见的防火墙系统。
3.根据权利要求1所述的一种基于人工智能的大数据采集存储系统,其特征在于:所述临时存储系统的存储时间为1-2周。
4.根据权利要求1所述的一种基于人工智能的大数据采集存储系统,其特征在于:所述存储系统为分布式存储系统。
5.一种如权利要求1所述的基于人工智能的大数据采集存储系统的使用方法,其特征在于:该基于人工智能的大数据采集存储系统的使用方法包括如下步骤:
S1:通过所述抓取系统对全网的公开数据进行抓取;
S2:是防火墙系统设置在所述抓取系统的输出端,通过所述防火墙系统对抓取的数据进行过滤处理,筛除不安全数据和无用数据;
S3:经过所述防火墙筛除的数据进入到所述临时存储系统内,数据在所述临时存储系统内进行临时存储,进行隔离观察,对突破所述防火墙的不安全系统以及无用系统进行清查;
S4:经过所述临时存储系统清查后的数据进入到所述存储系统内进行分布式存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011293708.2A CN112445958A (zh) | 2020-11-18 | 2020-11-18 | 一种基于人工智能的大数据采集存储系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011293708.2A CN112445958A (zh) | 2020-11-18 | 2020-11-18 | 一种基于人工智能的大数据采集存储系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112445958A true CN112445958A (zh) | 2021-03-05 |
Family
ID=74737498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011293708.2A Pending CN112445958A (zh) | 2020-11-18 | 2020-11-18 | 一种基于人工智能的大数据采集存储系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112445958A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN206542439U (zh) * | 2016-12-12 | 2017-10-03 | 杭州将佐科技咨询有限公司 | 设定密级的科研信息咨询服务系统 |
US10051001B1 (en) * | 2015-07-31 | 2018-08-14 | Palo Alto Networks, Inc. | Efficient and secure user credential store for credentials enforcement using a firewall |
CN109981606A (zh) * | 2019-03-07 | 2019-07-05 | 北京华安普特网络科技有限公司 | 通用串行总线的硬件防火墙检测装置 |
CN110177139A (zh) * | 2019-05-23 | 2019-08-27 | 中国搜索信息科技股份有限公司 | 一种可公开的移动app数据抓取方法 |
CN111538886A (zh) * | 2020-04-30 | 2020-08-14 | 广东所能网络有限公司 | 一种基于人工智能的大数据采集存储系统及方法 |
CN111740962A (zh) * | 2020-05-27 | 2020-10-02 | 上海重盟信息技术有限公司 | 智能化网络安全监测系统 |
-
2020
- 2020-11-18 CN CN202011293708.2A patent/CN112445958A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10051001B1 (en) * | 2015-07-31 | 2018-08-14 | Palo Alto Networks, Inc. | Efficient and secure user credential store for credentials enforcement using a firewall |
CN206542439U (zh) * | 2016-12-12 | 2017-10-03 | 杭州将佐科技咨询有限公司 | 设定密级的科研信息咨询服务系统 |
CN109981606A (zh) * | 2019-03-07 | 2019-07-05 | 北京华安普特网络科技有限公司 | 通用串行总线的硬件防火墙检测装置 |
CN110177139A (zh) * | 2019-05-23 | 2019-08-27 | 中国搜索信息科技股份有限公司 | 一种可公开的移动app数据抓取方法 |
CN111538886A (zh) * | 2020-04-30 | 2020-08-14 | 广东所能网络有限公司 | 一种基于人工智能的大数据采集存储系统及方法 |
CN111740962A (zh) * | 2020-05-27 | 2020-10-02 | 上海重盟信息技术有限公司 | 智能化网络安全监测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105554070B (zh) | 一种基于警务大数据中心服务建设的方法 | |
CN104331435B (zh) | 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法 | |
CN106484709A (zh) | 一种日志数据的审计方法和审计装置 | |
CN112965979B (zh) | 一种用户行为分析方法、装置及电子设备 | |
CN105656698A (zh) | 一种网络应用系统智能监控结构与方法 | |
CN109034580B (zh) | 一种基于大数据分析的信息系统整体健康度评估方法 | |
CN111368165A (zh) | 时空流数据集成平台 | |
CN110427298A (zh) | 一种分布式日志的自动特征提取方法 | |
CN112416872A (zh) | 一种基于大数据的云平台日志管理系统 | |
CN111177193A (zh) | 一种基于Flink的日志流式处理方法及系统 | |
CN105139253A (zh) | 一种自助办税的云优化方法 | |
CN105630797A (zh) | 数据处理方法及系统 | |
CN112507006A (zh) | 基于云端的电网企业运行数据整合系统 | |
Cao et al. | Research on intelligent traffic control model and simulation based on the internet of things and cloud platform | |
CN112445958A (zh) | 一种基于人工智能的大数据采集存储系统及方法 | |
CN112330209A (zh) | 一种基于大数据的信息系统风险预警系统 | |
CN116795816A (zh) | 一种基于流式处理的数仓建设方法和系统 | |
CN111814013A (zh) | 一种基于大数据的智慧企业信息处理方法 | |
CN111383150A (zh) | 一种用于交通警务违规行为的识别监管方法和装置 | |
CN115840656A (zh) | 一种基于故障自愈的应用程序自动化运维方法和系统 | |
CN111538886B (zh) | 一种基于人工智能的大数据采集存储系统及方法 | |
CN115147086A (zh) | 一种农民工工资支付监控预警平台系统及方法 | |
CN110113301B (zh) | 一种基于云计算的入侵检测系统 | |
Wang | Research on the collection method of financial blockchain risk prompt information from sandbox perspective | |
CN109189743B (zh) | 一种面向大流量实时图数据的低资源消耗的超级节点识别过滤方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210305 |
|
RJ01 | Rejection of invention patent application after publication |