CN110377562B - 基于Hadoop开源平台的大数据安全存储方法 - Google Patents
基于Hadoop开源平台的大数据安全存储方法 Download PDFInfo
- Publication number
- CN110377562B CN110377562B CN201910667105.5A CN201910667105A CN110377562B CN 110377562 B CN110377562 B CN 110377562B CN 201910667105 A CN201910667105 A CN 201910667105A CN 110377562 B CN110377562 B CN 110377562B
- Authority
- CN
- China
- Prior art keywords
- file
- data
- storage
- signal
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1435—Saving, restoring, recovering or retrying at system level using file system or storage system metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开基于Hadoop开源平台的大数据安全存储方法,包括访问模块、数据采集模块、处理器、初步存储单元、分析模块、分配模块和分类存储设备,所述数据采集模块用于采集待存储文件信息,所述待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,所述数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,本发明通过分配模块的设置,对分析模块内分析的文件数据进行文件分类,对于重点标记的文件进行重点存储和备份,避免文件在存储时间内出现丢失,给人们带来一定的损失,浪费工作人员大量的时间来处理该文件的备份恢复,提高工作效率。
Description
技术领域
本发明涉及安全存储技术领域,具体为基于Hadoop开源平台的大数据安全存储方法。
背景技术
数据是最核心资产,存储系统作为数据的保存空间,是数据保护的最后一道防线;随着存储系统由本地直连向着网络化和分布式的方向发展,并被网络上的众多计算机共享,使存储系统变得更易受到攻击,相对静态的存储系统往往成为攻击者的首选目标,达到窃取、篡改或破坏数据的目的。存储安全变得至关重要,安全存储主要包括存储安全技术、重复数据删除技术、数据备份及灾难恢复技术等。
现有专利申请公布号为CN107122685A的一种大数据安全存储方法和设备,该大数据安全存储方法和设备能够满足安全需求、降低安全防护系统复杂度、提高系统可靠性、简化境外站的管理和维护的大数据安全存储方法和设备,但是,该大数据安全存储方法和设备无法在文件存储是对文件进行详细的文件分类,同时在存储过程中还会出现文件内数据的丢失,没有对文件内的部分内容进行重点存储和备份,为此,我们提出基于Hadoop开源平台的大数据安全存储方法。
发明内容
本发明的目的在于通过初步存储单元的设置,对最初采集到的数据进行存储,来实现文件存储的完整性和安全性,通过分析模块的设置,计算出文件的访问频率以及访问时间间隔比值,从而判断该文件的浏览程度大小亦或者是受欢迎程度,从而根据文件的受欢迎程度,来进行划分存储单元,通过分配模块的设置,对分析模块内分析的文件数据进行文件分类,来实现对文件的重点存储和备份,并进行存储设置。
本发明所要解决的技术问题为:
(1)如何通过初步存储单元的设置,来实现文件存储的完整性和安全性;
(2)如何通过分析模块的设置,来根据文件的受欢迎程度,进行划分存储单元;
(3)如何通过分配模块的设置,来实现对文件的重点存储和备份,并进行存储设置。
本发明的目的可以通过以下技术方案实现:基于Hadoop开源平台的大数据安全存储方法,包括访问模块、数据采集模块、处理器、初步存储单元、分析模块、分配模块和分类存储设备;
所述数据采集模块用于采集待存储文件信息,所述待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,所述数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,并对其进行初步存储;
所述访问模块用于访问存储文件并记录访问相应文件的访问次数和访问时间间隔数据,所述访问模块将访问次数数据和访问时间间隔数据经处理器传输到分析模块,所述初步存储单元将文件拓展名数据、文件数据、文件字节数据和存储期限数据传输到分析模块,并将其与访问次数和访问时间间隔数据一同进行分析操作,来得到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度,并将其传输到分配模块;
所述分配模块用于对文件数据进行存储分配,所述存储设备内设置有长期存储单元、临时存储单元、备份存储单元和重点存储单元,所述分配模块在接收到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度后,即对其进行存储分配操作,得出文件的划分单元,并将其安全存储设置,所述安全存储设置指代对存储后的数据进行定期清理、备份以及判断文件是否缺失等。
优选的,分析操作的具体操作过程如下:
步骤一:设定文件数据为Wi,i=1,2,3......n,对应的文件字节数据为Zi,i=1,2,3......n,存储期限数据为Qi,i=1,2,3......n,且Wi、Zi和Qi一一对应;
步骤二:根据文件拓展名数据,将文件数据进行初步类别划分;
步骤三:根据步骤一中的存储期限数据,对文件进行存储划分,当存储期限数据Qi≥M时,则判定该文件存储时间长,生成长时间存储信号,当存储期限数据Qi<M时,则判定该文件存储时间短,生成段时间存储信号,其中,M为预设值;
步骤三:根据步骤一中的文件字节数据,对文件进行大小划分,当文件字节数据Zi≥N时,则判定该文件的字节多,生成难存储信号,当文件字节数据Zi<N时,则判定该文件的字节少,生成易存储信号;
步骤五:根据相邻的两次访问次数的访问时间间隔时间比值,判断出该文件的浏览程度,具体为:
优选的,存储分配操作的具体操作过程如下:
C1:在步骤二中,根据文件拓展名数据,将文件数据进行初步类别划分的基础上,接收到长时间存储信号将对应的文件划分到长时间存储单元内,在接收到段时间存储信号后,将对应的文件划分到临时存储单元内,并读取该文件的存储时间,进行定期清理;
C2:在C1的基础上,接收到难存储信号后,将其划分到备份存储单元内,并在存储过后将其与初步存储单元内的数据进行比对,当缺失的字节数大于H时,则对其进行重新存储,避免该文件的重要信息丢失,在接收到易存储信号后,正常存储,不进行数据备份,其中,H为预设值;
C3:当接收到重点存储信号时,将重点存储信号相对应的文件划分到重点存储单元内,并设定期限,定期将其与初步存储单元内的对应文件数据进行比对,当比对结果一致时进行备份,当比对结果不一致时,则获取初步存储单元内的文件数据进行存储。
本发明的有益效果:
(1)数据采集模块用于采集待存储文件信息,待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,并对其进行初步存储,通过初步存储单元的设置,对最初采集到的数据进行存储,避免文件在处理的过程中出现缺失的现象发生,保证文件的完整性,增加文件的安全性,提高存储效率;
(2)访问模块用于访问存储文件并记录访问相应文件的访问次数和访问时间间隔数据,访问模块将访问次数数据和访问时间间隔数据经处理器传输到分析模块,初步存储单元将文件拓展名数据、文件数据、文件字节数据和存储期限数据传输到分析模块,并将其与访问次数和访问时间间隔数据一同进行分析操作,通过分析模块的设置,计算出文件的访问频率以及访问时间间隔比值,从而判断该文件的浏览程度大小亦或者是受欢迎程度,该类文件进行重点标记,避免其在存储期限内出现缺失或者不完整,给浏览者带来愉快的浏览体验;
(3)分配模块用于对文件数据进行存储分配,存储设备内设置有长期存储单元、临时存储单元、备份存储单元和重点存储单元,分配模块在接收到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度后,即对其进行存储分配操作,通过分配模块的设置,对分析模块内分析的文件数据进行文件分类,对于重点标记的文件进行重点存储和备份,避免文件在存储时间内出现丢失,给人们带来一定的损失,浪费工作人员大量的时间来处理该文件的备份恢复,提高工作效率。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为基于Hadoop开源平台的大数据安全存储方法,包括访问模块、数据采集模块、处理器、初步存储单元、分析模块、分配模块和分类存储设备;
所述数据采集模块用于采集待存储文件信息,所述待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,所述数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,并对其进行初步存储;
所述访问模块用于访问存储文件并记录访问相应文件的访问次数和访问时间间隔数据,所述访问模块将访问次数数据和访问时间间隔数据经处理器传输到分析模块,所述初步存储单元将文件拓展名数据、文件数据、文件字节数据和存储期限数据传输到分析模块,并将其与访问次数和访问时间间隔数据一同进行分析操作,分析操作的具体操作过程如下:
步骤一:设定文件数据为Wi,i=1,2,3......n,对应的文件字节数据为Zi,i=1,2,3......n,存储期限数据为Qi,i=1,2,3......n,且Wi、Zi和Qi一一对应;
步骤二:根据文件拓展名数据,将文件数据进行初步类别划分;
步骤三:根据步骤一中的存储期限数据,对文件进行存储划分,当存储期限数据Qi≥M时,则判定该文件存储时间长,生成长时间存储信号,当存储期限数据Qi<M时,则判定该文件存储时间短,生成段时间存储信号,其中,M为预设值;
步骤三:根据步骤一中的文件字节数据,对文件进行大小划分,当文件字节数据Zi≥N时,则判定该文件的字节多,生成难存储信号,当文件字节数据Zi<N时,则判定该文件的字节少,生成易存储信号;
步骤五:根据相邻的两次访问次数的访问时间间隔时间比值,判断出该文件的浏览程度,具体为:
将长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度,并将其传输到分配模块;
所述分配模块用于对文件数据进行存储分配,所述存储设备内设置有长期存储单元、临时存储单元、备份存储单元和重点存储单元,所述分配模块在接收到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度后,即对其进行存储分配操作,存储分配操作的具体操作过程如下:
C1:在步骤二中,根据文件拓展名数据,将文件数据进行初步类别划分的基础上,接收到长时间存储信号将对应的文件划分到长时间存储单元内,在接收到段时间存储信号后,将对应的文件划分到临时存储单元内,并读取该文件的存储时间,进行定期清理;
C2:在C1的基础上,接收到难存储信号后,将其划分到备份存储单元内,并在存储过后将其与初步存储单元内的数据进行比对,当缺失的字节数大于H时,则对其进行重新存储,避免该文件的重要信息丢失,在接收到易存储信号后,正常存储,不进行数据备份,其中,H为预设值;
C3:当接收到重点存储信号时,将重点存储信号相对应的文件划分到重点存储单元内,并设定期限,定期将其与初步存储单元内的对应文件数据进行比对,当比对结果一致时进行备份,当比对结果不一致时,则获取初步存储单元内的文件数据进行存储,得出文件的划分单元,并将其安全存储设置,所述安全存储设置指代对存储后的数据进行定期清理、备份以及判断文件是否缺失等。
本发明在工作时,数据采集模块用于采集待存储文件信息,待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,并对其进行初步存储,通过初步存储单元的设置,对最初采集到的数据进行存储,避免文件在处理的过程中出现缺失的现象发生,保证文件的完整性,增加文件的安全性,提高存储效率,访问模块用于访问存储文件并记录访问相应文件的访问次数和访问时间间隔数据,访问模块将访问次数数据和访问时间间隔数据经处理器传输到分析模块,初步存储单元将文件拓展名数据、文件数据、文件字节数据和存储期限数据传输到分析模块,并将其与访问次数和访问时间间隔数据一同进行分析操作,通过分析模块的设置,计算出文件的访问频率以及访问时间间隔比值,从而判断该文件的浏览程度大小亦或者是受欢迎程度,该类文件进行重点标记,避免其在存储期限内出现缺失或者不完整,给浏览者带来愉快的浏览体验,分配模块用于对文件数据进行存储分配,存储设备内设置有长期存储单元、临时存储单元、备份存储单元和重点存储单元,分配模块在接收到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度后,即对其进行存储分配操作,通过分配模块的设置,对分析模块内分析的文件数据进行文件分类,对于重点标记的文件进行重点存储和备份,避免文件在存储时间内出现丢失,给人们带来一定的损失,浪费工作人员大量的时间来处理该文件的备份恢复,提高工作效率。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (1)
1.基于Hadoop开源平台的大数据安全存储方法,其特征在于,包括访问模块、数据采集模块、处理器、初步存储单元、分析模块、分配模块和分类存储设备;
所述数据采集模块用于采集待存储文件信息,所述待存储文件信息包括文件拓展名数据、文件数据、文件字节数据和存储期限数据,所述数据采集模块将文件拓展名数据、文件数据、文件字节数据和存储期限数据经处理器传输到初步存储单元,并对其进行初步存储;
所述访问模块用于访问存储文件并记录访问相应文件的访问次数和访问时间间隔数据,所述访问模块将访问次数数据和访问时间间隔数据经处理器传输到分析模块,所述初步存储单元将文件拓展名数据、文件数据、文件字节数据和存储期限数据传输到分析模块,并将其与访问次数和访问时间间隔数据一同进行分析操作,来得到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度,并将其传输到分配模块;
所述分配模块用于对文件数据进行存储分配,所述存储设备内设置有长期存储单元、临时存储单元、备份存储单元和重点存储单元,所述分配模块在接收到长时间存储信号、短时间存储信号、难存储信号、易存储信号、重点存储信号、访问频率V和浏览程度后,即对其进行存储分配操作,得出文件的划分单元,并将其安全存储设置,所述安全存储设置指代对存储后的数据进行定期清理、备份以及判断文件是否缺失等;
分析操作的具体操作过程如下:
步骤一:设定文件数据为Wi,i=1,2,3......n,对应的文件字节数据为Zi,i=1,2,3......n,存储期限数据为Qi,i=1,2,3......n,且Wi、Zi和Qi一一对应;
步骤二:根据文件拓展名数据,将文件数据进行初步类别划分;
步骤三:根据步骤一中的存储期限数据,对文件进行存储划分,当存储期限数据Qi≥M时,则判定该文件存储时间长,生成长时间存储信号,当存储期限数据Qi<M时,则判定该文件存储时间短,生成段时间存储信号,其中,M为预设值;
步骤三:根据步骤一中的文件字节数据,对文件进行大小划分,当文件字节数据Zi≥N时,则判定该文件的字节多,生成难存储信号,当文件字节数据Zi<N时,则判定该文件的字节少,生成易存储信号;
步骤五:根据相邻的两次访问次数的访问时间间隔时间比值,判断出该文件的浏览程度,具体为:
存储分配操作的具体操作过程如下:
C1:在步骤二中,根据文件拓展名数据,将文件数据进行初步类别划分的基础上,接收到长时间存储信号将对应的文件划分到长时间存储单元内,在接收到段时间存储信号后,将对应的文件划分到临时存储单元内,并读取该文件的存储时间,进行定期清理;
C2:在C1的基础上,接收到难存储信号后,将其划分到备份存储单元内,并在存储过后将其与初步存储单元内的数据进行比对,当缺失的字节数大于H时,则对其进行重新存储,避免该文件的重要信息丢失,在接收到易存储信号后,正常存储,不进行数据备份,其中,H为预设值;
C3:当接收到重点存储信号时,将重点存储信号相对应的文件划分到重点存储单元内,并设定期限,定期将其与初步存储单元内的对应文件数据进行比对,当比对结果一致时进行备份,当比对结果不一致时,则获取初步存储单元内的文件数据进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667105.5A CN110377562B (zh) | 2019-07-23 | 2019-07-23 | 基于Hadoop开源平台的大数据安全存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667105.5A CN110377562B (zh) | 2019-07-23 | 2019-07-23 | 基于Hadoop开源平台的大数据安全存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377562A CN110377562A (zh) | 2019-10-25 |
CN110377562B true CN110377562B (zh) | 2022-11-01 |
Family
ID=68255080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910667105.5A Active CN110377562B (zh) | 2019-07-23 | 2019-07-23 | 基于Hadoop开源平台的大数据安全存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377562B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461054B (zh) * | 2020-04-14 | 2021-04-27 | 上海月新生科信息科技有限公司 | 一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法 |
CN111461625B (zh) * | 2020-04-23 | 2022-09-23 | 河南华鼎供应链管理有限公司 | 一种物流监控信息交换管理系统 |
CN113591144A (zh) * | 2021-07-08 | 2021-11-02 | 安徽宝葫芦信息科技集团股份有限公司 | 一种基于区块链的电子数据长期保存系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679898A (zh) * | 2015-03-18 | 2015-06-03 | 成都汇智远景科技有限公司 | 一种大数据访问方法 |
CN107968818A (zh) * | 2017-11-17 | 2018-04-27 | 北京联想超融合科技有限公司 | 数据的存储方法、装置及服务器集群 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9152643B2 (en) * | 2012-12-21 | 2015-10-06 | Zetta Inc. | Distributed data store |
-
2019
- 2019-07-23 CN CN201910667105.5A patent/CN110377562B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679898A (zh) * | 2015-03-18 | 2015-06-03 | 成都汇智远景科技有限公司 | 一种大数据访问方法 |
CN107968818A (zh) * | 2017-11-17 | 2018-04-27 | 北京联想超融合科技有限公司 | 数据的存储方法、装置及服务器集群 |
Non-Patent Citations (1)
Title |
---|
基于Hadoop平台的分布式重删存储系统;刘青等;《计算机应用》;20160210(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110377562A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377562B (zh) | 基于Hadoop开源平台的大数据安全存储方法 | |
US9917853B2 (en) | Correlating event logs to identify a potential security breach | |
Talha et al. | Analysis of research on amazon AWS cloud computing seller data security | |
CN104408163B (zh) | 一种数据分级存储方法和装置 | |
CN111629165B (zh) | 一种报警视频的处理方法、装置、设备及存储介质 | |
CN105791431A (zh) | 一种在线分布式监控视频处理任务调度方法及装置 | |
Jeong et al. | Anomaly teletraffic intrusion detection systems on hadoop-based platforms: A survey of some problems and solutions | |
CN103226675B (zh) | 一种分析入侵行为的溯源系统及方法 | |
CN104572781B (zh) | 一种交易日志产生方法和装置 | |
CN109302495A (zh) | 一种数据存储方法及装置 | |
CN104850407A (zh) | 一种桌面录屏系统及其录屏方法 | |
US11158352B1 (en) | Method and system for indexing video data using a data processing unit | |
CN112380067B (zh) | 一种Hadoop环境下基于元数据的大数据备份系统及方法 | |
CN115459965A (zh) | 一种面向电力系统网络安全的多步攻击检测方法 | |
WO2021068891A1 (en) | Method, system, electronic device, and storage medium for storing and collecting temperature data | |
CN103716384A (zh) | 跨数据中心实现云存储数据同步的方法和装置 | |
US8745010B2 (en) | Data storage and archiving spanning multiple data storage systems | |
CN108833442A (zh) | 一种分布式网络安全监控装置及其方法 | |
US20160205118A1 (en) | Cyber black box system and method thereof | |
EP3816782B1 (en) | Data reconstruction method, apparatus and storage medium | |
Geethakumari et al. | Regenerating cloud attack scenarios using LVM2 based system snapshots for forensic analysis | |
CN110674080A (zh) | 一种基于NiFi的大数据量非结构文件采集方法及系统 | |
CN113452783B (zh) | 区块链云架构的数字化paas开放平台系统及实现方法 | |
Hagihara et al. | Web server access trend analysis based on the Poisson distribution | |
CN113609334A (zh) | 一种用区块链提升跨摄像头行为识别可信度的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 243000 No. 698, north section of huolishan Avenue, Huashan District, Ma'anshan City, Anhui Province Applicant after: Anhui duoduoyun Network Technology Co.,Ltd. Address before: 234000 Building 2, science and innovation center, Suma modern industrial park, Suzhou City, Anhui Province Applicant before: Suzhou Xingchen Network Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |