CN107979636B - 冷热数据分介质存储平台设计系统及方法 - Google Patents
冷热数据分介质存储平台设计系统及方法 Download PDFInfo
- Publication number
- CN107979636B CN107979636B CN201711105414.0A CN201711105414A CN107979636B CN 107979636 B CN107979636 B CN 107979636B CN 201711105414 A CN201711105414 A CN 201711105414A CN 107979636 B CN107979636 B CN 107979636B
- Authority
- CN
- China
- Prior art keywords
- data
- netflow
- cold
- hot
- flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/026—Capturing of monitoring data using flow identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/062—Generation of reports related to network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/067—Generation of reports using time frame reporting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种冷热数据分介质存储平台设计系统及方法,该系统包括:路由器,用于对全网传送的所有数据流的分类,区分出由不同应用源产生的数据流;NetFlow流量收集器,用于收集Netflow流量;暂存数据库,用于存储尚无法判断冷热程度的NetFlow流量及其对应的数据;NetFlow历史数据库,用于接收统计结并分析相关的安全策略和计费策略;NetFlow监控终端,用于整个存储平台的人机接口,提供多种功能。本发明对整个企业或者数据中心的网络内产生的心的待存储数据的冷热程度进行分类,按结果将数据对应存储到不同的保存介质中,实现存储成本的降低。
Description
技术领域
本发明涉及一种用于企业或者数据中心的数据存储平台设计方法,特别是涉及一种冷热数据分介质存储平台设计系统和方法。
背景技术
当前,在各个数据中心或者企业的IT系统内,对于数据的存储仍旧广泛地采用最为传统的磁盘或者磁带作为单一的存储介质。
电存储介质,以固态硬盘为代表,存储效率非常高,但是相应的设备成本也较高,并且使用寿命相对磁盘更有限,数据一旦丢失就不可恢复,因此并不适合于大规模数据的长期存储。
光存储介质,目前以蓝光技术为代表,具有抗自然灾害、抗磁暴、抗人为数据删除的优点,蓝光存储介质可达到50年以上的存储寿命,目前单张蓝光光盘的容量已达到100GB,存储密度相当高,具有单位存储容量成本低的优势,并使得数据的物理性迁移变得方便。蓝光存储仅在读写过程中耗能,又无需为其设置专门的空调环境,因此在12年以上的长期保存情况下,蓝光存储的能耗将会只有磁盘存储的1/500;不过,蓝光技术也存在着只能一次性写入,无法再做修改的限制。因此,相对于磁和电存储介质,光存储更适合对使用频率较低的大规模数据进行长期保存,可提高数据安全性,节省存储设备成本和功耗。
磁存储介质作为技术最为成熟的存储介质,可支持读写操作,成本相对可控,各项存储性能指标比较中庸,存在着易受电磁影响失效、无法确保长期的可靠寿命,且存储设备本身以及存储环境空调设备所消耗的能耗较高的缺陷。
数据按照其被访问的频繁程度的由高到低可以被分为热数据、温数据和冷数据。统计发现,对于一家企业而言,在其所需存储的所有数据中,使用频率非常低的冷数据占到了70%-80%。如果用蓝光介质来存储这些冷数据,同时用SSD来存储使用频率极高但占比很少的热数据部分,对剩下的温数据则仍采用传统的磁存储这样的模式的话,就能实现在大幅降低数据存储成本的同时还提高了存储的效率和可靠性的效果。
要实现上述分介质存储的前提在于两点:
(一)要把分散的各个存储设备进行整合,归入到一个统一的多介质存储平台下,从而能实现对所有数据的集中式统一管理,并带来诸如消除存储冗余、便于性能扩展以及数据挖掘等优势;
(二)在存储平台的数据入口就能够快速判断出数据的冷热程度,从而对数据的存储进行分介质导流。
发明内容
本发明所要解决的技术问题是提供一种冷热数据分介质存储平台设计系统和方法,对整个企业或者数据中心的网络内产生的心的待存储数据的冷热程度进行分类,按结果将数据对应存储到不同的保存介质中,实现存储成本的降低。
为了解决上述技术问题:本发明首先提供了一种冷热数据分介质存储平台设计系统,包括:
路由器,用于对全网传送的所有数据流的分类,区分出由不同应用源产生的数据流;
Netflow流量收集器,用于收集Netflow流量;
暂存数据库,用于存储尚无法判断冷热程度的NetFlow流量及其对应的数据;
NetFlow历史数据库,用于接收来自缓存数据库的已经经过统计并获得了统计结果的NetFlow流量并分析相关的安全策略和计费策略等;
NetFlow监控终端,用于整个存储平台的人机接口,可提供多种功能;
存储资源池,用于将分散的存储资源进行统一的纳管同时能提供对大规模数据的挖掘能力,将不敏感的数据保存到公有云端,进一步降低数据的存储成本;
数据管理终端,用于数据管理员访问和操作存储资源池和暂存数据库,进行基本的资源检索和修改、资源访问权限控制,还能管理和配置存储资源池的Hadoop和ApacheSpark的各个功能模块,并在这些功能模块的基础上加载各种数据分析程序;
访问接口,用于方便的访问到存储平台内的存储资源池和暂存数据库,在其权限范围内查询和使用整个企业或数据中心内已保存的数据,也能向外提供数据分析功能,方便外部程序按其业务需求调用这些功能。
优选地,所述NetFlow流量收集器包括:
冷热数据判断模块,用于对照NetFlow模板及数据冷热基线库中已保存的判断依据快速判别出接收到的NetFlow流量所对应的数据流的冷热,将数据按照其冷热判别结果来保存或归档到对应的存储介质中,对于无法判别的NetFlow流量,则连同其所对应的数据流一起按照预设值的存放格式存入暂存数据库中待处理;
Netflow模板及数据冷热基线库,用于存储V9版本的NetFlow的自定义的NetFlow数据模板,对所接收到的NetFlow流量进行解析,根据接收到的NetFlow流量特征直接索引出数据的冷热度,快速将数据导向适合的存储介质。
优选地,所述Netflow监控终端功能包括:
针对NetFlow模板及数据冷热基线库的访问操作功能,用于用户查看和编辑NetFlow模板及数据冷热基线库中的“NetFlow流量特征-数据冷热程度对照表”和NetFlow数据模板,自定义新的NetFlow流量类型并指定其冷热程度,利用NetFlow监控终端将新的数据模板配置到各个路由器中,并同时更新NetFlow模板及数据冷热基线库中记录的NetFlow数据模板;
针对数据冷热属性统计模块的访问操作功能,用于查看数据冷热属性统计模块中的统计信息,并能以直方图、条形图和饼图等形式直观的呈现,还能以电子表格的形式输出统计报告,可对数据冷热属性统计模块中的统计方法进行编辑,可调整统计周期,修改统计分值的算法等;
针对NetFlow历史数据库的访问操作功能,用于提供用户按其需求检索NetFlow历史数据库的能力,且能输出相应的报告,并提供对NetFlow历史数据库的访问接口给各个具体的数据分析业务程序调用。
优选地,所述路由器直接使用企业或数据中心现成的路由器
优选地,所述Netflow收集器用一台带网关的微服务器充当NetFlow流量收集器的角色
本发明还提供一种冷热数据分介质存储平台设计方法,其特征在于,其包括以下步骤:
步骤一:所有的待存储数据包均通过企业或数据中心的网络传输到分介质数据存储平台,在网络对数据包进行传输的过程中,网络中的路由器将会负责采集NetFlow流量,并将其缓存在路由器的NetFlow Cache中,而与这些NetFlow流量对应的待存储数据包则发送到数据冷热判断模块,此后进入步骤二;
步骤二:当NetFlowCache的存储达到设定值或者其中的NetFlow流量符合老化条件,则相应的NetFlow流量会被以UDP/SCTP方式发发动到冷热数据判断模块,此后进入步骤三;
步骤三:冷热数据判断模块按照模版对所接收到的NetFlow流量进行解析,继而匹配流量的特征,如果收到的NetFlow流量特征是在NetFlow模版及数据冷热基线库中存在的,则下一步进入步骤四,否则下一步进入步骤五;
步骤四:冷热数据判断模块按照NetFlow模版及数据冷热基线库中的NetFlow流量特征-数据冷热程度对照表判断NetFlow流量所对应的待存储数据的冷热程度,此后进入步骤十三;
步骤五:冷热数据判断模块将其中无法判断冷热程度的NetFlow流量及其对应的数据包转入暂存数据库进行暂存,此后进入步骤六;
步骤六:当NetFlow流量及其对应的待存储数据包被送入暂存数据库时,首先判断这些NetFlow流量的特征类型是否在暂存数据库中已存在,如果存在则下一步进入步骤八,否则下一步进入步骤七;
步骤七:在缓存数据库中的统计队列里按照所接收到的NetFlow流量的类型新增一项,并开始对该类型的数据冷热进行统计,此后进入步骤十;
步骤八:触发数据冷热属性统计模块对接收到的待存储数据按照冷热统计算法进行计算,并将计算结果替换掉原先的该种数据的冷热分值进行分值的更新保存,此后进入步骤九;
步骤九:数据的冷热分值更新后数据冷热属性统计模块将判断该类数据在暂存数据库中保留的时间是否已经超过了预定的统计周期,如果是,则下一步进入步骤十一,否则下一步进入步骤十;
步骤十:对于未达到统计周期的待存储数据,将等待新的该类型的NetFlow流量触发统计计算,因此进入等待步骤一中的路由器来采集该类型流量的状态;
步骤十一:超过统计周期的NetFlow流量及其对应的待存储数据将被转移出暂存数据库,并且转移出的NetFlow流量被保存进NetFlow历史数据库,此后进入步骤十二;
步骤十二:与被存入NetFlow历史数据库中的NetFlow流量对应的待存储数据将连同其冷热计算结果一起被提取出并送入存储资源池,此后进入步骤十三;
步骤十三:按照对待存储数据的冷热判断结果,将其导流到对应的电、磁、光存储介质资源池中进行存储或归档,此后可选择进入步骤十四;
步骤十四:将存储资源池中的数据归档保存或者备份到外部公有云中。
优选地,所述冷热数据判断模块按照NetFlow模版及数据冷热基线库中的模版解析接收到的Netflow流量。
本发明的积极进步效果在于:本发明可快速获取不同数据源产生的待存储数据流的特征,从而以这些特征为依据实现对数据的分类;对于全新种类的待存储数据,平台可通过一段时间的统计来自动判断出该类数据的冷热属性;用户可自定义新的数据种类以及各类数据的冷热属性。当待存储数据通过网络到达存储平台后,即可根据已有的冷热属性分类,高速判断出数据流的冷热,并将数据流导流到对应的存储介质中进行保存。该判断和导流过程一方面需要确保高速进行,从而不会造成高速网络环境下的数据流拥塞,同时还要保证只占用少量的系统资源,不会给系统性能造成过多负荷,节省投入成本。
附图说明
图1为本发明的流量格式图。
图2为本发明的数据对照表示意图
图3为本发明的流程图。
图4为本发明的原理框图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1至图4所示,本发明一种冷热数据分介质存储平台的架构设计包括:
路由器,本发明直接使用企业或数据中心现成的路由器作为NetFlow流量的采集模块,为此,路由器和交换机都需要进行提前配置,开启NetFlow功能并定制NetFlow的流输出形式,本发明中选择可支持自定义数据格式的V9版本的NetFlow,并设计所需收集的IP数据包的信息如下,利用这些特征信息就可实现对全网传送的所有数据流的分类,区分出由不同应用源产生的数据流:
流量开始的System Uptime时间(即NetFlow设备启动后的运行时间);
入方向和出方向的IP数据流的数据包数量戳;
入方向和出方向的IP数据流的长度戳;
源IP地址和目的IP地址;
下一跳网段路由器IP地址;
输入接口和输出接口的SNMP索引;
源端口号和目的端口号;
网络协议类型;
TCP标志;
网络服务类型;
源地址和目的地址的前缀掩码;
源BGP和目的BGP自治系统号;
BGP域中下一跳的IP地址;
流量中的第一个和最后一个数据包的传送时间戳;
活跃和不活跃的数据流的老化时间值。
如图1所示为本发明中按照V9版本的NetFlow的标准而设计的用于数据冷热分析的NetFlow流量格式,其中的NetFLow包头(header)格式中的Version表明了采用V9版本的NetFlow,Count表示接下来的整个NetFlow流量中的模版、信息、可选模版等的总量,SystemUptime为NetFlow设备启动后的运行时间,UNIX Seconds为NetFlow流量从发出后所经过的时间,Package Sequence字段通过数据包累加获得,用于判断是否有数据包丢失,SourceID指示了NetFlow设备所处的观察域;模板流(Template FlowSet)格式中的FlowSet=0表示模版流的汇总ID的值为0,该值为保留值,Length是整个模版流中所有字段长度的总合,Template ID为当前模版的唯一ID,Field Count为模版中的字段数量,Field Length为各个字段的长度;数据流(Data FlowSet)格式汇总的FlowSet ID表示解析数据流所用的模版ID,Length为整个数据流的总长度,Record N-Field Value M为NetFlow中的数据记录;
由于需要对每项待存储数据都进行判断,因此本发明中不在路由器中配置NetFlow的数据包抽样策略以及数据汇总,只需配置好输出流个数和缓冲(NetFlowCache)区大小、数据流老化时间、发送到输出目标的IP和端口等信息后,再选择以UDP/SCTP方式将网流信息输出给NetFlow流量收集器即可;
直接使用企业或数据中心现成的路由器作为Netflow流量的采集模块,选择可支持的自定义数据格式的V9版本的Netflow,并利用所收集的IP数据包的特征信息实现对全网传送的所有数据流的分类,区分出由不同应用源产生的数据流;
Netflow流量收集器,一台带网关的微服务器就能胜任NetFlow流量收集器的角色,该收集器中又包含了三个子模块,分别如下:
冷热数据判断模块,该模块需要提前设置流量文件的存放目录和格式,以UDP/SCTP方式接收到的来自路由器的NetFlow流量以及数据流会首先进入“冷热数据判断模块”,该模块会对照“NetFlow模板及数据冷热基线库”中已保存的判断依据快速判别出接收到的NetFlow流量所对应的数据流的冷热,同时通过过滤、清洗和聚集等操作来减小数据量,并以平面文件、二进制文件、压缩文件等形式将数据按照其冷热判别结果来保存或归档到对应的存储介质中,而对于无法判别的NetFlow流量,则连同其所对应的数据流一起按照预设值的存放格式存入暂存数据库中待处理;
NetFlow模板及数据冷热基线库,该模块一方面负责存储V9版本的NetFlow的自定义的NetFlow数据模板(NetFlowTemplate),“冷热数据判断模块”可依据该模板对所接收到的NetFlow流量进行解析;另一方面该模块保存着通过统计得出的或者用户自定义的各类数据的“NetFlow流量特征-数据冷热程度对照表”(如图2所示为“NetFlow流量特征-数据冷热程度对照表”的示意图,其中的“NetFlow流量特征”即为各种计划集合——AggregationScheme,这些计划集合包含了NetFlow中的一个或多个Key Fields和Value Fields,可用于判断NetFlow流量所对应的数据是来自哪个应用源的),该表可作为当前的数据“基线”,借助于该表,“冷热数据判断模块”就可根据接收到的NetFlow流量特征直接索引出数据的冷热度,进而快速将数据导向适合的存储介质;
数据冷热属性统计模块,由于“冷热数据判断模块”会接收到一部分新类型的NetFlow流量,这些新流量在“NetFlow模板及数据冷热基线库”中尚没有可对照的冷热判断依据,因此这些流量连同其所对应的数据包都将被暂存,“数据冷热属性统计模块”就是负责对这些暂存的数据在一定周期内(本发明默认设定周期为3个月)的被访问频率进行统计,并按照统计结果在周期结束后给出数据的冷热评定,评定采取打分制,默认情况下新的NetFlow流量首先会被分配100分的满分,随着时间的推进,如果某流量所对应的数据长期未被访问,则它的分数就会逐渐减少,如果被访问频繁,则保持分值不变,最终获得0-70分的数据被判定为冷数据,71-90分的为温数据,91-100分的则为热数据,评定结果会被发动给“NetFlow模板及数据冷热基线库”模块以补充其中的“NetFlow流量特征-数据冷热程度对照表”,同时,“数据冷热属性统计模块”也会在周期结束后自动将已经过统计的NetFlow流量和对应的数据从“暂存数据库”中移出并分别保存到“NetFlow历史数据库”和相应介质的存储资源池中进行保存或归档;
暂存数据库,负责存储尚无法判断冷热程度的NetFlow流量及其对应的数据,该数据库供“数据冷热属性统计模块”调用,当获得统计结果后,被统计的数据会分别转移到“NetFlow历史数据库”和“存储资源池”中进行长期的保存;
NetFlow历史数据库,该数据库接收来自缓存数据库的已经经过统计并获得了统计结果的NetFlow流量,由于这些NetFlow流量表示了那些在整个企业或数据中心系统中新出现的数据流类型,因此具有较高的分析价值,利用NetFlow记录可分析相关的安全策略和计费策略等;
NetFlow监控终端,该监控终端作为整个存储平台的人机接口,可提供多种功能:
针对“NetFlow模板及数据冷热基线库”的访问操作功能,可提供用户查看和编辑“NetFlow模板及数据冷热基线库”中的“NetFlow流量特征-数据冷热程度对照表”和NetFlow数据模板,且利用该功能用户可自定义新的NetFlow流量类型并指定其冷热程度,另外,当路由器中的NetFlow数据模板需要更新时(通常要增强NetFlow对不同类型的网络数据包的分类能力时,就需要扩展更新NetFlow数据模板),用户也可以利用“NetFlow监控终端”将新的数据模板配置到各个路由器中,并同时更新“NetFlow模板及数据冷热基线库”中记录的NetFlow数据模板,使得“冷热数据判断模块”可以成功解析接收到的NetFlow流量;
针对“数据冷热属性统计模块”的访问操作功能,可查看“数据冷热属性统计模块”中的统计信息,并能以直方图、条形图和饼图等形式直观的呈现,还能以电子表格的形式输出统计报告;可对“数据冷热属性统计模块”中的统计方法进行编辑,可调整统计周期,修改统计分值的算法等;
针对“NetFlow历史数据库”的访问操作功能,可提供用户按其需求检索“NetFlow历史数据库”的能力,且能输出相应的报告,并提供对“NetFlow历史数据库”的访问接口给各个具体的数据分析业务程序调用;
存储资源池,存储资源池将企业或数据中心内分散的存储资源进行统一的纳管,并采用Hadoop和ApacheSpark来部署对分布式存储的管理,使得在管理分布式大容量存储资源的同时能提供对大规模数据的挖掘能力,整个资源池按照存储资源的介质类别分别划分成电、磁、光三个子存储介质资源池,经过“Netflow流量收集器”判断的数据可导流到对应的子存储介质资源池进行保存或归档,存储资源池还提供了与外部公有云的对接能力,可将不敏感的数据保存到公有云端,进一步降低数据的存储成本;
数据管理终端,主要提供数据管理员访问和操作存储资源池和暂存数据库,除了基本的资源检索和修改、资源访问权限控制等功能外,还能管理和配置存储资源池的Hadoop和ApacheSpark的各个功能模块,并在这些功能模块的基础上加载各种数据分析程序;
访问接口,整个冷热数据分介质数据存储平台对外提供多种标准的访问接口,可支持NFS、SMB、REST等协议,外部程序可借助访问接口方便的访问到存储平台内的存储资源池和暂存数据库,从而在其权限范围内查询和使用整个企业或数据中心内已保存的数据,此外,存储资源池的Hadoop和ApacheSpark管理层也通过访问接口向外提供数据分析功能,方便外部程序按其业务需求调用这些功能;
如图3所示为基于Netflow技术的冷热数据分介质存储平台的数据处理过程流程图,以下对整个流程进行详细描述:
步骤101:所有的待存储数据包均通过企业或数据中心的网络传输到分介质数据存储平台,在网络对数据包进行传输的过程中,网络中的路由器将会负责按照如图1所示的格式采集NetFlow流量,并将其缓存在路由器的NetFlow Cache中;而与这些NetFlow流量对应的待存储数据包则发送到数据冷热判断模块,此后进入步骤102;
步骤102:当NetFlowCache的存储达到设定值(默认为64KB)或者其中的NetFlow流量符合老化条件,则相应的NetFlow流量会被以UDP/SCTP方式发发动到“冷热数据判断模块”,此后进入步骤103;
步骤103:“冷热数据判断模块”按照“NetFlow模版及数据冷热基线库”中的模版对所接收到的NetFlow流量进行解析,继而匹配流量的特征;如果收到的NetFlow流量特征是在“NetFlow模版及数据冷热基线库”中存在的,则下一步进入步骤104,否则下一步进入步骤105;
步骤104:“冷热数据判断模块”按照“NetFlow模版及数据冷热基线库”中的“NetFlow流量特征-数据冷热程度对照表”判断NetFlow流量所对应的待存储数据的冷热程度,此后进入步骤113;
步骤105:“冷热数据判断模块”将其中无法判断冷热程度的NetFlow流量及其对应的数据包转入暂存数据库进行暂存,此后进入步骤106;
步骤106:当NetFlow流量及其对应的待存储数据包被送入暂存数据库时,首先判断这些NetFlow流量的特征类型是否在暂存数据库中已存在,如果存在则下一步进入步骤108,否则下一步进入步骤107;
步骤107:在缓存数据库中的统计队列里按照所接收到的NetFlow流量的类型新增一项,并开始对该类型的数据冷热进行统计,此后进入步骤110;
步骤108:“触发数据冷热属性统计模块”对接收到的待存储数据按照冷热统计算法进行计算,并将计算结果替换掉原先的该种数据的冷热分值进行分值的更新保存,此后进入步骤109;
步骤109:数据的冷热分值更新后“数据冷热属性统计模块”将判断该类数据在暂存数据库中保留的时间是否已经超过了预定的统计周期(默认为3个月),如果是,则下一步进入步骤111,否则下一步进入步骤110;
步骤110:对于未达到统计周期的待存储数据,将等待新的该类型的NetFlow流量触发统计计算,因此进入等待步骤101中的路由器来采集该类型流量的状态;
步骤111:超过统计周期的NetFlow流量及其对应的待存储数据将被转移出暂存数据库,并且转移出的NetFlow流量被保存进NetFlow历史数据库,此后进入步骤112;
步骤112:与被存入NetFlow历史数据库中的NetFlow流量对应的待存储数据将连同其冷热计算结果一起被提取出并送入存储资源池,此后进入步骤113;
步骤113:按照对待存储数据的冷热判断结果,将其导流到对应的电、磁、光存储介质资源池中进行存储或归档,此后可选择进入步骤114;
步骤114:将存储资源池中的数据归档保存或者备份到外部公有云中。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种冷热数据分介质存储平台设计系统,其特征在于,该系统包括:
路由器,用于对全网传送的所有数据流的分类,区分出由不同应用源产生的数据流;
Netflow流量收集器,用于收集Netflow流量;
暂存数据库,用于存储尚无法判断冷热程度的NetFlow流量及其对应的数据;
NetFlow历史数据库,用于接收来自缓存数据库的已经经过统计并获得了统计结果的NetFlow流量并分析相关的安全策略和计费策略;
NetFlow监控终端,用于整个存储平台的人机接口,提供多种功能;
存储资源池,用于将分散的存储资源进行统一的纳管同时能提供对大规模数据的挖掘能力,将不敏感的数据保存到公有云端,进一步降低数据的存储成本;
数据管理终端,用于数据管理员访问和操作存储资源池和暂存数据库,进行基本的资源检索和修改、资源访问权限控制,管理和配置存储资源池的Hadoop和ApacheSpark的各个功能模块,并在这些功能模块的基础上加载各种数据分析程序;
访问接口,用于方便的访问到存储平台内的存储资源池和暂存数据库,在其权限范围内查询和使用整个企业或数据中心内已保存的数据,向外提供数据分析功能,方便外部程序按其业务需求调用这些功能;
所述NetFlow流量收集器包括:
冷热数据判断模块,用于对照NetFlow模板及数据冷热基线库中已保存的判断依据快速判别出接收到的NetFlow流量所对应的数据流的冷热,将数据按照其冷热判别结果来保存或归档到对应的存储介质中,对于无法判别的NetFlow流量,则连同其所对应的数据流一起按照预设值的存放格式存入暂存数据库中待处理;
Netflow模板及数据冷热基线库,用于存储V9版本的NetFlow的自定义的NetFlow数据模板,对所接收到的NetFlow流量进行解析,根据接收到的NetFlow流量特征直接索引出数据的冷热度,快速将数据导向适合的存储介质;
所述Netflow监控终端功能包括:
针对NetFlow模板及数据冷热基线库的访问操作功能,用于用户查看和编NetFlow模板及数据冷热基线库中的NetFlow流量特征-数据冷热程度对照表和NetFlow数据模板,自定义新的NetFlow流量类型并指定其冷热程度,利用NetFlow监控终端将新的数据模板配置到各个路由器中,并同时更新NetFlow模板及数据冷热基线库中记录的NetFlow数据模板;
针对数据冷热属性统计模块的访问操作功能,用于查看数据冷热属性统计模块中的统计信息,并能以直方图、条形图和饼图形式直观的呈现,还能以电子表格的形式输出统计报告,对数据冷热属性统计模块中的统计方法进行编辑,调整统计周期,修改统计分值的算法;
针对NetFlow历史数据库的访问操作功能,用于提供用户按其需求检索NetFlow历史数据库的能力,且能输出相应的报告,并提供对NetFlow历史数据库的访问接口给各个具体的数据分析业务程序调用。
2.如权利要求1所述的冷热数据分介质存储平台设计系统,其特征在于,所述路由器直接使用企业或数据中心现成的路由器。
3.如权利要求1所述的冷热数据分介质存储平台设计系统,其特征在于,Netflow流量收集器用一台带网关的微服务器充当。
4.一种冷热数据分介质存储平台设计方法,其特征在于,其包括以下步骤:
步骤一:所有的待存储数据包均通过企业或数据中心的网络传输到分介质数据存储平台,在网络对数据包进行传输的过程中,网络中的路由器将会负责采集NetFlow流量,并将其缓存在路由器的NetFlow Cache中,而与这些NetFlow流量对应的待存储数据包则发送到数据冷热判断模块,此后进入步骤二;
步骤二:当NetFlowCache的存储达到设定值或者其中的NetFlow流量符合老化条件,则相应的NetFlow流量会被以UDP/SCTP方式发发动到冷热数据判断模块,此后进入步骤三;
步骤三:冷热数据判断模块模版对所接收到的NetFlow流量进行解析,继而匹配流量的特征,如果收到的NetFlow流量特征是在NetFlow模版及数据冷热基线库中存在的,则下一步进入步骤四,否则下一步进入步骤五;
步骤四:冷热数据判断模块按照NetFlow模版及数据冷热基线库判断NetFlow流量所对应的待存储数据的冷热程度,此后进入步骤十三;
步骤五:冷热数据判断模块将其中无法判断冷热程度的NetFlow流量及其对应的数据包转入暂存数据库进行暂存,此后进入步骤六;
步骤六:当NetFlow流量及其对应的待存储数据包被送入暂存数据库时,首先判断这些NetFlow流量的特征类型是否在暂存数据库中已存在,如果存在则下一步进入步骤八,否则下一步进入步骤七;
步骤七:在缓存数据库中的统计队列里按照所接收到的NetFlow流量的类型新增一项,并开始对该类型的数据冷热进行统计,此后进入步骤十;
步骤八:触发数据冷热属性统计模块对接收到的待存储数据按照冷热统计算法进行计算,并将计算结果替换掉原先的该种数据的冷热分值进行分值的更新保存,此后进入步骤九;
步骤九:数据的冷热分值更新后数据冷热属性统计模块将判断该类数据在暂存数据库中保留的时间是否已经超过了预定的统计周期,如果是,则下一步进入步骤十一,否则下一步进入步骤十;
步骤十:对于未达到统计周期的待存储数据,将等待新的该类型的NetFlow流量触发统计计算,因此进入等待步骤一中的路由器来采集该类型流量的状态;
步骤十一:超过统计周期的NetFlow流量及其对应的待存储数据将被转移出暂存数据库,并且转移出的NetFlow流量被保存进NetFlow历史数据库,此后进入步骤十二;
步骤十二:与被存入NetFlow历史数据库中的NetFlow流量对应的待存储数据将连同其冷热计算结果一起被提取出并送入存储资源池,此后进入步骤十三;
步骤十三:按照对待存储数据的冷热判断结果,将其导流到对应的电、磁、光存储介质资源池中进行存储或归档,此后选择进入步骤十四;
步骤十四:将存储资源池中的数据归档保存或者备份到外部公有云中。
5.如权利要求4所述的冷热数据分介质存储平台设计方法,其特征在于,所述数据冷热基线库是按照其中的Netflow流量数据特征-数据冷热程度对照表判断的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711105414.0A CN107979636B (zh) | 2017-11-10 | 2017-11-10 | 冷热数据分介质存储平台设计系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711105414.0A CN107979636B (zh) | 2017-11-10 | 2017-11-10 | 冷热数据分介质存储平台设计系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107979636A CN107979636A (zh) | 2018-05-01 |
CN107979636B true CN107979636B (zh) | 2020-10-16 |
Family
ID=62013334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711105414.0A Active CN107979636B (zh) | 2017-11-10 | 2017-11-10 | 冷热数据分介质存储平台设计系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107979636B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857737B (zh) * | 2019-01-03 | 2024-04-16 | 平安科技(深圳)有限公司 | 一种冷热数据存储方法及装置、电子设备 |
CN111459037B (zh) * | 2020-02-27 | 2021-09-14 | 珠海格力电器股份有限公司 | 智能家居系统控制方法、装置、电子设备及可读存储介质 |
CN113254477A (zh) * | 2021-06-04 | 2021-08-13 | 威讯柏睿数据科技(北京)有限公司 | 一种基于内存的数据获取方法和设备 |
CN114461143A (zh) * | 2022-01-11 | 2022-05-10 | 上海英方软件股份有限公司 | 一种海量数据的冷热数据区分方法及装置 |
CN114706535B (zh) * | 2022-05-18 | 2022-08-26 | 北京中科开迪软件有限公司 | 一种磁光电混合存储方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123264A (zh) * | 2014-08-01 | 2014-10-29 | 浪潮(北京)电子信息产业有限公司 | 一种基于异构融合架构的缓存管理方法及装置 |
CN104731794A (zh) * | 2013-12-19 | 2015-06-24 | 北京华易互动科技有限公司 | 一种冷热数据分片挖掘存储方法 |
CN105373350A (zh) * | 2015-11-23 | 2016-03-02 | 联想(北京)有限公司 | 一种数据管理方法及装置 |
WO2016179332A1 (en) * | 2015-05-04 | 2016-11-10 | Endace Technology Limited | Intelligent load balancing and high speed intelligent network recorders |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106155579A (zh) * | 2015-04-27 | 2016-11-23 | 广明光电股份有限公司 | 固态硬盘动态储存转换层数据的方法 |
-
2017
- 2017-11-10 CN CN201711105414.0A patent/CN107979636B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731794A (zh) * | 2013-12-19 | 2015-06-24 | 北京华易互动科技有限公司 | 一种冷热数据分片挖掘存储方法 |
CN104123264A (zh) * | 2014-08-01 | 2014-10-29 | 浪潮(北京)电子信息产业有限公司 | 一种基于异构融合架构的缓存管理方法及装置 |
WO2016179332A1 (en) * | 2015-05-04 | 2016-11-10 | Endace Technology Limited | Intelligent load balancing and high speed intelligent network recorders |
CN105373350A (zh) * | 2015-11-23 | 2016-03-02 | 联想(北京)有限公司 | 一种数据管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107979636A (zh) | 2018-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107979636B (zh) | 冷热数据分介质存储平台设计系统及方法 | |
US20200021506A1 (en) | Hierarchical aggregation of select network traffic statistics | |
CN111124679A (zh) | 一种面向多源异构海量数据限时自动处理方法 | |
US20110167149A1 (en) | Internet flow data analysis method using parallel computations | |
US8179799B2 (en) | Method for partitioning network flows based on their time information | |
US10108672B2 (en) | Stream-based object storage solution for real-time applications | |
US20110292818A1 (en) | Smart traffic optimization | |
CN102750326A (zh) | 一种基于精简策略的集群系统的日志管理优化方法 | |
US11625412B2 (en) | Storing data items and identifying stored data items | |
CN111092759B (zh) | 一种jbod带外管理系统中日志管理的方法、设备及介质 | |
CN103023693A (zh) | 一种行为日志数据管理系统及方法 | |
CN106656577A (zh) | 一种app及浏览器的用户行为统计方法及智能路由器 | |
CN106549807A (zh) | 一种日志的分类上报方法及系统 | |
CN109344137A (zh) | 一种日志存储方法及系统 | |
WO2014094303A1 (zh) | 一种监控记录管理方法与装置 | |
CN106326280B (zh) | 数据处理方法、装置及系统 | |
Chen et al. | Client-aware cloud storage | |
CN113076229A (zh) | 一种通用的企业级信息技术监控系统 | |
CN114095383B (zh) | 网络流量采样方法、系统和电子设备 | |
CN201150070Y (zh) | 集中审计数据采集处理系统 | |
CN107332725B (zh) | 一种快速解析pcap报文的方法 | |
CN115525603A (zh) | 存储统计方法、装置、计算机可读存储介质与ai设备 | |
CN108696389A (zh) | 一种基于海量数据的网络流量及协议报文分析平台 | |
CN114567501A (zh) | 基于标签评分的资产自动识别方法、系统及设备 | |
CN107846327A (zh) | 一种网管性能数据的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |