CN113971500A - 一种数据细分管理方法、装置及数据管理平台 - Google Patents

一种数据细分管理方法、装置及数据管理平台 Download PDF

Info

Publication number
CN113971500A
CN113971500A CN202010717176.4A CN202010717176A CN113971500A CN 113971500 A CN113971500 A CN 113971500A CN 202010717176 A CN202010717176 A CN 202010717176A CN 113971500 A CN113971500 A CN 113971500A
Authority
CN
China
Prior art keywords
data
analysis
safety
field
subdivision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010717176.4A
Other languages
English (en)
Inventor
陈桂文
钟雪慧
郑建立
姜淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ultrapower Information Safety Technology Co ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
Beijing Ultrapower Information Safety Technology Co ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ultrapower Information Safety Technology Co ltd, China Mobile Group Guangdong Co Ltd filed Critical Beijing Ultrapower Information Safety Technology Co ltd
Priority to CN202010717176.4A priority Critical patent/CN113971500A/zh
Publication of CN113971500A publication Critical patent/CN113971500A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Computer Interaction (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开一种数据细分管理方法、装置及数据管理平台,方法包括:对安全数据的数据类别进行划分,设定每个数据类别下的数据层级架构;所述数据类别包括解析数据、基础数据、数据字典和分析数据;对每个数据层级架构中每个父级节点建立字段模型,形成数据细分模型;所述字段模型包括核心字段,用于约束所述父级节点下同类或相似数据的核心结构;利用所述数据细分模型对采集到的安全数据进行细分处理;对细分后的安全数据进行存储。本申请通过在父级节点建立字段模型,提供面向数据分析的整体功能性的数据细分管理约束,提高数据管理层面的数据细分管理能力,进而提高了上层数据分析层面的工作效率,从而更好地应对多元、复杂的上层风险分析需求。

Description

一种数据细分管理方法、装置及数据管理平台
技术领域
本申请涉及信息安全技术领域,尤其涉及一种数据细分管理方法、装置及数据管理平台。
背景技术
随着互联网络的飞速发展,企业会面临持续变化的安全威胁手段和不断增长的安全风险,传统的安全防护系统和单一的安全数据分析平台的安全管理模式面临更加严峻的挑战。面对日益复杂的企业风险安全管控形势,多源、复杂的各类安全数据是风险分析的基础,首先要做好的就是对相关数据进行收集汇总、按需处理、细分管理,以支撑上层根据数据进行风险分析、风险态势展示等能力。
目前,企业级数据管理和存储主要是借助于大数据管理平台,但大数据管理平台的数据源众多、数据种类繁杂、数据体量大,并且受限于数据管理层面的工作能力,难以应对多元、复杂的上层风险分析需求。
发明内容
本申请提供一种数据细分管理方法、装置及数据管理平台,以解决现有数据管理方法难以满足对多源、复杂的上层风险分析需求的问题。
第一方面,本申请提供一种细分管理方法,包括:
对安全数据的数据类别进行划分,设定每个数据类别对应的数据层级架构;其中,所述数据类别包括解析数据、基础数据、数据字典和分析数据;所述解析数据为解析后的安全日志数据,包括网络设备、安全设备、中间件、服务器、应用系统和业务系统的流量数据以及文件类数据,为用于安全风险分析的主数据;所述基础数据为各类业务的基础信息数据,包括资产数据、人员数据、配置数据和工单数据,用于为安全风险分析提供基础数据依据、补全和标签数据依据;所述数据字典为各类内置分析支撑数据,包括标签数据、分类数据、内置字典和系统字典,为数据管理平台的内置数据库;所述分析数据为进行安全风险分析时产生的中间过程数据和分析结果数据,用于为后续安全风险分析提供数据支撑;
对每个数据层级架构中每个父级节点建立字段模型,形成数据细分模型;其中,所述字段模型包括核心字段,所述核心字段为根据所述父级节点下同类或相似数据共有的必要数据属性而设置,用于约束所述父级节点下同类或相似数据的核心结构;
利用所述数据细分模型对采集到的安全数据进行细分处理;
对细分后的安全数据进行存储。
在一种实施例中,所述方法还包括:
根据从不同数据源采集到的数据,确定是否产生新增的数据类别;当产生新增的数据类别时,在所述数据细分模型中增设所述新增的数据类型对应的数据层级架构,并对新增的数据层级架构中每个父级节点建立字段模型;
和/或,
根据从不同数据源采集到的数据,确定所述数据类别下各层级的子类别是否存在变化;当所述数据类别下各层级的子类别存在变更时,对所述数据类别对应的数据层级架构进行更新,以及根据更新后的数据层级架构对应调整每个父级节点的字段模型。
在一种实施例中,所述对细分后的安全数据进行存储,包括:将细分后的解析数据存储在分布式检索系统,用以在接收到检索指令时,从所述分布式检索系统中查询与所述检索指令相匹配的解析数据。
在一种实施例中,所述对细分后的安全数据进行存储,包括:将细分后的基础数据和数据字典存储在关系型数据库,用以支撑数据补全和数据关联分析。
在一种实施例中,所述对细分后的安全数据进行存储,包括:
细分后的分析数据中除实时告警类数据之外的其他类型数据存储在分布式文件系统,将细分后的分析数据中的实时告警类数据存储在分布式消息总线,以使所述分布式消息总线对所述实时告警类数据进行分析;
在所述分布式消息总线对所述实时告警类数据分析完成后,将所述实时告警类数据存储在关系型数据库中,用以支撑数据展示。
在一种实施例中,所述对细分后的安全数据进行存储,包括:将细分后的所有数据类别的安全数据全部存储在分布式文件系统,用以将安全数据进行统一和完整地存储。
在一种实施例中,所述方法还包括:
为所述分布式检索系统设置第一预设时间和第一阈值;
为所述分布式消息总线设置第二预设时间和第二阈值;
每间隔第一预设时间,清除所述分布式检索系统中的过期数据;或者,当所述分布式检索系统的当前已用存储容量超过第一阈值,清除所述分布式检索系统中的过期数据;
每间隔第二预设时间,清除所述分布式消息总线中的过期数据;或者,当所述分布式消息总线的当前已用存储容量超过第二阈值,清除所述分布式消息总线中的过期数据。
在一种实施例中,所述字段模型还包括选填字段和扩展字段,所述选填字段是为定义数据结构中包括的非必要数据属性而设置的字段;所述扩展字段为预留字段,用于扩展所述数据结构的字段。
在一种实施例中,所述方法还包括:
对细分后的各类别数据进行存储时,记录每个数据类别下的父级节点对应的入库基础信息,所述入库基础信息包括存储设备名称、设备描述、所属部门、运维责任人、责任人联系方式、设备IP、用户名和密码。
第二方面,本申请提供一种数据存储装置,包括:
数据细分模型构建模块,用于对安全数据的数据类别进行划分,设定每个数据类别对应的数据层级架构;其中,所述数据类别包括解析数据、基础数据、数据字典和分析数据;所述解析数据为解析后的安全日志数据,包括网络设备、安全设备、中间件、服务器、应用系统和业务系统的流量数据以及文件类数据,为用于安全风险分析的主数据;所述基础数据为各类业务的基础信息数据,包括资产数据、人员数据、配置数据和工单数据,用于为安全风险分析提供基础数据依据、补全和标签数据依据;所述数据字典为各类内置分析支撑数据,包括标签数据、分类数据、内置字典和系统字典,为数据管理平台的内置数据库;所述分析数据为进行安全风险分析时产生的中间过程数据和分析结果数据,用于为后续安全风险分析提供数据支撑;
所述数据细分模型构建模块,还用于对每个数据层级架构中每个父级节点建立字段模型,形成数据细分模型;所述字段模型包括核心字段,所述核心字段为根据所述父级节点下同类或相似数据共有的必要数据属性而设置,用于约束所述父级节点下同类或相似数据的核心结构;
细分处理模块,用于利用所述数据细分模型对采集到的安全数据进行细分处理;
存储模块,用于对细分后的安全数据进行存储。
第三方面,本申请提供一种数据管理平台,包括:
数据采集模块,用于从不同的数据源采集数据;
数据分析模块,用于根据数据管理模块中存储的数据进行分析;
所述数据管理模块,用于执行:
对安全数据的数据类别进行划分,设定每个数据类别对应的数据层级架构;其中,所述数据类别包括解析数据、基础数据、数据字典和分析数据;所述解析数据为解析后的安全日志数据,包括网络设备、安全设备、中间件、服务器、应用系统和业务系统的流量数据以及文件类数据,为用于安全风险分析的主数据;所述基础数据为各类业务的基础信息数据,包括资产数据、人员数据、配置数据和工单数据,用于为安全风险分析提供基础数据依据、补全和标签数据依据;所述数据字典为各类内置分析支撑数据,包括标签数据、分类数据、内置字典和系统字典,为数据管理平台的内置数据库;所述分析数据为进行安全风险分析时产生的中间过程数据和分析结果数据,用于为后续安全风险分析提供数据支撑;
对每个数据层级架构中每个父级节点建立字段模型,形成数据细分模型;其中,所述字段模型包括核心字段,所述核心字段为根据所述父级节点下同类或相似数据共有的必要数据属性而设置,用于约束所述父级节点下同类或相似数据的核心结构;
利用所述数据细分模型对采集到的安全数据进行细分处理;
对细分后的安全数据进行存储。
本申请中建立数据细分模型,可以根据企业自身特点,针对数据的用途、分析需求等因素,对安全数据的数据类别进行划分,将数据类别划分为解析数据、基础数据、数据字典和分析数据,然后对于每种数据类别设定对应的数据层级架构,数据层级架构可以将每个大类别数据划分为不同层级的数据,从而形成父子节点式的树状架构,每个子节点都是其所属父级节点下包括的数据,为每个父级节点建立字段模型,字段模型用于约束父级节点下同类或相似数据的核心结构,比如对于某个父级节点下安全事件类数据,字段模型中可以规定其数据结构包括攻击时间、攻击源IP、事件类型和事件级别等核心字段,这样在进行数据分析时即可通过同一性的分析手段进行数据处理和分析,提高了上层安全风险分析的效率。本申请中,将从各数据源采集到安全数据作为输入,输入到数据细分模型中,从而对安全数据进行细分处理,然后对细分后的安全数据进行存储,方便上层检索数据以及对数据处理分析。本申请通过在父级节点建立字段模型,提供面向数据分析的整体功能性的数据细分管理约束,提高数据管理层面的数据细分管理能力,进而提高了上层数据分析层面的工作效率,从而更好地应对多元、复杂的上层风险分析需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示例性示出了一种数据管理平台的体系架构;
图2示例性示出了一种数据细分管理方法的流程图;
图3示例性示出了一种数据细分管理装置的结构框图;
图4示例性示出了一种数据管理平台的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了一种数据管理平台的架构,数据管理平台中包括数据采集层面、数据管理层面和数据分析层面。数据采集层面是平台的最底层,用于从企业不同的数据源(数据源1~数据源n)采集数据,这里的数据可以是解析的各类安全日志数据,业务基础信息数据以及其他支撑安全风险分析所需的数据等;数据管理层面位于平台中间层,用于对采集的数据进行细分管理和存储,为后续数据分析提供良好的数据支撑;数据分析层面位于数据管理层面的上层,提供对存储的数据进行安全风险分析以及风险态势展示等功能。由于数据管理层面的能力直接影响上层数据分析层的工作效率和可靠性,因此,本申请提供的技术方案主要针对数据管理层面,数据采集层面和数据分析层面如何运行不影响本方案的实质。
图2示出了一种数据细分管理方法,该方法可被配置于图1中的数据管理层面,所述方法包括:
步骤S10,对安全数据的数据类别进行划分。
由于不同企业的业务情况不同,每个企业都会根据企业自身特点,制定具体的数据管理体系、数据标准化管理方法、过程及负责人等内容,根据企业的数据管理体系,针对不同数据的用途和分析需求等因素,可以对数据类别进行划分,本实施例中将数据划分为4个类别,分别为解析数据、基础数据、数据字典和分析数据。需要说明的是,数据类别的划分可依据企业实际情况进行设定,不限于本实施例所述。此外,随着数据采集层面中不断接入新的数据源以及数据的动态变化,在初始的4种数据类别的基础上,可能新增数据类别。
其中,解析数据主要是采集解析的各类安全日志数据,包括网络设备、安全设备、中间件、服务器、应用系统和业务系统的相关数据以及流量数据、文件类数据等。通过数据处理程序将采集的这类数据处理为标准化数据,然后进行数据管理存储,解析数据是后续安全风险分析的主数据来源。
基础数据主要是采集各类业务的基础信息数据,包括资产、人员、配置和工单等数据,为后续安全风险分析提供基础数据依据、补全/标签数据依据等。
数据字典主要是针对各类内置分析支撑数据,包括标签数据、分类数据、内置字典和系统字典等,作为数据管理平台出厂内置数据库。
分析数据,安全风险分析具有较为复杂的数据分析逻辑,往往需要多次、迭代数据分析过程,所以针对分析中间过程数据、分析结果数据需要提供相应的数据管理能力,为后续再次分析提供数据支撑。
步骤S20,设定每个数据类别对应的数据层级架构。
本实施例中,对于每种数据类别设定对应的数据层级架构,数据层级架构可以将每个大类别数据划分为不同层级的数据,从而形成父子节点式的树状架构,每个子节点都是其所属父级节点下包括的数据,可以根据企业的数据体量划分若干个层级,比如四级或五级数据层级架构,同时支持自定义节点结构和节点管理等配置功能。
数据层级架构中,一级数据是对应于每个数据类别的大类数据,比如网络设备、安全设备、中间件、业务系统、资产和标签等,每个数据类别(即每个一级数据)下包括多个层级的子类别。一级数据的下位为二级数据,二级数据可包括每个大类数据下的数据领域或业务类型等分类,比如一级数据安全设备下的二级数据包括入侵检测类、高级威胁类、数据安全类等;二级数据的下位为三级数据,三级数据可包括二级数据的具体设备类型、业务系统类型等,例如二级数据入侵检测类下可细分为IDS(Intrusion Detection System,入侵检测系统)、IPS(Intrusion Prevention System,入侵防御系统)和WAF(Web ApplicationFirewall,Web应用程序防火墙)等;三级数据的下位为四级数据,四级数据支持厂商分类、版本分类;若为五级架构则支持版本等其他项的分类。通过数据层级架构,对每个数据类别进行逐层分类和细分,定义同一类别下各级数据之间父子关系,从而更加清楚直观地表达数据的关联和逻辑。
步骤S30,对每个数据层级架构中每个父级节点建立字段模型,形成数据细分模型。
步骤S40,利用所述数据细分模型对采集到的安全数据进行细分处理。
对于上述树状的数据层级架构,为其中的每个父级节点建立字段模型,字段模型包括核心字段,所述核心字段为根据所述父级节点下同类或相似数据共有的必要数据属性而设置,用于约束父级节点下同类或相似数据的核心结构,从而提供面向数据分析的整体功能性的数据细分管理约束,比如入侵检测类数据下管网络入侵检测类和防御类等安全设备,对于这类安全设备产生的安全事件类数据,在入侵检测类父级节点建立的字段模型中规定数据结构包括攻击时间、攻击源IP、攻击目的IP、目的端口、事件类型和事件级别等核心字段,这样在进行数据分析时针对该入侵检测类数据,即可通过一致性的分析手段进行数据处理、数据分析以及结果可视化等过程,提高了上层安全风险分析的效率。字段模型可包括必填字段、选填字段和扩展字段,必填字段可定义数据的核心结构,对应于数据结构中一些必要的核心字段,选填字段是为定义数据结构中包括但是非必要数据属性而设置的字段,扩展字段可以是预留字段,用于扩展所述数据结构的字段,可支持不同数据类型相应扩展个性化字段,字段模型可以根据实际需求进行字段修改、字段重定义、新增字段和删减字段等操作。
当各数据层级架构中的父级节点都建立对应的字段模型后,则形成了数据细分模型,将采集到的数据作为输入,输入至数据细分模型中,即可实现对数据的细分规划和数据结构的统一管理约束,避免数据核心基础信息缺失,提高数据在分析阶段的价值,从而提高上层进行安全风险分析的工作效率。企业长期运作时,在数据全生命周期过程中数据量级、数据类别以及每个数据类别对应的数据层级架构等都可能发生变化,比如数据源可能变化和增加,因此,在不断采集数据的过程中,初始构建的数据细分模型可以根据企业实际数据变化进行更新和适应性调整。
在一种实现方式中,根据从不同数据源采集到的数据,确定是否产生新增的数据类别;当产生新增的数据类别时,在所述数据细分模型中增设所述新增的数据类型对应的数据层级架构,并对新增的数据层级架构中每个父级节点建立字段模型;和/或,根据从不同数据源采集到的数据,确定所述数据类别下各层级的子类别是否存在变化;当所述数据类别下各层级的子类别存在变更时,对所述数据类别对应的数据层级架构进行更新,以及根据更新后的数据层级架构对应调整每个父级节点的字段模型。
当产生新增的数据类别,即安全数据存在大类别变化时,需要设定新增数据类别对应的数据层级架构,并在新增的数据层级架构中的每个父级节点建立字段模型,即可完成数据细分模型的更新;当数据类别即大类别下的各层级子类别中存在变化时,比如解析数据下的二级数据中某个子类别的变化/替换,或者是二级数据中产生了新增的子类别等情况,就需要对数据类别对应的数据层级架构进行更新,并根据更新后的数据层级架构适应性调整各父级节点的字段模型,即每个数据类别对应的数据层级架构会随着企业运行中数据的变化而变化,因此也要使数据细分模型随之变化更新。
数据细分后,支持对模型中数据基础信息的定义和管理能力,由于数据一般通过字符串、字段等形式进行传输,数据流中每个字符串/字段都被定义好指代的基础信息,这样在数据细分后对数据进行解析,将数据的字符串/字段转化为基础信息,这样即可将数据以中文或英文等语言文字的形式进行存储和管理。然后,接下来就是对细分后的数据进行存储。
步骤S50,对细分后的安全数据进行存储。
申请人实践发现,数据存储更多是在数据规划阶段需求确认之后,约束好相应的存储位置,但数据接入过程是个长期、持续性的过程,会持续性地接入更多数据源,同时也会导致规划的默认存储逻辑发生变化。另外,当项目持续推进时,更多的数据分析场景需要扩展,那么面向数据分析的存储需求也会发生相应的变更,但是目前缺乏更自动化、更灵活的数据存储逻辑支撑。因此为更好地应对多元、复杂的上层风险分析需求,不仅需要支持对数据的细分规划和管理约束,同时存储方式和存储逻辑等策略也是支撑数据分析的重要手段。
本实施例中主要支持非结构化数据、结构化数据、半结构化数据的数据存储,为支撑不同应用需求,针对企业数据量级、数据类别、数据需求等规划数据的存储策略,比如可以建立数据全生命周期的数据存储模型,并作为数据存储模型的初始值输入,后续在数据类型逐渐丰富以及数据量持续扩容的整个数据管理生命周期中,对初始值进行更新调整。本实施例中针对不同类别的细分数据,支持同时存储到多个存储结构中,整体上可包括四种存储模式,分别为关系型数据存储、分布式检索存储、分布式文件存储和分布式消息总线存储,以应对不同的数据分析、检索需求。
其中,关系型数据存储,即数据存储位置在关系型数据库中,适于存储数据量小、变化周期小的结构化数据,例如基础数据和数据字典等。
分布式检索存储,即数据存储位置在分布式检索系统中,适于存储需要对外提供全文检索的数据,支撑数据查询和检索需求。
分布式文件存储,即数据存储位置在分布式文件系统中,存储采集的原始数据以及及ETL(Extract Transform Load,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)后的标准化数据等,作为重要的数据存储及计算体,存储有大量的历史数据。
分布式消息总线存储,即数据存储位置在分布式消息总线,提供分布式的消息处理机制,具备高吞吐量、高并发的消息发布和消息订阅,用于实时数据处理,支撑输出实时数据告警等需求。
本申请中,为保障数据存储成功入库比率、存储数据性能等,可以建立针对数据细分模型的内置存储策略,支持多维度的存储策略配置,存储策略中可以配置不同的逻辑,比如存储容量逻辑、存储时间逻辑、过期数据清除逻辑和数据存入逻辑等,作为灵活策略配置手段来丰富存储策略。存储策略的核心元素包括:数据类别、数据用途、数据量级、数据存储位置、数据存储时间、存储容量、过期数据清除等。存储策略中涉及的存储逻辑主要包括数据存入和过期数据清除。上述四种存储模式可以分别建立各自相适应的存储策略,每种存储方式可以设置不同的元素因子。
数据存入逻辑可以根据数据类别进行设定,例如包括:
(1)将细分后的各类别数据全部存储在分布式文件系统,即所有采集到的数据进行细分后都需要在分布式文件系统中存储,用以将安全数据进行统一和完整地存储,以保证数据存储的完整性,以及便于查询全部历史数据;
(2)将细分后的解析数据存储在分布式检索系统,以支撑解析数据的可视化分析以及解析数据的查询检索;在接收到检索指令时,可从所述分布式检索系统中查询与所述检索指令相匹配的解析数据,并将检索到的解析数据以可视化的形式展示给用户。所述检索指令比如可以是用户通过数据管理平台的检索系统输入“关键字”等信息,并点击检索控件的形式输入,检索的实现形式可以根据实际应用进行设定;
(3)将细分后的基础数据和数据字典存储在关系型数据库,以支撑数据补全和数据关联分析等处理;
(4)对于数据类别为分析数据,先将细分后的分析数据中的实时告警类数据存储在分布式消息总线,细分后的分析数据中除实时告警类数据之外的其他类型数据存储在分布式文件系统;分布式消息总线会对实时告警类数据进行分析,在分析完成后,将实时告警类数据存储在关系型数据库中,以支撑数据展示及后序闭环处置流程。
需要说明的是,数据存入逻辑可以根据实际应用灵活配置,可以基于数据类别按照上述对应的存入逻辑进行存储,又比如每种数据类别下,为不同层级的子类别数据单独设定存储模式。
对细分后的各类别数据进行存储时,记录每个数据类别下的父级节点对应的入库基础信息,所述入库基础信息包括存储设备名称、设备描述、所属部门、运维责任人和责任人联系方式等存储基础信息,以及配置存储设备名称、设备IP、用户名和密码等存储连接信息,通过设置入库基础信息,可以便于数据的管理维护,比如解析数据中安全设备下的入侵检测类数据存在异常,则可与入侵检测类数据所述部门的运维负责人进行联系。
对于过期数据清除逻辑,主要适用于分布式检索系统和分布式消息总线;分布式文件系统和关系型数据库中的过期数据不需清除,保持全量存储。
分布式检索系统的数据清除逻辑为:为分布式检索系统设置第一预设时间和第一阈值,每间隔第一预设时间,清除分布式检索系统中的过期数据;或者,当分布式检索系统的当前已用存储容量超过第一阈值,清除分布式检索系统中的过期数据。在累积存储数据时,同类数据会被不断更新,那么之前存储的旧数据就成为过期数据,那么可以通过设置第一预设时间,定期清除分布式检索系统的过期数据;或者,由于数据不断累积存储,使得分布式检索系统的当前存储容量随之不断增长,当增长至第一阈值时,就要清除过期数据,释放被过期数据占用的存储空间,当然也可以通过分布式检索系统的剩余容量来判定是否需要清除过期数据,本实施例不再赘述。
分布式消息总线的数据清除逻辑为:为分布式消息总线设置第二预设时间和第二阈值,每间隔第二预设时间,清除分布式消息总线中的过期数据;或者,当分布式消息总线的当前已用存储容量超过第二阈值,清除分布式消息总线中的过期数据。通过设置第二预设时间,定期清除分布式消息总线的过期数据;或者,由于数据不断累积存储,使得分布式消息总线的当前存储容量随之不断增长,当增长至第二阈值时,就要清除过期数据,释放被过期数据占用的存储空间,当然也可以通过分布式消息总线的剩余容量来判定是否需要清除过期数据,本实施例不再赘述。
本申请上述实施例是示例性的,在实际应用中,数据类别以及每个类别下的层级架构可以根据不同企业的数据进行更新调整;此外,存储模式也不限于本实施例列举的四种,在前述技术方案的基础上,本领域技术人员可以灵活配置和更新存储策略,以适应不断变化的企业数据和更新的数据细分模型。
图3示出一种数据细分管理装置,包括数据细分模型构建模块110、细分处理模块120和存储模块130;
数据细分模型构建模块110,用于对安全数据的数据类别进行划分,设定每个数据类别对应的数据层级架构;其中,所述数据类别包括解析数据、基础数据、数据字典和分析数据;
数据细分模型构建模块110,还用于对每个数据层级架构中每个父级节点建立字段模型,形成数据细分模型;所述字段模型用于约束所述父级节点下同类或相似数据的核心结构;
细分处理模块120,用于利用所述数据细分模型对采集到的安全数据进行细分处理;
存储模块130,用于对细分后的安全数据进行存储。
具体地,存储模块130用于将细分后的解析数据存储在分布式检索系统。
存储模块130还用于将细分后的基础数据和数据字典存储在关系型数据库。
存储模块130还用于将细分后的所有数据类别的安全数据全部存储在分布式文件系统。
存储模块130还用于先将细分后的分析数据中的实时告警类数据存储在分布式消息总线,细分后的分析数据中除实时告警类数据之外的其他类型数据存储在分布式文件系统;在所述分布式消息总线对所述实时告警类数据分析完成后,将所述实时告警类数据存储在关系型数据库中。
存储模块130,还用于对细分后的数据进行存储时,记录每个数据类别下的父级节点对应的入库基础信息。
在一些实现方式中,所述装置还包括存储策略设定模块140,存储策略设定模块140用于为分布式检索系统设置第一预设时间和第一阈值;
则存储模块130,还用于每间隔第一预设时间,清除所述分布式检索系统中的过期数据;或者,当所述分布式检索系统的当前已用存储容量超过第一阈值,清除所述分布式检索系统中的过期数据。
存储策略设定模块140,还用于为分布式消息总线设置第二预设时间和第二阈值;
则存储模块130,还用于每间隔第二预设时间,清除所述分布式消息总线中的过期数据;或者,当所述分布式消息总线的当前已用存储容量超过第二阈值,清除所述分布式消息总线中的过期数据。
存储策略设定模块140还用于设定或修改其他与数据存储有关的策略逻辑。本实施例各模块的具体功能描述可以参照前一实施例所述,本实施例不再赘述。
图4示出一种数据管理平台,包括:
数据采集模块210,用于从不同的数据源采集数据;
数据分析模块230,用于根据数据管理模块220中存储的数据进行分析;
所述数据管理模块220,用于执行:
对安全数据的数据类别进行划分,设定每个数据类别对应的数据层级架构;其中,所述数据类别包括解析数据、基础数据、数据字典和分析数据;
对每个数据层级架构中每个父级节点建立字段模型,形成数据细分模型;其中,所述字段模型用于约束所述父级节点下同类或相似数据的核心结构;
利用所述数据细分模型对采集到的安全数据进行细分处理;
对细分后的安全数据进行存储。
数据管理模块220的其他功能配置和描述请参照第一实施例,本实施例不再赘述。
上述各实施例中,可以根据企业自身特点,针对数据的用途、分析需求等因素,对安全数据的数据类别进行划分,将数据类别划分为解析数据、基础数据、数据字典和分析数据,然后对于每种数据类别设定对应的数据层级架构,数据层级架构可以将每个大类别数据划分为不同层级的数据,从而形成父子节点式的树状架构,每个子节点都是其所属父级节点下包括的数据,为每个父级节点建立字段模型,字段模型用于约束父级节点下同类或相似数据的核心结构,比如对于某个父级节点下安全事件类数据,字段模型中可以规定其数据结构包括攻击时间、攻击源IP、事件类型和事件级别等核心字段,这样在进行数据分析时即可通过同一性的分析手段进行数据处理和分析,提高了上层安全风险分析的效率。本申请中,将从各数据源采集到安全数据作为输入,输入到数据细分模型中,从而对安全数据进行细分处理,然后对细分后的安全数据进行存储,并制定与数据细分模块中各数据类别适应的存储策略,并实现了对不同类别的数据进行分类入库存储,方便上层检索数据以及对数据处理分析。本申请提供面向数据分析的整体功能性的数据细分管理约束,并提供了更自动且灵活的数据存储策略逻辑,提高数据管理层面的数据细分管理和存储能力,进而提高了上层数据分析层面的工作效率,从而更好地应对多元、复杂的上层风险分析需求。
本申请中各实施例之间相同或相似的内容可互相参照印证。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据细分管理方法,其特征在于,包括:
对安全数据的数据类别进行划分,设定每个数据类别对应的数据层级架构;其中,所述数据类别包括解析数据、基础数据、数据字典和分析数据;所述解析数据为解析后的安全日志数据,包括网络设备、安全设备、中间件、服务器、应用系统和业务系统的流量数据以及文件类数据,为用于安全风险分析的主数据;所述基础数据为各类业务的基础信息数据,包括资产数据、人员数据、配置数据和工单数据,用于为安全风险分析提供基础数据依据、补全和标签数据依据;所述数据字典为各类内置分析支撑数据,包括标签数据、分类数据、内置字典和系统字典,为数据管理平台的内置数据库;所述分析数据为进行安全风险分析时产生的中间过程数据和分析结果数据,用于为后续安全风险分析提供数据支撑;
对每个数据层级架构中每个父级节点建立字段模型,形成数据细分模型;其中,所述字段模型包括核心字段,所述核心字段为根据所述父级节点下同类或相似数据共有的必要数据属性而设置,用于约束所述父级节点下同类或相似数据的核心结构;
利用所述数据细分模型对采集到的安全数据进行细分处理;
对细分后的安全数据进行存储。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据从不同数据源采集到的数据,确定是否产生新增的数据类别;当产生新增的数据类别时,在所述数据细分模型中增设所述新增的数据类型对应的数据层级架构,并对新增的数据层级架构中每个父级节点建立字段模型;
和/或,
根据从不同数据源采集到的数据,确定所述数据类别下各层级的子类别是否存在变化;当所述数据类别下各层级的子类别存在变更时,对所述数据类别对应的数据层级架构进行更新,以及根据更新后的数据层级架构对应调整每个父级节点的字段模型。
3.根据权利要求1所述的方法,其特征在于,对细分后的安全数据进行存储,包括:
将细分后的解析数据存储在分布式检索系统,用以在接收到检索指令时,从所述分布式检索系统中查询与所述检索指令相匹配的解析数据。
4.根据权利要求1所述的方法,其特征在于,对细分后的安全数据进行存储,包括:
将细分后的基础数据和数据字典存储在关系型数据库,用以支撑数据补全和数据关联分析。
5.根据权利要求1所述的方法,其特征在于,对细分后的安全数据进行存储,包括:
细分后的分析数据中除实时告警类数据之外的其他类型数据存储在分布式文件系统,将细分后的分析数据中的实时告警类数据存储在分布式消息总线,以使所述分布式消息总线对所述实时告警类数据进行分析;
在所述分布式消息总线对所述实时告警类数据分析完成后,将所述实时告警类数据存储在关系型数据库中,用以支撑数据展示。
6.根据权利要求1所述的方法,其特征在于,对细分后的安全数据进行存储,包括:
将细分后的所有数据类别的安全数据全部存储在分布式文件系统,用以将安全数据进行统一和完整地存储。
7.根据权利要求1所述的方法,其特征在于,所述字段模型还包括选填字段和扩展字段;所述选填字段是为定义数据结构中包括的非必要数据属性而设置的字段;所述扩展字段为预留字段,用于扩展所述数据结构的字段。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
对细分后的各类别数据进行存储时,记录每个数据类别下的父级节点对应的入库基础信息,所述入库基础信息包括存储设备名称、设备描述、所属部门、运维责任人、责任人联系方式、设备IP、用户名和密码。
9.一种数据细分管理装置,其特征在于,包括:
数据细分模型构建模块,用于对安全数据的数据类别进行划分,设定每个数据类别对应的数据层级架构;其中,所述数据类别包括解析数据、基础数据、数据字典和分析数据;所述解析数据为解析后的安全日志数据,包括网络设备、安全设备、中间件、服务器、应用系统和业务系统的流量数据以及文件类数据,为用于安全风险分析的主数据;所述基础数据为各类业务的基础信息数据,包括资产数据、人员数据、配置数据和工单数据,用于为安全风险分析提供基础数据依据、补全和标签数据依据;所述数据字典为各类内置分析支撑数据,包括标签数据、分类数据、内置字典和系统字典,为数据管理平台的内置数据库;所述分析数据为进行安全风险分析时产生的中间过程数据和分析结果数据,用于为后续安全风险分析提供数据支撑;
数据细分模型构建模块,还用于对每个数据层级架构中每个父级节点建立字段模型,形成数据细分模型;所述字段模型包括核心字段,所述核心字段为根据所述父级节点下同类或相似数据共有的必要数据属性而设置,用于约束所述父级节点下同类或相似数据的核心结构;
细分处理模块,用于利用所述数据细分模型对采集到的安全数据进行细分处理;
存储模块,用于对细分后的安全数据进行存储。
10.一种数据管理平台,其特征在于,包括:
数据采集模块,用于从不同的数据源采集数据;
数据分析模块,用于根据数据管理模块中存储的数据进行分析;
所述数据管理模块,用于执行:
对安全数据的数据类别进行划分,设定每个数据类别对应的数据层级架构;其中,所述数据类别包括解析数据、基础数据、数据字典和分析数据;所述解析数据为解析后的安全日志数据,包括网络设备、安全设备、中间件、服务器、应用系统和业务系统的流量数据以及文件类数据,为用于安全风险分析的主数据;所述基础数据为各类业务的基础信息数据,包括资产数据、人员数据、配置数据和工单数据,用于为安全风险分析提供基础数据依据、补全和标签数据依据;所述数据字典为各类内置分析支撑数据,包括标签数据、分类数据、内置字典和系统字典,为数据管理平台的内置数据库;所述分析数据为进行安全风险分析时产生的中间过程数据和分析结果数据,用于为后续安全风险分析提供数据支撑;
对每个数据层级架构中每个父级节点建立字段模型,形成数据细分模型;其中,所述字段模型包括核心字段,所述核心字段为根据所述父级节点下同类或相似数据共有的必要数据属性而设置,用于约束所述父级节点下同类或相似数据的核心结构;
利用所述数据细分模型对采集到的安全数据进行细分处理;
对细分后的安全数据进行存储。
CN202010717176.4A 2020-07-23 2020-07-23 一种数据细分管理方法、装置及数据管理平台 Pending CN113971500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010717176.4A CN113971500A (zh) 2020-07-23 2020-07-23 一种数据细分管理方法、装置及数据管理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010717176.4A CN113971500A (zh) 2020-07-23 2020-07-23 一种数据细分管理方法、装置及数据管理平台

Publications (1)

Publication Number Publication Date
CN113971500A true CN113971500A (zh) 2022-01-25

Family

ID=79585288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010717176.4A Pending CN113971500A (zh) 2020-07-23 2020-07-23 一种数据细分管理方法、装置及数据管理平台

Country Status (1)

Country Link
CN (1) CN113971500A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983701A (zh) * 2023-01-03 2023-04-18 中国三峡新能源(集团)股份有限公司 基于微服务架构的新能源发电设备全生命周期管理系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130060825A1 (en) * 2011-09-02 2013-03-07 Infosys Limited Managing classification hierarchies in master data management environments
CN104036365A (zh) * 2014-06-26 2014-09-10 浪潮软件股份有限公司 一种企业级数据服务平台建设方法
CN105843803A (zh) * 2015-01-12 2016-08-10 上海悦程信息技术有限公司 大数据安全可视化交互分析系统及方法
US9444829B1 (en) * 2014-07-30 2016-09-13 Symantec Corporation Systems and methods for protecting computing resources based on logical data models
CN107147639A (zh) * 2017-05-08 2017-09-08 国家电网公司 一种基于复杂事件处理的实时安全预警方法
CN108769048A (zh) * 2018-06-08 2018-11-06 武汉思普崚技术有限公司 一种安全可视化与态势感知平台系统
CN109861995A (zh) * 2019-01-17 2019-06-07 安徽谛听信息科技有限公司 一种网络空间安全大数据智能分析方法、计算机可读介质
CN109885562A (zh) * 2019-01-17 2019-06-14 安徽谛听信息科技有限公司 一种基于网络空间安全的大数据智能分析系统
CN110389944A (zh) * 2019-07-29 2019-10-29 浪潮软件股份有限公司 一种基于模型的元数据管理系统及方法
CN111078905A (zh) * 2018-10-22 2020-04-28 北京国双科技有限公司 一种数据处理方法、装置、介质以及设备
CN111177392A (zh) * 2019-12-31 2020-05-19 腾讯云计算(北京)有限责任公司 一种数据处理方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130060825A1 (en) * 2011-09-02 2013-03-07 Infosys Limited Managing classification hierarchies in master data management environments
CN104036365A (zh) * 2014-06-26 2014-09-10 浪潮软件股份有限公司 一种企业级数据服务平台建设方法
US9444829B1 (en) * 2014-07-30 2016-09-13 Symantec Corporation Systems and methods for protecting computing resources based on logical data models
CN105843803A (zh) * 2015-01-12 2016-08-10 上海悦程信息技术有限公司 大数据安全可视化交互分析系统及方法
CN107147639A (zh) * 2017-05-08 2017-09-08 国家电网公司 一种基于复杂事件处理的实时安全预警方法
CN108769048A (zh) * 2018-06-08 2018-11-06 武汉思普崚技术有限公司 一种安全可视化与态势感知平台系统
CN111078905A (zh) * 2018-10-22 2020-04-28 北京国双科技有限公司 一种数据处理方法、装置、介质以及设备
CN109861995A (zh) * 2019-01-17 2019-06-07 安徽谛听信息科技有限公司 一种网络空间安全大数据智能分析方法、计算机可读介质
CN109885562A (zh) * 2019-01-17 2019-06-14 安徽谛听信息科技有限公司 一种基于网络空间安全的大数据智能分析系统
CN110389944A (zh) * 2019-07-29 2019-10-29 浪潮软件股份有限公司 一种基于模型的元数据管理系统及方法
CN111177392A (zh) * 2019-12-31 2020-05-19 腾讯云计算(北京)有限责任公司 一种数据处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983701A (zh) * 2023-01-03 2023-04-18 中国三峡新能源(集团)股份有限公司 基于微服务架构的新能源发电设备全生命周期管理系统
CN115983701B (zh) * 2023-01-03 2023-08-04 中国三峡新能源(集团)股份有限公司 基于微服务架构的新能源发电设备全生命周期管理系统

Similar Documents

Publication Publication Date Title
US11086289B2 (en) Control interface for metric definition specification for assets driven by search-derived asset tree hierarchy
US10523538B2 (en) User interface that provides a proactive monitoring tree with severity state sorting
US8051106B2 (en) Automated application discovery and analysis system and method
US20180129579A1 (en) Systems and Methods with a Realtime Log Analysis Framework
US20020143735A1 (en) User scope-based data organization system
CN112000849A (zh) 统一标签库管理方法、装置、设备及存储介质
CN109388637A (zh) 数据仓库信息处理方法、装置、系统、介质
US9569722B2 (en) Optimal persistence of a business process
US20110131247A1 (en) Semantic Management Of Enterprise Resourses
CN113849483A (zh) 一种用于智能工厂的实时数据库系统架构
CN111858713A (zh) 基于对象的政府信息化资产管理方法及系统
CN108664509A (zh) 一种即席查询的方法、装置及服务器
US11210278B1 (en) Asset group interface driven by search-derived asset tree hierarchy
CN115617776A (zh) 一种数据管理系统及方法
CN116361487A (zh) 一种多源异构政策知识图谱构建和存储方法及系统
CN111858722A (zh) 一种基于物联网的大数据应用系统及方法
US9875288B2 (en) Recursive filter algorithms on hierarchical data models described for the use by the attribute value derivation
CN113971500A (zh) 一种数据细分管理方法、装置及数据管理平台
CN116680090B (zh) 一种基于大数据的边缘计算网络管理方法及平台
CN111382155A (zh) 一种数据仓库的数据处理方法、电子设备及介质
US11403313B2 (en) Dynamic visualization of application and infrastructure components with layers
US20190258653A1 (en) System of dynamic hierarchies based on a searchable entity model
CN112347314B (zh) 一种基于图数据库的数据资源管理系统
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
US8200613B1 (en) Approach for performing metadata reconciliation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination