CN111008234A - 基于网络安全数据治理的数仓处理方法 - Google Patents

基于网络安全数据治理的数仓处理方法 Download PDF

Info

Publication number
CN111008234A
CN111008234A CN201911178085.1A CN201911178085A CN111008234A CN 111008234 A CN111008234 A CN 111008234A CN 201911178085 A CN201911178085 A CN 201911178085A CN 111008234 A CN111008234 A CN 111008234A
Authority
CN
China
Prior art keywords
data
library
warehouse
processing
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911178085.1A
Other languages
English (en)
Inventor
吴风鹏
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN201911178085.1A priority Critical patent/CN111008234A/zh
Publication of CN111008234A publication Critical patent/CN111008234A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于网络安全数据治理的数仓处理方法,包括以下步骤:步骤1:采集中心收集数据并发送给数仓的基础库;步骤2:数仓的基础库将步骤1收集到的数据发送到资源库和知识库中;步骤3:资源库和知识库通过数据挖掘、机器学习等技术形成主题库;步骤4:主题库中的数据按照多维的方式进行存储,生成面向决策分析需求的数据立方体。本发明基于网络安全数据治理的新型数仓结构设计是以数仓为载体使数据治理与数据分析挖掘紧密结合,让治理好的数据更好的应用于数据分析、更好的服务于客户业务。

Description

基于网络安全数据治理的数仓处理方法
技术领域
本发明涉及一种数仓,具体涉及一种基于网络安全数据治理的数仓处理方法。
背景技术
大数据时代,网络安全数据的特点量大、样多、高速等怎样从海量网络数据中通过新型数仓这一数据治理的载体更好的形成数据标准、元数据、主数据、数据资源目录等最基础的数据治理元素,为后续数据挖掘获取有价值的数据提供可靠的基础数据支撑,基于网络安全数据治理的新型数仓结构设计,使数据治理与数据分析挖掘紧密结合,实现了数据治理就是为了更好的实现数据价值这一根本理念。
网络安全数据治理流程从原始数据采集层、数据预处理层、数据存储层、数据处理层、情报库、分析层、业务层等纬度将原始流量数据、告警数据、安全事件数据、资产数据、情报数据等通过新型数仓结构实现“数据模型标准化、数据关系脉络化、数据加工可视化、数据质量度量化、数据分析挖掘流程化、数据服务自动化”让网络安全数据治理更好的服务于网络安全数据挖掘分析,进而更好的让数据支撑业务,为客户业务服务。
传统数据治理系统,包括:权限管理模块,用于对用户的身份信息进行验证,并根据验证结果授予用户操作权限;数据源管理模块,用于从数据源数据库中获取待治理数据,并将待治理数据发送至数据治理模块;任务构建模块,用于获取用户输入的数据治理要求,根据数据治理要求及用户操作权限为待治理数据构建数据治理任务;数据治理模块,用于接收待治理数据,并根据数据治理任务对待治理数据进行数据治理,生成治理结果。因此只是达到为“数据治理”而治理,没有实现数据治理的最终价值,数据治理的价值在于实现数据挖掘、分析尽可能的挖掘获取数据背后潜在的价值。
目前数据治理数仓的主要缺点包括:
1.只是达到为“数据治理”而治理,没有实现数据治理的最终价值,数据治理的价值在于实现数据挖掘、分析尽可能的挖掘获取数据背后潜在的价值。
2.数据仓库的ETL:数据抽取、数据转换、数据加载过程,知识将数据从源到目标层的清洗、转换、加工流转,没有知识的探索过程。
因此,需要对现有技术进行改进。
数仓:数据仓库(DataWarehouse),数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
数仓ETL:数据抽取、数据转换、数据加载过程。
数仓DAD:从数据中发现知识、获取知识、提炼知识的过程。
网络安全数据治理:网络安全数据治理是指从原始流量数据、告警数据、安全事件数据、资产数据等通过一定的技术手段加工提炼转化为能够为安全业务服务的统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。数据治理是一种数据管理概念,涉及使组织能够确保在数据的整个生命周期中存在高数据质量的能力。
发明内容
本发明要解决的技术问题是提供一种高效的基于网络安全数据治理的数仓处理方法。
为解决上述技术问题,本发明提供一种基于网络安全数据治理的数仓处理方法,包括以下步骤:
步骤1:采集中心收集数据并发送给数仓的基础库;
步骤2:数仓的基础库将步骤1收集到的数据发送到资源库和知识库中;
步骤3:资源库和知识库通过数据挖掘、机器学习等技术形成主题库;
步骤4:主题库中的数据按照多维的方式进行存储,生成面向决策分析需求的数据立方体。
作为对本发明基于网络安全数据治理的数仓处理方法的改进:
步骤2包括:数仓的基础库将步骤1收集到的数据经过规则解析后,发送至对应的KafkaTopic,后续经过标准化处理、数据补充处理后分类发送到资源库和知识库。
作为对本发明基于网络安全数据治理的数仓处理方法的进一步改进:
步骤3包括:
资源库中的数据通过数据纬度关联分析形成攻击主题库,攻击主题库主要有如下维度:单位名称、网站名称、行业类型、告警类型、严重等级;
知识库中的数据通过关联单位、网站等数据提取数据维度如单位名称、网站名称、漏洞名称、漏洞URL、严重等级、漏洞描述等形成有明确漏洞对象的资产漏洞主题库。
作为对本发明基于网络安全数据治理的数仓处理方法的进一步改进:
在步骤4中的多维的方式包括定义维度、需要计算的指标、维度的层次等。
作为对本发明基于网络安全数据治理的数仓处理方法的进一步改进:
标准化处理包括数据同趋化处理和无量纲化处理。
本发明基于网络安全数据治理的数仓处理方法的技术优势为:
本发明基于网络安全数据治理的新型数仓结构设计是以数仓为载体使数据治理与数据分析挖掘紧密结合,让治理好的数据更好的应用于数据分析、更好的服务于客户业务。
网络安全数据治理与分析结合使“数据模型标准化、数据关系脉络化、数据加工可视化、数据质量度量化、数据分析挖掘流程化、数据服务自动化”让网络安全数据治理更好的服务于网络安全数据挖掘分析,进而更好的让数据支撑业务,为客户业务服务。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细说明。
图1为现有网络安全数据治理流程图;
图2为基于网络安全新型数据仓库架构图;
图3为DWB层的结构示意图;
图4为本发明基于网络安全数据治理的新型数仓数据流程图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此。
实施例1、基于网络安全数据治理的数仓处理方法,如图1-4所示;
数仓是数据治理的实现形式,通过数据治理过程与数据分析挖掘过程相结合,进而使大数据的价值富化。中心数仓分四个核心过程,事前防范、事中管控、事后治理以及事件分析挖掘。
事前防范:
(1)数据标准化,行业级标准化、编码标准化、业务字典标准化、稽核规则标准化;
(2)数据集中管理:管理由分散到集中、由不一致到统一
事中管控(ETL):
(1)数据质量,数据唯一性、数据完整性、数据时效性、数据准确性;
(2)数据运营监控,采集监控、稽核监控、加工监控
事后治理:
(1)数据评估及处理,数据质量问题、数据加工问题、数据采集问题;
(2)数据共享,数据变化及时得到全局性的体现、数据权限、数据安全
事件分析挖掘(DAD)过程:
(1)分析挖掘准确化
(2)分析挖掘时效化
(3)分析挖掘智能化
1、基于网络安全新型数据仓库架构如图2所示;
2、数仓各层级说明
Figure BDA0002290494960000041
基于网络安全数据治理的新型数仓数据流程如图4所示:
步骤1:采集中心收集数据并发送给数仓的基础库;
采集中心采集到数仓原始数据层通过flume或kafkatopic发送数据到ODS层,通过已经建设好的数据结构存储数据。收集的数据包括网络安全态势感知流量监测探针告警信息数据、网络安全态势感知远程扫描及主动监测平台数据以及网络安全态势感知安全事件机构上报数据,收集的数据具体为流量日志数据、告警日志数据、网络安全事件数据、资产相关数据、运维监控数据、恶意域名数据、恶意ip知识数据、有害程序数据、漏洞知识数据、等保知识数据、告警规则描述数据等等。
步骤2:数仓的基础库接收由采集中心采集到的数据,经过规则解析后,发送至对应的Kafka Topic,后续经过标准化模块、基础数据补充模块处理按业务流程入库;
标准化模块:数据分析层面的数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。本发明的数据标准化处理主要包括以下几个处理步骤:数据唯一性校验、数据逻辑校验、数据枚举值校验、数据长度校验、数据非空校验、数据异常值校验等。
基础数据补充模块:主要解决数据空值、异常值等。即为空值(补全或删除)与异常值(剔除)。
落入基础库(DWD层)的数据为标准化后的明细数据;
基础库DWD层数据会根据已经划分好的数据资源域,按照资源域的不同通过flink实时流处理或spark批处理分别将处理完的数据发送到资源库和知识库。
例如可以将流量日志数据、告警日志数据、网络安全事件数据、资产相关数据、运维监控数据发送到资源库;将恶意域名数据、恶意ip知识数据、有害程序数据、漏洞知识数据、等保知识数据、告警规则描述数据。
步骤3:资源库和知识库根据业务需求,通过数据挖掘、机器学习等技术形成主题库。
资源库中的数据通过数据纬度关联分析形成攻击主题库,攻击主题库主要有如下维度:单位名称、网站名称、行业类型、告警类型、严重等级等。
知识库中的数据通过关联单位、网站等数据提取数据维度如单位名称、网站名称、漏洞名称、漏洞URL、严重等级、漏洞描述等形成有明确漏洞对象的资产漏洞主题库。
步骤4:主题库中的数据按照多维的方式进行存储(包括定义维度、需要计算的指标、维度的层次等),生成面向决策分析需求的数据立方体。
采集中心(ODS层)
采集中心的是为数据中心提供共享的收集数据、处理数据的能力,为进一步的数据分析、关联、挖掘提供数据和能力的支撑。采集中心是整个中台所有数据的入口,其中不止包括关键的业务数据,也包括大规模的流量日志。在满足性能和高吞吐量的基础上,具备良好的可扩展性以增加新的数据源。
数仓(DW层)
整个数仓层,根据业务流程、数据存储、数据分层加工治理等数据流转过程划分为三部分。
基础库(DWD层):由采集中心采集到的如网络安全态势感知流量监测探针告警信息数据、网络安全态势感知远程扫描及主动监测平台数据以及网络安全态势感知安全事件机构上报数据,经过规则解析后,发送至对应的Kafka Topic,后续经过标准化模块、基础数据补充模块处理按业务流程入库,落入DWD层的数据为标准化后的明细数据。
DWB层:由DWD层标准化的明细数据形成标准的资源库、知识库。资源库、知识库体系如图3所示,资源库、知识库除了提供业务支持外,更为数仓分析挖掘提供资源储备。
DWS层:通过资源库、知识库等已汇聚数据资源根据业务需求通过数据挖掘、机器学习等技术形成主题库,例如:网络档案主题、攻击行为主题等面向业务的主题库。
数据集市(DM层)
数据集市后续建设主要目的是满足各行业网络安全业务需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
DAD过程简述
发现:人工或机器学习算法识别良好的数据源、纬度和指标;
获取:以整合知识图谱的方式获取数据之间的关系进而确定实体表、纬度表并实现数据ERD或数据库模型的过程。
发现和获取即为资源库和知识库从基础库中获取数据。
提炼过程:
通过获取过程和进行探索分析,对数据进行价值挖掘;
平滑数据、归一化数据;采集中心(ODS层)和基础库(DWD层)主要做数据异常值处理、平滑数据、归一标准化数据等。
通过数据汇总进一步提炼数据,通过多层汇总或分层汇总来实现;
多层汇总和分层汇总分别为DWD层或DWB层-DWS层的操作,深度分析数据域之间各纬度关联关系,打破数据孤岛,汇聚数据形成支撑业务的数据汇聚层或数据服务层数据。
对数据进行统计分析、挖掘关联分析、需要依赖算法形成数据模型由模型处理数据;
根据数据明细层单位资产数、网站资产数据、告警资产数据,通过网站资产中的单位唯一标识项关联用户单位资产数据,网站资产数据会通过一定的网路安全扫描器(漏洞扫描)进行实时资产扫描及告警数据传输,再通过告警数据中的网站唯一标识就可以获得关联分析数据,进一步确定分析模型。根据所述关联分析模型访问步骤2中基础库中的数据进行数据挖掘,获得挖掘数据。
最终呈现数据分析结果或集成数据集。
数仓:数据仓库(DataWarehouse),数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。
数仓ETL:数据抽取、数据转换、数据加载过程。
数仓DAD:从数据中发现知识、获取知识、提炼知识的过程。
网络安全数据治理:网络安全数据治理是指从原始流量数据、告警数据、安全事件数据、资产数据等通过一定的技术手段加工提炼转化为能够为安全业务服务的统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。数据治理是一种数据管理概念,涉及使组织能够确保在数据的整个生命周期中存在高数据质量的能力。
最后,还需要注意的是,以上列举的仅是本发明的若干个具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (5)

1.基于网络安全数据治理的数仓处理方法,其特征在于:包括以下步骤:
步骤1:采集中心收集数据并发送给数仓的基础库;
步骤2:数仓的基础库将步骤1收集到的数据发送到资源库和知识库中;
步骤3:资源库和知识库通过数据挖掘、机器学习等技术形成主题库;
步骤4:主题库中的数据按照多维的方式进行存储,生成面向决策分析需求的数据立方体。
2.根据权利要求1所述的基于网络安全数据治理的数仓处理方法,其特征在于:
步骤2包括:数仓的基础库将步骤1收集到的数据经过规则解析后,发送至对应的KafkaTopic,后续经过标准化处理、数据补充处理后分类发送到资源库和知识库。
3.根据权利要求2所述的基于网络安全数据治理的数仓处理方法,其特征在于:
步骤3包括:
资源库中的数据通过数据纬度关联分析形成攻击主题库,攻击主题库主要有如下维度:单位名称、网站名称、行业类型、告警类型、严重等级;
知识库中的数据通过关联单位、网站等数据提取数据维度如单位名称、网站名称、漏洞名称、漏洞URL、严重等级、漏洞描述等形成有明确漏洞对象的资产漏洞主题库。
4.根据权利要求3所述的基于网络安全数据治理的数仓处理方法,其特征在于:
在步骤4中的多维的方式包括定义维度、需要计算的指标、维度的层次等。
5.根据权利要求4所述的基于网络安全数据治理的数仓处理方法,其特征在于:
标准化处理包括数据同趋化处理和无量纲化处理,基础数据补充处理解决数据空值、异常值。
CN201911178085.1A 2019-11-27 2019-11-27 基于网络安全数据治理的数仓处理方法 Pending CN111008234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911178085.1A CN111008234A (zh) 2019-11-27 2019-11-27 基于网络安全数据治理的数仓处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911178085.1A CN111008234A (zh) 2019-11-27 2019-11-27 基于网络安全数据治理的数仓处理方法

Publications (1)

Publication Number Publication Date
CN111008234A true CN111008234A (zh) 2020-04-14

Family

ID=70112018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911178085.1A Pending CN111008234A (zh) 2019-11-27 2019-11-27 基于网络安全数据治理的数仓处理方法

Country Status (1)

Country Link
CN (1) CN111008234A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112217824A (zh) * 2020-10-13 2021-01-12 福建奇点时空数字科技有限公司 一种基于流量感知的网络资产符合性分析方法
CN113094034A (zh) * 2021-04-02 2021-07-09 上海中通吉网络技术有限公司 基于规则引擎的企业bi平台及其架构方法、设备
CN117234694A (zh) * 2023-11-13 2023-12-15 广州中长康达信息技术有限公司 基于seda线程调度的数据治理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴信东: "数据治理技术", 《软件学报》, pages 2 - 3 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112217824A (zh) * 2020-10-13 2021-01-12 福建奇点时空数字科技有限公司 一种基于流量感知的网络资产符合性分析方法
CN113094034A (zh) * 2021-04-02 2021-07-09 上海中通吉网络技术有限公司 基于规则引擎的企业bi平台及其架构方法、设备
CN117234694A (zh) * 2023-11-13 2023-12-15 广州中长康达信息技术有限公司 基于seda线程调度的数据治理方法及系统
CN117234694B (zh) * 2023-11-13 2024-03-01 广州中长康达信息技术有限公司 基于seda线程调度的数据治理方法及系统

Similar Documents

Publication Publication Date Title
CN112699175B (zh) 一种数据治理系统及其方法
US11449562B2 (en) Enterprise data processing
CN111008234A (zh) 基于网络安全数据治理的数仓处理方法
CN106778253A (zh) 基于大数据的威胁情景感知信息安全主动防御模型
CN108399199A (zh) 一种基于Spark的应用软件运行日志的收集与服务处理系统及方法
US9123006B2 (en) Techniques for parallel business intelligence evaluation and management
CN111858251B (zh) 一种基于大数据计算技术的数据安全审计方法及系统
CN111199361A (zh) 基于模糊推理理论的电力信息系统健康评估方法及系统
CN112445844B (zh) 大数据平台财务数据管理控制系统
WO2023093100A1 (zh) 一种api网关异常调用识别的方法、装置、设备及产品
CN112330299A (zh) 业务流程管理方法、装置、设备及存储介质
CN115222374A (zh) 一种基于大数据处理的政务数据服务系统
CN117195250A (zh) 一种数据安全管理方法及系统
Korzeniowski et al. Discovering interactions between applications with log analysis
CN114116793A (zh) 一种数据资产发现平台
CN111371794B (zh) 阴影域检测模型、检测模型建立方法、检测方法及系统
CN113920366A (zh) 一种基于机器学习的综合加权主数据识别方法
CN111611483A (zh) 一种对象画像构建方法、装置、设备及存储介质
CN113779215A (zh) 数据处理平台
CN112463853A (zh) 通过云平台进行财务数据行为筛选工作方法
CN113360313A (zh) 一种基于海量系统日志的行为分析方法
CN116707834B (zh) 一种基于云存储的分布式大数据取证与分析平台
Peng et al. Research on data quality detection technology based on ubiquitous state grid internet of things platform
CN116737854B (zh) 基于多源遥感数据的时空数据湖管理系统及其安全防护方法
CN116955339A (zh) 一种生产运营数据资产管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination