CN118174971B - 一种用于网络威胁的多源异构数据治理方法和系统 - Google Patents
一种用于网络威胁的多源异构数据治理方法和系统 Download PDFInfo
- Publication number
- CN118174971B CN118174971B CN202410598600.6A CN202410598600A CN118174971B CN 118174971 B CN118174971 B CN 118174971B CN 202410598600 A CN202410598600 A CN 202410598600A CN 118174971 B CN118174971 B CN 118174971B
- Authority
- CN
- China
- Prior art keywords
- data
- source heterogeneous
- standard
- network threat
- heterogeneous network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013523 data management Methods 0.000 title abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000004140 cleaning Methods 0.000 claims abstract description 15
- 239000000523 sample Substances 0.000 claims description 43
- 238000007726 management method Methods 0.000 claims description 33
- 238000003860 storage Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 15
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011835 investigation Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 abstract description 3
- 230000002776 aggregation Effects 0.000 abstract description 3
- 238000004220 aggregation Methods 0.000 abstract description 3
- 238000009826 distribution Methods 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 description 27
- 238000013500 data storage Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005067 remediation Methods 0.000 description 4
- 102100026278 Cysteine sulfinic acid decarboxylase Human genes 0.000 description 3
- 230000007123 defense Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 108010064775 protein C activator peptide Proteins 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/30—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
- H04L63/302—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Probability & Statistics with Applications (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种用于网络威胁的多源异构数据治理方法和系统。其中,方法包括:对所述多源异构网络威胁数据以数据仓库的形式临时存储;对数据仓库中多源异构网络威胁数据的进行数据探查,得到数据探查结果;根据数据探查结果,编辑多源异构网络威胁数据的数据标准;根据所述数据标准,配置自定义任务,所述自定义任务规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联和数据回填工作,最终将处理后数据存储到对应的原始情报库中。本发明提出的方案能够实现对多源异构网络威胁数据的汇聚、清洗、关联、分发等全流程的处理,具备了一站式的数据治理能力和多源异构跨平台的数据适配能力。
Description
技术领域
本发明属于互联网领域,尤其涉及一种用于网络威胁的多源异构数据治理方法和系统。
背景技术
单纯的堆叠安全设备和人工运维安全策略,已无法应对层出不穷的新型网络威胁。利用大数据与人工智能技术,汇集各企业上报的数据、开源情报源的情报、权威机构平台的情报,生成行业威胁情报,并配合各企业其他安全产品和平台形成联防联控体系是网络安全发展的趋势。
威胁情报作为应对新的攻击手段和变化多端的网络威胁的利器,也是将传统的被动防御转为主动防御的核心动力。但目前各机构的威胁情报存在如下问题:
1)通用情报针对性差。
2)各企业上报的数据存在数据孤岛,且重数量轻质量。
3)开源情报及时性差,且情报价值低。
4)单一情报源的情报真实性难以保证。
现有技术及其缺陷
大数据技术,每个行业都有自身的大数据架构,并根据行业特点,进行不同业务逻辑的数据治理。
目前网络安全企业是基于各自的情报来源,通过大数据技术,对情报进行数据治理,从而形成各自的威胁情报库。
目前网络安全企业的数据治理的情报存在如下问题,导致无法形成高价值的威胁情报。
1)情报源单一
2)情报种类单一
3)情报及时性低。
发明内容
为解决上述技术问题,本发明提出一种用于网络威胁的多源异构数据治理方法的技术方案,以解决上述技术问题。
本发明第一方面公开了一种用于网络威胁的多源异构数据治理方法,所述方法包括:
步骤S1、根据数据索引对各源系统常态化报送与反馈报送的多源异构网络威胁数据进行分类采集;
步骤S2、对所述多源异构网络威胁数据以数据仓库的形式临时存储;
步骤S3、对数据仓库中多源异构网络威胁数据的进行数据探查,得到数据探查结果;所述数据探查包括接入探查、字段探查、业务探查、数据标准探查和数据规模探查;
步骤S4、根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准;所述数据标准包括数据元标准、限定词标准、数据集标准、数据字典、基础资源标准和应用系统标准;
步骤S5、根据所述数据标准,配置自定义任务,所述自定义任务规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联和数据回填工作,最终将处理后数据存储到对应的原始情报库中。
根据本发明第一方面的方法,在所述步骤S3中,对数据仓库中多源异构网络威胁数据的进行接入探查,即对某类数据索引的网络威胁数据的接入信息进行探查,具体方法包括:
从数据仓库的信息中获取接入时间、来源平台、接入协议、数据格式、数据中心编号和数据仓库编号的信息;从数据索引中获取数据流向、数据大类和数据小类的分类信息;
对数据仓库中多源异构网络威胁数据的进行字段探查,即对某类数据索引的网络威胁数据字段进行智能解析,给出字段统计和数据元建议,具体方法包括:
对于非结构化的多源异构网络威胁数据,记录文件来源、文件路径和文件名的信息;对于结构化的多源异构网络威胁数据,记录数据字段的空值率、取值范围、类型统计和实体命名;
对数据仓库中多源异构网络威胁数据的进行业务探查,即对某类数据索引的多源异构网络威胁数据的内容进行智能解析,与相同数据大类下的数据小类的数据集标准中数据集进行数据项比对,给出业务相似度分析结果,具体方法包括:
根据字段探查中各字段推荐的数据元作为集合A,相同数据大类下的数据小类的数据集标准中数据集的数据项作为集合B,计算出两个集合的数据项交集|A∩B|,同时计算出两个集合的数据项并集|A∪B|,业务相似度为两个集合交集的大小与并集的大小的比值,即计算公式为相似度=|A∩B| / |A∪B|;
对数据仓库中多源异构网络威胁数据的进行数据标准探查,即对某类数据索引的多源异构网络威胁数据与相关数据标准配置进行比对,具体方法包括:
数据索引和数据集标准中数据集是一一对应的关系,对于数据索引已配置数据集标准中数据集的多源异构网络威胁数据,将多源异构网络威胁数据的各字段与数据集对应数据项进行比对,比对内容包括字段名称、字段类型和字段格式,记录字段匹配情况,如果有异常匹配情况,需要人工探查;
对数据仓库中多源异构网络威胁数据的进行数据规模探查,即
对某类数据索引的多源异构网络威胁数据的数据总量、增量和更新频度进行探查,具体方法包括:
根据数据索引,统计数据仓库中相同数据索引的数据总量;根据小时时间段,统计数据仓库中相同数据索引的数据增量,分析更新频度,增量趋势。
根据本发明第一方面的方法,在所述步骤S3中,所述空值率的计算方法为:(每个字段空值总数/字段总数)*100%。
根据本发明第一方面的方法,在所述步骤S3中,所述取值范围的计算方法为:分析字段类型,再根据字段名称、字段类型和字段数值对比已定义的数据元,给出取值范围。
根据本发明第一方面的方法,在所述步骤S3中,所述类型统计是统计数据字段的长度、类型以及在数据字段中各种类型的百分比。
根据本发明第一方面的方法,在所述步骤S3中,所述实体命名是分析字段名称和字段数值,与已定义的数据元匹配,给出数据元定义。
根据本发明第一方面的方法,在所述步骤S4中,所述根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准的方法包括:
数据集标准是数据标准的核心标准,数据集由数据项组成,数据项是标准的数据元或者限定词加数据元,即数据项涉及数据元标准和限定词标准,同时数据项的取值范围来自数据字典标准,数据项的资源分级分类定义来自基础资源标准,另外数据集的来源系统信息来自应用系统标准;
根据所述接入探查结果中的平台信息以及平台人工调研,编辑应用系统标准的平台信息;
根据所述字段探查结果和业务探查结果中的数据元和业务相似度,编辑数据中的数据项的数据元、限定词和基础资源分类分级,再根据编辑的数据项,编辑数据集标准的数据集;
根据数据标准探查结果,检查数据与数据集的匹配度,调整数据元标准、限定词标准和数据集标准。
本发明第二方面公开了一种用于网络威胁的多源异构数据治理系统,所述系统包括:
第一处理模块,被配置为,根据数据索引对各源系统常态化报送与反馈报送的多源异构网络威胁数据进行分类采集;
第二处理模块,被配置为,对所述多源异构网络威胁数据以数据仓库的形式临时存储;
第三处理模块,被配置为,对数据仓库中多源异构网络威胁数据的进行数据探查,得到数据探查结果;所述数据探查包括接入探查、字段探查、业务探查、数据标准探查和数据规模探查;
第四处理模块,被配置为,根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准;所述数据标准包括数据元标准、限定词标准、数据集标准、数据字典、基础资源标准和应用系统标准;
第五处理模块,被配置为,根据所述数据标准,配置自定义任务,所述自定义任务规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联和数据回填工作,最终将处理后数据存储到对应的原始情报库中。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种用于网络威胁的多源异构数据治理方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种用于网络威胁的多源异构数据治理方法中的步骤。
综上,本发明提出的方案能够实现对多源异构网络威胁数据的汇聚、清洗、关联、分发等全流程的处理,具备了一站式的数据治理能力和多源异构跨平台的数据适配能力。进行数据治理后的标准化、二维化的原始数据情报更适合科学管理和数据增值,为形成高价值的威胁情报作了重要准备。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种用于网络威胁的多源异构数据治理方法的流程图;
图2为根据本发明实施例的一种用于网络威胁的多源异构数据治理系统的结构图;
图3为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面公开了一种用于网络威胁的多源异构数据治理方法。图1为根据本发明实施例的一种用于网络威胁的多源异构数据治理方法的流程图,如图1所示,所述方法包括:
步骤S1、根据数据索引对各源系统常态化报送与反馈报送的多源异构网络威胁数据进行分类采集;
步骤S2、对所述多源异构网络威胁数据以数据仓库的形式临时存储;
步骤S3、对数据仓库中多源异构网络威胁数据的进行数据探查,得到数据探查结果;所述数据探查包括接入探查、字段探查、业务探查、数据标准探查和数据规模探查;
步骤S4、根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准;所述数据标准包括数据元标准、限定词标准、数据集标准、数据字典、基础资源标准和应用系统标准;
步骤S5、根据所述数据标准,配置自定义任务,所述自定义任务规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联和数据回填工作,最终将处理后数据存储到对应的原始情报库中。
在步骤S1,根据数据索引对各源系统常态化报送与反馈报送的多源异构网络威胁数据进行分类采集。数据索引是用于区分数据的字符串,由数据流向,数据大类,数据小类,数据序号等四级代码组成,每级代码用点号分割,数据流向是描述数据的流向,数据流向代码内容包括数据请求、数据反馈、数据上报,数据大类是基于国家、行业等相关标准对数据特征进行描述,数据大类代码内容包括安全事件日志、系统留存日志、文件数据、威胁情报、基础资源数据,数据小类是在数据大类的基础上进一步对数据特征进行描述,可以按需增加,例如当数据大类为安全事件日志时,数据小类的代码内容包括APT类数据,DDOS类数据等,数据序号是递增序列,从1开始。数据索引与后续的数据集标准中的数据集一一对应
具体地,S110:配置所采集数据的数据索引、数据来源平台编码、密钥证书等数据信息;
S120:接收源系统主动上报的网络威胁数据;
S130:发送请求到源系统,并且接收源系统反馈的网络威胁数据。
在步骤S2,对所述多源异构网络威胁数据以数据仓库的形式临时存储。多个数据仓库又可以组成一个数据中心,实现对不同源系统数据的多样化管理。所述的数据仓库支持的数据存储类型包括关系型数据库,大数据存储,文件存储等,同时在同一类数据存储类型中,不同格式的数据也会分开存储。
具体地,S210:对数据中心进行增加、修改、删除等操作,以及对数据中心下面注册的数据仓库进行增加、修改、删除、查询等操作。
S220:将采集数据存储到指定的存储类型数据仓库中,同时对数据仓库中的数据进行增加、修改、删除、查询等操作。
在步骤S3,对数据仓库中多源异构网络威胁数据的进行数据探查,得到数据探查结果;所述数据探查包括接入探查、字段探查、业务探查、数据标准探查和数据规模探查。
在一些实施例中,在所述步骤S3中,对数据仓库中多源异构网络威胁数据的进行接入探查,即对某类数据索引的网络威胁数据的接入信息进行探查,具体方法包括:
从数据仓库的信息中获取接入时间、来源平台、接入协议、数据格式、数据中心编号和数据仓库编号的信息;从数据索引中获取数据流向、数据大类和数据小类的分类信息;
对数据仓库中多源异构网络威胁数据的进行字段探查,即对某类数据索引的网络威胁数据字段进行智能解析,给出字段统计和数据元建议,具体方法包括:
对于非结构化的多源异构网络威胁数据,如恶意EXE程序、PCAP文件、WORD、EXCEL等内容,记录文件来源、文件路径和文件名的信息,便于后续文件关联,人工探查等处理;对于结构化的多源异构网络威胁数据,如JSON格式、XML格式、TLV格式、CSV格式等内容,记录数据字段的空值率、取值范围、类型统计和实体命名;
对数据仓库中多源异构网络威胁数据的进行业务探查,即对某类数据索引的多源异构网络威胁数据的内容进行智能解析,与相同数据大类下的数据小类的数据集标准中数据集进行数据项比对,给出业务相似度分析结果,具体方法包括:
根据字段探查中各字段推荐的数据元作为集合A,相同数据大类下的数据小类的数据集标准中数据集的数据项作为集合B,计算出两个集合的数据项交集|A∩B|,同时计算出两个集合的数据项并集|A∪B|,业务相似度为两个集合交集的大小与并集的大小的比值,即计算公式为相似度=|A∩B| / |A∪B|;
对数据仓库中多源异构网络威胁数据的进行数据标准探查,即对某类数据索引的多源异构网络威胁数据与相关数据标准配置进行比对,具体方法包括:
数据索引和数据集标准中数据集是一一对应的关系,对于数据索引已配置数据集标准中数据集的多源异构网络威胁数据,将多源异构网络威胁数据的各字段与数据集对应数据项进行比对,比对内容包括字段名称、字段类型和字段格式,记录字段匹配情况,如果有异常匹配情况,需要人工探查;
对数据仓库中多源异构网络威胁数据的进行数据规模探查,即
对某类数据索引的多源异构网络威胁数据的数据总量、增量和更新频度进行探查,具体方法包括:
根据数据索引,统计数据仓库中相同数据索引的数据总量;根据小时时间段,统计数据仓库中相同数据索引的数据增量,分析更新频度,增量趋势。
所述空值率的计算方法为:(每个字段空值总数/字段总数)*100%。
所述取值范围的计算方法为:分析字段类型,如日期,数字,字符串,再根据字段名称、字段类型和字段数值对比已定义的数据元,给出取值范围。
所述类型统计是统计数据字段的长度、类型以及在数据字段中各种类型的百分比。
所述实体命名是分析字段名称和字段数值,与已定义的数据元匹配,给出数据元定义。
在步骤S4,根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准;所述数据标准包括数据元标准、限定词标准、数据集标准、数据字典、基础资源标准和应用系统标准。
在一些实施例中,在所述步骤S4中,所述根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准的方法包括:
数据集标准是数据标准的核心标准,数据集由数据项组成,数据项是标准的数据元或者限定词加数据元,即数据项涉及数据元标准和限定词标准,同时数据项的取值范围来自数据字典标准,数据项的资源分级分类定义来自基础资源标准,另外数据集的来源系统信息来自应用系统标准;
根据所述接入探查结果中的平台信息以及平台人工调研,编辑应用系统标准的平台信息;
根据所述字段探查结果和业务探查结果中的数据元和业务相似度,编辑数据中的数据项的数据元、限定词和基础资源分类分级,再根据编辑的数据项,编辑数据集标准的数据集;
根据数据标准探查结果,检查数据与数据集的匹配度,调整数据元标准、限定词标准和数据集标准。
具体地,S410:对数据元管理,包括数据元的定义、编辑和删除,所述的数据元是描述数据的最小单元。数据元的信息项包括数据元编码、中文名称、字段名称、字段类型、字段格式、字典类型、资源分类,资源分级、对象类型、版本号。其中字段格式定义如表1所示:
表1
S420:对限定词的管理,包括限定词的定义、编辑和删除,以及停用、启用状态的修改,且支持批量导入,所述的限定词是数据元的形容词。限定词的信息项包括限定词编码、中文名称、字段名称、字段说明。
S430:对数据集管理,包括新增数据集、编辑或删除数据集,以及启用或停用数据集,且支持批量导入,所述的数据集是由数据项构成的逻辑集合,数据项是标准的数据元或者限定词加数据元,而多个数据项集合组成一个表数据,一个或多个表数据组成了一个数据集。数据集的信息包括数据索引、父表编码、表编码、表描述、版本号、状态。数据项的信息与数据元一致。通过父表和子表的组合,可以实现复杂数据结构的二维化处理。
S440:对数据字典管理,包括新增、编辑或删除数据字典,添加、编辑或删除数据字典值,数据字典值类型分为枚举类型、范围类型或表类型,所述的数据字典是数据集中数据项取值范围的约定。数据字典的信息项包括字典编码、字典项名称、字典值、字典值描述。
S450:对数据集中的数据项进行资源标记,资源分级,资源分类,作为后续资源权限管理的依据。
基础资源标准基于实际情况,从“主体信息、资源信息、安全事件信息、位置信息、行为类、通用信息”六个类别对数据进行了分类,每个分类又分为一类、二类、三类等三个层级。同时依据数据的安全性遭受破坏后的影响范围与影响程度,将数据安全级别由高到低分为四级,具体级别定义如下:
四级,极敏感级,数据的安全性遭到破坏后,对公众权益造成严重影响,或对相关个人隐私及企业合法权益造成非常严重的影响,但不影响国家安全。
三级,敏感级,数据的安全性遭到破坏后,对公众权益造成中等或轻微影响,或对相关个人隐私及企业合法权益造成非常严重的影响,但不影响国家安全。
二级,较敏感级,数据的安全性遭到破坏后,对相关个人隐私及企业合法权益造成中等或轻微的影响,但不影响国家安全、公众权益。
一级,低敏感级,数据的安全性遭到破坏后,对相关企业合法权益造成一定的影响,但不影响国家安全、公众权益、个人隐私。
S460:对数据集的来源平台信息进行管理,来源平台信息包括系统名称、管理单位、承建单位、上线日期、是否在用等内容。
在步骤S5,根据所述数据标准,配置自定义任务,所述自定义任务规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联和数据回填工作,最终将处理后数据存储到对应的原始情报库中。所述的原始情报库是指存储经过标准化、二维化之后的各种基础数据的存储服务集群。
具体地,S510:管理任务组件,任务组件包括读取入库组件和算子库组件,其中读取入库组件负责读取和入库异构数据,算子库组件包括各类基础的数据处理算子,每类算子负责一种逻辑运算。
S520:管理任务配置,任务配置是指根据数据标准,选取合适的任务组件,完成数据清洗、数据关联、数据回填等处理任务。
S530:监控任务状态,包括任务运行监测、任务日志监测、任务调度监测、任务配置监测、任务节点监测。
任务运行监测,定期扫描任务运行日志,显示任务运行状态,如已启动,已完成,失败等。
任务日志监测,定期扫描任务日志,统计任务中每个组件的运行结果,异常组件数量,异常组件情况。
任务调度监测,监测任务调度记录,统计任务调度次数,任务调度结果。
任务配置监测,静态分析已配置任务中算子库之间的逻辑关系是否存在冲突,读取入库组件对应的库表是否存在。
任务节点监测,监测任务分配节点的服务器情况,如CPU使用率,内存使用率。
综上,本发明提出的方案能够实现对多源异构网络威胁数据的汇聚、清洗、关联、分发等全流程的处理,具备了一站式的数据治理能力和多源异构跨平台的数据适配能力。进行数据治理后的标准化、二维化的原始数据情报更适合科学管理和数据增值,为形成高价值的威胁情报作了重要准备。
本发明第二方面公开了一种用于网络威胁的多源异构数据治理系统。图2为根据本发明实施例的一种用于网络威胁的多源异构数据治理系统的结构图;如图2所示,所述系统包括:
第一处理模块,被配置为,根据数据索引对各源系统常态化报送与反馈报送的多源异构网络威胁数据进行分类采集;
第二处理模块,被配置为,对所述多源异构网络威胁数据以数据仓库的形式临时存储;
第三处理模块,被配置为,对数据仓库中多源异构网络威胁数据的进行数据探查,得到数据探查结果;所述数据探查包括接入探查、字段探查、业务探查、数据标准探查和数据规模探查;
第四处理模块,被配置为,根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准;所述数据标准包括数据元标准、限定词标准、数据集标准、数据字典、基础资源标准和应用系统标准;
第五处理模块,被配置为,根据所述数据标准,配置自定义任务,所述自定义任务规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联和数据回填工作,最终将处理后数据存储到对应的原始情报库中。
根据本发明第二方面的系统,所述第一处理模块
具体被配置为,数据索引是用于区分数据的字符串,由数据流向,数据大类,数据小类,数据序号等四级代码组成,每级代码用点号分割,数据流向是描述数据的流向,数据流向代码内容包括数据请求、数据反馈、数据上报,数据大类是基于国家、行业等相关标准对数据特征进行描述,数据大类代码内容包括安全事件日志、系统留存日志、文件数据、威胁情报、基础资源数据,数据小类是在数据大类的基础上进一步对数据特征进行描述,可以按需增加,例如当数据大类为安全事件日志时,数据小类的代码内容包括APT类数据,DDOS类数据等,数据序号是递增序列,从1开始。数据索引与后续的数据集标准中的数据集一一对应。
数据采集模块包括采集配置模块、常态化采集模块,反馈采集模块;
采集配置模块,用于配置所采集数据的数据索引、数据来源平台编码、密钥证书等数据信息;
常态化采集模块,用于接收源系统主动上报的网络威胁数据;
反馈采集模块,用于发送请求到源系统,并且接收源系统反馈的网络威胁数据。
对多源异构网络威胁数据进行人工预处理,根据数据的特征,在采集配置模块配置数据索引、来源平台码、密钥证书等数据信息。数据索引是用于区分数据的字符串,由数据流向,数据大类,数据小类,数据序号等四级代码组成。采集数据时,根据数据索引对数据进行分类采集,通过常态化采集模块接收源系统主动上报的数据的,通过反馈采集模块下发请求并接收反馈的数据。其中数据的通信方式支持HTTPS、KAFKA、SFTP、数据库等方式,数据的内容分为结构化数据和非机构化数据,结构化数据支持采集JSON格式、XML格式、TLV格式、CSV格式等内容,非结构化数据支持恶意EXE程序、PCAP文件、WORD、EXCEL等内容;
多源异构网络威胁数据在采集时必须添加上数据索引,例如在公共消息头、文件名等地方添加。不同数据索引的数据将进行分类采集,并且不同数据索引的数据,后续也将进行规范化的数据处理。
根据本发明第二方面的系统,所述第二处理模块具体被配置为,多个数据仓库又可以组成一个数据中心,实现对不同源系统数据的多样化管理。所述的数据仓库支持的数据存储类型包括关系型数据库,大数据存储,文件存储等,同时在同一类数据存储类型中,不同格式的数据也会分开存储。
数据仓库模块包括数据中心管理模块、数据仓库管理模块;
数据中心管理模块,用于对数据中心进行增加、修改、删除等操作,以及对数据中心下面注册的数据仓库进行增加、修改、删除、查询等操作。
数据仓库管理模块,用于将采集数据存储到指定的存储类型数据仓库中,同时对数据仓库中的数据进行增加、修改、删除、查询等操作。
通过数据中心管理模块,为多源异构网络威胁数据的来源平台增加数据中心,并在该数据中心下注册对应存储类型的数据仓库,通过数据仓库管理模块,增加对应数据索引的数据存储配置;
以数据中心挂载复数的数据仓库的模式,将不同来源平台的数据分别存储到不同的数据中心,同时将不同存储类型、业务类型的数据存储到不同数据仓库中,实现了对数据进行多样化管理。
根据本发明第二方面的系统,所述第三处理模块具体被配置为,数据探查模块包括接入探查模块、字段探查模块、业务探查模块、数据集探查模块、数据规模探查模块;
接入探查模块,用于对该类数据索引的网络威胁数据的接入信息进行探查。
接入探查过程如下所述:从数据仓库信息中可以获取接入时间、来源平台、接入协议、数据格式、数据中心编号、数据仓库编号等信息;从数据索引中可以获取数据流向,数据大类,数据小类等分类信息。
字段探查模块,用于对该类数据索引的网络威胁数据字段进行智能解析,给出字段统计和数据元建议。
字段探查过程如下所述:对于非结构化数据,如恶意EXE程序、PCAP文件、WORD、EXCEL等内容,记录文件来源、文件路径和文件名等信息,便于后续文件关联,人工探查等处理;对于结构化数据,如JSON格式、XML格式、TLV格式、CSV格式等内容,记录数据字段的空值率、取值范围、类型统计、实体命名等信息,其中具体分析方法如下。
空值率的计算方法是:(每个字段空值总数/字段总数)*100%,
取值范围是分析字段类型,如日期,数字,字符串,再根据字段名称、字段类型、字段数值对比已定义的数据元,给出建议的取值范围。
类型统计是统计数据字段的长度,类型,以及在数据字段中各种类型的百分比。
实体命名是分析字段名称和字段数值,与已定义数据元匹配,给出推荐的数据元定义。
业务探查模块,用于对该类数据索引的网络威胁数据的内容进行智能解析,与相同数据大类下的其他数据小类的数据集标准中数据集进行数据项比对,给出业务相似度分析结果。
业务探查过程如下所述:根据字段探查中各字段推荐的数据元作为集合A,相同数据大类下的其他数据小类的数据集标准中数据集的数据项作为集合B,计算出两个集合的数据项交集|A∩B|,同时计算出两个集合的数据项并集|A∪B|,业务相似度为两个集合交集的大小与并集的大小的比值,即计算公式为相似度=|A∩B| / |A∪B|。
数据标准探查模块,用于对该类数据索引的网络威胁数据与相关数据标准配置进行比对。
数据标准探查过程如下所述:数据索引和数据集标准中数据集是一一对应的关系,对于数据索引已配置数据集标准中数据集的数据,将数据各字段与数据集对应数据项进行比对,比对内容包括字段名称、字段类型、字段格式,记录字段匹配情况,如果有异常匹配情况,需要人工探查。
数据规模探查模块,用于对该类数据索引的网络威胁数据的数据总量、增量、更新频度等情况进行探查。
数据规模探查过程如下所述:根据数据索引,统计数据仓库中相同数据索引的数据总量;根据小时时间段,统计数据仓库中相同数据索引的数据增量,分析更新频度,增量趋势。该探查结果用于调整该数据对应的数据仓库数量。
根据不同存储类型的数据仓库,依次进行接入探查,字段探查,业务探查,数据规模探查,接入探查结果主要是记录数据来源平台和存储情况;字段探查结果是数据质量的初步检查结果,根据字段的空值率、取值范围、类型统计等信息,检验数据的及时性、完整性、准确性;业务探查结果是记录数据与其数据索引相似数据小类的数据集的数据项比对结果,为配置该数据的数据集标准提供参考依据;数据规模探查结果是统计数据规模并分析增长趋势,为调整该数据对应的数据仓库数量提过参考依据;另外对于数据索引已经配置数据标准的数据,还将进行数据标准探查,数据标准探查结果是记录数据的字段名称、字段类型、字段格式等内容与数据集的数据项配置的匹配情况,如果匹配情况出现异常,需要人工探查,调整该数据的数据标准;
数据探查是对多源异构网络威胁数据的整体情况进行检查,可以提前排查出异常数据,保证数据质量,同时也提供了重要的数据标准配置参考。
根据本发明第二方面的系统,所述第四处理模块具体被配置为,所述根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准的方法包括:
数据集标准是数据标准的核心标准,数据集由数据项组成,数据项是标准的数据元或者限定词加数据元,即数据项涉及数据元标准和限定词标准,同时数据项的取值范围来自数据字典标准,数据项的资源分级分类定义来自基础资源标准,另外数据集的来源系统信息来自应用系统标准;
根据所述接入探查结果中的平台信息以及平台人工调研,编辑应用系统标准的平台信息;
根据所述字段探查结果和业务探查结果中的数据元和业务相似度,编辑数据中的数据项的数据元、限定词和基础资源分类分级,再根据编辑的数据项,编辑数据集标准的数据集;
根据数据标准探查结果,检查数据与数据集的匹配度,调整数据元标准、限定词标准和数据集标准。
数据标准管理模块包括数据元标准管理模块、限定词标准管理模块、数据集标准管理模块、数据字典管理模块、基础资源标准管理模块、应用系统标准管理模块;
数据元标准管理模块,用于对数据元管理,包括数据元的定义、编辑和删除,所述的数据元是描述数据的最小单元。数据元的信息项包括数据元编码、中文名称、字段名称、字段类型、字段格式、字典类型、资源分类,资源分级、对象类型、版本号。
限定词标准管理模块,用于对限定词的管理,包括限定词的定义、编辑和删除,以及停用、启用状态的修改,且支持批量导入,所述的限定词是数据元的形容词。限定词的信息项包括限定词编码、中文名称、字段名称、字段说明。
数据集标准管理模块,用于对数据集管理,包括新增数据集、编辑或删除数据集,以及启用或停用数据集,且支持批量导入,所述的数据集是由数据项构成的逻辑集合,数据项是标准的数据元或者限定词加数据元,而多个数据项集合组成一个表数据,一个或多个表数据组成了一个数据集。数据集的信息包括数据索引、父表编码、表编码、表描述、版本号、状态。数据项的信息与数据元一致。通过父表和子表的组合,可以实现复杂数据结构的二维化处理。
数据字典管理模块,用于对数据字典管理,包括新增、编辑或删除数据字典,添加、编辑或删除数据字典值,数据字典值类型分为枚举类型、范围类型或表类型,所述的数据字典是数据集中数据项取值范围的约定。数据字典的信息项包括字典编码、字典项名称、字典值、字典值描述。
基础资源标准管理模块,用于对数据集中的数据项进行资源标记,资源分级,资源分类,作为后续资源权限管理的依据。
基础资源标准基于实际情况,从“主体信息、资源信息、安全事件信息、位置信息、行为类、通用信息”六个类别对数据进行了分类,每个分类又分为一类、二类、三类等三个层级。同时依据数据的安全性遭受破坏后的影响范围与影响程度,将数据安全级别由高到低分为四级,具体级别定义如下:
四级,极敏感级,数据的安全性遭到破坏后,对公众权益造成严重影响,或对相关个人隐私及企业合法权益造成非常严重的影响,但不影响国家安全。
三级,敏感级,数据的安全性遭到破坏后,对公众权益造成中等或轻微影响,或对相关个人隐私及企业合法权益造成非常严重的影响,但不影响国家安全。
二级,较敏感级,数据的安全性遭到破坏后,对相关个人隐私及企业合法权益造成中等或轻微的影响,但不影响国家安全、公众权益。
一级,低敏感级,数据的安全性遭到破坏后,对相关企业合法权益造成一定的影响,但不影响国家安全、公众权益、个人隐私。
应用系统标准管理模块,用于对数据集的来源平台信息进行管理,来源平台信息包括系统名称、管理单位、承建单位、上线日期、是否在用等内容。
数据处理模块,用于根据数据标准,配置自定义任务,该任务可以规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联、数据回填等工作,最终将数据存储到对应的原始情报库中。所述的原始情报库是指存储经过标准化、二维化之后的各种基础数据的存储服务集群。
数据标准对多源异构网络威胁数据进行了多维度定义,数据直接与数据集标准产生对应关系,通过数据集标准,数据与其他标准也产生关联。例如数据的数据集标准,制定了数据集的表数据以及表数据的数据项组合,即定义多源异构网络威胁数据的数据结构,而数据项是标准的数据元或者限定词加数据元,与其他标准存在关联,其中数据元标准对数据项的数据元进行了定义,限定词标准对数据项的限定词进行了定义,数据字典是对数据项进行取值范围约定,基础资源标准是对数据项进行资源分类分级,应用系统标准是对数据集来源平台信息进行记录;
数据标准是数据处理的逻辑基础,是多源异构网络威胁数据的规范化处理的依据。
根据本发明第二方面的系统,所述第五处理模块具体被配置为,数据处理模块包括任务组件模块、任务配置模块、任务监控模块;
任务组件模块,用于管理任务组件,任务组件包括读取入库组件和算子库组件,其中读取入库组件负责读取和入库异构数据,算子库组件包括各类基础的数据处理算子,每类算子负责一种逻辑运算。
任务配置模块,用于管理任务配置,任务配置是指根据数据标准,选取合适的任务组件,完成数据清洗、数据关联、数据回填等处理任务。
任务监控模块,用于监控任务状态,包括任务运行监测、任务日志监测、任务调度监测、任务配置监测、任务节点监测。
任务运行监测,定期扫描任务运行日志,显示任务运行状态,如已启动,已完成,失败等。
任务日志监测,定期扫描任务日志,统计任务中每个组件的运行结果,异常组件数量,异常组件情况。
任务调度监测,监测任务调度记录,统计任务调度次数,任务调度结果。
任务配置监测,静态分析已配置任务中算子库之间的逻辑关系是否存在冲突,读取入库组件对应的库表是否存在。
任务节点监测,监测任务分配节点的服务器情况,如CPU使用率,内存使用率。
通过任务配置模块,根据数据标准中多源异构网络威胁数据的多维度定义,选取合适的读取入库组件和算子库组件,配置规范化处理任务。其中读取入库组件包括文件读取入库组件、KAFKA读取入库组件、数据库读取入库组件、Hive读取入库组件、HBase读取入库组件、HDFS读取入库组件等,并且一种读取入库组件可以支持多种的数据格式,例如文件读取入库组件支持CSV格式、JSON格式、EXCEL格式、行格式等,KAFKA读取入库组件支持JSON格式、protoBuff格式等,数据库读取入库组件支持读取ORACLE、MYSQL等;算子库组件包括字符串类记录算子、字符串类标量算子、日期类算子、数值类算子、反序列化算子、转换转码算子、回填类算子、自定义类算子等,不同的算子库组件组合,可以完成各种数据清洗、数据关联、数据回填等工作。
经过数据处理的多源异构网络威胁数据是标准化、二维化的基础数据,更适合科学管理和数据增值,为形成高价值的威胁情报作了重要准备。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种用于网络威胁的多源异构数据治理方法中的步骤。
图3为根据本发明实施例的一种电子设备的结构图,如图3所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种用于网络威胁的多源异构数据治理方法中的步骤中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种用于网络威胁的多源异构数据治理方法,其特征在于,所述方法包括:
步骤S1、根据数据索引对各源系统常态化报送与反馈报送的多源异构网络威胁数据进行分类采集;
步骤S2、对所述多源异构网络威胁数据以数据仓库的形式临时存储;
步骤S3、对数据仓库中多源异构网络威胁数据进行数据探查,得到数据探查结果;所述数据探查包括接入探查、字段探查、业务探查、数据标准探查和数据规模探查;
步骤S4、根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准;所述数据标准包括数据元标准、限定词标准、数据集标准、数据字典、基础资源标准和应用系统标准;
步骤S5、根据所述数据标准,配置自定义任务,所述自定义任务规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联和数据回填工作,最终将处理后数据存储到对应的原始情报库中;
在所述步骤S3中,对数据仓库中多源异构网络威胁数据进行接入探查,即对某类数据索引的网络威胁数据的接入信息进行探查,具体方法包括:
从数据仓库的信息中获取接入时间、来源平台、接入协议、数据格式、数据中心编号和数据仓库编号的信息;从数据索引中获取数据流向、数据大类和数据小类的分类信息;
对数据仓库中多源异构网络威胁数据的进行字段探查,即对某类数据索引的网络威胁数据字段进行智能解析,给出字段统计和数据元建议,具体方法包括:
对于非结构化的多源异构网络威胁数据,记录文件来源、文件路径和文件名的信息;对于结构化的多源异构网络威胁数据,记录数据字段的空值率、取值范围、类型统计和实体命名;
对数据仓库中多源异构网络威胁数据进行业务探查,即对某类数据索引的多源异构网络威胁数据的内容进行智能解析,与相同数据大类下的数据小类的数据集标准中数据集进行数据项比对,给出业务相似度分析结果,具体方法包括:
根据字段探查中各字段推荐的数据元作为集合A,相同数据大类下的数据小类的数据集标准中数据集的数据项作为集合B,计算出两个集合的数据项交集|A∩B|,同时计算出两个集合的数据项并集|A∪B|,业务相似度为两个集合交集的大小与并集的大小的比值,即计算公式为相似度=|A∩B| / |A∪B|;
对数据仓库中多源异构网络威胁数据进行数据标准探查,即对某类数据索引的多源异构网络威胁数据与相关数据标准配置进行比对,具体方法包括:
数据索引和数据集标准中数据集是一一对应的关系,对于数据索引已配置数据集标准中数据集的多源异构网络威胁数据,将多源异构网络威胁数据的各字段与数据集对应数据项进行比对,比对内容包括字段名称、字段类型和字段格式,记录字段匹配情况,如果有异常匹配情况,需要人工探查;
对数据仓库中多源异构网络威胁数据的进行数据规模探查,即对某类数据索引的多源异构网络威胁数据的数据总量、增量和更新频度进行探查,具体方法包括:
根据数据索引,统计数据仓库中相同数据索引的数据总量;根据小时时间段,统计数据仓库中相同数据索引的数据增量,分析更新频度,增量趋势。
2.根据权利要求1所述的一种用于网络威胁的多源异构数据治理方法,其特征在于,在所述步骤S3中,所述空值率的计算方法为:(每个字段空值总数/字段总数)*100%。
3.根据权利要求1所述的一种用于网络威胁的多源异构数据治理方法,其特征在于,在所述步骤S3中,所述取值范围的计算方法为:分析字段类型,再根据字段名称、字段类型和字段数值对比已定义的数据元,给出取值范围。
4.根据权利要求1所述的一种用于网络威胁的多源异构数据治理方法,其特征在于,在所述步骤S3中,所述类型统计是统计数据字段的长度、类型以及在数据字段中各种类型的百分比。
5.根据权利要求1所述的一种用于网络威胁的多源异构数据治理方法,其特征在于,在所述步骤S3中,所述实体命名是分析字段名称和字段数值,与已定义的数据元匹配,给出数据元定义。
6.根据权利要求1所述的一种用于网络威胁的多源异构数据治理方法,其特征在于,在所述步骤S4中,所述根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准的方法包括:
数据集标准是数据标准的核心标准,数据集由数据项组成,数据项是标准的数据元或者限定词加数据元,即数据项涉及数据元标准和限定词标准,同时数据项的取值范围来自数据字典标准,数据项的资源分级分类定义来自基础资源标准,另外数据集的来源系统信息来自应用系统标准;
根据所述接入探查结果中的平台信息以及平台人工调研,编辑应用系统标准的平台信息;
根据所述字段探查结果和业务探查结果中的数据元和业务相似度,编辑数据中的数据项的数据元、限定词和基础资源分类分级,再根据编辑的数据项,编辑数据集标准的数据集;
根据数据标准探查结果,检查数据与数据集的匹配度,调整数据元标准、限定词标准和数据集标准。
7.一种用于网络威胁的多源异构数据治理系统,其特征在于,所述系统包括:
数据采集模块,被配置为,根据数据索引对各源系统常态化报送与反馈报送的多源异构网络威胁数据进行分类采集;
数据仓库模块,被配置为,对所述多源异构网络威胁数据以数据仓库的形式临时存储;
数据探查模块,被配置为,对数据仓库中多源异构网络威胁数据的进行数据探查,得到数据探查结果;所述数据探查包括接入探查、字段探查、业务探查、数据标准探查和数据规模探查;
从数据仓库的信息中获取接入时间、来源平台、接入协议、数据格式、数据中心编号和数据仓库编号的信息;从数据索引中获取数据流向、数据大类和数据小类的分类信息;
对数据仓库中多源异构网络威胁数据的进行字段探查,即对某类数据索引的网络威胁数据字段进行智能解析,给出字段统计和数据元建议,具体方法包括:
对于非结构化的多源异构网络威胁数据,记录文件来源、文件路径和文件名的信息;对于结构化的多源异构网络威胁数据,记录数据字段的空值率、取值范围、类型统计和实体命名;
对数据仓库中多源异构网络威胁数据进行业务探查,即对某类数据索引的多源异构网络威胁数据的内容进行智能解析,与相同数据大类下的数据小类的数据集标准中数据集进行数据项比对,给出业务相似度分析结果,具体方法包括:
根据字段探查中各字段推荐的数据元作为集合A,相同数据大类下的数据小类的数据集标准中数据集的数据项作为集合B,计算出两个集合的数据项交集|A∩B|,同时计算出两个集合的数据项并集|A∪B|,业务相似度为两个集合交集的大小与并集的大小的比值,即计算公式为相似度=|A∩B| / |A∪B|;
对数据仓库中多源异构网络威胁数据进行数据标准探查,即对某类数据索引的多源异构网络威胁数据与相关数据标准配置进行比对,具体方法包括:
数据索引和数据集标准中数据集是一一对应的关系,对于数据索引已配置数据集标准中数据集的多源异构网络威胁数据,将多源异构网络威胁数据的各字段与数据集对应数据项进行比对,比对内容包括字段名称、字段类型和字段格式,记录字段匹配情况,如果有异常匹配情况,需要人工探查;
对数据仓库中多源异构网络威胁数据的进行数据规模探查,即对某类数据索引的多源异构网络威胁数据的数据总量、增量和更新频度进行探查,具体方法包括:
根据数据索引,统计数据仓库中相同数据索引的数据总量;根据小时时间段,统计数据仓库中相同数据索引的数据增量,分析更新频度,增量趋势;
数据标准管理模块,被配置为,根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准;所述数据标准包括数据元标准、限定词标准、数据集标准、数据字典、基础资源标准和应用系统标准;
数据处理模块,被配置为,根据所述数据标准,配置自定义任务,所述自定义任务规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联和数据回填工作,最终将处理后数据存储到对应的原始情报库中。
8.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至6中任一项所述的一种用于网络威胁的多源异构数据治理方法中的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至6中任一项所述的一种用于网络威胁的多源异构数据治理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410598600.6A CN118174971B (zh) | 2024-05-15 | 2024-05-15 | 一种用于网络威胁的多源异构数据治理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410598600.6A CN118174971B (zh) | 2024-05-15 | 2024-05-15 | 一种用于网络威胁的多源异构数据治理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118174971A CN118174971A (zh) | 2024-06-11 |
CN118174971B true CN118174971B (zh) | 2024-07-19 |
Family
ID=91355258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410598600.6A Active CN118174971B (zh) | 2024-05-15 | 2024-05-15 | 一种用于网络威胁的多源异构数据治理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118174971B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527783A (zh) * | 2020-11-27 | 2021-03-19 | 中科曙光南京研究院有限公司 | 一种基于Hadoop的数据质量探查系统 |
CN112699175A (zh) * | 2021-01-15 | 2021-04-23 | 广州汇智通信技术有限公司 | 一种数据治理系统及其方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220263860A1 (en) * | 2015-10-28 | 2022-08-18 | Qomplx, Inc. | Advanced cybersecurity threat hunting using behavioral and deep analytics |
CN113468160A (zh) * | 2021-07-23 | 2021-10-01 | 杭州数梦工场科技有限公司 | 数据治理方法及装置、电子设备 |
FR3129230B1 (fr) * | 2021-11-15 | 2024-05-31 | Thales Sa | Procédé de détection d'une cybermenace pesant sur un système d'information ; Produit programme d'ordinateur et système informatique associés |
CN114595379A (zh) * | 2022-01-17 | 2022-06-07 | 厦门市美亚柏科信息股份有限公司 | 一种数据标准的智能推荐方法及装置 |
CN117708102A (zh) * | 2023-11-03 | 2024-03-15 | 珠海华发集团科技研究院有限公司 | 一种数据标准智能匹配与检查的方法 |
-
2024
- 2024-05-15 CN CN202410598600.6A patent/CN118174971B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527783A (zh) * | 2020-11-27 | 2021-03-19 | 中科曙光南京研究院有限公司 | 一种基于Hadoop的数据质量探查系统 |
CN112699175A (zh) * | 2021-01-15 | 2021-04-23 | 广州汇智通信技术有限公司 | 一种数据治理系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118174971A (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699175B (zh) | 一种数据治理系统及其方法 | |
CN112527783B (zh) | 一种基于Hadoop的数据质量探查系统 | |
CN105868373B (zh) | 电力业务信息系统关键数据处理方法及装置 | |
CN112527774A (zh) | 数据中台搭建方法、系统及存储介质 | |
WO2021159834A1 (zh) | 异常信息处理节点分析方法、装置、介质及电子设备 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN116541372A (zh) | 一种数据资产治理方法及系统 | |
CN110928864A (zh) | 一种科研项目管理方法及系统 | |
CN112966162A (zh) | 一种基于数据仓库与中间件的科技资源集成方法及装置 | |
Si | Construction and application of enterprise internal audit data analysis model based on decision tree algorithm | |
Chen | [Retracted] Construction Project Cost Management and Control System Based on Big Data | |
CN116362443A (zh) | 一种企业信息平台的数据治理方法和装置 | |
CN111192015A (zh) | 基于核心对象的一体化数据管理系统 | |
Jin et al. | [Retracted] Cloud Statistics of Accounting Informatization Based on Statistics Mining | |
Zhao et al. | Hadoop-based power grid data quality verification and monitoring method | |
Toivonen | Big data quality challenges in the context of business analytics | |
Shi et al. | [Retracted] Research on Fast Recommendation Algorithm of Library Personalized Information Based on Density Clustering | |
CN110110153A (zh) | 一种节点搜索的方法和装置 | |
Lv | [Retracted] Real Estate Marketing Adaptive Decision‐Making Algorithm Based on Big Data Analysis | |
CN118174971B (zh) | 一种用于网络威胁的多源异构数据治理方法和系统 | |
Hou | Financial Abnormal Data Detection System Based on Reinforcement Learning | |
CN115168474B (zh) | 一种基于大数据模型的物联中台系统搭建方法 | |
CN113610190A (zh) | 基于大数据的异常网络行为挖掘系统 | |
CN112396349A (zh) | 一种基于业务实体的数据质量监控方法 | |
Li et al. | Analytic model and assessment framework for data quality evaluation in state grid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |