CN117574458A - 一种数据安全治理方法、系统及存储介质 - Google Patents
一种数据安全治理方法、系统及存储介质 Download PDFInfo
- Publication number
- CN117574458A CN117574458A CN202311527756.7A CN202311527756A CN117574458A CN 117574458 A CN117574458 A CN 117574458A CN 202311527756 A CN202311527756 A CN 202311527756A CN 117574458 A CN117574458 A CN 117574458A
- Authority
- CN
- China
- Prior art keywords
- data
- watermark
- service information
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012544 monitoring process Methods 0.000 claims abstract description 26
- 238000013135 deep learning Methods 0.000 claims abstract description 16
- 230000006399 behavior Effects 0.000 claims abstract description 14
- 230000005540 biological transmission Effects 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 34
- 231100000279 safety data Toxicity 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 13
- 238000012550 audit Methods 0.000 claims description 12
- 230000001010 compromised effect Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 238000011084 recovery Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 229910052704 radon Inorganic materials 0.000 claims description 3
- SYUHGPGVQRZVTB-UHFFFAOYSA-N radon atom Chemical compound [Rn] SYUHGPGVQRZVTB-UHFFFAOYSA-N 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 22
- 206010000117 Abnormal behaviour Diseases 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000002265 prevention Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 10
- 101100019425 Schizosaccharomyces pombe (strain 972 / ATCC 24843) ivn1 gene Proteins 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/78—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure storage of data
- G06F21/80—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure storage of data in storage media based on magnetic or optical technology, e.g. disks with sectors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/062—Securing storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0683—Plurality of storage devices
- G06F3/0689—Disk arrays, e.g. RAID, JBOD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Storage Device Security (AREA)
Abstract
本发明属于数据安全技术领域,具体提供了一种数据安全治理方法,包括如下步骤,基于深度学习的数据安全分级分类方法,实现对资产数据进行分类分级;基于对上述数据的分类分级的不同级别,进行敏感数据的探测,获得敏感数据在数据资产中的分布定位;基于对敏感数据的分布定位进行实时监控,形成审计机制,对终端用户的数据传输行为进行监控审计。通过先进的分类分级数据内容识别智能引擎以及人工智能算法技术建立数据安全治理架构,实现用户的异常行为分析、直观展示数据资产的分布情况、数据识别及发现、防止重要、敏感的数据泄漏以及通过技术手段实现风险事件的审计及处置。
Description
技术领域
本发明属于数据安全技术领域,具体提供了一种数据安全治理方法、系统及存储介质。
背景技术
现有的数据安全存储多使用磁盘阵列技术、数据备份技术及数据加密技术。磁盘阵列是指把多个类型、容量、接口甚至品牌一致的专用磁盘或普通硬盘组成一个阵列,使其以更快的速度,准确、安全的方式读写磁盘数据,从而达到数据读取速度和安全性的一种手段。通过磁盘阵列技术,能够提供针对数据的可靠存储环境和有效的恢复机制。当发生安全事故时,数据被破坏了,可以通过技术手段快速恢复数据。但是仅通过数据存储及恢复机制,不能够有效识别关键、敏感数据并严格保护数据不被恶意人员窃取及利用。当恶意人员接触到数据后,可以针对有价值的数据,实施敏感数据泄漏等行为。所以,磁盘阵列技术对于数据识别及发现、防止重要、敏感的数据泄漏无能为力。
数据备份技术是指利用备份系统实现数据备份和恢复的技术。通过备份技术可以将重要的、敏感的数据进行本地或者异地备份。当本地的数据被恶意行为造成破坏后,可以通过另一地点的数据进行恢复,从而保障业务系统的持续、可靠运行。
数据备份技术仅提供容灾的功能。通过数据备份技术,不能保证重要的、敏感的数据不被恶意人员窃取,造成网络安全事件。数据备份技术对于数据识别及发现、防止重要、敏感的数据泄漏无能为力。
数据加密技术包含加密技术和解决技术两部分。加密是指通过加密算法和加密密钥将明文转变为密文,而解密则是通过解密算法和解密密钥将密文恢复为明文。它的核心是密码学。数据加密技术是对数据信息进行保护的一种可靠的办法。它利用密码技术对信息进行加密,实现信息隐蔽,从而起到保护数据信息安全的作用。
1)性能效率问题。数据加密技术涉及的加密、解密、脱敏等技术,比较消耗设备资源,一定程度上会影响到应用使用的效率;
2)无法防范内部人员的恶意的攻击行为。企业内部中有相应的权限、可以接触到敏感数据的人员,有可能采取恶意的行为,针对已经解密的敏感数据进行违规拷贝、向外部传播、贩卖,从而获取利益。单纯通过数据加密技术并无有效办法避免以上问题的发生。当问题发生后,也无法进行有效的风险用户追溯和风险行为审查。
发明内容
鉴于上述问题,本发明提供了一种数据安全治理方法,包括如下步骤,
S1:基于深度学习的数据安全分级分类方法,对资产数据进行分类分级;
S2:基于对上述数据的分类分级定义不同等级的敏感数据进行敏感数据的探测,获得敏感数据在数据资产中的分布定位;
S3:基于对敏感数据的分布定位进行实时监控,形成审计机制,对终端用户的数据传输行为进行监控审计。
进一步的,所述的数据分类分级包括如下步骤,
S101:采集业务数据,获取多组安全数据流流向序列组合,并进行分级并标记;
S102:提取安全数据流流向序列组合特征;
S103:构建基于深度学习的数据安全分级模型。
S104:使用该分级模型实时的对该业务信息系统正在发生的内、外数据流进行动态的监控。
进一步的,所述S101中安全数据流流向序列组合,包括采集位于原始业务信息系统Ⅰ的源头数据产生的安全数据流流向序列,将产生全数据流流向序列按照A核心数据、B重要数据、C一般数据三级进行数据分级,形成一组安全数据流流向序列组合M1,及以原始业务信息系统Ⅰ中的数据为源数据,在有下行数据流向关联的n个业务信息系统中产生的多组安全数据流流向序列组合N1,……,Nn,二者组合形成该场景下以原始业务信息系统Ⅰ为源头的安全数据流流向序列组合M1,N1,……,Nn;则在多场景下采集以原始业务信息系统Ⅰ为源头的安全数据流流向序列组合M1’,N1’,……,Nn’;M1”,N1”,……,Nn”;……;对由在多场景下采集的原始业务信息系统Ⅰ为源头的所有安全数据流流向序列组合标记为安全,并对数据按照A核心数据、B重要数据、C一般数据三级进行划分标记。
进一步的,S102中获取各场景原始业务信息系统数据流的内部功能应用特征向量FVM以及个人信息特征向量IVM、原始业务信息系统与其他关联业务信息系统形成的外部功能应用的特征向量以及个人信息特征向量。
进一步的,S103:对于安全的数据流及基于的原始业务信息系统进行数据安全分级成熟模型训练,具体包括,
1)确定原始业务信息系统中的信息提取单元,并针对信息提取单元定义系统标志位;
2)根据数据流向确定需要分析的、与原始业务信息系统有数据流转关系的特征提取单元和格式提取单元的内容,并将上述信息与系统标志位进行动态关联;
3)按照步骤2)进行不同场景原始业务信息系统数据流的内部功能应用,以及原始业务信息系统与其他关联业务信息系统形成的外部功能应用的特征向量FV以及个人信息特征向量IVm的提取;
4)最终根据特征提取单元和格式提取单元中的特征向量计算生成数据输出单元,即形成数据分类分级的特征信息。
进一步的,S2中,还包括对敏感数据进行检测,发现违规存放敏感信息的用户、终端;对敏感数据的检测采用结构化数据指纹算法、非结构化数据指纹及二进制数据指纹算法,其中,
结构化数据指纹算法,将待检测的数据与数据库中的表、CSV或者Excel等结构化存储的数据源之间进行精确匹配,判断其是否通过全部拷贝、部分拷贝、或乱序拷贝将敏感信息从数据源泄漏出去:
进一步的,S3中,具体的,
(1)获取用户登录信息;
(2)对所述用户登录信息进行水印信息生成处理,确定屏幕水印;
(3)对所述初始屏幕图像进行二维快速傅立叶变换处理,确定图像频域;
(4)通过水印嵌入算法将所述屏幕水印嵌入至所述图像频域中;
(5)对所述目标屏幕图像进行泄密处理,确定泄密图像;
(6)通过水印提取算法对泄密图像进行屏幕水印提取,并对屏幕水印进行解码操作,确定泄密用户信息。
进一步的,步骤(2)中确定屏幕水印通过如下步骤实现,
对所述用户登录信息进行矩阵处理,确定信息像素矩阵;
对所述信息像素矩阵进行编码处理,确定屏幕水印。
进一步的,步骤(4)中,确定目标屏幕图像,具体为:
对载体图像作DFT变换;
以密钥K为种子对水印图像随机置乱;
根据水印数据(0或1),利用邻近值算法对载体图像的DFT中低频系数的幅度进行修改,嵌入水印信息,DFT系统的相位保持不变;
对修改后的DFT变换域系数,做IDFT,得到嵌入水印的图像。
进一步的,步骤(6)中,确定泄密用户信息,具体为:
对受到攻击后的含水印图像进行边缘提取和图像的尺寸提取size;
对边缘图像进行RADON变换,计算出图像的放置角度θ,
对图像反向旋转θ角,作size大小的DFT变换;
利用邻近值算法,从DFT的中低频系数中提取出置乱后的水印信息;
以密钥K为种子,对数据进行置乱恢复,提取嵌入的水印。
本发明还提供了一种数据安全治理系统,包括,
数据分类分级单元,基于深度学习的数据安全分级分类方法,对资产数据进行分类分级;
数据探测定位单元,基于对上述数据的分类分级定义不同等级的敏感数据进行敏感数据的探测,获得敏感数据在数据资产中的分布定位;
数据监控审计单元,基于对敏感数据的分布定位进行实时监控,形成审计机制,对终端用户的数据传输行为进行监控审计确定泄密用户信息。
进一步的,所述数据分类分级单元包括,
信息提取单元,用于采集业务数据,获取多组安全数据流流向序列组合,并进行分级并标记;
特征提取单元,用于提取安全数据流流向序列组合特征;
模型构建单元:构建基于深度学习的数据安全分级模型;
监控单元,使用该分级模型实时的对该业务信息系统正在发生的内、外数据流进行动态的监控。
一种计算机存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
本发明的优势在于:
通过先进的分类分级数据内容识别智能引擎以及人工智能算法技术建立数据安全治理架构,有效解决数据分布集中展示、敏感数据使用、敏感数据传输风险预警、用户行为预警的难题。实现用户的异常行为分析、直观展示数据资产的分布情况、数据识别及发现、防止重要、敏感的数据泄漏以及通过技术手段实现风险事件的审计及处置。
1)数据识别功能:
根据梳理出的备案数据资产,进行敏感数据的自动探测,通过特征探测定位敏感数据分布在哪些数据资产中。
针对敏感的数据资产进行分级分类标记,分类出敏感数据所有者(部门、系统、管理人员等)。
根据已分类的数据资产由业务部门进行敏感分级,将分类的数据资产划分公开、内部、敏感等不同的敏感级别。
可以有效发现攻击数据,识别DNS隐蔽隧道外传数据等高级内部外部威胁手法。
2)数据识别的范围:
可发现终端本地存储、网络共享存储、数据库以及云对象存储中的数据,并记录分布情况。
可设置网络共享数据发现策略,支持发现SMB/CIFS、NFS、FTP、SFTP等常见网络共享存储服务器中的数据存储,并记录分布情况。
支持发现扫描存储在数据库中的敏感数据,支持Oracle、SQLServer、MySQL、Postgres、DB2等数据库。
3)屏幕水印功能:
终端水印监控技术可以在被管控用户的终端上设置可见或不可见的屏幕水印,用户一旦在终端桌面上将含有敏感内容的数据通过屏幕截屏或手机拍照等方式外泄,可将外泄的图片上传到管理中心,通过水印溯源功能,可以追溯到泄露源头,反查出这张图片是在哪个用户的终端截屏的,能够提高安全管理人员针对风险用户追溯和风险行为审查的效率。
有时候员工不将原文档带出公司,而是通过对重要文档拍照截图的方式泄露。添加屏幕水印后,这样即使截图或照片泄露出去后,安全团队可以将泄露的图片上传到管理中心进行水印查询,通过图片上的终端水印信息定位到人,方便后续追责。
终端水印监控技术可以监控并阻止敏感数据通过打印机打印。同时,可以控制打印的时候是否添加水印,并可以选择水印类型如当前IP,当前MAC地址,当前用户名,当前系统时间或者自定义打印水印内容。
附图说明
图1为本发明的流程图。
图2为基于深度学习的数据安全分级模型的构建过程图。
图3为数据安全治理技术效果图。
图4为数据分类分级流程图。
图5为数据资产发现流程图。
图6为终端屏幕水印实现效果图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
参考图1-6,本发明提供了一种数据安全治理方法,包括如下步骤,
步骤一:基于深度学习的数据安全分级分类方法,对资产数据进行分类分级;包括以下四个步骤:
第一步:采集业务数据,获取多组安全数据流流向序列组合,并进行分级并标记。
通过针对数据的分类分级操作,可以了解敏感数据在企业中的分布,掌控敏感数据的位置。无论是结构化数据还是非结构化数据,只有实行准确的分类分级发现,才能知晓数据分布和风险,进而保护数据资产。通过数据梳理过程,针对敏感的数据资产进行分类分级标记,分类出敏感数据所有者(部门、系统、管理人员等)。根据已分类的数据资产由业务部门进行敏感分级,将分类的数据资产划分公开、内部、敏感等不同的敏感级别。这是数据安全治理整体方案的第一步骤,也是基础环节。
具体如下:
(1)采集位于原始业务信息系统Ⅰ的源头数据产生的安全数据流流向序列,将产生全数据流流向序列按照A核心数据、B重要数据、C一般数据三级进行数据分级,形成一组安全数据流流向序列组合M1。
M1包括:1)数据源位于原始业务信息系统Ⅰ且由原始业务信息系统Ⅰ(处理/未处理的结果数据)没有流向了其他与业务信息系统Ⅰ关联的业务信息系统,则包括位于原始业务信息系统Ⅰ中的数据源及由数据源产的数据/数据组合;2)数据源位于原始业务信息系统Ⅰ且由原始业务信息系统Ⅰ(处理/未处理的结果数据)流向了其他与业务信息系统Ⅰ关联的业务信息系统,则包括位于原始业务信息系统Ⅰ中的数据源及由数据源产生的数据流序列组合。
(2)采集位于原始业务信息系统Ⅰ的源头数据由原始业务信息系统Ⅰ流向第一个与业务信息系统Ⅰ关联的业务信息系统Ⅰ’时产生的安全数据流流向序列,将产生全数据流流向序列按照A核心数据、B重要数据、C一般数据三级进行划分,形成一组安全数据流流向序列组合N1。
N1包括数据源位于原始业务信息系统Ⅰ内,在有原始业务信息系统Ⅰ(处理/未处理的结果数据)流向第一个与业务信息系统Ⅰ关联的业务信息系统Ⅰ’的情况下,位于原始业务信息系统Ⅰ中和与业务信息系统Ⅰ关联的第一个业务信息系统Ⅰ’中的数据源及由数据源产的数据流序列两部分的数据组合。
(3)采集位于原始业务信息系统Ⅰ的源头数据由原始业务信息系统Ⅰ流向第二个与业务信息系统Ⅰ关联的业务信息系统Ⅰ”时产生的安全数据流流向序列,将产生全数据流流向序列按照A核心数据、B重要数据、C一般数据三级进行划分,形成一组安全数据流流向序列组合N2。
N2包括数据源位于原始业务信息系统Ⅰ内,在有原始业务信息系统Ⅰ(处理/未处理的结果数据)流向第二个与业务信息系统Ⅰ关联的业务信息系统Ⅰ”的情况下,位于原始业务信息系统Ⅰ中和与业务信息系统Ⅰ关联的第二个业务信息系统Ⅰ”中的数据源及由数据源产的数据流序列两部分的数据组合。
(4)依次类推,采集位于原始业务信息系统Ⅰ的源头数据由原始业务信息系统Ⅰ流向第n个与业务信息系统Ⅰ关联的其他业务信息系统产生的安全数据流流向序列,将产生全数据流流向序列按照A核心数据、B重要数据、C一般数据三级进行划分,形成一组安全数据流流向序列组合Nn。
Nn包括数据源位于原始业务信息系统Ⅰ内,在有原始业务信息系统Ⅰ(处理/未处理的结果数据)流向第n个与业务信息系统Ⅰ关联的业务信息系统的情况下,位于原始业务信息系统Ⅰ中和与业务信息系统Ⅰ关联的第n个业务信息系统中的数据源及由数据源产的数据流序列两部分的数据组合。
(5)按照步骤(1)~(4),在多场景(比如A高校的教学科研环境、B高校的教学科研环境等等)下采集多组以原始业务信息系统Ⅰ为源业务信息系统,产生两类数据:1)在原始业务信息系统Ⅰ内产生的M1;2)以原始业务信息系统Ⅰ中的数据为源数据,在有下行数据流向关联的n个业务信息系统中产生的多组安全数据流流向序列组合N1,……,Nn,组合形成该场景下以原始业务信息系统Ⅰ为源头的安全数据流流向序列组合M1,N1,……,Nn;3)在多场景(比如A高校的教学科研环境、B高校的教学科研环境等等)下采集以原始业务信息系统Ⅰ为源头的安全数据流流向序列组合M1’,N1’,……,Nn’;M1”,N1”,……,Nn”;……。对由在多场景下采集的原始业务信息系统Ⅰ为源头的所有安全数据流流向序列组合标记为安全,并对数据按照A核心数据、B重要数据、C一般数据三级进行划分标记。
第二步:提取安全数据流流向序列组合特征。
获取各场景(比如A高校的教学科研环境、B高校的教学科研环境等等)原始业务信息系统数据流的内部功能应用特征向量FVM以及个人信息特征向量IVM、原始业务信息系统与其他关联业务信息系统形成的外部功能应用的特征向量以及个人信息特征向量,具体如下:
(1)提取原始业务信息系统Ⅰ中安全数据流流向序列组合M1的每条数据流所完成功能应用的特征(包括并不限于学籍注册、学费转账、科研项目申报等业务功能)以及个人信息特征(包括但不限于姓名、身份证号、手机号、学历等个人信息),功能应用的特征向量FVm、个人信息特征向量IVm;
功能应用的特征向量FVm提取:根据D-R模型、星型模型等数据建模模型在功能应用维度(比如高校的教学科研环境下在原始业务信息系统Ⅰ上完成的学籍注册、学费转账、科研项目申报等业务应用功能)建立M1的每条数据流之中数据字段实体与实体(数据字段与数据字段本身)、数据字段属性与属性(数据字段是应用维度属性或者信息特征属性)、数据字段安全级别与安全级别(数据字段是A核心数据、B重要数据或C一般数据)之间的功能应用数据关联模型,将功能应用数据关联模型中的数据字段实体、数据字段属性、数据字段安全级别三个关联维度数字化、标准化:将数据字段本身的编码进行数字化、标准化,比如XF(学费)编码为001,YJJE(应缴金额)编码为002等;将数据字段属性进行数字化、标准化,比如应用维度属性编码为010,个人信息特征属性编码为020;将数据字段安全级别属性进行数字化、标准化,比如A核心数据编码为100、B重要数据编码为200、C一般数据编码为300。将数字化、标准化后的数据字段实体、数据字段属性、数据字段安全级别三个关联维度按照关联维度和关联顺序形成数据字段实体特征向量FEntVm、数据字段属性特征向量FAttrVm、数据字段安全级别特征向量FSecVm,数据字段实体特征向量FEntVm、数据字段属性特征向量FAttrVm、数据字段安全级别特征向量FSecVm组合形成功能应用的特征向量FVm;
个人信息特征向量IVm提取::根据D-R模型、星型模型等数据建模模型在个人信息维度(比如高校的教学科研环境下在原始业务信息系统Ⅰ上完成的学生个人信息、教职工个人信息等)建立M1的每条数据流之中数据字段实体与实体(数据字段与数据字段本身)、数据字段属性与属性(数据字段是应用维度属性或者个人信息特征属性)、数据字段安全级别与安全级别(数据字段是A核心数据、B重要数据或C一般数据)之间的功能应用数据关联模型,将个人信息数据关联模型中的数据字段实体、数据字段属性、数据字段安全级别三个关联维度数字化、标准化:将数据字段本身的编码进行数字化、标准化,比如SFZH(身份证号)编码为001,SJH(手机号)编码为002等;将数据字段属性进行数字化、标准化,比如应用维度属性编码为010,个人信息特征属性编码为020;将数据字段安全级别属性进行数字化、标准化,比如A核心数据编码为100、B重要数据编码为200、C一般数据编码为300。将数字化、标准化后的数据字段实体、数据字段属性、数据字段安全级别三个关联维度按照关联维度和关联顺序形成数据字段实体特征向量IEntVm、数据字段属性特征向量IAttrVm、数据字段安全级别特征向量ISecVm,数据字段实体特征向量IEntVm、数据字段属性特征向量IAttrVm、数据字段安全级别特征向量ISecVm组合形成功能应用的特征向量IVm;
(2)提取安全数据流流向序列组合N1的每条数据流所完成功能应用的特征以及个人信息特征,分别形成功能应用的特征向量FVN1、个人信息特征向量IVN1;
(3)依次类推,提取安全数据流流向序列组合Nn的每条数据流所完成功能应用的特征以及个人信息特征,分别形成功能应用的特征向量FVNn、个人信息特征向量IVNn;
(4)形成该场景下的以原始业务信息系统Ⅰ为源头的安全数据流流向序列组合M1,N1,……,Nn的功能应用的特征以及个人信息特征向量FVm,FVN1,FVN2,……,FVNn,IVm,IVN1,IVN2,……,IVNn;
(5)依次类推,提取各类场景下的安全数据流流向序列组合M1’,N1’,……,Nn’;M1”,N1”,……,Nn”;……;的每条数据流所完成功能应用的特征以及个人信息特征,分别形成功能应用的特征向量FVm’,FVN1’,FVN2’,……,FVNn’;FVm”,FVN1”,FVN2”,……,FVNn”;……;个人信息特征向量IVm’,IVN1’,IVN2’,……,IVNn’;IVm”,IVN1”,IVN2”,……,IVNn”;……。
原始业务信息系统Ⅰ的安全数据流流向序列组合M1以及与以原始系统1中的各场景下数据源为起点的n个其他业务信息系统安全数据流流向序列组合M1、N1、N2、……、Nn、M1’,N1’、N2’,……,Nn’、M1”,N1”,N2”,……,Nn”、……,形成特征向量组合为FVm、FVN1、FVN2、……、FVNn、FVm’、FVN1’、FVN2’、……、FVm”、FVN1”、FVN2”、……、IVm、IVN1、IVN2、……、IVNn、IVm’、IVN1’、IVN2’、……、IVNn’、IVm”、IVN1”、IVN2”、……,IVNn”……。
第三步:构建基于深度学习的数据安全分级模型。
对于安全的数据流及基于的原始业务信息系统进行数据安全分级成熟模型训练:
1)确定原始业务信息系统中的信息提取单元,并针对信息提取单元定义系统标志(例如:业务系统1定义为1、业务系统2定义为2、业务系统3定义为3等);
2)根据数据流向确定需要分析的、与原始业务信息系统有数据流转关系的特征提取单元和格式提取单元的内容,并将上述信息与系统标志位进行动态关联;
3)按照步骤2)进行不同场景原始业务信息系统数据流的内部功能应用,以及原始业务信息系统与其他关联业务信息系统形成的外部功能应用的特征向量FV)以及个人信息特征向量IVm的提取;
4)最终根据特征提取单元和格式提取单元中的特征向量计算生成数据输出单元,即形成数据分类分级的特征信息。模型如图2所示。
特征向量提取完毕之后使用模型库中的模型作为分类器,结合所有安全数据流流向序列组合中包括的A核心数据、B重要数据、C一般数据的最多3类数据分级结果标记对模型进行训练,通过调节隐含层的节点数及神经元函数来对安全图谱进行分级,通过精确率、准确率、F值指标判断模型的好坏,确定最终的数据安全分级成熟模型。
模型库中的模型包括深度学习的模型,包括但不限于:神经网络、CNN。
本实施例中将所有安全数据流流向序列组合分为3组,比例分别为6:2:2,其中60%用于训练模型,20%用于测试训练精度并不断调整模型使测试精度达到最高形成数据安全分级成熟模型,剩余的20%用于实际测量精度。
通过模型库中的深度学习模型对60%的安全数据流流向序列组合特征向量进行分类,得出训练模型并使用20%的安全数据流流向序列组合数据作为测试数据对模型进行评测,得到精度最高的模型,并用剩余20%的安全数据流流向序列组合数据进行实测,选择此时精度最高的模型作为成熟模型。
深度学习模型中通过控制深度学习网络的神经元以及层数来不断修正分类精度,神经元包括但不限于ReLu函数、S函数。
深度学习模型采用神经网络,通过神经网络参数设置和模型调整来调节A核心数据、B重要数据、C一般数据三级数据的判别标准,可达到按照不同业务信息系统的不同数据安全要求来输出标记A核心数据、B重要数据、C一般数据的不同业务分级数据。
如果信息系统是保密系统或对安全要求严格,则被分级数据在整条数据流轨迹相似度为20%时,将被分级数据归类为A核心数据,若信息系统民用而且对安全要求比较宽松,那么可在相似度为50%的行为流量出现时才将被分级数据归类为A核心数据。
使用神经网络或者深度学习网络进行分类的顺序如下:
(1)提取所有信息流序列特征,变换后按3:1:1分成第一份、第二份、第三份;
(2)确定神经网络参数并调优,包括但不限于输入特征值、输出分类个数、隐藏层个数、隐藏节点函数,使用第二份数据对模型进行评测,通过评估函数比如召回率、精确度、F值进行评估并修正模型。
(3)重复执行第(1)、(2)步,直到召回率、精确度、F值达到预设要求为止;
(4)确定模型之后使用第三份数据进行实测,则此时的评估函数比如召回率、精确度、F值则为实测的模型召回率、精确度、F值。
第四步:使用该分级模型实时的对该业务信息系统正在发生的内、外数据流进行动态的监控。
通过操作提取完整/不完整的动态的数据信息流序列组,形成A核心数据、B重要数据、C一般数据的数据分级结果,直到这一组操作行为结束。
步骤二:基于对上述数据的分类分级定义不同等级的敏感数据进行敏感数据的探测,获得敏感数据在数据资产中的分布定位;
通过步骤一的数据分类分级操作,已将企业内部的全部数据进行了等级区分,从而可以定义哪些数据属于重要的敏感数据。本步骤的操作主要是基于已定义的不同等级的敏感数据的情况,根据梳理出的备案数据资产,进行敏感数据的自动探测。通过特征探测,定位敏感数据分布在哪些数据资产中。
本步骤的主要工作和目标:
(1)敏感数据扫描发现
可帮助企业清晰掌握敏感数据分布情况。
(2)数据分布情况
根据数据分布情况,可清晰知悉敏感数据存放的终端信息、用户信息、文件信息,全方位掌握敏感数据分布详细信息。
(3)判断违规存放、预测风险
发现违规存放敏感信息的用户、终端,可有效预判潜在风险。
实现方案:
(1)结构化数据指纹技术
结构化数据指纹算法,将待检测的数据与数据库中的表、CSV或者Excel等结构化存储的数据源之间进行精确匹配,判断其是否通过全部拷贝、部分拷贝、或乱序拷贝将敏感信息从数据源泄漏出去,从而给企业造成严重的经济损失。
给定任意结构化数据源T,其中T包含C列字段,R行记录;C中每列的数据类型具有普遍代表性,可能是数字、日期或者是文字,但不存在二进制数据类型;给定任意一篇含有文本内容的待检测文件D,对给定结构化数据源T中指定列下的各行数据生成指纹特征库,并以此指纹特征库来判断待检文件D中是否存在于T中任意r(r<=R)行中任意c(c<=C)列的相匹配的数据;
(2)非结构化数据指纹
大部分敏感数据都存储在非结构化文档中,如项目设计文档、源代码、工程图纸、宏观经济报告、金融报告等。这些敏感信息都是企业的重要资产信息,需要防止这些文档通过全部拷贝、部分拷贝、或乱序拷贝被泄漏出去,给企业造成严重的经济损失。
非结构化数据指纹是通过某种选取策略对文本块进行hash生成的,而特定的指纹序列可以用来表示文档的内容特征。进行匹配时,通过对待匹配数据提取出的指纹特征与指纹库中的指纹进行比较可以计算出文档之间的相似度,从而识别出是否有敏感文档被泄漏。
(3)二进制数据指纹
针对可执行文件、动态库文件等没法提取出内容的数据,通过MD5生成摘要,即“二进制数字指纹”。
针对一组恶意可执行文件、动态库文件等,计算出其二进制数据指纹,形成二进制数据指纹库,当发现有可疑的可执行文件、动态库文件等时,计算出其二进制数据指纹,与已有的二进制数据指纹库进行比对,判断是否为恶意可执行文件、动态库文件等。
步骤三:终端屏幕水印
通过步骤二的数据资产发现操作,可以使企业清晰掌握敏感数据分布情况。而使用敏感数据最多的是企业内部的工作人员,即使用终端设备的用户。终端用户会使用终端设备传输数据。当终端用户存在主观原因或者疏忽原因,对敏感数据的处理不当时,最终有可能造成敏感数据的外泄,给企业造成较大的损失。所以,通过于终端设备上部署监控程序,对数据分类分级和数据发现的结果所生成、定义的敏感数据进行实时监控,从而形成一种审计机制,实现对终端用户的数据传输行为进行监控、审计和追责。
实现方案:
(1)获取用户登录信息;
(2)对所述用户登录信息进行水印信息生成处理,确定屏幕水印,具体为
1)对所述用户登录信息进行矩阵处理,确定信息像素矩阵;
2)对所述信息像素矩阵进行编码处理,确定屏幕水印;
(3)对所述初始屏幕图像进行二维快速傅立叶变换处理,确定图像频域。
(4)通过水印嵌入算法将所述屏幕水印嵌入至所述图像频域中,确定目标屏幕图像,具体为:
1)对载体图像作DFT变换;
2)以密钥K为种子对水印图像随机置乱;
3)根据水印数据(0或1),利用邻近值算法对载体图像的DFT中低频系数的幅度进行修改,嵌入水印信息,DFT系统的相位保持不变;
4)对修改后的DFT变换域系数,做IDFT,得到嵌入水印的图像。
(5)对所述目标屏幕图像进行泄密处理,确定泄密图像;
(6)通过水印提取算法对泄密图像进行屏幕水印提取,并对屏幕水印进行解码操作,确定泄密用户信息,具体为:
1)对受到攻击后的含水印图像进行边缘提取和图像的尺寸提取(size);
2)对边缘图像进行RADON变换,计算出图像的放置角度θ,
3)对图像反向旋转θ角,作size大小的DFT变换;
4)利用邻近值算法,从DFT的中低频系数中提取出置乱后的水印信息;
5)以密钥K为种子,对数据进行置乱恢复,提取嵌入的水印。
针对数据流量实现全方位整体防护。针对网络传输的流量、终端产生的流量和邮件传输的流量,实现数据分布集中展示、敏感数据使用、敏感数据传输风险预警、用户行为预警等相关功能。并实现针对违规的数据流量进行阻断操作,防范组织内部的敏感数据外泄。数据安全治理效果界面展示如图3所示。
本发明还提供了一种数据安全治理系统,包括,
数据分类分级单元,基于深度学习的数据安全分级分类方法,对资产数据进行分类分级;
数据探测定位单元,基于对上述数据的分类分级定义不同等级的敏感数据进行敏感数据的探测,获得敏感数据在数据资产中的分布定位;
数据监控审计单元,基于对敏感数据的分布定位进行实时监控,形成审计机制,对终端用户的数据传输行为进行监控审计确定泄密用户信息。其中,所述数据分类分级单元包括,
信息提取单元,用于采集业务数据,获取多组安全数据流流向序列组合,并进行分级并标记;
特征提取单元,用于提取安全数据流流向序列组合特征;
模型构建单元:构建基于深度学习的数据安全分级模型;
监控单元,使用该分级模型实时的对该业务信息系统正在发生的内、外数据流进行动态的监控。
一种计算机存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据安全治理方法,其特征在于:包括如下步骤,
S1:基于深度学习的数据安全分级分类方法,对资产数据进行分类分级;
S2:基于对上述数据的分类分级定义不同等级的敏感数据进行敏感数据的探测,获得敏感数据在数据资产中的分布定位;
S3:基于对敏感数据的分布定位进行实时监控,形成审计机制,对终端用户的数据传输行为进行监控审计确定泄密用户信息。
2.如权利要求1所述的一种数据安全治理方法,其特征在于:所述的数据分类分级包括如下步骤,
S101:采集业务数据,获取多组安全数据流流向序列组合,并进行分级并标记;
S102:提取安全数据流流向序列组合特征;
S103:构建基于深度学习的数据安全分级模型;
S104:使用该分级模型实时的对该业务信息系统正在发生的内、外数据流进行动态的监控。
3.如权利要求2所述的一种数据安全治理方法,其特征在于:所述S101中安全数据流流向序列组合,包括采集位于原始业务信息系统Ⅰ的源头数据产生的安全数据流流向序列,将产生全数据流流向序列按照A核心数据、B重要数据、C一般数据三级进行数据分级,形成一组安全数据流流向序列组合M1,及以原始业务信息系统Ⅰ中的数据为源数据,在有下行数据流向关联的n个业务信息系统中产生的多组安全数据流流向序列组合N1,……,Nn,二者组合形成该场景下以原始业务信息系统Ⅰ为源头的安全数据流流向序列组合M1,N1,……,Nn;则在多场景下采集以原始业务信息系统Ⅰ为源头的安全数据流流向序列组合M1’,N1’,……,Nn’;M1”,N1”,……,Nn”;……;对由在多场景下采集的原始业务信息系统Ⅰ为源头的所有安全数据流流向序列组合标记为安全,并对数据按照A核心数据、B重要数据、C一般数据三级进行划分标记。
4.如权利要求2所述的一种数据安全治理方法,其特征在于:S102中获取各场景原始业务信息系统数据流的内部功能应用特征向量FVM以及个人信息特征向量IVM、原始业务信息系统与其他关联业务信息系统形成的外部功能应用的特征向量以及个人信息特征向量。
5.如权利要求2所述的一种数据安全治理方法,其特征在于:S103:对于安全的数据流及基于的原始业务信息系统进行数据安全分级成熟模型训练,具体包括,
1)确定原始业务信息系统中的信息提取单元,并针对信息提取单元定义系统标志位;
2)根据数据流向确定需要分析的、与原始业务信息系统有数据流转关系的特征提取单元和格式提取单元的内容,并将上述信息与系统标志位进行动态关联;
3)按照步骤2)进行不同场景原始业务信息系统数据流的内部功能应用,以及原始业务信息系统与其他关联业务信息系统形成的外部功能应用的特征向量FV以及个人信息特征向量IVm的提取;
4)最终根据特征提取单元和格式提取单元中的特征向量计算生成数据输出单元,即形成数据分类分级的特征信息。
6.如权利要求2所述的一种数据安全治理方法,其特征在于:S2中,还包括对敏感数据进行检测,发现违规存放敏感信息的用户、终端;对敏感数据的检测采用结构化数据指纹算法、非结构化数据指纹及二进制数据指纹算法。
7.如权利要求1所述的一种数据安全治理方法,其特征在于:S3中,具体的,
(1)获取用户登录信息;
(2)对所述用户登录信息进行水印信息生成处理,确定屏幕水印;确定屏幕水印通过如下步骤实现,对所述用户登录信息进行矩阵处理,确定信息像素矩阵;对所述信息像素矩阵进行编码处理,确定屏幕水印;
(3)对所述初始屏幕图像进行二维快速傅立叶变换处理,确定图像频域;
(4)通过水印嵌入算法将所述屏幕水印嵌入至所述图像频域中;确定目标屏幕图像,具体为:
对载体图像作DFT变换;
以密钥K为种子对水印图像随机置乱;
根据水印数据,利用邻近值算法对载体图像的DFT中低频系数的幅度进行修改,嵌入水印信息,DFT系统的相位保持不变;
对修改后的DFT变换域系数,做IDFT,得到嵌入水印的图像;
(5)对所述目标屏幕图像进行泄密处理,确定泄密图像;
(6)通过水印提取算法对泄密图像进行屏幕水印提取,并对屏幕水印进行解码操作,确定泄密用户信息,具体为:
对受到攻击后的含水印图像进行边缘提取和图像的尺寸提取size;
对边缘图像进行RADON变换,计算出图像的放置角度θ,
对图像反向旋转θ角,作size大小的DFT变换;
利用邻近值算法,从DFT的中低频系数中提取出置乱后的水印信息;
以密钥K为种子,对数据进行置乱恢复,提取嵌入的水印。
8.一种数据安全治理系统,其特征在于:包括,
数据分类分级单元,基于深度学习的数据安全分级分类方法,对资产数据进行分类分级;
数据探测定位单元,基于对上述数据的分类分级定义不同等级的敏感数据进行敏感数据的探测,获得敏感数据在数据资产中的分布定位;
数据监控审计单元,基于对敏感数据的分布定位进行实时监控,形成审计机制,对终端用户的数据传输行为进行监控审计确定泄密用户信息。
9.如权利要求8所述的一种数据安全治理系统,其特征在于:数据分类分级单元包括,
信息提取单元,用于采集业务数据,获取多组安全数据流流向序列组合,并进行分级并标记;
特征提取单元,用于提取安全数据流流向序列组合特征;
模型构建单元:构建基于深度学习的数据安全分级模型;
监控单元,使用该分级模型实时的对该业务信息系统正在发生的内、外数据流进行动态的监控。
10.一种计算机存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311527756.7A CN117574458A (zh) | 2023-11-16 | 2023-11-16 | 一种数据安全治理方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311527756.7A CN117574458A (zh) | 2023-11-16 | 2023-11-16 | 一种数据安全治理方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117574458A true CN117574458A (zh) | 2024-02-20 |
Family
ID=89885569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311527756.7A Pending CN117574458A (zh) | 2023-11-16 | 2023-11-16 | 一种数据安全治理方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117574458A (zh) |
-
2023
- 2023-11-16 CN CN202311527756.7A patent/CN117574458A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Detecting anomalous user behavior using an extended isolation forest algorithm: an enterprise case study | |
Kaur et al. | Digital forensics | |
US11568028B2 (en) | Data watermarking and fingerprinting system and method | |
CN111953697A (zh) | 一种apt攻击识别及防御方法 | |
US20190034601A1 (en) | Salting Text in Database Tables, Text Files, and Data Feeds | |
Kaur et al. | A secure data classification model in cloud computing using machine learning approach | |
SONMEZ et al. | Review of evidence collection and protection phases in digital forensics process | |
Varol et al. | Review of evidence analysis and reporting phases in digital forensics process | |
Fernandes | Steganography and Computer Forensics-the art of hiding information: a systematic review | |
CN117574458A (zh) | 一种数据安全治理方法、系统及存储介质 | |
Al-Sanjary et al. | Challenges on digital cyber-security and network forensics: a survey | |
Toraskar et al. | Efficient computer forensic analysis using machine learning approaches | |
Steinebach et al. | Privacy and Robust Hashes Privacy-Preserving Forensics for Image Re-Identification. | |
Seo et al. | A system for improving data leakage detection based on association relationship between data leakage patterns | |
Mariappan et al. | Digital Forensic and Machine Learning | |
Pozár | Modelling of the Investigation of Cybercrime | |
Kosiński et al. | Cybersecurity and the handling of cyber incidents | |
Tripathi et al. | Identification of Image Spoofing Using Deep Convolution Neural Network | |
Kim et al. | A Model for Illegal File Access Tracking Using Windows Logs and Elastic Stack. | |
Brennan et al. | The Brave New World of Third Party Location Data | |
Chathuranga | Watermarking technology for copyright protection of relational databases | |
Delgado et al. | Using open source for forensic purposes | |
Pol et al. | Data leakage detection | |
Pal et al. | Secured Digital Watermarking Using Neural Networks | |
Aggarwal | Critical analysis of digital forensic in criminal justice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |