CN112711757B - 一种基于大数据平台的数据安全集中管控方法及系统 - Google Patents

一种基于大数据平台的数据安全集中管控方法及系统 Download PDF

Info

Publication number
CN112711757B
CN112711757B CN202011545841.2A CN202011545841A CN112711757B CN 112711757 B CN112711757 B CN 112711757B CN 202011545841 A CN202011545841 A CN 202011545841A CN 112711757 B CN112711757 B CN 112711757B
Authority
CN
China
Prior art keywords
data
result
target
screening
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011545841.2A
Other languages
English (en)
Other versions
CN112711757A (zh
Inventor
王玉晓
邓飞
苏志斌
刘继勇
田江
王鹏
贾晓鸣
刘存玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everbright Technology Co ltd
Everbright Xinglong Trust Co ltd
Original Assignee
Everbright Technology Co ltd
Everbright Xinglong Trust Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everbright Technology Co ltd, Everbright Xinglong Trust Co ltd filed Critical Everbright Technology Co ltd
Priority to CN202011545841.2A priority Critical patent/CN112711757B/zh
Publication of CN112711757A publication Critical patent/CN112711757A/zh
Application granted granted Critical
Publication of CN112711757B publication Critical patent/CN112711757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/568Computer malware detection or handling, e.g. anti-virus arrangements eliminating virus, restoring damaged files
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Abstract

本发明提供了一种基于大数据平台的数据安全集中管控方法及系统,其方法包括:基于大数据平台,获取不同目标单位的原始数据,并对关联关系原始数据进行融合存储以及分类存储,并基于融合存储结果构建第一鉴别模型以及分类存储结果构建第二鉴别模型集合;基于关联关系原始数据的合法来源信息、使用合规信息、安全传输信息、安全审计信息,构建第三鉴别模型;采集业务数据,并对业务数据进行预处理,分别基于鉴别模型对预处理结果进行鉴别,根据第二鉴别结果,筛选并标定异常数据和安全数据,并按照标准管控方式管控安全数据,按照集中管控方式管控异常数据。通过对应的方式,实现对其的有效管控,提高了对数据的安全保护。

Description

一种基于大数据平台的数据安全集中管控方法及系统
技术领域
本发明涉及大数据技术领域,特别涉及一种基于大数据平台的数据安全集中管控方法及系统。
背景技术
大数据及人工智能时代,外部数据在服务信托金融业务数字化转型中的重要性愈加凸显。然而,在外部数据实际落地运用时会遇到各种各样的问题。比如,多部门各自引入,管理标准的不统一带来了数据安全得不到保障、使用成本高、数据难于整合共享等问题。
目前,各个政府机构、事业单位之间的业务数据是相互独立的,受理业务的机构也无法直接在别的机构的数据库中查看原始数据进行核对,只能凭借材料上的盖章等证明物来对材料的真实性进行判断,并且,随着网络技术的高速发展,目前的材料造假技术也越来越高级,即使对材料进行了造假或者篡改,受理机构的工作人员也难以进行甄别,且,由于不同部门的需要保护的数据不同,但是一般为了方便会直接使用相同系统对数据进行真伪鉴别以及对数据进行保护,但是,其针对性较低,进而使得辨别结果或者是安全保护达不到预期效果,因此,本发明提出一种基于大数据平台的数据安全集中管控方法及系统。
发明内容
本发明提供一种基于大数据平台的数据安全集中管控方法及系统,用以通过多种方式鉴别便于筛选异常数据和安全数据,并通过对应的方式,实现对其的有效管控,提高了对数据的安全保护。
本发明提供一种基于大数据平台的数据安全集中管控方法,包括:
基于大数据平台,获取不同目标单位的原始数据,并对所述原始数据进行融合存储以及分类存储,并基于融合存储结果构建第一鉴别模型以及分类存储结果构建第二鉴别模型集合;
基于所述原始数据的合法来源信息、使用合规信息、安全传输信息、安全审计信息,构建第三鉴别模型;
同步采集不同目标单位的业务数据,并对所述业务数据进行预处理,分别基于所述第一鉴别模型、第三鉴别模型,对预处理结果进行第一鉴别,从第二鉴别模型集合中调取相匹配的第二鉴别模型对对应的预处理结果进行第二鉴别;
根据第一鉴别结果以及第二鉴别结果,从所述业务数据中筛选并标定异常数据和安全数据,同时,按照标准管控方式管控所述安全数据,按照集中管控方式管控所述异常数据。
在一种可能实现的方式中,对所述原始数据进行融合存储,具体步骤包括:
确定待融合的原始数据,并构建特征关系标识模型;
将所述待融合的原始数据输入所述特征关系标识模型,对所述待融合的原始数据中每一数据进行特征关系标识;
所述特征关系标识用于标识数据中的特征关系,且每一特征关系中包含一个或多个数据特征值;
对所述数据特征值进行数据结构化处理,获取所述数据特征值对应的结构化数据组;
提取所述结构化数据组中的相关数据,并根据所述相关数据的属性值划分为多个相关数据对;
对所述相关数据对中的每个相关数据进行相似度计算,得到所述相关数据的相似度值;
同时,在所述相似度值大于预设相似度阈值时对所述相关数据进行融合操作,得到目标融合数据;
基于预设数据存储库,获取所述目标融合数据的数据存储信息,并根据所述数据存储信息调取相应的数据存储模式;
同时,根据所述数据存储信息获取所述数据存储模式的管理、筛选、配置权限;
基于所述数据存储模式中的管理权限,将所述目标融合数据进行数据管理得到目标管理数据;
基于所述数据存储模式中的筛选权限,对所述目标管理数据进行筛选,并剔除所述目标管理数据中的异常数据,得到目标数据;
基于所述数据存储模式中的配置权限,对所述目标数据进行配置,并将配置好的所述目标数据转换为约定格式后进行存储。
在一种可能实现的方式中,对所述原始数据进行分类存储包括:
基于分类数据库获取分类规则,并建立所述分类规则与所述原始数据之间的关联关系,并对所述关联关系进行优先级排序,同时,按照排序结果,调取前A个预先训练好的分类模型对所述原始数据进行分类;
建立存储节点,并基于所述存储节点创建A+1个存储层,并根据所述A个分类模型的模型属性,从所述A+1个存储层中筛选出一个暂存层,同时,根据剩余的A个存储层的权重值以及所述排序结果,对所述A个分类模型进行对应匹配;
其中,每个分类模型对应的存储层,按照所述分类模型的分类结果进行随机区域划分,来存储原始数据。
且每个分类模型对应的存储层都存储一次所述原始数据。
在一种可能实现的方式中,根据第一鉴别结果以及第二鉴别结果,从所述业务数据中筛选并标定异常数据和安全数据包括:
获取基于所述第一鉴别模型、第三鉴别模型,对预处理结果进行第一鉴别的第一鉴别结果,获取基于从第二鉴别模型集合中调取相匹配的第二鉴别模型对对应的预处理结果进行第二鉴别的第二鉴别结果;
将所述第一鉴别结果以及第二鉴别结果输入到异常判别模型中,判别所述第一鉴别结果以及第二鉴别结果中是否存在异常结果,若存在,从所述业务数据中筛选与所述异常结果相关的异常数据;
同时,还判别所述第一鉴别结果以及第二鉴别结果中是否存在待判断结果,若存在,获取与所述待判断结果相关的待判断数据;
对所述待判断数据进行迭代处理,并提取迭代结果不为零的第一数据以及迭代结果为零的第二数据,
同时,确定所述第一数据与所述异常判别模型的正相关参数以及梯度负相关参数,根据所述正相关参数以及梯度负相关参数,对所述第一数据进行修正处理,获得第三数据。
在一种可能实现的方式中,所述第三数据为异常数据,所述第一数据为安全数据。
在一种可能实现的方式中,按照标准管控方式管控所述安全数据,按照集中管控方式管控所述异常数据包括:
对同批次的所述安全数据进行数据等级标定,并根据标定结果,将对应的安全数据传输到预先设置好的不同的第一管控节点进行存储;
同时,对同批次的所述异常数据进行数据分类,并将每类数据分别传输到同个第二管控节点中的管控块进行存储。
在一种可能实现的方式中,对所述业务数据进行预处理的过程中包括:在对所述业务数据进行筛选,具体步骤包括:
获取业务数据,并对所述业务数据进行压缩处理,以获取所述业务数据对应的压缩数据;
将所述压缩数据进行分段处理,得到M个目标待筛选数据段;
对所述目标待筛选数据段进行当前筛选,得到目标数据,且根据如下公式计算当前筛选所述M个目标待筛选数据段的准确率:
Figure BDA0002856117650000051
其中,η表示在当前筛选过程中,筛选所述目标待筛选数据段的准确率,且取值范围为(0,1);δ表示在当前筛选过程中,筛选所述目标待筛选数据段的精准度系数;i表示当前筛选的所述目标待筛选数据段的段数,且取值范围为[1,M];M表述所述目标待筛选数据段的总段数;α表示当前筛选对应的第i个目标待筛选数据段所需要的数据总量;τi表示当前筛选对应的第i个目标待筛选数据段中的数据总量;T表述当前筛选对应的一个所述目标待筛选数据段所用的时长;f表示在当前筛选过程中,筛选所述目标待筛选数据段的筛选频率;γ表示在当前筛选过程中,筛选所述目标待筛选数据段时的误判率;
基于计算的所述准确率,对当前筛选得到的目标数据进行校验,并根据如下公式计算得到对应的当前校验值,并根据所述当前校验值判断所述目标数据是否合格;
Figure BDA0002856117650000052
其中,ψ表示对所述目标数据进行校验的当前校验值,且取值范围为[0,1];ζ表示对目标数据进行校验的校验系数;σ表示所述目标数据的总量;
Figure BDA0002856117650000053
表示有效筛选所对应的目标数据的总量;η表示在当前筛选过程中,筛选所述目标待筛选数据段的准确率,且取值范围为(0,1);λ表示当前筛选后对应的所述目标数据的平均特征值;κ表示有效筛选后所对应的目标数据的平均特征值;
将计算得到的当前校验值与预设校验值进行比较;
若所述当前校验值大于或者等于所述预设校验值,判定当前筛选得到的所述目标数据合格,并对合格的所述目标数据进行鉴别;
否则,判定筛选得到的所述目标数据不合格,并判别所述目标数据中的不合格数据所属的目标单位,重新采集对应的目标单位的待采集数据。
在一种可能实现的方式中,重新采集对应的目标单位的待采集数据的过程中,包括:
确定所述不合格数据基于所属的目标单位的单位安全等级以及所述不合格数据对所述所属的目标单位的影响值Z;
Figure BDA0002856117650000061
其中,Ψ表示所述不合格数据基于对应的所属的目标单位的数据权重值,且取值单位为[0.1,1];S表示所述不合格数据基于对应的所属的目标单位的数据安全等级;S′表示对应的所属的目标单位的单位安全等级;Δa表示所述不合格数据在对应的所属的目标单位下的所有业务数据中的数据容量;a表示对应的所属的目标单位下的所有业务数据的数据总量;
根据所述影响值Z大于预设值时,重新采集对应的目标单位的业务数据,并覆盖之前所采集的对应的目标单位的业务数据;
否则,确定所述不合格数据基于对应的目标单位的数据产生源,并基于所述数据产生源重现采集对应的源数据,并覆盖对应的所述不合格数据;
同时,将覆盖后的数据作为预处理结果,并进行鉴别;
其中,重新采集的业务数据或者源数据即为待采集数据。
本发明提供一种基于大数据平台的数据安全集中管控系统,包括:
第一构建模块,用于基于大数据平台,获取不同目标单位的原始数据,并对所述原始数据进行融合存储以及分类存储,并基于融合存储结果构建第一鉴别模型以及分类存储结果构建第二鉴别模型集合;
第二构建模块,用于基于所述原始数据的合法来源信息、使用合规信息、安全传输信息、安全审计信息,构建第三鉴别模型;
鉴别模块,用于同步采集不同目标单位的业务数据,并对所述业务数据进行预处理,分别基于所述第一鉴别模型、第三鉴别模型,对预处理结果进行第一鉴别,从第二鉴别模型集合中调取相匹配的第二鉴别模型对对应的预处理结果进行第二鉴别;
管控模块,用于根据第一鉴别结果以及第二鉴别结果,从所述业务数据中筛选并标定异常数据和安全数据,同时,按照标准管控方式管控所述安全数据,按照集中管控方式管控所述异常数据。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于大数据平台的数据安全集中管控方法的流程图;
图2为本发明实施例中一种基于大数据平台的数据安全集中管控方法的结构框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种基于大数据平台的数据安全集中管控方法,如图1所示,包括:
步骤1:基于大数据平台,获取不同目标单位的原始数据,并对所述原始数据进行融合存储以及分类存储,并基于融合存储结果构建第一鉴别模型以及分类存储结果构建第二鉴别模型集合;
步骤2:基于所述原始数据的合法来源信息、使用合规信息、安全传输信息、安全审计信息,构建第三鉴别模型;
步骤3:同步采集不同目标单位的业务数据,并对所述业务数据进行预处理,分别基于所述第一鉴别模型、第三鉴别模型,对预处理结果进行第一鉴别,从第二鉴别模型集合中调取相匹配的第二鉴别模型对对应的预处理结果进行第二鉴别;
步骤4:根据第一鉴别结果以及第二鉴别结果,从所述业务数据中筛选并标定异常数据和安全数据,同时,按照标准管控方式管控所述安全数据,按照集中管控方式管控所述异常数据。
该实施例中,目标单位是指需要进行各种业务数据传输的公司;
该实施例中,对原始数据进行融合处理,例如是将不同公司的业务数据进行数据格式转换,统一整合到一起,对原始数据进行分类存储,例如是将不同公司的业务数据进行数据分类,同类数据存储到一个存储空间。
该实施例中,第一鉴别模型是基于所有的融合数据构建的,第二鉴别模型集合,是基于不同类数据构建的不同的第二鉴别模型构建的。
该实施例中,第三鉴别模型是基于合法来源信息、使用合规信息、安全传输信息、安全审计信息构建的,该信息都是可以预先获取到的,且通过构建第三鉴别模型,便于有效的对数据进行鉴别。
该实施例中,获取原始数据是为了构建鉴别模型。
该实施例中,预处理,是指对采集的业务数据进行筛选等一系列处理。
该实施例中,异常数据,例如是指网络攻击数据、病毒数据、业务错误数据等。
该实施例中,安全数据,是指业务数据中除却异常数据的剩余数据。
该实施例中,标准管控方式是指对同批次的安全数据进行数据等级标定,并根据标定结果,将对应的安全数据传输到预先设置好的不同的第一管控节点进行存储;
集中管控方式是指对同批次的异常数据进行数据分类,并将每类数据分别传输到同个第二管控节点中的管控块进行存储。
上述技术方案的有益效果是:通过多种方式鉴别便于筛选异常数据和安全数据,并通过对应的方式,实现对其的有效管控,提高了对数据的安全保护。
本发明提供一种基于大数据平台的数据安全集中管控方法,对所述原始数据进行融合存储,具体步骤包括:
确定待融合的原始数据,并构建特征关系标识模型;
将所述待融合的原始数据输入所述特征关系标识模型,对所述待融合的原始数据中每一数据进行特征关系标识;
所述特征关系标识用于标识数据中的特征关系,且每一特征关系中包含一个或多个数据特征值;
对所述数据特征值进行数据结构化处理,获取所述数据特征值对应的结构化数据组;
提取所述结构化数据组中的相关数据,并根据所述相关数据的属性值划分为多个相关数据对;
对所述相关数据对中的每个相关数据进行相似度计算,得到所述相关数据的相似度值;
同时,在所述相似度值大于预设相似度阈值时对所述相关数据进行融合操作,得到目标融合数据;
基于预设数据存储库,获取所述目标融合数据的数据存储信息,并根据所述数据存储信息调取相应的数据存储模式;
同时,根据所述数据存储信息获取所述数据存储模式的管理、筛选、配置权限;
基于所述数据存储模式中的管理权限,将所述目标融合数据进行数据管理得到目标管理数据;
基于所述数据存储模式中的筛选权限,对所述目标管理数据进行筛选,并剔除所述目标管理数据中的异常数据,得到目标数据;
基于所述数据存储模式中的配置权限,对所述目标数据进行配置,并将配置好的所述目标数据转换为约定格式后进行存储。
该实施例中,数据结构化是数据库系统与文件系统的根本区别。在文件系统中,独立文件内部的数据一般是有结构的,但文件之间不存在联系,因此从数据的整体来说是没有结构的。
该实施例中,结构化数据组指的是经过数据结构化处理得到的数据集合。
该实施例中,相关数据指的是数据组中某两个数据之间具有血缘关系或存在调用关系,两数据被定义为相关数据。
该实施例中,数据存储模式包含大端模式、小端模式等。
该实施例中,异常数据指的是目标管理数据中的错误数据,或是在外界因素干扰下导致数据部分丢失的数据等。
该实施例中,约定格式指的是既定的数据存储的格式,通过将数据转换为相应的格式达到节省存储空间的目的。
上述技术方案的有益效果是:通过提取待融合的原始数据中的特征值,并对特征值进行特征关系标识处理后进行数据结构化处理,且计算结构化数据处理后数据的相似度,根据相似度将数据进行融合,确保将有关联的数据融合,避免不同类数据在融合时发生不兼容的情况,最终根据融合数据确定相应的存储模式,并根据存储模式中的权限对数据进行清洗操作,并转换为约定格式进行存储,节省存储空间,并确保存储的数据无误。
本发明提供一种基于大数据平台的数据安全集中管控方法,对所述原始数据进行分类存储包括:
基于分类数据库获取分类规则,并建立所述分类规则与所述原始数据之间的关联关系,并对所述关联关系进行优先级排序,同时,按照排序结果,调取前A个预先训练好的分类模型对所述原始数据进行分类;
建立存储节点,并基于所述存储节点创建A+1个存储层,并根据所述A个分类模型的模型属性,从所述A+1个存储层中筛选出一个暂存层,同时,根据剩余的A个存储层的权重值以及所述排序结果,对所述A个分类模型进行对应匹配;
其中,每个分类模型对应的存储层,按照所述分类模型的分类结果进行随机区域划分,来存储原始数据。
且每个分类模型对应的存储层都存储一次所述原始数据。
该实施例中,获取分类规则,并建立关联关系,是为了方便选取有效的分类模型对原始数据进行分类。
该实施例中,建立存储节点,是为了将分类数据进行有效存储。
该实施例中,例如是A个分类模型,则建立A+1个存储层,且从中筛选暂存层,是为了当剩余A个存储层存在存储故障时,可以将其对应的数据存储到暂存层中,避免数据丢失,便于对数据进行集中管控。
该实施例中,进行随机区域划分,是为了确保可以将数据都可以有效存储上。
该实施例中,权重值可以是按照存储层的安全可靠性确定的。
上述技术方案的有益效果是:通过建立分类规则与原始数据之间的关联关系,并进行优先级排序,便于调取分类模型对其进行分类,保证其分类的有效性,通过建立存储节点,并建立存储层,且根据模型属性,便于确定暂存层,根据权重值及排序结果,便于与分类模型进行匹配,提高数据存储效率,以及数据的安全性,为集中管控提供基础。
本发明提供一种基于大数据平台的数据安全集中管控方法,根据第一鉴别结果以及第二鉴别结果,从所述业务数据中筛选并标定异常数据和安全数据包括:
获取基于所述第一鉴别模型、第三鉴别模型,对预处理结果进行第一鉴别的第一鉴别结果,获取基于从第二鉴别模型集合中调取相匹配的第二鉴别模型对对应的预处理结果进行第二鉴别的第二鉴别结果;
将所述第一鉴别结果以及第二鉴别结果输入到异常判别模型中,判别所述第一鉴别结果以及第二鉴别结果中是否存在异常结果,若存在,从所述业务数据中筛选与所述异常结果相关的异常数据;
同时,还判别所述第一鉴别结果以及第二鉴别结果中是否存在待判断结果,若存在,获取与所述待判断结果相关的待判断数据;
对所述待判断数据进行迭代处理,并提取迭代结果不为零的第一数据以及迭代结果为零的第二数据,
同时,确定所述第一数据与所述异常判别模型的正相关参数以及梯度负相关参数,根据所述正相关参数以及梯度负相关参数,对所述第一数据进行修正处理,获得第三数据。
在一种可能实现的方式中,所述第三数据为异常数据,所述第一数据为安全数据。
该实施例中,鉴别结果是指基于模型对业务数据进行鉴别,该实施例中,异常结果,例如是指与业务数据不相关的数据或者影响业务数据出错的数据,或者业务数据本身有存在的错误数据。
该实施例中,正相关参数与梯度相关参数都与异常判别模型相关,且正相关参数以及负相关参数例如是指,异常判别模型本身存在的模型误差,例如模型误差对应的参数值大于0,则视为正相关,模型误差对应的参数值小于0,则视为负相关。
该实施例中,第三数据是指对模型误差修正之后,进而实现对第一数据的修正,因为,第一数据是基于异常判别模型所确定的,会存在误差,修正之后,降低误差。
上述技术方案的有益效果是:通过进行异常结果和待判断结果的两次判断,便于提高对异常数据和安全数据的有效划分,且通过对待判断数据进行迭代处理,根据迭代结果对第一数据进行修正,保证数据的异常和安全的有效确定,便于后续对数据的有效管控。
本发明提供一种基于大数据平台的数据安全集中管控方法,按照标准管控方式管控所述安全数据,按照集中管控方式管控所述异常数据包括:
对同批次的所述安全数据进行数据等级标定,并根据标定结果,将对应的安全数据传输到预先设置好的不同的第一管控节点进行存储;
同时,对同批次的所述异常数据进行数据分类,并将每类数据分别传输到同个第二管控节点中的管控块进行存储。
该实施例中,第一管控节点、第二管控结果,是为了对数据进行存储管理的地方。
该实施例中,同批次数据,是指在某个时间段内获取的数据。
该实施例中,第二管控节点中包含若干个管控块。
上述技术方案的有益效果是:通过对安全数据进行等级标定,便于将数据传输到不同的节点进行存储,通过对异常数据进行数据分类,便于将数据传输到同个节点的不同管控快进行存储,提高数据管控效率。
本发明提供一种基于大数据平台的数据安全集中管控方法,对所述业务数据进行预处理的过程中包括:在对所述业务数据进行筛选,具体步骤包括:
获取业务数据,并对所述业务数据进行压缩处理,以获取所述业务数据对应的压缩数据;
将所述压缩数据进行分段处理,得到M个目标待筛选数据段;
对所述目标待筛选数据段进行当前筛选,得到目标数据,且根据如下公式计算当前筛选所述M个目标待筛选数据段的准确率:
Figure BDA0002856117650000141
其中,η表示在当前筛选过程中,筛选所述目标待筛选数据段的准确率,且取值范围为(0,1);δ表示在当前筛选过程中,筛选所述目标待筛选数据段的精准度系数;i表示当前筛选的所述目标待筛选数据段的段数,且取值范围为[1,M];M表述所述目标待筛选数据段的总段数;α表示当前筛选对应的第i个目标待筛选数据段所需要的数据总量;τi表示当前筛选对应的第i个目标待筛选数据段中的数据总量;T表述当前筛选对应的一个所述目标待筛选数据段所用的时长;f表示在当前筛选过程中,筛选所述目标待筛选数据段的筛选频率;γ表示在当前筛选过程中,筛选所述目标待筛选数据段时的误判率;
基于计算的所述准确率,对当前筛选得到的目标数据进行校验,并根据如下公式计算得到对应的当前校验值,并根据所述当前校验值判断所述目标数据是否合格;
Figure BDA0002856117650000142
其中,ψ表示对所述目标数据进行校验的当前校验值,且取值范围为[0,1];ζ表示对目标数据进行校验的校验系数;σ表示所述目标数据的总量;
Figure BDA0002856117650000143
表示有效筛选所对应的目标数据的总量;η表示在当前筛选过程中,筛选所述目标待筛选数据段的准确率,且取值范围为(0,1);λ表示当前筛选后对应的所述目标数据的平均特征值;κ表示有效筛选后所对应的目标数据的平均特征值;
将计算得到的当前校验值与预设校验值进行比较;
若所述当前校验值大于或者等于所述预设校验值,判定当前筛选得到的所述目标数据合格,并对合格的所述目标数据进行鉴别;
否则,判定筛选得到的所述目标数据不合格,并判别所述目标数据中的不合格数据所属的目标单位,重新采集对应的目标单位的待采集数据。
该实施例中,分段处理是为了降低数据的长度,在对数据筛选时能够提高筛选的准确度。
该实施例中,筛选对应的一个所述目标待筛选数据段所用的时长的取值范围为[0.60s]。
该实施例中,精准度系数、校验系数是经过多次训练学习得到的。
上述技术方案的有益效果是:通过计算对数据筛选的准确率对数据进行筛选,并对筛选后得到的数据进行校验,确保筛选的数据合格。计算筛选的准确率时,涉及数据总量,筛选的时长以及筛选过程中的误判率,确保对数据筛选的准确度,计算校验值时,涉及校验系数、数据数据筛选前后的平均特征值,确保根据前后的特征值确定数据筛选的效果,提高了计算的准确度,通过对数据进行筛选,便于对数据进行集中管控,同时清除数据中的异常数据,提高了数据管理效果。
本发明提供一种基于大数据平台的数据安全集中管控方法,重新采集对应的目标单位的待采集数据的过程中,包括:
确定所述不合格数据基于所属的目标单位的单位安全等级以及所述不合格数据对所述所属的目标单位的影响值Z;
Figure BDA0002856117650000151
其中,Ψ表示所述不合格数据基于对应的所属的目标单位的数据权重值,且取值单位为[0.1,1];S表示所述不合格数据基于对应的所属的目标单位的数据安全等级;S′表示对应的所属的目标单位的单位安全等级;Δa表示所述不合格数据在对应的所属的目标单位下的所有业务数据中的数据容量;a表示对应的所属的目标单位下的所有业务数据的数据总量;
根据所述影响值Z大于预设值时,重新采集对应的目标单位的业务数据,并覆盖之前所采集的对应的目标单位的业务数据;
否则,确定所述不合格数据基于对应的目标单位的数据产生源,并基于所述数据产生源重现采集对应的源数据,并覆盖对应的所述不合格数据;
同时,将覆盖后的数据作为预处理结果,并进行鉴别;
其中,重新采集的业务数据或者源数据即为待采集数据。
该实施例中,目标单位的数据产生源,是指产生不合格数据的设备,如电脑,或者是基于电脑等处理产生不合格数据,其都可以称为数据产生源。
该实施例中,数据权重值是按照不合格数据在整个业务数据的重要性所确定的。
该实施例中,单位安全等级是预先设定好的。
上述技术方案的有益效果是:通过计算不合格数据对目标单位的影响值,便于对不合格数据进行有效处理,首先基于单位安全等级、数据容量、数据权重值等计算影响值,其次,对影响值进行判断,确定后续是否重新采集不合格数据对应的业务数据,可以有效的降低重复采集的情况,且提高数据管控的效率。
本发明提供一种基于大数据平台的数据安全集中管控系统,如图2所示,包括:
第一构建模块,用于基于大数据平台,获取不同目标单位的原始数据,并对所述原始数据进行融合存储以及分类存储,并基于融合存储结果构建第一鉴别模型以及分类存储结果构建第二鉴别模型集合;
第二构建模块,用于基于所述原始数据的合法来源信息、使用合规信息、安全传输信息、安全审计信息,构建第三鉴别模型;
鉴别模块,用于同步采集不同目标单位的业务数据,并对所述业务数据进行预处理,分别基于所述第一鉴别模型、第三鉴别模型,对预处理结果进行第一鉴别,从第二鉴别模型集合中调取相匹配的第二鉴别模型对对应的预处理结果进行第二鉴别;
管控模块,用于根据第一鉴别结果以及第二鉴别结果,从所述业务数据中筛选并标定异常数据和安全数据,同时,按照标准管控方式管控所述安全数据,按照集中管控方式管控所述异常数据。
上述技术方案的有益效果是:通过多种方式鉴别便于筛选异常数据和安全数据,并通过对应的方式,实现对其的有效管控,提高了对数据的安全保护。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于大数据平台的数据安全集中管控方法,其特征在于,包括:
基于大数据平台,获取不同目标单位的原始数据,并对所述原始数据进行融合存储以及分类存储,并基于融合存储结果构建第一鉴别模型以及基于分类存储结果构建第二鉴别模型集合;
基于所述原始数据的合法来源信息、使用合规信息、安全传输信息、安全审计信息,构建第三鉴别模型;
同步采集不同目标单位的业务数据,并对所述业务数据进行预处理,分别基于所述第一鉴别模型、第三鉴别模型,对预处理结果进行第一鉴别,从第二鉴别模型集合中调取与所述业务数据相匹配的第二鉴别模型对对应的预处理结果进行第二鉴别;
根据第一鉴别结果以及第二鉴别结果,从所述业务数据中筛选并标定异常数据和安全数据,同时,按照标准管控方式管控所述安全数据,按照集中管控方式管控所述异常数据;
其中,根据第一鉴别结果以及第二鉴别结果,从所述业务数据中筛选并标定异常数据和安全数据包括:
获取基于所述第一鉴别模型、第三鉴别模型,对预处理结果进行第一鉴别的第一鉴别结果,获取基于从第二鉴别模型集合中调取与所述业务数据相匹配的第二鉴别模型对对应的预处理结果进行第二鉴别的第二鉴别结果;
将所述第一鉴别结果以及第二鉴别结果输入到异常判别模型中,判别所述第一鉴别结果以及第二鉴别结果中是否存在异常结果,若存在,从所述业务数据中筛选与所述异常结果相关的异常数据;
同时,还判别所述第一鉴别结果以及第二鉴别结果中是否存在待判断结果,若存在,获取与所述待判断结果相关的待判断数据;
对所述待判断数据进行迭代处理,并提取迭代结果不为零的第一数据以及迭代结果为零的第二数据,
同时,确定所述第一数据与所述异常判别模型的正相关参数以及梯度负相关参数,根据所述正相关参数以及梯度负相关参数,对所述第一数据进行修正处理,获得第三数据;
其中,按照标准管控方式管控所述安全数据,按照集中管控方式管控所述异常数据包括:
对同批次的所述安全数据进行数据等级标定,并根据标定结果,将对应的安全数据传输到预先设置好的不同的第一管控节点进行存储;
同时,对同批次的所述异常数据进行数据分类,并将每类数据分别传输到同个第二管控节点中的管控块进行存储。
2.如权利要求1所述的一种基于大数据平台的数据安全集中管控方法,其特征在于,对所述原始数据进行融合存储,具体步骤包括:
确定待融合的原始数据,并构建特征关系标识模型;
将所述待融合的原始数据输入所述特征关系标识模型,对所述待融合的原始数据中每一数据进行特征关系标识;
所述特征关系标识用于标识数据中的特征关系,且每一特征关系中包含一个或多个数据特征值;
对所述数据特征值进行数据结构化处理,获取所述数据特征值对应的结构化数据组;
提取所述结构化数据组中的相关数据,并根据所述相关数据的属性值将所述相关数据划分为多个相关数据对;
对所述相关数据对中的两个相关数据进行相似度计算,得到所述相关数据的相似度值;
同时,在所述相似度值大于预设相似度阈值时对所述相关数据进行融合操作,得到目标融合数据;
基于预设数据存储库,获取所述目标融合数据的数据存储信息,并根据所述数据存储信息调取相应的数据存储模式;
同时,根据所述数据存储信息获取所述数据存储模式的管理、筛选、配置权限;
基于所述数据存储模式中的管理权限,将所述目标融合数据进行数据管理得到目标管理数据;
基于所述数据存储模式中的筛选权限,对所述目标管理数据进行筛选,并剔除所述目标管理数据中的异常数据,得到目标数据;
基于所述数据存储模式中的配置权限,对所述目标数据进行配置,并将配置好的所述目标数据转换为约定格式后进行存储。
3.如权利要求1所述的一种基于大数据平台的数据安全集中管控方法,其特征在于,对所述原始数据进行分类存储包括:
基于分类数据库获取分类规则,并建立所述分类规则与所述原始数据之间的关联关系,并对所述关联关系进行优先级排序,同时,按照排序结果,调取前A个预先训练好的分类模型对所述原始数据进行分类;
建立存储节点,并基于所述存储节点创建A+1个存储层,并根据所述A个分类模型的模型属性,从所述A+1个存储层中筛选出一个暂存层,同时,根据剩余的A个存储层的权重值以及所述排序结果,对所述A个分类模型进行对应匹配;
其中,每个分类模型对应的存储层,按照所述分类模型的分类结果进行随机区域划分,来存储原始数据;
且每个分类模型对应的存储层都存储一类所述原始数据。
4.如权利要求1所述的一种基于大数据平台的数据安全集中管控方法,其特征在于,
所述第三数据为异常数据,所述第二数据为安全数据。
5.如权利要求1所述的一种基于大数据平台的数据安全集中管控方法,其特征在于,对所述业务数据进行预处理的过程包括:对所述业务数据进行筛选,具体步骤包括:
获取业务数据,并对所述业务数据进行压缩处理,以获取所述业务数据对应的压缩数据;
将所述压缩数据进行分段处理,得到M个目标待筛选数据段;
对所述目标待筛选数据段进行当前筛选,得到目标数据,且根据如下公式计算当前筛选所述M个目标待筛选数据段的准确率:
Figure FDA0003670513600000041
其中,η表示在当前筛选过程中,筛选所述目标待筛选数据段的准确率,且取值范围为(0,1);δ表示在当前筛选过程中,筛选所述目标待筛选数据段的精准度系数;i表示当前筛选的所述目标待筛选数据段的段数,且取值范围为[1,M];M表述所述目标待筛选数据段的总段数;αi表示当前筛选对应的第i个目标待筛选数据段所需要的数据总量;τi表示当前筛选对应的第i个目标待筛选数据段中的数据总量;T表述当前筛选对应的一个所述目标待筛选数据段所用的时长;f表示在当前筛选过程中,筛选所述目标待筛选数据段的筛选频率;γ表示在当前筛选过程中,筛选所述目标待筛选数据段时的误判率;
基于计算的所述准确率,对当前筛选得到的目标数据进行校验,并根据如下公式计算得到对应的当前校验值,并根据所述当前校验值判断所述目标数据是否合格;
Figure FDA0003670513600000042
其中,ψ表示对所述目标数据进行校验的当前校验值,且取值范围为[0,1];ζ表示对目标数据进行校验的校验系数;σ表示所述目标数据的总量;
Figure FDA0003670513600000043
表示有效筛选所对应的目标数据的总量;η表示在当前筛选过程中,筛选所述目标待筛选数据段的准确率,且取值范围为(0,1);λ表示当前筛选后的所述目标数据的平均特征值;κ表示有效筛选后所对应的目标数据的平均特征值;
将计算得到的当前校验值与预设校验值进行比较;
若所述当前校验值大于或者等于所述预设校验值,判定当前筛选得到的所述目标数据合格,并对合格的所述目标数据进行鉴别;
否则,判定筛选得到的所述目标数据不合格,并判别所述目标数据中的不合格数据所属的目标单位,重新采集对应的目标单位的待采集数据。
6.如权利要求5所述的一种基于大数据平台的数据安全集中管控方法,其特征在于,重新采集对应的目标单位的待采集数据的过程中,包括:
确定所述不合格数据所属的目标单位的单位安全等级以及所述不合格数据对所述所属的目标单位的影响值Z;
Figure FDA0003670513600000051
其中,Ψ表示所述不合格数据所属的目标单位下的所有业务数据中数据权重值,且取值单位为[0.1,1];S表示所述不合格数据基于对应的所属的目标单位的数据安全等级;S′表示对应的所属的目标单位的标准安全等级;Δa表示所述不合格数据在对应的所属的目标单位下的所有业务数据中的数据容量;a表示对应的所属的目标单位下的所有业务数据的数据总量;
根据所述影响值Z大于预设值时,重新采集对应的目标单位的业务数据,并覆盖之前所采集的对应的目标单位的业务数据;
否则,确定所述不合格数据目标单位的数据产生源,并基于所述数据产生源重新采集对应的源数据,并覆盖对应的所述不合格数据;
同时,将覆盖后的数据作为预处理结果,并进行鉴别;
其中,重新采集的业务数据或者源数据即为待采集数据。
7.一种基于大数据平台的数据安全集中管控系统,其特征在于,包括:
第一构建模块,用于基于大数据平台,获取不同目标单位的原始数据,并对所述原始数据进行融合存储以及分类存储,并基于融合存储结果构建第一鉴别模型以及基于分类存储结果构建第二鉴别模型集合;
第二构建模块,用于基于所述原始数据的合法来源信息、使用合规信息、安全传输信息、安全审计信息,构建第三鉴别模型;
鉴别模块,用于同步采集不同目标单位的业务数据,并对所述业务数据进行预处理,分别基于所述第一鉴别模型、第三鉴别模型,对预处理结果进行第一鉴别,从第二鉴别模型集合中调取与所述业务数据相匹配的第二鉴别模型对对应的预处理结果进行第二鉴别;
管控模块,用于根据第一鉴别结果以及第二鉴别结果,从所述业务数据中筛选并标定异常数据和安全数据,同时,按照标准管控方式管控所述安全数据,按照集中管控方式管控所述异常数据;
其中,根据第一鉴别结果以及第二鉴别结果,从所述业务数据中筛选并标定异常数据和安全数据包括:
获取基于所述第一鉴别模型、第三鉴别模型,对预处理结果进行第一鉴别的第一鉴别结果,获取基于从第二鉴别模型集合中调取与所述业务数据相匹配的第二鉴别模型对对应的预处理结果进行第二鉴别的第二鉴别结果;
将所述第一鉴别结果以及第二鉴别结果输入到异常判别模型中,判别所述第一鉴别结果以及第二鉴别结果中是否存在异常结果,若存在,从所述业务数据中筛选与所述异常结果相关的异常数据;
同时,还判别所述第一鉴别结果以及第二鉴别结果中是否存在待判断结果,若存在,获取与所述待判断结果相关的待判断数据;
对所述待判断数据进行迭代处理,并提取迭代结果不为零的第一数据以及迭代结果为零的第二数据,
同时,确定所述第一数据与所述异常判别模型的正相关参数以及梯度负相关参数,根据所述正相关参数以及梯度负相关参数,对所述第一数据进行修正处理,获得第三数据;
其中,按照标准管控方式管控所述安全数据,按照集中管控方式管控所述异常数据包括:
对同批次的所述安全数据进行数据等级标定,并根据标定结果,将对应的安全数据传输到预先设置好的不同的第一管控节点进行存储;
同时,对同批次的所述异常数据进行数据分类,并将每类数据分别传输到同个第二管控节点中的管控块进行存储。
CN202011545841.2A 2020-12-23 2020-12-23 一种基于大数据平台的数据安全集中管控方法及系统 Active CN112711757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011545841.2A CN112711757B (zh) 2020-12-23 2020-12-23 一种基于大数据平台的数据安全集中管控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011545841.2A CN112711757B (zh) 2020-12-23 2020-12-23 一种基于大数据平台的数据安全集中管控方法及系统

Publications (2)

Publication Number Publication Date
CN112711757A CN112711757A (zh) 2021-04-27
CN112711757B true CN112711757B (zh) 2022-09-16

Family

ID=75544097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011545841.2A Active CN112711757B (zh) 2020-12-23 2020-12-23 一种基于大数据平台的数据安全集中管控方法及系统

Country Status (1)

Country Link
CN (1) CN112711757B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205148A (zh) * 2021-12-10 2022-03-18 深圳市亚讯威视数字技术有限公司 一种大数据应用安全管控系统
CN114722081B (zh) * 2022-06-09 2022-09-02 杭银消费金融股份有限公司 一种基于中转库模式的流式数据时间序列传输方法及系统
CN116070251B (zh) * 2023-04-03 2023-06-20 国网冀北电力有限公司 一种数据安全监控平台的数据处理系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682527A (zh) * 2016-12-25 2017-05-17 北京明朝万达科技股份有限公司 一种基于数据分类分级的数据安全管控方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2522926A (en) * 2014-02-11 2015-08-12 Ge Aviat Systems Ltd Method of identifying anomalies
CN106600103A (zh) * 2016-11-04 2017-04-26 国网江苏省电力公司 面向规划计划决策的统计数据模型构建方法
CN110659173B (zh) * 2018-06-28 2023-05-26 中兴通讯股份有限公司 一种运维系统及方法
US11181894B2 (en) * 2018-10-15 2021-11-23 Uptake Technologies, Inc. Computer system and method of defining a set of anomaly thresholds for an anomaly detection model
CN111078488B (zh) * 2018-10-18 2021-11-09 杭州海康威视数字技术股份有限公司 数据采集方法、装置、存储介质及系统
CN110659260A (zh) * 2019-09-11 2020-01-07 北京市天元网络技术股份有限公司 基于四聚理念的大数据生态系统构建方法以及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682527A (zh) * 2016-12-25 2017-05-17 北京明朝万达科技股份有限公司 一种基于数据分类分级的数据安全管控方法及系统

Also Published As

Publication number Publication date
CN112711757A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN112711757B (zh) 一种基于大数据平台的数据安全集中管控方法及系统
WO2019214309A1 (zh) 模型测试的方法及装置
CN113780443B (zh) 一种面向威胁检测的网络安全态势评估方法
CN110874744B (zh) 一种数据异常检测方法及装置
EP3690658B1 (en) Method for detecting repair-necessary motherboards and device using the method
CN111931047B (zh) 基于人工智能的黑产账号检测方法及相关装置
CN111767192B (zh) 基于人工智能的业务数据检测方法、装置、设备和介质
CN115277189B (zh) 基于生成式对抗网络的无监督式入侵流量检测识别方法
CN116414815A (zh) 数据质量检测方法、装置、计算机设备和存储介质
CN113722285B (zh) 一种基于多链的跨链分布式文件存证系统
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN113487241A (zh) 企业环保信用等级的分类方法、装置、设备及存储介质
CN111080005B (zh) 一种基于支持向量机的治安风险预警方法及系统
CN116502171A (zh) 一种基于大数据分析算法的网络安全信息动态检测系统
CN116757702A (zh) 交易数据的确定方法和装置、处理器及电子设备
CN116522171A (zh) 一种基于大数据的电力现场故障分析方法及系统
CN116361759A (zh) 一种基于量化权限指引的智能合规控制方法
CN111654853B (zh) 一种基于用户信息的数据分析方法
US11539730B2 (en) Method, device, and computer program product for abnormality detection
CN114665986B (zh) 一种蓝牙钥匙的测试系统及方法
CN113590903B (zh) 一种情报数据的管理方法及装置
CN116881687B (zh) 一种基于特征提取的电网敏感数据识别方法及装置
CN113011893B (zh) 数据处理方法、装置、计算机设备及存储介质
CN115659401A (zh) 基于大数据的数据安全管控方法、装置、设备及存储介质
CN116976318A (zh) 基于深度学习和模型推理的电网倒闸操作票智能审核系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant