CN116361784A - 数据的检测方法、装置、存储介质及计算机设备 - Google Patents
数据的检测方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN116361784A CN116361784A CN202310349752.8A CN202310349752A CN116361784A CN 116361784 A CN116361784 A CN 116361784A CN 202310349752 A CN202310349752 A CN 202310349752A CN 116361784 A CN116361784 A CN 116361784A
- Authority
- CN
- China
- Prior art keywords
- data
- sensitive
- detection
- sensitive data
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 288
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000035945 sensitivity Effects 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims description 29
- 238000013507 mapping Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 description 29
- 238000004458 analytical method Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000012535 impurity Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 235000013616 tea Nutrition 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241000501754 Astronotus ocellatus Species 0.000 description 1
- 241000606266 Nardostachys Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000001215 fluorescent labelling Methods 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 231100000862 numbness Toxicity 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 235000019633 pungent taste Nutrition 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种数据的检测方法、装置、存储介质及计算机设备,涉及数据安全技术领域,主要在于能够提高数据的检测准确度。其中方法包括:获取待检测数据;对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果。本发明适用于对数据进行安全检测。
Description
技术领域
本发明涉及数据安全技术领域,尤其是涉及一种数据的检测方法、装置、存储介质及计算机设备。
背景技术
随着大数据时代到来,数据量指数级增长,数据成为企业经济基础中生产力必不可少的一部分,不仅具备生产价值,还具备极高的经济价值,因此,受经济利益诱惑驱使下,会存在一些内外部不法分子,利用手中职权或各种隐蔽手段,企图大量获取数据,来满足自己的不当利益,基于此,对企业数据的安全监测变得尤为重要。
目前,通常利用同一种方式对数据进行安全检测。然而,由于数据的种类和重要程度不同,同一种检测方式不适用于所有数据,从而导致数据的检测准确度较低。
发明内容
本发明提供了一种数据的检测方法、装置、存储介质及计算机设备,主要在于能够提高数据的安全检测准确度。
根据本发明的第一个方面,提供一种数据的检测方法,包括:
获取待检测数据;
对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;
确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;
确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;
利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果。
可选地,所述对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据,包括:
利用预设正则表达式识别所述待检测数据中的隐私数据,并将所述隐私数据确定为所述待检测数据中的敏感数据;和/或,
利用预设敏感词库中记录的各个敏感词与待检测数据中的各个分词进行关键字匹配,并将与各个敏感词中任意一个敏感词相匹配的目标分词确定为敏感数据;和/或,
将所述待检测数据输入至预设敏感数据识别模型中进行敏感性识别,得到所述待检测数据中的敏感数据。
可选地,所述将所述待检测数据输入至预设敏感数据识别模型中进行敏感性识别,得到所述待检测数据中的敏感数据,包括:
按照预设字符数量阈值将所述待检测数据划分为多个数据段;
将各所述数据段输入至预设敏感数据识别模型中进行敏感性识别,得到各所述数据段对应的敏感参数;
在各个敏感参数中确定大于预设参数阈值的目标敏感参数,并将所述目标敏感参数对应的目标数据段确定为所述待检测数据中的敏感数据。
可选地,确定所述敏感数据在所述数据类型下的数据级别,包括:
确定不同数据类型对应的各组数据级别;
将所述各组数据级别存储至所述不同类型数据对应的数据级别库;
构建所述不同数据类型对应的分级模板,并建立不同分级模板与不同数据级别库之间的映射关系;
在不同分级模板中确定所述敏感数据所属的数据类型对应的目标分级模板,并在所述目标分级模板中获取所述敏感数据对应的数据级别。
可选地,其中,目标数据检测规则中包含多种检测因子,所述多种检测因子包括:账号过量访问因子、账号过频访问因子、异常时间访问因子、异地访问因子、爬虫爬取访问因子、跨站脚本攻击因子,所述利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果,包括:
利用目标数据检测规则中的各所述检测因子对所述敏感数据进行检测,得到各所述检测因子对应的检测结果;
基于各所述检测结果,确定敏感数据未通过检测的检测因子命中数量;
判断所述检测因子命中数量是否大于预设阈值;
若所述检测因子命中数量大于所述预设阈值,则确定所述敏感数据处于非安全状态;
若所述检测因子命中数量小于或等于所述预设阈值,则确定所述敏感数据处于安全状态。
可选地,在所述确定所述敏感数据处于非安全状态之后,所述方法还包括:
生成所述敏感数据对应的告警信息;
调用预设通讯工具接口,并通过所述预设通讯工具接口将所述告警信息发送至显示终端。
可选地,所述方法还包括:
确定所述敏感数据的流转链路路径;
利用预设荧光标记算法对所述流转链路路径进行标记,得到所述敏感数据对应的标记后的流转链路路径,并将所述标记后的流转链路路径发送至显示终端。
可选地,所述确定所述敏感数据的流转链路路径,包括:
设置敏感数据的预设异常访问节点,并确定所述敏感数据在当次流转生命周期内的路径ID;
获取所述敏感数据的实际流经节点和流经时间;
若所述实际流经节点属于所述预设异常访问节点,则根据所述实际流经节点、流经时间和所述路径ID,生成所述敏感数据的流转链路路径。
根据本发明的第二个方面,提供一种数据的检测装置,包括:
获取单元,用于获取待检测数据;
识别单元,用于对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;
级别确定单元,用于确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;
规则确定单元,用于确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;
检测单元,用于利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上数据检测方法。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上数据检测方法。
根据本发明提供的一种数据的检测方法、装置、存储介质及计算机设备,与目前利用统一方式对数据进行安全监测的方式相比,本发明通过获取待检测数据;并对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;与此同时,确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;之后确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;最终利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果,由此通过对待检测数据中的敏感数据进行分类分级,并利用该分类分级下的数据检测规则对待检测数据中的敏感数据进行检测,能够避免统一检测方式不适用于所有类型数据的问题,从而本发明能够提高数据的检测准确度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种数据的检测方法流程图;
图2示出了本发明实施例提供的另一种数据的检测方法流程图;
图3示出了本发明实施例提供的一种数据的检测装置的结构示意图;
图4示出了本发明实施例提供的另一种数据的检测装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,利用同一种方式对数据进行安全检测的方式,导致数据的检测准确度较低。
为了解决上述问题,本发明实施例提供了一种数据的检测方法,如图1所示,所述方法包括:
101、获取待检测数据。
其中,待检测数据具体可以为工业领域的数据,是指与工业生产经营密切相关的数据,包括原始数据和汇聚、整合、分析等处理中以及处理后的衍生数据,涉及公共通信和信息服务、能源、交通、水利、金融、公共服务、电子政务、国防科技工业等重要行业和领域的数据。
对于本发明实施例,待检测数据存在跨网域、跨平台、跨区域、跨境等流转需求,同时待检测数据还存在访问、存储、共享、披露等需求,在实现上述需求的过程中,容易存在数据泄露或者被黑客攻击的风险,为了保证数据的安全,需要对待检测数据在流转过程中进行安全监测,基于此,本发明实施例研发了数据安全监测平台,基于旁路全链路流量模式下,自动识别出应用、数据库等业务资产产生的跨境数据,并对资产主体产生的数据进行业务审计、风险监测、溯源分析等,从而建立一站式数据安全监测体系,帮助用户完成“事前事中事后”三个阶段的日常数据安全运营工作,达到数据安全治理目的。数据安全监测平台作为全链路全流量的审计类型系统,对网络传输数据的抓取、解析、识别,将数据进行提取,同时根据数据识别规则或风险场景识别策略,对传输过程中包含的个人信息或重要数据进行分类分级处理,并确定不同分类分级下的数据安全检测方式,利用不同数据安全检测方式对相应的数据进行安全检测,实现对数据进行预防性监测和定位。进而在发生泄漏等安全事故时,进行数据线索溯源。数据安全监测平台相对于整体数据安全防护体系而言,在客户已有相关安全风险审计类系统、UEBA(user and entity behavior analytics,用户和实体行为分析技术)、态势感知、日志分析系统、动静态脱敏系统等其他上层数据安全保护或监测能力情况下,可作为数据安全防护体系的基础设施,为上层单点安全能力,提供全链路的数据流量,包括数据库协议、应用协议(web应用、邮件文件等协议类型),在提供原始流量的基础上,会对流量数据进行规整和结构化的预处理,进而将预处理的数据上报给上层单点能力平台或系统,进行进一步的数据深度挖掘和分类分级等精加工处理,从而形成从底层完整流量采集、预处理,到上层安全能力监测、防护等整套数据安全防护体系。
进一步地,在获取待检测数据或者待检测数据在采集传输的过程中,数据安全监测平台支持应用协议类型和数据库协议类型,并支持请求和响应体的双向解析能力,其中,应用协议类型支持:HTTP(Hyper Text Transfer Protocol,超文本传输协议)、FTP(客户端-服务器传输协议)、SMTP(Simple Mail Transfer Protocol,邮件传输协议)、IMAP4(Internet Message Access Protocol 4,存取邮件信息的一种协议)、POP3(Post OfficeProtocol-Version3,邮局协议版本3)、Telnet(应用层协议)等;数据协议类型支持:Oracle(一种关系数据库管理系统)、SqlServer(由Microsoft开发和推广的关系数据库管理系统)、Sysbase(一种关系型数据库系统)、DB2(一套关系型数据库管理系统)、Teradata、MySql、PostgreSQL、达梦(DM)、人大金仓(Kingbase)、神州通用(Oscar)、IFX、CacheDB、南大通用(Gbase)、Hbase、MogoDB、Redis、Es、Hana等。
进一步地,在获取待检测数据时,数据安全监测平台在网络拓扑上支持数据定向、定时采集,在应用层协议数据采集过程中,支持按照应用类协议类型和数据库协议类型进行数据分层处理,在采集完待检测数据后,在具体数据识别解析过程中,为了减少工作量,避免对无用数据的过度处理和监测,可以预先对待检测数据进行无效数据、资产非涉敏数据、资产涉敏数据等进行进一步分层处理,自动过滤无价值数据,保留业务所需的资产敏感数据,在资产敏感数据中,根据企业业务和安全治理需要,进一步对涉敏数据进行分类分级处理,并按照分类分级下的数据检测方式对相应涉敏数据进行安全监测,从而能够使不同类型和不同级别下的数据都有其对应的安全监测方式,从而本案发明实施例能够满足所有类型和级别数据的安全监测,进而提高了数据的安全检测准确度,同时,也能够避免高级别的监测方式对低级别的数据进行安全监测时,导致资源浪费的情况,从而本发明实施例能够节约数据安全监测资源,节约数据安全监测成本。
102、对待检测数据进行敏感性识别,得到待检测数据中的敏感数据。
对于本发明实施例,企业数据中并非所有数据均需要进行安全检测,因此为了避免对无用数据进行安全检测导致的资源浪费的情况,本发明实施例在获取待检测数据后,还需要在待检测数据中识别出重要数据,目前,在企业数据中会存在大量敏感数据,该类敏感数据可能涉及到用户或者公司的隐私,属于企业重要数据,若该类数据被泄露或攻击,将会给企业带来重大损失,因此需要着重对该类数据进行安全监测,基于此,需要对待检测数据进行敏感性识别,以此来识别出待检测数据中的敏感数据,之后对敏感数据进行安全性监测,以保证敏感数据不被泄露或者攻击,由此通过对企业数据中的重要数据(敏感数据)进行识别,进而对敏感数据进行安全监测,能够避免对企业中无用数据进行监测导致资源浪费的情况,同时,只针对敏感数据进行监测,能够避免对企业所有数据进行监测导致监测任务量大、浪费监测时间的问题,从而本发明实施例能够提高数据的安全监测效率。
进一步地,本发明实施例还支持基于业务系统和业务账号的业务应用资产关联,从业务系统和业务用户视角,自动过滤掉待检测数据中的外网等杂质数据,发现并梳理出对应的包含敏感数据的应用服务、邮件服务、文件服务、数据库服务等,以敏感数据资产列表清单的形式,梳理出各个主从敏感数据资产,通过对业务系统和业务账号的关联,形成业务视角下的流动敏感数据资产地图,敏感数据资产识别和梳理的内容包括:应用服务:应用域名/服务器IP、应用接口/URL(Uniform Resource Locator,统一资源定位符)、应用账号自动提取、应用模块配置识别等;数据库服务:库、表、字段(含涉敏样例数据);文件服务:文件服务器、账号识别、文件(包括Excel、word、ppt、csv、text、html、rar、7z等);邮件服务:邮件服务器、发送者账号、接收者账号、邮件主题等。支持的能力包括:杂质数据资产或流量自动过滤:自动对杂质数据或外部应用数据进行智能过滤;增量敏感数据资产自动发现:可以对新发现的增量敏感数据资产进行自动识别,并请求用户进行敏感数据资产确认;资产确认/忽略:支持用户手动确认或忽略,将用户想要关注的敏感数据资产加入到资产清单,或忽略掉后续不需要关注的敏感数据资产。从而通过上述过程可以实现敏感数据的自动识别,从而能够提高敏感数据的识别效率和识别准确度。
103、确定敏感数据所属的数据类型,并确定敏感数据在数据类型下的数据级别。
其中,敏感数据类型包括:中国移动数据、工业企业数据、证券行业数据、电力行业数据、工信部数据,敏感数据的级别包括:高敏、中敏、低敏等。
对于本发明实施例,在基于敏感数据的全量涉敏识别的基础上,可对敏感数据进行业务资产视角下的数据分类分级,形成敏感数据分类分级清单,具体可以在数据安全监测平台中内置中国移动、工业企业、证券行业、电力行业、工信部等分类分级模板,支持自定义上传分类模板,通过分类模板来对敏感数据进行分类,与此同时,支持在分类下增加敏感数据级别,让用户能快速对敏感数据进行定级,在对敏感数据进行分级时,可以按照高敏、中敏或者低敏的形式进行分级,也可以按照重要数据、核心数据、以及自定义数据标签对数据进行业务上的分级甄别,在对敏感数据进行分类后,具体可以利用分级模板来对敏感数据进行分级,启用的数据分级模板与启用的数据分类模板进行关联,通过与敏感数据对应的分类模板关联的分级模板来对敏感数据进行分级,与此同时,还可以对敏感数据进行自定义级别,用户可以新增定级名称、定级描述和定级颜色标识等来区分不同级别的敏感数据。由此利用分类分级模板来对敏感数据进行分类分级,能够避免人工对敏感数据进行分类分级导致分类分级错误的情况,从而本发明实施例能够提高敏感数据的分类分级准确度。
104、确定数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子。
其中,数据检测因子包括:账号过量访问因子、应用账号过频访问因子、异常时间涉敏访问因子、账号共用因子、同一人多账号使用因子、弱密码登录因子、cookie明码因子、异地跨省登录因子、接口过频过量访问因子、暴力破解因子、SQL注入因子、XSS攻击因子、CSRF攻击因子、Webshell攻击因子、爬虫爬取因子、恶意扫描探测因子等十几个业务常用及机器恶意攻击的风险因子,不同数据检测规则中包含不同种类的检测因子,且不同数据检测规则中的检测因子的数量也可能不相同,与此同时,不同数据检测规则中还规定了命中某种或者某几种检测因子才认定为敏感数据处于非安全状态。
对于本发明实施例,在确定敏感数据所属的类别和级别后,为了提高敏感数据的安全检测准确度,还需要确定适用于该敏感数据安全检测的检测规则,具体可以在预设检测规则配置表中确定该级别敏感数据对应的数据检测规则,其中,预设检测规则配置表中记录着各种级别的敏感数据对应的检测规则,在确定该敏感数据对应的目标数据检测规则后,便可以利用该目标数据检测规则对敏感数据进行安全检测,由此通过为不同级别敏感数据设置不同的检测规则,能够保证选择的检测规则能够适用于其对应的敏感数据,从而能够提高数据的安全检测准确度。
105、利用目标数据检测规则中的各个检测因子对敏感数据进行检测,得到敏感数据对应的检测结果。
具体地,在确定目标数据检测规则后,还需要确定目标数据检测规则中包含哪几种检测因子,之后利用目标数据检测规则中的各种检测因子对敏感数据进行安全检测,例如,若目标数据检测规则中包含的检测因子为:异常时间涉敏访问因子、账号共用因子和接口过频过量访问因子,同时,该目标数据检测规则中还规定了,命中其中两种检测因子才认定为敏感数据处于非安全状态,基于此,在利用目标数据检测规则对敏感数据进行检测时,首先需要分别判断敏感数据是否存在被异常时间访问的情况,此外,还需要判断敏感数据是否被同一账号多人登录访问的情况,此外,还需要判断敏感数据是否被某一接口多次访问的情况,若敏感数据存在被异常时间访问的情况和存在被一接口多次访问的情况,则确定敏感数据处于风险状态,若敏感数据不存在被异常时间访问的情况,也不存在被同一账号多人登录访问的情况,也不存在被某一接口多次访问的情况,则确定敏感数据处于安全状态,与此同时,若敏感数据在异常时间访问因子、同一账号多人登录访问因子和某一接口多次访问因子中仅命中了其中一个检测因子,则确定敏感数据处于安全状态。由此通过为不同级别的敏感数据设置不同的检测规则,在不同检测规则中设置不同种类和数量的检测因子,能够使敏感数据能够被其适用的检测规则进行检测,从而能够提高敏感数据的安全检测准确度。
进一步地,在为不同数据检测规则内置检测因子时,还可以预先设置风险场景,风险场景本质上是由多个风险因子,按照一定的业务场景逻辑,构成的复合风险策略。命中风险场景的均被认为数据处于非安全状态。且风险场景产生的涉敏访问行为风险性,要远远高于单条风险因子产生的异常性。因此风险场景避免传统无差别命中预警、导致用户使用麻木、运维成本高的问题,也极大聚焦了用户对风险性访问的关注度,提高风险访问行为的精准率,帮助用户真正带着有巨大潜在风险的业务访问行为,去纠察业务部门的非法访问行为。数据安全监测平台中内置了二十多种风险场景,包括:应用账号非法时间过频过量访问;接口非法时间过频访问(可结合对外接口/文件下载接口等接口进行深度配置和挖据);接口非法时间过量访问(可结合对外接口/文件下载接口等接口进行深度配置和挖据);应用账号异地跨省过频过量访问;应用账号安全脆弱性访问;疑似内鬼高风险批量访问涉敏数据;恶意扫描并爬取涉敏数据;非法时间及地点对涉敏应用接口、数据库等资产进行SQL(Structured Query Language,一种具有数据操纵和数据定义等多种功能的数据库语言)注入/XSS(Cross-Site Scripting,一种执行攻击者恶意制造的网页程序)攻击/CSRF(Cross-site request forgery,跨站请求伪造)攻击/Webshell(一种黑客经常使用的一种恶意脚本)攻击等。通过为不同数据检测规则设置不同风险场景,若敏感数据命中任意一种风险场景,则直接确定敏感数据处于非安全状态。
进一步地,在对敏感数据进行安全检测的过程中,还可以利用荧光标记测绘技术对敏感数据的流转路径进行高亮显示,具体对敏感数据进行荧光标记测绘的方式为基于敏感数据的荧光测绘技术(FMMA,Fluorescent marker mapping algorithm),由荧光标记算法和机器学习关联算法构成,通过荧光标记,将应用协议数据和数据库协议数据中包含该荧光标记的数据全部提取出来,再利用机器学习关联算法,将标记出来的数据范围进行收缩、关联,从而输出荧光测绘结果,形成全链路流转视图,继而清晰描绘出,不同敏感类型数据流经的应用、接口、数据库、表等链路节点及完整的流转路径,还原敏感/重要数据的流转轨迹,帮助掌握安全部门对业务数据流转动态,洞悉流转中的异常和风险,同时帮助安全人员,第一时间了解到涉敏数据的动态变化情况,做到在数据安全运营和治理中能够实时掌握敏感数据的动态。
根据本发明提供的一种数据的检测方法,与目前利用统一方式对数据进行安全监测的方式相比,本发明通过获取待检测数据;并对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;与此同时,确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;之后确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;最终利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果,由此通过对待检测数据中的敏感数据进行分类分级,并利用该分类分级下的数据检测规则对待检测数据中的敏感数据进行检测,能够避免统一检测方式不适用于所有类型数据的问题,从而本发明能够提高数据的检测准确度。
进一步的,为了更好的说明上述对数据进行检测的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种数据的检测方法,如图2所示,所述方法包括:
201、获取待检测数据。
具体地,可以在数据库中获取待检测数据,之后在待检测数据中识别出敏感数据,并对敏感数据进行安全检测。
202、利用预设正则表达式识别待检测数据中的隐私数据,并将隐私数据确定为待检测数据中的敏感数据。
其中,隐私数据包括:身份证号、护照号、银行卡号、地址、手机号、座机号、军官证号、邮箱、籍贯、驾照、民族、宗教信仰、企事业单位统一社会信用代码等。
对于本发明实施例,可以预先构建上述隐私数据的识别提取模板,并利用识别提取模板来识别待检测数据中的隐私数据,与此同时,也可以按照身份证号、护照号、银行卡号、地址、手机号等格式构建预设正则表达式,并利用构建好的预设正则表达式来识别待检测数据中的隐私数据,与此同时,也可以通过模糊识别、字段匹配、字段名/表名匹配等单个或复合规则模式来识别待检测数据中的敏感数据,识别提取的主体包括了数据,文件如Excel、word、ppt、csv、text、html等,其中word文档可以识别出文档中的标题、正文、页眉、页脚、文件时间、标注等内容,还包括压缩文件如rar、7z等在内的主流压缩文件,以及常见的jpg、png、jpeg等在内常见的图片信息,如图片类型、图片时间等敏感数据的识别。
203、利用预设敏感词库中记录的各个敏感词与待检测数据中的各个分词进行关键字匹配,并将与各个敏感词中任意一个敏感词相匹配的目标分词确定为敏感数据。
其中,预设敏感词库中包含各种敏感词。具体地,在对待检测数据进行敏感数据的识别的过程中,为了提高敏感数据的识别准确度,还可以同时利用关键字匹配的方式来识别出待检测数据中的敏感数据,基于此,所述方法为,首先对待检测数据进行分词处理,得到待检测数据中包含的各个分词,之后将各个分词与预设敏感词库中存储的各个敏感词进行匹配,得到匹配结果,并根据匹配结果,在各个分词中确定与预设敏感词库中各个敏感词相匹配的目标分词,并将所述目标分词确定为待检测数据中的敏感数据。
204、将待检测数据输入至预设敏感数据识别模型中进行敏感性识别,得到待检测数据中的敏感数据。
其中,预设敏感数据识别模型具体可以为神经网络模型。对于本发发明实施例,在进行敏感数据识别的过程中,为了提高敏感数据识别的准确度,还可以同时利用预设敏感数据识别模型来进行敏感数据的识别,基于此,步骤204具体包括:按照预设字符数量阈值将所述待检测数据划分为多个数据段;将各所述数据段输入至预设敏感数据识别模型中进行敏感性识别,得到各所述数据段对应的敏感参数;在各个敏感参数中确定大于预设参数阈值的目标敏感参数,并将所述目标敏感参数对应的目标数据段确定为所述待检测数据中的敏感数据。
其中,预设字符数量阈值可以根据实际情况进行设定,本发明实施例对预设字符数量阈值的数值大小不做具体限定,如可以根据预设敏感数据识别模型的识别速度和识别数据量来确定预设字符数量阈值。敏感参数具体可以为敏感性概率值。预设参数阈值是根据实际情况设定的数值。
具体地,为了提升预设敏感数据识别模型的识别效率,避免预设敏感数据识别模型由于数据量过大而出现宕机的行为,首先需要按照预设字符数量阈值将待检测数据划分为多个数据段,之后将各个数据段依次输入至预设敏感数据识别模型中进行敏感性识别,得到各个数据段对应的敏感性概率值,之后将敏感性概率值大于预设参数阈值的数据段确定为敏感数据段。
进一步地,除了提供基础的敏感数据识别外,数据安全监测平台还支持根据业务场景,来对应配置生成敏感场景。如保险行业经常要进行保单提交审核,保单中包含的身份证、姓名、手机号、保单号等,在该场景下具备明显更高的监测保护价值,区别与其他看似敏感但无保护价值的敏感数据,对此可通过配置敏感场景,来针对敏感业务场景,进行精准的敏感数据识别。
205、确定敏感数据所属的数据类型,并确定敏感数据在数据类型下的数据级别。
对于本发明实施例,在确定待检测数据中的敏感数据后,为了为该敏感数据确定合适的数据检测规则,首先需要确定该敏感数据所属的数据类型,之后还需要确定敏感数据在该数据类型下的数据级别,基于此,步骤205具体包括:确定不同数据类型对应的各组数据级别;将所述各组数据级别存储至所述不同类型数据对应的数据级别库;构建所述不同数据类型对应的分级模板,并建立不同分级模板与不同数据级别库之间的映射关系;在不同分级模板中确定所述敏感数据所属的数据类型对应的目标分级模板,并在所述目标分级模板中获取所述敏感数据对应的数据级别。
具体地,本发明实施例可以基于级别划分模板来对敏感数据进行级别划分,不同类型数据对应不同的分级模板,为了利用分级模型来对敏感数据进行级别划分,首先需要建立不同分级模板与不同数据级别之间的链接关系,基于此,所述方法为,不同类型数据中的数据级别的划分方式不同,因此,首先确定不同数据类型对应的各组数据级别,之后将各组数据级别存储至不同类型数据对应的级别数据库中,之后构建不同类型数据对应的不同分级模板,并建立不同级别数据库与不同分级模板之间的映射关系,最终根据敏感数据所属的数据类型,在不同分级模板中确定敏感数据对应的目标分级模板,并在目标分级模板对应的目标数据级别库中确定敏感数据所属的数据级别。
206、确定数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子。
具体地,在确定敏感数据对应的分类分级后,可以在预设检测规则配置表中确定敏感数据在该分类分级下的目标数据检测规则,最终利用该目标数据检测规则中的各个检测因子依次对敏感数据进行安全检测。与此同时,数据安全监测平台可以支持对重点应用及接口进行独立安全检测,即按用户对业务需求的偏好和权重,对所要重点关心的应用服务和应用接口,设置对应的检测规则。在重点应用和接口安全检测对敏感数据级别的匹配标识下,用户可直接对重点关注的应用和接口,以可视化图表的形式,进行日常数据安全检测。即在数据盘点上,时刻关注重点应用和接口的数据增量变化情况;在敏感数据检测上,时刻关注重点应用和接口下敏感数据的动态变化情况和趋势;在异常风险监测上,时刻关注重点应用和接口下敏感数据是否存在访问异常,乃至风险场景访问的情况,帮助用户直接及时采取后置措施,进行处理。数据安全监测平台除了支持站在业务资产视角进行重点检测、设置检测规则外,还支持直接从异常风险涉敏访问的视角,形成对异常风险数据的重点关注。可按用户经常发生或需要关注的风险因子和风险场景,来聚合形成对应的重点安全检测能力。
207、利用目标数据检测规则中的各个检测因子对敏感数据进行检测,得到敏感数据对应的检测结果。
对于本发明实施例,在确定与敏感数据相对应的目标数据检测规则后,需要利用目标数据检测规则中的各个检测因子对敏感数据进行检测,基于此,步骤207具体包括:利用目标数据检测规则中的各所述检测因子对所述敏感数据进行检测,得到各所述检测因子对应的检测结果;基于各所述检测结果,确定敏感数据未通过检测的检测因子命中数量;判断所述检测因子命中数量是否大于预设阈值;若所述检测因子命中数量大于所述预设阈值,则确定所述敏感数据处于非安全状态;若所述检测因子命中数量小于或等于所述预设阈值,则确定所述敏感数据处于安全状态。
其中,预设阈值是根据实际情况设定的数值,本发明实施例对预设阈值的大小不做具体限定。检测因子命中数据量是指在各个检测因子中确定敏感数据未通过检测因子检测的目标检测因子,该目标检测因子的数量即为检测因子命中数量。
具体地,利用目标数据检测规则中的各个检测因子对敏感数据进行检测,得到各个检测因子对应的检测结果,其中,检测结果为通过检测因子的检测和未通过检测因子的检测,根据各个检测结果,在各个检测因子中确定敏感数据未通过检测检测的目标检测因子,并确定目标检测因子的数量,若目标检测因子的数量大于预设阈值,在确定敏感数据处于风险态势,若目标检测因子的数量小于或等于预设阈值,则确定敏感数据处于安全状态,当敏感数据处于风险态势时,需要发出告警信息,以便工作人员对数据进行安全防护,基于此,具体进行告警的方法包括:若敏感数据处于非安全状态,则生成所述敏感数据对应的告警信息;调用预设通讯工具接口,并通过所述预设通讯工具接口将所述告警信息发送至显示终端。
其中,预设通讯工具接口包括:邮件、微信等通讯工具接口。
具体地,若敏感数据未通过检测的检测因子命中数量大于预设阈值,则确定敏感处于处于风险态势,此时需要生成敏感数据对应的告警信息(预警信息),并通过邮件,站内消息等方式将告警信息发送给显示终端进行显示,以便工作人员基于显示终端显示的告警信息对敏感数据进行安全防护。进一步地,按照敏感数据的风险程度,可以将预警分为多个等级,如高、中、低三种预警等级,具体可以根据敏感数据命中风险因子的数量看来确定预警等级,不同预警等级可以通过颜色标识等进行区分,方便工作人员根据标识区分的预警等级来着重处理预警等级较高的敏感数据。在本发明的又一实施例中,还可以提供敏感数据按名称对预警进行合并,方便用户对同类有风险的敏感数据进行回顾分析,帮助用户迅速集中到关注类型的敏感数据上,并通过时间轴线对有风险的敏感数据进行排查和分析。
进一步地,在对敏感数据进行安全检测的过程中,经常碰到需要放行的访问和数据,因此需要对应的白名单进行对应处理,其中白名单中存储着需要放行的数据和访问。提供基于访问账号/IP、应用/接口两大维度的白名单,但凡属于白名单的账号/IP、应用/接口和数据,均不会命中风险检测因子,自然不会生成预警,但对应的数据访问日志,依然会进行存储,避免因白名单而产生的漏检,也可在事后溯源中和其他数据日志一样,重新回溯查证。
进一步地,为了实时关注敏感数据的流向,帮助后续的回溯分析,本发明实施例在对敏感数据进行安全检测的过程中,还需要采集敏感数据的流转链路路径,基于此,所述方法包括:确定所述敏感数据的流转链路路径;利用预设荧光标记算法对所述流转链路路径进行标记,得到所述敏感数据对应的标记后的流转链路路径,并将所述标记后的流转链路路径发送至显示终端。
其中,流转链路路径是指敏感数据在系统中的整个流向和传输路线等。
对于本发明实施例,为了对敏感数据的流向进行标记,首先需要确定敏感数据的流转链路路径,基于此,所述方法包括:设置敏感数据的预设异常访问节点,并确定所述敏感数据在当次流转生命周期内的路径ID;获取所述敏感数据的实际流经节点和流经时间;若所述实际流经节点属于所述预设异常访问节点,则根据所述实际流经节点、流经时间和所述路径ID,生成所述敏感数据的流转链路路径。
其中,预设异常访问节点为预先在异常接口、端口等节点处设置的埋点,路径ID是指敏感数据在本次流转过程中的标识信息,实际流经节点是指敏感数据实际流经的端口、接口等埋点位置。
具体地,为了重点生成被异常访问的敏感数据的流转链路路径,首先需要设置敏感数据行为规则的预设异常访问节点,敏感数据生成时,则生成当次生命周期内的路径ID,之后获取敏感数据的实际流行节点,即实际埋点位置、流经时间,如果实际流经节点位置属于预设异常访问节点,则根据实际流经节点、流经时间和路径ID,生成敏感数据对应的流转链路路径,之后采用荧光标记测绘技术对流转链路路径进行高亮显示,通过荧光标记测绘技术,可精确标识敏感数据的流向、流转路径,帮助工作人员对敏感数据进行追踪溯源,有助于对敏感数据的精准安全防护。同时提供了强大的全量检索能力,帮助用户一键检索到所关注的数据。
进一步地,数据安全监测平台支持传统的涉敏数据检测清单,对涉敏数据访问事件进行实时检测并以日志格式入库存储。流转检测审计的功能特点有:支持从客户端-应用-数据库的全链路流转检测;可针对查询的涉敏数据,实时绘制出该涉敏数据的流向,并以可视化视图展示;可针对查询的涉敏数据,实时绘制出该涉敏数据的所有流转途径、节点,并以可视化视图展示,支持按协议类型区分,丰富的多条件组合查询。数据安全监测平台支持直接查看敏感数据的访问详情,包括:异常风险:可具体查看单条敏感数据命中的风险因子和风险场景,并且可查看具体命中成因;请求、响应:可显示单次数据请求和响应中的具体内容,并且对敏感数据进行高亮显示。
进一步地,在对敏感数据的流转链路路径进行荧光标记后,数据安全检测平台还可以根据敏感数据的流向,还为敏感数据绘制数据画像,可以根据敏感数据的流经接口、访问账号、数据库账号生成画像信息,描述流经接口、访问账号和数据库账号的基础信息、基线异常信息、时间和资产访问集中度信息、访问的时间轨迹信息和流转轨迹信息,其中数据画像可以包括:应用画像:可以对应用的基本情况、涉敏访问情况、异常风险情况等进行全面描绘;应用接口画像:可以对应用接口的基本情况、涉敏访问情况、异常风险情况等进行全面描绘;应用账号画像:可以对应用账号的基本情况、涉敏访问情况、异常风险情况等进行全面描绘;数据库账号画像:可以对数据库账号的基本情况、涉敏访问情况、异常风险情况等进行全面描绘。通过数据画像可以分析出敏感数据的对应的基本访问等信息,如数据画像可供分析的能力和信息包括:应用/账号/接口基本信息:包括基础的名称、所属的业务系统、业务应用、对应的业务用户等;标签信息:包括异常风险标签、敏感标签、接口标签等信息;访问频次/数据量基线:可实时查看该应用/账号/接口的访问频次、访问数据量的基线水平及是否超过基线水准;访问时间/应用及接口/访问账号/敏感数据热度画像:支持按不同维度聚合分析该账号/接口的访问涉敏资产的热度或集中度;访问时间/流转轨迹:可查看该账号/接口的历史访问时间轨迹,以及涉敏访问的流向、流转路径。数据安全检测平台可以自动提取敏感数据的饿访问账号等信息,也可以自动识别敏感数据的流转接口等信息。
进一步地,数据安全检测平台还支持敏感数据的全链路反演溯源,从用户使用场景的闭环逻辑出发,构建了发起溯源任务、溯源结果输出、溯源结果分析、溯源结果报告输出的完整应用场景。其中:溯源任务发起可以支持手动配置或文件形式的批量导入,来输入所需要溯源的内容(即所需要的敏感数据的流转链路路径);支持多溯源任务同时并行或错峰执行。溯源结果分析采用了横向全链路数据流转回放和纵向多级聚合、层层下钻两种分析模式。横向全链路数据回放,可以将包含输入溯源信息的结果数据,全部以当时访问数据的正常流转形态,进行初步还原,帮助用户查看当时访问数据的访问路径、访问操作等访问信息;纵向多级聚合、层层下钻的分析模式,可以通过访问账号、IP、应用、接口、数据库等进行溯源结果数据聚合处理,通过应用聚合,可以选择某个重点关注应用,进行下钻分析该应用下的接口中,哪些接口也访问了溯源结果数据,再下钻可查看该接口的画像信息、被访问信息、访问数据库的信息等;数据库下钻也采用了同样的模式。整个分析过程中,提供的分析技术能力包括:聚合分析:按线索时间集中度、线索的应用接口或数据库集中度、线索账号访问集中度聚合;基线分析:访问频次和访问量基线是否异常风险;画像分析:包括时间轨迹和流转轨迹分析;流转测绘分析:线索数据流向和流转路径分析。溯源任务结束后,数据安全检测平台会自动生成溯源结果报告,支持excel格式导出。溯源结果按应用协议流量线索、数据库协议流量线索、溯源应用线索、溯源数据库线索4个tab进行展示。
进一步地,可以根据待检测数据的安全检测结果对企业进行评估,让企业及时整改相关安全问题。
进一步地,各个企业的敏感数据的流向、敏感数据的分布情况、敏感数据的流转趋势、敏感数据地理位置(如跨境数据)、敏感数据流向地图等可以在展示大屏中进行展示,展示大屏可以直观展示被监管企业敏感数据业务风险情况。
根据本发明提供的另一种数据的检测方法,与目前利用统一方式对数据进行安全监测的方式相比,本发明通过获取待检测数据;并对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;与此同时,确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;之后确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;最终利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果,由此通过对待检测数据中的敏感数据进行分类分级,并利用该分类分级下的数据检测规则对待检测数据中的敏感数据进行检测,能够避免统一检测方式不适用于所有类型数据的问题,从而本发明能够提高数据的检测准确度。
进一步地,作为图1的具体实现,本发明实施例提供了一种数据的检测装置,如图3所示,所述装置包括:获取单元31、识别单元32、级别确定单元33、规则确定单元34和检测单元35。
所述获取单元31,可以用于获取待检测数据。
所述识别单元32,可以用于对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据。
所述级别确定单元33,可以用于确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别。
所述规则确定单元34,可以用于确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子。
所述检测单元35,可以用于利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果。
在具体应用场景中,为了确定待检测数据中的敏感数据,所述识别单元32,具体可以用于利用预设正则表达式识别所述待检测数据中的隐私数据,并将所述隐私数据确定为所述待检测数据中的敏感数据;和/或,利用预设敏感词库中记录的各个敏感词与待检测数据中的各个分词进行关键字匹配,并将与各个敏感词中任意一个敏感词相匹配的目标分词确定为敏感数据;和/或,将所述待检测数据输入至预设敏感数据识别模型中进行敏感性识别,得到所述待检测数据中的敏感数据。
在具体应用场景中,为了利用预设敏感数据识别模型来识别待检测数据中的敏感数据,如图4所示,所述识别单元32,包括划分模块321、识别模块322和第一确定模块323。
所述划分模块321,可以用于按照预设字符数量阈值将所述待检测数据划分为多个数据段。
所述识别模块322,可以用于将各所述数据段输入至预设敏感数据识别模型中进行敏感性识别,得到各所述数据段对应的敏感参数。
所述第一确定模块323,可以用于在各个敏感参数中确定大于预设参数阈值的目标敏感参数,并将所述目标敏感参数对应的目标数据段确定为所述待检测数据中的敏感数据。
在具体应用场景中,为了确定敏感数据的数据级别,所述级别确定单元33,包括第二确定模块331、存储模块332、构建模块333和第一获取模块334。
所述第二确定模块331,可以用于确定不同数据类型对应的各组数据级别。
所述存储模块332,可以用于将所述各组数据级别存储至所述不同类型数据对应的数据级别库。
所述构建模块333,可以用于构建所述不同数据类型对应的分级模板,并建立不同分级模板与不同数据级别库之间的映射关系。
所述第一获取模块334,可以用于在不同分级模板中确定所述敏感数据所属的数据类型对应的目标分级模板,并在所述目标分级模板中获取所述敏感数据对应的数据级别。
在具体应用场景中,为了对敏感数据进行检测,所述检测单元35,包括检测模块351、第三确定模块352、判断模块353、第一生成模块354和发送模块355。
所述检测模块351,可以用于利用目标数据检测规则中的各所述检测因子对所述敏感数据进行检测,得到各所述检测因子对应的检测结果。
所述第三确定模块352,可以用于基于各所述检测结果,确定敏感数据未通过检测的检测因子命中数量。
所述判断模块353,可以用于判断所述检测因子命中数量是否大于预设阈值。
所述第三确定模块352,具体可以用于若所述检测因子命中数量大于所述预设阈值,则确定所述敏感数据处于非安全状态。
所述第三确定模块352,具体还可以用于若所述检测因子命中数量小于或等于所述预设阈值,则确定所述敏感数据处于安全状态。
所述第一生成模块354,可以用于生成所述敏感数据对应的告警信息。
所述发送模块355,可以用于调用预设通讯工具接口,并通过所述预设通讯工具接口将所述告警信息发送至显示终端。
在具体应用场景中,为了确定敏感数据的流向,所述装置还包括路径确定单元36和标记单元37。
所述路径确定单元36,可以用于确定所述敏感数据的流转链路路径。
所述标记单元37,可以用于利用预设荧光标记算法对所述流转链路路径进行标记,得到所述敏感数据对应的标记后的流转链路路径,并将所述标记后的流转链路路径发送至显示终端。
在具体应用场景中,为了确定敏感数据的流转链路路径,所述路径确定单元36,包括设置模块361、第二获取模块362和第二生成模块363。
所述设置模块361,可以用于设置敏感数据的预设异常访问节点,并确定所述敏感数据在当次流转生命周期内的路径ID。
所述第二获取模块362,可以用于获取所述敏感数据的实际流经节点和流经时间。
所述第二生成模块363,可以用于若所述实际流经节点属于所述预设异常访问节点,则根据所述实际流经节点、流经时间和所述路径ID,生成所述敏感数据的流转链路路径。
需要说明的是,本发明实施例提供的一种数据的检测装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待检测数据;对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待检测数据;对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果。
通过本发明的技术方案,本发明通过获取待检测数据;并对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;与此同时,确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;之后确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;最终利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果,由此通过对待检测数据中的敏感数据进行分类分级,并利用该分类分级下的数据检测规则对待检测数据中的敏感数据进行检测,能够避免统一检测方式不适用于所有类型数据的问题,从而本发明能够提高数据的检测准确度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种数据的检测方法,其特征在于,包括:
获取待检测数据;
对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;
确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;
确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;
利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据,包括:
利用预设正则表达式识别所述待检测数据中的隐私数据,并将所述隐私数据确定为所述待检测数据中的敏感数据;和/或,
利用预设敏感词库中记录的各个敏感词与待检测数据中的各个分词进行关键字匹配,并将与各个敏感词中任意一个敏感词相匹配的目标分词确定为敏感数据;和/或,
将所述待检测数据输入至预设敏感数据识别模型中进行敏感性识别,得到所述待检测数据中的敏感数据。
3.根据权利要求2所述的方法,其特征在于,所述将所述待检测数据输入至预设敏感数据识别模型中进行敏感性识别,得到所述待检测数据中的敏感数据,包括:
按照预设字符数量阈值将所述待检测数据划分为多个数据段;
将各所述数据段输入至预设敏感数据识别模型中进行敏感性识别,得到各所述数据段对应的敏感参数;
在各个敏感参数中确定大于预设参数阈值的目标敏感参数,并将所述目标敏感参数对应的目标数据段确定为所述待检测数据中的敏感数据。
4.根据权利要求1所述的方法,其特征在于,确定所述敏感数据在所述数据类型下的数据级别,包括:
确定不同数据类型对应的各组数据级别;
将所述各组数据级别存储至所述不同类型数据对应的数据级别库;
构建所述不同数据类型对应的分级模板,并建立不同分级模板与不同数据级别库之间的映射关系;
在不同分级模板中确定所述敏感数据所属的数据类型对应的目标分级模板,并在所述目标分级模板中获取所述敏感数据对应的数据级别。
5.根据权利要求1所述的方法,其特征在于,其中,目标数据检测规则中包含多种检测因子,所述多种检测因子包括:账号过量访问因子、账号过频访问因子、异常时间访问因子、异地访问因子、爬虫爬取访问因子、跨站脚本攻击因子,所述利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果,包括:
利用目标数据检测规则中的各所述检测因子对所述敏感数据进行检测,得到各所述检测因子对应的检测结果;
基于各所述检测结果,确定敏感数据未通过检测的检测因子命中数量;
判断所述检测因子命中数量是否大于预设阈值;
若所述检测因子命中数量大于所述预设阈值,则确定所述敏感数据处于非安全状态;
若所述检测因子命中数量小于或等于所述预设阈值,则确定所述敏感数据处于安全状态;
所述在所述确定所述敏感数据处于非安全状态之后,所述方法还包括:
生成所述敏感数据对应的告警信息;
调用预设通讯工具接口,并通过所述预设通讯工具接口将所述告警信息发送至显示终端。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述敏感数据的流转链路路径;
利用预设荧光标记算法对所述流转链路路径进行标记,得到所述敏感数据对应的标记后的流转链路路径,并将所述标记后的流转链路路径发送至显示终端。
7.根据权利要求6所述的方法,其特征在于,所述确定所述敏感数据的流转链路路径,包括:
设置敏感数据的预设异常访问节点,并确定所述敏感数据在当次流转生命周期内的路径ID;
获取所述敏感数据的实际流经节点和流经时间;
若所述实际流经节点属于所述预设异常访问节点,则根据所述实际流经节点、流经时间和所述路径ID,生成所述敏感数据的流转链路路径。
8.一种数据的检测装置,其特征在于,包括:
获取单元,用于获取待检测数据;
识别单元,用于对所述待检测数据进行敏感性识别,得到所述待检测数据中的敏感数据;
级别确定单元,用于确定所述敏感数据所属的数据类型,并确定所述敏感数据在所述数据类型下的数据级别;
规则确定单元,用于确定所述数据级别对应的目标数据检测规则,其中,不用数据级别对应不同数据检测规则,不同数据检测规则中包含不同数据检测因子;
检测单元,用于利用所述目标数据检测规则中的各个检测因子对所述敏感数据进行检测,得到所述敏感数据对应的检测结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310349752.8A CN116361784A (zh) | 2023-04-03 | 2023-04-03 | 数据的检测方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310349752.8A CN116361784A (zh) | 2023-04-03 | 2023-04-03 | 数据的检测方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116361784A true CN116361784A (zh) | 2023-06-30 |
Family
ID=86907103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310349752.8A Pending CN116361784A (zh) | 2023-04-03 | 2023-04-03 | 数据的检测方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361784A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756777A (zh) * | 2023-08-14 | 2023-09-15 | 上海观安信息技术股份有限公司 | 数据脱敏方法及装置、计算机设备和可读存储介质 |
CN116776390A (zh) * | 2023-08-15 | 2023-09-19 | 上海观安信息技术股份有限公司 | 一种数据泄漏行为的监测方法、装置、存储介质及设备 |
CN117421670A (zh) * | 2023-11-16 | 2024-01-19 | 国网江苏省电力有限公司信息通信分公司 | 一种敏感信息识别方法、装置、设备及存储介质 |
-
2023
- 2023-04-03 CN CN202310349752.8A patent/CN116361784A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756777A (zh) * | 2023-08-14 | 2023-09-15 | 上海观安信息技术股份有限公司 | 数据脱敏方法及装置、计算机设备和可读存储介质 |
CN116756777B (zh) * | 2023-08-14 | 2023-11-03 | 上海观安信息技术股份有限公司 | 数据脱敏方法及装置、计算机设备和可读存储介质 |
CN116776390A (zh) * | 2023-08-15 | 2023-09-19 | 上海观安信息技术股份有限公司 | 一种数据泄漏行为的监测方法、装置、存储介质及设备 |
CN117421670A (zh) * | 2023-11-16 | 2024-01-19 | 国网江苏省电力有限公司信息通信分公司 | 一种敏感信息识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116361784A (zh) | 数据的检测方法、装置、存储介质及计算机设备 | |
CN113486351A (zh) | 一种民航空管网络安全检测预警平台 | |
CN112738126B (zh) | 基于威胁情报和att&ck的攻击溯源方法 | |
CN104660594B (zh) | 一种面向社交网络的虚拟恶意节点及其网络识别方法 | |
CN103026345B (zh) | 用于事件监测优先级的动态多维模式 | |
CN112417477A (zh) | 一种数据安全监测方法、装置、设备及存储介质 | |
CN108881263B (zh) | 一种网络攻击结果检测方法及系统 | |
Sikos | AI in digital forensics: Ontology engineering for cybercrime investigations | |
CN113098892A (zh) | 基于工业互联网的数据防泄漏系统以及方法 | |
CN112039862B (zh) | 一种面向多维立体网络的安全事件预警方法 | |
CN108833185B (zh) | 一种网络攻击路线还原方法及系统 | |
CN107172022A (zh) | 基于入侵途径的apt威胁检测方法和系统 | |
CN111104579A (zh) | 一种公网资产的识别方法、装置及存储介质 | |
CN116662989B (zh) | 一种安全数据解析方法及系统 | |
CN112036995A (zh) | 基于区块链的大型企业财务数据管理方法、系统和可读存储介质 | |
CN112560029A (zh) | 基于智能分析技术的网站内容监测和自动化响应防护方法 | |
CN115883236A (zh) | 电网智能终端协同攻击监测系统 | |
CN111314292A (zh) | 一种基于敏感数据识别的数据安全检查方法 | |
Aldwairi et al. | Flukes: Autonomous log forensics, intelligence and visualization tool | |
CN110837646A (zh) | 一种非结构化数据库的风险排查装置 | |
CN112600828B (zh) | 基于数据报文的电力控制系统攻击检测防护方法及装置 | |
CN112347328A (zh) | 一种网络平台识别方法、装置、设备及可读存储介质 | |
CN109918638B (zh) | 一种网络数据监测方法 | |
CN112528325B (zh) | 一种数据信息的安全处理方法及系统 | |
CN113079148B (zh) | 一种工业互联网安全监测方法、装置、设备及储存介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |