CN117648635B - 敏感信息分类分级方法及系统、电子设备 - Google Patents

敏感信息分类分级方法及系统、电子设备 Download PDF

Info

Publication number
CN117648635B
CN117648635B CN202410125378.8A CN202410125378A CN117648635B CN 117648635 B CN117648635 B CN 117648635B CN 202410125378 A CN202410125378 A CN 202410125378A CN 117648635 B CN117648635 B CN 117648635B
Authority
CN
China
Prior art keywords
sensitive
information
matching
rules
sensitive information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410125378.8A
Other languages
English (en)
Other versions
CN117648635A (zh
Inventor
刘永波
李昌文
叶锦雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ankki Technology Co ltd
Original Assignee
Shenzhen Ankki Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ankki Technology Co ltd filed Critical Shenzhen Ankki Technology Co ltd
Priority to CN202410125378.8A priority Critical patent/CN117648635B/zh
Publication of CN117648635A publication Critical patent/CN117648635A/zh
Application granted granted Critical
Publication of CN117648635B publication Critical patent/CN117648635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种敏感信息分类分级方法及系统、电子设备。其中,方法包括:获取目标资产信息;根据预设规则以及预设敏感信息集合库识别目标资产信息中的敏感信息;获取敏感信息的级别和类别。该方法能够帮助对识别出的敏感信息进行风险评估,根据敏感信息的级别和类别,能更准确地评估可能的风险程度,从而有针对性地进行后续的安全保护措施和应对措施;能够确定敏感信息的级别和类别能够帮助确定处理的优先级,对于级别较高的敏感信息,可以更快速地采取相应的措施,以减少潜在的安全风险。综上,本申请公开的方法能够更全面、精细地管理和保护敏感信息,从而更好地保障信息安全。

Description

敏感信息分类分级方法及系统、电子设备
技术领域
本公开涉及数据安全技术领域,尤其涉及一种敏感信息分类分级方法及系统、电子设备。
背景技术
在当前数据安全管理领域,敏感数据的识别一直是一个根本性问题。目前存在多种敏感数据识别方法,但每种方法都具有各自的优缺点。
现有技术中的数据分类分级主要存在以下问题:
1)分级标准不统一:由于不同机构的业务需求和数据管理需求不同,不同行业对数据安全性和重要性的分级标准也不尽相同,这导致不同机构之间的数据分级不能直接比较,从而影响信息共享和交流。
2)级别不够细化:现有的数据分级体系大多只包含几个级别,往往不能满足具体业务场景的需要,缺乏针对性,同时也无法为数据提供更细致的安全保障。
3)分级实施不充分:有些机构虽然设立了数据分级体系,但实践中并未充分落实到数据管理和安全防护的各个环节,导致分级不能真正起到指导和支撑作用。
发明内容
有鉴于此,本公开实施例提供了一种敏感信息分类分级方法及系统、电子设备,能够更全面、精细地管理和保护敏感信息,从而更好地保障数据生命周期不同阶段的安全。
第一方面,本公开实施例提供了一种敏感信息分类分级方法,包括:
S100,获取目标资产信息;
S200,根据预设规则以及预设敏感信息集合库识别所述目标资产信息中的敏感信息;
S300,获取所述敏感信息的级别和类别。
可选地,所述获取目标资产信息,包括:
通过端口扫描工具对目标数据库进行扫描,获取所述目标资产信息;
所述目标资产信息包括IP地址信息、端口状态信息、服务名信息和版本号信息。
可选地,所述预设规则包括第一类规则、第二类规则和第三类规则,所述第一类规则包括:根据指定分隔符将目标资产信息进行数据分隔,分隔后每一段数据与所述预设敏感信息集合库采用正则匹配规则、数据字典匹配规则、包含规则、等于规则或区间规则中的任一种进行匹配;
所述第二类规则包括:根据字符长度分段规则、根据以某字段结尾分段规则或者不指定分段规则将目标资产信息进行字符分段,分段后的每一部分与所述预设敏感信息集合库采用正则匹配规则、数据字典匹配规则、包含规则、等于规则或区间规则中的任一种进行匹配;
所述第三类规则包括:将目标资产信息根据数据库表字段名与所述预设敏感信息集合库采用精准匹配规则或者模糊匹配规则进行匹配。
可选地,所述敏感信息的识别方法包括:
将所述目标资产信息按照预设分隔符规则进行分割,获得第一数据集合,所述第一数据集合包括若干段分割后获得的子数据;
将若干段所述子数据按照所述预设规则进行匹配,将满足第一预设匹配率的所述子数据判定为所述敏感信息。
可选地,所述第一预设匹配率为100%。
可选地,所述获取所述敏感信息的级别和类别,包括:
S310,基于预设数据库,获取与所述敏感信息满足第二预设匹配率的敏感类型样本;
S320,获取所述敏感类型样本的数量N,若N=1,执行S330,若N≥2,执行S340;
S330,将所述敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为所述敏感信息的级别和类别;
S340,获取N个所述敏感类型样本中对应的最大匹配率以及所述最大匹配率对应的敏感类型样本的数量M;
若M=1,执行S350,若M≥2,执行S360;
S350,将所述最大匹配率对应的敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为所述敏感信息的级别和类别;
S360,获取M个所述敏感类型样本中级别最高的敏感类型样本,并将该敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为所述敏感信息的级别和类别。
可选地,所述第二预设匹配率为:不低于50%的匹配率。
可选地,该方法还包括以下步骤:
生成数据分类分级清单。
第二方面,本公开实施例还提供了一种敏感信息分类分级系统,包括:
获取模块,配置为获取目标资产信息;
识别模块,配置为根据预设规则以及预设敏感信息集合库识别所述目标资产信息中的敏感信息;
处理模块,配置为获取所述敏感信息的级别和类别。
第三方面,本公开实施例还提供了一种电子设备,采用如下技术方案:
所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上任一所述的敏感信息分类分级方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行以上任一所述的敏感信息分类分级方法。
本申请提供的敏感信息分类分级方法,能够帮助对识别出的敏感信息进行风险评估,根据敏感信息的级别和类别,能更准确地评估可能的风险程度,从而有针对性地进行后续的安全保护措施和应对措施;能够确定敏感信息的级别和类别能够帮助确定处理的优先级,对于级别较高的敏感信息,可以更快速地采取相应的措施,以减少潜在的安全风险;此外,在一些行业或者特定的法律法规要求下,对敏感信息进行级别和类别的划分能够更好地满足合规性的要求,并根据不同级别采取相应的保护措施,有助于企业遵守相关法规和标准;了解敏感信息的级别和类别有助于制定定制化的安全策略和保护措施,针对不同级别的敏感信息采取相应的加固措施和防护措施,提高系统和数据的安全性。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本公开实施例提供的敏感信息分类分级方法的流程示意图。
图2为图1中敏感信息的识别方法的流程示意图。
图3为图1中敏感信息的级别和类别的获取方法的流程示意图。
图4为本公开实施例提供的敏感信息分类分级系统的框图。
图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
应当明确,以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目各方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
参照图1,本申请的第一方面公开了一种敏感信息分类分级方法,该方法包括以下步骤:
S100,获取目标资产信息。
在本实施例中,通过端口扫描工具对目标数据库进行扫描,获取目标资产信息(即目标数据库信息);其中,目标资产信息包括IP地址信息、端口状态信息、服务名信息和版本号信息。
需要说明的是,本实施例中的目标资产信息(即目标数据库信息)的来源可以为自动发现、主动添加、文件导入中的任一种。
S200,根据预设规则以及预设敏感信息集合库识别目标资产信息中的敏感信息。
S300,获取敏感信息的级别和类别。
本申请提供的敏感信息分类分级方法,能够帮助对识别出的敏感信息进行风险评估,根据敏感信息的级别和类别,能更准确地评估可能的风险程度,从而有针对性地进行后续的安全保护措施和应对措施;能够确定敏感信息的级别和类别能够帮助确定处理的优先级,对于级别较高的敏感信息,可以更快速地采取相应的措施,以减少潜在的安全风险;此外,在一些行业或者特定的法律法规要求下,对敏感信息进行级别和类别的划分能够更好地满足合规性的要求,并根据不同级别采取相应的保护措施,有助于企业遵守相关法规和标准;了解敏感信息的级别和类别有助于制定定制化的安全策略和保护措施,针对不同级别的敏感信息采取相应的加固措施和防护措施,提高系统和数据的安全性。
本申请提供的敏感信息分类分级方法,能够更全面、精细地管理和保护敏感信息,从而更好地保障信息安全。
进一步地,对于目标资产信息扫描完成后,可以对数据库扫描任务自动发现的结果进行确认,确认后,便于客户管理自已的数据库资产,确认操作包括:单条和批量对扫描结果进行确认是否是数据库,也可以对结果数据进行删除,对于已删除的数据会放到回收站中,也可以从回收站中进行恢复。
进一步地,预设规则包括第一类规则、第二类规则和第三类规则,其中,第一类规则包括:根据指定分隔符将目标资产信息进行数据分隔,分隔后每一段数据与预设敏感信息集合库采用正则匹配规则、数据字典匹配规则、包含规则、等于规则或区间规则中的任一种进行匹配。
第二类规则包括:根据字符长度分段规则、根据以某字段结尾分段规则或者不指定分段规则将目标资产信息进行字符分段,分段后的每一部分与预设敏感信息集合库采用正则匹配规则、数据字典匹配规则、包含规则、等于规则或区间规则中的任一种进行匹配。
第三类规则包括:将目标资产信息根据数据库表字段名与预设敏感信息集合库采用精准匹配规则或者模糊匹配规则进行匹配。
参照图2,敏感信息的识别方法包括以下步骤:
S210,将目标资产信息按照预设分隔符规则进行分割,获得第一数据集合,第一数据集合包括若干段分割后获得的子数据;
S220,将若干段子数据按照预设规则进行匹配,将满足第一预设匹配率的子数据判定为敏感信息。
在本实施例中,第一预设匹配率为100%。
具体地,在实际应用中,1、用户设置好敏感类型。系统内置了很多敏感类型,但是用户也可以自行添加敏感类型,满足用户定制化需求。
添加的敏感类型可以选择多种匹配规则。可以设置的规则如下:
(一)根据数据库的数据进行识别
1)指定分隔符,根据指定的分隔符将数据分隔为两段,其中的每一段数据都可以根据不同的匹配规则进行匹配,匹配规则有:正则匹配、数据字典匹配、包含(数字、大写字母、小写字母、中文、特殊符号)、等于、区间(整数区间、浮点数区间、日期区间)。
2)字符分段,字符分段规则有:根据字符长度分段、根据以某字符结尾分段、或不指定分段。其中,每一段的匹配规则有:正则匹配、数据字典匹配、包含(数字、大写字母、小写字母、中文、特殊符号)、等于、区间(整数区间、浮点数区间、日期区间)。
(二)根据数据库表字段名匹配,匹配模式有精准匹配和模糊匹配。精准匹配意思是表字段名称全部相同;模糊匹配表示表字段名称部分相同即可。
2、用户设置分类分级标准。
将敏感类型与分类分级标准进行绑定。这一步的目的是,当匹配到了敏感类型时,才知道该敏感类型对应的是哪个标准下的分类分级。
3、用户添加扫描任务。
用户选择数据库资产、选择需要使用的分类分级标准,设置好样本数(即从需要扫描的数据库中获取的用户进行敏感类型扫描的数据量),设置好匹配率。
4、用户点击开始扫描。
5、根据扫描任务设置的数据库资产和样本数,从需要扫描的数据库中获取样本。
需要说明的是,一个数据库中有若干张表,一张表中有若干个字段,以下内容是针对某一个字段进行敏感类型匹配的。在理解时,可以认为系统会一条一条的对字段进行处理,在实际执行过程中系统对字段的处理是多条同时进行的,这取决于服务器性能高低。
通过用户设置对应的类型、规则、标准,满足不用场景下的需求。
6、将用户选择的该分类分级标准所绑定的敏感类型全部取出。为了方便理解,取出的敏感类型取名为“敏感类型列表”。
7、进行数据库表字段名匹配。将该字段的字段名与敏感类型列表中的所有的设置了数据库表字段名匹配规则的敏感类型进行逐一匹配。将匹配上的敏感类型判定为敏感类型匹配率为100%,敏感类型数量为用户设置的扫描任务的样本数。将匹配率不小于用户设置的扫描任务的匹配率的敏感类型数据记录。此处可能会记录到多条,所以为了便于理解,将记录的敏感类型列表命名为“匹配上的敏感类型数据列表”。该列表中会记录该敏感类型名称,该敏感类型匹配率,该敏感类型数量。
8、进行数据库的数据识别。
将该字段从需要扫描的数据库中获取样本取出,将敏感类型列表中设置了数据识别规则的敏感类型对每一个样本数据对进行逐一匹配。
具体规则如下:
1)样本数据要匹配的敏感类型设置了指定分隔符规则,将样本数据按规则进行分割将分割后的数据进行匹配。每一段的数据都符合对应的规则,则认为该样本匹配上了。
2)样本数据要匹配的敏感类型设置了字符分段规则,将样本数据按规则进行分段,将分段后的数据进行匹配。每一段的数据都符合对应的规则,则认为该样本匹配上了。
3)其中,每一段的具体规则可以为用户预设的。匹配过程如下:
a)正则匹配:判定该段数据是否符合正则表达式规则;
b)数据字典匹配:判定该段数据是否在数据字典中;
c)包含:判定该段数据是否包含用户设置的数据类型 (数字、大写字母、小写字母、中文、特殊符号);
d)等于:判定该段数据是否与规则中的数据相同;
e)区间:判定该段数据是否是否在用户设置的规则区内 (整数区间、浮点数区间、日期区间)。
4)某一敏感类型将所有样本匹配了一遍之后,就可以得到符合该敏感类型规则的样本数量,根据总样本数和符合规则的样本数,计算得到该敏感类型对应该字段的匹配率,数量等信息,将匹配率大于等于用户设置的扫描任务的匹配率的敏感类型数据记录。放入“匹配上的敏感类型数据列表”中。
5)所有的敏感类型都匹配结束之后,就可以得到该字段所匹配上的所有敏感类型了;匹配上的所有敏感类型都在“匹配上的敏感类型数据列表”中。
9、敏感类型识别结束,得到该字段的敏感类型相关数据,如敏感类型名称、敏感类型匹配率、敏感类型数量。
在本申请的其它实施例中,识别方法还包括字段名称匹配方法、字段注释匹配方法、字段数据内容匹配方法中的一种或多种。
其中,字段名称匹配方法,如:敏感类型为姓名,匹配规则为使用字段名称进行匹配,规则为精确匹配name,与数据库表字段名称进行匹配,如匹配上,则认为该目标数据库表字段为姓名的敏感类型。
字段注释匹配方法,如:敏感类型为姓名,采用精确匹配,即敏感类型名称,姓名与预设敏感信息集合库字段注释进行精确匹配,如匹配上,则认为该目标数据库字段为姓名的敏感类型;
字段数据内容匹配方法,数据内容匹配方式包括:正则表达式、关键词精确或模糊或正则匹配、数据字典匹配、字符分段(每段采用的匹配又包括:精确或模糊或正则)。
在对目标资产信息进行具体识别时,可以扫描目标资产信息中的表或者字段,表中包含有一行或多行的表头,字段中包含有数据。
例如,若扫描的是目标资产信息的表头信息,即姓名,可以根据“姓名”进行识别;若扫描的是目标资产信息的姓名内容,即字段,例如王一一,则可以对字段进行识别,若包含大量的字段信息,则还可以进行内容抽样识别,例如抽字段“一一”进行识别。
对于敏感数据内容识别还可以结合自然语言NLP等机器学习算法进行组合识别,可以提升敏感类型匹配目标数据库表字段识别的准确率。
参照图3,敏感信息的级别和类别的获取方法包括以下步骤:
S310,基于预设数据库,获取与敏感信息满足第二预设匹配率的敏感类型样本。
S320,获取敏感类型样本的数量N,若N=1,执行S330,若N≥2,执行S340。
S330,将敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为敏感信息的级别和类别。
S340,获取N个敏感类型样本中对应的最大匹配率以及最大匹配率对应的敏感类型样本的数量M;若M=1,执行S350,若M≥2,执行S360。
其中,2≤M≤N。
S350,将最大匹配率对应的敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为敏感信息的级别和类别。
S360,获取M个敏感类型样本中级别最高的敏感类型样本,并将该敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为敏感信息的级别和类别。
其中,第二预设匹配率为:不低于50%的匹配率。
在本实施例中,基于预设数据库获取满足第二预设匹配率的敏感类型样本,实现对敏感信息的筛选和识别;根据敏感类型样本的数量和匹配率进行多级别分类识别,确保对敏感信息的级别和类别做到细致的划分和识别;若敏感类型样本数量为1,直接将该样本的级别和类别作为目标敏感类型的级别和类别,简化了处理步骤并确保了单一样本的准确识别;当多个敏感类型样本数量大于1时,根据最大匹配率和对应的样本数量进行判断和识别,确保选取最具代表性的敏感类型作为目标敏感类型;若多个敏感类型样本中存在级别不同的情况,可以选择最高级别的敏感类型样本作为目标敏感类型,确保对敏感信息的级别识别更加精准。
具体地,在实际应用中,根据用户设置的扫描任务的匹配率,对该字段进行敏感扫描。将满足匹配率要求的字段以及敏感类型名称,敏感类型匹配率,敏感类型数量(样本数中符合该敏感类型的条数)保存。比如用户设置扫描任务的样本数是200,其中有100条符合该敏感类型,则该敏感类型匹配率为50%,敏感类型数量为100。
将匹配到的敏感类型数据按照匹配率倒序排序,记录匹配率最高值的为最大匹配率。
生成该字段分类分级的初步结果。规则包括:1)该字段匹配到的敏感类型数据只有一条时,该字段的初步结果就是该敏感类型对应的分类分级标准;2)该字段匹配到的敏感类型数据有多条时,按照匹配率由高到低对敏感类型进行排序,当有多条敏感类型匹配率相同时,按照敏感类型对应的分类分级标准中的级别由高到低排序。从而得到一个有序的分类分级标准的列表。从该列表中取出第一条数据定为该字段的初步结果。
对于该初步结果,该级别用户是否设置特定的分级策略,如果没设置,则跳过这一步操作。
1)如果初步的级别已经是最低级别了,则该级别就是最终级别。
2)判断字段的敏感类型的匹配率或者敏感类型数量是否符合该级别特定策略,如果符合,则该级别就是最终级别。如果不符合,则将该级别进行降级处理。降级后继续判断字段的敏感类型的匹配率或者敏感类型数量是否符合降级后的级别的特定策略。直到该字段的敏感类型的匹配率或者敏感类型数量符合级别的特定策略为止或者该级别已经是最低级别了或者降级后的级别没有设置特定的策略为止。
对于该初步结果,该类别用户是否设置特定的分类策略,如果没设置,则跳过这一步操作。
1)判断字段的敏感类型的匹配率或者敏感类型数量是否符合该类别的特定策略,如果符合,该类别就是最终类别。如果不符合,就判断该字段是否有多个分类分级标准。(多个敏感类型就会匹配到多个分类分级标准)。
如果只有一个,则这个类别就是最终的分类。如果有多个,则按列表中的标准一个一个找,直到找到没有设置特定分类策略的分类或者符合标准的策略为止。从而得到最终类别。如果该字段的敏感类型的匹配率或者敏感类型数量都不符合列表中的类别,则取列表第一个类别为最终类别。
得到该字段的最终的类别和级别,保存。
综合来看,该方案能够通过多级别分类识别和精细判断,实现对敏感信息级别和类别的准确获取,并能够根据实际情况进行灵活处理,确保识别结果的准确性和可靠性。
进一步地,本申请公开的敏感信息分类分级方法还包括以下步骤:
S400,生成数据分类分级清单,即生成对敏感数据资产的可视化和数据分布管理清单。
将数据分为不同的业务类别和安全级别实施差别保护,为各项数据安全防护策略的制定提供基础。
进一步地,在本申请的其它实施例中,还可以通过智能模型获取敏感信息的级别和类别,具体包括以下步骤:
1)数据标注;根据业务需求和敏感信息类型,构建相应的标注体系,例如情感分类、主题分类、敏感程度等级等。
2)文本预处理;对文本数据(即敏感信息)进行预处理,包括去除特殊字符、标点符号、停用词等,进行分词、词干提取或词向量化等操作,以便后续模型处理。
3)特征提取;使用text2vec模型,如Word2Vec、FastText等,将文本数据转换为向量表示,以捕捉词语之间的语义关系和上下文信息。
4)模型训练与选择:选择合适的模型架构,如深度学习模型(如卷积神经网络CNN、循环神经网络RNN、Transformer等)或传统机器学习模型(如朴素贝叶斯、支持向量机SVM等),将选取的模型作为初始模型。
利用标注数据对初始模型进行训练,以学习文本特征与分类分级标签之间的映射关系,获得第一模型。
5)模型评估与优化;使用验证集或交叉验证等方法对第一模型进行评估,调整模型超参数,避免过拟合或欠拟合;然后根据评估结果进行模型优化,如调整模型结构、改进特征提取方法等,优化后的模型作为第二模型。
6)敏感信息分类与分级;将训练好的第二模型应用于真实数据,对待分类的文本进行自动分类和分级,即第二模型即可自动输出敏感信息的级别和类别。
通过该方案,可以提高敏感信息分类与分级模型的性能和准确度,具体包括:1)更精细的分类与分级:通过多步骤的模型训练和优化,可以更精细地对敏感信息进行分类与分级,提高了分类的准确性和细分程度,例如,可以精细地区分不同程度的敏感信息,满足不同应用场景的需求;2)模型性能更可控:在模型训练与选择阶段,可以针对具体的业务需求选择合适的模型架构,并通过评估与优化来提升模型性能,使模型更好地适应实际应用场景,减少过拟合或欠拟合的风险;3)更高的实用价值:通过提取更丰富的文本特征和使用更复杂的模型架构,可以提高模型对复杂文本信息的理解能力,从而提高敏感信息分类与分级的实用价值,能够更好地应对现实中多样化、复杂化的敏感信息识别需求;4)可迭代性:通过将模型训练与优化划分为多个阶段,不断通过验证集或交叉验证的结果进行模型的调整和优化,使模型具有更好的可迭代性,能够不断根据不同数据和业务场景进行优化
参照图4,一种敏感信息分类分级系统,其特征在于,包括:
获取模块,配置为获取目标资产信息;
识别模块,配置为根据预设规则以及预设敏感信息集合库识别目标资产信息中的敏感信息;
处理模块,配置为获取敏感信息的级别和类别。
本申请公开的方案,以数据分类为基础,采用规范、明确的方法区分数据的重要性和敏感度差异,并确定数据级别,有助于行业机构根据数据不同级别,确定数据在其生命周期的各个环节应采取的数据安全防护策略和管控措施,进而提高机构的数据管理和安全防护水平,确保数据的完整性、保密性和可用性。
通过用户配置的行业分类分级标准以及和敏感类型的关联关系,系统可以在执行分类分级任务过程对用户的数据资产进行自动识别和归类定级。
其中,分类分级标准配置:配置用户所在分类分级行业标准,系统将根据此标准对数据进行分类分级,具体包括:行业分类分级标准名称配置,数据分级标准配置,树形结构展示,支持在分类叶子节点配置与敏感类型的关联关系。
敏感类型配置包括:配置数据敏感类型和规则,才能与数据库表的字段进行匹配,最终才能识别出用户的数据库资产中有哪些敏感信息,具体包括:敏感类型的匹配规则也支持通过数据字典进行识别敏感类型。
配置数据分类和分级策略,配置的策略可以对分类标准进行选择,并设置了默认的分级策略和特定分类分级,特定分类分级是根据分类标准自定义设置最高级别数量和占比,以下对分类分级策略配置分别进行描述:此功能主要作用是为了给敏感数据进行匹配分类,系统提供可供选择分类标准方便自行选择;选择了分类标准后,默认分类策略和默认分级策略实现自动匹配,字段分类分级功能可以设置开启关闭,开启关闭以不同的方式进行分类分级,还提供了特定分类分级是根据分类标准自定义设置最高级别数量和占比。
进一步地,在具体的应用场景中,可以首先通过SQL语句查出敏感数据集合(List<AssetSensDataVO>),遍历集合取到敏感数据对象(AssetSensDataVo)中字段的敏感类型,然后根据提前配置好的资产分类分级策略对象(AssetClassifyTacticsVo),由于分类分级策略关联了分类配置(AssetClassConfigVo),而分类配置关联了分级标准(AssetLevelConfigVo),分级标准的各个级别又关联敏感类型(AssetSensTypeVo),从而我们根据敏感字段的敏感类型能够定位到该字段的级别以及类别,通过字段的分级分类向上反推出表、库的分类分级。
根据本公开实施例的电子设备包括存储器和处理器。该存储器用于存储非暂时性计算机可读指令。具体地,存储器可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
该处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制电子设备中的其它组件以执行期望的功能。在本公开的一个实施例中,该处理器用于运行该存储器中存储的该计算机可读指令,使得该电子设备执行前述的本公开各实施例的敏感信息分类分级方法全部或部分步骤。
本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本公开的保护范围之内。
如图5为本公开实施例提供的一种电子设备的结构示意图。其示出了适于用来实现本公开实施例中的电子设备的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备可以包括处理器(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理器、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
通常,以下装置可以连接至I/O接口:包括例如传感器或者视觉信息采集设备等的输入装置;包括例如显示屏等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备(比如边缘计算设备)进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从ROM被安装。在该计算机程序被处理器执行时,执行本公开实施例的敏感信息分类分级方法的全部或部分步骤。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
根据本公开实施例的计算机可读存储介质,其上存储有非暂时性计算机可读指令。当该非暂时性计算机可读指令由处理器运行时,执行前述的本公开各实施例的敏感信息分类分级方法的全部或部分步骤。
上述计算机可读存储介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (7)

1.一种敏感信息分类分级方法,其特征在于,包括:
S100,获取目标资产信息;
S200,根据预设规则以及预设敏感信息集合库识别所述目标资产信息中的敏感信息;
S300,获取所述敏感信息的级别和类别;
所述预设规则包括第一类规则、第二类规则和第三类规则,所述第一类规则包括:根据指定分隔符将目标资产信息进行数据分隔,分隔后每一段数据与所述预设敏感信息集合库采用正则匹配规则、数据字典匹配规则、包含规则、等于规则或区间规则中的任一种进行匹配;
所述第二类规则包括:根据字符长度分段规则、根据以某字段结尾分段规则或者不指定分段规则将目标资产信息进行字符分段,分段后的每一部分与所述预设敏感信息集合库采用正则匹配规则、数据字典匹配规则、包含规则、等于规则或区间规则中的任一种进行匹配;
所述第三类规则包括:将目标资产信息根据数据库表字段名与所述预设敏感信息集合库采用精准匹配规则或者模糊匹配规则进行匹配;
所述敏感信息的识别方法包括:
将所述目标资产信息按照预设分隔符规则进行分割,获得第一数据集合,所述第一数据集合包括若干段分割后获得的子数据;
将若干段所述子数据按照所述预设规则进行匹配,将满足第一预设匹配率的所述子数据判定为所述敏感信息;
所述第一预设匹配率为100%;
所述获取所述敏感信息的级别和类别,包括:
S310,基于预设数据库,获取与所述敏感信息满足第二预设匹配率的敏感类型样本;
S320,获取所述敏感类型样本的数量N,若N=1,执行S330,若N≥2,执行S340;
S330,将所述敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为所述敏感信息的级别和类别;
S340,获取N个所述敏感类型样本中对应的最大匹配率以及所述最大匹配率对应的敏感类型样本的数量M;
若M=1,执行S350,若M≥2,执行S360;
S350,将所述最大匹配率对应的敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为所述敏感信息的级别和类别;
S360,获取M个所述敏感类型样本中级别最高的敏感类型样本,并将该敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为所述敏感信息的级别和类别。
2.根据权利要求1所述的敏感信息分类分级方法,其特征在于,所述获取目标资产信息,包括:
通过端口扫描工具对目标数据库进行扫描,获取所述目标资产信息;
所述目标资产信息包括IP地址信息、端口状态信息、服务名信息和版本号信息。
3.根据权利要求1所述的敏感信息分类分级方法,其特征在于,所述敏感信息的识别方法包括字段名称匹配方法、字段注释匹配方法、字段数据内容匹配方法中的一种或多种。
4.根据权利要求1所述的敏感信息分类分级方法,其特征在于,所述第二预设匹配率为:不低于50%的匹配率。
5.根据权利要求1所述的敏感信息分类分级方法,其特征在于,该方法还包括以下步骤:
生成数据分类分级清单。
6.一种敏感信息分类分级系统,其特征在于,包括:
获取模块,配置为获取目标资产信息;
识别模块,配置为根据预设规则以及预设敏感信息集合库识别所述目标资产信息中的敏感信息;
处理模块,配置为获取所述敏感信息的级别和类别;
所述预设规则包括第一类规则、第二类规则和第三类规则,所述第一类规则包括:根据指定分隔符将目标资产信息进行数据分隔,分隔后每一段数据与所述预设敏感信息集合库采用正则匹配规则、数据字典匹配规则、包含规则、等于规则或区间规则中的任一种进行匹配;
所述第二类规则包括:根据字符长度分段规则、根据以某字段结尾分段规则或者不指定分段规则将目标资产信息进行字符分段,分段后的每一部分与所述预设敏感信息集合库采用正则匹配规则、数据字典匹配规则、包含规则、等于规则或区间规则中的任一种进行匹配;
所述第三类规则包括:将目标资产信息根据数据库表字段名与所述预设敏感信息集合库采用精准匹配规则或者模糊匹配规则进行匹配;
所述敏感信息的识别方法包括:
将所述目标资产信息按照预设分隔符规则进行分割,获得第一数据集合,所述第一数据集合包括若干段分割后获得的子数据;
将若干段所述子数据按照所述预设规则进行匹配,将满足第一预设匹配率的所述子数据判定为所述敏感信息;
所述第一预设匹配率为100%;
所述获取所述敏感信息的级别和类别,包括:
S310,基于预设数据库,获取与所述敏感信息满足第二预设匹配率的敏感类型样本;
S320,获取所述敏感类型样本的数量N,若N=1,执行S330,若N≥2,执行S340;
S330,将所述敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为所述敏感信息的级别和类别;
S340,获取N个所述敏感类型样本中对应的最大匹配率以及所述最大匹配率对应的敏感类型样本的数量M;
若M=1,执行S350,若M≥2,执行S360;
S350,将所述最大匹配率对应的敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为所述敏感信息的级别和类别;
S360,获取M个所述敏感类型样本中级别最高的敏感类型样本,并将该敏感类型样本作为目标敏感类型,该目标敏感类型的级别和类别即为所述敏感信息的级别和类别。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5任一所述的敏感信息分类分级方法。
CN202410125378.8A 2024-01-30 2024-01-30 敏感信息分类分级方法及系统、电子设备 Active CN117648635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410125378.8A CN117648635B (zh) 2024-01-30 2024-01-30 敏感信息分类分级方法及系统、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410125378.8A CN117648635B (zh) 2024-01-30 2024-01-30 敏感信息分类分级方法及系统、电子设备

Publications (2)

Publication Number Publication Date
CN117648635A CN117648635A (zh) 2024-03-05
CN117648635B true CN117648635B (zh) 2024-05-03

Family

ID=90048174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410125378.8A Active CN117648635B (zh) 2024-01-30 2024-01-30 敏感信息分类分级方法及系统、电子设备

Country Status (1)

Country Link
CN (1) CN117648635B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062484A (zh) * 2017-12-11 2018-05-22 北京安华金和科技有限公司 一种基于数据敏感特征和数据库元数据的分类分级方法
CN108563652A (zh) * 2017-12-20 2018-09-21 海南电网有限责任公司 基于蛮力搜索算法的基准信息分类方法
CN109299233A (zh) * 2018-09-19 2019-02-01 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质
CN110941831A (zh) * 2019-11-22 2020-03-31 上海工业自动化仪表研究院有限公司 基于分片技术的漏洞匹配方法
CN116150201A (zh) * 2022-11-22 2023-05-23 中国银联股份有限公司 敏感数据识别方法、装置、设备及计算机存储介质
CN116303389A (zh) * 2023-03-01 2023-06-23 山东浪潮新基建科技有限公司 一种基于规则的数据质量自动检测方法
CN116910650A (zh) * 2023-07-12 2023-10-20 上海观安信息技术股份有限公司 数据识别方法、装置、存储介质及计算机设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062484A (zh) * 2017-12-11 2018-05-22 北京安华金和科技有限公司 一种基于数据敏感特征和数据库元数据的分类分级方法
CN108563652A (zh) * 2017-12-20 2018-09-21 海南电网有限责任公司 基于蛮力搜索算法的基准信息分类方法
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质
CN109299233A (zh) * 2018-09-19 2019-02-01 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
CN110941831A (zh) * 2019-11-22 2020-03-31 上海工业自动化仪表研究院有限公司 基于分片技术的漏洞匹配方法
CN116150201A (zh) * 2022-11-22 2023-05-23 中国银联股份有限公司 敏感数据识别方法、装置、设备及计算机存储介质
CN116303389A (zh) * 2023-03-01 2023-06-23 山东浪潮新基建科技有限公司 一种基于规则的数据质量自动检测方法
CN116910650A (zh) * 2023-07-12 2023-10-20 上海观安信息技术股份有限公司 数据识别方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
CN117648635A (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
CN106919619B (zh) 一种商品聚类方法、装置及电子设备
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN110163647B (zh) 一种数据处理方法及装置
CN113935434A (zh) 一种数据分析处理系统及自动建模方法
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN113535963B (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN112597283B (zh) 通知文本信息实体属性抽取方法、计算机设备及存储介质
da Silva Júnior et al. A roadmap toward the automatic composition of systematic literature reviews
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN111612519A (zh) 一种识别金融产品潜在客户的方法、装置及存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN117851860A (zh) 一种自动生成数据分类分级模板的方法
CN116882414A (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN112084376A (zh) 基于图谱知识的推荐方法、推荐系统及电子装置
Heidari et al. Financial footnote analysis: developing a text mining approach
CN117648635B (zh) 敏感信息分类分级方法及系统、电子设备
CN110765872A (zh) 一种基于视觉特征的在线数学教育资源分类方法
CN113420153B (zh) 一种基于话题库和事件库的专题制作方法、装置及设备
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN112417857A (zh) 专利文本分析方法、装置、电子设备和存储介质
CN113792142B (zh) 基于多语义因素与特征聚合的目标用户隐性关系分类方法
CN109522414B (zh) 一种文献投递对象选择系统
US20240311348A1 (en) Guiding a Generative Model to Create and Interact with a Data Structure
He Understanding and Evaluating a Text Classification Model Using Interpretable Machine Learning Methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant