CN113901107A - 自动识别和筛选的数据分级细化方法及装置 - Google Patents
自动识别和筛选的数据分级细化方法及装置 Download PDFInfo
- Publication number
- CN113901107A CN113901107A CN202111176684.7A CN202111176684A CN113901107A CN 113901107 A CN113901107 A CN 113901107A CN 202111176684 A CN202111176684 A CN 202111176684A CN 113901107 A CN113901107 A CN 113901107A
- Authority
- CN
- China
- Prior art keywords
- data
- sensitivity
- current
- combined
- sensitivity level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了自动识别和筛选的数据分级细化方法及装置,将当前数据进行元数据管理,生成并存储为对应的元数据;根据预先制定的敏感信息分级标准对元数据里的每一个数据字段进行分级,得到每一个数据字段的敏感等级;将处于当前敏感等级中的所有数据字段依次作为检索数据,根据数据之间的相关性获取每一个检索数据的关联数据,将检索数据与其对应的低敏感关联数据组合检索,判断其是否能获取到检索数据所对应的高敏感关联数据,若是,则将其作为限制组合数据,并设置限制组合数据的敏感等级与所获取到的高敏感关联数据为同一敏感等级。本发明能避免部分的低敏感数据的组合使用会间接导致高敏感数据的泄露,以提高数据的安全保护。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种自动识别和筛选的数据分级细化方法及装置。
背景技术
高价值的数据显然需要更严格的保护机制。如果没有实时的数据分类和管控,组织可能低估或高估数据集的价值,导致不准确的风险评估。错误管理将带来安全隐患,甚至发生关键数据泄露事件。而对所有数据都施以最高级别的保护,毫无疑问会造成巨大浪费,高额成本难以承受,由此对数据进行分类分级是很有必要的。
其中,数据分级是根据数据使用过程中的敏感程度对数据进行分级,由此得到不同级别的敏感数据,进而为不同级别的敏感数据提供不同程度的安全防护。而现有的敏感数据包括有法律层面上的公共敏感数据、行业层面上的行业敏感数据以及企业内部层面的企业敏感数据,前两者依据法律规定和行业标准进行筛选,后者则由企业自身以及企业业务进行筛选,但无论是哪种类型的敏感数据,现有都是基于数据本身是否属于敏感数据来判断,存在部分的非敏感数据会间接导致敏感数据的泄露,无法真正实现的数据安全保护。
发明内容
本发明所要解决的技术问题是:提供一种自动识别和筛选的数据分级细化方法及装置,以提高数据的安全保护。
为了解决上述技术问题,本发明采用的技术方案为:
自动识别和筛选的数据分级细化方法,包括:
步骤S1、将当前数据进行元数据管理,生成并存储为对应的元数据;
步骤S2、根据预先制定的敏感信息分级标准对所述元数据里的每一个数据字段进行分级,得到每一个所述数据字段的敏感等级,所述敏感等级由高到低依次设置有多个;
步骤S3、将处于当前敏感等级中的所有数据字段依次作为检索数据,根据数据之间的相关性获取每一个检索数据的关联数据,将处于所述当前敏感等级以及所述当前敏感等级之下的所有敏感等级中的关联数据设为低敏感关联数据,将处于所述当前敏感等级之上的所有敏感等级中的关联数据设为高敏感关联数据,并对每一个所述检索数据执行步骤S4,所述当前敏感等级为除最高敏感等级之外的其他敏感等级;
步骤S4、将所述检索数据与其对应的所述低敏感关联数据进行排列组合成多个数据检索式,判断基于每一个所述数据检索式在所述当前敏感等级以及所述当前敏感等级之下的所有敏感等级中的所有数据中是否能够获取到所述检索数据所对应的高敏感关联数据,若是,则将获取到所述高敏感关联数据的所述数据检索式作为限制组合数据,并设置所述限制组合数据的敏感等级与所获取到的所述高敏感关联数据为同一敏感等级。
为了解决上述技术问题,本发明采用的另一种技术方案为:
自动识别和筛选的数据分级细化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的自动识别和筛选的数据分级细化方法中的步骤。
本发明的有益效果在于:自动识别和筛选的数据分级细化方法及装置,在对将当前数据进行元数据管理得到了对应的数据字段,根据预先制定的敏感信息分级标准对所述元数据里的每一个数据字段进行分级,得到每一个数据字段的敏感等级;在此基础上,通过数据之间的相关性来筛选出有可能组合的低敏感数据以及有可能生成的高敏感数据,从而减少后续处理过程的数据量,保证了数据分级过程的实时性,之后将处于低敏感等级中的数据字段进行组合来判断其是否能够获取到高敏感等级中的数据,在能够获取的时候,将组合的数据检索式作为限制组合数据,并设置限制组合数据的敏感等级与所获取到的高敏感关联数据为同一敏感等级,从而避免部分的低敏感数据的组合使用会间接导致高敏感数据的泄露,以提高数据的安全保护。
附图说明
图1为本发明实施例的自动识别和筛选的数据分级细化方法的流程示意图;
图2为本发明实施例的自动识别和筛选的数据分级细化装置的结构示意图。
标号说明:
1、自动识别和筛选的数据分级细化装置;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,自动识别和筛选的数据分级细化方法,包括:
步骤S1、将当前数据进行元数据管理,生成并存储为对应的元数据;
步骤S2、根据预先制定的敏感信息分级标准对所述元数据里的每一个数据字段进行分级,得到每一个所述数据字段的敏感等级,所述敏感等级由高到低依次设置有多个;
步骤S3、将处于当前敏感等级中的所有数据字段依次作为检索数据,根据数据之间的相关性获取每一个检索数据的关联数据,将处于所述当前敏感等级以及所述当前敏感等级之下的所有敏感等级中的关联数据设为低敏感关联数据,将处于所述当前敏感等级之上的所有敏感等级中的关联数据设为高敏感关联数据,并对每一个所述检索数据执行步骤S4,所述当前敏感等级为除最高敏感等级之外的其他敏感等级;
步骤S4、将所述检索数据与其对应的所述低敏感关联数据进行排列组合成多个数据检索式,判断基于每一个所述数据检索式在所述当前敏感等级以及所述当前敏感等级之下的所有敏感等级中的所有数据中是否能够获取到所述检索数据所对应的高敏感关联数据,若是,则将获取到所述高敏感关联数据的所述数据检索式作为限制组合数据,并设置所述限制组合数据的敏感等级与所获取到的所述高敏感关联数据为同一敏感等级。
从上述描述可知,本发明的有益效果在于:在对将当前数据进行元数据管理得到了对应的数据字段,根据预先制定的敏感信息分级标准对所述元数据里的每一个数据字段进行分级,得到每一个数据字段的敏感等级;在此基础上,通过数据之间的相关性来筛选出有可能组合的低敏感数据以及有可能生成的高敏感数据,从而减少后续处理过程的数据量,保证了数据分级过程的实时性,之后将处于低敏感等级中的数据字段进行组合来判断其是否能够获取到高敏感等级中的数据,在能够获取的时候,将组合的数据检索式作为限制组合数据,并设置限制组合数据的敏感等级与所获取到的高敏感关联数据为同一敏感等级,从而避免部分的低敏感数据的组合使用会间接导致高敏感数据的泄露,以提高数据的安全保护。
进一步地,所述步骤S4具体包括以下:
步骤S41、将所述检索数据与其对应的所述低敏感关联数据进行排列组合成多个数据检索式;
步骤S42、判断每一个所述数据检索式里的所有数据是否能组合为所述检索数据所对应的高敏感关联数据,若是,则执行步骤S44,否则执行步骤S43;
步骤S43、判断每一个所述数据检索式在所述当前敏感等级以及所述当前敏感等级之下的所有敏感等级中的所有数据中是否能检索到所述检索数据所对应的高敏感关联数据,若是,则执行步骤S44;
步骤S44、将能得到所述高敏感关联数据的所述数据检索式作为限制组合数据,并设置所述限制组合数据的敏感等级与所获取到的所述高敏感关联数据为同一敏感等级。
从上述描述可知,若根据多个低敏感数据就能组合得到为高敏感数据,则当前用户获取到对应的多个低敏感数据,就可以直接获取到超过自身应用权限的高敏感数据;而若通过自身的简单检索就可以直接获取到高敏感数据,则同样存在高敏感数据被没有授权的用户所直接就获取到,从而导致高敏感数据的泄露,由此,两者都需要进行限制被同时获取,以提高数据的安全保护。
进一步地,所述步骤S4之后还包括以下:
步骤S51、接收当前用户的数据请求,根据所述数据请求获取到所请求的第一数据字段和所对应的第一敏感等级;
步骤S52、获取所述当前用户的应用权限,判断所述应用权限是否符合所述第一敏感等级,若是,则执行步骤S53,否则直接返回数据获取权限不足提示信息;
步骤S53、判断所述第一数据字段是否为所述限制组合数据的一部分,若是则执行步骤S54,否则直接返回所述第一数据字段;
步骤S54、判断在预设时间内所述当前用户是否同时获取所述第一数据字段所在的所述限制组合数据内的其他数据字段,若是,则执行步骤S55,否则直接返回所述第一数据字段;
步骤S55、返回数据获取权限不足提示信息以及临时授权等待信息,并将所述当前用户的账号信息、所述数据请求所对应的请求业务、所述第一数据字段、所述当前用户所获取到的同一所述限制组合数据内的其他数据字段以及所对应的所述限制组合数据能够获取到的高敏感关联数据发送给所述限制组合数据的敏感等级的权限审核端,以使得所述权限审核端根据所述请求业务和所述账号信息判断所述当前用户获取所述第一数据字段和对应的所述其他数据字段是否合法以及根据对应的所述高敏感关联数据判断是否允许所述当前用户获取,判断是否接收到所述权限审核端的临时授权信息,若是,则将所述第一数据字段返回给所述当前用户,否则返回临时授权失败提示信息。
从上述描述可知,在需要获取限制组合数据时,由权限审核端的用户进行判断当前用户所进行的业务工作是否需求限制组合数据的所有数据字段并且判断当前用户是否会基于所获取到的数据字段去获取高敏感关联数据,从而使得在实际业务确实需求限制组合数据时,能够在不影响正常的业务操作下实现数据的安全保护。
进一步地,所述步骤S54具体包括以下步骤:
判断在预设时间内所述当前用户是否同时获取所述第一数据字段所在的所述限制组合数据内的其他数据字段,若是,则判断所述限制组合数据的类型是包含的多个数据字段直接就可以组合成高敏感关联数据的第一类型还是包含的多个数据字段需要通过检索才能得到高敏感关联数据的第二类型,若为第二类型,则执行步骤S55,若为第一类型,则返回数据获取权限不足提示信息,若是为未同时获取对应的其他数据字段,则直接返回所述第一数据字段。
从上述描述可知,若为直接组合就可以获取到,其高敏感数据的泄露风险较大,由此,可以直接设定这样的限制组合数据是不被允许获取,而对于需要通过检索才能得到高敏感数据的限制组合数据来说,其高敏感数据的泄露风险较小,可以在业务需求的时候进行获取以实现数据的安全保护。
进一步地,所述步骤S4中所述当前敏感等级之下的所有敏感等级中的所有数据包括公开的搜索引擎下的所有数据。
从上述描述可知,即应当考虑当前用户在自身权限下所能合法得到的所有数据,包括从现有的各种浏览器上各种网站所能获取到的数据。
进一步地,所述步骤S1具体包括以下步骤:
通过端口扫描和特征发现得到系统网段内存在的数据库列表以及所分布的IP,从而获得数据库数据清单,对所述数据库数据清单里的全量数据进行元数据管理,生成并存储为对应的元数据。
从上述描述可知,即实现对数据的全量分级,适用于刚接入系统时对于系统沉积的多年数据进行主动且有效的数据分级。
进一步地,所述步骤S1具体包括以下步骤:
实时接收当前数据,将所述当前数据进行元数据管理,生成并存储为对应的元数据。
从上述描述可知,在进行一次全量分级之后,后续的当前数据可以实时进行分级,以实现对数据的实时安全保护。
进一步地,所述步骤S2具体包括以下步骤:
根据预先制定的敏感信息分级标准训练生成一敏感信息分级模型,根据所述敏感信息分级模型对所述元数据里的每一个数据字段进行分级,得到每一个所述数据字段的敏感等级,所述敏感等级由高到低依次设置有多个。
从上述描述可知,即通过机器学习的方式进行分级,以减轻人工负担。
进一步地,若所述步骤S4中的某一数据检索式在历史记录中已存在,则这一数据检索式不进行后续的判断。
从上述描述可知,通过避重设计,以减少重复处理所带来的计算资源的损耗且能提高数据处理的速度。
请参照图2,自动识别和筛选的数据分级细化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一所述的自动识别和筛选的数据分级细化方法中的步骤。
从上述描述可知,本发明的有益效果在于:在对将当前数据进行元数据管理得到了对应的数据字段,根据预先制定的敏感信息分级标准对所述元数据里的每一个数据字段进行分级,得到每一个数据字段的敏感等级;在此基础上,通过数据之间的相关性来筛选出有可能组合的低敏感数据以及有可能生成的高敏感数据,从而减少后续处理过程的数据量,保证了数据分级过程的实时性,之后将处于低敏感等级中的数据字段进行组合来判断其是否能够获取到高敏感等级中的数据,在能够获取的时候,将组合的数据检索式作为限制组合数据,并设置限制组合数据的敏感等级与所获取到的高敏感关联数据为同一敏感等级,从而避免部分的低敏感数据的组合使用会间接导致高敏感数据的泄露,以提高数据的安全保护。
请参照图1,本发明的实施例一为:
自动识别和筛选的数据分级细化方法,包括:
步骤S1、将当前数据进行元数据管理,生成并存储为对应的元数据;
在本实施例中,若为接入系统的首次数据分级,则步骤S1具体包括以下步骤:
通过端口扫描和特征发现得到系统网段内存在的数据库列表以及所分布的IP,从而获得数据库数据清单,对数据库数据清单里的全量数据进行元数据管理,生成并存储为对应的元数据。
在本实施例中,若为后续对新产生的数据进行分级,则步骤S1具体包括以下步骤:
实时接收当前数据,将当前数据进行元数据管理,生成并存储为对应的元数据。
步骤S2、根据预先制定的敏感信息分级标准对元数据里的每一个数据字段进行分级,得到每一个数据字段的敏感等级,敏感等级由高到低依次设置有多个;
在本实施例中,步骤S2具体包括以下步骤:
根据预先制定的敏感信息分级标准训练生成一敏感信息分级模型,根据敏感信息分级模型对元数据里的每一个数据字段进行分级,得到每一个数据字段的敏感等级,敏感等级由高到低依次设置有多个。
其中,敏感数据包括有法律层面上的公共敏感数据、行业层面上的行业敏感数据以及企业内部层面的企业敏感数据,以公共敏感数据来说,比如《信息安全技术公共及商用服务信息系统个人信息保护指南》中明确了“一旦遭到泄露或修改,会对标识的个人信息主体造成不良影响的个人信息。各行业个人敏感信息的具体内容根据接受服务的个人信息主体意愿和各自业务特点确定。例如个人敏感信息可以包括身份证号码、手机号码、种族、政治观点、宗教信仰、基因、指纹等”。由此,无论是公共敏感数据、行业敏感数据以及企业敏感数据,都需要根据监管要求或者自身要求制定出一份敏感信息分级标准,之后将现有数据进行人工打标之后进行机器学习,以生成一能够自动识别出敏感数据并自动筛选出对应的敏感等级的敏感信息分级模型。
在本实施例中,敏感等级为四类,比如极敏感级、敏感级、较敏感级以及低敏感级。其中,以极敏感级为例,则包括了实体身份证明、用户私密资料以及用户密码及密码关联信息等。由此,在实际应用过程中,可以根据自身需求设置3-5个的敏感等级以进行数据分级。
步骤S3、将处于当前敏感等级中的所有数据字段依次作为检索数据,根据数据之间的相关性获取每一个检索数据的关联数据,将处于当前敏感等级以及当前敏感等级之下的所有敏感等级中的关联数据设为低敏感关联数据,将处于当前敏感等级之上的所有敏感等级中的关联数据设为高敏感关联数据,并对每一个检索数据执行步骤S4,当前敏感等级为除最高敏感等级之外的其他敏感等级;
其中,极敏感级作为最高敏感等级,则其管理措施已经是最高的防控级别,因此,不存在比极敏感级还要高的敏感等级,因此无需进行组合数据的敏感等级的判断。由此也可以知道,上述的高、低敏感是相对于这一个数据字段所对应的数据字段依来说,其实质上是个参考用词,比如,当前敏感等级为敏感级,则敏感级、较敏感级以及低敏感级的关联数据都为低敏感关联数据,而极敏感级的关联数据设为高敏感关联数据。
步骤S4、将检索数据与其对应的低敏感关联数据进行排列组合成多个数据检索式,判断基于每一个数据检索式在当前敏感等级以及当前敏感等级之下的所有敏感等级中的所有数据中是否能够获取到检索数据所对应的高敏感关联数据,若是,则将获取到高敏感关联数据的数据检索式作为限制组合数据,并设置限制组合数据的敏感等级与所获取到的高敏感关联数据为同一敏感等级。
在本实施例中,步骤S4具体包括以下:
步骤S41、将检索数据与其对应的低敏感关联数据进行排列组合成多个数据检索式;
其中,排列组合出来的数据字段的数量为两个、三个甚至是更多个均可,根据实际需求进行设置即可。
步骤S42、判断每一个数据检索式里的所有数据是否能组合为检索数据所对应的高敏感关联数据,若是,则执行步骤S44,否则执行步骤S43;
其中,以某一打车软件为准,在某些地方显示的用户手机号码的前七位而对于后四位则打*号来表示,而在用户需要登车时则需要输入后四位数字进行确认,而两个数据字段在实际过程中因为都进行了脱敏处理,因此对应的级别较低为低敏感级,但是两者组合起来便可以直接得到用户手机号码,而用户手机号码是属于敏感级的,因此,在打车软件的这两个不同地方输入的数据字段即为限制组合数据。
另外,比如车辆行驶记录和对应到某个乘客的上下车记录,其中,乘客的地址信息是属于敏感级的,上下车地点是较敏感级,上下车时间为低敏感级,而通过司机的车辆行驶记录和对应的乘客的上下车时间就可以得到这个乘客的上下车地点,通过对一个乘客的所有上下车地点分析就可以得到敏感级的地址信息,因此,司机的车辆行驶记录和对应的乘客的上下车时间是限制组合数据。
步骤S43、判断每一个数据检索式在当前敏感等级以及当前敏感等级之下的所有敏感等级中的所有数据中是否能检索到检索数据所对应的高敏感关联数据,若是,则执行步骤S44;
其中,当前敏感等级之下的所有敏感等级中的所有数据包括公开的搜索引擎下的所有数据,比如通过百度能够检索到的数据。
其中,对于某一打车软件来说,用户的宗教信仰是极敏感级,上下车地点是较敏感级,而某一用户在不同的上下车地点在百度中检索到附近都存在与某一宗教关联的场所,比如交流会、办事处、会展等等,则这些关联的上下车地点就构成一个限制组合数据。其中,这与上面的直接组合得到的区别在于,比如上下车地点是某大厦,只是在这个大厦里有这一宗教关联的场所,那么这个大厦同样还有许多场所,而单纯的看这些上下车地点并不能直接得到其宗教信仰,需要对这些上下车地点基于公开的资料进行检索分析才能推论出来。
由此可知,通过检索才能获取到的高敏感关联数据来说,其本身数据不能直接得到高敏感关联数据,相对来说,高敏感关联数据的泄露可能性较小,风险较低。
其中,如果某一数据检索式在历史记录中已存在,则这一数据检索式不进行后续的判断,这是因为关联数据则必然包含了多个数据字段,由此,在遍历过程中,后一个遍历到的数据字段的同样数据检索式在之前已经进行判断分级过了就无需再进行再次的判断分级。
步骤S44、将能得到高敏感关联数据的数据检索式作为限制组合数据,并设置限制组合数据的敏感等级与所获取到的高敏感关联数据为同一敏感等级。
其中,如上,在打车软件的这两个不同地方输入的数据字段即为限制组合数据,该限制组合数据的敏感等级与用户手机号码一样属于敏感级,以此类推。
进一步地,步骤S4之后还包括以下:
步骤S51、接收当前用户的数据请求,根据数据请求获取到所请求的第一数据字段和所对应的第一敏感等级;
步骤S52、获取当前用户的应用权限,判断应用权限是否符合第一敏感等级,若是,则执行步骤S53,否则直接返回数据获取权限不足提示信息;
步骤S53、判断第一数据字段是否为限制组合数据的一部分,若是则执行步骤S54,否则直接返回第一数据字段;
步骤S54、判断在预设时间内当前用户是否同时获取第一数据字段所在的限制组合数据内的其他数据字段,若是,则执行步骤S55,否则直接返回第一数据字段;
其中,步骤S54具体包括以下步骤:
判断在预设时间内当前用户是否同时获取第一数据字段所在的限制组合数据内的其他数据字段,若是,则判断限制组合数据的类型是包含的多个数据字段直接就可以组合成高敏感关联数据的第一类型还是包含的多个数据字段需要通过检索才能得到高敏感关联数据的第二类型,若为第二类型,则执行步骤S55,若为第一类型,则返回数据获取权限不足提示信息,若是为未同时获取对应的其他数据字段,则直接返回第一数据字段。
以上述在打车软件的两个不同地方输入的数据字段能构成用户手机号码为例。对于软件用户来说其肯定是不能获取到这些数据,而后台开发人员对于这个打车软件则有一定的权限,对于低敏感级的这两个数据字段都有权限获取,在实际的开发应用过程中,如果后台开发人员在一天内同时获取到这两个数据字段,由于这两个数据字段是直接可以组合成用户手机号码,因此,若是刚获取其中第一个数据字段,则会返回第一数据字段,而在获取第二个数据字段时返回数据获取权限不足提示信息。
其中,预设时间可以为1-5天内。
当然,在其他实施例中,可以不考虑这种组合类型,即遇到限制组合数据都直接执行步骤S55进行权限管控即可。
步骤S55、返回数据获取权限不足提示信息以及临时授权等待信息,并将当前用户的账号信息、数据请求所对应的请求业务、第一数据字段、当前用户所获取到的同一限制组合数据内的其他数据字段以及所对应的限制组合数据能够获取到的高敏感关联数据发送给限制组合数据的敏感等级的权限审核端,以使得权限审核端根据请求业务和账号信息判断当前用户获取第一数据字段和对应的其他数据字段是否合法以及根据对应的高敏感关联数据判断是否允许当前用户获取,判断是否接收到权限审核端的临时授权信息,若是,则将第一数据字段返回给当前用户,否则返回临时授权失败提示信息。
其中,当权限审核端的用户进行判断当前用户所进行的业务工作确实需求限制组合数据的所有数据字段并且判断当前用户不会基于所获取到的数据字段去获取高敏感关联数据,权限审核端允许开发人员使用这些数据进行软件优化,从而使得在实际业务确实需求限制组合数据时,能够在不影响正常的业务操作下实现数据的安全保护。其中,权限审核端可以依据不同的部门对应设置,以使得权限审核端能够准确的判断出部门人员的实际开发过程中是否真的存在获取限制组合数据的所有数据字段的工作需求。
由此,避免部分的低敏感数据的组合使用会间接导致高敏感数据的泄露,不仅对数据的分级进一步细化,同时提高了数据的安全保护。
请参照图1,本发明的实施例二为:
自动识别和筛选的数据分级细化方法,在上述实施例一的基础上,步骤S54之前还包括以下步骤:
从包括内部通讯软件的历史记录、会议内容记录以及项目合作记录的内部电子资料获取到待分析的两个用户之间的历史关联资料;
对历史关联资料的所有词汇进行自动情感分析,并依据历史关联资料的每一个词汇的出处和与当前时间的间隔时间长短对每一个词汇赋予不同的权重比值,结合每一个词汇的情感分析结果和其对应的权重比值计算两个用户之间的关系亲密程度;
将关系亲密程度超过预设亲密阈值的两个用户之间标记为亲密用户。
在本实施例中,不同出处的资料的权重比值依据用户所处环境的正式程度的增加而减少,具体包括如下:内部通讯软件的历史记录、会议内容记录以及项目合作记录的权重比值依次递减,内部通讯软件的历史记录中私聊界面资料比群聊界面资料的权重比值要高,同时,私聊界面资料和群聊界面资料的权重比值随着所包含的对象职务的增高而减小。
同时,在同一出处中的每一个词汇的权重比值随着间隔时间的增加而减小。
在本实施例中,步骤S54和步骤S55替换为以下步骤:
步骤S54、判断在预设时间内当前用户或者与当前用户对应的亲密用户是否同时获取第一数据字段所在的限制组合数据内的其他数据字段,若是,则判断限制组合数据的类型是包含的多个数据字段直接就可以组合成高敏感关联数据的第一类型还是包含的多个数据字段需要通过检索才能得到高敏感关联数据的第二类型,若为第二类型,则执行步骤S55,若为第一类型,则返回数据获取权限不足提示信息,若是为未同时获取对应的其他数据字段,则直接返回第一数据字段。
步骤S55、返回数据获取权限不足提示信息以及临时授权等待信息,若为当前用户同时获取第一数据字段所在的限制组合数据内的其他数据字段,则并将当前用户的账号信息、数据请求所对应的请求业务、第一数据字段、当前用户所获取到的同一限制组合数据内的其他数据字段以及所对应的限制组合数据能够获取到的高敏感关联数据发送给限制组合数据的敏感等级的权限审核端,以使得权限审核端根据请求业务和账号信息判断当前用户获取第一数据字段和对应的其他数据字段是否合法以及根据对应的高敏感关联数据判断是否允许当前用户获取,判断是否接收到权限审核端的临时授权信息,若是,则将第一数据字段返回给当前用户,否则返回临时授权失败提示信息;
若为亲密用户同时获取第一数据字段所在的限制组合数据内的其他数据字段,则并将当前用户的账号信息、数据请求所对应的请求业务、第一数据字段、亲密用户的账号信息、亲密用户所获取到的同一限制组合数据内的其他数据字段、其他数据字段所对应的其他业务以及所对应的限制组合数据能够获取到的高敏感关联数据发送给限制组合数据的敏感等级的权限审核端,以使得权限审核端根据请求业务和当前用户的账号信息判断当前用户获取第一数据字段是否合法、根据其他业务和亲密用户的账号信息判断亲密用户获取其他数据字段是否合法以及根据对应的高敏感关联数据判断是否允许当前用户和亲密用户获取,判断是否接收到权限审核端的临时授权信息,若是,则将第一数据字段返回给当前用户,否则返回临时授权失败提示信息;
由此,对于内部员工之间的亲密程度进行分析,对于两个亲密度较高且在预设时间内获取限制组合数据的不同数据字段来说,存在串谋以盗取高敏感信息的可能性,因此,本实施例加入亲密用户来限定限制组合数据的同时,以进一步减少高敏感信息的泄露风险,同时,两者就算被允许同时获取到对应的数据字段,此处也相当于进行了一次风险记录,以在后续出现高敏感信息泄露时能够依据风险记录快速准确的找到泄密者。
请参照图2,本发明的实施例三为:
自动识别和筛选的数据分级细化装置1,包括存储器3、处理器2及存储在存储器3上并可在处理器2上运行的计算机程序,处理器2执行计算机程序时实现上述实施例一或二的步骤。
综上所述,本发明提供的一种自动识别和筛选的数据分级细化方法及装置,在对将当前数据进行元数据管理得到了对应的数据字段,根据预先制定的敏感信息分级标准对所述元数据里的每一个数据字段进行分级,得到每一个数据字段的敏感等级;在此基础上,通过数据之间的相关性来筛选出有可能组合的低敏感数据以及有可能生成的高敏感数据,从而减少后续处理过程的数据量,保证了数据分级过程的实时性,之后将处于低敏感等级中的数据字段进行直接组合或者组合检索来判断其是否能够获取到高敏感等级中的数据,在能够获取的时候,将组合的数据检索式作为限制组合数据,并设置限制组合数据的敏感等级与所获取到的高敏感关联数据为同一敏感等级,之后在需要获取限制组合数据时,由权限审核端的用户进行判断当前用户所进行的业务工作是否需求限制组合数据的所有数据字段并且判断当前用户是否会基于所获取到的数据字段去获取高敏感关联数据,从而使得在实际业务确实需求限制组合数据时,能够在不影响正常的业务操作下实现数据的安全保护,不仅对数据的分级进一步细化,同时避免部分的低敏感数据的组合使用会间接导致高敏感数据的泄露,以进一步提高了数据的安全保护。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种自动识别和筛选的数据分级细化方法,其特征在于,包括:
步骤S1、将当前数据进行元数据管理,生成并存储为对应的元数据;
步骤S2、根据预先制定的敏感信息分级标准对所述元数据里的每一个数据字段进行分级,得到每一个所述数据字段的敏感等级,所述敏感等级由高到低依次设置有多个;
步骤S3、将处于当前敏感等级中的所有数据字段依次作为检索数据,根据数据之间的相关性获取每一个检索数据的关联数据,将处于所述当前敏感等级以及所述当前敏感等级之下的所有敏感等级中的关联数据设为低敏感关联数据,将处于所述当前敏感等级之上的所有敏感等级中的关联数据设为高敏感关联数据,并对每一个所述检索数据执行步骤S4,所述当前敏感等级为除最高敏感等级之外的其他敏感等级;
步骤S4、将所述检索数据与其对应的所述低敏感关联数据进行排列组合成多个数据检索式,判断基于每一个所述数据检索式在所述当前敏感等级以及所述当前敏感等级之下的所有敏感等级中的所有数据中是否能够获取到所述检索数据所对应的高敏感关联数据,若是,则将获取到所述高敏感关联数据的所述数据检索式作为限制组合数据,并设置所述限制组合数据的敏感等级与所获取到的所述高敏感关联数据为同一敏感等级。
2.根据权利要求1所述的自动识别和筛选的数据分级细化方法,其特征在于,所述步骤S4具体包括以下:
步骤S41、将所述检索数据与其对应的所述低敏感关联数据进行排列组合成多个数据检索式;
步骤S42、判断每一个所述数据检索式里的所有数据是否能组合为所述检索数据所对应的高敏感关联数据,若是,则执行步骤S44,否则执行步骤S43;
步骤S43、判断每一个所述数据检索式在所述当前敏感等级以及所述当前敏感等级之下的所有敏感等级中的所有数据中是否能检索到所述检索数据所对应的高敏感关联数据,若是,则执行步骤S44;
步骤S44、将能得到所述高敏感关联数据的所述数据检索式作为限制组合数据,并设置所述限制组合数据的敏感等级与所获取到的所述高敏感关联数据为同一敏感等级。
3.根据权利要求1所述的自动识别和筛选的数据分级细化方法,其特征在于,所述步骤S4之后还包括以下:
步骤S51、接收当前用户的数据请求,根据所述数据请求获取到所请求的第一数据字段和所对应的第一敏感等级;
步骤S52、获取所述当前用户的应用权限,判断所述应用权限是否符合所述第一敏感等级,若是,则执行步骤S53,否则直接返回数据获取权限不足提示信息;
步骤S53、判断所述第一数据字段是否为所述限制组合数据的一部分,若是则执行步骤S54,否则直接返回所述第一数据字段;
步骤S54、判断在预设时间内所述当前用户是否同时获取所述第一数据字段所在的所述限制组合数据内的其他数据字段,若是,则执行步骤S55,否则直接返回所述第一数据字段;
步骤S55、返回数据获取权限不足提示信息以及临时授权等待信息,并将所述当前用户的账号信息、所述数据请求所对应的请求业务、所述第一数据字段、所述当前用户所获取到的同一所述限制组合数据内的其他数据字段以及所对应的所述限制组合数据能够获取到的高敏感关联数据发送给所述限制组合数据的敏感等级的权限审核端,以使得所述权限审核端根据所述请求业务和所述账号信息判断所述当前用户获取所述第一数据字段和对应的所述其他数据字段是否合法以及根据对应的所述高敏感关联数据判断是否允许所述当前用户获取,判断是否接收到所述权限审核端的临时授权信息,若是,则将所述第一数据字段返回给所述当前用户,否则返回临时授权失败提示信息。
4.根据权利要求3所述的自动识别和筛选的数据分级细化方法,其特征在于,所述步骤S54具体包括以下步骤:
判断在预设时间内所述当前用户是否同时获取所述第一数据字段所在的所述限制组合数据内的其他数据字段,若是,则判断所述限制组合数据的类型是包含的多个数据字段直接就可以组合成高敏感关联数据的第一类型还是包含的多个数据字段需要通过检索才能得到高敏感关联数据的第二类型,若为第二类型,则执行步骤S55,若为第一类型,则返回数据获取权限不足提示信息,若是为未同时获取对应的其他数据字段,则直接返回所述第一数据字段。
5.根据权利要求1所述的自动识别和筛选的数据分级细化方法,其特征在于,所述步骤S4中所述当前敏感等级之下的所有敏感等级中的所有数据包括公开的搜索引擎下的所有数据。
6.根据权利要求1所述的自动识别和筛选的数据分级细化方法,其特征在于,所述步骤S1具体包括以下步骤:
通过端口扫描和特征发现得到系统网段内存在的数据库列表以及所分布的IP,从而获得数据库数据清单,对所述数据库数据清单里的全量数据进行元数据管理,生成并存储为对应的元数据。
7.根据权利要求1所述的自动识别和筛选的数据分级细化方法,其特征在于,所述步骤S1具体包括以下步骤:
实时接收当前数据,将所述当前数据进行元数据管理,生成并存储为对应的元数据。
8.根据权利要求1所述的自动识别和筛选的数据分级细化方法,其特征在于,所述步骤S2具体包括以下步骤:
根据预先制定的敏感信息分级标准训练生成一敏感信息分级模型,根据所述敏感信息分级模型对所述元数据里的每一个数据字段进行分级,得到每一个所述数据字段的敏感等级,所述敏感等级由高到低依次设置有多个。
9.根据权利要求1所述的自动识别和筛选的数据分级细化方法,其特征在于,若所述步骤S4中的某一数据检索式在历史记录中已存在,则这一数据检索式不进行后续的判断。
10.自动识别和筛选的数据分级细化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一所述的自动识别和筛选的数据分级细化方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111176684.7A CN113901107A (zh) | 2021-10-09 | 2021-10-09 | 自动识别和筛选的数据分级细化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111176684.7A CN113901107A (zh) | 2021-10-09 | 2021-10-09 | 自动识别和筛选的数据分级细化方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901107A true CN113901107A (zh) | 2022-01-07 |
Family
ID=79190797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111176684.7A Pending CN113901107A (zh) | 2021-10-09 | 2021-10-09 | 自动识别和筛选的数据分级细化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901107A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094722A (zh) * | 2023-10-19 | 2023-11-21 | 深圳薪汇科技有限公司 | 一种线上支付的安全监理方法及系统 |
-
2021
- 2021-10-09 CN CN202111176684.7A patent/CN113901107A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094722A (zh) * | 2023-10-19 | 2023-11-21 | 深圳薪汇科技有限公司 | 一种线上支付的安全监理方法及系统 |
CN117094722B (zh) * | 2023-10-19 | 2024-01-30 | 深圳薪汇科技有限公司 | 一种线上支付的安全监理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295034B2 (en) | System and methods for privacy management | |
US20050273453A1 (en) | Systems, apparatus and methods for performing criminal background investigations | |
US11068522B2 (en) | System to determine a credibility weighting for electronic records | |
CN110851872B (zh) | 针对隐私数据泄漏的风险评估方法及装置 | |
CN109617781B (zh) | 即时通讯消息监控方法、装置、计算机设备和存储介质 | |
CN111625809B (zh) | 数据授权方法及装置、电子设备、存储介质 | |
CN111553318A (zh) | 敏感信息提取方法、裁判文书处理方法、装置和电子设备 | |
CN102870110A (zh) | 文档登记系统 | |
CN113901107A (zh) | 自动识别和筛选的数据分级细化方法及装置 | |
CN115080827A (zh) | 一种敏感数据处理方法及装置 | |
CN109871211B (zh) | 信息展示方法和装置 | |
CN114640499A (zh) | 一种对用户行为进行异常识别的方法及其装置 | |
CN110866700A (zh) | 确定企业员工信息泄露源的方法及装置 | |
CN115618120B (zh) | 一种公众号信息推送方法、系统、终端设备及存储介质 | |
CN111046382A (zh) | 数据库审计方法、设备、存储介质及装置 | |
CN114356896B (zh) | 一种数据库检测方法及装置 | |
CN113904828B (zh) | 接口的敏感信息检测方法、装置、设备、介质和程序产品 | |
CN111651753A (zh) | 用户行为分析系统及方法 | |
JP7282715B2 (ja) | 評価装置、評価方法及び評価プログラム | |
US20230083977A1 (en) | Method and apparatus for identifying a logic defect in an application | |
CN117195183B (zh) | 一种数据安全合规风险评估系统 | |
CN116150541B (zh) | 后台系统的识别方法、装置、设备及存储介质 | |
CN115422216A (zh) | 目标评估数据的确定方法、装置、设备及介质 | |
CN118094546A (zh) | 可提升检测精度的代码检测方法、装置、电子设备及介质 | |
Le Tourneau et al. | Code Mapper: Mapping the Global Contributions of OSS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |