CN117786545A - 一种数据分类方法、分类系统、存储介质和计算机设备 - Google Patents

一种数据分类方法、分类系统、存储介质和计算机设备 Download PDF

Info

Publication number
CN117786545A
CN117786545A CN202410218972.1A CN202410218972A CN117786545A CN 117786545 A CN117786545 A CN 117786545A CN 202410218972 A CN202410218972 A CN 202410218972A CN 117786545 A CN117786545 A CN 117786545A
Authority
CN
China
Prior art keywords
data
information
level
classification
lowest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410218972.1A
Other languages
English (en)
Inventor
张彬彬
肖姝
李峰
李志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yusys Technologies Group Co ltd
Original Assignee
Beijing Yusys Technologies Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yusys Technologies Group Co ltd filed Critical Beijing Yusys Technologies Group Co ltd
Priority to CN202410218972.1A priority Critical patent/CN117786545A/zh
Publication of CN117786545A publication Critical patent/CN117786545A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据分类方法、分类系统、存储介质和计算机设备,涉及数据管理领域,该方法包括:根据数据特征设置数据的至少一个分类维度;针对每个分类维度,分别形成对应的自高到低的树形分级目录,为每个最低级目录设置至少两个信息项;针对待分类数据,根据每个分类维度下的最低级目录的各信息项的字段,自待分类数据内识别出与各信息项匹配的字段信息,将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联。针对待分类数据,当存在多个分类维度的情况下,能够将待分类数据在一个或多个最低级目录下进行归类,实现了对待分类数据的归类管理,不会造成海量数据泄漏从而给企业造成严重的不良后果。

Description

一种数据分类方法、分类系统、存储介质和计算机设备
技术领域
本发明涉及数据管理领域,具体涉及一种数据分类方法、分类系统、存储介质和计算机设备。
背景技术
当今处于数字化时代,企业信息化建设一直在高速发展中,以便应对所产生的越来越多的数据,伴随着海量数据的形成,所以需要业务系统存储海量数据。在实现本发明过程中,申请人发现现有技术中至少存在如下问题:但是随着数据的增多,需要对数据进行管理和处理,使得业务系统也越来越复杂。海量数据能够给企业带来巨大的价值,所以如果一旦因为数据分类管理不善则会造成海量数据的丢失和泄漏,从而给企业造成严重的不良后果。如何高效地对现有数据进行分类管理,以及如何实时高效地对新产生的数据进行分类管理,从而实现对数据进行妥当管理和使用,确保数据的安全是急需解决的技术问题。
发明内容
本发明实施例提供一种数据分类方法、分类系统、存储介质和计算机设备,能够解决现有技术中因为数据分类管理不善则会造成海量数据泄漏,从而给企业造成严重的不良后果的技术问题。
为达上述目的,第一方面,本发明实施例提供一种数据分类方法,包括:
根据数据特征设置数据的至少一个分类维度;
针对每个分类维度,分别形成对应的自高到低的树形分级目录,为每个最低级目录设置至少两个信息项;
针对待分类数据,根据每个分类维度下的最低级目录的各信息项的字段,自待分类数据内识别出与各信息项匹配的字段信息,将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联。
第二方面,本发明实施例提供一种数据分类系统,包括:
维度设置单元,用于根据数据特征设置数据的至少一个分类维度;
分级单元,用于针对每个分类维度,分别形成对应的自高到低的树形分级目录,为每个最低级目录设置至少两个信息项;
识别关联单元,用于针对待分类数据,根据每个分类维度下的最低级目录的各信息项的字段,自待分类数据内识别出与各信息项匹配的字段信息,将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联。
第三方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序当被计算机设备执行时,使得计算机设备执行前述的数据分类方法。
第四方面,本发明实施例提供一种计算机设备,包括:
处理器;以及,被安排成存储计算机可执行指令的存储器,可执行指令在被执行时使处理器执行前述的数据分类方法。
上述技术方案具有如下有益效果:针对待分类数据,在存在多个分类维度的情况下,能够将待分类数据在一个或多个最低级目录下进行归类,实现了对待分类数据的归类管理,不会造成海量数据泄漏从而给企业造成严重的不良后果。最终实现了按照一定的颗粒度对数据资产进行合理的梳理、归类和细分,能够对数据进行良好的管理,使得后期能够更合理地规划数据的使用以及对数据的维护。同时人工智能数据分类降低了人工分类的成本,提高了数据管理的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种数据分类方法的流程图;
图2是本发明实施例的一种数据分类系统的结构图;
图3是本发明实施例的一种数据分类和安全访问控制完整逻辑图;
图4是本发明实施例的一种计算机设备的逻辑图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,结合本发明的实施例,提供一种数据分类方法,包括:
S101:根据数据特征设置数据的至少一个分类维度;
S102:针对每个分类维度,分别形成对应的自高到低的树形分级目录,为每个最低级目录设置至少两个信息项;
S103:针对待分类数据,根据每个分类维度下的最低级目录的各信息项的字段,自待分类数据内识别出与各信息项匹配的字段信息,将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联。
根据所管理的数据的类型、特征、规模以及机构特性等因素,以及对所产生的数据的用途、频率和使用场景,确定数据的分类维度,根据分类维度进行细化,为每个分类维度形成自高到低的树形分级目录,便于最终细化到具体的信息项,将信息项与最低级目录绑定,通过多个信息项共同形成一组数据信息。且不同的最低级目录具有自己对应的信息项。针对最低级目录和信息项举例为:最低级目录为个人信息,个人信息的信息项包括:身份证号、个人姓名和法人名称。
每个分级目录采用字段描述表示该分级目录所要承载的分类数据的特征,通过为每个最低级目录分别设置对应的信息项,通过各信息项对应该的字段信息共同形成一段或者一组完整含义的信息,也就是实现了对待分类数据的完整分类管理。
针对待分类数据,在存在多个分类维度的情况下,能够将待分类数据在一个或多个最低级目录下进行归类,实现了对待分类数据的归类管理,不会造成海量数据泄漏从而给企业造成严重的不良后果。根据本发明实施例的技术手段,最终实现了按照一定的颗粒度对数据资产进行合理的梳理、归类和细分,能够对数据进行良好的管理,使得后期能够更合理地规划数据的使用以及对数据的维护。同时人工智能数据分类降低了人工分类的成本,提高了数据管理的效率。
具体地,可根据数据的重要性和价值设置对应的分类维度,为该分类维度设置对应的自高到低的树形分级目录。例如,将对企业决策有重要影响的数据定义为高等价值数据,需要对相应的数据进行更加细致的分类和管理;将对企业决策有中等影响的数据定义为中等价值数据,等等。
可根据数据的处理难度和要求设置对应的分类维度,为该分类维度设置对应的自高到低的树形分级目录。例如,将需要复杂算法和计算资源才能处理的数据定义为高难度数据,需要更加专业的数据处理技术和方法;将不需要复杂算法和计算资源才能处理的数据定义为低难度数据,等等。
可根据数据的特征和属性设置对应的分类维度为该分类维度设置对应的自高到低的树形分级目录。例如,将文本、图像、音频等不同类型的数据定义为不同的存储级别,获取数据时需要采取不同的数据读取方式进行处理。
优选地,该数据分类方法,还包括:
S104:针对待分类数据,将识别规则配置在任务;识别规则包括:信息项、信息项所属的分类维度和信息项所属的最低级目录,S104在S103之前执行;在设置信息项是,为每个信息项对应设置唯一编码;
在任务中配置关联识别规则,通过人工或自动触发方式,均自动自待分类数据内识别出信息项对应的字段信息,提高识别速度,便能够提高整个数据分类工作的速度。
优选地,S103:针对待分类数据,根据每个分类维度下的最低级目录的各信息项的字段,自待分类数据内识别出与各信息项分别匹配的字段信息,将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联,具体包括:
S103-1:触发配置有识别规则的任务,通过配置有识别规则的任务自待分类数据内识别出与各信息项匹配的字段信息,根据待分类数据的特性,可按照按元数据英文字段或者元数据中文字段进行识别;优选地,可利用python对待分类数据做语义识别,从而识别出所有字段信息。
S103-2:将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联,实现将待分类数据的分类管理。
在任务中配置关联识别规则,通过人工或自动触发方式,均自动自待分类数据内识别出信息项对应的字段信息,自动将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联,能够提高整个数据分类工作的速度。
优选地,S103中,将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联,具体包括:
将识别出的字段信息映射到最低级目录下匹配的信息项下,或者在待识别数据内相应的字段信息上标注关联信息,关联信息包括:字段信息所匹配的信息项、所匹配的信息项所属的分类维度、所匹配的信息项所属的最低级目录。
通过映射把识别到的字段信息绑定到相应的信息项上,或者在待识别数据内相应的字段信息上标注关联信息,实现多种方式展示对数据的分类管理。
优选地,该数据分类方法,还包括:
S105:基于信息项所属的最低级目录对应的安全级别,标记所识别出的字段信息的安全级别;
对数据进行安全管理时,为每个最低级目录设置的每个安全级别均都通过自己独特的定级要素进行表示,定级要素能够清楚定义安全级别,也能够清楚表达安全级别,能够方便识别数据的安全级别,也方便对每个安全级别的数据的管理和使用处置,做到更好地保护数据安全,避免数据泄露。例如,将涉及个人隐私、商业机密等敏感数据定义为高安全级别,均需要采取更加严格的数据保护措施,将其他信息定义为低安全级别。
优选地,针对金融业机构等对安全级别要求较高的机构,针对每个分类维度的确定,还可以参照中华人民共和国金融行业标准发布的《金融数据安全数据安全分级指南》,根据金融业机构典型数据定级规则参考表,制定不同分类维度的自高到低的树形分级目录,针对最低级目录绑定不同含义的信息项,来实现安全等级细粒度划分。
S106:基于信息项所属的最低级目录对应的安全级别的高低设置脱敏规则,将符合脱敏规则的安全级别对应的最低级目录内的信息项匹配的字段信息设为敏感字段信息;其中,在脱敏规则内,安全级别低的最低级目录对应的信息项的敏感级别低。
根据信息项的安全级别确定对应的字段信息的敏感程度,安全级别越低,敏感程度越低,安全级别越高,敏感程度越高。所以根据安全级别,可以快速、便捷地确定相应字段信息的安全级别,提高分类工作的速度。在用户查询以及使用数据时,根据安全级别确定对相应的字段信息确定是否进行脱敏处理,以及如何脱敏处理。例如,个人身份信息、财务数据或知识产权可能需要更高级别的保护,安全级别高,属于高敏感字段信息,其他数据安全级别低,则敏感程度低。从而实现根据数据的敏感制定出对该数据的相应的安全措施和访问控制策略。
在用户查询到某个字段信息时,同时能够把其关联的最低级目录、信息项、安全等级和敏感级别(间接连带着脱敏规则)一同查询出来。
其中,同一信息项处于不同的最低级目录时,其安全级别相同或者会存在差异即不同,对应的字段信息的敏感程度也不同。即信息项相同,目录分类不同,安全等级也可能会不一样,对应的字段信息的敏感程度也不同。根据脱敏规则,在用户进行数据查询或者使用时,根据安全级别和脱敏规则对敏感字段信息进行动态掩码。
优选地,该数据分类方法,还包括:
S107:设置用户的数据使用权限级别,根据最低级目录的安全级别将最低级目录匹配到相应的数据使用权限级别;
S108:在用户对识别完毕的数据进行检索时,根据脱敏规则将所检索到的数据内的所有敏感字段信息进行动态掩码处理,形成检索结果进行显示;
S109:当用户需要获取所检索到的数据时,根据用户发起的第一使用申请,返回给与该用户的数据使用权限级别相匹配的数据;其中,在相匹配的数据内,将高于该用户的数据使用权限级别的敏感字段信息进行动态掩码处理;
或者,
S110:当用户需要获取所检索到的数据时,根据用户发起的第二使用申请,按照所检索到的数据内的所有字段信息的最高安全级别进行审批,在审批通过后返回给该用户所检索到的数据的完整版;同时记录该用户的第二使用申请涉及的最高安全级别,记录涉及的敏感字段信息。
对数据制定访问策略,不同用户的数据使用权限级别不同,便于对数据使用的管控,其中,在用户对识别完毕的数据进行检索时,根据脱敏规则将所检索到的数据内全部的敏感字段信息进行动态掩码处理。当用户想要使用所检索到的数据时,则需要提出使用申请,不同用户的数据使用权限级别不同,实现不同数据使用权限级别查看的数据不同。
另外,当用户没有数据使用权限级别时,按其所在部门进行统一管控;当所在部门也无权限时,按部门所在机构进行统一管控;从而实现数据使用安全。
优选地,提供可视化的分类分级管理工具,可以方便用户进行数据的分类分级操作和管理。提供直观的用户界面和易于操作的管理工具,从而降低了用户的学习成本和工作量。
优选地,在设置分类维度之前,根据数据对决策、流程或系统功能的影响程度,评估使用的各种数据,并确定其对业务运作的重要性。对于关键业务数据,应特别关注其安全性和准确性。
优选地,针对所有数据,确定数据的完整性要求,采用数据验证、数据校验和错误处理机制等措施,确保数据的准确性、完整性和一致性,同时确保数据在采集、传输和存储过程中不会丢失或损坏。
优选地,采取数据加密、访问权限控制和身份验证机制等适当的安全措施,确保数据安全不被泄露。
优选地,通过实施灾难恢复计划、备份和恢复机制,确保数据在需要时具有足够的可靠性和可恢复性;满足数据存储和传输的容量和性能需求,以确保数据能被及时访问。
优选地,更合理地使用、维护和扩充数据,并加深数据的辨识度,可以按照以下步骤实施:
基于数据需求分析的结果,制定包括数据收集、存储、处理、传输和维护等方面的数据管理策略,确保数据管理策略能够满足业务需求,并符合数据的合规性和安全性要求。
采用数据备份、恢复、归档和数据生命周期管理等数据维护和更新机制,定期审查和更新数据,清理过期、无效或冗余数据,确保数据的及时性和有效性。
根据业务需求,采用数据采集、数据交换、数据共享和数据集成等方式进行扩充和整合数据,同时确保数据的一致性和兼容性,避免数据孤岛和重复劳动。
采用数据命名规范、数据格式标准、数据分类和标记实现数据标准化,从而提高数据的一致性、可理解性和辨识度,减少数据使用和维护的复杂性。
如图3所示,为本发明实施例的数据分类和安全访问控制完整逻辑图,其中:
一、目标一:对数据资源进行定级,并识别敏感信息,制定访问策略;
资产表对应于识别完毕的数据;
分级识别对应于S103;
识别规则对应于S103:针对待分类数据,根据每个分类维度下的最低级目录的各信息项的字段,自待分类数据内识别出与各信息项匹配的字段信息,还包括:触发配置有识别规则的任务,配置有识别规则的任务用于自待分类数据内识别出与各信息项匹配的字段信息,
脱敏规则与敏感级别呼应,对应于S106;
分级结果对应于S103-2;
人工确认更新标识处于S103-2之后执行;
制定访问策略对应于S107- S110;
分级标识对应于S102,L1-L5为自高到低的树形分级目录。
二、目标二:实现线上流程化的数据资产检索、申请、授权,对应于S107- S110;
其中,访问(UID/AID):在计算机系统中,UID(User ID)和AID(Application ID)通常用来表示用户和应用程序的标识符。这两种标识符都是在系统级别用于唯一标识用户或应用程序的,有助于系统进行权限管理和资源控制。
为使用数据的个人用户设置用户账号即用户ID,为部门用户设置部门账号即部门ID,为机构用户设置机构账号即机构ID。
系统名称和系统标识共同表示数据来源的系统。
三、目标三:对安全访问策略的控制落地,确保用数安全;
ACL(Access Control List,访问权限控制表)针对的是TCP/IP协议的网络层和应用层,基于IP访问控制的技术,本发明实施例的安全访问策略是基于用户权限(角色、机构)与脱敏规则控制,实现不同用户看到不同数据。如:数据分类是基于表的元数据,关联脱敏规则,用户根据权限不同(角色,机构,申请权限)看到数据结果也是不同的。
在用户查询或者申请使用数据时,采用函数和算法实现对敏感字段信息的脱敏规则,其中函数通过函数名称和库类型表示,算法通过算法描述和算法实现表示。
根据制定访问策略对应的S107- S110,通过网关或者相应的工具实施权限控制。
如图2所示,结合本发明的实施例,提供一种数据分类系统,包括:
维度设置单元21,用于根据数据特征设置数据的至少一个分类维度;
分级单元22,用于针对每个分类维度,分别形成对应的自高到低的树形分级目录,为每个最低级目录设置至少两个信息项;
识别关联单元23,用于针对待分类数据,根据每个分类维度下的最低级目录的各信息项的字段,自待分类数据内识别出与各信息项匹配的字段信息,将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联。
根据所管理的数据的类型、特征、规模以及机构特性等因素,以及对所产生的数据的用途、频率和使用场景,确定数据的分类维度,根据分类维度进行细化,为每个分类维度形成自高到低的树形分级目录,便于最终细化到具体的信息项,将信息项与最低级目录绑定,通过多个信息项共同形成一组数据信息。且不同的最低级目录具有自己对应的信息项。针对最低级目录和信息项举例为:最低级目录为个人信息,个人信息的信息项包括:身份证号、个人姓名和法人名称。
每个分级目录采用字段描述表示该分级目录所要承载的分类数据的特征,通过为每个最低级目录分别设置对应的信息项,通过各信息项对应该的字段信息共同形成一段或者一组完整含义的信息,也就是实现了对待分类数据的完整分类管理。
针对待分类数据,在存在多个分类维度的情况下,能够将待分类数据在一个或多个最低级目录下进行归类,实现了对待分类数据的归类管理,不会造成海量数据泄漏从而给企业造成严重的不良后果。根据本发明实施例的技术手段,最终实现了按照一定的颗粒度对数据资产进行合理的梳理、归类和细分,能够对数据进行良好的管理,使得后期能够更合理地规划数据的使用以及对数据的维护。同时人工智能数据分类降低了人工分类的成本,提高了数据管理的效率。
具体地,可根据数据的重要性和价值设置对应的分类维度,为该分类维度设置对应的自高到低的树形分级目录。例如,将对企业决策有重要影响的数据定义为高等价值数据,需要对相应的数据进行更加细致的分类和管理;将对企业决策有中等影响的数据定义为中等价值数据,等等。
可根据数据的处理难度和要求设置对应的分类维度,为该分类维度设置对应的自高到低的树形分级目录。例如,将需要复杂算法和计算资源才能处理的数据定义为高难度数据,需要更加专业的数据处理技术和方法;将不需要复杂算法和计算资源才能处理的数据定义为低难度数据,等等。
可根据数据的特征和属性设置对应的分类维度为该分类维度设置对应的自高到低的树形分级目录。例如,将文本、图像、音频等不同类型的数据定义为不同的存储级别,获取数据时需要采取不同的数据读取方式进行处理。
优选地,该数据分类系统,还包括:
任务配置单元,用于针对待分类数据,将识别规则配置在任务中;识别规则包括:信息项、信息项所属的分类维度和信息项所属的最低级目录;
在任务中配置关联识别规则,通过人工或自动触发方式,均自动自待分类数据内识别出信息项对应的字段信息,提高识别速度,便能够提高整个数据分类工作的速度。
优选地,识别关联单元23,包括:
触发子单元,用于触发配置有识别规则的任务,配置有识别规则的任务用于自待分类数据内识别出与各信息项分别匹配的字段信息。
关联子单元,用于将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联。优选地,可利用python对待分类数据做语义识别,从而识别出所有字段信息。
优选地,识别关联单元,具体用于:
将识别出的字段信息映射到最低级目录下匹配的信息项下,或者在待识别数据内相应的字段信息上标注关联信息,关联信息包括:字段信息所匹配的信息项、所匹配的信息项所属的分类维度、所匹配的信息项所属的最低级目录。
通过映射把识别到的字段信息绑定到相应的信息项上,或者在待识别数据内相应的字段信息上标注关联信息,实现多种方式展示对数据的分类管理。
优选地,该数据分类系统,还包括:
安全级别设置单元,用于基于信息项所属的最低级目录对应的安全级别,标记所识别出的字段信息的安全级别;
对数据进行安全管理时,为每个最低级目录设置的每个安全级别均都通过自己独特的定级要素进行表示,定级要素能够清楚定义安全级别,也能够清楚表达安全级别,能够方便识别数据的安全级别,也方便对每个安全级别的数据的管理和使用处置,做到更好地保护数据安全,避免数据泄露。例如,将涉及个人隐私、商业机密等敏感数据定义为高安全级别,均需要采取更加严格的数据保护措施,将其他信息定义为低安全级别。
优选地,针对金融业机构等对安全级别要求较高的机构,针对每个分类维度的确定,还可以参照中华人民共和国金融行业标准发布的《金融数据安全数据安全分级指南》,根据金融业机构典型数据定级规则参考表,制定不同分类维度的自高到低的树形分级目录,针对最低级目录绑定不同含义的信息项,来实现安全等级细粒度划分。
敏感级别设置单元,用于基于信息项所属的最低级目录对应的安全级别的高低设置脱敏规则,将符合脱敏规则的安全级别对应的最低级目录内的信息项匹配的字段信息设为敏感字段信息;其中,在脱敏规则内,安全级别低的最低级目录对应的信息项的敏感级别低。
根据信息项的安全级别确定对应的字段信息的敏感程度,安全级别越低,敏感程度越低,安全级别越高,敏感程度越高。所以根据安全级别,可以快速、便捷地确定相应字段信息的安全级别,提高分类工作的速度。在用户查询以及使用数据时,根据安全级别确定对相应的字段信息确定是否进行脱敏处理,以及如何脱敏处理。例如,个人身份信息、财务数据或知识产权可能需要更高级别的保护,安全级别高,属于高敏感字段信息,其他数据安全级别低,则敏感程度低。从而实现根据数据的敏感制定出对该数据的相应的安全措施和访问控制策略。
在用户查询到某个字段信息时,同时能够把其关联的最低级目录、信息项、安全等级和敏感级别(间接连带着脱敏规则)一同查询出来。
其中,同一信息项处于不同的最低级目录时,其安全级别相同或者会存在差异即不同,对应的字段信息的敏感程度也不同。即信息项相同,目录分类不同,安全等级也可能会不一样,对应的字段信息的敏感程度也不同。根据脱敏规则,在用户进行数据查询或者使用时,根据安全级别和脱敏规则对敏感字段信息进行动态掩码。
优选地,该数据分类方法,还包括:
权限设置单元,用于设置用户的数据使用权限级别,根据最低级目录的安全级别将最低级目录匹配到相应的数据使用权限级别;
数据检索单元,用于在用户对识别完毕的数据进行检索时,根据脱敏规则将所检索到的数据内的所有敏感字段信息进行动态掩码处理,形成检索结果进行显示;
数据审批单元,用于当用户需要获取所检索到的数据时,根据用户发起的第一使用申请,返回给与该用户的数据使用权限级别相匹配的数据;其中,在相匹配的数据内,将高于该用户的数据使用权限级别的敏感字段信息进行动态掩码处理;
或者根据用户发起的第二使用申请,按照所检索到的数据内的所有字段信息的最高安全级别进行审批,在审批通过后返回给该用户所检索到的数据的完整版;同时记录该用户的第二使用申请涉及的最高安全级别,记录涉及的敏感字段信息。
对数据制定访问策略,不同用户的数据使用权限级别不同,便于对数据使用的管控,其中,在用户对识别完毕的数据进行检索时,根据脱敏规则将所检索到的数据内全部的敏感字段信息进行动态掩码处理。当用户想要使用所检索到的数据时,则需要提出使用申请,不同用户的数据使用权限级别不同,实现不同数据使用权限级别查看的数据不同。
另外,当用户没有数据使用权限级别时,按其所在部门进行统一管控;当所在部门也无权限时,按部门所在机构进行统一管控;从而实现数据使用安全。
优选地,提供可视化的分类分级管理工具,可以方便用户进行数据的分类分级操作和管理。提供直观的用户界面和易于操作的管理工具,从而降低了用户的学习成本和工作量。
优选地,在设置分类维度之前,根据数据对决策、流程或系统功能的影响程度,评估使用的各种数据,并确定其对业务运作的重要性。对于关键业务数据,应特别关注其安全性和准确性。
优选地,针对所有数据,确定数据的完整性要求,采用数据验证、数据校验和错误处理机制等措施,确保数据的准确性、完整性和一致性,同时确保数据在采集、传输和存储过程中不会丢失或损坏。
优选地,采取数据加密、访问权限控制和身份验证机制等适当的安全措施,确保数据安全不被泄露。
优选地,通过实施灾难恢复计划、备份和恢复机制,确保数据在需要时具有足够的可靠性和可恢复性;满足数据存储和传输的容量和性能需求,以确保数据能被及时访问。
优选地,更合理地使用、维护和扩充数据,并加深数据的辨识度,可以按照以下步骤实施:
基于数据需求分析的结果,制定包括数据收集、存储、处理、传输和维护等方面的数据管理策略,确保数据管理策略能够满足业务需求,并符合合规性和安全性要求。
采用数据备份、恢复、归档和数据生命周期管理等数据维护和更新机制,定期审查和更新数据,清理过期、无效或冗余数据,确保数据的及时性和有效性。
根据业务需求,采用数据采集、数据交换、数据共享和数据集成等方式进行扩充和整合数据,同时确保数据的一致性和兼容性,避免数据孤岛和重复劳动。
采用数据命名规范、数据格式标准、数据分类和标记实现数据标准化,从而提高数据的一致性、可理解性和辨识度,减少数据使用和维护的复杂性。
结合本发明的实施例,还一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序当被计算机设备执行时,使得计算机设备执行前述任一种的数据分类方法。
如图4所示,结合本发明的实施例,提供一种计算机设备,包括:
处理器;以及,被安排成存储计算机可执行指令的存储器,可执行指令在被执行时使处理器执行前述任一种的数据分类方法。
本发明实施例所取得的有益技术效果如下:
1、多维度多层次的分类分级体系,可以更好地满足不同业务需求和数据安全管理的要求,将所有数据进行合理的归类和保存,从而更好地保护和管理数据,避免数据泄露。还能够更清晰地了解数据的重要性和敏感度差异,从而根据不同级别采取适当的安全防护策略和管控措施,确保数据的完整性、保密性和可用性。
2、根据不同业务需求和使用场景,可以制定个性化的分类分级策略,例如根据不同行业、不同数据类型、不同安全等级等进行分类分级,从而更好地满足实际需求。
3、提供可视化的分类分级管理工具,可以方便用户进行数据的分类分级操作和管理。可以提供直观的用户界面和易于操作的分类分级管理工具,从而降低了用户的学习成本和工作量。
4、通过有效的数据分类,能够更合理地使用、维护和扩充数据,从而在业务层面加深数据的辨识度,提高业务效率。
5、采用多个分类维度对数据进行分类管理,可以消除人为干预的风险,降低人工分类分级的成本,同时可以全天候分类,增加分类分级的持久性。
6、多个分类维度对数据进行分类管理,能够更清晰地了解数据的结构和组成,增加数据的可辨识性,从而更容易理解和维护数据。
7、采用多个分类维度对数据进行分类管理,能够满足不同的合规要求。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据分类方法,其特征在于,包括:
根据数据特征设置数据的至少一个分类维度;
针对每个分类维度,分别形成对应的自高到低的树形分级目录,为每个最低级目录设置至少两个信息项;
针对待分类数据,根据每个分类维度下的最低级目录的各信息项的字段,自待分类数据内识别出与各信息项匹配的字段信息,将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联。
2.根据权利要求1所述的数据分类方法,其特征在于,还包括:
针对待分类数据,将识别规则配置在任务中;所述识别规则包括:各信息项、所述信息项所属的分类维度和信息项所属的最低级目录。
3.根据权利要求2所述的数据分类方法,其特征在于,所述针对待分类数据,根据每个分类维度下的最低级目录的各信息项的字段,自待分类数据内识别出与各信息项匹配的字段信息,将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联,具体包括:
触发配置有识别规则的任务,通过配置有识别规则的任务自待分类数据内识别出与各信息项分别匹配的字段信息;
将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联。
4.根据权利要求1所述的数据分类方法,其特征在于,所述将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联,具体包括:
将识别出的字段信息映射到最低级目录下匹配的信息项下,或者在待识别数据内相应的字段信息上标注关联信息,所述关联信息包括:字段信息所匹配的信息项、所匹配的信息项所属的分类维度、所匹配的信息项所属的最低级目录。
5.根据权利要求1所述的数据分类方法,其特征在于,还包括:
基于信息项所属的最低级目录对应的安全级别,标记所识别出的字段信息的安全级别;
基于信息项所属的最低级目录对应的安全级别的高低设置脱敏规则,将符合脱敏规则的安全级别对应的最低级目录内的信息项匹配的字段信息设为敏感字段信息;其中,在所述脱敏规则内,安全级别低的最低级目录对应的信息项的敏感级别低。
6.根据权利要求5所述的数据分类方法,其特征在于,还包括:
设置用户的数据使用权限级别,根据最低级目录的安全级别将最低级目录匹配到相应的数据使用权限级别;
在用户对识别完毕的数据进行检索时,根据所述脱敏规则将所检索到的数据内的所有敏感字段信息进行动态掩码处理,形成检索结果进行显示;
当用户需要获取所检索到的数据时,根据用户发起的第一使用申请,返回给与该用户的数据使用权限级别相匹配的数据;其中,在相匹配的数据内,将高于该用户的数据使用权限级别的敏感字段信息进行动态掩码处理;或,当用户需要获取所检索到的数据时,根据用户发起的第二使用申请,按照所检索到的数据内的所有字段信息的最高安全级别进行审批,在审批通过后返回给该用户所检索到的数据的完整版;同时记录该用户的第二使用申请涉及的最高安全级别,记录涉及的敏感字段信息。
7.一种数据分类系统,其特征在于,包括:
维度设置单元,用于根据数据特征设置数据的至少一个分类维度;
分级单元,用于针对每个分类维度,分别形成对应的自高到低的树形分级目录,为每个最低级目录设置至少两个信息项;
识别关联单元,用于针对待分类数据,根据每个分类维度下的最低级目录的各信息项的字段,自待分类数据内识别出与各信息项匹配的字段信息,将识别出的字段信息与对应的最低级目录下匹配的信息项进行关联。
8.根据权利要求7所述的数据分类系统,其特征在于,还包括任务配置单元,所述识别关联单元包括触发子单元,其中:
所述任务配置单元,用于针对待分类数据,将识别规则配置在任务中;所述识别规则包括:各信息项、信息项所属的分类维度和信息项所属的最低级目录;
所述触发子单元,用于触发配置有识别规则的任务,通过配置有识别规则的任务自待分类数据内识别出与各信息项匹配的字段信息。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被计算机设备执行时,使得所述计算机设备执行权利要求1-6中任意一项所述的数据分类方法。
10.一种计算机设备,其特征在于,包括:
处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1-6中任意一项所述的数据分类方法。
CN202410218972.1A 2024-02-28 2024-02-28 一种数据分类方法、分类系统、存储介质和计算机设备 Pending CN117786545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410218972.1A CN117786545A (zh) 2024-02-28 2024-02-28 一种数据分类方法、分类系统、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410218972.1A CN117786545A (zh) 2024-02-28 2024-02-28 一种数据分类方法、分类系统、存储介质和计算机设备

Publications (1)

Publication Number Publication Date
CN117786545A true CN117786545A (zh) 2024-03-29

Family

ID=90383885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410218972.1A Pending CN117786545A (zh) 2024-02-28 2024-02-28 一种数据分类方法、分类系统、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN117786545A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324606A1 (en) * 2014-05-10 2015-11-12 Informatica Corporation Identifying and Securing Sensitive Data at its Source
CN108062484A (zh) * 2017-12-11 2018-05-22 北京安华金和科技有限公司 一种基于数据敏感特征和数据库元数据的分类分级方法
CN109977222A (zh) * 2019-03-05 2019-07-05 广州海晟科技有限公司 数据敏感行为的识别方法
CN113420332A (zh) * 2021-07-13 2021-09-21 国家电网有限公司客户服务中心 一种客户信息的脱敏方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324606A1 (en) * 2014-05-10 2015-11-12 Informatica Corporation Identifying and Securing Sensitive Data at its Source
CN108062484A (zh) * 2017-12-11 2018-05-22 北京安华金和科技有限公司 一种基于数据敏感特征和数据库元数据的分类分级方法
CN109977222A (zh) * 2019-03-05 2019-07-05 广州海晟科技有限公司 数据敏感行为的识别方法
CN113420332A (zh) * 2021-07-13 2021-09-21 国家电网有限公司客户服务中心 一种客户信息的脱敏方法

Similar Documents

Publication Publication Date Title
US9641334B2 (en) Method and apparatus for ascertaining data access permission of groups of users to groups of data elements
US9262584B2 (en) Systems and methods for managing a master patient index including duplicate record detection
US8046366B1 (en) Orchestrating indexing
US8200690B2 (en) System and method for leveraging historical data to determine affected entities
CN102414677A (zh) 包括自动分类规则的数据分类流水线
CN109117669B (zh) MapReduce相似连接查询的隐私保护方法及系统
CN111966866A (zh) 一种数据资产管理的方法和装置
WO2022064348A1 (en) Protecting sensitive data in documents
EP2659351A1 (en) Method and apparatus for ascertaining data access permission of groups of users to groups of data elements
US11809593B2 (en) Sensitive data compliance manager
JP3762935B1 (ja) 情報処理装置,ファイル管理システムおよびファイル管理プログラム
JP3705439B1 (ja) 個人情報探索プログラム,個人情報管理システムおよび個人情報管理機能付き情報処理装置
CN115409466A (zh) 基于大数据的数据采集管理系统
JP4082520B2 (ja) 個人情報探索プログラム
US8639707B2 (en) Retrieval device, retrieval system, retrieval method, and computer program for retrieving a document file stored in a storage device
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN117786545A (zh) 一种数据分类方法、分类系统、存储介质和计算机设备
JP2005332049A (ja) ポリシ変換方法、ポリシ移行方法およびポリシ評価方法
KR20100114480A (ko) 문서 관리 시스템
JP2008186473A (ja) 個人情報管理システムおよび個人情報管理プログラム
JP4139919B2 (ja) 個人情報探索プログラム
CN118484834B (zh) 一种基于数据访问关系的安全运营方法
US20040267761A1 (en) Method/apparatus for managing information including word codes
Khlevna et al. The Development of the Information Technology Architecture for the Anonymisation of Stakeholders Personal Data of Digitalized Education based on Formulated Criteria and Requirements.
Perdana et al. Study of Biometric Data for Citizenship Administrative Services in Indonesia By Using ISO ISO/IEC 39794

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination