CN114265967B

CN114265967B - 一种敏感数据安全等级标注方法及装置

Info

Publication number: CN114265967B
Application number: CN202210190474.1A
Authority: CN
Inventors: 金佩; 潘学芳; 林勇; 王磊; 黄登玺; 李海丽; 王宇宸; 乔佳丽
Original assignee: China Everbright Bank Co Ltd
Current assignee: China Everbright Bank Co Ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-05-27
Anticipated expiration: 2042-03-01
Also published as: CN114265967A

Abstract

本文提供了一种敏感数据安全等级标注方法及装置，其中，方法包括：确定待分析敏感数据的数据类型，其中，所述数据类型包括基础元数据类及加工管理元数据类；根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级；根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级。本实例能对不同格式及内容的敏感数据在一个系统上进行安全等级的标注，从而实现敏感数据安全等级高效分类，最终将不同等级的数据安全要求落地，本文具有适用范围广、安全等级分类合理的优势。

Description

一种敏感数据安全等级标注方法及装置

技术领域

本文涉及敏感数据管理领域，尤其涉及一种敏感数据安全等级标注方法及装置。

背景技术

随着数字化进程的推进，银行等金融企业在业务开展、管理和外部引进等各个环节会产生大量敏感数据，数据资产规模急剧增加。同时，监管机构对敏感数据安全的要求也越来越严格，在这种背景下，企业加强敏感数据安全管理势在必行。

现有的技术主要是利用敏感数据表字段的正则匹配方法确定安全等级，具体的，大部分是基于字段的具体数据内容，进行敏感字段识别，进而根据安全等级落地数据安全管理要求。现有技术中的利用敏感数据表字段的正则匹配方法确定安全等级的方法存在如下技术缺陷：

1．数据量大，统一管理困难；

2．数据安全等级区分较为笼统，不能很好体现敏感数据的特点，鉴于各行业（例如金融行业）有各自的特点，且会随着监管制度变化会有调整，需要灵活且准确的标注方法，现有技术对敏感数据安全等级尚未进行合理区分，无法将切实有效的安全管理要求进行落地；

3．适用的敏感数据范围不全面，基本只局限于表/字段等基础类敏感数据，尚未对金融行业中存在的大量其他数据进行有效安全等级划分及确定。

发明内容

本文用于解决现有技术中敏感数据安全等级标注方法存在安全等级区分不合理，适用敏感数据类型有限的技术问题。

为了解决上述技术问题，本文的第一方面提供一种敏感数据安全等级标注方法，包括：

确定待分析敏感数据的数据类型，其中，所述数据类型包括基础元数据类及加工管理元数据类；

根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级，其中，所述安全场景标签列表包括基础元数据标签及其与安全等级之间的关联关系；

根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级。

本文进一步实施例中，基础元数据类待分析敏感数据包括：字段级待分析敏感数据；

根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级包括：

计算每一字段级待分析敏感数据与安全场景标签列表中的每一标签的相似度；

根据所述安全场景标签列表中每一标签与安全等级之间的关联关系，确定相似度最高的标签对应的安全等级；

将确定出的安全等级作为该字段级待分析敏感数据的安全等级。

本文进一步实施例中，基础元数据类待分析敏感数据还包括：表级待分析敏感数据，表级待分析敏感数据由字段级待分析敏感数据构成；

根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级，还包括：

将表级待分析敏感数据中的字段级待分析敏感数据的最高安全等级，作为表级待分析敏感数据的安全等级。

本文进一步实施例中，计算每一字段级待分析敏感数据与安全场景标签列表中的每一标签的相似度，包括：

利用至少两种相似度计算方法计算每一字段级待分析敏感数据与安全场景标签列表中的每一标签的相似度；

对于每一字段级待分析敏感数据与每一标签的多个相似度计算结果，将其中最大值作为该字段级待分析敏感数据与该标签的相似度。

本文进一步实施例中，所述多种相似度计算方法包括：Python字符串模糊匹配方法及词集合模型比较方法。

本文进一步实施例中，根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级，包括：

对于每一加工管理元数据类待分析敏感数据，比较该加工管理元数据类待分析敏感数据的名称与每一加工管理元数据类已标注安全等级的敏感数据的名称的相似度，初步筛选出名称相似度大于第一阈值的加工管理元数据类已标注安全等级的敏感数据；

比较该加工管理元数据类待分析敏感数据的数据含义与初步筛选出的加工管理元数据类已标注安全等级的敏感数据的数据含义的相似度，最终筛选出数据含义相似度大于第二阈值的加工管理元数据类已标注安全等级的敏感数据；

将最终筛选出的敏感数据中最高的安全等级，作为加工管理元数据类待分析敏感数据的安全等级。

本文进一步实施例中，若初步未筛选出名称相似度大于第一阈值的加工管理元数据类已标注安全等级的敏感数据或最终未筛选出数据含义相似度大于第二阈值的加工管理元数据类已标注安全等级的敏感数据，则发送该加工管理元数据类待分析敏感数据至用户终端。

本文的第二方面提供一种敏感数据安全等级标注系统，包括：

划分模块，用于确定待分析敏感数据的数据类型，其中，所述数据类型包括基础元数据类及加工管理元数据类；

第一标注模块，用于根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级，其中，所述安全场景标签列表包括基础元数据标签及其与安全等级之间的关联关系；

第二标注模块，用于根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级。

本文的第三方面提供一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时，执行前述任一实施例所述的敏感数据安全等级标注方法的指令。

本文的第四方面提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器运行时，执行前述任一实施例所述的敏感数据安全等级标注方法的指令。

本文提供的敏感数据安全等级标注方法及装置，通过划分待分析敏感数据的类型；根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级，其中，所述安全场景标签列表包括字段标签及其与安全等级之间的关联关系；根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级，能够对不同格式、内容的敏感数据在一个系统上进行安全等级的标注，从而实现敏感数据安全等级高效分类，最终将不同等级的数据安全要求落地，本文具有适用范围广、安全等级分类合理的优势。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例敏感数据安全等级标注方法的流程图；

图2示出了本文实施例字段级敏感数据的示意图；

图3示出了本文实施例基础元数据类敏感数据的标注过程的第一流程图；

图4示出了本文实施例基础元数据类敏感数据的标注过程的第二流程图；

图5示出了本文实施例加工管理元数据类待分析敏感数据的标注过程的第一流程图；

图6示出了本文实施例加工管理元数据类待分析敏感数据的标注过程的第二流程图；

图7示出了本文实施例敏感数据安全等级标注装置的结构图；

图8示出了本文实施例敏感数据安全等级标注系统的结构图；

图9示出了本文具体实施例金融数据安全等级标注方法的第一流程图；

图10示出了本文具体实施例金融数据安全等级标注方法的第二流程图；

图11示出了本文实施例计算机设备的结构图；

图12示出了本文实施例专有属性及共有属性示意图。

附图符号说明：

710、划分模块；

720、第一标注模块；

730、第二标注模块；

810、数据登记模块；

820、标注模块；

830、任务管理模块；

840、维护模块；

850、辅助模块；

1102、计算机设备；

1104、处理器；

1106、存储器；

1108、驱动机构；

1110、输入/输出模块；

1112、输入设备；

1114、输出设备；

1116、呈现设备；

1118、图形用户接口；

1120、网络接口；

1122、通信链路；

1124、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

需要说明的是，本文的敏感数据安全等级标注方法及系统可用于金融领域，也可用于除金融领域之外的任意领域，本文的敏感数据安全等级标注方法及系统的应用领域不做限定。

本文一实施例中，提供一种敏感数据安全等级标注方法，用于解决现有技术中敏感数据安全等级标注方法存在安全等级区分不合理，适用敏感数据类型有限的技术问题。具体的，如图1所示，敏感数据安全等级标注方法包括：

步骤110，将待分析敏感数据划分为基础元数据类数据及加工管理元数据类数据；

步骤120，根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级，其中，所述安全场景标签列表包括字段标签及其与安全等级之间的关联关系；

步骤130，根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级。

详细的说，本文所述的敏感数据包括但不限于金融数据，只要对安全性要求高的数据均属于本案所述的敏感数据。敏感数据从价值上来说为一种数据资产，本文所述的敏感数据还可称之为数据资产。待分析敏感数据可以为系统中所有未进行安全等级标注的数据，还可以为由用户指定的数据。

基础元数据类数据指的是开发阶段的数据库表设计的数据，例如包括数据字典（表、字段、索引、视图等信息）。加工管理元数据类包括加工元数据类及管理元数据类，加工元数据类数据指的是通过数据算法加工的成果产物，例如包括算法模型、特征变量、客户标签、联机API等。管理元数据类数据指的是数据加工各阶段管理流程的产物，例如包括业务数据、企业级数据模型、数据标准、接口文档等。

本文所述的安全场景标签列表中的标签指的是基础元数据类敏感数据，安全场景标签里中各标签的安全等级可人为分析确定。

本实施例通过将待分析敏感数据划分为基础元数据类数据及加工管理元数据类数据，能够依据数据生命周期不同及数据特点不同，进行不同的安全等级划分。

一些具体实施方式中，对于基础元数据类数据对应的标签可设置为“高中低无”四个安全等级标签，具体的，这四个安全等级标签均可由数据取值范围划分，取值越高，对应的安全等级标签越高。实施时，对于基础元数据类数据中的字段，在每个安全等级内部根据字段属性还有更细粒度的类别标签及规则标签，以银行领域敏感数据划分为例，更细力度的类别标签如下表一所示。对于加工管理元数据类数据对应的标签可设置为“高中低无”四个安全等级标签。

表一

本实施例能对不同格式及内容的敏感数据在一个系统上进行安全等级的标注，从而实现敏感数据安全等级高效分类。进一步的，可根据敏感数据的安全等级，构建敏感数据的安全等级地图，用于帮助企业掌握不同安全等级数据在系统、数据库中的分布。进一步的，还可根据敏感数据的安全等级，落地企业敏感数据安全要求，例如，银行领域敏感数据使用时，高等级数据的使用权限限定于特定人员，中等级数据的使用权限限定至具体岗位，低等级数据使用权限限定制具体部门，数据共享时，高等级数据由总行主管行长审批授权，中等级数据由总行数据使用部门负责人、分行主管行长审批授权，低等级数据由总行数据使用部门具体处室负责人、分行使用部门负责人审批授权。进一步的，数据开发时，还可直接提示相对应的安全处理技术要求（如下表二），并进行执行效果检查。本文具有适用范围广、安全等级分类合理的优势。

表二

本文一实施例中，基础元数据类待分析敏感数据包括：字段级待分析敏感数据，如图2所示。

进一步的，如图3所示，上述步骤120根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级包括：

步骤301，计算每一字段级待分析敏感数据与安全场景标签列表中的每一标签的相似度；

步骤302，根据所述安全场景标签列表中每一标签与安全等级之间的关联关系，确定相似度最高的标签对应的安全等级；

步骤303，将确定出的安全等级作为该字段级待分析敏感数据的安全等级。

具体实施时，为了排除不同系统设计字段时不规范命名的各种场景，步骤301之前还包括：对每一字段级待分析敏感数据进行语料清洗处理。具体实施时，可采用现有技术语料清洗处理方法，例如采用Python中的中文分词组件jieba、fuzzywuzzy包等，通过加载自定义的词库，对字段名进行分词、去停用词等处理。通过语料清洗处理，能够提高命中准确率。

上述步骤301实施时，包括：利用至少两种相似度计算方法计算每一字段级待分析敏感数据与安全场景标签列表中的每一标签的相似度；对于每一字段级待分析敏感数据与每一标签的多个相似度计算结果，将其中最大值作为该字段级待分析敏感数据与该标签的相似度。

步骤301中，安全场景标签列表为预先确定，其中包含多个规范化的字段命名和对应的安全等级。

实施时所采用的相似度计算方法包括：Python字符串模糊匹配方法及词集合模型比较方法。

Python字符串模糊匹配方法，利用现有Python字符串模糊匹配函数，直接计算字段名与安全场景标签列表中每一标签的匹配程度作为相似度。

词集合模型(Set of Words)比较方法主要是根据字段名称及标签的词向量并计算相似度。具体的，依据敏感数据所属词库对字段名称和安全场景标签列表进行分词，将两部分用词合并生成一个总的用词列表。分别建立字段名和安全场景标签到这个用词总列表的特征函数映射关系，得到各自的语句向量。计算两个语句向量的夹角余弦作为相似度。

通过两种相似度计算方式互为补充，能够在一种相似度计算方法匹配漏掉的情况下进行补充（例如上述Python字符串模糊匹配方法容易漏掉很多敏感数据，例如“证件号码”、“证件类型号码”两个字段，只有第一个能命中，第二个会被遗漏），扩大对字段和标签近义词的盘点，提高安全等级标注的准确性。具体实施时，还可根据需求选择其他的相似度计算算法。

安全场景标签列表中每一标签与安全等级之间的关联关系可由标签树状结构表示，标签树状结构表示安全等级、类标标签、规则标签之间的对应关系，类似于一棵横向的树，如上述表一所示。

本文一实施例中，基础元数据类待分析敏感数据还包括：表级待分析敏感数据，表级待分析敏感数据由字段级待分析敏感数据构成。

如图4所示，上述步骤120根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级的过程除了包括上述步骤301至步骤303外，还包括：

步骤304，将表级待分析敏感数据中的字段级待分析敏感数据的最高安全等级，作为表级待分析敏感数据的安全等级。例如，表A存在“高、中”等级的标签，则表A为“高”安全等级；表B存在“中、低”等级的标签，则表B为“中”等级。

本文一实施例中，考虑到加工管理元数据敏感数据为长段语句的描述，不像结构化敏感数据具有一定规则，如图5所示，上述步骤130根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级，包括：

步骤501，对于每一加工管理元数据类待分析敏感数据，比较该加工管理元数据类待分析敏感数据的名称与每一加工管理元数据类已标注安全等级的敏感数据的名称的相似度，初步筛选出名称相似度大于第一阈值的加工管理元数据类已标注安全等级的敏感数据；

步骤502，比较该加工管理元数据类待分析敏感数据的数据含义与初步筛选出的加工管理元数据类已标注安全等级的敏感数据的数据含义的相似度，最终筛选出数据含义相似度大于第二阈值的加工管理元数据类已标注安全等级的敏感数据；

步骤503，将最终筛选出的敏感数据中最高的安全等级，作为加工管理元数据类待分析敏感数据的安全等级。

上述步骤501实施之前需预先对部分加工管理元数据类敏感数据进行安全等级标注，具体实施时，可由人工或人工结合智能算法的方式实现，本文对此不作限定。

步骤501及步骤502中的第一阈值及第二阈值可以相同，也可以不同，本文对第一阈值及第二阈值取值不作具体限定。

步骤502中，比较数据含义即为将不同类型敏感数据以及主题分类、需求部门、归属部门等专有属性，拼接成文本，进行文本相似度比较。步骤502实施时，需先根据加工管理元数据类待分析敏感数据及其主题分类、需求部门、归属部门等专有属性及共有属性（如图12所示）拼接成文本。拼接成的文本例如为：加工类/算法模型：挖掘模型；数据中文名：贷后报告文本相似比对；所属系统：审计大数据模型平台；数据含义：贷后报告文本相似比对；所属部门：信息科技部；主题：风险管理；需求部门：总行审计部；状态：运行中。

该半监督的方法与CNN等无监督算法相比，无需标注太大量的样本数据，对业务专业性的要求较低，专注于数据资产内容本身。

本实施例通过将加工管理元数据类待分析敏感数据与已标注安全等级的敏感数据进行多层次的属性对比，能够实现加工管理元数据类待分析敏感数据的自动盘点安全等级。先用敏感数据名称进行相似度比较，能够减少盘点的范围，提升盘点的效率。

本文一实施例中，如图6所示，上述步骤130根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级，还包括：

步骤504，若上述步骤501初步未筛选出的名称相似度大于第一阈值的加工管理元数据类已标注安全等级的敏感数据或上述步骤502最终未筛选出数据含义相似度大于第二阈值的加工管理元数据类已标注安全等级的敏感数据，则发送该加工管理元数据类待分析敏感数据至用户终端，由用户通过用户终端完成对该加工管理元数据类待分析敏感数据进行安全等级标注。

本实施例采用人工标注+文本相似度比较的方法来实现加工管理元数据金融数据的标准，需要人工标注的积累，即给少量金融数据资产标注“高中低无”中一项安全等级，此为已标注加工管理元数据金融数据资产。当新增无安全等级的加工管理元数据金融数据资产时，按照算法与已标注的加工管理元数据金融数据资产进行安全等级标注。

基于同一发明构思，本文还提供一种敏感数据安全等级标注装置，如下面的实施例所述。由于敏感数据安全等级标注装置解决问题的原理与敏感数据安全等级标注方法相似，因此，敏感数据安全等级标注装置的实施可以参见敏感数据安全等级标注方法，重复之处不再赘述。

敏感数据安全等级标注装置可运行于服务器端，由服务器实现对敏感数据的安全标注，具体的，如图7所示，敏感数据安全等级标注装置包括：

划分模块710，用于确定待分析敏感数据的数据类型，其中，数据类型包括基础元数据类及加工管理元数据类；

第一标注模块720，用于根据基础元数据类待分析敏感数据及安全场景标签列表，确定该基础元数据类待分析敏感数据的安全等级；

第二标注模块730，用于根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级。

本实施例提供的敏感数据安全等级标注装置能对不同格式、内容的敏感数据在一个系统上进行安全等级的标注，从而实现敏感数据安全等级高效分类，最终将不同等级的数据安全要求落地，本文具有适用范围广、安全等级分类合理的优势。

本文进一步实施例中，如图8所示，还提供一种敏感数据安全等级标注系统，包括：

数据登记模块810，用于对敏感数据进行采集，同时进行属性填充和信息补全，并按照自定义的金融数据资产分类体系进行分类存储，其中，敏感数据的属性可参考表一所示；

标注模块820，用于执行前述任一实施例所述的敏感数据安全等级标注方法；

任务管理模块830，用于控制标注模块820任务流程，调整系统资源分配，疏导系统负担；

维护模块840，提供对标注结果进行人工评审的平台接口，并允许人工评审结果对标注模块820中执行的敏感数据安全等级标注方法进行反向更新。具体的，当标注结果不准时，由业务人员进行修正，系统会记录修改结果，更新的是标注的匹配规则，如“客户人脸识别”一开始没有命中，根据业务修正，规则会新增“客户人脸识别”与“高安全等级-用户鉴别信息”的关系。再如加工类-算法模型盘点为“中”安全等级，业务修正为“高”安全等级，则该资产会作为已标注资产参与后续盘点，逐步提升标注算法（即上述步骤120及步骤130使用的算法）的准确性。

辅助模块850，用于安全场景标签和数据资产体系的管理。

为了更清楚说明本文技术方案，下面以金融数据为例进行详细说明，具体的，如图9及图10所示，金融数据安全等级标注方法包括：

具体实施例一

基础类金融数据中的字段级金融数据依据安全场景标签列表进行标注，表级金融数据的标注则是对表的每一表字段分别进行标注的基础上实现的。

1）字段级金融数据安全等级标注，为了便于描述，如下字段名称均指字段级金融数据名称。

（1）预先确定安全场景标签列表，该安全场景标签列表中包含多个标签及其对应的安全等级，其中，安全场景标签列表中的标签为规范化的字段命名（即规范名称）。

（2）对每一字段名称进行分词、去停用词等语料清洗过程处理。

（3）将清洗后的每一待分析字段名称与安全场景标签列表中的标签逐一进行文本相似度的比较，得到与待分析字段名称一致程度最高的标签。

（4）将与待分析字段名称相一致程度最高的标签在安全场景标签中的对应安全等级作为待分析字段名称的安全等级，同时为该待分析字段名称添加该标签所属的类别标签，如上述表一所示，类别标签为等级标签下的更细粒度的划分。

上述步骤（3）实施时，采用如下两种相似度计算方法同时计算相似度，选择两种相似度计算结果中的较大值作为最终相似度。

方法一，采用现有相似度比较函数（如Python的fuzzywuzzy包），直接计算字段名称与规范化的字段命名称的相似度。

方法二，词集合模型。比较字段名称A与规范化的字段名称B（即标签B）的文本相似度，对字段名称A与规范化的字段名称B分别进行语料清洗，得到各自的用词集合{A1,A2,…}和{B1,B2,…}，将这两个集合合并（集合并集，重复词汇只计算一次）得到词集合S={A1,A2,…，B1,B2,…}。分别将字段名称A与规范化的字段名称B的分词集合映射到S得到各自的词向量a和词向量b。词向量为长度等于S中元素数量的0-1向量，以词向量a为例，S中某个位置的词语在字段名称A的词集合中时，词向量a对应位置的值为1，否则为0。相似度为词向量a和词向量b的夹角余弦值：a✕b/(|a||b|)。

2）表级金融数据进行安全识别时，首先，确定表级金融数据中各字段的安全等级，在确定表中各字段的安全等级之后，取表中所有字段的安全等级中最高的安全等级作为表的安全等级。

具体实施例二

加工管理元数据的金融数据（例如加工类金融数据及管理类金融数据）登记时，先由人工标注部分加工管理元数据金融数据的安全等级。待分析加工管理元数据金融数据的安全等级通过如下两个层次的相似度比较自动标注得到。

文本相似度的计算方法与字段类金融数据的情况相同。同时，在两个层次的相似度比较中需要设定相似度阈值，在以下所述的筛选中要求相似度高于给定阈值，具体的，安全等级标注过程包括：

（1）先与已标注加工管理元数据金融数据比较名称，从中筛选出名称相似度高（即相似度大于第一阈值，第一阈值可根据实际匹配精度进行确定）的已标注加工管理元数据金融数据（即图10中的筛选结果一）。相似度计算过程参考前述实施例，此处不再详述。

（2）根据加工管理元数据类待分析敏感数据及其主题分类、需求部门、归属部门等专有属性及共有属性，拼接成文本。

（3）比较待分析加工管理元数据金融数据的文本数据含义与上述步骤（1）筛选出的已标注加工管理元数据金融数据的文本数据含义，进一步筛选出文本数据含义相似度高（即相似度大于第二阈值，第二阈值可根据实际匹配精度进行确定，还可与第一阈值相同）的已标注加工管理元数据金融数据（即图10中的筛选结果二）。文本数据含义相似度计算过程参考前述实施例，此处不再详述。

（4）从步骤（3）中筛选出的已标注加工管理元数据金融数据中选择出比例最高的安全等级作为待盘点资产的安全等级。

具体实施时，若上述步骤（1）及步骤（3）计算相似度过程中均未达到阈值导致没有得到筛选结果的情况，则改由人工判断待分析金融数据的安全等级。

举例来说，假设待分析加工管理元数据金融数据的文本包括：加工类/算法模型：挖掘模型；数据中文名：贷后报告文本相似比对；所属系统：审计大数据模型平台；数据含义：贷后报告文本相似比对；所属部门：信息科技部；主题：风险管理；需求部门：总行审计部；状态：运行中。

经过上述步骤（1）及步骤（3）筛选出的已标注加工管理元数据金融数据的文本例如为：加工类/算法模型：规则模型；数据中文名：普惠贷前准入--行内对公黑灰名单；所属系统：数据产品应用系统；安全等级：高；数据含义：普惠贷前准入规则；所属部门：信息科技部；主题：风险管理；需求部门：普惠金融事业部；状态：运行中；

加工类/算法模型：规则模型；资产中文名：普惠贷后预警--银行负债与净资产比率；所属系统：阳光普惠智能运营系统；安全等级：中；资产含义：普惠贷后预警；所属部门：信息科技部；主题：风险管理；需求部门：普惠金融事业部；状态：运行中。

上述筛选出的已标注加工管理元数据金融数据的安全等级包括两个：高安全等级和中安全等级。

则取高安全等级的作为待分析金融数据的安全等级，即上述待分析金融数据的安全等级为：高安全等级。

本文通过将待分析敏感数据划分为基础元数据类及加工管理元数据类；根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级；根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级，能够对不同格式、内容的敏感数据在一个系统上进行安全等级的标注，从而实现敏感数据安全等级高效分类，最终将不同等级的数据安全要求落地，本文具有适用范围广、安全等级分类合理的优势。

本文一实施例中还提供一种计算机设备，还提供一种计算机设备，用于执行上述任一实施例所述的敏感数据安全等级标注方法的程序，具体的，如图11所示，计算机设备1102可以包括一个或多个处理器1104，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备1102还可以包括任何存储器1106，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器1106可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备1102的固定或可移除部件。在一种情况下，当处理器1104执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备1102可以执行相关联指令的任一操作。计算机设备1102还包括用于与任何存储器交互的一个或多个驱动机构1108，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备1102还可以包括输入/输出模块1110（I/O），其用于接收各种输入(经由输入设备1112)和用于提供各种输出(经由输出设备1114))。一个具体输出机构可以包括呈现设备1116和相关联的图形用户接口1118(GUI)。在其他实施例中，还可以不包括输入/输出模块1110（I/O）、输入设备1112以及输出设备1114，仅作为网络中的一台计算机设备。计算机设备1102还可以包括一个或多个网络接口1120，其用于经由一个或多个通信链路1122与其他设备交换数据。一个或多个通信总线1124将上文所描述的部件耦合在一起。

通信链路1122可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路1122可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于图1、图3-图6中的方法，本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如图1、图3-图6所示的方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种敏感数据安全等级标注方法，其特征在于，包括：

确定待分析敏感数据的数据类型，其中，所述数据类型包括基础元数据类及加工管理元数据类，其中，基础元数据类数据指的是开发阶段的数据库表设计的数据，加工管理元数据类包括加工元数据类及管理元数据类，加工元数据类数据指的是通过数据算法加工的成果产物，管理元数据类数据指的是数据加工各阶段管理流程的产物；

根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级；

其中，根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级，包括：

2.如权利要求1所述的敏感数据安全等级标注方法，其特征在于，基础元数据类待分析敏感数据包括：字段级待分析敏感数据；

根据基础元数据类待分析敏感数据及安全场景标签列表，确定基础元数据类待分析敏感数据的安全等级，包括：

3.如权利要求2所述的敏感数据安全等级标注方法，其特征在于，基础元数据类待分析敏感数据还包括：表级待分析敏感数据，表级待分析敏感数据由字段级待分析敏感数据构成；

4.如权利要求2所述的敏感数据安全等级标注方法，其特征在于，计算每一字段级待分析敏感数据与安全场景标签列表中的每一标签的相似度，包括：

5.如权利要求4所述的敏感数据安全等级标注方法，其特征在于，所述相似度计算方法包括：Python字符串模糊匹配方法及词集合模型比较方法。

6.如权利要求1所述的敏感数据安全等级标注方法，其特征在于，若初步未筛选出名称相似度大于第一阈值的加工管理元数据类已标注安全等级的敏感数据或最终未筛选出数据含义相似度大于第二阈值的加工管理元数据类已标注安全等级的敏感数据，则发送该加工管理元数据类待分析敏感数据至用户终端。

7.一种敏感数据安全等级标注装置，其特征在于，包括：

划分模块，用于确定待分析敏感数据的数据类型，其中，所述数据类型包括基础元数据类及加工管理元数据类，其中，所述基础元数据类数据指的是开发阶段的数据库表设计的数据，加工管理元数据类包括加工元数据类及管理元数据类，加工元数据类数据指的是通过数据算法加工的成果产物，管理元数据类数据指的是数据加工各阶段管理流程的产物；

第二标注模块，用于根据加工管理元数据类待分析敏感数据及加工管理元数据类已标注安全等级的敏感数据，确定加工管理元数据类待分析敏感数据的安全等级；

8.一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，其特征在于，所述计算机程序被所述处理器运行时，执行根据权利要求1-6任意一项所述方法的指令。

9.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器运行时，执行根据权利要求1-6任意一项所述方法的指令。