CN116150201A

CN116150201A - 敏感数据识别方法、装置、设备及计算机存储介质

Info

Publication number: CN116150201A
Application number: CN202211463738.2A
Authority: CN
Inventors: 祖立军; 祁文钰; 门小骅; 赵晓夏; 何思婕; 薛文哲; 叶家炜
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-05-23
Also published as: WO2024109619A1

Abstract

本申请公开了一种敏感数据识别方法、装置、设备及计算机存储介质，采用文本挖掘技术从目标行业的数据安全规范文件中挖掘出多条敏感数据规则组成敏感数据规则库，并利用NLP、NER等技术持续增广规则库，在获取到目标行业的待识别数据后，通过将目标行业对应的敏感数据规则库中的敏感数据规则与待识别数据进行匹配即可识别出待识别数据的敏感分类和敏感级别。根据本申请实施例，通过对行业内的数据安全规范文件进行文本挖掘得到的行业对应的敏感数据规则库，适用于行业内的所有企业和个人，相较于人为制定的企业级数据产品适用范围更广，具有普适性和更广泛的应用前景，而且合规性也更高，让行业标准做到了技术上可执行。

Description

敏感数据识别方法、装置、设备及计算机存储介质

技术领域

本申请属于数据处理技术领域，尤其涉及一种敏感数据识别方法、装置、设备及计算机存储介质。

背景技术

目前在很多行业中，数据安全的监督力度逐步加大，相关的行业数据安全规范文件也逐步出台。如何从技术上保障敏感数据被合法合规地识别和处理是数据安全的重点研究内容。

现有的针对敏感数据的识别主要是采用定制化的方式，针对企业需求，由专家基于专业知识和历史数据制定相应的敏感词库、识别规则、识别模型等数据产品。但是此种定制化的方式，使得数据产品无法通用，不具备普适性，针对不同的企业需要制定不同的数据产品，专家工作量极大。

发明内容

本申请实施例提供一种敏感数据识别方法、装置、设备及计算机存储介质，能够从行业数据安全规范文件中自动挖掘出适用于全行业的敏感数据规则库，基于敏感数据规则库可以实现对全行业敏感数据的识别，具有极高的普适性。

第一方面，本申请实施例提供一种敏感数据识别方法，包括：

获取目标行业的待识别数据；

查找目标行业对应的敏感数据规则库中与待识别数据相匹配的敏感数据规则，其中，敏感数据规则库中包括采用文本挖掘技术从目标行业的数据安全规范文件中挖掘出的多条敏感数据规则；

根据敏感数据规则库中与待识别数据相匹配的敏感数据规则，确定待识别数据的敏感信息。

作为一种可能的实现方式，查找目标行业对应的敏感数据规则库中与待识别数据相匹配的敏感数据规则之前，方法还包括：

获取目标行业的数据安全规范文件；

利用文本挖掘技术从获取的数据安全规范文件中挖掘多条敏感数据规则，其中，每条敏感数据规则包括以下参数项的值：规则名称、敏感分类、敏感级别、特征项、敏感词和关键词；每个特征项又具体包括以下参数项的值：特征项名称、识别该特征项的正则表达式、词典和校验和；

将多条敏感数据规则组成目标行业对应的敏感数据规则库；

将敏感数据规则库中多个特征项包括的参数项的值组成敏感数据规则库对应的特征项库。

针对敏感数据规则库中的每条敏感数据规则，对敏感数据规则中关键词、敏感词的参数值进行增广处理，得到该参数值的同义词，将同义词添加到敏感数据规则的关键词、敏感词中；和/或，

针对敏感数据规则库中的每条敏感数据规则，对敏感数据规则中特征项中参数值进行增广处理，得到该参数值的同义词和/或同类词，将同义词和/或同类词组成特征项的词典。

作为一种可能的实现方式，查找目标行业对应的敏感数据规则库中与待识别数据相匹配的敏感数据规则，包括：

获取待识别数据中的结构化数据；

提取结构化数据中待识别的字段名和字段名对应的数据；

从敏感数据规则库中查找关键词与字段名相匹配的敏感数据规则，作为第一敏感数据规则；

响应于从敏感数据规则库中查找到第一敏感数据规则，根据第一特征项预设的正则表达式和/或词典确定第一特征项与字段名对应的数据是否匹配，其中，第一特征项为第一敏感数据规则的特征项；

响应于第一特征项与字段名对应的数据相匹配，确定第一敏感数据规则为与结构化数据相匹配的敏感数据规则。

作为一种可能的实现方式，查找目标行业对应的敏感数据规则库中与待识别数据相匹配的敏感数据规则，还包括：

响应于未从敏感数据规则库中查找到第一敏感数据规则，或第一特征项与字段名对应的数据不匹配，将字段名对应的数据分为待检测数据和验证数据；

将敏感数据规则库中的所有敏感数据规则的特征项的正则表达式和/或词典分别与待检测数据进行匹配，以确定是否存在与待检测数据项匹配的特征项；

响应于存在与待检测数据相匹配的特征项，将与待检测数据相匹配的特征项作为第二特征项；

将第二特征项的正则表达式和/或词典与验证数据进行匹配，以确定第二特征项与验证数据是否匹配；

响应于第二特征项与验证数据相匹配，确定第二特征项所属的敏感数据规则为与结构化数据相匹配的敏感数据规则。

作为一种可能的实现方式，根据敏感数据规则库中与待识别数据相匹配的敏感数据规则，确定待识别数据的敏感信息，包括：

响应于敏感数据规则库中仅存在一条与结构化数据相匹配的敏感数据规则，将与结构化数据相匹配的敏感数据规则包含的敏感分类和敏感级别作为结构化数据的敏感分类和敏感级别；

响应于敏感数据规则库中存在多条与结构化数据相匹配的敏感数据规则，将多条与结构化数据相匹配的敏感数据规则中敏感级别最高的敏感数据规则包含的敏感分类和敏感级别作为结构化数据的敏感分类和敏感级别。

作为一种可能的实现方式，查找目标行业对应的敏感数据规则库中与待识别数据匹配的敏感数据规则，包括：

获取待识别数据中的非结构化数据；

对非结构化数据进行分词处理，获得非结构化数据的分词结果；

利用敏感数据规则库中的所有敏感词对分词处理后的非结构化数据进行全文匹配，以确定敏感数据规则库中与非结构化数据相匹配的敏感词；

响应于敏感数据规则库中非结构化数据相匹配的敏感词，将与非结构化数据相匹配的敏感词作为目标敏感词，并将目标敏感词所属的敏感数据规则作为目标敏感数据规则；

记录目标敏感词在非结构化数据中的位置；

提取非结构化数据中位于位置前后的N个字符，其中N为正整数；

将目标敏感数据规则的特征项的正则表达式和/或词典与N个字符进行匹配，以确定目标敏感数据规则的特征项与N个字符是否匹配；

响应于目标敏感数据规则的特征项与N个字符相匹配，确定目标敏感数据规则为与非结构化数据相匹配的敏感数据规则。作为一种可能的实现方式，查找目标行业对应的敏感数据规则库中与待识别数据相匹配的敏感数据规则，包括：

利用敏感数据规则库中所有特征项的词典和/或训练好的命名实体识别模型识别非结构化数据中的特征项，作为第三特征项；

从敏感数据规则库中查找包含第三特征项的敏感数据规则，作为第三敏感数据规则；

响应于从敏感数据规则库中查找到第三敏感数据规则，从第三敏感数据规则中确定与非结构化数据相匹配的敏感数据规则。

作为一种可能的实现方式，从第三敏感数据规则中确定与非结构化数据相匹配的敏感数据规则，包括：

响应于敏感数据规则库中存在多条第三敏感数据规则，对非结构化数据进行语义分类处理，获得非结构化数据所属的敏感分类；确定多条第三敏感数据规则中，敏感分类与非结构化数据所属的敏感分类一致的敏感数据规则为与待识别数据相匹配的敏感数据规则。

响应于敏感数据规则库中仅存在一条与非结构化数据相匹配的敏感数据规则，将与非结构化数据相匹配的敏感数据规则包含的敏感分类和敏感级别作为非结构化数据的敏感分类和敏感级别；

响应于敏感数据规则库中存在多条与非结构化数据相匹配的敏感数据规则，将多条与非结构化数据相匹配的敏感数据规则中敏感级别最高的敏感数据规则包含的敏感分类和敏感级别作为非结构化数据的敏感分类和敏感级别。

第二方面，本申请实施例还提供了一种敏感数据识别装置，包括：

数据获取模块，用于获取目标行业的待识别数据；

规则查找模块，用于查找目标行业对应的敏感数据规则库中与待识别数据相匹配的敏感数据规则，其中，敏感数据规则库中包括采用文本挖掘技术从目标行业的数据安全规范文件中挖掘出的多条敏感数据规则；

敏感信息确定模块，用于根据敏感数据规则库存在与待识别数据相匹配的敏感数据规则，确定待识别数据中的敏感信息。

第三方面，本申请实施例还提供了一种电子设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第一方面所述的敏感数据识别方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面所述的敏感数据识别方法。

第五方面，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如第一方面所述的敏感数据识别方法。

本申请实施例提供的一种敏感数据识别方法、装置、设备及计算机存储介质，采用文本挖掘技术从目标行业的数据安全规范文件中挖掘出多条敏感数据规则组成敏感数据规则库，在获取到目标行业的待识别数据后，查找目标行业对应的敏感数据规则库中与待识别数据相匹配的敏感数据规则，根据相匹配的敏感数据规则确定待识别数据的敏感信息。根据本申请实施例，通过对行业内的数据安全规范文件进行文本挖掘得到的行业对应的敏感数据规则库，适用于行业内的所有企业和个人，相较于人为制定的企业级数据产品适用范围更广，具有普适性和更广泛的应用前景，而且合规性也更高，让行业标准做到了技术上可执行。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的敏感数据识别方法的流程示意图；

图2是本申请一个实施例提供的一种word2vec模型的示意图；

图3是本申请一个实施例提供的一种基于bootstrapping自举法的词典增广方案的流程示意图；

图4是本申请一个实施例提供的一种步骤S12的具体实现方式的流程示意图；

图5是本申请另一个实施例提供的一种步骤S12的具体实现方式的流程示意图；

图6是本申请又一个实施例提供的一种步骤S12的具体实现方式的流程示意图；

图7是本申请又一个实施例提供的一种步骤S12的具体实现方式的流程示意图；

图8是本申请一个实施例提供的一种命名实体识别模型的示意图；

图9是本申请一个实施例提供的敏感数据识别方法的流程图；

图10是本申请一个实施例提供的敏感数据识别系统的示意图；

图11是本申请一个实施例提供的敏感数据识别装置的结构示意图；

图12是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以金融行业为例，随着开放银行实践的不断深入，数据安全成为开放银行生态体系中亟待加强的部分，如何从技术上保障敏感数据在开放共享给生态各方(银行侧、场景侧)的过程中被合法合规地识别和处理是开放银行场景安全的重要部分。从金融行业的调研来看，目前大多数中小银行以及开放银行场景侧的金融机构在数据标准和数据管理方面还不够完善，对敏感数据有效识别和处理的技术能力相对薄弱，是开放生态下数据安全的主要隐患。此外，目前市面上用于进行敏感数据检测的主要是针对企业需求的定制化数据产品，还没有通用的、行业级的技术工具帮助企业在行业标准要求下自动识别和处理敏感数据的数据产品。

现有的敏感数据识别的方案主要有人为预先设定敏感词库和识别规则，利用正则表达式、脚本语言等方式判断结构化的数据记录中是否存在敏感数据。或者，通过人为预先定义安全目标及影响因素确定敏感数据，利用分类学习模型构建不同类别下的敏感数据集，再利用深度学习训练敏感数据识别模型，识别具有语义特征的非结构化敏感数据。再或者，预设敏感词的基础上，通过对语料库中词语之间的关联分析，挖掘敏感词的关联词及关联规则，更新敏感词对应的安全策略；同时利用全文搜索引擎框架提升数据匹配的效率。

总体来看，现有技术方案主要存在两大局限：一是需要人为预先设置敏感词及敏感规则，受专家知识和历史数据的限制，敏感规则的数量较少、拓展性较差，由于缺少更加普适的敏感数据规则库，无法保证完全符合行业规范要求；二是现有技术方法主要用于判断是否存在敏感数据，一方面无法处理数据字段中含有多种类别、多个等级的敏感词汇的场景，另一方面当需要识别的数据量较大时，系统开销大、识别效率和准确率就会显著下降。

鉴于此，本申请提出一种具有通用性的，行业级的敏感数据识别方法及装置，能够帮助企业在行业标准要求下自动识别和处理敏感数据。

本申请实施例提供的敏感数据识别方法，可以应用于各种需要进行敏感信息识别的行业，比如金融行业等，用于对其中的敏感数据进行识别。

参见图1，为本申请实施例提供的一种敏感数据识别方法的流程示意图，如图1所示，本实施例提供的敏感数据识别方法可以包括如下步骤：

S11.获取目标行业的待识别数据。

其中，目标行业可以为任意需要进行敏感数据识别的行业，比如可以为金融行业等。目标行业的待识别数据即为目标行业中需要进行敏感数据识别的数据。

本实施例提供的敏感数据识别方法可以由敏感数据识别系统执行。

在一个示例中，目标行业的待识别数据可以存储在敏感数据识别系统中，如此可以直接从系统中获取到待识别数据。其中，待识别数据可以是由用户输入到敏感数据识别系统中进行存储的，也可以是由敏感数据识别系统自动存服务器或云端中获取并存储的。

S12.查找目标行业对应的敏感数据规则库中与待识别数据匹配的敏感数据规则，其中，敏感数据规则库中包括采用文本挖掘技术从目标行业的数据安全规范文件中挖掘出的多条敏感数据规则。

在本实施例中，可以预先采用文本挖掘技术从目标行业的数据安全规范文件中挖掘出多条敏感数据规则，组成目标行业对应的敏感数据规则库。如此，在获取到待识别数据后，便可以直接根据目标行业对应的敏感数据规则库对待识别数据进行敏感数据识别。其中，目标行业的数据安全规范文件指目标行业范围内针对数据安全制定的统一的技术要求，是目标行业范围内的企业或个人必需遵守的行业标准。敏感数据规则是用于识别敏感数据的规则，针对任意数据，若该数据与敏感数据规则相匹配，则说明该数据中包含敏感数据。

在一个示例中，在查找目标行业对应的敏感数据规则库中与待识别数据匹配的敏感数据规则时，可以将敏感数据规则库中的每条敏感数据规则分别与待识别数据进行匹配，从而查找出与待识别数据相匹配的敏感数据规则。

S13.根据敏感数据规则库中与待识别数据匹配的敏感数据规则，确定待识别数据的敏感信息。若查找出敏感数据规则库中存在与待识别数据相匹配的敏感数据规则，则说明待识别数据中存在敏感数据，此时，可以根据查找出的敏感数据规则进一步确定待识别数据的敏感信息，敏感信息指与敏感数据相关的信息，例如可以包括敏感分类、敏感级别等。其中，敏感分类指敏感数据所属的分类，敏感级别指敏感数据的敏感等级。

本实施例提供的一种敏感数据识别方法，采用文本挖掘技术从目标行业的数据安全规范文件中挖掘出多条敏感数据规则组成敏感数据规则库，在获取到目标行业的待识别数据后，查找目标行业对应的敏感数据规则库中与待识别数据相匹配的敏感数据规则，根据相匹配的敏感数据规则确定待识别数据的敏感信息。根据本申请实施例，通过对行业内的数据安全规范文件进行文本挖掘得到的行业对应的敏感数据规则库，适用于行业内的所有企业和个人，相较于人为制定的企业级数据产品适用范围更广，具有普适性和更广泛的应用前景，而且合规性也更高，让行业标准做到了技术上可执行。

在一些实施例中，在执行上述步骤S12之前，可以采用下述方式设置目标行业对应的敏感数据规则库：

获取目标行业的数据安全规范文件；

将挖掘出的多条敏感数据规则组成目标行业对应的敏感数据规则库；

每个特征项又具体包括以下参数项的值：特征项名称、识别该特征项的正则表达式、词典和校验和。

在一个示例中，在获取目标行业的数据安全规范文件时，可以人为通过人机交互界面上传相应的数据安全规范文件，或者，人为从本地或服务器中选择相应的数据安全规范文件，从而获取到目标行业的数据安全规范文件。除此之外，也可以通过检索技术自动从网络中获取相应的数据安全规范文件。

在获取到目标行业的数据安全规范文件之后，在进行文本挖掘时，设置需要挖掘的参数项，然后基于设置的参数采用现有成熟的文本挖掘算法从数据安全规范文件中挖掘出相应的敏感数据规则，如此，挖掘到的每条敏感数据规则均包含各参数项的值。其中设置的参数项包括：规则名称、敏感分类、敏感级别、特征项、敏感词和关键词，除了上述参数项还可以包括规则编号等参数项，具体的，可以根据实际需求设置。其中，各参数项的值可以包括文本(比如词、字、句子等)、数字、字符等内容。

在一个示例中，可以预先设置一个如下表1所示的数据库表，将挖掘出的多条敏感数据规则分别填入该数据库表，从而组成敏感规则数据库。

表1：

规则编号

规则名称

敏感分类

敏感等级

特征项

敏感词

关键词

如表1所示，敏感数据规则库表中可以包含以下参数项：“规则编号”、“规则名称”、“敏感分类”、“敏感级别”、“特征项”、“敏感词”和“关键词”。在将敏感数据规则填入该数据库表时，可以将敏感数据规则中包含的每个参数值，分别添加到对应的参数项下面，同一敏感数据规则中所有的参数值填入同一行，不同敏感数据规则中的参数值填入不同的行。将填入了多条敏感数据规则的数据库表作为敏感规则数据库。

通过设置敏感数据规则库表，可以将所有敏感数据规则采用统一的格式进行存储，便于管理和使用。

在一个示例中，以目标行业为金融行业为例，其对应的数据安全规范文件可以包括中国人民银行发布的《金融数据安全数据安全分级指南》(JR/T 0197-2020)和《个人金融信息保护技术规范》，在基于上述数据安全规范文件挖掘敏感数据规则时，“规则名称”、“敏感分类”、“敏感级别”的参数值可以从《金融数据安全分级指南》的附录A中利用文本挖掘技术得出，以规则名称为例，可以通过文本解析-分词-依据语句结构和词性提取规则名称，采用附录A中“四级子类”作为“敏感分类”；“特征项”即规则的特征，比如规则“入学日期”、“毕业日期”、“证件生效日期”拥有共同的特征项“日期”；“关键词”和“敏感词”分别用于在结构化数据和非结构化数据中定位敏感规则。比如，“家庭住址”这条规则的特征项为“地址”，关键词为“家庭地址\n家庭住址”，敏感词为“家庭\n住址\n地址\n居住地”。

敏感数据规则库中的特征项可通过正则表达式、词典、校验和的方式来描述，基于此，每个特征项又具体包括以下参数项的值：特征项名称、识别该特征项的正则表达式、词典和校验和等。为便于使用，可以基于敏感数据规则库中多个特征项包括的参数项的值组成敏感数据规则库对应的特征项库。

在一个示例中，可以构建如下表2所示的特征库表，将多个特征项包括的参数项的值分别填入该数据库表，从而组成特征项库。

表2：

特征编号

特征项名称

正则表达式

特征词典

校验和

如表2所示，特征库表中可以包括以下参数项：“特征编号”、“特征项名称”、“正则表达式”、“特征词典”和“校验和”。其中“正则表达式”描述该特征项的格式规律；“特征词典”包括通过增广、命名实体识别模型得到的词典，包括机构名称词典、银行词典等；“校验和”是一个布尔值，用于说明该特征项是否有公开的校验函数，例如身份证的校验。

通过设置特征库表，可以将所有特征项的内容采用统一的格式进行存储，便于管理和使用。

通过本实施例，采用文本挖掘技术挖掘出的每条敏感数据规则，均包含规则名称、敏感分类、敏感级别、特征项、敏感词和关键词，每个特征项又包括对应的正则表达式、特征词典和校验和。基于敏感数据规则实现对敏感数据及其敏感分类和敏感等级的识别，如此，实现对待识别数据中敏感数据的有效识别并按照行业规范进行分级分类。

在一些实施例中，考虑到敏感数据规则中的一些参数值在不同数据中命名可能不同，存在命名不规范的问题。比如，可能存在针对同一含义的字段，在数据安全规范文本中采用的命名方式与待识别数据采用的命名方式可能不同，因此，若直接采用从数据安全规范文文本中挖掘出的参数值进行敏感数据识别，可能会出现一些敏感数据无法被准确识别出来的问题，导致识别准确率较低。因此，为了解决这一问题，本申请实施例还提出了利用自动增广技术对敏感数据中的参数值进行增广，使得敏感数据规则库可以持续动态优化，提升识别的准确率。相应的，在执行上述步骤S12之前，还可以先执行如下步骤：

其中，关键词的参数值和特征项的参数值均可以包括词。

可以采用NLP(Natural Language Processing，自然语言处理)技术对关键词、敏感词和/或特征项的参数值进行增广处理。比如，可以基于同义词库、word2vec和/或bootstrapping等多种增广方案，解决如“地址”与“住址”这类同义词、“中国银行”与“兴业银行”这类同类词，以及“农行”、“中国农业银行”、“abc”这类同一词的命名不规范的问题，提升规则库的拓展能力和识别敏感信息的准确率。

在一个示例中，若同一含义有不同的表达方式，会给敏感数据识别的准确匹配带来了一定的困难。为了解决这一问题，可以采用基于词库的增广方案对“关键词”和/或“敏感词”的参数值进行增广。以金融行业为例，其增广时基于的词库可以包括：(1)公开的金融数据集，如中国银保监会提供的统计数据中的字段名、银行公开的接口信息；(2)《同义词词林扩展版》，采用树状结构收录近7万词条、5层编码模式，利用分层算法以及信息含量进行相似度计算，实现同义词挖掘；(3)HowNet也即知网，知网通过构建树状义原图与网状义原义项图描述词汇特性，利用义项相似度进行词汇相似度计算，实现了同义词挖掘。上述词库只是示例性的，除了上述词库也可以采用其他词库，具体可根据实际情况选取，此处不再一一举例。通过上述增广方式可以将基于文本挖掘出的参数值增广出其对应的同义词。比如挖掘出的“关键词”的参数值为薪资，通过增广可以得到薪水、薪酬、工资等与其含义相同的同义词。通过对关键词、敏感词增广可以将同一含义的表达方式均增加到对应的参数项中，如此，可以提高关键词、敏感词的匹配准确度。

在一个示例中，基于词库的增广方案主要用于同义词的增广，但是忽略了词汇所在语料的上下文信息，据此也可以采用基于上下文信息的word2vec(word to vector)的增广方案对“关键词”、“敏感词”和/或“特征项”进行扩充。在采用基于上下文信息的word2vec的增广方案进行增广时，可以训练目标行业的词向量库，利用词向量的相似度对“关键词”、“敏感词”和/或“特征项”进行增广。word2vec模型可以采用CBOW(Continuous Bag-of-Words Model，连续词袋模型)和Skip-gram(Continuous Skip-gram Model，SG模型)两种训练模式来衡量上下文信息。CBOW是通过上下文来预测当前词；Skip-gram则是用当前词来预测其上下文。以金融行业为例，通过该方案的增广，可以识别出多种形式的银行名称、APP(application，应用)名称、地址等，并形成字典库，提升敏感数据规则库的识别效率。如图2所示，CBOW模式以X₁、X₂、X_c等上下文为输入，依次经过输入层Input layer以P_j为、隐藏层Hidden layer和输出层Output layer处理后，输出X₁、X₂、X_c等上下文的中间词P_j；Skip-gram模式则以中间词P_j为输入，依次经过输入层Input layer以P_j为、隐藏层Hidden layer和输出层Output layer的处理后得到对应的上下文X₁、X₂、X_c等，其中，W_V×N表示输入权重矩阵，W_V ^′ _×N表示输出权重矩阵，V-dim和N-dim表示向量维度，h_j表示隐藏层的输出值。

在一个示例中，通常在敏感数据规则中部分专业的“特征项”可能存在别名的情形。比如，在金融行业，同一个银行的名字可能存在全称、简称和英文名称的情况。因为为了提高识别准确率，针对这类“特征项”也需要积累相应的专业词典。对此，可以采用基于bootstrapping自举法的词典增广方案。如图3所示，在采用该增广方案进行增广时，首先构建种子词集，然后基于种子词集挖掘本名和别名在网络语料库中的出现模式，生成模式集，然后通过模式集去语料库中挖掘新的本名、别名词对，从而达到增广的目的。其中网络语料库可以为维基百科、百度百科等构建的语料库。

在本申请实施例中，采用自动增广技术对敏感数据规则中的参数值进行增广，相比于人为增广，消耗的人力和时间更少。在一些实施例中，数据通常可以分为结构化数据和非结构化数据。结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据，包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。基于此，在本申请实施例中，针对待识别数据中的结构化数据和非结构化数据采用不同的方式查找相匹配的敏感数据规则。

下面，首先对查找结构化数据相匹配的敏感数据规则的方式进行介绍。

如图4所示，上述步骤S12的具体实现方式可以包括如下步骤：

S41.获取待识别数据中的结构化数据。

在一个示例中，提取所述待识别数据中由二维表结构来逻辑表达和实现的数据，作为结构化数据。

S42.提取结构化数据中待识别的字段名和字段名对应的数据。

其中，字段名是指在结构化数据中每一列的标识，也即列名。

在一个示例中，敏感数据识别系统中可以根据预先设置至少一个字段名，基于此，可以从结构化数据中提取与预设的字段名一致的字段名及字段名对应的数据作为待识别的字段名和字段名对应的数据。其中预先设置的字段名可以根据实际需求设定。

S43.从敏感数据规则库中查找关键词与字段名相匹配的敏感数据规则，作为第一敏感数据规则。

在查找第一敏感数据规则时，可以将敏感数据规则库中每条敏感数据规则的关键词中包含的所有值分别与字段名进行匹配，以确定是否有与该字段名一致的值。将关键词中包含该字段名一致的值的敏感数据规则作为与该字段名相匹配的第一敏感数据规则。

S44.响应于从敏感数据规则库中查找到第一敏感数据规则，根据第一特征项预设的正则表达式和/或词典确定所述第一特征项与所述字段名对应的数据是否匹配。

其中，第一特征项为第一敏感数据规则的特征项。

在一个示例中，可以从预设的特征项库中获取第一特征项的正则表达式和/或词典。

在一个示例中，在根据第一特征项的正则表达式和/或词典确定第一特征项与字段名对应的数据是否匹配时，可以获取第一特征项的正则表达式或词典，对字段名对应数据进行分层抽样，将获取到的正则表达式或词典与抽样的数据进行匹配，得到正则表达式或词典与字段名对应的数据匹配率，然后将得到的匹配率与预设的匹配率阈值进行比较，若匹配率大于匹配率阈值，则确定第一特征项与字段名对应的数据相匹配，否则确定第一特征项与字段名对应的数据不匹配。

在另一个示例中，在根据第一特征项的正则表达式和/或词典确定第一特征项与字段名对应的数据是否匹配时，可以先获取第一特征项的正则表达式，在获取到正则表达式的情况下，对字段名对应数据进行分层抽样，将获取到的正则表达式与抽样的数据进行匹配，得到正则表达式与字段名对应的数据的匹配率，然后将得到的匹配率与预设的匹配率阈值进行比较，若匹配率大于匹配率阈值，则确定第一特征项与字段名对应的数据相匹配，否则，确定第一特征项与字段名对应的数据不匹配。在未获取到正则表达式的情况下，再获取第一特征项的词典，对字段名对应数据进行分层抽样，然后将获得的词典与抽样的数据进行匹配，得到词典与字段名对应的数据的匹配率，然后将该匹配率与预设的匹配率阈值进行比较，若匹配率大于匹配率阈值，则确定第一特征项与字段名对应的数据相匹配，否则确定第一特征项与字段名对应的数据不匹配。

其中，正则表达式与字段名对应的数据的匹配率指抽样的数据中与正则表达式相匹配的数据量与抽样的总数据量的比值。比如，从字段名对应的数据中抽样出10个词，其中8个词与正则表达式相匹配，则匹配率就是0.8。词典与字段名对应的数据的匹配率指抽样的数据中与词典相匹配的数据量与抽样的总数据量的比值。比如，从字段名对应的数据中抽样出10个词，其中8个词与词典相匹配，则匹配率就是0.8。匹配率阈值可以根据实际情况设置。

S45.响应于第一特征项与字段名对应的数据相匹配，确定第一敏感数据规则为与结构化数据相匹配的敏感数据规则。在本实施例中，在对结构化数据进行敏感数据识别时，采用首先识别敏感字段然后对该字段下的抽样数据进行验证的方式可以减少对结构化数据中真实数据的全局检索，从而减轻数据处理压力，提升敏感数据识别的速度。

在一些实施例中，在图4所示的基础上，如图5所示，上述步骤S12的具体实现方式还可以包括如下步骤：

S51.响应于未从敏感数据规则库中查找到第一敏感数据规则，或第一特征项与字段名对应的数据不匹配，将字段名对应的数据分为待检测数据和验证数据。

在一个示例中，在将字段名对应的数据分为待检测数据和验证数据时，可以设定抽样阈值，在该字段名对应数据的行数小于抽样阈值的情况下，将字段名对应数据一分为二，一部分作为待检测数据，另一部分作为验证项。在字段名对应数据的行数大于抽样阈值的情况下，对字段名对应数据进行分层抽样，将分层抽样的数据作为待检测数据，对该字段名对应数据进行随机抽样，将随机抽样后的数据作为验证数据。

S52.将敏感数据规则库中的所有敏感数据规则的特征项的正则表达式和/或词典分别与待检测数据进行匹配，以确定是否存在与待检测数据项匹配的特征项。

其中，各特征项的正则表达式和/或词典均可以从特征项库中获取。

针对每个特征项，其正则表达式和/或词典与待检测数据进行匹配的方式与上述步骤S44中采用的匹配方式一致，此处不再赘述。通过匹配会得到每个特征项的正则表达式或词典与待检测数据的匹配率，将匹配率大于匹配率阈值的特征项作为与待检测数据相匹配的特征项。

S53.响应于存在与待检测数据相匹配的特征项，将与待检测数据相匹配的特征项作为第二特征项。

S54.将第二特征项的正则表达式和/或词典与验证数据进行匹配，以确定第二特征项与验证数据是否匹配。

同理，第二特征项的正则表达式和/或词典与验证数据进行匹配的方式与上述步骤S44的方式也一致，此处不再赘述，通过匹配会得到第二特征项的正则表达式和词典与验证数据的匹配率，若该匹配率大于匹配率阈值则确定第二特征项与验证数据相匹配，否则确定第二特征项与验证数据不匹配。

S55.响应于第二特征项与验证数据相匹配，确定第二特征项所属的敏感数据规则为与结构化数据相匹配的敏感数据规则。

在本实施例中，在无法基于字段名匹配出结构化数据相匹配的敏感数据规则的情况下，不是直接确定结构化数据不存在敏感数据，而是通过字段名对应的数据进一步查找相匹配的敏感数据规则，如此，可以提高识别的准确率。

在一些实施例中，为了进一步提高识别准确度，在第二特征项与验证数据相匹配的情况下，确定第二特征项所属的敏感数据规则与结构化数据相匹配之前，还可以执行如下步骤：

获取第二特征项的校验和，采用校验和进一步对待识别数据进行校验，在校验通过的情况下，再确定第二特征项所属的敏感数据规则为与结构化数据相匹配的敏感数据规则。

在一些实施例中，考虑到提取到的字段名格式可能不够规范，其中可能存在一些描述性文字，如此可能导致采用上述针对结构化数据的识别方式无法从敏感数据规则库中识别出与其匹配的敏感数据规则，针对此种情况，为了进一步提高识别准确度，可以利用训练好的命名实体识别模型提取该结构化数据中的特征项，然后基于提取出的特征项采用人工校验的方式进行敏感数据识别。

以上，为从敏感数据规则库中查找与待识别数据中结构化数据相匹配的敏感数据规则的方式。在采用上述方式确定出与结构化数据相匹配的敏感数据规则后，便可以根据确定出的敏感数据规则确定结构化数据的敏感信息。相应的，上述步骤S13的具体实现方式可以包括：

在一个示例中，在从敏感数据规则库中查找与结构化数据相匹配的敏感数据规则时，采用依次逐条查找的方式，在查找到一条与结构化数据相匹配的敏感数据规则时，记录该条敏感数据规则及该条敏感数据规则包含的敏感类别和敏感级别作为结构化数据的敏感信息，在后续又查找到其他与结构化数据相匹配的敏感数据规则时，将查找到的其他敏感数据规则的敏感级别与之前记录的敏感级别进行比较，若后续查找到的其他敏感数据规则的敏感级别高于记录的敏感级别，则对结构化数据的敏感信息进行更新，更新为后续找到的其他敏感数据规则，及该其他敏感数据规则的敏感分类和敏感级别，否则，保持记录的敏感信息不变。

通过本实施例，在存在多条与结构化数据相匹配的敏感数据规则的情况下，根据其中敏感级别最高的敏感数据规则确定结构化数据的敏感信息，保证了最终确定的敏感信息的准确性。

下面，对查找非结构化数据相匹配的敏感数据规则的方式进行介绍。

在一些实施例中，如图6所示，上述步骤S12的具体实现方式还可以包括如下步骤：

S61.获取待识别数据中的非结构化数据。

在一个示例中，提取待识别数据中除结构化数据之外的其他数据，作为非结构化数据。

S62.对非结构化数据进行分词处理，获得非结构化数据的分词结果。

可以采用现有成熟文本分词技术对非结构化数据进行分词处理，从而得到对应的分词结果。

S63.利用敏感数据规则库中的所有敏感词对分词处理后的非结构化数据进行全文匹配，以确定敏感数据规则库中与非结构化数据相匹配的敏感词。

将每个敏感词分别与非结构化数据进行全文匹配，若非结构化数据中存在与该敏感词一致的词就确定该敏感词与非结构化数据相匹配。

S64.响应于敏感数据规则库中存在与非结构化数据相匹配的敏感词，将与非结构化数据相匹配的敏感词作为目标敏感词，并将目标敏感词所属的敏感数据规则作为目标敏感数据规则。

S65.记录目标敏感词在非结构化数据中的位置。

S66.提取非结构化数据中位于该位置前后的N个字符，其中N为正整数。

N的取值可以根据实际情况设定。

在一个示例中，可以分别在目标敏感词对应的位置的前面和后面取字符，共取N个字符，然后将取到的N个字符作为待识别内容，通过目标敏感数据规则进一步进行识别。

S67.将目标敏感数据规则的特征项的正则表达式和/或词典与N个字符进行匹配，以确定目标敏感数据规则的特征项与N个字符是否匹配。

S68.响应于目标敏感数据规则的特征项与N个字符相匹配，确定目标敏感数据规则为与非结构化数据相匹配的敏感数据规则。

在本实施例中，主要是针对待识别数据中非结构化数据进行敏感数据识别的方式，在识别时，先利用敏感词对待识别内容进行定位，然后仅将待识别内容与目标敏感数据规则进行匹配识别，此种方式，无需将所有的非结构化数据均与敏感数据规则进行匹配，减少了识别所需的工作量，从而提高了识别效率。

在一些实施例中，考虑到非结构化数据中可能不存在敏感词，如图7所示，上述步骤S12的具体实现方式还可以包括如下步骤：

S71.利用敏感数据规则库中所有特征项的词典和/或训练好的命名实体识别模型识别非结构化数据中的特征项，作为第三特征项。

在一个示例中，可以从特征项库中获取所有特征项的词典，在获取到词典后，可以将词典中包含的每个特征与非结构化数据进行全文匹配，从而将与非结构化数据相匹配的特征作为非结构化数据的特征项。通过此种方式，仅需要进行简单的文本匹配，便可以快速识别出非结构化数据的特征项。

在一个示例中，命名实体识别模型(Named Entity Recognition，简称NER模型)是结合双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)构建的命名实体识别模型，如图8所示，为本申请实施例提供的一种为命名实体识别模型的示意图。Bi-LSTM依靠神经网络的非线性拟合能力，在对命名实体识别模型进行训练时将样本通过高维空间中的复杂非线性变化，提取从样本到标注的函数的特征，构建命名实体库和对应的标签知识库。CRF既可以表达观测之间的依赖，还可以表示当前观测与前后多个状态之间的复杂依赖。CRF以Bi-LSTM的输出结果、文本标签以及神经网络中的矩阵作为输入参数，利用状态转移矩阵来对一些存在明显错误的标签进行约束，比如“O后面不能直接接I”、“B后面不可能接O”等，其中I、O、B均表示标签，经过多次迭代训练，优化模型参数，得到训练好的命名实体识别模型。

通过将非结构化数据输入到训练好的命名实体识别模型，便可以得到模型输出的该非结构化数据中具有实体性质的敏感特征，也即该非结构化数据的特征项。通过此种方式，可以识别出更准确，更全面的特征项。

其中，特征项可以包括姓名、品牌名、产品名、机构名、地址、日期等。

S72.从敏感数据规则库中查找包含第三特征项的敏感数据规则，作为第三敏感数据规则。

S73.响应于从敏感数据规则库中查找到第三敏感数据规则，从第三敏感数据规则中确定与非结构化数据相匹配的敏感数据规则。

在本实施例中，将敏感数据规则库和命名实体识别模型相结合，来识别非结构化数据中具有实体性质的敏感特征，弥补敏感数据规则库在识别非结构化数据时的不足，从而实现针对非结构化数据的基于敏感数据规则库的敏感数据识别。

在一些实施例中，考虑到在对非结构化数据进行识别时，根据第三特征项可能会识别出多条包含第三特征项的第三敏感数据规则，比如非结构化数据的第三特征项包含“日期”，而敏感数据规则库中涉及日期的敏感数据规则可能由很多条，在此种情况下，为了提高识别精度，需要进一步明确第三特征项具体属于哪条敏感数据规则。鉴于此，根据第三敏感数据规则确定与非结构化数据相匹配的敏感数据规则可以包括：

响应于敏感数据规则库中存在多条第三敏感数据规则，对非结构化数据进行语义分类处理，获得非结构化数据所属的敏感分类。例如，在金融行业，特征项“日期”对应的多条规则可以属于个人基本信息、账户基本信息等不同分类。

将多条与第三敏感数据规则中敏感分类与非结构化数据所属的敏感分类一致的敏感数据规则，作为与非结构化数据相匹配的敏感数据规则。

相应的，若敏感数据规则库中仅存在一条第三敏感数据规则，则可以直接将该条第三敏感数据规则作为与非结构化数据相匹配的敏感数据规则，也可以先基于非结构化数据所属的敏感分类对该第三敏感数据规则进行验证，在确定该第三敏感数据规则的敏感分类与非结构化数据所属的敏感分类一致的情况下再将该第三敏感数据规则作为与非结构化数据相匹配的敏感数据规则。

其中，在对非结构化数据进行语义分类处理时，可以基于目标行业的数据安全规范文本，利用成熟的文本分类技术对非结构化数据进行分类处理。

在一个示例中，以目标行业为金融行业为例，可以按照《金融数据安全分级指南》的二级子类利用RNN+ALBERT进行对非结构化数据进行文本分类处理，得到非结构化数据的分类结果。因为敏感数据规则也是基于数据安全规范文本设置的，因此其中包含的敏感分类的确定方式与此分类方式一致，如此，分类得到的分类结果可以与敏感数据规则中的敏感分类对应。如此，便可以基于分类结果对敏感数据规则进行筛选。在本实施例中，基于非结构化数据所属的敏感分类对第三敏感数据规则进行筛选，以确定非结构化数据相匹配的敏感数据规则，可以提高敏感数据识别的准确性。

在一些实施例中，为了进一步提高识别的准确性，在步骤S12之后，还可以对待识别数据进行人工校验。其中，人工校验可以采用现有成熟的校验方式。

以上，为从敏感数据规则库中查找与待识别数据中非结构化数据相匹配的敏感数据规则的方式。在采用上述方式确定出与非结构化数据相匹配的敏感数据规则后，便可以根据确定出的敏感数据规则确定非结构化数据的敏感信息。相应的，上述步骤S13的具体实现方式可以包括：

在从敏感数据规则库中查找与非结构化数据相匹配的敏感数据规则时，采用依次逐条查找的方式，在查找到一条与非结构化数据相匹配的敏感数据规则时，记录该条敏感数据规则及该条敏感数据规则包含的敏感类别和敏感级别作为非结构化数据的敏感信息，在后续又查找到其他与非结构化数据相匹配的敏感数据规则时，将查找到的其他敏感数据规则的敏感级别与之前记录的敏感级别进行比较，若后续查找到的其他敏感数据规则的敏感级别高于记录的敏感级别，则对非结构化数据的敏感信息进行更新，更新为后续找到的其他敏感数据规则，及该其他敏感数据规则的敏感分类和敏感级别，否则，保持记录的敏感信息不变。

通过本实施例，在存在多条与非结构化数据相匹配的敏感数据规则的情况下，根据其中敏感级别最高的敏感数据规则确定非结构化数据的敏感信息，保证了最终确定的敏感信息的准确性。

参见图9，为本申请实施例提供的一种敏感数据识别的整体流程示意图。如图9所示，在进行敏感数据识别时可以执行如下步骤：

S901.加载预设的目标行业的敏感数据规则库。

S902.对待识别数据进行分类，分为结构化数据和非结构化数据。

针对结构化数据，执行如下步骤：

S911.数据分割。

S912.元数据信息提取。

其中元数据信息提取即为提取待识别的字段名和字段名对应的数据。

S913.关键字判定，在判定成功的情况下执行S914，在判定失败的情况下执行S916。

关键字判定即为从敏感数据规则库中查找关键字与字段名匹配的敏感数据规则，判定成功，也即查找到了与字段名匹配的敏感数据规则，若判定失败，也即未查找到与字段名匹配的敏感数据规则，

S914.部分正则/词典校验，并在校验成功的情况下执行S915。

也即仅采用与字段名匹配的敏感数据规则对应的正则表达式/词典对字段名对应的抽样数据进行匹配校验

S915.记录敏感信息。

S916.正则表达式/词典检测，在检测成功的情况下执行S917，在检测失败的情况下执行S918。

也即利用敏感数据规则库中所有特征项的正则表达式/词典对该字段名对应的数据进行匹配，查找与该字段名对应的数据匹配的敏感数据规则，校验成功也即查找到了与该字段名对应的数据匹配的敏感数据规则

S917.校验和校验，并在校验成功的情况下，执行S919。

也即利用查找到的敏感数据规则中特征项的校验和对该字段名对应的数据进一步校验。

S918.NER模型打标。

也即利用训练好的NER模型确定结构化数据的特征项。

S903.人工校验。

针对非结构化数据，执行如下步骤：

S921.语义分析。

也即对非结构化数据进行分词处理，得到分词结果。

S922.文本分类。

也即对非结构化数据进行分类处理，得到分类结果。

S923.NER模型打标。

也即通过训练好的NER模型提取非结构化数据中的特征项。

S924.规则检测。

也即根据提取出的非结构化数据中的特征项，从敏感数据规则库中查找与该特征项匹配的敏感数据规则。

在通过S923和S924完成对非结构化数据的敏感数据识别之后，可以进一步通过S903进行人工校验。

除上述步骤之外，如图9所示，S912和S922之后，还可以对NER模型进行在线学习，以提高模型精度。

需要说明的是，针对结构化数据和非结构化数据可以并行进行敏感数据识别。

参见图10，为本申请实施例提供的一种敏感数据识别系统的设计示意图，如图10所示，该系统可以包括本地计算机1001和服务器1002。

其中，计算机1001用于对待识别数据进行敏感数据识别，计算机1001只需要存储敏感数据规则库和训练好的NER模型，而敏感数据规则库的维护(包括正则表达式的维护)、增广、及NER模型优化则可由远程服务器1002来完成，从而减小占用系统的空间，保障数据系统的运行效率。

本实施例提供的一种敏感数据识别方法及系统，综合利用目标行业的敏感数据规则库和NER模型，有效识别结构化数据和非结构化数据中的敏感信息，解决敏感数据规则有限、敏感词命名不一致、识别准确率不高等问题。

基于上述实施例提供的敏感数据识别方法，相应地，本申请还提供了敏感数据识别装置的具体实现方式。

参见图11，为本申请实施例提供的一种敏感数据识别装置的结构示意图，如图11所示，本实施例提供的一种敏感数据识别装置可以包括如下模块：

数据获取模块1101，用于获取目标行业的待识别数据。

规则查找模块1102，用于查找目标行业对应的敏感数据规则库中与待识别数据匹配的敏感数据规则，其中，敏感数据规则库中包括采用文本挖掘技术从目标行业的数据安全规范文件中挖掘出的多条敏感数据规则。

敏感信息确定模块1103，用于根据敏感数据规则库中与待识别数据相匹配的敏感数据规则，确定待识别数据的敏感信息。

本申请实施例提供的一种敏感数据识别装置，采用文本挖掘技术从目标行业的数据安全规范文件中挖掘出多条敏感数据规则组成敏感数据规则库，在获取到目标行业的待识别数据后，查找目标行业对应的敏感数据规则库中与待识别数据相匹配的敏感数据规则，根据相匹配的敏感数据规则确定待识别数据的敏感信息。根据本申请实施例，通过对行业内的数据安全规范文件进行文本挖掘得到的行业对应的敏感数据规则库，适用于行业内的所有企业和个人，相较于人为制定的企业级数据产品适用范围更广，具有普适性和更广泛的应用前景，而且合规性也更高，让行业标准做到了技术上可执行。

在一些实施例中，上述装置还可以包括：规则库构建模块，具体用于：

在检测目标行业对应的敏感数据规则库是否存在与待识别数据匹配的敏感数据规则之前，获取目标行业的数据安全规范文件；

将多条敏感数据规则组成目标行业对应的敏感数据规则库；

将敏感数据规则库中多个特征项包含的参数项的值组成敏感数据规则库对应的特征项库。

在一些实施例中，上述装置还可以包括：增广模块，具体用于：

在检测目标行业对应的敏感数据规则库是否存在与待识别数据匹配的敏感数据规则之前，针对敏感数据规则库中的每条敏感数据规则，对敏感数据规则中关键词、敏感词的参数值进行增广处理，得到该参数值的同义词，将同义词添加到敏感数据规则的关键词、敏感词中；和/或，

在一些实施例中，规则查找模块1102具体用于：

获取待识别数据中的结构化数据；

提取结构化数据中待识别的字段名和字段名对应的数据；

在一些实施例中，规则查找模块1102，还可以用于：

在一些实施例中，敏感信息确定模块1103具体用于：

在一些实施例中，规则查找模块1102，还可以用于：

获取待识别数据中的非结构化数据；

利用敏感数据规则库中的所有敏感词对分词处理后的非结构化数据进行全文匹配，以确定敏感数据规则库中是否存在与非结构化数据相匹配的敏感词；

响应于敏感数据规则库中存在与非结构化数据相匹配的敏感词，将与非结构化数据相匹配的敏感词作为目标敏感词，并将目标敏感词所属的敏感数据规则作为目标敏感数据规则；

记录目标敏感词在非结构化数据中的位置；

响应于目标敏感数据规则的特征项与N个字符相匹配，确定目标敏感数据规则为与非结构化数据相匹配的敏感数据规则。

在一些实施例中，规则查找模块1102，还可以用于：

响应于从敏感数据规则库中查找到第三敏感数据规则，从第三敏感数据规则中确定与非结构化数据相匹配的敏感数据规则。在一些实施例中，从第三敏感数据规则中确定与非结构化数据相匹配的敏感数据规则，包括：

响应于敏感数据规则库中存在多条第三敏感数据规则，对非结构化数据进行语义分类处理，得到非结构化数据所属的敏感分类；

将多条第三敏感数据规则中敏感分类与非结构化数据所属的敏感分类一致的敏感数据规则，作为与非结构化数据相匹配的敏感数据规则。

在一些实施例中，敏感信息确定模块1103具体用于：

本申请实施例提供的敏感数据识别装置能够实现上述任意敏感数据识别方法实施例实现的各个过程，为避免重复，这里不再赘述。

图12示出了本申请实施例提供的电子设备的硬件结构示意图。

电子设备可以包括处理器1201以及存储有计算机程序指令的存储器1202。

具体地，上述处理器1201可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器1202可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器1202可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器1202可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器1202可在综合网关容灾设备的内部或外部。在特定实施例中，存储器1202是非易失性固态存储器。

存储器1202可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器1202包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可执行上述实施例中的任意一种敏感数据识别方法所描述的操作。

处理器1201通过读取并执行存储器1202中存储的计算机程序指令，以实现上述实施例中的任意一种敏感数据识别方法。

在一个示例中，电子设备还可包括通信接口1203和总线1210。其中，如图12所示，处理器1201、存储器1202、通信接口1203通过总线1210连接并完成相互间的通信。

通信接口1203，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线1210包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线1210可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的敏感数据识别方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种敏感数据识别方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种敏感数据识别方法，其特征在于，包括：

获取目标行业的待识别数据；

查找所述目标行业对应的敏感数据规则库中与所述待识别数据相匹配的敏感数据规则，其中，所述敏感数据规则库中包括采用文本挖掘技术从所述目标行业的数据安全规范文件中挖掘出的多条敏感数据规则；

根据所述敏感数据规则库中与所述待识别数据相匹配的敏感数据规则，确定所述待识别数据的敏感信息。

2.根据权利要求1所述的方法，其特征在于，所述查找所述目标行业对应的敏感数据规则库中与所述待识别数据相匹配的敏感数据规则之前，所述方法还包括：

获取所述目标行业的数据安全规范文件；

利用文本挖掘技术从获取的所述数据安全规范文件中挖掘多条敏感数据规则，其中，每条所述敏感数据规则包括以下参数项的值：规则名称、敏感分类、敏感级别、特征项、敏感词和关键词；每个特征项又具体包括以下参数项的值：特征项名称、识别该特征项的正则表达式、词典和校验和；

将所述多条敏感数据规则组成所述目标行业对应的敏感数据规则库；

将所述敏感数据规则库中多个特征项包括的参数项的值组成所述敏感数据规则库对应的特征项库。

3.根据权利要求2所述的方法，其特征在于，所述查找所述目标行业对应的敏感数据规则库中与所述待识别数据相匹配的敏感数据规则之前，所述方法还包括：

针对所述敏感数据规则库中的每条所述敏感数据规则，对所述敏感数据规则中关键词、敏感词的参数值进行增广处理，得到该参数值的同义词，将所述同义词添加到所述敏感数据规则的关键词、敏感词中；和/或，

针对所述敏感数据规则库中的每条所述敏感数据规则，对所述敏感数据规则中特征项中参数值进行增广处理，得到该参数值的同义词和/或同类词，将所述同义词和/或所述同类词组成所述特征项的词典。

4.根据权利要求2所述的方法，其特征在于，所述查找所述目标行业对应的敏感数据规则库中与所述待识别数据相匹配的敏感数据规则，包括：

获取所述待识别数据中的结构化数据；

提取所述结构化数据中待识别的字段名和所述字段名对应的数据；

从所述敏感数据规则库中查找关键词与所述字段名相匹配的敏感数据规则，作为第一敏感数据规则；

响应于从所述敏感数据规则库中查找到所述第一敏感数据规则，根据第一特征项预设的正则表达式和/或词典确定所述第一特征项与所述字段名对应的数据是否匹配，其中，所述第一特征项为所述第一敏感数据规则的特征项；

响应于所述第一特征项与所述字段名对应的数据相匹配，确定所述第一敏感数据规则为与所述结构化数据相匹配的敏感数据规则。

5.根据权利要求3所述的方法，其特征在于，所述查找所述目标行业对应的敏感数据规则库中与所述待识别数据相匹配的敏感数据规则，还包括：

响应于未从所述敏感数据规则库中查找到所述第一敏感数据规则，或所述第一特征项与所述字段名对应的数据不匹配，将所述字段名对应的数据分为待检测数据和验证数据；

将所述敏感数据规则库中的所有敏感数据规则的特征项的正则表达式和/或词典分别与所述待检测数据进行匹配，以确定是否存在与所述待检测数据项匹配的特征项；

响应于存在与所述待检测数据相匹配的特征项，将与所述待检测数据相匹配的特征项作为第二特征项；

将所述第二特征项的正则表达式和/或词典与所述验证数据进行匹配，以确定所述第二特征项与所述验证数据是否匹配；

响应于所述第二特征项与所述验证数据相匹配，确定所述第二特征项所属的敏感数据规则为与所述结构化数据相匹配的敏感数据规则。

6.根据权利要求4-5任一项所述的方法，其特征在于，所述根据所述敏感数据规则库中与所述待识别数据相匹配的敏感数据规则，确定所述待识别数据的敏感信息，包括：

响应于所述敏感数据规则库中仅存在一条与所述结构化数据相匹配的敏感数据规则，将与所述结构化数据相匹配的敏感数据规则包含的敏感分类和敏感级别作为所述结构化数据的敏感分类和敏感级别；

响应于所述敏感数据规则库中存在多条与所述结构化数据相匹配的敏感数据规则，将所述多条与所述结构化数据相匹配的敏感数据规则中敏感级别最高的敏感数据规则包含的敏感分类和敏感级别作为所述结构化数据的敏感分类和敏感级别。

7.根据权利要求2所述的方法，其特征在于，所述查找所述目标行业对应的敏感数据规则库中与所述待识别数据相匹配的敏感数据规则，包括：

获取所述待识别数据中的非结构化数据；

对所述非结构化数据进行分词处理，获得所述非结构化数据的分词结果；

利用所述敏感数据规则库中的所有敏感词对分词处理后的所述非结构化数据进行全文匹配，以确定所述敏感数据规则库中与所述非结构化数据相匹配的敏感词；

响应于所述敏感数据规则库中与所述非结构化数据相匹配的敏感词，将与所述非结构化数据相匹配的敏感词作为目标敏感词，并将所述目标敏感词所属的敏感数据规则作为目标敏感数据规则；

记录所述目标敏感词在所述非结构化数据中的位置；

提取所述非结构化数据中位于所述位置前后的N个字符，其中N为正整数；

将所述目标敏感数据规则的特征项的正则表达式和/或词典与所述N个字符进行匹配，以确定所述目标敏感数据规则的特征项与所述N个字符是否匹配；

响应于所述目标敏感数据规则的特征项与所述N个字符相匹配，确定所述目标敏感数据规则为与所述非结构化数据相匹配的敏感数据规则。

8.根据权利要求7所述的方法，其特征在于，所述查找所述目标行业对应的敏感数据规则库中与所述待识别数据相匹配的敏感数据规则，包括：

利用所述敏感数据规则库中所有特征项的词典和/或训练好的命名实体识别模型识别所述非结构化数据中的特征项，作为第三特征项；

从所述敏感数据规则库中查找包含所述第三特征项的敏感数据规则，作为第三敏感数据规则；

响应于从所述敏感数据规则库中查找到所述第三敏感数据规则，从所述第三敏感数据规则中确定与所述非结构化数据相匹配的敏感数据规则。

9.根据权利要求8所述的方法，其特征在于，所述从所述第三敏感数据规则中确定与所述非结构化数据相匹配的敏感数据规则，包括：

响应于所述敏感数据规则库中存在多条所述第三敏感数据规则，对所述非结构化数据进行语义分类处理，获得所述非结构化数据所属的敏感分类；确定多条所述第三敏感数据规则中，敏感分类与所述非结构化数据所属的敏感分类一致的敏感数据规则为与所述非结构化数据相匹配的敏感数据规则。

10.根据权利要求7-9任一项所述的方法，其特征在于，所述根据所述敏感数据规则库中与所述待识别数据相匹配的敏感数据规则，确定所述待识别数据的敏感信息，包括：

响应于所述敏感数据规则库中仅存在一条与所述非结构化数据相匹配的敏感数据规则，将与所述非结构化数据相匹配的敏感数据规则包含的敏感分类和敏感级别作为所述非结构化数据的敏感分类和敏感级别；

响应于所述敏感数据规则库中存在多条与所述非结构化数据相匹配的敏感数据规则，将所述多条与所述非结构化数据相匹配的敏感数据规则中敏感级别最高的敏感数据规则包含的敏感分类和敏感级别作为所述非结构化数据的敏感分类和敏感级别。

11.一种敏感数据识别装置，其特征在于，包括：

数据获取模块，用于获取目标行业的待识别数据；

规则查找模块，用于查找所述目标行业对应的敏感数据规则库中与所述待识别数据相匹配的敏感数据规则，其中，所述敏感数据规则库中包括采用文本挖掘技术从所述目标行业的数据安全规范文件中挖掘出的多条敏感数据规则；

敏感信息确定模块，用于根据所述敏感数据规则库中与所述待识别数据相匹配的敏感数据规则，确定所述待识别数据的敏感信息。

12.一种电子设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-10任意一项所述的敏感数据识别方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-10任意一项所述的敏感数据识别方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1-10任意一项所述的敏感数据识别方法。