CN116975102A

CN116975102A - 敏感数据监测方法、系统、电子设备及存储介质

Info

Publication number: CN116975102A
Application number: CN202210410190.9A
Authority: CN
Inventors: 薛飞; 陈贞贞; 陈彬; 梁猛
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-10-31

Abstract

本申请涉及数据安全技术领域，提供一种敏感数据监测方法、系统、电子设备及存储介质。方法包括：数据提供者向数据分发器发送数据监测请求消息；数据分发器将数据监测请求消息发送至敏感数据监测实例；由数据处理器接收数据监测请求消息，对原始数据进行采样，向敏感嗅探器发送涉敏查询请求消息；数据处理器基于涉敏查询结果，向涉敏处理器发送涉敏处理请求消息；涉敏处理器输出涉敏查询结果；数据处理器将数据处理结果传输至数据使用者；数据分发器向数据提供者返回数据监测响应消息。本申请实施例提供的敏感数据监测方法，通过采用人工智能技术自动学习敏感数据关键特征，适用于多种类型的数据监测，具有效率高和准确率高的特点。

Description

敏感数据监测方法、系统、电子设备及存储介质

技术领域

本申请涉及数据安全技术领域，具体涉及一种敏感数据监测方法、系统、电子设备及存储介质。

背景技术

目前，针对敏感数据监测方法主要包括基于规则的敏感数据监测和基于日志的敏感数据审计两大类，两种方法都是依靠业务专家经验识别敏感数据，不同之处在于，基于规则的敏感数据监测将业务专家经验线上化，把具体规则固化在IT系统中；而基于日志的敏感数据审计依靠业务专家线下分析，对数据传输内容进行逐一人工审核。

由于上述两种方案均过于依靠于人工的专家经验，缺乏对监测对象和监测环境的主动学习和更新，因此存在诸多缺陷。从监测对象上来看，基于规则的敏感数据监测的应用范围狭窄，对数据内容进行黑名单过滤，导致该方法只适合监测文本类数据是否涉敏，而对于图片、视频、音频等非文本类数据是否涉敏识别，基于规则的敏感数据监测不再适用。从监测能力上来看，现有敏感数据监测技术缺乏标准化、自动学习和快速迭代能力，基于规则的敏感数据监测和基于日志的敏感数据审计技术都是依靠业务专家经验判断，这导致现有数据敏感监测技术缺乏标准化、客观化；同时，对于业务专家熟悉领域范围外的数据监测任务，现有敏感数据监测技术无能为力，识别能力也无法针对新类型数据进行自动更新，快速升级。从监测效果上来看，现有敏感数据监测技术未能充分监测数据内容，开展协调、立体、有序的监测模式，而是通过人工配置静态规则，简单、独立、无序地叠加，无法达到综合监测效果，基于规则的敏感数据监测存在规则错配置、漏配置的可能性，人工维护工作量巨大，甚至存在通过SQL临时表、敏感字段重命名、数据格式转换存储等技术手段绕开基于规则的敏感数据监测的可能性，使得现有敏感数据监测手段失效。

针对敏感数据监测方法存在的多种局限性，需要提出一种新的敏感数据监测方法。

发明内容

本申请实施例提供一种敏感数据监测方法、系统、电子设备及存储介质，用以解决敏感数据监测的现有方法普遍存在过于依赖人工监测经验，监测效率低以及无法快速学习升级以适应新场景的技术问题。

第一方面，本申请实施例提供一种敏感数据监测方法，包括：

数据提供者向数据分发器发送数据监测请求消息，请求监测传输的原始数据是否为敏感数据；

所述数据分发器基于实例状态运行表，将所述数据监测请求消息发送至负荷最低的敏感数据监测实例，启动响应计时器；

由数据处理器接收所述数据监测请求消息，分批次缓存原始数据，基于预设采样策略对所述原始数据进行采样，向敏感嗅探器发送涉敏查询请求消息；

所述敏感嗅探器部署模型生成器生成的敏感数据监测人工智能AI模型，向所述数据处理器返回涉敏查询响应消息；

所述数据处理器基于所述涉敏查询结果，向涉敏处理器发送涉敏处理请求消息；

所述涉敏处理器根据所述涉敏查询响应消息中的涉敏标记判断所述原始数据是否为敏感数据，输出涉敏查询结果；

所述数据处理器基于所述涉敏查询结果执行相应的数据处理动作，将数据处理结果传输至数据使用者，并通过异步消息处理机制向所述数据分发器返回数据处理响应消息；

所述数据分发器向所述数据提供者返回数据监测响应消息，所述数据监测响应消息用于表示所述原始数据是否传输至所述数据使用者。

在一个实施例中，所述数据提供者向数据分发器发送数据监测请求消息，请求监测传输的原始数据是否为敏感数据，之前还包括：

所述模型生成器向主用数据分发器发送查询实例地址请求，获取所有敏感数据监测实例地址；

所述数据分发器基于所述实例状态运行表，获取所述所有敏感数据监测实例地址，向所述模型生成器回复实例地址消息；

所述模型生成器基于实例地址清单，将生成的所述敏感数据监测AI模型发送至各个敏感数据监测实例；

所述各个敏感数据监测实例在所述敏感嗅探器上部署模型文件并对所述模型文件进行测试校验，待所述敏感数据监测AI模型完成部署，向所述模型生成器返回确认模型文件消息；

所述模型生成器向所述数据分发器同步各个敏感数据监测实例运行状态，完成敏感数据监测AI模型更新。

在一个实施例中，所述敏感数据监测AI模型，通过以下步骤获得：

获取训练数据样本，基于有监督学习的二分类算法，人工配置所述训练数据样本，标记为敏感数据正样本，采用对抗生成网络处理所述训练数据样本，标记为不敏感数据负样本；

确定深度学习神经网络初始模型，分别在模型训练态采用所述敏感数据正样本和所述不敏感数据负样本对所述深度学习神经网络初始模型进行训练，以及在模型推理态采用所述原始数据对所述深度学习神经网络初始模型进行训练，得到所述敏感数据监测AI模型；

其中所述模型训练态部署于所述模型生成器，所述模型推理态部署于所述敏感嗅探器。

在一个实施例中，所述在模型训练态采用所述敏感数据正样本和所述不敏感数据负样本对所述深度学习神经网络初始模型进行训练，包括：

在输入层将所述敏感数据正样本和所述不敏感数据负样本转换为多组数值特征向量；

在隐藏层利用深度学习神经网络初始模型学习固定长度或可变长度的数据特征，基于样本标签采用反向传播算法更新模型参数；

在输出层通过Softmax算法实现所述训练数据样本的二分类输出，判断所述训练数据样本是否为敏感数据。

在一个实施例中，所述在模型推理态采用所述原始数据对所述深度学习神经网络初始模型进行训练，包括：

在输入层将所述原始数据转换为多组数值特征向量；

在隐藏层基于所述模型参数，计算所述原始数据是否为敏感数据；

在输出层通过Softmax算法实现预测数据的二分类输出，判断所述预测数据是否为敏感数据。

在一个实施例中，还包括：

各个敏感数据监测实例的所述敏感嗅探器向主用数据分发器周期性发送心跳信息，所述主用数据分发器基于所述心跳信息更新所述主用数据分发器上的实例运行状态表；

所述敏感嗅探器基于所述异步消息处理机制向备用数据分发器发送所述心跳信息；

所述主用数据分发器周期性向所述备用数据分发器发起数据同步，更新所述备用数据分发器上的实例运行状态表；

所述主用数据分发器周期性向所述备用数据分发器发送所述心跳消息，若所述备用数据分发器在预设时长内未收到所述心跳消息，则切换为主用数据分发器。

第二方面，本申请实施例提供一种敏感数据监测系统，包括：

模型生成器、敏感嗅探器、数据分发器、数据处理器和涉敏处理器，其中：

所述模型生成器用于根据原始数据，生成敏感数据监测AI模型，将所述敏感数据监测AI模型发送至所述敏感嗅探器进行敏感数据AI识别能力部署；

所述敏感嗅探器用于基于所述敏感数据监测AI模型对采样数据进行敏感监测，管理敏感数据监测AI模型运行状态和服务状态，并向所述数据分发器周期性发送心跳信息；

所述数据分发器包括主用数据分发器和备用数据分发器，所述主用数据分发器用于管理敏感数据监测服务的实例运行状态，将所述原始数据分发至对应的敏感数据监测实例，所述备用数据分发器用于与所述主用数据分发器进行数据同步；

所述数据处理器用于接收和采样所述原始数据，将所述原始数据发送至所述敏感嗅探器进行监测，并接收敏感数据识别结果；

所述涉敏处理器用于基于所述敏感数据识别结果，执行数据拦截或数据放通。

在一个实施例中，所述模型生成器包括模型训练子模块和模型数据接口子模块，所述模型训练子模块用于接收所述原始数据，训练所述敏感数据监测AI模型，所述模型数据接口子模块用于将模型输出结果基于预设文件方式发送至所述敏感嗅探器；

所述敏感嗅探器包括敏感监测子模块、实例心跳子模块、服务管理子模块和模型管理子模块，所述敏感监测子模块用于基于敏感数据监测AI模型判定所述采样数据是否为敏感数据，所述实例心跳子模块用于向所述主用数据分发器和所述备用数据分发器周期性发送所述心跳信息，所述服务管理子模块用于管理敏感嗅探器服务运行状态、容量资源开销和动态分配，所述模型管理子模块用于管理敏感数据监测AI模型版本信息、模型性能信息和模型运行状态信息；

所述数据分发器包括实例管理子模块和实例寻址子模块，所述实例管理子模块用于基于所述心跳信息判断各个实例是否可用，记录各个实例运行负荷，所述实例寻址子模块用于通过所述实例运行状态表，基于内部负荷分担策略，确定负荷最低且为激活状态的实例，将所述原始数据发送至所述实例；

所述数据处理器包括数据处理接口子模块、数据缓冲区子模块和数据采样子模块，所述数据处理接口子模块用于适配来自所述数据分发器的不同类型原始数据，所述数据缓冲器子模块用于临时存储数据进行数据采样，所述数据采样子模块用于基于采样策略对所述原始数据进行采样，将采样结果发送至所述敏感嗅探器；

所述涉敏处理器包括拦截策略子模块和拦截动作子模块，所述拦截策略子模块用于基于预设拦截策略，对所述原始数据和所述敏感数据识别结果触发拦截动作，所述拦截动作子模块用于执行拦截动作。

第三方面，本申请实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述敏感数据监测方法。

第四方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行，如上述任一种所述敏感数据监测方法。

第五方面，本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述敏感数据监测方法。

本申请实施例提供的敏感数据监测方法、系统、电子设备及存储介质，通过采用人工智能技术自动学习敏感数据关键特征，适用于多种类型的数据监测，具有效率高和准确率高的特点。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术提供的基于规则的敏感数据监测示意图；

图2是现有技术提供的基于日志的敏感数据审计示意图；

图3是本申请实施例提供的敏感数据监测方法的流程示意图之一；

图4是本申请实施例提供的敏感数据监测方法的流程示意图之二；

图5是本申请实施例提供的AI能力上线流程示意图；

图6是本申请实施例提供的敏感数据监测算法框架示意图；

图7是本申请实施例提供的监测实例管理流程示意图；

图8是本申请实施例提供的敏感数据监测系统的结构示意图；

图9是本申请实施例提供的数据分发器的结构示意图；

图10是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前针对敏感数据监测主要采用基于规则的敏感数据监测，以及基于日志的敏感数据审计两种方法。

基于规则的敏感数据监测通常应用在数据传输事中环节，通过业务专家经验设置敏感数据的黑名单，并基于IT系统实时过滤数据，判断黑名单是否命中，进而甄别数据是否涉敏。敏感数据黑名单本质上是一组由人工持续更新的“IF-THEN”规则组。业务专家基于自身经验积累，将某类型或某个领域的敏感数据识别规则写入黑名单，静态配置，持续更新。敏感数据识别规则可以是涉敏数据所在表的名称，也可以是涉敏数据的字段名，还可以是涉敏数据的正则表达式等，如图1所示。

基于日志的敏感数据审计应用在数据传输事后环节，通过业务专家人工审计特定时间段内的数据传输系统日志和原始文件，鉴别数据是否涉敏。基于日志的敏感数据审计完全依赖业务专家的个人能力和经验判断，邀请到负责该领域或该类型的业务专家是敏感数据审计工作能够正常开展的必备条件之一，同时，由于敏感数据审计往往跨多个专业领域，如图2所示。

针对上述两种现有的敏感数据监测的不足，本申请提出一种新的敏感数据监测方法，图3是本申请实施例提供的敏感数据监测方法的流程示意图之一，参照图3，可以包括：

步骤100：数据提供者向数据分发器发送数据监测请求消息，请求监测传输的原始数据是否为敏感数据；

步骤200：所述数据分发器基于实例状态运行表，将所述数据监测请求消息发送至负荷最低的敏感数据监测实例，启动响应计时器；

步骤300：由数据处理器接收所述数据监测请求消息，分批次缓存原始数据，基于预设采样策略对所述原始数据进行采样，向敏感嗅探器发送涉敏查询请求消息；

步骤400：所述敏感嗅探器部署模型生成器生成的敏感数据监测人工智能AI模型，向所述数据处理器返回涉敏查询响应消息；

步骤500：所述数据处理器基于所述涉敏查询结果，向涉敏处理器发送涉敏处理请求消息；

步骤600：所述涉敏处理器根据所述涉敏查询响应消息中的涉敏标记判断所述原始数据是否为敏感数据，输出涉敏查询结果；

步骤700：所述数据处理器基于所述涉敏查询结果执行相应的数据处理动作，将数据处理结果传输至数据使用者，并通过异步消息处理机制向所述数据分发器返回数据处理响应消息；

步骤800：所述数据分发器向所述数据提供者返回数据监测响应消息，所述数据监测响应消息用于表示所述原始数据是否传输至所述数据使用者。

需要说明的是，本申请实施例所称数据，是指任何以电子方式对信息的在线记录，包括且不限于数据流、图片、音频、视频等。本申请实施例在基于规则的敏感数据监测基础上，新增基于人工智能的敏感数据监测服务，实现基于人工智能算法的敏感数据实时监测服务。

具体地，如图4所示：

(1)数据提供者敏感数据监测服务的数据分发器发起数据监测请求消息，请求监测传输数据是否涉敏。消息体携带数据提供者地址、数据使用者地址、原始数据和数据批次ID；

(2)数据分发器根据实例状态运行表，将数据监测请求消息分发给负荷最低的正常运行敏感数据监测的实例，并启动响应计时器进行计时；

(3)敏感数据监测实例的数据处理器接收数据监测请求消息，分批次缓存原始数据，按照既定策略采样数据，并向本实例的敏感嗅探器发送涉敏查询请求消息。消息体携带数据提供者地址、数据使用者地址、采样数据和数据批次ID；

(4)敏感嗅探器向本实例的数据处理器返回涉敏查询响应消息。消息体携带数据提供者地址、数据使用者地址、数据批次ID、是否涉敏标记；如果存在敏感数据，设定的“是否涉敏标记”为1；否则，“是否涉敏标记”为0；

(5)数据处理器向本实例的涉敏处理器发送涉敏处理请求消息；消息体携带数据提供者地址、数据使用者地址、数据批次ID、是否涉敏标记；

(6)涉敏处理器根据消息体“是否涉敏标记”判断本批次数据是否涉敏：如果不涉敏，则向本实例的数据处理器返回0，表示本批次数据可以正常传输；如果涉敏，进一步触发人工审核流程，例如由数据管理员对数据安全性进行确认，或者数据使用者在线提交数据使用证明等；如果数据涉敏并且人工审核同意数据传输，则涉敏处理器向本实例的数据处理器返回0，表示数据可以传输；如果涉敏，而人工审核不同意数据传输或超时无回复，则涉敏处理器向本实例的数据处理器返回1，表示数据不可以传输；

(7)数据处理器根据涉敏处理器返回的结果进行处理动作：如果涉敏处理器返回的结果为0，数据处理器将缓存的该批次原始数据发送给数据使用者；如果涉敏处理器返回的结果为1，数据处理器将缓存的该批次原始数据丢弃；利用同步消息处理机制，数据处理器向数据分发器返回数据处理响应消息；

(8)数据分发器向数据提供者返回数据监测响应消息，表示本批次数据是否传输；消息体携带数据提供者地址、数据使用者地址、数据批次ID、数据是否传输标记。

本申请实施例通过采用人工智能技术自动学习敏感数据关键特征，适用于多种类型的数据监测，具有效率高和准确率高的特点。

在上述实施例的基础上，所述数据提供者向数据分发器发送数据监测请求消息，请求监测传输的原始数据是否为敏感数据，之前还包括：

可选地，本申请实施例在系统采用敏感数据监测AI模型进行敏感数据监测之前，需要部署基于人工智能的敏感数据监测服务，即实现AI能力上线。

如图5所示，包括：

(1)由模型生成器向主用数据分发器发送查询实例地址请求，查找所有敏感数据监测实例的地址；

(2)数据分发器根据实例运行状态表，获取所有敏感数据监测实例的地址，通过回复实例地址消息给模型生成器，返回给模型生成器；

(3)模型生成器根据实例地址清单，将敏感数据监测AI模型发送给各个敏感数据监测实例；

(4)各敏感数据监测实例部署模型文件并执行测试校验，待确认AI能力正常部署后，向模型生成器返回确认模型文件消息；

(5)模型生成器向数据分发器同步各实例运行状态，通知新模型已部署，敏感数据监测AI能力已更新。

本申请实施例不依赖业务专家经验，基于人工智能算法快速迭代，动态更新敏感数据识别能力，对于不同专业领域的新类型数据，只需要对模型重训练和发布部署，就可以快速上线使用，具有效率高和高度智能化的特点。

在上述实施例的基础上，所述敏感数据监测AI模型，通过以下步骤获得：

其中，所述在模型训练态采用所述敏感数据正样本和所述不敏感数据负样本对所述深度学习神经网络初始模型进行训练，包括：

其中，所述在模型推理态采用所述原始数据对所述深度学习神经网络初始模型进行训练，包括：

在输入层将所述原始数据转换为多组数值特征向量；

具体地，本申请实施例利用深度学习神经网络，训练敏感数据监测AI模型，分别监测数据是否涉敏，对于文本、图像、视频和音频类数据，敏感数据监测方法对应的总体框架是相似的，仅是在算法选型和模型设计细节部分存在差异，如图6所示，以文本数据的敏感监测为示例，说明本申请实施例提出的具体算法框架。

对于模型输入，本申请实施例采用的敏感数据监测AI模型是基于有监督学习的二分类算法，需要提供有标签的数据样本进行模型训练，在获取到原始数据后，采用人工配置提供敏感数据并标记数据作为模型训练的正样本，对应地，采用对抗生成网络输出不敏感数据，几个使用过程中标记的不敏感数据，作为模型训练的负样本；而原始数据则作为预测数据，输入模型后预测其是否涉敏。

对于模型的训练，本申请实施例采用深度学习神经网络，自动学习数据内容的模型特征，并通过多次迭代，更新模型参数。特别地，在模型训练态和推理态，模型算法存在差异。

在模型训练态部分，模型输入层将人工配置的敏感数据和不敏感数据处理为多组数值形式的特征向量；模型隐藏层利用深度学习神经网络，自动学习长度固定或可变长度的数据特征，并根据样本标签采用反向传播算法自动更新网络参数；模型输出层通过Softmax算法实现训练数据的二分类输出，判断训练数据是否涉敏。

在模型推理态部分，模型输入层将原数据处理为多组数值形式的特征向量；模型隐藏层使用训练态得到的模型参数，计算文本数据是否涉敏；模型输出层通过Softmax算法实现预测数据的二分类输出，判断预测数据是否涉敏。

对于模型输出，判断原始的文本数据是否涉敏，以及涉敏数据的具体类型，例如身份证号码、手机号码和家庭住址等，并根据涉敏数据类型，触发不同类型拦截动作。

需要说明的是，上述算法是部署于敏感数据监测服务的模型生成器和敏感嗅探器，其中模型生成器中部署模型训练态算法，用于生成敏感数据监测模型文件或模型镜像；敏感嗅探器中部署模型推理态算法，用于执行敏感数据监测服务

本申请实施例通过构建人工智能技术进行敏感数据的算法架构，模型输入采用对抗生成算法和人工标注数据相结合方法，提高模型训练样本多样性，模型训练采用深度学习神经网络，自动学习敏感数据关键特征，模型输出采用Softmax算法输出二分类结果。

此外，通过分别在模型训练态、推理态分离架构上部署AI能力，可以实现敏感数据AI监测能力不依赖专家经验，快速迭代，动态更新的能力，针对文本类、图片类、视频类和音频类数据，有效实施高效、立体和协同的敏感数据监测。

在上述实施例的基础上，还包括：

可选地，本申请实施例还包括对监测实例进行管理的流程，该流程是数据分发器接收来自敏感数据实例的心跳消息，更新实例运行状态，以及主用、备用数据分发器管理的过程，如图7所示，包括：

(1)由各个敏感数据监测实例的敏感嗅探器向主用数据分发器周期性发送心跳消息，主用数据分发器根据心跳消息，更新主用数据分析器的实例运行状态表；同时，各个敏感数据监测实例的敏感嗅探器还基于异步消息处理机制，向备用数据分发器周期性发送心跳消息，这里的备用数据分发器不更新实例运行状态表；

(2)主用数据分发器周期性向备用数据分发器发起数据同步，刷新备用数据分发器的实例运行状态表；

(3)主用数据分发器周期性向备用数据分发器发送心跳信息，当备用数据分发器超过一定时间没有收到主用分发器的心跳信息，则将自己设为主用数据分发器，负责接管实例运行状态表的刷新、同步和对接数据提供者。

本申请实施例提出的基于多实例化分布式部署的敏感数据监测流程，通过敏感数据监测多实例化运行，最大限度提升了系统的安全性和高可靠性；同时，本架构数据分发器采用主用、备用方式管理监测各实例运行状态，进一步提升了系统的鲁棒性，能达到IT设备运行高稳定性要求。

图8是本申请实施例提供的敏感数据监测系统的结构示意图，如图8所示，包括：

其中，所述模型生成器包括模型训练子模块和模型数据接口子模块，所述模型训练子模块用于接收所述原始数据，训练所述敏感数据监测AI模型，所述模型数据接口子模块用于将模型输出结果基于预设文件方式发送至所述敏感嗅探器；

需要说明的是，本申请实施例提出的敏感数据监测系统，是介于数据提供者和数据使用者之间的架构，提供基于人工智能的敏感数据监测服务。

数据提供者泛指企业的数据库、数据中台、数据仓库或数据湖等数据存储系统或应用系统，汇聚了大量结构化、半结构化和非结构化的数据，并通过RESTful接口、DataStreaming或HTTP文件等方式，向外部用户提供数据查询、数据流或数据文件等服务。

数据使用者泛指外部服务器的应用程序、手机小程序或个人用户等数据消费方，通过RESTful接口、Data Streaming或HTTP文件等方式从数据提供者获取数据后，进行数据计算、关联使用和界面呈现，解决特定问题或支撑其他应用服务。

具体地，本申请实施例提出的敏感数据监测系统包括数据分发器、模型生成器、数据处理器、敏感嗅探器和涉敏处理器5个模块，由各个模块之间共同协作，实现基于人工智能的敏感数据实时监测流程。

模型生成器负责由原始数据，离线生成敏感数据监测AI模型，发送给敏感嗅探器进行敏感数据AI识别能力部署，模型生成器包括模型训练子模块和模型数据接口子模块等两个子模块。其中，模型训练子模块用于接收外部数据，通过特定的算法来训练敏感数据监测AI模型，模型数据接口子模块将模型结果以模型文件或镜像文件等方式发送给敏感嗅探器。

敏感嗅探器负责通过敏感数据监测AI模型对采样数据进行敏感监测，管理AI模型运行状态和服务状态，并向数据分发器周期性发送心跳信息。敏感嗅探器包括敏感监测子模块、实例心跳子模块、服务管理子模块和模型管理子模块等4个子模块。

其中，敏感监测子模块接收来自数据处理器的采样数据，利用AI模型识别数据是否涉敏，如果涉敏，敏感监测模块向数据处理器返回1；否则，敏感嗅探器向数据处理器返回0。实例心跳子模块负责周期性发送心跳信息给主用数据分发器和备用数据分发器。模型管理子模块负责管理AI模型版本信息、模型性能信息和模型运行状态信息等。服务管理子模块负责管理本实例的敏感嗅探服务运行状态、容量资源开销及动态分配等。

数据分发器采用主备用实时同步方式部署的方式，主用数据分发器负责管理敏感数据监测服务的实例运行状态，将原始数据分发到合适的敏感数据监测实例，备用数据分发器与主用数据分发器实时数据同步，监测主用数据分发器状态，接收敏感数据监测实例的心跳消息。当主用数据分发器出现故障，业务自动切换到备用数据分发器，其工作机制如图9所示。

由于数据分发器内置实例运行状态表，并包含实例管理子模块和实例寻址子模块等两个子模块，实例运行状态表存储了实例名称、实例地址、心跳状态和实例负荷等信息。其中，实例管理子模块接收来自实例周期性上报的心跳消息，判断各个实例是否可用，并记录各实例运行负荷。如果连续多次无法接收到某个实例的心跳，则在实例运行状态表中，把该实例的心跳状态置为去激活Inactive；否则，心跳状态置为激活Active。实例寻址子模块接收来自数据提供者的原始数据，通过查找实例运行状态表，根据内部负荷分担策略，选择心跳状态为Active并且负荷最低的实例，将原始数据通过内部路由分发到对应实例进行敏感监测。实例运行状态表如表1所示：

表1

另外，实例寻址子模块内置计时器，每次转发数据到对应实例进行敏感监测时，实例寻址模块都为该次数据监测设定计时器并启动。如果数据分发器超过预定时限，没有收到敏感数据监测服务的结果响应，则放通本次数据传输。

数据处理器负责接收、采样原始数据，并发送给敏感嗅探器进行监测，并接收是否涉敏结果。数据处理器包括数据接口子模块、数据缓冲区子模块和数据采样子模块等3个子模块。其中，数据接口子模块适配并接入来自数据分发器的不同类型原始数据。数据缓冲区子模块用于临时存储数据，用于后续数据采样等环节。数据采样子模块按照既定策略按比例对原始数据采样，并把采样结果发送给敏感嗅探器进行涉敏监测。

涉敏处理器负责根据采样数据的涉敏识别结果，实施数据拦截或放通的动作，包括拦截策略子模块和拦截动作子模块等两个子模块。拦截策略和拦截动作均由管理员提前人工配置，根据数据安全分级管理要求，对各种安全性等级的数据配置对应的数据安全响应策略。涉敏处理器按照既定的拦截策略，针对数据处理器的原始数据和敏感嗅探器的涉敏识别结果，触发对应拦截动作。如果原始数据的识别结果不包含敏感数据，涉敏处理器返回放通数据，把数据转发给数据使用者；如果原始数据的识别结果包含敏感数据，涉敏处理器缓存数据，并根据策略实施拦截动作，如管理员审核以及用户在线提交数据安全证明等。

本申请实施例提出的基于人工智能的敏感数据监测系统，利用人工智能技术，自动学习敏感数据关键特征，实现敏感数据AI监测能力不依赖专家经验，快速迭代以及动态更新，以及通过多实例化分布式部署的敏感数据监测架构，通过敏感数据监测多实例化运行，最大限度提升了系统的安全性和高可靠性。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communication Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的计算机程序，以执行敏感数据监测方法的步骤，例如包括：数据提供者向数据分发器发送数据监测请求消息，请求监测传输的原始数据是否为敏感数据；所述数据分发器基于实例状态运行表，将所述数据监测请求消息发送至负荷最低的敏感数据监测实例，启动响应计时器；由数据处理器接收所述数据监测请求消息，分批次缓存原始数据，基于预设采样策略对所述原始数据进行采样，向敏感嗅探器发送涉敏查询请求消息；所述敏感嗅探器部署模型生成器生成的敏感数据监测人工智能AI模型，向所述数据处理器返回涉敏查询响应消息；所述数据处理器基于所述涉敏查询结果，向涉敏处理器发送涉敏处理请求消息；所述涉敏处理器根据所述涉敏查询响应消息中的涉敏标记判断所述原始数据是否为敏感数据，输出涉敏查询结果；所述数据处理器基于所述涉敏查询结果执行相应的数据处理动作，将数据处理结果传输至数据使用者，并通过异步消息处理机制向所述数据分发器返回数据处理响应消息；所述数据分发器向所述数据提供者返回数据监测响应消息，所述数据监测响应消息用于表示所述原始数据是否传输至所述数据使用者。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例所提供的敏感数据监测方法的步骤，例如包括：数据提供者向数据分发器发送数据监测请求消息，请求监测传输的原始数据是否为敏感数据；所述数据分发器基于实例状态运行表，将所述数据监测请求消息发送至负荷最低的敏感数据监测实例，启动响应计时器；由数据处理器接收所述数据监测请求消息，分批次缓存原始数据，基于预设采样策略对所述原始数据进行采样，向敏感嗅探器发送涉敏查询请求消息；所述敏感嗅探器部署模型生成器生成的敏感数据监测人工智能AI模型，向所述数据处理器返回涉敏查询响应消息；所述数据处理器基于所述涉敏查询结果，向涉敏处理器发送涉敏处理请求消息；所述涉敏处理器根据所述涉敏查询响应消息中的涉敏标记判断所述原始数据是否为敏感数据，输出涉敏查询结果；所述数据处理器基于所述涉敏查询结果执行相应的数据处理动作，将数据处理结果传输至数据使用者，并通过异步消息处理机制向所述数据分发器返回数据处理响应消息；所述数据分发器向所述数据提供者返回数据监测响应消息，所述数据监测响应消息用于表示所述原始数据是否传输至所述数据使用者。

另一方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行上述各实施例提供的敏感数据监测方法的步骤，例如包括：数据提供者向数据分发器发送数据监测请求消息，请求监测传输的原始数据是否为敏感数据；所述数据分发器基于实例状态运行表，将所述数据监测请求消息发送至负荷最低的敏感数据监测实例，启动响应计时器；由数据处理器接收所述数据监测请求消息，分批次缓存原始数据，基于预设采样策略对所述原始数据进行采样，向敏感嗅探器发送涉敏查询请求消息；所述敏感嗅探器部署模型生成器生成的敏感数据监测人工智能AI模型，向所述数据处理器返回涉敏查询响应消息；所述数据处理器基于所述涉敏查询结果，向涉敏处理器发送涉敏处理请求消息；所述涉敏处理器根据所述涉敏查询响应消息中的涉敏标记判断所述原始数据是否为敏感数据，输出涉敏查询结果；所述数据处理器基于所述涉敏查询结果执行相应的数据处理动作，将数据处理结果传输至数据使用者，并通过异步消息处理机制向所述数据分发器返回数据处理响应消息；所述数据分发器向所述数据提供者返回数据监测响应消息，所述数据监测响应消息用于表示所述原始数据是否传输至所述数据使用者。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种敏感数据监测方法，其特征在于，包括：

2.根据权利要求1所述的敏感数据监测方法，其特征在于，所述数据提供者向数据分发器发送数据监测请求消息，请求监测传输的原始数据是否为敏感数据，之前还包括：

3.根据权利要求2所述的敏感数据监测方法，其特征在于，所述敏感数据监测AI模型，通过以下步骤获得：

4.根据权利要求3所述的敏感数据监测方法，其特征在于，所述在模型训练态采用所述敏感数据正样本和所述不敏感数据负样本对所述深度学习神经网络初始模型进行训练，包括：

5.根据权利要求3所述的敏感数据监测方法，其特征在于，所述在模型推理态采用所述原始数据对所述深度学习神经网络初始模型进行训练，包括：

在输入层将所述原始数据转换为多组数值特征向量；

6.根据权利要求1所述的敏感数据监测方法，其特征在于，还包括：

7.一种敏感数据监测系统，用于执行基于权利要求1至6所述敏感数据监测方法，其特征在于，包括：模型生成器、敏感嗅探器、数据分发器、数据处理器和涉敏处理器，其中：

8.根据权利要求7所述的敏感数据监测系统，其特征在于，所述模型生成器包括模型训练子模块和模型数据接口子模块，所述模型训练子模块用于接收所述原始数据，训练所述敏感数据监测AI模型，所述模型数据接口子模块用于将模型输出结果基于预设文件方式发送至所述敏感嗅探器；

9.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述敏感数据监测方法。

10.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求1至6任一项所述敏感数据监测方法。