CN116861480A

CN116861480A - 一种敏感数据识别方法、装置、设备及存储介质

Info

Publication number: CN116861480A
Application number: CN202310783767.5A
Authority: CN
Inventors: 曹智杰; 商渭清
Original assignee: Shenzhen Leap New Technology Co ltd
Current assignee: Shenzhen Leap New Technology Co ltd
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-10-10

Abstract

本发明公开了一种敏感数据识别方法、装置、设备及存储介质，所述敏感数据识别方法包括：监听新增和/或变更的元数据，并对所述元数据进行敏感字段识别，确定敏感字段和非敏感字段；获取所述元数据的操作信息并进行解析，确定所述元数据中各数据表的字段引用信息；根据所述敏感字段、所述非敏感字段以及所述字段引用信息，基于预训练的元数据质量检测模型，确定所述元数据中待整改的数据表；对所述待整改的数据表进行整改，得到变更的元数据。利用本发明公开的敏感数据识别方法，可以实现对元数据的质量检测并整改，提高数据敏感度识别的准确度。

Description

一种敏感数据识别方法、装置、设备及存储介质

技术领域

本发明涉及数据安全技术领域，具体涉及一种敏感数据识别方法、装置、设备及存储介质。

背景技术

近年来，数据泄露和隐私滥用等数据违规事件屡见不鲜，数据管控势在必行，但是并不是所有数据都需要管控，否则既不便于用户使用，也会使得数据管控的压力过大。这就需要对数据进行敏感度识别，即识别数据的敏感程度，以便只对敏感程度较高的数据进行管控。现有技术中存在的常见方案包括人工处理、规则引擎、自然语言技术等，但是现有方案中数据敏感度分级模型的对数据敏感度识别的准确度较低，并且通过数据清洗和更深的特征工程的方法，也无法显著提高模型的准确度。

发明内容

本发明提供一种敏感数据识别方法、装置、设备及存储介质，用以解决现有技术中数据敏感度识别的准确度较低的技术问题。

为了解决上述技术问题，第一方面，本发明提供一种敏感数据识别方法，该方法包括：

监听新增和/或变更的元数据，并对所述元数据进行敏感字段识别，确定敏感字段和非敏感字段；

获取所述元数据的操作信息并进行解析，确定所述元数据中各数据表的字段引用信息；

根据所述敏感字段、所述非敏感字段以及所述字段引用信息，基于预训练的元数据质量检测模型，确定所述元数据中待整改的数据表；

对所述待整改的数据表进行整改，得到变更的元数据。

可选地，所述根据所述敏感字段、所述非敏感字段以及所述字段引用信息，基于预训练的元数据质量检测模型，确定所述元数据中待整改的数据表，包括：

基于预训练的元数据质量检测模型执行：

根据预设信息中存在空值的非敏感字段以及敏感度感知模型，确定疑似敏感字段，其中，所述敏感度感知模型是根据所述敏感字段和所述预设信息中不存在空值的非敏感字段训练得到的；

根据各数据表中的所述疑似敏感字段、所述预设信息的空值信息以及所述字段引用信息，基于预设评分规则，确定各数据表的评分值；

将所述评分值与预设阈值进行比较，确定所述元数据中待整改的数据表；

基于预训练的强化学习模型，更新所述预设评分规则以及所述预设阈值。

可选地，所述基于预训练的强化学习模型，更新所述预设评分规则以及所述预设阈值，包括：

获取所述元数据中待整改的数据表是否被整改的整改信息，并根据所述评分值、所述预设阈值以及所述整改信息，确定奖励值；

根据所述奖励值、历史整改信息以及预训练的强化学习模型的策略，更新所述预设评分规则以及所述预设阈值。

可选地，所述根据所述评分值、所述预设阈值以及所述整改信息，确定奖励值，包括：

根据所述评分值、所述预设阈值、所述整改信息的取值以及奖励计算公式，确定奖励值，所述奖励计算公式为F＝αX+β(Y-N)

其中，F为所述奖励值，α、β为权值参数，Y为所述评分值，N为所述预设阈值，X为所述整改信息的取值，当所述元数据中待整改的数据表被整改时，X为1，否则X为-1。

可选地，所述预训练的强化学习模型的训练步骤包括：

根据当前的奖励值、历史整改信息以及当前的强化学习模型的策略，更新当前的预设评分规则和预设阈值；

根据更新后的预设评分规则和预设阈值，确定更新后的评分值和所述元数据中待整改的数据表；

获取所述元数据中待整改的数据表是否被整改的整改信息，并根据更新后的评分值和预设阈值以及获取的整改信息，更新当前的奖励值；

根据更新后的奖励值，更新当前的强化学习模型的策略，重复迭代直至所述强化学习模型的策略收敛。

可选地，所述根据预设信息中存在空值的非敏感字段以及敏感度感知模型，确定疑似敏感字段，包括：

将预设信息中存在空值的非敏感字段作为预测样本；

利用预训练的大语言模型对所述预测样本进行向量化并拼接，得到预测样本向量；

将所述预测样本向量输入至所述敏感度感知模型中，得到疑似敏感字段。

可选地，所述敏感度感知模型的训练步骤包括：

将所述敏感字段和所述预设信息中不存在空值的非敏感字段作为训练样本；

利用预训练的大语言模型对所述训练样本进行向量化并拼接，得到训练样本向量；

利用所述训练样本向量对预设分类器进行训练，得到所述敏感度感知模型。

第二方面，本发明提供一种敏感数据识别装置，包括字段识别模块、引用信息确定模块、待整改数据表确定模块以及整改模块；

所述字段识别模块，用于监听新增和/或变更的元数据，并对所述元数据进行敏感字段识别，确定敏感字段和非敏感字段；

所述引用信息确定模块，用于获取所述元数据的操作信息并进行解析，确定所述元数据中各数据表的字段引用信息；

所述待整改数据表确定模块，根据所述敏感字段、所述非敏感字段以及所述字段引用信息，基于预训练的元数据质量检测模型，确定所述元数据中待整改的数据表；

所述整改模块，用于对所述待整改的数据表进行整改，得到变更的元数据。

第三方面，本发明提供一种敏感数据识别设备，包括存储器和处理器，其中：

所述存储器用于存储计算机程序；

所述处理器用于读取所述存储器中的程序并执行如上述第一方面提供的敏感数据识别方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有可读的计算机程序，该程序被处理器执行时实现如上述第一方面提供敏感数据识别方法的步骤。

与现有技术相比，本发明提供的一种敏感数据识别方法、装置、设备及存储介质，具有以下有益效果：

通过监听新增和/或变更的元数据，并对所述元数据进行敏感字段识别，确定敏感字段和非敏感字段；获取所述元数据的操作信息并进行解析，确定所述元数据中各数据表的字段引用信息；根据所述敏感字段、所述非敏感字段以及所述字段引用信息，基于预训练的元数据质量检测模型，确定所述元数据中待整改的数据表；可以获取待整改的数据表，并对所述待整改的数据表进行整改，得到变更的元数据；在得到变更的元数据后，基于变更的元数据开启新一轮的敏感字段识别从而提高数据敏感度识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一部分实施例，而不是全部的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，根据这些附图获得的其他的附图，都属于本申请保护的范围。

图1是本发明实施例提供的一种敏感数据识别架构实现敏感数据识别的示意图；

图2是本发明实施例提供的一种敏感数据识别方法的流程示意图；

图3是本发明实施例提供的一种确定元数据中待整改的数据表的逻辑框图；

图4是本发明实施例提供的一种深度神经网络的结构示意图；

图5是本发明实施例提供的一种敏感数据识别装置的结构示意图；

图6是本发明实施例提供的一种敏感数据识别设备的结构示意图；

图7是本发明实施例提供的一种计算机可读存储介质的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了使本揭示内容的叙述更加详尽与完备，下文针对本发明的实施方式与具体实施例提出了说明性的描述；但这并非实施或运用本发明具体实施例的唯一形式。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而，亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

在本发明实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个，其它量词与之类似应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，为本发明实施例提供的一种敏感数据识别架构实现敏感数据识别的示意图。通过自动接入数据源元数据模块，自动实时监听所有业务系统的数据库，以实现对新增和/或变更的元数据的监听，一旦有新增和/或变更的元数据，则将其同步到元数据库中；通过敏感字段识别模块，对元数据库中的字段的敏感度等级进行预测，其中，字段记录敏感度等级可以分为非敏感NS、敏感S0以及高度敏感S1，敏感度等级为S0和S1的字段记录则存入敏感字段库；通过鉴权模块，对大数据平台中对数据的所有操作进行解析和字段级鉴权，并记录操作人和字段引用信息，例如所访问字段，将其存储至审计日志库中；通过元数据质量检测模块，找出可能因元数据质量低导致敏感度分级模型失效的库表，即找出待整改的数据表，输出待整改的数据表，并对待整改的数据表的元数据进行整改。上述整改后的元数据会被自动接入数据源元数据模块监听，进入下一次的敏感度等级判断。

如图2所示，为本发明实施例提供的一种敏感数据识别方法的流程示意图，包括以下步骤。

步骤S201，监听新增和/或变更的元数据，并对所述元数据进行敏感字段识别，确定敏感字段和非敏感字段；

需要说明的是，可以通过实时监听业务系统的数据库，实现对增和/或变更的元数据的监听。

本发明实施例不对上述对元数据进行敏感字段识别、确定敏感字段和非敏感字段的具体实施方式做任何限定，任何可以实现敏感字段识别的方式都可以应用到本发明实施例中。

步骤S202，获取所述元数据的操作信息并进行解析，确定所述元数据中各数据表的字段引用信息；

其中，上述字段引用信息可以存入至审计日志库中，上述字段引用信息可以包括字段引用记录；在使用上述字段引用信息时，则可以从审计日志库中取出。

作为一种可选地实施方式，上述字段引用信息还可以包括去重访问人数和累计访问人数。

步骤S203，根据所述敏感字段、所述非敏感字段以及所述字段引用信息，基于预训练的元数据质量检测模型，确定所述元数据中待整改的数据表；

其中，上述元数据中待整改的数据表可以包括预设信息中存在空值的非敏感字段，其中，上述预设信息可以包括表中文名、表备注、字段中文名以及字段备注。

步骤S204，对所述待整改的数据表进行整改，得到变更的元数据。

本发明实施例通过监听新增和/或变更的元数据，并对上述元数据进行敏感字段识别，确定敏感字段和非敏感字段；获取上述元数据的操作信息并进行解析，确定上述元数据中各数据表的字段引用信息；根据上述敏感字段、上述非敏感字段以及上述字段引用信息，基于预训练的元数据质量检测模型，确定上述元数据中待整改的数据表；可以获取待整改的数据表，并对上述待整改的数据表进行整改，得到变更的元数据；在得到变更的元数据后，基于变更的元数据开启新一轮的敏感字段识别，从而提高数据敏感度识别的准确度。

作为一种可选的实施方式，所述根据所述敏感字段、所述非敏感字段以及所述字段引用信息，基于预训练的元数据质量检测模型，确定所述元数据中待整改的数据表，包括：

基于预训练的元数据质量检测模型执行：

通过上述方法，本发明实施例可以较为准确地获取待整改的数据表，并再次进行敏感字段识别，以提高数据敏感度识别的准确度。

需要说明的是，基于预训练的强化学习模型更新上述评分值以及上述预设阈值之后，在下次迭代时，可以将更新后的上述评分值与更新后的上述预设阈值进行比较，以确定上述元数据中待整改的数据表。

在一些实施例中，按照表汇总数据，得到上述数据表，该数据表中可以包括预设信息中存在空值的非敏感字段、疑似敏感字段及其数量信息、表中文名是否存在空值的信息、表备注是否存在空值的信息、字段中文名空值的比例信息、字段备注空值的比例信息、审计日志库中近15天引用字段记录的数量信息等。

上述预设评分规则可以为上述疑似敏感字段、上述预设信息的空值信息以及上述字段引用信息，各自的权重占比以及各自的评分标准。

在一些实施例中，可以设置初始评分规则如下：疑似敏感字段的权重占比40％，预设信息的空值信息的权重占比30％，字段引用信息的权重占比30％。

更具体的，评分标准可以为：

在一个数据表中，若疑似敏感字段为0个，则对应疑似敏感字段的权重分值为0分，若疑似敏感字段为1～3个，则对应疑似敏感字段的权重分值为60分，若疑似敏感字段为3个以上，则对应疑似敏感字段的权重分值为100分。

在一个数据表中，若存在表中文名是空值，则对应空值的权重分值加10分，若存在表备注是空值，则应空值的权重分值加10分，若字段中文名空值比例大于30％，则应空值的权重分值加40分，若字段备注空值比例大于70％，则应空值的权重分值加40分。

在一个数据表中，若近15天字段引用记录在1～10次以内，则对应字段引用信息的权重分值为10分，若近15天字段引用记录在10～50次以内，则对应字段引用信息的权重分值为30分，若近15天字段引用记录在50次以上，则对应字段引用信息的权重分值为100分。

上述字段引用记录可以为数据表中各字段的引用记录，例如全部字段的引用记录，或疑似敏感字段的引用记录，或预设信息中存在空值的非敏感字段的引用记录，引用记录可以为引用次数。

上述字段引用记录还可以包括去重访问人数和累计访问人数，对应的评分规则可以根据具体的实施情况进行具体设置，本发明实施例对此不进行任何限定。

一个具体实施例中，在一个数据表中，若疑似敏感字段为1个，存在表中文名是空值，存在表备注是空值，字段中文名空值比例大于30％，字段备注空值比例大于70％，并且近15天字段引用记录在50次以上，则根据初始评分规则，得到初始评分值为84分；若初始阈值为60分，将上述初始评分值与初始阈值进行比较，上述初始评分值大于初始阈值，可以确定该数据表为上述元数据中待整改的数据表。

在一些实施例中，后续可以通过强化学习模型动态调整上述预设评分规则和预设阈值，以影响下一次的输出。

如图3所示，本发明实施例提供一种确定元数据中待整改的数据表的逻辑框图。在上述图3中包括训练过程1和训练过程2两个过程。

在训练过程1中，根据敏感字段库中的敏感字段和预设信息中不存在空值的非敏感字段进行训练，得到敏感度感知模型。

在训练过程2中，根据元数据库的预设信息中存在空值的非敏感字段以及在上述训练过程1中训练好的敏感度感知模型，确定疑似敏感字段；根据疑似敏感字段、预设信息的空值信息以及审计日志库中的字段引用信息，基于元数据质量评分卡，即预设评分规则，确定各数据表的评分值；将上述评分值与预设阈值进行比较，确定上述元数据中待整改的数据表；然后经过一个整改通知模块，该模块会获取数据表是否被整改的整改信息，发送给奖励模型，例如奖励计算公式；根据数据表和评分值，以及数据表是否被整改的整改信息，经过奖励计算公式，给出奖励；强化学习模型根据当前奖励、历史整改记录以及策略，去调整参数，即调整评分值和阈值。

需要说明的是，在更新数据表后，会再次进行敏感字段识别，如果还是没有敏感字段，则无后续处理。

作为一种可选的实施方式，所述敏感度感知模型的训练步骤包括：

本发明实施例将上述敏感字段和上述预设信息中不存在空值的非敏感字段作为训练样本，利用预训练的大语言模型对上述训练样本进行向量化并拼接，得到训练样本向量，利用上述训练样本向量对预设分类器进行训练，得到上述敏感度感知模型，使上述敏感度感知模型具有识别疑似敏感字段的能力，进而可以根据预设信息中存在空值的非敏感字段，识别出疑似敏感字段。

一个具体实施例中，对敏感字段库的敏感字段和元数据库中预设信息中不存在空值的非敏感字段的记录，按1：2提取训练样本。

在一些实施例中，上述敏感字段可以包括库名、表名、表中文名、表备注、字段名、字段中文名、字段备注以及字段内容匹配类型，该字段内容匹配类型可以包括字段内容抽样，再模式匹配得到类型编号，如手机号、地址或企业名称等；预设信息可以包括表中文名、表备注、字段中文名以及字段备注，预设信息中不存在空值的非敏感字段，即为表中文名、表备注、字段中文名以及字段备注不存在空值的非敏感字段；得到的训练样本中可以包括库名、表名以及字段名等。

利用预训练的大语言模型对上述训练样本进行向量化，得到多个向量，将多个向量与字段内容匹配类型拼接，形成一个向量，即为训练样本向量；利用上述训练样本向量对预设分类器进行训练，得到上述敏感度感知模型。

其中，预训练的大语言模型可以为BERT(Bidirectional EncoderRepresentation from Transformers)模型，预设分类器可以为SVM(Support VectorMachine，支持向量机)分类器。

作为一种可选的实施方式，所述根据预设信息中存在空值的非敏感字段以及敏感度感知模型，确定疑似敏感字段，包括：

将预设信息中存在空值的非敏感字段作为预测样本；

通过上述方法，本发明实施例可以识别出疑似敏感字段，有助于后续提高识别待整改的数据表的准确率。

一个具体实施例中，从元数据库中获取预设信息中存在空值的非敏感字段，将其作为预测样本，利用预训练的大语言模型对上述预测样本进行向量化，得到多个向量，将多个向量与字段内容匹配类型拼接，形成一个向量，即为预测样本向量，将上述预测样本向量输入至上述敏感度感知模型中，可以得到疑似敏感字段，从而可以获知每个预设信息中存在空值的非敏感字段是否为疑似敏感字段。

作为一种可选的实施方式，所述基于预训练的强化学习模型，更新所述预设评分规则以及所述预设阈值，包括：

本发明实施例通过持续更新上述评分值以及上述预设阈值，持续确定不同奖励值，可以使评分值以及预设阈值不断优化，以使待整改的数据表的识别准确率得到提高。

作为一种可选的实施方式，所述根据所述评分值、所述预设阈值以及所述整改信息，确定奖励值，包括：

α、β为权值参数可以根据实际情况进行设定。

本发明实施例，根据上述评分值、上述预设阈值、上述整改信息的取值以及奖励计算公式，确定奖励值，结合了评分值、预设阈值及整改信息等信息，可以使强化学习模型得到更合理的优化。

需要说明的是，奖励是评估模型预测结果是否准确性的一种方式，具体来说，如果模型成功地识别出需要整改的数据表，那么可以得到正向奖励，如果模型错误地识别出需要整改的数据表，那么可以得到负向奖励。

具体实施时，可以通过比较模型的预测结果和实际结果来计算奖励值。

一个具体实施例中，上述奖励计算公式的含义是，如果模型预测的结果被接受，那么会得到正向奖励；反之，如果模型预测的结果不被接受，那么会得到负向奖励，同时，评分值超过预设阈值也会得到正向奖励，反之则会得到负向奖励。在这个奖励计算公式中，人工反馈、评分值与预设阈值的差值都被考虑在内，从而使得强化学习模型可以从多个方面来学习和优化。

作为一种可选的实施方式，所述预训练的强化学习模型的训练步骤包括：

通过上述方法，本发明实施例在强化学习模型的训练过程中可以持续更新强化学习模型的策略，进而不断提高待整改的数据表的识别准确率，直至强化学习模型的策略收敛。

一些实施例中，根据当前状态和强化学习模型的当前策略，选择一个动作，即改变当前的预设评分规则和预设阈值；根据更新后的预设评分规则和预设阈值，对元数据库的数据表进行预测，得到每个数据表是否需要整改的结果，根据预测结果和实际情况，计算奖励值，根据奖励值，更新策略，使得强化学习模型在类似的状态下能够选择得到更高奖励的动作；重复上述步骤，直到策略收敛，即强化学习模型能够在任何状态下都选择较优的动作。

其中，改变当前的评分值可以通过改变预设评分规则中，上述疑似敏感字段、上述预设信息的空值信息以及上述字段引用信息各自的权重占比以及各自的评分标准来实现；可以在没有大量标注数据的情况下，动态地调整评分值和阈值，以提高元数据质量评估的准确性和有效性。

需要说明的是，在定义强化学习的环境时：在元数据质量评估的场景，也即在确定待整改的数据表的场景中，将整改记录定义为环境，这个环境的特性包括但不限于数据表的数量、每个数据表中字段的数量、每个字段的特性以及数据表是否需要整改，其中，每个字段的特性可以包括字段类型、是否为空、是否为敏感字段等。

在定义强化学习的状态时：当前状态由当前预设评分规则的权重以及预设阈值、数据表的特性组成，数据表的特性包括但不限于：疑似敏感字段的数量、表中文名是否为空、表备注是否为空、字段中文名空值比例、字段备注空值比例、审计日志中过去15天引用字段记录数等。

在定义强化学习的动作时：动作是改变更新后的预设评分规则的权重以及预设阈值，具体实施时，可以通过对权重占比和/或阈值增加或减小一个小的数值来实现动作。

在定义强化学习的奖励时：奖励是评估模型预测结果的准确性的一种方式。具体来说，如果模型成功地识别出需要整改的数据表，那么可以得到正向奖励；如果模型错误地识别出需要整改的数据表，那么可以得到负向奖励。在实际操作中，可以通过比较模型的预测结果和实际结果来计算奖励。

在定义强化学习的策略时：强化学习模型的策略是强化学习模型根据当前状态选择动作的规则，在强化学习过程中，策略会逐渐优化，使得模型能够在任何状态下选择最优的动作。

一个具体实施例中，强化学习模型的策略可以是基于DQN(DeepQNetwork，深度Q网络)实现的。DQN是一种将神经网络和Q-Learning结合的网络。在该策略中，用神经网络表示Q函数，即状态-动作对的价值，在每个时间步，网络会在所有可能的动作中选择一个最优的动作。可以定义如下的策略：

(1)初始化DQN。

其中，DQN包括一个Q网络和一个目标网络，Q网络用于选择动作，目标网络用于计算时序差分(Temporal Difference，TD)目标。

一个典型的Q网络可以是一个DNN(Deep Neural Network，深度神经网络)，它可能包括若干个全连接层，每一层都是神经元的集合，这些神经元用于从输入特征，即状态中提取抽象的表示。在网络的最后一层，神经元的数量等于可能动作的数量，神经元的输出值表示每个动作的预期回报，即Q值。

如图4所示，为本发明实施例提供的一种深度神经网络的结构示意图。上述图4包括一个3层的神经网络，每一层有两个神经元，网络的输入是状态s，输出是每个动作的Q值。在上述图4中，state表示状态，Q(a1)和Q(a2)表示输出的Q值。

(2)选择动作。

根据当前的状态，使用Q网络选择一个动作，在训练的初期，以较大的概率随机选择一个动作，以避免陷入局部最优，随着训练的进行，可以逐渐降低探索率，使得模型更多地根据Q网络的预测来选择动作。

(3)执行选定的动作。

调整预设评分规则的权重和预设阈值，然后进行预测，并观察预测结果是否被驳回。将观察到的结果以及得到的奖励添加到经验回放(Experience Replay)的存储中。

(4)学习。

从经验回放中随机抽取一批样本，使用目标网络和Q网络计算TD目标和TD错误，并根据TD错误更新Q网络。在Q网络和其变体，例如深度Q网络，中，TD目标和TD错误是核心概念。TD目标是在更新Q值估计时，尝试预测的目标值。

在Q网络中，TD目标由以下公式计算，TD目标＝奖励+折扣率*max(Q(下一个状态,所有动作))；

其中，max(Q(下一个状态,所有动作))是对下一个状态的最大Q值估计，这个估计来自目标网络；TD错误，又称TD残差，是Q网络的Q值估计和TD目标之间的差，在形式上，TD错误＝TD目标-Q(当前状态，执行的动作)；

其中，TD错误度量了Q值估计与希望预测的TD目标之间的偏差；TD目标和TD错误这两个概念在Q网络中的作用为，通过最小化TD错误来更新Q值估计，使其更接近TD目标。

在DQN中，用神经网络表示Q函数，并通过反向传播和梯度下降来最小化TD错误，在这个过程中，目标网络用于稳定学习过程，因为它提供了对下一个状态的Q值估计，而不被当前学习步骤中的更新所影响。

(5)更新目标网络。

每隔一定的时间步，会更新目标网络，使其与Q网络相同，这一步可以提高学习的稳定性。

重复上述步骤，直到策略稳定。这个策略会在预测结果是否被驳回的反馈基础上，动态地调整预设评分规则的权重和预设阈值，以提高强化学习模型预测的准确性。

本发明实施例提供的敏感数据识别方法，通过监听新增和/或变更的元数据，并对上述元数据进行敏感字段识别，确定敏感字段和非敏感字段；获取上述元数据的操作信息并进行解析，确定上述元数据中各数据表的字段引用信息；根据上述敏感字段、上述非敏感字段以及上述字段引用信息，基于预训练的元数据质量检测模型，确定上述元数据中待整改的数据表；可以获取待整改的数据表，并对上述待整改的数据表进行整改，得到变更的元数据；在得到变更的元数据后，基于变更的元数据开启新一轮的敏感字段识别，从而提高数据敏感度识别的准确度。

需要说明的是，现有对数据敏感识别的方案包括规则引擎加人工校验、自然语言技术判断、上游字段标记加数据血缘染色判断等，这些方案中的数据敏感度分级模型的准确度不足的主要原因在于元数据质量参差不齐，因此，提高数据敏感度识别和分级的准确度的关键在于提高元数据质量。本发明实施例提供的敏感数据识别方法，通过对待整改的数据表进行整改，得到变更的元数据，可以提高元数据的质量，从而可以提高数据敏感度识别的准确度。

本发明实施例提供的敏感数据识别方法，可以管控多种数据库，并自动扫描新增和/或变更的元数据，通过对待整改的数据表进行整改，得到变更的元数据，识别敏感数据，可以处理所有sql查询请求的敏感字段鉴权，可以申请和回收敏感字段权限。基于敏感字段库，对元数据库中预设信息缺失的字段进行评估，挖掘其潜在敏感性，并根据模型结果判断是否需要去完善信息，提升敏感度识别的准确性，同时尽可能的减少了数据库、数据表管理员的负担。

实施例2

基于上述敏感数据识别方法，本发明实施例提供一种敏感数据识别装置，其结构示意图如图5所示，该敏感数据识别装置50包括字段识别模块51、引用信息确定模块52、待整改数据表确定模块53以及整改模块54；

所述字段识别模块51，用于监听新增和/或变更的元数据，并对所述元数据进行敏感字段识别，确定敏感字段和非敏感字段；

所述引用信息确定模块52，用于获取所述元数据的操作信息并进行解析，确定所述元数据中各数据表的字段引用信息；

所述待整改数据表确定模块53，根据所述敏感字段、所述非敏感字段以及所述字段引用信息，基于预训练的元数据质量检测模型，确定所述元数据中待整改的数据表；

所述整改模块54，用于对所述待整改的数据表进行整改，得到变更的元数据。

关于上述敏感数据识别装置中各模块实现上述技术方案的其他细节，可参见上述发明实施例中提供的敏感数据识别方法中的描述，此处不再赘述。

实施例3

基于上述敏感数据识别方法，本发明实施例还提供了一种敏感数据识别设备，其结构示意图如图6所示，该敏感数据识别设备60包括处理器61和与该处理器61耦合的存储器62。存储器62存储有计算机程序，计算机程序被处理器61执行时，使得处理器61执行上述实施例中的敏感数据识别方法的步骤。

关于上述敏感数据识别设备中处理器61实现上述技术方案的其他细节，可参见上述发明实施例中提供的敏感数据识别方法中的描述，此处不再赘述。

其中，处理器61还可以称为CPU(Central Processing Unit，中央处理单元)，处理器61可能是一种集成电路芯片，具有信号的处理能力；处理器61还可以是通用处理器、DSP(Digital Signal Process，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field Programmable Gata Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，其中通用处理器可以是微处理器或者该处理器61也可以是任何常规的处理器等。

实施例4

本发明实施例还提供了一种计算机可读存储介质，其结构示意图如图7所示，该存储介质70上存储有可读的计算机程序71；其中，该计算机程序71可以以软件产品的形式存储在上述存储介质70中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、磁碟或者光盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(SolidStateDisk，SSD))等。

以上对本申请所提供的技术方案进行了详细介绍，本申请中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种敏感数据识别方法，其特征在于，包括：

对所述待整改的数据表进行整改，得到变更的元数据。

2.根据权利要求1所述的敏感数据识别方法，其特征在于，所述根据所述敏感字段、所述非敏感字段以及所述字段引用信息，基于预训练的元数据质量检测模型，确定所述元数据中待整改的数据表，包括：

基于预训练的元数据质量检测模型执行：

3.根据权利要求2所述的敏感数据识别方法，其特征在于，所述基于预训练的强化学习模型，更新所述预设评分规则以及所述预设阈值，包括：

4.根据权利要求3所述的敏感数据识别方法，其特征在于，所述根据所述评分值、所述预设阈值以及所述整改信息，确定奖励值，包括：

5.根据权利要求2～4任一所述的敏感数据识别方法，其特征在于，所述预训练的强化学习模型的训练步骤包括：

6.根据权利要求2所述的敏感数据识别方法，其特征在于，所述根据预设信息中存在空值的非敏感字段以及敏感度感知模型，确定疑似敏感字段，包括：

将预设信息中存在空值的非敏感字段作为预测样本；

7.根据权利要求2或6所述的敏感数据识别方法，其特征在于，所述敏感度感知模型的训练步骤包括：

8.一种敏感数据识别装置，其特征在于，包括字段识别模块、引用信息确定模块、待整改数据表确定模块以及整改模块；

9.一种敏感数据识别设备，其特征在于，包括存储器和处理器，其中：

所述存储器用于存储计算机程序；

所述处理器用于读取所述存储器中的计算机程序，并执行如权利要求1～7任一所述的敏感数据识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有可读的计算机程序，该程序被处理器执行时实现如权利要求1～7任一所述的敏感数据识别方法的步骤。