CN115913769B

CN115913769B - 基于人工智能的数据安全存储方法及系统

Info

Publication number: CN115913769B
Application number: CN202211638455.7A
Authority: CN
Inventors: 李祥瑞; 温佳华
Original assignee: Haikou Shengtongda Investment Holdings Co ltd
Current assignee: Haikou Shengtongda Investment Holdings Co ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-09-08
Anticipated expiration: 2042-12-20
Also published as: CN115913769A

Abstract

本发明公开了一种基于人工智能的数据安全存储方法及系统，包括：接收待存储数据，待存储数据包括多个数据包；对多个数据包进行位置编码，确定编码后的待存储数据；将编码后的待存储数据输入基于人工智能预先训练确定的数据安全校验模型，确定数据安全校验模型的校验结果；在校验结果表征待存储数据中包括异常数据包的情况下，根据异常数据包的异常数据包位置标识，对异常数据包进行处理，确定安全的待存储数据；对安全的待存储数据进行数据落盘。以使得基于人工智能训练得到的数据安全校验模型对该待存储数据中的各个数据包进行检测，并将检测到的异常数据包剔除仅保存安全的数据，有效地提高了数据存储的安全性能。

Description

基于人工智能的数据安全存储方法及系统

技术领域

本发明涉及数据安全领域，具体而言，涉及一种基于人工智能的数据安全存储方法及系统。

背景技术

随着移动互联网的飞速发展，存储系统中的数据存储安全变得日益重要，网络安全方面往往面临着一定的风险和挑战。目前一些网络攻击伪装为一般数据诱导用户下载，而用户一旦接收到不安全的数据并直接将数据落盘，则可能导致存储系统中存储的其他私密数据遭到泄露或者篡改，进而存在侵害个人权益和个人隐私的问题。

发明内容

本发明的目的在于提供一种基于人工智能的数据安全存储方法及系统。

第一方面，本发明实施例提供一种基于人工智能的数据安全存储方法，所述方法包括：

接收待存储数据，所述待存储数据包括多个数据包；

对所述多个数据包进行位置编码，确定编码后的待存储数据；

将所述编码后的待存储数据输入基于人工智能预先训练确定的数据安全校验模型，确定所述数据安全校验模型的校验结果；

在所述校验结果表征待存储数据中包括异常数据包的情况下，根据所述异常数据包的异常数据包位置标识，对所述异常数据包进行处理，确定安全的待存储数据；

对所述安全的待存储数据进行数据落盘。

第二方面，本发明实施例提供一种云服务器系统，包括服务器；所述服务器用于执行第一方面至少一种可能的实施方式中所述的方法。

相比现有技术，本发明提供的有益效果包括：通过接收待存储数据对该待存储数据中的各个数据包进行位置编码，并将编码后的待存储数据输入基于人工智能预先训练确定的数据安全校验模型，以使得该数据安全校验模型对该待存储数据中的各个数据包进行检测，并将检测到的异常数据包剔除仅保存安全的数据，有效地提高了数据存储的安全性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例示出的一种基于人工智能的数据安全存储方法的步骤流程示意图；

图2是本发明实施例提供的计算机设备的结构示意框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供的方法，各步骤的执行主体可以是计算机设备，该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如PC（PersonalComputer，个人计算机）、平板电脑、智能手机、可穿戴设备、智能机器人等终端；也可以是服务器。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

图1是本发明实施例示出的一种基于人工智能的数据安全存储方法的步骤流程示意图，如图1所示，方法包括：

S101、接收待存储数据，待存储数据包括多个数据包。

S102、对多个数据包进行位置编码，确定编码后的待存储数据。

S103、将编码后的待存储数据输入基于人工智能预先训练确定的数据安全校验模型，确定数据安全校验模型的校验结果。

S104、在校验结果表征待存储数据中包括异常数据包的情况下，根据异常数据包的异常数据包位置标识，对异常数据包进行处理，确定安全的待存储数据。

S105、对安全的待存储数据进行数据落盘。

在本发明实施例中，通过接收待存储数据对该待存储数据中的各个数据包进行位置编码，并将编码后的待存储数据输入基于人工智能预先训练确定的数据安全校验模型，以使得该数据安全校验模型对该待存储数据中的各个数据包进行检测，并将检测到的异常数据包剔除仅保存安全的数据，有效地提高了数据存储的安全性能。

下面将对本发明实施例提供的数据安全校验模型的训练方法进行详细介绍说明。

在一些可选的实施例中，数据安全校验模型可以包括第一校验模块、第二校验模块和数据聚类模块其中，所述第二校验模块为所述第一校验模块的教师模型。该数据安全校验模型的训练可以包括：

1）利用第一校验模块对预先标注的样本数据进行处理，确定样本数据的第一校验结果，该样本数据的第一校验结果用于表征样本数据中异常数据包的第一数据包位置标识和第一异常种类。

其中，第一数据包位置标识是指第一校验模块所校验确定的异常数据包在数据中的位置，第一异常种类是指第一校验模块所校验确定的异常数据包的异常类别，例如对应不同的漏洞或病毒等。样本数据中异常数据包可以是指样本数据中的任一数据包。在本发明实施例中，该异常数据包可以是指设计人员所指定种类的数据包，诸如数据中的异常数据包。上述标签可用于表征异常数据包在样本数据中的实际位置、异常数据包的真实种类，以及样本数据的所述的聚类。

示例性地，数据安全校验模型包括第一校验模块、第二校验模块和数据聚类模块。利用第一校验模块对样本数据进行特征提取，确定样本数据对应的多维度特征值集合，多维度特征值集合中包括不同维度的特征值，第一校验模块再基于维度的特征值，对样本数据中异常数据包的位置和种类进行校验，确定样本数据中异常数据包的第一数据包位置标识和第一异常种类。

2），利用第一校验模块和第二校验模块分别对未预先标注的目标种类数据进行处理，确定目标种类数据的第一校验结果和第二校验结果；其中，目标种类数据的第一校验结果用于表征目标种类数据中异常数据包的第一数据包位置标识和第一异常种类，目标种类数据的第二校验结果用于表征目标种类数据中异常数据包的第二数据包位置标识和第二异常种类。

目标种类数据中异常数据包和样本数据中异常数据包可以是指同一类型的数据包。目标种类数据的第一校验结果对应的异常数据包和目标种类数据的第二校验结果对应的异常数据包相同。第二数据包位置标识可以是指第二校验模块所检测确定的异常数据包在数据中的位置，第二异常种类可以是指第二校验模块所检测到的异常数据包的种类。

示例性地，利用第一校验模块对目标种类数据进行特征提取，确定目标种类数据对应的多维度特征值集合，第一校验模块再基于多维度特征值集合，对目标种类数据中异常数据包的位置和种类进行预测，基于NMS算法（非极大值抑制，Non-MaximumSuppression）确定目标种类数据中异常数据包的第一数据包位置标识和第一异常种类。利用第二校验模块对目标种类数据进行特征提取，确定目标种类数据对应的多维度特征值集合，第二校验模块再基于多维度特征值集合，对目标种类数据中异常数据包的位置和种类进行校验，NMS后确定目标种类数据中异常数据包的第二数据包位置标识和第二异常种类。

可选地，在对目标种类数据进行处理之前，还可以对目标种类数据进行数据增强，其具体内容可以如下：分别对未预先标注的目标种类数据进行第一强度数据增强以及第二强度数据增强，确定第一强度数据增强后的目标种类数据和第二强度数据增强后的目标种类数据，第一强度数据增强的增强强度大于第二强度数据增强的增强强度；利用第一校验模块对第一强度数据增强后的目标种类数据进行处理，确定目标种类数据的第一校验结果；利用第二校验模块对第二强度数据增强后的目标种类数据进行处理，确定目标种类数据的第二校验结果。

其中，数据增强可以是对数据进行一定程度的修改，以确定新的数据的方法，例如对数据中的部分数据包或者部分数据包中的信息进行删除或修改等。基于修改的幅度，可以将数据增强划分为第一强度数据增强和第二强度数据增强，本发明对修改的幅度大小不做具体限定。

在本发明实施例中，第一强度数据增强第二强度数据增强利用第二校验模块对第二强度数据增强后的数据进行校验，可以有效提高第二校验模块的校验正确率，利用第一校验模块对第一强度数据增强后的数据进行校验，可以有效提高第一校验模块的鲁棒性，进而有利于提高第二校验模块的鲁棒性。

3），利用数据聚类模块对第一校验模块确定的样本数据的特征向量和目标种类数据的特征向量分别进行聚类，确定样本数据的数据聚类结果和目标种类数据的数据聚类结果。

数据聚类模块可用于对数据的聚类进行判断。可选地，数据聚类模块可以用于基于第一校验模块确定的样本数据的特征向量和目标种类数据的特征向量，对样本数据和目标种类数据的聚类进行判断，确定样本数据的数据聚类结果和目标种类数据的数据聚类结果。以及用于在对数据聚类模块和校验模块（第一校验模块+第二校验模块）进行联合训练时，将数据聚类模块的模型优化的梯度更新方向发送给校验模块。其中，数据聚类结果用于表征数据所属的聚类。

上述特征向量即是指第一校验模块中的主干网络所提取到的多维度特征集合，也即上述特征向量包括多个维度的特征值。可选地，数据聚类结果的获取过程还可以如下：利用数据聚类模块对第一校验模块确定的样本数据的多个维度的特征值分别进行聚类，确定样本数据的多个数据聚类结果；利用数据聚类模块对第一校验模块确定的目标种类数据的多个维度的特征值分别进行聚类，确定目标种类数据的多个数据聚类结果。

例如，利用第一校验模块分别对样本数据和目标种类数据进行特征提取，确定样本数据对应的三种维度的特征值，以及目标种类数据对应的三种维度的特征值。数据聚类模块分别对该六个特征值进行判断，确定六个数据聚类结果。

4），基于样本数据的第一校验结果、目标种类数据的第一校验结果和第二校验结果，以及数据聚类结果，对数据安全校验模型进行训练。

在一些实施例中，第一校验模块可以是一个神经网络，其可用于对数据进行处理，确定异常数据包在数据中的预测位置和预测类别。示例性地，第一校验模块可以是一个单阶段的目标检测网络，诸如RetinaNet等。该第一校验模块可以包括一个用于特征提取的主干网络、一个用于确定异常类型的第一子网络和一个用于检测异常数据包位置的第二子网络。

其中，主干网络可以在ResNet网络的基础上，结合特征金字塔来构建，主干网络也可以替换为其他网络结构，本发明实施例对此不作限定。第二校验模块可以是一个和第一校验模块的模型结构相同、但模型变量值不同的校验模块，其也可用于对数据进行检测，确定异常数据包在数据中的推理位置和推理类型。如此可以在第一校验模块和第二校验模块之间形成一致性约束，进而实现基于样本数据，对第一校验模块和第二校验模块在一致性约束下进行优化。

可选地，第二校验模块的检测结果可以作为第一校验模块的伪预标注标签，监督第一校验模块的训练。同时，第二校验模块的网络变量值，可以基于第一校验模块的网络变量值进行更新，以确定校验正确率更高的第二校验模块。例如，可以，基于第一校验模块的网络变量值，来更新第二校验模块的网络变量值。

在上述实施例中，利用上述模型训练方法对数据安全校验模型进行训练，以使得训练完成的数据安全校验模型可以用于对不同类型的异常数据包进行准确地检测。示例性地，可以采用有监督学习的方法、对抗特征学习方法和半监督学习方法，对第二校验模块、第一校验模块和数据聚类模块进行联合优化训练，从而实现可以基于数量较少的预先标注的样本数据和目标种类数据，即可完成数据安全校验模型的训练，从确保了数据安全校验模型的准确度、泛化性和鲁棒性。

可选地，基于样本数据的第一校验结果、目标种类数据的第一校验结果和第二校验结果，以及数据聚类结果，对数据安全校验模型进行训练还可以包括如下几个子步骤。

1），基于样本数据的第一校验结果和样本数据的预标注标签，确定位置检测损失和种类检测损失；其中，位置检测损失用于以样本数据的异常数据包位置标签为基础指标，表征第一校验模块在样本数据上的位置校验正确率，种类检测损失用于以样本数据的种类标签为基础指标，表征第一校验模块在样本数据上的异常种类检测正确率。

样本数据的预标注标签用于表征异常数据包的真实位置（对应异常数据包位置标签）和真实种类（对应异常种类标签）。基于样本数据的第一数据包位置标识和异常数据包位置标签之间的特征差值，即可确定位置检测损失，以及基于样本数据的第一异常种类和异常种类标签之间的特征差值，即可确定种类检测损失。

例如，采用光滑之后的L1范数损失函数，基于第一数据包位置标识和异常数据包位置标签之间的特征差值，计算确定种类检测损失。采用焦点损失方法，基于第一异常种类和异常种类标签之间的特征差值，计算确定位置检测损失。其中，焦点损失方法可用于解决正负样本不平衡的问题，有利于进一步提高数据安全校验模型的检测准确度。

2），基于目标种类数据的第一校验结果和第二校验结果，确定第一损失值；其中，第一损失值用于以目标种类数据的第二校验结果作为伪标注标签，表征第一校验模块在目标种类数据上的异常数据包位置以及异常种类检测正确率。

伪标注标签用于代替真实预标注标签作为监督信息。由于伪标注标签的准率程度对模型的训练效果影响非常大，因此，在本发明实施例中，需要对数据的第二校验结果进行筛选。示例性地，可以从多个目标种类数据中，确定出目标种类数据的第二校验结果大于预设结果阈值的目标种类数据；其中，被确定出的目标种类数据的第一校验结果和第二校验结果，用于确定第一损失值。

例如，第二异常种类可用于表征异常数据包的类别，在第二异常种类对应的预测概率值大于预设结果阈值的情况下，可以判断该异常数据包大概率属于该预设结果阈值对应的种类。因此，可以将第二异常种类对应的预测概率值大于预设结果阈值的目标种类数据保留下来，将第二异常种类对应的预测概率值小于概率阈值的目标种类数据进行剔除，确定被确定出的目标种类数据，并基于确定出的目标种类数据的第一校验结果和第二校验结果，来确定第一损失值。

可选地，上述预设结果阈值可以基于实际使用需求进行设置与调整，诸如85%、89%、90%等。如此，对目标种类数据进行筛查，可以筛查掉不太准确的检测结果，从而有利于提高模型的检测正确率。

在一个示例中，可以采用软焦点损失，基于目标种类数据的第一校验结果和第二校验结果，计算确定第一损失值。示例性地，可以基于目标种类数据的第一校验结果和第二校验结果之间的结果概率距离，该距离可以是第一校验结果和第二校验结果对应的向量之间的距离，以及结果重要性变量值，确定第一损失值；其中，结果重要性变量值依据目标种类数据的第二校验结果实时变化，用于表征第一校验结果以及第二校验结果的重要性，即权重信息。

3），基于数据聚类结果和数据聚类标签，确定聚类损失值；其中，聚类损失值用于表征数据聚类模块的聚类正确率。

数据聚类标签用于表征数据的真实聚类。可选地，可以采用交叉熵损失函数，基于数据聚类结果和数据聚类标签，计算确定聚类损失值。

例如，在数据安全校验模型的输入只有一个聚类对应的数据的情况下，数据聚类模块输出了8个数据聚类结果，其中，4个数据聚类结果对应样本数据，剩余4个数据聚类结果对应目标种类数据。采用交叉熵损失函数分别基于该8个数据聚类结果和该8个数据聚类结果对应的数据聚类标签，计算确定8个子聚类损失值，计算该8个子聚类损失值的和值，确定聚类损失值。

4），基于位置检测损失、种类检测损失、第一损失值和聚类损失值，对数据安全校验模型进行训练。

在本发明实施例中，可以对数据安全校验模型进行两个阶段的训练。

第一阶段：在利用预先标注的样本数据训练第一校验模块的同时，利用预先标注的样本数据和未预先标注的目标种类数据，对数据聚类模块和第一校验模块进行联合优化训练。示例性地，基于位置检测损失、种类检测损失和聚类损失值，确定第一阶段对应的损失和。

此时，可以基于预先标注的样本数据进行有监督学习，同时基于样本数据和目标种类数据进行聚类适应学习。可选地，在第一阶段的训练过程中，可以先基于第一阶段对应的损失和确定数据聚类模块的变量值更新步长，并基于数据聚类模块的变量值更新步长对数据聚类模块的变量值进行更新。再基于数据聚类模块的变量值更新步长，确定第一校验模块的变量值更新步长，以及基于第一校验模块的变量值更新步长对第一校验模块的变量值进行更新。在经过多轮迭代训练之后，完成数据安全校验模型的第一阶段训练。

第二阶段：在利用预先标注的样本数据训练第一校验模块的同时，利用预先标注的样本数据和未预先标注的目标种类数据，对数据聚类模块和第一校验模块联合优化训练，基于未预先标注的目标种类数据，对第一校验模块和第二校验模块进行训练。示例性地，可以基于位置检测损失、种类检测损失、第一损失值和聚类损失值，确定数据安全校验模型的损失和。

此时，可以基于预先标注的样本数据进行有监督学习，基于预先标注的样本数据和未预先标注的目标种类数据进行半监督学习，以及基于样本数据和目标种类数据进行聚类适应学习。在经过多轮迭代训练之后，完成数据安全校验模型的第二阶段训练即确定训练完成的数据安全校验模型。

可选地，在第二阶段训练的训练过程中，可以先基于损失和确定数据聚类模块的变量值更新步长，基于数据聚类模块的变量值更新步长对数据聚类模块的变量值进行更新。

再基于数据聚类模块的变量值更新步长，确定第一校验模块的变量值更新步长，以及基于第一校验模块的变量值更新步长对第一校验模块的变量值进行更新；最后基于第一校验模块的变量值，确定第二校验模块的变量值。

在本发明实施例中，通过对抗特征学习的方式增强了特征的聚类不变性，从而提高了数据安全校验模型的鲁棒性。利用确定第二校验模块的变量值，可以进一步提高第二校验模块的校验正确率。

可选地，在数据安全校验模型训练结束之后，可以基于第二校验模块的变量值，构建目标数据安全校验模型，该目标数据安全校验模型用于从待存储数据中检测异常数据包的位置和种类。

综上所述，本发明实施例提供的技术方案，利用基于预先标注的样本数据和未预先标注的目标种类数据，即可完成对数据安全校验模型的训练，使得在预先标注的样本数据的数量有限的情况下，亦可通过大量的未预先标注的目标种类数据，获取高识别准确度的数据安全校验模型，相比于相关技术仅仅依靠少量的预先标注的样本数据，采用本发明实施例提供的技术方案，可以有效提高数据安全校验模型的识别准确度。同时，本发明只需少量的预先标注的样本数据，从而可以有效降低数据安全校验模型的训练成本，以及使得预先标注的样本数据可以被更加高效地利用。

另外，本发明通过基于预先标注的样本数据和未预先标注的目标种类数据，对数据安全校验模型进行训练，进而提高了数据安全校验模型的泛化性。同时，利用多个聚类的数据，对数据安全校验模型进行训练，可以使得数据安全校验模型对应的模型特征具有聚类不变性，从而提升了数据安全校验模型的鲁棒性。

第二强度数据增强第一强度数据增强可选地，对多个数据包进行位置编码，确定编码后的待存储数据之前，包括：

对多个数据包中的每一数据包执行特征工程，得到每一数据包的数据特征矩阵；

基于数据特征矩阵，得到每一数据包的与数据包头对应的头部特征矩阵，并基于数据特征矩阵以及头部特征矩阵，得到每一数据包的与安全指标对应的安全特征矩阵；

基于安全特征矩阵，得到每一数据包的安全指标值，并基于每一数据包的安全指标值，得到对应待存储数据的预检测安全水平；

确定预检测安全水平是否大于预设安全阈值。

在一种实施方式中，在确定预检测安全水平大于预设安全阈值的情况下，再对多个数据包进行位置编码，确定编码后的待存储数据并执行之后的步骤。

其中，对多个数据包中的每一数据包执行特征工程可以是将每一数据包输入预训练的特征提取网络，得到特征提取网络输出的数据特征矩阵，其中，该特征提取网络可以是基于深度卷积神经网络训练得到。基于数据特征矩阵，得到每一数据包的与数据包头对应的头部特征矩阵，并基于数据特征矩阵以及头部特征矩阵，得到每一数据包的与安全指标对应的安全特征矩阵。

其中，头部特征矩阵是指与数据包的数据包头对应的特征矩阵，即以矩阵形式表征的数据包头特征的矩阵，数据包头特征至少可以包括数据包头的服务类型信息、标识符信息、协议信息、源IP地址信息等。

由于数据特征至少包括数据包的与数据包头对应的信息以及与安全指标对应的信息，因而在提取得到数据特征矩阵之后，可以基于数据特征矩阵，得到个数据包的与数据包头对应的头部特征矩阵，进而，利用数据特征矩阵减去头部特征矩阵，得到每一数据包的与安全指标对应的安全特征矩阵。

基于安全特征矩阵，得到每一数据包的安全指标值，并基于每一数据包的安全指标值，生成对应待存储数据的预检测安全水平。

具体而言，安全指标值用于指示每一数据包的安全指标。在一实施方式中，每一安全特征矩阵可以对应一个安全指标值，例如得到某个安全特征矩阵时，则可获取相应安全指标值。

在一实施方式中，还可以预先构建和训练预检测模型，将安全特征矩阵输入预检测模型，从而得到预检测模型输出的每一数据包的安全指标值。预检测模型是以训练数据集中的训练数据为输入，以训练数据中的总体安全指标值为输出训练得到的模型。需要说明，本实施例对预检测模型的类型不做限定。

由于安全指标值可以用于指示每一数据包的安全情况，因而在得到每一数据包的安全指标值之后，进一步，则可以基于每一数据包的安全指标值，生成对应待存储数据的预检测安全水平。在一实施方式中，基于每一数据包的安全指标值，生成对应待存储数据的预检测安全水平可以是基于每一数据包的安全指标值，计算多个安全指标值的算数均值，然后，将计算得到的算数均值作为待存储数据的安全指标评估结果。当然，基于每一数据包的安全指标值，生成对应待存储数据的预检测安全水平还可以是其他可行的实施方式，在此不进行具体限定。

基于以上实施例的技术方案，基于每一数据包的数据特征矩阵，得到每一数据包的与数据包头对应的头部特征矩阵，并基于数据特征矩阵以及头部特征矩阵，得到每一数据包的与安全指标对应的安全特征矩阵，进而基于每一数据包的安全特征矩阵，得到每一数据包的安全指标值，最后基于每一数据包的安全指标值，生成对应待存储数据的预检测安全水平。本发明实施例的技术方案由于将与数据包头对应的特征以及与安全指标对应的特征分离开来，避免了数据包头特征与安全指标相关的特征之间的相互干扰，提高数据安全性能检测的准确性，同时本方案避免了使用结构庞大复杂的模型，节省了计算开销，可以快速地进行数据安全性能的预检测，实用性更强。

在本发明的一个实施例中，在得到待存储数据的每一数据包的安全指标值之后，可以将得到的安全指标值与数据完整程度特征相结合，即丢包比例与完整指标，最终生成对应待存储数据的预检测安全水平。在该实施例中，基于每一数据包的安全指标值，生成对应待存储数据的预检测安全水平可以具体包括：

1），获取待存储数据的丢包比例以及完整指标，并基于丢包比例以及完整指标，得到待存储数据的数据完整程度。

可以理解的是，由于数据包可能是抓包方对数据包进行抓去后重新进行修改后再发送的，因此被篡改的数据对应的数据包可能有较高的丢包率以及可能有较高的可能不完整。

在本发明的一个实施例中，在得到待存储数据的数据完整程度时可以是基于丢包比例，得到待存储数据的第一数据完整程度，基于完整指标，得到待存储数据的第二数据完整程度，最后，基于第一数据完整程度和第二数据完整程度，得到待存储数据的数据完整程度。

2），基于每一数据包的安全指标值，得到待存储数据的安全指标值。

由于待存储数据中包括有多个数据包，因此在得到每一数据包的安全指标值之后，则可以基于每一数据包的安全指标值，得到待存储数据的安全指标值。具体可以是计算每一数据包的安全指标值的加权均值，得到待存储数据的安全指标值。

在本发明的一个实施例中，基于每一数据包的安全指标值，得到待存储数据的安全指标值还可以是基于每一数据包的安全指标值，计算多个安全指标值的算数均值，然后，将计算得到的算数均值作为待存储数据的安全指标值。

3），基于待存储数据的数据完整程度以及待存储数据的安全指标值，生成对应待存储数据的预检测安全水平。

其中，待存储数据的安全指标值是通过每一数据包的安全指标值得到的，可以反映待存储数据的安全情况，待存储数据的数据完整程度是基于丢包比例和完整指标得到的，数据完整程度越大，那么待存储数据的整体安全程度越高。

本实施例中，在得到待存储数据的数据完整程度以及待存储数据的安全指标值之后，可以基于待存储数据的数据完整程度以及待存储数据的安全指标值，生成对应待存储数据的预检测安全水平。

在本发明的一个实施例中，服务器或者终端设备中可以部署预检测模块，利用该预检测模型对待存储数据进行安全性能评估，在预测的过程中，待存储数据利用预检测模型后输出安全指标值，输出的安全指标值可以是待存储数据中每一数据包的安全指标值，也可以是基于预测得到的待存储数据中每一数据包的安全指标值，输出待存储数据的安全指标值。具体地，用于检测的预检测模型包括特征工程模块、ResNet模块和预检测模块，在训练的过程中，还可以增加第一关联判别模块、第二关联判别模块、特征关联参数确定模块以及数据归类模块，具体地，用于训练的预检测模型包括特征工程模块、ResNet模块、第一关联判别模块、第二关联判别模块、特征关联参数确定模块、预检测模块和数据归类模块。

在本实施例中，利用预检测模型对待存储数据的安全性能进行预检测可以具体包括：首先，利用预检测模型的特征工程模块可以提取待存储数据中每一数据包的数据特征矩阵，在提取得到每一数据包的数据特征矩阵之后，将每一数据包的数据特征矩阵输入预检测模型的ResNet模块，从而得到每一数据包的与数据包头对应的头部特征矩阵，然后，利用数据特征矩阵减去头部特征矩阵，得到每一数据包的与安全指标对应的安全特征矩阵。最后，在得到每一数据包的安全特征矩阵之后，可以将每一数据包的安全特征矩阵输入预检测模型的预检测模块，得到预检测模块输出的每一数据包的安全指标值。

在本发明的一个实施例中，还提供一种预检测模型的训练方法，具体可以包括：

步骤1，获取样本数据包集合，样本数据包集合中包括有多个分箱数据，多个分箱数据中的每一分箱数据中包括有多个训练数据，每一训练数据包括有安全指标值标签和数据详情标签。

具体而言，在对待训练预检测模型进行训练之前，可以构建用于训练模型的样本数据包集合。

还需要说明的是，样本数据包集合中的每一训练数据包括有标注安全指标值和数据详情标签。其中，安全指标值标签是每一训练数据的实际安全指标值，该安全指标值可以是基于工作人间的历史经验进行标注的，数据详情标签是与每一训练数据的数据详细内容对应的。

步骤2，在获取样本数据包集合之后，可以利用待训练预检测模型的特征工程模块、ResNet模块、关联判别模块以及特征关联参数确定模块，得到每一分箱数据对应的第一特征关联参数，基于第一特征关联参数，得到第二损失值，并基于第二损失值，更新关联判别模块的变量值。

在该步骤中，获取样本数据包集合后，可以将每一分箱数据传入待训练预检测模型进行第一阶段的训练。第一阶段的训练主要用于更新待训练预检测模型中第一关联判别模块和第二关联判别模块的变量值。

在第一阶段的训练过程中，可以首先利用待训练预检测模型的特征工程模块、ResNet模块、第一关联判别模块和第二关联判别模块，得到每一分箱数据对应的第一特征关联参数，第一特征关联参数用以表征每一分箱数据中包括的多个训练数据的与数据包头对应的头部特征矩阵以及多个训练数据的与安全指标对应的安全特征矩阵之间的关联程度。

在一示例中，利用待训练预检测模型的特征工程模块、ResNet模块、关联判别模块以及特征关联参数确定模块，得到每一分箱数据对应的第一特征关联参数，包括：

1），利用特征工程模块处理每一分箱数据中包括的每一训练数据中的多个训练数据包的数据特征矩阵，将每一训练数据包的数据特征矩阵输入所述ResNet模块，得到ResNet模块输出的每一训练数据包的与数据包头对应的头部特征矩阵，基于每一训练数据包的数据特征矩阵以及每一训练数据包的头部特征矩阵，得到每一训练数据包的与安全指标对应的安全特征矩阵。

在本实施例中，提取的数据特征矩阵是每一训练数据中的多个训练数据包的数据特征矩阵。在利用特征工程模块处理得到多个训练数据包的数据特征矩阵之后，可以将每一训练数据包的数据特征矩阵输入ResNet模块，从而得到ResNet模块输出的每一训练数据包的与数据包头对应的头部特征矩阵。

在获得每一训练数据包的数据特征矩阵以及每一训练数据包的头部特征矩阵之后，可以利用数据特征矩阵减去头部特征矩阵，得到每一训练数据包的与安全指标对应的安全特征矩阵。

2），基于每一训练数据包的头部特征矩阵以及每一训练数据包的安全特征矩阵，利用关联判别模块和特征关联参数确定模块得到每一训练数据包对应的特征关联参数，将得到的每一训练数据包对应的特征关联参数作为每一分箱数据对应的第一特征关联参数。

其中，利用关联判别模块和特征关联参数确定模块得到每一训练数据包对应的特征关联参数可以具体包括：首先，利用第一关联判别模块对每一训练数据包的安全特征矩阵进行降维处理，将安全特征矩阵的维度降至目标维数，并利用第二关联判别模块对每一训练数据包的头部特征矩阵进行降维处理，将头部特征矩阵的维度降至目标维数，目标维数可以是一维，再利用特征关联参数确定模块计算每一训练数据包对应的特征关联参数。

对于每一分箱数据中包括的每一训练数据中的多个训练数据包，在利用关联判别模块对特征向量进行降维并利用特征关联参数确定模块计算得到每一训练数据包对应的特征关联参数后，则可以将计算得到的每一训练数据包对应的特征关联参数作为每一分箱数据对应的第一特征关联参数。

在本发明的一个实施例中，由于第一特征关联参数可以表征每一分箱数据中包括的多个训练数据的与数据包头对应的头部特征矩阵以及多个训练数据的与安全指标对应的安全特征矩阵之间的关联程度，因而，为了更好地对数据安全性能进行检测，避免模型学习到与安全指标不相关其他特征，对模型的回归判别过程造成额外的干扰，影响模型的性能，在模型训练的第一阶段，可以通过最大化特征关联参数最小的训练数据包的特征关联参数，得到第二损失值。

步骤3，利用特征工程模块、ResNet模块、变量值更新后的关联判别模块、特征关联参数确定模块、预检测模块以及数据归类模块，得到每一分箱数据对应的第二特征关联参数、安全指标损失以及数据详情损失，并基于第二特征关联参数、安全指标损失和数据详情损失，得到第三损失值，基于第三损失值，更新特征工程模块、ResNet模块、预检测模块以及数据归类模块的变量值。

具体而言，在完成第一阶段中对关联判别模块的变量值的更新之后，则可以进入模型训练的第二阶段，第二阶段的训练可以用于更新特征工程模块、ResNet模块、预检测模块以及数据归类模块的变量值。

具体实施时，首先可以利用待训练预检测模型的特征工程模块、ResNet模块、变量值更新后的关联判别模块以及特征关联参数确定模块，得到每一分箱数据对应的第二特征关联参数，第二特征关联参数用以表示每一分箱数据中包括的多个训练数据的与数据包头对应的头部特征矩阵以及多个训练数据的与安全指标对应的安全特征矩阵之间的关联程度。其中，得到第二特征关联参数的方法与步骤2中得到第一特征关联参数的方法类似，故在此不再赘述。

同时，可以利用待训练预检测模型的预检测模块，得到每一分箱数据对应的安全指标损失，利用待训练预检测模型的数据归类模块，得到每一分箱数据对应的数据详情损失。

具体而言，得到每一分箱数据对应的安全指标损失和数据详情损失可以具体包括：

1），利用预检测模块，得到每一分箱数据中包括的每一训练数据的输出安全指标值，利用数据归类模块，得到每一分箱数据中包括的每一训练数据的安全类型。

对于每一分箱数据中包括的每一训练数据，首先可以利用特征工程模块处理每一训练数据中的每一训练数据包的数据特征矩阵；然后将每一训练数据包的数据特征矩阵输入ResNet模块，得到ResNet模块输出的每一训练数据包的头部特征矩阵，在得到头部特征矩阵之后，利用数据特征矩阵减去头部特征矩阵，得到每一训练数据包的安全特征矩阵；进而可以将安全特征矩阵输入预检测模块，将头部特征矩阵输入数据归类模块，从而得到预检测模块输出的每一训练数据包的安全指标值以及数据归类模块输出的每一训练数据包的头部特征矩阵；最后基于预检测模块输出的每一训练数据包的安全指标值，得到每一训练数据的输出安全指标值，基于数据归类模块输出的每一训练数据包的头部特征矩阵，得到每一训练数据的安全类型。

在一实施方式中，基于预检测模块输出的每一训练数据包的安全指标值，得到每一训练数据的输出安全指标值可以是输出的所有训练数据包的安全指标值的均值。

2），基于每一训练数据的输出安全指标值以及每一训练数据的安全指标值标签，得到每一分箱数据对应的安全指标损失。

具体而言，基于每一训练数据的输出安全指标值以及每一训练数据的安全指标值标签，得到每一分箱数据对应的安全指标损失可以具体包括：首先，计算每一分箱数据中包括的每一训练数据的输出安全指标值以及安全指标值标签之间的差值，将计算得到的差值作为每一分箱数据中包括的每一训练数据对应的安全指标损失，然后，可以计算每一训练数据对应的安全指标损失之和与每一分箱数据中包括的训练数据的数量的比值，将计算出的比值作为每一分箱数据对应的安全指标损失。

3）基于每一训练数据的安全类型以及每一训练数据的数据详情标签，得到每一分箱数据对应的数据详情损失。

在得到每一分箱数据中包括的每一训练数据的安全类型之后，则可以基于每一训练数据的安全类型以及每一训练数据的数据详情标签，得到每一训练数据对应的数据详情损失，数据详情损失用以表示安全类型与数据详情标签之间的不一致性。由于分箱数据中包括有每一训练数据，因而基于每一训练数据对应的数据详情损失，可以得到每一分箱数据对应的数据详情损失。

在得到每一分箱数据对应的第二特征关联参数、安全指标损失以及数据详情损失之后，则可以基于第二特征关联参数、安全指标损失以及数据详情损失，得到第三损失值，然后，可以基于第三损失值，更新特征工程模块、ResNet模块、预检测模块以及数据归类模块的变量值。

由于第二特征关联参数可以表征每一分箱数据中包括的多个训练数据的与数据包头对应的头部特征矩阵以及多个训练数据的与安全指标对应的安全特征矩阵之间的关联程度，为了避免模型学习到与安全指标不对应的其他特征，对模型的回归判别过程造成额外的干扰，影响模型的性能，因此在模型训练的第二阶段，可通过最小化特征关联参数最大的训练数据包的特征关联参数，并结合数据详情损失和安全指标损失，得到第三损失值。

本发明实施例提供一种计算机设备100，计算机设备100包括处理器及存储有计算机指令的非易失性存储器，计算机指令被处理器执行时，计算机设备100执行前述的基于人工智能的数据安全存储方法。如图2所示，图2为本发明实施例提供的计算机设备100的结构框图。计算机设备100包括存储器111、处理器112及通信单元113。

为实现数据的传输或交互，存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如，可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。

本发明实施例提供一种可读存储介质，可读存储介质包括计算机程序，计算机程序运行时控制可读存储介质所在计算机设备执行前述的基于人工智能的数据安全存储方法。

出于说明目的，前面的描述是参考具体实施例而进行的。但是，上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。基于上述教导，众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用，从而使本领域技术人员最佳地利用本公开，并利用具有不同修改的各种实施例以适于预期的特定应用。出于说明目的，前面的描述是参考具体实施例而进行的。但是，上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。基于上述教导，众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用，从而使本领域技术人员最佳地利用本公开，并利用具有不同修改的各种实施例以适于预期的特定应用。

Claims

1.一种基于人工智能的数据安全存储方法，其特征在于，所述方法包括：

接收待存储数据，所述待存储数据包括多个数据包；

对所述安全的待存储数据进行数据落盘；

所述数据安全校验模型包括第一校验模块、第二校验模块和数据聚类模块，其中，所述第二校验模块为所述第一校验模块的教师模型；

所述数据安全校验模型通过以下方式得到：

利用所述第一校验模块对预先标注的样本数据进行校验，确定所述样本数据的第一校验结果，所述样本数据的第一校验结果用于表征所述样本数据中异常数据包的第一数据包位置标识和第一异常种类；

分别对未预先标注的目标种类数据进行第一强度数据增强以及第二强度数据增强，确定第一强度数据增强后的目标种类数据和第二强度数据增强后的目标种类数据，所述第一强度数据增强的增强强度大于所述第二强度数据增强的增强强度；

利用所述第一校验模块对所述第一强度数据增强后的目标种类数据进行校验，确定所述目标种类数据的第一校验结果，以及利用所述第二校验模块对所述第二强度数据增强后的目标种类数据进行校验，确定所述目标种类数据的第二校验结果；其中，所述目标种类数据的第一校验结果用于表征所述目标种类数据中所述异常数据包的第一数据包位置标识和第一异常种类，所述目标种类数据的第二校验结果用于表征所述目标种类数据中所述异常数据包的第二数据包位置标识和第二异常种类；

利用所述数据聚类模块对所述第一校验模块确定的所述样本数据的特征向量和所述第一校验模块确定的所述目标种类数据的特征向量分别进行聚类，确定所述样本数据的数据聚类结果和所述目标种类数据的数据聚类结果；

基于所述样本数据的第一校验结果、所述目标种类数据的第一校验结果和第二校验结果，以及所述样本数据的数据聚类结果和所述目标种类数据的数据聚类结果，对所述数据安全校验模型进行训练，确定用于检测待存储数据的安全性能的训练完成的数据安全校验模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述样本数据的第一校验结果、所述目标种类数据的第一校验结果和第二校验结果，以及所述样本数据的数据聚类结果和所述目标种类数据的数据聚类结果，对所述数据安全校验模型进行训练，包括：

基于所述样本数据的第一校验结果和所述样本数据的预标注标签，确定位置检测损失和种类检测损失；其中，所述位置检测损失用于以所述样本数据的异常数据包位置标签为基础指标，表征所述第一校验模块在所述样本数据上的位置校验正确率，所述种类检测损失用于以所述样本数据的种类标签为基础指标，表征所述第一校验模块在所述样本数据上的异常种类检测正确率；

基于所述目标种类数据的第一校验结果和第二校验结果，确定第一损失值；其中，所述第一损失值用于以所述目标种类数据的第二校验结果作为伪标注标签，表征所述第一校验模块在所述目标种类数据上的异常数据包位置异常种类检测正确率；

基于所述样本数据的数据聚类结果和所述目标种类数据的数据聚类结果和数据聚类标签，确定聚类损失值；其中，所述聚类损失值用于表征所述数据聚类模块的聚类正确率；

基于所述位置检测损失、所述种类检测损失、所述第一损失值和所述聚类损失值，对所述数据安全校验模型进行训练；

所述基于所述位置检测损失、所述种类检测损失、所述第一损失值和所述聚类损失值，对所述数据安全校验模型进行训练，包括：

基于所述位置检测损失、所述种类检测损失、所述第一损失值和所述聚类损失值，确定所述数据安全校验模型的损失和；

基于所述损失和确定所述数据聚类模块的变量值更新步长，基于所述数据聚类模块的变量值更新步长对所述数据聚类模块的变量值进行更新；

基于所述数据聚类模块的变量值更新步长，确定所述第一校验模块的变量值更新步长，基于所述第一校验模块的变量值更新步长对所述第一校验模块的变量值进行更新；

基于所述第一校验模块的变量值，确定所述第二校验模块的变量值；

所述基于所述目标种类数据的第一校验结果和第二校验结果，确定第一损失值，包括：

基于所述目标种类数据的第一校验结果和第二校验结果之间的结果概率距离，以及结果重要性变量值，确定所述第一损失值；其中，所述结果重要性变量值依据所述目标种类数据的第二校验结果实时变化；

所述方法还包括：

从多个所述目标种类数据中，确定出所述目标种类数据的第二校验结果大于预设结果阈值的目标种类数据；

其中，被确定出的所述目标种类数据的第一校验结果和第二校验结果，用于确定所述第一损失值。

3.根据权利要求1所述的方法，其特征在于，所述特征向量包括多个维度的特征值；

所述利用所述数据聚类模块对所述第一校验模块确定的所述样本数据的特征向量和所述第一校验模块确定的所述目标种类数据的特征向量分别进行聚类，确定所述样本数据的数据聚类结果和所述目标种类数据的数据聚类结果，包括：

利用所述数据聚类模块对所述第一校验模块确定的所述样本数据的多个维度的特征值分别进行聚类，确定所述样本数据的多个数据聚类结果；

利用所述数据聚类模块对所述第一校验模块确定的所述目标种类数据的多个维度的特征值分别进行聚类，确定所述目标种类数据的多个数据聚类结果。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述数据安全校验模型训练结束之后，基于所述第二校验模块的变量值，构建目标数据安全校验模型，所述目标数据安全校验模型用于从待存储的数据中检测所述异常数据包的位置和类别。

5.根据权利要求1所述的方法，其特征在于，所述对所述多个数据包进行位置编码，确定编码后的待存储数据之前，所述方法还包括：

对所述多个数据包中的每一数据包执行特征工程，得到所述每一数据包的数据特征矩阵；

基于所述数据特征矩阵，得到每一所述数据包的与数据包头对应的头部特征矩阵，并基于所述数据特征矩阵以及所述头部特征矩阵，得到每一所述数据包的与安全指标对应的安全特征矩阵；

基于所述安全特征矩阵，得到每一所述数据包的安全指标值，并基于每一所述数据包的安全指标值，得到对应所述待存储数据的预检测安全水平；

确定所述预检测安全水平是否大于预设安全阈值。

6.根据权利要求5所述的方法，其特征在于，基于每一所述数据包的安全指标值，得到对应所述待存储数据的预检测安全水平，包括：

得到所述待存储数据的丢包比例以及完整指标，并基于所述丢包比例以及所述完整指标，得到所述待存储数据的数据完整程度；

基于每一所述数据包的安全指标值，得到所述待存储数据的安全指标值；

基于所述待存储数据的数据完整程度以及所述待存储数据的安全指标值，得到对应所述待存储数据的预检测安全水平；

基于每一所述数据包的安全指标值，得到所述待存储数据的安全指标值，包括：

基于每一所述数据包的安全指标值，得到多个安全指标值的算数均值，将得到的算数均值作为所述待存储数据的安全指标值；

基于所述丢包比例以及所述完整指标，得到所述待存储数据的数据完整程度，包括：

基于所述丢包比例，得到所述待存储数据的第一数据完整程度，并基于所述完整指标，得到所述待存储数据的第二数据完整程度；

基于所述第一数据完整程度以及所述第二数据完整程度，得到所述待存储数据的数据完整程度。

7.根据权利要求5所述的方法，其特征在于，所述数据特征矩阵是利用预检测模型的特征工程模块处理得到的，所述头部特征矩阵是将所述数据特征矩阵输入所述预检测模型的ResNet模块后得到的；

基于所述安全特征矩阵，得到每一所述数据包的安全指标值，包括：将每一所述数据包的安全特征矩阵输入所述预检测模型的预检测模块，得到所述预检测模块输出的每一所述数据包的安全指标值。

8.根据权利要求7所述的方法，其特征在于，所述预检测模型还包括关联判别模块、特征关联参数确定模块以及数据归类模块，所述预检测模型是通过如下方式训练得到的：

获取样本数据包集合，所述样本数据包集合中包括有多个分箱数据，所述多个分箱数据中的每一分箱数据中包括有多个训练数据，每一训练数据包括预先标注的安全指标值标签和数据详情标签；

利用所述特征工程模块、所述ResNet模块、所述关联判别模块以及所述特征关联参数确定模块，得到所述每一分箱数据对应的第一特征关联参数，基于所述第一特征关联参数，得到第二损失值，并基于所述第二损失值，更新所述关联判别模块的变量值；

利用所述特征工程模块、所述ResNet模块、变量值更新后的关联判别模块、所述特征关联参数确定模块、所述预检测模块以及所述数据归类模块，得到所述每一分箱数据对应的第二特征关联参数、安全指标损失以及数据详情损失，并基于所述第二特征关联参数、所述安全指标损失以及所述数据详情损失，得到第三损失值，基于所述第三损失值，更新所述特征工程模块、所述ResNet模块、所述预检测模块以及所述数据归类模块的变量值；

基于变量值更新后的特征工程模块、变量值更新后的ResNet模块、变量值更新后的预检测模块以及变量值更新后的数据归类模块，迭代执行所述关联判别模块的变量值的更新，并基于变量值迭代更新后的关联判别模块，进一步执行所述特征工程模块、所述ResNet模块、所述预检测模块以及所述数据归类模块的变量值的更新，直至满足预设条件时停止迭代；

利用所述特征工程模块、所述ResNet模块、所述关联判别模块以及所述特征关联参数确定模块，得到所述每一分箱数据对应的第一特征关联参数，包括：

利用所述特征工程模块处理所述每一分箱数据中包括的每一训练数据中的多个训练数据包的数据特征矩阵，将每一训练数据包的数据特征矩阵输入所述ResNet模块，得到所述ResNet模块输出的所述每一训练数据包的与数据包头对应的头部特征矩阵，基于所述每一训练数据包的数据特征矩阵以及所述每一训练数据包的头部特征矩阵，得到所述每一训练数据包的与安全指标对应的安全特征矩阵；

基于所述每一训练数据包的头部特征矩阵以及所述每一训练数据包的安全特征矩阵，利用所述关联判别模块和所述特征关联参数确定模块得到所述每一训练数据包对应的特征关联参数，将得到的所述每一训练数据包对应的特征关联参数作为所述每一分箱数据对应的第一特征关联参数；

基于所述第一特征关联参数，得到第二损失值，包括：

获取所述多个训练数据包分别对应的特征关联参数，将多个特征关联参数中的最小特征关联参数与负一的乘积作为所述第二损失值；

所述方法还包括：

利用所述预检测模块，得到所述每一分箱数据中包括的每一训练数据的输出安全指标值，利用所述数据归类模块，得到所述每一分箱数据中包括的每一训练数据的安全类型；

基于所述每一训练数据的输出安全指标值以及所述每一训练数据的安全指标值标签，得到所述每一分箱数据对应的安全指标损失；

基于所述每一训练数据的安全类型以及所述每一训练数据的数据详情标签，得到所述每一分箱数据对应的数据详情损失。

9.一种云服务器系统，其特征在于，包括服务器；所述服务器用于执行权利要求1-8中任一项所述的方法。