CN116383771A

CN116383771A - 基于变分自编码模型的网络异常入侵检测方法和系统

Info

Publication number: CN116383771A
Application number: CN202310658754.5A
Authority: CN
Inventors: 杭菲璐; 谢林江; 陈何雄; 张振红; 李寒箬; 毛正雄; 何映军; 罗震宇; 郭威
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-07-04
Anticipated expiration: 2043-06-06
Also published as: CN116383771B

Abstract

本发明涉及一种基于变分自编码模型的网络异常入侵检测方法和系统。所述方法包括：通过变分自编码模型获得网络访问数据变分分布特征信息；通过网络访问数据分类模型获得网络访问数据分类特征信息；获取历史访问数据库中各类型的中心分布信息；确定网络访问数据所属的目标类型和目标中心分布信息；确定变分自编码模型和网络访问数据分类模型是否需要训练；在需要训练时，根据变分分布特征信息、分类特征信息以及目标中心分布信息，确定损失函数；根据损失函数，对模型进行训练；通过训练后的模型，确定网络访问数据的类型。根据本发明，可使模型适应随时间不断变化的访问数据，且不需要人工标注，减少工作量。

Description

基于变分自编码模型的网络异常入侵检测方法和系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于变分自编码模型的网络异常入侵检测方法和系统。

背景技术

网络异常入侵检测可将网络流量数据、相关日志数据、应用访问数据等进行相应的解析，从而检测用户异常行为，提高网络安全性。由于分析数据量较大，通常采用机器学习的方法来进行辅助检测。

常用的机器学习方法在检测过程中，通常使用特定的样本对机器学习模型进行训练，使得机器学习模型具有检测访问数据是否异常的能力。然而，训练过程使用的样本通常是固定的，训练获得的模型也仅能对特定模式的访问数据具有较好的检测效果，而模型难以适应随时间不断更新变化的访问数据。如果不断使用新数据样本训练机器学习模型，则需要不断通过人工对访问数据进行标注，从而不断训练，造成工作量巨大。

公开于本申请背景技术部分的信息仅旨在加深对本申请的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本发明提出了一种基于变分自编码模型的网络异常入侵检测方法和系统。能够使机器学习模型适应随时间不断更新变化的访问数据，且不需要人工标注，减少工作量。

根据本发明的一方面，提供了一种基于变分自编码模型的网络异常入侵检测方法，包括：

在接收到网络访问数据的情况下，通过变分自编码模型对网络访问数据进行处理，获得所述网络访问数据的变分分布特征信息，所述变分分布特征信息为所述变分自编码模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息；

通过网络访问数据分类模型对所述网络访问数据进行处理，获得所述网络访问数据的分类特征信息，所述分类特征信息为网络访问数据分类模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息；

获取历史访问数据库中，与各类型的历史访问数据的概率分布信息对应的中心分布信息；

根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息，确定所述网络访问数据所属的目标类型，以及所述目标类型的目标中心分布信息；

根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息，确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练；

在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下，根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息，确定所述变分自编码模型和所述网络访问数据分类模型的损失函数；

根据所述损失函数，对变分自编码模型和网络访问数据分类模型进行训练，获得训练后的变分自编码模型和网络访问数据分类模型；

通过训练后的变分自编码模型和网络访问数据分类模型，确定所述网络访问数据所属的类型。

在一种可能的实现方式中，根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息，确定所述网络访问数据所属的目标类型，以及所述目标类型的目标中心分布信息，包括：

确定所述变分分布特征信息与各个类型的中心分布信息之间的第一特征距离，以及所述分类特征信息与各个类型的中心分布信息之间的第二特征距离；

根据所述第一特征距离，确定所述变分分布特征信息所属的第一类型，以及根据所述第二特征距离，确定所述分类特征信息所属的第二类型；

在所述第一类型和所述第二类型为相同类型的情况下，将所述第一类型确定为所述目标类型，并将目标类型的中心分布信息确定为所述目标中心分布信息。

在一种可能的实现方式中，根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息，确定所述网络访问数据所属的目标类型，以及所述目标类型的目标中心分布信息，还包括：

在所述第一类型和所述第二类型为不同类型的情况下，确定与所述第一类型的中心分布信息的特征距离小于或等于第一中心特征距离的范围内的概率分布信息对应的第一历史访问数据，所述第一中心特征距离为所述变分分布特征信息与第一类型的中心分布信息之间的特征距离；

通过所述变分自编码模型对所述第一历史访问数据进行处理，获得各个第一历史访问数据所属的第三类型；

通过所述网络访问数据分类模型对所述第一历史访问数据进行处理，获得各个第一历史访问数据所属的第四类型；

确定与所述第二类型的中心分布信息的特征距离小于或等于第二中心特征距离的范围内的概率分布信息对应的第二历史访问数据，所述第二中心特征距离为所述分类特征信息与所述第二类型的中心分布信息之间的特征距离；

通过所述变分自编码模型对所述第二历史访问数据进行处理，获得各个第二历史访问数据所属的第五类型；

通过所述网络访问数据分类模型对所述第二历史访问数据进行处理，获得各个第二历史访问数据所属的第六类型；

根据所述第三类型、所述第四类型、所述第五类型和所述第六类型，统计所述变分自编码模型和所述网络访问数据分类模型的错误率；

将错误率较低者获得的网络访问数据所属的类型确定为所述目标类型，并将目标类型的中心分布信息确定为所述目标中心分布信息。

在一种可能的实现方式中，根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息，确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练，包括：

确定所述变分分布特征信息与所述目标中心分布信息之间的第三特征距离，以及所述分类特征信息与所述目标中心分布信息之间的第四特征距离；

将所述变分分布特征信息和所述分类特征信息加入所述目标类型，并重新确定目标类型的中心分布信息，获得第一中心分布信息；

确定所述变分分布特征信息与所述第一中心分布信息之间的第五特征距离，以及所述分类特征信息与所述第一中心分布信息之间的第六特征距离；

确定所述目标中心分布信息与所述第一中心分布信息之间的中心位移特征距离；

根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离，确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练。

在一种可能的实现方式中，根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离，确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练，包括：

根据公式

，确定训练需求度评分D，其中，/>

为第三特征距离，/>

为第四特征距离，/>

为目标类型加入变分分布特征信息和分类特征信息之前，各概率分布信息与目标中心分布信息之间的平均特征距离，

为第五特征距离，/>

为第六特征距离，/>

为目标类型加入变分分布特征信息和分类特征信息之后，各概率分布信息和变分分布特征信息和分类特征信息，与第一中心分布信息之间的平均特征距离，/>

为所述中心位移特征距离，/>

为变分分布特征信息，/>

为分类特征信息之前，/>

、/>

、/>

、/>

为预设权重；

在所述训练需求度评分大于或等于预设评分阈值的情况下，确定所述变分自编码模型和所述网络访问数据分类模型需要训练。

在一种可能的实现方式中，在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下，根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息，确定所述变分自编码模型和所述网络访问数据分类模型的损失函数，包括：

确定所述第三特征距离与所述第四特征距离中的较大值；

确定与所述目标中心分布信息的特征距离小于或等于所述较大值的范围内的概率分布信息对应的第三历史访问数据；

通过所述变分自编码模型对所述第三历史访问数据进行处理，获得各第三历史访问数据的第一预测特征信息；

通过所述网络访问数据分类模型对所述第三历史访问数据进行处理，获得各第三历史访问数据的第二预测特征信息；

根据公式

确定所述损失函数L，其中，

为第i个第三历史访问数据的第一预测特征信息，

为第i个第三历史访问数据的第二预测特征信息，n为所述第三历史访问数据的总数，i为小于或等于n的正整数，/>

为目标中心分布信息，/>

为将第i个第三历史访问数据的第一预测特征信息和第二预测特征信息加入目标类型后重新确定的第二中心分布特征，/>

为基于/>

获得的第i个第三历史访问数据属于目标类别的概率，/>

为基于/>

获得的第i个第三历史访问数据属于目标类别的概率，/>

为基于/>

获得的目标中心分布信息属于目标类别的概率，/>

、/>

、/>

、/>

、/>

、/>

、/>

为预设权重，/>

、/>

、/>

、/>

、/>

为预设参数。

在一种可能的实现方式中，所述方法还包括：

通过训练后的变分自编码模型，获得所述网络访问数据的第一概率分布信息；

通过训练后的网络访问数据分类模型，获得所述网络访问数据的第二概率分布信息；

根据所述第一概率分布信息和第二概率分布信息确定为所述网络访问数据的概率分布信息；

将所述网络访问数据作为历史访问数据，并将所述网络访问数据的概率分布信息作为历史访问数据的概率分布信息，加入历史访问数据库。

根据本发明的一方面，提供了一种基于变分自编码模型的网络异常入侵检测系统，包括：

第一处理模块，用于在接收到网络访问数据的情况下，通过变分自编码模型对网络访问数据进行处理，获得所述网络访问数据的变分分布特征信息，所述变分分布特征信息为所述变分自编码模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息；

第二处理模块，用于通过网络访问数据分类模型对所述网络访问数据进行处理，获得所述网络访问数据的分类特征信息，所述分类特征信息为网络访问数据分类模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息；

中心分布信息获取模块，用于获取历史访问数据库中，与各类型的历史访问数据的概率分布信息对应的中心分布信息；

目标类型确定模块，用于根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息，确定所述网络访问数据所属的目标类型，以及所述目标类型的目标中心分布信息；

训练需求确定模块，用于根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息，确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练；

损失函数模块，用于在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下，根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息，确定所述变分自编码模型和所述网络访问数据分类模型的损失函数；

训练模块，拥有根据所述损失函数，对变分自编码模型和网络访问数据分类模型进行训练，获得训练后的变分自编码模型和网络访问数据分类模型；

分类模块，用于通过训练后的变分自编码模型和网络访问数据分类模型，确定所述网络访问数据所属的类型。

在一种可能的实现方式中，所述目标类型确定模块进一步用于：

在一种可能的实现方式中，所述目标类型确定模块还用于：

在一种可能的实现方式中，所述训练需求确定模块进一步用于：

根据公式

，确定训练需求度评分D，其中，/>

为第三特征距离，/>

为第四特征距离，/>

为第五特征距离，/>

为第六特征距离，/>

为所述中心位移特征距离，/>

为变分分布特征信息，/>

为分类特征信息之前，/>

、/>

、/>

、/>

为预设权重；

在一种可能的实现方式中，所述损失函数模块进一步用于：

确定所述第三特征距离与所述第四特征距离中的较大值；

根据公式

确定所述损失函数L，其中，

为第i个第三历史访问数据的第一预测特征信息，

为目标中心分布信息，/>

为基于/>

获得的第i个第三历史访问数据属于目标类别的概率，/>

为基于/>

获得的第i个第三历史访问数据属于目标类别的概率，/>

为基于/>

获得的目标中心分布信息属于目标类别的概率，/>

、/>

、/>

、/>

、/>

、/>

、/>

为预设权重，/>

、/>

、/>

、/>

、/>

为预设参数。

在一种可能的实现方式中，所述装置还包括入库模块，用于：

根据本发明的一方面，提供了一种基于变分自编码模型的网络异常入侵检测设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

根据本发明的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

根据本发明的实施例的基于变分自编码模型的网络异常入侵检测方法，能够通过变分自编码模型和网络访问数据分类模型共同确定网络访问数据所属的类型。如果两个模型确定的分类结果存在差异，则可确定两种模型中正确率较高者，并可将正确率较高的模型确定的分类结果确定为目标类型，并且，在确定两种模型的正确率时，可采用两种模型确定出的类型中选取的历史访问数据作为测试样本，使统计结果更具普遍性和无偏性，提升统计结果的准确性，进而提升选择正确率较高的模型的选取准确性。在两种模型需要更新训练时，可通过历史访问数据和网络访问数据共同对变分自编码模型和网络访问数据进行训练和更新，在更新时无需人工标注，大幅节省工作量，在更新训练过程中可使变分自编码模型和网络访问数据分类模型获得的分类结果的一致性更高，分类结果的确定性更高，并可提高两个模型的分类准确率，并且，可使变分自编码模型和网络访问数据分类模型不断更新，以更好地适应不断变化的网络访问数据。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本发明。根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将更清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例，

图1示出根据本发明实施例的基于变分自编码模型的网络异常入侵检测方法的流程图；

图2示出根据本发明实施例的基于变分自编码模型的网络异常入侵检测系统的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1示出根据本发明实施例的基于变分自编码模型的网络异常入侵检测方法的流程图，如图1所示，所述方法可包括：

步骤S11，在接收到网络访问数据的情况下，通过变分自编码模型对网络访问数据进行处理，获得所述网络访问数据的变分分布特征信息，所述变分分布特征信息为所述变分自编码模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息；

步骤S12，通过网络访问数据分类模型对所述网络访问数据进行处理，获得所述网络访问数据的分类特征信息，所述分类特征信息为网络访问数据分类模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息；

步骤S13，获取历史访问数据库中，与各类型的历史访问数据的概率分布信息对应的中心分布信息；

步骤S14，根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息，确定所述网络访问数据所属的目标类型，以及所述目标类型的目标中心分布信息；

步骤S15，根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息，确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练；

步骤S16，在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下，根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息，确定所述变分自编码模型和所述网络访问数据分类模型的损失函数；

步骤S17，根据所述损失函数，对变分自编码模型和网络访问数据分类模型进行训练，获得训练后的变分自编码模型和网络访问数据分类模型；

步骤S18，通过训练后的变分自编码模型和网络访问数据分类模型，确定所述网络访问数据所属的类型。

根据本发明的实施例的基于变分自编码模型的网络异常入侵检测方法，能够通过变分自编码模型和网络访问数据分类模型共同确定网络访问数据所属的类型，且可通过历史访问数据和网络访问数据共同对变分自编码模型和网络访问数据进行训练和更新，在更新时无需人工标注，大幅节省工作量，并且可使变分自编码模型和网络访问数据分类模型不断更新，以更好地适应不断变化的网络访问数据。

在一种可能的实现方式中，在步骤S11中，变分自编码模型可以是能够直接处理概率分布形式的信息的神经网络模型，在接收到网络访问数据的情况下，可对网络访问数据进行处理，可直接获得的变分分布特征信息，所述变分分布特征信息为概率分布信息，可用于表示网络访问数据属于各个类型（例如，网络访问数据属于正常访问数据还是异常入侵数据，以及属于何种类型的异常入侵数据）的概率分布信息。

在一种可能的实现方式中，在步骤S12中，为了提升对网络访问数据的检测准确率，可使用网络访问数据分类模型对网络访问数据进行处理，获得分类特征信息。所述网络访问数据分类模型为处理向量型数据、矩阵型数据或张量型数据的神经网络模型，可获取网络访问数据的特征信息，该特征信息为上述向量型数据、矩阵型数据或张量型数据，并非直接获得概率分布信息。可对网络访问数据的特征信息进行映射或解码等处理，获得概率分布信息形式的分类特征信息，可用于表示网络访问数据属于各个类型的概率分布信息。

在一种可能的实现方式中，通过能够直接处理概率分布信息的变分自编码模型，以及能够处理向量型数据、矩阵型数据或张量型数据的网络访问数据分类模型，分别获得变分分布特征信息和分类特征信息，两种信息均为表示网络访问数据所属类别的概率分布信息，即，通过两种处理不同数据类型的神经网络模型分别获取概率分布信息，从而可基于两种模型的计算结果相互验证，提升概率分布信息的可靠性和准确性。

在一种可能的实现方式中，以上两种模型获得的概率分布信息未必一致，可在后续处理中，基于以上获得的概率分布信息以及不断更新的历史访问数据库来判断以上两种模型是否需要训练更新，如果不需要训练更新，则可基于以上获得的两种概率分布信息来确定网络访问数据所属的类型，如果需要训练更新，则可在两种模型训练更新后，再次获取概率分布信息，从而基于再次获取的概率分布信息来确定网络访问数据所属的类型。

在一种可能的实现方式中，在步骤S13中，可确定历史访问数据库中各个历史访问数据的概率分布信息，并确定各类型的历史访问数据的中心分布信息。在示例中，上述网络访问数据分类模型和变分自编码模型在过去接收到历史访问数据时，已获得历史访问数据的概率分布信息，并已确定历史访问数据的类型，可确定每个类型的概率分布信息的中心分布信息，例如，可对每个类型的概率分布信息进行加权平均，从而获得每个类型的中心分布信息。

在一种可能的实现方式中，在步骤S14中，可基于当前获得的网络访问数据的变分分布特征信息和分类特征信息，与各类型的中心分布信息进行对比，从而确定网络访问数据所述的目标类型，以及目标类型的目标中心分布信息。

在一种可能的实现方式中，步骤S14可包括：确定所述变分分布特征信息与各个类型的中心分布信息之间的第一特征距离，以及所述分类特征信息与各个类型的中心分布信息之间的第二特征距离；根据所述第一特征距离，确定所述变分分布特征信息所属的第一类型，以及根据所述第二特征距离，确定所述分类特征信息所属的第二类型；在所述第一类型和所述第二类型为相同类型的情况下，将所述第一类型确定为所述目标类型，并将目标类型的中心分布信息确定为所述目标中心分布信息。

在一种可能的实现方式中，变分分布特征信息、分类特征信息和中心分布信息均为概率分布形式的信息，例如，通过向量中的各个元素来表示概率分布的概率分布信息，在示例中，变分分布特征信息、分类特征信息和中心分布信息为维度相同的向量。所述第一特征距离和所述第二特征距离可以是欧氏距离，本发明对距离的类型不做限制。进一步地，可确定与变分分布特征信息的第一特征距离最小的中心分布信息，该中心分布信息对应的类型即为变分分布特征信息所属的第一类型，并可确定与分类特征信息的第二特征距离最小的中心分布信息，该中心分布信息对应的类型即为分类特征信息所属的第二类型。在示例中，在确定变分分布特征信息所属的第一类型和分类特征信息所属的第二类型时，也可使用相似度来确定，例如，计算与变分分布特征信息的余弦相似度最高的中心分布信息，该中心分布信息对应的类型即为变分分布特征信息所属的第一类型，并计算与分类特征信息的余弦相似度最高的中心分布信息，该中心分布信息对应的类型即为分类特征信息所属的第二类型。

在一种可能的实现方式中，如果第一类型和第二类型为相同类型，即，通过变分自编码模型和网络访问数据分类模型进行分类的结果相同，则可将该分类结果作为所述网络访问数据所属的目标类型，目标类型的中心分布信息即为目标中心分布信息。

在一种可能的实现方式中，也可能存在变分自编码模型和网络访问数据分类模型的分类结果不相同的情况，在这种情况下，可确定变分自编码模型和网络访问数据分类模型的分类正确率，正确率较高可表示其性能较好，则可以正确率较高的模型的分类结果作为目标类型，进而将目标类型的中心分布信息确定为目标中心分布信息。

在一种可能的实现方式中，步骤S14还包括：在所述第一类型和所述第二类型为不同类型的情况下，确定与所述第一类型的中心分布信息的特征距离小于或等于第一中心特征距离的范围内的概率分布信息对应的第一历史访问数据，所述第一中心特征距离为所述变分分布特征信息与第一类型的中心分布信息之间的特征距离；通过所述变分自编码模型对所述第一历史访问数据进行处理，获得各个第一历史访问数据所属的第三类型；通过所述网络访问数据分类模型对所述第一历史访问数据进行处理，获得各个第一历史访问数据所属的第四类型；确定与所述第二类型的中心分布信息的特征距离小于或等于第二中心特征距离的范围内的概率分布信息对应的第二历史访问数据，所述第二中心特征距离为所述分类特征信息与所述第二类型的中心分布信息之间的特征距离；通过所述变分自编码模型对所述第二历史访问数据进行处理，获得各个第二历史访问数据所属的第五类型；通过所述网络访问数据分类模型对所述第二历史访问数据进行处理，获得各个第二历史访问数据所属的第六类型；根据所述第三类型、所述第四类型、所述第五类型和所述第六类型，统计所述变分自编码模型和所述网络访问数据分类模型的错误率；将错误率较低者获得的网络访问数据所属的类型确定为所述目标类型，并将目标类型的中心分布信息确定为所述目标中心分布信息。

在一种可能的实现方式中，可确定进行两个模型的正确率测试的样本。变分分布特征信息与第一类型的中心分布信息的特征距离为第一中心特征距离，此外，还可能存在与第一类型的中心分布信息的特征距离小于或等于第一中心特征距离的第一历史访问数据的概率分布信息，这些概率分布信息可能是基于历史上其他时刻的变分自编码模型和网络访问数据分类模型获得的，后经过一系列的训练后，当前的变分自编码模型和网络访问数据分类模型再次处理第一历史访问数据获得的概率分布信息与历史访问数据库中的概率分布信息未必相同，可能存在与历史访问数据库中的概率分布信息的分类不同的情况，因此，可通过变分自编码模型对第一历史访问数据进行处理，通过处理后获得的概率分布信息与各个中心分布信息进行比较，重新确定第一历史访问数据所属的第三类型，类似地，通过网络访问数据分类模型对第一历史访问数据进行处理，重新确定第一历史访问数据所属的第四类型。

在一种可能的实现方式中，为了使统计结果更具普遍性，除了以上在第一类型的历史访问数据中确定出第一历史访问数据作为正确率测试的样本外，还可在第二类型的历史访问数据中确定出第二历史访问数据作为正确率测试的样本。分类特征信息与第二类型的中心分布信息之间的特征距离为第二中心特征距离，还可能存在与第二类型的中心分布信息的特征距离小于或等于第二中心特征距离的第二历史访问数据的概率分布信息，可通过变分自编码模型对第二历史访问数据进行处理，重新确定第二历史访问数据的所属的第五类型，并可通过网络访问数据分类模型对第二历史访问数据进行处理，重新确定第二历史访问数据的所属的第六类型。

在一种可能的实现方式中，可基于变分自编码模型确定的第三类型和第五类型，以及网络访问数据分类模型第四类型和第六类型，确定变分自编码模型和网络访问数据分类模型的错误率。例如，可确定各个第一历史访问数据所属的第三类型是否为第一类型，如果不是，则可认为变分自编码模型分类错误；可确定各个第二历史访问数据所属的第五类型是否为第二类型，如果不是，则可认为变分自编码模型分类错误；可确定各个第一历史访问数据所属的第四类型是否为第一类型，如果不是，则可认为网络访问数据分类模型分类错误；可确定各个第二历史访问数据所属的第六类型是否为第二类型，如果不是，则可认为网络访问数据分类模型分类错误。

在一种可能的实现方式中，在获得统计结果后，可确定变分自编码模型和网络访问数据分类模型的错误率，并可将错误率较低者获得的网络访问数据所属的类型确定为目标类型，即，如果变分自编码模型的错误率较低，则可将第一类型确定为目标类型，如果网络访问数据分类模型的错误率较低，则可将第二类型确定为目标类型。进而可将目标类型的中心分布信息确定为目标中心分布信息。

通过这种方式，可在两种模型的分类结果出现差异时，确定两种模型中正确率较高者，并可将正确率较高的模型确定的分类结果确定为目标类型，并且，在确定两种模型的正确率时，可采用两种模型确定出的类型中选取的历史访问数据作为测试样本，使统计结果更具普遍性和无偏性，提升统计结果的准确性，进而提升选择正确率较高的模型的选取准确性。

在一种可能的实现方式中，在步骤S15中，可确定上述两种模型是否需要训练，如果需要训练，则可对上述两种模型进行训练，以更新模型的参数，适应时刻变化的网络访问数据，并通过训练后的模型来重新确定网络访问数据所属的类型。如果不需要训练，则可直接使用当前模型确定的网络访问数据的类型，例如，可直接将上述目标类型作为网络访问数据的最终的分类结果，即，网络访问数据所属的类型。

在一种可能的实现方式中，在确定是否需要训练时，如果两种模型获得的上述分类结果不同，即，第一类型和第二类型不同，则可直接确定两种模型需要训练。

在一种可能的实现方式中，除上述方法判断是否需要训练外，还可通过以下步骤确定两种模型是否需要训练，步骤S15可包括：确定所述变分分布特征信息与所述目标中心分布信息之间的第三特征距离，以及所述分类特征信息与所述目标中心分布信息之间的第四特征距离；将所述变分分布特征信息和所述分类特征信息加入所述目标类型，并重新确定目标类型的中心分布信息，获得第一中心分布信息；确定所述变分分布特征信息与所述第一中心分布信息之间的第五特征距离，以及所述分类特征信息与所述第一中心分布信息之间的第六特征距离；确定所述目标中心分布信息与所述第一中心分布信息之间的中心位移特征距离；根据所述第三特征距离、所述第四特征距离、所述第五特征距离、所述第六特征距离和所述中心位移特征距离，确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练。

在一种可能的实现方式中，第三特征距离和第四特征距离的也可以是欧氏距离，当然也可以是其他类型的距离，本发明对此不作限制。

在一种可能的实现方式中，目标中心分布信息是基于历史访问数据的概率分布信息确定的，未加入变分分布特征信息和分类特征信息，如果加入变分分布特征信息和分类特征信息，可能会对目标类型的目标中心分布信息产生位移，例如，在将目标类型的历史访问数据的概率分布信息加入变分分布特征信息和分类特征信息之后，再进行平均处理，获得的第一中心分布信息可能与原本的目标中心分布信息之间存在差异。在获得第一中心分布信息后，可基于第一中心分布信息求解第五特征距离和第六特征距离，第五特征距离和第六特征距离也可以是欧式距离，本发明对此不做限制。进一步地，还可确定在加入变分分布特征信息和分类特征信息之后，目标类别的中心分布信息偏移的特征距离，即，目标中心分布信息与第一中心分布信息之间的中心位移特征距离。

在一种可能的实现方式中，在获得第三特征距离、第四特征距离、第五特征距离、第六特征距离和中心位移特征距离之后，可基于这几个特征距离来确定两种模型是否需要进行训练更新。

根据公式（1），确定训练需求度评分D：

（1）

其中，

为第三特征距离，/>

为第四特征距离，/>

为目标类型加入变分分布特征信息和分类特征信息之前，各概率分布信息与目标中心分布信息之间的平均特征距离，/>

为第五特征距离，/>

为第六特征距离，/>

为所述中心位移特征距离，/>

为变分分布特征信息，/>

为分类特征信息之前，/>

、/>

、/>

、/>

为预设权重；

在一种可能的实现方式中，第三特征距离和第四特征距离表示与目标中心分布信息之间的特征距离，也可表示与目标中心分布信息之间的接近程度，与目标中心分布信息越接近，则分类的确定性越高，公式（1）的第一项则可表示第三特征距离和第四特征距离的平均值，与加入变分分布特征信息和分类特征信息之前，各概率分布信息与目标中心分布信息之间的平均特征距离之比，即，两个模型进行分类的确定性与其他概率分布信息的平均确定性之间的比值，该比值越大，则表示两个模型相对于其他概率分布信息的分类确定性较低，反之，则表示两个模型相对于其他概率分布信息的分类确定性较高。

在一种可能的实现方式中，第五特征距离和第六特征距离表示与位移后的第一中心分布信息之间特征距离，也可表示相对于位移后的第一中心分布信息的接近程度，以及相对于位移后的第一中心分布信息进行分类的确定性，越接近第一中心分布信息，则表示分类的确定性越高，公式（1）的第二项可表示第五特征距离和第六特征距离的平均值，与加入变分分布特征信息和分类特征信息之后，各概率分布信息与目标中心分布信息之间的平均特征距离之比，即，两个模型进行分类的确定性与所有概率分布信息的平均确定性之间的比值，该比值越大，则表示两个模型相对所有概率分布信息的分类确定性较低，反之，则表示两个模型相对于所有概率分布信息的分类确定性较高。

在一种可能的实现方式中，公式（1）的第三项可表示位移特征距离与

和/>

的平均值之比，可表示目标类型的中心分布信息的位移相对于各概率分布信息与中心分布信息之间的平均距离之比，该比值越大，则表示在加入变分分布特征信息和分类特征信息之后，对于中心分布信息的影响越大，也可表示对于其他概率分布信息的分类准确性的影响越大（例如，由于中心分布信息的偏移，导致某些概率分布信息与偏移后的第一中心分布信息之间的特征距离，不再是与多个中心分布信息之间的特征距离中的最小值，则会导致分类出现错误，或者，可造成某些概率分布信息的分类确定性下降等）。

在一种可能的实现方式中，公式（1）的第四项可表示变分分布特征信息与分类特征信息之间的差距与

和/>

的平均值之比，即，所述差距相对于各概率分布信息与中心分布信息之间的平均距离之比，该比值越大，则两种模型获得的分类结果差异越大，两个模型之间的分歧越大，越难以准确确定分类结果。此外，如果两个模型得到的分类结果不同，即，第一类型和第二类型不同，也可表示是两个模型的分歧较大。

在一种可能的实现方式中，上述四项均为数值越大，则对于更新训练的需求度越高的项，可将上述三项进行加权求和，获得训练需求度评分D。并可在训练需求度评分大于或等于预设评分阈值的情况下，确定变分自编码模型和所述网络访问数据分类模型需要训练。在需要训练的情况下，则可进行后续训练过程，如果不需要训练，则表示当前的变分自编码模型和网络访问数据分类模型获得的分类结果准确，且对原目标中心分布信息和各概率分布信息的影响不大，可不更新模型，也可直接利用变分分布特征信息和分类特征信息获得网络访问数据的概率分布信息并加入历史访问数据库。

在一种可能的实现方式中，在步骤S16中，如果变分自编码模型和网络访问数据分类模型需要训练，可基于以上获得的变分分布特征信息、分类特征信息以及目标中心分布信息，求解变分自编码模型和网络访问数据分类模型的损失函数，并基于损失函数对变分自编码模型和网络访问数据分类模型进行训练。

在一种可能的实现方式中，步骤S16可包括：确定所述第三特征距离与所述第四特征距离中的较大值；确定与所述目标中心分布信息的特征距离小于或等于所述较大值的范围内的概率分布信息对应的第三历史访问数据；通过所述变分自编码模型对所述第三历史访问数据进行处理，获得各第三历史访问数据的第一预测特征信息；通过所述网络访问数据分类模型对所述第三历史访问数据进行处理，获得各第三历史访问数据的第二预测特征信息；

根据公式（2）确定所述损失函数L：

（2）

其中，

为第i个第三历史访问数据的第一预测特征信息，/>

为目标中心分布信息，/>

为基于/>

获得的第i个第三历史访问数据属于目标类别的概率，/>

为基于/>

获得的第i个第三历史访问数据属于目标类别的概率，/>

为基于/>

获得的目标中心分布信息属于目标类别的概率，/>

、/>

、

、/>

、/>

、/>

、/>

为预设权重，/>

、/>

、/>

、/>

、/>

为预设参数。

在一种可能的实现方式中，除了将变分分布特征信息和分类特征信息作为训练样本外，还可获取目标类别的其他训练样本，可选取与目标中心分布信息的特征距离小于或等于第三特征距离与第四特征距离中的较大值的范围内的概率分布信息对应的第三历史访问数据作为训练样本，并通过变分自编码模型获取第三历史访问数据的第一预测特征信息，第一预测特征信息为当前状态的变分自编码模型计算获得的，可能与历史数据库中的概率分布信息存在差异，类似地，可通过网络访问数据分类模型获取第三历史访问数据的第二预测特征信息，第二预测特征信息为当前状态的网络访问数据分类模型获得的，也可能与历史数据库中的概率分布信息存在差异。进一步地，变分分布特征信息属于第一预测特征信息的集合，分类特征信息属于第二预测特征信息的集合。

在一种可能的实现方式中，可基于公式（2）来求解损失函数L，其中，公式（2）的第一项用于使第i个第一预测特征信息和第i个第二预测特征信息的相似度升高，即，在训练过程中，第一项逐步减小，使得第i个第一预测特征信息和第i个第二预测特征信息的相似度逐步升高，从而使得两种模型对于相同的网络访问数据的分类结果的一致性更高。

在一种可能的实现方式中，公式（2）的第二项用于使第i个第一预测特征信息与目标中心分布信息的相似度升高，即，在训练过程中，第二项逐步减小，使得第i个第一预测特征信息和目标中心分布信息的相似度逐步升高，从而使得变分自编码模型获得的分类结果的确定性提升，也使得相同类别的概率分布信息的类内距离缩小，不同类别的概率分布信息的类间距离增大，有利于提升分类准确性和确定性。

在一种可能的实现方式中，公式（2）的第三项用于使第i个第二预测特征信息与目标中心分布信息的相似度升高，即，在训练过程中，第三项逐步减小，使得第i个第二预测特征信息和目标中心分布信息的相似度逐步升高，从而使得网络访问数据分类模型获得的分类结果的确定性提升，也使得相同类别的概率分布信息的类内距离缩小，不同类别的概率分布信息的类间距离增大，有利于提升分类准确性和确定性。

在一种可能的实现方式中，公式（2）的第四项中，

为将第i个第三历史访问数据的第一预测特征信息和第二预测特征信息加入目标类型后重新确定的第二中心分布特征，例如，在加入上述信息后，重新计算各个目标类别的概率分布信息的平均值获得的第二中心分布特征。第四项用于使第i个第一预测特征信息与第二中心分布特征的相似度升高，即，在训练过程中，第四项逐步减小，使得第i个第一预测特征信息和第二中心分布特征的相似度逐步升高，从而使得变分自编码模型获得的分类结果的确定性提升。

在一种可能的实现方式中，公式（2）的第五项用于使第i个第二预测特征信息与第二中心分布特征的相似度升高，即，在训练过程中，第五项逐步减小，使得第i个第二预测特征信息和第二中心分布特征的相似度逐步升高，从而使得网络访问数据分类模型获得的分类结果的确定性提升。

在一种可能的实现方式中，公式（2）的第六项用于缩小第i个第一预测特征信息的分类错误率，即，使得第i个第一预测特征信息属于目标类别的概率提高，其中，

可通过对/>

进行运算获得，例如，对/>

进行解码，/>

可通过对/>

进行运算获得，例如，对/>

进行解码，/>

可等于1，或接近1。

在一种可能的实现方式中，公式（2）的第七项用于缩小第i个第二预测特征信息的分类错误率，即，使得第i个第二预测特征信息属于目标类别的概率提高。其中，

可通过对/>

进行运算获得，例如，对/>

进行解码。

在一种可能的实现方式中，在步骤S17中，通过使用公式（2）作为损失函数，对变分自编码模型和网络访问数据分类模型进行训练，可使得变分自编码模型和网络访问数据分类模型获得的分类结果的一致性更高，且分类结果的确定性更高，并可提高两个模型的分类准确率。从而通过训练适应不断变化的网络访问数据。

在一种可能的实现方式中，在步骤S18中，可基于训练后的变分自编码模型和网络访问数据分类模型重新获取网络访问数据的概率分布信息，并基于重新获取的概率分布信息来确定网络访问数据否为异常入侵数据，如果是异常入侵数据，则确定网络访问数据所属的类型。上述步骤S11-S18可每隔特定时间段执行一次，即，每隔特定时间段判断变分自编码模型和网络访问数据分类模型是否需要更新训练，如果需要更新训练，则可按照上述方式进行更新训练，如果不需要更新训练，则可在后续的一个特定时间段内继续使用当前变分自编码模型和网络访问数据分类模型来确定网络访问数据所属的类型。

在一种可能的实现方式中，所述方法还包括：通过训练后的变分自编码模型，获得所述网络访问数据的第一概率分布信息；通过训练后的网络访问数据分类模型，获得所述网络访问数据的第二概率分布信息；根据所述第一概率分布信息和第二概率分布信息确定为所述网络访问数据的概率分布信息；将所述网络访问数据作为历史访问数据，并将所述网络访问数据的概率分布信息作为历史访问数据的概率分布信息，加入历史访问数据库。即，以上所述的通过训练后的变分自编码模型和网络访问数据分类模型重新获取网络访问数据的概率分布信息，即为获取所述第一概率分布信息和第二概率分布信息，并基于第一概率分布信息和第二概率分布信息获得网络访问数据的概率分布信息，例如，求解第一概率分布信息和第二概率分布信息的平均值，获得概率分布信息。从而可基于该概率分布信息来确定网络访问数据所属的类型，例如，确定与概率分布信息特征距离最近的中心分布特征，并将该中心分布特征对应的类型确定为网络访问数据所属的类型。进一步地，可将网络访问数据作为历史访问数据加入历史访问数据库，并将网络访问数据的概率分布信息作为历史访问数据的概率分布信息加入历史访问数据库，从而作为后续接收到新的网络访问数据时，判断新的网络访问数据所属类型的依据。

在测试过程中，使用3256个网络访问数据（其中，1081个网络访问数据为具有篡改数据等指令的异常入侵数据）分别进行两次测试。在第一次测试中，仅使用传统的异常入侵数据检测方式，即，仅使用一种模型来判断网络访问数据是否为异常入侵数据的过程中，该1081个异常入侵数据被检测到986个，检测成功率为91.2%。在第二次测试过程中，使用本发明的基于变分自编码模型的网络异常入侵检测方法，在检测每个网络访问数据的过程中，逐步建立历史访问数据库，并在检测过程中不断更新训练变分自编码模型和网络访问数据分类模型，以通过两种模型来检测各个网络访问数据是否为异常入侵数据，该1081个异常入侵数据被检测到1052个，检测成功率为97.3%。相对于传统的检测方式，检测成功率提高了6.1%，提升了网络安全性。

图2示出根据本发明实施例的基于变分自编码模型的网络异常入侵检测系统的框图，所述装置包括：

第一处理模块11，用于在接收到网络访问数据的情况下，通过变分自编码模型对网络访问数据进行处理，获得所述网络访问数据的变分分布特征信息，所述变分分布特征信息为所述变分自编码模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息；

第二处理模块12，用于通过网络访问数据分类模型对所述网络访问数据进行处理，获得所述网络访问数据的分类特征信息，所述分类特征信息为网络访问数据分类模型获得的用于表示所述网络访问数据是否为异常入侵数据的概率分布信息；

中心分布信息获取模块13，用于获取历史访问数据库中，与各类型的历史访问数据的概率分布信息对应的中心分布信息；

目标类型确定模块14，用于根据所述变分分布特征信息、所述分类特征信息以及各类型的中心分布信息，确定所述网络访问数据所属的目标类型，以及所述目标类型的目标中心分布信息；

训练需求确定模块15，用于根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息，确定所述变分自编码模型和所述网络访问数据分类模型是否需要训练；

损失函数模块16，用于在所述变分自编码模型和所述网络访问数据分类模型需要训练的情况下，根据所述变分分布特征信息、所述分类特征信息以及所述目标中心分布信息，确定所述变分自编码模型和所述网络访问数据分类模型的损失函数；

训练模块17，拥有根据所述损失函数，对变分自编码模型和网络访问数据分类模型进行训练，获得训练后的变分自编码模型和网络访问数据分类模型；

分类模块18，用于通过训练后的变分自编码模型和网络访问数据分类模型，确定所述网络访问数据所属的类型。

在一种可能的实现方式中，所述目标类型确定模块还用于：

根据公式

，确定训练需求度评分D，其中，/>

为第三特征距离，/>

为第四特征距离，/>

为第五特征距离，/>

为第六特征距离，/>

为所述中心位移特征距离，/>

为变分分布特征信息，/>

为分类特征信息之前，/>

、/>

、/>

、/>

为预设权重；

在一种可能的实现方式中，所述损失函数模块进一步用于：

确定所述第三特征距离与所述第四特征距离中的较大值；

根据公式

确定所述损失函数L，其中，

为第i个第三历史访问数据的第一预测特征信息，

为目标中心分布信息，/>

为基于/>

获得的第i个第三历史访问数据属于目标类别的概率，/>

为基于/>

获得的第i个第三历史访问数据属于目标类别的概率，/>

为基于/>

获得的目标中心分布信息属于目标类别的概率，/>

、/>

、/>

、/>

、/>

、/>

、/>

为预设权重，/>

、/>

、/>

、/>

、/>

为预设参数。

在一些实施例中，本发明实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本发明实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

本发明实施例还提出一种基于变分自编码模型的网络异常入侵检测设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

本发明实施例还提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现如上任一实施例提供的基于变分自编码模型的网络异常入侵检测方法的指令。

本发明实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的云应用管理方法的操作。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。