CN116827685B

CN116827685B - 基于深度强化学习的微服务系统动态防御策略方法

Info

Publication number: CN116827685B
Application number: CN202311083322.2A
Authority: CN
Inventors: 涂浩; 邓爽; 刘杰; 周阳
Original assignee: Chengdu Lechaoren Technology Co ltd
Current assignee: Chengdu Lechaoren Technology Co ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-14
Anticipated expiration: 2043-08-28
Also published as: CN116827685A

Abstract

本发明涉及人工智能技术，揭露了一种基于深度强化学习的微服务系统动态防御策略方法，包括：获取微服务系统的运行状态集合以及防御动作并分别转化为状态向量和动作向量；根据状态向量以及动作向量构建奖励函数；根据状态向量、动作向量和奖励函数构建深度强化学习模型；获取微服务系统的历史状态和历史动作情况并进行归一化和格式转换处理得到标准化数据；对标准化数据进行特征提取得到待训练数据；根据待训练数据利用Q‑学习算法对深度强化学习模型进行训练优化得到防御模型；将防御模型部署到微服务系统的实时监控和预测中，动态调整防御策略。本发明可以提高微服务系统动态防御的准确性。

Description

基于深度强化学习的微服务系统动态防御策略方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于深度强化学习的微服务系统动态防御策略方法。

背景技术

随着微服务系统的不断发展和普及，面临的安全威胁也变得更加复杂和多样化。传统的静态防御策略往往无法应对动态的攻击和威胁，需要一种更加灵活和智能的防御方法。

微服务系统的规模庞大，服务之间的关系错综复杂，传统的防御策略往往是静态的基于固定规则或预定义的策略，无法根据微服务器的具体情况调整出合理的防御策略。而基于深度强化学习的动态防御策略可以根据实时的环境和攻击情况，动态分析出不断变化的威胁，精确的识别和应对这些威胁，进而提高微服务系统动态防御的准确性。

发明内容

本发明提供一种基于深度强化学习的微服务系统动态防御策略方法，其主要目的在于提高微服务系统动态防御的准确性。

为实现上述目的，本发明提供的一种基于深度强化学习的微服务系统动态防御策略方法，包括：

获取微服务系统的运行状态集合以及防御动作，将所述运行状态集合和所述防御动作分别转化为状态向量和动作向量；

根据所述状态向量以及所述动作向量构建奖励函数；

根据所述状态向量、所述动作向量和所述奖励函数构建深度强化学习模型；

获取所述微服务系统的历史状态和历史动作情况，并对所述历史状态和所述历史动作进行归一化和格式转换处理得到标准化数据；

对所述标准化数据进行特征提取得到待训练数据；

根据所述待训练数据利用Q-学习算法对所述深度强化学习模型进行训练优化，得到防御模型；其中，所述Q-学习算法为：

其中，表示更新后的价值,/>表示在状态/>下执行动作/>所得到的价值，/>为预设常数，/>是执行动作/>后所获得的奖励值，/>是预设常数，/>表示得到的最大价值；

将所述防御模型部署到所述微服务系统的实时监控和预测中，动态调整防御策略。

可选地，所述将所述状态集合转化为状态向量，包括：

利用独热编码对所述状态集合中每个数据进行编码，得到状态编码；

根据所述状态编码以及所述状态集合构建状态向量。

可选地，所述根据所述状态向量以及所述动作向量构建奖励函数，包括：

将所述状态向量与动作向量进行排列组合，得到不同动作组；

根据所述不同动作组中的状态利用预设的奖励值进行配置得到奖励函数。

可选地，所述根据所述状态向量、所述动作向量和所述奖励函数构建深度强化学习模型，包括：

将所述状态向量和所述动作向量进行向量连接得到输入层；

根据所述状态向量和所述动作向量利用交叉验证法构建隐藏层；

根据预设的激活函数以及所述奖励函数构建价值函数；

将所述输入层、所述隐藏层以及所述价值函数进行组合得到深度强化学习模型。

可选地所述对所述历史状态和所述历史动作进行归一化和格式转换处理得到标准化数据，包括：

利用最小-最大规范化将所述历史状态和所述历史动作进行归一化，得到归一化数据；

利用逗号分隔值格式将所述历史状态和所述历史动作进行格式转换处理得到标准化数据。

可选地，所述对所述标准化数据进行特征提取得到待训练数据，包括：

利用预设的卷积神经网络提取所述标准化数据的待处理特征；

利用皮尔逊相关系数计算公式计算出所述待处理特征的相关性；

筛选出所述相关性大于预设阈值的待处理特征得到筛选特征；

对所述筛选特征利用数据扩充法进行数据增强得到待训练数据。

可选地，所述利用预设的卷积神经网络提取所述标准化数据的待处理特征，包括：

利用所述卷积神经网络内的卷积层对所述标准化数据进行卷积操作，得到局部特征；

根据所述局部特征合成卷积特征图；

利用所述卷积神经网络中的池化层对所述卷积特征图执行预设次数的下采样处理，得到特征表示图；

将所述特征表示图转化为向量形式，得到待处理特征。

可选的，所述根据所述待训练数据利用Q-学习算法对所述深度强化学习模型进行训练优化，得到防御模型，包括：

对所述模型中的价值函数进行初始化，得到初始化价值函数;

随机从状态集合中选择一个状态为当前状态，根据所述当前状态以及所述价值函数从预设的动作集合利用贪心算法选择出一个动作作为目标动作；

根据所述目标动作从所述待训练数据中得到对应的状态结果；

根据所述目标动作、所述状态结果利用所述奖励函数计算得到奖励值；

根据所述动作、所述状态结果以及所述奖励值利用Q-学习算法更新价值函数；

返回根据所述当前状态以及所述价值函数从预设的动作集合利用贪心算法选择出一个动作作为目标动作的步骤；

执行预设次数的上述步骤，得到防御模型。

可选的，所述根据所述当前状态以及所述价值函数从预设的动作集合利用贪心算法选择出一个动作作为目标动作，包括：

根据所述当前状态遍历每个动作集合中的动作；

利用价值函数计算出每个动作对应的价值；

根据所述动作对应的价值筛选出最大价值，并将所述最大价值对应的动作作为目标动作；其中，所述Q-学习算法为：

其中，表示更新后的价值,/>表示在状态/>下执行动作/>所得到的价值，/>为预设常数，/>是执行动作/>后所获得的奖励值，/>是预设常数，/>表示得到的最大价值。

本发明实施例通过将所述状态向量和所述动作向量进行向量连接得到输入层；根据所述状态向量和所述动作向量利用交叉验证法构建隐藏层；根据预设的激活函数以及所述奖励函数构建价值函数；将所述输入层、所述隐藏层以及所述价值函数进行组合得到深度强化学习模型，可以更全面地描述环境和智能体的交互，提供更准确的输入进而使得模型可以更全面地考虑状态和动作的信息，提高决策的质量和效果；对所述模型中的价值函数进行初始化，得到初始化价值函数;随机从状态集合中选择一个状态为当前状态，根据所述当前状态以及所述价值函数从预设的动作集合利用贪心算法选择出一个动作作为目标动作；根据所述目标动作从所述待训练数据中得到对应的状态结果；根据所述目标动作、所述状态结果利用所述奖励函数计算得到奖励值；根据所述动作、所述状态结果以及所述奖励值利用Q-学习算法更新价值函数；返回根据所述当前状态以及所述价值函数从所述动作集合利用贪心算法选择出一个动作作为目标动作的步骤；执行预设次数的上述步骤，得到防御模型，可以使模型逐渐学习到最优的策略和行为，提高决策的准确性进而提高微服务系统动态防御的准确性。因此本发明提出的基于深度强化学习的微服务系统动态防御策略方法及装置，可以提高微服务系统动态防御的准确性。

附图说明

图1为本发明一实施例提供的基于深度强化学习的微服务系统动态防御策略方法的流程示意图；

图2为本发明一实施例提供的建深度强化学习模型的流程示意图；

图3为本发明一实施例提供的对标准化数据进行特征提取的流程示意图；

图4为本发明一实施例提供的基于深度强化学习的微服务系统动态防御策略装置的功能模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种基于深度强化学习的微服务系统动态防御策略方法。所述基于深度强化学习的微服务系统动态防御策略方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述基于深度强化学习的微服务系统动态防御策略方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参照图1所示，为本发明一实施例提供的基于深度强化学习的微服务系统动态防御策略方法的流程示意图。在本实施例中，所述基于深度强化学习的微服务系统动态防御策略方法包括：

S1、获取微服务系统的运行状态集合以及防御动作，将所述运行状态集合和所述防御动作分别转化为状态向量和动作向量。

本发明其中一个实际应用场景中，所述将所述状态集合和所述防御动作分别转化为状态向量和动作向量可以使得构建出的向量直接输入至后续的模型中，便于模型的处理。

详细的，可以利用独热编码或者词向量法将状态集合转化为状态向量。

具体的，当利用独热编码的方式将状态集合转化为状态向量时，由于独热编码是对每个词语进行编号，再根据所述编号进行向量转化，因此得到的向量的精准度更高。

具体的，当利用词向量法将状态集合转化为状态向量时，由于词向量法是根据词的语义意思，将状态集合转化为状态向量的，因此得到的向量的可靠性更高。

本发明实例中，所述将所述状态集合转化为状态向量，包括：

根据所述状态编码以及所述状态集合构建状态向量。

例如，现有一个状态集合{受到攻击状态，被入侵状态，安全状态}，现利用独热编码将所述状态集合进行编码，即受到攻击状态为0，被入侵状态为1，安全状态为2，根据所述状态集合构建状态集合向量即[0，1，2]。

详细的，所述将所述动作集合转化为动作向量的步骤与将所述状态集合转化为状态向量的步骤一致，在此不作赘述。

本发明实例中，所述将所述状态集合和所述防御动作分别转化为状态向量和动作向量的好处在于进行统一编码使得编码长度一致方便后续的模型输入以及计算。

S2、根据所述状态向量以及所述动作向量构建奖励函数。

本发明其中一个实际应用场景中，所述根据所述状态向量以及所述动作向量构建奖励函数通过构建奖励函数鼓励采取正确的行动，同时惩罚错误的行动。

详细的，可以利用稀疏奖励或是稠密奖励函数来构建奖励函数。

具体的，当利用稀疏奖励来构建奖励函数时，由于稀疏奖励是只有达到某个状态时，才给予奖励，因此得到的奖励函数更准确，后续构建函数的准确性更高。

具体的，当利用稠密奖励函数来构建奖励函数时，由于稠密奖励是每个状态都给与奖励，使得后续模型构建的可靠性与效率更高。

本发明实例中，所述根据所述状态向量以及所述动作向量构建奖励函数，包括：

根据所述不同动作组利用预设的奖励值进行配置得到奖励函数。

例如，现有状态向量[0,1,2],分别表示受到攻击状态，被入侵状态，安全状态，现有动作向量[a,b],分别表示增加防御，减少防御，将状态向量与动作向量进行排列组合如：1组合：攻击状态、增加防御、安全状态；2组合：攻击状态、增加防御、攻击状态；3组合：攻击状态、增加防御、被入侵状态等；对每个组合设置一个奖励值，其中达到安全状态的奖励值为正，其他状态的奖励值为负；则获得一个奖励函数y>0达到安全状态时或者y<0没有达到安全状态。

本发明实例中，所述根据所述状态向量以及所述动作向量构建奖励函数，可以对后续建模中的智能体进行指导，帮助判断每一步的正确与错误。

S3、根据所述状态向量、所述动作向量和所述奖励函数构建深度强化学习模型。

本发明其中一个实际应用场景中，所述根据所述状态向量、所述动作向量和所述奖励函数构建深度强化学习模型通过构建强化学习模型使的可以微服务器自主生成动态防御的策略，实现动态防御。

本发明实例中，所述根据所述状态向量、所述动作向量和所述奖励函数构建深度强化学习模型，包括：

S21、将所述状态向量和所述动作向量进行向量连接得到输入层；

S22、根据所述状态向量和所述动作向量利用交叉验证法构建隐藏层；

S23、根据预设的激活函数以及所述奖励函数构建价值函数；

S24、将所述输入层、所述隐藏层以及所述价值函数进行组合得到深度强化学习模型。

详细的，可以利用交叉验证法或是经验法则来确定隐藏层。

具体的，当利用交叉验证法来确定隐藏层的时，由于交叉验证法可以提供更精准的估计能力，因此，得到结果的精准度更高。

具体的，当利用经验法则来确定隐藏层时，由于经验法则的是根据已有经验直接估计的，因此得到结果的效率更高。

详细的，所述预设的激活函数可以为整流线性单元函数或者S型函数。

具体的，当利用整流线性单元函数的时候，由于整流线性单元函数能够引入非线性关系，进而使得模型可以处理更复杂的问题，因此利用整流线性单元函数得到的模型结果的可靠性更高。

具体的，当利用S型函数的时候，由于S型函数的计算简单，因此得到结果的效率更高。

例如，状态向量为[1,2,3]动作向量为[a,b]将状态向量和动作向量连接起来，得到输入层向量为[1,2,3,a,b]；根据交叉验证的方法，将数据划分为训练集和验证集，根据所述训练集逐个尝试不同大小的隐藏层得到结果，并用验证集验证结果，并记录出不同大小的隐藏层下的结果表现，选取表现结果最符合验证集对应的隐藏层大小作为最终隐藏层，通过将输入层的向量传递到隐藏层在使用所述整流线性单元函数计算出隐藏层的输出，根据所述输出结果利用所述奖励函数计算得到价值函数；将输入层、隐藏层和所述价值函数进行组合，得到深度强化学习模型。

详细的，所述根据所述状态向量、所述动作向量和所述奖励函数构建深度强化学习模型的好处在于通过构建深度强化学习模型，可以带来自适应性、灵活性和处理复杂问题的能力，进而在不同的环境和任务中表现出良好的性能。

S4、获取所述微服务系统的历史状态和历史动作情况，并对所述历史状态和所述历史动作进行归一化和格式转换处理得到标准化数据。

本发明其中一个实际应用场景中，所述对所述历史状态和所述历史动作进行归一化和格式转换处理得到标准化数据的目的在于对将不同的量纲数据进行进行统一化的处理，提高后续的模型训练的效率以及可靠性。

详细的，可以利用最小-最大规范化或是Z值标准化的方法来实现归一化处理。

具体的，当利用最小-最大规范化实现归一化处理时，由于最小-最大规范化可以保留原始数据的分布特征，因此得到结果的可靠性更高。

具体的，当利用Z值标准化实现归一化处理时，由于Z值标准化是根据原始数据的均值和标准差进行数据的标准化，因此得到结果的效率更高。

详细的，可以利用逗号分隔值格式或者对象标记格式进行格式转化；一方面，当利用逗号分隔值格式进行格式转化时，将数据转化为逗号分隔的文本格式，使得文本格式更加简洁，可以使得后续的模型写入效率更高；另一方面，当利用对象标记格式进行格式转化时，将数据用键值对的方式存储数据，使得结果与模型交互的效率更高，进而使得模型训练的效率更高。

本发明实例中，所述对所述历史状态和所述历史动作进行归一化和格式转换处理得到标准化数据，包括：

例如，现已获取了所述历史状态，根据所述历史状态利用最小-最大规范化处理，将数据缩放到0和1的范围，得到归一化数据，将所述归一化数据转换为每一行代表一个样本的文本格式得到标准卷数据；其中所述最小-最大规范化处理公式为：

其中，x为原始数据，min和max分别为数据的最小值和最大值，为归一化后的数据。

详细的，所述对所述历史状态和所述历史动作进行归一化和格式转换处理得到标准化数据可以去除数据的量纲和数据大小的差异确保数据是在同一量纲下进行操作的，加快模型训练的过程。

S5、对所述标准化数据进行特征提取得到待训练数据。

本发明的其中一个应用场景中，所述对所述标准化数据进行特征提取得到待训练数据的好处在于可以使得标准化数据转化为具有代表性的特征向量。

详细的，可以利用卷积神经网络或是自编码器来进行特征提取。

具体的，当利用卷积神经网络来进行特征提取时，由于卷积神经网络利用多层卷积的方式逐层提取特征，因此得到结果的精准度更高。

具体的，当利用自编码器来进行特征提取的时候，由于自编码器可以从为标记的数据中自动学习特征表示，因此得到结果的效率更高。

详细的，可以利用相关系数分析或者卡方检验法来进行特征选择。

具体的，当利用相关数据分析来进行特征选择的时候，由于相关系数分析可以计算出特征之间的相关关系，因此得到的结果的特征可靠性更高。

具体的，当利用卡方检验来进行特征选择的时候，由于卡方检验法是基于特征的频数分数进而筛选出特征，因此得到结果的精准度更高。

参见图3，本发明实例中，所述对所述标准化数据进行特征提取得到待训练数据，包括：

S31、利用预设的卷积神经网络提取所述标准化数据的待处理特征；

S32、利用皮尔逊相关系数计算公式计算出所述待处理特征的相关性；

S33、筛选出所述相关性大于预设阈值的待处理特征得到筛选特征；

S34、对所述筛选特征利用数据扩充法进行数据增强得到待训练数据。

详细的，可以利用噪声添加法或者数据扩充法来进行数据增强。

具体的，当利用噪声添加法来进行数据增强的时候，可以增强数据的多样性，使得模型可以更好的应对噪声环境下的任务，进而提高模型的精准度。

具体的，当利用数据扩充法来进行数据增强的时候，由于可以扩充数据集的规模，提供更多的训练样本，进而提高模型可靠性。

详细的，本发明实例中，所述利用预设的卷积神经网络提取所述标准化数据的待处理特征，包括：

根据所述局部特征合成卷积特征图；

将所述特征表示图转化为向量形式，得到待处理特征。

详细的，可以利用分组卷积或者基于矩阵乘法的卷积来实现卷积操作。

具体的，当利用分组卷积的时候，由于分许卷积可以将输入数据和卷积核分成多个组进行独立卷积，然后讲结果合并，因此得到结果的效率更高。

具体的，当利用基于矩阵乘法的卷积来实现卷积操作时候，由于讲数据和卷积核转化为矩阵的形式，利用矩阵乘法进行卷积，因此得到结果的精准度更高。

详细的，可以利用卷积下采样或者最大池化的方法来进行下采样。

具体的，当利用卷积下采样的方式来进行下采样，由于是根据预设步幅的卷积层来进行下采样，因此得到结果的精准度更高。

具体的，当利用最大池化的方式来进行下采样，由于是讲特征图转化为不重叠的区域在从每个区域中选择最大值进行输出，因此得到结果的效率更高。

详细的，所述对所述标准化数据进行特征提取得到待训练数据的好处在于可以精准的提取出模型训练有关的特征，加快模型训练的效率。

S6、根据所述待训练数据利用Q-学习算法对所述深度强化学习模型进行训练优化，得到防御模型。

本发明实例中，所述根据所述待训练数据利用Q-学习算法对所述深度强化学习模型进行训练优化，得到防御模型通过训练模型进而得到实现防御方法的动态生成。

本发明实例中，所述根据所述待训练数据利用Q-学习算法对所述深度强化学习模型进行训练优化，得到防御模型，包括：

对所述模型中的价值函数进行初始化，得到初始化价值函数;

随机从状态集合中选择一个状态为当前状态，根据所述当前状态以及所述价值函数从所述动作集合利用贪心算法选择出一个动作作为目标动作；

返回根据所述当前状态以及所述价值函数从所述动作集合利用贪心算法选择出一个动作作为目标动作的步骤；

执行预设次数的上述步骤，得到防御模型。

详细的，本发明实例中，所述根据所述当前状态以及所述价值函数从所述动作集合利用贪心算法选择出一个动作作为目标动作，包括：

根据所述当前状态遍历每个动作集合中的动作；

利用价值函数计算出每个动作对应的价值；

根据所述动作对应的价值筛选出最大价值，并将所述最大价值对应的动作作为目标动作。

本发明实例中，所述Q-学习算法为：

详细的，所述根据所述待训练数据利用Q-学习算法对所述深度强化学习模型进行训练优化，得到防御模型的好处在于利用Q-学习算法对模型进行训练优化使得模型可以学习到更高级别的表示和决策策略，从而解决复杂的防御问题。

S7、将所述防御模型部署到所述微服务系统的实时监控和预测中，动态调整防御策略。

将训练好的所述防御模型部署到所述微服务器中，根据微服务器的状态动态的添加防御或者减少防御，完成防御方法的动态构建。

本发明其中一个实际应用场景中，所述将所述防御模型部署到所述微服务系统的实时监控和预测中，动态调整防御策略的好处在于可以实时监控系统的异常与威胁，提高系统的安全性。

如图4所示，是本发明一实施例提供的基于深度强化学习的微服务系统动态防御策略装置的功能模块图。

本发明所述基于深度强化学习的微服务系统动态防御策略方法装置100可以安装于电子设备中。根据实现的功能，所述基于深度强化学习的微服务系统动态防御策略方法装置100可以包括数据获取模块101、函数构建模块102、模型构建模块103、数据处理模块104、特征提取模块105、模型训练模块106及模型部署模块107。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述数据获取模块101：用于获取微服务系统的运行状态集合以及防御动作，将所述运行状态集合和所述防御动作分别转化为状态向量和动作向量；

所述函数构建模块102：用于根据所述状态向量以及所述动作向量构建奖励函数；

所述模型构建模块103：用于根据所述状态向量、所述动作向量和所述奖励函数构建深度强化学习模型；

所述数据处理模块104：用于获取所述微服务系统的历史状态和历史动作情况，并对所述历史状态和所述历史动作进行归一化和格式转换处理得到标准化数据；

所述特征提取模块105：用于对所述标准化数据进行特征提取得到待训练数据；

所述模型训练模块106：用于根据所述待训练数据利用Q-学习算法对所述深度强化学习模型进行训练优化，得到防御模型；其中，所述Q-学习算法为：

所述模型部署模块107：用于将所述防御模型部署到所述微服务系统的实时监控和预测中，动态调整防御策略。

详细地，本发明实施例中所述基于深度强化学习的微服务系统动态防御策略方法装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于深度强化学习的微服务系统动态防御策略方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于深度强化学习的微服务系统动态防御策略方法，其特征在于，所述方法包括：

根据所述状态向量以及所述动作向量构建奖励函数；

对所述标准化数据进行特征提取得到待训练数据；

将所述防御模型部署到所述微服务系统的实时监控和预测中，动态调整防御策略；

所述根据所述状态向量、所述动作向量和所述奖励函数构建深度强化学习模型，包括：

将所述状态向量和所述动作向量进行向量连接得到输入层；

根据预设的激活函数以及所述奖励函数构建价值函数；

将所述输入层、所述隐藏层以及所述价值函数进行组合得到深度强化学习模型；

所述根据所述待训练数据利用Q-学习算法对所述深度强化学习模型进行训练优化，得到防御模型，包括：

对所述模型中的价值函数进行初始化，得到初始化价值函数；

执行预设次数的上述步骤，得到防御模型。

2.如权利要求1所述的基于深度强化学习的微服务系统动态防御策略方法，其特征在于，将所述运行状态集合转化为状态向量的步骤,包括：

根据所述状态编码以及所述状态集合构建状态向量。

3.如权利要求1所述的基于深度强化学习的微服务系统动态防御策略方法，其特征在于，所述根据所述状态向量以及所述动作向量构建奖励函数，包括：

4.如权利要求1所述的基于深度强化学习的微服务系统动态防御策略方法，其特征在于，所述对所述历史状态和所述历史动作进行归一化和格式转换处理得到标准化数据，包括：

5.如权利要求1至4中任一项所述的基于深度强化学习的微服务系统动态防御策略方法，其特征在于，所述对所述标准化数据进行特征提取得到待训练数据，包括：

6.如权利要求5所述的基于深度强化学习的微服务系统动态防御策略方法，其特征在于，所述利用预设的卷积神经网络提取所述标准化数据的待处理特征，包括：

根据所述局部特征合成卷积特征图；

将所述特征表示图转化为向量形式，得到待处理特征。

7.如权利要求6中所述的基于深度强化学习的微服务系统动态防御策略方法，其特征在于，根据所述当前状态以及所述价值函数从预设的动作集合利用贪心算法选择出一个动作作为目标动作，包括：

根据所述当前状态遍历每个动作集合中的动作；

利用价值函数计算出每个动作对应的价值；