CN117692174A

CN117692174A - 一种基于人工智能的零信任动态身份验证和授权方法

Info

Publication number: CN117692174A
Application number: CN202311558766.7A
Authority: CN
Inventors: 周俊; 周青松; 圣有高; 沈文武; 成飞; 金鹏; 徐琴; 周进; 杨铮; 周启航; 董振江; 亓晋
Original assignee: Taixing Port Group Co ltd; Jiangsu Hongxin Technology Co ltd; Nanjing University of Posts and Telecommunications
Current assignee: Taixing Port Group Co ltd; Jiangsu Hongxin Technology Co ltd; Nanjing University of Posts and Telecommunications
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-03-12
Anticipated expiration: 2043-11-22

Abstract

本发明涉及网络安全领域，公开了一种基于人工智能的零信任动态身份验证和授权方法，包括以下步骤：步骤S1：采集所有用户行为和系统状态的相关数据，包括基础的登录信息、用户行为数据及系统状态信息；步骤S2：建立基于深度学习的用户行为模型，采用长短期记忆网络和自编码器结合的方式，捕捉用户行为的时间模式并检测用户的可能异常行为；步骤S3：根据步骤S2的结果，使用双重深度Q网络作为策略决策机制进行动态用户身份验证和授权，控制用户对系统资源的访问；步骤S4：监控和记录系统的行为和用户对系统行为的反应，收集各类反馈信息，并根据反馈信息对用户行为模型、动态身份验证和授权模型进行持续优化。

Description

一种基于人工智能的零信任动态身份验证和授权方法

技术领域

本发明涉及网络安全领域，具体涉及一种基于人工智能的零信任动态身份验证和授权方法。

背景技术

近年来，随着信息技术的快速发展，人们在生活和工作中越来越依赖于各种网络服务。然而，传统的网络安全策略主要是基于固定边界的防御机制，这种机制难以应对日益复杂和多变的网络威胁。固定边界的防御机制通常会给内部网络的用户赋予较高的信任级别，然而一旦内部网络被攻击者突破，攻击者就可以在网络内部自由活动，这极大地增加了网络的安全风险。

为了解决此类问题，零信任模型应运而生。零信任模型的基本原则是永不信任，始终验证。无论用户处于网络的内部还是外部，都需要进行严格的身份验证和访问控制。然而，实施零信任模型也面临着一些挑战：

首先，如何在大量的用户行为数据中准确地识别出异常行为，以实现有效的访问控制和风险防范。传统的异常检测方法通常基于规则或统计方法，这些方法在处理复杂和时序的用户行为数据时可能效果不佳；

其次，如何实现动态的、精细化的访问控制，以满足不同用户、不同场景的安全需求，在保证安全性的同时尽可能降低对用户的干扰。若简单地提高验证要求或限制访问权限可能会导致用户体验下降，且不能根据不同情况灵活地调整安全策略。

存在一些现有的相关技术，如申请号为CN202310136204.7的中国专利，公开了一种基于零信任体系的网络准入和用户认证的安全交互方法；但是该技术方案仅采用静态密码和动态口令简单融合的认证方法，只能认证用户的身份而未对用户本身的操作行为及进行安全分析；同时，该专利仅局限于用户的对系统地安全准入，而无法对用户的行为进行实时地跟踪和安全策略的调整，存在安全隐患。

申请号为CN202211498980.3的中国专利，公开了一种基于零信任的动态与静态身份认证融合系统；但是该技术方案通过终端模块和后台联动交互逐步开放网络和应用的访问权限，持续对用户评估后能及时感知风险，但未能有效调整安全访问权限的分配，针对复杂网络中的安全策略调整缺乏一定的灵活性，权限调整效率较低。

针对上述问题，本发明提出了一种基于人工智能的零信任动态身份验证和授权方法。

发明内容

本发明的目的在于提供一种基于人工智能的零信任动态身份验证和授权方法；解决以下技术问题：

1、针对现有的网络安全解决方案大多依赖于预定义的规则或统计方法来检测异常行为，对于复杂、动态和多元化的用户行为往往力不从心，难以在多样化的行为模式中精准地识别异常的问题，提出一种基于深度学习的长短期记忆网络(LSTM)和自编码器(Autoencoder)结构，通过学习和理解用户的行为习惯，为每个用户建立一个独特的行为模型，从而有效地捕获用户行为的时序特征和模式，并能在零信任环境中更有效地识别异常行为；

2、针对安全策略调整的灵活性不足、无法实现对网络安全态势的持续感知和快速响应问题，提出一个基于双重深度Q网络(DDQN)的策略决策网络，以支持处理高维的状态空间和大量的动作选择，根据当前用户的行为模式和环境状态，实时决定最优的验证和授权策略并进行快速调整，使网络安全管理更为智能化、自动化和精准化。

本发明的目的可以通过以下技术方案实现：

一种基于人工智能的零信任动态身份验证和授权方法，包括以下步骤：

步骤S1：采集所有用户行为和系统状态的相关数据，包括基础的登录信息(如时间、位置、设备)、用户行为数据(如用户在系统中访问的资源、执行的操作、操作的顺序、频率)、系统状态信息(如系统的安全级别、用户体验等级)；

步骤S2：建立基于深度学习的用户行为模型，采用长短期记忆网络和自编码器结合的方式，捕捉用户行为的时间模式并检测用户的可能异常行为；

步骤S3：根据步骤S2的结果，使用双重深度Q网络作为策略决策机制进行动态用户身份验证和授权，控制用户对系统资源的访问；

步骤S4：监控和记录系统的行为和用户对系统行为的反应，收集各类反馈信息，并根据反馈信息对用户行为模型、动态身份验证和授权模型进行持续优化。

作为进一步的技术方案，所述自编码器包括：

嵌入层，嵌入层将每个用户的行为映射为一个实数向量，捕捉到行为之间的语义关系；

编码器，编码器使用长短期记忆网络单元将嵌入层的输出转换为一个固定长度的隐藏状态向量，该向量捕捉了输入序列的动态特征；

解码器，解码器将编码器的隐藏状态向量作为输入，试图重构原始的行为向量序列，迫使模型学习到一个有效的低维表示，以将隐藏状态向量还原回原始的行为向量序列；这个表示既能够保留原始数据的关键信息，又能消除噪声和冗余；

分类层，分类层通过全连接层(Fully-ConnectedLayer)将解码器的输出映射到分类结果的维度，然后使用softmax函数将结果转换为概率分布，即预测每种行为出现的概率。

作为进一步的技术方案，所述步骤S2中捕捉用户行为的时间模式并检测用户的可能异常行为的具体过程为：

步骤S21：对用户行为数据进行预处理，包括对数据进行归一化，并整理成适合长短期记忆网络和自编码器处理的序列格式；

步骤S22：将预处理后的数据送入自编码器进行特征学习，编码器将输入的原始数据压缩为一个低维的特征向量，解码器将这个特征向量重新恢复为原始数据，通过训练自编码器最小化输入数据和恢复数据之间的差异使自编码器学习到数据的重要特征；

步骤S23：将自编码器学习到的特征向量作为输入，送入长短期记忆网络进行序列建模，最小化预测行为和实际行为之间的交叉熵损失，并同时最小化解码器的重构误差；模型的参数通过反向传播(Back-Propagation)算法和随机梯度下降(Stochastic GradientDescent，SGD)方法进行更新，同时为了防止过拟合和加速训练过程，使用Dropout(一种在训练神经网络时使用的正则化技术)和Batch Normalization(对数据进行的一种正则化方式)优化技术；

步骤S24：对于一个新的用户行为序列，将其输入到模型中，得到下一个行为的预测概率分布，比较实际行为与预测概率分布的差距，判断用户行为是否存在异常。

作为进一步的技术方案，所述步骤S3中的双重深度Q网络包括两个深度Q网络，每个深度Q网络包括：

状态表示层，用于将系统状态(例如用户行为、验证历史)映射到一个实数向量，该向量可以精确捕获状态的关键特征；

Q值估计层，用于接收状态表示层的输出，并为每个可能的动作(如授权或拒绝)估计一个Q值，采用多层感知机(Multi-Layer Perceptron,MLP)来进行Q值的估计，并且使用双重DQN算法来优化Q值的估计过程；

策略选择层，用于根据Q值估计层的输出，选择最优策略；本发明使用了ε-贪婪(ε-greedy)策略，在大部分时间选择Q值最大的动作，同时也保留了少量的随机探索。

作为进一步的技术方案，基于双重深度Q网络的策略决策网络根据用户行为检测的结果，结合当前网络环境的状态进行实时决策，以对用户身份进行验证和授权，确定用户对资源的访问权限，具体步骤为：

步骤S31：初始化环境状态和两个深度Q网络，评估网络用于选择最优动作，目标网络用于估计这个动作的Q值；

步骤S32：网络训练，使用评估网络根据当前环境状态选择并执行一个动作，通过经验回放技术存储历史经验并在训练中随机抽样打破数据之间的时间相关性，使用目标网络求目标Q值，计算TD误差并更新网络参数；

步骤S33：将用户行为和系统状态输入到策略决策网络中，根据Q值选择最优动作，验证身份并决定授权和拒绝的内容。

本发明的有益效果：

(1)本发明提供一种基于深度学习的长短期记忆网络(LSTM)和自编码器(Autoencoder)结构的用户行为模型，长短期记忆网络用于捕捉行为序列中的长期依赖关系，而自编码器则用于学习行为数据的低维表示，这两者的结合使得本发明的模型既能理解行为的动态模式，又能从大量的行为数据中抽象出关键的特征。

(2)本发明针对安全策略缺调度缺乏灵活性的问题提出一种基于双重深度Q网络(DDQN)的策略决策网络，能够高效处理动态和不确定环境中高维的状态空间和复杂的动作空间；同时在整个过程中，策略决策网络能够自我学习和优化，逐渐适应环境变化，从而提供更高效和精准的动态身份验证和授权服务。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明的框架示意图；

图2为本发明的实施步骤图；

图3为本发明中用户行为模型实现流程图；

图4为自编码器结构示意图；

图5为长短期记忆网络结构示意图；

图6为双重深度Q网络(DDQN)结构示意图；

图7为Q网络的更新流程；

图8为双重深度Q网络(DDQN)实现流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-图8所示，本发明为一种基于人工智能的零信任动态身份验证和授权方法，包括数据、用户行为模型、动态身份验证授权和反馈优化四大部分，实施步骤如图2所示。

具体实施步骤如下：

步骤S1：采集所有用户行为和系统状态的相关数据，包括但不限于用户的登录信息、用户在系统中的操作、操作的顺序和频率、系统的安全级别、用户体验等级，并将数据进行清洗和存储。

(1)用户行为数据的收集主要关注用户在系统中的行为和操作，主要通过日志记录的方式获取，具体实施方式包含：

1)日志记录工具：包括操作系统日志、应用日志、网络日志。例如，Linux操作系统中的syslog(系统日志)，Windows图形用户界面操作系统的事件查看器，Web服务器的Apache(服务器软件)。

2)网络抓包工具：获取用户的网络行为数据，例如Wireshark网络封包分析软件。这种工具可以记录用户的网络请求和响应，包括源地址、目标地址、端口、协议信息。

3)应用程序接口(API)：获取到用户在云平台上的行为数据。例如，AWS(亚马逊网络服务)、Azure(微软公有计算平台)、GoogleCloud(谷歌公有云计算服务)云服务提供商提供了用于收集用户行为数据的API。

4)端点保护和检测响应(EDR)工具：提供终端用户的行为数据，包括应用程序启动、文件访问、注册表更改信息。例如，Microsoft的Defender ATP(微软提供的企业防护产品)，Symantec的Endpoint Protection(赛门铁克推出的企业防护产品)。

(2)系统状态数据的收集主要关注系统的运行状态和性能。主要通过监控的方式获取，具体实施方式包含：

1)性能监控工具：提供系统资源利用率和系统响应时间关键指标的实时数据。例如，Prometheus、Grafana、Zabbix开源监控工具，Windows的任务管理器和资源监视器、Linux的top、vmstat、iostat操作系统内的性能监控工具。

2)安全监控工具：包括入侵检测、防火墙状态、漏洞扫描结果、恶意软件检测结果。例如，Splunk、IBM、QRadar安全信息和事件管理系统，Snort、Suricata入侵检测系统。

3)系统日志：包括系统启动和关机、进程创建和结束、用户登录和注销、错误和警告，例如，通过Linux的syslog，Windows的事件查看器获取。

步骤S2：根据步骤S1收集到的用户数据建立基于长短期记忆网络和自编码器的用户行为模型，捕捉用户行为的时间模式并检测用户的可能异常行为。

在安全防御场景下，需要处理大量高维复杂的用户行为数据和系统状态数据，并且考虑获取大量的标签数据往往代价较大，因此本发明提出了结合长短期记忆网络(LSTM)和自编码器的用户行为模型，用于捕捉用户行为的动态模式和内在结构，从而实现有效的用户行为检测，实施流程如图3所示。

捕捉用户行为的时间模式并检测用户的可能异常行为的具体过程包含：

步骤S21：数据预处理，将用户的行为历史(例如，访问资源的时间、类型和频率)转化一系列的特征向量，包括数据清洗和归一化处理，消除数据中的噪声、异常值和数据中的量纲影响。

步骤S22：利用自编码器对输入数据进行特征学习；一个自编码器包括两个主要部分：编码器(Encoder)和解码器(Decoder)。编码器将输入数据编码为一个隐藏表示，解码器将隐藏表示解码为一个重建的输入；在用户行为模型中，自编码器用于提取用户行为特征并学习其内在模式；对于每个用户，根据其行为历史(例如，访问资源的时间、类型和频率)来构建一个行为特征向量；这些特征向量被输入到自编码器中，自编码器学习一个低维的隐藏表示，使能够捕捉用户行为的内在模式，自编码器的结构如图4所示；

编码器将输入数据x编码为一个隐藏表示h，并通过一个全连接层和一个sigmoid函数来实现；公式为h＝f(W⊙x+b)，其中f是激活函数，W是权重矩阵，b是偏置向量；

解码器将隐藏表示h解码为一个重建的输入x'，并通过一个全连接层和一个激活函数来实现；公式为x'＝g(W'⊙h+b')，其中g是激活函数，W'是权重矩阵，b'是偏置向量；

在训练自编码器时，目标是最小化输入数据x和重建输入x'之间的重建误差；本发明使用均方误差作为损失函数：L_ae＝||x-x'||^2，并使用反向传播算法计算损失函数的梯度，并用梯度下降法更新模型的参数：其中θ表示模型的参数，η是学习率，/>是损失函数L关于参数的梯度；

步骤S23：将自编码器学习到的特征向量作为输入，送入长短期记忆网络(LSTM)进行序列建模；在用户行为模型中，每一个输入到长短期记忆网络(LSTM)的单元的行为特征都是向量形式，这些特征可以包括但不限于时间戳、访问资源的类型、访问的频率；长短期记忆网络(LSTM)通过时间序列中的行为特征序列来学习和预测用户行为的模式。

一个基本的长短期记忆网络(LSTM)单元包括一个输入门、一个遗忘门和一个输出门；这三个门控制着信息在单元状态中的流动情况：

遗忘门，决定了多少之前的信息被保留，使用sigmoid函数来将值控制在0和1之间，计算公式为:f_t＝σ(W_fh_t-1+U_fx_t+b_f)；

输入门，决定了多少新的输入信息被保存到单元状态，使用sigmoid函数来计算，计算公式为:i_t＝σ(W_ih_t-1+U_i+b_i)；新的候选值，创建一个新的候选值，可以被添加到状态中，使用tanh函数使值在-1到1之间；计算公式为: 更新单元状态，新的单元状态c_t会结合以上三部分来生成，计算公式为c_t＝c_t-1⊙f_t+i_t⊙a_t；

输出门，确定当前单元的输出，计算公式为:o_t＝σ(W_oh_t-1+U_ox_t+b_o)，h_t＝o_t⊙tanh(c_t)；其中，σ表示sigmoid函数，⊙表示按元素乘法，W代表权重矩阵，b代表偏置，h_t-1代表前一时间步的隐藏状态，x_t表示当前时间步的输入；

长短期记忆网络(LSTM)的结构如图5所示。

长短期记忆网络(LSTM)的学习目标是最小化预测行为和实际行为之间的交叉熵损失，计算公式为:L_lstm＝-∑[y*log(y')+(1-y)*log(1-y')]，其中，y是实际行为，y'是长短期记忆网络(LSTM)预测的行为，∑表示求和；本发明为了得到更好的学习效果，联合了优化自编码器的重构误差和长短期记忆网络(LSTM)的交叉熵损失，计算公式为:L＝λ*L_ae+(1-λ)*L_lstm；

其中，λ是一个介于0和1之间的权重参数，用于平衡两部分的损失；模型的参数同样通过反向传播算法和随机梯度下降方法更新；同时，本发明使用Dropout(一种在神经网络训练中使用的正则化技术)防止模型过于依赖某些特定的神经元，使用BatchNormalization(批标准化)使得数据的分布更稳定，从而加速模型的收敛速度；

步骤S24：使用步骤S22和步骤S23得到的用户行为模型判断用户行为是否存在异常；对于一个新的用户行为序列，首先使用自编码器将其转换为特征向量，然后将特征向量序列送入长短期记忆网络(LSTM)进行序列建模，最后使用一个全连接层和softmax函数来计算下一个行为的预测概率分布:p＝softmax(W_p*+b_ph_T)，其中W_p和b_p是全连接层的权重和偏置；通过比较实际行为与预测概率分布的差距，判断用户行为是否存在异常。

步骤S3：根据步骤S2的结果以及当前的网络环境，建立双重深度Q网络模型进行动态用户身份验证和授权，控制用户对系统资源的访问；DDQN是一种基于Q-learning的强化学习方法，它通过两个神经网络(一个评估网络和一个目标网络)来估计Q值，并采取相应的行动。

双重深度Q网络(DDQN)的结构如图6所示。

其中，Q网络输入是状态，输出是各种动作对应的Q值。Q网络每步都会在经验池中更新，而TargetQ网络隔一段时间将Q的网络参数硬拷贝到TargetQ网络中，实现TargetQ网络的更新。其过程为：已知一个状态S_t，通过Q网络得到各种动作的Q值，然后用ε-贪婪策略选择动作a_t，将α_t输入到环境中，得到S_t+1和R_t+1；根据S_t和α_t可以确定当前的Q(S_t,α_t)值，将S_t+1输入到Target Q网络中，得到各种不同的动作的Q值，选择最大的Q值，以Q(S_t,α_t)作为网络的预测值，R_t+1+γQ(S_t+1,α_t)作为网络的实际值，进行误差反向传播。

Q网络的更新流程如图7所示。

DQN算法更新是利用目标网络的参数θ_t ^-，它每个τ步更新一次，其数学表示为:DQN中使用了max操作，这使得选择和评估一个动作值都会过高估计。因此为解决这一问题，本发明使用双重深度Q网络(DDQN)将两个值函数进行解耦，互相随机更新两个值函数，并利用彼此的经验更新网络权重θ_t和θ_t ^-，其误差表示为：

使用双重深度Q网络(DDQN)模型实现用户动态身份验证和授权的流程如图8所示。

具体实施方式包含：

步骤S31：初始化环境状态和两个深度Q网络(评估网络和目标网络)，评估网络用于选择最优动作，目标网络用于估计这个动作的Q值，两个网络结构相同但参数独立，通常使用小随机值初始化网络参数；设定训练参数，如折扣因子γ，学习率v，回放记忆库的大小；

步骤S32：网络训练，使用评估网络根据当前环境状态选择并执行一个动作，通过经验回放技术存储历史经验并在训练中随机抽样打破数据之间的时间相关性，使用目标网络求目标Q值，计算TD误差并更新网络参数，具体步骤如下：

步骤S321：观测收集，在每一步中，根据当前状态s，利用Q网络进行行为选择结合ε-greedy策略进行探索和利用的折衷。然后执行选择的行为α，并观测回报r和新的状态s'。将观测的转移<s,α,r,s'>存入回放记忆库；

步骤S322：经验回放，从回放记忆库中随机采样一批转移，这一批转移即为训练样本；采样的数量通常取决于计算能力和样本的代表性；

步骤S323：Q网络更新，对于每个采样的转移<s,α,r,s'>，计算目标Q值:

Y＝r+γ*Q_targent(s',argmax_aQ(s',α；θ)；θ')；计算Q

网络对当前行为α的预测Q值：Q＝Q(s,α；θ)；计算二者的平方误差，并使用梯度下降法来最小化这个误差，即更新Q网络的参数：

步骤S324：目标网络更新，在一定的步数后(例如每1000步)，将Q网络的参数复制给目标网络θ'＝θ；目标网络的参数在大部分时间保持不变，只有在这一步才更新；

步骤S325：策略改进，通过Q网络，在每个状态下找到使Q值最大的最优行为；

步骤S326：循环训练，重复步骤S322至S326，直到满足终止条件；

步骤S33：将用户行为和系统状态输入到训练好的双重深度Q网络(DDQN)策略决策网络中，根据Q值选择最优动作，进行动态身份验证和授权；

步骤S4：监控和记录系统的行为和用户对系统行为的反应，根据反馈信息，利用反馈循环和持续优化的方式对用户行为模型和动态身份验证和授权模型进行优化，提高整体性能；具体实施方式包括：

步骤S41：监控用户行为和系统行为：用户行为包括用户对访问授权决策的接受度、使用行为模式，系统行为包括系统的访问授权决策、异常行为处理；

步骤S42：收集反馈信息：包括系统的动作、用户的反应、系统的性能指标(如系统的安全性、效率)、用户满意度；

步骤S43：处理和分析反馈信息：用于识别出系统当前存在的问题以及可能的改进空间，该过程包括数据清洗、特征提取、统计分析、机器学习；

步骤S44：优化和调整模型：对用户行为模型、身份验证和授权模型进行优化和调整，包括调整模型的参数、修改模型的结构、引入新的特征或算法；

步骤S45：反馈优化结果：将优化结果反馈给监控系统，并作为新的决策依据；

步骤S46：持续反馈循环：通过监控、记录、收集反馈、分析、优化、反馈结果进行持续的优化，以提高整体的安全性和效率，增强用户的满意度。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于人工智能的零信任动态身份验证和授权方法，其特征在于，包括以下步骤：

步骤S1：采集所有用户行为和系统状态的相关数据，包括基础的登录信息、用户行为数据及系统状态信息；

2.根据权利要求1所述的基于人工智能的零信任动态身份验证和授权方法，其特征在于，所述自编码器包括：

解码器，解码器将编码器的隐藏状态向量作为输入，试图重构原始的行为向量序列，迫使模型学习到一个有效的低维表示，以将隐藏状态向量还原回原始的行为向量序列；

分类层，分类层通过全连接层将解码器的输出映射到分类结果的维度，然后使用softmax函数将结果转换为概率分布，即预测每种行为出现的概率。

3.根据权利要求2所述的基于人工智能的零信任动态身份验证和授权方法，其特征在于，所述步骤S2中捕捉用户行为的时间模式并检测用户的可能异常行为的具体过程为：

步骤S23：将自编码器学习到的特征向量作为输入，送入长短期记忆网络进行序列建模，最小化预测行为和实际行为之间的交叉熵损失，并同时最小化解码器的重构误差；

步骤S24：使用步骤S22和步骤S23得到的用户行为模型判断用户行为是否存在异常。

4.根据权利要求1所述的基于人工智能的零信任动态身份验证和授权方法，其特征在于，所述步骤S3中的双重深度Q网络包括两个深度Q网络，每个深度Q网络包括：

状态表示层，用于将系统状态映射到一个实数向量，该向量可以精确捕获状态的关键特征；

Q值估计层，用于接收状态表示层的输出，并为每个可能的动作估计一个Q值，采用多层感知机来进行Q值的估计，并且使用双重DQN算法来优化Q值的估计过程；

策略选择层，用于根据Q值估计层的输出，选择最优策略。

5.根据权利要求4所述的基于人工智能的零信任动态身份验证和授权方法，其特征在于，基于双重深度Q网络的策略决策网络根据用户行为检测的结果，结合当前网络环境的状态进行实时决策，以对用户身份进行验证和授权，确定用户对资源的访问权限的具体步骤为：

步骤S31：初始化环境状态和两个深度Q网络，评估网络用于选择最优动作，目标网络用于估计这个动作的Q值；两个网络结构相同但参数独立，使用小随机值初始化网络参数；设定训练参数，折扣因子γ，学习率v；

6.根据权利要求5所述的基于人工智能的零信任动态身份验证和授权方法，其特征在于,所述步骤S32使用目标网络求目标Q值，计算TD误差并更新网络参数，具体步骤如下：

步骤S321：观测收集，在每一步中，根据当前状态s，利用Q网络进行行为选择结合ε-greedy策略进行探索和利用的折衷；然后执行选择的行为α，并观测回报r和新的状态s'，将观测的转移<s,α,r,s'>存入回放记忆库；

步骤S322：经验回放，从回放记忆库中随机采样一批转移，这一批转移即为训练样本；

步骤S323：Q网络更新，对于每个采样的转移<s,α,r,s'>，计算目标Q值:Y＝r+γ*Q_targent(s',argmax_aQ(s',α；θ)；θ')；计算Q网络对当前行为α的预测Q值：Q＝Q(s,α；θ)；计算二者的平方误差，并使用梯度下降法来最小化这个误差，即更新Q网络的参数：

步骤S324：目标网络更新，在设定步数后将Q网络的参数复制给目标网络θ'＝θ；

步骤S326：循环训练，重复步骤S322至S326，直到满足终止条件。

7.根据权利要求3所述的基于人工智能的零信任动态身份验证和授权方法，其特征在于，自编码器最小化输入数据和恢复数据之间的差异的过程为：

编码器将输入数据x编码为一个隐藏表示h，并通过一个全连接层和一个sigmoid函数来实现；通过公式：

h＝f(W⊙x+b)

其中,f是激活函数，W是权重矩阵，b是偏置向量；

解码器将隐藏表示h解码为一个重建的输入x'，并通过一个全连接层和一个激活函数来实现；通过公式：

x'＝g(W'⊙h+b')

其中,g是激活函数，W'是权重矩阵，b'是偏置向量；

最小化输入数据x和重建输入x'之间的重建误差，通过公式：

L_ae＝||x-x′||^2

计算获得重建误差L_ae，使用反向传播算法计算损失函数的梯度，并用梯度下降法更新模型的参数：其中,θ表示模型的参数，η是学习率，/>是损失函数L关于参数θ的梯度。

8.根据权利要求3所述的基于人工智能的零信任动态身份验证和授权方法，其特征在于：最小化预测行为和实际行为之间的交叉熵损失的过程为，通过计算公式:

L_lstm＝-∑[y*log(y')+(1-y)*log(1-y')]

计算获得L_lstm交叉熵损失，其中，y是实际行为，y'是长短期记忆网络(LSTM)预测的行为，∑表示求和。