CN117172303B

CN117172303B - 针对连续动作空间下深度强化学习的黑盒攻击方法及装置

Info

Publication number: CN117172303B
Application number: CN202311373473.1A
Authority: CN
Inventors: 周潘; 杨喜源; 罗志; 丁晓锋; 徐子川
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-03-08
Anticipated expiration: 2043-10-23
Also published as: CN117172303A

Abstract

本发明涉及一种针对连续动作空间下深度强化学习的黑盒攻击方法及装置，其方法包括：获取深度强化学习模型的状态空间参数、动作空间参数和学习策略，并根据所述状态空间参数和动作空间参数构建置信下界树；基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体；收集智能体在每个时间步内的环境信息、动作和环境奖励，并形成轨迹数据；基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂；基于判断结果，更新置信下界树的每个叶子节点的置信下界。本发明通过基于置信下界树的攻击策略，实现被攻击算法模型学习到攻击方的指定目标策略的效果，并确定攻击的有效性和可行性。

Description

针对连续动作空间下深度强化学习的黑盒攻击方法及装置

技术领域

本发明属于深度强化学习技术领域，具体涉及一种针对连续动作空间下深度强化学习的黑盒攻击方法及装置。

背景技术

强化学习（Reinforcement Learning，RL）模拟类人脑思维方式，搭载强化学习算法的智能体可以根据所处环境的相关信息进行相应的动作行为决策。深度强化学习（DeepReinforcement Learning，DRL）在强化学习的基础上，引入深度神经网络作为其决策模型。在每一个单独的时间步中，深度强化学习决策智能体根据环境信息输出相应动作信号反作用于环境，并从中获得重要的反馈奖励信号，随后决策智能体根据奖励信号的好坏调整自己的模型参数，即选择不同动作的策略，循环往复使得智能体能够在规定的任务中获得最大的奖励，达到收敛的效果，并用于实处。得益于其优秀的决策逻辑，深度强化学习在实际生活中得到了广泛的应用，尤其是连续动作空间下的深度强化学习更加贴近现实场景，因此受到了学术界和工业界的广泛重视和应用。同时连续动作空间下的深度强化学习主要应用的领域包括无人驾驶、无人工厂等都是与安全高度相关的行业，然而现阶段仍然缺乏对连续动作空间下的深度强化学习面对黑盒攻击的脆弱性研究。

黑盒攻击是即使攻击者不知道真实模型算法及参数的前提下，也能进行有效攻击的一种攻击方案。在深度强化学习安全领域常见的攻击对象包括：智能体所处的环境、智能体选取的动作以及智能体获得的奖励，常见的攻击目标包括：使智能体无法收敛、使智能体学习到攻击者指定的行为策略。通常通过修改环境或者奖励信号来攻击智能体是最直接的，相反通过动作信号来攻击智能体就会变得十分困难，且并不容易控制，尤其是在连续动作空间条件下，可选择的动作相当于是无限的，进一步加深了攻击动作信号的难度。在攻击目标方面使智能体学习到攻击者的指定策略也是最难实现的，同时攻击效果也是最难以察觉的。

发明内容

为实现智能体在连续动作空间下有效的黑盒攻击，在本发明的第一方面提供了一种针对连续动作空间下深度强化学习的黑盒攻击方法，包括：获取深度强化学习模型的状态空间参数、动作空间参数和学习策略，并根据所述状态空间参数和动作空间参数构建置信下界树；基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体；收集智能体在每个时间步内的环境信息、动作和环境奖励，并形成轨迹数据；基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂；基于判断结果，更新置信下界树的每个叶子节点的置信下界。

在本发明的一些实施例中，所述基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体包括：分别获取智能体在每个时间步内深度强化学习模型的学习策略和目标策略/>下，根据当前环境信息作出的动作信号/>和/>；基于欧式距离，通过动作信号/>和/>的相似度判断是否需要攻击智能体。

进一步的，所述基于欧式距离，通过动作信号和/>的相似度判断是否需要攻击智能体包括：若/>和/>相似，则判断不向智能体发起攻击；否则，则从置信下界树中检索出前状态信息/>最差动作/>，并根据最差动作/>向智能体发起攻击。

在本发明的一些实施例中，所述基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂包括：基于一段或多段轨迹数据，计算当前时间步内，所述置信下界树中每个节点的累计奖励；基于预设的奖励折扣因子、动作距离因子，判断每个叶子节点是否分裂。

进一步的，所述基于判断结果，更新置信下界树的每个叶子节点的置信下界包括：所述基于判断结果和累计奖励，更新置信下界树的每个叶子节点及其子节点的信下界；根据更新后的每个叶子节点及其子节点的信下界，确定每个叶子节点的最终置信下界。

在上述的实施例中，所述根据所述状态空间参数和动作空间参数构建置信下界树包括：基于所述状态空间参数和动作空间参数，分别计算动作相似半径和状态相似半径；根据所述状态相似半径划分状态空间；根据所述状态空间参数、动作空间参数、动作相似半径和预设马尔可夫过程的总步长，构建置信下界树。

本发明的第二方面，提供了一种针对连续动作空间下深度强化学习的黑盒攻击装置，包括：获取模块，用于获取深度强化学习模型的状态空间参数、动作空间参数和学习策略，并根据所述状态空间参数和动作空间参数构建置信下界树；判断模块，用于基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体；收集模块，用于收集智能体在每个时间步内的环境信息、动作和环境奖励，并形成轨迹数据；更新模块，用于基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂；基于判断结果，更新置信下界树的每个叶子节点的置信下界。

本发明的第三方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明在第一方面提供的针对连续动作空间下深度强化学习的黑盒攻击方法。

本发明的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本发明在第一方面提供的针对连续动作空间下深度强化学习的黑盒攻击方法。

本发明的有益效果是：

在本发明中，我们研究了连续动作空间下深度强化学习对黑盒攻击的脆弱性，研究提出针对动作信号的黑盒攻击方案，实现迫使被攻击算法模型学习到攻击方的指定目标策略的效果。据我们所知，这是首次针对通过上述方式达到此效果的攻击方法。同时我们针对攻击所耗费的步骤进行了严格证明求解，以保证我们的攻击方式可以在有限的时间内达到相应的效果，确保其在时间消耗上具备有效性和可行性。

附图说明

图1为本发明的一些实施例中的针对连续动作空间下深度强化学习的黑盒攻击方法的基本流程示意图；

图2为本发明的一些实施例中的针对连续动作空间下深度强化学习的黑盒攻击方法的攻击智能体的具体流程示意图；

图3为本发明的一些实施例中的针对连续动作空间下深度强化学习的黑盒攻击方法的的基本原理示意图；

图4为本发明的一些实施例中的针对连续动作空间下深度强化学习的黑盒攻击装置的结构示意图；

图5为本发明的一些实施例中的电子设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

需要说明的是，在深度强化学习中，强化学习是从环境状态到动作空间的映射的一种学习。它的基础是马尔可夫决策过程（MDP），即：当前状态只与上一个状态有关，不考虑上一个状态之前的累积影响。通常MDP被定义为一个四元组（S,A,R,P）：S代表状态空间，S_t表示agent在t时刻所处的状态。A代表动作空间，a_t表示agent（智能体）在t时刻所进行的动作。R代表奖励／惩罚reward，可以代表一个学习过程的反馈，其中r_t+1代表在t时刻St状态下，做出a_t动作后，转移到达S_t+1状态所获得的奖励。P代表策略空间，代表符号为π，表示从状态空间S到动作空间A的一个映射。表示为agent在状态S_t选择a_t，执行该动作并以一定的概率转移到下一个状态S_t+1。除了四元组，强化学习还有两个重要的函数，分别为值函数和Q函数。两个函数均代表求解的一个累积奖励，即agent的目标并非当前的奖励最大，而是平均累积奖励最大。值函数，通常用V(s)表示，代表在状态s下采用策略的长期累积奖励。Q函数，考虑了当前状态(值函数)和下一步动作(策略函数)。然后根据状态-动作组合，返回了累积奖励，表示为Q(s,a)。

参考图1与图3，在本发明的第一方面，提供了一种针对连续动作空间下深度强化学习的黑盒攻击方法，包括：S100.获取深度强化学习模型的状态空间参数、动作空间参数和学习策略，并根据所述状态空间参数和动作空间参数构建置信下界树；S200.基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体；S300.收集智能体在每个时间步内的环境信息、动作和环境奖励，并形成轨迹数据；S400.基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂；基于判断结果，更新置信下界树的每个叶子节点的置信下界。

在本发明的实施例的步骤S100中，所述根据所述状态空间参数和动作空间参数构建置信下界树包括：基于所述状态空间参数和动作空间参数，分别计算动作相似半径和状态相似半径；根据所述状态相似半径划分状态空间；根据所述状态空间参数、动作空间参数、动作相似半径和预设马尔可夫过程的总步长，构建置信下界树。

具体地，步骤S100包括如下步骤：

步骤S110.设置超参数状态空间划分的份数、动作空间划分的份数/>、折扣因子/>、动作距离因数/>、马尔可夫过程的总步长H。

步骤S120.获取原始深度强化学习算法所用的状态空间和动作空间/>的维度信息和最大最小值相关信息;

步骤S130.依据最大动作和最小动作/>的欧式距离以及动作空间划分的份数/>，计算动作的相似半径/>。计算公式：/>;

步骤S140.依据最大状态和最小状态/>的欧式距离以及状态空间划分的份数/>，计算状态的相似半径/>。计算公式：/>;

步骤S150.依据状态相似半径将状态空间等距划分为/>个空间，每个空间的中心点记录为/>;

步骤S160.导入攻击者事先准备好的目标动作策略;

步骤S170.根据S110~S150信息建立棵LCBT树，分别为/>,每棵树的每个节点含有/>维的/>值和/>值，分别与S150中/>个空间的中心点相关联，同时每个节点表示一段动作空间，父节点的动作空间是其子节点表示的动作空间之和。每个节点的/>值表示当前节点所表示的动作区间在状态/>下的置信下界。特别地，每个节点的/>值表示当前节点所表示的动作区间在状态/>下的置信下界，其置信度为/>。每个节点的/>值是综合考量当前节点及其子节点/>值得到的更紧凑的置信下界。

参考图2与图3在本发明的一些实施例的步骤S200中，所述基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体包括：S201.分别获取智能体在每个时间步内深度强化学习模型的学习策略和目标策略/>下，根据当前环境信息作出的动作信号/>和/>；

具体地，对于每个时间步，获取原始深度强化学习策略/>依据当前环境状态信息/>做出的动作信号/>。对于每个时间步/>，获取目标动作策略依据当前环境状态信息/>做出的动作信号/>。

S202.基于欧式距离，通过动作信号和/>的相似度判断是否需要攻击智能体。具体地，依据步骤S100中得到的动作相似半径/>与/>以及/>直接的欧式距离，判断/>与/>是否是相似动作，判断公式如下：/>。

进一步的，在步骤S102中，所述基于欧式距离，通过动作信号和/>的相似度判断是否需要攻击智能体包括：S1021.若/>和/>相似，则判断不向智能体发起攻击；

具体地，如果与/>属于相似动作，则攻击方认为当前深度强化学习算法选择的是攻击者目标策略想要的动作，即满足攻击者意图，不需要发动攻击，并记录当前动作的权重,因此最终进入环境的动作为/>。跳转步骤S1022。

S1022.否则，则从置信下界树中检索出前状态信息最差动作/>，并根据最差动作向智能体发起攻击。

具体地，如果与/>不属于相似动作，则攻击方认为当前深度强化学习算法选择的不是攻击者目标策略想要的动作，即不满足攻击者意图，需要发动攻击，在LCBT下检索当前状态信息/>最差动作/>,并记录当前动作的权重/>,最终进入环境的动作为/>。

进一步地，上述对智能体的攻击步骤包括：依据步骤S150得到的空间中心点集合，找到与/>最接近的中心点/>。依据时间步/>，找到S170中的第/>棵树/>。依据得到状态空间中心点标号/>，后根据树/>每个节点的/>值，找到树/>其中/>值最小的叶子节点，并将该节点表示的动作空间的中心动作作为/>返回。可以理解，上述攻击动作是根据置信下界树给出用于攻击的动作信号（向智能体发出动作信号）。

在本发明的一些实施例的步骤S300中，收集智能体在每个时间步内的环境信息、动作和环境奖励，并形成轨迹数据。具体地，原始算法将动作作用于环境获得奖励/>，攻击算法收集/>作为步骤四的更新数据。

更具体地，S300子步骤如下：

步骤S310每轮训练中共有H个时间步，针对每个时间步,收集此时进入深度强化学习算法的状态/>

步骤S320收集S200中的得到的最终动作信号

步骤S330将作用于环境中，获得相应的价值奖励/>，并做保存。

步骤S340将每个时间步下的数据进行保存并在当前轮结束后形成一条轨迹/>供步骤S400使用。

在本发明的一些实施例的步骤S400中，所述基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂包括：S401.基于一段或多段轨迹数据，计算当前时间步内，所述置信下界树中每个节点的累计奖励；

具体地，根据轨迹，逆序选择时间步/>。更新累计奖励,计算奖励折扣因子/>。

S402.基于预设的奖励折扣因子、动作距离因子，判断每个叶子节点是否分裂。进一步的，所述基于判断结果，更新置信下界树的每个叶子节点的置信下界包括：所述基于判断结果和累计奖励，更新置信下界树的每个叶子节点及其子节点的信下界；更具体来将，更新置信下界树的每个叶子节点所表示动作区间的价值置信下界。

具体地，S4021.将动作所处树/>的节点/>（/>为当前节点所处树的深度，/>为当前深度下的第/>个节点，即通过/>可以找到当前树的唯一节点）的访问次数加一即：；

S4022.基于S401和S4021的结果，依据下列公式计算当前节点在时间步下的/>值，；

S4023.判断当前S402访问的叶节点是否需要进一步分割为两个子节点，根据下列表达式：,

其中表示当前正在进行第/>轮训练，/>表示当前/>棵LCBT树的总的节点个数。若满足此表达式这对当前节点进行分割。

S403.根据更新后的每个叶子节点及其子节点的信下界，确定每个叶子节点的最终置信下界。

更新当前时间步对应的树/>下的每一个节点的L值，；

更新当前时间步对应的树/>下的每一个节点的B值,如果当前节点为叶子节点，；如果当前节点不是叶子节点，/>。

综上所述，攻击者在原始算法和环境之间扮演者第三方的角色，通过在两者之间不断的截取信息更新以及学习和更新攻击方对两者的了解程度。本发明考虑相近动作在实现场景中具有相似效果的基本假设，提出LCBT的构造算法，通过分割连续的动作空间来量化连续的动作域，不断更新和计算节点动作区间段在状态下价值置信下界，以此找到当前状态下的置信最差动作，通过使用最差动作替换非目标策略给定动作，来实现误导原深度强化学习对动作价值的判断，从而实现诱导深度强化学习算法学习到攻击者给定的目标策略。

实施例2

参考图4，本发明的第二方面，提供了一种针对连续动作空间下深度强化学习的黑盒攻击装置1，包括：获取模块11，用于获取深度强化学习模型的状态空间参数、动作空间参数和学习策略，并根据所述状态空间参数和动作空间参数构建置信下界树；判断模块12，用于基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体；收集模块13，用于收集智能体在每个时间步内的环境信息、动作和环境奖励，并形成轨迹数据；更新模块14，用于基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂；基于判断结果，更新置信下界树的每个叶子节点的置信下界。

进一步的，所述判断模块12包括：获取单元，用于分别获取智能体在每个时间步内深度强化学习模型的学习策略和目标策略/>下，根据当前环境信息作出的动作信号/>和/>；判断单元，用于基于欧式距离，通过动作信号/>和/>的相似度判断是否需要攻击智能体。

实施例3

参考图5，本发明的第三方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明在第一方面的针对连续动作空间下深度强化学习的黑盒攻击方法。

电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开的实施例的方法中限定的上述功能。需要说明的是，本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。需要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对连续动作空间下深度强化学习的黑盒攻击方法，面向自动驾驶场景，其特征在于，包括：

获取深度强化学习模型的状态空间参数、动作空间参数和学习策略，并根据所述状态空间参数和动作空间参数构建置信下界树；所述根据所述状态空间参数和动作空间参数构建置信下界树包括：基于所述状态空间参数和动作空间参数，分别计算动作相似半径和状态相似半径；根据所述状态相似半径划分状态空间；根据所述状态空间参数、动作空间参数、动作相似半径和预设马尔可夫过程的总步长，构建置信下界树;

基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体；

收集智能体在每个时间步内的环境信息、动作和环境奖励，并形成轨迹数据；

基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂:基于一段或多段轨迹数据，计算当前时间步内，所述置信下界树中每个节点的累计奖励；基于预设的奖励折扣因子、动作距离因子，判断每个叶子节点是否分裂;基于判断结果，更新置信下界树的每个叶子节点的置信下界:基于判断结果和累计奖励，更新置信下界树的每个叶子节点及其子节点的置信下界；根据更新后的每个叶子节点及其子节点的置信下界，确定每个叶子节点的最终置信下界。

2.根据权利要求1所述的针对连续动作空间下深度强化学习的黑盒攻击方法，其特征在于，所述基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体包括：

分别获取智能体在每个时间步内深度强化学习模型的学习策略π和目标策略π⁺下，根据当前环境信息作出的动作信号和/>；

基于欧式距离，通过动作信号和/>的相似度判断是否需要攻击智能体。

3.根据权利要求2所述的针对连续动作空间下深度强化学习的黑盒攻击方法，其特征在于，所述基于欧式距离，通过动作信号和/>的相似度判断是否需要攻击智能体包括：

若和/>相似，则判断不向智能体发起攻击；否则，则从置信下界树中检索出前状态信息/>最差动作/>，并根据最差动作/>向智能体发起攻击。

4.一种针对连续动作空间下深度强化学习的黑盒攻击装置，面向自动驾驶场景，其特征在于，包括：

获取模块，用于获取深度强化学习模型的状态空间参数、动作空间参数和学习策略，并根据所述状态空间参数和动作空间参数构建置信下界树；所述根据所述状态空间参数和动作空间参数构建置信下界树包括：基于所述状态空间参数和动作空间参数，分别计算动作相似半径和状态相似半径；根据所述状态相似半径划分状态空间；根据所述状态空间参数、动作空间参数、动作相似半径和预设马尔可夫过程的总步长，构建置信下界树;

判断模块，用于基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体；

收集模块，用于收集智能体在每个时间步内的环境信息、动作和环境奖励，并形成轨迹数据；

更新模块，用于基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂: 基于一段或多段轨迹数据，计算当前时间步内，所述置信下界树中每个节点的累计奖励；基于预设的奖励折扣因子、动作距离因子，判断每个叶子节点是否分裂;基于判断结果，更新置信下界树的每个叶子节点的置信下界:基于判断结果和累计奖励，更新置信下界树的每个叶子节点及其子节点的置信下界；根据更新后的每个叶子节点及其子节点的置信下界，确定每个叶子节点的最终置信下界。

5.根据权利要求4所述的针对连续动作空间下深度强化学习的黑盒攻击装置，其特征在于，所述判断模块包括：

获取单元，用于分别获取智能体在每个时间步内深度强化学习模型的学习策略和目标策略/>下，根据当前环境信息作出的动作信号/>和/>；

判断单元，用于基于欧式距离，通过动作信号和/>的相似度判断是否需要攻击智能体。

6.一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至3任一项所述的针对连续动作空间下深度强化学习的黑盒攻击方法。

7.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的针对连续动作空间下深度强化学习的黑盒攻击方法。