CN113487870B

CN113487870B - 一种基于cw攻击对智能单交叉口的对抗扰动生成方法

Info

Publication number: CN113487870B
Application number: CN202110814806.4A
Authority: CN
Inventors: 徐东伟; 李呈斌; 王达; 周磊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2022-07-15
Anticipated expiration: 2041-07-19
Also published as: CN113487870A

Abstract

一种基于CW攻击对智能单交叉口的对抗扰动生成方法，根据现有的深度强化学习中的DQN算法训练控制单交叉口的自适应的智能交通灯模型，根据智能交通灯模型对当前相位的偏好程度判断当前状态是否具有攻击价值，利用基于CW攻击结合优化梯度排序以及输入状态(即车辆在相应路段的空间分布)的离散性生成对抗样本，最后通过在SUMO中交通流的流畅程度，车辆队列长度以及总体等待时间的变化检验攻击效果。本发明减少了攻击被发现的概率，且攻击效果好。

Description

一种基于CW攻击对智能单交叉口的对抗扰动生成方法

技术领域

本发明属于智能交通的强化学习算法与模型的安全研究领域，具体涉及一种基于CW攻击对智能单交叉口的对抗扰动生成方法。

背景技术

随着人工智能技术的飞速发展，AI技术被应用到越来越多的方面。深度强化学习作为人工智能方面的一个新兴技术，由于其巨大的潜力，开始受到了学者和技术人员们越来越多的关注。强化学习在机器学习，智能交通，知识感知等方面都取得了一系列的成果。

在智能交通领域，因为近些年来我国的机动车保有量不断上升，导致车辆拥堵问题成为交通管理面临的巨大挑战，而现有的基础道路设施由于经济、环境等原因而难以全面的改造，所以将深度强化学习技术应用于交通灯的优化控制成为解决交通拥堵问题的一条有效途径，通过交通灯的自适应控制，可以优化区域网络的交通，减少拥堵。

尽管深度强化学习算法在很多任务中表现出了出色的性能，但它们和神经网络一样极易受到对抗性攻击，例如：引诱攻击、策略定时攻击、嗅探攻击、基于值函数的对抗攻击、木马攻击等。但是，针对使用深度强化学习优化的交通灯的对抗攻击，目前仍是一个开放的问题，尚未得到充分的探讨和研究。

发明内容

为了克服已有技术的不足，本发明提出一种基于CW攻击对智能单交叉口的对抗扰动生成方法，可以对智能交通灯进行定向的攻击。

本发明解决其技术问题所采用的技术方案是：

一种基于CW攻击对智能单交叉口的对抗扰动生成方法，包括以下步骤：

步骤1：使用开源交通仿真软件SUMO建立一个单交叉口网络，将SUMO建立的单交叉口结合强化学习中的DQN算法建模为单智能体交通灯模型，对模型进行训练，当智能交通灯模型最后的总回报相对稳定时，保存模型参数，模型训练完成；

步骤2：采集单交叉口中相应路段车辆的空间分布输入状态，将当前时刻状态输入到智能交通灯模型中，生成对应动作的Q值，根据动作偏好函数衡量当前状态下策略对动作的偏好程度，偏好程度高即攻击该时刻成功后会在更大程度上扰乱交通，当偏好程度超过设定的阈值，则使用CW攻击算法对输入状态进行攻击，生成对抗扰动，将对抗扰动与原始状态相结合生成中间状态；智能交通灯模型根据中间状态选取动作，若所选动作与原始状态的Q值向量中最小项对应的动作相同，则中间状态即为对抗状态，否则使用CW攻击算法对中间状态进行攻击再次生产对抗扰动，直到产生对抗状态；

步骤3：为了对扰动的大小进行限制，需要对攻击成功后产生的对抗状态进行判定，若添加的扰动超过阈值则舍弃对抗状态，将原始状态输入智能交通灯模型；

步骤4：将状态输入智能交通灯模型，智能交通灯根据当前状态选取动作，即交通灯的相位，在SUMO中对交通流量进行控制。

进一步，所述步骤1的过程如下：

1.1：在单交叉口上使用强化学习算法训练智能交通灯模型，强化学习算法包含三个最基本的要素：环境状态、智能体动作、环境奖励，对t时刻单交叉口的车辆分布进行离散化编码，将单交叉口中i路段入口处至停车线处按等距离划分k份；

根据

i＝(1,2……p))，得到i路段的位置矩阵

将此路口路段s_i(t)(i＝1,2……p)的位置矩阵按照s_t＝[s₁(t),s₂(t),……s_p(t)]结合得到这个单交叉口所有车辆的位置矩阵，即t时刻的环境状态s_t；

十字交叉路口中，定义一组交通灯的相位作为动作空间A＝{a₁,a₂,a₃,a₄}，其中：a₁为东西方向绿灯，a₂为东西方向左转绿灯，a₃为南北方向绿灯，a₄为南北方向左转绿灯，在运行时设a_i的相位的初始时长为m，黄灯相位时长为n，在t时刻将当前状态s_t输入到智能交通灯模型中，智能交通灯选择相位a_i，当a_i相位执行完毕后，智能交通灯从环境中采集t+1时刻的状态s_t+1，然后选择相位a_j，若a_i≠a_j则a_i相位执行时间不再延长，即a_i相位结束，在a_i相位结束后智能交通灯执行黄灯相位，在黄灯相位结束后，执行a_j相位；若a_i＝a_j，则a_i相位执行时间延长m；将奖励设置为两个连续动作的车辆总累积延迟之差，如公式(1)所示：

r_t＝D_t-D_t+1 (1)

其中D_t和D_t+1分别为当前时刻和前一时刻的车辆总累积延迟，若r_t为正奖励表示智能交通灯采取的相位减少了总累积延迟，负奖励则表示增加了延迟；

所使用的模型为：DQN，神经网络的组成为：第一层为卷积层，卷积层的数学表达式为：

其中C_out为经过卷积层产生的矩阵，s_t为被卷积的状态输入矩阵，H为卷积核，s_t(m,n)为输入矩阵中被卷积的点，w(m,n)为卷积核中各个点的权值，b(m,n)为卷积核中各个点的偏置；

第二层为最大池化层，最大池化层的数学表达式为：

P_out＝max_p*p(C_out) (3)

其中P_out为经过最大池化的输出，max_p*p表示使用大小为p*p的池化核对C_out进行最大池化；

第三层至第六层为全连接层，全连接层的数学表达式为：

Z_outi＝w^TP_out+b (4)

其中Z_outi为第i层全连接层的输出，w^T为神经元权重矩阵，b为神经元偏置，其中第一层至第五层使用整流非线性函数ReLu作为激活函数，第六层即输出层使用线性激活函数；

第六层全连接层为最终输出层输出Z_out6即一个Q值向量，每个向量项对应于状态s_t下动作a∈A的Q值Q(s_t,a；θ)，其中θ为模型参数；

对智能交通灯模型进行训练，使用损失函数：

其中γ为代表奖励的折扣因子，r_t为t时刻的奖励，s_t和s_t+1分别为t时刻和t+1时刻的状态，θ′代表目标网络的参数，θ代表估计网络的参数，在不同的交通流量下进行训练，训练完成后获得总回报

若智能体于环境的交互至T时刻终止，其中r_j为训练过程中获得的所有奖励r_t(t＝1,2……T)中为负值的部分，总回报R的绝对值越小，即智能交通灯在这一轮中对交通流进行自适应调控所产生的延迟最小，当总回报R相对稳定时，认为训练完成。

再进一步，所述步骤2的过程如下：

2.1：在t时刻从SUMO中得到原始状态s_t；

2.2：将原始状态输入模型中输出所有动作的Q值函数，称

为最优动作，即在t时刻交通灯执行最优动作所表示的相位可以在最大程度上减少拥堵情况的发生；

为最差动作，即在t时刻交通灯执行最差动作所表示的相位会在最大程度上导致拥堵情况的发生；

2.3：对Q值进行归一化处理，计算公式为：

其中Q(st,a_i)为在状态s_t是选择动作a_i的Q值，π(s_t,a_i)为Q(s_t,a_i)归一化的值；

根据动作偏好函数：

其中π(s_t,a_max)为最优动作的Q值Q(s_t,a_max)归一化的值，π(s_t,a_i)为最差动作的Q值Q(s_t,a_min)归一化的值，计算当前状态下策略对最优动作的偏好程度C(s_t)，C(s_t)越高则认为t时刻攻击成功后，所产生的攻击效果越好，则设常数β(0＜β＜1)为阈值，若C(s_t)＞β，则认为当前状态有攻击价值，进行攻击；若C(s_t)≤β，则不进行攻击；

2.4：使用CW攻击算法计算扰动，计算公式为:

其中s_t为t时刻状态，

对状态s_t添加扰动之后的中间状态，

为中间状态

对于动作

为对抗扰动，通过调整κ控制发生误分类的置信度，公式(8)的前半部分优化使扰动更小，后半部分优化使攻击向指定的状态改变，两个部分不可以同时实现的，所以使用c作为超参数，用来权衡式子中前后两部分的关系，使用二分法进行确定；

根据扰动的绝对值大小

对扰动进行排序，设扰动

在矩阵|W_t|中索引为h_tj，扰动的绝对值

越大，则h_tj在t时刻的排序矩阵H_t中的索引越小，由此得到排序矩阵H_t＝[h_t1,h_t1......h_t1]；

2.5：顺序读取排序矩阵H_t，根据排序矩阵中h_ti读取扰动W_t中

因为状态s_t为车辆的在相应路段的空间分布，具有离散性，需要对

进行离散化处理

其中ε＝0.5，sign表示取

的符号，将

与原始状态s_t的第h_ti位

进行比较，若

且扰动的索引h_ti未被记录则认为扰动是有效的，将有效扰动的索引记录在索引矩阵K_t中，索引矩阵K_t的作用是记录有效的扰动，防止攻击陷入震荡；然后将

的值赋给原始状态s_t的第hi位

得到中间状态

若

或扰动的索引h_ti已经被记录索引矩阵Kt中，则认为此时的扰动是无效的，则重复执行步骤2.5，直至扰动有效；

2.6：将中间状态

输入模型中，模型输出的最优动作

若

其中

为状态

输入模型中对应的Q值输出，a_min为原始状态的最差动作，即中间状态的最优动作与原始状态的最差动作为同一动作，则认为攻击成功，此时中间状态即为对抗状态s_t'；

2.7：若a'_max≠a_min，则将中间状态作为新的状态输入模型，直至找到对抗状态，重复执行步骤2.2-步骤2.6，遍历排序矩阵H后仍然未达到目标，则认为攻击失败；

2.8：若攻击成功记录对抗状态，以及根据原始状态

及对抗状态

计算扰动ρ：

然后根据二分法对步骤2.4中的c值进行更改；

2.9：重复执行步骤2.2-步骤2.8设定次数，获取在不同c值下的对抗状态，目的是找出最合适的c值，使得在扰动最小的情况下，攻击成功，在所有攻击成功的对抗状态中选择改变量最小的对抗状态。

所述步骤3的过程如下：

得到对抗状态及其扰动ρ，设扰动的阈值为α，若ρ＜α，则认为扰动在限制范围之内，将对抗状态输入模型中，否则认为扰动过大，将原始状态输入到模型中。

更进一步，所述步骤4的过程如下：

4.1：将t时刻的状态输入到模型中模型会选择最优的交通灯相位控制路口车流量，并计算t时刻单交叉口的排队长度l_t以及等待时间w_t，l_t和w_t越小代表单交叉口越流畅模型性能越好；

4.2：在SUMO运行结束后得到攻击后的回报

攻击后总回报与无攻击的正常回报对比发现：|R'|>|R|，若智能体于环境的交互至T'时刻终止,其中r_j'为有攻击的情况下获得的所有奖励r_t'(t＝1,2……T')中为负值的部分，R'为攻击之后的总回报，R为正常情况下的总回报。

本发明的技术构思为：根据现有的深度强化学习中的DQN算法训练控制单交叉口的自适应的智能交通灯模型，根据智能交通灯模型对当前相位的偏好程度判断当前状态是否具有攻击价值，利用基于CW攻击结合优化梯度排序以及输入状态(即车辆在相应路段的空间分布)的离散性生成对抗样本，最后通过在SUMO中交通流的流畅程度，车辆队列长度以及总体等待时间的变化检验攻击效果。

本发明的有益效果主要体现在：利用策略定时攻击根距当前状态生成对抗状态，可以实现对交通灯的定向攻击，与一般的攻击相比，攻击次数少，减少了攻击被发现的概率，且攻击效果好，此外结合输入状态(即车辆在相应路段的空间分布)的离散性对策略定时攻击进行改进，可以在攻击具有实际物理意义且较小扰动下攻击成功。

附图说明

图1是标准单交叉口示意图。

图2是路段的空间离散化示意图。

图3是强化学习示意图。

图4是CW攻击生成对抗扰动总体流程图。

图5是车辆等待队列长度对比图。

图6是交车辆等待时间对比图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图6，一种基于CW攻击对智能单交叉口的对抗扰动生成方法，包括以下步骤：

步骤1：在单交叉口上使用强化学习算法训练智能交通灯模型，标准单交叉口如图1所示，强化学习是一种和环境进行交互进而互相影响的算法，如图3所示，综合而言强化学习算法包含三个最基本的要素：环境状态、智能体动作、环境奖励，对t时刻单交叉口的车辆分布进行离散化编码，将单交叉口中i路段入口处至停车线处按等距离划分k份，如图2所示；

根据

i＝(1,2……p))，得到i路段的位置矩阵

将此路口路段s_i(t)的位置矩阵按照s_t＝[s₁(t),s₂(t),……s_p(t)]结合得到这个单交叉口所有车辆的位置矩阵，即t时刻的环境状态s_t；

以典型十字交叉路口为例进行说明，定义一组交通灯的相位作为动作空间A＝{a₁,a₂,a₃,a₄}，其中：a₁为东西方向绿灯，a₂为东西方向左转绿灯，a₃为南北方向绿灯，a₄为南北方向左转绿灯，在运行时设a_i的相位的初始时长为m，黄灯相位时长为n。在t时刻将当前状态s_t输入到智能交通灯模型中，智能交通灯选择相位a_i，当a_i相位执行完毕后，智能交通灯从环境中采集t+1时刻的状态s_t+1，然后选择相位a_j。若a_i≠a_j则a_i相位执行时间不再延长，即a_i相位结束，在a_i相位结束后智能交通灯执行黄灯相位，在黄灯相位结束后，执行a_j相位；若a_i＝a_j，则a_i相位执行时间延长m；将奖励设置为两个连续动作的车辆总累积延迟之差，如公式(1)所示：

r_t＝D_t-D_t+1 (1)

所使用的模型为：Deep Q Network(DQN)，神经网络的组成为：第一层为卷积层，卷积层的数学表达式为：

第二层为最大池化层，最大池化层的数学表达式为：

P_out＝max_p*p(C_out) (3)

第三层至第六层为全连接层，全连接层的数学表达式为：

Z_outi＝w^TP_out+b (4)

其中Z_outi为第i层全连接层的输出，w^T为神经元权重矩阵，b为神经元偏置，其中第一层至第五层使用整流非线性函数(ReLu)作为激活函数，第六层即输出层使用线性激活函数；

对智能交通灯模型进行训练，使用损失函数：

若智能体于环境的交互至T时刻终止，其中r_j为训练过程中获得的所有奖励r_t(t＝1,2……T)中为负值的部分，总回报R的绝对值越小，即智能交通灯在这一轮中对交通流进行自适应调控所产生的延迟最小，当总回报R相对稳定时，认为训练完成；

步骤2从SUMO中获取t时刻位于相应路段(车辆进入路口的道路)的所有车辆的空间分布，通过网格化道路将车辆的空间分布离散化为模型的输入状态s_t，如图4所示，将输入状态输入到智能交通灯模型中生成对应的输出动作a_i即交通灯相位，利用CW攻击算法，得到对抗状态，过程如下：

2.1：在t时刻从SUMO中得到原始状态s_t；

2.2：将原始状态输入模型中输出所有动作的Q值函数，称

2.3：对Q值进行归一化处理，计算公式为：

其中Q(s_t,a_i)为在状态s_t是选择动作a_i的Q值，π(s_t,a_i)为Q(s_t,a_i)归一化的值；

根据动作偏好函数：

2.4：使用CW攻击算法计算扰动，计算公式为:

其中s_t为t时刻状态，

对状态s_t添加扰动之后的中间状态，

为中间状态

对于动作

的Q值，

为对抗扰动，通过调整κ控制发生误分类的置信度。公式(8)的前半部分优化使扰动更小，后半部分优化使攻击向我们指定的状态改变，两个部分不可以同时实现的，所以使用c作为超参数，用来权衡式子中前后两部分的关系，在实验中使用二分法进行确定；

根据扰动的绝对值大小

对扰动进行排序，设扰动

在矩阵|W_t|中索引为h_tj，扰动的绝对值

越大，则h_tj在t时刻的排序矩阵H_t中的索引越小。由此得到排序矩阵H_t＝[h_t1,h_t1......h_t1]；

2.5：顺序读取排序矩阵H_t，根据排序矩阵中h_ti读取扰动W_t中

进行离散化处理

其中ε＝0.5，sign表示提取取

的符号。将

与原始状态s_t的第h_ti位

进行比较，若

且扰动的索引h_ti未被记录则认为扰动是有效的，将有效扰动的索引记录在索引矩阵K_t中，索引矩阵K_t的作用是记录有效的扰动，防止攻击陷入震荡。然后将

的值赋给原始状态s_t的第hi位

得到中间状态

若

2.6：将中间状态

输入模型中，模型输出的最优动作

若

其中

为状态

2.8：若攻击成功记录对抗状态，以及根据原始状态

及对抗状态

计算扰动ρ：

然后根据二分法对步骤2.4中的c值进行更改；

2.9：重复执行步骤2.2-步骤2.8设定次数，获取在不同c值下的对抗状态，目的是找出最合适的c值，使得在扰动最小的情况下，攻击成功，在所有攻击成功的对抗状态中选择改变量最小的对抗状态；

步骤3：为了对扰动的大小进行限制，需要对攻击成功后产生的对抗状态进行判定，若添加的扰动超过阈值则舍弃对抗状态，将原始状态输入智能交通灯模型，过程如下：得到对抗状态及其扰动ρ，设扰动的阈值为α，若ρ＜α，则认为扰动在限制范围之内，将对抗状态输入模型中，否则认为扰动过大，将原始状态输入到模型中；

步骤4：将对抗状态即输入模型中，智能交通灯模型根据当前状态选取动作即交通灯相位，在SUMO中对交通流进行控制，过程如下：

4.2：在SUMO运行结束后得到攻击后的回报

实例：实际实验中的数据，过程如下：

(1)选取实验数据

实验中使用的神经网络结构包括:1个卷积层，1个池化层，4个全连接层。

其中卷积层的输入为100*8，卷积核大小为3*3，卷积核数目为16，池化层使用最大池化，池化核大小为2*2，全连接层的大小分别为：1000、400、400、4。

实验数据是由SUMO上的单交叉口随机生成的100辆汽车，按照韦伯分布确定出发进入路口的时间，各辆汽车大小、生成位置距离单交叉口的距离和汽车从生成到通过路口的速度都是相同的。单交叉口交通灯相位的初始时长为绿灯10秒，黄灯4秒，当单交叉口有一个行驶方向为绿灯或黄灯时，其他方向为红灯禁止通行。从停车线开始长度700的道路i(i＝1，2，3，4)按照每隔L米划分一个离散单元，共划分为k个的离散单元，在当车辆头部位于某个离散单元时，则车辆位置矩阵对应位置为0.5，否则为-0.5，其中L的取值要适中，L值过大则不能完全表述车辆的空间分布，L值过小会导致车辆状态多次检测造成计算量增大。在本次实验中考虑到车辆长度以及车辆在行驶时的跟车距离，选择将长度为700道路i按照L＝10等距离划分，划分的离散单元数量k＝100，最终得到状态s_t为100*8的二维矩阵，记录车辆在相应路段的空间分布。在本次实验中取α＝0.2，即扰动的大小ρ＜20％时，认为扰动是可以接受的。

(2)实验结果

在实验的结果分析中，我们的实验场景设置为为规则的单交叉口，使用强化学习中的DQN算法训练智能交通灯模型，采用CW攻击算法结合智能交通灯模型输入状态的离散性，生成对抗状态，对单交叉口交通灯采集的车辆的空间分布进行改变，导致智能交通灯错误调节相位，使得单交叉口拥堵。在实验中我们采取了有攻击和无攻击情况下的对比结果，实验结果如图5，图6所示。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。