CN113487870B - 一种基于cw攻击对智能单交叉口的对抗扰动生成方法 - Google Patents

一种基于cw攻击对智能单交叉口的对抗扰动生成方法 Download PDF

Info

Publication number
CN113487870B
CN113487870B CN202110814806.4A CN202110814806A CN113487870B CN 113487870 B CN113487870 B CN 113487870B CN 202110814806 A CN202110814806 A CN 202110814806A CN 113487870 B CN113487870 B CN 113487870B
Authority
CN
China
Prior art keywords
state
attack
disturbance
value
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110814806.4A
Other languages
English (en)
Other versions
CN113487870A (zh
Inventor
徐东伟
李呈斌
王达
周磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110814806.4A priority Critical patent/CN113487870B/zh
Publication of CN113487870A publication Critical patent/CN113487870A/zh
Application granted granted Critical
Publication of CN113487870B publication Critical patent/CN113487870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于CW攻击对智能单交叉口的对抗扰动生成方法,根据现有的深度强化学习中的DQN算法训练控制单交叉口的自适应的智能交通灯模型,根据智能交通灯模型对当前相位的偏好程度判断当前状态是否具有攻击价值,利用基于CW攻击结合优化梯度排序以及输入状态(即车辆在相应路段的空间分布)的离散性生成对抗样本,最后通过在SUMO中交通流的流畅程度,车辆队列长度以及总体等待时间的变化检验攻击效果。本发明减少了攻击被发现的概率,且攻击效果好。

Description

一种基于CW攻击对智能单交叉口的对抗扰动生成方法
技术领域
本发明属于智能交通的强化学习算法与模型的安全研究领域,具体涉及一种基于CW攻击对智能单交叉口的对抗扰动生成方法。
背景技术
随着人工智能技术的飞速发展,AI技术被应用到越来越多的方面。深度强化学习作为人工智能方面的一个新兴技术,由于其巨大的潜力,开始受到了学者和技术人员们越来越多的关注。强化学习在机器学习,智能交通,知识感知等方面都取得了一系列的成果。
在智能交通领域,因为近些年来我国的机动车保有量不断上升,导致车辆拥堵问题成为交通管理面临的巨大挑战,而现有的基础道路设施由于经济、环境等原因而难以全面的改造,所以将深度强化学习技术应用于交通灯的优化控制成为解决交通拥堵问题的一条有效途径,通过交通灯的自适应控制,可以优化区域网络的交通,减少拥堵。
尽管深度强化学习算法在很多任务中表现出了出色的性能,但它们和神经网络一样极易受到对抗性攻击,例如:引诱攻击、策略定时攻击、嗅探攻击、基于值函数的对抗攻击、木马攻击等。但是,针对使用深度强化学习优化的交通灯的对抗攻击,目前仍是一个开放的问题,尚未得到充分的探讨和研究。
发明内容
为了克服已有技术的不足,本发明提出一种基于CW攻击对智能单交叉口的对抗扰动生成方法,可以对智能交通灯进行定向的攻击。
本发明解决其技术问题所采用的技术方案是:
一种基于CW攻击对智能单交叉口的对抗扰动生成方法,包括以下步骤:
步骤1:使用开源交通仿真软件SUMO建立一个单交叉口网络,将SUMO建立的单交叉口结合强化学习中的DQN算法建模为单智能体交通灯模型,对模型进行训练,当智能交通灯模型最后的总回报相对稳定时,保存模型参数,模型训练完成;
步骤2:采集单交叉口中相应路段车辆的空间分布输入状态,将当前时刻状态输入到智能交通灯模型中,生成对应动作的Q值,根据动作偏好函数衡量当前状态下策略对动作的偏好程度,偏好程度高即攻击该时刻成功后会在更大程度上扰乱交通,当偏好程度超过设定的阈值,则使用CW攻击算法对输入状态进行攻击,生成对抗扰动,将对抗扰动与原始状态相结合生成中间状态;智能交通灯模型根据中间状态选取动作,若所选动作与原始状态的Q值向量中最小项对应的动作相同,则中间状态即为对抗状态,否则使用CW攻击算法对中间状态进行攻击再次生产对抗扰动,直到产生对抗状态;
步骤3:为了对扰动的大小进行限制,需要对攻击成功后产生的对抗状态进行判定,若添加的扰动超过阈值则舍弃对抗状态,将原始状态输入智能交通灯模型;
步骤4:将状态输入智能交通灯模型,智能交通灯根据当前状态选取动作,即交通灯的相位,在SUMO中对交通流量进行控制。
进一步,所述步骤1的过程如下:
1.1:在单交叉口上使用强化学习算法训练智能交通灯模型,强化学习算法包含三个最基本的要素:环境状态、智能体动作、环境奖励,对t时刻单交叉口的车辆分布进行离散化编码,将单交叉口中i路段入口处至停车线处按等距离划分k份;
根据
Figure BDA0003169633870000031
i=(1,2……p)),得到i路段的位置矩阵
Figure BDA0003169633870000032
将此路口路段si(t)(i=1,2……p)的位置矩阵按照st=[s1(t),s2(t),……sp(t)]结合得到这个单交叉口所有车辆的位置矩阵,即t时刻的环境状态st
十字交叉路口中,定义一组交通灯的相位作为动作空间A={a1,a2,a3,a4},其中:a1为东西方向绿灯,a2为东西方向左转绿灯,a3为南北方向绿灯,a4为南北方向左转绿灯,在运行时设ai的相位的初始时长为m,黄灯相位时长为n,在t时刻将当前状态st输入到智能交通灯模型中,智能交通灯选择相位ai,当ai相位执行完毕后,智能交通灯从环境中采集t+1时刻的状态st+1,然后选择相位aj,若ai≠aj则ai相位执行时间不再延长,即ai相位结束,在ai相位结束后智能交通灯执行黄灯相位,在黄灯相位结束后,执行aj相位;若ai=aj,则ai相位执行时间延长m;将奖励设置为两个连续动作的车辆总累积延迟之差,如公式(1)所示:
rt=Dt-Dt+1 (1)
其中Dt和Dt+1分别为当前时刻和前一时刻的车辆总累积延迟,若rt为正奖励表示智能交通灯采取的相位减少了总累积延迟,负奖励则表示增加了延迟;
所使用的模型为:DQN,神经网络的组成为:第一层为卷积层,卷积层的数学表达式为:
Figure BDA0003169633870000033
其中Cout为经过卷积层产生的矩阵,st为被卷积的状态输入矩阵,H为卷积核,st(m,n)为输入矩阵中被卷积的点,w(m,n)为卷积核中各个点的权值,b(m,n)为卷积核中各个点的偏置;
第二层为最大池化层,最大池化层的数学表达式为:
Pout=maxp*p(Cout) (3)
其中Pout为经过最大池化的输出,maxp*p表示使用大小为p*p的池化核对Cout进行最大池化;
第三层至第六层为全连接层,全连接层的数学表达式为:
Zouti=wTPout+b (4)
其中Zouti为第i层全连接层的输出,wT为神经元权重矩阵,b为神经元偏置,其中第一层至第五层使用整流非线性函数ReLu作为激活函数,第六层即输出层使用线性激活函数;
第六层全连接层为最终输出层输出Zout6即一个Q值向量,每个向量项对应于状态st下动作a∈A的Q值Q(st,a;θ),其中θ为模型参数;
对智能交通灯模型进行训练,使用损失函数:
Figure BDA0003169633870000041
其中γ为代表奖励的折扣因子,rt为t时刻的奖励,st和st+1分别为t时刻和t+1时刻的状态,θ′代表目标网络的参数,θ代表估计网络的参数,在不同的交通流量下进行训练,训练完成后获得总回报
Figure BDA0003169633870000042
若智能体于环境的交互至T时刻终止,其中rj为训练过程中获得的所有奖励rt(t=1,2……T)中为负值的部分,总回报R的绝对值越小,即智能交通灯在这一轮中对交通流进行自适应调控所产生的延迟最小,当总回报R相对稳定时,认为训练完成。
再进一步,所述步骤2的过程如下:
2.1:在t时刻从SUMO中得到原始状态st
2.2:将原始状态输入模型中输出所有动作的Q值函数,称
Figure BDA0003169633870000051
为最优动作,即在t时刻交通灯执行最优动作所表示的相位可以在最大程度上减少拥堵情况的发生;
Figure BDA0003169633870000052
为最差动作,即在t时刻交通灯执行最差动作所表示的相位会在最大程度上导致拥堵情况的发生;
2.3:对Q值进行归一化处理,计算公式为:
Figure BDA0003169633870000053
其中Q(st,ai)为在状态st是选择动作ai的Q值,π(st,ai)为Q(st,ai)归一化的值;
根据动作偏好函数:
Figure BDA0003169633870000054
其中π(st,amax)为最优动作的Q值Q(st,amax)归一化的值,π(st,ai)为最差动作的Q值Q(st,amin)归一化的值,计算当前状态下策略对最优动作的偏好程度C(st),C(st)越高则认为t时刻攻击成功后,所产生的攻击效果越好,则设常数β(0<β<1)为阈值,若C(st)>β,则认为当前状态有攻击价值,进行攻击;若C(st)≤β,则不进行攻击;
2.4:使用CW攻击算法计算扰动,计算公式为:
Figure BDA0003169633870000055
Figure BDA0003169633870000056
其中st为t时刻状态,
Figure BDA0003169633870000057
对状态st添加扰动之后的中间状态,
Figure BDA0003169633870000061
为中间状态
Figure BDA0003169633870000062
对于动作
Figure BDA0003169633870000063
Figure BDA0003169633870000064
为对抗扰动,通过调整κ控制发生误分类的置信度,公式(8)的前半部分优化使扰动更小,后半部分优化使攻击向指定的状态改变,两个部分不可以同时实现的,所以使用c作为超参数,用来权衡式子中前后两部分的关系,使用二分法进行确定;
根据扰动的绝对值大小
Figure BDA0003169633870000065
对扰动进行排序,设扰动
Figure BDA0003169633870000066
在矩阵|Wt|中索引为htj,扰动的绝对值
Figure BDA0003169633870000067
越大,则htj在t时刻的排序矩阵Ht中的索引越小,由此得到排序矩阵Ht=[ht1,ht1......ht1];
2.5:顺序读取排序矩阵Ht,根据排序矩阵中hti读取扰动Wt
Figure BDA0003169633870000068
因为状态st为车辆的在相应路段的空间分布,具有离散性,需要对
Figure BDA0003169633870000069
进行离散化处理
Figure BDA00031696338700000610
其中ε=0.5,sign表示取
Figure BDA00031696338700000611
的符号,将
Figure BDA00031696338700000612
与原始状态st的第hti
Figure BDA00031696338700000613
进行比较,若
Figure BDA00031696338700000614
且扰动的索引hti未被记录则认为扰动是有效的,将有效扰动的索引记录在索引矩阵Kt中,索引矩阵Kt的作用是记录有效的扰动,防止攻击陷入震荡;然后将
Figure BDA00031696338700000615
的值赋给原始状态st的第hi位
Figure BDA00031696338700000616
得到中间状态
Figure BDA00031696338700000617
Figure BDA00031696338700000618
或扰动的索引hti已经被记录索引矩阵Kt中,则认为此时的扰动是无效的,则重复执行步骤2.5,直至扰动有效;
2.6:将中间状态
Figure BDA00031696338700000619
输入模型中,模型输出的最优动作
Figure BDA00031696338700000620
Figure BDA00031696338700000621
其中
Figure BDA00031696338700000622
为状态
Figure BDA00031696338700000623
输入模型中对应的Q值输出,amin为原始状态的最差动作,即中间状态的最优动作与原始状态的最差动作为同一动作,则认为攻击成功,此时中间状态即为对抗状态st';
2.7:若a'max≠amin,则将中间状态作为新的状态输入模型,直至找到对抗状态,重复执行步骤2.2-步骤2.6,遍历排序矩阵H后仍然未达到目标,则认为攻击失败;
2.8:若攻击成功记录对抗状态,以及根据原始状态
Figure BDA0003169633870000071
及对抗状态
Figure BDA0003169633870000072
计算扰动ρ:
Figure BDA0003169633870000073
然后根据二分法对步骤2.4中的c值进行更改;
2.9:重复执行步骤2.2-步骤2.8设定次数,获取在不同c值下的对抗状态,目的是找出最合适的c值,使得在扰动最小的情况下,攻击成功,在所有攻击成功的对抗状态中选择改变量最小的对抗状态。
所述步骤3的过程如下:
得到对抗状态及其扰动ρ,设扰动的阈值为α,若ρ<α,则认为扰动在限制范围之内,将对抗状态输入模型中,否则认为扰动过大,将原始状态输入到模型中。
更进一步,所述步骤4的过程如下:
4.1:将t时刻的状态输入到模型中模型会选择最优的交通灯相位控制路口车流量,并计算t时刻单交叉口的排队长度lt以及等待时间wt,lt和wt越小代表单交叉口越流畅模型性能越好;
4.2:在SUMO运行结束后得到攻击后的回报
Figure BDA0003169633870000074
攻击后总回报与无攻击的正常回报对比发现:|R'|>|R|,若智能体于环境的交互至T'时刻终止,其中rj'为有攻击的情况下获得的所有奖励rt'(t=1,2……T')中为负值的部分,R'为攻击之后的总回报,R为正常情况下的总回报。
本发明的技术构思为:根据现有的深度强化学习中的DQN算法训练控制单交叉口的自适应的智能交通灯模型,根据智能交通灯模型对当前相位的偏好程度判断当前状态是否具有攻击价值,利用基于CW攻击结合优化梯度排序以及输入状态(即车辆在相应路段的空间分布)的离散性生成对抗样本,最后通过在SUMO中交通流的流畅程度,车辆队列长度以及总体等待时间的变化检验攻击效果。
本发明的有益效果主要体现在:利用策略定时攻击根距当前状态生成对抗状态,可以实现对交通灯的定向攻击,与一般的攻击相比,攻击次数少,减少了攻击被发现的概率,且攻击效果好,此外结合输入状态(即车辆在相应路段的空间分布)的离散性对策略定时攻击进行改进,可以在攻击具有实际物理意义且较小扰动下攻击成功。
附图说明
图1是标准单交叉口示意图。
图2是路段的空间离散化示意图。
图3是强化学习示意图。
图4是CW攻击生成对抗扰动总体流程图。
图5是车辆等待队列长度对比图。
图6是交车辆等待时间对比图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图6,一种基于CW攻击对智能单交叉口的对抗扰动生成方法,包括以下步骤:
步骤1:在单交叉口上使用强化学习算法训练智能交通灯模型,标准单交叉口如图1所示,强化学习是一种和环境进行交互进而互相影响的算法,如图3所示,综合而言强化学习算法包含三个最基本的要素:环境状态、智能体动作、环境奖励,对t时刻单交叉口的车辆分布进行离散化编码,将单交叉口中i路段入口处至停车线处按等距离划分k份,如图2所示;
根据
Figure BDA0003169633870000091
i=(1,2……p)),得到i路段的位置矩阵
Figure BDA0003169633870000092
将此路口路段si(t)的位置矩阵按照st=[s1(t),s2(t),……sp(t)]结合得到这个单交叉口所有车辆的位置矩阵,即t时刻的环境状态st
以典型十字交叉路口为例进行说明,定义一组交通灯的相位作为动作空间A={a1,a2,a3,a4},其中:a1为东西方向绿灯,a2为东西方向左转绿灯,a3为南北方向绿灯,a4为南北方向左转绿灯,在运行时设ai的相位的初始时长为m,黄灯相位时长为n。在t时刻将当前状态st输入到智能交通灯模型中,智能交通灯选择相位ai,当ai相位执行完毕后,智能交通灯从环境中采集t+1时刻的状态st+1,然后选择相位aj。若ai≠aj则ai相位执行时间不再延长,即ai相位结束,在ai相位结束后智能交通灯执行黄灯相位,在黄灯相位结束后,执行aj相位;若ai=aj,则ai相位执行时间延长m;将奖励设置为两个连续动作的车辆总累积延迟之差,如公式(1)所示:
rt=Dt-Dt+1 (1)
其中Dt和Dt+1分别为当前时刻和前一时刻的车辆总累积延迟,若rt为正奖励表示智能交通灯采取的相位减少了总累积延迟,负奖励则表示增加了延迟;
所使用的模型为:Deep Q Network(DQN),神经网络的组成为:第一层为卷积层,卷积层的数学表达式为:
Figure BDA0003169633870000093
其中Cout为经过卷积层产生的矩阵,st为被卷积的状态输入矩阵,H为卷积核,st(m,n)为输入矩阵中被卷积的点,w(m,n)为卷积核中各个点的权值,b(m,n)为卷积核中各个点的偏置;
第二层为最大池化层,最大池化层的数学表达式为:
Pout=maxp*p(Cout) (3)
其中Pout为经过最大池化的输出,maxp*p表示使用大小为p*p的池化核对Cout进行最大池化;
第三层至第六层为全连接层,全连接层的数学表达式为:
Zouti=wTPout+b (4)
其中Zouti为第i层全连接层的输出,wT为神经元权重矩阵,b为神经元偏置,其中第一层至第五层使用整流非线性函数(ReLu)作为激活函数,第六层即输出层使用线性激活函数;
第六层全连接层为最终输出层输出Zout6即一个Q值向量,每个向量项对应于状态st下动作a∈A的Q值Q(st,a;θ),其中θ为模型参数;
对智能交通灯模型进行训练,使用损失函数:
Figure BDA0003169633870000101
其中γ为代表奖励的折扣因子,rt为t时刻的奖励,st和st+1分别为t时刻和t+1时刻的状态,θ′代表目标网络的参数,θ代表估计网络的参数,在不同的交通流量下进行训练,训练完成后获得总回报
Figure BDA0003169633870000102
若智能体于环境的交互至T时刻终止,其中rj为训练过程中获得的所有奖励rt(t=1,2……T)中为负值的部分,总回报R的绝对值越小,即智能交通灯在这一轮中对交通流进行自适应调控所产生的延迟最小,当总回报R相对稳定时,认为训练完成;
步骤2从SUMO中获取t时刻位于相应路段(车辆进入路口的道路)的所有车辆的空间分布,通过网格化道路将车辆的空间分布离散化为模型的输入状态st,如图4所示,将输入状态输入到智能交通灯模型中生成对应的输出动作ai即交通灯相位,利用CW攻击算法,得到对抗状态,过程如下:
2.1:在t时刻从SUMO中得到原始状态st
2.2:将原始状态输入模型中输出所有动作的Q值函数,称
Figure BDA0003169633870000111
为最优动作,即在t时刻交通灯执行最优动作所表示的相位可以在最大程度上减少拥堵情况的发生;
Figure BDA0003169633870000112
为最差动作,即在t时刻交通灯执行最差动作所表示的相位会在最大程度上导致拥堵情况的发生;
2.3:对Q值进行归一化处理,计算公式为:
Figure BDA0003169633870000113
其中Q(st,ai)为在状态st是选择动作ai的Q值,π(st,ai)为Q(st,ai)归一化的值;
根据动作偏好函数:
Figure BDA0003169633870000114
其中π(st,amax)为最优动作的Q值Q(st,amax)归一化的值,π(st,ai)为最差动作的Q值Q(st,amin)归一化的值,计算当前状态下策略对最优动作的偏好程度C(st),C(st)越高则认为t时刻攻击成功后,所产生的攻击效果越好,则设常数β(0<β<1)为阈值,若C(st)>β,则认为当前状态有攻击价值,进行攻击;若C(st)≤β,则不进行攻击;
2.4:使用CW攻击算法计算扰动,计算公式为:
Figure BDA0003169633870000121
Figure BDA0003169633870000122
其中st为t时刻状态,
Figure BDA0003169633870000123
对状态st添加扰动之后的中间状态,
Figure BDA0003169633870000124
为中间状态
Figure BDA0003169633870000125
对于动作
Figure BDA0003169633870000126
的Q值,
Figure BDA0003169633870000127
为对抗扰动,通过调整κ控制发生误分类的置信度。公式(8)的前半部分优化使扰动更小,后半部分优化使攻击向我们指定的状态改变,两个部分不可以同时实现的,所以使用c作为超参数,用来权衡式子中前后两部分的关系,在实验中使用二分法进行确定;
根据扰动的绝对值大小
Figure BDA0003169633870000128
对扰动进行排序,设扰动
Figure BDA0003169633870000129
在矩阵|Wt|中索引为htj,扰动的绝对值
Figure BDA00031696338700001210
越大,则htj在t时刻的排序矩阵Ht中的索引越小。由此得到排序矩阵Ht=[ht1,ht1......ht1];
2.5:顺序读取排序矩阵Ht,根据排序矩阵中hti读取扰动Wt
Figure BDA00031696338700001211
因为状态st为车辆的在相应路段的空间分布,具有离散性,需要对
Figure BDA00031696338700001212
进行离散化处理
Figure BDA00031696338700001213
其中ε=0.5,sign表示提取取
Figure BDA00031696338700001214
的符号。将
Figure BDA00031696338700001215
与原始状态st的第hti
Figure BDA00031696338700001216
进行比较,若
Figure BDA00031696338700001217
且扰动的索引hti未被记录则认为扰动是有效的,将有效扰动的索引记录在索引矩阵Kt中,索引矩阵Kt的作用是记录有效的扰动,防止攻击陷入震荡。然后将
Figure BDA00031696338700001218
的值赋给原始状态st的第hi位
Figure BDA00031696338700001219
得到中间状态
Figure BDA00031696338700001220
Figure BDA00031696338700001221
或扰动的索引hti已经被记录索引矩阵Kt中,则认为此时的扰动是无效的,则重复执行步骤2.5,直至扰动有效;
2.6:将中间状态
Figure BDA00031696338700001222
输入模型中,模型输出的最优动作
Figure BDA00031696338700001223
Figure BDA00031696338700001224
其中
Figure BDA00031696338700001225
为状态
Figure BDA00031696338700001226
输入模型中对应的Q值输出,amin为原始状态的最差动作,即中间状态的最优动作与原始状态的最差动作为同一动作,则认为攻击成功,此时中间状态即为对抗状态st';
2.7:若a'max≠amin,则将中间状态作为新的状态输入模型,直至找到对抗状态,重复执行步骤2.2-步骤2.6,遍历排序矩阵H后仍然未达到目标,则认为攻击失败;
2.8:若攻击成功记录对抗状态,以及根据原始状态
Figure BDA0003169633870000131
及对抗状态
Figure BDA0003169633870000132
计算扰动ρ:
Figure BDA0003169633870000133
然后根据二分法对步骤2.4中的c值进行更改;
2.9:重复执行步骤2.2-步骤2.8设定次数,获取在不同c值下的对抗状态,目的是找出最合适的c值,使得在扰动最小的情况下,攻击成功,在所有攻击成功的对抗状态中选择改变量最小的对抗状态;
步骤3:为了对扰动的大小进行限制,需要对攻击成功后产生的对抗状态进行判定,若添加的扰动超过阈值则舍弃对抗状态,将原始状态输入智能交通灯模型,过程如下:得到对抗状态及其扰动ρ,设扰动的阈值为α,若ρ<α,则认为扰动在限制范围之内,将对抗状态输入模型中,否则认为扰动过大,将原始状态输入到模型中;
步骤4:将对抗状态即输入模型中,智能交通灯模型根据当前状态选取动作即交通灯相位,在SUMO中对交通流进行控制,过程如下:
4.1:将t时刻的状态输入到模型中模型会选择最优的交通灯相位控制路口车流量,并计算t时刻单交叉口的排队长度lt以及等待时间wt,lt和wt越小代表单交叉口越流畅模型性能越好;
4.2:在SUMO运行结束后得到攻击后的回报
Figure BDA0003169633870000134
攻击后总回报与无攻击的正常回报对比发现:|R'|>|R|,若智能体于环境的交互至T'时刻终止,其中rj'为有攻击的情况下获得的所有奖励rt'(t=1,2……T')中为负值的部分,R'为攻击之后的总回报,R为正常情况下的总回报。
实例:实际实验中的数据,过程如下:
(1)选取实验数据
实验中使用的神经网络结构包括:1个卷积层,1个池化层,4个全连接层。
其中卷积层的输入为100*8,卷积核大小为3*3,卷积核数目为16,池化层使用最大池化,池化核大小为2*2,全连接层的大小分别为:1000、400、400、4。
实验数据是由SUMO上的单交叉口随机生成的100辆汽车,按照韦伯分布确定出发进入路口的时间,各辆汽车大小、生成位置距离单交叉口的距离和汽车从生成到通过路口的速度都是相同的。单交叉口交通灯相位的初始时长为绿灯10秒,黄灯4秒,当单交叉口有一个行驶方向为绿灯或黄灯时,其他方向为红灯禁止通行。从停车线开始长度700的道路i(i=1,2,3,4)按照每隔L米划分一个离散单元,共划分为k个的离散单元,在当车辆头部位于某个离散单元时,则车辆位置矩阵对应位置为0.5,否则为-0.5,其中L的取值要适中,L值过大则不能完全表述车辆的空间分布,L值过小会导致车辆状态多次检测造成计算量增大。在本次实验中考虑到车辆长度以及车辆在行驶时的跟车距离,选择将长度为700道路i按照L=10等距离划分,划分的离散单元数量k=100,最终得到状态st为100*8的二维矩阵,记录车辆在相应路段的空间分布。在本次实验中取α=0.2,即扰动的大小ρ<20%时,认为扰动是可以接受的。
(2)实验结果
在实验的结果分析中,我们的实验场景设置为为规则的单交叉口,使用强化学习中的DQN算法训练智能交通灯模型,采用CW攻击算法结合智能交通灯模型输入状态的离散性,生成对抗状态,对单交叉口交通灯采集的车辆的空间分布进行改变,导致智能交通灯错误调节相位,使得单交叉口拥堵。在实验中我们采取了有攻击和无攻击情况下的对比结果,实验结果如图5,图6所示。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims (1)

1.一种基于CW攻击对智能单交叉口的对抗扰动生成方法,其特征在于,所述方法包括以下步骤:
步骤1:使用开源交通仿真软件SUMO建立一个单交叉口网络,将SUMO建立的单交叉口结合强化学习中的DQN算法建模为单智能体交通灯模型,对模型进行训练,当智能交通灯模型最后的总回报相对稳定时,保存模型参数,模型训练完成;
步骤2:采集单交叉口中相应路段车辆的空间分布输入状态,将当前时刻状态输入到智能交通灯模型中,生成对应动作的Q值,根据动作偏好函数衡量当前状态下策略对动作的偏好程度,偏好程度高即攻击该时刻成功后会在更大程度上扰乱交通,当偏好程度超过设定的阈值,则使用CW攻击算法对输入状态进行攻击,生成对抗扰动,将对抗扰动与原始状态相结合生成中间状态;智能交通灯模型根据中间状态选取动作,若所选动作与原始状态的Q值向量中最小项对应的动作相同,则中间状态即为对抗状态,否则使用CW攻击算法对中间状态进行攻击再次生产对抗扰动,直到产生对抗状态;
步骤3:为了对扰动的大小进行限制,需要对攻击成功后产生的对抗状态进行判定,若添加的扰动超过阈值则舍弃对抗状态,将原始状态输入智能交通灯模型;
步骤4:将状态输入智能交通灯模型,智能交通灯根据当前状态选取动作,即交通灯的相位,在SUMO中对交通流量进行控制;
所述步骤1的过程如下:
1.1:在单交叉口上使用强化学习算法训练智能交通灯模型,强化学习算法包含三个最基本的要素:环境状态、智能体动作、环境奖励,对t时刻单交叉口的车辆分布进行离散化编码,将单交叉口中i路段入口处至停车线处按等距离划分k份;
根据
Figure FDA0003588662000000011
i=(1,2……p)),得到i路段的位置矩阵
Figure FDA0003588662000000012
将此路口路段si(t)(i=1,2……p)的位置矩阵按照st=[s1(t),s2(t),……sp(t)]结合得到这个单交叉口所有车辆的位置矩阵,即t时刻的环境状态st
十字交叉路口中,定义一组交通灯的相位作为动作空间A={a1,a2,a3,a4},其中:a1为东西方向绿灯,a2为东西方向左转绿灯,a3为南北方向绿灯,a4为南北方向左转绿灯,在运行时设ai的相位的初始时长为m,黄灯相位时长为n,在t时刻将当前状态st输入到智能交通灯模型中,智能交通灯选择相位ai,当ai相位执行完毕后,智能交通灯从环境中采集t+1时刻的状态st+1,然后选择相位aj,若ai≠aj则ai相位执行时间不再延长,即ai相位结束,在ai相位结束后智能交通灯执行黄灯相位,在黄灯相位结束后,执行aj相位;若ai=aj,则ai相位执行时间延长m;将奖励设置为两个连续动作的车辆总累积延迟之差,如公式(1)所示:
rt=Dt-Dt+1 (1)
其中Dt和Dt+1分别为当前时刻和前一时刻的车辆总累积延迟,若rt为正奖励表示智能交通灯采取的相位减少了总累积延迟,负奖励则表示增加了延迟;
所使用的模型为:DQN,神经网络的组成为:第一层为卷积层,卷积层的数学表达式为:
Figure FDA0003588662000000021
其中Cout为经过卷积层产生的矩阵,st为被卷积的状态输入矩阵,H为卷积核,st(m,n)为输入矩阵中被卷积的点,w(m,n)为卷积核中各个点的权值,b(m,n)为卷积核中各个点的偏置;
第二层为最大池化层,最大池化层的数学表达式为:
Pout=maxp*p(Cout) (3)
其中Pout为经过最大池化的输出,maxp*p表示使用大小为p*p的池化核对Cout进行最大池化;
第三层至第六层为全连接层,全连接层的数学表达式为:
Zouti=wTPout+b (4)
其中Zouti为第i层全连接层的输出,wT为神经元权重矩阵,b为神经元偏置,其中第一层至第五层使用整流非线性函数ReLu作为激活函数,第六层即输出层使用线性激活函数;
第六层全连接层为最终输出层输出Zout6即一个Q值向量,每个向量项对应于状态st下动作a∈A的Q值Q(st,a;θ),其中θ为模型参数;
对智能交通灯模型进行训练,使用损失函数:
Figure FDA0003588662000000022
其中γ为代表奖励的折扣因子,rt为t时刻的奖励,st和st+1分别为t时刻和t+1时刻的状态,θ′代表目标网络的参数,θ代表估计网络的参数,在不同的交通流量下进行训练,训练完成后获得总回报
Figure FDA0003588662000000023
若智能体于环境的交互至T时刻终止,其中rj为训练过程中获得的所有奖励rt(t=1,2……T)中为负值的部分,总回报R的绝对值越小,即智能交通灯在这一轮中对交通流进行自适应调控所产生的延迟最小,当总回报R相对稳定时,认为训练完成;
所述步骤2的过程如下:
2.1:在t时刻从SUMO中得到原始状态st
2.2:将原始状态输入模型中输出所有动作的Q值函数,称
Figure FDA0003588662000000031
为最优动作,即在t时刻交通灯执行最优动作所表示的相位可以在最大程度上减少拥堵情况的发生;
Figure FDA0003588662000000032
为最差动作,即在t时刻交通灯执行最差动作所表示的相位会在最大程度上导致拥堵情况的发生;
2.3:对Q值进行归一化处理,计算公式为:
Figure FDA0003588662000000033
其中Q(st,ai)为在状态st是选择动作ai的Q值,π(st,ai)为Q(st,ai)归一化的值;
根据动作偏好函数:
Figure FDA0003588662000000034
其中π(st,amax)为最优动作的Q值Q(st,amax)归一化的值,π(st,ai)为最差动作的Q值Q(st,amin)归一化的值,计算当前状态下策略对最优动作的偏好程度C(st),C(st)越高则认为t时刻攻击成功后,所产生的攻击效果越好,则设常数β(0<β<1)为阈值,若C(st)>β,则认为当前状态有攻击价值,进行攻击;若C(st)≤β,则不进行攻击;
2.4:使用CW攻击算法计算扰动,计算公式为:
Figure FDA0003588662000000035
Figure FDA0003588662000000036
其中st为t时刻状态,
Figure FDA0003588662000000037
对状态st添加扰动之后的中间状态,
Figure FDA0003588662000000038
为中间状态
Figure FDA0003588662000000039
对于动作
Figure FDA00035886620000000310
的Q值,
Figure FDA00035886620000000311
为对抗扰动,通过调整κ控制发生误分类的置信度,公式(8)的前半部分优化使扰动更小,后半部分优化使攻击向指定的状态改变,两个部分不可以同时实现的,所以使用c作为超参数,用来权衡式子中前后两部分的关系,使用二分法进行确定;
根据扰动的绝对值大小
Figure FDA00035886620000000312
对扰动进行排序,设扰动
Figure FDA00035886620000000313
在矩阵|Wt|中索引为htj,扰动的绝对值
Figure FDA00035886620000000314
越大,则htj在t时刻的排序矩阵Ht中的索引越小,由此得到排序矩阵Ht=[ht1,ht2......htn];
2.5:顺序读取排序矩阵Ht,根据排序矩阵中hti读取扰动Wt
Figure FDA00035886620000000315
因为状态st为车辆的在相应路段的空间分布,具有离散性,需要对
Figure FDA00035886620000000316
进行离散化处理
Figure FDA0003588662000000041
其中ε=0.5,sign表示取
Figure FDA0003588662000000042
的符号,将
Figure FDA0003588662000000043
与原始状态st的第hti
Figure FDA0003588662000000044
进行比较,若
Figure FDA0003588662000000045
且扰动的索引hti未被记录则认为扰动是有效的,将有效扰动的索引记录在索引矩阵Kt中,索引矩阵Kt的作用是记录有效的扰动,防止攻击陷入震荡;然后将
Figure FDA0003588662000000046
的值赋给原始状态st的第hi位
Figure FDA0003588662000000047
得到中间状态
Figure FDA0003588662000000048
Figure FDA0003588662000000049
或扰动的索引hti已经被记录索引矩阵Kt中,则认为此时的扰动是无效的,则重复执行步骤2.5,直至扰动有效;
2.6:将中间状态
Figure FDA00035886620000000410
输入模型中,模型输出的最优动作
Figure FDA00035886620000000411
Figure FDA00035886620000000412
其中
Figure FDA00035886620000000413
为状态
Figure FDA00035886620000000414
输入模型中对应的Q值输出,amin为原始状态的最差动作,即中间状态的最优动作与原始状态的最差动作为同一动作,则认为攻击成功,此时中间状态即为对抗状态s′t
2.7:若
Figure FDA00035886620000000415
则将中间状态作为新的状态输入模型,直至找到对抗状态,重复执行步骤2.2-步骤2.6,遍历排序矩阵Ht后仍然未达到目标,则认为攻击失败;
2.8:若攻击成功记录对抗状态,以及根据原始状态
Figure FDA00035886620000000416
及对抗状态
Figure FDA00035886620000000417
计算扰动ρ:
Figure FDA00035886620000000418
然后根据二分法对步骤2.4中的c值进行更改;
2.9:重复执行步骤2.2-步骤2.8设定次数,获取在不同c值下的对抗状态,目的是找出最合适的c值,使得在扰动最小的情况下,攻击成功,在所有攻击成功的对抗状态中选择改变量最小的对抗状态;
所述步骤3的过程如下:
得到对抗状态及其扰动ρ,设扰动的阈值为α,若ρ<α,则认为扰动在限制范围之内,将对抗状态输入模型中,否则认为扰动过大,将原始状态输入到模型中;
所述步骤4的过程如下:
4.1:将t时刻的状态输入到模型中模型会选择最优的交通灯相位控制路口车流量,并计算t时刻单交叉口的排队长度lt以及等待时间wt,lt和wt越小代表单交叉口越流畅模型性能越好;
4.2:在SUMO运行结束后得到攻击后的回报
Figure FDA00035886620000000419
攻击后总回报与无攻击的正常回报对比发现:|R'|>|R|,若智能体于环境的交互至T'时刻终止,其中r′j为有攻击的情况下获得的所有奖励r′t(t=1,2……T')中为负值的部分,R'为攻击之后的总回报,R为正常情况下的总回报。
CN202110814806.4A 2021-07-19 2021-07-19 一种基于cw攻击对智能单交叉口的对抗扰动生成方法 Active CN113487870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110814806.4A CN113487870B (zh) 2021-07-19 2021-07-19 一种基于cw攻击对智能单交叉口的对抗扰动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110814806.4A CN113487870B (zh) 2021-07-19 2021-07-19 一种基于cw攻击对智能单交叉口的对抗扰动生成方法

Publications (2)

Publication Number Publication Date
CN113487870A CN113487870A (zh) 2021-10-08
CN113487870B true CN113487870B (zh) 2022-07-15

Family

ID=77942218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110814806.4A Active CN113487870B (zh) 2021-07-19 2021-07-19 一种基于cw攻击对智能单交叉口的对抗扰动生成方法

Country Status (1)

Country Link
CN (1) CN113487870B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063654A (zh) * 2022-06-08 2022-09-16 厦门大学 基于序列元学习的黑盒攻击方法、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112202762A (zh) * 2020-09-28 2021-01-08 绍兴文理学院 传感边缘云智能干扰攻击的博弈防御策略优化方法及系统
CN112700664A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种基于深度强化学习的交通信号配时优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275841B2 (en) * 2018-09-12 2022-03-15 Adversa Ai Ltd Combination of protection measures for artificial intelligence applications against artificial intelligence attacks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112202762A (zh) * 2020-09-28 2021-01-08 绍兴文理学院 传感边缘云智能干扰攻击的博弈防御策略优化方法及系统
CN112700664A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种基于深度强化学习的交通信号配时优化方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Learning Strategic Group Formation for Coordinated Behavior in Adversarial Multi-Agent with Double DQN;Elhadji Amadou Oury Diallo;《International Conference on Principles and Practice of Multi-Agent Systems》;20181024;458-466 *
On the Robustness of Cooperative Multi-Agent Reinforcement Learning;Jieyu Lin;《2020 IEEE Security and Privacy Workshops (SPW)》;20201218;62-68 *
Traffic flow optimization: A reinforcement learning approach;Walraven, Erwin;《Engineering Applications of Artificial Intelligence: The International Journal of Intelligent Real-Time Automation》;20161231;203-212 *
traffic light control using deep policy-gradient and value-function-based reinforcement learning;Seyed Sajad Mousavi;《IET IntelligentTransport Systems》;20171231;第11卷(第7期);417-423 *
一种检测C&W对抗样本图像的盲取证算法;邓康;《信息安全学报》;20201115;第5卷(第06期);1-10 *

Also Published As

Publication number Publication date
CN113487870A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
US11747155B2 (en) Global path planning method and device for an unmanned vehicle
CN109635917B (zh) 一种多智能体合作决策及训练方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN112216124B (zh) 一种基于深度强化学习的交通信号控制方法
CN110514206B (zh) 一种基于深度学习的无人机飞行路径预测方法
CN114170789B (zh) 基于时空图神经网络的智能网联车换道决策建模方法
CN113852432B (zh) 基于rcs-gru模型的频谱预测感知方法
CN113744527B (zh) 一种面向高速公路合流区的智能靶向疏堵方法
Mao et al. A comparison of deep reinforcement learning models for isolated traffic signal control
CN113537580B (zh) 一种基于自适应图学习的公共交通客流预测方法及系统
CN113487870B (zh) 一种基于cw攻击对智能单交叉口的对抗扰动生成方法
CN112766603A (zh) 一种交通流量预测方法、系统、计算机设备及存储介质
Ye et al. Meta reinforcement learning-based lane change strategy for autonomous vehicles
CN115358305A (zh) 一种基于边界样本迭代生成的增量学习鲁棒性提升方法
CN114973650A (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN113487889B (zh) 基于快速梯度下降的单交叉口信号控制的交通状态对抗扰动生成方法
Zhao et al. Adaptive Swarm Intelligent Offloading Based on Digital Twin-assisted Prediction in VEC
Huang et al. An efficient self-evolution method of autonomous driving for any given algorithm
CN110390398B (zh) 在线学习方法
US20230162539A1 (en) Driving decision-making method and apparatus and chip
Chen et al. Traffic signal optimization control method based on adaptive weighted averaged double deep Q network
CN115426149A (zh) 基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法
Liu et al. No-fringe u-tree: An optimized algorithm for reinforcement learning
CN114566048A (zh) 一种基于多视角自适应时空图网络的交通控制方法
CN113641496A (zh) 基于深度强化学习的dids任务调度优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant