CN111444782B

CN111444782B - 基于深度强化学习的道路目标检测方法、装置及存储介质

Info

Publication number: CN111444782B
Application number: CN202010161231.6A
Authority: CN
Inventors: 董超俊; 吴志鹏
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-06-16
Anticipated expiration: 2040-03-10
Also published as: CN111444782A

Abstract

本发明公开了一种基于深度强化学习的目标检测方法、装置和存储介质，客户端获取到采样视频后，从采样视频中获取采样图像，并将采用图像输入至预先训练好的深度Q网络中，并且在深度Q网络中引入了折扣因子，所述学习率随折扣因子的增大而减小，能够使得折扣因子在训练的过程中逐渐逼近其终值，从而加快模型的收敛，降低了过拟合的现象，提高了系统的稳定性。

Description

基于深度强化学习的道路目标检测方法、装置及存储介质

技术领域

本发明涉及图像识别领域，特别是基于深度强化学习的道路目标检测方法、装置和存储介质。

背景技术

自动驾驶已经成了汽车行业的重要发展方向，而汽车在自动驾驶的过程中，除了要对路线和速度进行控制，还需要对道路上的交通标志等道路目标进行检测和识别，由于行驶过程中获取的图像还同时包括复杂的环境，这无疑加大了图像识别的复杂度，因此需要一种方法能够从复杂的环境中检测并识别出道路目标，从而提高自动驾驶系统的性能。

传统方法通常采用CNN(Convolutional Neural Networks,自卷积神经网络)进行图像识别，虽然CNN能够快速实现图像的识别，但是模型训练过程比较复杂，而且决策能力较低。现有的深度Q网络属于强化学习网络的一种，能够有较好的决策能力，但是任务复杂度较高时存在过度拟合的风险，任务复杂度较低时可能无法捕获重要的特征，系统的稳定性并不能满足要求。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种基于深度强化学习的道路目标检测方法、装置及存储介质，能够提高系统的稳定性。

本发明解决其问题所采用的技术方案是：第一方面，本发明提供了一种基于深度强化学习的道路目标检测方法，包括以下步骤：

客户端获取采样视频，从所述采样视频中获取采样图像；

所述客户端读取预先训练好的深度Q网络，所述深度Q网络包括用于近似表示当前值函数的第一神经网络和用于产生目标Q值的第二神经网络，所述第一神经网络的目标函数和所述第二神经网络的损失函数中包括预先设定的折扣因子，所述深度Q网络的学习率随所述折扣因子的增加而降低；

所述客户端将所述采样图像输入至所述深度Q网络中，检测出道路目标。

进一步，所述采样图像为所述采样视频中的关键帧。

进一步，所述折扣因子的取值大于0且小于或等于1。

进一步，所述深度Q网络由经验回放机制训练得出。

进一步，所述目标函数的表达式为：

T arg e tQ＝r+γmax_a′Q^*(s′,a′；θ^-)；

其中r为即时奖励，γ为所述折扣因子，Q为所述深度Q网络的Q值，s为预先设定的状态参数。

进一步，所述损失函数的表达式为：

L(θ)＝E_(s,a,r,s′)[(r+γmax_a′Q^*(s′,a′；θ^-)-Q(s,a；θ))²]。

进一步，相邻两次训练的所述折扣因子满足以下关系：γ_k+1＝1-0.96(1-γ_k)，其中γ_k为第k次训练的所述折扣因子。

进一步，相邻两次训练的所述学习率满足以下关系：α_k+1＝0.96α_k，其中为α_k第k次训练的所述学习率。

第二方面，本发明提供了一种用于执行基于深度强化学习的道路目标检测方法的装置，包括CPU单元，所述CPU单元用于执行以下步骤：

客户端获取采样视频，从所述采样视频中获取采样图像；

第三方面，本发明提供了一种用于执行基于深度强化学习的道路目标检测方法的设备，包括至少一个控制处理器和用于与至少一个控制处理器通信连接的存储器；存储器存储有可被至少一个控制处理器执行的指令，指令被至少一个控制处理器执行，以使至少一个控制处理器能够执行如上所述的基于深度强化学习的道路目标检测方法。

第四方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行如上所述的基于深度强化学习的道路目标检测方法。

第五方面，本发明还提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使计算机执行如上所述的基于深度强化学习的道路目标检测方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下有益效果：本发明的客户端获取到采样视频后，从采样视频中获取采样图像，并将采用图像输入至预先训练好的深度Q网络中，并且在深度Q网络中引入了折扣因子，所述学习率随折扣因子的增大而减小，能够使得折扣因子在训练的过程中逐渐逼近其终值，从而加快模型的收敛，降低了过拟合的现象，提高了系统的稳定性。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明实施例提供的一种基于深度强化学习的道路目标检测方法的流程图；

图2是本发明实施例提供的一种基于深度强化学习的道路目标检测方法中深度Q网络的训练流程示意图；

图3是本发明另一实施例提供的一种用于执行基于深度强化学习的道路目标检测方法的装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，如果不冲突，本发明实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

参考图1，本发明的第一实施例提供了一种基于深度强化学习的道路目标检测方法，包括以下步骤：

步骤S100，客户端获取采样视频，从采样视频中获取采样图像；

步骤S200，客户端读取预先训练好的深度Q网络，深度Q网络包括用于近似表示当前值函数的第一神经网络和用于产生目标Q值的第二神经网络，第一神经网络的目标函数和第二神经网络的损失函数中包括预先设定的折扣因子，深度Q网络的学习率随折扣因子的增加而降低；

步骤S300，客户端将采样图像输入至深度Q网络中，检测出道路目标。

其中，本领域技术人员可以理解的是，由于目标Q值会随着预测Q值得增大而增大，使得模型有震荡或者发散的可能性，因此本实施例优选采用两个神经网络模型分别用于近似表示当前值函数和产生目标Q值。需要说明的是，本实施例优选采用现有技术中的马尔科夫决策过程以选择训练过程中的最优策略，同时在本实施例中，优选对过程中的每个时间步获得的即时奖励都乘以一个折扣因子γ，则从t时刻开始到T时刻情节结束时，奖励之和为

其中,R_t称之为累计奖励,γ为折扣因子且满足γ∈(0,1]，通过最大化每个状态s_t下的期望累未来回报的方式来选择操作。需要说明的是，本实施例在状态下执行动作后获得的期望回报由以下公式获取：

Q^π(s,a)＝E[R_t|s_t＝s,a_t＝a,π]，对于所有的动作状态，假如一个策略π^*的期望回报大于等于其他策略的期望回报，那么策略π^*即为最优策略，即当处于状态s，执行了动作a，然后再按照π执行下去到最后，能获得的最大累计回报与期望。

进一步，在本发明的另一个实施例中，所述采样图像为所述采样视频中的关键帧。

其中，需要说明的是，由于道路目标检测所获取的输入为采样视频，因此本实施例优选每个视频从第10秒对关键帧进行采样，有利于获取更加丰富的场景信息。

进一步，在本发明的另一个实施例中，所述折扣因子的取值大于0且小于或等于1。

其中，需要说明的是，折扣因子的取值大于0且小于或等于1为本实施例的优选，能够使得折扣因子在训练过程中逐渐逼近其终值，具体的取值根据实际需求调整即可，这并不会对本实施例造成限制。

参考图2，进一步，在本发明的另一个实施例中，所述深度Q网络由经验回放机制训练得出。

其中，需要说明的是，经验回放机制把每个时间步中个体和环境交互所得到的经验样本数据存储到经验池中，当模型在进行训练时，就会从经验池中随机抽取小批量的样本进行训练。引入经验回放机制后，不仅可以较为容易的对奖励数据进行备份，并且随机的从经验池中抽取小批量的数据也减小了样本之间的关联性，提高了系统的稳定性。其中，经验样本是以五元组(s,a,r,s’,T)的形式进行存储的。具体表示为个体在状态s下执行动作a，到达下一个状态s’，就可以获得相应的奖励r。其中T表示下一个状态s’是否为终止状态。

进一步，在本发明的另一个实施例中，目标函数的表达式为：

T arg e tQ＝r+γmax_a′Q^*(s′,a′；θ^-)；

其中r为即时奖励，γ为折扣因子，Q为深度Q网络的Q值，s为预先设定的状态参数。

其中，需要说明的是，本实施例优选在目标函数中增加折扣因子，使得一段时间里目标Q值是不变的，在一定的程度上降低了两个Q值得相关性，提高了稳定性。

进一步，在本发明的另一个实施例中，损失函数的表达式为：

L(θ)＝E_(s,a,r,s′)[(r+γmax_a′Q^*(s′,a′；θ^-)-Q(s,a；θ))²]。

其中，需要说明的是，上述损失函数的表达式为本实施例的优选，能够将奖励和折扣因子相结合，使得训练时损失震荡甚至是发散的概率降低，提高系统的稳定性。

进一步，在本发明的另一个实施例中，相邻两次训练的折扣因子满足以下关系：γ_k+1＝1-0.96(1-γ_k)，其中γ_k为第k次训练的折扣因子。

其中，需要说明的是，上述折扣因子的表达式为本实施例的优选，能够使得折扣因子实现动态变化，加快模型的收敛，也可以采用其他表达式，能够实现相似功能即可，具体的参数并不会对本实施例造成限制。

进一步，在本发明的另一个实施例中，相邻两次训练的学习率满足以下关系：α_k+1＝0.96α_k，其中为α_k第k次训练的学习率。

其中，需要说明的是，本实施例优选采用0.96作为学习率的系数，也可以采用其他数值，具体数值根据实际需求调整即可。

参照图3，本发明的第二实施例还提供了一种用于执行基于深度强化学习的道路目标检测方法的装置，该装置为智能设备，例如智能手机、计算机和平板电脑等，本实施例以计算机为例加以说明。

在该用于执行基于深度强化学习的道路目标检测方法的计算机3000中，包括CPU单元3100，CPU单元3100用于执行以下步骤：

客户端获取采样视频，从采样视频中获取采样图像；

客户端读取预先训练好的深度Q网络，深度Q网络包括用于近似表示当前值函数的第一神经网络和用于产生目标Q值的第二神经网络，第一神经网络的目标函数和第二神经网络的损失函数中包括预先设定的折扣因子，深度Q网络的学习率随折扣因子的增加而降低；

客户端将采样图像输入至深度Q网络中，检测出道路目标。

其中，在本实施例中，智能装置中安装有用于执行上述基于深度强化学习的道路目标检测方法的客户端，基于深度强化学习的道路目标检测方法在本实施例中不需要通过用户操作完成，而是在计算机3000启动时，通过CPU单元初始化时自动完成。

计算机3000和CPU单元3100之间可以通过总线或者其他方式连接，计算机3000中还包括存储器，存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中的用于执行基于深度强化学习的道路目标检测方法的设备对应的程序指令/模块。计算机3000通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而控制CPU单元3100执行用于执行基于深度强化学习的道路目标检测方法的各种功能应用以及数据处理，即实现上述方法实施例的基于深度强化学习的道路目标检测方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据CPU单元3100的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于CPU单元3100远程设置的存储器，这些远程存储器可以通过网络连接至该计算机3000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器中，当被CPU单元3100执行时，执行上述方法实施例中的基于深度强化学习的道路目标检测方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被CPU单元3100执行，实现上述的基于深度强化学习的道路目标检测方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的装置可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络装置上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

需要说明的是，由于本实施例中的用于执行基于深度强化学习的道路目标检测方法的装置与上述的基于深度强化学习的道路目标检测方法基于相同的发明构思，因此，方法实施例中的相应内容同样适用于本装置实施例，此处不再详述。

通过以上的实施方式的描述，本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于深度强化学习的道路目标检测方法，其特征在于，包括以下步骤：

客户端获取采样视频，从所述采样视频中获取采样图像；

所述客户端将所述采样图像输入至所述深度Q网络中，检测出道路目标；

其中，相邻两次训练的所述折扣因子满足以下关系：γ_k+1＝1-0.96(1-γ_k)，其中γ_k为第k次训练的所述折扣因子；

相邻两次训练的所述学习率满足以下关系：α_k+1＝0.96α_k，其中为α_k第k次训练的所述学习率；

其中，所述目标函数的表达式为：

TargetQ＝r+γmax_a′Q*(s′,a′；θ^-)；

其中r为即时奖励，γ为所述折扣因子，Q为所述深度Q网络的Q值，s为预先设定的状态参数；

其中，所述损失函数的表达式为：

L(θ)＝E_(s,a,r,s′)[(r+γmax_a′Q^*(s′,a′；θ^-)-Q(s,α；θ))²]。

2.根据权利要求1所述的一种基于深度强化学习的道路目标检测方法，其特征在于：所述采样图像为所述采样视频中的关键帧。

3.根据权利要求1所述的一种基于深度强化学习的道路目标检测方法，其特征在于：所述折扣因子的取值大于0且小于或等于1。

4.根据权利要求1所述的一种基于深度强化学习的道路目标检测方法，其特征在于：所述深度Q网络由经验回放机制训练得出。

5.一种用于执行基于深度强化学习的道路目标检测方法的装置，其特征在于，包括CPU单元，所述CPU单元用于执行以下步骤：

客户端获取采样视频，从所述采样视频中获取采样图像；

其中，所述目标函数的表达式为：

TargetQ＝r+γmax_a′Q^*(s′,a′；θ^-)；

其中，所述损失函数的表达式为：

L(θ)＝E_(s,a,r,s′)[(r+γmax_a′Q^*(s′,a′；θ^-)-Q(s,a；θ))²]。

6.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-4任一项所述的一种基于深度强化学习的道路目标检测方法。