CN112529160A

CN112529160A - 一种摄像器材记录的视频图像数据的高维模仿学习方法

Info

Publication number: CN112529160A
Application number: CN202011450396.1A
Authority: CN
Inventors: 周志华; 姜�远; 蔡欣强; 丁尧相
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-19

Abstract

本发明公开一种摄像器材记录的视频图像数据的高维模仿学习方法，首先利用高效卷积神经网络的自动编码器作为特征抽取器将智能体采集的图像数据压缩成编码，之后对编码进行二值化处理；获得智能体的图像数据的二值编码后，使用全连接神经网络输出奖赏信号；最后将奖赏信号输入给现有的智能体进行学习，从而获得能够很好地模仿专家行为的智能体。在实用阶段，只需给模型输入专家示范的数据和智能体与环境交互采集到的图像数据，就能获得高效的奖赏信号，该信号可直接用于智能体进行强化学习训练。由于该方法可处理高维视频图像数据，因此模型可运行在搭载有摄像器材的设备上。

Description

一种摄像器材记录的视频图像数据的高维模仿学习方法

技术领域

本发明涉及深度学习、强化学习、模仿学习、应用技术，特别涉及深度卷积神经网络、自动编码器、对抗生成网络技术，具体是一种针对搭载有摄像器材的高维图像输入的智能体模仿学习方法。

背景技术

强化学习是机器学习中的一个重要领域，强调智能体如何基于环境而行动，以取得最大化的预期利益。从2015年AlphaGo使用强化学习方法在围棋领域击败人类顶级专家开始，强化学习技术便逐渐在科技、生活等各个领域崭露头角。传统强化学习任务的流程为：1)智能体接收到环境env的状态信号s_t；2)智能体根据当前状态信号s_t对env施加一个动作信号a_t，并接收到env的奖赏信号r_t；3)env根据当前状态动作信号对(s_t,a_t)给予智能体下一个状态信号s_t+1；4)智能体使用搜集到的数据{(s_t,a_t,r_t,s_t+1)}进行学习。在传统的强化学习任务中，通常通过计算累积奖赏

来学习最优策略，此时的奖赏机制r(s_t,a_t)需要人为制定；但对于现今越来越复杂的环境，人为制定奖赏机制需要耗费大量的资源，且很难获得很好的效果。而模仿学习则是利用专家提供的范例{τ₁,τ₂,…,τ_m}(其中τ_i＝{(s₁,a₁),(s₂,a₂),…,(s_n,a_n)}为专家示范的一系列状态动作信号对，即专家轨迹)取代奖赏机制r(s_t,a_t)，使智能体也能学到很好的策略的学习任务。相对传统的强化学习，模仿学习所需的专家范例消耗的人力、物力资源比人工设置奖赏机制要小得多，因此近年来备受关注。

早期的模仿学习比较主流的方法基于监督学习方法，即将专家范例中的“动作”作为数据的“标签”对智能体进行监督学习。由于智能体接触的环境分布在时刻变化，学习效果有很大局限性。随着逆强化学习的提出和强化学习的发展，如今模仿学习这一研究得到了快速进步。当前的主流逆强化学习算法主要考虑从专家数据中学习出奖赏函数

然后使用该奖赏函数作为奖赏机制以使用强化学习算法训练智能体，因此现有的模仿学习算法大多都专注于如何更有效地学习奖赏函数。近年来，模仿学习算法在无人车、机器人等智能控制领域取得了飞速发展，即输入状态为当前机器人的各个可控关节转轴角度，给定一系列特定的专家范例，使智能体学习出专家范例潜在的策略，如跑步、跳跃、摔倒后自行站起等。在这些领域，传感器类型多样，输入信息丰富，然而现有的技术必须依赖于事先的信号处理，以降低输入维度(通常为几百维以内)，因而能处理的数据和应用场景都十分有限；相对的高维模仿学习，即以直接利用原始视频图像作为输入状态数据的模仿学习问题，例如自动驾驶和机器人控制任务中摄像头捕捉到的视频画面数据，其状态信息拥有上万维度，即使使用基于高效的卷积神经网络模型的现有方法，效果依然很不理想。

现有的图像数据模仿学习方法着重处理相对低维的场景，但是在实际应用中，复杂的现实环境往往伴随更高的输入维度，例如机器人或车辆搭载的摄像设备捕捉到的场景是维度很高的图像数据，因此需要提出高效的、可以适用于高维图像输入的模仿学习方法。

发明内容

发明目的：目前的图像数据模仿学习方法主要集中于解决低维度的控制任务，而无法完成高维度环境的学习。由于很多应用场景都要求输入数据为更高维度的视频图片数据，这就要求模型具有能从图像数据中抽取有效的奖赏信号的能力。针对上述问题，本发明提供一种摄像器材记录的视频图像数据的高维模仿学习方法。该方法利用高效卷积自动编码器进行哈希编码，并通过哈希编码输出奖赏信号。在这个基础上，将模型输出的奖赏信号输入给智能体运用现有成熟的强化学习算法进行学习。具体来说，先对原始图像进行三次卷积操作，对得到的特征图并进行平展化，继而连接两层全连接网络获得原始编码；之后对原始编码连接一层全连接网络，并重塑出与全连接层前的特征图相同大小的特征图，对该特征图通过三次反卷积操作获得与原始输入图像大小相同的重构特征图。重构特征图用于与原始图进行比对来更新模型，使模型获得原始图像的无监督信息。对于每一维为实数的原始编码，对其进行二值化，即将大于0的值令为1，小于0的值令为-1，从而获得哈希编码。接着在编码上接上动作信号，并连接一个全连接网络，输出一个实值，即奖赏信号。获得奖赏信号后，将信号输入给智能体，使用现有强化学习算法对智能体进行更新，使其学习出专家的策略。整个流程涉及的数据为图像数据，因此该方法可支持在拥有摄像器材的设备上。

技术方案：一种摄像器材记录的视频图像数据的高维模仿学习方法，利用自动编码器对图像数据进行哈希编码，并通过哈希编码输出奖赏信号；将模型输出的奖赏信号输入给智能体；使用强化学习算法对智能体进行更新，使其学习出专家的策略；包括奖赏信号模型结构和训练步骤以及整体模仿学习的训练步骤；

所述奖赏信号模型结构和训练步骤具体为：

步骤1.1，将智能体采集到的图像数据

作为状态图像数据

输入给基于卷积神经网络的自动编码器，从而获得图像数据

的原始编码，并将原始编码进行二值化处理获得哈希编码，表示为从智能体状态图像数据

到智能体哈希编码

步骤1.2，将智能体的动作信号

插入智能体哈希编码

后端，并在

后连接一层全连接神经网络，输出一个实值，代表奖赏信号

步骤1.3，使用专家数据轨迹

和智能体搜集到的数据组

使用反向传播算法训练模型，通过小批量梯度下降算法优化奖赏信号模型参数。

整体模仿学习的训练步骤具体为：

步骤2.1，载有摄像器材的设备获得图像数据

后，预处理至指定规格大小；

步骤2.2，智能体根据当前图像数据

输出动作信号

步骤2.3，将

输入给环境env，env反馈给智能体下一图像数据

步骤2.4，将

输入给奖赏模型，获得奖赏信号

步骤2.5，将搜集到的数据组

对智能体使用现有的强化学习算法进行更新，并更新奖赏信号模型参数。

使用所述基于卷积神经网络的自动编码器获取哈希编码，使用有监督的哈希算法。令专家数据

的编码

与智能体采集到的数据

的编码

间的曼哈顿距离为d₁，来源相同的数据编码间的曼哈顿距离为d₂；在哈希算法的作用下，使得d₁>d₂，以此来保证降维函数本身获得监督信息。

反向传播算法训练奖赏信号和智能体模型，通过小批量梯度下降算法优化模型参数，具体为：

对于数据组

使用近端策略优化算法得到梯度，并通过小批量梯度下降算法优化智能体策略模型参数。

对于专家数据

和智能体采样数据

使用对抗生成网络的对抗网络更新算法以及有监督的哈希算法得到梯度，并通过小批量梯度下降算法优化奖赏信号模型参数。

所述预处理至指定规格大小，具体为：通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。

有益效果：与现有技术相比，本发明所提供的摄像器材记录的视频图像数据的高维模仿学习方法，能够有效解决之前算法无法处理高维图像数据的模仿学习问题，在实际应用中该方法能有效从专家提供的视频图像范例中挖掘出专家策略。

附图说明

图1为本发明实施例的奖赏信号模型网络结构示意图；

图2为本发明实施例的训练工作流程图；

图3为本发明实施例的学习工作流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-3所示，摄像器材记录的视频图像数据的高维模仿学习方法，包括奖赏信号模型网络结构和智能体模仿学习的整体训练步骤以及智能体工作步骤；

如图1所示，所述奖赏信号模型网络结构，其中黑色长方体代表原始图像或特征图，黑色长方体内的小长方体代表卷积核，实心长方体代表全连接网络。注意哈希编码仅在连接下一层全连接网络输出奖赏信号时进行二值化，在自动编码器过程中保持原始实值编码。

如图2所示，所述智能体模仿学习的整体训练步骤具体为：

步骤1.1，载有摄像器材的设备获取当前智能体所处的图像数据

步骤1.2，智能体根据当前的图像数据

输出动作信号

步骤1.3，将

输入给奖赏模型，获得奖赏信号

步骤1.4，将动作信号

施加给环境，获得下一图像数据

并储存数据

至缓存区；

步骤1.5，若缓存区储存的数据量达到预先设定的大小要求，则使用这些数据对智能体和奖赏信号模型进行训练，并释放缓存区的数据；

可指定缓存区大小一定，若当前储存数据使缓存区满溢，则使用缓存区内数据进行模型训练，训练完成后释放缓存区数据。使用反向传播算法训练奖赏信号和智能体模型，通过小批量梯度下降算法优化模型参数，具体为：

对于采样数据

对于专家数据

和智能体采样数据

步骤1.6，判断模型是否已经满足条件，若满足结束训练，否则重复步骤1.1。

满足条件可设定为训练步数是否达到预先给定的上限，或智能体、奖赏信号模型是否已经收敛。

智能体工作步骤具体为：

步骤2.1，载有摄像器材的设备获得图像后，预处理至指定规格大小，获得图像状态数据

预处理至指定规格大小，具体为：通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。

步骤2.2，智能体根据当前图像状态数据

输出动作

步骤2.3，将动作

施加给环境，获得

步骤2.4，判断环境是否达到最终状态，若达到最终状态则结束，否则转到步骤2.1。

Claims

1.一种摄像器材记录的视频图像数据的高维模仿学习方法，其特征在于：包括奖赏信号模型训练步骤以及整体模仿学习的训练步骤；奖赏信号模型训练步骤中利用自动编码器对图像数据进行哈希编码，并通过哈希编码输出奖赏信号；将模型输出的奖赏信号输入给智能体；整体模仿学习的训练步骤中，使用强化学习算法对智能体进行更新，使其学习出专家的策略；整个流程涉及的数据为图像数据，该方法实施在拥有摄像器材的设备上。

2.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法，其特征在于：所述奖赏信号模型结构和训练步骤具体为：

步骤1.1，将智能体采集到的图像数据