CN112529160A - 一种摄像器材记录的视频图像数据的高维模仿学习方法 - Google Patents
一种摄像器材记录的视频图像数据的高维模仿学习方法 Download PDFInfo
- Publication number
- CN112529160A CN112529160A CN202011450396.1A CN202011450396A CN112529160A CN 112529160 A CN112529160 A CN 112529160A CN 202011450396 A CN202011450396 A CN 202011450396A CN 112529160 A CN112529160 A CN 112529160A
- Authority
- CN
- China
- Prior art keywords
- image data
- intelligent agent
- data
- algorithm
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004088 simulation Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000002787 reinforcement Effects 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 abstract 1
- 230000003993 interaction Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical class CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种摄像器材记录的视频图像数据的高维模仿学习方法,首先利用高效卷积神经网络的自动编码器作为特征抽取器将智能体采集的图像数据压缩成编码,之后对编码进行二值化处理;获得智能体的图像数据的二值编码后,使用全连接神经网络输出奖赏信号;最后将奖赏信号输入给现有的智能体进行学习,从而获得能够很好地模仿专家行为的智能体。在实用阶段,只需给模型输入专家示范的数据和智能体与环境交互采集到的图像数据,就能获得高效的奖赏信号,该信号可直接用于智能体进行强化学习训练。由于该方法可处理高维视频图像数据,因此模型可运行在搭载有摄像器材的设备上。
Description
技术领域
本发明涉及深度学习、强化学习、模仿学习、应用技术,特别涉及深度卷积神经网络、自动编码器、对抗生成网络技术,具体是一种针对搭载有摄像器材的高维图像输入的智能体模仿学习方法。
背景技术
强化学习是机器学习中的一个重要领域,强调智能体如何基于环境而行动,以取得最大化的预期利益。从2015年AlphaGo使用强化学习方法在围棋领域击败人类顶级专家开始,强化学习技术便逐渐在科技、生活等各个领域崭露头角。传统强化学习任务的流程为:1)智能体接收到环境env的状态信号st;2)智能体根据当前状态信号st对env施加一个动作信号at,并接收到env的奖赏信号rt;3)env根据当前状态动作信号对(st,at)给予智能体下一个状态信号st+1;4)智能体使用搜集到的数据{(st,at,rt,st+1)}进行学习。在传统的强化学习任务中,通常通过计算累积奖赏来学习最优策略,此时的奖赏机制r(st,at)需要人为制定;但对于现今越来越复杂的环境,人为制定奖赏机制需要耗费大量的资源,且很难获得很好的效果。而模仿学习则是利用专家提供的范例{τ1,τ2,…,τm}(其中τi={(s1,a1),(s2,a2),…,(sn,an)}为专家示范的一系列状态动作信号对,即专家轨迹)取代奖赏机制r(st,at),使智能体也能学到很好的策略的学习任务。相对传统的强化学习,模仿学习所需的专家范例消耗的人力、物力资源比人工设置奖赏机制要小得多,因此近年来备受关注。
早期的模仿学习比较主流的方法基于监督学习方法,即将专家范例中的“动作”作为数据的“标签”对智能体进行监督学习。由于智能体接触的环境分布在时刻变化,学习效果有很大局限性。随着逆强化学习的提出和强化学习的发展,如今模仿学习这一研究得到了快速进步。当前的主流逆强化学习算法主要考虑从专家数据中学习出奖赏函数然后使用该奖赏函数作为奖赏机制以使用强化学习算法训练智能体,因此现有的模仿学习算法大多都专注于如何更有效地学习奖赏函数。近年来,模仿学习算法在无人车、机器人等智能控制领域取得了飞速发展,即输入状态为当前机器人的各个可控关节转轴角度,给定一系列特定的专家范例,使智能体学习出专家范例潜在的策略,如跑步、跳跃、摔倒后自行站起等。在这些领域,传感器类型多样,输入信息丰富,然而现有的技术必须依赖于事先的信号处理,以降低输入维度(通常为几百维以内),因而能处理的数据和应用场景都十分有限;相对的高维模仿学习,即以直接利用原始视频图像作为输入状态数据的模仿学习问题,例如自动驾驶和机器人控制任务中摄像头捕捉到的视频画面数据,其状态信息拥有上万维度,即使使用基于高效的卷积神经网络模型的现有方法,效果依然很不理想。
现有的图像数据模仿学习方法着重处理相对低维的场景,但是在实际应用中,复杂的现实环境往往伴随更高的输入维度,例如机器人或车辆搭载的摄像设备捕捉到的场景是维度很高的图像数据,因此需要提出高效的、可以适用于高维图像输入的模仿学习方法。
发明内容
发明目的:目前的图像数据模仿学习方法主要集中于解决低维度的控制任务,而无法完成高维度环境的学习。由于很多应用场景都要求输入数据为更高维度的视频图片数据,这就要求模型具有能从图像数据中抽取有效的奖赏信号的能力。针对上述问题,本发明提供一种摄像器材记录的视频图像数据的高维模仿学习方法。该方法利用高效卷积自动编码器进行哈希编码,并通过哈希编码输出奖赏信号。在这个基础上,将模型输出的奖赏信号输入给智能体运用现有成熟的强化学习算法进行学习。具体来说,先对原始图像进行三次卷积操作,对得到的特征图并进行平展化,继而连接两层全连接网络获得原始编码;之后对原始编码连接一层全连接网络,并重塑出与全连接层前的特征图相同大小的特征图,对该特征图通过三次反卷积操作获得与原始输入图像大小相同的重构特征图。重构特征图用于与原始图进行比对来更新模型,使模型获得原始图像的无监督信息。对于每一维为实数的原始编码,对其进行二值化,即将大于0的值令为1,小于0的值令为-1,从而获得哈希编码。接着在编码上接上动作信号,并连接一个全连接网络,输出一个实值,即奖赏信号。获得奖赏信号后,将信号输入给智能体,使用现有强化学习算法对智能体进行更新,使其学习出专家的策略。整个流程涉及的数据为图像数据,因此该方法可支持在拥有摄像器材的设备上。
技术方案:一种摄像器材记录的视频图像数据的高维模仿学习方法,利用自动编码器对图像数据进行哈希编码,并通过哈希编码输出奖赏信号;将模型输出的奖赏信号输入给智能体;使用强化学习算法对智能体进行更新,使其学习出专家的策略;包括奖赏信号模型结构和训练步骤以及整体模仿学习的训练步骤;
所述奖赏信号模型结构和训练步骤具体为:
整体模仿学习的训练步骤具体为:
使用所述基于卷积神经网络的自动编码器获取哈希编码,使用有监督的哈希算法。令专家数据的编码与智能体采集到的数据的编码间的曼哈顿距离为d1,来源相同的数据编码间的曼哈顿距离为d2;在哈希算法的作用下,使得d1>d2,以此来保证降维函数本身获得监督信息。
反向传播算法训练奖赏信号和智能体模型,通过小批量梯度下降算法优化模型参数,具体为:
所述预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。
有益效果:与现有技术相比,本发明所提供的摄像器材记录的视频图像数据的高维模仿学习方法,能够有效解决之前算法无法处理高维图像数据的模仿学习问题,在实际应用中该方法能有效从专家提供的视频图像范例中挖掘出专家策略。
附图说明
图1为本发明实施例的奖赏信号模型网络结构示意图;
图2为本发明实施例的训练工作流程图;
图3为本发明实施例的学习工作流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-3所示,摄像器材记录的视频图像数据的高维模仿学习方法,包括奖赏信号模型网络结构和智能体模仿学习的整体训练步骤以及智能体工作步骤;
如图1所示,所述奖赏信号模型网络结构,其中黑色长方体代表原始图像或特征图,黑色长方体内的小长方体代表卷积核,实心长方体代表全连接网络。注意哈希编码仅在连接下一层全连接网络输出奖赏信号时进行二值化,在自动编码器过程中保持原始实值编码。
如图2所示,所述智能体模仿学习的整体训练步骤具体为:
步骤1.5,若缓存区储存的数据量达到预先设定的大小要求,则使用这些数据对智能体和奖赏信号模型进行训练,并释放缓存区的数据;
可指定缓存区大小一定,若当前储存数据使缓存区满溢,则使用缓存区内数据进行模型训练,训练完成后释放缓存区数据。使用反向传播算法训练奖赏信号和智能体模型,通过小批量梯度下降算法优化模型参数,具体为:
步骤1.6,判断模型是否已经满足条件,若满足结束训练,否则重复步骤1.1。
满足条件可设定为训练步数是否达到预先给定的上限,或智能体、奖赏信号模型是否已经收敛。
智能体工作步骤具体为:
预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。
步骤2.4,判断环境是否达到最终状态,若达到最终状态则结束,否则转到步骤2.1。
Claims (8)
1.一种摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:包括奖赏信号模型训练步骤以及整体模仿学习的训练步骤;奖赏信号模型训练步骤中利用自动编码器对图像数据进行哈希编码,并通过哈希编码输出奖赏信号;将模型输出的奖赏信号输入给智能体;整体模仿学习的训练步骤中,使用强化学习算法对智能体进行更新,使其学习出专家的策略;整个流程涉及的数据为图像数据,该方法实施在拥有摄像器材的设备上。
8.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:所述预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011450396.1A CN112529160A (zh) | 2020-12-09 | 2020-12-09 | 一种摄像器材记录的视频图像数据的高维模仿学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011450396.1A CN112529160A (zh) | 2020-12-09 | 2020-12-09 | 一种摄像器材记录的视频图像数据的高维模仿学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529160A true CN112529160A (zh) | 2021-03-19 |
Family
ID=74998726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011450396.1A Pending CN112529160A (zh) | 2020-12-09 | 2020-12-09 | 一种摄像器材记录的视频图像数据的高维模仿学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529160A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113098805A (zh) * | 2021-04-01 | 2021-07-09 | 清华大学 | 基于二值化神经网络的高效mimo信道反馈方法及装置 |
CN113792844A (zh) * | 2021-08-19 | 2021-12-14 | 中国人民解放军军事科学院国防科技创新研究院 | 基于深度自动编码和特征融合的智能体蜂拥行为控制方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279554A (zh) * | 2015-09-29 | 2016-01-27 | 东方网力科技股份有限公司 | 基于哈希编码层的深度神经网络的训练方法及装置 |
US20180247191A1 (en) * | 2017-02-03 | 2018-08-30 | Milestone Entertainment Llc | Architectures, systems and methods for program defined entertainment state system, decentralized cryptocurrency system and system with segregated secure functions and public functions |
CN109948029A (zh) * | 2019-01-25 | 2019-06-28 | 南京邮电大学 | 基于神经网络自适应的深度哈希图像搜索方法 |
CN109948642A (zh) * | 2019-01-18 | 2019-06-28 | 中山大学 | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 |
CN110989991A (zh) * | 2019-10-25 | 2020-04-10 | 深圳开源互联网安全技术有限公司 | 检测应用程序中源代码克隆开源软件的方法及系统 |
CN111136659A (zh) * | 2020-01-15 | 2020-05-12 | 南京大学 | 基于第三人称模仿学习的机械臂动作学习方法及系统 |
CN111260658A (zh) * | 2020-01-10 | 2020-06-09 | 厦门大学 | 一种用于图像分割的新型深度强化学习算法 |
US20200293013A1 (en) * | 2017-12-18 | 2020-09-17 | Siemens Aktiengesellschaft | Method for replacing legacy programmable logic controllers |
-
2020
- 2020-12-09 CN CN202011450396.1A patent/CN112529160A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279554A (zh) * | 2015-09-29 | 2016-01-27 | 东方网力科技股份有限公司 | 基于哈希编码层的深度神经网络的训练方法及装置 |
US20180247191A1 (en) * | 2017-02-03 | 2018-08-30 | Milestone Entertainment Llc | Architectures, systems and methods for program defined entertainment state system, decentralized cryptocurrency system and system with segregated secure functions and public functions |
US20200293013A1 (en) * | 2017-12-18 | 2020-09-17 | Siemens Aktiengesellschaft | Method for replacing legacy programmable logic controllers |
CN109948642A (zh) * | 2019-01-18 | 2019-06-28 | 中山大学 | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 |
CN109948029A (zh) * | 2019-01-25 | 2019-06-28 | 南京邮电大学 | 基于神经网络自适应的深度哈希图像搜索方法 |
CN110989991A (zh) * | 2019-10-25 | 2020-04-10 | 深圳开源互联网安全技术有限公司 | 检测应用程序中源代码克隆开源软件的方法及系统 |
CN111260658A (zh) * | 2020-01-10 | 2020-06-09 | 厦门大学 | 一种用于图像分割的新型深度强化学习算法 |
CN111136659A (zh) * | 2020-01-15 | 2020-05-12 | 南京大学 | 基于第三人称模仿学习的机械臂动作学习方法及系统 |
Non-Patent Citations (3)
Title |
---|
YUXIN PENG等: "Deep Reinforcement Learning for Image Hashing", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 22, no. 8, 4 November 2019 (2019-11-04), pages 2061 - 2073, XP011800682, DOI: 10.1109/TMM.2019.2951462 * |
刘全等: "一种基于随机投影的贝叶斯时间差分算法", 《电子学报》, vol. 44, no. 11, 15 November 2016 (2016-11-15), pages 2752 - 2757 * |
周志华等: "Column Sampling Based Discrete Supervised Hashing", 《THIRTIETH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, vol. 30, no. 1, 21 February 2016 (2016-02-21), pages 1230 - 1236 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113098805A (zh) * | 2021-04-01 | 2021-07-09 | 清华大学 | 基于二值化神经网络的高效mimo信道反馈方法及装置 |
CN113792844A (zh) * | 2021-08-19 | 2021-12-14 | 中国人民解放军军事科学院国防科技创新研究院 | 基于深度自动编码和特征融合的智能体蜂拥行为控制方法 |
CN113792844B (zh) * | 2021-08-19 | 2023-07-25 | 中国人民解放军军事科学院国防科技创新研究院 | 基于深度自动编码和特征融合的智能体蜂拥行为控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sarvakar et al. | Facial emotion recognition using convolutional neural networks | |
Iglovikov et al. | Ternausnet: U-net with vgg11 encoder pre-trained on imagenet for image segmentation | |
CN111444878B (zh) | 一种视频分类方法、装置及计算机可读存储介质 | |
CN113947196A (zh) | 网络模型训练方法、装置和计算机可读存储介质 | |
CN109543838B (zh) | 一种基于变分自编码器的图像增量学习方法 | |
CN110766038B (zh) | 无监督式的地貌分类模型训练和地貌图构建方法 | |
CN109829541A (zh) | 基于学习自动机的深度神经网络增量式训练方法及系统 | |
CN110991027A (zh) | 一种基于虚拟场景训练的机器人模仿学习方法 | |
CN112529160A (zh) | 一种摄像器材记录的视频图像数据的高维模仿学习方法 | |
CN112750129B (zh) | 一种基于特征增强位置注意力机制的图像语义分割模型 | |
CN111461325B (zh) | 一种用于稀疏奖励环境问题的多目标分层强化学习算法 | |
CN107392189A (zh) | 用于确定无人车的驾驶行为的方法和装置 | |
CN106951959A (zh) | 基于学习自动机的深度神经网络优化方法 | |
CN113254782B (zh) | 问答社区专家推荐方法及系统 | |
CN117121015A (zh) | 利用冻结语言模型的多模态少发式学习 | |
Makin | Brain simulation | |
CN113033276A (zh) | 一种基于转换模块的行为识别方法 | |
CN114138653A (zh) | 一种基于深度图像理解的移动应用跨平台强化学习遍历测试技术 | |
CN111079900B (zh) | 一种基于自适应连接神经网络的图像处理方法及装置 | |
CN116188870A (zh) | 一种基于脉冲卷积神经网络的钢材表面缺陷图像分类方法 | |
CN116935128A (zh) | 一种基于可学习提示的零样本异常图像检测方法 | |
Sahni et al. | Visual hindsight experience replay | |
CN115346080B (zh) | 基于量子计算的图像处理方法及相关设备 | |
Wang et al. | Automatic learning-based data optimization method for autonomous driving | |
CN110913246B (zh) | 图像处理方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |