CN112529160A - 一种摄像器材记录的视频图像数据的高维模仿学习方法 - Google Patents

一种摄像器材记录的视频图像数据的高维模仿学习方法 Download PDF

Info

Publication number
CN112529160A
CN112529160A CN202011450396.1A CN202011450396A CN112529160A CN 112529160 A CN112529160 A CN 112529160A CN 202011450396 A CN202011450396 A CN 202011450396A CN 112529160 A CN112529160 A CN 112529160A
Authority
CN
China
Prior art keywords
image data
intelligent agent
data
algorithm
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011450396.1A
Other languages
English (en)
Inventor
周志华
姜�远
蔡欣强
丁尧相
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202011450396.1A priority Critical patent/CN112529160A/zh
Publication of CN112529160A publication Critical patent/CN112529160A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种摄像器材记录的视频图像数据的高维模仿学习方法,首先利用高效卷积神经网络的自动编码器作为特征抽取器将智能体采集的图像数据压缩成编码,之后对编码进行二值化处理;获得智能体的图像数据的二值编码后,使用全连接神经网络输出奖赏信号;最后将奖赏信号输入给现有的智能体进行学习,从而获得能够很好地模仿专家行为的智能体。在实用阶段,只需给模型输入专家示范的数据和智能体与环境交互采集到的图像数据,就能获得高效的奖赏信号,该信号可直接用于智能体进行强化学习训练。由于该方法可处理高维视频图像数据,因此模型可运行在搭载有摄像器材的设备上。

Description

一种摄像器材记录的视频图像数据的高维模仿学习方法
技术领域
本发明涉及深度学习、强化学习、模仿学习、应用技术,特别涉及深度卷积神经网络、自动编码器、对抗生成网络技术,具体是一种针对搭载有摄像器材的高维图像输入的智能体模仿学习方法。
背景技术
强化学习是机器学习中的一个重要领域,强调智能体如何基于环境而行动,以取得最大化的预期利益。从2015年AlphaGo使用强化学习方法在围棋领域击败人类顶级专家开始,强化学习技术便逐渐在科技、生活等各个领域崭露头角。传统强化学习任务的流程为:1)智能体接收到环境env的状态信号st;2)智能体根据当前状态信号st对env施加一个动作信号at,并接收到env的奖赏信号rt;3)env根据当前状态动作信号对(st,at)给予智能体下一个状态信号st+1;4)智能体使用搜集到的数据{(st,at,rt,st+1)}进行学习。在传统的强化学习任务中,通常通过计算累积奖赏
Figure BDA0002826608690000011
来学习最优策略,此时的奖赏机制r(st,at)需要人为制定;但对于现今越来越复杂的环境,人为制定奖赏机制需要耗费大量的资源,且很难获得很好的效果。而模仿学习则是利用专家提供的范例{τ12,…,τm}(其中τi={(s1,a1),(s2,a2),…,(sn,an)}为专家示范的一系列状态动作信号对,即专家轨迹)取代奖赏机制r(st,at),使智能体也能学到很好的策略的学习任务。相对传统的强化学习,模仿学习所需的专家范例消耗的人力、物力资源比人工设置奖赏机制要小得多,因此近年来备受关注。
早期的模仿学习比较主流的方法基于监督学习方法,即将专家范例中的“动作”作为数据的“标签”对智能体进行监督学习。由于智能体接触的环境分布在时刻变化,学习效果有很大局限性。随着逆强化学习的提出和强化学习的发展,如今模仿学习这一研究得到了快速进步。当前的主流逆强化学习算法主要考虑从专家数据中学习出奖赏函数
Figure BDA0002826608690000012
然后使用该奖赏函数作为奖赏机制以使用强化学习算法训练智能体,因此现有的模仿学习算法大多都专注于如何更有效地学习奖赏函数。近年来,模仿学习算法在无人车、机器人等智能控制领域取得了飞速发展,即输入状态为当前机器人的各个可控关节转轴角度,给定一系列特定的专家范例,使智能体学习出专家范例潜在的策略,如跑步、跳跃、摔倒后自行站起等。在这些领域,传感器类型多样,输入信息丰富,然而现有的技术必须依赖于事先的信号处理,以降低输入维度(通常为几百维以内),因而能处理的数据和应用场景都十分有限;相对的高维模仿学习,即以直接利用原始视频图像作为输入状态数据的模仿学习问题,例如自动驾驶和机器人控制任务中摄像头捕捉到的视频画面数据,其状态信息拥有上万维度,即使使用基于高效的卷积神经网络模型的现有方法,效果依然很不理想。
现有的图像数据模仿学习方法着重处理相对低维的场景,但是在实际应用中,复杂的现实环境往往伴随更高的输入维度,例如机器人或车辆搭载的摄像设备捕捉到的场景是维度很高的图像数据,因此需要提出高效的、可以适用于高维图像输入的模仿学习方法。
发明内容
发明目的:目前的图像数据模仿学习方法主要集中于解决低维度的控制任务,而无法完成高维度环境的学习。由于很多应用场景都要求输入数据为更高维度的视频图片数据,这就要求模型具有能从图像数据中抽取有效的奖赏信号的能力。针对上述问题,本发明提供一种摄像器材记录的视频图像数据的高维模仿学习方法。该方法利用高效卷积自动编码器进行哈希编码,并通过哈希编码输出奖赏信号。在这个基础上,将模型输出的奖赏信号输入给智能体运用现有成熟的强化学习算法进行学习。具体来说,先对原始图像进行三次卷积操作,对得到的特征图并进行平展化,继而连接两层全连接网络获得原始编码;之后对原始编码连接一层全连接网络,并重塑出与全连接层前的特征图相同大小的特征图,对该特征图通过三次反卷积操作获得与原始输入图像大小相同的重构特征图。重构特征图用于与原始图进行比对来更新模型,使模型获得原始图像的无监督信息。对于每一维为实数的原始编码,对其进行二值化,即将大于0的值令为1,小于0的值令为-1,从而获得哈希编码。接着在编码上接上动作信号,并连接一个全连接网络,输出一个实值,即奖赏信号。获得奖赏信号后,将信号输入给智能体,使用现有强化学习算法对智能体进行更新,使其学习出专家的策略。整个流程涉及的数据为图像数据,因此该方法可支持在拥有摄像器材的设备上。
技术方案:一种摄像器材记录的视频图像数据的高维模仿学习方法,利用自动编码器对图像数据进行哈希编码,并通过哈希编码输出奖赏信号;将模型输出的奖赏信号输入给智能体;使用强化学习算法对智能体进行更新,使其学习出专家的策略;包括奖赏信号模型结构和训练步骤以及整体模仿学习的训练步骤;
所述奖赏信号模型结构和训练步骤具体为:
步骤1.1,将智能体采集到的图像数据
Figure BDA0002826608690000021
作为状态图像数据
Figure BDA0002826608690000022
输入给基于卷积神经网络的自动编码器,从而获得图像数据
Figure BDA0002826608690000023
的原始编码,并将原始编码进行二值化处理获得哈希编码,表示为从智能体状态图像数据
Figure BDA0002826608690000024
到智能体哈希编码
Figure BDA0002826608690000025
步骤1.2,将智能体的动作信号
Figure BDA0002826608690000026
插入智能体哈希编码
Figure BDA0002826608690000027
后端,并在
Figure BDA0002826608690000028
后连接一层全连接神经网络,输出一个实值,代表奖赏信号
Figure BDA0002826608690000031
步骤1.3,使用专家数据轨迹
Figure BDA0002826608690000032
和智能体搜集到的数据组
Figure BDA0002826608690000033
使用反向传播算法训练模型,通过小批量梯度下降算法优化奖赏信号模型参数。
整体模仿学习的训练步骤具体为:
步骤2.1,载有摄像器材的设备获得图像数据
Figure BDA0002826608690000034
后,预处理至指定规格大小;
步骤2.2,智能体根据当前图像数据
Figure BDA0002826608690000035
输出动作信号
Figure BDA0002826608690000036
步骤2.3,将
Figure BDA0002826608690000037
输入给环境env,env反馈给智能体下一图像数据
Figure BDA0002826608690000038
步骤2.4,将
Figure BDA0002826608690000039
输入给奖赏模型,获得奖赏信号
Figure BDA00028266086900000310
步骤2.5,将搜集到的数据组
Figure BDA00028266086900000311
对智能体使用现有的强化学习算法进行更新,并更新奖赏信号模型参数。
使用所述基于卷积神经网络的自动编码器获取哈希编码,使用有监督的哈希算法。令专家数据
Figure BDA00028266086900000312
的编码
Figure BDA00028266086900000313
与智能体采集到的数据
Figure BDA00028266086900000314
的编码
Figure BDA00028266086900000315
间的曼哈顿距离为d1,来源相同的数据编码间的曼哈顿距离为d2;在哈希算法的作用下,使得d1>d2,以此来保证降维函数本身获得监督信息。
反向传播算法训练奖赏信号和智能体模型,通过小批量梯度下降算法优化模型参数,具体为:
对于数据组
Figure BDA00028266086900000316
使用近端策略优化算法得到梯度,并通过小批量梯度下降算法优化智能体策略模型参数。
对于专家数据
Figure BDA00028266086900000317
和智能体采样数据
Figure BDA00028266086900000318
使用对抗生成网络的对抗网络更新算法以及有监督的哈希算法得到梯度,并通过小批量梯度下降算法优化奖赏信号模型参数。
所述预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。
有益效果:与现有技术相比,本发明所提供的摄像器材记录的视频图像数据的高维模仿学习方法,能够有效解决之前算法无法处理高维图像数据的模仿学习问题,在实际应用中该方法能有效从专家提供的视频图像范例中挖掘出专家策略。
附图说明
图1为本发明实施例的奖赏信号模型网络结构示意图;
图2为本发明实施例的训练工作流程图;
图3为本发明实施例的学习工作流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-3所示,摄像器材记录的视频图像数据的高维模仿学习方法,包括奖赏信号模型网络结构和智能体模仿学习的整体训练步骤以及智能体工作步骤;
如图1所示,所述奖赏信号模型网络结构,其中黑色长方体代表原始图像或特征图,黑色长方体内的小长方体代表卷积核,实心长方体代表全连接网络。注意哈希编码仅在连接下一层全连接网络输出奖赏信号时进行二值化,在自动编码器过程中保持原始实值编码。
如图2所示,所述智能体模仿学习的整体训练步骤具体为:
步骤1.1,载有摄像器材的设备获取当前智能体所处的图像数据
Figure BDA0002826608690000041
步骤1.2,智能体根据当前的图像数据
Figure BDA0002826608690000042
输出动作信号
Figure BDA0002826608690000043
步骤1.3,将
Figure BDA0002826608690000044
输入给奖赏模型,获得奖赏信号
Figure BDA0002826608690000045
步骤1.4,将动作信号
Figure BDA0002826608690000046
施加给环境,获得下一图像数据
Figure BDA0002826608690000047
并储存数据
Figure BDA0002826608690000048
至缓存区;
步骤1.5,若缓存区储存的数据量达到预先设定的大小要求,则使用这些数据对智能体和奖赏信号模型进行训练,并释放缓存区的数据;
可指定缓存区大小一定,若当前储存数据使缓存区满溢,则使用缓存区内数据进行模型训练,训练完成后释放缓存区数据。使用反向传播算法训练奖赏信号和智能体模型,通过小批量梯度下降算法优化模型参数,具体为:
对于采样数据
Figure BDA0002826608690000049
使用近端策略优化算法得到梯度,并通过小批量梯度下降算法优化智能体策略模型参数。
对于专家数据
Figure BDA00028266086900000410
和智能体采样数据
Figure BDA00028266086900000411
使用对抗生成网络的对抗网络更新算法以及有监督的哈希算法得到梯度,并通过小批量梯度下降算法优化奖赏信号模型参数。
步骤1.6,判断模型是否已经满足条件,若满足结束训练,否则重复步骤1.1。
满足条件可设定为训练步数是否达到预先给定的上限,或智能体、奖赏信号模型是否已经收敛。
智能体工作步骤具体为:
步骤2.1,载有摄像器材的设备获得图像后,预处理至指定规格大小,获得图像状态数据
Figure BDA0002826608690000051
预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。
步骤2.2,智能体根据当前图像状态数据
Figure BDA0002826608690000052
输出动作
Figure BDA0002826608690000053
步骤2.3,将动作
Figure BDA0002826608690000054
施加给环境,获得
Figure BDA0002826608690000055
步骤2.4,判断环境是否达到最终状态,若达到最终状态则结束,否则转到步骤2.1。

Claims (8)

1.一种摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:包括奖赏信号模型训练步骤以及整体模仿学习的训练步骤;奖赏信号模型训练步骤中利用自动编码器对图像数据进行哈希编码,并通过哈希编码输出奖赏信号;将模型输出的奖赏信号输入给智能体;整体模仿学习的训练步骤中,使用强化学习算法对智能体进行更新,使其学习出专家的策略;整个流程涉及的数据为图像数据,该方法实施在拥有摄像器材的设备上。
2.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:所述奖赏信号模型结构和训练步骤具体为:
步骤1.1,将智能体采集到的图像数据
Figure FDA0002826608680000011
作为状态图像数据
Figure FDA0002826608680000012
输入给基于卷积神经网络的自动编码器,从而获得图像数据
Figure FDA0002826608680000013
的原始编码,并将原始编码进行二值化处理获得哈希编码,表示为从智能体状态图像数据
Figure FDA0002826608680000014
到智能体哈希编码
Figure FDA0002826608680000015
步骤1.2,将智能体的动作信号
Figure FDA0002826608680000016
插入智能体哈希编码
Figure FDA0002826608680000017
后端,并在
Figure FDA0002826608680000018
后连接一层全连接神经网络,输出一个实值,代表奖赏信号
Figure FDA0002826608680000019
步骤1.3,使用专家数据轨迹
Figure FDA00028266086800000110
和智能体搜集到的数据组
Figure FDA00028266086800000111
使用反向传播算法训练模型,通过小批量梯度下降算法优化奖赏信号模型参数。
3.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:整体模仿学习的训练步骤具体为:
步骤2.1,载有摄像器材的设备获得图像数据
Figure FDA00028266086800000112
后,预处理至指定规格大小;
步骤2.2,智能体根据当前图像数据
Figure FDA00028266086800000113
输出动作信号
Figure FDA00028266086800000114
步骤2.3,将
Figure FDA00028266086800000115
输入给环境env,env反馈给智能体下一图像数据
Figure FDA00028266086800000116
步骤2.4,将
Figure FDA00028266086800000117
输入给奖赏模型,获得奖赏信号
Figure FDA00028266086800000118
步骤2.5,将搜集到的数据组
Figure FDA00028266086800000119
对智能体使用现有的强化学习算法进行更新,并更新奖赏信号模型参数。
4.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:使用所述基于卷积神经网络的自动编码器获取哈希编码,使用有监督的哈希算法;令专家数据
Figure FDA00028266086800000120
的编码
Figure FDA00028266086800000121
与智能体采集到的数据
Figure FDA00028266086800000122
的编码
Figure FDA00028266086800000123
间的曼哈顿距离为d1,来源相同的数据编码间的曼哈顿距离为d2;在哈希算法的作用下,使得d1>d2,以此来保证降维函数本身获得监督信息。
5.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:对于数据组
Figure RE-FDA0002933483180000021
使用近端策略优化算法得到梯度,并通过小批量梯度下降算法优化智能体策略模型参数。
6.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:对于数据组
Figure FDA0002826608680000021
使用近端策略优化算法得到梯度,并通过小批量梯度下降算法优化智能体策略模型参数。
7.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:对于专家数据
Figure FDA0002826608680000022
和智能体采样数据
Figure FDA0002826608680000023
使用对抗生成网络的对抗网络更新算法以及有监督的哈希算法得到梯度,并通过小批量梯度下降算法优化奖赏信号模型参数。
8.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:所述预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。
CN202011450396.1A 2020-12-09 2020-12-09 一种摄像器材记录的视频图像数据的高维模仿学习方法 Pending CN112529160A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011450396.1A CN112529160A (zh) 2020-12-09 2020-12-09 一种摄像器材记录的视频图像数据的高维模仿学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011450396.1A CN112529160A (zh) 2020-12-09 2020-12-09 一种摄像器材记录的视频图像数据的高维模仿学习方法

Publications (1)

Publication Number Publication Date
CN112529160A true CN112529160A (zh) 2021-03-19

Family

ID=74998726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011450396.1A Pending CN112529160A (zh) 2020-12-09 2020-12-09 一种摄像器材记录的视频图像数据的高维模仿学习方法

Country Status (1)

Country Link
CN (1) CN112529160A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098805A (zh) * 2021-04-01 2021-07-09 清华大学 基于二值化神经网络的高效mimo信道反馈方法及装置
CN113792844A (zh) * 2021-08-19 2021-12-14 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279554A (zh) * 2015-09-29 2016-01-27 东方网力科技股份有限公司 基于哈希编码层的深度神经网络的训练方法及装置
US20180247191A1 (en) * 2017-02-03 2018-08-30 Milestone Entertainment Llc Architectures, systems and methods for program defined entertainment state system, decentralized cryptocurrency system and system with segregated secure functions and public functions
CN109948029A (zh) * 2019-01-25 2019-06-28 南京邮电大学 基于神经网络自适应的深度哈希图像搜索方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110989991A (zh) * 2019-10-25 2020-04-10 深圳开源互联网安全技术有限公司 检测应用程序中源代码克隆开源软件的方法及系统
CN111136659A (zh) * 2020-01-15 2020-05-12 南京大学 基于第三人称模仿学习的机械臂动作学习方法及系统
CN111260658A (zh) * 2020-01-10 2020-06-09 厦门大学 一种用于图像分割的新型深度强化学习算法
US20200293013A1 (en) * 2017-12-18 2020-09-17 Siemens Aktiengesellschaft Method for replacing legacy programmable logic controllers

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279554A (zh) * 2015-09-29 2016-01-27 东方网力科技股份有限公司 基于哈希编码层的深度神经网络的训练方法及装置
US20180247191A1 (en) * 2017-02-03 2018-08-30 Milestone Entertainment Llc Architectures, systems and methods for program defined entertainment state system, decentralized cryptocurrency system and system with segregated secure functions and public functions
US20200293013A1 (en) * 2017-12-18 2020-09-17 Siemens Aktiengesellschaft Method for replacing legacy programmable logic controllers
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN109948029A (zh) * 2019-01-25 2019-06-28 南京邮电大学 基于神经网络自适应的深度哈希图像搜索方法
CN110989991A (zh) * 2019-10-25 2020-04-10 深圳开源互联网安全技术有限公司 检测应用程序中源代码克隆开源软件的方法及系统
CN111260658A (zh) * 2020-01-10 2020-06-09 厦门大学 一种用于图像分割的新型深度强化学习算法
CN111136659A (zh) * 2020-01-15 2020-05-12 南京大学 基于第三人称模仿学习的机械臂动作学习方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUXIN PENG等: "Deep Reinforcement Learning for Image Hashing", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 22, no. 8, 4 November 2019 (2019-11-04), pages 2061 - 2073, XP011800682, DOI: 10.1109/TMM.2019.2951462 *
刘全等: "一种基于随机投影的贝叶斯时间差分算法", 《电子学报》, vol. 44, no. 11, 15 November 2016 (2016-11-15), pages 2752 - 2757 *
周志华等: "Column Sampling Based Discrete Supervised Hashing", 《THIRTIETH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, vol. 30, no. 1, 21 February 2016 (2016-02-21), pages 1230 - 1236 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098805A (zh) * 2021-04-01 2021-07-09 清华大学 基于二值化神经网络的高效mimo信道反馈方法及装置
CN113792844A (zh) * 2021-08-19 2021-12-14 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法
CN113792844B (zh) * 2021-08-19 2023-07-25 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法

Similar Documents

Publication Publication Date Title
Sarvakar et al. Facial emotion recognition using convolutional neural networks
Iglovikov et al. Ternausnet: U-net with vgg11 encoder pre-trained on imagenet for image segmentation
CN111444878B (zh) 一种视频分类方法、装置及计算机可读存储介质
CN113947196A (zh) 网络模型训练方法、装置和计算机可读存储介质
CN109543838B (zh) 一种基于变分自编码器的图像增量学习方法
CN110766038B (zh) 无监督式的地貌分类模型训练和地貌图构建方法
CN109829541A (zh) 基于学习自动机的深度神经网络增量式训练方法及系统
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
CN112529160A (zh) 一种摄像器材记录的视频图像数据的高维模仿学习方法
CN112750129B (zh) 一种基于特征增强位置注意力机制的图像语义分割模型
CN111461325B (zh) 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN107392189A (zh) 用于确定无人车的驾驶行为的方法和装置
CN106951959A (zh) 基于学习自动机的深度神经网络优化方法
CN113254782B (zh) 问答社区专家推荐方法及系统
CN117121015A (zh) 利用冻结语言模型的多模态少发式学习
Makin Brain simulation
CN113033276A (zh) 一种基于转换模块的行为识别方法
CN114138653A (zh) 一种基于深度图像理解的移动应用跨平台强化学习遍历测试技术
CN111079900B (zh) 一种基于自适应连接神经网络的图像处理方法及装置
CN116188870A (zh) 一种基于脉冲卷积神经网络的钢材表面缺陷图像分类方法
CN116935128A (zh) 一种基于可学习提示的零样本异常图像检测方法
Sahni et al. Visual hindsight experience replay
CN115346080B (zh) 基于量子计算的图像处理方法及相关设备
Wang et al. Automatic learning-based data optimization method for autonomous driving
CN110913246B (zh) 图像处理方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination