CN109190720A - 智能体强化学习方法、装置、设备及介质 - Google Patents

智能体强化学习方法、装置、设备及介质 Download PDF

Info

Publication number
CN109190720A
CN109190720A CN201810849877.6A CN201810849877A CN109190720A CN 109190720 A CN109190720 A CN 109190720A CN 201810849877 A CN201810849877 A CN 201810849877A CN 109190720 A CN109190720 A CN 109190720A
Authority
CN
China
Prior art keywords
intelligent body
characteristic pattern
current environment
attention
environment image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810849877.6A
Other languages
English (en)
Other versions
CN109190720B (zh
Inventor
刘春晓
薛洋
张伟
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN201810849877.6A priority Critical patent/CN109190720B/zh
Publication of CN109190720A publication Critical patent/CN109190720A/zh
Priority to JP2021500797A priority patent/JP7163477B2/ja
Priority to PCT/CN2019/096233 priority patent/WO2020024791A1/zh
Priority to SG11202013079WA priority patent/SG11202013079WA/en
Priority to US17/137,063 priority patent/US20210117738A1/en
Application granted granted Critical
Publication of CN109190720B publication Critical patent/CN109190720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Robotics (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请的实施方式公开了一种智能体强化学习方法、装置、电子设备、计算机可读存储介质以及计算机程序,其中的方法包括:获取智能体针对当前环境图像进行决策所依据的关键视觉信息;获取所述当前环境图像的实际关键视觉信息;根据所述所依据的关键视觉信息以及所述实际关键视觉信息,确定注意力变化回报信息;根据所述注意力变化回报信息调整智能体强化学习的回报反馈。

Description

智能体强化学习方法、装置、设备及介质
技术领域
本申请涉及计算机视觉技术,尤其是涉及一种智能体强化学习方法、智能体强化学习装置、电子设备、计算机可读存储介质以及计算机程序。
背景技术
在游戏以及机器人等诸多技术领域,通常会使用到智能体,例如,游戏中的接档下落小球的移动板或者机器臂等。智能体在强化学习过程中,通常是利用在环境中试错得到的奖赏信息,来指导学习的。
如何提高强化学习后的智能体的行为安全性,是强化学习中的一个重要的技术问题。
发明内容
本申请实施方式提供一种智能体强化学习的技术方案。
根据本申请实施方式其中一方面,提供一种智能体强化学习方法,所述方法包括:获取智能体针对当前环境图像进行决策所依据的关键视觉信息;获取所述当前环境图像的实际关键视觉信息;根据所述所依据的关键视觉信息以及所述实际关键视觉信息,确定注意力变化回报信息;根据所述注意力变化回报信息调整智能体强化学习的回报反馈。
在本申请一实施方式中,所述所依据的关键视觉信息包括:智能体在做出决策时,针对当前环境图像的注意力区域。
在本申请又一实施方式中,所述获取智能体针对当前环境图像进行决策所依据的关键视觉信息包括:获取智能体针对当前环境图像的价值注意力图;对所述价值注意力图和所述当前环境图像进行合成处理,获得热力图;根据所述热力图确定所述智能体针对当前环境图像的注意力区域。
在本申请再一实施方式中,所述获取智能体针对当前环境图像的价值注意力图包括:获取当前环境图像的特征图;根据所述特征图获得依次屏蔽所述特征图各通道而形成的各改变特征图;获取所述各改变特征图分别相对于所述特征图的状态价值改变量;根据各状态价值改变量以及各改变特征图形成所述价值注意力图。
在本申请再一实施方式中,所述获取当前环境图像的特征图包括:将所述当前环境图像输入卷积神经网络,并获取卷积神经网络的最后一层卷积层输出的特征图。
在本申请再一实施方式中,所述获取所述各改变特征图分别相对于所述特征图的状态价值改变量包括:将各改变特征图输入智能体的价值网络,以获得各改变特征图的状态价值;计算所述价值网络针对所述特征图输出的状态价值,分别与所述各改变特征图的状态价值的差值,以获得各改变特征图分别相对于所述特征图的状态价值改变量。
在本申请再一实施方式中,所述当前环境图像的实际关键视觉信息包括:当前环境图像中的目标对象所在区域。
在本申请再一实施方式中,所述根据所述所依据的关键视觉信息以及所述实际关键视觉信息,确定注意力变化回报信息包括:根据智能体在做出决策时,针对当前环境图像的注意力区域,与所述目标对象所在区域的交集与目标对象所在区域的比值,确定注意力变化回报信息。
在本申请再一实施方式中,所述智能体强化学习的回报反馈包括:注意力变化回报信息以及智能体针对当前环境图像进行决策所形成的回报信息。
在本申请再一实施方式中,所述方法还包括:根据所述所依据的关键视觉信息,确定环境探索周期内的探索程度;在判断出所述探索程度不符合预定探索程度的情况下,利用存储的历史训练数据进行经验回放;所述历史训练数据包括:利用预设要求对采样的强化学习训练数据进行筛选,而获得的训练数据。
在本申请再一实施方式中,所述根据所述所依据的关键视觉信息,确定环境探索周期内的探索程度包括:根据智能体针对环境探索周期内的多个相邻时刻的当前环境图像的价值注意力图之间的变化信息,确定该环境探索周期内的注意力改变量;其中,所述注意力改变量用于衡量所述环境探索周期内的探索程度。
在本申请再一实施方式中,所述方法还包括:根据所述环境探索周期内的正向回报和所述探索程度,确定所述环境探索周期内采样的强化学习训练数据的重要程度;将该环境探索周期内采样的重要程度符合预定要求的强化学习训练数据作为历史训练数据存储。
根据本申请实施方式其中再一方面,提供一种智能体强化学习装置,所述装置包括:获取关键视觉模块,用于获取智能体针对当前环境图像进行决策所依据的关键视觉信息;获取实际视觉模块,用于获取所述当前环境图像的实际关键视觉信息;确定变化回报模块,用于根据所述所依据的关键视觉信息以及所述实际关键视觉信息,确定注意力变化回报信息;调整回报反馈模块,用于根据所述注意力变化回报信息调整智能体强化学习的回报反馈。
在本申请一实施方式中,所述所依据的关键视觉信息包括:智能体在做出决策时,针对当前环境图像的注意力区域。
在本申请又一实施方式中,所述获取关键视觉模块进一步用于:获取智能体针对当前环境图像的价值注意力图;对所述价值注意力图和所述当前环境图像进行合成处理,获得热力图;根据所述热力图确定所述智能体针对当前环境图像的注意力区域。
在本申请再一实施方式中,所述获取关键视觉模块进一步用于:获取当前环境图像的特征图;根据所述特征图获得依次屏蔽所述特征图各通道而形成的各改变特征图;获取所述各改变特征图分别相对于所述特征图的状态价值改变量;根据各状态价值改变量以及各改变特征图形成所述价值注意力图。
在本申请再一实施方式中,所述获取关键视觉模块进一步用于:将所述当前环境图像输入卷积神经网络,并获取卷积神经网络的最后一层卷积层输出的特征图;其中,所述最后一层卷积层输出的特征图为所述获取关键视觉模块获取到的当前环境图像的特征图。
在本申请再一实施方式中,所述获取关键视觉模块进一步用于:将各改变特征图输入智能体的价值网络,以获得各改变特征图的状态价值;计算所述价值网络针对所述特征图输出的状态价值,分别与所述各改变特征图的状态价值的差值,以获得各改变特征图分别相对于所述特征图的状态价值改变量。
在本申请再一实施方式中,所述当前环境图像的实际关键视觉信息包括:当前环境图像中的目标对象所在区域。
在本申请再一实施方式中,所述确定变化回报模块进一步用于:根据智能体在做出决策时,针对当前环境图像的注意力区域,与所述目标对象所在区域的交集与目标对象所在区域的比值,确定注意力变化回报信息。
在本申请再一实施方式中,所述智能体强化学习的回报反馈包括:注意力变化回报信息以及智能体针对当前环境图像进行决策所形成的回报信息。
在本申请再一实施方式中,所述装置还包括:经验回放模块,用于根据所述所依据的关键视觉信息,确定环境探索周期内的探索程度;在判断出所述探索程度不符合预定探索程度的情况下,利用存储的历史训练数据进行经验回放;所述历史训练数据包括:利用预设要求对采样的强化学习训练数据进行筛选,而获得的训练数据。
在本申请再一实施方式中,所述经验回放模块进一步用于:根据智能体针对环境探索周期内的多个相邻时刻的当前环境图像的价值注意力图之间的变化信息,确定该环境探索周期内的注意力改变量;其中,所述注意力改变量用于衡量所述环境探索周期内的探索程度。
在本申请再一实施方式中,所述装置还包括:获取训练数据模块,用于根据所述环境探索周期内的正向回报和所述探索程度,确定所述环境探索周期内采样的强化学习训练数据的重要程度;将该环境探索周期内采样的重要程度符合预定要求的强化学习训练数据作为历史训练数据存储。
根据本申请实施方式再一方面,提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本申请任一方法实施方式。
根据本申请实施方式再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本申请任一方法实施方式。
根据本申请实施方式的再一个方面,提供一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现本申请任一方法实施方式。
基于本申请提供的智能体强化学习方法、智能体强化学习装置、电子设备、计算机可读存储介质及计算机程序,通过获得智能体针对当前环境图像进行决策所依据的关键视觉信息,可以利用当前环境图像的实际关键视觉信息,衡量出智能体在进行决策时,针对当前环境图像时的注意力变化情况(如注意力偏移情况),从而可以利用该注意力变化情况,确定出注意力变化回报信息。本申请通过利用注意力变化回报信息来调整智能体强化学习的回报反馈,可以使回报反馈体现出注意力变化回报信息,从而利用这样的回报反馈对智能体进行强化学习,可以减少由于智能体的注意力不准确(如注意力偏移)而导致其执行危险动作等概率。由此可知,本申请提供的技术方案有利于提高智能体的行为安全性。
下面通过附图和实施方式,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施方式,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请的智能体强化学习方法一个实施方式的流程图;
图2为智能体的网络结构的一个实施方式的示意图;
图3为智能体的网络结构的另一个实施方式的示意图;
图4为本申请的获取智能体针对当前环境图像的价值注意力图的一个实施方式的流程图;
图5本申请的获取智能体针对当前环境图像的价值注意力图的一个实施方式的示意图;
图6为本申请的智能体强化学习装置一实施方式的结构示意图;
图7为实现本申请实施方式的一示例性设备的框图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应当注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于终端设备、计算机系统及服务器等电子设备,其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子,包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性实施例
图1为本申请的智能体强化学习方法的一个实施例的流程图。
如图1所示,该实施例方法包括:S100、S110、S120以及S130。图1中的各步骤如下:
S100、获取智能体针对当前环境图像进行决策所依据的关键视觉信息。
S110、获取当前环境图像的实际关键视觉信息。
S120、根据上述所依据的关键视觉信息以及上述实际关键视觉信息,确定注意力变化回报信息。
S130、根据注意力变化回报信息调整智能体强化学习的回报反馈(Reward),从而可以基于调整后的回报反馈实现智能体的强化学习。根据注意力变化回报信息调整智能体强化学习的回报反馈可以包括:使智能体强化学习的回报反馈包含有注意力变化回报信息,如将注意力变化回报信息添加在回报反馈中。
本申请中的关键视觉信息可以是指:图像中需要注意的区域;也可以认为是:图像中的注意力区域。所依据的关键视觉信息可以是指:智能体所认为的注意力区域。当前环境图像的实际关键视觉信息可以是指:当前环境图像的真正的关键视觉信息,即当前环境图像的真正的注意力区域。
本申请中的注意力变化回报信息用于使智能体所认为的当前环境图像的注意力区域更接近于当前环境图像的实际关键视觉信息。本申请的回报反馈可以包括:注意力变化回报信息以及智能体针对当前环境图像进行决策所形成的回报信息。智能体针对当前环境图像进行决策所形成的回报信息通常是现有的智能体进行强化学习所采用的回报信息。
本申请通过获得智能体针对当前环境图像的所依据的关键视觉信息,从而可以利用当前环境图像的实际关键视觉信息,衡量出智能体在针对当前环境图像进行决策时的注意力变化情况(如注意力偏移情况等),进而可以利用该注意力变化情况,确定出注意力变化回报信息。本申请通过利用注意力变化回报信息调整智能体学习的回报反馈,使回报反馈可以体现出注意力变化回报信息,通过利用这样的回报反馈实现智能体的强化学习,可以减少由于智能体的注意力不准确而导致其执行危险动作等概率,从而有利于提高智能体的行为安全性。上述危险动作的一个例子为:在智能体应该运动的情况下,智能体的决策结果为空动作,从而使智能体保持原状态,此时决策出的空动作即为危险动作。本申请并不限制危险动作的具体表现形式。
在一个可选示例中,本申请中的智能体可以为接档下落小球的移动板或者机械臂或者车辆、机器人以及智能家居设备等基于强化学习而形成的具有人工智能特性的客体。本申请不限制智能体的具体表现形式,也不限制客体表现为硬件、软件或者软硬件结合的可能性。
在一个可选示例中,强化学习过程中的智能体所包含的网络结构的一个例子如图2所示。图2中的智能体包含有卷积神经网络(图2中间位置处)、决策网络(Policy Network)和价值网络(Value Network)等。智能体通过与环境进行交互,可以获得当前环境图像,图2最下方所示图像即为当前环境图像的一个例子。当前环境图像被输入卷积神经网络,在卷积神经网络中,前一卷积层所形成的当前环境图像的特征图被提供给后一卷积层,最后一层卷积层所形成的当前环境图像的特征图,分别提供给决策网络和价值网络。决策网络针对其接收到的特征图进行决策处理。价值网络针对接收到的特征图进行状态价值预测处理,以确定当前环境图像的状态价值。
强化学习过程中的智能体所包含的网络结构的另一个例子如图3所示。图3中的智能体包含有卷积神经网络(图3中间位置处)、RNN(Recurrent NeuronNetwork,循环神经网络)、决策网络以及价值网络。智能体通过与环境进行交互,可以获得当前环境图像,图3最下方所示的图像是当前环境图像的一个例子。当前环境图像被输入卷积神经网络,在卷积神经网络中,前一卷积层所形成的当前环境图像的特征图被提供给后一卷积层,最后一层卷积层所形成的当前环境图像的特征图,被提供给RNN,RNN可以将特征图的时序信息转换为一维的特征向量。RNN输出的特征图以及时序特征向量被分别提供给决策网络和价值网络。决策网络针对其接收到的特征图和时序特征向量进行决策处理。价值网络针对接收到的特征图和时序特征向量进行状态价值预测处理,以确定当前环境图像的状态价值。
需要说明的是,图2和图3仅为强化学习过程中的智能体的网络结构的可选示例,智能体的网络结构还可以表现为其他形式,本申请不限制智能体的网络结构的具体表现形式。
在一个可选示例中,本申请中的所依据的关键视觉信息,是可以反映出智能体(例如,智能体中的决策网络)在做出决策时,针对当前环境图像的注意力的信息。在本申请中,做出决策的时机可以取决于预先设定,例如,可以预先设定智能体每隔0.2秒作出一次决策。本申请中的决策结果可以为从动作空间中选择出一个动作。本申请可以先通过智能体的价值网络获得:智能体在做出决策时,与其针对当前环境图像的注意力,相对应的热力图;然后,再通过该热力图获得智能体做出决策时,针对当前环境图像的所依据的关键视觉信息。例如,本申请可以根据预先设置的阈值对热力图中的像素进行筛选,以筛选出像素的取值超过预先设置的阈值的像素,之后,根据筛选出的像素所形成的区域,可以确定出智能体在做出决策时,针对当前环境图像的注意力区域。通过利用智能体的价值网络来获得关键视觉信息,有利于方便快捷的获得关键视觉信息。
在一个可选示例中,本申请中的智能体在做出决策时,其针对当前环境图像的注意力可以使用价值注意力图(Value Attention Map)来体现。换而言之,价值注意力图可以是指:智能体的价值网络在做出状态价值判断时,所依据的关键视觉信息。本申请可以采用多种方式获得当前环境图像的价值注意力图,例如,本申请可以利用如图4所示的流程获得价值注意力图。
图4中,S400、获取当前环境图像的特征图。
可选的,本申请中的特征图通常属于智能体的卷积神经网络针对当前环境图像而形成的高层特征图。例如,将当前环境图像输入智能体的卷积神经网络中,并将该卷积神经网络的最后一层卷积层输出的特征图作为S400中的当前环境图像的特征图。当然,将卷积神经网络的倒数第二层卷积层输出的特征图作为S400中的当前环境图像的特征图,也是完全可行的。只要是属于卷积神经网络中的高层特征图即可。本申请中的高层特征图可以认为是:在将智能体的卷积神经网络的结构划分为两个或者三个或者更多阶段的情况下,中间阶段或中后阶段或最后一个阶段中的任一层针对当前环境图像而形成的特征图。本申请中的高层特征图也可以认为是,较为接近或者最接近智能体的卷积神经网络输出的层所形成的特征图。通过利用高层特征图,有利于提高获得的价值注意力图的准确性。
S410、根据上述获得的特征图,获得依次屏蔽该特征图各通道而形成的各改变特征图。
可选的,本申请中的改变特征图是指相对于S400中的特征图而言,由于屏蔽了特征图中的相应通道,而形成的与S400中的特征图不同的特征图。在当前环境图像的特征图具有多个通道的情况下,本申请获得各改变特征图的一个例子为:首先,通过屏蔽该特征图中的第一通道,可以获得第一个改变特征图;其次,通过屏蔽该特征图中的第二通道,可以获得第二个改变特征图;再次,通过屏蔽该特征图中的第三通道,可以获得第三个改变特征图;以此类推,直到屏蔽该特征图中的最后一个通道,可以获得最后一个改变特征图。图5右侧的中间位置处,示出了通过屏蔽高层特征图的不同通道而获得的三个改变特征图。本申请中的屏蔽特征图的相应通道,也可以认为是屏蔽隐含层的相应激活信息。在特征图具有n(n为大于1的整数)个通道的情况下,本申请可以获得n个改变特征图。本申请可以采用现有的方式实现屏蔽相应隐含层的激活信息,从而获得改变特征图,具体实现方式在此不再详细说明。
S420、获取各改变特征图分别相对于特征图的状态价值改变量。
可选的,本申请可以先将上述获得的各改变特征图,分别输入智能体的价值网络中,由价值网络针对各改变特征图分别进行状态价值预测处理,从而可以获得各改变特征图的状态价值,例如,针对n个改变特征图可以获得n个状态价值;其次,本申请可以通过计算价值网络针对S400中的特征图所输出的状态价值,分别与各改变特征图的状态价值的差值,从而获得各改变特征图分别相对于当前环境图像的特征图的状态价值改变量。
可选的,假设价值网络针对当前环境图像的特征图所形成的状态价值为V,且价值网络针对n个改变特征图所形成的状态价值分别为V1、V2、Vi、……以及Vn,则本申请可以通过计算V与V1的差值、V与V2的差值、V与Vi的差值、……以及V与Vn的差值,从而获得n个差值,即ΔV1、ΔV2、ΔVi、……以及ΔVn(如图5右上位置处所示)。ΔV1、ΔV2、ΔVi、……以及ΔVn即为n个改变特征图分别相对于当前环境图像的特征图的状态价值改变量。
针对任意一个改变特征图而言,本申请可以利用下述公式(1)计算该改变特征图相对于当前环境图像的特征图的状态价值改变量:
ΔV=V-fV(Bi⊙H) 公式(1)
在上述公式(1)中,ΔV表示状态价值改变量;V表示价值网络针对当前环境图像的特征图所形成的状态价值;H表示当前环境图像的特征图;Bi⊙H表示屏蔽了特征图中的第i个通道后,所获得的改变特征图;fV(Bi⊙H)表示价值网络针对该改变特征图所形成的状态价值。
由于卷积神经网络中的隐含层的不同激活信息会针对相应的特定模式进行激活,从而使隐含层关注不同的区域,因此,本申请通过依次屏蔽隐含层的不同激活信息,并获取各改变特征图相对于特征图的状态价值改变量,使不同的状态价值改变量可以反映出智能体对不同区域的关注程度。
S430、根据各状态价值改变量以及各改变特征图形成价值注意力图。
可选的,本申请可以对状态价值改变量进行归一化处理,以形成各改变特征图的权值。对状态价值改变量进行归一化处理的一个例子,如下述公式(2)所示:
在上述公式(2)中,ωi表示第i个改变特征图的权值。
可选的,本申请可以通过下述公式(3)形成价值注意力图:
在上述公式(3)中,A表示价值注意力图,Hi表示卷积神经网络的最后一卷积层输出的第i个通道的特征图,K为通道数量。
需要特别说明的是,本申请也可以采用现有的方式获得智能体在做出决策时,针对当前环境图像的价值注意力图。本申请不限制获取智能体在做出决策时,针对当前环境图像的价值注意力图的具体实现过程。
在一个可选示例中,本申请可以先对上述获得的价值注意力图A进行尺寸调整,例如,对价值注意力图A进行上采样处理等,以便于使价值注意力图A的尺寸与当前环境图像的尺寸相同;之后,再将尺寸调整后的价值注意力图A’和当前环境图像(如图5左下角的图像)进行融合处理,从而获得当前环境图像的价值注意力图所对应的热力图。热力图的一个可选例子如图5右下角所示的图像。
在一个可选示例中,本申请中的当前环境图像的实际关键视觉信息可以包括:当前环境图像中的目标对象所在区域。例如,本申请可以利用目标对象检测算法,获得当前环境图像中的目标对象所在区域。本申请不限制目标对象检测算法的具体实现方式,也不限制获得当前环境图像中的目标对象所在区域的具体实现方式。
在一个可选示例中,本申请中的注意力变化回报信息可以反映出智能体针对当前环境图像所关注的区域与实际应关注的区域之间的差距。也就是说,本申请可以根据智能体做出决策时针对当前环境图像所关注的注意力区域、以及当前环境图像中的目标对象所在区域之间的差异大小,确定出注意力变化回报信息。
可选的,本申请可以先根据所依据的关键视觉信息,确定出智能体针对当前环境图像的注意力区域,例如,可以根据预先设置的阈值,对所依据的关键视觉信息(如热力图)中的像素进行筛选,筛选出像素的取值超过预先设置的阈值的像素,并根据筛选出的像素所形成的区域,确定出智能体针对当前环境图像的注意力区域a;然后,本申请可以计算注意力区域a与当前环境图像中的目标对象所在区域b的交集与目标对象所在区域b的比值(a∩b)/b,并根据该比值确定出注意力变化回报信息。例如,通过针对比值进行换算,从而获得注意力变化回报信息。本申请中的比值或者基于比值而获得的注意力变化回报信息,可以认为是对智能体行为的安全性评价指标。比值越大,则智能体行为的安全性越高,反之,比值越小,则智能体行为的安全性越低。
在一个可选示例中,本申请通过利用上述获得注意力变化回报信息调整智能体强化学习的回报反馈(如将上述获得的注意力变化回报信息添加在智能体强化学习的回报反馈中),并利用这样的回报反馈来更新智能体的网络参数(如更新卷积神经网络、价值网络以及策略网络等的网络参数),使智能体在强化学习过程中,可以降低注意力变化(如注意力偏差)所导致的执行危险动作的几率。更新智能体的网络参数的方式可以采用基于强化学习中的演员-评论家算法的方式。更新智能体的网络参数的具体目标包括:使智能体中的价值网络所预测的状态价值尽可能的接近一个环境探索周期内的奖赏信息的积累值,且智能体中的决策网络的网络参数的更新应朝着使价值网络预测的状态价值增大的方向更新。
在一个可选示例中,在打砖块的游戏中,打砖块的小球在下落过程中,会由于重力作用而加速下降,对于接档下落小球的移动板而言,往往会由于注意力滞后,而存在执行危险动作(如移动板执行空动作等)的现象。本申请通过利用可以体现出注意力变化回报信息的回报反馈(如奖赏信息),使移动板进行强化学习,有利于避免移动板注意力滞后的现象,从而有利于降低移动板执行危险动作的几率。
需要特别说明的是,在利用注意力变化回报信息调整回报反馈,以利用该回报反馈实现智能体的强化学习时,该智能体可以是已经进行了一定程度的强化学习的智能体。例如,在对智能体进行初始化处理后,本申请可以利用现有的强化学习方式,基于未包含有注意力变化回报信息的回报反馈,使智能体进行强化学习,在判断出智能体的强化学习程度达到一定的要求(例如,决策网络的熵降到一定数值(如0.6))的情况下,再采用本发明提供的技术方案使智能体继续进行强化学习,从而有利于提高智能体的强化学习的效率以及成功率。
在一个可选示例中,在上述强化学习的过程中,本申请可以从采样获得的强化学习训练数据中,选取重要的强化学习训练数据作为历史训练数据存储,以便于在经验回放过程中,可以利用重要的强化学习训练数据,来调整智能体的网络参数;例如,对策略网络、价值网络以及卷积神经网络的网络参数进行调整;再例如,对策略网络、价值网络、RNN以及卷积神经网络的网络参数进行调整。本申请通过选取重要的强化学习训练数据作为历史训练数据存储,可以有效减少历史训练数据所需的缓存空间;通过采用重要的强化学习训练数据作为历史训练数据进行经验回放,有利于提高智能体的强化学习效率。
在一个可选示例中,本申请可以利用一环境探索周期内的正向回报(如正向奖赏等)和该环境探索周期的探索程度,来确定该环境探索周期内的强化学习训练数据的重要程度,从而在判断出该重要程度符合预定要求时,可以将该环境探索周期内的强化学习训练数据,作为历史训练数据缓存。
在一个可选示例中,本申请中的环境探索周期的探索程度可以使用该环境探索周期内的注意力改变量来体现,例如,本申请可以根据智能体针对环境探索周期内的多个相邻时刻的当前环境图像的价值注意力图之间的变化信息,确定该环境探索周期内的注意力改变量,并将该注意力改变量作为该环境探索周期内的探索程度。可选的,本申请可以利用下述公式(4)来计算一个环境探索周期内的注意力改变量:
在上述公式(4)中,E表示一个环境探索周期内的平均注意力改变量,表示包含当前环境图像中的所有像素;T表示一个环境探索周期内智能体与环境交互的次数;At表示在智能体第t次与环境交互时的当前环境图像所对应的价值注意力图,At-1表示在第t-1次与环境交互时的当前环境图像所对应的价值注意力图。
在一个可选示例中,本申请可以利用下述公式(5)来计算一个环境探索周期内的强化学习训练数据的重要程度:
S=β∑r++(1-β)E 公式(5)
在上述公式(5)中,S表示一个环境探索周期内的强化学习训练数据的重要程度,β表示超参数,β通常为0-1之间的常数,r+表示该环境探索周期内的正向回报,E表示该环境探索周期内的平均注意力改变量。
在一个可选示例中,如果一个环境探索周期内的强化学习训练数据的重要程度高于预定值,则可以将该环境探索周期内的所有强化学习训练数据(如奖赏信息以及当前环境图像等)作为历史训练数据进行缓存;否则,不保留该环境探索周期内的所有强化学习训练数据。
在一个可选示例中,本申请在强化学习过程中,本申请可以利用缓存的历史训练数据,以经验回放方式,来调整智能体的网络参数;例如,调整策略网络、价值网络以及卷积神经网络的网络参数;再例如,调整策略网络、价值网络、RNN以及卷积神经网络的网络参数。可选的,本申请判断一个环境探索周期内的探索程度,在确定出该探索程度不符合预定探索程度的情况下,可以产生随机数,如果该随机数超过预定数值(如0.3),则确定出需要进行经验回放,从而本申请可以利用预先存储的历史训练数据执行经验回放操作。而如果该随机数未超过预定数值,则可以确定出不需要进行经验回放。经验回放的具体实现过程可以采用现有的实现方式。在此不再详细说明。
图6为本申请的智能体强化学习装置一个实施例的结构示意图。如图6所示,该实施例的装置主要包括:获取关键视觉模块600、获取实际视觉模块610、确定变化回报模块620以及调整回报反馈模块630。可选的,该装置还可以包括:经验回放模块640以及获取训练数据模块650。
获取关键视觉模块600用于获取智能体针对当前环境图像进行决策所依据的关键视觉信息。
在一个可选示例中,上述所依据的关键视觉信息可以包括:智能体在做出决策时,针对当前环境图像的注意力区域。获取关键视觉模块600可以进一步用于,首先,获取智能体针对当前环境图像的价值注意力图,之后,对价值注意力图和当前环境图像进行合成处理,获得热力图;然后,根据热力图确定智能体针对当前环境图像的注意力区域。
在一个可选示例中,获取关键视觉模块600获取价值注意力图的方式可以可选为:首先,获取关键视觉模块600获取当前环境图像的特征图;之后,获取关键视觉模块600根据特征图获得依次屏蔽特征图各通道而形成的各改变特征图;然后,获取关键视觉模块600获取各改变特征图分别相对于特征图的状态价值改变量;最后,获取关键视觉模块600根据各状态价值改变量以及各改变特征图形成价值注意力图。
在一个可选示例中,获取关键视觉模块600获取当前环境图像的特征图的方式可以可选为:首先,获取关键视觉模块600将当前环境图像输入卷积神经网络,然后,获取关键视觉模块600获取卷积神经网络的最后一层卷积层输出的特征图。其中的最后一层卷积层输出的特征图为所述获取关键视觉模块获取到的当前环境图像的特征图。
在一个可选示例中,获取关键视觉模块600获取各改变特征图分别相对于特征图的状态价值改变量的方式可以可选的为:首先,获取关键视觉模块600将各改变特征图输入智能体的价值网络,以获得各改变特征图的状态价值;之后,获取关键视觉模块600计算价值网络针对特征图输出的状态价值,分别与各改变特征图的状态价值的差值,以获得各改变特征图分别相对于特征图的状态价值改变量。
获取实际视觉模块610用于获取当前环境图像的实际关键视觉信息。
在一个可选示例中,本申请中的当前环境图像的实际关键视觉信息可以包括:当前环境图像中的目标对象所在区域。
确定变化回报模块620用于根据上述所依据的关键视觉信息以及上述实际关键视觉信息,确定注意力变化回报信息。
在一个可选示例中,确定变化回报模块620可以根据智能体在做出决策时,针对当前环境图像的注意力区域,与目标对象所在区域的交集与目标对象所在区域的比值,确定注意力变化回报信息。
调整回报反馈模块630用于根据注意力变化回报信息调整智能体强化学习的回报反馈。
在一个可选示例中,本申请中的智能体强化学习的回报反馈可以包括:注意力变化回报信息以及智能体针对当前环境图像进行决策所形成的回报信息。
经验回放模块640用于根据所依据的关键视觉信息,确定环境探索周期内的探索程度;在判断出探索程度不符合预定探索程度的情况下,利用存储的历史训练数据进行经验回放。本申请中的历史训练数据包括:利用预设要求对采样的强化学习训练数据进行筛选,而获得的训练数据。
在一个可选示例中,经验回放模块640确定环境探索周期内的探索程度可以可选的为:经验回放模块640根据智能体针对环境探索周期内的多个相邻时刻的当前环境图像的价值注意力图之间的变化信息,确定该环境探索周期内的注意力改变量。其中的注意力改变量用于衡量环境探索周期内的探索程度。
获取训练数据模块650用于根据环境探索周期内的正向回报和探索程度,确定环境探索周期内采样的强化学习训练数据的重要程度,并将该环境探索周期内采样的重要程度符合预定要求的强化学习训练数据作为历史训练数据存储。
获取关键视觉模块600、获取实际视觉模块610、确定变化回报模块620、调整回报反馈模块630、经验回放模块640以及获取训练数据模块650所执行的具体操作,可以参见上述方法实施方式中针对图1至图5中的描述。在此不再重复说明。
示例性设备
图7示出了适于实现本申请的示例性设备700,设备700可以是汽车中配置的控制系统/电子系统、移动终端(例如,智能移动电话等)、个人计算机(PC,例如,台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图7中,设备700包括一个或者多个处理器、通信部等,所述一个或者多个处理器可以为:一个或者多个中央处理单元(CPU)701,和/或,一个或者多个利用神经网络进行智能体强化学习方法的图像处理器(GPU)713等,处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信部712可以包括但不限于网卡,所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器702和/或随机访问存储器703中通信以执行可执行指令,通过总线704与通信部712相连、并经通信部712与其他目标设备通信,从而完成本申请中的相应步骤。
上述各指令所执行的操作可以参见上述方法实施例中的相关描述,在此不再详细说明。此外,在RAM 703中,还可以存储有装置操作所需的各种程序以及数据。CPU701、ROM702以及RAM703通过总线704彼此相连。
在有RAM703的情况下,ROM702为可选模块。RAM703存储可执行指令,或在运行时向ROM702中写入可执行指令,可执行指令使中央处理单元701执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口705也连接至总线704。通信部712可以集成设置,也可以设置为具有多个子模块(例如,多个IB网卡),并分别与总线连接。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装在存储部分708中。
需要特别说明的是,如图7所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如,GPU713和CPU701可分离设置,再如理,可将GPU713集成在CPU701上,通信部可分离设置,也可集成设置在CPU701或GPU713上等。这些可替换的实施方式均落入本申请的保护范围。
特别地,根据本申请的实施方式,下文参考流程图描述的过程可以被实现为计算机软件程序,例如,本申请实施方式包括一种计算机程序产品,其包含有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的步骤的程序代码,程序代码可包括对应执行本申请提供的方法中的步骤对应的指令。
在这样的实施方式中,该计算机程序可以通过通信部分709从网络上被下载及安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请中记载的实现上述相应步骤的指令。
在一个或多个可选实施方式中,本公开实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,所述指令被执行时使得计算机执行上述任意实施例中所述的智能体强化学习方法。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选例子中,所述计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
在一个或多个可选实施方式中,本公开实施例还提供了另一种智能体强化学习方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品,其中的方法包括:第一装置向第二装置发送智能体强化学习指示,该指示使得第二装置执行上述任一可能的实施例中的智能体强化学习方法;第一装置接收第二装置发送的智能体强化学习的结果。
在一些实施例中,该智能体强化学习指示可以具体为调用指令,第一装置可以通过调用的方式指示第二装置执行智能体强化学习操作,相应地,响应于接收到调用指令,第二装置可以执行上述智能体强化学习方法中的任意实施例中的步骤和/或流程。
应理解,本公开实施例中的“第一”、“第二”等术语仅仅是为了区分,而不应理解成对本公开实施例的限定。还应理解,在本公开中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。还应理解,对于本公开中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施方式中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
本申请的描述,是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言,是显然的。选择和描述实施方式是为了更好说明本申请的原理以及实际应用,并且使本领域的普通技术人员能够理解本申请实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。

Claims (10)

1.一种智能体强化学习方法,其特征在于,包括:
获取智能体针对当前环境图像进行决策所依据的关键视觉信息;
获取所述当前环境图像的实际关键视觉信息;
根据所述所依据的关键视觉信息以及所述实际关键视觉信息,确定注意力变化回报信息;
根据所述注意力变化回报信息调整智能体强化学习的回报反馈。
2.根据权利要求1所述的方法,其特征在于,所述所依据的关键视觉信息包括:智能体在做出决策时,针对当前环境图像的注意力区域。
3.根据权利要求2所述的方法,其特征在于,所述获取智能体针对当前环境图像进行决策所依据的关键视觉信息包括:
获取智能体针对当前环境图像的价值注意力图;
对所述价值注意力图和所述当前环境图像进行合成处理,获得热力图;
根据所述热力图确定所述智能体针对当前环境图像的注意力区域。
4.根据权利要求3所述的方法,其特征在于,所述获取智能体针对当前环境图像的价值注意力图包括:
获取当前环境图像的特征图;
根据所述特征图获得依次屏蔽所述特征图各通道而形成的各改变特征图;
获取所述各改变特征图分别相对于所述特征图的状态价值改变量;
根据各状态价值改变量以及各改变特征图形成所述价值注意力图。
5.根据权利要求4所述的方法,其特征在于,所述获取当前环境图像的特征图包括:
将所述当前环境图像输入卷积神经网络,并获取卷积神经网络的最后一层卷积层输出的特征图。
6.根据权利要求4至5中任一项所述的方法,其特征在于,所述获取所述各改变特征图分别相对于所述特征图的状态价值改变量包括:
将各改变特征图输入智能体的价值网络,以获得各改变特征图的状态价值;
计算所述价值网络针对所述特征图输出的状态价值,分别与所述各改变特征图的状态价值的差值,以获得各改变特征图分别相对于所述特征图的状态价值改变量。
7.一种智能体强化学习装置,其特征在于,包括:
获取关键视觉模块,用于获取智能体针对当前环境图像进行决策所依据的关键视觉信息;
获取实际视觉模块,用于获取所述当前环境图像的实际关键视觉信息;
确定变化回报模块,用于根据所述所依据的关键视觉信息以及所述实际关键视觉信息,确定注意力变化回报信息;
调整回报反馈模块,用于根据所述注意力变化回报信息调整智能体强化学习的回报反馈。
8.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述权利要求1-6中任一项所述的方法。
10.一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现上述权利要求1-6中任一项所述的方法。
CN201810849877.6A 2018-07-28 2018-07-28 智能体强化学习方法、装置、设备及介质 Active CN109190720B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810849877.6A CN109190720B (zh) 2018-07-28 2018-07-28 智能体强化学习方法、装置、设备及介质
JP2021500797A JP7163477B2 (ja) 2018-07-28 2019-07-16 知能客体強化学習方法、装置、デバイス、及び媒体
PCT/CN2019/096233 WO2020024791A1 (zh) 2018-07-28 2019-07-16 智能体强化学习方法、装置、设备及介质
SG11202013079WA SG11202013079WA (en) 2018-07-28 2019-07-16 Intelligent agent reinforcement learning method and apparatus, device and medium
US17/137,063 US20210117738A1 (en) 2018-07-28 2020-12-29 Intelligent agent reinforcement learning method and apparatus, device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810849877.6A CN109190720B (zh) 2018-07-28 2018-07-28 智能体强化学习方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN109190720A true CN109190720A (zh) 2019-01-11
CN109190720B CN109190720B (zh) 2021-08-06

Family

ID=64937811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810849877.6A Active CN109190720B (zh) 2018-07-28 2018-07-28 智能体强化学习方法、装置、设备及介质

Country Status (5)

Country Link
US (1) US20210117738A1 (zh)
JP (1) JP7163477B2 (zh)
CN (1) CN109190720B (zh)
SG (1) SG11202013079WA (zh)
WO (1) WO2020024791A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147891A (zh) * 2019-05-23 2019-08-20 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备
CN110225019A (zh) * 2019-06-04 2019-09-10 腾讯科技(深圳)有限公司 一种网络安全处理方法和装置
WO2020024791A1 (zh) * 2018-07-28 2020-02-06 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN111898727A (zh) * 2019-05-06 2020-11-06 清华大学 基于短时访问机制的强化学习方法、装置及存储介质
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
KR20210039356A (ko) * 2020-06-30 2021-04-09 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 필터 디버깅 방법, 장치, 전자 기기, 판독 가능한 저장 매체 및 컴퓨터 프로그램
CN113255893A (zh) * 2021-06-01 2021-08-13 北京理工大学 一种多智能体行动策略自演进生成方法
CN113574547A (zh) * 2019-03-20 2021-10-29 索尼集团公司 通过双演员评论家算法进行强化学习
CN113872924A (zh) * 2020-06-30 2021-12-31 中国电子科技集团公司电子科学研究院 一种多智能体的动作决策方法、装置、设备及存储介质
CN116805353A (zh) * 2023-08-21 2023-09-26 成都中轨轨道设备有限公司 跨行业通用的智能机器视觉感知方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113671834B (zh) * 2021-08-24 2023-09-01 郑州大学 一种机器人柔性行为决策方法及设备
CN113867147A (zh) * 2021-09-29 2021-12-31 商汤集团有限公司 训练及控制方法、装置、计算设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法
US20180174001A1 (en) * 2016-12-15 2018-06-21 Samsung Electronics Co., Ltd. Method of training neural network, and recognition method and apparatus using neural network

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5346701B2 (ja) 2009-06-12 2013-11-20 本田技研工業株式会社 学習制御システム及び学習制御方法
CN117371492A (zh) 2016-11-04 2024-01-09 渊慧科技有限公司 一种计算机实现的方法及其系统
CN109190720B (zh) * 2018-07-28 2021-08-06 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174001A1 (en) * 2016-12-15 2018-06-21 Samsung Electronics Co., Ltd. Method of training neural network, and recognition method and apparatus using neural network
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SANGDOO YUN ET AL.: "Action-Driven Visual Object Tracking With Deep Reinforcement Learning", 《 IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS 》 *
翟建伟: "基于深度Q网络算法与模型的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020024791A1 (zh) * 2018-07-28 2020-02-06 深圳市商汤科技有限公司 智能体强化学习方法、装置、设备及介质
CN113574547A (zh) * 2019-03-20 2021-10-29 索尼集团公司 通过双演员评论家算法进行强化学习
CN113574547B (zh) * 2019-03-20 2024-01-19 索尼集团公司 通过双演员评论家算法进行强化学习
CN111898727A (zh) * 2019-05-06 2020-11-06 清华大学 基于短时访问机制的强化学习方法、装置及存储介质
CN110147891B (zh) * 2019-05-23 2021-06-01 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备
CN110147891A (zh) * 2019-05-23 2019-08-20 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备
CN110225019B (zh) * 2019-06-04 2021-08-31 腾讯科技(深圳)有限公司 一种网络安全处理方法和装置
CN110225019A (zh) * 2019-06-04 2019-09-10 腾讯科技(深圳)有限公司 一种网络安全处理方法和装置
KR20210039356A (ko) * 2020-06-30 2021-04-09 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 필터 디버깅 방법, 장치, 전자 기기, 판독 가능한 저장 매체 및 컴퓨터 프로그램
CN113872924B (zh) * 2020-06-30 2023-05-02 中国电子科技集团公司电子科学研究院 一种多智能体的动作决策方法、装置、设备及存储介质
CN113872924A (zh) * 2020-06-30 2021-12-31 中国电子科技集团公司电子科学研究院 一种多智能体的动作决策方法、装置、设备及存储介质
KR102489650B1 (ko) * 2020-06-30 2023-01-17 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 필터 디버깅 방법, 장치, 전자 기기, 판독 가능한 저장 매체 및 컴퓨터 프로그램
CN112216124B (zh) * 2020-09-17 2021-07-27 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN113255893A (zh) * 2021-06-01 2021-08-13 北京理工大学 一种多智能体行动策略自演进生成方法
CN113255893B (zh) * 2021-06-01 2022-07-05 北京理工大学 一种多智能体行动策略自演进生成方法
CN116805353A (zh) * 2023-08-21 2023-09-26 成都中轨轨道设备有限公司 跨行业通用的智能机器视觉感知方法
CN116805353B (zh) * 2023-08-21 2023-10-31 成都中轨轨道设备有限公司 跨行业通用的智能机器视觉感知方法

Also Published As

Publication number Publication date
CN109190720B (zh) 2021-08-06
JP7163477B2 (ja) 2022-10-31
WO2020024791A1 (zh) 2020-02-06
US20210117738A1 (en) 2021-04-22
SG11202013079WA (en) 2021-02-25
JP2021532457A (ja) 2021-11-25

Similar Documents

Publication Publication Date Title
CN109190720A (zh) 智能体强化学习方法、装置、设备及介质
JP7335274B2 (ja) ジオロケーションの予測のためのシステムおよび方法
JP7155271B2 (ja) 画像処理システム及び画像処理方法
CN108604388B (zh) 虚拟现实和/或扩增现实中的直接体渲染
US20200089366A1 (en) Deep Machine Learning to Perform Touch Motion Prediction
CN108229280A (zh) 时域动作检测方法和系统、电子设备、计算机存储介质
US10650283B2 (en) Electronic apparatus and control method thereof
US20190289321A1 (en) Video Frame Synthesis with Deep Learning
CN110298238A (zh) 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质
CN106599789A (zh) 视频类别识别方法和装置、数据处理装置和电子设备
CN115735227A (zh) 反转用于姿态估计的神经辐射场
CN106529527A (zh) 物体检测方法和装置、数据处理装置和电子设备
CN110023964A (zh) 训练和/或使用神经网络模型来生成光谱图像的中间输出
US9046934B2 (en) Controlling acceleration of mouse cursor movement based on screen segments and image features
CN109345553A (zh) 一种手掌及其关键点检测方法、装置和终端设备
US11074671B2 (en) Electronic apparatus and control method thereof
CN107273979A (zh) 基于服务级别来执行机器学习预测的方法及系统
CN109858615A (zh) 具有记忆的低通递归神经网络系统
CN108647064A (zh) 操作路径导航的方法及装置
CN112308145A (zh) 一种分类网络训练方法、分类方法、装置以及电子设备
KR102485874B1 (ko) 전문가 시스템을 이용한 ar 서비스 시스템 및 이를 이용한 서비스 방법
Deligiannidis et al. Security surveillance applications utilizing parallel video-processing techniques in the spatial domain
CN115079832B (zh) 虚拟现实场景的显示处理方法及虚拟现实设备
CN113822331A (zh) 加密流量的分类方法与装置以及电子设备
JP7488846B2 (ja) 連合学習機構を利用した画像IoTプラットフォーム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant