CN112101556A - 识别与去除环境观测量中冗余信息的方法及装置 - Google Patents

识别与去除环境观测量中冗余信息的方法及装置 Download PDF

Info

Publication number
CN112101556A
CN112101556A CN202010863637.9A CN202010863637A CN112101556A CN 112101556 A CN112101556 A CN 112101556A CN 202010863637 A CN202010863637 A CN 202010863637A CN 112101556 A CN112101556 A CN 112101556A
Authority
CN
China
Prior art keywords
information
weight
action
time
control strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010863637.9A
Other languages
English (en)
Other versions
CN112101556B (zh
Inventor
梁斌
杨君
芦维宁
刘启涵
许函
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010863637.9A priority Critical patent/CN112101556B/zh
Publication of CN112101556A publication Critical patent/CN112101556A/zh
Application granted granted Critical
Publication of CN112101556B publication Critical patent/CN112101556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请公开了一种识别与去除环境观测量中冗余信息的方法及装置,其中,该方法包括:采用循环神经网络从决策轨迹中提取历史信息,将历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息;根据历史信息及动作信息,生成对应的动作值函数,并将历史信息结合动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据第二权值,确定输入动作值函数的环境观测量;接着,对动作值函数及控制策略进行更新;在环境观测量的平均影响度小于影响度阈值时,将环境观测量进行置零去除。该方法可有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。

Description

识别与去除环境观测量中冗余信息的方法及装置
技术领域
本申请涉及深度学习技术领域,尤其涉及一种识别与去除环境观测量中冗余信息的方法及装置。
背景技术
近年来,以深度神经网络模型为基础的强化学习在决策控制任务中逐渐超越传统控制、规划方法,成为解决复杂环境、高维连续状态空间任务的重要方法。随着决策控制任务和被控对象的日益复杂,智能体所需处理的环境观测信息也愈发丰富和多样,相关技术中,为了提高智能体对环境的感知力并提升控制策略的性能,将来自不同传感器的信息有机整合起来,但是,将来自不同传感器的信息有机整合起来的同时引入多余的噪声和冗余信息,干扰智能体决策,因此,如何去除环境观测信息中的冗余信息,降低冗余信息对控制策略的干扰已经成为亟待解决的问题。
发明内容
本申请的目的旨在至少在一定程度上解决上述技术问题之一。
为此,本申请的第一个目的在于提出一种识别与去除环境观测量中冗余信息的方法,该方法能够有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。
本申请的另一个目的在于提出一种识别与去除环境观测量中冗余信息的装置。
为达到上述目的,本申请一方面实施例提出了一种识别与去除环境观测量中冗余信息的方法,包括以下步骤:采用循环神经网络从决策轨迹中提取历史信息,将所述历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,其中,决策轨迹由不同时刻的环境观测量以及对应的动作信息组成;根据所述历史信息及所述动作信息,生成对应的动作值函数,并将所述历史信息结合所述动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据所述第二权值,确定输入所述动作值函数的环境观测量;根据所述第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,以完成所述动作值函数及控制策略的更新;在所述环境观测量的平均影响度小于影响度阈值时,将所述环境观测量进行置零去除,其中,所述影响度阈值根据所述更新后的控制策略进行调整。
本申请实施例的识别与去除环境观测量中冗余信息的方法,通过采用循环神经网络从决策轨迹中提取历史信息,将所述历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,其中,决策轨迹由不同时刻的环境观测量以及对应的动作信息组成;根据所述历史信息及所述动作信息,生成对应的动作值函数,并将所述历史信息结合所述动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据所述第二权值,确定输入所述动作值函数的环境观测量;根据所述第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,以完成所述动作值函数及控制策略的更新;在所述环境观测量的平均影响度小于影响度阈值时,将所述环境观测量进行置零去除,其中,所述影响度阈值根据所述更新后的控制策略进行调整。该方法根据历史信息结合控制策略和动作值函数,生成观测量的权值,并将小于影响度阈值的观测量置零去除,有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。
为达到上述目的,本申请另一方面实施例提出了识别与去除环境观测量中冗余信息的装置,包括:获取模块,用于采用循环神经网络从决策轨迹中提取历史信息,将所述历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,其中,决策轨迹由不同时刻的环境观测量以及对应的动作信息组成;生成模块,用于根据所述历史信息及所述动作信息,生成对应的动作值函数,并将所述历史信息结合所述动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据所述第二权值,确定输入所述动作值函数的环境观测量;更新模块,用于根据所述第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,以完成所述动作值函数及控制策略的更新;去除模块,用于在所述环境观测量的平均影响度小于影响度阈值时,将所述环境观测量进行置零去除,其中,所述影响度阈值根据所述更新后的控制策略进行调整。
本申请实施例的识别与去除环境观测量中冗余信息的装置,通过采用循环神经网络从决策轨迹中提取历史信息,将所述历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,其中,决策轨迹由不同时刻的环境观测量以及对应的动作信息组成;根据所述历史信息及所述动作信息,生成对应的动作值函数,并将所述历史信息结合所述动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据所述第二权值,确定输入所述动作值函数的环境观测量;根据所述第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,以完成所述动作值函数及控制策略的更新;在所述环境观测量的平均影响度小于影响度阈值时,将所述环境观测量进行置零去除,其中,所述影响度阈值根据所述更新后的控制策略进行调整。该装置可实现根据历史信息结合控制策略和动作值函数,生成观测量的权值,并将小于影响度阈值的观测量置零去除,有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请一个实施例的识别与去除环境观测量中冗余信息的方法流程示意图;
图2为根据本申请一个实施例的控制策略训练示意图;
图3为根据本申请一个实施例的动作值函数生成示意图;
图4为根据本申请另一个实施例的识别与去除环境观测量中冗余信息的方法流程示意图;
图5为根据本申请一个实施例的环境观测量添加位置信息示意图;
图6为根据本申请又一个实施例的识别与去除环境观测量中冗余信息的方法流程示意图;
图7为根据本申请一个实施例的倒立摆环境示意图;
图8(a)为根据本申请一个实施例的无高斯噪声的倒立摆环境下的训练过程示意图;
图8(b)为根据本申请一个实施例的各个观测量在不同时刻对控制策略的影响程度;
图9(a)为根据本申请一个实施例的有高斯噪声的倒立摆环境下的训练过程示意图;
图9(b)为根据本申请另一个实施例的各个观测量在不同时刻对控制策略的影响程度;
图10为根据本申请一个实施例的识别与去除环境观测量中冗余信息的装置结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参照附图描述根据本申请实施例提出的识别与去除环境观测量中冗余信息的方法及装置。
图1为根据本申请一个实施例的识别与去除环境观测量中冗余信息的方法流程示意图。
如图1所示,该识别与去除环境观测量中冗余信息的方法具体实现过程如下:
步骤101,采用循环神经网络从决策轨迹中提取历史信息,将历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,其中,决策轨迹由不同时刻的环境观测量以及对应的动作信息组成。
在本申请实施例中,决策轨迹可由不同时刻的环境观测量以及对应的动作信息组成,决策轨迹可表示为{o0,a0,...,ot-1,at-1},可将该决策轨迹输入至循环神经网络中,循环神经网络可输出历史信息
Figure BDA0002649008070000041
其中,p表示特征维度。
接着,将历史信息结合预设控制策略
Figure BDA0002649008070000042
可生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,可选地,根据所述历史信息,生成对应的键匙;对所述决策轨迹中的t时刻环境观测量添加位置信息,生成对应的扩展观测量;根据所述扩展观测量,确定所述扩展观测量对应的键钥及对应的扩展观测量特征值;根据所述键匙、键匙长度及键值,生成t时刻对应的当前各个观测量的第一权值;根据所述第一权值及所述扩展观测量特征值,生成t时刻的观测量特征值,将所述历史信息及所述t时刻的观测量特征值输入至控制策略中,获取t时刻对应的动作信息。具体详见后续实施例的描述。
其中,如图2所示,预设的控制策略
Figure BDA0002649008070000043
可通过t时刻观测量和对应的历史信息对控制策略进行训练,将经过训练的控制策略作为预设的控制策略。
步骤102,根据历史信息及动作信息,生成对应的动作值函数,并将历史信息结合动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据第二权值,确定输入动作值函数的环境观测量。
在本申请实施例中,如图3所示,在获取到t时刻对应的动作信息之后,t时刻环境观测量ot,结合历史信息
Figure BDA0002649008070000051
t时刻对应的动作信息at,可生成对应的动作值函数
Figure BDA0002649008070000052
接着,历史信息结合动作值函数,可生成t时刻对应的各个环境观测量的第二权值。其中,需要说明的是,历史信息结合动作值函数,可生成t时刻对应的各个环境观测量的第二权值的方式,与历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值的方式相同。
需要说明的是,为了降低冗余信息对动作值函数的干扰,在生成t时刻对应的各个环境观测量的第二权值之后,可根据第二权值判断出智能体对当前任务目标的关键信息的识别度。作为一种示例,可预先设置第二权值阈值,将t时刻对应的各个环境观测量的第二权值与预设的第二权值阈值进行比对,在t时刻对应的各个环境观测量的第二权值大于或等于预设的第二权值阈值时,表示智能体对当前任务目标的关键信息的识别度较高,也就是该第二权值对应的环境观测量中的冗余信息较少,可将该第二权值对应的环境观测量作为动作值函数的输入。在t时刻对应的各个环境观测量的第二权值小于预设的第二权值阈值时,表示智能体对当前任务目标的关键信息的识别度较低,也就是该第二权值对应的环境观测信息中的冗余信息较多,可避免将该第二权值对应的环境观测量作为动作值函数的输入,由此,可降低冗余信息对动作值函数的干扰。
步骤103,根据第一权值,获得对应的辅助激励,并将辅助激励引入原奖励中,以完成动作值函数及控制策略的更新。
在本申请实施例中,为了提高控制策略性能,可根据第一权值,获得对应的辅助激励,并将辅助激励引入原奖励中,以完成动作值函数及控制策略的更新。
作为一种示例,可分别设置初始控制策略、初始动作值函数,以及目标控制策略、目标动作值函数;根据第一权值,获得对应的辅助激励,并将辅助激励引入原奖励中,结合目标动作值函数,获取对应的目标值,根据目标值,最小化初始动作值函数的损失函数,以对初始动作值函数进行更新;根据更新后动作值函数参数,更新初始控制策略。具体详见后续实施例的描述。
步骤104,在环境观测量的平均影响度小于影响度阈值时,将环境观测量进行置零去除,其中,影响度阈值根据更新后的控制策略进行调整。
在本申请实施例中,可根据公式计算出各个环境观测量对智能体决策的平均影响度,公式如下:
Figure BDA0002649008070000061
其中,mi表示第i个环境观测量对应的第i维平均影响度,D表示观测空间维度,T表示预设时间段,zi表示第i个观测量在T时间段内的平均权值,
Figure BDA0002649008070000062
表示观测空间维度内所有观测量的权值和,T可根据具体情况进行设置,本申请不做具体限制。
接着,为了降低冗余信息对控制策略的干扰,将各个环境观测量的平均影响度与影响度阈值进行比较,在观测量的平均影响度小于影响度阈值时,可将该环境观测量进行置零去除。其中,影响度阈值可根据更新后的控制策略进行调整。
需要理解的是,由于决策任务和控制对象的不同需要对影响度阈值进行调整,使得在降低所需观测量的同时保证策略性能,因此,在控制策略更新后,可根据如下公式对影响度阈值进行调整:
Figure BDA0002649008070000063
Figure BDA0002649008070000064
其中,s为影响度阈值,U(s,πθ)为评价函数,R(s,πθ),R(0,πθ)分别为观测量有无冗余时控制策略πθ获得的累积奖励,ρ为权重系数,α为学习速率,gi为高斯噪声,服从标准正太分布,σ为扰动系数,k为迭代次数,N为扰动次数,sk为k次迭代对应的影响度阈值,sk+1为k+1次迭代对应的影响度阈值。
可以理解的是,在观测量的平均影响度小于影响度阈值时,将该环境观测量进行置零去除,也就是对环境观测量进行冗余去除后,控制策略的输入发生变化,可根据原奖励结合冗余去除后的环境观测量对控制策略进行微调,由此,可降低控制策略和动作值函数的学习速率。
综上,通过历史信息结合控制策略和动作值函数,生成观测量的权值,根据该观测量的权值对动作值函数及控制策略的更新,并将小于影响度阈值的观测量置零去除,有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。
为了获取t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,可选地,如图4所示,图4为根据本申请另一个实施例的识别与去除环境观测量中冗余信息的方法流程图。在图4中,根据历史信息,生成对应的键匙;对决策轨迹中的t时刻环境观测量添加位置信息,生成对应的扩展观测量;根据扩展观测量,确定扩展观测量对应的键钥及对应的扩展观测量特征值;根据键匙、键匙长度及键值,生成t时刻对应的各个环境观测量的第一权值;根据第一权值及扩展观测量特征值,生成t时刻的各个环境观测量特征值,将历史信息及t时刻的各个环境观测量特征值输入至控制策略中,获取t时刻对应的动作信息。在图1所示实施例的步骤101中还可包括如下步骤:
步骤401,根据历史信息,生成对应的键匙。
作为一种示例,可根据历史信息获取对应的不带梯度的历史信息,将该不带梯度的历史信息与网络参数进行相乘,生成对应的t时刻的键匙kt,具体公式如下:
Figure BDA0002649008070000071
Figure BDA0002649008070000072
其中,kt表示t时刻的键匙,
Figure BDA0002649008070000073
表示不带梯度的历史信息,ht表示t时刻环境观测量对应的特征信息,Wk表示神经网络参数,为可进行训练的参数矩阵。
步骤402,对决策轨迹中的t时刻环境观测量添加位置信息,生成对应的扩展观测量。
为了区分具有相同观测值的不同环境观测量,如图5所示,可对决策轨迹中的t时刻环境观测量添加位置信息,生成对应的扩展观测量。具体公式如下:
Figure BDA0002649008070000074
其中,
Figure BDA0002649008070000075
表示t时刻第i个扩展观测量,
Figure BDA0002649008070000076
表示t时刻第i个环境观测量,D表示观测空间维度。
步骤403,根据扩展观测量,确定扩展观测量对应的键钥及对应的扩展观测量特征值。
作为一种示例,可将扩展观测量与网络参数相乘,获取该扩展观测量对应的键钥及对应的扩展观测量特征值。具体计算公式如下:
Figure BDA0002649008070000077
其中,
Figure BDA0002649008070000078
表示t时刻第i个扩展观测量对应的键钥,
Figure BDA0002649008070000079
表示第i个扩展观测量特征值,
Figure BDA00026490080700000710
表示t时刻第i个扩展观测量,Wq、Wv表示神经网络参数,为可进行训练的参数矩阵。
步骤404,根据键匙、键匙长度及键值,生成t时刻对应的各个观测量的第一权值。
可选地,根据如下公式计算t时刻对应的各个观测量的第一权值:
Figure BDA0002649008070000081
其中,
Figure BDA0002649008070000082
为t时刻第i个环境观测量的第一权值,
Figure BDA0002649008070000083
为t时刻第i个扩展观测量对应的键钥
Figure BDA0002649008070000084
的转置矩阵,kt为键匙,F为键匙长度。
步骤405,根据第一权值及扩展观测量特征值,生成t时刻的观测量特征值,将历史信息及t时刻的各个环境观测量特征值输入至控制策略中,获取t时刻对应的动作信息。
在本申请实施例中,可将第一权值与扩展观测量特征值进行相乘,生成t时刻的各个环境观测量特征值,具体公式如下:
Figure BDA0002649008070000085
其中,
Figure BDA0002649008070000086
表示t时刻第i个环境观测量的第一权值,
Figure BDA0002649008070000087
表示t时刻第i个扩展观测量特征值,
Figure BDA0002649008070000088
表示t时刻第i个环境观测量的特征值。
接着,将t时刻第i个环境观测量的特征值输入至控制策略中,可获取t时刻对应的动作信息at
综上,根据历史信息,生成对应的键匙kt;对决策轨迹中的t时刻环境观测量添加位置信息,生成对应的扩展观测量;根据扩展观测量,确定扩展观测量对应的键钥及对应的扩展观测量特征值;根据键匙、键匙长度及键值,生成t时刻对应的各个环境观测量的第一权值;根据第一权值及扩展观测量特征值,生成t时刻的观测量特征值,将历史信息及t时刻的各个环境观测量特征值输入至控制策略中,获取t时刻对应的动作信息,由此,可获取t时刻对应的各个环境观测量的第一权值以及t时刻对应的动作信息。
为了提高控制策略性能,如图6所示,图6为根据本申请又一个实施例的识别与去除环境观测量中冗余信息的方法流程示意图。在图6中,可分别设置初始控制策略、初始动作值函数,以及目标控制策略、目标动作值函数;根据第一权值,获得对应的辅助激励,并将辅助激励引入原奖励中,结合目标动作值函数,获取对应的目标值,根据目标值,最小化初始动作值函数的损失函数,以对初始动作值函数进行更新;根据更新后动作值函数参数,更新初始控制策略。在图1所示实施例的步骤103中还可包括如下步骤:
步骤601,分别设置初始控制策略、初始动作值函数,以及目标控制策略、目标动作值函数。
在本申请实施例中,可分别设置初始控制策略πθ(·|ht-1,ot)、初始动作值函数
Figure BDA0002649008070000091
以及目标控制策略
Figure BDA0002649008070000092
目标动作值函数
Figure BDA0002649008070000093
其中,ot为t时刻环境观测量,at为t时刻对应的动作信息,ht-1为历史信息,
Figure BDA0002649008070000094
步骤602,根据第一权值,获得对应的辅助激励,并将辅助激励引入原奖励中,结合目标动作值函数,获取对应的目标值,根据目标值,最小化初始动作值函数的损失函数,以对初始动作值函数进行更新。
作为一种示例,t时刻第i个环境观测量的第一权值为
Figure BDA0002649008070000095
对应的辅助激励
Figure BDA0002649008070000096
依据贝尔曼公式,则将辅助激励引入原奖励中,结合所述目标动作值函数,获取对应的目标值,计算公式为:
Figure BDA0002649008070000097
其中,yn,t为目标值,
Figure BDA0002649008070000098
为目标动作值函数,ot为t时刻对应的环境观测量,at为t时刻对应的动作信息,ht-1为历史信息,ht表示t时刻环境观测量对应的特征信息,ot+1为t+1时刻对应的环境观测量,rt为原奖励,r为折扣因子;β为辅助激励系数。
接着,根据目标值,最小化初始动作值函数的损失函数,以对初始动作值函数参数进行更新,计算公式为:
yt:=min(y1,t,y2,t),
Figure BDA0002649008070000099
Figure BDA00026490080700000910
其中,ot为t时刻环境观测量,at为t时刻动作信息,ht-1为历史信息,y1,t,y2,t为目标值。
进一步地,根据该更新后的初始动作值函数参数,可完成初始动作值函数的更新。
步骤603,根据所述更新后动作值函数参数,更新初始化控制策略。
可选地,根据以下公式更新初始控制策略的参数,以完成初始化控制策略的更新:
Figure BDA0002649008070000101
Figure BDA0002649008070000102
根据该更新后的初始控制策略的参数,可对目标控制策略进行更新,对应的,更新方式为:
Figure BDA0002649008070000103
同时,根据更新后的动作值函数,可对目标动作值函数进行更新,更新方式为,
Figure BDA0002649008070000104
其中,ot为t时刻观测量信息,α为学习速率,at为t时刻动作信息,ht-1为历史信息,τ=0.005为更新系数,θ为初始控制策略参数,
Figure BDA0002649008070000105
目标控制策略参数,
Figure BDA0002649008070000106
为目标动作值函数参数,
Figure BDA0002649008070000107
为初始动作值函数参数。
综上,通过分别设置初始控制策略、初始动作值函数,以及目标控制策略、目标动作值函数;根据第一权值,获得对应的辅助激励,并将辅助激励引入原奖励中,结合目标动作值函数,获取对应的目标值,根据目标值,最小化初始动作值函数的损失函数,以对初始动作值函数进行更新;根据更新后初始动作值函数参数,更新初始控制策略。由此,在初始动作值函数的损失函数最小化时,对初始动作值函数进行更新,可最大化动作值函数,根据最大化动作值函数对控制策略进行更新,可提高控制策略性能。
为了更加清楚地说明上述实施例,现举例进行说明。
举例而言,如图7所示,该任务是在仿真环境中控制倒立摆,使其能够从任意初始位置都能稳定的立起来,智能体所获得的环境观测量为
Figure BDA0002649008070000108
控制策略的输出为1维力矩。动作值函数网络中循环神经网络隐藏节点个数为128,键值、键钥和环境观测量特征值处的节点个数为64,循环神经网络后接两个节点个数为200的全连接层,激活函数全部为线性整流函数,使用Adam优化器进行梯度下降优化;策略网络与动作值函数网络除最后的输出层不同以外,其他地方都相同。为了验证本申请实施例的识别与去除环境观测量中冗余信息的方法可正确识别环境观测量中的冗余信息,本申请实施例中,在环境观测量中额外引入高斯噪声,从而最终的观测量为(cosφ,sinφ,ε1,ε2),ε12服从标准正太分布。其中,识别与去除环境观测量中冗余信息的方法所用的参数设置如下:学习速率lr=3e-4、α=0.001,折扣因子γ=0.99,辅助激励系数β=0.01,软更新系数δ=0.005,策略微调时的学习速率lr=1e-4。
首先,如图8(a),图8(a)为根据本申请一个实施例的无高斯噪声的倒立摆环境下的训练过程示意图,在图8(a)中,横坐标为训练轮数,纵坐标为奖励函数值。随着训练轮数增加,奖励函数值趋于稳定,表示倒立摆环境训练完成。接着,在无高斯噪声倒立摆环境中对本申请实施例的识别与去除环境观测量中冗余信息的方法进行验证,验证结果如图8(b)所示,实验表明控制策略可完成控制任务;同时因为倒立摆环境可由倒立摆的角度和角速度唯一表示,而本申请实施例的识别与去除环境观测量中冗余信息的方法能够给予环境的三个观测量同等程度的关注,说明本申请实施例的识别与去除环境观测量中冗余信息的方法能够正确识别出环境观测量中的有用信息。
其次,如图9(a)所示,图9(a)为根据本申请一个实施例的有高斯噪声的倒立摆环境下的训练过程示意图,在图9(a)中,横坐标为训练轮数,纵坐标为奖励函数值。随着训练轮数增加,奖励函数值趋于稳定,表示有高斯噪声的倒立摆环境训练完成。接着,在有高斯噪声倒立摆环境中对本申请实施例的识别与去除环境观测量中冗余信息的方法进行验证,验证结果如图9(b)所示,实验结果表明本申请实施例的识别与去除环境观测量中冗余信息的方法,在有冗余信息下具有良好的鲁棒性,在完成控制任务的同时又尽可能降低冗余信息对控制策略的干扰;对环境观测的高斯噪声,给予很低的关注,说明本申请实施例的识别与去除环境观测量中冗余信息的方法能够识别出环境观测中的冗余信息。经过对冗余信息的去除和控制策略的微调后,控制策略在冗余干扰信息环境所获得的奖励与原环境中的一致。
本申请实施例的识别与去除环境观测量中冗余信息的方法,通过采用循环神经网络从决策轨迹中提取历史信息,将历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,其中,决策轨迹由不同时刻的环境观测量以及对应的动作信息组成;根据历史信息及动作信息,生成对应的动作值函数,并将历史信息结合所述动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据第二权值,确定输入动作值函数的环境观测量;根据所述第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,以完成所述动作值函数及控制策略的更新;在所述环境观测量的平均影响度小于影响度阈值时,将所述环境观测量进行置零去除,其中,所述影响度阈值根据所述更新后的控制策略进行调整。该方法根据历史信息结合控制策略和动作值函数,生成观测量的权值,并将小于影响度阈值的观测量置零去除,有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。
为了实现上述实施例,本申请实施例还提出一种识别与去除环境观测量中冗余信息的装置,图10为根据本申请一个实施例的识别与去除环境观测量中冗余信息的装置结构示意图,如图10所示,该识别与去除环境观测量中冗余信息的装置1000包括:获取模块1010、生成模块1020、更新模块1030、去除模块1040。
其中,获取模块1010,用于采用循环神经网络从决策轨迹中提取历史信息,将历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,其中,决策轨迹由不同时刻的环境观测量以及对应的动作信息组成;生成模块1020,用于根据历史信息及动作信息,生成对应的动作值函数,并将历史信息结合动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据所述第二权值,确定输入所述动作值函数的环境观测量;更新模块1030,用于根据第一权值,获得对应的辅助激励,并将辅助激励引入原奖励中,以完成动作值函数及控制策略的更新;去除模块1040,用于在环境观测量的平均影响度小于影响度阈值时,将环境观测量进行置零去除,其中,影响度阈值根据更新后的控制策略进行调整。
作为本申请实施例的一种可能实现方式,识别与去除环境观测量中冗余信息的装置还可包括:微调模块。
其中,微调模块,用于根据原奖励对控制策略进行微调。
作为本申请实施例的一种可能实现方式,获取模块1010具体用于,根据历史信息,生成对应的键匙;对决策轨迹中的t时刻环境观测量添加位置信息,生成对应的扩展观测量;根据扩展观测量,确定扩展观测量对应的键钥及对应的扩展观测量特征值;根据所述键匙、键匙长度及键值,生成t时刻对应的当前各个观测量的第一权值;根据第一权值及扩展观测量特征值,生成t时刻的观测量特征值,将历史信息及所述t时刻的观测量特征值输入至控制策略中,获取t时刻对应的动作信息。
作为本申请实施例的一种可能实现方式,将所述历史信息结合所述动作值函数,生成t时刻对应的各个环境观测量的第二权值的方式,与将所述历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值方式相同;获取模块1010具体用于,根据所述历史信息,生成对应的键匙;对所述决策轨迹中的t时刻环境观测量添加位置信息,生成对应的扩展观测量;根据所述扩展观测量,确定所述扩展观测量对应的键钥及对应的扩展观测量特征值;根据所述键匙、键匙长度及键值,生成t时刻对应的当前各个观测量的第一权值。
作为本申请实施例的一种可能实现方式,根据键匙、键匙长度及键值,生成t时刻对应的各个环境观测量的第一权值,计算公式为:
Figure BDA0002649008070000131
其中,
Figure BDA0002649008070000132
为t时刻第i个扩展观测量对应的键钥
Figure BDA0002649008070000133
的转置矩阵,kt为键匙,F为键匙长度。
作为本申请实施例的一种可能实现方式,更新模块1030具体用于,分别设置初始控制策略、初始动作值函数,以及目标控制策略、目标动作值函数;根据第一权值,获得对应的辅助激励,并将辅助激励引入原奖励中,结合目标动作值函数,获取对应的目标值,根据目标值,最小化初始动作值函数的损失函数,以对初始动作值函数进行更新;根据更新后动作值函数参数,更新初始控制策略。
作为本申请实施例的一种可能实现方式,更新模块1030还用于,根据第一权重,获得对应的辅助激励,并将辅助激励引入原奖励中,结合目标动作值函数,获取对应的目标值,计算公式为:
Figure BDA0002649008070000134
其中,yn,t为目标值,
Figure BDA0002649008070000135
Figure BDA00026490080700001310
为辅助激励,
Figure BDA0002649008070000136
为t时刻第i个环境观测量的第一权值,at+1为t+1时刻对应的动作信息,
Figure BDA0002649008070000137
为目标动作值函数,ht为t时刻环境观测量对应的特征信息,ot+1为t+1时刻环境观测量,rt为原奖励,r为折扣因子,β为辅助激励系数;
根据目标值,最小化所述初始动作值函数的损失函数,以对初始动作值函数进行更新,计算公式为:
yt:=min(y1,t,y2,t),
Figure BDA0002649008070000138
Figure BDA0002649008070000139
其中,ot为t时刻环境观测量,at为t时刻动作信息,ht-1为历史信息,y1,t,y2,t为目标值。
作为本申请实施例的一种可能实现方式,更新模块1030还用于,根据所述更新后动作值函数参数,更新所述初始控制策略,计算公式为:
Figure BDA0002649008070000141
Figure BDA0002649008070000142
其中,ot为t时刻的环境观测量,α为学习速率,at为t时刻对应的动作信息,ht-1为历史信息,θ为初始化控制策略参数。
作为本申请实施例的一种可能实现方式,影响度阈值根据更新后的控制策略进行调整,计算公式为:
Figure BDA0002649008070000143
Figure BDA0002649008070000144
其中,s为影响度阈值,U(s,πθ)为评价函数,R(s,πθ),R(0,πθ)分别为观测量有无冗余时控制策略πθ获得的累积奖励,ρ为权重系数,α为学习速率,gi为高斯噪声,服从标准正太分布,σ为扰动系数,k为迭代次数,N为扰动次数,sk为k次迭代对应的影响度阈值,sk+1为k+1次迭代对应的影响度阈值。
本申请实施例的识别与去除环境观测量中冗余信息的装置,通过采用循环神经网络从决策轨迹中提取历史信息,将历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,其中,决策轨迹由不同时刻的环境观测量以及对应的动作信息组成;根据历史信息及动作信息,生成对应的动作值函数,并将历史信息结合动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据第二权值,确定输入动作值函数的环境观测量;根据第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,以完成所述动作值函数及控制策略的更新;在环境观测量的平均影响度小于影响度阈值时,将环境观测量进行置零去除,其中,影响度阈值根据更新后的控制策略进行调整。该装置可实现根据历史信息结合控制策略和动作值函数,生成观测量的权值,并将小于影响度阈值的观测量置零去除,有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种识别与去除环境观测量中冗余信息的方法,其特征在于,包括以下步骤:
采用循环神经网络从决策轨迹中提取历史信息,将所述历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,其中,决策轨迹由不同时刻的环境观测量以及对应的动作信息组成;
根据所述历史信息及所述动作信息,生成对应的动作值函数,并将所述历史信息结合所述动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据所述第二权值,确定输入所述动作值函数的环境观测量;
根据所述第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,以完成所述动作值函数及控制策略的更新;
在所述环境观测量的平均影响度小于影响度阈值时,将所述环境观测量进行置零去除,其中,所述影响度阈值根据所述更新后的控制策略进行调整。
2.根据权利要求1所述的方法,其特征在于,将所述环境观测量进行置零去除之后,还包括:
根据所述原奖励对所述控制策略进行微调。
3.根据权利要求1所述的方法,其特征在于,将所述历史信息结合所述动作值函数,生成t时刻对应的各个环境观测量的第二权值的方式,与将所述历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值方式相同;
将所述历史信息结合控制策略,生成t时刻对应的各个环境观测量的第一权值的方式为,
根据所述历史信息,生成对应的键匙;
对所述决策轨迹中的t时刻环境观测量添加位置信息,生成对应的扩展观测量;
根据所述扩展观测量,确定所述扩展观测量对应的键钥及对应的扩展观测量特征值;
根据所述键匙、键匙长度及键值,生成t时刻对应的各个环境观测量的第一权值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述键匙、键匙长度及键值,生成t时刻对应的各个环境观测量的第一权值,计算公式为:
Figure FDA0002649008060000021
其中,
Figure FDA0002649008060000022
为t时刻第i个扩展观测量对应的键钥
Figure FDA0002649008060000023
的转置矩阵,kt为所述键匙,F为所述键匙长度。
5.根据权利要求1所述的方法,其特征在于,根据所述第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,以完成所述动作值函数及控制策略的更新,包括:
分别设置初始控制策略、初始动作值函数,以及目标控制策略、目标动作值函数;
根据所述第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,结合所述目标动作值函数,获取对应的目标值,根据所述目标值,最小化所述初始动作值函数的损失函数,以对所述初始动作值函数进行更新;
根据所述更新后动作值函数参数,更新所述初始控制策略。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,结合所述目标动作值函数,获取对应的目标值,根据所述目标值,最小化所述初始动作值函数的损失函数,以对所述初始动作值函数进行更新,包括:
根据所述第一权重,获得对应的辅助激励,并将所述辅助激励引入原奖励中,结合所述目标动作值函数,获取对应的目标值,计算公式为:
Figure FDA0002649008060000024
其中,yn,t为目标值,
Figure FDA0002649008060000025
Figure FDA0002649008060000026
为辅助激励,
Figure FDA0002649008060000027
为t时刻第i个环境观测量的第一权值,,at+1为t+1时刻对应的动作信息,
Figure FDA0002649008060000028
为目标动作值函数,ht为t时刻环境观测量对应的特征信息,ot+1为t+1时刻的环境观测量,rt为原奖励,r为折扣因子,β为辅助激励系数;
根据所述目标值,最小化所述初始动作值函数的损失函数,以对所述初始动作值函数进行更新,计算公式为:
yt:=min(y1,t,y2,t),
Figure FDA0002649008060000029
Figure FDA00026490080600000210
其中,ot为t时刻的环境观测量,at为t时刻动作信息,ht-1为历史信息,y1,t,y2,t为目标值。
7.根据权利要求5所述的方法,其特征在于,根据所述更新后动作值函数参数,更新所述初始控制策略,计算公式为:
Figure FDA0002649008060000031
Figure FDA0002649008060000032
其中,ot为t时刻的环境观测量,α为学习速率,at为t时刻对应的动作信息,ht-1为历史信息,θ为初始控制策略参数。
8.根据权利要求1所述的方法,其特征在于,所述影响度阈值根据所述更新后的控制策略进行调整,计算公式为:
Figure FDA0002649008060000033
Figure FDA0002649008060000034
其中,s为影响度阈值,U(s,πθ)为评价函数,R(s,πθ),R(0,πθ)分别为观测量有无冗余时控制策略πθ获得的累积奖励,ρ为权重系数,α为学习速率,gi为高斯噪声,服从标准正太分布,σ为扰动系数,k为迭代次数,N为扰动次数,sk为k次迭代对应的影响度阈值,sk+1为k+1次迭代对应的影响度阈值。
9.一种识别与去除环境观测量中冗余信息的装置,其特征在于,包括:
获取模块,用于采用循环神经网络从决策轨迹中提取历史信息,将所述历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息,其中,决策轨迹由不同时刻的环境观测量以及对应的动作信息组成;
生成模块,用于根据所述历史信息及所述动作信息,生成对应的动作值函数,并将所述历史信息结合所述动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据所述第二权值,确定输入所述动作值函数的环境观测量;
更新模块,用于根据所述第一权值,获得对应的辅助激励,并将所述辅助激励引入原奖励中,以完成所述动作值函数及控制策略的更新;
去除模块,用于在所述环境观测量的平均影响度小于影响度阈值时,将所述环境观测量进行置零去除,其中,所述影响度阈值根据所述更新后的控制策略进行调整。
CN202010863637.9A 2020-08-25 2020-08-25 识别与去除环境观测量中冗余信息的方法及装置 Active CN112101556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010863637.9A CN112101556B (zh) 2020-08-25 2020-08-25 识别与去除环境观测量中冗余信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010863637.9A CN112101556B (zh) 2020-08-25 2020-08-25 识别与去除环境观测量中冗余信息的方法及装置

Publications (2)

Publication Number Publication Date
CN112101556A true CN112101556A (zh) 2020-12-18
CN112101556B CN112101556B (zh) 2021-08-10

Family

ID=73753242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010863637.9A Active CN112101556B (zh) 2020-08-25 2020-08-25 识别与去除环境观测量中冗余信息的方法及装置

Country Status (1)

Country Link
CN (1) CN112101556B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399336A (zh) * 2013-07-29 2013-11-20 东南大学 一种非高斯噪声环境下gps/sins组合导航方法
CN103968834A (zh) * 2014-05-09 2014-08-06 中国科学院光电技术研究所 一种近地停泊轨道上深空探测器的自主天文导航方法
US20160217419A1 (en) * 2015-01-27 2016-07-28 Tata Consultancy Services Limited Data analysis system and method to enable integrated view of customer information
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
US20180121851A1 (en) * 2011-10-21 2018-05-03 Motio, Inc. Systems and Methods for Decommissioning Business Intelligence Artifacts
CN108762249A (zh) * 2018-04-26 2018-11-06 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN108830376A (zh) * 2018-06-13 2018-11-16 中国科学技术大学 针对时间敏感的环境的多价值网络深度强化学习方法
CN110032782A (zh) * 2019-03-29 2019-07-19 银江股份有限公司 一种城市级智能交通信号控制系统及方法
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110187727A (zh) * 2019-06-17 2019-08-30 武汉理工大学 一种基于深度学习和强化学习的玻璃熔炉温度控制方法
CN110335162A (zh) * 2019-07-18 2019-10-15 电子科技大学 一种基于深度强化学习的股票市场量化交易系统及算法
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110958135A (zh) * 2019-11-05 2020-04-03 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统
CN111476302A (zh) * 2020-04-08 2020-07-31 北京工商大学 基于深度强化学习的Faster-RCNN目标物体检测方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121851A1 (en) * 2011-10-21 2018-05-03 Motio, Inc. Systems and Methods for Decommissioning Business Intelligence Artifacts
CN103399336A (zh) * 2013-07-29 2013-11-20 东南大学 一种非高斯噪声环境下gps/sins组合导航方法
CN103968834A (zh) * 2014-05-09 2014-08-06 中国科学院光电技术研究所 一种近地停泊轨道上深空探测器的自主天文导航方法
US20160217419A1 (en) * 2015-01-27 2016-07-28 Tata Consultancy Services Limited Data analysis system and method to enable integrated view of customer information
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN108762249A (zh) * 2018-04-26 2018-11-06 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN108830376A (zh) * 2018-06-13 2018-11-16 中国科学技术大学 针对时间敏感的环境的多价值网络深度强化学习方法
CN110032782A (zh) * 2019-03-29 2019-07-19 银江股份有限公司 一种城市级智能交通信号控制系统及方法
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110187727A (zh) * 2019-06-17 2019-08-30 武汉理工大学 一种基于深度学习和强化学习的玻璃熔炉温度控制方法
CN110335162A (zh) * 2019-07-18 2019-10-15 电子科技大学 一种基于深度强化学习的股票市场量化交易系统及算法
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质
CN110958135A (zh) * 2019-11-05 2020-04-03 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统
CN111476302A (zh) * 2020-04-08 2020-07-31 北京工商大学 基于深度强化学习的Faster-RCNN目标物体检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAIQING LIANG: "A Precision Advertising Strategy Based on Deep Reinforcement Learning", 《INGÉNIERIE DES SYSTÈMES D’INFORMATION》 *
LE LIANG等: "Towards Intelligent Vehicular Networks: A Machine Learning Framework", 《ARXIV:1804.00338V3》 *
孙承爱等: "基于奖励值RNN和A2C模型的音乐生成", 《软件》 *
舒凌洲等: "基于深度强化学习的城市交通信号控制算法", 《计算机应用》 *

Also Published As

Publication number Publication date
CN112101556B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
US8260441B2 (en) Method for computer-supported control and/or regulation of a technical system
US7219087B2 (en) Soft computing optimizer of intelligent control system structures
JP2539540B2 (ja) プロセス制御装置
US6463371B1 (en) System for intelligent control of a vehicle suspension based on soft computing
Stafylopatis et al. Autonomous vehicle navigation using evolutionary reinforcement learning
CN108830376B (zh) 针对时间敏感的环境的多价值网络深度强化学习方法
CN111880412B (zh) 基于单评判网络的可重构机器人零和神经最优控制方法
CN114460941B (zh) 一种基于改进麻雀搜索算法的机器人路径规划方法及系统
Swazinna et al. Comparing model-free and model-based algorithms for offline reinforcement learning
CN113614743A (zh) 用于操控机器人的方法和设备
CN115374933A (zh) 一种多节点探测器着陆行为智能规划及决策方法
CN116587275A (zh) 基于深度强化学习的机械臂智能阻抗控制方法及系统
CN109800517B (zh) 一种改进的磁流变阻尼器逆向建模方法
Mishra et al. Neuro-fuzzy models and applications
CN115167102A (zh) 一种基于并行优势动作评价的强化学习自适应pid控制方法
CN112101556B (zh) 识别与去除环境观测量中冗余信息的方法及装置
CN116432539A (zh) 一种时间一致性协同制导方法、系统、设备及介质
CN115510753A (zh) 群智网络中基于矩阵补全与强化学习的数据收集方法
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及系统
CN110908280B (zh) 一种小车-二级倒立摆系统优化控制方法
Abdulsadda et al. An improved SPSA algorithm for system identification using fuzzy rules for training neural networks
CN114083543A (zh) 一种空间机械臂主动故障诊断方法
CN114626505A (zh) 一种移动机器人深度强化学习控制方法
Hajela et al. Classifier systems for enhancing neural network-based global function approximations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant