CN112101556A

CN112101556A - 识别与去除环境观测量中冗余信息的方法及装置

Info

Publication number: CN112101556A
Application number: CN202010863637.9A
Authority: CN
Inventors: 梁斌; 杨君; 芦维宁; 刘启涵; 许函
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-12-18
Anticipated expiration: 2040-08-25
Also published as: CN112101556B

Abstract

本申请公开了一种识别与去除环境观测量中冗余信息的方法及装置，其中，该方法包括：采用循环神经网络从决策轨迹中提取历史信息，将历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息；根据历史信息及动作信息，生成对应的动作值函数，并将历史信息结合动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据第二权值，确定输入动作值函数的环境观测量；接着，对动作值函数及控制策略进行更新；在环境观测量的平均影响度小于影响度阈值时，将环境观测量进行置零去除。该方法可有效地识别出并去除环境观测中的冗余信息，从而降低冗余信息对控制策略的干扰。

Description

识别与去除环境观测量中冗余信息的方法及装置

技术领域

本申请涉及深度学习技术领域，尤其涉及一种识别与去除环境观测量中冗余信息的方法及装置。

背景技术

近年来，以深度神经网络模型为基础的强化学习在决策控制任务中逐渐超越传统控制、规划方法，成为解决复杂环境、高维连续状态空间任务的重要方法。随着决策控制任务和被控对象的日益复杂，智能体所需处理的环境观测信息也愈发丰富和多样，相关技术中，为了提高智能体对环境的感知力并提升控制策略的性能，将来自不同传感器的信息有机整合起来，但是，将来自不同传感器的信息有机整合起来的同时引入多余的噪声和冗余信息，干扰智能体决策，因此，如何去除环境观测信息中的冗余信息，降低冗余信息对控制策略的干扰已经成为亟待解决的问题。

发明内容

本申请的目的旨在至少在一定程度上解决上述技术问题之一。

为此，本申请的第一个目的在于提出一种识别与去除环境观测量中冗余信息的方法，该方法能够有效地识别出并去除环境观测中的冗余信息，从而降低冗余信息对控制策略的干扰。

本申请的另一个目的在于提出一种识别与去除环境观测量中冗余信息的装置。

为达到上述目的，本申请一方面实施例提出了一种识别与去除环境观测量中冗余信息的方法，包括以下步骤：采用循环神经网络从决策轨迹中提取历史信息，将所述历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，其中，决策轨迹由不同时刻的环境观测量以及对应的动作信息组成；根据所述历史信息及所述动作信息，生成对应的动作值函数，并将所述历史信息结合所述动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据所述第二权值，确定输入所述动作值函数的环境观测量；根据所述第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，以完成所述动作值函数及控制策略的更新；在所述环境观测量的平均影响度小于影响度阈值时，将所述环境观测量进行置零去除，其中，所述影响度阈值根据所述更新后的控制策略进行调整。

本申请实施例的识别与去除环境观测量中冗余信息的方法，通过采用循环神经网络从决策轨迹中提取历史信息，将所述历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，其中，决策轨迹由不同时刻的环境观测量以及对应的动作信息组成；根据所述历史信息及所述动作信息，生成对应的动作值函数，并将所述历史信息结合所述动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据所述第二权值，确定输入所述动作值函数的环境观测量；根据所述第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，以完成所述动作值函数及控制策略的更新；在所述环境观测量的平均影响度小于影响度阈值时，将所述环境观测量进行置零去除，其中，所述影响度阈值根据所述更新后的控制策略进行调整。该方法根据历史信息结合控制策略和动作值函数，生成观测量的权值，并将小于影响度阈值的观测量置零去除，有效地识别出并去除环境观测中的冗余信息，从而降低冗余信息对控制策略的干扰。

为达到上述目的，本申请另一方面实施例提出了识别与去除环境观测量中冗余信息的装置，包括：获取模块，用于采用循环神经网络从决策轨迹中提取历史信息，将所述历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，其中，决策轨迹由不同时刻的环境观测量以及对应的动作信息组成；生成模块，用于根据所述历史信息及所述动作信息，生成对应的动作值函数，并将所述历史信息结合所述动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据所述第二权值，确定输入所述动作值函数的环境观测量；更新模块，用于根据所述第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，以完成所述动作值函数及控制策略的更新；去除模块，用于在所述环境观测量的平均影响度小于影响度阈值时，将所述环境观测量进行置零去除，其中，所述影响度阈值根据所述更新后的控制策略进行调整。

本申请实施例的识别与去除环境观测量中冗余信息的装置，通过采用循环神经网络从决策轨迹中提取历史信息，将所述历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，其中，决策轨迹由不同时刻的环境观测量以及对应的动作信息组成；根据所述历史信息及所述动作信息，生成对应的动作值函数，并将所述历史信息结合所述动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据所述第二权值，确定输入所述动作值函数的环境观测量；根据所述第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，以完成所述动作值函数及控制策略的更新；在所述环境观测量的平均影响度小于影响度阈值时，将所述环境观测量进行置零去除，其中，所述影响度阈值根据所述更新后的控制策略进行调整。该装置可实现根据历史信息结合控制策略和动作值函数，生成观测量的权值，并将小于影响度阈值的观测量置零去除，有效地识别出并去除环境观测中的冗余信息，从而降低冗余信息对控制策略的干扰。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请一个实施例的识别与去除环境观测量中冗余信息的方法流程示意图；

图2为根据本申请一个实施例的控制策略训练示意图；

图3为根据本申请一个实施例的动作值函数生成示意图；

图4为根据本申请另一个实施例的识别与去除环境观测量中冗余信息的方法流程示意图；

图5为根据本申请一个实施例的环境观测量添加位置信息示意图；

图6为根据本申请又一个实施例的识别与去除环境观测量中冗余信息的方法流程示意图；

图7为根据本申请一个实施例的倒立摆环境示意图；

图8(a)为根据本申请一个实施例的无高斯噪声的倒立摆环境下的训练过程示意图；

图8(b)为根据本申请一个实施例的各个观测量在不同时刻对控制策略的影响程度；

图9(a)为根据本申请一个实施例的有高斯噪声的倒立摆环境下的训练过程示意图；

图9(b)为根据本申请另一个实施例的各个观测量在不同时刻对控制策略的影响程度；

图10为根据本申请一个实施例的识别与去除环境观测量中冗余信息的装置结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参照附图描述根据本申请实施例提出的识别与去除环境观测量中冗余信息的方法及装置。

图1为根据本申请一个实施例的识别与去除环境观测量中冗余信息的方法流程示意图。

如图1所示，该识别与去除环境观测量中冗余信息的方法具体实现过程如下：

步骤101，采用循环神经网络从决策轨迹中提取历史信息，将历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，其中，决策轨迹由不同时刻的环境观测量以及对应的动作信息组成。

在本申请实施例中，决策轨迹可由不同时刻的环境观测量以及对应的动作信息组成，决策轨迹可表示为{o₀,a₀,...,o_t-1,a_t-1}，可将该决策轨迹输入至循环神经网络中，循环神经网络可输出历史信息

其中，p表示特征维度。

接着，将历史信息结合预设控制策略

可生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，可选地，根据所述历史信息，生成对应的键匙；对所述决策轨迹中的t时刻环境观测量添加位置信息，生成对应的扩展观测量；根据所述扩展观测量，确定所述扩展观测量对应的键钥及对应的扩展观测量特征值；根据所述键匙、键匙长度及键值，生成t时刻对应的当前各个观测量的第一权值；根据所述第一权值及所述扩展观测量特征值，生成t时刻的观测量特征值，将所述历史信息及所述t时刻的观测量特征值输入至控制策略中，获取t时刻对应的动作信息。具体详见后续实施例的描述。

其中，如图2所示，预设的控制策略

可通过t时刻观测量和对应的历史信息对控制策略进行训练，将经过训练的控制策略作为预设的控制策略。

步骤102，根据历史信息及动作信息，生成对应的动作值函数，并将历史信息结合动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据第二权值，确定输入动作值函数的环境观测量。

在本申请实施例中，如图3所示，在获取到t时刻对应的动作信息之后，t时刻环境观测量o_t，结合历史信息

t时刻对应的动作信息a_t，可生成对应的动作值函数

接着，历史信息结合动作值函数，可生成t时刻对应的各个环境观测量的第二权值。其中，需要说明的是，历史信息结合动作值函数，可生成t时刻对应的各个环境观测量的第二权值的方式，与历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值的方式相同。

需要说明的是，为了降低冗余信息对动作值函数的干扰，在生成t时刻对应的各个环境观测量的第二权值之后，可根据第二权值判断出智能体对当前任务目标的关键信息的识别度。作为一种示例，可预先设置第二权值阈值，将t时刻对应的各个环境观测量的第二权值与预设的第二权值阈值进行比对，在t时刻对应的各个环境观测量的第二权值大于或等于预设的第二权值阈值时，表示智能体对当前任务目标的关键信息的识别度较高，也就是该第二权值对应的环境观测量中的冗余信息较少，可将该第二权值对应的环境观测量作为动作值函数的输入。在t时刻对应的各个环境观测量的第二权值小于预设的第二权值阈值时，表示智能体对当前任务目标的关键信息的识别度较低，也就是该第二权值对应的环境观测信息中的冗余信息较多，可避免将该第二权值对应的环境观测量作为动作值函数的输入，由此，可降低冗余信息对动作值函数的干扰。

步骤103，根据第一权值，获得对应的辅助激励，并将辅助激励引入原奖励中，以完成动作值函数及控制策略的更新。

在本申请实施例中，为了提高控制策略性能，可根据第一权值，获得对应的辅助激励，并将辅助激励引入原奖励中，以完成动作值函数及控制策略的更新。

作为一种示例，可分别设置初始控制策略、初始动作值函数，以及目标控制策略、目标动作值函数；根据第一权值，获得对应的辅助激励，并将辅助激励引入原奖励中，结合目标动作值函数，获取对应的目标值，根据目标值，最小化初始动作值函数的损失函数，以对初始动作值函数进行更新；根据更新后动作值函数参数，更新初始控制策略。具体详见后续实施例的描述。

步骤104，在环境观测量的平均影响度小于影响度阈值时，将环境观测量进行置零去除，其中，影响度阈值根据更新后的控制策略进行调整。

在本申请实施例中，可根据公式计算出各个环境观测量对智能体决策的平均影响度，公式如下：

其中，m_i表示第i个环境观测量对应的第i维平均影响度，D表示观测空间维度，T表示预设时间段，z_i表示第i个观测量在T时间段内的平均权值，

表示观测空间维度内所有观测量的权值和，T可根据具体情况进行设置，本申请不做具体限制。

接着，为了降低冗余信息对控制策略的干扰，将各个环境观测量的平均影响度与影响度阈值进行比较，在观测量的平均影响度小于影响度阈值时，可将该环境观测量进行置零去除。其中，影响度阈值可根据更新后的控制策略进行调整。

需要理解的是，由于决策任务和控制对象的不同需要对影响度阈值进行调整，使得在降低所需观测量的同时保证策略性能，因此，在控制策略更新后，可根据如下公式对影响度阈值进行调整：

其中，s为影响度阈值，U(s,π_θ)为评价函数，R(s,π_θ)，R(0,π_θ)分别为观测量有无冗余时控制策略π_θ获得的累积奖励，ρ为权重系数，α为学习速率，g_i为高斯噪声，服从标准正太分布，σ为扰动系数，k为迭代次数，N为扰动次数，s_k为k次迭代对应的影响度阈值，s_k+1为k+1次迭代对应的影响度阈值。

可以理解的是，在观测量的平均影响度小于影响度阈值时，将该环境观测量进行置零去除，也就是对环境观测量进行冗余去除后，控制策略的输入发生变化，可根据原奖励结合冗余去除后的环境观测量对控制策略进行微调，由此，可降低控制策略和动作值函数的学习速率。

综上，通过历史信息结合控制策略和动作值函数，生成观测量的权值，根据该观测量的权值对动作值函数及控制策略的更新，并将小于影响度阈值的观测量置零去除，有效地识别出并去除环境观测中的冗余信息，从而降低冗余信息对控制策略的干扰。

为了获取t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，可选地，如图4所示，图4为根据本申请另一个实施例的识别与去除环境观测量中冗余信息的方法流程图。在图4中，根据历史信息，生成对应的键匙；对决策轨迹中的t时刻环境观测量添加位置信息，生成对应的扩展观测量；根据扩展观测量，确定扩展观测量对应的键钥及对应的扩展观测量特征值；根据键匙、键匙长度及键值，生成t时刻对应的各个环境观测量的第一权值；根据第一权值及扩展观测量特征值，生成t时刻的各个环境观测量特征值，将历史信息及t时刻的各个环境观测量特征值输入至控制策略中，获取t时刻对应的动作信息。在图1所示实施例的步骤101中还可包括如下步骤：

步骤401，根据历史信息，生成对应的键匙。

作为一种示例，可根据历史信息获取对应的不带梯度的历史信息，将该不带梯度的历史信息与网络参数进行相乘，生成对应的t时刻的键匙k_t，具体公式如下：

其中，k_t表示t时刻的键匙，

表示不带梯度的历史信息，h_t表示t时刻环境观测量对应的特征信息，W_k表示神经网络参数，为可进行训练的参数矩阵。

步骤402，对决策轨迹中的t时刻环境观测量添加位置信息，生成对应的扩展观测量。

为了区分具有相同观测值的不同环境观测量，如图5所示，可对决策轨迹中的t时刻环境观测量添加位置信息，生成对应的扩展观测量。具体公式如下：

其中，

表示t时刻第i个扩展观测量，

表示t时刻第i个环境观测量，D表示观测空间维度。

步骤403，根据扩展观测量，确定扩展观测量对应的键钥及对应的扩展观测量特征值。

作为一种示例，可将扩展观测量与网络参数相乘，获取该扩展观测量对应的键钥及对应的扩展观测量特征值。具体计算公式如下：

其中，

表示t时刻第i个扩展观测量对应的键钥，

表示第i个扩展观测量特征值，

表示t时刻第i个扩展观测量，W_q、W_v表示神经网络参数，为可进行训练的参数矩阵。

步骤404，根据键匙、键匙长度及键值，生成t时刻对应的各个观测量的第一权值。

可选地，根据如下公式计算t时刻对应的各个观测量的第一权值：

其中，

为t时刻第i个环境观测量的第一权值，

为t时刻第i个扩展观测量对应的键钥

的转置矩阵，k_t为键匙，F为键匙长度。

步骤405，根据第一权值及扩展观测量特征值，生成t时刻的观测量特征值，将历史信息及t时刻的各个环境观测量特征值输入至控制策略中，获取t时刻对应的动作信息。

在本申请实施例中，可将第一权值与扩展观测量特征值进行相乘，生成t时刻的各个环境观测量特征值，具体公式如下：

其中，

表示t时刻第i个环境观测量的第一权值，

表示t时刻第i个扩展观测量特征值，

表示t时刻第i个环境观测量的特征值。

接着，将t时刻第i个环境观测量的特征值输入至控制策略中，可获取t时刻对应的动作信息a_t。

综上，根据历史信息，生成对应的键匙k_t；对决策轨迹中的t时刻环境观测量添加位置信息，生成对应的扩展观测量；根据扩展观测量，确定扩展观测量对应的键钥及对应的扩展观测量特征值；根据键匙、键匙长度及键值，生成t时刻对应的各个环境观测量的第一权值；根据第一权值及扩展观测量特征值，生成t时刻的观测量特征值，将历史信息及t时刻的各个环境观测量特征值输入至控制策略中，获取t时刻对应的动作信息，由此，可获取t时刻对应的各个环境观测量的第一权值以及t时刻对应的动作信息。

为了提高控制策略性能，如图6所示，图6为根据本申请又一个实施例的识别与去除环境观测量中冗余信息的方法流程示意图。在图6中，可分别设置初始控制策略、初始动作值函数，以及目标控制策略、目标动作值函数；根据第一权值，获得对应的辅助激励，并将辅助激励引入原奖励中，结合目标动作值函数，获取对应的目标值，根据目标值，最小化初始动作值函数的损失函数，以对初始动作值函数进行更新；根据更新后动作值函数参数，更新初始控制策略。在图1所示实施例的步骤103中还可包括如下步骤：

步骤601，分别设置初始控制策略、初始动作值函数，以及目标控制策略、目标动作值函数。

在本申请实施例中，可分别设置初始控制策略π_θ(·|h_t-1,o_t)、初始动作值函数

以及目标控制策略

目标动作值函数

其中，o_t为t时刻环境观测量，a_t为t时刻对应的动作信息，h_t-1为历史信息，

步骤602，根据第一权值，获得对应的辅助激励，并将辅助激励引入原奖励中，结合目标动作值函数，获取对应的目标值，根据目标值，最小化初始动作值函数的损失函数，以对初始动作值函数进行更新。

作为一种示例，t时刻第i个环境观测量的第一权值为

对应的辅助激励

依据贝尔曼公式，则将辅助激励引入原奖励中，结合所述目标动作值函数，获取对应的目标值，计算公式为：

其中，y_n,t为目标值，

为目标动作值函数，o_t为t时刻对应的环境观测量，a_t为t时刻对应的动作信息，h_t-1为历史信息，h_t表示t时刻环境观测量对应的特征信息，o_t+1为t+1时刻对应的环境观测量，r_t为原奖励，r为折扣因子；β为辅助激励系数。

接着，根据目标值，最小化初始动作值函数的损失函数，以对初始动作值函数参数进行更新，计算公式为：

y_t:＝min(y_1,t,y_2,t)，

其中，o_t为t时刻环境观测量，a_t为t时刻动作信息，h_t-1为历史信息，y_1,t,y_2,t为目标值。

进一步地，根据该更新后的初始动作值函数参数，可完成初始动作值函数的更新。

步骤603，根据所述更新后动作值函数参数，更新初始化控制策略。

可选地，根据以下公式更新初始控制策略的参数，以完成初始化控制策略的更新：

根据该更新后的初始控制策略的参数，可对目标控制策略进行更新，对应的，更新方式为：

同时，根据更新后的动作值函数，可对目标动作值函数进行更新，更新方式为，

其中，o_t为t时刻观测量信息，α为学习速率，a_t为t时刻动作信息，h_t-1为历史信息，τ＝0.005为更新系数，θ为初始控制策略参数，

目标控制策略参数，

为目标动作值函数参数，

为初始动作值函数参数。

综上，通过分别设置初始控制策略、初始动作值函数，以及目标控制策略、目标动作值函数；根据第一权值，获得对应的辅助激励，并将辅助激励引入原奖励中，结合目标动作值函数，获取对应的目标值，根据目标值，最小化初始动作值函数的损失函数，以对初始动作值函数进行更新；根据更新后初始动作值函数参数，更新初始控制策略。由此，在初始动作值函数的损失函数最小化时，对初始动作值函数进行更新，可最大化动作值函数，根据最大化动作值函数对控制策略进行更新，可提高控制策略性能。

为了更加清楚地说明上述实施例，现举例进行说明。

举例而言，如图7所示，该任务是在仿真环境中控制倒立摆，使其能够从任意初始位置都能稳定的立起来，智能体所获得的环境观测量为

控制策略的输出为1维力矩。动作值函数网络中循环神经网络隐藏节点个数为128，键值、键钥和环境观测量特征值处的节点个数为64，循环神经网络后接两个节点个数为200的全连接层，激活函数全部为线性整流函数，使用Adam优化器进行梯度下降优化；策略网络与动作值函数网络除最后的输出层不同以外，其他地方都相同。为了验证本申请实施例的识别与去除环境观测量中冗余信息的方法可正确识别环境观测量中的冗余信息，本申请实施例中，在环境观测量中额外引入高斯噪声，从而最终的观测量为(cosφ，sinφ，ε₁，ε₂)，ε₁,ε₂服从标准正太分布。其中，识别与去除环境观测量中冗余信息的方法所用的参数设置如下：学习速率lr＝3e-4、α＝0.001，折扣因子γ＝0.99，辅助激励系数β＝0.01，软更新系数δ＝0.005，策略微调时的学习速率lr＝1e-4。

首先，如图8(a)，图8(a)为根据本申请一个实施例的无高斯噪声的倒立摆环境下的训练过程示意图，在图8(a)中，横坐标为训练轮数，纵坐标为奖励函数值。随着训练轮数增加，奖励函数值趋于稳定，表示倒立摆环境训练完成。接着，在无高斯噪声倒立摆环境中对本申请实施例的识别与去除环境观测量中冗余信息的方法进行验证，验证结果如图8(b)所示，实验表明控制策略可完成控制任务；同时因为倒立摆环境可由倒立摆的角度和角速度唯一表示，而本申请实施例的识别与去除环境观测量中冗余信息的方法能够给予环境的三个观测量同等程度的关注，说明本申请实施例的识别与去除环境观测量中冗余信息的方法能够正确识别出环境观测量中的有用信息。

其次，如图9(a)所示，图9(a)为根据本申请一个实施例的有高斯噪声的倒立摆环境下的训练过程示意图，在图9(a)中，横坐标为训练轮数，纵坐标为奖励函数值。随着训练轮数增加，奖励函数值趋于稳定，表示有高斯噪声的倒立摆环境训练完成。接着，在有高斯噪声倒立摆环境中对本申请实施例的识别与去除环境观测量中冗余信息的方法进行验证，验证结果如图9(b)所示，实验结果表明本申请实施例的识别与去除环境观测量中冗余信息的方法，在有冗余信息下具有良好的鲁棒性，在完成控制任务的同时又尽可能降低冗余信息对控制策略的干扰；对环境观测的高斯噪声，给予很低的关注，说明本申请实施例的识别与去除环境观测量中冗余信息的方法能够识别出环境观测中的冗余信息。经过对冗余信息的去除和控制策略的微调后，控制策略在冗余干扰信息环境所获得的奖励与原环境中的一致。

本申请实施例的识别与去除环境观测量中冗余信息的方法，通过采用循环神经网络从决策轨迹中提取历史信息，将历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，其中，决策轨迹由不同时刻的环境观测量以及对应的动作信息组成；根据历史信息及动作信息，生成对应的动作值函数，并将历史信息结合所述动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据第二权值，确定输入动作值函数的环境观测量；根据所述第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，以完成所述动作值函数及控制策略的更新；在所述环境观测量的平均影响度小于影响度阈值时，将所述环境观测量进行置零去除，其中，所述影响度阈值根据所述更新后的控制策略进行调整。该方法根据历史信息结合控制策略和动作值函数，生成观测量的权值，并将小于影响度阈值的观测量置零去除，有效地识别出并去除环境观测中的冗余信息，从而降低冗余信息对控制策略的干扰。

为了实现上述实施例，本申请实施例还提出一种识别与去除环境观测量中冗余信息的装置，图10为根据本申请一个实施例的识别与去除环境观测量中冗余信息的装置结构示意图，如图10所示，该识别与去除环境观测量中冗余信息的装置1000包括：获取模块1010、生成模块1020、更新模块1030、去除模块1040。

其中，获取模块1010，用于采用循环神经网络从决策轨迹中提取历史信息，将历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，其中，决策轨迹由不同时刻的环境观测量以及对应的动作信息组成；生成模块1020，用于根据历史信息及动作信息，生成对应的动作值函数，并将历史信息结合动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据所述第二权值，确定输入所述动作值函数的环境观测量；更新模块1030，用于根据第一权值，获得对应的辅助激励，并将辅助激励引入原奖励中，以完成动作值函数及控制策略的更新；去除模块1040，用于在环境观测量的平均影响度小于影响度阈值时，将环境观测量进行置零去除，其中，影响度阈值根据更新后的控制策略进行调整。

作为本申请实施例的一种可能实现方式，识别与去除环境观测量中冗余信息的装置还可包括：微调模块。

其中，微调模块，用于根据原奖励对控制策略进行微调。

作为本申请实施例的一种可能实现方式，获取模块1010具体用于，根据历史信息，生成对应的键匙；对决策轨迹中的t时刻环境观测量添加位置信息，生成对应的扩展观测量；根据扩展观测量，确定扩展观测量对应的键钥及对应的扩展观测量特征值；根据所述键匙、键匙长度及键值，生成t时刻对应的当前各个观测量的第一权值；根据第一权值及扩展观测量特征值，生成t时刻的观测量特征值，将历史信息及所述t时刻的观测量特征值输入至控制策略中，获取t时刻对应的动作信息。

作为本申请实施例的一种可能实现方式，将所述历史信息结合所述动作值函数，生成t时刻对应的各个环境观测量的第二权值的方式，与将所述历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值方式相同；获取模块1010具体用于，根据所述历史信息，生成对应的键匙；对所述决策轨迹中的t时刻环境观测量添加位置信息，生成对应的扩展观测量；根据所述扩展观测量，确定所述扩展观测量对应的键钥及对应的扩展观测量特征值；根据所述键匙、键匙长度及键值，生成t时刻对应的当前各个观测量的第一权值。

作为本申请实施例的一种可能实现方式，根据键匙、键匙长度及键值，生成t时刻对应的各个环境观测量的第一权值，计算公式为：

其中，

为t时刻第i个扩展观测量对应的键钥

的转置矩阵，k_t为键匙，F为键匙长度。

作为本申请实施例的一种可能实现方式，更新模块1030具体用于，分别设置初始控制策略、初始动作值函数，以及目标控制策略、目标动作值函数；根据第一权值，获得对应的辅助激励，并将辅助激励引入原奖励中，结合目标动作值函数，获取对应的目标值，根据目标值，最小化初始动作值函数的损失函数，以对初始动作值函数进行更新；根据更新后动作值函数参数，更新初始控制策略。

作为本申请实施例的一种可能实现方式，更新模块1030还用于，根据第一权重，获得对应的辅助激励，并将辅助激励引入原奖励中，结合目标动作值函数，获取对应的目标值，计算公式为：

其中，y_n,t为目标值，

为辅助激励，

为t时刻第i个环境观测量的第一权值，a_t+1为t+1时刻对应的动作信息，

为目标动作值函数，h_t为t时刻环境观测量对应的特征信息，o_t+1为t+1时刻环境观测量，r_t为原奖励，r为折扣因子，β为辅助激励系数；

根据目标值，最小化所述初始动作值函数的损失函数，以对初始动作值函数进行更新，计算公式为：

y_t:＝min(y_1,t,y_2,t)，

作为本申请实施例的一种可能实现方式，更新模块1030还用于，根据所述更新后动作值函数参数，更新所述初始控制策略，计算公式为：

其中，o_t为t时刻的环境观测量，α为学习速率，a_t为t时刻对应的动作信息，h_t-1为历史信息，θ为初始化控制策略参数。

作为本申请实施例的一种可能实现方式，影响度阈值根据更新后的控制策略进行调整，计算公式为：

本申请实施例的识别与去除环境观测量中冗余信息的装置，通过采用循环神经网络从决策轨迹中提取历史信息，将历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，其中，决策轨迹由不同时刻的环境观测量以及对应的动作信息组成；根据历史信息及动作信息，生成对应的动作值函数，并将历史信息结合动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据第二权值，确定输入动作值函数的环境观测量；根据第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，以完成所述动作值函数及控制策略的更新；在环境观测量的平均影响度小于影响度阈值时，将环境观测量进行置零去除，其中，影响度阈值根据更新后的控制策略进行调整。该装置可实现根据历史信息结合控制策略和动作值函数，生成观测量的权值，并将小于影响度阈值的观测量置零去除，有效地识别出并去除环境观测中的冗余信息，从而降低冗余信息对控制策略的干扰。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种识别与去除环境观测量中冗余信息的方法，其特征在于，包括以下步骤：

采用循环神经网络从决策轨迹中提取历史信息，将所述历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，其中，决策轨迹由不同时刻的环境观测量以及对应的动作信息组成；

根据所述历史信息及所述动作信息，生成对应的动作值函数，并将所述历史信息结合所述动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据所述第二权值，确定输入所述动作值函数的环境观测量；

根据所述第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，以完成所述动作值函数及控制策略的更新；

在所述环境观测量的平均影响度小于影响度阈值时，将所述环境观测量进行置零去除，其中，所述影响度阈值根据所述更新后的控制策略进行调整。

2.根据权利要求1所述的方法，其特征在于，将所述环境观测量进行置零去除之后，还包括：

根据所述原奖励对所述控制策略进行微调。

3.根据权利要求1所述的方法，其特征在于，将所述历史信息结合所述动作值函数，生成t时刻对应的各个环境观测量的第二权值的方式，与将所述历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值方式相同；

将所述历史信息结合控制策略,生成t时刻对应的各个环境观测量的第一权值的方式为，

根据所述历史信息，生成对应的键匙；

对所述决策轨迹中的t时刻环境观测量添加位置信息，生成对应的扩展观测量；

根据所述扩展观测量，确定所述扩展观测量对应的键钥及对应的扩展观测量特征值；

根据所述键匙、键匙长度及键值，生成t时刻对应的各个环境观测量的第一权值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述键匙、键匙长度及键值，生成t时刻对应的各个环境观测量的第一权值，计算公式为：

其中，

为t时刻第i个扩展观测量对应的键钥

的转置矩阵，k_t为所述键匙，F为所述键匙长度。

5.根据权利要求1所述的方法，其特征在于，根据所述第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，以完成所述动作值函数及控制策略的更新，包括：

分别设置初始控制策略、初始动作值函数，以及目标控制策略、目标动作值函数；

根据所述第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，结合所述目标动作值函数，获取对应的目标值，根据所述目标值，最小化所述初始动作值函数的损失函数，以对所述初始动作值函数进行更新；

根据所述更新后动作值函数参数，更新所述初始控制策略。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，结合所述目标动作值函数，获取对应的目标值，根据所述目标值，最小化所述初始动作值函数的损失函数，以对所述初始动作值函数进行更新，包括：

根据所述第一权重，获得对应的辅助激励，并将所述辅助激励引入原奖励中，结合所述目标动作值函数，获取对应的目标值，计算公式为：

其中，y_n,t为目标值，

为辅助激励，

为t时刻第i个环境观测量的第一权值，，a_t+1为t+1时刻对应的动作信息，

为目标动作值函数，h_t为t时刻环境观测量对应的特征信息，o_t+1为t+1时刻的环境观测量，r_t为原奖励，r为折扣因子，β为辅助激励系数；

根据所述目标值，最小化所述初始动作值函数的损失函数，以对所述初始动作值函数进行更新，计算公式为：

y_t:＝min(y_1,t,y_2,t)，

其中，o_t为t时刻的环境观测量，a_t为t时刻动作信息，h_t-1为历史信息，y_1,t,y_2,t为目标值。

7.根据权利要求5所述的方法，其特征在于，根据所述更新后动作值函数参数，更新所述初始控制策略，计算公式为：

其中，o_t为t时刻的环境观测量，α为学习速率，a_t为t时刻对应的动作信息，h_t-1为历史信息，θ为初始控制策略参数。

8.根据权利要求1所述的方法，其特征在于，所述影响度阈值根据所述更新后的控制策略进行调整，计算公式为：

9.一种识别与去除环境观测量中冗余信息的装置，其特征在于，包括：

获取模块，用于采用循环神经网络从决策轨迹中提取历史信息，将所述历史信息结合预设控制策略，生成t时刻对应的各个环境观测量的第一权值，以获取t时刻对应的动作信息，其中，决策轨迹由不同时刻的环境观测量以及对应的动作信息组成；

生成模块，用于根据所述历史信息及所述动作信息，生成对应的动作值函数，并将所述历史信息结合所述动作值函数，生成t时刻对应的各个环境观测量的第二权值，根据所述第二权值，确定输入所述动作值函数的环境观测量；

更新模块，用于根据所述第一权值，获得对应的辅助激励，并将所述辅助激励引入原奖励中，以完成所述动作值函数及控制策略的更新；

去除模块，用于在所述环境观测量的平均影响度小于影响度阈值时，将所述环境观测量进行置零去除，其中，所述影响度阈值根据所述更新后的控制策略进行调整。