CN111062621A

CN111062621A - 一种基于aigan的对原始观测数据的动作规划方法

Info

Publication number: CN111062621A
Application number: CN201911317621.1A
Authority: CN
Inventors: 盛紫琦; 卓汉逵
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-04-24

Abstract

本发明涉及一种基于AIGAN的对原始观测数据的动作规划方法，包括以下步骤，步骤一：收集观测数据；步骤二：将观测数据放入训练网络模块；步骤三：给定高维初始观测值和高维目标观测值，使用训练网络模块，将其分别转化成低维初始状态值和低维目标状态值；步骤四：根据规划策略，在低维状态解空间中进行规划，求得从低维初始状态值到低维目标状态值的动作状态序列；步骤五：将得到的动作状态序列中的低维状态向量，转化为高维的观测值并得到高维的观测动作序列。先通过深度学习框架学习所需模型，再利用这些学习到的模型来做规划，采用无监督学习方式，高效学习数据总的规律，能够解决现实问题中复杂问题进行建模困难，难以进行动作规划的问题。

Description

一种基于AIGAN的对原始观测数据的动作规划方法

技术领域

本发明涉及自动规划领域，更具体地，涉及一种基于AIGAN的对原始观测数据的动作规划方法。

背景技术

自动规划(Automated Planning),又称智能规划，是人工智能的一个重要研究领域。其主要思想是:对周围环境进行认识和分析，根据预定实现的目标，对若干可供选择的动作及所提供的资源限制施行推理，综合制定出实现目标的动作序列——规划。由于智能规划在工厂的车间作业调度、现代物流管理中物资运输调度、智能机器人的动作规划以及宇航技术等领域中有广泛的应用，受到研究者的重视，现在已经成为人工智能研究的热点。

一个经典规划问题的解决，需要提供领域规则的定义和问题初始状态、目标状态，以及规划器算法。对领域、问题，通常使用规划领域定义语言(Planning DomainDefinition Language，PDDL)来描述。定义好领域规则，给定问题的初始状态和目标状态之后，就可以使用Fast Downward等规划器算法或A*等前向搜索算法对问题进行求解。

在将经典规划的技术应用到现实问题的时候，有一个不可避免的过程，即建模。将现实的问题抽象为命题(Proposition)形式的表达、并且学习出其中的动作模型(ActionModel)，即人类通过充分利用自己的先验知识，甚至通过发现问题领域的规律，将领域内可能发生的动作(Action)的前提(Predicate)和效果(Effect)都总结出来，建立一个可以进行逻辑计算的严格的模型。当问题较简单时，这一流程的工作量尚可接受，但当遇到复杂问题时，建模工作对建模者的要求显著提高，甚至在特别复杂的领域，人类目前还无法清晰地理清其中的逻辑关系，无法建立模型，因而不能使用规划器进行求解。并且在规划领域中，如果我们要生成从初始观测到目标观测的规划序列，并且这样的观测都是由高维数据所组成的话，人类同样难以学习高维数据的抽象状态表达，以及相应的动作状态转移模型。

发明内容

本发明为克服上述现有技术中无法对复杂的问题进行动作规划建模的问题，提供一种基于AIGAN的对原始观测数据的动作规划方法，通过在高维数据以及难以建模的数据中，学习到他们的状态转移模型，从而生成相应的高维观测动作序列。

为解决上述技术问题，本发明采用的技术方案是：一种基于AIGAN的对原始观测数据的动作规划方法，包括如下步骤：

步骤一：收集数据集的观测数据；

步骤二：将数据集的观测数据放入到基于AIGAN框架的训练网络模块，获得状态表示模型Q、启发式模型F、状态转移模型T、生成器G和判别器D；状态表示模型Q，作用是将高维数据映射到相应的隐状态；启发式模型F，作用是给定输入此时的隐状态以及目标隐状态，能够启发式生成，在此时隐状态为了能够接近目标状态，所应该做的动作；状态转移模型F，作用是给定当前隐状态以及当前的动作，输出能够到达的下一个隐状态；生成器G，作用是给定隐状态能够生成相应的高维数据；判别器D，通过判别此时的数据是真实数据还是由生成器生成的假数据，从而指导其他网络的训练。

步骤三：给定高维初始观测值和高维目标观测值，使用状态表示模型Q，将其分别转化成低维初始状态值和低维目标状态值；

步骤四：在规划策略中的目标函数使用启发式模型F和状态转移模型T，在低维状态解空间中进行规划，求得从低维初始状态值到低维目标状态值的动作状态序列；

步骤五：将得到的动作状态序列中的全部低维状态向量，使用生成器G转化为高维的观测值，最终得到高维的观测动作序列。

优选的，所述训练网络模块包括生成模块和判别模块；

所述生成模块输入为：随机噪声z，初始隐状态s和目标隐状态g，以及由启发式模型F和状态转移模型T共同作用生成的下一个隐状态s′；

所述判别器模块输入为：当前观测向量o，目标观测向量o_g,下一个观测向量o′，以及由初始隐状态和目标隐状态经过启发式模型F所生成的动作

优选的，所述训练网络模块的具体目标函数为：

s.t.,a,o,o′,o_g～P_data

其中，G指的是生成模型；D指的是判别模型；λ为常数系数；I为互信息，H函数为所蕴含的信息量；其中动作a；高维观测值o；高维观测的下一个观测值o′；以及目标观测值o_g都是从真实数据分布P_data中取出；噪声z是从噪声分布P_noise中取出；低维隐状态s,g是从低维隐状态分布P_state中取出；生成动作

是由启发式模型F所求得；生成隐状态s′是由状态转移模型T所求得。

优选的，在所述步骤三中，给定初始高维观测值o₀和目标观测值o_g,输入到通过训练网络模块中得到的状态表示模型Q中，输出对应的初始隐状态向量s₀和目标隐状态向量s_g；

优选的，在所述步骤四中，采用RNN深度学习网络框架，采用初始隐状态向量s₀和目标隐状态向量s_g的曼哈顿距离加上随机生成的动作向量与启发式模型F生成的动作向量的曼哈顿距离作为启发函数，生成从初始隐状态s₀到目标隐状态s_g的动作状态序列:s₀,a₀,s₁,a₁…a_n-1s_g；

优选的，在所述步骤五中，将动作状态序列:s₀,a₀,s₁,a₁…a_n-1s_g中所有隐状态输入到生成器G中，能够得到最终的动作观测序列：o₀,a₀,o₁,a₁…a_n-1,o_g。

与现有技术相比，本发明的有益效果是：先通过深度学习框架学习所需模型，再利用这些学习到的模型来做规划，采用无监督学习方式，高效学习数据总的规律，能够解决现实问题中复杂问题进行建模困难，难以进行动作规划的问题。

附图说明

图1是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的整体架构示意图；

图2是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的训练网络模块的整体训练过程；

图3是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的总体规划流程；

图4是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的规划策略流程。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

实施例1

如图1-4所示为一种基于AIGAN的对原始观测数据的动作规划方法的实施例，包括如下步骤：

步骤一：收集数据集的观测数据；

步骤二：将数据集的观测数据放入到基于AIGAN框架的训练网络模块，获得状态表示模型Q、启发式模型F、状态转移模型T、生成器G和判别器D；

训练网络模块包括生成模块和判别模块；

如图2所示，从隐状态空间提取的初始隐状态s和目标隐状态g、从噪声空间提取高斯随机噪声z、以及由启发式模型F和状态转移模型T结合一起生成的初始隐状态的下一个隐状态s′组成的四元组<s,s_g,z,s′>输入到生成器G中，输出得到观测空间的三元组<o,o′,o_g>。再将得到的观测空间三元组输入到判别器D中，由判别器D判断此时的三元组是由真实数据得到，还是由生成器G生成的，从而指导状态表示模型Q、启发式模型F、状态转移模型T、生成器G的网络的训练。

具体的，述训练网络模块的具体目标函数为：

s.t.,a,o,o′,o_g～P_data

其中，G指的是生成模型；D指的是判别模型；λ为常数系数；I为互信息；H函数为所蕴含的信息量；其中动作a；高维观测值o；高维观测的下一个观测值o′；以及目标观测值o_g都是从真实数据分布P_data中取出；噪声z是从噪声分布P_noise中取出；低维隐状态s,g是从低维隐状态分布P_state中取出；生成动作

步骤三：给定初始高维观测值o₀和目标观测值o_g,输入到通过训练网络模块中得到的状态表示模型Q中，输出对应的初始隐状态向量s₀和目标隐状态向量s_g；如图3所示，首先我们从观测空间中得到高维初始观测值o₀和高维目标观测值o_g，通过状态表示模型Q转换为对应的低维隐状态向量。

步骤四：如图4所示，采用RNN深度学习网络框架，采用初始隐状态向量s₀和目标隐状态向量s_g的曼哈顿距离加上随机生成的动作向量与启发式模型F生成的动作向量的曼哈顿距离作为启发函数，生成从初始隐状态s₀到目标隐状态s_g的动作状态序列:s₀,a₀,s₁,a₁…a_n-1s_g；

步骤五：如图3所示，将动作状态序列:s₀,a₀,s₁,a₁…a_n-1s_g中所有隐状态输入到生成器G中，使用生成器G转化为高维的观测值，最终得到高维的观测动作序列o₀,a₀,o₁,a₁…a_n-1,o_g。

本实施例的有益效果：先通过深度学习框架学习所需模型，再利用这些学习到的模型来做规划，采用无监督学习方式，高效学习数据总的规律，能够解决现实问题中复杂问题进行建模困难，难以进行动作规划的问题。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于AIGAN的对原始观测数据的动作规划方法，其特征在于，包括如下步骤：

步骤一：收集数据集的观测数据；

步骤四：规划策略中的目标函数使用启发式模型F和状态转移模型T，在低维状态解空间中进行规划，求得从低维初始状态值到低维目标状态值的动作状态序列；

2.根据权利要求1所述的一种基于AIGAN的对原始观测数据的动作规划方法，其特征在于，所述训练网络模块包括生成模块和判别模块；

所述判别器模块输入为：当前观测向量o，目标观测向量o_g，下一个观测向量o′，以及由初始隐状态和目标隐状态经过启发式模型F所生成的动作

3.根据权利要求2所述的一种基于AIGAN的对原始观测数据的动作规划方法，其特征在于，所述训练网络模块的具体目标函数为：

s.t.，a，o，o′，o_g～P_data

其中，G指的是生成模型；D指的是判别模型；λ为常数系数；I为互信息，H函数为所蕴含的信息量；其中动作a；高维观测值o；高维观测的下一个观测值o′；以及目标观测值o_g都是从真实数据分布P_data中取出；噪声z是从噪声分布P_noise中取出；低维隐状态s，g是从低维隐状态分布P_state中取出；生成动作

4.根据权利要求2所述的一种基于AIGAN的对原始观测数据的动作规划方法，其特征在于，在所述步骤三中，给定初始高维观测值o₀和目标观测值o_g，输入到通过训练网络模块中得到的状态表示模型Q中，输出对应的初始隐状态向量s₀和目标隐状态向量s_g。

5.根据权利要求4所述的一种基于AIGAN的对原始观测数据的动作规划方法，其特征在于，在所述步骤四中，采用RNN深度学习网络框架，采用初始隐状态向量s₀和目标隐状态向量s_g的曼哈顿距离加上随机生成的动作向量与启发式模型F生成的动作向量的曼哈顿距离作为启发函数，生成从初始隐状态s₀到目标隐状态s_g的动作状态序列：s₀，a₀，s₁，a₁…a_n-₁s_g。

6.根据权利要求5所述的一种基于AIGAN的对原始观测数据的动作规划方法，其特征在于，在所述步骤五中，将动作状态序列：s₀，a₀，s₁，a₁…a_n-1s_g中所有隐状态输入到生成器G中，能够得到最终的动作观测序列：o₀，a₀，o₁，a₁…a_n-1，o_g。