CN111062621A - 一种基于aigan的对原始观测数据的动作规划方法 - Google Patents

一种基于aigan的对原始观测数据的动作规划方法 Download PDF

Info

Publication number
CN111062621A
CN111062621A CN201911317621.1A CN201911317621A CN111062621A CN 111062621 A CN111062621 A CN 111062621A CN 201911317621 A CN201911317621 A CN 201911317621A CN 111062621 A CN111062621 A CN 111062621A
Authority
CN
China
Prior art keywords
state
dimensional
observation
action
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911317621.1A
Other languages
English (en)
Inventor
盛紫琦
卓汉逵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911317621.1A priority Critical patent/CN111062621A/zh
Publication of CN111062621A publication Critical patent/CN111062621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于AIGAN的对原始观测数据的动作规划方法,包括以下步骤,步骤一:收集观测数据;步骤二:将观测数据放入训练网络模块;步骤三:给定高维初始观测值和高维目标观测值,使用训练网络模块,将其分别转化成低维初始状态值和低维目标状态值;步骤四:根据规划策略,在低维状态解空间中进行规划,求得从低维初始状态值到低维目标状态值的动作状态序列;步骤五:将得到的动作状态序列中的低维状态向量,转化为高维的观测值并得到高维的观测动作序列。先通过深度学习框架学习所需模型,再利用这些学习到的模型来做规划,采用无监督学习方式,高效学习数据总的规律,能够解决现实问题中复杂问题进行建模困难,难以进行动作规划的问题。

Description

一种基于AIGAN的对原始观测数据的动作规划方法
技术领域
本发明涉及自动规划领域,更具体地,涉及一种基于AIGAN的对原始观测数据的动作规划方法。
背景技术
自动规划(Automated Planning),又称智能规划,是人工智能的一个重要研究领域。其主要思想是:对周围环境进行认识和分析,根据预定实现的目标,对若干可供选择的动作及所提供的资源限制施行推理,综合制定出实现目标的动作序列——规划。由于智能规划在工厂的车间作业调度、现代物流管理中物资运输调度、智能机器人的动作规划以及宇航技术等领域中有广泛的应用,受到研究者的重视,现在已经成为人工智能研究的热点。
一个经典规划问题的解决,需要提供领域规则的定义和问题初始状态、目标状态,以及规划器算法。对领域、问题,通常使用规划领域定义语言(Planning DomainDefinition Language,PDDL)来描述。定义好领域规则,给定问题的初始状态和目标状态之后,就可以使用Fast Downward等规划器算法或A*等前向搜索算法对问题进行求解。
在将经典规划的技术应用到现实问题的时候,有一个不可避免的过程,即建模。将现实的问题抽象为命题(Proposition)形式的表达、并且学习出其中的动作模型(ActionModel),即人类通过充分利用自己的先验知识,甚至通过发现问题领域的规律,将领域内可能发生的动作(Action)的前提(Predicate)和效果(Effect)都总结出来,建立一个可以进行逻辑计算的严格的模型。当问题较简单时,这一流程的工作量尚可接受,但当遇到复杂问题时,建模工作对建模者的要求显著提高,甚至在特别复杂的领域,人类目前还无法清晰地理清其中的逻辑关系,无法建立模型,因而不能使用规划器进行求解。并且在规划领域中,如果我们要生成从初始观测到目标观测的规划序列,并且这样的观测都是由高维数据所组成的话,人类同样难以学习高维数据的抽象状态表达,以及相应的动作状态转移模型。
发明内容
本发明为克服上述现有技术中无法对复杂的问题进行动作规划建模的问题,提供一种基于AIGAN的对原始观测数据的动作规划方法,通过在高维数据以及难以建模的数据中,学习到他们的状态转移模型,从而生成相应的高维观测动作序列。
为解决上述技术问题,本发明采用的技术方案是:一种基于AIGAN的对原始观测数据的动作规划方法,包括如下步骤:
步骤一:收集数据集的观测数据;
步骤二:将数据集的观测数据放入到基于AIGAN框架的训练网络模块,获得状态表示模型Q、启发式模型F、状态转移模型T、生成器G和判别器D;状态表示模型Q,作用是将高维数据映射到相应的隐状态;启发式模型F,作用是给定输入此时的隐状态以及目标隐状态,能够启发式生成,在此时隐状态为了能够接近目标状态,所应该做的动作;状态转移模型F,作用是给定当前隐状态以及当前的动作,输出能够到达的下一个隐状态;生成器G,作用是给定隐状态能够生成相应的高维数据;判别器D,通过判别此时的数据是真实数据还是由生成器生成的假数据,从而指导其他网络的训练。
步骤三:给定高维初始观测值和高维目标观测值,使用状态表示模型Q,将其分别转化成低维初始状态值和低维目标状态值;
步骤四:在规划策略中的目标函数使用启发式模型F和状态转移模型T,在低维状态解空间中进行规划,求得从低维初始状态值到低维目标状态值的动作状态序列;
步骤五:将得到的动作状态序列中的全部低维状态向量,使用生成器G转化为高维的观测值,最终得到高维的观测动作序列。
优选的,所述训练网络模块包括生成模块和判别模块;
所述生成模块输入为:随机噪声z,初始隐状态s和目标隐状态g,以及由启发式模型F和状态转移模型T共同作用生成的下一个隐状态s′;
所述判别器模块输入为:当前观测向量o,目标观测向量og,下一个观测向量o′,以及由初始隐状态和目标隐状态经过启发式模型F所生成的动作
Figure BDA0002326266840000036
优选的,所述训练网络模块的具体目标函数为:
Figure BDA0002326266840000031
s.t.,a,o,o′,og~Pdata
Figure BDA0002326266840000032
Figure BDA0002326266840000033
Figure BDA0002326266840000034
其中,G指的是生成模型;D指的是判别模型;λ为常数系数;I为互信息,H函数为所蕴含的信息量;其中动作a;高维观测值o;高维观测的下一个观测值o′;以及目标观测值og都是从真实数据分布Pdata中取出;噪声z是从噪声分布Pnoise中取出;低维隐状态s,g是从低维隐状态分布Pstate中取出;生成动作
Figure BDA0002326266840000035
是由启发式模型F所求得;生成隐状态s′是由状态转移模型T所求得。
优选的,在所述步骤三中,给定初始高维观测值o0和目标观测值og,输入到通过训练网络模块中得到的状态表示模型Q中,输出对应的初始隐状态向量s0和目标隐状态向量sg
优选的,在所述步骤四中,采用RNN深度学习网络框架,采用初始隐状态向量s0和目标隐状态向量sg的曼哈顿距离加上随机生成的动作向量与启发式模型F生成的动作向量的曼哈顿距离作为启发函数,生成从初始隐状态s0到目标隐状态sg的动作状态序列:s0,a0,s1,a1…an-1sg
优选的,在所述步骤五中,将动作状态序列:s0,a0,s1,a1…an-1sg中所有隐状态输入到生成器G中,能够得到最终的动作观测序列:o0,a0,o1,a1…an-1,og
与现有技术相比,本发明的有益效果是:先通过深度学习框架学习所需模型,再利用这些学习到的模型来做规划,采用无监督学习方式,高效学习数据总的规律,能够解决现实问题中复杂问题进行建模困难,难以进行动作规划的问题。
附图说明
图1是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的整体架构示意图;
图2是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的训练网络模块的整体训练过程;
图3是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的总体规划流程;
图4是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的规划策略流程。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例1
如图1-4所示为一种基于AIGAN的对原始观测数据的动作规划方法的实施例,包括如下步骤:
步骤一:收集数据集的观测数据;
步骤二:将数据集的观测数据放入到基于AIGAN框架的训练网络模块,获得状态表示模型Q、启发式模型F、状态转移模型T、生成器G和判别器D;
训练网络模块包括生成模块和判别模块;
所述生成模块输入为:随机噪声z,初始隐状态s和目标隐状态g,以及由启发式模型F和状态转移模型T共同作用生成的下一个隐状态s′;
所述判别器模块输入为:当前观测向量o,目标观测向量og,下一个观测向量o′,以及由初始隐状态和目标隐状态经过启发式模型F所生成的动作
Figure BDA0002326266840000041
如图2所示,从隐状态空间提取的初始隐状态s和目标隐状态g、从噪声空间提取高斯随机噪声z、以及由启发式模型F和状态转移模型T结合一起生成的初始隐状态的下一个隐状态s′组成的四元组<s,sg,z,s′>输入到生成器G中,输出得到观测空间的三元组<o,o′,og>。再将得到的观测空间三元组输入到判别器D中,由判别器D判断此时的三元组是由真实数据得到,还是由生成器G生成的,从而指导状态表示模型Q、启发式模型F、状态转移模型T、生成器G的网络的训练。
具体的,述训练网络模块的具体目标函数为:
Figure BDA0002326266840000051
s.t.,a,o,o′,og~Pdata
Figure BDA0002326266840000052
Figure BDA0002326266840000053
Figure BDA0002326266840000054
其中,G指的是生成模型;D指的是判别模型;λ为常数系数;I为互信息;H函数为所蕴含的信息量;其中动作a;高维观测值o;高维观测的下一个观测值o′;以及目标观测值og都是从真实数据分布Pdata中取出;噪声z是从噪声分布Pnoise中取出;低维隐状态s,g是从低维隐状态分布Pstate中取出;生成动作
Figure BDA0002326266840000055
是由启发式模型F所求得;生成隐状态s′是由状态转移模型T所求得。
步骤三:给定初始高维观测值o0和目标观测值og,输入到通过训练网络模块中得到的状态表示模型Q中,输出对应的初始隐状态向量s0和目标隐状态向量sg;如图3所示,首先我们从观测空间中得到高维初始观测值o0和高维目标观测值og,通过状态表示模型Q转换为对应的低维隐状态向量。
步骤四:如图4所示,采用RNN深度学习网络框架,采用初始隐状态向量s0和目标隐状态向量sg的曼哈顿距离加上随机生成的动作向量与启发式模型F生成的动作向量的曼哈顿距离作为启发函数,生成从初始隐状态s0到目标隐状态sg的动作状态序列:s0,a0,s1,a1…an-1sg
步骤五:如图3所示,将动作状态序列:s0,a0,s1,a1…an-1sg中所有隐状态输入到生成器G中,使用生成器G转化为高维的观测值,最终得到高维的观测动作序列o0,a0,o1,a1…an-1,og
本实施例的有益效果:先通过深度学习框架学习所需模型,再利用这些学习到的模型来做规划,采用无监督学习方式,高效学习数据总的规律,能够解决现实问题中复杂问题进行建模困难,难以进行动作规划的问题。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于AIGAN的对原始观测数据的动作规划方法,其特征在于,包括如下步骤:
步骤一:收集数据集的观测数据;
步骤二:将数据集的观测数据放入到基于AIGAN框架的训练网络模块,获得状态表示模型Q、启发式模型F、状态转移模型T、生成器G和判别器D;
步骤三:给定高维初始观测值和高维目标观测值,使用状态表示模型Q,将其分别转化成低维初始状态值和低维目标状态值;
步骤四:规划策略中的目标函数使用启发式模型F和状态转移模型T,在低维状态解空间中进行规划,求得从低维初始状态值到低维目标状态值的动作状态序列;
步骤五:将得到的动作状态序列中的全部低维状态向量,使用生成器G转化为高维的观测值,最终得到高维的观测动作序列。
2.根据权利要求1所述的一种基于AIGAN的对原始观测数据的动作规划方法,其特征在于,所述训练网络模块包括生成模块和判别模块;
所述生成模块输入为:随机噪声z,初始隐状态s和目标隐状态g,以及由启发式模型F和状态转移模型T共同作用生成的下一个隐状态s′;
所述判别器模块输入为:当前观测向量o,目标观测向量og,下一个观测向量o′,以及由初始隐状态和目标隐状态经过启发式模型F所生成的动作
Figure FDA0002326266830000012
3.根据权利要求2所述的一种基于AIGAN的对原始观测数据的动作规划方法,其特征在于,所述训练网络模块的具体目标函数为:
Figure FDA0002326266830000011
s.t.,a,o,o′,og~Pdata
Figure FDA0002326266830000021
Figure FDA0002326266830000022
Figure FDA0002326266830000023
其中,G指的是生成模型;D指的是判别模型;λ为常数系数;I为互信息,H函数为所蕴含的信息量;其中动作a;高维观测值o;高维观测的下一个观测值o′;以及目标观测值og都是从真实数据分布Pdata中取出;噪声z是从噪声分布Pnoise中取出;低维隐状态s,g是从低维隐状态分布Pstate中取出;生成动作
Figure FDA0002326266830000024
是由启发式模型F所求得;生成隐状态s′是由状态转移模型T所求得。
4.根据权利要求2所述的一种基于AIGAN的对原始观测数据的动作规划方法,其特征在于,在所述步骤三中,给定初始高维观测值o0和目标观测值og,输入到通过训练网络模块中得到的状态表示模型Q中,输出对应的初始隐状态向量s0和目标隐状态向量sg
5.根据权利要求4所述的一种基于AIGAN的对原始观测数据的动作规划方法,其特征在于,在所述步骤四中,采用RNN深度学习网络框架,采用初始隐状态向量s0和目标隐状态向量sg的曼哈顿距离加上随机生成的动作向量与启发式模型F生成的动作向量的曼哈顿距离作为启发函数,生成从初始隐状态s0到目标隐状态sg的动作状态序列:s0,a0,s1,a1…an-1sg
6.根据权利要求5所述的一种基于AIGAN的对原始观测数据的动作规划方法,其特征在于,在所述步骤五中,将动作状态序列:s0,a0,s1,a1…an-1sg中所有隐状态输入到生成器G中,能够得到最终的动作观测序列:o0,a0,o1,a1…an-1,og
CN201911317621.1A 2019-12-19 2019-12-19 一种基于aigan的对原始观测数据的动作规划方法 Pending CN111062621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911317621.1A CN111062621A (zh) 2019-12-19 2019-12-19 一种基于aigan的对原始观测数据的动作规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911317621.1A CN111062621A (zh) 2019-12-19 2019-12-19 一种基于aigan的对原始观测数据的动作规划方法

Publications (1)

Publication Number Publication Date
CN111062621A true CN111062621A (zh) 2020-04-24

Family

ID=70302349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911317621.1A Pending CN111062621A (zh) 2019-12-19 2019-12-19 一种基于aigan的对原始观测数据的动作规划方法

Country Status (1)

Country Link
CN (1) CN111062621A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858344A (zh) * 2020-07-23 2020-10-30 深圳慕智科技有限公司 一种基于循环神经网络的抽象状态模型构建方法
CN111881040A (zh) * 2020-07-23 2020-11-03 深圳慕智科技有限公司 一种基于循环神经网络的抽象状态模型的测试数据生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858344A (zh) * 2020-07-23 2020-10-30 深圳慕智科技有限公司 一种基于循环神经网络的抽象状态模型构建方法
CN111881040A (zh) * 2020-07-23 2020-11-03 深圳慕智科技有限公司 一种基于循环神经网络的抽象状态模型的测试数据生成方法

Similar Documents

Publication Publication Date Title
Chen et al. Softmax regression based deep sparse autoencoder network for facial emotion recognition in human-robot interaction
Basirat et al. The quest for the golden activation function
Camilleri et al. Analysing the limitations of deep learning for developmental robotics
Angelov et al. Autonomous learning multi-model classifier of 0-order (ALMMo-0)
CN113792874A (zh) 基于先天知识的持续学习方法及装置
Hu et al. On Transforming Reinforcement Learning With Transformers: The Development Trajectory
CN111062621A (zh) 一种基于aigan的对原始观测数据的动作规划方法
Keerthika et al. Algorithms of Intelligence: Exploring the World of Machine Learning
Persiani et al. A working memory model improves cognitive control in agents and robots
Acharya et al. Neurosymbolic reinforcement learning and planning: A survey
Valdez et al. A framework for interactive structural design exploration
Mehdipour et al. Spatial-temporal pattern synthesis in a network of locally interacting cells
Chen et al. Emotion recognition and understanding for emotional human-robot interaction systems
Baioletti et al. Smart multi-objective evolutionary GAN
Mishra et al. Deep machine learning and neural networks: an overview
Novakovic et al. Classification accuracy of neural networks with pca in emotion recognition
WO2021059527A1 (ja) 学習装置、学習方法、及び、記録媒体
Zhang Machine Learning and Visual Perception
Goertzel et al. Cognitive synergy between procedural and declarative learning in the control of animated and robotic agents using the opencogprime agi architecture
Jamshidnezhad et al. Bee royalty offspring algorithm for improvement of facial expressions classification model
Khayut et al. Intelligent user interface in fuzzy environment
Jocic et al. Image tagging with an ensemble of deep convolutional neural networks
Singh et al. A neural architecture search for automated multimodal learning
CN114168769A (zh) 基于gat关系推理的视觉问答方法
Tripathi et al. Facial expression recognition using data mining algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200424