CN111062621A - 一种基于aigan的对原始观测数据的动作规划方法 - Google Patents
一种基于aigan的对原始观测数据的动作规划方法 Download PDFInfo
- Publication number
- CN111062621A CN111062621A CN201911317621.1A CN201911317621A CN111062621A CN 111062621 A CN111062621 A CN 111062621A CN 201911317621 A CN201911317621 A CN 201911317621A CN 111062621 A CN111062621 A CN 111062621A
- Authority
- CN
- China
- Prior art keywords
- state
- dimensional
- observation
- action
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000010391 action planning Effects 0.000 title claims abstract description 16
- 230000009471 action Effects 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 230000007704 transition Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 11
- 239000013566 allergen Substances 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于AIGAN的对原始观测数据的动作规划方法,包括以下步骤,步骤一:收集观测数据;步骤二:将观测数据放入训练网络模块;步骤三:给定高维初始观测值和高维目标观测值,使用训练网络模块,将其分别转化成低维初始状态值和低维目标状态值;步骤四:根据规划策略,在低维状态解空间中进行规划,求得从低维初始状态值到低维目标状态值的动作状态序列;步骤五:将得到的动作状态序列中的低维状态向量,转化为高维的观测值并得到高维的观测动作序列。先通过深度学习框架学习所需模型,再利用这些学习到的模型来做规划,采用无监督学习方式,高效学习数据总的规律,能够解决现实问题中复杂问题进行建模困难,难以进行动作规划的问题。
Description
技术领域
本发明涉及自动规划领域,更具体地,涉及一种基于AIGAN的对原始观测数据的动作规划方法。
背景技术
自动规划(Automated Planning),又称智能规划,是人工智能的一个重要研究领域。其主要思想是:对周围环境进行认识和分析,根据预定实现的目标,对若干可供选择的动作及所提供的资源限制施行推理,综合制定出实现目标的动作序列——规划。由于智能规划在工厂的车间作业调度、现代物流管理中物资运输调度、智能机器人的动作规划以及宇航技术等领域中有广泛的应用,受到研究者的重视,现在已经成为人工智能研究的热点。
一个经典规划问题的解决,需要提供领域规则的定义和问题初始状态、目标状态,以及规划器算法。对领域、问题,通常使用规划领域定义语言(Planning DomainDefinition Language,PDDL)来描述。定义好领域规则,给定问题的初始状态和目标状态之后,就可以使用Fast Downward等规划器算法或A*等前向搜索算法对问题进行求解。
在将经典规划的技术应用到现实问题的时候,有一个不可避免的过程,即建模。将现实的问题抽象为命题(Proposition)形式的表达、并且学习出其中的动作模型(ActionModel),即人类通过充分利用自己的先验知识,甚至通过发现问题领域的规律,将领域内可能发生的动作(Action)的前提(Predicate)和效果(Effect)都总结出来,建立一个可以进行逻辑计算的严格的模型。当问题较简单时,这一流程的工作量尚可接受,但当遇到复杂问题时,建模工作对建模者的要求显著提高,甚至在特别复杂的领域,人类目前还无法清晰地理清其中的逻辑关系,无法建立模型,因而不能使用规划器进行求解。并且在规划领域中,如果我们要生成从初始观测到目标观测的规划序列,并且这样的观测都是由高维数据所组成的话,人类同样难以学习高维数据的抽象状态表达,以及相应的动作状态转移模型。
发明内容
本发明为克服上述现有技术中无法对复杂的问题进行动作规划建模的问题,提供一种基于AIGAN的对原始观测数据的动作规划方法,通过在高维数据以及难以建模的数据中,学习到他们的状态转移模型,从而生成相应的高维观测动作序列。
为解决上述技术问题,本发明采用的技术方案是:一种基于AIGAN的对原始观测数据的动作规划方法,包括如下步骤:
步骤一:收集数据集的观测数据;
步骤二:将数据集的观测数据放入到基于AIGAN框架的训练网络模块,获得状态表示模型Q、启发式模型F、状态转移模型T、生成器G和判别器D;状态表示模型Q,作用是将高维数据映射到相应的隐状态;启发式模型F,作用是给定输入此时的隐状态以及目标隐状态,能够启发式生成,在此时隐状态为了能够接近目标状态,所应该做的动作;状态转移模型F,作用是给定当前隐状态以及当前的动作,输出能够到达的下一个隐状态;生成器G,作用是给定隐状态能够生成相应的高维数据;判别器D,通过判别此时的数据是真实数据还是由生成器生成的假数据,从而指导其他网络的训练。
步骤三:给定高维初始观测值和高维目标观测值,使用状态表示模型Q,将其分别转化成低维初始状态值和低维目标状态值;
步骤四:在规划策略中的目标函数使用启发式模型F和状态转移模型T,在低维状态解空间中进行规划,求得从低维初始状态值到低维目标状态值的动作状态序列;
步骤五:将得到的动作状态序列中的全部低维状态向量,使用生成器G转化为高维的观测值,最终得到高维的观测动作序列。
优选的,所述训练网络模块包括生成模块和判别模块;
所述生成模块输入为:随机噪声z,初始隐状态s和目标隐状态g,以及由启发式模型F和状态转移模型T共同作用生成的下一个隐状态s′;
优选的,所述训练网络模块的具体目标函数为:
s.t.,a,o,o′,og~Pdata
其中,G指的是生成模型;D指的是判别模型;λ为常数系数;I为互信息,H函数为所蕴含的信息量;其中动作a;高维观测值o;高维观测的下一个观测值o′;以及目标观测值og都是从真实数据分布Pdata中取出;噪声z是从噪声分布Pnoise中取出;低维隐状态s,g是从低维隐状态分布Pstate中取出;生成动作是由启发式模型F所求得;生成隐状态s′是由状态转移模型T所求得。
优选的,在所述步骤三中,给定初始高维观测值o0和目标观测值og,输入到通过训练网络模块中得到的状态表示模型Q中,输出对应的初始隐状态向量s0和目标隐状态向量sg;
优选的,在所述步骤四中,采用RNN深度学习网络框架,采用初始隐状态向量s0和目标隐状态向量sg的曼哈顿距离加上随机生成的动作向量与启发式模型F生成的动作向量的曼哈顿距离作为启发函数,生成从初始隐状态s0到目标隐状态sg的动作状态序列:s0,a0,s1,a1…an-1sg;
优选的,在所述步骤五中,将动作状态序列:s0,a0,s1,a1…an-1sg中所有隐状态输入到生成器G中,能够得到最终的动作观测序列:o0,a0,o1,a1…an-1,og。
与现有技术相比,本发明的有益效果是:先通过深度学习框架学习所需模型,再利用这些学习到的模型来做规划,采用无监督学习方式,高效学习数据总的规律,能够解决现实问题中复杂问题进行建模困难,难以进行动作规划的问题。
附图说明
图1是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的整体架构示意图;
图2是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的训练网络模块的整体训练过程;
图3是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的总体规划流程;
图4是本发明的一种基于AIGAN的对原始观测数据的动作规划方法的规划策略流程。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例1
如图1-4所示为一种基于AIGAN的对原始观测数据的动作规划方法的实施例,包括如下步骤:
步骤一:收集数据集的观测数据;
步骤二:将数据集的观测数据放入到基于AIGAN框架的训练网络模块,获得状态表示模型Q、启发式模型F、状态转移模型T、生成器G和判别器D;
训练网络模块包括生成模块和判别模块;
所述生成模块输入为:随机噪声z,初始隐状态s和目标隐状态g,以及由启发式模型F和状态转移模型T共同作用生成的下一个隐状态s′;
如图2所示,从隐状态空间提取的初始隐状态s和目标隐状态g、从噪声空间提取高斯随机噪声z、以及由启发式模型F和状态转移模型T结合一起生成的初始隐状态的下一个隐状态s′组成的四元组<s,sg,z,s′>输入到生成器G中,输出得到观测空间的三元组<o,o′,og>。再将得到的观测空间三元组输入到判别器D中,由判别器D判断此时的三元组是由真实数据得到,还是由生成器G生成的,从而指导状态表示模型Q、启发式模型F、状态转移模型T、生成器G的网络的训练。
具体的,述训练网络模块的具体目标函数为:
s.t.,a,o,o′,og~Pdata
其中,G指的是生成模型;D指的是判别模型;λ为常数系数;I为互信息;H函数为所蕴含的信息量;其中动作a;高维观测值o;高维观测的下一个观测值o′;以及目标观测值og都是从真实数据分布Pdata中取出;噪声z是从噪声分布Pnoise中取出;低维隐状态s,g是从低维隐状态分布Pstate中取出;生成动作是由启发式模型F所求得;生成隐状态s′是由状态转移模型T所求得。
步骤三:给定初始高维观测值o0和目标观测值og,输入到通过训练网络模块中得到的状态表示模型Q中,输出对应的初始隐状态向量s0和目标隐状态向量sg;如图3所示,首先我们从观测空间中得到高维初始观测值o0和高维目标观测值og,通过状态表示模型Q转换为对应的低维隐状态向量。
步骤四:如图4所示,采用RNN深度学习网络框架,采用初始隐状态向量s0和目标隐状态向量sg的曼哈顿距离加上随机生成的动作向量与启发式模型F生成的动作向量的曼哈顿距离作为启发函数,生成从初始隐状态s0到目标隐状态sg的动作状态序列:s0,a0,s1,a1…an-1sg;
步骤五:如图3所示,将动作状态序列:s0,a0,s1,a1…an-1sg中所有隐状态输入到生成器G中,使用生成器G转化为高维的观测值,最终得到高维的观测动作序列o0,a0,o1,a1…an-1,og。
本实施例的有益效果:先通过深度学习框架学习所需模型,再利用这些学习到的模型来做规划,采用无监督学习方式,高效学习数据总的规律,能够解决现实问题中复杂问题进行建模困难,难以进行动作规划的问题。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于AIGAN的对原始观测数据的动作规划方法,其特征在于,包括如下步骤:
步骤一:收集数据集的观测数据;
步骤二:将数据集的观测数据放入到基于AIGAN框架的训练网络模块,获得状态表示模型Q、启发式模型F、状态转移模型T、生成器G和判别器D;
步骤三:给定高维初始观测值和高维目标观测值,使用状态表示模型Q,将其分别转化成低维初始状态值和低维目标状态值;
步骤四:规划策略中的目标函数使用启发式模型F和状态转移模型T,在低维状态解空间中进行规划,求得从低维初始状态值到低维目标状态值的动作状态序列;
步骤五:将得到的动作状态序列中的全部低维状态向量,使用生成器G转化为高维的观测值,最终得到高维的观测动作序列。
4.根据权利要求2所述的一种基于AIGAN的对原始观测数据的动作规划方法,其特征在于,在所述步骤三中,给定初始高维观测值o0和目标观测值og,输入到通过训练网络模块中得到的状态表示模型Q中,输出对应的初始隐状态向量s0和目标隐状态向量sg。
5.根据权利要求4所述的一种基于AIGAN的对原始观测数据的动作规划方法,其特征在于,在所述步骤四中,采用RNN深度学习网络框架,采用初始隐状态向量s0和目标隐状态向量sg的曼哈顿距离加上随机生成的动作向量与启发式模型F生成的动作向量的曼哈顿距离作为启发函数,生成从初始隐状态s0到目标隐状态sg的动作状态序列:s0,a0,s1,a1…an-1sg。
6.根据权利要求5所述的一种基于AIGAN的对原始观测数据的动作规划方法,其特征在于,在所述步骤五中,将动作状态序列:s0,a0,s1,a1…an-1sg中所有隐状态输入到生成器G中,能够得到最终的动作观测序列:o0,a0,o1,a1…an-1,og。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911317621.1A CN111062621A (zh) | 2019-12-19 | 2019-12-19 | 一种基于aigan的对原始观测数据的动作规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911317621.1A CN111062621A (zh) | 2019-12-19 | 2019-12-19 | 一种基于aigan的对原始观测数据的动作规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111062621A true CN111062621A (zh) | 2020-04-24 |
Family
ID=70302349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911317621.1A Pending CN111062621A (zh) | 2019-12-19 | 2019-12-19 | 一种基于aigan的对原始观测数据的动作规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062621A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858344A (zh) * | 2020-07-23 | 2020-10-30 | 深圳慕智科技有限公司 | 一种基于循环神经网络的抽象状态模型构建方法 |
CN111881040A (zh) * | 2020-07-23 | 2020-11-03 | 深圳慕智科技有限公司 | 一种基于循环神经网络的抽象状态模型的测试数据生成方法 |
-
2019
- 2019-12-19 CN CN201911317621.1A patent/CN111062621A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858344A (zh) * | 2020-07-23 | 2020-10-30 | 深圳慕智科技有限公司 | 一种基于循环神经网络的抽象状态模型构建方法 |
CN111881040A (zh) * | 2020-07-23 | 2020-11-03 | 深圳慕智科技有限公司 | 一种基于循环神经网络的抽象状态模型的测试数据生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Softmax regression based deep sparse autoencoder network for facial emotion recognition in human-robot interaction | |
Basirat et al. | The quest for the golden activation function | |
Camilleri et al. | Analysing the limitations of deep learning for developmental robotics | |
Angelov et al. | Autonomous learning multi-model classifier of 0-order (ALMMo-0) | |
CN113792874A (zh) | 基于先天知识的持续学习方法及装置 | |
Hu et al. | On Transforming Reinforcement Learning With Transformers: The Development Trajectory | |
CN111062621A (zh) | 一种基于aigan的对原始观测数据的动作规划方法 | |
Keerthika et al. | Algorithms of Intelligence: Exploring the World of Machine Learning | |
Persiani et al. | A working memory model improves cognitive control in agents and robots | |
Acharya et al. | Neurosymbolic reinforcement learning and planning: A survey | |
Valdez et al. | A framework for interactive structural design exploration | |
Mehdipour et al. | Spatial-temporal pattern synthesis in a network of locally interacting cells | |
Chen et al. | Emotion recognition and understanding for emotional human-robot interaction systems | |
Baioletti et al. | Smart multi-objective evolutionary GAN | |
Mishra et al. | Deep machine learning and neural networks: an overview | |
Novakovic et al. | Classification accuracy of neural networks with pca in emotion recognition | |
WO2021059527A1 (ja) | 学習装置、学習方法、及び、記録媒体 | |
Zhang | Machine Learning and Visual Perception | |
Goertzel et al. | Cognitive synergy between procedural and declarative learning in the control of animated and robotic agents using the opencogprime agi architecture | |
Jamshidnezhad et al. | Bee royalty offspring algorithm for improvement of facial expressions classification model | |
Khayut et al. | Intelligent user interface in fuzzy environment | |
Jocic et al. | Image tagging with an ensemble of deep convolutional neural networks | |
Singh et al. | A neural architecture search for automated multimodal learning | |
CN114168769A (zh) | 基于gat关系推理的视觉问答方法 | |
Tripathi et al. | Facial expression recognition using data mining algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200424 |