CN110737268B - 一种基于Viterbi算法的确定指令的方法 - Google Patents
一种基于Viterbi算法的确定指令的方法 Download PDFInfo
- Publication number
- CN110737268B CN110737268B CN201910971882.9A CN201910971882A CN110737268B CN 110737268 B CN110737268 B CN 110737268B CN 201910971882 A CN201910971882 A CN 201910971882A CN 110737268 B CN110737268 B CN 110737268B
- Authority
- CN
- China
- Prior art keywords
- instruction
- state
- probability
- sequence
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Error Detection And Correction (AREA)
Abstract
本发明公开了一种基于Viterbi算法的确定指令的方法,包括步骤一:将指令库与模型中的标号进行映射并利用指令库集合训练出模型;步骤二:根据序列的实际情况将模型的初始值转换为Viterbi算法需要的首步值;步骤三:根据首步的初始值进行递推并更新路径信息;步骤四:递推终止并回溯最优路径;步骤五:根据解码得到的状态序列推断下一刻的状态。本发明利用Viterbi算法进行指令推理,任务的切入与切出没有明显的边界,该算法可靠性高、适应性强,且能够完成多任务切换的系统,更符合服务机器人的指令控制特性。
Description
技术领域
本发明涉及一种确定指令的方法,特别是一种基于Viterbi算法的确定指令的方法,属于指令推理领域。
背景技术
随着智能家居市场的快速发展,对服务机器人的需求也与日俱增,服务机器人需要稳定可靠的执行任务且要对环境有相当的适应性,这对机器人的指令解析部分提出了很高的要求。实际的生活环境极其复杂,目前的服务机器人难以适应这种复杂的状况,在执行任务指令时,因为环境的复杂性和当前人工智能的有限性,经常遇到任务执行失败的情况。因此研究指令推理方法使服务机器人满足当下的使用情况具有很深的现实意义。
一种通用的做法是为需要完成的单个任务,制定对应的指令库。针对每一个独立的任务,建立一个与之相对应的指令库,此指令库收录该任务可能要用到的指令。最终形成一个包含所有需要执行任务的指令库集合,在指令库与指令库之间设置明显的切入与切出边界。目前这种方法已广泛应用在智能音箱等领域上,并且在一些领域上取得不错的效果。但是此种方法存在着对复杂的环境适应性差且需要大量的人工维护,服务机器人的指令解析需要面对大量复杂的实际情况,且设置明显的切入与切出边界会给任务的切换带来大量使用不便。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种能够进行快速搜寻指令路径进而预测指令库的基于Viterbi算法的确定指令的方法。
为解决上述技术问题,本发明的一种基于Viterbi算法的确定指令的方法,包括以下步骤:
步骤一:将指令库与模型中的标号进行映射并利用指令库集合训练出模型;
步骤二:根据序列的实际情况将模型的初始值转换为Viterbi算法需要的首步值;
步骤三:根据首步的初始值进行递推并更新路径信息;
步骤四:递推终止并回溯最优路径;
步骤五:根据解码得到的状态序列推断下一刻的状态。
本发明还包括:
1.步骤一:将指令库与模型中的标号进行映射并利用指令库集合训练出模型,包括:
根据任务要求构建一个指令集合,此指令集合包含三个指令库,每个指令库包含该任务所有可能用到的指令;对隐马尔可夫模型进行初始化,即赋初值给π=(πi),其中π为初始概率矩阵,i为第i状态;
利用Baum-Welch算法对人工构建的指令集合进行训练,得到隐马尔可夫的模型λ=(A,B,π),其中A=[aij]N*N为状态转移概率矩阵,N是可能的状态数,aij为第i个状态转移到第j个状态的概率,B=[bj(k)]N*M为观测概率矩阵,M为是可能的观测数,加上一个具体的状态集合Q={q1,q2,q3,...,qN}和观测序列V={v1,v2,v3,...,vM},则构成了隐马尔可夫模型的五元组,即λ=(A,B,π,Q,V),其中Q对应指令库集合,qi(1<i<N)对应具体的指令库,N为指令库长度;V对应观测到的具体的指令集合,vj(1<j<M)对应具体的指令,M为具体的指令长度;
I=(i1,i2,...,iT)指令库顺序,是长度为T的状态序列;O=(o1,o2,...,oT)是对应的观测序列即具体的指令顺序,πi=P(i1=qi),i=1,2,...,N是时刻t=1处于状态qi的概率,aij=P(it+1=qj|it=qi),i=1,2...N;j=1,2,...,N是在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,bj(k)=P(ot=vk|it=qj),k=1,2...,M;j=1,2,...,N是在时刻t处于状态qj的条件下生成观测到的具体的指令集合V中的第k个指令vk的概率。
2.步骤二:根据序列的实际情况将模型的初始值转换为Viterbi算法需要的首步值:具体包括:
将步骤一得到的隐马尔可夫模型利用Viterbi进行解码:首先构建二维数组V用于存储每步的选择概率,利用初始概率π=(πi)对第一时刻状态为i的路径进行初始化,具体公式如下:
δ1(i)=πibi(o1),i=1,2,...,N
3.步骤三:根据首步的初始值进行递推并更新路径信息,具体包括:
以步骤二得到的序列初始值作为递推起点,利用公式进行递推,具体为:首先计算第一步所有可能值,设置一个中间变量Prob并赋予初值零,保留每一步的计算结果,并在此过程中选择前一状态的最优概率,并将此概率保存到数组V中;
新建二维数组path其中行数为状态的个数,列数为序列的长度,该数组保存历史的最优隐序列,在每步求解时均新建二维数组newpath,newpath的列数和维数与path相同,该数组保存当前步骤解的隐状态即指令库的序号,其初值来自于数组path,根据上一步计算的概率值确定当前的较优解,并以此修改path中的隐状态。
4.步骤四:递推终止并回溯最优路径,具体包括:
5.步骤五:根据解码得到的状态序列推断下一刻的状态,具体包括:在执行预测时使用公式PN=V[T-1][i-1]*tran[i-1][imax]*tran[imax][kN]来挑选出下一刻出现概率最大的隐状态,将这些隐状态即指令库添加到待识别列表里。
本发明的有益效果:本发明针对传统的指令系统在服务机器人中存在的问题与不足。将隐马尔可夫模型用于指令系统,本专利介绍其中利用Viterbi算法进行指令推理。应用Viterbi算法设计出可靠性高、适应性强,且能够完成多任务切换的系统。具体方法是将输入的指令映射到模型内的观察序列标号,将指令库映射为模型内的隐状态序列。运用Viterbi算法确定一条概率最大的路径,并以此预测下一步的指令库,通过此种方法缩小指令的范围进而提高识别指令的准确率。
根据服务机器人指令推理的实际需求,利用Viterbi算法进行指令库预测进而提高指令识别的准确率。区别于传统的有明确切入切出边界的指令库切换方法,这种方法不需要人为的切换指令库,任务的切入与切出没有明显的边界,而是利用算法来推断可能的指令库,此种方法更符合人类向服务机器人下达指令的特点。另外使用Viterbi解码可以极大的减少空间搜索的复杂度,进而提高搜索效率。
附图说明
图1是Viterbi算法指令推理效果图。
图2是Viterbi算法指令推理流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
如图2所示,本发明的步骤如下:
步骤1、将指令库与模型中的标号进行映射并利用指令库集合训练出模型。根据指令库的实际情况将问题转化为程序的内部表示标号,使用Baum-Welch算法训练出隐马尔可夫的模型即λ=(A,B,π)。
步骤2、根据序列的实际情况将模型的初始值转换为Viterbi算法需要的首步值。构建一个二维数组V,其存储每步的多个优选概率,并新建二维数组path存储首步的路径信息。
步骤3、根据首步的初始值进行递推并更新路径信息。通过比较前一时刻到到当前时刻的概率值,进而得出到达当前序列的最大可能路径。进而更新path。
步骤4、递推终止并回溯最优路径。正向计算完所有的步骤后且将各步的优选值保存。回溯最优路径并返回最优序列。
步骤5、根据解码得到的状态序列推断下一刻的状态。根据已有的状态序列计算下一状态的概率并取出概率最大的4个指令库加入到待识别列表。
步骤1具体为:使用人工构建的指令库集合训练出隐马尔可夫模型
在本发明中,首先根据任务要求人工的构建一个指令集合,此指令集合包含三个指令库,每个指令库包含该任务所有用到的指令。根据经验值对隐马尔可夫模型进行初始化,即赋初值给π=(πi),其中π为初始概率矩阵i为第i状态。将之前人工构建的指令集利用Baum-Welch算法等训练得到隐马尔可夫的模型即λ=(A,B,π),其中A=[aij]N*N为状态转移概率矩阵,N是可能的状态数,aij为第i个状态转移到第j个状态的概率;B=[bj(k)]N*M为观测概率矩阵,其中N为可能的状态数M为是可能的观测数,加上具体的状态序列Q={q1,q2,q3,...,qN}和观测序列V={v1,v2,v3,...,vM},其中Q对应指令库集合,qi(1<i<N)对应具体的指令库,N为指令库长度;V对应观测到的具体的指令集合,vj(1<j<M)对应具体的指令M为具体的指令长度,至此构成了隐马尔可夫模型的五元组,即λ=(A,B,π,Q,V),隐马尔可夫模型构建完毕。
针对本文所解决的问题,I=(i1,i2,...,iT)是长度为T(T为大于0的正整数)的状态序列即指令库顺序,O=(o1,o2,...,oT)是对应的观测序列即具体的指令顺序。
πi=P(i1=qi),i=1,2,...,N是时刻t=1处于状态qi(qi为指令库集合Q的第i个指令库,i1为I中的第1个指令库,以下类似)的概率,aij=P(it+1=qj|it=qi),i=1,2...N;j=1,2,...,N是在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,bj(k)=P(ot=vk|it=qj),k=1,2...,M;j=1,2,...,N是在时刻t处于状态qj的条件下生成观测vk(观测到的具体的指令集合V中的第k个)的概率。
步骤2具体为:根据模型λ=(A,B,π)和o1进行初始化:
将上个步骤得到的隐马尔可夫模型利用Viterbi进行解码。利用初始概率π=(πi)对第一时刻状态为i的路径进行初始化,具体公式如下:
δ1(i)=πibi(o1),i=1,2,...,N
步骤3具体为:根据序列的初始值进行递推:
以上一步得到的序列初始值为递推起点利用公式:
进行递推。首先计算第一步所有可能值,设置一个中间变量Prob并赋予初值零,保留每一步的多个计算结果,并在此过程中选择前一状态的最优概率,并将此概率保存到数组中。各步依此类推。
历史路径的保存与修改:
Viterbi算法是多步骤每步多选择模型的最优解算法,因此在求解全局最优解时需要保存历史最优的多个路径。在算法求解之初,新建二维数组path其中行数为状态的个数,列数为序列的长度,该数组保存历史的数个最优隐序列。在每步求解时均需要新建二维数组newpath(列数和维数与path同)该数组保存当前步骤解的隐状态即指令库的序号,其初值来自于数组path,根据上一步计算的概率值确定当前的较优解,并以此修改path中的隐状态。
步骤4具体为:递推终止条件和最优路径回溯:
利用公式求得T时刻最优概率。在具体执行时,正向计算每一步的概率取出其优选值保存并保存其路径,所有步骤计算完毕后进行最优路径回溯。对t=T-1,T-2,...,1求得其最优路径I=(i1,i2,...,iT)
步骤5具体为:根据Viterbi解码求得的状态序列推断下一时刻可能的状态
在执行预测时使用公式PN=V[T-1][i-1]*tran[i-1][imax]*tran[imax][kN]来挑选出下一刻出现概率最大的隐状态,为了增加系统的可靠性,在此选择4个出现概率最大的隐状态。将这些隐状态即指令库添加到待识别列表里进而提高指令识别的准确率。
用Viterbi算法进行指令推理,包含以下几个步骤:
1.首先将指令库与模型中的标号进行映射,根据经验值对隐马尔可夫模型进行初始化,再使用人工构建的指令库集合训练出隐马尔可夫模型,即λ=(A,B,π)。
2.根据模型λ=(A,B,π)和o1进行初始化。构建二维数组V以存储每步的多个优选概率,利用初始概率π=(πi)进行初始化,将隐马尔可夫模型的初始值处理成序列的首值,此时数组保存第一步的概率值。
3.根据序列的初始值进行递推并保存相应的序列。新建数组path用于保存历史路径,利用递推公式来不断地更新二维数组V,并保存更新后的路径于path。
4.递推终止条件和最优路径回溯。待正向计算完所有的步骤后且将各步的优选值保存后。回溯最优路径并返回最优序列。
5.根据Viterbi解码求得的状态序列推断下一时刻可能的状态。在上一步的结果下进行下一时状态的预测,并将这些隐状态即指令库添加到待识别列表里进而提高指令识别的准确率,以满足实际的需求。
Claims (4)
1.一种基于Viterbi算法的确定指令的方法,其特征在于,包括以下步骤:
步骤一:将指令库与模型中的标号进行映射并利用指令库集合训练出模型,包括:根据任务要求构建一个指令集合,此指令集合包含三个指令库,每个指令库包含该任务所有可能用到的指令;对隐马尔可夫模型进行初始化,即赋初值给π=(πi),其中π为初始概率矩阵,i为第i状态;
利用Baum-Welch算法对人工构建的指令集合进行训练,得到隐马尔可夫的模型λ=(A,B,π),其中A=[aij]N*N为状态转移概率矩阵,N是可能的状态数,aij为第i个状态转移到第j个状态的概率,B=[bj(k)]N*M为观测概率矩阵,M为是可能的观测数,加上一个具体的状态集合Q={q1,q2,q3,...,qN}和观测序列V={v1,v2,v3,...,vM},则构成了隐马尔可夫模型的五元组,即λ=(A,B,π,Q,V),其中Q对应指令库集合,qi对应具体的指令库,其中1<i<N,N为指令库长度;V对应观测到的具体的指令集合,vj对应具体的指令,其中1<j<M,M为具体的指令长度;
I=(i1,i2,...,iT)指令库顺序,是长度为T的状态序列;O=(o1,o2,...,oT)是对应的观测序列即具体的指令顺序,πi=P(i1=qi),i=1,2,...,N是时刻t=1处于状态qi的概率,aij=P(it+1=qj|it=qi),i=1,2...N;j=1,2,...,N是在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,bj(k)=P(ot=vk|it=qj),k=1,2...,M;j=1,2,...,N是在时刻t处于状态qj的条件下生成观测到的具体的指令集合V中的第k个指令vk的概率;
步骤二:根据序列的实际情况将模型的初始值转换为Viterbi算法需要的首步值;
步骤三:根据首步的初始值进行递推并更新路径信息,包括:
以步骤二得到的序列初始值作为递推起点,利用公式进行递推,具体为:首先计算第一步所有可能值,设置一个中间变量Prob并赋予初值零,保留每一步的计算结果,并在此过程中选择前一状态的最优概率,并将此概率保存到数组V中;
新建二维数组path其中行数为状态的个数,列数为序列的长度,该数组保存历史的最优隐序列,在每步求解时均新建二维数组newpath,newpath的列数和维数与path相同,该数组保存当前步骤解的隐状态即指令库的序号,其初值来自于数组path,根据上一步计算的概率值确定当前的较优解,并以此修改path中的隐状态;
步骤四:递推终止并回溯最优路径;
步骤五:根据解码得到的状态序列推断下一刻的状态。
2.根据权利要求1所述的一种基于Viterbi算法的确定指令的方法,其特征在于:步骤二具体包括:
将步骤一得到的隐马尔可夫模型利用Viterbi进行解码:首先构建二维数组V用于存储每步的选择概率,利用初始概率π=(πi)对第一时刻状态为i的路径进行初始化,具体公式如下:
δ1(i)=πibi(o1),i=1,2,...,N。
4.根据权利要求1所述的一种基于Viterbi算法的确定指令的方法,其特征在于:步骤五具体包括:在执行预测时使用公式PN=V[T-1][i-1]*tran[i-1][imax]*tran[imax][kN]来挑选出下一刻出现概率最大的隐状态,将这些隐状态即指令库添加到待识别列表里。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910971882.9A CN110737268B (zh) | 2019-10-14 | 2019-10-14 | 一种基于Viterbi算法的确定指令的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910971882.9A CN110737268B (zh) | 2019-10-14 | 2019-10-14 | 一种基于Viterbi算法的确定指令的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110737268A CN110737268A (zh) | 2020-01-31 |
CN110737268B true CN110737268B (zh) | 2022-07-15 |
Family
ID=69270022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910971882.9A Active CN110737268B (zh) | 2019-10-14 | 2019-10-14 | 一种基于Viterbi算法的确定指令的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110737268B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
WO2010025460A1 (en) * | 2008-08-29 | 2010-03-04 | O3 Technologies, Llc | System and method for speech-to-speech translation |
CN102549578A (zh) * | 2010-10-01 | 2012-07-04 | 松下电器产业株式会社 | 分类装置以及分类方法 |
CN103630147A (zh) * | 2013-11-26 | 2014-03-12 | 哈尔滨工程大学 | 一种基于hmm的个人自主导航系统零速检测方法 |
WO2016172871A1 (zh) * | 2015-04-29 | 2016-11-03 | 华侃如 | 基于循环神经网络的语音合成方法 |
CN106339322A (zh) * | 2016-09-13 | 2017-01-18 | 哈尔滨工程大学 | 一种基于hmm‑aco的软件行为预测的方法 |
CN109086306A (zh) * | 2018-06-22 | 2018-12-25 | 国网浙江省电力有限公司 | 基于混合隐马尔可夫模型的原子事件标签的提取方法 |
CN109961775A (zh) * | 2017-12-15 | 2019-07-02 | 中国移动通信集团安徽有限公司 | 基于hmm模型的方言识别方法、装置、设备及介质 |
CN110149595A (zh) * | 2019-05-10 | 2019-08-20 | 北京工业大学 | 一种基于hmm的异构网络用户行为预测方法 |
CN111553726A (zh) * | 2020-04-22 | 2020-08-18 | 上海海事大学 | 一种基于hmm的刷单预测系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100693284B1 (ko) * | 2005-04-14 | 2007-03-13 | 학교법인 포항공과대학교 | 음성 인식 장치 |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
-
2019
- 2019-10-14 CN CN201910971882.9A patent/CN110737268B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
WO2010025460A1 (en) * | 2008-08-29 | 2010-03-04 | O3 Technologies, Llc | System and method for speech-to-speech translation |
CN102549578A (zh) * | 2010-10-01 | 2012-07-04 | 松下电器产业株式会社 | 分类装置以及分类方法 |
CN103630147A (zh) * | 2013-11-26 | 2014-03-12 | 哈尔滨工程大学 | 一种基于hmm的个人自主导航系统零速检测方法 |
WO2016172871A1 (zh) * | 2015-04-29 | 2016-11-03 | 华侃如 | 基于循环神经网络的语音合成方法 |
CN106339322A (zh) * | 2016-09-13 | 2017-01-18 | 哈尔滨工程大学 | 一种基于hmm‑aco的软件行为预测的方法 |
CN109961775A (zh) * | 2017-12-15 | 2019-07-02 | 中国移动通信集团安徽有限公司 | 基于hmm模型的方言识别方法、装置、设备及介质 |
CN109086306A (zh) * | 2018-06-22 | 2018-12-25 | 国网浙江省电力有限公司 | 基于混合隐马尔可夫模型的原子事件标签的提取方法 |
CN110149595A (zh) * | 2019-05-10 | 2019-08-20 | 北京工业大学 | 一种基于hmm的异构网络用户行为预测方法 |
CN111553726A (zh) * | 2020-04-22 | 2020-08-18 | 上海海事大学 | 一种基于hmm的刷单预测系统及方法 |
Non-Patent Citations (3)
Title |
---|
Hidden Markov Models to identify pilot instrument scanning and attention patterns;Miwa Hayashi,等;《IEEE》;20031231;第2889-2896页 * |
室内机器人避碰路径规划;张智,等;《小型微型计算机系统》;20191031;第2077-2081页 * |
标签同步解码算法及其在语音识别中的应用;陈哲怀,等;《计算机学报》;20190731;第1511-1523页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110737268A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Deep reinforcement learning supervised autonomous exploration in office environments | |
CN109682392B (zh) | 基于深度强化学习的视觉导航方法及系统 | |
Ouyang et al. | Learning unknown markov decision processes: A thompson sampling approach | |
EP3593289A1 (en) | Training action selection neural networks using a differentiable credit function | |
CN109241291A (zh) | 基于深度强化学习的知识图谱最优路径查询系统及其方法 | |
Chades et al. | MOMDPs: a solution for modelling adaptive management problems | |
CN112119409A (zh) | 具有关系存储器的神经网络 | |
CN111191934A (zh) | 一种基于强化学习策略的多目标云工作流调度方法 | |
CN112802061B (zh) | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 | |
Guo et al. | Solving combinatorial problems with machine learning methods | |
CN113537365B (zh) | 一种基于信息熵动态赋权的多任务学习自适应平衡方法 | |
CN109940614B (zh) | 一种融合记忆机制的机械臂多场景快速运动规划方法 | |
CN111753995B (zh) | 一种基于梯度提升树的局部可解释方法 | |
CN117153260B (zh) | 基于对比学习的空间转录组数据聚类方法、装置及介质 | |
CN109558898B (zh) | 一种基于深度神经网络的高置信度的多选择学习方法 | |
CN116306686A (zh) | 一种多情绪指导的共情对话生成方法 | |
CN114161419B (zh) | 一种情景记忆引导的机器人操作技能高效学习方法 | |
CN110737268B (zh) | 一种基于Viterbi算法的确定指令的方法 | |
CN112257872B (zh) | 一种强化学习的目标规划方法 | |
JPH11316754A (ja) | 実験計画法及び実験計画プログラムを記録した記録媒体 | |
CN113344243A (zh) | 基于改进哈里斯鹰算法优化elm的风速预测方法及系统 | |
CN115453880A (zh) | 基于对抗神经网络的用于状态预测的生成模型的训练方法 | |
Liu et al. | Robotic cognitive behavior control based on biology-inspired episodic memory | |
JP2020119551A (ja) | 情報処理方法及び情報処理装置 | |
Chen et al. | Distributed continuous control with meta learning on robotic arms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |