CN110737268A - 一种基于Viterbi算法的确定指令的方法 - Google Patents

一种基于Viterbi算法的确定指令的方法 Download PDF

Info

Publication number
CN110737268A
CN110737268A CN201910971882.9A CN201910971882A CN110737268A CN 110737268 A CN110737268 A CN 110737268A CN 201910971882 A CN201910971882 A CN 201910971882A CN 110737268 A CN110737268 A CN 110737268A
Authority
CN
China
Prior art keywords
instruction
state
probability
sequence
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910971882.9A
Other languages
English (en)
Other versions
CN110737268B (zh
Inventor
苏丽
迟泰宇
张智
朱齐丹
秦绪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201910971882.9A priority Critical patent/CN110737268B/zh
Publication of CN110737268A publication Critical patent/CN110737268A/zh
Application granted granted Critical
Publication of CN110737268B publication Critical patent/CN110737268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Error Detection And Correction (AREA)

Abstract

本发明公开了一种基于Viterbi算法的确定指令的方法,包括步骤一:将指令库与模型中的标号进行映射并利用指令库集合训练出模型;步骤二:根据序列的实际情况将模型的初始值转换为Viterbi算法需要的首步值;步骤三:根据首步的初始值进行递推并更新路径信息;步骤四:递推终止并回溯最优路径;步骤五:根据解码得到的状态序列推断下一刻的状态。本发明利用Viterbi算法进行指令推理,任务的切入与切出没有明显的边界,该算法可靠性高、适应性强,且能够完成多任务切换的系统,更符合服务机器人的指令控制特性。

Description

一种基于Viterbi算法的确定指令的方法
技术领域
本发明涉及一种确定指令的方法,特别是一种基于Viterbi算法的确定指令的方法,属于指令推理领域。
背景技术
随着智能家居市场的快速发展,对服务机器人的需求也与日俱增,服务机器人需要稳定可靠的执行任务且要对环境有相当的适应性,这对机器人的指令解析部分提出了很高的要求。实际的生活环境极其复杂,目前的服务机器人难以适应这种复杂的状况,在执行任务指令时,因为环境的复杂性和当前人工智能的有限性,经常遇到任务执行失败的情况。因此研究指令推理方法使服务机器人满足当下的使用情况具有很深的现实意义。
一种通用的做法是为需要完成的单个任务,制定对应的指令库。针对每一个独立的任务,建立一个与之相对应的指令库,此指令库收录该任务可能要用到的指令。最终形成一个包含所有需要执行任务的指令库集合,在指令库与指令库之间设置明显的切入与切出边界。目前这种方法已广泛应用在智能音箱等领域上,并且在一些领域上取得不错的效果。但是此种方法存在着对复杂的环境适应性差且需要大量的人工维护,服务机器人的指令解析需要面对大量复杂的实际情况,且设置明显的切入与切出边界会给任务的切换带来大量使用不便。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种能够进行快速搜寻指令路径进而预测指令库的基于Viterbi算法的确定指令的方法。
为解决上述技术问题,本发明的一种基于Viterbi算法的确定指令的方法,包括以下步骤:
步骤一:将指令库与模型中的标号进行映射并利用指令库集合训练出模型;
步骤二:根据序列的实际情况将模型的初始值转换为Viterbi算法需要的首步值;
步骤三:根据首步的初始值进行递推并更新路径信息;
步骤四:递推终止并回溯最优路径;
步骤五:根据解码得到的状态序列推断下一刻的状态。
本发明还包括:
1.步骤一:将指令库与模型中的标号进行映射并利用指令库集合训练出模型,包括:
根据任务要求构建一个指令集合,此指令集合包含三个指令库,每个指令库包含该任务所有可能用到的指令;对隐马尔可夫模型进行初始化,即赋初值给π=(πi),其中π为初始概率矩阵,i为第i状态;
利用Baum-Welch算法对人工构建的指令集合进行训练,得到隐马尔可夫的模型λ=(A,B,π),其中A=[aij]N*N为状态转移概率矩阵,N是可能的状态数,aij为第i个状态转移到第j个状态的概率,B=[bj(k)]N*M为观测概率矩阵,M为是可能的观测数,加上一个具体的状态集合Q={q1,q2,q3,...,qN}和观测序列V={v1,v2,v3,...,vM},则构成了隐马尔可夫模型的五元组,即λ=(A,B,π,Q,V),其中Q对应指令库集合,qi(1<i<N)对应具体的指令库,N为指令库长度;V对应观测到的具体的指令集合,vj(1<j<M)对应具体的指令,M为具体的指令长度;
I=(i1,i2,...,iT)指令库顺序,是长度为T的状态序列;O=(o1,o2,...,oT)是对应的观测序列即具体的指令顺序,πi=P(i1=qi),i=1,2,...,N是时刻t=1处于状态qi的概率,aij=P(it+1=qj|it=qi),i=1,2...N;j=1,2,...,N是在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,bj(k)=P(ot=vk|it=qj),k=1,2...,M;j=1,2,...,N是在时刻t处于状态qj的条件下生成观测到的具体的指令集合V中的第k个指令vk的概率。
2.步骤二:根据序列的实际情况将模型的初始值转换为Viterbi算法需要的首步值:具体包括:
将步骤一得到的隐马尔可夫模型利用Viterbi进行解码:首先构建二维数组V用于存储每步的选择概率,利用初始概率π=(πi)对第一时刻状态为i的路径进行初始化,具体公式如下:
δ1(i)=πibi(o1),i=1,2,...,N
3.步骤三:根据首步的初始值进行递推并更新路径信息,具体包括:
以步骤二得到的序列初始值作为递推起点,利用公式进行递推,具体为:首先计算第一步所有可能值,设置一个中间变量Prob并赋予初值零,保留每一步的计算结果,并在此过程中选择前一状态的最优概率,并将此概率保存到数组V中;
新建二维数组path其中行数为状态的个数,列数为序列的长度,该数组保存历史的最优隐序列,在每步求解时均新建二维数组newpath,newpath的列数和维数与path相同,该数组保存当前步骤解的隐状态即指令库的序号,其初值来自于数组path,根据上一步计算的概率值确定当前的较优解,并以此修改path中的隐状态。
4.步骤四:递推终止并回溯最优路径,具体包括:
利用公式
Figure BDA0002232364610000022
求得T时刻最优概率:正向计算每一步的概率取出其优选值保存并保存其路径,所有步骤计算完毕后进行最优路径回溯,对t=T-1,T-2,...,1求得其最优路径I=(i1,i2,...,iT)。
5.步骤五:根据解码得到的状态序列推断下一刻的状态,具体包括:在执行预测时使用公式PN=V[T-1][i-1]*tran[i-1][imax]*tran[imax][kN]来挑选出下一刻出现概率最大的隐状态,将这些隐状态即指令库添加到待识别列表里。
本发明的有益效果:本发明针对传统的指令系统在服务机器人中存在的问题与不足。将隐马尔可夫模型用于指令系统,本专利介绍其中利用Viterbi算法进行指令推理。应用Viterbi算法设计出可靠性高、适应性强,且能够完成多任务切换的系统。具体方法是将输入的指令映射到模型内的观察序列标号,将指令库映射为模型内的隐状态序列。运用Viterbi算法确定一条概率最大的路径,并以此预测下一步的指令库,通过此种方法缩小指令的范围进而提高识别指令的准确率。
根据服务机器人指令推理的实际需求,利用Viterbi算法进行指令库预测进而提高指令识别的准确率。区别于传统的有明确切入切出边界的指令库切换方法,这种方法不需要人为的切换指令库,任务的切入与切出没有明显的边界,而是利用算法来推断可能的指令库,此种方法更符合人类向服务机器人下达指令的特点。另外使用Viterbi解码可以极大的减少空间搜索的复杂度,进而提高搜索效率。
附图说明
图1是Viterbi算法指令推理效果图。
图2是Viterbi算法指令推理流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
如图2所示,本发明的步骤如下:
步骤1、将指令库与模型中的标号进行映射并利用指令库集合训练出模型。根据指令库的实际情况将问题转化为程序的内部表示标号,使用Baum-Welch算法训练出隐马尔可夫的模型即λ=(A,B,π)。
步骤2、根据序列的实际情况将模型的初始值转换为Viterbi算法需要的首步值。构建一个二维数组V,其存储每步的多个优选概率,并新建二维数组path存储首步的路径信息。
步骤3、根据首步的初始值进行递推并更新路径信息。通过比较前一时刻到到当前时刻的概率值,进而得出到达当前序列的最大可能路径。进而更新path。
步骤4、递推终止并回溯最优路径。正向计算完所有的步骤后且将各步的优选值保存。回溯最优路径并返回最优序列。
步骤5、根据解码得到的状态序列推断下一刻的状态。根据已有的状态序列计算下一状态的概率并取出概率最大的4个指令库加入到待识别列表。
步骤1具体为:使用人工构建的指令库集合训练出隐马尔可夫模型
在本发明中,首先根据任务要求人工的构建一个指令集合,此指令集合包含三个指令库,每个指令库包含该任务所有用到的指令。根据经验值对隐马尔可夫模型进行初始化,即赋初值给π=(πi),其中π为初始概率矩阵i为第i状态。将之前人工构建的指令集利用Baum-Welch算法等训练得到隐马尔可夫的模型即λ=(A,B,π),其中A=[aij]N*N为状态转移概率矩阵,N是可能的状态数,aij为第i个状态转移到第j个状态的概率;B=[bj(k)]N*M为观测概率矩阵,其中N为可能的状态数M为是可能的观测数,加上具体的状态序列Q={q1,q2,q3,...,qN}和观测序列V={v1,v2,v3,...,vM},其中Q对应指令库集合,qi(1<i<N)对应具体的指令库,N为指令库长度;V对应观测到的具体的指令集合,vj(1<j<M)对应具体的指令M为具体的指令长度,至此构成了隐马尔可夫模型的五元组,即λ=(A,B,π,Q,V),隐马尔可夫模型构建完毕。
针对本文所解决的问题,I=(i1,i2,...,iT)是长度为T(T为大于0的正整数)的状态序列即指令库顺序,O=(o1,o2,...,oT)是对应的观测序列即具体的指令顺序。
πi=P(i1=qi),i=1,2,...,N是时刻t=1处于状态qi(qi为指令库集合Q的第i个指令库,i1为I中的第1个指令库,以下类似)的概率,aij=P(it+1=qj|it=qi),i=1,2...N;j=1,2,...,N是在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,bj(k)=P(ot=vk|it=qj),k=1,2...,M;j=1,2,...,N是在时刻t处于状态qj的条件下生成观测vk(观测到的具体的指令集合V中的第k个)的概率。
步骤2具体为:根据模型λ=(A,B,π)和o1进行初始化:
将上个步骤得到的隐马尔可夫模型利用Viterbi进行解码。利用初始概率π=(πi)对第一时刻状态为i的路径进行初始化,具体公式如下:
δ1(i)=πibi(o1),i=1,2,...,N
步骤3具体为:根据序列的初始值进行递推:
以上一步得到的序列初始值为递推起点利用公式:
Figure BDA0002232364610000051
进行递推。首先计算第一步所有可能值,设置一个中间变量Prob并赋予初值零,保留每一步的多个计算结果,并在此过程中选择前一状态的最优概率,并将此概率保存到数组中。各步依此类推。
历史路径的保存与修改:
Viterbi算法是多步骤每步多选择模型的最优解算法,因此在求解全局最优解时需要保存历史最优的多个路径。在算法求解之初,新建二维数组path其中行数为状态的个数,列数为序列的长度,该数组保存历史的数个最优隐序列。在每步求解时均需要新建二维数组newpath(列数和维数与path同)该数组保存当前步骤解的隐状态即指令库的序号,其初值来自于数组path,根据上一步计算的概率值确定当前的较优解,并以此修改path中的隐状态。
步骤4具体为:递推终止条件和最优路径回溯:
利用公式
Figure BDA0002232364610000052
求得T时刻最优概率。在具体执行时,正向计算每一步的概率取出其优选值保存并保存其路径,所有步骤计算完毕后进行最优路径回溯。对t=T-1,T-2,...,1求得其最优路径I=(i1,i2,...,iT)
步骤5具体为:根据Viterbi解码求得的状态序列推断下一时刻可能的状态
在执行预测时使用公式PN=V[T-1][i-1]*tran[i-1][imax]*tran[imax][kN]来挑选出下一刻出现概率最大的隐状态,为了增加系统的可靠性,在此选择4个出现概率最大的隐状态。将这些隐状态即指令库添加到待识别列表里进而提高指令识别的准确率。
用Viterbi算法进行指令推理,包含以下几个步骤:
1.首先将指令库与模型中的标号进行映射,根据经验值对隐马尔可夫模型进行初始化,再使用人工构建的指令库集合训练出隐马尔可夫模型,即λ=(A,B,π)。
2.根据模型λ=(A,B,π)和o1进行初始化。构建二维数组V以存储每步的多个优选概率,利用初始概率π=(πi)进行初始化,将隐马尔可夫模型的初始值处理成序列的首值,此时数组保存第一步的概率值。
3.根据序列的初始值进行递推并保存相应的序列。新建数组path用于保存历史路径,利用递推公式来不断地更新二维数组V,并保存更新后的路径于path。
4.递推终止条件和最优路径回溯。待正向计算完所有的步骤后且将各步的优选值保存后。回溯最优路径并返回最优序列。
5.根据Viterbi解码求得的状态序列推断下一时刻可能的状态。在上一步的结果下进行下一时状态的预测,并将这些隐状态即指令库添加到待识别列表里进而提高指令识别的准确率,以满足实际的需求。

Claims (6)

1.一种基于Viterbi算法的确定指令的方法,其特征在于,包括以下步骤:
步骤一:将指令库与模型中的标号进行映射并利用指令库集合训练出模型;
步骤二:根据序列的实际情况将模型的初始值转换为Viterbi算法需要的首步值;
步骤三:根据首步的初始值进行递推并更新路径信息;
步骤四:递推终止并回溯最优路径;
步骤五:根据解码得到的状态序列推断下一刻的状态。
2.根据权利要求1所述的一种基于Viterbi算法的确定指令的方法,其特征在于:步骤一包括:
根据任务要求构建一个指令集合,此指令集合包含三个指令库,每个指令库包含该任务所有可能用到的指令;对隐马尔可夫模型进行初始化,即赋初值给π=(πi),其中π为初始概率矩阵,i为第i状态;
利用Baum-Welch算法对人工构建的指令集合进行训练,得到隐马尔可夫的模型λ=(A,B,π),其中A=[aij]N*N为状态转移概率矩阵,N是可能的状态数,aij为第i个状态转移到第j个状态的概率,B=[bj(k)]N*M为观测概率矩阵,M为是可能的观测数,加上一个具体的状态集合Q={q1,q2,q3,...,qN}和观测序列V={v1,v2,v3,...,vM},则构成了隐马尔可夫模型的五元组,即λ=(A,B,π,Q,V),其中Q对应指令库集合,qi(1<i<N)对应具体的指令库,N为指令库长度;V对应观测到的具体的指令集合,vj(1<j<M)对应具体的指令,M为具体的指令长度;
I=(i1,i2,...,iT)指令库顺序,是长度为T的状态序列;O=(o1,o2,...,oT)是对应的观测序列即具体的指令顺序,πi=P(i1=qi),i=1,2,...,N是时刻t=1处于状态qi的概率,aij=P(it+1=qj|it=qi),i=1,2...N;j=1,2,...,N是在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,bj(k)=P(ot=vk|it=qj),k=1,2...,M;j=1,2,...,N是在时刻t处于状态qj的条件下生成观测到的具体的指令集合V中的第k个指令vk的概率。
3.根据权利要求1所述的一种基于Viterbi算法的确定指令的方法,其特征在于:步骤二具体包括:
将步骤一得到的隐马尔可夫模型利用Viterbi进行解码:首先构建二维数组V用于存储每步的选择概率,利用初始概率π=(πi)对第一时刻状态为i的路径进行初始化,具体公式如下:
δ1(i)=πibi(o1),i=1,2,...,N。
4.根据权利要求1所述的一种基于Viterbi算法的确定指令的方法,其特征在于:步骤三具体包括:
以步骤二得到的序列初始值作为递推起点,利用公式进行递推,具体为:首先计算第一步所有可能值,设置一个中间变量Prob并赋予初值零,保留每一步的计算结果,并在此过程中选择前一状态的最优概率,并将此概率保存到数组V中;
新建二维数组path其中行数为状态的个数,列数为序列的长度,该数组保存历史的最优隐序列,在每步求解时均新建二维数组newpath,newpath的列数和维数与path相同,该数组保存当前步骤解的隐状态即指令库的序号,其初值来自于数组path,根据上一步计算的概率值确定当前的较优解,并以此修改path中的隐状态。
5.根据权利要求1所述的一种基于Viterbi算法的确定指令的方法,其特征在于:步骤四具体包括:
利用公式
Figure FDA0002232364600000022
求得T时刻最优概率:正向计算每一步的概率取出其优选值保存并保存其路径,所有步骤计算完毕后进行最优路径回溯,对t=T-1,T-2,...,1求得其最优路径I=(i1,i2,...,iT)。
6.根据权利要求1所述的一种基于Viterbi算法的确定指令的方法,其特征在于:步骤五具体包括:在执行预测时使用公式PN=V[T-1][i-1]*tran[i-1][imax]*tran[imax][kN]来挑选出下一刻出现概率最大的隐状态,将这些隐状态即指令库添加到待识别列表里。
CN201910971882.9A 2019-10-14 2019-10-14 一种基于Viterbi算法的确定指令的方法 Active CN110737268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910971882.9A CN110737268B (zh) 2019-10-14 2019-10-14 一种基于Viterbi算法的确定指令的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910971882.9A CN110737268B (zh) 2019-10-14 2019-10-14 一种基于Viterbi算法的确定指令的方法

Publications (2)

Publication Number Publication Date
CN110737268A true CN110737268A (zh) 2020-01-31
CN110737268B CN110737268B (zh) 2022-07-15

Family

ID=69270022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910971882.9A Active CN110737268B (zh) 2019-10-14 2019-10-14 一种基于Viterbi算法的确定指令的方法

Country Status (1)

Country Link
CN (1) CN110737268B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US20060235686A1 (en) * 2005-04-14 2006-10-19 Postech Foundation Speech recognition device
WO2010025460A1 (en) * 2008-08-29 2010-03-04 O3 Technologies, Llc System and method for speech-to-speech translation
US20110218804A1 (en) * 2010-03-02 2011-09-08 Kabushiki Kaisha Toshiba Speech processor, a speech processing method and a method of training a speech processor
CN102549578A (zh) * 2010-10-01 2012-07-04 松下电器产业株式会社 分类装置以及分类方法
CN103630147A (zh) * 2013-11-26 2014-03-12 哈尔滨工程大学 一种基于hmm的个人自主导航系统零速检测方法
WO2016172871A1 (zh) * 2015-04-29 2016-11-03 华侃如 基于循环神经网络的语音合成方法
CN106339322A (zh) * 2016-09-13 2017-01-18 哈尔滨工程大学 一种基于hmm‑aco的软件行为预测的方法
CN109086306A (zh) * 2018-06-22 2018-12-25 国网浙江省电力有限公司 基于混合隐马尔可夫模型的原子事件标签的提取方法
CN109961775A (zh) * 2017-12-15 2019-07-02 中国移动通信集团安徽有限公司 基于hmm模型的方言识别方法、装置、设备及介质
CN110149595A (zh) * 2019-05-10 2019-08-20 北京工业大学 一种基于hmm的异构网络用户行为预测方法
CN111553726A (zh) * 2020-04-22 2020-08-18 上海海事大学 一种基于hmm的刷单预测系统及方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US20060235686A1 (en) * 2005-04-14 2006-10-19 Postech Foundation Speech recognition device
WO2010025460A1 (en) * 2008-08-29 2010-03-04 O3 Technologies, Llc System and method for speech-to-speech translation
US20110218804A1 (en) * 2010-03-02 2011-09-08 Kabushiki Kaisha Toshiba Speech processor, a speech processing method and a method of training a speech processor
CN102549578A (zh) * 2010-10-01 2012-07-04 松下电器产业株式会社 分类装置以及分类方法
CN103630147A (zh) * 2013-11-26 2014-03-12 哈尔滨工程大学 一种基于hmm的个人自主导航系统零速检测方法
WO2016172871A1 (zh) * 2015-04-29 2016-11-03 华侃如 基于循环神经网络的语音合成方法
CN106339322A (zh) * 2016-09-13 2017-01-18 哈尔滨工程大学 一种基于hmm‑aco的软件行为预测的方法
CN109961775A (zh) * 2017-12-15 2019-07-02 中国移动通信集团安徽有限公司 基于hmm模型的方言识别方法、装置、设备及介质
CN109086306A (zh) * 2018-06-22 2018-12-25 国网浙江省电力有限公司 基于混合隐马尔可夫模型的原子事件标签的提取方法
CN110149595A (zh) * 2019-05-10 2019-08-20 北京工业大学 一种基于hmm的异构网络用户行为预测方法
CN111553726A (zh) * 2020-04-22 2020-08-18 上海海事大学 一种基于hmm的刷单预测系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MIWA HAYASHI,等: "Hidden Markov Models to identify pilot instrument scanning and attention patterns", 《IEEE》 *
张智,等: "室内机器人避碰路径规划", 《小型微型计算机系统》 *
陈哲怀,等: "标签同步解码算法及其在语音识别中的应用", 《计算机学报》 *

Also Published As

Publication number Publication date
CN110737268B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN111191934B (zh) 一种基于强化学习策略的多目标云工作流调度方法
Zhu et al. Deep reinforcement learning supervised autonomous exploration in office environments
CN110321666B (zh) 基于先验知识与dqn算法的多机器人路径规划方法
CN110378439B (zh) 基于Q-Learning算法的单机器人路径规划方法
Chades et al. MOMDPs: a solution for modelling adaptive management problems
CN109241291A (zh) 基于深度强化学习的知识图谱最优路径查询系统及其方法
CN109940614B (zh) 一种融合记忆机制的机械臂多场景快速运动规划方法
CN112434171A (zh) 一种基于强化学习的知识图谱推理补全方法及系统
CN113537365B (zh) 一种基于信息熵动态赋权的多任务学习自适应平衡方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN111191785B (zh) 用于命名实体识别的基于拓展搜索空间的结构搜索方法
CN109558898B (zh) 一种基于深度神经网络的高置信度的多选择学习方法
CN116306686B (zh) 一种多情绪指导的共情对话生成方法
CN115099606A (zh) 一种电网调度模型的训练方法及终端
CN113935489A (zh) 基于量子神经网络的变分量子模型tfq-vqa及其两级优化方法
CN114161419B (zh) 一种情景记忆引导的机器人操作技能高效学习方法
CN110737268B (zh) 一种基于Viterbi算法的确定指令的方法
CN116776950A (zh) 一种基于样本重放和知识蒸馏的终身学习方法
CN115796006A (zh) 一种基于woa-elm预测模型的新能源储能电站风速预测方法
CN114897274A (zh) 一种提升时间序列预测效果的方法和系统
Bertsekas Rollout algorithms and approximate dynamic programming for bayesian optimization and sequential estimation
CN113377884A (zh) 基于多智能体增强学习的事件语料库提纯方法
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
CN117689998B (zh) 非参数自适应的情绪识别模型、方法、系统和存储介质
Chen et al. Distributed continuous control with meta learning on robotic arms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant