CN108447477A - 一种基于自然语言理解的机器人控制方法 - Google Patents
一种基于自然语言理解的机器人控制方法 Download PDFInfo
- Publication number
- CN108447477A CN108447477A CN201810087480.8A CN201810087480A CN108447477A CN 108447477 A CN108447477 A CN 108447477A CN 201810087480 A CN201810087480 A CN 201810087480A CN 108447477 A CN108447477 A CN 108447477A
- Authority
- CN
- China
- Prior art keywords
- robot
- text message
- text
- natural language
- robot control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000012636 effector Substances 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 14
- 239000000463 material Substances 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 230000033001 locomotion Effects 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000036651 mood Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 244000144992 flock Species 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Manipulator (AREA)
Abstract
本发明提出了一种基于自然语言理解的机器人控制方法,包括步骤:(1)获取语音信号并转化为相应数字信号,而后通过动态时间规整算法将数字信号转换为相应的文本信息;(2)建立模型,对文本信息中所包含的关键信息与冗余信息进行匹配,并获取文本信息的分割结果,之后通过最大熵模型建立的分类器,对文本信息进行分类,并将分类结果中需要进一步转换的控制指令进行转换;(3)通过获取的机器人控制指令,将获得的机械臂末端执行器空间坐标反解为旋转关节的关节变量,控制机器人进行运动。
Description
技术领域
本发明属于机器人运动领域,特别涉及一种基于自然语言理解的机器人控制方法。
背景技术
随着机器人的智能性和灵活性越来越高,传统的机器人控制方式已经逐渐的无法满足智能机器人的需要。因此,寻找合适的机器人智能控制方式已经成为了目前的一项研究方向。通过智能控制方式,机器人只需要理解人类的意图,通过其本身的智能性来完成剩余的控制工作。
如今,随着计算机技术以及语音识别技术的发展,语音作为同计算机的交流方式之一,已经逐步的被人们所接受。而语音作为人与人之间的常用交流方式,相比鼠标、键盘,具有更强的便利性。因此,语音成为了目前被人们所研究的机器人智能控制方式之一。相比传统的机器人控制方式,通过语音控制机器人不仅更加便捷,在工作效率上也能得到提高,十分符合人们的需要。
目前,大多数的基于语音识别的机器人控制系统只能简单地识别一些诸如“前进”、“左转”、“停止”等的基本指令,即使有少部分的能实现连续语音识别的机器人控制系统,也只能识别固定模式的机器人控制指令,与所期望实现的机器人的智能语音控制相差甚远。
发明内容
本发明提出了一种基于自然语言理解的机器人控制方法。这个方法首先从用户对机器人下达的语音指令中读取出语音流,并将其转换为文本信息,而后将文本信息通过意图理解算法转换为机器人控制指令,最后通过机器人运动学变换实现机器人的控制。
本发明一种基于自然语言理解的机器人控制方法,包括如下步骤:
S1、获取及分析语音信号;
S2、用户意图理解;
S3、控制机器人运动。
进一步地,所述步骤S1包括以下步骤:
操作者通过麦克风发出一系列连续的语音指令,麦克风获取语音信号将其化为语音流,计算机接收语音流,并将其转换为计算机可处理的数字信号。语音信号数字化之后可以反映为一副波形图,直观的表示其数字特征,首先通过预滤波、采样、A/D转换、分帧、数据加窗、高频提升等步骤进行语音信号的预处理,由于得到的语音信号和参考模板长度不一,需要对处理好的语音信号进行规整,本发明采用了动态时间规整算法。
假设有两个时间序列Q和C,他们的长度分别是n和m:
Q=q1,q2,....,qi,qn
C=c1,c2,....,cj,cm
为了对齐这两个序列,需要构造一个n x m的矩阵网格,矩阵元素(i,j)表示qi和cj两个点的距离d(qi,cj)。这里采用欧式距离:
d(qi,cj)=(qi-cj)2
定义路径:W=w1,w2,....,wn表示两个序列的最短路径,因此有:
其中K为补偿参数,是用于对不同的长度的规整路径做补偿。
定义累积距离γ,从(0,0)点开始匹配这两个序列Q和C,每到一个点,之前所有的点计算的距离都会累加。到达终点(n,m)后,此距离γ(n,m)即为总距离,表示序列Q和C的相似度。
累积距离γ(i,j)可以按以下方式表示:
γ(i,j)=d(qi,cj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}
按照以上方法可以求得语音信号所符的参考模板,从而将该语音信号转换为文本信息。
进一步地,所述步骤S2包括以下步骤:
1)文本信息提取及分割
在用户意图理解的过程中,首要步骤是从文本信息中采集出与机器人控制指令所关联的文本片段。在一段文本信息中,既存在与机器人控制指令相关的关键文本信息,也存在对一段文本信息的理解无关的冗余信息。关键文本信息包括动作词、物品的名字、物品的属性、位置词等,而冗余信息则包括语气助词、无关字词等。因此有必要建立一个模型分别匹配这些关键信息和冗余信息。
在本发明中,对于某一段文本信息,建立的模型分别对此文本信息中的关键信息和冗余信息进行匹配,而后插入分割符对关键信息和冗余信息进行分割。
2)文本信息分类
得到文本分割的结果之后,需要建立自然语言指令和对应机器人控制指令之间的映射关系,这个过程可以看作是一个分类问题,本发明利用基于最大熵模型的分类器来解决。
本发明采用向量空间模型来表示文本特征。针对训练语料库,统计库中所有出现的词。假设某一语料文本中有N个词,那么该文本就可以表示为N维的特征向量。本发明利用TF‐IDF在分类之前进行特征向量加权。TF值是局部变量,IDF是全局变量。把全局和局部两方面结合给特征向量中的各项加权如公式:
TFi,j=ni,j/∑knk,j
IDFi=log(|D|/|{j:ti∈dj}|)
TFIDFi,j=TFi,j*IDFi
公式(1)中ni,j表示该语料文本中该词出现的次数∑knk,j表示该语料文本包含所有词的个数;公式(2)中l D I表示训练语料库中所有语料文本的个数,|{j:ti∈dj}|表示包含该词的语料文本的个数。
假设x为文本特征向量,对应的意图输出标签为Y(Y∈Y,Y is a finite set ofintent labels)。最大熵算法就是对条件概率P(y l x)进行建模,得到分布最均匀的模型,这是一个最优化求解问题。引入条件熵H(p)来衡量条件概率P(y l x)分布的均匀性,根据香农对熵的定义,H(p) 计算公式为:
其中,p(x)表示在训练数据库中文本特征向量的经验分布,P(y l x)为所要求解的模型中的条件概率分布。那么,求解最大熵模型的公式为公式(5):
p*=argmaxH(p)
接下来需要确定约束条件。给定一个训练数据库,文本特征向量集合记作{xi,i∈(1,N)},意图标签集合记作{yj,j∈(1,M)}。这样就可以统计“特征‐意图”二元组(x,y)的经验概率分布如公式(6):
其中,num(x,y)表示(x,y)在训练数据库中出现的次数,N表示训练数据库中样本总数。特征函数f(x,y)相对于经验条件概率分布p(x,y)的期望值如公式:
f(x,y)相对于模型条件概率分布P(y|x)的期望值如公式:
在训练数据库中,令两个期望值相同,即得到最大熵模型求解的约束条件如公式:
综上,最大熵的求解问题可以归纳为如下最优化问题如公式:
max H(p)
根据拉格朗日乘子算法,可以求解得到概率分布p*,在Kulback‐Leibler距离上是最接近经验概率分布p(x,y)的如公式:
公式中,p*为求解的最大熵概率分布,fi(x,y)为第i个特征函数,λi为(x,y)的权值, n为特征函数的个数,Z(x)为归一化因子。通过在训练数据库上的学习,可以得到参数λi的值,从而得到要求解的概率分布p*。为了求得参数λi,本发明采用GIS算法求解,这样就完成了最大熵模型的建立。
3)控制指令转换
根据最大熵模型得到的分类结果,可以将自然语言指令转换为相应机器人控制指令。在本发明中,通过引入3种属性变量(Vop,Vkey,Vval)来定义了机器人控制指令。
然而,纯粹通过自然语言指令转换为的机器人控制指令往往缺少控制机器人所需要的相关信息,因此需要对某些关键文本进行进一步的转换。
进一步地,所述步骤S3包括以下步骤:
通过上述步骤已经得到了机器人的控制指令,一般控制工业机械臂所需的运动参数为各个关节角的数值,而通过自然语言指令转换为的机器人控制指令所给出的参数为工业机械臂末端的空间坐标。因此,要实现对机器人的控制需要用到反解算法。
以六自由度机械臂基座为原点,垂直方向为z轴建立基坐标,通常一个六自由度机械臂的末端执行器相对于基座的总变换矩阵可表示为:
式中:为机械臂末端执行器在基坐标系中的位姿矩阵,[px,py,pz]T为机械臂末端执行器在基坐标系中的位置,[nx,ny,nz]T为机械臂末端执行器坐标系的x轴在基坐标系中的方向矢量,[ox,oy,oz]T为机械臂末端执行器坐标系的y轴在基坐标系中的方向矢量,[ax,ay,az]T为机械臂末端执行器坐标系的z轴在基坐标系中的方向矢量。
其中A1,A2,A3,A4,A5,A6分别表示每个关节对应的矩阵,分别可由对应的机器人的参数求得。
通过矩阵联立求解即可通过机械臂末端执行器的空间坐标求得旋转关节的关节变量。
与现有技术相比,本发明具有如下优点和技术效果:本发明提出了一种基于自然语言理解的机器人控制方法,这种方法实现了基于工业机器人的自然语言理解,使操作者无需理解机器人的运动学知识,也无需事先进行机器人控制的培训,即可对机器人进行智能语音控制。目前,大多数的基于语音识别的机器人控制系统只能简单地识别一些诸如“前进”、“左转”、“停止”等的基本指令,即使有少部分的能实现连续语音识别的机器人控制系统,也只能识别固定模式的机器人控制指令,与所期望实现的机器人的智能语音控制相差甚远。本发明的这个方法首先从用户对机器人下达的语音指令中读取出语音流,并将其转换为文本信息,而后将文本信息通过意图理解算法转换为机器人控制指令,最后通过机器人运动学变换实现了机器人的控制。
附图说明
图1是实施例中一种基于自然语言理解的机器人控制方法的流程图。
具体实施方式
下面结合实施例和附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。需指出的是,以下若有未特别详细说明之过程或者符号,均是本领域技术人员可参照现有技术实现或理解的。
实施例:
本实例的一种基于自然语言理解的机器人控制方法,如附图1所示,包括如下步骤:
S1、获取及分析语音信号;
S2、用户意图理解;
S3、控制机器人运动。
所述步骤S1包括以下步骤:
操作者通过麦克风发出一系列连续的语音指令,麦克风获取语音信号将其化为语音流,计算机接收语音流并将其转换为计算机可处理的数字信号。语音信号数字化之后可以反映为一副波形图,直观的表示其数字特征,首先通过预滤波、采样、A/D转换、分帧、数据加窗、高频提升等步骤进行语音信号的预处理,由于得到的语音信号和参考模板长度不一,需要对处理好的语音信号进行规整,本发明采用了动态时间规整算法。
假设有两个时间序列Q和C,他们的长度分别是n和m:
Q=q1,q2,....,qi,qn
C=c1,c2,....,cj,cm
为了对齐这两个序列,需要构造一个n x m的矩阵网格,矩阵元素(i,j)表示qi和cj两个点的距离d(qi,cj)。这里采用欧式距离:
d(qi,cj)=(qi-cj)2
定义路径:W=w1,w2,....,wn表示两个序列的最短路径,因此有:
其中K为补偿参数,是用于对不同的长度的规整路径做补偿。
定义累积距离γ,从(0,0)点开始匹配这两个序列Q和C,每到一个点,之前所有的点计算的距离都会累加。到达终点(n,m)后,此距离γ(n,m)即为总距离,表示序列Q和C的相似度。
累积距离γ(i,j)可以按以下方式表示:
γ(i,j)=d(qi,cj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}
按照以上方法可以求得语音信号所符的参考模板,从而将该语音信号转换为文本信息。
所述步骤S2包括以下步骤:
1)文本信息提取及分割
在用户意图理解的过程中,首要步骤是从文本信息中采集出与机器人控制指令所关联的文本片段。在一段文本信息中,既存在与机器人控制指令相关的关键文本信息,也存在对一段文本信息的理解无关的冗余信息。关键文本信息包括动作词、物品的名字、物品的属性、位置词等,而冗余信息则包括语气助词、无关字词等。因此有必要建立一个模型分别匹配这些关键信息和冗余信息。
在本发明中,对于某一段文本信息,通过建立的模型分别对此文本信息中的关键信息和冗余信息进行匹配,而后插入分割符对关键信息和冗余信息进行分割。
例如,对于一段文本信息“去抓这个红色的水壶吧”,将其中的文本片段与机器人控制指令库中的指令进行匹配,得到的关键文本为“抓”,“这个”,“红色的水壶”,得到冗余文本为“去”,“吧”。因此可以得到分割后的文本“去#抓#这个#红色的水壶#吧”。
2)文本信息分类
得到文本分割的结果之后,需要建立自然语言指令和对应机器人控制指令之间的映射关系,这个过程可以看作是一个分类问题,本发明利用基于最大熵模型的分类器来解决。
本发明采用向量空间模型来表示文本特征。针对训练语料库,统计库中所有出现的词。假设某一语料文本中有N个词,那么该文本就可以表示为N维的特征向量。本发明利用TF‐IDF在分类之前进行特征向量加权。TF值是局部变量,IDF是全局变量。把全局和局部两方面结合给特征向量中的各项加权如公式:
TFi,j=ni,j/∑knk,j
TFi,j=ni,j/∑knk,j
IDFi=log(|D|/|{j:ti∈dj}|)
TFIDFi,j=TFi,j*IDFi
公式(1)中ni,j表示该语料文本中该词出现的次数∑knk,j表示该语料文本包含所有词的个数;公式(2)中I D I表示训练语料库中所有语料文本的个数,|{j:ti∈dj}|表示包含该词的语料文本的个数。
假设x为文本特征向量,对应的意图输出标签为Y(Y∈Y,Y is a finite set ofintent labels)。最大熵算法就是对条件概率P(y l x)进行建模,得到分布最均匀的模型,这是一个最优化求解问题。引入条件熵H(p)来衡量条件概率P(y l x)分布的均匀性,根据香农对熵的定义,H(p) 计算公式为:
其中,p(x)表示在训练数据库中文本特征向量的经验分布,P(y l x)为所要求解的模型中的条件概率分布。那么,求解最大熵模型的公式为公式(5):
p*=argmaxH(p)
接下来需要确定约束条件。给定一个训练数据库,文本特征向量集合记作{xi,i∈(1,N)},意图标签集合记作{yj,j∈(1,M)}。这样就可以统计“特征‐意图”二元组(x,y)的经验概率分布如公式(6):
其中,num(x,y)表示(x,y)在训练数据库中出现的次数,N表示训练数据库中样本总数。特征函数f(x,y)相对于经验条件概率分布p(x,y)的期望值如公式:
f(x,y)相对于模型条件概率分布P(y|x)的期望值如公式:
在训练数据库中,令两个期望值相同,即得到最大熵模型求解的约束条件如公式:
综上,最大熵的求解问题可以归纳为如下最优化问题如公式:
max H(p)
根据拉格朗日乘子算法,可以求解得到概率分布p*,在Kulback‐Leibler距离上是最接近经验概率分布p(x,y)的如公式:
公式中,p*为求解的最大熵概率分布,fi(x,y)为第i个特征函数,λi为(x,y)的权值, n为特征函数的个数,Z(x)为归一化因子。通过在训练数据库上的学习,可以得到参数λi的值,从而得到要求解的概率分布p*。为了求得参数λi,本发明采用GIS算法求解,这样就完成了最大熵模型的建立。
3)控制指令转换
根据最大熵模型得到的分类结果,可以将自然语言指令转换为相应机器人控制指令。在本发明中,通过引入3种属性变量(Vop,Vkey,Vval)来定义了机器人控制指令,例如,想要让机器人执行抓取一个目标,则Vop=抓,Vkey=目标描述,Vval=目标位置。
然而,纯粹通过自然语言指令转换为的机器人控制指令往往缺少控制机器人所需要的相关信息。
例如,对于以上文本信息“去抓这个红色的水壶吧”,得到分割后的文本为“去#抓#这个#红色的水壶#吧”,而在机器人控制指令库中,所定义的抓取目标的控制指令标准格式为 Vop=抓取,Vkey=目标描述,Vval=目标位置,根据最大熵模型得到的分类结果,Vval=这个,显然无法满足控制机器人所需要的参数,因此需要对某些关键文本进行进一步的转换。
在以上实例中,Vop和Vkey两个元素可以直接得到,Vop=抓,Vkey=红色的水壶,而Vval为目标位置表述,无法通过关键文本“这个”直接获得,需要依赖外部软硬件设施,如通过传感器读取手指向的位置,并返回指定区域的坐标等,此部分不在本发明范畴之内,因此不在此进行详细描述。
最终,通过文本信息“去抓这个红色的水壶吧”,得到机器人控制指令Vop=抓,Vkey=红色的水壶,Vval=目标位置。
所述步骤S3包括以下步骤:
通过上述步骤已经得到了机器人的控制指令,一般控制工业机械臂所需的运动参数为各个关节角的数值,而通过自然语言指令转换为的机器人控制指令所给出的参数为工业机械臂末端的空间坐标。因此,要实现对机器人的控制需要用到反解算法。
以六自由度机械臂基座为原点,垂直方向为z轴建立基坐标,通常一个六自由度机械臂的末端执行器相对于基座的总变换矩阵可表示为:
式中:为机械臂末端执行器在基坐标系中的位姿矩阵,[px,py,pz]T为机械臂末端执行器在基坐标系中的位置,[nx,ny,nz]T为机械臂末端执行器坐标系的x轴在基坐标系中的方向矢量,[ox,oy,oz]T为机械臂末端执行器坐标系的y轴在基坐标系中的方向矢量,[ax,ay,az]T为机械臂末端执行器坐标系的z轴在基坐标系中的方向矢量。
其中A1,A2,A3,A4,A5,A6分别表示每个关节对应的矩阵,分别可由对应的机器人的参数求得。例如,对于DH参数如表1所示的机器人来说:
表1机器人的DH参数表
其中si,ci(i=1,2,3…)分别表示sinθi,cosθi,θ表示旋转关节的关节变量,d表示华东关节的关节变量。
由以上各式即可通过机械臂末端执行器的空间坐标求得θ1θ2…θ6。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于自然语言理解的机器人控制方法,其特征在于包括如下步骤:
S1、获取及分析语音信号:通过麦克风发出一系列连续的语音指令,麦克风将语音信号化为语音流,计算机接收语音流,并将语音流转换为计算机可处理的数字信号;
S2、用户意图理解,包括文本信息提取及分割、文本信息分类、控制指令转换;
S3、控制机器人运动,通过获取的机器人控制指令,将获得的机械臂末端执行器空间坐标反解为旋转关节的关节变量,控制机器人进行运动。
2.根据权利要求1所述的一种基于自然语言理解的机器人控制方法,其特征在于所述步骤S1中,语音信号数字化之后反映为一副波形图,直观的表示其数字特征,首先通过预滤波、采样、A/D转换、分帧、数据加窗、高频提升步骤进行语音信号的预处理,由于得到的语音信号和参考模板长度不一,需要对处理好的语音信号进行规整。
3.根据权利要求2所述的一种基于自然语言理解的机器人控制方法,其特征在于步骤S1所述规整采用了动态时间规整算法:
假设有两个时间序列Q和C,它们的长度分别是n和m,n、m为正整数:
Q=q1,q2,....,qi,qn
C=c1,c2,....,cj,cm;
为了对齐这两个序列,需要构造一个n x m的矩阵网格,矩阵元素(i,j)表示qi和cj两个点的距离d(qi,cj),i=1~n,j=1~m;采用欧式距离:
d(qi,cj)=(qi-cj)2
定义路径:W=w1,w2,....,wn表示两个序列的最短路径,因此有:
其中K为补偿参数,是用于对不同的长度的规整路径做补偿,k=1~K;
定义累积距离γ,从(0,0)点开始匹配这两个序列Q和C,每到一个点,之前所有的点计算的距离都会累加,到达终点(n,m)后,此距离γ(n,m)即为总距离,表示序列Q和C的相似度;
累积距离γ(i,j)能按以下方式表示:
γ(i,j)=d(qi,cj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}
按照以上过程求得语音信号所符的参考模板,从而将该语音信号转换为文本信息。
4.根据权利要求1所述的一种基于自然语言理解的机器人控制方法,其特征在于步骤S2所述文本信息提取及分割具体包括:
在用户意图理解的过程中,首要步骤是从文本信息中采集出与机器人控制指令所关联的文本片段;在一段文本信息中,既存在与机器人控制指令相关的关键文本信息,也存在对一段文本信息的理解无关的冗余信息;关键文本信息包括动作词、物品的名字、物品的属性、位置词,而冗余信息则包括语气助词、无关字词;通过建立模型分别匹配这些关键信息和冗余信息;对于一段文本信息,分别对此文本信息中的关键信息和冗余信息进行匹配,而后插入分割符对关键信息和冗余信息进行分割。
5.根据权利要求1所述的一种基于自然语言理解的机器人控制方法,其特征在于步骤S2所述文本信息分类具体包括:
得到文本分割的结果之后,需要建立自然语言指令和对应机器人控制指令之间的映射关系,这个过程能看作是一个分类问题,利用基于最大熵模型的分类器来解决;
采用向量空间模型来表示文本特征:针对训练语料库,统计库中所有出现的词;假设一语料文本中有N个词,那么该文本就表示为N维的特征向量;利用TF‐IDF在分类之前进行特征向量加权;
假设x为文本特征向量,对应的意图输出标签为Y;最大熵算法就是对条件概率P(ylx)进行建模,得到分布最均匀的模型,这是一个最优化求解问题;引入条件熵H(p)来衡量条件概率P(ylx)分布的均匀性,根据香农对熵的定义,H(p)计算公式为:
其中,p(x)表示在训练数据库中文本特征向量的经验分布,P(ylx)为所要求解的模型中的条件概率分布;那么,求解最大熵模型的公式为:
p*=arg max H(p)
接下来需要确定约束条件;给定一个训练数据库,文本特征向量集合记作{xi,i∈(1,N)},意图标签集合记作{yj,j∈(1,M)};这样就能统计“特征‐意图”二元组(x,y)的经验概率分布
其中,num(x,y)表示(x,y)在训练数据库中出现的次数,N表示训练数据库中样本总数;特征函数f(x,y)相对于经验条件概率分布p(x,y)的期望值如公式:
f(x,y)相对于模型条件概率分布P(y|x)的期望值如公式:
在训练数据库中,令两个期望值相同,即得到最大熵模型求解的约束条件如公式:
综上,最大熵的求解问题可以归纳为如下最优化问题如公式:
max H(p)
根据拉格朗日乘子算法,可以求解得到概率分布p*,在Kulback‐Leibler距离上是最接近经验概率分布p(x,y)的如公式:
公式中,p*为求解的最大熵概率分布,fi(x,y)为第i个特征函数,λi为(x,y)的权值,n为特征函数的个数,Z(x)为归一化因子;通过在训练数据库上的学习,可以得到参数λi的值,从而得到要求解的概率分布p*;为了求得参数λi,采用GIS算法求解,完成最大熵模型的建立。
6.根据权利要求1所述的一种基于自然语言理解的机器人控制方法,其特征在于步骤S2所述控制指令转换包括:
根据最大熵模型得到的分类结果,将自然语言指令转换为相应机器人控制指令;通过引入3种属性变量(Vop,Vkey,Vval)来定义了机器人控制指令。
7.根据权利要求1所述的一种基于自然语言理解的机器人控制方法,其特征在于所述步骤S3包括以下步骤:
通过已经得到了机器人的控制指令,控制工业机械臂所需的运动参数为各个关节角的数值,而通过自然语言指令转换为的机器人控制指令所给出的参数为工业机械臂末端的空间坐标;实现对机器人的控制需要用到反解算法:
以六自由度机械臂基座为原点,垂直方向为z轴建立基坐标,通常一个六自由度机械臂的末端执行器相对于基座的总变换矩阵可表示为:
式中:为机械臂末端执行器在基坐标系(x,y,z)中的位姿矩阵,[px,py,pz]T为机械臂末端执行器在基坐标系中的位置,[nx,ny,nz]T为机械臂末端执行器坐标系的x轴在基坐标系中的方向矢量,[ox,oy,oz]T为机械臂末端执行器坐标系的y轴在基坐标系中的方向矢量,[ax,ay,az]T为机械臂末端执行器坐标系的z轴在基坐标系中的方向矢量;
其中A1,A2,A3,A4,A5,A6分别表示每个关节对应的矩阵,分别可由对应的机器人的参数求得;
通过矩阵联立求解即可通过机械臂末端执行器的空间坐标求得旋转关节的关节变量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810087480.8A CN108447477A (zh) | 2018-01-30 | 2018-01-30 | 一种基于自然语言理解的机器人控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810087480.8A CN108447477A (zh) | 2018-01-30 | 2018-01-30 | 一种基于自然语言理解的机器人控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108447477A true CN108447477A (zh) | 2018-08-24 |
Family
ID=63191140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810087480.8A Pending CN108447477A (zh) | 2018-01-30 | 2018-01-30 | 一种基于自然语言理解的机器人控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108447477A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109699300A (zh) * | 2019-02-22 | 2019-05-03 | 四川农业大学 | 一种智能柑橘采摘机的控制系统及其控制方法 |
CN111267097A (zh) * | 2020-01-20 | 2020-06-12 | 杭州电子科技大学 | 基于自然语言的工业机器人辅助编程方法 |
CN111429888A (zh) * | 2020-05-12 | 2020-07-17 | 珠海格力智能装备有限公司 | 机器人的控制方法及装置、存储介质和处理器 |
CN112257434A (zh) * | 2019-07-02 | 2021-01-22 | Tcl集团股份有限公司 | 一种无人机控制方法、系统、移动终端及存储介质 |
CN112936281A (zh) * | 2021-03-05 | 2021-06-11 | 上海节卡机器人科技有限公司 | 一种机器人控制方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1797543A (zh) * | 2004-12-23 | 2006-07-05 | 上海电气自动化设计研究所有限公司 | 具有语音指令识别能力的工业机器人的装置及方法 |
CN102298443A (zh) * | 2011-06-24 | 2011-12-28 | 华南理工大学 | 结合视频通道的智能家居语音控制系统及其控制方法 |
CN102722241A (zh) * | 2012-05-21 | 2012-10-10 | 楼军 | 网络机器人 |
CN104965426A (zh) * | 2015-06-24 | 2015-10-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能机器人控制系统、方法和装置 |
CN106095109A (zh) * | 2016-06-20 | 2016-11-09 | 华南理工大学 | 基于手势和语音进行机器人在线示教的方法 |
CN106125925A (zh) * | 2016-06-20 | 2016-11-16 | 华南理工大学 | 基于手势和语音控制的智能抓捕方法 |
CN107351058A (zh) * | 2017-06-08 | 2017-11-17 | 华南理工大学 | 基于增强现实的机器人示教方法 |
-
2018
- 2018-01-30 CN CN201810087480.8A patent/CN108447477A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1797543A (zh) * | 2004-12-23 | 2006-07-05 | 上海电气自动化设计研究所有限公司 | 具有语音指令识别能力的工业机器人的装置及方法 |
CN102298443A (zh) * | 2011-06-24 | 2011-12-28 | 华南理工大学 | 结合视频通道的智能家居语音控制系统及其控制方法 |
CN102722241A (zh) * | 2012-05-21 | 2012-10-10 | 楼军 | 网络机器人 |
CN104965426A (zh) * | 2015-06-24 | 2015-10-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能机器人控制系统、方法和装置 |
CN106095109A (zh) * | 2016-06-20 | 2016-11-09 | 华南理工大学 | 基于手势和语音进行机器人在线示教的方法 |
CN106125925A (zh) * | 2016-06-20 | 2016-11-16 | 华南理工大学 | 基于手势和语音控制的智能抓捕方法 |
CN107351058A (zh) * | 2017-06-08 | 2017-11-17 | 华南理工大学 | 基于增强现实的机器人示教方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109699300A (zh) * | 2019-02-22 | 2019-05-03 | 四川农业大学 | 一种智能柑橘采摘机的控制系统及其控制方法 |
CN109699300B (zh) * | 2019-02-22 | 2022-02-15 | 四川农业大学 | 一种智能柑橘采摘机的控制系统及其控制方法 |
CN112257434A (zh) * | 2019-07-02 | 2021-01-22 | Tcl集团股份有限公司 | 一种无人机控制方法、系统、移动终端及存储介质 |
CN112257434B (zh) * | 2019-07-02 | 2023-09-08 | Tcl科技集团股份有限公司 | 一种无人机控制方法、系统、移动终端及存储介质 |
CN111267097A (zh) * | 2020-01-20 | 2020-06-12 | 杭州电子科技大学 | 基于自然语言的工业机器人辅助编程方法 |
CN111267097B (zh) * | 2020-01-20 | 2021-03-02 | 杭州电子科技大学 | 基于自然语言的工业机器人辅助编程方法 |
CN111429888A (zh) * | 2020-05-12 | 2020-07-17 | 珠海格力智能装备有限公司 | 机器人的控制方法及装置、存储介质和处理器 |
CN112936281A (zh) * | 2021-03-05 | 2021-06-11 | 上海节卡机器人科技有限公司 | 一种机器人控制方法及装置 |
CN112936281B (zh) * | 2021-03-05 | 2023-09-26 | 节卡机器人股份有限公司 | 一种机器人控制方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447477A (zh) | 一种基于自然语言理解的机器人控制方法 | |
Li et al. | Differential evolution with an evolution path: A DEEP evolutionary algorithm | |
CN106125925B (zh) | 基于手势和语音控制的智能抓捕方法 | |
WO2022000802A1 (zh) | 深度学习模型的适配方法、装置及电子设备 | |
US20220036231A1 (en) | Method and device for processing quantum data | |
WO1982003705A1 (en) | Method of forming curved surface | |
CN113379399B (zh) | 一种基于状态转移概率模型的rpa组件推荐方法 | |
CN104504406B (zh) | 一种快速高效的近似重复图像匹配方法 | |
CN113192112A (zh) | 一种基于学习采样的部分对应点云配准方法 | |
Li et al. | Repformer: Refinement pyramid transformer for robust facial landmark detection | |
CN114743031A (zh) | 一种用户动作与标准动作的对比方法 | |
Sheng et al. | A rapid virtual assembly approach for 3D models of production line equipment based on the smart recognition of assembly features | |
Sui et al. | Genetic algorithm for solving the inverse kinematics problem for general 6r robots | |
Zhai et al. | DA $^{2} $ Dataset: Toward Dexterity-Aware Dual-Arm Grasping | |
Ikram et al. | Real time hand gesture recognition using leap motion controller based on CNN-SVM architechture | |
Contreras Alejo et al. | Recognition of a single dynamic gesture with the segmentation technique hs-ab and principle components analysis (pca) | |
CN110633756A (zh) | 烹饪设备的菜谱生成方法、系统、设备和介质 | |
CN112819172B (zh) | 一种基于表函数的量子计算模拟方法和系统 | |
JP2019197084A (ja) | 手話cg翻訳編集装置及びプログラム | |
Tengfei et al. | Conceptual design and workspace analysis of an Exechon-inspired parallel kinematic machine | |
Weiming et al. | Real-time virtual UR5 robot imitation of human motion based on 3D camera | |
Yang et al. | Cloud-edge-device collaboration mechanisms of cloud manufacturing for customized and personalized products | |
Kale et al. | Kernel machines for uncalibrated visual servoing of robots | |
CN103810242A (zh) | 创新经纬网及文献位置自动识别系统及方法 | |
Yin et al. | A novel image retrieval method for image based localization in large-scale environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180824 |
|
RJ01 | Rejection of invention patent application after publication |