CN113276113A - 一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法 - Google Patents

一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法 Download PDF

Info

Publication number
CN113276113A
CN113276113A CN202110539566.1A CN202110539566A CN113276113A CN 113276113 A CN113276113 A CN 113276113A CN 202110539566 A CN202110539566 A CN 202110539566A CN 113276113 A CN113276113 A CN 113276113A
Authority
CN
China
Prior art keywords
module
image
space
space manipulator
decoding result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110539566.1A
Other languages
English (en)
Inventor
曲思霖
王从庆
展文豪
李建亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110539566.1A priority Critical patent/CN113276113A/zh
Publication of CN113276113A publication Critical patent/CN113276113A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/164Adaptation or special uses of UDP protocol
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开了一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法,系统包括:图形用户模块、目标定位模块、语音信号采集模块、模式识别模块和控制模块;方法具体为:当操作者注视Unity环境中构建的虚拟太空环境下空间机械臂末端所在的矩形块时,固定在屏幕上方的照相机拍摄操作者照片,解码空间机械臂末端所在位置;操作者注视目标位置,采用相同方法解码目标位置所在的矩形块;用电脑自带的麦克风采集四类语音信号并解码,将解码结果通过UDP网络通信传入构建的Unity环境中,转换为控制信号,控制虚拟太空环境中的空间机械臂移动至目标位置。本发明能够实现空间机械臂在轨操作,达到较好的人‑机交互效果。

Description

一种面向空间机械臂在轨操作的视线定位和语音控制系统及 方法
技术领域
本发明涉及人机交互智能控制技术领域,尤其是一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法。
背景技术
空间站作为航天站,是一种放置在太空中、固定在轨道上长期运行的巨型卫星,以载人从事各种太空活动,形成多用途航天中心。在实际运行中,空间站可以和多个航天器进行同时对接,形成大型轨道联合体。空间站的多种优势除了用于科学实验,还被应用在军事领域中,具有独特的军事应用功能,空间机器臂对于空间站的正常运行起着巨大的作用。
早期的空间站舱外空间机械臂控制通过键盘、按钮和示教盒进行的,操作复杂,只能完成简单任务。近几年,人机交互应用于国际空间站在轨操作,人机交互技术的研究核心是利用新型交互逻辑实现人体行为机能增强,建立异源多模态的人机交互范式,实现人与装备之间智能、自然的人机交互能力,建立一体化协同的信息流通机制。北京空间飞行器总体设计部研究人员提出了一种在轨人机交互系统。该系统的体系构架主要包括传感层、感知层和行为层三部分,感知层中有多源传感器能实时获取有效的视觉、听觉等多模态信息,感知层能进行各种特征分类、挖掘等复杂的运算,行为层则利用输入的指令直接驱动机器臂末端执行机构执行各项空间任务。
发明内容
本发明所要解决的技术问题在于,提供一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法,消除了航天员由于在空间失重环境下身体不便或环境受限等原因在与空间机械臂进行交互时遇到的输入障碍,具有较高的控制可靠性。
为解决上述技术问题,本发明提供一种面向空间机械臂在轨操作的视线定位和语音控制系统,包括:图形用户模块、目标定位模块、语音信号采集模块、模式识别模块和控制模块;其中,图形用户模块用于用户操作选择及显示解码结果,目标定位模块用于定位操作者注视矩形块位置,语音信号采集模块用于采集四类语音信号,模式识别模块用于识别语音信号,控制模块将四类语音信号的解码结果通过UDP网络通信传入构建的Unity环境中,转换为控制信号,控制太空环境中的空间机械臂移动。
优选的,图形用户模块包括按键接口模块和解码结果显示模块,当操作者点击按键接口模块中的拍照按键时,opencv调用摄像头对操作者拍照;当操作者点击按键接口模块中的定位按键时,解码结果显示模块显示注视矩形块序号;当操作者点击按键接口模块中的录音时,利用电脑自带的麦克风采集语音信号;当操作者点击按键接口模块中的动作时,解码结果显示模块显示语音信号的解码结果。
优选的,目标定位模块包括图像采集模块、图像处理模块和图像识别模块,操作者注视机械臂初始位置或目标位置矩形块时,利用图像采集模块拍摄受试者人脸图像;图像处理模块利用opencv中的人眼识别分类器识别左、右眼图像,利用双线性插值原理使图像大小为130*130像素,将图像进行灰度和直方图均衡化处理;图像识别模块采用卷积神经网络和高斯过程回归得到注视矩形块序号。
优选的,语音信号采集模块利用电脑自带的麦克风采集语音信号,每次采集时间持续1s,采集频率为16kHz。
优选的,模式识别模块识别语音信号采集模块采集的语音信号,提取梅尔倒谱系数作为特征,采用循环神经网络进行分类,得到解码结果。
优选的,控制模块包括Unity搭建的环境、空间机械臂模型和UDP网络通信,用Unity 3d平台搭建空间机械臂模型;利用UDP网络通信将模式识别模块得到的解码结果传递给Unity 3d平台,控制空间机械臂的中臂和大臂顺时针或逆时针运动。
相应的,一种面向空间机械臂在轨操作的视线定位和语音控制系统的控制方法,包括如下步骤:
S1、在Unity 3d平台中搭建一个空间机械臂,操作者注视空间机械臂初始位置,点击图形用户界面的拍照按键,操作者脸部图像,点击图形用户界面的定位按键,获取初始位置矩形块的序号,显示在屏幕上;受试者注视目标位置,点击图形用户界面的拍照按键,受试者脸部图像,点击图形用户界面的定位按键,获取目标位置矩形块的序号,显示在屏幕上;
S2、当初始位置矩形块的序号与目标位置矩形块的序号不同时,点击图形用户界面的录音按键,采集语音信号;
S3、点击图形用户界面的动作按键,提取语音信号特征,将解码结果显示在屏幕上,并将解码结果利用UDP网络通信发送到电脑中,Unity 3d读取解码结果,控制空间机械臂运动;
S4、观察空间机械臂是否到达目标位置,若到达,则结束操作,若未到达,则返回步骤S2,直到空间机械臂到达目标位置。
优选的,步骤S1具体包括以下步骤:
S11、将电脑屏幕平均分为16×9块矩形,每块矩形标有序号且大小相同,为3.32×3.32cm2,以1号矩形块的左上角为坐标原点,计算每块矩形块左上角坐标;
S12、操作者注视空间机械臂末端的初始位置所在矩形,调用opencv中的摄像机拍摄操作者脸部图像,用opencv中的基于haar特征的级联boosted左、右眼分类器截取左、右眼图像;利用双线性插值原理使图像大小为130*130像素,将图像进行灰度和直方图均衡化处理;将处理后的图像输入卷积神经网络中,将左右眼图像得到的坐标,输入高斯过程回归,得到操作者注视矩形坐标,计算矩形块序号;
S13、操作者注视空间机械臂末端的目标位置所在矩形块,调用opencv中的摄像机拍摄操作者脸部图像,用opencv中的基于haar特征的级联boosted左、右眼分类器截取左、右眼图像;利用双线性插值原理使图像大小为130*130像素,将图像进行灰度和直方图均衡化处理;将处理后的图像输入卷积神经网络中,将左右眼图像得到的坐标,输入高斯过程回归,得到操作者注视矩形坐标,计算矩形块序号,判断初始位置矩形块与目标位置矩形块的相对位置,规划空间机器臂运动路径。
优选的,步骤S2具体为:用麦克风采集语音信号,生成wav格式语音文件,采集时间为1s,采集频率为16kHz,音频声道数为2。
优选的,步骤S3具体包括以下步骤:
S31、将语音信号预加重、分帧、加窗后提取梅尔倒谱系数作为特征,将梅尔倒谱系数特征用主成分分析方法降维,采用循环神经网络对提取的特征进行分类,得到语音信号的解码结果;
S32、利用UDP网络通信将解码结果发送到本机地址,Unity 3d从本机接收解码结果,将其作为控制信号控制空间机械臂中臂或大臂顺时针或逆时针运动。
本发明的有益效果为:本发明通过采集航天员的生物信息(眼睛图像、语音信号)控制空间机械臂在轨移动至目标位置;语音信号提取梅尔倒谱系数特征,采用循环神经网络进行分类,移动空间机械臂到达指定位置,该方法将眼睛图像和语音等生物信息融合,通过神经解码,实现航天员在轨操作空间机械臂,提高航天员在失重太空操作空间机械臂的稳定性与可靠性;本发明针对航天员在太空中失重的情况,采用通过生物信息控制太空环境下的空间机械臂移动的方法完成移动到指定位置的任务,达到较好的人-机交互效果。
附图说明
图1为本发明的方法流程示意图。
图2为本发明图形用户界面示意图。
图3为本发明目标定位模块屏幕矩形块分割示意图。
图4为本发明目标定位模块人眼检测Haar-like特征示意图。
图5为本发明目标定位模块Haar-like特征积分示意图。
图6为本发明目标定位模块双线性插值示意图。
图7为本发明目标定位模块示意图。
图8为本发明目标定位模块卷积神经网络示意图。
图9为本发明模式识别模块示意图。
图10为本发明模式识别模块循环神经网络示意图。
具体实施方式
如图1所示,一种面向空间机械臂在轨操作的视线定位和语音控制系统,包括:图形用户模块、目标定位模块、语音信号采集模块、模式识别模块和控制模块,其中,图形用户模块用于用户操作选择及显示解码结果,目标定位模块用于定位操作者注视矩形块位置,语音信号采集模块用于采集四类语音信号,四类语音信号包括left、right、down、up,控制模块将四类语音信号的解码结果通过UDP网络通信传入构建的Unity环境中,转换为控制信号,控制三维仿真环境中的空间机械臂运动。
用Unity 3d平台搭建虚拟空间机械臂,受试者注视空间机械臂初始位置,点击图形用户界面的拍照按键,受试者脸部图像,点击图形用户界面的定位按键,获取初始位置矩形块的序号,显示在屏幕上;受试者注视目标位置,点击图形用户界面的拍照按键,受试者脸部图像,点击图形用户界面的定位按键,获取目标位置矩形块的序号,显示在屏幕上;语音信号利用电脑自带的麦克风采集,每次采集时间持续1s,采集频率为16kHz音频声道数为2;语音信号,提取梅尔倒谱系数作为特征,并用主成分分析方法降维,采用循环神经网络进行解码,得到解码结果;利用UDP网络通信将解码结果传递给Unity3d平台,控制空间机械臂移动至目标位置。
如图2所示,一种面向空间机械臂在轨操作的视线定位及语音控制方法,包括以下步骤:
S1、在Unity 3d平台中搭建一个三维空间机械臂仿真模型,操作者注视空间机械臂初始位置,点击图形用户界面的拍照按键,操作者脸部图像,点击图形用户界面的定位按键,获取初始位置矩形块的序号,显示在屏幕上;操作者注视目标位置,点击图形用户界面的拍照按键,操作者脸部图像,点击图形用户界面的定位按键,获取目标位置矩形块的序号,显示在屏幕上。具体的:
S11、将电脑屏幕平均分为16×9块矩形,每块矩形标有序号且大小相同,为3.32×3.32cm2,以1号矩形块的左上角为坐标原点,计算每块矩形块左上角坐标,如图3所示。
S12、操作者注视空间机械臂末端的初始位置所在矩形,调用opencv中的摄像机拍摄操作者脸部图像,用opencv中的基于haar特征的级联boosted左、右眼分类器截取左、右眼图像;Haar-like特征是一些可以用来表示边缘、线性或者特定方向分布的黑白相间的矩形块。用Haar-like特征可以描述人眼的特征,当某个特征通过了所有分类器的筛选时,可判定该区域为人眼区域。基于haar特征的Adboost截取人眼图像步骤如下:
1)计算特征值:
F=Σpw-Σpb
Haar-like特征图如图4所示,其中,pw表示白色矩形块的像素值,pb表示黑色矩形块的像素值。
2)为了简化特征值的计算过程,引入积分图的概念,如图5所示:
Figure BDA0003068699410000051
Figure BDA0003068699410000052
其中,p(x,y)表示坐标为(x,y)点的像素值。xA、xF、xc、xE、xB、xD分别为A、F、C、E、B、D点的横坐标,yA、yF、yc、yE、yB、yD分别为A、F、C、E、B、D点的纵坐标
3)使用AdaBoost算法训练区分人脸和非人脸的强分类器,方法如下:
(a)给定训练样本集S{(x1,y1),(x2,y2),...,(xn,yn)},其中yi∈{0,1},yi=0代表负样本(非人眼),yi=1代表正样本(人眼),n为样本总数
(b)初始化样本权重为
Figure BDA0003068699410000061
(c)归一化权重为
Figure BDA0003068699410000062
其中wt,i表示第t轮训练中第i个样本的权重
在当前样本权重下,训练每一个矩形特征所对应的弱分类器hj,计算hj对应的加权错误率εj
Figure BDA0003068699410000063
其中wt,i表示第t轮训练中第i个样本的权重,hj(xi)表示第j个弱分类器对第i训练样本的判断输出值。选出具有最小加权错误率的弱分类器即为此论训练得到的最佳弱分类器;
更新样本权重为
Figure BDA0003068699410000064
其中βt=εt/(1-εt),第i个样本正确分类ei=0,第i个样本错误分类ei=1;
(d)得到强分类器:
Figure BDA0003068699410000065
利用多级强分类器级联筛选并截取人眼部分。
利用双线性插值原理使图像大小为130*130像素,双线性插值原理如下:
如图6所示。利用周围点的像素值计算中心点像素值,达到扩大图片大小的目的。
Figure BDA0003068699410000066
Figure BDA0003068699410000067
Figure BDA0003068699410000068
其中,Q11,Q12,Q21,Q22,R1,R2,P分别代表对应坐标下的像素值。
将图像进行灰度和直方图均衡化处理:
Gray=0.299*R+0.587*G+0.114*B
其中,R表示R通道的像素值,G表示G通道的像素值,B表示B通道的像素值,Gray表示图片的灰度值。
灰度直方图是灰度级的函数,反映的是图像中具有该灰度级像素的个数,横坐标是灰度级,纵坐标是该灰度级出现的频率(即像素的个数),灰度直方图描述的是图像灰度级的分布情况。为了增加图像灰度的动态范围,提高图像的对比度,将直方图均衡化。
将均衡后的图像灰度值标准化:
Figure BDA0003068699410000071
其中,z表示标准化后的灰度值,x表示均衡化后灰度值,μ表示灰度值均值,σ表示灰度值方差。
将处理后的标准化灰度值输入卷积神经网络(CNN)中,卷积神经网络如图8所示。将左右眼图像得到的坐标,输入高斯过程回归(GPR),得到操作者注视矩形坐标,计算矩形块序号。如图7所示。
高斯过程回归选择径向基核计算协方差。
Figure BDA0003068699410000072
其中,xi和xj表示第i个和第j个样本,Ki,j表示xi和xj之间的协方差方程,α设置为0.1,l为长度尺度,设为0.5。
S13、操作者注视空间机械臂末端的目标位置所在矩形块,调用opencv中的摄像机拍摄操作者脸部图像,用opencv中的基于haar特征的级联boosted左、右眼分类器截取左、右眼图像;利用双线性插值原理使图像大小为130*130像素,将图像进行灰度和直方图均衡化处理;将处理后的图像输入卷积神经网络中,将左右眼图像得到的坐标,输入高斯过程回归,得到操作者注视矩形坐标,计算矩形块序号,判断初始位置矩形块与目标位置矩形块的相对位置,规划空间机器臂行动路线。目标定位模块卷积神经网络示意图如图4所示。
S2、当初始位置矩形块的序号与目标位置矩形块的序号不同时,点击图形用户界面的录音按键,采集语音信号;
S21、用麦克风采集语音信号,生成wav格式语音文件,采集时间为1s,采集频率为16kHz,音频声道数为2;
S3、点击图形用户界面的动作按键,提取语音信号特征,得到解码结果,语音信号识别过程如图9所示。将解码结果显示在屏幕上,并将解码结果利用UDP网络通信发送到电脑中,Unity 3d读取解码结果,控制三维虚拟环境中的空间机械臂运动;
S31、读取语音信号文件,将语音信号预加重、分帧、加汉明窗后提取梅尔倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)作为特征,将语音信号提取的梅尔倒谱系数特征用主成分分析方法(Principle Component Analysis,PCA)降维,每帧选取12个主要成分。
将400个采样点集合成一个观测单位,称为帧,为了避免相邻两帧的变化过大,两相邻帧之间取240个重复的取样点,将语音信号分为了98帧。将每一帧上加上汉明窗,增加帧左端和右端的连续性。汉明窗的公式如下:
Figure BDA0003068699410000081
其中,a取0.46,N为采样点个数。
分帧后的信号为S(n),则加汉明窗后的信号为:
S′(n)=S(n)×W(n,a);
将分帧信号经过快速傅里叶变换得到频谱上的能量分布:
Figure BDA0003068699410000082
将经过快速傅里叶变换的信号取绝对值的平方得到语音信号的能量谱。将能量谱通过一组有40个三角形滤波器的滤波器组。
第m个三角滤波器的频率响应定义为:
Figure BDA0003068699410000083
其中,f(m)表示第m个三角滤波器的中心频率,
Figure BDA0003068699410000084
第m个滤波器对分帧信号进行滤波后得到的能量值为:
Figure BDA0003068699410000091
三角带通滤波器对频谱进行平滑化,并消除谐波的作用,突显语音信号的共振峰。
将得到的能量值进行离散余弦变换(Discrete Cosine Transform,DCT),得到梅尔倒谱系数:
Figure BDA0003068699410000092
其中,L为梅尔倒谱系数的阶数,取12。M为三角滤波器的个数,取40。
S32、采用循环神经网络对语音信号提取的特征进行解码,得到解码结果,循环神经网络(RNN)结构如图10所示。
S32、利用UDP网络通信将解码结果发送到本机地址,Unity 3d从本机接收解码结果,将其作为控制信号控制三维虚拟环境中的空间机械臂运动。如表1所示,当语音信号为left时,空间机械臂小臂逆时针转动;当语音信号为right时,空间机械臂小臂顺时针转动;当语音信号为down时,空间机械臂中臂逆时针转动;当语音信号为up时,空间机械臂中臂顺时针运动。
表1控制指令与空间机械臂动作对应关系
Figure BDA0003068699410000093
S4、观察三维虚拟仿真环境中空间机械臂是否到达目标位置,若到达,则结束操作,若未到达,则返回步骤S2,直到空间机械臂到达目标位置;
综上,操作者利用图形用户界面完成移动空间机械臂达到目标位置的任务,操作者注视初始位置,当点击拍照按键时,拍摄操作者脸部图像,点击定位按键,获取初始位置矩形块的序号,显示在屏幕上;操作者注视目标位置,点击拍照按键,拍摄操作者脸部图像,点击定位按键,获取目标位置矩形块的序号,显示在屏幕上。点击录音按键,用电脑自带的麦克风采集语音信号;点击动作按键,模式识别模块解码四类语音信号(left、right、down、up)结果;控制模块将语音信号的解码结果通过UDP网络通信传入构建的Unity环境中,转换为控制信号,控制虚拟仿真环境中的空间机械臂移动至目标位置。本发明针对航天员在太空中失重的情况,采用通过生物信息控制太空环境下的空间机械臂移动的方法完成移动至目标位置的任务,达到较好的人-机交互效果。
本发明将视线跟踪技术与语音识别技术应用到失重环境下空间机械臂的末端定位与姿态控制。视线跟踪与语音控制摆脱了对肢体动作的要求,突破了依赖航天员操作鼠标键盘、操作杆等传统手动控制的局限性,消除了由于在空间失重环境下身体不便或环境受限等原因在与空间机械臂进行交互时遇到的输入障碍,实现双向多模态人机交互,完成空间机械臂在太空捕获失效的卫星、或完成空间站装备作业,增强我国在太空领域的优势。

Claims (10)

1.一种面向空间机械臂在轨操作的视线定位和语音控制系统,其特征在于,包括:图形用户模块、目标定位模块、语音信号采集模块、模式识别模块和控制模块;其中,图形用户模块用于用户操作选择及显示解码结果,目标定位模块用于定位操作者注视矩形块位置,语音信号采集模块用于采集四类语音信号,模式识别模块用于识别语音信号,控制模块将四类语音信号的解码结果通过UDP网络通信传入构建的Unity环境中,转换为控制信号,控制太空环境中的空间机械臂移动。
2.如权利要求1所述的面向空间机械臂在轨操作的视线定位和语音控制系统,其特征在于,图形用户模块包括按键接口模块和解码结果显示模块,当操作者点击按键接口模块中的拍照按键时,opencv调用摄像头对操作者拍照;当操作者点击按键接口模块中的定位按键时,解码结果显示模块显示注视矩形块序号;当操作者点击按键接口模块中的录音时,利用电脑自带的麦克风采集语音信号;当操作者点击按键接口模块中的动作时,解码结果显示模块显示语音信号的解码结果。
3.如权利要求1所述的面向空间机械臂在轨操作的视线定位和语音控制系统,其特征在于,目标定位模块包括图像采集模块、图像处理模块和图像识别模块,操作者注视机械臂初始位置或目标位置矩形块时,利用图像采集模块拍摄受试者人脸图像;图像处理模块利用opencv中的人眼识别分类器识别左、右眼图像,利用双线性插值原理使图像大小为130*130像素,将图像进行灰度和直方图均衡化处理;图像识别模块采用卷积神经网络和高斯过程回归得到注视矩形块序号。
4.如权利要求1所述的面向空间机械臂在轨操作的视线定位和语音控制系统,其特征在于,语音信号采集模块利用电脑自带的麦克风采集语音信号,每次采集时间持续1s,采集频率为16kHz。
5.如权利要求1所述的面向空间机械臂在轨操作的视线定位和语音控制系统,其特征在于,模式识别模块识别语音信号采集模块采集的语音信号,提取梅尔倒谱系数作为特征,采用循环神经网络进行分类,得到解码结果。
6.如权利要求1所述的面向空间机械臂在轨操作的视线定位和语音控制系统,其特征在于,控制模块包括Unity搭建的环境、空间机械臂模型和UDP网络通信,用Unity 3d平台搭建空间机械臂模型;利用UDP网络通信将模式识别模块得到的解码结果传递给Unity 3d平台,控制空间机械臂的中臂和大臂顺时针或逆时针运动。
7.一种面向空间机械臂在轨操作的视线定位和语音控制系统的控制方法,其特征在于,包括如下步骤:
S1、在Unity 3d平台中搭建一个空间机械臂,操作者注视空间机械臂初始位置,点击图形用户界面的拍照按键,操作者脸部图像,点击图形用户界面的定位按键,获取初始位置矩形块的序号,显示在屏幕上;受试者注视目标位置,点击图形用户界面的拍照按键,受试者脸部图像,点击图形用户界面的定位按键,获取目标位置矩形块的序号,显示在屏幕上;
S2、当初始位置矩形块的序号与目标位置矩形块的序号不同时,点击图形用户界面的录音按键,采集语音信号;
S3、点击图形用户界面的动作按键,提取语音信号特征,将解码结果显示在屏幕上,并将解码结果利用UDP网络通信发送到电脑中,Unity 3d读取解码结果,控制空间机械臂运动;
S4、观察空间机械臂是否到达目标位置,若到达,则结束操作,若未到达,则返回步骤S2,直到空间机械臂到达目标位置。
8.如权利要求7所述的面向空间机械臂在轨操作的视线定位和语音控制系统的控制方法,其特征在于,步骤S1具体包括以下步骤:
S11、将电脑屏幕平均分为16×9块矩形,每块矩形标有序号且大小相同,为3.32×3.32cm2,以1号矩形块的左上角为坐标原点,计算每块矩形块左上角坐标;
S12、操作者注视空间机械臂末端的初始位置所在矩形,调用opencv中的摄像机拍摄操作者脸部图像,用opencv中的基于haar特征的级联boosted左、右眼分类器截取左、右眼图像;利用双线性插值原理使图像大小为130*130像素,将图像进行灰度和直方图均衡化处理;将处理后的图像输入卷积神经网络中,将左右眼图像得到的坐标,输入高斯过程回归,得到操作者注视矩形坐标,计算矩形块序号;
S13、操作者注视空间机械臂末端的目标位置所在矩形块,调用opencv中的摄像机拍摄操作者脸部图像,用opencv中的基于haar特征的级联boosted左、右眼分类器截取左、右眼图像;利用双线性插值原理使图像大小为130*130像素,将图像进行灰度和直方图均衡化处理;将处理后的图像输入卷积神经网络中,将左右眼图像得到的坐标,输入高斯过程回归,得到操作者注视矩形坐标,计算矩形块序号,判断初始位置矩形块与目标位置矩形块的相对位置,规划空间机器臂运动路径。
9.如权利要求7所述的面向空间机械臂在轨操作的视线定位和语音控制系统的控制方法,其特征在于,步骤S2具体为:用麦克风采集语音信号,生成wav格式语音文件,采集时间为1s,采集频率为16kHz,音频声道数为2。
10.如权利要求7所述的面向空间机械臂在轨操作的视线定位和语音控制系统的控制方法,其特征在于,步骤S3具体包括以下步骤:
S31、将语音信号预加重、分帧、加窗后提取梅尔倒谱系数作为特征,将梅尔倒谱系数特征用主成分分析方法降维,采用循环神经网络对提取的特征进行分类,得到语音信号的解码结果;
S32、利用UDP网络通信将解码结果发送到本机地址,Unity 3d从本机接收解码结果,将其作为控制信号控制空间机械臂中臂或大臂顺时针或逆时针运动。
CN202110539566.1A 2021-05-17 2021-05-17 一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法 Pending CN113276113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110539566.1A CN113276113A (zh) 2021-05-17 2021-05-17 一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110539566.1A CN113276113A (zh) 2021-05-17 2021-05-17 一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法

Publications (1)

Publication Number Publication Date
CN113276113A true CN113276113A (zh) 2021-08-20

Family

ID=77279550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110539566.1A Pending CN113276113A (zh) 2021-05-17 2021-05-17 一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法

Country Status (1)

Country Link
CN (1) CN113276113A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114453852A (zh) * 2022-02-16 2022-05-10 上海海事大学 基于语音识别控制机械臂进行叶片装配的方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103076876A (zh) * 2012-11-22 2013-05-01 西安电子科技大学 基于视线跟踪与语音识别的字符输入装置和方法
CN105710885A (zh) * 2016-04-06 2016-06-29 济南大学 服务型移动机械手系统
CN107590835A (zh) * 2017-08-24 2018-01-16 中国东方电气集团有限公司 一种核环境下机械臂工具快换视觉定位系统与定位方法
CN111240477A (zh) * 2020-01-07 2020-06-05 北京汽车研究总院有限公司 一种车载人机交互方法、系统和具有该系统的车辆
CN111360818A (zh) * 2020-01-15 2020-07-03 上海锵玫人工智能科技有限公司 一种通过视觉定位的机械臂控制系统
CN111571587A (zh) * 2020-05-13 2020-08-25 南京邮电大学 一种脑控机械臂助餐系统及方法
CN112518743A (zh) * 2020-11-20 2021-03-19 南京航空航天大学 一种面向空间机械臂在轨操作的多模态神经解码控制系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103076876A (zh) * 2012-11-22 2013-05-01 西安电子科技大学 基于视线跟踪与语音识别的字符输入装置和方法
CN105710885A (zh) * 2016-04-06 2016-06-29 济南大学 服务型移动机械手系统
CN107590835A (zh) * 2017-08-24 2018-01-16 中国东方电气集团有限公司 一种核环境下机械臂工具快换视觉定位系统与定位方法
CN111240477A (zh) * 2020-01-07 2020-06-05 北京汽车研究总院有限公司 一种车载人机交互方法、系统和具有该系统的车辆
CN111360818A (zh) * 2020-01-15 2020-07-03 上海锵玫人工智能科技有限公司 一种通过视觉定位的机械臂控制系统
CN111571587A (zh) * 2020-05-13 2020-08-25 南京邮电大学 一种脑控机械臂助餐系统及方法
CN112518743A (zh) * 2020-11-20 2021-03-19 南京航空航天大学 一种面向空间机械臂在轨操作的多模态神经解码控制系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张家驹等: "基于神经网络的机器人无标定视觉伺服系统仿真", 《应用科技》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114453852A (zh) * 2022-02-16 2022-05-10 上海海事大学 基于语音识别控制机械臂进行叶片装配的方法和系统

Similar Documents

Publication Publication Date Title
US20180186452A1 (en) Unmanned Aerial Vehicle Interactive Apparatus and Method Based on Deep Learning Posture Estimation
CN112518743B (zh) 一种面向空间机械臂在轨操作的多模态神经解码控制系统及方法
Kang et al. Real-time sign language fingerspelling recognition using convolutional neural networks from depth map
US7340100B2 (en) Posture recognition apparatus and autonomous robot
EP2877909B1 (en) Multimodal interaction with near-to-eye display
CN107894836B (zh) 基于手势和语音识别的遥感图像处理与展示的人机交互方法
Sincan et al. Using motion history images with 3d convolutional networks in isolated sign language recognition
CN104821010A (zh) 基于双目视觉的人手三维信息实时提取方法及系统
CN106407993A (zh) 一种基于图像识别技术的智能语音机器人系统及方法
CN113158833B (zh) 一种基于人体姿态的无人车控制指挥方法
Raheja et al. Android based portable hand sign recognition system
CN110188179B (zh) 语音定向识别交互方法、装置、设备及介质
Liu et al. Gesture Recognition for UAV-based Rescue Operation based on Deep Learning.
CN114724251A (zh) 一种在红外视频下基于骨架序列的老人行为识别方法
CN111898420A (zh) 一种唇语识别系统
Martin et al. Estimation of pointing poses for visually instructing mobile robots under real world conditions
CN113276113A (zh) 一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法
CN115937923A (zh) 一种可实现学生专注度检测的线上教学平台
CN116246649A (zh) 一种三维形象发音过程头部动作模拟方法
Monica et al. Recognition of medicine using cnn for visually impaired
CN113420783B (zh) 一种基于图文匹配的智能人机交互方法及装置
Tan et al. A proposed set of communicative gestures for human robot interaction and an RGB image-based gesture recognizer implemented in ROS
CN106385533B (zh) 全景视频控制方法及系统
CN114882590A (zh) 一种基于事件相机的多粒度时空特征感知的唇读方法
Karthik et al. Survey on Gestures Translation System for Hearing Impaired People in Emergency Situation using Deep Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210820

RJ01 Rejection of invention patent application after publication