CN108228285A - 一种端到端的多模态人机交互指令识别方法 - Google Patents

一种端到端的多模态人机交互指令识别方法 Download PDF

Info

Publication number
CN108228285A
CN108228285A CN201611155383.5A CN201611155383A CN108228285A CN 108228285 A CN108228285 A CN 108228285A CN 201611155383 A CN201611155383 A CN 201611155383A CN 108228285 A CN108228285 A CN 108228285A
Authority
CN
China
Prior art keywords
signal
modal
vector
human
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611155383.5A
Other languages
English (en)
Inventor
文鹏程
程岳
张磊
李亚晖
白林亭
谢建春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN201611155383.5A priority Critical patent/CN108228285A/zh
Publication of CN108228285A publication Critical patent/CN108228285A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]

Abstract

本发明属于多通道人机交互技术领域,特别是涉及一种端到端的多模态人机交互指令识别方法。本发明提出一种端到端的多模态交互指令识别方法,这种方法各个交互指令同时进入深度人工神经网络进行处理,直接输出最终的融合指令,使得各种模态隐含的交互信息深层次融合,从而提高多模态人机交互指令的识别准确度。

Description

一种端到端的多模态人机交互指令识别方法
技术领域
本发明属于多通道人机交互技术领域,具体涉及一种端到端的多模态人机交互指令识别方法。
背景技术
随着无人机技术的不断发展,无人机地面站对自然人机交互的需求日趋旺盛。当前的无人机,通常携带多种传感器,具有一定的自主巡航、碰撞规避与路径选择的智能能力。不过,这种智能能力还处于较低的水平,智能无人机必须在场景明晰、规则明确的特定条件下才具有自主学习与决策能力。因此,在未来的无人机地面站中,人需要利用自然人机交互的手段对无人机下达高层次的控制命令,做到人机高效协同,才能保证无人机智能的完成自身任务。然而,在现有的交互指令识别方法中,仅仅使用一种人机交互语言与无人机等进行人机交互的单模态人机交互技术,或者多种人机交互语言先分别识别后再进行融合的多模态人机交互技术,因为存在单模态识别精度低、多模态内在关联信息损失严重等种种问题,它们难以给出准确的交互指令,甚至常常对无人机下达错误的交互指令,这在实际应用中是不可接受的。
发明内容
本发明的目的是:
解决现有人机交互单模态识别精度低、多模态内在关联信息损失严重的问题。
本发明的技术解决方案是:
由于深度神经网络具有非常复杂的网络层级和网络参数,能够同时把多种交互信息输入到网络中进行隐含的相互作用,在计算中,能够统一给出最终的融合结果,而不关心具体的融合过程,因此在端到端的系统设计中,具有明显的优势。
本发明的具体步骤如下:
第一步,将传感器获取的语音向量xs、触控向量xt与手势向量xg数据,输入至深度神经网络的前端数据缓冲区中,以便能同步送入深度神经网络进行处理。
第二步,预处理深度神经网络根据语音、触控与手势信号的不同特性,选择相应的网络类型,对它们进行不同的预处理。
语音信号采用如图2所示的双向长短时记忆神经网络(LSTM)进行处理,经过多层计算得到的全连接层信号为ys
触控信号与手势信号都具有图像的特征,采用卷积神经网络(CNN)进行处理。如图3所示,触控信号与手势信号首先要进行多次的卷积与池化,并完成数据的降维。同时,在数据输入到下一层之前,还必须进行一定的非线性映射,具体的映射策略如下:
对输入信号m,仅当m>0的时候才输出原值,它保证了输入信号的多变性。
经过CNN输出的全连接层信号为yg与yt
第三步,对ys、yg与yt进行连接后,得到全连接特征信号:
y=[ys,yt,yg]T
该特征信号隐含了多模态交互的大量信息。
计算输出待分类特征的特征向量p。
第四步,对特征向量进行softmax回归。定义回归参数向量θ,有k个交互信号,输入样本为p,输出样本为h(p),则最终输出的系统函数为:
其中:p(i)的每一个元素,代表k个交互信号中每一个信号发生的概率。
第五步,对hθ(p(i))进行最大值检测以及次大值检测,得到的最大值为v1,次大值为v2。当v1与v2的比率大于预先设定的阈值的时候,直接给出最大值所对应的交互指令。当v1与v2的比率小于或等于阈值的时候,给出提示信号,并输出最大值与次大值对应的交互指令,即以模糊方式输出指令信号。
本发明具有的优点是:
本方法针对多模态自然人机交互指令的识别,便于应用在无人机地面站控制系统中。本方法对多种模态的交互指令统一输入,在深度神经网络中进行分类处理,连接各种模态信号的特征向量后再经过多个全连接层输出混合后的特征向量。最终利用Softmax层对输出的特征向量进行分类,得到最终的人机交互指令。本方法通过多模态人机交互指令的深层次融合,极大地提升了检测精度,
附图说明
图1为本发明的原理框图,方法共分为五个步骤。
图2为本发明中用于语音信号预处理的双向LSTM网络示意图。
图3为本发明中用于触控与手势信号预处理的CNN网络示意图。
具体实施方式
以无人机地面站自然人机交互控制系统为例,该系统具有一路语音输入、一路触控输入、一路手势输入、以及一路交互指令信号输出。其具体实施过程如下:
第一步,对每一路输入信号进行采集记录,利用麦克风采集语音信号,利用触摸屏采集触控信号,利用体感交互设备采集手势信号,经数据转换,以向量的形式将它们(语音向量xs、触控向量xt与手势向量xg)分别存入数据缓冲区中,等待交互指令识别周期。
第二步,根据语音、触控与手势信号的不同特性,分别选择双向LSTM网络与CNN网络对其进行预处理。
将数据缓冲区中的语音信号送入双向LSTM网络。LSTM作为RNN框架中解决“梯度消失”(vanishing gradient problem)问题的有效结构,能够改进声学模型的序列建模精度。尽管单向LSTM可以利用当前时刻之前的所有历史信息,但是无法利用未来信息。在实际应用中,对于许多序列建模任务,除了历史信息,未来信息也有助于当前时刻的预测。因此,这里选择双向LSTM网络进行处理。经过多层计算得到的全连接层信号为ys
同步将数据缓冲区中的触控信号与手势信号送入CNN网络。由于触控信号是利用触摸屏中的电容传感的方式获得的,手指对触摸屏的压力可以对应成图像中每一个像素的亮度,而手势信号是利用体感交互设备中的双目组合测量的方式获得的,它的深度信息也可以对应成图像中每一个像素的亮度,因此触控信号与手势信号都具有图像的特征,可选择CNN网络进行处理。触控信号与手势信号首先要进行多次的卷积与池化,并完成数据的降维。同时,在数据输入到下一层之前,还必须进行一定的非线性映射,具体的映射策略如下:
对输入信号m,仅当m>0的时候才输出原值,它保证了输入信号的多变性。
经过CNN输出的全连接层信号为yg与yt
第三步,对ys、yg与yt进行连接后,得到全连接特征信号:
y=[ys,yt,yg]T
该特征信号隐含了多模态交互的大量信息。由于需要在深度神经网络中进行多次的全连接运算,因此多模态之间能够做到特征的深度融合。
利用数学中标准的特征向量求解方法,计算输出待分类特征的特征向量p。
第四步,对特征向量进行softmax回归。定义回归参数向量θ,有k个交互信号,输入样本为p,输出样本为h(p),则最终输出的系统函数为:
其中:p(i)的每一个元素,代表k个交互信号中每一个信号发生的概率。
第五步,对hθ(p(i))进行最大值检测以及次大值检测,得到的最大值为v1,次大值为v2。当v1与v2的比率大于预先设定的阈值(根据所要求的确定性的不同,阈值通常设定为1.5至2之间)的时候,直接给出最大值所对应的交互指令。当v1与v2的比率小于或等于阈值的时候,给出提示信号,并输出最大值与次大值对应的交互指令,即以模糊方式输出指令信号。

Claims (1)

1.一种端到端的多模态人机交互指令识别方法,其特征是包含以下步骤:
第一步,将传感器获取的语音向量xs、触控向量xt与手势向量xg数据,输入至深度神经网络的前端数据缓冲区中,以便能同步送入深度神经网络进行处理;
第二步,预处理深度神经网络根据语音、触控与手势信号的不同特性,选择相应的网络类型,对它们进行不同的预处理;
语音信号采用双向长短时记忆神经网络(LSTM)进行处理,经过多层计算得到的全连接层信号为ys
触控信号与手势信号都具有图像的特征,采用卷积神经网络(CNN)进行处理,触控信号与手势信号首先要进行多次的卷积与池化,并完成数据的降维;同时,在数据输入到下一层之前,还必须进行一定的非线性映射,具体的映射策略如下:
对输入信号m,仅当m>0的时候才输出原值,它保证了输入信号的多变性;
经过CNN输出的全连接层信号为yg与yt
第三步,对ys、yg与yt进行连接后,得到全连接特征信号:
y=[ys,yt,yg]T
该特征信号隐含了多模态交互的大量信息;
计算输出待分类特征的特征向量p;
第四步,对特征向量进行softmax回归;定义回归参数向量θ,有k个交互信号,输入样本为p,输出样本为h(p),则最终输出的系统函数为:
其中:p(i)的每一个元素,代表k个交互信号中每一个信号发生的概率;
第五步,对hθ(p(i))进行最大值检测以及次大值检测,得到的最大值为v1,次大值为v2;当v1与v2的比率大于预先设定的阈值的时候,直接给出最大值所对应的交互指令;当v1与v2的比率小于或等于阈值的时候,给出提示信号,并输出最大值与次大值对应的交互指令,即以模糊方式输出指令信号。
CN201611155383.5A 2016-12-14 2016-12-14 一种端到端的多模态人机交互指令识别方法 Pending CN108228285A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611155383.5A CN108228285A (zh) 2016-12-14 2016-12-14 一种端到端的多模态人机交互指令识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611155383.5A CN108228285A (zh) 2016-12-14 2016-12-14 一种端到端的多模态人机交互指令识别方法

Publications (1)

Publication Number Publication Date
CN108228285A true CN108228285A (zh) 2018-06-29

Family

ID=62650176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611155383.5A Pending CN108228285A (zh) 2016-12-14 2016-12-14 一种端到端的多模态人机交互指令识别方法

Country Status (1)

Country Link
CN (1) CN108228285A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034376A (zh) * 2018-07-18 2018-12-18 东北大学 一种基于lstm的无人机飞行状态预测方法及系统
CN109766795A (zh) * 2018-12-25 2019-05-17 同济大学 基于循环神经网络的虚拟现实场景下人机交互方法及系统
CN110865705A (zh) * 2019-10-24 2020-03-06 中国人民解放军军事科学院国防科技创新研究院 多模态融合的通讯方法、装置、头戴设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102824092A (zh) * 2012-08-31 2012-12-19 华南理工大学 一种窗帘的智能手势和语音控制系统及其控制方法
US20160093048A1 (en) * 2014-09-25 2016-03-31 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法
US20160140955A1 (en) * 2014-11-13 2016-05-19 International Business Machines Corporation Speech recognition candidate selection based on non-acoustic input
CN105654037A (zh) * 2015-12-21 2016-06-08 浙江大学 一种基于深度学习和特征图像的肌电信号手势识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102824092A (zh) * 2012-08-31 2012-12-19 华南理工大学 一种窗帘的智能手势和语音控制系统及其控制方法
US20160093048A1 (en) * 2014-09-25 2016-03-31 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
US20160140955A1 (en) * 2014-11-13 2016-05-19 International Business Machines Corporation Speech recognition candidate selection based on non-acoustic input
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法
CN105654037A (zh) * 2015-12-21 2016-06-08 浙江大学 一种基于深度学习和特征图像的肌电信号手势识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034376A (zh) * 2018-07-18 2018-12-18 东北大学 一种基于lstm的无人机飞行状态预测方法及系统
CN109766795A (zh) * 2018-12-25 2019-05-17 同济大学 基于循环神经网络的虚拟现实场景下人机交互方法及系统
CN109766795B (zh) * 2018-12-25 2023-06-30 吉林动画学院 基于循环神经网络的虚拟现实场景下人机交互方法及系统
CN110865705A (zh) * 2019-10-24 2020-03-06 中国人民解放军军事科学院国防科技创新研究院 多模态融合的通讯方法、装置、头戴设备及存储介质
CN110865705B (zh) * 2019-10-24 2023-09-19 中国人民解放军军事科学院国防科技创新研究院 多模态融合的通讯方法、装置、头戴设备及存储介质

Similar Documents

Publication Publication Date Title
CN112668687B (zh) 云端机器人系统、云服务器、机器人控制模块和机器人
CN107767405B (zh) 一种融合卷积神经网络的核相关滤波目标跟踪方法
CN106095109B (zh) 基于手势和语音进行机器人在线示教的方法
CN105807926A (zh) 一种基于三维连续动态手势识别的无人机人机交互方法
CN108983979B (zh) 一种手势跟踪识别方法、装置和智能设备
CN104616028B (zh) 基于空间分割学习的人体肢体姿势动作识别方法
CN109034376A (zh) 一种基于lstm的无人机飞行状态预测方法及系统
CN107146237B (zh) 一种基于在线状态学习与估计的目标跟踪方法
CN108228285A (zh) 一种端到端的多模态人机交互指令识别方法
Huang et al. Boundary-adaptive encoder with attention method for Chinese sign language recognition
Morency et al. Multimodal machine learning: integrating language, vision and speech
CN117152363A (zh) 基于预训练语言模型的三维内容生成方法、装置及设备
CN111695408A (zh) 一种智能手势信息识别系统及方法、信息数据处理终端
Aly et al. A generative framework for multimodal learning of spatial concepts and object categories: An unsupervised part-of-speech tagging and 3D visual perception based approach
CN114897039A (zh) 一种数据处理方法及相关设备
CN111914600A (zh) 一种基于空间注意力模型的群组情绪识别方法
Mi et al. Intention-related natural language grounding via object affordance detection and intention semantic extraction
CN110111358B (zh) 一种基于多层时序滤波的目标跟踪方法
CN104460991A (zh) 一种基于数字家庭设备的手势互动控制系统
US20180239436A1 (en) Gesture recognition device and man-machine interaction system
CN109766795B (zh) 基于循环神经网络的虚拟现实场景下人机交互方法及系统
CN110287616B (zh) 一种沉浸式空间微重力流体遥科学实验平行系统及方法
CN115146645A (zh) 一种语义解析方法以及相关设备
CN105892661A (zh) 机器智能决策的方法
CN112396666A (zh) 基于手势识别的装配过程智能控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629

RJ01 Rejection of invention patent application after publication