CN108228285A

CN108228285A - 一种端到端的多模态人机交互指令识别方法

Info

Publication number: CN108228285A
Application number: CN201611155383.5A
Authority: CN
Inventors: 文鹏程; 程岳; 张磊; 李亚晖; 白林亭; 谢建春
Original assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Current assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date: 2016-12-14
Filing date: 2016-12-14
Publication date: 2018-06-29

Abstract

本发明属于多通道人机交互技术领域，特别是涉及一种端到端的多模态人机交互指令识别方法。本发明提出一种端到端的多模态交互指令识别方法，这种方法各个交互指令同时进入深度人工神经网络进行处理，直接输出最终的融合指令，使得各种模态隐含的交互信息深层次融合，从而提高多模态人机交互指令的识别准确度。

Description

一种端到端的多模态人机交互指令识别方法

技术领域

本发明属于多通道人机交互技术领域，具体涉及一种端到端的多模态人机交互指令识别方法。

背景技术

随着无人机技术的不断发展，无人机地面站对自然人机交互的需求日趋旺盛。当前的无人机，通常携带多种传感器，具有一定的自主巡航、碰撞规避与路径选择的智能能力。不过，这种智能能力还处于较低的水平，智能无人机必须在场景明晰、规则明确的特定条件下才具有自主学习与决策能力。因此，在未来的无人机地面站中，人需要利用自然人机交互的手段对无人机下达高层次的控制命令，做到人机高效协同，才能保证无人机智能的完成自身任务。然而，在现有的交互指令识别方法中，仅仅使用一种人机交互语言与无人机等进行人机交互的单模态人机交互技术，或者多种人机交互语言先分别识别后再进行融合的多模态人机交互技术，因为存在单模态识别精度低、多模态内在关联信息损失严重等种种问题，它们难以给出准确的交互指令，甚至常常对无人机下达错误的交互指令，这在实际应用中是不可接受的。

发明内容

本发明的目的是：

解决现有人机交互单模态识别精度低、多模态内在关联信息损失严重的问题。

本发明的技术解决方案是：

由于深度神经网络具有非常复杂的网络层级和网络参数，能够同时把多种交互信息输入到网络中进行隐含的相互作用，在计算中，能够统一给出最终的融合结果，而不关心具体的融合过程，因此在端到端的系统设计中，具有明显的优势。

本发明的具体步骤如下：

第一步，将传感器获取的语音向量x_s、触控向量x_t与手势向量x_g数据，输入至深度神经网络的前端数据缓冲区中，以便能同步送入深度神经网络进行处理。

第二步，预处理深度神经网络根据语音、触控与手势信号的不同特性，选择相应的网络类型，对它们进行不同的预处理。

语音信号采用如图2所示的双向长短时记忆神经网络(LSTM)进行处理，经过多层计算得到的全连接层信号为y_s。

触控信号与手势信号都具有图像的特征，采用卷积神经网络(CNN)进行处理。如图3所示，触控信号与手势信号首先要进行多次的卷积与池化，并完成数据的降维。同时，在数据输入到下一层之前，还必须进行一定的非线性映射，具体的映射策略如下：

对输入信号m,仅当m＞0的时候才输出原值，它保证了输入信号的多变性。

经过CNN输出的全连接层信号为y_g与y_t。

第三步，对y_s、y_g与y_t进行连接后，得到全连接特征信号：

y＝[y_s,y_t,y_g]^T

该特征信号隐含了多模态交互的大量信息。

计算输出待分类特征的特征向量p。

第四步，对特征向量进行softmax回归。定义回归参数向量θ，有k个交互信号，输入样本为p，输出样本为h(p)，则最终输出的系统函数为：

其中：p⁽ⁱ⁾的每一个元素，代表k个交互信号中每一个信号发生的概率。

第五步，对h_θ(p⁽ⁱ⁾)进行最大值检测以及次大值检测，得到的最大值为v₁，次大值为v₂。当v₁与v₂的比率大于预先设定的阈值的时候，直接给出最大值所对应的交互指令。当v₁与v₂的比率小于或等于阈值的时候，给出提示信号，并输出最大值与次大值对应的交互指令，即以模糊方式输出指令信号。

本发明具有的优点是：

本方法针对多模态自然人机交互指令的识别，便于应用在无人机地面站控制系统中。本方法对多种模态的交互指令统一输入，在深度神经网络中进行分类处理，连接各种模态信号的特征向量后再经过多个全连接层输出混合后的特征向量。最终利用Softmax层对输出的特征向量进行分类，得到最终的人机交互指令。本方法通过多模态人机交互指令的深层次融合，极大地提升了检测精度，

附图说明

图1为本发明的原理框图，方法共分为五个步骤。

图2为本发明中用于语音信号预处理的双向LSTM网络示意图。

图3为本发明中用于触控与手势信号预处理的CNN网络示意图。

具体实施方式

以无人机地面站自然人机交互控制系统为例，该系统具有一路语音输入、一路触控输入、一路手势输入、以及一路交互指令信号输出。其具体实施过程如下：

第一步，对每一路输入信号进行采集记录，利用麦克风采集语音信号，利用触摸屏采集触控信号，利用体感交互设备采集手势信号，经数据转换，以向量的形式将它们(语音向量x_s、触控向量x_t与手势向量x_g)分别存入数据缓冲区中，等待交互指令识别周期。

第二步，根据语音、触控与手势信号的不同特性，分别选择双向LSTM网络与CNN网络对其进行预处理。

将数据缓冲区中的语音信号送入双向LSTM网络。LSTM作为RNN框架中解决“梯度消失”(vanishing gradient problem)问题的有效结构，能够改进声学模型的序列建模精度。尽管单向LSTM可以利用当前时刻之前的所有历史信息，但是无法利用未来信息。在实际应用中，对于许多序列建模任务，除了历史信息，未来信息也有助于当前时刻的预测。因此，这里选择双向LSTM网络进行处理。经过多层计算得到的全连接层信号为y_s。

同步将数据缓冲区中的触控信号与手势信号送入CNN网络。由于触控信号是利用触摸屏中的电容传感的方式获得的，手指对触摸屏的压力可以对应成图像中每一个像素的亮度，而手势信号是利用体感交互设备中的双目组合测量的方式获得的，它的深度信息也可以对应成图像中每一个像素的亮度，因此触控信号与手势信号都具有图像的特征，可选择CNN网络进行处理。触控信号与手势信号首先要进行多次的卷积与池化，并完成数据的降维。同时，在数据输入到下一层之前，还必须进行一定的非线性映射，具体的映射策略如下：

经过CNN输出的全连接层信号为y_g与y_t。

第三步，对y_s、y_g与y_t进行连接后，得到全连接特征信号：

y＝[y_s,y_t,y_g]^T

该特征信号隐含了多模态交互的大量信息。由于需要在深度神经网络中进行多次的全连接运算，因此多模态之间能够做到特征的深度融合。

利用数学中标准的特征向量求解方法，计算输出待分类特征的特征向量p。

第五步，对h_θ(p⁽ⁱ⁾)进行最大值检测以及次大值检测，得到的最大值为v₁，次大值为v₂。当v₁与v₂的比率大于预先设定的阈值(根据所要求的确定性的不同，阈值通常设定为1.5至2之间)的时候，直接给出最大值所对应的交互指令。当v₁与v₂的比率小于或等于阈值的时候，给出提示信号，并输出最大值与次大值对应的交互指令，即以模糊方式输出指令信号。

Claims

1.一种端到端的多模态人机交互指令识别方法，其特征是包含以下步骤：

第一步，将传感器获取的语音向量x_s、触控向量x_t与手势向量x_g数据，输入至深度神经网络的前端数据缓冲区中，以便能同步送入深度神经网络进行处理；

第二步，预处理深度神经网络根据语音、触控与手势信号的不同特性，选择相应的网络类型，对它们进行不同的预处理；

语音信号采用双向长短时记忆神经网络(LSTM)进行处理，经过多层计算得到的全连接层信号为y_s；

触控信号与手势信号都具有图像的特征，采用卷积神经网络(CNN)进行处理，触控信号与手势信号首先要进行多次的卷积与池化，并完成数据的降维；同时，在数据输入到下一层之前，还必须进行一定的非线性映射，具体的映射策略如下：

对输入信号m,仅当m＞0的时候才输出原值，它保证了输入信号的多变性；

经过CNN输出的全连接层信号为y_g与y_t；

第三步，对y_s、y_g与y_t进行连接后，得到全连接特征信号：

y＝[y_s,y_t,y_g]^T

该特征信号隐含了多模态交互的大量信息；

计算输出待分类特征的特征向量p；

第四步，对特征向量进行softmax回归；定义回归参数向量θ，有k个交互信号，输入样本为p，输出样本为h(p)，则最终输出的系统函数为：

其中：p⁽ⁱ⁾的每一个元素，代表k个交互信号中每一个信号发生的概率；

第五步，对h_θ(p⁽ⁱ⁾)进行最大值检测以及次大值检测，得到的最大值为v₁，次大值为v₂；当v₁与v₂的比率大于预先设定的阈值的时候，直接给出最大值所对应的交互指令；当v₁与v₂的比率小于或等于阈值的时候，给出提示信号，并输出最大值与次大值对应的交互指令，即以模糊方式输出指令信号。