CN111190484B

CN111190484B - 一种多模态交互系统和方法

Info

Publication number: CN111190484B
Application number: CN201911357500.XA
Authority: CN
Inventors: 闫野; 王怡静; 裴育; 明东; 许敏鹏; 印二威
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2023-07-21
Anticipated expiration: 2039-12-25
Also published as: CN111190484A

Abstract

本申请公开了一种多模态交互系统和方法，包括：信息采集模块，采集脑电信号、肌电信号、唇部图像、眼部图像以及生理参数信息；处理模块对接收到的脑电信号、肌电信号、唇部图像、眼部图像以及生理参数信息分别进行预处理得到多种数据，使用机器学习对多种数据进行命令、语言信息以及情绪的识别；对情绪识别结果进行可靠性评估，发送识别出的命令和/或语言信息至交互模块；交互模块发送命令至被操控设备，将语言信息发送至接收设备。通过根据多种信号对命令和/或语言信息以及情绪进行识别，能够得到精确度高的命令和/或语言信息，并且使用多种信号识别得到的命令和/或语言信息，通过交互模块发送至被操控设备或接收设备，具有更多样的功能。

Description

一种多模态交互系统和方法

技术领域

本申请涉及脑机接口技术领域，尤其涉及一种多模态交互系统和方法。

背景技术

在人们的日常生活中，语言是人们最常使用的交流方式之一。随着运算与存储技术的不断发展，语音识别技术作为信息社会朝着智能化和自动化方向发展的关键技术之一，具有重要的研究意义和实用价值。近二十年来，语音识别技术取得了显著进步，但过于依赖外部条件，具有场景限制这一问题依旧存在。比如，当语音信号的信噪比过低时，识别准确率会大大降低。另一方面，语音交流增加了不安全通信及隐私泄露风险。在这种特殊因素环境下，缄默通信的提出为人们的日常交流提供了新的选择。

缄默通信系统的应用场景十分广泛。它不止可以用于后天病理性发音障碍人群的语言功能恢复，还可用于军事指挥作战、隐私保护等特因环境场合中。其中，无声语音识别技术通过面部肌电信号和唇部的光学图像实现，理解并分析信号所包含的语音信息，并转换为非语音信号与外界进行交流。

然而现有的缄默通信系统识别精确度低，功能单一，因此，需要提供一种精确度高，功能多的交互系统和方法。

发明内容

为解决以上问题，本申请提出了一种多模态交互系统和方法。

一方面，本申请提出一种基于视线跟踪的多模态交互系统，包括：信息采集模块、处理模块和交互模块；

所述信息采集模块，用于采集脑电信号、肌电信号、唇部图像、眼部图像以及生理参数信息，发送至处理模块；

所述处理模块，用于对接收到的所述脑电信号、肌电信号、唇部图像、眼部图像以及生理参数信息分别进行预处理，得到多种数据，使用机器学习对多种所述数据进行命令识别、语言信息识别以及情绪识别；对情绪识别结果进行可靠性评估，发送识别出的命令和/或语言信息至交互模块；

所述交互模块，用于将命令发送至被操控设备，将语言信息发送至与其相连接的接收设备。

优选地，所述处理模块包括：

预处理单元，用于对脑电信号和肌电信号进行第一预处理，得到脑电数据和肌电数据，对唇部图像进行第二预处理，得到唇部特征，对眼部图像进行第三预处理后，得到眼部处理数据，保留眼部处理数据中的感兴趣区域，对所述感兴趣区域进行第二预处理，得到眼部特征，对所述生理参数信息进行第四预处理，得到生理数据；

命令识别单元，用于对脑电数据进行分析处理，得到频率和相位特征，对所述频率和相位特征进行识别，得到命令；

语言识别单元，用于使用机器学习对肌电数据和唇部特征进行处理，得到语言信息；

情绪识别单元，用于使用机器学习对唇部特征、眼部特征以及生理数据进行处理，得到情绪识别结果，发送至评估单元；

评估单元，用于对情绪识别结果进行可靠性评估，发送识别出的命令和/或语言信息至交互模块。

优选地，所述机器学习包括：循环神经网络，时延神经网络，长短时记忆神经网络，卷积神经网络，深度残差网络。

优选地，所述分析处理包括：典型相关分析，任务相关成分分析，独立成分分析，主成分分析。

优选地，所述第一预处理包括：降采样，去干扰，降噪。

优选地，所述第二预处理包括：卷积，标准化，非线性处理。

优选地，所述第三预处理包括：平滑，去噪，滤波处理。

优选地，所述第四预处理包括：截取，去除噪声和伪迹，归一化处理。

优选地，所述处理模块还包括：输出识别单元，用于根据眼部特征，对命令和/或语言信息进行确认。

第二方面，本申请提出一种多模态交互方法，包括：

信息采集模块采集脑电信号、肌电信号、唇部图像、眼部图像以及生理参数信息，发送至处理模块；

处理模块对接收到的所述脑电信号、肌电信号、唇部图像、眼部图像以及生理参数信息分别进行预处理，得到多种数据；

处理模块使用机器学习对多种所述数据进行命令识别、语言信息识别以及情绪识别；

处理模块对情绪识别结果进行可靠性评估，发送识别出的命令和/或语言信息至交互模块；

交互模块将命令发送至被操控设备，将语言信息发送至与其相连接的接收设备。

本申请的优点在于：通过根据多种信号对命令和/或语言信息以及情绪进行识别，能够得到精确度高的命令和/或语言信息，并且使用多种信号识别得到的命令和/或语言信息，通过交互模块发送至被操控设备或接收设备，具有更多样的功能。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种多模态交互系统的示意图；

图2是本申请提供的一种多模态交互系统的结构示意图；

图3是本申请提供的一种多模态交互系统的脑电信号采集位置示意图；

图4是本申请提供的一种多模态交互系统的处理与识别示意图；

图5是本申请提供的一种多模态交互系统的模式示意图；

图6是本申请提供的一种多模态交互系统的使用流程示意图；

图7是本申请提供的一种多模态交互方法的步骤示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种基于视线跟踪的多模态交互系统，如图1所示，包括：信息采集模块101、处理模块102和交互模块103；

信息采集模块，用于采集脑电(Electroencephalogram，EEG)信号、肌电(Electromyography，EMG)信号、唇部图像、眼部图像以及生理参数信息，发送至处理模块；

处理模块，用于对接收到的脑电信号、肌电信号、唇部图像、眼部图像以及生理参数信息分别进行预处理，得到多种数据，使用机器学习对多种数据进行命令识别、语言信息识别以及情绪识别；对情绪识别结果进行可靠性评估，发送识别出的命令和/或语言信息至交互模块；

交互模块，用于将命令发送至被操控设备，将语言信息发送至与其相连接的接收设备。

如图2所示，处理模块包括：

预处理单元，用于对脑电信号和肌电信号进行第一预处理，得到脑电数据和肌电数据，对唇部图像进行第二预处理，得到唇部特征，对眼部图像进行第三预处理后，得到眼部处理数据，保留眼部处理数据中的感兴趣区域(Region Of Interest,ROI)，对感兴趣区域进行第二预处理，得到眼部特征，对生理参数信息进行第四预处理，得到生理数据；

命令识别单元，用于对脑电数据进行分析处理，得到频率和相位特征，对频率和相位特征进行识别，得到命令；

机器学习包括：循环神经网络，时延神经网络，长短时记忆神经网络(Long Short-Term Memory,LSTM)，卷积神经网络，深度残差网络。

分析处理包括：典型相关分析(Canonical Correlation Analysis，CCA)，任务相关成分分析(Task-Related Component Analysis，TRCA)，独立成分分析(IndependentComponents Analysis，ICA)，主成分分析(Principal Component Analysis，PCA)等。

第一预处理包括：降采样，去干扰，降噪。

第二预处理包括：卷积，标准化，非线性处理。

第三预处理包括：平滑，去噪，滤波处理。

第四预处理包括：截取，去除噪声和伪迹，归一化处理。

处理模块还包括：输出识别单元，用于根据眼部特征，对命令和/或语言信息进行确认。

处理模块还包括：训练单元，用于对命令识别单元，语言识别单元，情绪识别单元进行训练，得到训练好的命令识别单元，语言识别单元，情绪识别单元。

在根据眼部特征，对命令和/或语言信息进行确认时，所保留的感兴趣区域与情绪识别时不同。在眼动交互中(对命令和/或语言信息进行确认时)，主要关注瞳孔、注视指标(注视时长、注视点数目等)等，目的是确定用户在看哪儿，而情绪识别中，由于人在不同情绪下眼睛的形状会不同，开心会有笑眼，愤怒眼睛会睁大，所以只需要关注眼部形状，瞳孔大小等。

在机器视觉、图像处理中，从被处理的图像中，以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域。此区域是进行图像分析所关注的重点，圈定此区域以便进行进一步处理。使用感兴趣区域圈定想要读的目标，可以减少处理时间，增加精度。

情绪是由自主神经系统和内分泌系统共同参与的结果，用于识别情绪的生理参数信息包括：皮肤电反应信号(Galvanic Skin Response，GSR)、血容量脉冲信号(BloodVolume Pulse，BVP)、肌电信号、眼电信号(Electrooculogram，EOG)、心率(Heart Rate，HR)及呼吸信号(Respiration,RSP)等生理信号。

将情绪识别纳入多模态特因交互系统中，能够有效避免由冲动、紧张等情绪造成的决策失误，实现和谐的人机情绪交互。

信息采集模块包括：脑电信号采集单元、肌电信号采集单元、唇部图像采集单元、眼部图像采集单元以及生理参数信息采集单元。

本申请的实施方式，集情绪识别技术及多模态脑机接口(Brain-ComputerInterface,BCI)技术于一体，是一种多模态交互系统。通过面部的肌电信号与唇部图像完成语言信息识别，得到语音交互指令，并通过EOG信号、GSR信号及BVP信号进行情绪识别。当情绪识别结果正常时，语音指令(语言信息)输出完成通信交流。同时，使用者亦可通过BCI技术实现对外部设备的控制。

本申请的实施方式在发音障碍人群的功能恢复、军事指令的安全传递及日常交流的隐私保护方面具有重要意义。

下面，对本申请的实施方式进行进一步说明。

在脑机交互指令识别过程中，即对脑电数据进行识别得到命令的过程中，如图3所示，信号采集器通过位于顶叶和枕叶的九个电极(Pz,PO5,PO3,POz,PO4,PO6,O1,Oz,O2)实时记录脑电信号(EEG信号)，参考电极设置在Cz，信号采样率为1000Hz。如图3所示，预处理阶段，首先将脑电信号降采样至250Hz，然后利用50Hz的ChebyshevⅠ型IIR陷波器去除工频干扰，最后采用8-70Hz的ChebyshevⅠ型IIR带通滤波器进行滤波降噪，得到脑电数据。预处理完成后，采用CCA、TRCA等分析处理算法提取脑电数据的频率与相位特征。对频率和相位特征进行识别(模式分类)，得到命令(脑机交互指令)。

如图4所示，语音交互指令识别过程中，即对肌电信号和唇部图像进行识别得到语言信息的过程中，肌电信号(EMG信号)由贴合在面部的电极采集得到，缠绕在嘴边麦克风上的小型摄像头用来获取唇部图像。肌电信号先后经过50Hz的ChebyshevⅠ型IIR陷波器及0.1Hz-70Hz的ChebyshevⅠ型IIR带通滤波器进行预处理，得到肌电数据。对于唇部图像，3D卷积能更好的捕获图像中时间和空间的特征信息。优选地，卷积层使用64个7×7×5的3D卷积核进行卷积操作(7×7为空间维度，5为时间维度，即每次操作5帧图像)。唇部图像经过卷积层后进入标准化(Batch Normalization,BN)和Rectified线性单元(ReLU)得到唇部特征。完成信息的基本处理后，使用机器学习对肌电数据和唇部特征进行识别。优选地，将肌电数据和唇部特征进入ResNet残差网络和BGRU层。肌电数据输入18层、1维内核ResNet网络和2个BGRU层。唇部特征输入34层ResNet网络和2个BGRU层。其中每层BGRU包含1024个单元。ResNet通过平均池化层使肌电数据输出帧数与唇部特征有着相同的帧速率，然后将得到的帧传送到ResNet层，进行更深一步的特征提取。最后的输出馈送至各自的BGRU层中。两种信号的BGRU输出被连接并传送到另一个BGRU层，来进行信号的信息融合和时间动态模拟。Softmax层为输出层，将具体的指令信息赋给每一帧，即提供标签。最后进行语音交互识别(语言信息识别)，完成无声语音交互。

如图4所示，在眼动交互指令识别中，即根据眼部图像识别情绪或对命令和/或语言信息进行确认的过程中，眼动信号采集器主要由眼动摄像头和红外光源组成，用来实时采集用户眼球位置信息。采集得到的眼动信号(眼部图像)首先进行数据平滑和去噪滤波。基于连续点对数据进行均值处理，获得平滑数据，降低突变噪声干扰。接着保留数据的有效区域，一般情况下，眼动有脱离有效区域的数据信息，处理时需要把这一部分数据剔除，利用矩阵法进行图像识别，保留感兴趣区域。对于眼部图像中ROI区域的处理与唇部图像采用同种处理方法，最后进行眼动交互识别，对命令和/或语言信息进行确认，和/或对情绪进行判断。

如图5所示，处理模块的应用模式使用命令识别单元，训练模式使用训练单元。

以情绪识别为例，在训练模式中，首先给被试者呈现图片、音乐、视频片段等刺激材料诱发不同情绪，并采集被试者相应的唇部图像、眼部图像及GSR、BVP等生理信号(生理参数信息)。情绪诱发效果采用以情绪状态自我评估量表为主，以被试者的主观感受评价为辅的方式衡量。在预处理部分中，对采集到的图像信号(唇部图像)进行数据平滑和去噪滤波，保留ROI区域。对于生理信号，预处理主要是保留有效数据段，例如只截取情绪诱发高潮时段数据进行分析，然后去除信号中的噪声和伪迹。不同被试者间的生理信号的基线普遍存在个体化差异，所以需要对信号进行归一化处理来降低对情绪识别的不利影响。经过预处理的唇部、眼部图像和生理信号，连同情绪状态自我评估量表结果一起输入到长短期记忆网络中进行模型训练，得到训练好的长短期记忆网络(LSTM模型)。

如图5所示，应用模式中，将利用已训练好的LSTM模型进行情绪识别。实际应用中，对信息采集模块采集得到唇部、眼部图像以及生理参数信息进行相应预处理，紧接着将处理后的信号传入LSTM卷积神经网络中得到情绪识别结果。最后采用贝叶斯网络对识别结果可靠性进行评估，若可靠性符合要求，则发送识别出的命令和/或语言信息至交互模块；反之，则对采集到的脑电信号、肌电信号、唇部图像、眼部图像以及生理参数信息重新进行识别。

用户还可以使用指令，对处理模块中使用的LSTM模型进行进一步训练或重新训练。

用户也可以根据需要，使用其他机器学习中包括的网络，以及分析处理中包括的方法，对模型进行更改。

语言识别单元和情绪识别单元可以使用不同的模型或网络，对语言信息以及情绪进行识别，其模型或网络中的各种参数等可以根据需要进行设定。

LSTM长短期记忆网络，是一种时间递归网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM是解决循环神经网络RNN结构中存在的“梯度消失”问题而提出的，是一种特殊的循环神经网络。同时，LSTM在设计上明确的避免了长期依赖的问题，这主要归功于LSTM精心设计的“门”结构(输入门、遗忘门和输出门)。“门”结构是一种让信息选择式通过的方法，包括一个sigmoid神经网络层和一个pointwise乘法操作。它具有消除或者增加信息到cellstate的能力，使得LSTM能够记住长期的信息。在LSTM中，第一阶段是遗忘门，遗忘层决定哪些信息需要从cellstate中被遗忘。下一阶段是输入门，输入门确定哪些新信息能够被存放到cellstate中。最后一个阶段是输出门，输出门确定输出什么值。

(1)遗忘门：遗忘门是以上一层的输出h_t-1和本层要输入的序列数据x_t作为输入，通过一个激活函数sigmoid，得到输出为f_t。f_t的输出取值在[0,1]区间，表示上一层细胞状态被遗忘的概率，1是“完全保留”，0是“完全舍弃”。

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

(2)输入门：输入门包含两个部分，第一部分使用sigmoid激活函数，输出为i_t，第二部分使用tanh激活函数，输出为

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

到目前为止，f_t是遗忘门的输出，控制着上一层cell state中C_t-1被遗忘的程度，为输入门的两个输出乘法运算，表示有多少新信息被保留。基于此，我们就可以把新信息更新为这一层的cellstate中C_t值。

(3)输出门：输出门用来控制该层的cellstate有多少被过滤。首先使用sigmoid激活函数得到一个[0,1]区间取值的o_t，接着将C_t通过tanh激活函数处理后与o_t相乘，即是本层的输出h_t。

o_t＝σ(W_o·[h_t-1,x_t]+h_o)

h_t＝o_t*tanh(C_t)

LSTM中前向传播(forward propagation)就是依次按照时间的顺序计算一次，反向传播(back propagation)就是从最后一个时间将累积的残差传递回来。公式中，w_ij表示从神经元i到j的连接权重；神经元的输入用a表示，输出用b表示；下标l，和ω分别表示输入门，遗忘门和输出门；c下标表示cellstate，从cellstate到输入门，遗忘门和输出门的peephole权重分别记做w_cl，/>和w_cω；s_c表示cellstate中c的状态；控制门的激活函数用f表示，g、h分别表示cellstate的输入、输出激活函数；I表示输入层的神经元个数，K是输出层的神经元个数，H是隐层cellstate的个数。

前向传播的计算：

输入门：

遗忘门：

cells：

输出门：

celloutputs：

误差反向传播更新：

cell outputs：

输出门：

states：

cells：

遗忘门：

输入门：

下面，对本申请实施方式的一种使用流程进行说明，如图6所示。

1、使用者穿戴设备，开启设备开关。系统检测各个模块是否正常开启，各模块(模块对应的设备)间通信是否正常；

2、若设备不能正常运行，则提示使用者进行相应模块的检查；

3、信息采集模块中的唇部图像采集单元监测用户是否开始交流，若开始，则信息采集模块中的各信息采集单元进行相应信号采集；若未开始，则系统处于待机状态；

4、采集得到的信号进入处理模块中的预处理单元以及相应的识别单元进行处理和识别，识别用户指令；

5、依据情绪识别结果判断用户情绪状态是否正常，若正常，则不做处理；若情绪异常，则提示用户稳定情绪，重新采集信号；

6、检测通信环境是否正常，若正常，则将识别到的指令信息(命令和/或语言信息)发送至交互模块，完成通信交流及外部设备控制；若异常，则提示通信异常，用户重复所说内容；

7、通信完成后，检测通信环境是否关闭，若没有，则进入待机状态。

根据本申请的实施方式，还提出一种多模态交互方法，如图7所示，包括：

S101，信息采集模块采集脑电信号、肌电信号、唇部图像、眼部图像以及生理参数信息，发送至处理模块；

S102，处理模块对接收到的脑电信号、肌电信号、唇部图像、眼部图像以及生理参数信息分别进行预处理，得到多种数据；

S103，处理模块使用机器学习对多种数据进行命令识别、语言信息识别以及情绪识别；

S103，处理模块对情绪识别结果进行可靠性评估，发送识别出的命令和/或语言信息至交互模块；

S104，交互模块将命令发送至被操控设备，将语言信息发送至与其相连接的接收设备。

本申请的系统中，通过根据多种信号对命令和/或语言信息以及情绪进行识别，能够得到精确度高的命令和/或语言信息，并且使用多种信号识别得到的命令和/或语言信息，通过交互模块发送至被操控设备或接收设备，具有更多样的功能。本申请的系统能够应用于发音障碍人群的功能恢复、军事指令的安全传递及日常交流的隐私保护等多种特殊因素(特因)环境。将情绪识别纳入多模态交互系统中，能够有效避免由冲动、紧张等情绪造成的决策失误，实现和谐的人机情绪交互。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多模态交互系统，其特征在于，包括：信息采集模块、处理模块和交互模块；

所述交互模块，用于将命令发送至被操控设备，将语言信息发送至与其相连接的接收设备；完成通信交流及外部设备控制；

所述处理模块包括：

评估单元，用于对情绪识别结果进行可靠性评估，发送识别出的命令和/或语言信息至交互模块；依据情绪识别结果判断用户情绪状态是否正常，若情绪异常，则提示用户稳定情绪，重新采集信号；

处理模块还包括：训练单元，用于对命令识别单元，语言识别单元，情绪识别单元进行训练，得到训练好的命令识别单元，语言识别单元，情绪识别单元；处理模块的训练模式使用训练单元；

所述处理模块还包括：输出识别单元，用于根据眼部特征，对命令和/或语言信息进行确认。

2.如权利要求1所述的交互系统，其特征在于，所述机器学习包括：循环神经网络，时延神经网络，长短时记忆神经网络，卷积神经网络，深度残差网络。

3.如权利要求1所述的交互系统，其特征在于，所述分析处理包括：典型相关分析，任务相关成分分析，独立成分分析，主成分分析。

4.如权利要求1所述的交互系统，其特征在于，所述第一预处理包括：降采样，去干扰，降噪。

5.如权利要求1所述的交互系统，其特征在于，所述第二预处理包括：卷积，标准化，非线性处理。

6.如权利要求1所述的交互系统，其特征在于，所述第三预处理包括：平滑，去噪，滤波处理。

7.如权利要求1所述的交互系统，其特征在于，所述第四预处理包括：截取，去除噪声和伪迹，归一化处理。

8.一种应用于如权利要求1－7任一项所述的交互系统的多模态交互方法，其特征在于，包括：