CN111680620B

CN111680620B - 基于d-s证据理论的人机交互意图识别方法

Info

Publication number: CN111680620B
Application number: CN202010506184.4A
Authority: CN
Inventors: 王崴; 赵敏睿; 瞿珏; 高鹏; 王庆力; 葛家昂
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2022-09-30
Anticipated expiration: 2040-06-05
Also published as: CN111680620A

Abstract

本发明公开了基于D‑S证据理论的人机交互意图识别方法，包括以下步骤：步骤S1，采集用户脑电和眼动信号，并进行特征提取；步骤S2，采用模式识别算法对生理信号特征进行分类识别；步骤S3，对分类器分类算法进行决策级融合得到最终结果。本发明通过针对传统人机交互意图识别准确率相对较低，不同生理信息不能进行有效融合的问题，设计了基于D‑S证据理论的脑电眼动信息融合人机交互意图识别方法，能够识别用户的人机交互意图，通过采集用户的脑电和眼动信号，对脑电和眼动信号分别进行特征提取和分类，具有准确率高，泛化能力强的特点，为人机交互界面自适应设计奠定基础。

Description

基于D-S证据理论的人机交互意图识别方法

技术领域

本发明涉及人机交互技术领域，具体来说，涉及基于D-S证据理论的人机交互意图识别方法。

背景技术

人机交互、人机互动(英文：Human–Computer Interaction或Human–MachineInteraction，简称HCI或HMI)，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板，或发电厂的控制室。人机交互界面的设计要包含用户对系统的理解(即心智模型)，那是为了系统的可用性或者用户友好性。

近年来，很多学者尝试将多生理信息进行融合，以期提高人机交互识别准确率。目前有融合脑电和眼动信号对意图进行识别，发现融合脑电和眼动信号识别准确率比依靠单一生理信号准确率高5％左右。融合眼动、脑电和手势特征对6自由度机械臂进行操控，结果显示，可用性量表(SUS)分数高于平均水平。谢平等人融合脑电、心电和肌电信号对驾驶疲劳进行评估，结果表明多生理特征融合识别准确率明显高于单独生理信号识别率；融合脑电信号与肌电信号对动作模式进行识别，结果表明，脑肌电融合信号识别正确率为98％高于单纯依靠脑电特征识别准确率75％。这说明多生理信号融合可提高对人认知和交互意图的识别准确率，但上述研究未涉及人机交互意图识别。

因此，我们提出基于D-S证据理论的人机交互意图识别方法，可在用户进行人机交互时进行意图识别。

发明内容

针对相关技术中的问题，本发明提出基于D-S证据理论的人机交互意图识别方法，通过采集用户的脑电和眼动信号，对脑电和眼动信号分别进行特征提取和分类，然后采用D-S证据理论对脑电和眼动信号分类结果进行融合，基于D-S证据理论的脑电眼动信息融合人机交互意图识别方法具有准确率高，泛化能力强的特点，为人机交互界面自适应设计奠定基础，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

基于D-S证据理论的人机交互意图识别方法，包括以下步骤：

步骤S1，采集用户脑电和眼动信号，并进行特征提取；

步骤S2，采用模式识别算法对生理信号特征进行分类识别；

步骤S3，对分类器分类算法进行决策级融合得到最终结果；

其中包括以下步骤：

A₁,A₂,…,A_k为k种认知意图，通过n类生理信号进行了分类，则识别框架为：

Θ＝{A₁,A₂,…,A_k}，

每一种生理信号特征的识别算法对各类型意图可信度分配函数为：

m_i(A₁,A₂,…,A_k,Θ)＝(p_iq_i1,p_iq_i2,…,p_iq_k,1―p_i)，

其中m_i为第i种生理特征识别算法可信度分配函数，i＝1,2…n，

p_i为第i种生理特征识别算法正确率，q_ij为第i种生理特征识别判定样本为第j 种认知意图的可信度，j＝1,2…k，对于识别框架Θ中任意认知意图A_j，采用多生理特征分类结果的Dempster决策规则为：

具体的：

其中，算法正确率p_i通常可用训练集样本正确率，认知意图的可信度q_ij根据算法的输出计算确定：

其中j,h为认知意图序号：k为认知意图类型的数量，F_i(A_j,A_h)根据认知意图j和h的分类面做出的判断结果：

F_i(A_j,A_h)∈{+1,―1}。

进一步的，步骤S1包括：

脑电信号特征提取；

眼动信号特征提取，其中；

所述脑电信号特征提取，包括：

基于小波变换的脑电信号特征提取；

于共空域模式的脑电信号特征提取。

进一步的，所述基于小波变换的脑电信号特征提取，包括：

采样频率为128Hz的脑电信号s(t)进行3层离散小波变换，s(t)的离散小波变换定义：

其中：

是离散小波基函数；j为频率分辨率，k为时间平移量；

其，对s(t)进行分解，可得：

其中，A_l为低频分量，D_j为不同频率下的细节分量，各子带对应近似系数c A_l，小波系数cD_j，单一尺度下小波能量E_i定义为该尺度下小波系数平方和，因此，总小波能量的定义为：

Figure 100002_DEST_PATH_GDA0002586195110000044

相对小波能量

Figure 100002_DEST_PATH_GDA0002586195110000045

小波熵(We)可表示为：

进一步的，所述于共空域模式的脑电信号特征提取，包括：

CSP通过对原始信号进行空间投影，找到最佳投影方向，满足第一类信号在某方向方差最大，第二类信号方差最小，得到两类差别最大的投影方向；

设E为去除直流成分处理后的脑电信号矩阵，维数为N×T，其中N为脑电数据通道数目，T为每个通道的采样点数，则脑电数据的协方差矩阵为：

式中E^T为E的转置矩阵，trace(EE^T)为矩阵EE^T的迹。各类脑电信号的平均协方差为C_i，i∈{1,2}，因此，平均协方差矩阵之和为：

C_c＝C₁+C₂，

对C_c采用特征值分解，有：

式中，U_c为C_c的特征向量矩阵，λ_c为C_c的特征值矩阵，构造白化矩阵

对C_c进行白化，有：

I＝PC_cP^T，

其中I为单位矩阵，对C₁、C₂进行变换，有：

S_i＝PC_iP^T,i∈{1,2}，

其中S₁、S₂有相同的特征向量，且对应的特征值和为1，换言之，在S₁最大特征值的方向上，S₂特征值取得最小；反之，在在S₁最小特征值的方向上， S₂特征值达到最大；

若

S₁＝Bλ₁B^T，

则有

投影矩阵W为，

W＝B^TP，

其中，W为N×N阶矩阵，原始信号E通过投影，得到新信号：

Z＝WE，

选取经过W的前m行和后m行投影后产生的m对新信号进行如下变化，得最终特征值：

其中var(Z_j)为Z_j的方差。

进一步的，眼动信号特征提取包括采集注视点X坐标(FX)、注视点Y 坐标(FY)、瞳孔直径(PD)、注视时间(FT)和眼跳幅度(SA)生理特征。

进一步的，步骤S2包括SVM分类，包括：

预先设样本集为：D＝{(x₁,y₁),…,(x_l,y_l)}x∈Rⁿ y∈{+1,―1}，

其中n为样本维数，l为样本数目，则分类平面为n维超平面，可表示为：

<w,x>+b＝0w∈Rⁿ b∈R；

则分类间隔为2/‖w‖，显然，‖w‖取最小值时，分类间隔达到最大，

其最大分类间隔可转化为：

min‖w‖²/2s.t.y_i(w·x_i+b)―1≥0,i＝1,2,…,l，

当问题线性可分时，解向量w^*即支持向量，支持向量机的分类功能由支持向量决定，支持向量机即描述最优分类超平面的决策函数，可表示为：

f(x)＝sgn(<w^*,x>+b)；

当问题线性不可分时，通常采用将样本非线性变换投影到高维空间的方法，使样本在这个高维特征空间可分，此时决策函数为：

其中K(x,x_i)为核函数，α_i为拉式乘子。

本发明的有益效果：

本发明通过针对传统人机交互意图识别准确率相对较低，不同生理信息不能进行有效融合的问题，设计了基于D-S证据理论的脑电眼动信息融合人机交互意图识别方法，能够识别用户的人机交互意图，通过采集用户的脑电和眼动信号，对脑电和眼动信号分别进行特征提取和分类，然后采用D-S证据理论对脑电和眼动信号分类结果进行融合，基于D-S证据理论的脑电眼动信息融合人机交互意图识别方法具有准确率高，泛化能力强的特点，为人机交互界面自适应设计奠定基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于D-S证据理论的人机交互意图识别方法的原理示意图；

图2是根据本发明实施例的基于D-S证据理论的人机交互意图识别方法的电极位置图；

图3是根据本发明实施例的基于D-S证据理论的人机交互意图识别方法的运动想象实验界面图；

图4是根据本发明实施例的基于D-S证据理论的人机交互意图识别方法的运动想象实验范式示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了基于D-S证据理论的人机交互意图识别方法。

如图1-4所示，根据本发明实施例的基于D-S证据理论的人机交互意图识别方法，包括以下步骤：

步骤S1，采集用户脑电和眼动信号，并进行特征提取；

步骤S2，采用模式识别算法对生理信号特征进行分类识别；

步骤S3，对分类器分类算法进行决策级融合得到最终结果；

其中包括以下步骤：

Θ＝{A₁,A₂,…,A_k}，

m_i(A₁,A₂,…,A_k,Θ)＝(p_iq_i1,p_iq_i2,…,p_iq_k,1―p_i)，

其中m_i为第i种生理特征识别算法可信度分配函数，i＝1,2…n， p_i为第i种生理特征识别算法正确率，q_ij为第i种生理特征识别判定样本为第j 种认知意图的可信度，j＝1,2…k，对于识别框架Θ中任意认知意图A_j，采用多生理特征分类结果的Dempster决策规则为：

具体的：

F_i(A_j,A_h)∈{+1,―1}。

另外，对于基于小波变换(WT)的脑电信号特征提取来说，具体的：

脑机接口(Brain-computer interface,BCI)是脑电信号的应用形式，可在人脑与外部设备建立通信关系，进而通过大脑控制外部设备。BCI已经应用在医学、神经生物学和心理学等领域。运动想象(Motor Imagery,MI)脑电图(Electroencephalogram,EEG)具有灵活、非侵入性、环境要求低和分辨率高的特点，因此MI是BCI广泛应用的形式之一。运动想象过程中EEG信号的频带功率会随MI任务的内容变化，这被称为事件相关的同步化和去同步化 (ERD/ERS)。运动想象的ERS/ERD特征主要出现在α波、β波和γ波三个波段，因此这三个频段的脑电波被广泛应用于运动想象评估。

其中：

是离散小波基函数；j为频率分辨率，k为时间平移量。

其，对s(t)进行分解，可得：

其中，A_l为低频分量，D_j为不同频率下的细节分量，具体频带范围如表1 所示：

表1各子带信号对应频率范围

另外，各子带对应近似系数cA_l，小波系数cD_j，单一尺度下小波能量E_i定义为该尺度下小波系数平方和，因此，总小波能量的定义为：

相对小波能量

由信息熵理论可知，小波熵(We)可表示为：

小波熵可反映原信号在不同空间分布的有序程度，因此可用于定量描述原信号在时域上的能量分布特征。

而基于共空域(CSP)模式的脑电信号特征提取，具体的：

CSP通过对原始信号进行空间投影，找到最佳投影方向，满足第一类信号在某方向方差最大，第二类信号方差最小，得到两类差别最大的投影方向。

设E为去除直流成分处理后的脑电信号矩阵，维数为N×T，其中N为脑电数据通道数目，T为每个通道的采样点数。则脑电数据的协方差矩阵为：

C_c＝C₁+C₂，

对C_c采用特征值分解，有：

对C_c进行白化，有，

I＝PC_cP^T，

其中I为单位矩阵，对C₁、C₂进行变换，有

S_i＝PC_iP^T,i∈{1,2}，

其中S₁、S₂有相同的特征向量，且对应的特征值和为1，换言之，在S₁最大特征值的方向上，S₂特征值取得最小；反之，在在S₁最小特征值的方向上， S₂特征值达到最大。

若

S₁＝Bλ₁B^T，

则有

投影矩阵W为

W＝B^TP，

其中，W为N×N阶矩阵，原始信号E通过投影，得到新信号

Z＝WE，

其中var(Z_j)为Z_j的方差。

对任意四类信号中每两类都采用CSP进行处理，可得6个投影矩阵W，对每个矩阵W前后各选取4个最佳方向，共8个最佳方向，可得6×8＝48维特征向量。然后采用Fisher判别法进行降维，可将48维特征向量降为3维特征向量。最后，采用贝叶斯分类器，根据先验概率思想对降维后的特征进行分类：

其中，P(y_i)为标签第i类数据的先验概率，P(y_i|f)为特征为f的样本属于第i类的后验概率，P(f|y_i)为第i类样本产生特征f的似然比。分类结果为后验概率最大的i。

另外，对于眼动信号特征提取来说，采集了注视点X坐标(FX)、注视点Y 坐标(FY)、瞳孔直径(PD)、注视时间(FT)和眼跳幅度(SA)五个生理特征。

其注视点X坐标(FX)和注视点Y坐标(FY)表征用户在进行人机交互时的注视点X方向和Y方向的坐标，可以反映用户的在屏幕上的注视点位置。瞳孔直径(PD)可作为反映用户实时认知负荷的指标之一，当认知负荷增大时，瞳孔直径增大；反之，瞳孔直径减小，因此该指标可反映用户认知状态。注视时间(FT)可反映用户对视觉信息处理的难易程度，当用户面对复杂信息时，处理时间会加长，因此该指标可反映用户的认知状态。眼跳幅度(SA) 通常反映为注视点之间跳动幅度，可反映用户对视觉信息的难易程度，当用户对视觉信息进行粗加工时，眼跳幅度较大；反之，当用户对视觉信息进行精加工时，则眼跳幅度较小，因此可以反应用户的认知状态。

另外，对于SVM分类算法来书，具体的，为一种基于统计学习理论的机器学习分类算法，与普通寻优算法追求经验风险最小不同，SVM算法通过追求结构化风险最小提高了算法的泛化能力，最小化经验风险和置信范围，较好的解决了小样本条件下模式识别算法中的过学习、模型选择、维数灾难和非线性问题。该算法的基本思想是找到使两类之间分类间隔最大的最优分类平面。

其中n为样本维数，l为样本数目，则分类平面为m维超平面，可表示为：

<w,x>+b＝0 w∈Rⁿ b∈R；

则分类间隔为2/‖w‖，显然，‖w‖取最小值时，分类间隔达到最大。因此，求最大分类间隔可转化为求如下的约束优化问题：

min‖w‖²/2s.t.y_i(w·x_i+b)―1≥0,i＝1,2,…,l，

当问题线性可分时，解向量w^*即支持向量，支持向量机的分类功能由支持向量决定。支持向量机即描述最优分类超平面的决策函数，可表示为：

f(x)＝sgn(<w^*,x>+b)；

其中K(x,x_i)为核函数，α_i为拉式乘子。

另外，具体的，D-S证据理论：

D-S证据理论为一种不精确推理方法，可用于处理不确定信息，且需要的条件比贝叶斯概率论更弱。该理论不但能处理由不精确先验知识产生的不确定性，而且可以处理由不知道产生的不确定性。

设Θ为识别框架，m为区间[0,1]上的可信度分配函数，也称Mass函数，表示证据支持事件A发生的程度。

且满足：

对于

由Dempster合成规则，Θ上任意两个Mass函数，m₁、 m₂的合成方法为：

对于

由Dempster合成规则，Θ上任意有限个Mass函数m₁,m₂,…,m_n的合成方法为：

另外，决策级融合的人机交互意图识别，具体的：

决策级融合的流程，首先对采集到的生理信号进行预处理和特征提取，得到对应生理信号的特征向量，然后对脑电和眼动信号特征向量分别采用分类器进行分类，最后将各分类器分类结果采用D-S证据理论进行融合，得到决策层融合结果，具体的：

假设A₁,A₂,…,A_k为k种认知意图，通过n类生理信号进行了分类，则识别框架为：

Θ＝{A₁,A₂,…,A_k}，

m_i(A₁,A₂,…,A_k,Θ)＝(p_iq_i1,p_iq_i2,…,p_iq_k,1―p_i)，

其中m_i——第i种生理特征识别算法可信度分配函数，i＝1,2…n， p_i——第i种生理特征识别算法正确率，q_ij——第i种生理特征识别判定样本为第j种认知意图的可信度，j＝1,2…k，对于识别框架Θ中任意认知意图A_j，采用多生理特征分类结果的Dempster决策规则为：

具体的：

其中j,h——认知意图序号：k为认知意图类型的数量，F_i(A_j,A_h)根据认知意图j和h的分类面做出的判断结果，F_i(A_j,A_h)∈{+1,―1}；

采用D-S决策级融合交互意图判别方法不仅可以输出未知样本的类别还可以输出样本属于每一类的概率。D-S证据理论中可信度分配赋值问题通过机器学习算法训练得到的总体分类正确率得到了有效直观地解决。

具体的，实施例中，招募男性用户22人(其中2人因数据采集率低于50％不能作为有效受试者)，年龄范围18～22岁(M＝22.3,SD＝1.8)。在实验前每位用户都熟悉了实验流程和注意事项并签署了知情同意书。

如图2-图4所示，实验中保持窗帘关闭，每次实验只允许实验用户和操作人员进入并关闭其他电子设备，以消除光线变化和其他电磁信号的干扰。实验设备包括DELL计算机、RED5型眼动试验仪和Neuroscan 32导脑电仪。眼动信号采样频率为50Hz；显示器分辨率为1280×1024像素，屏幕亮度为 300cd/m2；被试用户与屏幕距离大约60cm，被试用户双眼与屏幕中心大致处于同一高度。Neuroscan 32导脑电仪电极分布采用国际标准10-20，选取左侧乳突为参考电极，中前额叶为接地电极，此外采集垂直和水平两个通道眼电信号，采样频率为250Hz，进行50Hz陷波和0.05～10Hz在线带通滤波，并确保电极阻抗小于5kΩ，采集信号后对肌电和眼电伪迹进行剔除。

本文采用经典运动想象实验范式，操作想象开始前屏幕呈现“放松”字样，持续2s，被试用户放松心情准备开始；随后屏幕呈现“准备”字样，持续1s，提示用户准备开始操作想象；接下来，屏幕呈现操作界面，用户操作包括“向左移动”“向右移动”和“发射导弹”，需要进行用户操作想象时图标会转变为黄色，用户根据提示的不同进行不同的操作想象。每次操作想象总时间为9s。

具体的，采集了注视点X坐标(FX)、注视点Y坐标(FY)、瞳孔直径(PD)、注视时间(FT)和眼跳幅度(SA)5项眼动参数，将FX与FY合成一类特征，作为注视点位置特征。将提取到的被试用户4类眼动特征作为算法分类依据，将20名受试对象的眼动数据进行预处理和特征提取后60％作为训练集，40％作为测试集，用SVM算法进行操作想象分类，分类准确率如表所示。从表中可以看出，眼动指标数目越多，识别准确率越高，且注视点位置特征对准确率影响更大。这说明注视点位置特征可较好反应用户的意图，但由于实验中注视点不稳定，因此需要结合其他眼动特征提高识别可靠性。本文选取的5项眼动特征对认知意图实验的准确率可达87.42％，说明眼动指标的选取是有效的。

为了探究不同机器学习方法和数据预处理方法对人机交互意图识别的影响，本文选取SVM、WT+SVM、CSP+SVM、CSP+Fisher四种方法对20名受试者脑电数据集进行识别，60％作为训练集，40％作为测试集，最终得到每名受试者识别准确率，可见对于不同受试者，算法识别的准确率与标准差略有不同。

CSP+SVM算法识别准确率显著高于另外三种算法(P<0.5)，且这种方法的标准差最小，说明该算法的敏感性低，泛化能力强，适合对脑电数据进行处理。从识别准确率看，同样采用SVM算法的条件下，采用WT方法平均识别准确率71.36％，采用CSP方法平均识别准确率为76.81％，均高于不采用特征提取方法的平均准确率67.71％。同样采用CSP特征提取方法的情况下，采用 SVM算法的平均识别准确率为76.81％，采用Fisher方法的平均识别率为72.70％。说明对于CSP特征提取方法，SVM算法的识别准确率略高于Fisher 算法。

本文对于脑电数据采用CSP+SVM方法进行预处理后对SVM算法进行训练，对于眼动数据进行特征提取，选取注视点位置(FX&FY)、瞳孔直径(PD)、注视时间(FT)和眼跳幅度(SA)4类眼动特征采用SVM算法进行训练，采用交叉对比法确定SVM算法参数。

由D-S理论，本实验中三种认知意图构成一个识别框架Θ＝{左移,右移,发射导弹}，采用表中20名受试者样本平均值作为识别准确率，则有 {p_1,p_2}＝{0.8"74",0.7"70"}，眼动和脑电识别方法由不知道而产生的不确定性{m_1(Θ),m_2(Θ)}＝{0.126,0.230}。将与训练样本对应的测试样本分别采用 SVM算法单独分类和基于D-S理论的决策级融合分类。

实验结果表明，测试样本识别率较训练样本有所下降，但降幅不大，眼动数据准确率下降0.99％，脑电数据识别准确率下降0.72％，这表明SVM算法具有较强的泛化能力。比较眼动与脑电数据识别准确率，发现眼动数据识别准确率为86.44％高于脑电数据识别准确率76.29％，说明眼动数据对人机交互意图识别准确率高于脑电数据。基于D-S证据理论对数据进行决策级融合后识别准确率最高可达96.03％，平均识别准确率可达92.34％，高于眼动和脑电数据识别准确率，且数据识别准确率方差仅为1.82，表明基于D-S理论的数据融合方法对样本敏感性低，泛化能力强，验证了D-S理论在多生理信息的意图识别方面有优势，从图中也可看出基于D-S证据理论的决策级融合方法具有准确率高，对样本敏感性低，泛化能力强的特点。

综上所述，借助于本发明的上述技术方案，通过针对传统人机交互意图识别准确率相对较低，不同生理信息不能进行有效融合的问题，设计了基于D-S 证据理论的脑电眼动信息融合人机交互意图识别方法，能够识别用户的人机交互意图。通过采集用户的脑电和眼动信号，对脑电和眼动信号分别进行特征提取和分类，然后采用D-S证据理论对脑电和眼动信号分类结果进行融合，基于D-S证据理论的脑电眼动信息融合人机交互意图识别方法具有准确率高，泛化能力强的特点，为下一步人机交互界面自适应设计奠定基础。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。