CN115469749B

CN115469749B - 一种基于听觉脑机接口的目标定位方法

Info

Publication number: CN115469749B
Application number: CN202211189358.4A
Authority: CN
Inventors: 史健廷; 毕路拯; 王瑞东; 彭博林
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-04-07
Anticipated expiration: 2042-09-28
Also published as: CN115469749A

Abstract

本发明公开了一种基于听觉脑机接口的目标定位方法,包括以下步骤：步骤一、采集人脑皮层脑电信号，并采用时间窗截取所述脑电信号判断是否出现目标声音；步骤二、若出现目标声音则对相应的所述脑电信号进行解码处理，获得所述目标声音的位置；否则返回步骤一。本发明通过听觉脑机接口技术实现目标声音的定位，在混杂的声音背景下也具有较强鲁棒性，且响应快速、结果可靠，是神经科学、人类智能在目标定位方面的重要的应用。本发明为听觉脑机接口应用的研究提供了新的思路，为人机交互、人机协同的进一步研究提供了基础。

Description

一种基于听觉脑机接口的目标定位方法

技术领域

本发明属于神经科学与脑-机接口领域,尤其涉及一种基于听觉脑机接口的目标定位方法。

背景技术

脑-机接口技术是脑科学的重要研究内容与应用。随着神经科学与脑-机接口技术的发展，越来越多的研究者开始关注人类听觉机制，并将其应用于听觉脑机接口。人类的听觉系统非常强大，与机器听觉相比具有不可比拟的优势，尤其是在复杂的混合声音背景下，人类的听觉系统可以从重叠的干扰声音中准确的获取到目标声音的内容与位置，完成对不同声音的筛选与跟踪，实现机器无法完成的听觉任务。而人类听到目标声音时，脑电皮层信号(EEG)会有相应的神经活动表征，利用脑机接口技术可以对该EEG信号进行解析，进而快速、可靠的获取目标声音的出现时间与方位。

近二十年来，利用听觉脑机接口技术进行目标定位的研究取得了一定的进展，特别是对听觉神经机制的研究比较丰富。Jyrki Ahveninen等人证明，注意力驱动的短期可塑性使神经元能够从人类非初级听觉皮层的噪音中分离出相关的声音。还有一些研究使用时间反应函数(TRF)来模拟混杂声学场景中的神经反应，以研究其潜在的神经机制。CostaS.D.等基于听觉处理理论的双流模型，研究了早期听觉区域在跟踪空间声音目标中的贡献。Adam Bednar等人证明，可以从脑电图数据可靠地重建参与声音的空间运动轨迹。Prachi等人在被试核心听觉皮层植入深度电极，探索了空间和光谱时间的联合编码机制，并证明了人类大脑对空间音频具有双侧偏好。Simon Geirnaert等人使用公共空间模式(common spatial pattern,CSP)方法对注意力定向焦点进行解码。Lucas Deckers等人利用卷积神经网络从脑电图信号中提取听觉注意轨迹，实现了更高的精度和更快的解码速度。

利用听觉脑机接口技术进行目标定位具有重要的研究价值。但是目前的听觉脑机接口的目标定位研究中，大都是聚焦于纯净的声音刺激下的目标定位，并未考虑存在重叠的干扰声音情况下的研究。此外，现有研究所使用的实验范式大都是基于电子声、高斯白噪声等声音信号，但是在实际的应用过程中，实际情况下需要在自然场景环境声音中进行声音目标定位。综上所述，亟需一种能够应用在复杂自然声学场景下的听觉脑机接口目标定位方法成为了研究人员关注的问题。

发明内容

本发明的目的在于提出一种基于听觉脑机接口的目标定位方法，将脑电皮层信号(EEG信号)经过预处理后，首先检测是否出现目标声音，即判断脑电信号中是否出现了目标声音所引发的事件相关电位。然后再根据该时间段颞叶、枕叶等脑区的表征信息解码出该目标声音的方位。

为实现上述目的，本发明提供了一种基于听觉脑机接口的目标定位方法，包括以下步骤：

步骤一、采集人脑皮层脑电信号，并采用时间窗截取所述脑电信号判断是否出现目标声音；

步骤二、若出现目标声音则对相应的所述脑电信号进行解码处理，获得所述目标声音的位置；否则返回步骤一。

可选的，所述步骤一具体包括：

根据电极脑电帽实时采集所述脑电信号；

对所述脑电信号进行预处理和特征提取处理，获得脑电信号特征；

对所述脑电信号特征进行分类，判断此时是否出现所述目标声音。

可选的，对所述脑电信号进行预处理具体包括以下流程：

高通滤波、降采样、基线修正、伪迹滤除、共平均参考。

可选的，对所述脑电信号进行特征提取处理具体包括：

基于所述脑电信号，将所述脑电信号的相关谱扰动作为时域特征，对所述时域特征采用主成分分析降低特征维度。

可选的，对所述脑电信号特征进行分类，判断此时是否出现所述目标声音包括：

根据正则化线性判别分析对所述脑电信号特征进行分类。

可选的，步骤二具体包括：

若出现所述目标声音，对相应的所述脑电信号进行神经表征分析，获得所述目标声音的电极位置；

根据所述目标声音的电极位置构建目标声音方位的解码模型，获得所述目标声音的位置。

可选的，对相应的所述脑电信号进行神经表征分析，获得所述目标声音的电极位置具体包括：

基于sLORETA的源分析方法定位出所述目标声音出现时激活的脑区，以及采用的2D头皮点位脑拓扑图中不同电极之间的拓扑信息，获得每个时间窗各个电极的电极位置。

可选的，根据所述目标声音的电极位置构建目标声音方位的解码模型具体包括：

根据所述电极位置采用三维卷积神经网络构建目标声音方位的解码模型。

本发明技术效果：本发明公开了一种基于听觉脑机接口的目标定位方法，在混杂的声音背景下也具有较强鲁棒性，且响应快速、结果可靠，是神经科学、人类智能在目标定位方面的重要的应用。本发明为听觉脑机接口应用的研究提供了新的思路，为人机交互、人机协同的进一步研究提供了基础。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例基于听觉脑机接口的目标定位方法的流程示意图；

图2为本发明实施例中受试者脑头皮指定电极位置图；

图3为本发明实施例中实验范式说明图；

图4为本发明实施例中2D头皮点位脑拓扑图；

图5为本发明实施例中所用的三维卷积神经网络数据映射流程结构图。

图6为本发明实施例中所用的3D-CNN模型的结构与参数设置。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，本实施例中提供一种基于听觉脑机接口的目标定位方法，包括以下步骤：

将脑电皮层信号(EEG信号)经过预处理、特征提取后，首先检测是否出现目标声音，即判断脑电信号中是否出现了目标声音所引发的事件相关电位。然后再根据该时间段颞叶、枕叶等脑区的表征信息解码出该目标声音的方位。

具体步骤如下：

步骤一、对被试进行如图3所示的实验，并采集到实验过程中的脑电信号，通过解码脑电信号，判断复杂声学环境中是否出现目标声音；

S1、实验范式如图3所示，被试的左右耳随机出现长为3秒的目标声音，试验期间双耳持续播放复杂的背景噪声，并通过如图2所示的64电极脑电帽持续采集人脑皮层电信号；

S2、预处理与特征提取：用时间窗截取采集到的脑电信号，窗长1000ms，窗移500ms，即每500ms对采集到的一秒脑电信号进行预处理与特征提取操作。所述预处理流程包括带通滤波、降采样、基线修正、伪迹滤除、共平均参考。所述特征提取使用脑电信号的事件相关谱扰动(ERSP)作为时频域特征，展开为一维后使用主成分分析(PCA)算法降低特征维数。

其中，带通滤波截取0.5-20Hz的脑电信号，降采样至200Hz，伪迹滤除采用FastICA方法。

特别地，本发明选用事件相关谱扰动(ERSP)作为时频域特征，ERSP算法是将多次实验数据的能量谱叠加，并计算该能量谱相对于刺激出现前基线能量谱的变化值.如果刺激出现后的能量谱有所提高或降低，则说明其对于时间有锁时关系；反之则没有。

本发明选择使用主成分分析(PCA)降低特征维数，其计算步骤如下：

第一步，标准化变换：

式中：X_i为随机样本变量；

为样本均值；S_i为样本标准差。

第二步，计算相关系数矩阵：

式中：r₁₁(i,j＝1,2,···,p)为原来变量x_i与x_j的相关系数，其计算公式为：

因为R为实对称矩阵，所以只需要计算其上三角元素或下三角元素即可。

第三步，计算特征值和特征向量：先求解特征方程|λI-R|＝0，得到特征值λ_i(i＝1,2,…,p),并将特征值按大小顺序排列，即λ₁≥λ₂≥…≥λ_p≥0；然后求出对应于每个特征值λ_i的特征向量e_i(i＝1,2,…,p)。

第四步，求出每个主成分的贡献率与累计贡献率:

主成分z_i贡献率:

累计贡献率:

通常选择累计贡献率达85％～95％的特征值λ₁，λ₂，…，λ_m,对应的第一，第二到第m(m≤p)个主成分。将前m个特征值对应的特征向量组成变化矩阵L，与样本矩阵Z相乘则得到的经过PCA算法选择后的特征为矩阵A，如下式所示。

A＝L*Z

S3、特征分类：得到每一时刻是否出现目标声音；分类方法采用正则化线性判别分析(RLDA)。

RLDA分类器的数学形式表述为y＝w^Tx,

其中x代表输入分类器的一个样本(n维特征向量)，y为分类结果，投影矩阵w可通过下式进行计算

其中μ_e和μ_n分别代表所有目标训练样本的均值和所有非目标训练样本的均值，∑′_w为正则化后的类内离散度矩阵，它可由下式计算

∑′_w＝(1-λ)∑_w+λvI

∑_w为类内离散度矩阵，它可以通过对两类样本的协方差矩阵求和得到。λ是一个可调的参数，取值范围为(0,1]，I为的单位矩阵，trace()代表求矩阵的迹，d的值为类内离散度矩阵∑_w的维度。

RLDA的分类是通过将y值与阈值Tr进行比较而实现的。本发明中当y>Tr，则RLDA判定当前样本为出现目标声音，否则为未出现目标声音。

步骤二、若出现目标声音，截取该段脑电信号，通过对颞叶、枕叶等脑区的解码得到该目标声音的方位；使用基于sLORETA的源分析方法定位出目标声音出现时激活的脑区、使用图4中2D头皮点位脑拓扑图得到每个时间点各电极的电位变化。为了得到目标声音的方位，需要保留各头皮电极的位置信息以及不同电极之间的拓扑信息，采用三维卷积神经网络(3D-CNN)作为分类器，建立目标声音方位的脑电解码模型。

本发明使用的sLORETA算法是一种源定位方法，它可以根据EEG信号估计出脑内源的活动，由于源的数量未知，但远高于采集帽的电极数量，所以源估计的问题被称为逆问题，它可用如下线性方程表示：

其中，在每个样本中，M是Ne个电极测量到的时间序列组成的向量；H表示从源到电极映射的前向模型，维度为Ne×Ns，其中Ns表示源的数量；向量J代表Ns个源的振幅大小，J中的每一个量都处于0-1之间，0代表该源未被激活，1代表该源的活动达到最大，除此之外，

代表添加的噪声。我们的目标是估计J向量，该问题可用下式表示：

其中

表示向量J的估计值，φ(J)是附加约束，λ为其拉格朗日乘数，利用φ(J)的L2范数可得到该问题的解，形式如下：

其中矩阵W代表信号空间M的数据投影至源空间J的闭型解。根据以上式子可得出：

在sLORETA算法中，使用了矩阵

对真正的源向量J与估计值

之间的关系进行归一化处理：

因此sLORETA算法中得到的源估计为：

其中，

为第l个源的电流密度估计，

为

矩阵中第l个对角线元素。

通过sLORETA算法进行源估计，可获取不同方位的目标声音所激活的脑区，根据该激活脑区选择后续进行解码的头皮电极。其余未激活的脑区则被认为在目标声音出现时无明显大脑活动，它们所对应的头皮电极对于目标声音的识别贡献度不高，不被用于后续的解码。

在此之后进行方位解码模型的训练，为进一步提升方位判断的准确率，本发明使用了三维卷积神经网络(3D-CNN)分类器作为方位判别的解码模型，该方法考虑了头皮电极上不同电极之间所处的位置关系，以及电极之间的拓扑信息，对于本发明所面对的声源定位问题可取得较为优异的表现。为了将数据输入至三维模型，首先需要对数据进行维度转变的操作，将图2所示的脑电帽电极按照位置填入9*9的矩阵，无电极位置在矩阵中使用数字0进行填充。进行这种填充的原因主要有适合模型输入和最大化模拟电极分布位置这两点。根据sLORETA源分析算法得出的贡献率不高的电极所对应的矩阵中数字也置0。通过该方式获得了一个代表通道位置的二维矩阵之后，再将时间维度嵌入，结合后形成一个三位的数据结构。三维卷积神经网络数据映射流程结构图如图5所示。

最终得到了9*9*100(500ms的数据共包含100个数据点)维度的脑电信号三维数据结构，使用这类脑电信号表示方法，可以更好地提取脑电电极间的空间拓扑关系，同时又能较好地保持电极的时间特征。在最终轴上扩展维数后，将此矩阵输入到所构建的三维CNN模型中，三维卷积神经网络模型模型由一个输入层、两个级联块、两个池化层，一个展平层和一个密集层(相当于全连接)组成，输入层为前述得到的三维脑电信号；之后为一级联块，该组分的作用是用来进行多尺度特征的提取，每个块包含一个具有3D卷积运算的过渡层，以及具有不同核大小的两个平行的3D卷积分支。对于过渡层，它被用在两个并行分支之前，可以从原始脑电信号中提取一些具体的特征或合并前一块的信息，此块中该层的核大小和步长分别设置为5*5*5和2*2*4，通过该策略，网络在提高检测性能方面有了更大的接受域；采用填充策略以保持每一层的输入和输出的大小相同，此部分的填充的大小为2*2*2，这一操作在一定程度上可以防止空间信息随着网络的加深而迅速丢失。在每个分支的末尾，使用串联操作将结果组合在一起，并输入到下一个块。在此之后，数据输入至归一化层。该层可以最大化的减小内部协方差漂移，加快训练的过程；之后输入至激活函数层，激活函数层可以增强神经网络的非线性表示能力。第二级联块的核大小和步长分别为5*5*3和1*1*1，填充层大小为1*1*0。该模型最终的输出为一个二维向量，即输出目标声音的方位是左边还是右边。该3D-CNN的结构与参数设置如图6所示。

每位受试者进行240次图3所示的实验，每位受试者获取240个样本(左右方位的目标声音所引发的脑电信号样本各120个)，200个样本作为训练样本，40个样本进行测试，进行3D-CNN模型的训练。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于听觉脑机接口的目标定位方法，其特征在于，包括以下步骤：

步骤一、采集人脑皮层脑电信号，并采用时间窗截取所述脑电信号，判断是否出现目标声音；

步骤二、若出现目标声音则对相应的所述脑电信号进行解码处理，获得所述目标声音的位置；否则返回步骤一；步骤二具体包括：若出现所述目标声音，对相应的所述脑电信号进行神经表征分析，获得所述目标声音的电极位置；根据所述目标声音的电极位置构建目标声音方位的解码模型，获得所述目标声音的位置；对相应的所述脑电信号进行神经表征分析，获得所述目标声音的电极位置具体包括：基于sLORETA的源分析方法定位出所述目标声音出现时激活的脑区，以及采用的2D头皮点位脑拓扑图中不同电极之间的拓扑信息，获得每个时间窗各个电极的电极位置；根据所述目标声音的电极位置构建目标声音方位的解码模型具体包括：根据所述电极位置采用三维卷积神经网络构建目标声音方位的解码模型。

2.如权利要求1所述的基于听觉脑机接口的目标定位方法，其特征在于，所述步骤一具体包括：

根据电极脑电帽实时采集所述脑电信号；

3.如权利要求2所述的基于听觉脑机接口的目标定位方法，其特征在于，对所述脑电信号进行预处理具体包括以下流程：

高通滤波、降采样、基线修正、伪迹滤除、共平均参考。

4.如权利要求2所述的基于听觉脑机接口的目标定位方法，其特征在于，对所述脑电信号进行特征提取处理具体包括：

5.如权利要求2所述的基于听觉脑机接口的目标定位方法，其特征在于，对所述脑电信号特征进行分类，判断此时是否出现所述目标声音包括：

根据正则化线性判别分析对所述脑电信号特征进行分类。