CN116451059A

CN116451059A - 一种基于注意力机制的对比表征脑机视频目标检测方法

Info

Publication number: CN116451059A
Application number: CN202310313394.5A
Authority: CN
Inventors: 孔万增; 洪晨益; 朱莉; 张建海
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-07-18

Abstract

本发明公开了一种基于注意力机制的对比表征脑机视频目标检测方法。该方法使用了两个轻量级的卷积神经网络和一个多头注意力机制的卷积神经网络，对大脑的注意力信息进行解码分类，利用脑电通道与时间维度的注意力机制以及通过对比表征的方法解决类不平衡问题，具体在训练特征提取器的阶段，对时间和空间维度的特征提取上加入了注意力机制，可以显式的解耦出空间和时间上的信息，并且通过样本对内对比学习的方式解耦出两个类间的微弱的特征差异，在特征提取的后期阶段引入多头注意力机制以学习样本的多个特征来发现微弱细小特征差异。从而定位目标是否出现以及消失的时间，解决P300特征在长视频检测中衰弱以及正负样本的长尾分布问题。

Description

一种基于注意力机制的对比表征脑机视频目标检测方法

技术领域

本发明属于脑机协同技术领域，涉及到目标检测方法，具体涉及一种基于注意力机制的对比表征脑机视频目标检测方法。

背景技术

脑机接口能够将大脑信息转化为指令，实现大脑和外部设备的直接通信。在它的应用形式中，包括帮助延伸疾病患者的运动能力，比如注视独立的脑机接口(Gaze-independent BCI system)可以用来恢复眼球运动障碍患者的交流能力。以及利用人强大的视觉感知能力协同机器实现智能化增强，比如在军事领域用于从大量的图片中寻找目标图像。在脑电图像目标判读中，一种可靠的方式是采用大脑的空间注意力机制，即利用事件刺激后大脑的空间分布特征判断目标特征。图像目标判读包括目标检测和定位，在大部分应用中，目标来源都是静态的图片，而对于视频流中的动态目标判定，以及针对于目标消失时间节点的判别，都没有相关的解决方案。

P300是大脑认知过程中产生的一种事件相关电位，主要与期待、意动、觉醒、注意等心理因素有关，Sutton等人发现，当人脑受到小概率相关事件的刺激时，脑电信号中会出现一个潜伏期约为300ms的正向波峰，P300因此得名。在基于P300的iddball刺激范式BCI系统研究中，最经典的应用是Farwell和Donchin在1988年提出和设计的P300字符拼写器，通过靶向刺激来实现字符拼写。P300作为一个重要的ERP特征，在脑电研究和应用中得到了广泛的使用。近年来，随着深度神经网络的发展，越来越多人利用神经网络技术实现脑电端到端的特征提取，并且表现出优越的性能。由于P300是一个由小概率事件引发的一个脑电ERP特征，所以在实验的过程中，目标出现的概率较低，从而导致数据采集的过程中，正样本的样本数量与负样本的比例失衡，存在样本数量不均衡的问题，也叫长尾分布问题。此外，由于P300的特性，在视频范式中会导致目标刚出现时P300特性的消失，使得在目标出现的视频后期无法将P300作为目标是否出现的依据，需要找出其他的特征来作为判断依据。学习脑电特征中潜在的不变量仍然具有很大的挑战。

发明内容

针对现有技术的不足，本发明提出了一种基于注意力机制的对比表征脑机视频目标检测方法，利用脑电通道与时间维度的注意力机制以及通过对比表征的方法解决类不平衡问题，对大脑的注意力信息进行解码分类，从而定位被试注意的目标是否出现以及目标出现后在何时消失，解决P300特征在长视频检测中衰弱需要寻找其他的微弱特征，以及正负样本的长尾分布问题。

一种基于注意力机制的对比表征脑机视频目标检测方法，具体步骤如下：

步骤1、获取空间定位脑电数据

采用脑机接口(BCI)中的快速序列视觉呈现(RSVP)范式，采集被试观看视频内容时的脑电数据。所述视频内容中目标出现的时间点与位置随机，但是出现的时长相同。将采集的脑电数据分割成N个样本C表示脑电的电极数量，T表示一个样本的时间长度。将有无目标出现作为样本的类别标签，其中有目标视为正样本，无目标视为负样本。

步骤2、正负样本对配对

为了解决正负样本数量不匹配的问题，将正、负样本进行配对。分别在正、负样本中选择两个相同类别的样本组成一个正样本对，再采用随机选择的方式从正、负样本中选择两个不同类别的样本构造负样本对，并剔除重复的样本对。

步骤3、基于脑电通道的空间注意力自适应校准

对于每一个输入的样本，通过显式建模不同电极通道之间的相互依赖关系，自适应地重新校准通道响应特性，探寻空间域中的判别特征。具体方法是借鉴ECAnet对样本的每个脑电电极通道进行挤压和提取操作。所述挤压操作是先对样本进行全局平均池化，再输入一个卷积核大小由自适应函数确定的1×1卷积层，将样本的全局时间信息压缩成一组通道描述符z_c，避免维度的塌缩，同时捕获各个电极之间的相互依存和交互关系。在形成通道描述符后，通过门控机制和sigmoid激活函数，生成权重因子表征各通道电极的权值。最后使用权重因子与输入样本的脑电电极通道相乘，校准通道注意力。

步骤4、基于时间通道的注意力自适应校准

对于通道注意力校准后的样本，通过与步骤3相同的方式，采用ECAnet对样本中的时间通道进行计算，针对不同时间维度之间的相互依赖关系，生成权重因子表征各时间点的权值，校准时间注意力。

步骤5、基于多头注意力机制的通道特征深度自适应提取

采用多头注意力机制的思想，自适应地调整通道注意力的权重，包括分离、注意力计算和融合。首先将经过步骤4校准后的样本数据拆分成3个相同的分支，然后分别输入3个SENet中，分别寻找不同的空间特征方向，生成不同的权重。最后通过相加的方式对3个SENet的输出结果进行融合，提取深度通道特征。为了节省计算量，在每个通道计算时采用了降维操作，为了保证数据的有效性，采用直接复制的方法，直接将原始数据复制到各个注意力计算网络中。

步骤6、对比表征学习

将步骤2得到的一个样本对中的两个样本依次经过步骤3～5的处理，分别得到两个样本在映射空间上的特征向量，再使用两个全连接层将特征向量展开，计算其余弦相似度或者欧式距离，作为两个特征向量在样本映射空间中的距离。使用正、负样本对之间的距离来返回loss，再进行反向传播，使两个相同样本之间的距离尽量紧凑，类间样本的距离尽量变大。

步骤7、目标检测

在步骤6反向传播训练结束后，固定网络参数，比较分类器输出的预测类别与样本的真是类别，对分类器进行训练。然后输入类别未知的样本，判断是否存在目标以及目标消失的时间。

本发明具有以下有益效果：

本发明采用了两个轻量级的卷积神经网络和一个多头注意力机制的卷积神经网络，有效的捕获脑电的通道和时间特征。相较于现有的基于脑电的RSVP目标检测都是针对静态目标，本发明提出的检测方法针对的视频中出现的目标范式，并且针对视频中目标长时间出现后P300特征衰弱，采用对比学习的方法，有效寻找类间差异特征。在训练特征提取器的阶段，对时间和空间维度的特征提取上加入了注意力机制，可以显式的解耦出空间和时间上的信息，并且通过样本对内对比学习的方式解耦出两个类间的微弱的特征差异，在特征提取的后期阶段引入多头注意力机制以学习样本的多个特征来发现微弱细小特征差异。还通过样本配对的方式增加了样本对的数量，解决了类不平衡问题。

附图说明

图1为脑机视频目标检测方法流程图；

图2为实施例中使用的范式视频截图；

图3为基于脑电通道的空间注意力自适应校准示意图；

图4为基于时间通道的注意力自适应校准示意图；

图5为基于多头注意力机制的通道特征深度自适应提取示意图；

图6为对比表征学习示意图；

图7为目标检测示意图。

具体实施方式

以下结合附图对本发明方法做详细描述。如图1所示，一种基于注意力机制的对比表征脑机视频目标检测方法，具体步骤如下：

步骤1、获取空间定位脑电数据

采集脑电数据前首先需要进行实验设计。本实施例采用脑机接口(BCI)中的快速序列视觉呈现(RSVP)范式，刺激视频是总时长为10s的动画视频，动画视频通过动画软件自制。每段动画视频均会不定时在画面中的某个方位出现一个目标图像。如图2所示，目标图像为一头卡通牛。每段动画视频中目标图像的出现时间固定为4s。本实施例中使用的动画视频包括七类：无目标视频、目标在0s出现、目标在1s出现、目标在2s出现、目标在3s出现、目标在4s出现、目标在5s出现。一共有500个视频用于播放，其中含有目标的视频与无目标的视频数量比例为1：1。在脑电数据采集的过程中，被试距离播放动画视频的屏幕70cm左右，使用64通道Neuroscan设备进行非侵入采集，采用10-20系统电极放置法，采集前所有电极的阻抗均保持在15Ω以下，采样率为1000hz。被试需要完成8个批次的观看任务，每个批次包含50个视频。在每一个视频播放完成后会有“+”呈现在屏幕中央2s，使被试可以得到休息并集中注意力，在每一个批次完成以后，被试通过点击鼠标来开始观看下一批次的视频，或选择休息。在观看视频的过程中被试需要时刻注意目标是否出现，并在目标出现后一直盯着目标。

对于采集得到的脑电数据首先进行巴特沃斯带通滤波处理，滤波至0.1-40hz，之后将1000hz的脑电数据降采样至250hz，最后将连续的脑电数据划分为多个片段，使用刺激前的300ms数据对刺激开始后0-1000ms的数据段进行基线校准。然后对于无目标出现的脑电数据按照一定时间间隔提取切片，作为负样本。有目标出现的脑电数据按照1s的间隔切片，并区分前后时间段，作为正样本。

步骤2、正负样本对配对

对于正负样本对的配对，首先给定一个初始值NUM，从步骤1得到的正样本和负样本中分别选择两个相同类别的样本组成一个正样本对，共构造对。

然后分别从正样本和负样本中分别选择两个不同类别的样本组成一个负样本对，共构造对。为避免随机选择导致的样本对重复问题，负样本对的构造方法为：给定一个阈值T，每次选定两个初始值I1和I2，分别在正样本和负样本中从I1、I2的位置开始进行一个滑动窗口配对，在达到阈值T后，重新随机的选择I1和I2，直到负样本对的数量达到/>

步骤3、基于通道的空间注意力校准

如图3所示，对于每一个样本首先将其由[m,n,c,t]形式转化为[m,c,n,t]形式，其中C表示电极数量，T表示一个样本的长度，N表示样本的总数量，m表示一个批次的样本数量，n表示特征通道数量，c表示电极通道数量，t表示时间节点。通过显式建模不同通道之间的相互依赖关系，自适应地重新校准电极通道响应特性，探寻空间域中的判别特征。因此将每个转化后的样本输入ECANet进行挤压和提取操作。与SENet不同，ECANet采用的是一维卷积操作，意在捕获跨通道之间的依存关系，采用全连接层捕获全部通道之间的关系并不是特别的高效，尤其是对于时间序列来说，一个时间切片可能只与其相邻的时间片之间会产生联系，对于时间序列来说这种联系可能是没必要的。

所述挤压操作通过在输入样本的空间维度上进行特征图聚合，以生成通道描述符。通道描述符可以用于生成通道特征响应的全局分布嵌入，并允许所有层使用来自网络全局接收域的信息，生成方法是对样本进行全局平均池化操作：

其中，F_sq()表示全局平均池化操作，z_ic表示第i个样本中第c个通道的描述符，Q_ic代表第i个样本中第c个通道的信号/>q_ic(j)代表第i个样本中第c个通道的第j个时间点。之后为了挖掘电极通道间的相关性，再将z_ic输入一个卷积核大小为kernel的1×1卷积层，将样本的全局时间信息压缩成一组通道描述符z_c。其中kernel通过以下自适应函数计算得到：

其中，abs()表示计算绝对值，y和b是数值固定的超参数，在本实施例中y＝2,b＝1。

再通过一个sigmoid激活函数、一个维数增加层，返回到与输入相同的通道数，将通道描述符z_c映射到一组通道权重中，作为电极通道上的自注意权重，生成激活因子s：

s＝F_ex(z_i,W)＝σ(g(z_i,W))

F_ex()表示全连接操作，用于学习通道之间的相关性，σ()表示sigmoid激活函数，g()表示池化层和一维自适应卷积函数，W∈R是一维卷积层的参数，z_i表示第i个样本对应的描述符，最后激活因子s与输入样本的脑电电极通道相乘，校准通道注意力，校准后的样本数据为其中/>F_scale(q_ic,s_ic)是指权值s_ic和特征值q_ic进行基于通道的元素相乘操作，在完成上述操作后，将数据形式从[m,c,n,t]转置回[m,n,c,t]。

步骤4、基于时间通道的注意力自适应校准

如图4所示，对于通道注意力校准后的样本首先将其由[m,n,c,t]形式转化为[m,t,n,c]形式，然后再通过与步骤3相同的方式进行压缩和提取，针对不同时间维度之间的相互依赖关系，生成权重因子表征各时间点的权值，校准时间注意力,在完成操作后，将数据形式从[m,c,n,t]转置回[m,n,c,t]，得到此步骤的输出/>是经过空间和时间两个通道的注意力计算之后最终得到的一个输出数据，可以使网络有效的提取到样本中的细粒度时间空间特征，使网络更能注意到那些具有区分性的特征。

步骤5、基于多头注意力机制的通道特征深度自适应提取

采用多头注意力机制的思想，利用相同的模型捕捉特征空间中不同的特征行为，自适应地调整通道注意力的权重，包括分离、注意力计算和融合。

此步骤的主要思想是提高网络注意力机制的容错性以及发掘更多的特征。在同一个注意力机制中，若一开始就注意到了错误的特征，则在后面的学习过程可能会将这个错误的特征放大，使用多头注意力就是为了让网络学习各种不同注意力的同时，可以抛弃那些错误的特征并且及时的纠正，提取出正确的特征。

如图5所示，为了原始数据不失真，对步骤4校准后的样本数据进行复制，然后分别输入3个SENet中进行注意力计算，采用不同注意力的变换方式形成三个不同分支：所述SENet的门控机制为两个全连接层，生成通道向量/>和生成激活因子的公式分别如下：

s^se＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z)

δ表示ReLU函数，r为SENet初始自设的超参数是两个全连接层的参数,F_se()表示平均池化操作操作，F_ex()是为了生成激活因子的激活操作，s^se为生成的激活因子。

最后融合来自多个分支的信息，通过求和计算得到自适应提取的通道深度特征

步骤6、对比表征学习

如图6所示，将步骤2得到的第k个样本对中的两个样本与/>依次经过步骤3～4的处理，分别得到两个样本在映射空间上的特征向量/>与/>

其中，F_t表示步骤3到5的特征提取操作，f为卷积操作函数。再使用全连接层将特征向量展开、激活与降维，得到对应的估量值xz₁与xz₂：

δ‘表示ELU函数，是两个全连接层的参数。通过投影得到一个样本对在同一个低纬投影空间上的映射，计算两者之间的余弦相似度z^sim来返回损失函数loss：

其中M是负样本对的集合，N是正样本对的集合，bb为一个偏置值，是一个超参数，此处在一个批次内将负样本对的值除以正样本对的值作为一个loss的返回，可以使类间差距越来越大，类内间距缩小。

步骤7、分类器学习

如图7所示，在经过步骤6的表征学习后，将前面表征学习阶段的参数固定，专门对分类器进行训练，首先得到表征器输出的向量O_k,用一个全连接层和Softmax激活函数进行分类，并将输出信息与类别标签进行对比，这里使用全连接层作为分类器来学习，其损失函数使用一个交叉熵损失(Cross Entropy Loss)：

p(x_i)表示样本x_i属于正样本的概率，q(x_i)表示样本属于负样本的概率。使用交叉熵损失，采用了类间竞争的机制，可以学习到类间的信息，交叉熵损失只关系对于正确标签预测概率的正确性，而忽略了其他非正确标签的差异，会使学习到的特征比较的散，本申请对分类器学习使用交叉熵损失，对特征提取器使用类间度量损失，有效的将两者的优势结合起来，并且减小了他们各自的缺点对于网络分类模型带来的损失。

下表是分别使用现有模型与本方法提出的模型进行目标出现与消失检测的结果：

本实施例选择了Acc、F1 score以及BA共3个指标对实验结果进行衡量，其中Acc表示测试样本中算法分类正确的样本个数占测试样本总数的比例：

Acc＝(TP+TN)/(TP+TN+FP+FN)

TP表示将正类预测为正类个数，FN表示将正类预测为负类个数，FP表示将负类预测为正类个数，TN表示将负类预测为负类个数。由于Acc这个评价指标的缺点是当样本中的类不匹配时，无法客观评价算法的优劣程度。因此又引入了F1 score与BA。

F1 score＝(2*Precision*Recall)/(Precision+Recall)

精确率Precision是预测为正的样本中真正的正样本所占比重，Precision＝TP/(TP+FP)。召回率Recall是正样样本中被正确预测的比重，Recall＝TP/(TP+FN)。因此F1score可以同时兼顾精确率和召回率两个指标。

BA＝(TP/(TP+FP)+TN/(TN+FN))/2

BA用于表征各个类间精确率的平均值，在样本失衡的状态下，可以使用BA分数判别算法分类性能优劣，有效的得出各个类中的局部正确率，数值越高说明各个类间的正确率也是相应的更高。

因此本实施例选用的3个评价指标能够较为客观、全面得反应检测模型的性能。而根据表格数据可知，本方法在3个评价尺度下都具有更优秀的表现。

Claims

1.一种基于注意力机制的对比表征脑机视频目标检测方法，其特征在于：具体包括以下步骤：

步骤1、获取空间定位脑电数据

采集被试观看视频内容时的脑电数据，并分割成N个样本C表示电极数量，T表示样本长度；将有无目标出现作为样本的类别标签，其中有目标视为正样本，无目标视为负样本；

步骤2、正负样本对配对

分别在正、负样本中选择两个相同类别的样本组成一个正样本对，再分别选择两个不同类别的正、负样本构造负样本对，并剔除重复的样本对；

步骤3、基于脑电通道的空间注意力自适应校准

使用ECAnet对样本的每个脑电电极通道进行挤压和提取操作，捕获各个电极之间的相互依存和交互关系，生成权重因子表征各通道电极的权值；最后使用权重因子与输入样本的脑电电极通道相乘，校准通道注意力；

步骤4、基于时间通道的注意力自适应校准

对于通道注意力校准后的样本，采用ECAnet对样本中的时间通道进行计算，针对不同时间维度之间的相互依赖关系，生成权重因子表征各时间点的权值，校准时间注意力；

步骤5、基于多头注意力机制的通道特征深度自适应提取

首先将经过步骤4校准后的样本数据拆分成3个相同的分支，然后分别输入3个SENet中，寻找不同的空间特征方向，生成不同的权重；最后通过相加的方式对3个SENet的输出结果进行融合，提取深度通道特征；

步骤6、对比表征学习

将步骤2得到的一个样本对中的两个样本依次经过步骤3～5的处理，分别得到两个样本在映射空间上的特征向量，再使用两个全连接层将特征向量展开，计算其余弦相似度或者欧式距离，作为两个特征向量在样本映射空间中的距离；使用正、负样本对之间的距离来返回loss，再进行反向传播，使两个相同样本之间的距离尽量紧凑，类间样本的距离尽量变大；

步骤7、目标检测

在步骤6反向传播训练结束后，固定网络参数，比较分类器输出的预测类别与样本的真是类别，对分类器进行训练；然后输入类别未知的样本，判断是否存在目标以及目标消失的时间。

2.如权利要求1所述一种基于注意力机制的对比表征脑机视频目标检测方法，其特征在于：所述视频内容中目标出现的时间点与位置随机，但是出现的时长相同。

3.如权利要求1所述一种基于注意力机制的对比表征脑机视频目标检测方法，其特征在于：对于采集得到的脑电数据首先进行巴特沃斯带通滤波处理，滤波至0.1-40hz，之后将1000hz的脑电数据降采样至250hz，最后将连续的脑电数据划分为多个片段，使用视频播放前的300ms数据对视频开始播放后0-1000ms的数据段进行基线校准；然后对于无目标出现的脑电数据按照固定时间间隔提取切片，作为负样本；有目标出现的脑电数据按照1s的间隔切片，并区分目标出现前后时间段，将有目标出现的部分作为正样本。

4.如权利要求1所述一种基于注意力机制的对比表征脑机视频目标检测方法，其特征在于：负样本对的构造方法为：给定构造对数和阈值T，每次构造时选定两个初始值I1和I2，分别在正样本和负样本中从I1、I2的位置开始进行一个滑动窗口配对，在样本对数量达到阈值T后，重新随机选择I1和I2，直到负样本对的数量达到/>

5.如权利要求1所述一种基于注意力机制的对比表征脑机视频目标检测方法，其特征在于：在步骤3中，首先将样本Q_i由[m,n,c,t]形式转化为[m,c,n,t]形式，其中m表示一个批次的样本数量，n表示特征通道数量，c表示电极通道数量，t表示时间节点；将每个转化后的样本输入ECANet进行挤压和提取操作；在步骤4中，将样本由[m,n,c,t]形式转化为[m,t,n,c]形式，再输入ECANet。

6.如权利要求1或5所述一种基于注意力机制的对比表征脑机视频目标检测方法，其特征在于：所述挤压操作为对样本进行全局平均池化操作，生成通道描述符：

其中，F_sq()表示全局平均池化操作，z_ic表示第i个样本中第c个通道的描述符，Q_ic代表第i个样本中第c个通道的信号/>q_ic(j)代表第i个样本中第c个通道的第j个时间点；

所述提取操作为将z_ic输入一个卷积核大小为kernel的1×1卷积层，将样本的全局时间信息压缩成一组通道描述符z_c；其中kernel通过以下自适应函数计算得到：

其中，abs()表示计算绝对值，y和b是数值固定的超参数，在本实施例中y＝2,b＝1；

s＝F_ex(z_i,W)＝σ(g(z_i,W))

F_ex()表示全连接操作，σ()表示sigmoid激活函数，g()表示池化层和一维自适应卷积函数，W∈R是一维卷积层的参数，z_i表示第i个样本对应的描述符，最后激活因子s与输入样本的脑电电极通道相乘，校准通道注意力，校准后的样本数据为其中/>F_scale(q_ic,s_ic)是指权值s_ic和特征值q_ic进行基于通道的元素相乘操作。

7.如权利要求1所述一种基于注意力机制的对比表征脑机视频目标检测方法，其特征在于：步骤6中使用的损失函数为：

其中M是负样本对的集合，N是正样本对的集合，bb为一个偏置值，是一个超参数；z^sim表示余弦相似度：

z₁、z₂分别表示一个样本对中两个样本的在同一个低纬投影空间上的映射。

8.如权利要求1所述一种基于注意力机制的对比表征脑机视频目标检测方法，其特征在于：步骤7中使用交叉熵损失作为损失函数H，完成分类器训练：

其中p(x_i)表示样本x_i属于正样本的概率，q(x_i)表示样本属于负样本的概率。