CN116524380A - 一种基于脑-机信号融合的目标检测方法 - Google Patents
一种基于脑-机信号融合的目标检测方法 Download PDFInfo
- Publication number
- CN116524380A CN116524380A CN202310507066.9A CN202310507066A CN116524380A CN 116524380 A CN116524380 A CN 116524380A CN 202310507066 A CN202310507066 A CN 202310507066A CN 116524380 A CN116524380 A CN 116524380A
- Authority
- CN
- China
- Prior art keywords
- brain
- computer signal
- image data
- model
- electroencephalogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 89
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 210000004556 brain Anatomy 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 28
- 238000004821 distillation Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 239000012634 fragment Substances 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 17
- 230000004438 eyesight Effects 0.000 description 9
- 238000007500 overflow downdraw method Methods 0.000 description 7
- 230000000638 stimulation Effects 0.000 description 7
- 230000005611 electricity Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004070 electrodeposition Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000004761 scalp Anatomy 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明公开了一种基于脑‑机信号融合的目标检测方法,包括:构建样本集,样本集包括若干带标签的图像数据与脑电数据,且图像数据与脑电数据一一对应;构建基于多头注意力机制和跨模态知识蒸馏的脑‑机信号融合模型;基于样本集训练脑‑机信号融合模型,得到训练后的脑‑机信号融合模型;将待测的脑电数据和图像数据同时输入训练后的脑‑机信号融合模型,通过对输入的脑电数据和图像数据进行特征提取、特征融合和特征分类,得到目标检测结果。本发明应用于脑‑机接口技术与目标检测技术领域,可充分融合计算机和人脑的信息,提高了目标的检测精度,增强了系统的鲁棒性和泛化能力对于监控系统中的自动目标检测具有重要意义和实用价值。
Description
技术领域
本发明涉及脑-机接口技术与目标检测技术领域,具体是一种基于脑-机信号融合的目标检测方法。
背景技术
自动目标检测是智能监控系统中的一项重要研究。近年来,基于计算机视觉的目标检测方法和基于事件相关电位(ERP)的目标检测方法在目标检测任务中取得了许多重要成就。然而,由于无人机航拍图像中的背景复杂,目标难以发现且具有先验信息模糊和不完整的特点,计算机视觉在该领域的检测精度和检测效率有待提升,因而限制了计算机视觉技术在该领域的应用。
较之于计算机,基于事件相关电位(ERP)的目标检测方法具有处理复杂以及不可预料场景的能力,能够有效识别部分难以检测的目标。然而,由于复杂场景下的目标较难发现,基于脑电的单模态目标检测方法易受到环境噪声干扰,信噪比较低,在实际场景下仅依靠脑电数据难以实现鲁棒精确的目标检测性能。
因此,通过结合计算机视觉强大的信息处理能力以及人脑对复杂情况和敏感信息的认知能力,有望解决从海量无人机航拍图像中快速、准确的进行目标检测的难题。但现有的结合计算机视觉和人类视觉的目标检测技术还处于探索阶段,在无人机航拍图像目标检测领域的相关研究较少。
发明内容
基于此,有必要针对上述技术问题,提出一种基于脑-机信号融合的目标检测方法,通过融合脑电特征和图像特征进行目标检测,能够有效拓宽输入数据包含信息的覆盖范围,在保证较好实时性的前提下,提升无人机航拍图像中目标的检测精度和鲁棒性,实现优势互补,可以应用于智能监控等领域。
为实现上述目的,本发明提供一种基于脑-机信号融合的目标检测方法,包括如下步骤:
步骤1,构建样本集,所述样本集包括若干带标签的图像数据与脑电数据,且所述图像数据与所述脑电数据一一对应;
步骤2,构建基于多头注意力机制和跨模态知识蒸馏的脑-机信号融合模型;
步骤3,基于所述样本集训练所述脑-机信号融合模型,得到训练后的脑-机信号融合模型;
步骤4,将待测的脑电数据和图像数据同时输入训练后的脑-机信号融合模型,通过对输入的脑电数据和图像数据进行特征提取、特征融合和特征分类,得到目标检测结果。
在其中一个实施例,步骤1中,所述构建样本集的过程为:
拍摄若干带有目标的目标图像以及若干无目标的非目标图像,并将各所述目标图像与所述非目标图像作为图像数据保存至所述样本集;
将所述样本集中的所有图像数据随机排列,组成图像数据序列;
通过RSVP实验范式向被试播放所述图像数据序列,并记录被试看到所述图像数据序列产生的脑电数据序列;
对所述脑电数据序列预处理后,基于所述图像数据序列中各图像数据的播放时间对所述脑电数据序列进行分段,得到与各所述图像数据一一对应的脑电数据,并保存至所述样本集。
在其中一个实施例,所述对所述脑电数据序列预处理,具体为:
对所述脑电数据序列进行重参考、带通滤波、降采样操作,去除所述脑电数据序列中的高频噪声和低频漂移,并降低所述脑电数据序列的采样频率,以提高后续计算速度。
在其中一个实施例,步骤2中,所述脑-机信号融合模型包括:
基于MCGRAM的脑电数据处理模块,用于利用频域、空域和时序特征编码模块提取脑电数据的频-空-时特征并得到对应分类结果;
基于EfficientNet的图像数据处理模块,用于提取图像数据的图像特征;
基于多头注意力机制和跨模态知识蒸馏的多模态特征融合模块,用于将脑电数据和图像数据中的有效特征进一步融合,实现最终高泛化、强鲁棒、高精度的目标识别。
在其中一个实施例,所述脑电数据处理模块的工作过程为:
对脑电数据Q进行时序滑窗处理,得到n个脑电数据片段Qi;
对于每个脑电数据片段Qi,提取不同尺度变换下的频率特征并进行特征拼接,再对变换中相同尺度的不同卷积核提取的频率信息进行融合,得到每个脑电数据片段的频域特征Bi;
将频域特征Bi上的通道特征与节点连接图G中通道节点一一对应,得到每个脑电数据片段的图表征Zi,其中,节点连接图G根据脑电数据采集时的脑电帽中电极的物理相邻关系设计得到;
对图表征Zi中的脑电节点特征依次进行特征传播、线性变换和归一化,获得图表征Zi中所有脑电节点的空间特征,聚合所有脑电节点的空间特征,得到每个脑电数据片段的空间特征Si;
基于空间特征Si提取每个脑电数据片段的时间特征,聚合每个脑电数据片段的时间特征,得到脑电数据Q最终的频-空-时全局特征H。
在其中一个实施例,所述多模态特征融合模块的工作过程为:
对图像特征进行线性变换,得到与脑电特征H相同尺度的图像特征并拼接图像特征和脑电特征H得到二维特征P;
对二维特征P进行线性转换得到Q、K、V三个多头矩阵向量,将Q、K矩阵向量点积,标准化后输入Softmax函数得到0-1之间的注意力权重矩阵As;
将注意力权重矩阵As与V矩阵向量相乘,得到提取输入特征信息的多头向量,拼接多头向量得到最终的融合特征A;
将融合特征A输入全连接层和Softmax函数,即得到所述脑-机信号融合模型的预测结果。
在其中一个实施例,步骤3中,分两个阶段对所述脑-机信号融合模型进行训练,具体包括:
第一阶段:分别利用所述样本集中的脑电数据和图像数据对MCGRAM算法模型和EfficientNet算法模型进行预训练,并将这两个算法模型分别定义为教师1和教师2;
第二阶段:将待训练的所述脑-机信号融合模型定义为学生模型,将预训练后的教师1和教师2的模型参数冻结用作学生模型的特征提取器,同时将教师1和教师2的预测结果作为暗知识,结合标签和学生模型的预测结果计算蒸馏损失和学生损失,监督学生模型完成训练,得到训练后的最优学生模型,即得到训练后的脑-机信号融合模型。
在其中一个实施例,所述第二阶段具体包括:
将所述样本集中对应的图像数据与脑电数据同步输入所述学生模型,得到所述学生模型模型的预测结果,并将该预测结果与真实结果的交叉熵作为学生损失Lossstu;
基于预训练后得到的教师1对输入所述学生模型的脑电数据进行预测,并基于教师1的预测结果与所述学生模型的预测结果计算KL散度,作为教师1与所述学生模型的蒸馏损失
基于预训练后得到的教师2对输入所述学生模型的图像数据进行预测,并基于教师2的预测结果与所述学生模型的预测结果计算KL散度,作为教师2与所述学生模型的蒸馏损失
将所述学生损失Lossstu、所述蒸馏损失与所述蒸馏损失加权,得到最终的损失函数Loss;
以最小化所述损失函数Loss为目标对所述学生模型的参数优化,即能得到训练后的最优学生模型。
在其中一个实施例,在计算学生损失Lossstu、蒸馏损失蒸馏损失的过程中,将所述学生模型、教师1、教师2的预测结果均通过Softmax函数归一化至0-1之间。
与现有技术相比,本发明的具有如下有益技术效果:
本发明针对单模态目标检测算法对无人机航拍图像中的目标检测精度较低和鲁棒性较差等问题,基于多头注意力机制和跨模态知识蒸馏设计了脑-机信号模型,该脑-机信号模型中基于MCGRAM的脑电数据处理模块能够有效利用频域、空域和时序特征编码模块提取脑电数据的频-空-时特征,基于EfficientNet的图像数据处理模块能够在一定训练样本且模型参数较低的情况下提取图像特征并取得较高的检测精度,多模态融合模块能够充分融合脑电数据和图像数据中的有效特征,实现最终高泛化、强鲁棒、高精度的目标检测,对于监控系统中的自动目标检测具有重要意义和实用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例中基于脑-机信号融合的目标检测方法的流程图;
图2为本发明实施例中脑-机信号融合模型结构框架图;
图3为本发明实施例中基于MCGRAM的脑电数据处理模块的结构框图;
图4为本发明实施例中基于多头注意力机制的多模态融合模块的结构框图;
图5为本发明实施例中对比试验结果示意图;
图6为本发明实施例中迁移试验结果示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示为本实施例公开的一种基于脑-机信号融合的目标检测方法,其主要包括如下步骤:
步骤1,构建样本集,样本集包括若干带标签的图像数据与脑电数据,且图像数据与脑电数据一一对应,其中,图像数据为无人机航拍图像,脑电数据则是以无人机航拍图像作为刺激材料,结合RSVP实验范式开展实验,利用64通道脑电帽记录被试脑电信号得到;
步骤2,构建基于多头注意力机制和跨模态知识蒸馏的脑-机信号融合模型,其中,脑-机信号融合模型包括基于MCGRAM的脑电数据处理模块、基于EfficientNet的图像数据处理模块以及基于多头注意力机制和跨模态知识蒸馏的多模态特征融合模块;
步骤3,基于样本集训练脑-机信号融合模型,得到训练后的脑-机信号融合模型;
步骤4,将待测的脑电数据和图像数据同时输入训练后的脑-机信号融合模型,通过对输入的脑电数据和图像数据进行特征提取、特征融合和特征分类,得到目标检测结果。
本实施例基于脑-机信号融合的目标检测方法中,通过结合无人机航拍图像与RSVP实验范式获取脑电数据和对应的图像数据,将预处理后的脑电数据样本和图像数据对构建的脑-机信号融合模型进行训练,并将待检测样本输入训练好的脑-机信号融合模型,得到无人机航拍图像中的目标检测结果。在脑-机信号融合模型中,通过基于MCGRAM的脑电数据处理模块提取脑电数据的频-空-时全局特征,通过基于EfficientNet的图像数据处理模块在一定训练样本且模型参数较低的情况下提取图像特征,通过基于多头注意力机制和跨模态知识蒸馏的多模态特征融合模块充分融合脑电数据和图像数据中的有效特征,实现最终高泛化、强鲁棒、高精度的目标检测。
步骤1中,构建样本集的过程为:
拍摄若干带有目标的目标图像以及若干无目标的非目标图像,并将各目标图像与非目标图像作为图像数据保存至样本集;
将样本集中的图像数据随机排列,组成图像数据序列;
通过RSVP实验范式向被试播放图像数据序列,并记录被试看到图像数据序列产生的脑电数据序列;
对脑电数据序列预处理后,基于图像数据序列中各图像数据的播放时间对脑电数据序列进行分段,得到与各图像数据一一对应的脑电数据,并保存至样本集。
在具体实施过程中,使用无人机在不同的场景中采集两类目标图像和非目标图像,两类图像分别为包含目标1的目标图像和对应背景图像(即非目标图像),以及包含目标2的实际场景目标图像和对应的背景图像(即非目标图像),其中,目标1、目标2可以是建筑、车辆等,且目标1与目标2不同。利用上述目标图像和背景图像设计实验,将目标图像与非目标图像随机排列,组成10组刺激序列(即图像数据序列),其中前8组刺激序列为目标1目标图像和对应背景图像,后2组刺激序列为目标2实际场景目标图像以及对应背景图像,每个刺激序列共包含50张图像。为更有效验证方法的泛化性能,前8组刺激序列实验采集的脑电数据和图像数据作为训练集,后2组刺激数据作为测试集。
在刺激呈现期间,被试坐在静谧空间的一把舒适椅子上,要求被试距离显示器50-60厘米之间,正对图像,以主观方式在图像中搜索目标。实验过程中通过脑电帽上按10-20标准系统分布的64个湿电极(阻抗小于10k)采集被试头皮上的电位信号,各个电位的信号幅值为各电极与参考电极电位幅值(位于头顶的两个电极电位取平均值)的电位差,其中为了降低电极阻抗需戴紧脑电帽并在每个电极处注射脑电膏。脑电数据采集系统将在刺激呈现过程中实时采集通过脑电帽获取的被试脑电数据,同时利用电脑同步记录对应时刻的图像数据。
在得到被试脑电数据后,分别将原始数据中每名被试的脑电数据和标签数据导入EEGLAB环境中,将脑电数据按照国际10-20标准系统定位电极,赋予每个脑电通道电极位置信息,其中,标签数据即为采集脑电数据时所记录的对应时刻的图像数据。然后,根据已知脑电帽所具有的电极通道排除无用通道的脑电数据,再使用2~30Hz的带通滤波器去除数据中存在的高频噪声和低频漂移;将原本1000Hz采样率的脑电数据降采样为250Hz,以提高后续计算速度。最后再根据标签数据中各图像数据的播放时间对脑电数据序列进行分段,得到带有有目标标签或带有无目标标签的脑电数据其中,C表示脑电数据的通道数,T表示采样点数。具体地,本实施例中每位被试的单个脑电样本为
本实施例中共采集了10名被试的脑电数据及其对应的图像区域数据,所有被试均为在校大学生,年龄在22-26岁之间,视力正常且不存在任何精神疾病。
参考图2为本实施例中脑-机信号融合模型结构框架图,该脑-机信号融合模型包括基于MCGRAM的脑电数据处理模块、基于EfficientNet的图像数据处理模块与基于多头注意力机制和跨模态知识蒸馏的多模态特征融合模块,其中:
基于MCGRAM的脑电数据处理模块能够有效利用频域、空域和时序特征编码模块提取脑电数据的频-空-时特征并得到对应分类结果,具有较高的鲁棒性和泛化能力;
基于EfficientNet的图像数据处理模块能够在一定训练样本且模型参数较低的情况下提取图像特征并取得较高的检测精度;
基于多头注意力机制和跨模态知识蒸馏的多模态特征融合模块能够基于脑电数据和图像数据中的有效特征进一步融合,取两者的优点,实现最终高泛化、强鲁棒、高精度的目标识别。
参考图3为基于MCGRAM的脑电数据处理模块的结构框图,其包括频域编码模块、空域编码模块、时域编码模块以及多层感知机。本实施例中,脑电数据处理模块的工作过程为:
将预处理后的脑电数据样本输入基于MCGRAM的脑电数据处理模块;
根据脑电帽中电极的物理相邻关系设计节点连接图G;
对脑电数据Q进行时序滑窗处理,得到n个脑电数据片段其中,t为滑动窗口大小,窗口数量α为相邻步长,用于取最小整数;
将脑电数据片段Qi输入基于多尺度卷积的频域特征编码模块,分别对每个时间片段进行三种尺度变换,提取不同尺度变换下的频率特征;通过拼接操作将不同尺度变换下的频率特征拼接,并利用1×1卷积层对变换中相同尺度的不同卷积核提取的频率信息融合,得到每个脑电数据片段的频域特征其中,3t'代表每个通道的特征长度;
将频域特征Bi上的通道特征与节点连接图G中通道节点一一对应,得到图表征
将图表征Zi输入基于图卷积神经网络的空域特征编码模块,根据脑电节点连接关系,利用图卷积子网络对图表征Zi中的脑电节点特征依次进行特征传播、线性变换和归一化,获得图表征Zi中所有脑电节点的空间特征;利用图卷积子网络中二维卷积层聚合所有脑电节点的空间特征,得到空间特征
将所有脑电数据片段的空间特征Si输入时序特征编码模块,利用双层的长短时记忆网络(LSTM)处理分别不同的时间片段,并将第二层的隐藏状态作为时间特征输出;将所有时间片段的时间特征输入到自注意力模块中,得到不同时间片段特征的重要性权重,根据权重聚合每个片段的时间特征,得到最终的频-空-时全局特征其中,f为特征长度;
最后,利用两个ReLU函数激活的全连接层和外部的Softmax函数处理频-空-时全局特征H,得到该脑电数据Q中是否存在与目标相对应的ERP信号的最终分类结果。
本实施例中,频域特征编码模块中的多尺度卷积中的比值系数分别设置为0.5、0.25和0.125,由于采样频率fs=250Hz,所以将三个卷积层的核大小设置为[1×125]、[1×62]、[1×31],以分别捕获2Hz、4Hz和8Hz以上的频率特征,卷积核的数量设置20。平池化操作的大小为(1,2),步长为(1,1)。空域特征编码模块中的图卷积层的隐状态长度设置为100。将用于学习图空间表示的卷积层核大小设置为[62×1],数量为10。时域特征编码模块中LSTM单元的隐藏层大小f=256,自注意力模块的隐藏层大小o=256。最后两个全连接层的尺寸大小分别为[256×64]和[64×2],dropout大小为0.5。
在基于EfficientNet的图像数据处理模块中,为保证计算速率,使用经ImageNet预训练的EfficientNet-B0模型提取图像特征并结合全连接层和Sigmoid激活函数获取图像分类结果。EfficientNet-B0网络主要利用具有深度可分离卷积的倒置线性瓶颈层(MBConv)进行构建,此外还在MBConv中加入了挤压和激励网络(SqueezeandExcitationNetwork,SENet)用于建模通道之间的相互依赖性并赋予特征通道重要性权重。其中,EfficientNet-B0模型第1步为卷积核大小为3×3,步距为2的卷积层;第2步到第8步重复堆叠MBConv结构,MBConv1或MBConv6代表MBConv中的第一个卷积层会将输入特征矩阵的特征维度扩充为1或6倍;第9步由一个1×1卷积层、一个平均池化层和一个全连接层构成。第1步和第9步中的卷积层中均包含批归一化操作和Swish激活函数。
参考图4为基于多头注意力机制的多模态融合模块的结构框图,其包括特征处理模块、多头注意力模块与知识蒸馏模块。本实施例中,多模态特征融合模块的工作过程为:
首先,使用全连接层对图像特征进行线性变换,得到与脑电特征H相同尺度的图像特征
其中,和为可训练参数;
然后,拼接变化后的图像特征和脑电特征H得到二维特征将该二维特征P输入多头注意力机制。在该多头注意力机制中首先通过线性转换得到Q、K、V三个多头矩阵向量,将Q、K矩阵向量点积,标准化后输入Softmax函数得到0-1之间的注意力权重矩阵为:
其中,dk为矩阵特征长度。将注意力权重矩阵As与V矩阵向量相乘,得到提取输入特征信息的多头向量,拼接多头向量可得到最终的融合特征A,为:
A=Concat(As×V)
最后,将该融合特征A输入全连接层和Softmax函数可获得融合模型的预测结果为:
ψ=Softmax(FC(A))
本实施例中,图像特征转为脑电特征使用的全连接层大小为[1280×64],由融合特征计算预测结果使用的全连接层大小为[64×2],多头注意力机制中的多头数量heads=2。
本实施例中,分两个阶段对脑-机信号融合模型进行训练,具体包括:
第一阶段:分别利用样本集中的脑电数据和图像数据对MCGRAM算法模型和EfficientNet算法模型进行预训练,并将这两个算法模型分别定义为教师1和教师2;
第二阶段:将待训练的脑-机信号融合模型定义为学生模型,将预训练后的教师1和教师2的模型参数冻结用作学生模型的特征提取器,同时将教师1和教师2的预测结果作为暗知识,结合标签和学生模型的预测结果计算蒸馏损失和学生损失,监督学生模型完成训练,得到训练后的最优学生模型,即得到训练后的脑-机信号融合模型,其具体实施过程为:
首先,将样本集中对应的图像数据与脑电数据同步输入学生模型,得到学生模型模型的预测结果,并将该预测结果与真实结果的交叉熵作为学生损失Lossstu,为:
其中,N为一个batch的样本量,yi表示样本i的标签,正类为1,负类为0,pi表示学生模型中样本i预测为正类的概率。
同时,基于预训练后得到的教师1对输入学生模型的脑电数据进行预测,并基于教师1的预测结果与学生模型的预测结果计算KL散度,作为教师1与学生模型的蒸馏损失为;
其中,表示教师1中样本i预测为正类的概率;
同时,基于预训练后得到的教师2对输入学生模型的图像数据进行预测,并基于教师2的预测结果与学生模型的预测结果计算KL散度,作为教师2与学生模型的蒸馏损失为;
其中,表示教师1中样本i预测为正类的概率;
通过设定系数将将学生损失Lossstu、蒸馏损失与蒸馏损失加权求和,得到最终的损失函数Loss用于优化融合模型参数,为:
其中,λ1和λ2分别表示和的加权系数。
本实施例中,在计算学生损失Lossstu、蒸馏损失蒸馏损失的过程中,将学生模型、教师1、教师2的预测结果均通过Softmax函数归一化至0-1之间,即:
其中,x表示pi、或zi、zj表示对应模型(学生模型、教师1或教师2)的输出的两个数值特征,T为知识蒸馏的温度,在学生模型中T设置为1,在教师模型中通常通过升高温度平滑Softmax的输出,放大负标签携带的信息,得到更多的暗知识,提高模型训练效果。
最后,以最小化损失函数Loss为目标对学生模型的参数优化,即能得到训练后的最优学生模型。在本实施例中,利用ADAM优化器对损失函数Loss进行最小化求解,优化器可以使模型在训练过程中更新和调整参数以最小化损失函数,实现对初始模型的参数优化。训练过程中的批次大小设置为64,epoch为15。
经过预处理的脑电数据段与对应时刻被试所关注的图像为一个样本对,样本对与真实标签共同输入脑-机信号融合模型。为了使各个损失均在一个数量级上,设置λ1和λ2为10。
本实施例中,在相同实验环境和数据集下进行实验并计算平均实验结果,从而得到测试集的目标检测结果。各类方法(基于按位加的脑-机信号融合方法(Add),基于按位乘的脑-机信号融合方法(Mul),基于拼接的脑-机信号融合方法(Concat),基于双线性池化的脑-机信号融合方法(Mlb),本发明的基于多头注意力机制和跨模态蒸馏的脑-机信号融合方法(SAD)的AUC值如图5所示。由对比实验结果可知,基于多头注意力机制和跨模态蒸馏的脑-机信号融合方法具有更好的检测性能,与其他融合方法有明显的精度提升,这个结果表明本发明的方法能够更好的融合脑电和图像特征,有效结合计算机视觉与脑电的优势并补足劣势,更准确有效的检测无人机航拍图像中的目标。除此之外,本发明方法相对较低的标准差表明了其高级特征提取的鲁棒能力。
在本实施例中,为了验证本发明所提方法中各个模块的重要性,采用消融实验对比了基于脑电数据的MCGRAM模型、基于图像数据的EfficientNet模型、基于多头注意力机制的脑-机信号融合模型(MSA)以及基于多头注意力机制和跨模态知识蒸馏的脑-机信号融合模型(SAD)在数据集上的训练验证结果。在训练验证过程中,为确保验证效果真实可信,除模型本身外其他参数不变,消融实验的AUC值对比结果如下表所示:
在本实施例中,为了验证本发明所提方法的泛化性,通过设置不同目标图像和背景图像作为训练集和测试集进行迁移训练,并与脑电方法MCGRAM、计算机视觉方法EfficientNet、基于按位加的脑-机融合方法(Add),基于按位乘的脑-机信号融合方法(Mul),基于拼接的脑-机信号融合方法(Concat),基于双线性池化的脑-机信号融合方法(Mlb)进行对比,得到以坦克为目标的实际场景检测结果,具体如图6所示。
由实验结果分析可知,与单模态方法相比,基于脑-机信号融合的多模态方法具有更高的目标检测精度。另外,通过结合知识蒸馏的方法设计损失函数,在训练决策层面融合两个单模态模型所具备的优势,进一步提高了融合算法的目标识别性能和泛化性能,相较MSA方法显著提高了识别的精确度。
综上所述,本发明针对脑电单模态信噪比较低,导致实战场景中目标识别性能缺乏稳定性,易受环境干扰等难点,提出了基于知识蒸馏与注意力机制的脑-机信号融合目标识别方法,进一步提升了无人机航拍图像中目标检测的精确度和鲁棒性,对于监控系统中的自动目标检测具有重要意义和实用价值。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (9)
1.一种基于脑-机信号融合的目标检测方法,其特征在于,包括如下步骤:
步骤1,构建样本集,所述样本集包括若干带标签的图像数据与脑电数据,且所述图像数据与所述脑电数据一一对应;
步骤2,构建基于多头注意力机制和跨模态知识蒸馏的脑-机信号融合模型;
步骤3,基于所述样本集训练所述脑-机信号融合模型,得到训练后的脑-机信号融合模型;
步骤4,将待测的脑电数据和图像数据同时输入训练后的脑-机信号融合模型,通过对输入的脑电数据和图像数据进行特征提取、特征融合和特征分类,得到目标检测结果。
2.根据权利要求1所述的基于脑-机信号融合的目标检测方法,其特征在于,步骤1中,所述构建样本集的过程为:
拍摄若干带有目标的目标图像以及若干无目标的非目标图像,并将各所述目标图像与所述非目标图像作为图像数据保存至所述样本集;
将所述样本集中的所有图像数据随机排列,组成图像数据序列;
通过RSVP实验范式向被试播放所述图像数据序列,并记录被试看到所述图像数据序列产生的脑电数据序列;
对所述脑电数据序列预处理后,基于所述图像数据序列中各图像数据的播放时间对所述脑电数据序列进行分段,得到与各所述图像数据一一对应的脑电数据,并保存至所述样本集。
3.根据权利要求2所述的基于脑-机信号融合的目标检测方法,其特征在于,所述对所述脑电数据序列预处理,具体为:
对所述脑电数据序列进行重参考、带通滤波、降采样操作,去除所述脑电数据序列中的高频噪声和低频漂移,并降低所述脑电数据序列的采样频率,以提高后续计算速度。
4.根据权利要求1所述的基于脑-机信号融合的目标检测方法,其特征在于,步骤2中,所述脑-机信号融合模型包括:
基于MCGRAM的脑电数据处理模块,用于利用频域、空域和时序特征编码模块提取脑电数据的频-空-时特征并得到对应分类结果;
基于EfficientNet的图像数据处理模块,用于提取图像数据的图像特征;
基于多头注意力机制和跨模态知识蒸馏的多模态特征融合模块,用于将脑电数据和图像数据中的有效特征进一步融合,实现最终高泛化、强鲁棒、高精度的目标识别。
5.根据权利要求4所述的基于脑-机信号融合的目标检测方法,其特征在于,所述脑电数据处理模块的工作过程为:
对脑电数据Q进行时序滑窗处理,得到n个脑电数据片段Qi;
对于每个脑电数据片段Qi,提取不同尺度变换下的频率特征并进行特征拼接,再对变换中相同尺度的不同卷积核提取的频率信息进行融合,得到每个脑电数据片段的频域特征Bi;
将频域特征Bi上的通道特征与节点连接图G中通道节点一一对应,得到每个脑电数据片段的图表征Zi,其中,节点连接图G根据脑电数据采集时的脑电帽中电极的物理相邻关系设计得到;
对图表征Zi中的脑电节点特征依次进行特征传播、线性变换和归一化,获得图表征Zi中所有脑电节点的空间特征,聚合所有脑电节点的空间特征,得到每个脑电数据片段的空间特征Si;
基于空间特征Si提取每个脑电数据片段的时间特征,聚合每个脑电数据片段的时间特征,得到脑电数据Q最终的频-空-时全局特征H。
6.根据权利要求4所述的基于脑-机信号融合的目标检测方法,其特征在于,所述多模态特征融合模块的工作过程为:
对图像特征进行线性变换,得到与脑电特征H相同尺度的图像特征并拼接图像特征和脑电特征H得到二维特征P;
对二维特征P进行线性转换得到Q、K、V三个多头矩阵向量,将Q、K矩阵向量点积,标准化后输入Softmax函数得到0-1之间的注意力权重矩阵As;
将注意力权重矩阵As与V矩阵向量相乘,得到提取输入特征信息的多头向量,拼接多头向量得到最终的融合特征A;
将融合特征A输入全连接层和Softmax函数,即得到所述脑-机信号融合模型的预测结果。
7.根据权利要求4或5或6所述的基于脑-机信号融合的目标检测方法,其特征在于,步骤3中,分两个阶段对所述脑-机信号融合模型进行训练,具体包括:
第一阶段:分别利用所述样本集中的脑电数据和图像数据对MCGRAM算法模型和EfficientNet算法模型进行预训练,并将这两个算法模型分别定义为教师1和教师2;
第二阶段:将待训练的所述脑-机信号融合模型定义为学生模型,将预训练后的教师1和教师2的模型参数冻结用作学生模型的特征提取器,同时将教师1和教师2的预测结果作为暗知识,结合标签和学生模型的预测结果计算蒸馏损失和学生损失,监督学生模型完成训练,得到训练后的最优学生模型,即得到训练后的脑-机信号融合模型。
8.根据权利要求7所述的基于脑-机信号融合的目标检测方法,其特征在于,所述第二阶段具体包括:
将所述样本集中对应的图像数据与脑电数据同步输入所述学生模型,得到所述学生模型模型的预测结果,并将该预测结果与真实结果的交叉熵作为学生损失Lossstu;
基于预训练后得到的教师1对输入所述学生模型的脑电数据进行预测,并基于教师1的预测结果与所述学生模型的预测结果计算KL散度,作为教师1与所述学生模型的蒸馏损失
基于预训练后得到的教师2对输入所述学生模型的图像数据进行预测,并基于教师2的预测结果与所述学生模型的预测结果计算KL散度,作为教师2与所述学生模型的蒸馏损失
将所述学生损失Lossstu、所述蒸馏损失与所述蒸馏损失加权,得到最终的损失函数Loss;
以最小化所述损失函数Loss为目标对所述学生模型的参数优化,即能得到训练后的最优学生模型。
9.根据权利要求8所述的基于脑-机信号融合的目标检测方法,其特征在于,在计算学生损失Lossstu、蒸馏损失蒸馏损失的过程中,将所述学生模型、教师1、教师2的预测结果均通过Softmax函数归一化至0-1之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310507066.9A CN116524380A (zh) | 2023-05-08 | 2023-05-08 | 一种基于脑-机信号融合的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310507066.9A CN116524380A (zh) | 2023-05-08 | 2023-05-08 | 一种基于脑-机信号融合的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524380A true CN116524380A (zh) | 2023-08-01 |
Family
ID=87395598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310507066.9A Pending CN116524380A (zh) | 2023-05-08 | 2023-05-08 | 一种基于脑-机信号融合的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524380A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171708A (zh) * | 2023-11-01 | 2023-12-05 | 小舟科技有限公司 | 一种混合bci系统中的多模式融合方法、系统、设备及介质 |
-
2023
- 2023-05-08 CN CN202310507066.9A patent/CN116524380A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171708A (zh) * | 2023-11-01 | 2023-12-05 | 小舟科技有限公司 | 一种混合bci系统中的多模式融合方法、系统、设备及介质 |
CN117171708B (zh) * | 2023-11-01 | 2024-02-23 | 小舟科技有限公司 | 一种混合bci系统中的多模式融合方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | EEG emotion recognition based on the attention mechanism and pre-trained convolution capsule network | |
CN108304917B (zh) | 一种基于lstm网络的p300信号检测方法 | |
CN110399857A (zh) | 一种基于图卷积神经网络的脑电情感识别方法 | |
CN110133610B (zh) | 基于时变距离-多普勒图的超宽带雷达动作识别方法 | |
CN109645989B (zh) | 一种麻醉深度估计系统 | |
CN110522412B (zh) | 基于多尺度脑功能网络分类脑电信号的方法 | |
CN112587153B (zh) | 一种基于vPPG信号的端到端的非接触房颤自动检测系统和方法 | |
CN113180701B (zh) | 一种用于图像标签标注的脑电信号深度学习方法 | |
Su et al. | HDL: Hierarchical deep learning model based human activity recognition using smartphone sensors | |
Wan et al. | EEG fading data classification based on improved manifold learning with adaptive neighborhood selection | |
CN116343284A (zh) | 基于注意力机制的多特征户外环境情绪识别方法 | |
CN111540467B (zh) | 精神分裂症分类识别方法、运行控制装置及医疗设备 | |
Jinliang et al. | EEG emotion recognition based on granger causality and capsnet neural network | |
CN116524380A (zh) | 一种基于脑-机信号融合的目标检测方法 | |
Wang et al. | Dual-modal information bottleneck network for seizure detection | |
CN111753683A (zh) | 一种基于多专家卷积神经网络的人体姿态识别方法 | |
CN114795246A (zh) | 基于脑区局部-全局注意力的脑电情感分类方法及系统 | |
CN116956222A (zh) | 一种基于自适应特征提取的多复杂度行为识别系统及方法 | |
CN113017645A (zh) | 一种基于空洞卷积神经网络的p300信号检测方法 | |
CN114578967A (zh) | 一种基于脑电信号的情感识别方法及系统 | |
CN114595725B (zh) | 一种基于加法网络和监督对比学习的脑电信号分类方法 | |
CN114424941A (zh) | 疲劳检测模型构建方法、疲劳检测方法、装置及设备 | |
CN116662782A (zh) | 一种基于MSFF-SENet的运动想象脑电图解码方法 | |
CN115909438A (zh) | 基于深度时空域卷积神经网络的疼痛表情识别系统 | |
CN114611556A (zh) | 一种基于图神经网络的多类别运动想象任务识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |