CN118121192B - 一种基于时频域融合的听觉注意检测方法及其系统 - Google Patents
一种基于时频域融合的听觉注意检测方法及其系统 Download PDFInfo
- Publication number
- CN118121192B CN118121192B CN202410155072.7A CN202410155072A CN118121192B CN 118121192 B CN118121192 B CN 118121192B CN 202410155072 A CN202410155072 A CN 202410155072A CN 118121192 B CN118121192 B CN 118121192B
- Authority
- CN
- China
- Prior art keywords
- time
- frequency domain
- electroencephalogram signal
- frequency
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 13
- 238000012952 Resampling Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101100259947 Homo sapiens TBATA gene Proteins 0.000 description 1
- 230000007177 brain activity Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/12—Audiometering
- A61B5/121—Audiometering evaluating hearing capacity
- A61B5/123—Audiometering evaluating hearing capacity subjective methods
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/30—Input circuits therefor
- A61B5/307—Input circuits therefor specially adapted for particular uses
- A61B5/31—Input circuits therefor specially adapted for particular uses for electroencephalography [EEG]
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7203—Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/725—Details of waveform analysis using specific filters therefor, e.g. Kalman or adaptive filters
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7253—Details of waveform analysis characterised by using transforms
- A61B5/7257—Details of waveform analysis characterised by using transforms using Fourier transforms
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
- G06F2218/04—Denoising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Veterinary Medicine (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Physiology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Fuzzy Systems (AREA)
- Otolaryngology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明公开了一种基于时频域融合的听觉注意检测方法和系统。首先根据不同的决策窗口长度将脑电信号划分成多个与之对应的滑动窗口,再分别通过空域特征提取模块和多频带微分熵模块提取后将其对应结果分别输入到两个并行模块:时间注意力模块和频率残差模块。其中,本发明通过时间注意力模块提取时域特征,通过频率残差模块提取频域特征,最后通过特征融合和分类器模块将时频域特征融合并以此得到听觉注意检测的结果。经过实验证明,本发明得到的预测结果与现有方法相比更加准确,提高了听觉注意检测的精度。
Description
技术领域
本发明涉及脑电信号处理技术领域,特别是涉及一种基于时频域荣恶化的听觉注意检测方法及其系统。
背景技术
人们有能力在嘈杂、多说话的环境中隔离并专注于单个声源,这种技能通常被称为鸡尾酒会效应。然而,有听力障碍的人可能会降低或完全丧失在背景噪音中专注于特定说话者的能力。大多数现有的助听器都无法解决精确定位目标说话者的基本挑战。根据之前的神经科学研究,大脑活动和听觉注意力之间存在联系,从大脑神经活动中解码听觉注意力是听觉注意。
听觉注意检测研究主要集中在两个范式:说话者识别和跟踪空间注意力。神经科学的最新进展揭示了神经活动和听觉检测之间的联系。根据结论,一些研究采用了刺激重建或语音包络重建方法,该技术需要使用干净的听觉刺激作为输入。然而,大多数现实场景都是多声音环境,听众接收到多种声音的混合,这使得获得干净的听觉刺激成为一个挑战。因此,研究重点是仅使用脑电图信号作为输入来实现跟踪空间注意力。
传统的听觉检测任务依赖线性方法来处理脑电信号,然而,这些线性方法经常与非线性映射关系作斗争,导致需要更长的决策窗口。此前的研究已经证明,每个频段都包含不同的空间特征,描绘了人体的不同状态。因此,一些研究关注脑电信号的频率。他们采用卷积神经网络从频段进行解码,并具有良好的性能,从频段中提取微分熵并将其投影到二维拓扑图上。然而,它忽略了脑电图信号的动态时变特征。其它研究集中在脑电图信号的时间方面。其中一些直接使用卷积网络来解码时域,另一些则引入注意力机制,因为脑电信号本质上是时间序列数据,这两种方法都取得了成功的结果。尽管脑电时间序列信号具有丰富的时变信息,但其在时域上有限的谱空间特征表明与人类空间注意力的相关性较弱。因此,有必要融合时域和频域以获得更全面的特征。然而,目前还没有探索听觉检测中时域和频域特征融合的工作。
发明内容
本发明所要解决的技术问题是提供一种基于时频域融合的听觉注意检测方法及其系统,能够解决听觉检测工作中缺乏时频域融合导致检测精度不高的不足。
为解决上述技术问题,本发明采用的第一个技术方案是:提供一种基于时频域融合的听觉注意检测方法,用于在多声源环境中检测目标声源的空间方位,包括以下步骤:
S1:获取多声源场景下的待检测脑电信号,并进行预处理,根据决策窗口的大小将其分为N个滑动窗口;
S2:通过一个CSP空域滤波器提取脑电信号的空域特征;
S3:将脑电信号分为多个频带,通过多频带微分熵提取获得各频带脑电信号的微分熵,再将其投影到二维平面,利用插值法得到二维平面多频带微分熵的值;
S4:将经过CSP空域滤波器处理过后的数据输入时间注意力网络提取其时域特征;
S5:将经过多频带微分熵提取的脑电信号输入频率残差卷积网络提取出频域特征;
S6:将时域特征和频域特征进行特征融合,并通过分类器得到听觉注意的左/右空间方向概率。
在本发明一个较佳实施例中,步骤S1的具体步骤包括:
首先对多声源场景下的待检测脑电信号进行滤波,滤除50Hz的线路噪声和谐波;
其次对脑电信号进行0.1Hz~50Hz的带通滤波;
然后采用基于快速傅里叶变换的重采样技术,将脑电信号重采样到特定频率;
最后对脑电信号数据进行归一化,确保数据方差为零,同时根据预处理时的重采样频率和决策窗口大小,按照50%重叠将脑电信号分割成N个滑动窗口。
在本发明一个较佳实施例中,在步骤S2中,所述CSP空域滤波器的表达式如下:
其中W为CSP空域滤波器系数,WT为其对应转置;Ci表示第i个目标类别对应的协方差矩阵;X表示脑电信号;J(W)为待优化的目标函数;Z为经过CSP空域滤波器提取出的空域特征。
在本发明一个较佳实施例中,在步骤S3中,多频带微分熵表达式如下:
其中FFT为傅里叶变换;ei m表示第m个频带的第i段脑电信号;N表示脑电信号的总段数,hm表示第m个频带的微分熵的值。
在本发明一个较佳实施例中,在步骤S3中,利用方位角投影将三维脑电电极坐标其投影到二维平面,方位角投影的表达式如下:
其中x,y,z为EEG电极的三维空间坐标;θ表示仰角,即坐标点与z轴的夹角;φ表示方位角,即坐标点在xy平面上与正x轴的夹角;ρ表示坐标点到极点的角距;x′,y′分别表示坐标点在二维平面的坐标。
在本发明一个较佳实施例中,在步骤S4中,提取脑电信号中的时域特征的方法包括:
将脑电信号通过一层Transformer Encoder对输入数据进行编码,再经过一维卷积、自适应平均池化层和两层全连接层提取出时域特征。
在本发明一个较佳实施例中,在步骤S5中,提取脑电信号中的频域特征的方法包括:
通过一层三维卷积层和一层最大池化层对多频带脑电信号进行特征提取,再经过三个残差块后通过一个三维卷积,一个三维批量归一化和一个自适应平均池化层后提取出频域特征。
为解决上述技术问题,本发明采用的第二个技术方案是:提供一种基于时频域融合的听觉注意检测系统,包括:
脑电信号获取与处理模块,用于获取多声源场景下的待检测脑电信号,并进行预处理,根据决策窗口的大小将其分为N个滑动窗口;
空域特征提取模块,用于通过一个CSP空域滤波器提取脑电信号的空域特征;
多频带微分熵模块,用于将脑电信号分为多个频带,通过多频带微分熵提取获得各频带脑电信号的微分熵,再将其投影到二维平面,利用插值法得到二维平面多频带微分熵的值;
时间注意力模块,用于将经过所述空域特征提取模块处理过后的数据输入时间注意力网络提取其时域特征;
频率残差模块,用于将经过所述多频带微分熵模块提取的多频带微分熵输入频率残差卷积网络提取出频域特征;
特征融合和分类器模块,用于将所述时间注意力模块提取的时域特征和所述频率残差模块提取的频域特征进行特征融合,并通过分类器得到听觉注意的左/右空间方向概率。
为解决上述技术问题,本发明采用的第三个技术方案是:提供一种用于解码听觉注意的装置,它由存储设备、处理单元以及加载在存储设备中、能在处理单元上执行的软件程序构成,其特征在于,当所述处理单元运行该软件程序时,它能够构建一个网络模型,执行如上任一项所述的基于时频域融合的听觉注意检测方法。
为解决上述技术问题,本发明采用的第四个技术方案是:提供一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如上任一项所述的基于时频域融合的听觉注意检测方法。
本发明的有益效果是:
本发明通过在处理脑电信号数据时,依据预处理后的脑电信号频率特征,采用滑动窗口技术将信号分割成连续的时间片段,这样做能更精确地评估听者在注意力转换上的时间响应;
通过CSP空域滤波器和多频带微分熵特征提取,对脑电信号的时域信息和频域信息进行提取,提高了脑电信号的信噪比;
本发明将脑电信号分别从时域和频域进行特征提取,不仅包含脑电信号的时变特性同时也具有谱空间特征,可以得到更加全面的脑电信号特征,通过特征融合后,分类器得到的预测结果与现有方法相比更加准确,提高了听觉注意检测的精度。
附图说明
图1是本发明基于时频域融合的听觉注意检测方法的流程图;
图2是所述基于时频域融合的听觉注意检测系统的结构框图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种基于时频域融合的听觉注意检测方法,用于在多声源环境中检测目标声源的空间方位,包括以下步骤:
S1:获取多声源场景下的待检测脑电信号,并进行预处理,根据决策窗口的大小将其分为N个滑动窗口;
其中待检测的脑电信号需要经过预处理:首先需要滤除50Hz的线路噪声和谐波;其次对脑电信号进行0.1Hz到50Hz的带通滤波;之后,使用基于快速傅里叶变换的重采样技术将脑电信号重采样到特定频率;最后,对脑电信号数据进行归一化,确保数据方差为零。
经过预处理后的脑电数据,根据预处理时的重采样频率和决策窗口大小,分割成N个滑动窗口。其中,决策窗口大小可以取5s以内的数值,每个滑动窗口间有50%的重叠,其大小为预处理时的重采样频率乘以决策窗口的大小。
S2:通过一个CSP空域滤波器提取脑电信号的空域特征;
具体的,所述CSP空域滤波器其表达式如下所示:
其中W为CSP空域滤波器系数,WT为其对应转置;Ci表示第i个目标类别对应的协方差矩阵;X表示脑电信号;J(W)为待优化的目标函数;Z为经过CSP空域滤波器提取出的空域特征。
S3:将脑电信号分为多个频带,通过多频带微分熵提取获得各频带脑电信号的微分熵,再将其投影到二维平面,利用插值法得到二维平面多频带微分熵的值;
具体的,所述多频带微分熵表达式如下:
其中FFT为傅里叶变换;ei m表示第m个频带的第i段脑电信号;N表示脑电信号的总段数,hm表示第m个频带的微分熵的值。
将各个通道微分熵的值,利用方位角投影映射到二维平面,方位角投影的表达式如下:
其中x,y,z为EEG电极的三位空间坐标;θ表示仰角,即坐标点与z轴的夹角;φ表示方位角,即坐标点在xy平面上与正x轴的夹角;ρ表示坐标点到极点的角距;x′,y′分别表示坐标点在二维平面的坐标。
最后采用Clough-Tocher插值法把原先各个三维坐标下的微分熵的值估计二维32×32网格上的微分熵的值。
S4:将经过CSP空域滤波器处理过后的数据输入时间注意力网络提取其时域特征;
具体的,所述时间注意力网络按照以下步骤提取脑电信号中的时域特征:
将脑电信号通过一层Transformer Encoder对输入数据进行编码,再经过一维卷积(卷积核:64×7,步长:1)、自适应平均池化层(输出:1)和两层全连接层(输入:64,中间:16,输出:4)提取出时域特征。
S5:将经过多频带微分熵提取的脑电信号输入频率残差卷积网络提取出频域特征;
所述频率残差卷积网络提取脑电信号中的频域特征的方法包括:
通过一层三维卷积层和一层最大池化层对多频带脑电信号进行特征提取,再经过三个残差块后通过一个三维卷积,一个三维批量归一化和一个自适应平均池化层后提取出频域特征。
具体的,所述频率残差卷积网络将多频带脑电信号视为一个单通道数据,输入一个三位卷积层(卷积核:32×1×7×7)和一个三维批量归一化层,随后经过三个残差块后通过一个三位卷积(卷积核:4×1×1×1),一个三维批量归一化和一个自适应平均池化层(输出:1×1×1)后将其展平提取出频域特征。
其中,所述残差块具体结构如下:
第一层是1×1的卷积,第二层是3×3的卷积,第三层同样是1×1的卷积。其中第三层之后存在一个跳跃连接,通过一个1×1的卷积调整输出,在输出之前存在一个概率为0.3的丢弃层。
S6:将时域特征和频域特征进行特征融合,并通过分类器得到听觉注意的左/右空间方向概率。
将时域和频域的两个特征拼接成一个全新的向量,再通过一个全连接层(输入:8,输出:1)实现分类器功能,得到听觉注意左/右概率。若听觉注意左侧概率大于右侧,则表明听觉注意位于左侧;相反则位于右侧。
本实例将预测精度作为评估对象,概率误差作为训练目标,利用损失函数减小概率误差来迭代训练参数,具体损失函数如下:
其中,N为总的样本数,yi表示为第i个样本的真实标签,Qi表示为对应的预测概率,L为对应的损失值。
经过多次迭代后,选择损失最小的训练参数作为训练完成的模型参数,用于听觉注意检测。
参阅图2,本发明示例中,还提供了一种基于时频域融合的听觉注意检测系统,包括:
脑电信号获取与处理模块,用于获取多声源场景下的待检测脑电信号,并进行预处理,根据决策窗口的大小将其分为N个滑动窗口;
空域特征提取模块,用于通过一个CSP空域滤波器提取脑电信号的空域特征;
多频带微分熵模块,用于将脑电信号分为多个频带,通过多频带微分熵提取获得各频带脑电信号的微分熵,再将其投影到二维平面,利用插值法得到二维平面多频带微分熵的值;
时间注意力模块,用于将经过所述空域特征提取模块处理过后的数据输入时间注意力网络提取其时域特征;
频率残差模块,用于将经过所述多频带微分熵模块提取的多频带微分熵输入频率残差卷积网络提取出频域特征;
特征融合和分类器模块,用于将所述时间注意力模块提取的时域特征和所述频率残差模块提取的频域特征进行特征融合,并通过分类器得到听觉注意的左/右空间方向概率。
本示例的一种基于时频域融合的听觉注意检测系统,可执行本发明所提供的一种基于时频域融合的听觉注意检测方法,可执行方法示例的任何组合实施步骤,具备该方法相应的功能和有益效果。
本发明示例中,还提供了一种用于解码听觉注意的装置,它由存储设备、处理单元以及加载在存储设备中、能在处理单元上执行的软件程序构成,其特征在于,当所述处理单元运行该软件程序时,它能够构建一个网络模型,执行如上任一项所述的基于时频域融合的听觉注意检测方法。
所提及的方法可通过多种类型的存储器以软件形式实现,包括内部存储器(如硬盘、RAM)和外部存储设备(如USB闪存驱动器、SD卡)。这些存储器不仅用于存储操作系统和应用软件,还能临时保存数据。具体到本例,可以设计为一个独立运行的程序,存储于例如固态硬盘这样的设备上,并能通过外部触发来启动。
本发明示例中,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如上任一项所述的基于时频域融合的听觉注意检测方法。
本发明示例中,还针对提供的所述基于时频域融合的听觉注意检测方法进行了实验验证:
KUL和DTU分别是两个公开的用于听觉注意检测的数据集,二者均为双说话人场景。现有的主流模型均在这两个数据集上进行听觉注意检测实验。与之前的主流模型类似,本实施例应用本发明所述方法在这两个数据集上进行听觉注意检测实验。
表1为本发明与其它主流模型在KUL数据集上的听觉注意检测的精度:
表2为本发明与其它主流模型在DTU数据集上的听觉注意检测的精度:
从表1和表2的结果可以看出,本发明与目前的主流模型在1秒和2秒的决策大小的条件下均有不同程度提升,该结果证实了本发明在听觉注意检测上的有效性和优越性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于时频域融合的听觉注意检测方法,其特征在于,用于在多声源环境中检测目标声源的空间方位,包括以下步骤:
S1:获取多声源场景下的待检测脑电信号,并进行预处理,根据决策窗口的大小将其分为N个滑动窗口;
S2:通过一个CSP空域滤波器提取脑电信号的空域特征;
S3:将脑电信号分为多个频带,通过多频带微分熵提取获得各频带脑电信号的微分熵,再将其投影到二维平面,利用插值法得到二维平面多频带微分熵的值;
S4:将经过CSP空域滤波器处理过后的数据输入时间注意力网络提取其时域特征;
S5:将经过多频带微分熵提取的脑电信号输入频率残差卷积网络提取出频域特征;
S6:将时域特征和频域特征进行特征融合,并通过分类器得到听觉注意的左/右空间方向概率。
2.根据权利要求1所述的基于时频域融合的听觉注意检测方法,其特征在于,步骤S1的具体步骤包括:
首先对多声源场景下的待检测脑电信号进行滤波,滤除50Hz的线路噪声和谐波;
其次对脑电信号进行0.1Hz~50Hz的带通滤波;
然后采用基于快速傅里叶变换的重采样技术,将脑电信号重采样到特定频率;
最后对脑电信号数据进行归一化,确保数据方差为零,同时根据预处理时的重采样频率和决策窗口大小,按照50%重叠将脑电信号分割成N个滑动窗口。
3.根据权利要求1所述的基于时频域融合的听觉注意检测方法,其特征在于,在步骤S2中,所述CSP空域滤波器的表达式如下:
其中W为CSP空域滤波器系数,WT为其对应转置;Ci表示第i个目标类别对应的协方差矩阵;X表示脑电信号;J(W)为待优化的目标函数;Z为经过CSP空域滤波器提取出的空域特征。
4.根据权利要求1所述的基于时频域融合的听觉注意检测方法,其特征在于,在步骤S3中,多频带微分熵表达式如下:
其中FFT为傅里叶变换;ei m表示第m个频带的第i段脑电信号;N表示脑电信号的总段数,hm表示第m个频带的微分熵的值。
5.根据权利要求1所述的基于时频域融合的听觉注意检测方法,其特征在于,在步骤S3中,利用方位角投影将三维脑电电极坐标其投影到二维平面,方位角投影的表达式如下:
其中x,y,z为EEG电极的三维空间坐标;θ表示仰角,即坐标点与z轴的夹角;φ表示方位角,即坐标点在xy平面上与正x轴的夹角;ρ表示坐标点到极点的角距;x′,y′分别表示坐标点在二维平面的坐标。
6.根据权利要求1所述的基于时频域融合的听觉注意检测方法,其特征在于,在步骤S4中,提取脑电信号中的时域特征的方法包括:
将脑电信号通过一层Transformer Encoder对输入数据进行编码,再经过一维卷积、自适应平均池化层和两层全连接层提取出时域特征。
7.根据权利要求1所述的基于时频域融合的听觉注意检测方法,其特征在于,在步骤S5中,提取脑电信号中的频域特征的方法包括:
通过一层三维卷积层和一层最大池化层对多频带脑电信号进行特征提取,再经过三个残差块后通过一个三维卷积,一个三维批量归一化和一个自适应平均池化层后提取出频域特征。
8.一种基于时频域融合的听觉注意检测系统,其特征在于,包括:
脑电信号获取与处理模块,用于获取多声源场景下的待检测脑电信号,并进行预处理,根据决策窗口的大小将其分为N个滑动窗口;
空域特征提取模块,用于通过一个CSP空域滤波器提取脑电信号的空域特征;
多频带微分熵模块,用于将脑电信号分为多个频带,通过多频带微分熵提取获得各频带脑电信号的微分熵,再将其投影到二维平面,利用插值法得到二维平面多频带微分熵的值;
时间注意力模块,用于将经过所述空域特征提取模块处理过后的数据输入时间注意力网络提取其时域特征;
频率残差模块,用于将经过所述多频带微分熵模块提取的多频带微分熵输入频率残差卷积网络提取出频域特征;
特征融合和分类器模块,用于将所述时间注意力模块提取的时域特征和所述频率残差模块提取的频域特征进行特征融合,并通过分类器得到听觉注意的左/右空间方向概率。
9.一种用于解码听觉注意的装置,它由存储设备、处理单元以及加载在存储设备中、能在处理单元上执行的软件程序构成,其特征在于,当所述处理单元运行该软件程序时,它能够构建一个网络模型,执行如权利要求1-7中任一项所述的基于时频域融合的听觉注意检测方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如权利要求1-7中任一项所述的基于时频域融合的听觉注意检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410155072.7A CN118121192B (zh) | 2024-02-02 | 2024-02-02 | 一种基于时频域融合的听觉注意检测方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410155072.7A CN118121192B (zh) | 2024-02-02 | 2024-02-02 | 一种基于时频域融合的听觉注意检测方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118121192A CN118121192A (zh) | 2024-06-04 |
CN118121192B true CN118121192B (zh) | 2024-09-13 |
Family
ID=91239866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410155072.7A Active CN118121192B (zh) | 2024-02-02 | 2024-02-02 | 一种基于时频域融合的听觉注意检测方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118121192B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118567487B (zh) * | 2024-07-31 | 2024-09-24 | 安徽大学 | 基于双重注意力精炼网络的听觉注意解码方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110742603A (zh) * | 2019-10-31 | 2020-02-04 | 华南理工大学 | 一种脑电波可听化精神状态检测方法及实现该方法的系统 |
CN113178195A (zh) * | 2021-03-04 | 2021-07-27 | 杭州电子科技大学 | 一种基于声音诱发脑电信号的说话人识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2560412A1 (en) * | 2012-10-08 | 2013-02-20 | Oticon A/s | Hearing device with brain-wave dependent audio processing |
CN113435234B (zh) * | 2021-03-25 | 2024-01-23 | 北京邮电大学 | 一种基于双模态视频eeg数据的驾驶员视觉显著性区域预测方法 |
CN114298216A (zh) * | 2021-12-27 | 2022-04-08 | 杭州电子科技大学 | 一种基于时间-频域融合Transformer的脑电视觉分类方法 |
CN115251909B (zh) * | 2022-07-15 | 2024-04-30 | 山东大学 | 基于时空卷积神经网络的脑电信号评估听力的方法及装置 |
CN115243180B (zh) * | 2022-07-21 | 2024-05-10 | 香港中文大学(深圳) | 类脑助听方法、装置、助听设备和计算机设备 |
CN117009780A (zh) * | 2023-07-03 | 2023-11-07 | 北京航空航天大学 | 一种基于对比学习的时空频域有效通道注意力运动想象脑电解码方法 |
CN117113269A (zh) * | 2023-08-02 | 2023-11-24 | 安徽大学 | 一种基于多尺度卷积和Transformer的运动想象识别方法、系统 |
CN117195099A (zh) * | 2023-09-08 | 2023-12-08 | 大连大学 | 一种融合多尺度特征的脑电信号情感识别算法 |
-
2024
- 2024-02-02 CN CN202410155072.7A patent/CN118121192B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110742603A (zh) * | 2019-10-31 | 2020-02-04 | 华南理工大学 | 一种脑电波可听化精神状态检测方法及实现该方法的系统 |
CN113178195A (zh) * | 2021-03-04 | 2021-07-27 | 杭州电子科技大学 | 一种基于声音诱发脑电信号的说话人识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118121192A (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220392482A1 (en) | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments | |
CN111445905B (zh) | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 | |
CN118121192B (zh) | 一种基于时频域融合的听觉注意检测方法及其系统 | |
CN106874833B (zh) | 一种振动事件的模式识别方法 | |
CN110927706A (zh) | 基于卷积神经网络的雷达干扰检测识别方法 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
Zhang et al. | X-tasnet: Robust and accurate time-domain speaker extraction network | |
CN110085246A (zh) | 语音增强方法、装置、设备和存储介质 | |
CN110706719A (zh) | 一种语音提取方法、装置、电子设备及存储介质 | |
CN115359771B (zh) | 一种水声信号降噪方法、系统、设备及存储介质 | |
US20230162757A1 (en) | Role separation method, meeting summary recording method, role display method and apparatus, electronic device, and computer storage medium | |
CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
CN111862978A (zh) | 一种基于改进mfcc系数的语音唤醒方法及系统 | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及系统 | |
Li et al. | Deeplabv3+ vision transformer for visual bird sound denoising | |
CN118212929A (zh) | 一种个性化Ambisonics语音增强方法 | |
WO2018001125A1 (zh) | 一种音频识别方法和装置 | |
Jaafar et al. | MFCC based frog identification system in noisy environment | |
Cheng et al. | Analysis of Spectro-Temporal Modulation Representation for Deep-Fake Speech Detection | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Ozkan et al. | Improved segmentation with dynamic threshold adjustment for phonocardiography recordings | |
Dawton et al. | C-AVDI: Compressive measurement-based acoustic vehicle detection and identification | |
CN112464711A (zh) | 一种基于mfdc的脑电身份识别方法、存储介质及识别装置 | |
CN117251737B (zh) | 闪电波形处理模型训练方法、分类方法、装置及电子设备 | |
CN118411999B (zh) | 基于麦克风的定向音频拾取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |