CN118121192B

CN118121192B - 一种基于时频域融合的听觉注意检测方法及其系统

Info

Publication number: CN118121192B
Application number: CN202410155072.7A
Authority: CN
Inventors: 范存航; 倪钦科; 张宏玉; 吕钊; 严盛; 裴胜兵; 李平
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-09-13
Anticipated expiration: 2044-02-02
Also published as: CN118121192A

Abstract

本发明公开了一种基于时频域融合的听觉注意检测方法和系统。首先根据不同的决策窗口长度将脑电信号划分成多个与之对应的滑动窗口，再分别通过空域特征提取模块和多频带微分熵模块提取后将其对应结果分别输入到两个并行模块：时间注意力模块和频率残差模块。其中，本发明通过时间注意力模块提取时域特征，通过频率残差模块提取频域特征，最后通过特征融合和分类器模块将时频域特征融合并以此得到听觉注意检测的结果。经过实验证明，本发明得到的预测结果与现有方法相比更加准确，提高了听觉注意检测的精度。

Description

一种基于时频域融合的听觉注意检测方法及其系统

技术领域

本发明涉及脑电信号处理技术领域，特别是涉及一种基于时频域荣恶化的听觉注意检测方法及其系统。

背景技术

人们有能力在嘈杂、多说话的环境中隔离并专注于单个声源，这种技能通常被称为鸡尾酒会效应。然而，有听力障碍的人可能会降低或完全丧失在背景噪音中专注于特定说话者的能力。大多数现有的助听器都无法解决精确定位目标说话者的基本挑战。根据之前的神经科学研究，大脑活动和听觉注意力之间存在联系，从大脑神经活动中解码听觉注意力是听觉注意。

听觉注意检测研究主要集中在两个范式：说话者识别和跟踪空间注意力。神经科学的最新进展揭示了神经活动和听觉检测之间的联系。根据结论，一些研究采用了刺激重建或语音包络重建方法，该技术需要使用干净的听觉刺激作为输入。然而，大多数现实场景都是多声音环境，听众接收到多种声音的混合，这使得获得干净的听觉刺激成为一个挑战。因此，研究重点是仅使用脑电图信号作为输入来实现跟踪空间注意力。

传统的听觉检测任务依赖线性方法来处理脑电信号，然而，这些线性方法经常与非线性映射关系作斗争，导致需要更长的决策窗口。此前的研究已经证明，每个频段都包含不同的空间特征，描绘了人体的不同状态。因此，一些研究关注脑电信号的频率。他们采用卷积神经网络从频段进行解码，并具有良好的性能，从频段中提取微分熵并将其投影到二维拓扑图上。然而，它忽略了脑电图信号的动态时变特征。其它研究集中在脑电图信号的时间方面。其中一些直接使用卷积网络来解码时域，另一些则引入注意力机制，因为脑电信号本质上是时间序列数据，这两种方法都取得了成功的结果。尽管脑电时间序列信号具有丰富的时变信息，但其在时域上有限的谱空间特征表明与人类空间注意力的相关性较弱。因此，有必要融合时域和频域以获得更全面的特征。然而，目前还没有探索听觉检测中时域和频域特征融合的工作。

发明内容

本发明所要解决的技术问题是提供一种基于时频域融合的听觉注意检测方法及其系统，能够解决听觉检测工作中缺乏时频域融合导致检测精度不高的不足。

为解决上述技术问题，本发明采用的第一个技术方案是：提供一种基于时频域融合的听觉注意检测方法，用于在多声源环境中检测目标声源的空间方位，包括以下步骤：

S1:获取多声源场景下的待检测脑电信号，并进行预处理，根据决策窗口的大小将其分为N个滑动窗口；

S2：通过一个CSP空域滤波器提取脑电信号的空域特征；

S3：将脑电信号分为多个频带，通过多频带微分熵提取获得各频带脑电信号的微分熵，再将其投影到二维平面，利用插值法得到二维平面多频带微分熵的值；

S4：将经过CSP空域滤波器处理过后的数据输入时间注意力网络提取其时域特征；

S5：将经过多频带微分熵提取的脑电信号输入频率残差卷积网络提取出频域特征；

S6：将时域特征和频域特征进行特征融合，并通过分类器得到听觉注意的左/右空间方向概率。

在本发明一个较佳实施例中，步骤S1的具体步骤包括：

首先对多声源场景下的待检测脑电信号进行滤波，滤除50Hz的线路噪声和谐波；

其次对脑电信号进行0.1Hz～50Hz的带通滤波；

然后采用基于快速傅里叶变换的重采样技术，将脑电信号重采样到特定频率；

最后对脑电信号数据进行归一化，确保数据方差为零，同时根据预处理时的重采样频率和决策窗口大小，按照50％重叠将脑电信号分割成N个滑动窗口。

在本发明一个较佳实施例中，在步骤S2中，所述CSP空域滤波器的表达式如下：

其中W为CSP空域滤波器系数，W^T为其对应转置；C_i表示第i个目标类别对应的协方差矩阵；X表示脑电信号；J(W)为待优化的目标函数；Z为经过CSP空域滤波器提取出的空域特征。

在本发明一个较佳实施例中，在步骤S3中，多频带微分熵表达式如下：

其中FFT为傅里叶变换；e_i ^m表示第m个频带的第i段脑电信号；N表示脑电信号的总段数，h^m表示第m个频带的微分熵的值。

在本发明一个较佳实施例中，在步骤S3中，利用方位角投影将三维脑电电极坐标其投影到二维平面，方位角投影的表达式如下：

其中x,y,z为EEG电极的三维空间坐标；θ表示仰角，即坐标点与z轴的夹角；φ表示方位角，即坐标点在xy平面上与正x轴的夹角；ρ表示坐标点到极点的角距；x′,y′分别表示坐标点在二维平面的坐标。

在本发明一个较佳实施例中，在步骤S4中，提取脑电信号中的时域特征的方法包括：

将脑电信号通过一层Transformer Encoder对输入数据进行编码，再经过一维卷积、自适应平均池化层和两层全连接层提取出时域特征。

在本发明一个较佳实施例中，在步骤S5中，提取脑电信号中的频域特征的方法包括：

通过一层三维卷积层和一层最大池化层对多频带脑电信号进行特征提取，再经过三个残差块后通过一个三维卷积，一个三维批量归一化和一个自适应平均池化层后提取出频域特征。

为解决上述技术问题，本发明采用的第二个技术方案是：提供一种基于时频域融合的听觉注意检测系统，包括：

脑电信号获取与处理模块，用于获取多声源场景下的待检测脑电信号，并进行预处理，根据决策窗口的大小将其分为N个滑动窗口；

空域特征提取模块，用于通过一个CSP空域滤波器提取脑电信号的空域特征；

多频带微分熵模块，用于将脑电信号分为多个频带，通过多频带微分熵提取获得各频带脑电信号的微分熵，再将其投影到二维平面，利用插值法得到二维平面多频带微分熵的值；

时间注意力模块，用于将经过所述空域特征提取模块处理过后的数据输入时间注意力网络提取其时域特征；

频率残差模块，用于将经过所述多频带微分熵模块提取的多频带微分熵输入频率残差卷积网络提取出频域特征；

特征融合和分类器模块，用于将所述时间注意力模块提取的时域特征和所述频率残差模块提取的频域特征进行特征融合，并通过分类器得到听觉注意的左/右空间方向概率。

为解决上述技术问题，本发明采用的第三个技术方案是：提供一种用于解码听觉注意的装置，它由存储设备、处理单元以及加载在存储设备中、能在处理单元上执行的软件程序构成，其特征在于，当所述处理单元运行该软件程序时，它能够构建一个网络模型，执行如上任一项所述的基于时频域融合的听觉注意检测方法。

为解决上述技术问题，本发明采用的第四个技术方案是：提供一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如上任一项所述的基于时频域融合的听觉注意检测方法。

本发明的有益效果是：

本发明通过在处理脑电信号数据时，依据预处理后的脑电信号频率特征，采用滑动窗口技术将信号分割成连续的时间片段，这样做能更精确地评估听者在注意力转换上的时间响应；

通过CSP空域滤波器和多频带微分熵特征提取，对脑电信号的时域信息和频域信息进行提取，提高了脑电信号的信噪比；

本发明将脑电信号分别从时域和频域进行特征提取，不仅包含脑电信号的时变特性同时也具有谱空间特征，可以得到更加全面的脑电信号特征，通过特征融合后，分类器得到的预测结果与现有方法相比更加准确，提高了听觉注意检测的精度。

附图说明

图1是本发明基于时频域融合的听觉注意检测方法的流程图；

图2是所述基于时频域融合的听觉注意检测系统的结构框图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1，本发明实施例包括：

一种基于时频域融合的听觉注意检测方法，用于在多声源环境中检测目标声源的空间方位，包括以下步骤：

其中待检测的脑电信号需要经过预处理：首先需要滤除50Hz的线路噪声和谐波；其次对脑电信号进行0.1Hz到50Hz的带通滤波；之后，使用基于快速傅里叶变换的重采样技术将脑电信号重采样到特定频率；最后，对脑电信号数据进行归一化，确保数据方差为零。

经过预处理后的脑电数据，根据预处理时的重采样频率和决策窗口大小，分割成N个滑动窗口。其中，决策窗口大小可以取5s以内的数值，每个滑动窗口间有50％的重叠，其大小为预处理时的重采样频率乘以决策窗口的大小。

S2：通过一个CSP空域滤波器提取脑电信号的空域特征；

具体的，所述CSP空域滤波器其表达式如下所示：

具体的，所述多频带微分熵表达式如下：

将各个通道微分熵的值，利用方位角投影映射到二维平面，方位角投影的表达式如下：

其中x,y,z为EEG电极的三位空间坐标；θ表示仰角，即坐标点与z轴的夹角；φ表示方位角，即坐标点在xy平面上与正x轴的夹角；ρ表示坐标点到极点的角距；x′,y′分别表示坐标点在二维平面的坐标。

最后采用Clough-Tocher插值法把原先各个三维坐标下的微分熵的值估计二维32×32网格上的微分熵的值。

具体的，所述时间注意力网络按照以下步骤提取脑电信号中的时域特征：

将脑电信号通过一层Transformer Encoder对输入数据进行编码，再经过一维卷积(卷积核：64×7，步长：1)、自适应平均池化层(输出：1)和两层全连接层(输入：64，中间：16，输出：4)提取出时域特征。

所述频率残差卷积网络提取脑电信号中的频域特征的方法包括：

具体的，所述频率残差卷积网络将多频带脑电信号视为一个单通道数据，输入一个三位卷积层(卷积核：32×1×7×7)和一个三维批量归一化层，随后经过三个残差块后通过一个三位卷积(卷积核：4×1×1×1)，一个三维批量归一化和一个自适应平均池化层(输出：1×1×1)后将其展平提取出频域特征。

其中，所述残差块具体结构如下：

第一层是1×1的卷积，第二层是3×3的卷积，第三层同样是1×1的卷积。其中第三层之后存在一个跳跃连接，通过一个1×1的卷积调整输出，在输出之前存在一个概率为0.3的丢弃层。

将时域和频域的两个特征拼接成一个全新的向量，再通过一个全连接层(输入：8，输出：1)实现分类器功能，得到听觉注意左/右概率。若听觉注意左侧概率大于右侧，则表明听觉注意位于左侧；相反则位于右侧。

本实例将预测精度作为评估对象，概率误差作为训练目标，利用损失函数减小概率误差来迭代训练参数，具体损失函数如下：

其中，N为总的样本数，y_i表示为第i个样本的真实标签，Q_i表示为对应的预测概率，L为对应的损失值。

经过多次迭代后，选择损失最小的训练参数作为训练完成的模型参数，用于听觉注意检测。

参阅图2，本发明示例中，还提供了一种基于时频域融合的听觉注意检测系统，包括：

本示例的一种基于时频域融合的听觉注意检测系统，可执行本发明所提供的一种基于时频域融合的听觉注意检测方法，可执行方法示例的任何组合实施步骤，具备该方法相应的功能和有益效果。

本发明示例中，还提供了一种用于解码听觉注意的装置，它由存储设备、处理单元以及加载在存储设备中、能在处理单元上执行的软件程序构成，其特征在于，当所述处理单元运行该软件程序时，它能够构建一个网络模型，执行如上任一项所述的基于时频域融合的听觉注意检测方法。

所提及的方法可通过多种类型的存储器以软件形式实现，包括内部存储器(如硬盘、RAM)和外部存储设备(如USB闪存驱动器、SD卡)。这些存储器不仅用于存储操作系统和应用软件，还能临时保存数据。具体到本例，可以设计为一个独立运行的程序，存储于例如固态硬盘这样的设备上，并能通过外部触发来启动。

本发明示例中，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如上任一项所述的基于时频域融合的听觉注意检测方法。

本发明示例中，还针对提供的所述基于时频域融合的听觉注意检测方法进行了实验验证：

KUL和DTU分别是两个公开的用于听觉注意检测的数据集，二者均为双说话人场景。现有的主流模型均在这两个数据集上进行听觉注意检测实验。与之前的主流模型类似，本实施例应用本发明所述方法在这两个数据集上进行听觉注意检测实验。

表1为本发明与其它主流模型在KUL数据集上的听觉注意检测的精度：

表2为本发明与其它主流模型在DTU数据集上的听觉注意检测的精度：

从表1和表2的结果可以看出，本发明与目前的主流模型在1秒和2秒的决策大小的条件下均有不同程度提升，该结果证实了本发明在听觉注意检测上的有效性和优越性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于时频域融合的听觉注意检测方法，其特征在于，用于在多声源环境中检测目标声源的空间方位，包括以下步骤：

S2：通过一个CSP空域滤波器提取脑电信号的空域特征；

2.根据权利要求1所述的基于时频域融合的听觉注意检测方法，其特征在于，步骤S1的具体步骤包括：

其次对脑电信号进行0.1Hz～50Hz的带通滤波；

3.根据权利要求1所述的基于时频域融合的听觉注意检测方法，其特征在于，在步骤S2中，所述CSP空域滤波器的表达式如下：

4.根据权利要求1所述的基于时频域融合的听觉注意检测方法，其特征在于，在步骤S3中，多频带微分熵表达式如下：

5.根据权利要求1所述的基于时频域融合的听觉注意检测方法，其特征在于，在步骤S3中，利用方位角投影将三维脑电电极坐标其投影到二维平面，方位角投影的表达式如下：

6.根据权利要求1所述的基于时频域融合的听觉注意检测方法，其特征在于，在步骤S4中，提取脑电信号中的时域特征的方法包括：

7.根据权利要求1所述的基于时频域融合的听觉注意检测方法，其特征在于，在步骤S5中，提取脑电信号中的频域特征的方法包括：

8.一种基于时频域融合的听觉注意检测系统，其特征在于，包括：

9.一种用于解码听觉注意的装置，它由存储设备、处理单元以及加载在存储设备中、能在处理单元上执行的软件程序构成，其特征在于，当所述处理单元运行该软件程序时，它能够构建一个网络模型，执行如权利要求1-7中任一项所述的基于时频域融合的听觉注意检测方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如权利要求1-7中任一项所述的基于时频域融合的听觉注意检测方法。