CN116996807B

CN116996807B - 基于用户情感的脑控耳机控制方法及装置、耳机、介质

Info

Publication number: CN116996807B
Application number: CN202311266663.3A
Authority: CN
Inventors: 胡方扬; 魏彦兆; 唐海波; 李宝宝
Original assignee: Xiaozhou Technology Co ltd
Current assignee: Xiaozhou Technology Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-01-30
Anticipated expiration: 2043-09-28
Also published as: CN116996807A

Abstract

本发明属于脑机接口技术领域，公开了一种基于用户情感的脑控耳机控制方法，通过根据音频信号提取目标环境特征，输入分类模型预测得到环境类别，获取对应的默认噪音透明度；以及实时采集用户脑电信号，预测用户当前的情绪标签，获取对应的情感特征向量；同时获取用户的个性化因子，计算得到个性化偏好向量；将个性化偏好向量与情感特征向量进行融合，生成情感加权向量，再根据情感加权向量和默认噪音透明度，计算目标噪音透明度，如果目标噪音透明度的置信度达到预设阈值，根据目标噪音透明度对脑控耳机的当前噪音透明度进行调整，从而可以建立环境与情感之间的内在联系，实现降噪参数的实时自适应优化。

Description

基于用户情感的脑控耳机控制方法及装置、耳机、介质

技术领域

本发明属于脑机接口技术领域，具体涉及一种基于用户情感的脑控耳机控制方法及装置、脑控耳机、存储介质。

背景技术

传统的基于环境噪声强度设计的耳机降噪策略存在明显局限性。这类方法依据噪声分贝值选择预设的过滤模式，难以适应环境噪声类型的变化。例如在人声嘈杂或风噪环境下，其固定模式无法提供舒适的听感体验。另外，在复杂情景中用户的情绪状态也会影响其对降噪效果的感知。如果降噪策略无法与用户主观情感相匹配，也会造成用户体验的不适。

因此，实现真正智能化的自适应降噪算法需要进行环境识别与情感评估的深度融合。这需要建立二者之间的内在联系模型，实现对降噪参数的动态优化。当前研究主要集中在声音分类和模式识别，以及简单的生理信号检测。但环境-情感之间的内在联系尚未得到系统化的挖掘。这成为实现个性化智能降噪的关键难点。

发明内容

本发明的目的在于提供一种基于用户情感的脑控耳机控制方法及装置、脑控耳机、存储介质，可以建立环境与情感之间的内在联系，可以根据不同的外部环境噪音和用户内在情感状态，实现降噪参数的实时自适应优化。

本发明第一方面公开一种基于用户情感的脑控耳机控制方法，包括：

根据采集到的当前环境的音频信号，提取目标环境特征；

将所述目标环境特征输入分类模型预测得到环境类别，获取与所述环境类别对应的默认噪音透明度；

实时采集用户脑电信号，根据所述用户脑电信号预测用户当前的情绪标签，获取与所述情绪标签对应的情感特征向量；

获取用户的个性化因子，根据所述个性化因子计算得到个性化偏好向量；

将所述个性化偏好向量与所述情感特征向量进行融合，生成情感加权向量；

根据所述情感加权向量和所述默认噪音透明度，计算目标噪音透明度；

计算所述目标噪音透明度的置信度；

如果所述置信度达到预设阈值，根据所述目标噪音透明度对脑控耳机的当前噪音透明度进行调整。

在一些实施例中，根据采集到的当前环境的音频信号提取目标环境特征之前，所述方法还包括：

根据采集到的当前环境的音频信号，预测获得环境噪声的预测强度；

判断所述环境噪声的预测强度是否大于预设的噪声阈值；

若所述预测强度不大于噪声阈值，执行所述根据采集到的当前环境的音频信号提取目标环境特征的步骤。

在一些实施例中，所述方法还包括：

若所述预测强度大于噪声阈值，比较所述预测强度与标准噪声强度，根据比较结果确定降噪控制量，控制脑控耳机减少降噪控制量。

在一些实施例中，比较所述预测强度与标准噪声强度之前，所述方法还包括：

以所述环境噪声的预测强度的预测时刻作为起始时刻，设置指定长度的时间窗口，获取在所述时间窗口内检测到的实际噪声强度；

若所述实际噪声强度、所述预测强度均大于噪声阈值，执行所述比较所述预测强度与标准噪声强度的步骤。

在一些实施例中，根据采集到的当前环境的音频信号提取目标环境特征，包括：

将采集到的当前环境的音频信号分割成多个短时音频帧；

对每个所述短时音频帧进行窗函数处理获得目标音频帧，对所述目标音频帧进行傅里叶变换得到线性频谱；

将所述线性频谱映射成梅尔频谱特征向量；

对所述梅尔频谱特征向量取对数运算，获得每个短时音频帧的环境特征；

将所有短时音频帧的所述环境特征进行排列组合，获得目标环境特征。

在一些实施例中，根据所述情感加权向量和所述默认噪音透明度，计算目标噪音透明度，包括：

利用预训练的词嵌入矩阵，将所述情感加权向量映射成情感词向量；

用预训练的映射函数，将所述情感词向量映射成情感标量；

根据所述情感标量和所述默认噪音透明度，计算目标噪音透明度。

在一些实施例中，根据所述目标噪音透明度对脑控耳机的当前噪音透明度进行调整，包括：

将所述目标噪音透明度添加到目标滑动窗口中，计算时间反馈因子；

根据所述时间反馈因子和所述目标噪音透明度，计算最终透明度参数；

将脑控耳机的当前噪音透明度调整为所述最终透明度参数。

本发明第二方面公开一种基于用户情感的脑控耳机控制装置，包括：

提取单元，用于根据采集到的当前环境的音频信号，提取目标环境特征；

分类单元，用于将所述目标环境特征输入分类模型预测得到环境类别，获取与所述环境类别对应的默认噪音透明度；

预测单元，用于实时采集用户脑电信号，根据所述用户脑电信号预测用户当前的情绪标签，获取与所述情绪标签对应的情感特征向量；

获取单元，用于获取用户的个性化因子，根据所述个性化因子计算得到个性化偏好向量；

融合单元，用于将所述个性化偏好向量与所述情感特征向量进行融合，生成情感加权向量；

第一计算单元，用于根据所述情感加权向量和所述默认噪音透明度，计算目标噪音透明度；

第二计算单元，用于计算所述目标噪音透明度的置信度；

控制单元，用于在所述置信度达到预设阈值时，根据所述目标噪音透明度对脑控耳机的当前噪音透明度进行调整。

在一些实施例中，所述装置还包括：

检测单元，用于在所述提取单元根据采集到的当前环境的音频信号提取目标环境特征之前，根据采集到的当前环境的音频信号，预测获得环境噪声的预测强度；

判断单元，用于判断所述环境噪声的预测强度是否大于预设的噪声阈值；

以及，所述提取单元，具体用于在所述判断单元判断出所述预测强度不大于噪声阈值时，执行所述根据采集到的当前环境的音频信号提取目标环境特征的操作。

在一些实施例中，所述装置还包括：

降噪单元，用于在所述判断单元判断出所述预测强度大于噪声阈值时，比较所述预测强度与标准噪声强度，根据比较结果确定降噪控制量，控制脑控耳机减少降噪控制量。

在一些实施例中，所述装置还包括：

判决单元，用于在所述判断单元判断出所述预测强度大于噪声阈值时，以及所述降噪单元比较所述预测强度与标准噪声强度之前，以所述环境噪声的预测强度的预测时刻作为起始时刻，设置指定长度的时间窗口，获取在所述时间窗口内检测到的实际噪声强度；若所述实际噪声强度、所述预测强度均大于噪声阈值，触发所述降噪单元执行所述比较所述预测强度与标准噪声强度的操作。

在一些实施例中，所述提取单元包括：

分割子单元，用于将采集到的当前环境的音频信号分割成多个短时音频帧；

处理子单元，用于对每个所述短时音频帧进行窗函数处理获得目标音频帧，对所述目标音频帧进行傅里叶变换得到线性频谱；

第一映射子单元，用于将所述线性频谱映射成梅尔频谱特征向量；

运算子单元，用于对所述梅尔频谱特征向量取对数运算，获得每个短时音频帧的环境特征；

组合子单元，用于将所有短时音频帧的所述环境特征进行排列组合，获得目标环境特征。

在一些实施例中，所述第一计算单元包括：

第二映射子单元，用于利用预训练的词嵌入矩阵，将所述情感加权向量映射成情感词向量；

第三映射子单元，用于用预训练的映射函数，将所述情感词向量映射成情感标量；

计算子单元，用于根据所述情感标量和所述默认噪音透明度，计算目标噪音透明度。

在一些实施例中，所述控制单元，具体用于在所述置信度达到预设阈值时，将所述目标噪音透明度添加到目标滑动窗口中，计算时间反馈因子；根据所述时间反馈因子和所述目标噪音透明度，计算最终透明度参数；将脑控耳机的当前噪音透明度调整为所述最终透明度参数。

本发明第三方面公开一种脑控耳机，包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行第一方面公开的基于用户情感的脑控耳机控制方法。

本发明第四方面公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行第一方面公开的基于用户情感的脑控耳机控制方法。

本发明的有益效果在于，通过根据音频信号提取目标环境特征，输入分类模型预测得到环境类别，获取对应的默认噪音透明度；以及实时采集用户脑电信号，预测用户当前的情绪标签，获取对应的情感特征向量；同时获取用户的个性化因子，计算得到个性化偏好向量；将个性化偏好向量与情感特征向量进行融合，生成情感加权向量，再根据情感加权向量和默认噪音透明度，计算目标噪音透明度，如果目标噪音透明度的置信度达到预设阈值，根据目标噪音透明度对脑控耳机的当前噪音透明度进行调整，从而可以建立环境与情感之间的内在联系，可以根据不同的外部环境噪音和用户内在情感状态，实现降噪参数的实时自适应优化。与用户主观意愿实时匹配的降噪策略，可以明显提升用户体验满意度。在各类复杂动态环境下，本发明具有更强的鲁棒性和个性化特性。

附图说明

此处的附图，示出了本发明所述技术方案的具体实例，并与具体实施方式构成说明书的一部分，用于解释本发明的技术方案、原理及效果。

除非特别说明或另有定义，不同附图中，相同的附图标记代表相同或相似的技术特征，对于相同或相似的技术特征，也可能会采用不同的附图标记进行表示。

图1是本发明公开的一种基于用户情感的脑控耳机控制方法的流程图；

图2是本发明公开的另一种基于用户情感的脑控耳机控制方法的流程图；

图3是本发明公开的一种基于用户情感的脑控耳机控制装置的结构示意图；

图4是本发明公开的一种脑控耳机的结构示意图。

附图标记说明：

301、提取单元；302、分类单元；303、预测单元；304、获取单元；305、融合单元；306、第一计算单元；307、第二计算单元；308、控制单元；401、存储器；402、处理器。

具体实施方式

为了便于理解本发明，下面将参照说明书附图对本发明的具体实施例进行更详细的描述。

除非特别说明或另有定义，本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下，本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分，不代表具体的数量或顺序。本文所使用的术语“和／或”包括一个或多个相关的所列项目的任意的和所有的组合。

需要说明的是，当元件被认为“固定于”另一个元件，它可以是直接固定在另一个元件上，也可以是存在居中的元件；当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件，也可以是同时存在居中元件；当一个元件被认为是“安装在”另一个元件，它可以是直接安装在另一个元件，也可以是同时存在居中元件。当一个元件被认为是“设在”另一个元件，它可以是直接设在另一个元件，也可以是同时存在居中元件。

除非特别说明或另有定义，本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容，该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的，也可以是相似的。此外，本文所使用的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明实施例公开一种基于用户情感的脑控耳机控制方法，该方法可以通过计算机编程实现。该方法的执行主体可为可穿戴设备，如智能脑控耳机，或者如计算机电脑、笔记本电脑、平板电脑等电子设备，或内嵌于设备中的基于用户情感的脑控耳机控制装置，本发明对此不作限定。在本实施例中，以脑控耳机为例进行阐述。如图1所示，该方法包括以下步骤110~180：

110、根据采集到的当前环境的音频信号，提取目标环境特征。

在本发明实施例中，脑控耳机中可集成有音频采集装置，该音频采集装置使用典型参数的MEMS芯片麦克风，其响应范围20Hz-16kHz，匹配人耳听力频率范围；56dB信噪比，可容忍一定环境噪声；小巧便携，易于集成到脑控耳机和移动设备。当前环境的音频信号采样频率可设为≥信号最大频率的两倍，考虑人耳最高可听到16kHz的声音，设定采样频率为16kHz可以满足需求。以及，设定单声道录音：人耳分左右声道，但对降噪识别影响不大，单声道可以减少存储空间，降低数据量；后续特征提取时可在时域或频域上拼接两个声道的数据，拼接后的长序列可以作为模型的输入，用于训练或者预测。采样数据格式设定为16位PCM编码，可以保证音频信号不会损失；16位量化位宽，精度可达96dB的动态范围，同时符合语音识别的信号编码格式要求。

具体的，步骤110可以包括：将采集到的当前环境的音频信号分割成多个短时音频帧；对每个短时音频帧进行窗函数处理获得目标音频帧，对目标音频帧进行傅里叶变换得到线性频谱；将线性频谱映射成梅尔频谱特征向量；对梅尔频谱特征向量取对数运算，获得每个短时音频帧的环境特征；将所有短时音频帧的环境特征进行排列组合，获得目标环境特征。

举例来说，首先，将音频采集装置采集到的持续的音频信号分割成多个短时音频帧。每帧长度设置为25ms，即每个短时音频帧包含25ms的音频信号，相邻两帧之间有10ms的重叠区域，如果采样率为16kHz，则每帧包含个样点；相邻帧间重叠个样点。

假设音频信号表示为discrete函数x(n)，n表示样点索引，第一帧信号为x(0)到x(399)，共400个样点；第二帧信号为x(240)到x(639)，重叠160个样点；依此类推，每增加一帧，起点增加160个样点。这样以25ms为长度，10ms为步长，分割整个音频信号，后续处理以25ms的短时音频帧为单位进行。

其次，将25ms的短时音频帧乘以汉明窗，以进行窗函数处理获得目标音频帧，其中，汉明窗定义为：w(n) = 0.54 ：0.46cos(2πn/N)；其中N为512，n = 0，...，N-1。对窗函数处理后的目标音频帧进行512点快速傅里叶变换（Fast Fourier Transformation，FFT），得到长度为512的复数FFT转换系数X(k)作为频谱结果，取频谱结果的幅值(模长)作为最终的512点线性频谱。其中，傅里叶变换公式：；k = 0，1，...，N-1。在计算过程采用快速傅里叶变换算法进行加速，可以对离散傅里叶变换（Discrete FourierTransform，DFT）的对称性进行优化，降低计算量。

然后，将线性频谱的频率f映射到梅尔(Mel Spectrogram，Mel) 频率，构建128个三角形滤波器，将线性频谱与每个三角形滤波器的传递函数A(f)相乘，积分求和得到Mel频谱系数。重复该过程，获得128个三角形滤波器对应的Mel谱系数。将Mel谱系数组合，形成128维的Mel频谱特征向量，表示为env_mel。

其中，三角形滤波器用于提取Mel频谱，其中心频率按Mel尺度均匀分布，范围覆盖语音相关的频带。每个滤波器的传递函数形式如下式（1）所示：

（1）

其中f0， f1， f2 分别为三角形滤波器的下截止频率、峰值频率、上截止频率。

进一步对Mel频谱特征向量env_mel中的每个元素取对数运算，获得环境特征，表示为env = log(env_mel) 。其中，环境特征的序列长度取决于音频信号总长，每25ms提取一个128维的env。env序列反映了音频在时间维度上的变化，包含了语音内容和背景噪声特征，反映了随时间演变的音频特性。取对数的目的是为了压缩动态范围，Mel谱系数动态范围较大，取对数可以压缩，也可以增强小幅度特征，提升特征辨别力。取对数后的环境特征env仍为128维向量，表示当前帧的Mel频谱特征。取对数前是增强型特征，更适合人耳感知，取对数后是强调差异的特征，更适合分类识别。

最后，将所有短时音频帧的环境特征env进行排列组合，形成当前环境音频信号的Mel频谱特征序列，作为目标环境特征。

120、将目标环境特征输入分类模型预测得到环境类别，获取与环境类别对应的默认噪音透明度。

其中，分类模型可以采用神经网络CNN(Convolutional Neural Network，CNN)、(Recurrent Neural Network，RNN)等模型结构，将目标环境特征输入分类模型，以预测输出环境类别。根据环境类别，查表获取该环境类别对应的默认噪音透明度T_env。其中查表可以预先根据环境类型设定，比如自习室对应的默认噪音透明度T_env为0.2，购物中心对应的默认噪音透明度T_env为0.7等。最终获得环境类别及其对应的默认噪音透明度T_env。

130、实时采集用户脑电信号，根据用户脑电信号预测用户当前的情绪标签，获取与情绪标签对应的情感特征向量。

具体的，步骤130可以包括：实时采集用户脑电信号；提取用户脑电信号的时域特征和频域特征，拼接形成脑电特征向量；将脑电特征向量输入训练好的预测模型，根据预测结果确定用户的情绪标签；获取与情绪标签对应的情感特征向量。

其中，使用脑控耳机采集用户头皮脑电信号。频带包括δ波(1-3 Hz)、θ波(4-7Hz)、α波(8-13 Hz)、β波(14-30Hz)等。将用户头皮不同位置的电极采集到的脑电信号进行处理。并行采集多个通道的脑电信号，例如32通道，对每个通道的脑电信号进行滤波、去伪迹等预处理。

然后将时域特征和频域特征拼接成大向量，形成脑电特征向量，该脑电特征向量用于反映用户某一时刻的整体脑电活动模式。其中，时域特征包括但不限于幅值特征（即如峰峰值、均方根、方差、偏斜度、峭度等）、小波变换特征（即通过小波变换分解不同尺度的信号细节）、Hjorth参数（即活跃度、敏捷性、复杂性）、样条小波变换特征（即通过样条函数逼近信号）。其中，频域特征包括但不限于频带功率特征（即计算δ、θ、α、β、γ五个频带的相对功率）、频带相位特征（即提取每个频带的瞬时相位）、小波包变换特征（即通过小波包分解获得各个子带能量）、自回归模型特征（即使用自回归模型分析不同频带贡献度）。

其中，预测模型可以是长短期记忆网络（Long Short-Term Memory，LSTM）和门控循环单元(Gate Recurrent Unit，GRU)等记忆网络结构。以双层LSTM网络结构为例：输入层包含128个神经元，匹配128维的脑电特征向量；第一隐层是LSTM层，包含256个记忆单元；LSTM单元内包括输入门、输出门、遗忘门及记忆单元；门控结构可以捕获长时序数据的依赖关系。第二隐层也是LSTM层，包含128个记忆单元；输出层是全连接层，包含4个节点，匹配4类情绪状态；使用softmax激活函数，输出概率最大的情绪状态作为预测结果；隐层激活函数采用tanh，输出层激活函数为softmax；采用Adam优化算法，学习率初值0.01，后期采用指数衰减；使用交叉熵作为损失函数，最小化训练损失。

其中，情绪状态包括快乐y1、放松y2、专注y3、紧张y4等四类。具体的：输出层包含四个神经元，分别表示四种情绪状态。对输出层四个节点的激活值应用softmax函数得到每个情绪状态的预测概率P(happiness)，P(relaxed)，P(focused)，P(anxious)。选择概率最大的作为当前时刻的预测结果。

优选的，可以每指定时间间隔（如每50ms）进行一次预测，实现对用户情绪的实时监测，如果连续指定次数（如N次）的预测结果一致，则根据该预测结果确定用户的情绪标签y。其中，情绪标签y具体为one-hot编码向量，表示为[y1，y2，y3，y4]，当预测结果为其中某一个情绪状态时，则赋值为1，其它的赋值为0。举例来说，若预测结果为“快乐”，则y1=1，y2=y3=y4=0，对应的情绪标签y为[1，0，0，0]；若预测结果为“专注”，对应的情绪标签y为[0，0，1，0]。

本发明实施例中，考虑到情绪标签较为泛化，不够具体，如果直接与个性化偏好向量α_personalized 融合难以考虑到个性化偏差对不同情感特征的不同影响，效果可能不佳。因此，通过获取与情绪标签对应的预训练情感特征向量，情感特征向量包含比较丰富的信息，可以反映出每个用户对不同情感维度的细微偏好，用以与个性化偏好向量α_personalized进行融合。

具体的，根据情绪标签y提取对应情绪状态的情感特征向量emo。比如情绪标签y表示当前预测的情绪状态为“快乐”。根据情绪标签y，查询对应于“快乐”的情感特征向量emo。其中，情感特征向量emo是预先训练好的实数向量，假设采用以下64维的情感特征向量来表示“悲伤”这个情绪状态：emo_sad = [0.1，-0.5，0.3，-0.2，0.7，-0.3，0.6，-0.1， ...，0.4，-0.7，0.2，-0.4]，其中每个维度的实数含义例如：

emo_sad[0] ：表示“伤心”词的权重，与情绪程度正相关；

emo_sad[1] ：“高兴”词的权重，与情绪程度负相关；

emo_sad[2] ：语调低沉度，与情绪程度正相关；

emo_sad[3] ：语速快度，与情绪程度负相关；

...

emo_sad[62] ：心率下降量，与情绪程度正相关；

emo_sad[63] ：笑容出现，与情绪程度负相关。

140、获取用户的个性化因子，根据个性化因子计算得到个性化偏好向量。

不同用户对各情感特征维度的反应敏感程度存在差异，这种差异源自每个人的个性化特点。如果使用统一的预定义情感向量，无法反映出用户个性化的情感状态。为解决此问题，可以学习每个用户特有的个性化参数，以定量化他们对不同情感特征的敏感程度，可以提高模型对不同个体的适配性。

具体的，步骤140可以包括：查询用户历史使用参数，计算得到个性化因子；根据个性化因子计算得到个性化偏好向量α_personalized。

其中，个性化因子包括用户噪音适应均值u和用户噪音适应方差v。其中u反映个体的平均倾向，v反映个体差异的程度。

用户噪音适应均值u的计算公式为：；这里Ti表示用户历史的噪音适应参数，N表示总共的历史记录数。u是历史Ti的算术平均值，反映了一个用户长期的平均噪音适应水平。

用户噪音适应方差v的计算公式为：；这里Ti同样表示用户历史的参数记录，u是上面计算得到的平均值。方差v反映了用户参数浮动的程度和个体差异。

首先，将个性化因子u和v扩展为向量，记为u'和v'，它们的长度均为n，例如n=64，对u复制n次，形成一个长度为n的向量u'=[u， u， ...， u]，对v也进行复制，v'=[v， v，...， v]。

另外，定义参数w1和w2，w1和w2也需要扩展为长度为n的向量。它们初始化为随机值，w1 = [r1， r2， ...， rn] ，其中 ri（i=1，2，…，n）是随机数； w2 = [r1'， r2'， ...，rn']。参数w1和w2可以通过采用全连接网络(Fully Connected Network，FCN)训练的。在训练过程中，w1和w2通过反向传播算法逐步更新，以最小化损失函数。w1融合用户平均适应水平u'，即通过w1·u'计算向量点积。这为每个元素赋予了一个权重，通过训练学习这些权重。w2的作用与w1相同，都是与向量点积，用于融合v'。w1和w2学习到的权重反映了u和v对生成个性化偏好向量α_personalized的不同贡献。如果w1中的权重较大，则说明u'对α_personalized贡献更大，即用户平均水平更重要。如果w2权重较大，则说明v'更重要，即用户变异程度更关键。通过学习w1和w2，可以自适应地融合u和v生成个性化偏好向量α_personalized。如果固定w1和w2，则无法学习到用户个体差异。

然后，计算u'和v'与w1、w2的向量点积，加上偏置b，得到一个长度为n的中间向量；通过以下公式对中间向量z中的每个元素应用sigmoid函数σ，得到长度为n的个性化偏好向量α_personalized：

其中sigmoid函数的数学表达式为：。它能够将任意实数域的输入值x映射到(0，1)之间的输出，也就是(0，1)区间内的一种“软限制”。神经网络中常把它作为隐层的激活函数，因为它是非线性函数，可以帮助神经网络逼近复杂的非线性映射关系。输出概率解释当输出层使用sigmoid时，可以将输出值解释为概率，适合二分类以及多标签分类问题。

b为可训练偏置参数，是一个向量，长度与网络输出相同，在这里长度为n。b在网络训练之前被初始化，通常初始化为0向量或小的随机值，经训练可以学习到每个输出独立的偏置修正。加入b的目的是让神经网络获得表达输入与输出关系的灵活性。b和权重一样，会根据误差的反向传播来更新，以最小化损失函数。b的存在让神经网络可以适应输入数据的分布，相当于调整了坐标系的原点。

150、将个性化偏好向量与情感特征向量进行融合，生成情感加权向量。

该个性化偏好向量α_personalized 表示个性化透明度偏好，与详细的情感特征向量emo相融合，可以捕捉个性化偏好对不同情感维度的影响，获得针对个性化透明度偏好调整后的特征表达，以便后续模型利用。

具体的融合方式为，对情感特征向量 emo = [emo1， emo2， ...， emon]的每个元素与个性化偏好向量α_personalized= [α1， α2， ...， αn]中对应α进行乘法计算，例如：；...；；将上述相乘结果组合，得到加权后的n维向量，即，情感加权向量weighted_emo =[weighted_emo1，weighted_emo2， ...，weighted_emon]。

160、根据情感加权向量和默认噪音透明度，计算目标噪音透明度。

具体的，步骤160可以包括：

首先，利用预训练的词嵌入矩阵E，将情感加权向量weighted_emo映射成情感词向量。在本发明中，构建词嵌入矩阵E，用于学习weighted_emo到词向量的映射，维度为(n，m)，其中m为词向量维度，可以设置为50-200等常见的词向量维度大小。将情感加权向量weighted_emo与词嵌入矩阵E做矩阵乘法得到情感词向量，情感词向量word_vec 用于反映情感加权向量weighted_emo对应的语义信息。词嵌入矩阵E中的每个元素(共n×m个元素)都是可学习的参数，可以是随机初始化时的实数值；或从预训练词向量中获得的词嵌入向量值；或通过模型训练迭代学习得到的实数值。

其次，利用预训练的映射函数f，将情感词向量映射成情感标量。在本发明实施例中，定义情感标量s为一个连续的实数值。可以通过学习一个映射函数f，实现从词向量到标量s的复杂映射：s = f(word_vec)，其中f可以是一个线性回归模型，例如。其中，W和b是映射函数f的参数，可以通过样本数据训练学习得到。偏置项b是一个标量，让学习到的映射关系中心不必经过原点，配合权重矩阵W一起构成线性回归模型，进行词向量到标量的映射。b是一个可学习的参数，会在训练过程中得到优化，使损失函数最小化。权重矩阵W的每一行包含了和情感词向量word_vec中对应单词相关的权重参数。通过与情感词向量word_vec相乘，可以获得每个单词对最终情感标量s的贡献值。W的学习目标是构建从词向量到情感标量的精确映射关系。

作为一种优选的实施方式，词嵌入矩阵E和映射函数f可以一并训练学习得到。在训练过程中，获取样本数据及其对应的真实标量s，利用构建的词嵌入矩阵E和映射函数f计算样本数据的预测标量s_pred，通过最小化预测标量s_pred和真实标量s之间的损失函数loss，以学习得到词嵌入矩阵E和映射函数f的参数，学习目标是使预测的s_pred尽可能接近真实的s。具体的，用于训练的样本数据为一个三元组：(weighted_emo，word_vec，s)，其中，weighted_emo表示情感加权向量，word_vec表示对应的情感词向量，s表示对应的情感标量。首先初始化E和f的参数，在样本数据上进行迭代学习，前向计算得到预测标量，计算损失函数 loss = MSE(s_pred，s) =均方误差；反向传播更新E和f的参数，重复迭代直到loss收敛。

然后，根据情感标量和默认噪音透明度T_env，计算目标噪音透明度T。

其中，目标噪音透明度。目标噪音透明度T的比例范围为0到1之间的连续值。0表示完全阻塞，输出音频为纯净背景音乐。1表示完全透传，输出音频不进行任何降噪处理。0到1之间的值，表示输出音频中目标音频信号的透传比例。降噪系统会根据该目标噪音透明度T确定透明度控制参数，以控制目标音频信号的通透程度。高透明度，目标音频细节通过得多，负面噪音也较多。低透明度，目标音频细节通过少，负面噪音也过滤得多。可以总结为，降噪的透明度参数T反映了目标音频信号在降噪处理后，传递给用户的纯净程度比例，它控制着音频降噪过滤的强度。

170、计算目标噪音透明度T的置信度c。

具体的，步骤170可以包括：调取历史透明度集，将目标噪音透明度作为最后一个元素存入历史透明度集；设置指定数量个大小各不同的滑动窗口，循环读取目标噪音透明度T，并计算每个滑动窗口内的统计量；根据每个滑动窗口内的统计量，计算每个滑动窗口的子置信度，综合所有滑动窗口的子置信度，获得目标噪音透明度T的置信度。

举例来说，从降噪系统的使用日志中提取所有过往计算出的历史噪音透明度T，每个T都标记随时间的索引n，如T1表示第一个计算出的T值，以构建历史透明度集D={T1，T2，...TN}。当计算每个Ti（i=1，2，…，N）时，同时记录下该时刻的环境标签ei，构建对应的环境标签集E={e1，e2，...eN}。环境标签可以包括噪音类型、噪音强度、场景类型等，en反映了计算tn时的环境条件。

首先，设置滑动窗口数量K，K的值可以根据实际情况确定，这里为例取K=32。根据K确定具体的窗口大小，取一个较小、一个中等和一个较大的窗口大小，例如设置为{10， 50，100}次采样数的窗口。初始化K个具体的滑动窗口，定义W1、W2、...WK作为K个大小不同的窗口变量，为每个窗口初始化存储空间，如对W1 初始化一个大小为10的空数组，则滑动窗口W1读取历史透明集中最新的10个历史噪音透明度。循环次数计数器count用于统计处理了多少个历史噪音透明度T，初始化count=0，作为计数起点。

然后，循环读取新产生的目标噪音透明度T。具体的，将目标噪音透明度T放入K个滑动窗口存储：取出并删除第1个窗口W1中最早的一个元素，将新读入的T添加到W1末尾，如此循环对每个窗口Wk进行滑动。每次循环读取目标噪音透明度T时，执行count = count +1。以及，根据滑动窗口Wk中的所有存储的T值，在每个窗口Wk内计算统计量，包括T值的平均值、标准差和方差，T值的平均值μk = = (T1 + T2 +... + TNk) / Nk；T值的标准差σk =sqrt(∑(Ti ：μk)2 / (Nk -1))；T值的方差νk = ∑(Ti ：μk)2 / (Nk ：1)。

其中，滑动窗口的子置信度的计算公式为：。其中，ak 为平均值权重系数，用于调整均值在计算子置信度中的权重占比；bk为标准差权重系数，用于调整标准差在计算子置信度中的权重占比；权重系数ak和bk是在均值和标准差之间进行权重划分。λ为方差衰减因子，主要用来调节方差项对子置信度的影响程度。

180、如果置信度达到预设阈值，根据目标噪音透明度对脑控耳机的当前噪音透明度进行调整。

如果置信度c低于预设阈值，则保持上一时刻的当前噪音透明度不变，不会对当前噪音透明度进行调整。如果置信度达到预设阈值，则根据目标噪音透明度对脑控耳机的当前噪音透明度进行调整。

具体的，步骤180中，根据目标噪音透明度对脑控耳机的当前噪音透明度进行调整，可以包括：直接将脑控耳机的当前噪音透明度调整为目标噪音透明度。例如在一个应用场景中，用户小王在图书馆戴着脑控耳机学习，他设置了较高音量播放音乐。此时同学提醒小王回宿舍，但音量过大导致小王没有听见。脑控耳机通过脑电模块检测到小王的情绪状态由“专注”转变为“紧张”，判断他可能错过环境中的重要声音。系统会自动将音量降低至适当程度，使同学的提醒可辨认。

或者，优选的，根据目标噪音透明度对脑控耳机的当前噪音透明度进行调整，可以包括：将目标噪音透明度添加到目标滑动窗口中，计算时间反馈因子；根据时间反馈因子和目标噪音透明度，计算最终透明度参数；将脑控耳机的当前噪音透明度调整为最终透明度参数。

其中，目标滑动窗口为一个时间长度为V的滑动窗口，用于存储最近一段时间内计算出的满足置信度阈值的目标噪音透明度T。也即，每当产生一个满足置信度达到预设阈值的新的目标噪音透明度T时，将其添加到目标滑动窗口V中，并滑动更新V内的存储。在目标滑动窗口V内，计算存储的所有目标噪音透明度的平均值，记为Ta。然后根据Ta计算时间反馈因子，其中，k为可调节的反馈强度参数。

其中，根据时间反馈因子对目标噪音透明度进行平滑处理，获得最终透明度参数T_smoothed = T + β，其中T_smoothed作为平滑处理后最终输出的透明度参数，用于实时调节降噪系统的效果。

通过时间反馈因子β的反馈机制，可以平滑参数变化，减少随机波动的负面影响，改善参数平稳性，优化用户体验，避免降噪效果频繁震荡。例如在一个应用场景中，用户小王在图书馆学习，佩戴脑控耳机播放音乐。他将音量设置较高以避免噪音干扰。这时有同学提醒小王回宿舍，但音乐声太大未能听清。脑控耳机通过脑电模块检测小王的情绪状态出现变化，由“专注”转为“紧张”，判断可能漏听环境信息。根据原预设的情绪识别参数，系统会直接降低音乐音量。但是，经过平滑处理模块评估，这一情绪变化波动较大，可能是瞬态变化。系统会保持当前音量不变，继续监测情绪状态，防止参数调整过于频繁。经过一小段时间检测，确认小王持续紧张，这时系统会降低音量，让同学提醒的声音传递到小王耳中。

综上所述，实施本发明实施例，与现有基于固定模式的降噪算法相比，本发明建立环境与情感之间的内在联系，可以根据不同的外部环境噪音和用户内在情感状态，实现降噪参数的实时自适应优化。与用户主观意愿实时匹配的降噪策略，可以明显提升用户体验满意度。在各类复杂动态环境下，本发明实施例表现出更强的鲁棒性和个性化特性。

在一些实施例中，考虑到低水平的噪声对语音识别质量影响较小，通常不需要进行主动干预，否则会引入不必要的系统波动。但是，当噪声持续升高并超过某个阈值时，语音识别的效果会明显下降，用户体验变差。所以需要设置一个噪声阈值，当持续噪声预计会超过这个噪声阈值时，需要及时进行主动干预。通过调整透明度等参数，可以抑制高水平噪声对识别质量的负面影响，保证体验。如果不及时干预，语音识别效果降低会持续存在，直到噪声消退，这会严重影响用户。因此，设置噪声阈值，快速检测瞬态扰动，及时应对突发环境噪声。在预计噪声较大时及时主动干预，可以有效保证语音识别质量和用户体验。具体的，如图2所示，本发明实施例公开另一种基于用户情感的脑控耳机控制方法。该方法包括以下步骤210~290：

210、根据采集到的当前环境的音频信号，预测获得环境噪声的预测强度。

在本发明实施例中，可以利用预先训练的环境扰动检测模型，对采集到的当前环境的音频信号进行预测，获得环境噪声的预测强度（即分贝大小）。其中，环境扰动检测模型的训练过程具体可以包括构建环境噪声数据集、设计模型结构和模型训练，其中：

构建环境噪声数据集：收集真实语音交互录音，人工标注音频中噪声的分贝大小；取样噪声片段，进行预处理和平滑衔接;根据标注添加不同分贝值的噪声，获得丰富带噪环境样本。

设计模型结构：包括输入层、隐藏层和输出层。输入层：使用Mel频率倒谱系数（MelFrequency Cepstrum Coefficient，MFCC）、滤波器组等方式提取声音的时频域特征。MFCC提取人耳敏感的声学特征，滤波器组分析不同频带能量。输入特征维度约200-500，通过主成成分分析（principal component analysis，PCA）等降维技术减少冗余。隐藏层：利用卷积层学习局部特征，再通过池化聚合特征。长短期记忆(Long Short Term Memory，LSTM)或者门控循环神经网络(gated recurrent neural network，GRU)层学习长时依赖关系，处理时间序列信息。结合神经网络RNN和CNN的层数一般2-4层，单层节点数128-512不等。输出层：设置独立 sigmoid函数对不同噪声类型判断概率。添加 softmax 归一化获取最终分布概率。输出维度等于模型需要分类的噪声类型总数。网络层数：通常在5到10层，参数总量约几百万规模。

模型训练，包括：将收集的环境噪声大小样本数据集按例如8：1：1的比例划分为训练集、验证集和测试集。训练集用于模型参数训练，验证集用于超参数调优，测试集用于最后模型效果评估。使用适应性矩估计（adaptivemomentestimation，Adam）、均方根传播(Root Mean Square Propagation，RMSProp)等自适应学习率优化算法训练模型参数。这类算法可以自调节学习率，加速网络收敛速度并提升效果。使用提前终止、L1/L2正则化等技术防止模型过度依赖训练数据导致过拟合。观察验证集效果提前终止训练，避免模型过度优化训练数据而泛化能力下降。调整学习率、正则强度、批量大小等超参数，确定模型最优配置，即确定最优超参数。通过验证集效果选择参数组合，防止人为选择偏差。

220、判断环境噪声的预测强度是否大于预设的噪声阈值。若是，执行步骤230；否则，执行步骤240~290。

判断预测强度是否大于预设的噪声阈值。如果大于噪声阈值，则确认存在可能的噪声扰动，需要及时进行主动干预，进行降噪控制，即执行步骤230。如果小于或等于噪声阈值，通过执行步骤240~290，基于用户情感调整透明度等参数，可以抑制高水平噪声对语音识别质量的负面影响，保证用户体验。

230、比较预测强度与标准噪声强度，根据比较结果确定降噪控制量，控制脑控耳机减少降噪控制量。

在实际应用中，检测环境实时噪声的预测强度，与可接受的标准噪声强度进行比较。如果预测强度大于标准噪声强度，计算预测强度与标准噪声强度之间的强度差值，根据强度差值确定降噪控制量，其中降噪控制量与强度差值成正相关关系。也即，如果预测强度明显高于标准噪声强度，则相应扩大降噪量，以抑制过强噪声对语音识别的影响；如果预测强度仅略高于标准强度，则适当增加降噪量，兼顾语音细节保留。最后根据环境噪声情况，输出最优的麦克风降噪控制参数，实现动态自适应调节。

作为一种优选的实施方式，在执行步骤230之前，还可以以环境噪声的预测强度的预测时刻作为起始时刻，设置指定长度的时间窗口，获取在该时间窗口内检测到的实际噪声强度（即分贝大小），若实际噪声强度与预测噪声一致，均大于预设的噪声阈值，则认定噪声扰动预测有效，开始执行控制，即执行步骤230；否则，结束本流程。其中，预设时间窗口可设置为长度为t(例如2秒)的时间窗口，用于记录当前时间点。在时间窗口内，持续检测实时的环境噪声，以获得实际噪声强度。

其中，降噪控制量可以是多方面的，不仅限于透明度调整，还可以包括通过算法处理来抑制噪声。示例性地，降噪控制量具体为透明度控制量。

例如在一个应用场景中，用户小王在图书馆使用脑控耳机学习。他将耳机的当前噪音透明度T预设为0.5，取得识别语音的清晰度与抑制杂音的平衡。此时旁边有人说话，产生了60分贝的瞬态噪声，但低于预设的噪声阈值70分贝。判断该环境噪声为瞬态噪声，对当前噪音透明度T=0.5的语音识别质量影响小，继续维持当前噪音透明度。

但如果持续检测到类似嘈杂声，且持续噪声超过时间窗口t后，预测模块判断噪声能量将升高至超过预设的噪声阈值，例如预计将升高至80分贝。则判定语音识别质量将下降。为抑制噪声影响，直接输出降噪控制信号，将当前噪音透明度减少透明度控制量0.3，也即降低至T=0.2。可有效抑制受阈值以上噪声干扰，保证语音识别质量。

240~290。关于步骤240~290，请参照上述实施例中步骤110~180的详细阐述，本发明在此不作赘述。

如图3所示，本发明实施例公开一种基于用户情感的脑控耳机控制装置，包括提取单元301、分类单元302、预测单元303、获取单元304、融合单元305、第一计算单元306、第二计算单元307、控制单元308，其中，

提取单元301，用于根据采集到的当前环境的音频信号，提取目标环境特征；

分类单元302，用于将目标环境特征输入分类模型预测得到环境类别，获取与环境类别对应的默认噪音透明度；

预测单元303，用于实时采集用户脑电信号，根据用户脑电信号预测用户当前的情绪标签，获取与情绪标签对应的情感特征向量；

获取单元304，用于获取用户的个性化因子，根据个性化因子计算得到个性化偏好向量；

融合单元305，用于将个性化偏好向量与情感特征向量进行融合，生成情感加权向量；

第一计算单元306，用于根据情感加权向量和默认噪音透明度，计算目标噪音透明度；

第二计算单元307，用于计算目标噪音透明度的置信度；

控制单元308，用于在置信度达到预设阈值时，根据目标噪音透明度对脑控耳机的当前噪音透明度进行调整。

在一些实施例中，控制装置还可以包括以下未图示的单元：

检测单元，用于在提取单元301根据采集到的当前环境的音频信号提取目标环境特征之前，根据采集到的当前环境的音频信号，预测获得环境噪声的预测强度；

判断单元，用于判断环境噪声的预测强度是否大于预设的噪声阈值；

以及，提取单元301，具体用于在判断单元判断出预测强度不大于噪声阈值时，执行根据采集到的当前环境的音频信号提取目标环境特征的操作。

在一些实施例中，控制装置还可以包括以下未图示的单元：

降噪单元，用于在判断单元判断出预测强度大于噪声阈值时，比较预测强度与标准噪声强度，根据比较结果确定降噪控制量，控制脑控耳机减少降噪控制量。

在一些实施例中，控制装置还可以包括以下未图示的单元：

判决单元，用于在判断单元判断出预测强度大于噪声阈值时，以及降噪单元比较预测强度与标准噪声强度之前，以环境噪声的预测强度的预测时刻作为起始时刻，设置指定长度的时间窗口，获取在时间窗口内检测到的实际噪声强度；若实际噪声强度、预测强度均大于噪声阈值，触发降噪单元执行比较预测强度与标准噪声强度的操作。

在一些实施例中，提取单元301可以包括以下未图示的子单元：

处理子单元，用于对每个短时音频帧进行窗函数处理获得目标音频帧，对目标音频帧进行傅里叶变换得到线性频谱；

第一映射子单元，用于将线性频谱映射成梅尔频谱特征向量；

运算子单元，用于对梅尔频谱特征向量取对数运算，获得每个短时音频帧的环境特征；

组合子单元，用于将所有短时音频帧的环境特征进行排列组合，获得目标环境特征。

在一些实施例中，第一计算单元306可以包括以下未图示的子单元：

第二映射子单元，用于利用预训练的词嵌入矩阵，将情感加权向量映射成情感词向量；

第三映射子单元，用于用预训练的映射函数，将情感词向量映射成情感标量；

计算子单元，用于根据情感标量和默认噪音透明度，计算目标噪音透明度。

在一些实施例中，控制单元308，具体用于在置信度达到预设阈值时，将目标噪音透明度添加到目标滑动窗口中，计算时间反馈因子；根据时间反馈因子和目标噪音透明度，计算最终透明度参数；将脑控耳机的当前噪音透明度调整为最终透明度参数。

如图4所示，本发明实施例公开一种脑控耳机，包括存储有可执行程序代码的存储器401以及与存储器401耦合的处理器402；

其中，处理器402调用存储器401中存储的可执行程序代码，执行上述各实施例中描述的基于用户情感的脑控耳机控制方法。

本发明实施例还公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行上述各实施例中描述的基于用户情感的脑控耳机控制方法。

以上实施例的目的，是对本发明的技术方案进行示例性的再现与推导，并以此完整的描述本发明的技术方案、目的及效果，其目的是使公众对本发明的公开内容的理解更加透彻、全面，并不以此限定本发明的保护范围。

以上实施例也并非是基于本发明的穷尽性列举，在此之外，还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进，均属本发明的保护范围。

Claims

1.一种基于用户情感的脑控耳机控制方法，其特征在于，包括：

根据采集到的当前环境的音频信号，提取目标环境特征；

计算所述目标噪音透明度的置信度；

2.如权利要求1所述的基于用户情感的脑控耳机控制方法，其特征在于，根据采集到的当前环境的音频信号提取目标环境特征之前，所述方法还包括：

判断所述环境噪声的预测强度是否大于预设的噪声阈值；

3.如权利要求2所述的基于用户情感的脑控耳机控制方法，其特征在于，所述方法还包括：

4.如权利要求3所述的基于用户情感的脑控耳机控制方法，其特征在于，比较所述预测强度与标准噪声强度之前，所述方法还包括：

5.如权利要求1至4任一项所述的基于用户情感的脑控耳机控制方法，其特征在于，根据采集到的当前环境的音频信号提取目标环境特征，包括：

将采集到的当前环境的音频信号分割成多个短时音频帧；

将所述线性频谱映射成梅尔频谱特征向量；

6.如权利要求1至4任一项所述的基于用户情感的脑控耳机控制方法，其特征在于，根据所述情感加权向量和所述默认噪音透明度，计算目标噪音透明度，包括：

用预训练的映射函数，将所述情感词向量映射成情感标量；

7.如权利要求1至4任一项所述的基于用户情感的脑控耳机控制方法，其特征在于，根据所述目标噪音透明度对脑控耳机的当前噪音透明度进行调整，包括：

将所述目标噪音透明度添加到目标滑动窗口中，计算时间反馈因子；其中，所述目标滑动窗口为时间长度为V的滑动窗口，用于存储最近一段时间内计算出的置信度达到预设阈值的目标噪音透明度；

将脑控耳机的当前噪音透明度调整为所述最终透明度参数。

8.一种基于用户情感的脑控耳机控制装置，其特征在于，包括：

第二计算单元，用于计算所述目标噪音透明度的置信度；

9.一种脑控耳机，其特征在于，包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至7任一项所述的基于用户情感的脑控耳机控制方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至7任一项所述的基于用户情感的脑控耳机控制方法。