CN117014761B

CN117014761B - 交互式脑控耳机控制方法及装置、脑控耳机、存储介质

Info

Publication number: CN117014761B
Application number: CN202311266662.9A
Authority: CN
Inventors: 胡方扬; 魏彦兆; 唐海波; 李宝宝
Original assignee: Xiaozhou Technology Co ltd
Current assignee: Xiaozhou Technology Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-01-26
Anticipated expiration: 2043-09-28
Also published as: CN117014761A

Abstract

本发明属于脑机接口技术领域，公开了一种交互式脑控耳机控制方法，通过实时采集当前环境的语音信号和用户的脑电信号，对脑电信号提取获得用户的注意力特征输入预先训练的第一分类模型，获得注意力方向和集中度，以确定用户的注意力状态；以及，对语音信号提取获得目标语音特征向量输入构建的第二分类模型，获得语音活动的预测概率，判断预测概率是否大于第一阈值且小于第二阈值；若否，根据注意力状态对语音信号进行降噪处理，从而可以实时关注用户的注意力状态，同时能够实时预测语音活动，作为个性化降噪处理的先决条件，实现个性化自适应的智能降噪。而且通过注意力状态实时调控，可适应各种未知噪声环境，扩大适用范围。

Description

交互式脑控耳机控制方法及装置、脑控耳机、存储介质

技术领域

本发明属于脑机接口技术领域，具体涉及一种交互式脑控耳机控制方法及装置、脑控耳机、存储介质。

背景技术

随着语音交互式耳机的广泛应用，环境噪声对语音通话质量的影响日益突出。现有的主动降噪耳机技术，如采用过滤或模糊化处理来抑制环境噪声。这类固定模式处理存在一个普遍问题，那就是很难区分噪声中的语音成分，往往会造成语音细节的损失。

基于自适应算法的降噪方式通过分析环境噪声特征动态调整参数，效果较传统方法有所提升，但是这类方法依赖于准确提取噪声特征信息，在复杂环境下也会出现误判的可能。

另外，过度抑制背景噪声同样会削弱语音质量。近年来深度学习用于训练降噪模型，但这需要大量标注数据，且难以适应新的未知噪声环境。现有降噪技术普遍缺乏对个体差异的考虑，无法实现个性化自适应的降噪。

发明内容

本发明的目的在于提供一种交互式脑控耳机控制方法及装置、脑控耳机、存储介质，可以实现个性化自适应的降噪。

本发明第一方面公开一种交互式脑控耳机控制方法，包括：

实时采集当前环境的语音信号和用户的脑电信号；

对所述脑电信号进行特征提取，获得用户的注意力特征；

将所述注意力特征输入预先训练的第一分类模型，获得注意力方向和集中度；

根据注意力方向和集中度，确定用户的注意力状态；

对所述语音信号进行特征提取，获得目标语音特征向量；

将所述目标语音特征向量输入构建的第二分类模型，获得语音活动的预测概率；

判断所述预测概率是否大于第一阈值且小于第二阈值；

若否，根据所述注意力状态对语音信号进行降噪处理。

在一些实施例中，根据所述注意力状态对语音信号进行降噪处理，包括：

若所述预测概率小于或等于第一阈值，判定所述语音信号为非语音段，根据所述注意力状态对语音信号进行第一降噪处理；

若所述预测概率大于或等于第二阈值，判定所述语音信号为语音段，以及判断所述语音信号是否来自用户自身语音；若非来自用户自身语音，根据所述注意力状态对所述语音信号进行第二降噪处理。

在一些实施例中，根据所述注意力状态对语音信号进行第一降噪处理，包括：

确定与所述注意力状态对应的滤波器目标参数，根据滤波器目标参数设计低通滤波器；

对所述语音信号进行快速傅里叶变换，得到频谱；

将所述频谱与设计好的低通滤波器的频响进行频域乘法，得到滤波后的目标频谱；

对滤波后的目标频谱进行傅里叶逆变换，得到滤波后的时域信号，将所述时域信号作为降噪处理结果输出。

在一些实施例中，所述目标语音特征向量包括所述语音信号的各个频带的语音特征向量；根据所述注意力状态对所述语音信号进行第二降噪处理，包括：

将所述注意力特征及各个频带的语音特征向量输入训练好的回归模型，预测各个频带的目标控制量；

根据各个频带的目标控制量，对所述语音信号的各个频带进行相应的降噪处理，综合所有频带生成降噪后的增强语音信号。

在一些实施例中，所述回归模型表示为：；其中，β(f) 为每个频带f通过学习设定的注意力状态权重参数；A表示注意力状态，F(A)为对注意力状态进行映射的函数值；X(f)表示频带f在当前时刻的语音特征向量；Xi(f)表示频带f在历史时刻i的历史特征向量；αi(f)是与历史特征向量Xi(f)对应的权重系数；K()是核函数，K(X(f)，Xi(f)) 表示计算当前时刻的语音特征向量X(f)与每个历史特征向量Xi(f)的核匹配度；b(f) 是目标控制量R(f) 的偏置项。

在一些实施例中，根据注意力方向和集中度，确定用户的注意力状态，包括：

将注意力集中度映射成第一指标值；

将注意力方向映射成第二指标值；

根据所述第一指标值和所述第二指标值，确定用户的注意力状态。

在一些实施例中，将注意力方向映射成第二指标值，包括：

获取所述语音信号的声源方位；

计算所述注意力方向与所述声源方位之间的偏差角度；

将所述偏差角度映射成对应的第二指标值。

本发明第二方面公开一种交互式脑控耳机控制装置，包括：

采集单元，用于实时采集当前环境的语音信号和用户的脑电信号；

第一提取单元，用于对所述脑电信号进行特征提取，获得用户的注意力特征；

第一分类单元，用于将所述注意力特征输入预先训练的第一分类模型，获得注意力方向和集中度；

确定单元，用于根据注意力方向和集中度，确定用户的注意力状态；

第二提取单元，用于对所述语音信号进行特征提取，获得目标语音特征向量；

第二分类单元，用于将所述目标语音特征向量输入构建的第二分类模型，获得语音活动的预测概率；

判断单元，用于判断所述预测概率是否大于第一阈值且小于第二阈值；

处理单元，用于在所述判断单元的判断结果为否时，根据所述注意力状态对语音信号进行降噪处理。

在一些实施例中，所述处理单元，包括以下子单元：

第一降噪子单元，用于在所述判断单元的判断结果为否且所述预测概率小于或等于第一阈值时，判定所述语音信号为非语音段，根据所述注意力状态对语音信号进行第一降噪处理；

第二降噪子单元，用于在所述判断单元的判断结果为否且所述预测概率大于或等于第二阈值时，判定所述语音信号为语音段，以及判断所述语音信号是否来自用户自身语音；若非来自用户自身语音，根据所述注意力状态对所述语音信号进行第二降噪处理。

在一些实施例中，所述第一降噪子单元用于根据所述注意力状态对语音信号进行第一降噪处理的方式具体为：

所述第一降噪子单元，用于确定与所述注意力状态对应的滤波器目标参数，根据滤波器目标参数设计低通滤波器；对所述语音信号进行快速傅里叶变换，得到频谱；将所述频谱与设计好的低通滤波器的频响进行频域乘法，得到滤波后的目标频谱；对滤波后的目标频谱进行傅里叶逆变换，得到滤波后的时域信号，将所述时域信号作为降噪处理结果输出。

在一些实施例中，所述目标语音特征向量包括所述语音信号的各个频带的语音特征向量；所述第二降噪子单元用于根据所述注意力状态对所述语音信号进行第二降噪处理的方式具体为：

所述第二降噪子单元，用于将所述注意力特征及各个频带的语音特征向量输入训练好的回归模型，预测各个频带的目标控制量；以及，根据各个频带的目标控制量，对所述语音信号的各个频带进行相应的降噪处理，综合所有频带生成降噪后的增强语音信号。

在一些实施例中，所述确定单元包括以下子单元：

第一映射子单元，用于将注意力集中度映射成第一指标值；

第二映射子单元，用于将注意力方向映射成第二指标值；

确定子单元，用于根据所述第一指标值和所述第二指标值，确定用户的注意力状态。

在一些实施例中，所述第二映射子单元包括以下模块：

获取模块，用于获取所述语音信号的声源方位；

计算模块，用于计算所述注意力方向与所述声源方位之间的偏差角度；

映射模块，用于将所述偏差角度映射成对应的第二指标值。

本发明第三方面公开一种脑控耳机，包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行第一方面公开的交互式脑控耳机控制方法。

本发明第四方面公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行第一方面公开的交互式脑控耳机控制方法。

本发明的有益效果在于，通过实时采集当前环境的语音信号和用户的脑电信号，对脑电信号进行特征提取获得用户的注意力特征，将注意力特征输入预先训练的第一分类模型，获得注意力方向和集中度；根据注意力方向和集中度，确定用户的注意力状态；以及，对语音信号进行特征提取获得目标语音特征向量，将目标语音特征向量输入构建的第二分类模型，获得语音活动的预测概率，判断预测概率是否大于第一阈值且小于第二阈值；若否，根据注意力状态对语音信号进行降噪处理，从而可以实时关注用户的注意力状态，同时能够实时预测语音活动，作为个性化降噪处理的先决条件，实现个性化自适应的智能降噪。而且不依赖大量标注语音数据，通过注意力状态实时调控，可适应各种未知噪声环境，扩大适用范围。

附图说明

此处的附图，示出了本发明所述技术方案的具体实例，并与具体实施方式构成说明书的一部分，用于解释本发明的技术方案、原理及效果。

除非特别说明或另有定义，不同附图中，相同的附图标记代表相同或相似的技术特征，对于相同或相似的技术特征，也可能会采用不同的附图标记进行表示。

图1是本发明实施例公开的一种交互式脑控耳机控制方法的流程图；

图2是图1公开的交互式脑控耳机控制方法中步骤180的细化流程图；

图3是本发明实施例公开的一种交互式脑控耳机控制装置的结构示意图；

图4是本发明实施例公开的一种脑控耳机的结构示意图。

附图标记说明：

301、采集单元；302、第一提取单元；303、第一分类单元；304、确定单元；305、第二提取单元；306、第二分类单元；307、判断单元；308、处理单元；401、存储器；402、处理器。

具体实施方式

为了便于理解本发明，下面将参照说明书附图对本发明的具体实施例进行更详细的描述。

除非特别说明或另有定义，本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下，本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分，不代表具体的数量或顺序。本文所使用的术语“和／或”包括一个或多个相关的所列项目的任意的和所有的组合。

需要说明的是，当元件被认为“固定于”另一个元件，它可以是直接固定在另一个元件上，也可以是存在居中的元件；当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件，也可以是同时存在居中元件；当一个元件被认为是“安装在”另一个元件，它可以是直接安装在另一个元件，也可以是同时存在居中元件。当一个元件被认为是“设在”另一个元件，它可以是直接设在另一个元件，也可以是同时存在居中元件。

除非特别说明或另有定义，本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容，该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的，也可以是相似的。此外，本文所使用的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明实施例公开一种交互式脑控耳机控制方法，该方法可以通过计算机编程实现。该方法的执行主体可为可穿戴设备，如智能脑控耳机，或者如计算机电脑、笔记本电脑、平板电脑等电子设备，或内嵌于设备中的交互式脑控耳机控制装置，本发明对此不作限定。在本实施例中，以脑控耳机为例进行阐述。

如图1所示，该方法包括以下步骤110~180：

110、实时采集当前环境的语音信号和用户的脑电信号。

在本发明实施例中，脑控耳机两侧各安装有3个定向麦克风，共6个麦克风构成麦克风阵列，采集频率设置为16kHz。通过麦克风阵列的波束形成，可以形成面向语音源的窄波束，提高语音采集效果。麦克风的频率响应范围100Hz-10kHz，覆盖语音信号主要频率成分。每个麦克风间距设计为2-3cm，以获得轻微的时间延迟差异。

为了提高语音采集的信噪比，可以通过麦克风阵列采集原始语音信号，并

采用语音源定位算法，如GCC-PHAT时差相关算法，确定语音信号来源方向，即声源方位，表示为角度θ。通过数字信号处理器（DigitalSignalProcessor，DSP）处理，可以实现麦克风阵列10度以内的声源定位精度。然后，根据声源方位，选择面向声源的目标麦克风，以获得高质量的语音信号，同时，其它非面向声源的麦克风采集到的语音视为背景噪声，用于辅助进行环境噪声分析。

作为一种优选的实施方式，麦克风阵列采用GCC-PHAT时差相关算法确定声源方位θ时，可以先计算麦克风间语音信号的互相关函数，进行傅里叶变换取得相位数据，搜索峰值获取信号时延，计算各麦克风间的几何时间差，根据时间差求解方位角，综合计算即可得到声源方位θ。

具体的，设麦克风i和麦克风j采集到的语音信号为si(t)和sj(t)，互相关函数为：，其中τ为时延变量。通过计算麦克风间信号的互相关函数Rij(τ)，对互相关函数Rij(τ)进行傅里叶变换，仅取复数的相位部分：/>，在相位数据Pij(τ)上搜索峰值，获得τij对应最大值，即信号时延；根据麦克风铺设结构和声速，计算任意两麦克风间声音传播需要的时间差/>；令/>，可以得到声源方向余弦值：，其中c是声速，dij是麦克风间距离；重复上述过程，求解各θij，综合计算即可得到声源方位θ。

在本发明实施例中，脑控耳机除了耳机本体之外，还配备有与耳机本体通信连接的外置式人脑信号读取装置，当用户佩戴外置式人脑信号读取装置（以下简称读取装置）时，可以通过读取装置的电极接触用户的头皮表面，非侵入地采集用户的脑电活动或其他相关信号。

读取装置的电极数量一般在16-32导之间。常见位置包括Cz、Pz、Fz等。电极包括信号电极和基准电极，其中，信号电极用于对头皮表面进行检测，基准电极用于记录无关信号。通过差分放大获得信号电极与基准电极采集到的电压信号的电压差异，作为脑电（Electroencephalography，EEG）信号。信号采样频率设置为256Hz或更高，包含主要脑电节律。

在采集EEG信号之后，还可以对EEG信号进行预处理，包括依次进行去趋势、去均值、滤波、基线校正、段落检测、信号分割和归一化等预处理。具体的，可以使用线性回归等方法估计EEG信号的趋势项，并根据趋势项从EEG信号中减去移除缓慢漂移的直流分量。接着计算EEG信号的平均电平（即均值），并从每个采样点减去该均值，使EEG信号的平均电平变为零。然后使用截止频率在0.5-60Hz的带阻滤波器滤除高频噪声，以保留δ、θ、α、β和γ等脑电节律。以及，使用线性拟合等方法校正眼电和皮肤电位造成的基线漂移；检测信号中的突发性异常干扰，将其置为伪随机噪声。其次，将连续的信号分割为固定长度的段落，便于后续分析。最后将信号幅值归一化至[0，1]区间。经过上述预处理，可以获得幅值分布规范、无明显噪声的干净的EEG信号，供注意力特征提取使用。

120、对脑电信号进行特征提取，获得用户的注意力特征。

对预处理后的EEG信号进行时频分析，主要采用小波变换等方法，小波变换可以获得信号在不同频带下的时域信息。分析γ波(30-50Hz)、β波(12-30Hz)等频段，这些高频成分变化反映注意力变化。计算每个频段在不同时间下的功率谱密度，作为特征向量的一部分。分析不同脑区信号的相位同步情况，反映区域协同性，也作为特征之一。

具体的，可以提取出包括功率谱密度、相位锁定值、信号包络线等多维时间序列作为候选特征。对候选特征进行滤波、平滑等处理，以减少噪声。最后，使用主成分分析等降维方法，对处理后的候选特征进行降维，获得用于反映注意力状态的低维特征，作为最终获取的注意力特征。这些注意力特征即作为第一分类模型的输入，用于判断用户的注意力方向和集中度。

130、将注意力特征输入预先训练的第一分类模型，获得用户的注意力方向和集中度。

在本发明实施例中，通过收集实际佩戴者的EEG特征样本和标注，采用交叉熵损失函数和Adam优化算法，训练网络模型以及优化模型参数，得到最终训练好的第一分类模型，第一分类模型包括注意力方向分类模型和注意力集中度分类模型。

在步骤130中，将前面提取的注意力特征整理成第一分类模型的输入序列，输入序列经过嵌入层，转换为稠密向量表示，稠密向量输入到(Long Short-Term Memory，LSTM)循环神经网络中，LSTM网络可以学习时间序列的长期依赖。LSTM网络通过循环结构，捕获特征序列中的注意力状态变化。LSTM网络输出层采用全连接到softmax的结构，得到分类结果概率。其中，对注意力方向分类，可以分为左、右、上、下、前、后六分类。对注意力集中度，可以分为三级，高、中、低集中度。

140、根据注意力方向和集中度，确定用户的注意力状态。

优选的，步骤140可以包括：将注意力集中度映射成第一指标值，以及将注意力方向映射成第二指标值，然后根据第一指标值和第二指标值，确定用户的注意力状态。

具体的，注意力集中度分类模型根据不同的注意力集中度，通过设计的第一映射函数F1(Ac)，将“高中低”映射到0-1之间的第一指标值F1，即输出一个0-1之间的实数，表示注意力集中的程度，值越大表示集中程度越高。其中，当Ac="高"时，可以定义F1(Ac)=1；当Ac="中"时，可以定义F1(Ac)=0.8；当Ac="低"时，可以定义F1(Ac)=0.5。

在本发明中，注意力方向分类模型输出每个方向的概率，将概率最大的方向确定为用户的注意力方向，该方向可以转换为一个方向角度α，表示用户注意力聚焦方位。因此具体的，可以通过注意力方向分类结果，确定用户注意力方向，表示为角度α，然后计算用户的注意力方向与上述基于语音源定位算法确定出的声源方位θ两者之间的角度差，即获得注意力方向与语音信号来源方向的偏差角度Ad = |α - θ|。若α与θ相近，则Ad小于指定角度，且接近于0，表示注意力方向与语音方向一致；若两者呈90度，则Ad为90度，表示注意力与语音方向垂直。最后，根据不同的注意力方向，通过设计的第二映射函数F2(Ad)，将偏差角度Ad映射到0-1之间的第二指标值F2。根据Ad的值，传入方向映射函数F2(Ad)，当Ad=[0，15]度时，可以定义F2(Ad)=1 (无偏离)；当Ad=[15，45]度时，可以定义F2(Ad)=0.8 (偏离度小)；当Ad=[45，90]度时，可以定义F2(Ad)=0.5 (偏离度较高)；当Ad＞90度时，可以定义F2(Ad)=0.2 (偏离度很高)。

在本发明实施例中，定义，为整合注意力集中度和方向的映射函数。也即，/>，表示注意力状态，通过对F(A)的值进行阈值范围判定，可以对用户注意力状态进行分级。当F(A)=[0.8，1]，说明注意力状态为高度集中；当F(A)=[0.5，0.8]，说明注意力状态为集中；当F(A)=[0.3，0.5]，说明注意力状态为较分散；当F(A)=[0，0.3]说明注意力状态为高度分散。

150、对语音信号进行特征提取，获得目标语音特征向量。

其中，具体是对语音信号的各个频带进行特征提取，获得各个频带的语音特征向量，再将各个频带的语音特征向量拼接成一个全频带的大向量，即获得目标语音特征向量，作为输入来预测语音信号的语音活动。其中，各个频带的语音特征向量包括但不限于短时能量、过零率、谱间平滑度、自相关峰值等多种语音特征。设x(n)表示输入的语音信号，首先将语音信号分割为多帧短时语音，分帧长度为25ms，帧移10ms，即相邻两帧之间有10ms的重叠区域；然后提取每帧信号的语音特征。设x_i(n)表示第i帧信号，n=0，...，N-1 (N为帧长)。其中，短时能量为每帧信号的能量；过零率 />，其中N_i表示每帧信号x_i(n)过零次数；频谱平滑度为相邻频谱差值平方和的倒数，其中频谱X_i(k)， k=0，...，N-1；通过对每帧信号做N点快速傅里叶变换 (fast Fourier transform，FFT)得到。自相关峰值为每帧信号的自相关函数R_ii(m)的第2个峰值，其中每帧信号的自相关函数/>。

在特征提取之后，还可以对提取得到的多种语音特征进行预处理。

具体的，针对每种语音特征，收集大量标注过的语音段和非语音段。分析不同语音特征在语音段和非语音段的数值分布情况。确定一个初步的数值作为候选阈值，计算该阈值下的误判率。遍历特征取值范围，调整阈值，找到误判率最低的点，作为最合理的阈值。例如对短时能量特征：初步阈值设为0.01；计算语音段能量<0.01判错率，以及非语音段能量>0.01判错率。遍历调整阈值，发现阈值0.015时，总误判率达最小，所以最终确定短时能量阈值为0.015，将短时能量值限制在一个合理范围内，这样提取到的特征更有区分度。如果短时能量范围太大，直接作为分类器输入特征，将难以构建出一个鲁棒的判断模型。可以对其他特征如谱平滑度、自相关峰值等分别确定阈值。

160、将目标语音特征向量输入构建的第二分类模型获得语音活动的预测概率。

其中，第二分类模型可以采用二分类模型，例如深度神经网络（Deep NeuralNetworks，DNN）、逻辑回归模型；或者可以采用时序模型，例如隐马尔可夫模型（HiddenMarkov Model，HMM）、条件随机场（conditional random field，CRF）等进行构建训练获得。示例性地，在本发明实施例中，采用逻辑回归模型进行构建。具体的，定义Sigmoid激活函数和线性模型，其中w = [w1，w2，w3，w4]为权重向量；收集大量标注数据集，包含语音段和非语音段的语音特征向量x = [E， Z， S， P]，包含短时能量E，过零率Z，谱平滑度S，自相关峰值P；初始化权重w，例如赋值为0。计算第二分类模型对每个样本的预测结果S(x)，与真实标注比对，使用交叉熵作为损失函数计算损失值loss，使用梯度下降算法更新权重w，以最小化损失值loss，重复训练步骤，直到loss收敛或达到迭代次数，最终得到优化的权重/>，用于语音活动判断，可以输出语音活动的预测概率S(x)，范围在[0，1]。在预测时，将各个频带的语音特征向量拼接成的目标语音特征向量，作为输入来预测语音信号的语音活动。

170、判断语音活动的预测概率是否大于第一阈值且小于第二阈值。若否，执行步骤180；若是，结束本流程。

在本发明中可以设定两个阈值，例如，第一阈值th1=0.4，第二阈值th2=0.8。若预测概率S(x)不满足th1<S(x)<th2，执行步骤180；若预测概率S(x)满足th1<S(x)<th2，表示不确定语音信号为语音段还是非语音段，此时可以结束本流程。

180、根据注意力状态对语音信号进行降噪处理。

如图2所示，步骤180可以包括以下步骤1801~1803：

1801、若预测概率S(x)小于或等于第一阈值，判定语音信号为非语音段，根据注意力状态对语音信号进行第一降噪处理。

当S(x)≤th1时，确定语音信号为非语音段或只包含可忽略的语音特征的非语音段，采用根据注意力状态调节非语音段滤波强度的个性化降噪机制。非语音段指的是说话人端麦克风收集到的背景噪声，不包含说话人的语音信号。对非语音段进行的模糊滤波处理是面向说话人的。之所以加入个性化降噪机制，因为不同时段说话人自己对背景噪音的容忍度也不同，这关系到说话人的舒适度。注意力集中时需要保留更多背景细节，而注意力分散时可以进行更强降噪，这是从说话人角度出发的设计。个性化降噪可以避免过度降噪导致的音质不自然。保留适量背景音更符合人的听觉习惯。说话人如果在自然舒适的音环境中，也可以带来更流畅悦耳的语音效果，从而间接提升接听方的体验。

在根据注意力状态对语音信号进行第一降噪处理的过程中，可以采用低通滤波对语音信号进行处理。低通滤波的目的是去除非语音段中可能包含的高频噪声，比如白噪声、嘶嘶声等，只保留低频部分。这些高频噪声对语音理解没有帮助，同时也会降低听感舒适度。其中，可以采用数字滤波器，例如，无限冲击响应(Infinite Impulse ResponseDigital Filter，IIR)数字滤波器或有限冲击响应(Finite Impulse Response DigitalFilter，FIR)数字滤波器，来实现低通滤波。

因此在步骤1801中，根据注意力状态对语音信号进行第一降噪处理，具体可以包括：确定与注意力状态对应的滤波器目标参数，根据滤波器目标参数设计低通滤波器；以及对判定为非语音段的语音信号进行快速傅里叶变换，得到第一频谱，其中，快速傅里叶变换FFT，即利用计算机计算离散傅里叶变换(Discrete Fourier Transform，DFT)的高效、快速计算方法的统称。然后将第一频谱与设计好的低通滤波器的频响H(k)进行频域乘法，得到滤波后的第一目标频谱，对滤波后的第一目标频谱进行傅里叶逆变换，得到滤波后的时域信号，将时域信号作为降噪处理结果输出。

其中，注意力状态的映射值F(A)越大，通带范围（指数字滤波器的截止频率和过渡带参数设定范围）应适应扩大，从而保留更多背景细节。F(A)越小，通带范围应适应缩小，从而进行强度降噪。注意力状态与各个滤波器参数的对应关系如下表1所示：

表1 注意力状态与滤波器参数的对应关系表

这样，非语音段中的低频语音成分和环境特征可以保留，而高频噪声可以过滤抑制，既保证了音频质量，又兼顾了环境特征保留。其中，环境特征指的是非语音段可能包含的表达背景环境氛围的音频细节，比如公园的鸟鸣声，咖啡厅的杯碟声等。这些环境声音的主要能量集中在低频部分，保留这些低频成分，可以增加音频的真实感和场景感。

1802、若预测概率S(x)大于或等于第二阈值，判定语音信号为语音段，以及判断语音信号是否来自用户自身语音。若非用户自身语音，执行步骤1803；若是用户自身语音，结束本流程。

当S(x)≥th2时，确定语音信号为语音段或只包含可忽略的非语音特征的语音段。在语音段，可以基于声源定位算法分析声源方位、头部方向和试探信号反馈确定自身语音和非自身语音。

在本发明实施例中，脑控耳机内置MPU6050六轴运动跟踪传感器，检测三轴陀螺仪和三轴加速度计数据，通过数据融合算法，提取头部运动的横滚、俯仰和偏航角度，以50Hz频率输出头部方向运动角度。将语音源定位算法计算出的声源方位在水平面上的角度投影值，与头部方向运动角度比较。

正常说话时人多数会下意识地转头面向声音传播方向，这是一种自然的本能反应。所以如果检测到头部运动方向与声音来源方位基本一致，说明语音和头部运动是对应的，很可能来自同一人，即自身。因此，可以设声源方位与头部方向运动角度差阈值为±10°，若两者之差在±10°内，则判定声源方位与头部方向一致，判断为自身语音。

或者优选的，若两者之差在±10°内，初步判断为自身语音，并进一步进行试探信号反馈的验证。其中一个示例性的验证方式为，在耳机左右耳朵各内置一个8Ω，1W小喇叭。从左右喇叭分别发送频率为5kHz，时长50ms的正弦波试探音。利用麦克风阵列声源定位算法，分别确定两路试探音声源方位角，将两路试探音声源方位分别与头部运动方向进行比较；如果两路试探音声源方位均与头部运动方向的角度差小于±15°，则说明试探音声源方位与头部运动方向一致，声音为从耳机发出的反馈信号。否则说明耳机接收到的声音为外界噪声。每隔2s进行一次试探信号检测。

如果头部运动方向、试探音声源方位与声源方位一致，则确认为自身语音，否则判定为非自身语音。对于自身语音不需要进行降噪处理。只有当判断为非自身语音时，启动第二降噪处理。

1803、根据注意力状态对语音信号进行第二降噪处理。

在步骤1803中，具体的，可以包括：将注意力特征及各个频带的语音特征向量输入训练好的回归模型，预测各个频带的目标控制量；然后，根据各个频带的目标控制量，对语音信号的各个频带进行相应的降噪处理，综合所有频带，生成降噪后的增强语音信号。如此，根据注意力状态，可以区分对待关键频带，实现更灵活的降噪控制，以及根据目标控制量R(f)的值，对有语音成分的频带进行不同程度的降噪处理，可以以个性化的参数控制能力增强，满足不同用户的偏好。在复杂环境下，仍保留重要语音成分，可以改善降噪质量。

其中，可以先构建语音特征、注意力特征与目标控制量R(f)之间的回归模型，用于表示语音特征及注意力特征到目标控制量R(f)的映射关系。其中，目标控制量即为目标降噪量，在本发明实施例中，对语音信号区分不同的频带进行更加灵活的降噪控制。定义f表示频率频带的索引，在训练回归模型时，一般将0-8kHz的语音频带划分为多个样本子带，通过核方法进行训练获得回归模型。根据训练好的回归模型，预测语音信号的每个频带的目标控制量R(f)。

具体的，对于每个频带f的目标控制量。

其中，β(f) 为每个频带f通过学习设定的注意力状态权重参数，F(A) 为对注意力状态A进行映射的函数值，F(A)反映说话人的集中程度，F(A)越高表示说话人越专注和集中。在语音交互场景下，当说话人注意力更加集中时，用户表达的语音信息可能更加重要和有价值。而语音降噪过程，不可避免会损失部分语音信息。如果过度降噪，可能会影响重要语音信息的保留。因此，当注意力越高时，应该尽量保留更多的原始语音信息，减小降噪处理的强度，以保留更多语音内容。

X(f)表示频带f在当前时刻的语音特征向量。将语音信号分割为短时帧，通过窗函数提取每一帧语音样本，对每一帧语音样本提取短时能量、过零率、谱间平滑度和自相关峰值等语音特征参数，并分别计算语音特征参数在所有语音帧上的统计量，例如均值、标准差等。将四种语音特征的参数统计量连接起来，构成频带f上的语音特征向量X(f)。具体的：

设语音信号分为L个短时帧，第l帧的四种语音特征参数为：短时能量E(l)、过零率Z(l) 、谱间平滑度S(l)、自相关峰值P(l)；则频带f上的语音特征向量X(f)的计算公式为：X(f) = [μ_E，σ_E，μ_Z，σ_Z，μ_S，σ_S，μ_P，σ_P]；其中，μ_E表示短时能量在所有语音帧上的均值，μ_E = (∑ E(l))/L；σ_E表示短时能量在所有语音帧上的标准差，；μ_Z，σ_Z，μ_S，σ_S，μ_P，σ_P 的计算公式同理可得。

Xi(f)表示频带f在历史时刻i的历史特征向量。i表示历史时刻，i=1表示上一帧，i=2表示上上帧，以此类推。

K()是核函数，选取高斯核，是将输入空间映射到高维特征空间。其中X和Xi都是输入向量，||X-Xi||表示两者之间的欧式距离。σ是高斯核中的一个参数，控制核的宽度。高斯核计算的是X和Xi之间在高维映射后的匹配度。当两点距离越近，函数值越大；当两点距离越远，函数值越小。所以高斯核反映了X和Xi之间的近似程度，称之为核匹配度。通过高斯核函数K计算输入当前时刻的语音特征向量X(f)和历史特征向量Xi(f)的核匹配度，来估计输出目标控制量R(f)。/>

K(X(f)，Xi(f)) 表示计算当前时刻的语音特征向量X(f)与每个历史特征向量Xi(f)的核匹配度。对i从1到n的每个历史特征向量，计算αi(f)与匹配度的乘积。匹配贡献越大，表面当前语音与某历史语音在该频带上类似，意味着当前语音可能继承了历史语音中的噪声。为了消除这种噪声，需要进行更强力的降噪处理。所以核匹配贡献越大，为了降噪效果，需要设置越大的目标控制量R(f)进行更激进的降噪。匹配贡献小，表示当前语音与历史语音不同，可能是新说的语句，这时需要保留更多语音成分，降低目标控制量R(f)以温和降噪。

αi(f)是与历史特征向量Xi(f)对应的权重系数。目标降噪算法要对当前时刻的语音信号进行处理，需要参考多个历史时刻的语音特征，评估语音信号中的噪声成分。αi(f)就是用来表示历史特征Xi(f)对当前处理的贡献程度。通过训练，可以学习到不同时刻i不同频带f的历史特征对去噪结果的影响，将这种影响量化为αi(f)。如果历史语音样本时间距离当前很近，那么应该给予较高的权重，α取较大值；如果历史语音样本时间距离当前较远，那么应该给予较低的权重，α取较小值；

Σ表示求和：αi(f) 是与每个历史特征向量Xi(f)对应的权重系数。

b(f) 是目标控制量 R(f) 的偏置项。语音降噪是一个复杂过程，不可能通过一个简单的线性公式来完全描述。所以，引入一个额外的偏置项b(f)，来弥补线性模型的不足。b(f) 可以看作是降噪量在频带 f 上的一个基准值，是一个可以学习的参数。

在另外一些可能的实施例中，在实施步骤170之后，若预测概率大于第一阈值且小于第二阈值，可以对语音信号进行第三降噪处理。也即，当th1<S(x)<th2时，表示不确定语音信号为语音段还是非语音段，此时进行简单的降噪处理后输出。

具体的：将语音信号分割成若干短时帧(例如20ms)，每帧采样点数为N；对每帧信号x(n)进行傅里叶变换，得到第二频谱X(k)，k=0...N-1；定义一个汉宁窗口w(k) = 0.5 -0.5cos(2πk/N)，长度与第二频谱X(k)相同，k = 0...N-1；将汉宁窗口w(k)点乘第二频谱X(k)，得到滤波后的第二目标频谱；对滤波后的第二目标频谱Y(k)进行傅里叶逆变换，得到输出信号y(n)；将所有短时帧的输出信号y(n)进行重叠加，生成完整的降噪信号。

其中，汉宁窗口的作用是平滑频谱，通过调节窗口函数中的参数，控制平滑程度，从而改变降噪强度。这个轻度降噪对信号质量影响很小，但可以使输出更加连贯自然。通过这种简单时频域的平滑处理，可以有效实现不确定区域的轻度降噪，避免语音断续，同时保留较好的音质。

举例场景：王先生乘坐公交车回家，戴上智能降噪耳机打电话。环境噪声检测模块确认现在属于非语音段，只有公交车启动时的机械噪声。根据王先生此时的注意力状态属于集中，选择对应的降噪数字滤波器参数，有效去除了高频嘶嘶声和白噪声。

车辆启动，他全神贯注地倾听家人说话时，耳机检测到他的注意力高度集中，在目标降噪控制量R(f)中保留更多原始语音成分进行温和降噪。同时，提取通话语音信号的语音特征向量X(f)，计算与历史特征向量Xi(f)的核匹配贡献度。由于现在是全新对话，匹配贡献度较小，新的语音成分多，R(f)偏小，降噪处理更温和。

突然，车上有其他乘客开始交谈，语音特征值提升，切换到语音段模式。检测到王先生注意力略有分散，增大降噪强度，抑制交谈噪声的干扰。

当王先生再次专注通话时，评估注意力状态，语音特征向量与历史特征向量匹配度，精确设计目标降噪量，实现去除背景噪声的同时最大保留通话语音质量。

综上所述，实施本发明实施例，实现了根据用户注意力状态的动态、智能降噪，相比传统固定模式降噪，可以按需增强或保留关键语音成分，提高降噪质量；而且不依赖大量标注语音数据，通过注意力状态实时调控，可适应各种未知噪声环境，扩大适用范围。本发明系统结构简单，只需要脑电采集模块与语音采集模块，没有增加复杂的参考信号采集装置，硬件成本较低，有利于推广应用到各种智能语音交互耳机中。

如图3所示，本发明实施例公开一种交互式脑控耳机控制装置，包括采集单元301、第一提取单元302、第一分类单元303、确定单元304、第二提取单元305、第二分类单元306、判断单元307和处理单元308，其中，

采集单元301，用于实时采集当前环境的语音信号和用户的脑电信号；

第一提取单元302，用于对脑电信号进行特征提取，获得用户的注意力特征；

第一分类单元303，用于将注意力特征输入预先训练的第一分类模型，获得注意力方向和集中度；

确定单元304，用于根据注意力方向和集中度，确定用户的注意力状态；

第二提取单元305，用于对语音信号进行特征提取，获得目标语音特征向量；

第二分类单元306，用于将目标语音特征向量输入构建的第二分类模型，获得语音活动的预测概率；

判断单元307，用于判断预测概率是否大于第一阈值且小于第二阈值；

处理单元308，用于在判断单元307的判断结果为否时，根据注意力状态对语音信号进行降噪处理。

作为一种可选的实施方式，处理单元308可以包括以下未图示的子单元：

第一降噪子单元，用于在判断单元307的判断结果为否且预测概率小于或等于第一阈值时，判定语音信号为非语音段，根据注意力状态对语音信号进行第一降噪处理；

第二降噪子单元，用于在判断单元307的判断结果为否且预测概率大于或等于第二阈值时，判定语音信号为语音段，以及判断语音信号是否来自用户自身语音；若非来自用户自身语音，根据注意力状态对语音信号进行第二降噪处理。

作为一种可选的实施方式，第一降噪子单元用于根据注意力状态对语音信号进行第一降噪处理的方式具体为：

第一降噪子单元，用于确定与注意力状态对应的滤波器目标参数，根据滤波器目标参数设计低通滤波器；对语音信号进行快速傅里叶变换，得到频谱；将频谱与设计好的低通滤波器的频响进行频域乘法，得到滤波后的目标频谱；对滤波后的目标频谱进行傅里叶逆变换，得到滤波后的时域信号，将时域信号作为降噪处理结果输出。

作为一种可选的实施方式，目标语音特征向量包括语音信号的各个频带的语音特征向量；第二降噪子单元用于根据注意力状态对语音信号进行第二降噪处理的方式具体为：

第二降噪子单元，用于将注意力特征及各个频带的语音特征向量输入训练好的回归模型，预测各个频带的目标控制量；以及，根据各个频带的目标控制量，对语音信号的各个频带进行相应的降噪处理，综合所有频带生成降噪后的增强语音信号。

作为一种可选的实施方式，确定单元304包括以下未图示的子单元：

第一映射子单元，用于将注意力集中度映射成第一指标值；

第二映射子单元，用于将注意力方向映射成第二指标值；

确定子单元，用于根据第一指标值和第二指标值，确定用户的注意力状态。

作为一种可选的实施方式，第二映射子单元包括以下未图示的模块：

获取模块，用于获取语音信号的声源方位；

计算模块，用于计算注意力方向与声源方位之间的偏差角度；

映射模块，用于将偏差角度映射成对应的第二指标值。

如图4所示，本发明实施例公开一种脑控耳机，包括存储有可执行程序代码的存储器401以及与存储器401耦合的处理器402；

其中，处理器402调用存储器401中存储的可执行程序代码，执行上述各实施例中描述的交互式脑控耳机控制方法。

本发明实施例还公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行上述各实施例中描述的交互式脑控耳机控制方法。

以上实施例的目的，是对本发明的技术方案进行示例性的再现与推导，并以此完整的描述本发明的技术方案、目的及效果，其目的是使公众对本发明的公开内容的理解更加透彻、全面，并不以此限定本发明的保护范围。

以上实施例也并非是基于本发明的穷尽性列举，在此之外，还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进，均属本发明的保护范围。

Claims

1.一种交互式脑控耳机控制方法，其特征在于，包括：

实时采集当前环境的语音信号和用户的脑电信号；

对所述脑电信号进行特征提取，获得用户的注意力特征；

根据注意力方向和集中度，确定用户的注意力状态；

对所述语音信号进行特征提取，获得目标语音特征向量；

判断所述预测概率是否大于第一阈值且小于第二阈值；

2.如权利要求1所述的交互式脑控耳机控制方法，其特征在于，根据所述注意力状态对语音信号进行第一降噪处理，包括：

对所述语音信号进行快速傅里叶变换，得到频谱；

3.如权利要求1所述的交互式脑控耳机控制方法，其特征在于，所述目标语音特征向量包括所述语音信号的各个频带的语音特征向量；根据所述注意力状态对所述语音信号进行第二降噪处理，包括：

4.如权利要求3所述的交互式脑控耳机控制方法，其特征在于，所述回归模型表示为：；其中，β(f) 为每个频带f通过学习设定的注意力状态权重参数；A表示注意力状态，F(A)为对注意力状态进行映射的函数值；X(f)表示频带f在当前时刻的语音特征向量；X_i(f)表示频带f在历史时刻i的历史特征向量；α_i(f)是与历史特征向量X_i(f)对应的权重系数；K()是核函数，K(X(f)，X_i(f)) 表示计算当前时刻的语音特征向量X(f)与每个历史特征向量X_i(f)的核匹配度；b(f) 是目标控制量 R(f) 的偏置项。

5.如权利要求1至4任一项所述的交互式脑控耳机控制方法，其特征在于，根据注意力方向和集中度，确定用户的注意力状态，包括：

将注意力集中度映射成第一指标值；

将注意力方向映射成第二指标值；

6.如权利要求5所述的交互式脑控耳机控制方法，其特征在于，将注意力方向映射成第二指标值，包括：

获取所述语音信号的声源方位；

计算所述注意力方向与所述声源方位之间的偏差角度；

将所述偏差角度映射成对应的第二指标值。

7.一种交互式脑控耳机控制装置，其特征在于，包括：

处理单元，用于在所述判断单元的判断结果为否时，根据所述注意力状态对语音信号进行降噪处理；

其中，所述处理单元包括以下子单元：

8.一种脑控耳机，其特征在于，包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至6任一项所述的交互式脑控耳机控制方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至6任一项所述的交互式脑控耳机控制方法。