CN113178195B

CN113178195B - 一种基于声音诱发脑电信号的说话人识别方法

Info

Publication number: CN113178195B
Application number: CN202110241424.7A
Authority: CN
Inventors: 胡朗; 张建海; 林广�; 黄卫涛; 朱莉
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2022-08-26
Anticipated expiration: 2041-03-04
Also published as: CN113178195A

Abstract

本发明公开一种基于声音诱发脑电信号的说话人识别方法。本发明通过采集脑电数据，提取听觉刺激部分时频特征和时域统计特征的融合特征。采用alpha频段基线校正部分的脑电信号获得的融合特征作为背景模板。将听觉刺激部分融合特征减去背景模板得到干净任务态数据融合特征，最后利用本发明提出的网络模型区分不同说话人。本发明提供了一种可行的基于声音诱发脑电信号的说话人识别方法，并利用训练好的分类器去区分不同说话人，准确率达到90％。

Description

一种基于声音诱发脑电信号的说话人识别方法

技术领域

本发明属于脑电变化分析技术领域中基于脑电信号的说话人识别领域，具体涉及一种基于声音诱发脑电信号的分析从而区分不同说话人的方法。

背景技术

传统的基于语音的说话人识别已经非常成熟，我们可以从不同说话人的语音中提取出个体差异性特征。声学特征例如频谱、倒频谱和共振峰等，它们作为低级特征，可以表征不同说话人的声道结构差异。音韵特征例如韵律、节奏、方言等，它们作为高级特征，可以表征不同说话人的说话风格差异。

不同说话人之间的个体差异将会导致在被试身上诱发出来的脑电信号存在差异性。说话人的这个差异性主要体现在三个方面，第一是音韵，不同说话人的说话风格是很不一样的，不同说话人在同一段话上的节奏和停顿节点是具有很大差异的。第二是音色，不同说话人的音色区别是很大的，例如听男生讲话和听女生讲话两种情况下，我们能够很好地区分男女。第三是音调，不同说话人平时说话的音调是不一样的，例如两个男性说话人，一个人讲话的音调高而另一个人讲话的音调很低，我们也可以轻易地区分两个说话人。我们设计相应的单说话人环境下声音诱发脑电信号的实验，采集了被不同说话人的录音刺激诱发出来的脑电信号，然后进行数据分析进而区分不同的说话人。

对诱发脑电信号的分析和处理是脑机接口技术的重要组成部分。脑电信号存在着成分复杂，信噪比低，不稳定等特点，所以对相应生理活动下的脑电信号的特征提取和分析是存在着一定难度但是却是非常有意义的。

目前还没有人提出基于声音诱发脑电信号的说话人识别这个研究方向。本发明适用于多说话人复杂环境下，通过声音诱发脑电信号解码目标说话人，可以应用到助听器、人工耳蜗和蓝牙耳机中，具备较大的应用市场。例如，现在市面上大部分的助听器都有一个缺点--无法准确放大患者关注的说话人的声音，因为这些助听器有一个预定义的假设--将患者正前方的说话人声音进行放大，这个固定的模式对患者十分不友好，假如能够实时地检测出患者关注的目标说话人，然后对目标说话人的语音放大，对其他人的声音抑制，将大大提高助听器的性能。

发明内容

本发明的目的是针对基于声音诱发脑电信号的说话人识别这个方向的空白，提出了一种新型的基于声音诱发脑电信号的说话人识别方法。本发明可以通过采集的脑电数据，提取时频特征和时域统计特征，利用本发明提出的网络模型很好地区分不同说话人。

本发明技术方案包括如下步骤：

步骤(1)、采集脑电信号

获取基线校正部分、听觉刺激部分的脑电信号；

所述的基线校正部分要求在t1(t1＞0秒，为人为设定参数)时间内处于平静无任务状态，即不进行想象和听觉刺激；

所述的听觉刺激部分要求在t2(t2＞0秒，为人为设定参数)时间内身体保持静止，并听取不同说话人声音刺激；

步骤(2)、对步骤(1)基线校正部分脑电信号进行数据预处理，得到delta、theta、alpha、beta、high gamma五个频段基线校正部分脑电信号；

所述的预处理包括降采样、滤波；

作为优选，降采样是将原始脑电信号降采样到250Hz。

作为优选，滤波将降采样后的脑电信号分为0.1-3Hz(delta)，3-8Hz(theta)，8-13Hz(alpha)，13-30(beta)以及51-80Hz(high gamma)这5个频段。

步骤(3)、对步骤(1)听觉刺激部分脑电信号进行数据预处理，得到delta、theta、alpha、beta、high gamma五个频段的多个听觉刺激部分脑电信号样本；

所述的预处理包括降采样、滤波、去伪迹、样本切分；具体是：

3.1将听觉刺激部分原始脑电信号降采样到250Hz。

3.2滤波：将降采样后的脑电信号分为0.1-3Hz(delta)，3-8Hz(theta)，8-13Hz(alpha)，13-30(beta)以及51-80Hz(high gamma)这5个频段。

3.3利用工具箱eeglab上的run ica函数，根据独立成分分析方法去除5个频段脑电信号中的眼电、肌电和心电等伪迹。

3.4对步骤3.3处理后的脑电信号进行样本切分，获得相同时长的多个样本。

步骤(4)、听觉刺激部分脑电信号的特征提取

4.1获取时域统计特征

计算步骤3.4每个样本所有采样点的最大值、最小值、方差、标准差、均值、面积和信息熵，将这7个值作为时域统计特征；此处为现有常规技术，故不详解。

4.2获取时频特征

对步骤3.4每个样本做短时傅里叶变换，将信号从时域变换到时频域，得到时频特征；此处为现有常规技术，故不详解。

4.3获取融合特征

将步骤4.1得到的时域统计特征和步骤4.2得到的时频特征拼接在一起；此处为现有常规技术，故不详解。

步骤(5)、插值法减弱背景噪声

听觉刺激部分采集到的脑电数据由任务态数据和背景噪声数据组成，背景噪声数据是与任务无关的大脑自发活动而产生的数据。delta频段和high gamma频段的脑电数据能够很好地区分不同说话人的声音，而alpha频段的数据分类准确率表现为随机水平。因此，alpha频段的数据成分中包含更多的背景噪声，几乎不包含与任务相关信息。故本发明采用alpha频段基线校正部分的脑电信号数据作为基线，经过与步骤(4)相同的特征提取后，得到背景模板。对步骤(4)处理后的5个频段听觉刺激部分脑电信号的融合特征减去背景模板，得到干净任务态数据融合特征，即包含更多说话人差异性的特征，减弱了背景噪声的影响。

步骤(6)、通道选择

对干净任务态数据融合特征的所有脑电通道使用FCSI(Fisher’s classseparability index)通道选择算法进行处理，在额叶(F区)、额叶与中央脑区交界区(FC区)、中央脑区(C区)、颞叶(T区)、顶叶与中央脑区交界区(CP区)、顶叶(P区)脑区中，参考每个通道的FCSI值，各自选取前n个通道的融合特征，1≤n≤9。同时将上述融合特征的对应说话人作为标签，构建训练集。

步骤(7)、利用上述训练集对分类器训练

分类器由二维卷积网络、时域卷积网络、Flatten层、全连接层构成；以步骤(6)处理后融合特征为输入，说话人分类结果为输出；

二维卷积网络的输入为步骤(6)处理后融合特征，由两个串联的卷积块构成；每个卷积块由二维卷积单元、最大池化层串联构成；

时域卷积网络的输入为二维卷积网络的输出，由两个串联的残差块构成；每个残差块由两个串联的一维卷积单元、以及一个恒等映射构成；

步骤(8)、利用训练好的分类器以实现说话人分类。

本发明的另一个目的是提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述的方法。

本发明的有益效果是：

1)本发明提供了一种可行的基于声音诱发脑电信号的说话人识别方法，并利用训练好的分类器去区分不同的说话人，准确率达到90％。

2)本发明利用delta频段和high gamma频段的脑电数据能够很好地区分不同说话人，且利用额叶和顶叶这两个脑区数据提高对说话人识别地准确率。

3)本发明根据不同说话人的声音诱发出来的脑电信号在时域存在较大的差异，提出了有效的时域统计特征和时频特征，并且改进了时域卷积网络，能够同时提取时域和空域特征，实现准确地识别不同说话人。

4)本发明适用于多说话人环境下说话人识别，利用更短的时间更精确地解码目标说话人，最终应用到助听器、人工耳蜗和蓝牙耳机中，实现随佩戴者的注意力实时地去增强目标说话人语音和抑制背景噪音。

附图说明

图1为本发明的说话人识别框图；

图2为本发明使用的脑电帽电极分布图；

图3为本发明方法系统流程图；

图4为分类器网络结构图；

图5为不同分类器模型在不同通道数情况下的分类准确率。

具体实施方式

下面结合附图，对本发明一种基于声音诱发脑电信号的说话人识别方法，做详细描述。

图1为本发明基于声音诱发脑电信号说话人识别框图。

图2为本发明使用的脑电帽电极分布图

图3为本发明具体实施方案系统流程图，其具体包括以下步骤：

步骤1、脑电信号采集

从年龄在22-25岁之间的20名学生中筛选了4名学生，其中2名男性2名女性，这4名学生普通说讲的很标准。一共挑选了12篇短篇新闻，分别是3篇新冠类、3篇政治类、3篇课文选读类和3篇花边新闻类，并分别为每篇短新闻设置了3个选择题让被试在休息时间内作答，用来检验被试是否认真听了这篇新闻录音。在安静的会议室内分别对这4名说话人录音，要求用正常语气顺畅地朗读完这12篇文章，每篇文章的录音控制在60-65秒范围内，得到48个录音。实验中用到的录音的软件是cool edit2000，录音的设备是普通的联想麦克风和联想台式电脑，采样频率是48000Hz，用16比特方式进行量化。

对年龄在22-25岁之间的10名受试者(其中8名男性志愿者，2名女性志愿者)，进行脑电实验培训，了解注意事项和熟悉实验流程，避免实验过程中不规范的行为导致实验数据异常。在本实验室专用的脑电实验房间进行数据采集，脑电采集设备是Neuroscan和64通道的脑电帽，设备符合10-20系统标准，使用头顶参考电极而不是双侧耳垂参考电极，因此实际采样通道数为62个，通道的分布如图2所示。录音刺激在E-Prime上面呈现，一共48个录音依次去刺激被试，相邻两个录音之间休息60秒，被试在这个时间内做完选择题，剩下的时间用来放松。按照顺序轮流去刺激被试，受试者对48个录音依次进行基线校正部分、听觉刺激部分、休息部分三个阶段，并获取对应阶段的脑电信号；

所述的基线校正部分要求被试在正式开始前的t1＝1秒内处于平静无任务状态。

所述的听觉刺激部分，要求被试在t2＝60秒内身体保持静止，认真听录音中说话人讲述的内容。

所述的休息部分要求被试在t3＝60秒内做完事先设计好的选择题，剩下的时间可以用来眨眼休息，但是整个过程中不能出现大的肢体动作，防止脑电采集设备与头皮接触不良。

步骤2、对步骤1基线校正部分脑电信号进行数据预处理，得到delta、theta、alpha、beta、high gamma五个频段基线校正部分脑电信号；

所述的预处理包括降采样、滤波；

降采样：Neuroscan的采样频率为1000Hz，将原始数据降采样到250Hz，这样可以大大减少数据量，提高计算速度，方便进一步分析。

滤波：不同的频段包含的信息不一样，为了探究哪个频段的信息能够区分不同说话人，将降采样后的数据进行滤波操作，使用工具箱eeglab的带通滤波，分别将数据滤到0.1-3Hz(delta)，3-8Hz(theta)，8-13Hz(alpha)，13-30(beta)以及51-80Hz(high gamma)5个频段。

步骤3、对步骤1听觉刺激部分脑电信号进行数据预处理，得到delta、theta、alpha、beta、high gamma五个频段的多个听觉刺激部分脑电信号样本；

3.1降采样：Neuroscan的采样频率为1000Hz，将原始数据降采样到250Hz，这样可以大大减少数据量，提高计算速度，方便进一步分析。

3.2滤波：不同的频段包含的信息不一样，为了探究哪个频段的信息能够区分不同说话人，将降采样后的数据进行滤波操作，使用工具箱eeglab的带通滤波，分别将数据滤到0.1-3Hz(delta)，3-8Hz(theta)，8-13Hz(alpha)，13-30(beta)以及51-80Hz(high gamma)5个频段。

3.3去伪迹：在采集脑电信号的时候，眼电、心电和肌电等噪音信号不可避免地会混入到脑电信号中，采用独立成分分析方法，将原始脑电信号分离成各个不同的成分，然后通过现有技术去除伪迹成分比如眨眼的成分、肌肉紧张的成分等，从而得到相对干净的脑电信号，具体实现是利用工具箱eeglab上的run ica函数。

3.4样本切分：对步骤3.3处理后的t2＝60秒脑电信号进行样本切分，获得20个时长为3秒的多个样本。由于60秒时间太长，不适合作为一个样本，需要将48个trial听觉刺激部分脑电数据进行切分，将一个trial切分为20个3秒的sample，每个sample一共有750个采样点。划分好之后，需要查看每个sample在各个通道上的幅值，将幅值大于100uV的sample人工舍弃掉，因为EEG信号比较微弱，大于100uV的数据很可能是噪音。

步骤4、听觉刺激部分脑电信号的特征提取

经过样本切分后，每个样本的数据格式为62*750，数据量太多，需要从中提取出重要的特征，一方面可以减小样本数据大小，另一方面可以去除掉无用信息的干扰，从而更好地去分类。在脑电信号处理中，一般常见的特征可以分为时域特征、时频特征和频域特征等。

在时域，计算每个样本中每个通道的统计量：均值、方差、最大值、最小值、标准差、面积和信息熵，将这7个值组成一个7维的特征向量，最终的特征大小为62*7。

在时频域，通过使用短时傅里叶变换，信号从一维时域分解为时域和频域的二维联合表示，用以描述信号在不同时间段内的频率分布情况。短时傅里叶变换将信号在时域内进行分段，等效于用位置不同的窗函数与原信号想乘，先选定一个基本窗函数，然后将窗函数沿时间轴平移得到一组窗函数。平移后的窗函数与原信号相乘，其结果就是得到原信号在不同时间段内的时域信息，时频特征能够同时提到时域相关信息和频域相关信息。例如，delta频段数据经过短时傅里叶变换后得到特征大小是62*192。

在频域，进行功率谱密度(Power Spectral Density,PSD)分析，通过一定方法求解信号的功率power随着频率变化曲线。

分别用这三种特征在SVM上面做分类任务，发现时域统计特征以及时频特征能够很好地区分说话人声音，PSD无法区分说话人声音，于是将时域统计特征和时频特征拼接在一起，融合成新的特征，每个样本的数据格式为62*199。

步骤5、插值法减弱背景噪声

听觉刺激部分采集到的脑电数据由任务态数据和背景噪声数据组成，背景噪声数据是与任务无关的大脑自发活动而产生的数据。delta频段和high gamma频段的脑电数据能够很好地区分不同说话人的声音，而alpha频段的数据分类准确率表现为随机水平。因此，alpha频段的数据成分中包含更多的背景噪声，几乎不包含与任务相关信息。故本发明采用alpha频段基线校正部分的脑电信号数据作为基线，经过步骤4的特征提取后，得到背景模板。对步骤(3)处理后的5个频段样本的融合特征减去背景模板，得到干净任务态数据融合特征，即包含更多说话人差异性的特征，减弱了背景噪声的影响。

步骤6、通道选择

脑电信号采集装置一共62通道，分别对应着不同的脑区，大致可以分为额叶(F区)、颞叶(T区)、中央脑区(C区)、顶叶(P区)和枕叶(O区)。可分性指数FCSI(Fisher’sclass separability index)可以计算单个通道在待分类别上的差异性。对每名被试的数据都做FCSI处理，计算出每个通道的分数，然后加权平均计算出所有数据下每个通道的分数，最后按分数大小做一个排序。选择排名靠前的通道做分类，并且计算不同数量通道的情况下分类准确率，从而选择一个最优的通道数量。实验结果如图5所示，优选为32个通道，32通道的数据就能够达到使用所有通道的效果。做完通道选择后，每个样本的数据格式为32*199。

同时将上述融合特征的对应说话人作为标签，构建训练集。

步骤7、利用上述训练集对分类器训练

图4为本发明分类器的网络模型，分类器由时域卷积网络、二维卷积网络、Flatten层、全连接层构成；以步骤(6)处理后融合特征为输入，说话人分类结果为输出；

二维卷积网络的输入为步骤(6)处理后融合特征，由两个串联的卷积块构成；每个卷积块由二维卷积单元、最大池化层串联构成。其中，二维卷积核的大小是3×1，用于提取通道相关性；

时域卷积网络(Temporal Convolutional Network，TCN)的输入为二维卷积网络的输出，由两个串联的残差块构成；每个残差块由两个串联的一维卷积单元、以及一个恒等映射构成；

TCN能够很好地在时间这个维度上提取脑电信号特征，但是通道和通道间的相关性可能无法提取到，本发明提出把CNN与TCN相结合，总网络的前半部分是一个CNN网络，总网络的后半部分是一个TCN网络，前半部分提取通道间的相关性特征，后半部分再提取时间维度上的特征。TCN网络后面的Flatten层用于展平多维的数据，将数据展平成一维，Flatten层用于连接卷积层和全连接层。

步骤8、利用训练好的分类器以实现说话人分类。

图5表示不同的分类器在不同数量的通道情况下区分说话人的准确率，本发明提出的网络模型性能最好，并且使用32个通道时，分类准确率和使用全通道情况接近。

该发明设计出来的网络模型能够根据脑电信号的多通道特殊性，很好地提取时域和空域重要特征，最终用该模型识别说话人，4分类准确率达到90％。

上面基于声音诱发脑电信号的说话人识别方法说明书和附图详细介绍了本发明的具体实施方式，但应注意的是，以上只是本发明的最优实施方案，但本发明不限于上述实施方案，凡在本发明精神和原则之内，所作的任何修改、等同置换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声音诱发脑电信号的说话人识别方法，其特征在于包括以下步骤：

步骤(1)、采集脑电信号

获取基线校正部分、听觉刺激部分的脑电信号；

所述的基线校正部分要求在t1时间内处于平静无任务状态，即不进行想象和听觉刺激；

所述的听觉刺激部分要求在t2时间内身体保持静止，并认真听取不同说话人的声音刺激；

步骤(2)、对步骤(1)基线校正部分脑电信号进行数据预处理，得到delta、theta、alpha、beta、high gamma五个频段基线校正部分脑电信号；其中数据预处理包括降采样、滤波；

步骤(3)、对步骤(1)听觉刺激部分脑电信号进行数据预处理，得到delta、theta、alpha、beta、high gamma五个频段的多个听觉刺激部分脑电信号样本；其中数据预处理包括降采样、滤波、去伪迹、样本切分；

步骤(4)、听觉刺激部分脑电信号的特征提取

4.1获取步骤(3)每个脑电信号样本的时域统计特征

4.2获取步骤(3)每个脑电信号样本的时频特征

4.3将步骤4.1得到的时域统计特征和步骤4.2得到的时频特征拼接在一起，获取融合特征；

步骤(5)、插值法减弱背景噪声

采用alpha频段基线校正部分脑电信号数据经过步骤(4)的特征提取后，得到融合特征，作为背景模板；

对步骤(4)处理后的5个频段样本的融合特征减去背景模板，得到干净任务态数据融合特征；

步骤(6)、通道选择

对干净任务态数据融合特征的所有脑电通道使用FCSI(Fisher’s classseparabilityindex)通道选择算法进行处理，在F区、FC区、C区、T区、CP区、P区脑区通道中各自选取FCSI值前n个的融合特征，1≤n≤9；同时将上述融合特征的对应说话人作为标签，构建训练集；

步骤(7)、利用上述训练集对分类器训练

时域卷积网络的输入为二维卷积网络的输出，由两个串联的残差块构成；每个残差块由两个串联的一维卷积单元、一个恒等映射构成；

步骤(8)、利用训练好的分类器进行声音分类并进而识别出说话人。

2.根据权利要求1所述的一种基于声音诱发脑电信号的说话人识别方法，其特征在于步骤(2)、(3)所述降采样是将步骤(1)基线校正部分、听觉刺激部分原始脑电信号降采样到250Hz。

3.根据权利要求1所述的一种基于声音诱发脑电信号的说话人识别方法，其特征在于步骤(2)、(3)所述滤波是将降采样后的基线校正部分、听觉刺激部分脑电信号分为delta、theta、alpha、beta、high gamma五个频段。

4.根据权利要求1所述的一种基于声音诱发脑电信号的说话人识别方法，其特征在于步骤(3)所述去伪迹是利用工具箱eeglab上的run ica函数，根据独立成分分析方法去除听觉刺激部分5个频段脑电信号中伪迹。

5.根据权利要求1所述的一种基于声音诱发脑电信号的说话人识别方法，其特征在于步骤(3)所述样本切分是对去伪迹后的听觉刺激部分脑电信号进行样本切分，获得相同时长的多个样本。

6.根据权利要求5所述的一种基于声音诱发脑电信号的说话人识别方法，其特征在于计算步骤(3)每个脑电信号样本所有采样点的最大值、最小值、方差、标准差、均值、面积和信息熵，将这7个值作为时域统计特征。

7.根据权利要求6所述的一种基于声音诱发脑电信号的说话人识别方法，其特征在于对步骤(3)每个脑电信号样本做短时傅里叶变换，将信号从时域变换到时频域，得到时频特征。

8.根据权利要求6所述的一种基于声音诱发脑电信号的说话人识别方法，其特征在于脑电信号的通道数为32个。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-8任一项所述的方法。