CN113178195B - 一种基于声音诱发脑电信号的说话人识别方法 - Google Patents
一种基于声音诱发脑电信号的说话人识别方法 Download PDFInfo
- Publication number
- CN113178195B CN113178195B CN202110241424.7A CN202110241424A CN113178195B CN 113178195 B CN113178195 B CN 113178195B CN 202110241424 A CN202110241424 A CN 202110241424A CN 113178195 B CN113178195 B CN 113178195B
- Authority
- CN
- China
- Prior art keywords
- electroencephalogram
- electroencephalogram signals
- auditory stimulation
- time
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000000638 stimulation Effects 0.000 claims abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 238000012937 correction Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims description 21
- 210000004556 brain Anatomy 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012880 independent component analysis Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000003313 weakening effect Effects 0.000 claims description 3
- 239000013256 coordination polymer Substances 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 210000001652 frontal lobe Anatomy 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 210000001152 parietal lobe Anatomy 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007177 brain activity Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000007943 implant Substances 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 230000004936 stimulating effect Effects 0.000 description 2
- 210000003478 temporal lobe Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010049816 Muscle tightness Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 210000000624 ear auricle Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000763 evoking effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000869 occipital lobe Anatomy 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000004761 scalp Anatomy 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Fuzzy Systems (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明公开一种基于声音诱发脑电信号的说话人识别方法。本发明通过采集脑电数据,提取听觉刺激部分时频特征和时域统计特征的融合特征。采用alpha频段基线校正部分的脑电信号获得的融合特征作为背景模板。将听觉刺激部分融合特征减去背景模板得到干净任务态数据融合特征,最后利用本发明提出的网络模型区分不同说话人。本发明提供了一种可行的基于声音诱发脑电信号的说话人识别方法,并利用训练好的分类器去区分不同说话人,准确率达到90%。
Description
技术领域
本发明属于脑电变化分析技术领域中基于脑电信号的说话人识别领域,具体涉及一种基于声音诱发脑电信号的分析从而区分不同说话人的方法。
背景技术
传统的基于语音的说话人识别已经非常成熟,我们可以从不同说话人的语音中提取出个体差异性特征。声学特征例如频谱、倒频谱和共振峰等,它们作为低级特征,可以表征不同说话人的声道结构差异。音韵特征例如韵律、节奏、方言等,它们作为高级特征,可以表征不同说话人的说话风格差异。
不同说话人之间的个体差异将会导致在被试身上诱发出来的脑电信号存在差异性。说话人的这个差异性主要体现在三个方面,第一是音韵,不同说话人的说话风格是很不一样的,不同说话人在同一段话上的节奏和停顿节点是具有很大差异的。第二是音色,不同说话人的音色区别是很大的,例如听男生讲话和听女生讲话两种情况下,我们能够很好地区分男女。第三是音调,不同说话人平时说话的音调是不一样的,例如两个男性说话人,一个人讲话的音调高而另一个人讲话的音调很低,我们也可以轻易地区分两个说话人。我们设计相应的单说话人环境下声音诱发脑电信号的实验,采集了被不同说话人的录音刺激诱发出来的脑电信号,然后进行数据分析进而区分不同的说话人。
对诱发脑电信号的分析和处理是脑机接口技术的重要组成部分。脑电信号存在着成分复杂,信噪比低,不稳定等特点,所以对相应生理活动下的脑电信号的特征提取和分析是存在着一定难度但是却是非常有意义的。
目前还没有人提出基于声音诱发脑电信号的说话人识别这个研究方向。本发明适用于多说话人复杂环境下,通过声音诱发脑电信号解码目标说话人,可以应用到助听器、人工耳蜗和蓝牙耳机中,具备较大的应用市场。例如,现在市面上大部分的助听器都有一个缺点--无法准确放大患者关注的说话人的声音,因为这些助听器有一个预定义的假设--将患者正前方的说话人声音进行放大,这个固定的模式对患者十分不友好,假如能够实时地检测出患者关注的目标说话人,然后对目标说话人的语音放大,对其他人的声音抑制,将大大提高助听器的性能。
发明内容
本发明的目的是针对基于声音诱发脑电信号的说话人识别这个方向的空白,提出了一种新型的基于声音诱发脑电信号的说话人识别方法。本发明可以通过采集的脑电数据,提取时频特征和时域统计特征,利用本发明提出的网络模型很好地区分不同说话人。
本发明技术方案包括如下步骤:
步骤(1)、采集脑电信号
获取基线校正部分、听觉刺激部分的脑电信号;
所述的基线校正部分要求在t1(t1>0秒,为人为设定参数)时间内处于平静无任务状态,即不进行想象和听觉刺激;
所述的听觉刺激部分要求在t2(t2>0秒,为人为设定参数)时间内身体保持静止,并听取不同说话人声音刺激;
步骤(2)、对步骤(1)基线校正部分脑电信号进行数据预处理,得到delta、theta、alpha、beta、high gamma五个频段基线校正部分脑电信号;
所述的预处理包括降采样、滤波;
作为优选,降采样是将原始脑电信号降采样到250Hz。
作为优选,滤波将降采样后的脑电信号分为0.1-3Hz(delta),3-8Hz(theta),8-13Hz(alpha),13-30(beta)以及51-80Hz(high gamma)这5个频段。
步骤(3)、对步骤(1)听觉刺激部分脑电信号进行数据预处理,得到delta、theta、alpha、beta、high gamma五个频段的多个听觉刺激部分脑电信号样本;
所述的预处理包括降采样、滤波、去伪迹、样本切分;具体是:
3.1将听觉刺激部分原始脑电信号降采样到250Hz。
3.2滤波:将降采样后的脑电信号分为0.1-3Hz(delta),3-8Hz(theta),8-13Hz(alpha),13-30(beta)以及51-80Hz(high gamma)这5个频段。
3.3利用工具箱eeglab上的run ica函数,根据独立成分分析方法去除5个频段脑电信号中的眼电、肌电和心电等伪迹。
3.4对步骤3.3处理后的脑电信号进行样本切分,获得相同时长的多个样本。
步骤(4)、听觉刺激部分脑电信号的特征提取
4.1获取时域统计特征
计算步骤3.4每个样本所有采样点的最大值、最小值、方差、标准差、均值、面积和信息熵,将这7个值作为时域统计特征;此处为现有常规技术,故不详解。
4.2获取时频特征
对步骤3.4每个样本做短时傅里叶变换,将信号从时域变换到时频域,得到时频特征;此处为现有常规技术,故不详解。
4.3获取融合特征
将步骤4.1得到的时域统计特征和步骤4.2得到的时频特征拼接在一起;此处为现有常规技术,故不详解。
步骤(5)、插值法减弱背景噪声
听觉刺激部分采集到的脑电数据由任务态数据和背景噪声数据组成,背景噪声数据是与任务无关的大脑自发活动而产生的数据。delta频段和high gamma频段的脑电数据能够很好地区分不同说话人的声音,而alpha频段的数据分类准确率表现为随机水平。因此,alpha频段的数据成分中包含更多的背景噪声,几乎不包含与任务相关信息。故本发明采用alpha频段基线校正部分的脑电信号数据作为基线,经过与步骤(4)相同的特征提取后,得到背景模板。对步骤(4)处理后的5个频段听觉刺激部分脑电信号的融合特征减去背景模板,得到干净任务态数据融合特征,即包含更多说话人差异性的特征,减弱了背景噪声的影响。
步骤(6)、通道选择
对干净任务态数据融合特征的所有脑电通道使用FCSI(Fisher’s classseparability index)通道选择算法进行处理,在额叶(F区)、额叶与中央脑区交界区(FC区)、中央脑区(C区)、颞叶(T区)、顶叶与中央脑区交界区(CP区)、顶叶(P区)脑区中,参考每个通道的FCSI值,各自选取前n个通道的融合特征,1≤n≤9。同时将上述融合特征的对应说话人作为标签,构建训练集。
步骤(7)、利用上述训练集对分类器训练
分类器由二维卷积网络、时域卷积网络、Flatten层、全连接层构成;以步骤(6)处理后融合特征为输入,说话人分类结果为输出;
二维卷积网络的输入为步骤(6)处理后融合特征,由两个串联的卷积块构成;每个卷积块由二维卷积单元、最大池化层串联构成;
时域卷积网络的输入为二维卷积网络的输出,由两个串联的残差块构成;每个残差块由两个串联的一维卷积单元、以及一个恒等映射构成;
步骤(8)、利用训练好的分类器以实现说话人分类。
本发明的另一个目的是提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述的方法。
本发明的有益效果是:
1)本发明提供了一种可行的基于声音诱发脑电信号的说话人识别方法,并利用训练好的分类器去区分不同的说话人,准确率达到90%。
2)本发明利用delta频段和high gamma频段的脑电数据能够很好地区分不同说话人,且利用额叶和顶叶这两个脑区数据提高对说话人识别地准确率。
3)本发明根据不同说话人的声音诱发出来的脑电信号在时域存在较大的差异,提出了有效的时域统计特征和时频特征,并且改进了时域卷积网络,能够同时提取时域和空域特征,实现准确地识别不同说话人。
4)本发明适用于多说话人环境下说话人识别,利用更短的时间更精确地解码目标说话人,最终应用到助听器、人工耳蜗和蓝牙耳机中,实现随佩戴者的注意力实时地去增强目标说话人语音和抑制背景噪音。
附图说明
图1为本发明的说话人识别框图;
图2为本发明使用的脑电帽电极分布图;
图3为本发明方法系统流程图;
图4为分类器网络结构图;
图5为不同分类器模型在不同通道数情况下的分类准确率。
具体实施方式
下面结合附图,对本发明一种基于声音诱发脑电信号的说话人识别方法,做详细描述。
图1为本发明基于声音诱发脑电信号说话人识别框图。
图2为本发明使用的脑电帽电极分布图
图3为本发明具体实施方案系统流程图,其具体包括以下步骤:
步骤1、脑电信号采集
从年龄在22-25岁之间的20名学生中筛选了4名学生,其中2名男性2名女性,这4名学生普通说讲的很标准。一共挑选了12篇短篇新闻,分别是3篇新冠类、3篇政治类、3篇课文选读类和3篇花边新闻类,并分别为每篇短新闻设置了3个选择题让被试在休息时间内作答,用来检验被试是否认真听了这篇新闻录音。在安静的会议室内分别对这4名说话人录音,要求用正常语气顺畅地朗读完这12篇文章,每篇文章的录音控制在60-65秒范围内,得到48个录音。实验中用到的录音的软件是cool edit2000,录音的设备是普通的联想麦克风和联想台式电脑,采样频率是48000Hz,用16比特方式进行量化。
对年龄在22-25岁之间的10名受试者(其中8名男性志愿者,2名女性志愿者),进行脑电实验培训,了解注意事项和熟悉实验流程,避免实验过程中不规范的行为导致实验数据异常。在本实验室专用的脑电实验房间进行数据采集,脑电采集设备是Neuroscan和64通道的脑电帽,设备符合10-20系统标准,使用头顶参考电极而不是双侧耳垂参考电极,因此实际采样通道数为62个,通道的分布如图2所示。录音刺激在E-Prime上面呈现,一共48个录音依次去刺激被试,相邻两个录音之间休息60秒,被试在这个时间内做完选择题,剩下的时间用来放松。按照顺序轮流去刺激被试,受试者对48个录音依次进行基线校正部分、听觉刺激部分、休息部分三个阶段,并获取对应阶段的脑电信号;
所述的基线校正部分要求被试在正式开始前的t1=1秒内处于平静无任务状态。
所述的听觉刺激部分,要求被试在t2=60秒内身体保持静止,认真听录音中说话人讲述的内容。
所述的休息部分要求被试在t3=60秒内做完事先设计好的选择题,剩下的时间可以用来眨眼休息,但是整个过程中不能出现大的肢体动作,防止脑电采集设备与头皮接触不良。
步骤2、对步骤1基线校正部分脑电信号进行数据预处理,得到delta、theta、alpha、beta、high gamma五个频段基线校正部分脑电信号;
所述的预处理包括降采样、滤波;
降采样:Neuroscan的采样频率为1000Hz,将原始数据降采样到250Hz,这样可以大大减少数据量,提高计算速度,方便进一步分析。
滤波:不同的频段包含的信息不一样,为了探究哪个频段的信息能够区分不同说话人,将降采样后的数据进行滤波操作,使用工具箱eeglab的带通滤波,分别将数据滤到0.1-3Hz(delta),3-8Hz(theta),8-13Hz(alpha),13-30(beta)以及51-80Hz(high gamma)5个频段。
步骤3、对步骤1听觉刺激部分脑电信号进行数据预处理,得到delta、theta、alpha、beta、high gamma五个频段的多个听觉刺激部分脑电信号样本;
所述的预处理包括降采样、滤波、去伪迹、样本切分;具体是:
3.1降采样:Neuroscan的采样频率为1000Hz,将原始数据降采样到250Hz,这样可以大大减少数据量,提高计算速度,方便进一步分析。
3.2滤波:不同的频段包含的信息不一样,为了探究哪个频段的信息能够区分不同说话人,将降采样后的数据进行滤波操作,使用工具箱eeglab的带通滤波,分别将数据滤到0.1-3Hz(delta),3-8Hz(theta),8-13Hz(alpha),13-30(beta)以及51-80Hz(high gamma)5个频段。
3.3去伪迹:在采集脑电信号的时候,眼电、心电和肌电等噪音信号不可避免地会混入到脑电信号中,采用独立成分分析方法,将原始脑电信号分离成各个不同的成分,然后通过现有技术去除伪迹成分比如眨眼的成分、肌肉紧张的成分等,从而得到相对干净的脑电信号,具体实现是利用工具箱eeglab上的run ica函数。
3.4样本切分:对步骤3.3处理后的t2=60秒脑电信号进行样本切分,获得20个时长为3秒的多个样本。由于60秒时间太长,不适合作为一个样本,需要将48个trial听觉刺激部分脑电数据进行切分,将一个trial切分为20个3秒的sample,每个sample一共有750个采样点。划分好之后,需要查看每个sample在各个通道上的幅值,将幅值大于100uV的sample人工舍弃掉,因为EEG信号比较微弱,大于100uV的数据很可能是噪音。
步骤4、听觉刺激部分脑电信号的特征提取
经过样本切分后,每个样本的数据格式为62*750,数据量太多,需要从中提取出重要的特征,一方面可以减小样本数据大小,另一方面可以去除掉无用信息的干扰,从而更好地去分类。在脑电信号处理中,一般常见的特征可以分为时域特征、时频特征和频域特征等。
在时域,计算每个样本中每个通道的统计量:均值、方差、最大值、最小值、标准差、面积和信息熵,将这7个值组成一个7维的特征向量,最终的特征大小为62*7。
在时频域,通过使用短时傅里叶变换,信号从一维时域分解为时域和频域的二维联合表示,用以描述信号在不同时间段内的频率分布情况。短时傅里叶变换将信号在时域内进行分段,等效于用位置不同的窗函数与原信号想乘,先选定一个基本窗函数,然后将窗函数沿时间轴平移得到一组窗函数。平移后的窗函数与原信号相乘,其结果就是得到原信号在不同时间段内的时域信息,时频特征能够同时提到时域相关信息和频域相关信息。例如,delta频段数据经过短时傅里叶变换后得到特征大小是62*192。
在频域,进行功率谱密度(Power Spectral Density,PSD)分析,通过一定方法求解信号的功率power随着频率变化曲线。
分别用这三种特征在SVM上面做分类任务,发现时域统计特征以及时频特征能够很好地区分说话人声音,PSD无法区分说话人声音,于是将时域统计特征和时频特征拼接在一起,融合成新的特征,每个样本的数据格式为62*199。
步骤5、插值法减弱背景噪声
听觉刺激部分采集到的脑电数据由任务态数据和背景噪声数据组成,背景噪声数据是与任务无关的大脑自发活动而产生的数据。delta频段和high gamma频段的脑电数据能够很好地区分不同说话人的声音,而alpha频段的数据分类准确率表现为随机水平。因此,alpha频段的数据成分中包含更多的背景噪声,几乎不包含与任务相关信息。故本发明采用alpha频段基线校正部分的脑电信号数据作为基线,经过步骤4的特征提取后,得到背景模板。对步骤(3)处理后的5个频段样本的融合特征减去背景模板,得到干净任务态数据融合特征,即包含更多说话人差异性的特征,减弱了背景噪声的影响。
步骤6、通道选择
脑电信号采集装置一共62通道,分别对应着不同的脑区,大致可以分为额叶(F区)、颞叶(T区)、中央脑区(C区)、顶叶(P区)和枕叶(O区)。可分性指数FCSI(Fisher’sclass separability index)可以计算单个通道在待分类别上的差异性。对每名被试的数据都做FCSI处理,计算出每个通道的分数,然后加权平均计算出所有数据下每个通道的分数,最后按分数大小做一个排序。选择排名靠前的通道做分类,并且计算不同数量通道的情况下分类准确率,从而选择一个最优的通道数量。实验结果如图5所示,优选为32个通道,32通道的数据就能够达到使用所有通道的效果。做完通道选择后,每个样本的数据格式为32*199。
同时将上述融合特征的对应说话人作为标签,构建训练集。
步骤7、利用上述训练集对分类器训练
图4为本发明分类器的网络模型,分类器由时域卷积网络、二维卷积网络、Flatten层、全连接层构成;以步骤(6)处理后融合特征为输入,说话人分类结果为输出;
二维卷积网络的输入为步骤(6)处理后融合特征,由两个串联的卷积块构成;每个卷积块由二维卷积单元、最大池化层串联构成。其中,二维卷积核的大小是3×1,用于提取通道相关性;
时域卷积网络(Temporal Convolutional Network,TCN)的输入为二维卷积网络的输出,由两个串联的残差块构成;每个残差块由两个串联的一维卷积单元、以及一个恒等映射构成;
TCN能够很好地在时间这个维度上提取脑电信号特征,但是通道和通道间的相关性可能无法提取到,本发明提出把CNN与TCN相结合,总网络的前半部分是一个CNN网络,总网络的后半部分是一个TCN网络,前半部分提取通道间的相关性特征,后半部分再提取时间维度上的特征。TCN网络后面的Flatten层用于展平多维的数据,将数据展平成一维,Flatten层用于连接卷积层和全连接层。
步骤8、利用训练好的分类器以实现说话人分类。
图5表示不同的分类器在不同数量的通道情况下区分说话人的准确率,本发明提出的网络模型性能最好,并且使用32个通道时,分类准确率和使用全通道情况接近。
该发明设计出来的网络模型能够根据脑电信号的多通道特殊性,很好地提取时域和空域重要特征,最终用该模型识别说话人,4分类准确率达到90%。
上面基于声音诱发脑电信号的说话人识别方法说明书和附图详细介绍了本发明的具体实施方式,但应注意的是,以上只是本发明的最优实施方案,但本发明不限于上述实施方案,凡在本发明精神和原则之内,所作的任何修改、等同置换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于声音诱发脑电信号的说话人识别方法,其特征在于包括以下步骤:
步骤(1)、采集脑电信号
获取基线校正部分、听觉刺激部分的脑电信号;
所述的基线校正部分要求在t1时间内处于平静无任务状态,即不进行想象和听觉刺激;
所述的听觉刺激部分要求在t2时间内身体保持静止,并认真听取不同说话人的声音刺激;
步骤(2)、对步骤(1)基线校正部分脑电信号进行数据预处理,得到delta、theta、alpha、beta、high gamma五个频段基线校正部分脑电信号;其中数据预处理包括降采样、滤波;
步骤(3)、对步骤(1)听觉刺激部分脑电信号进行数据预处理,得到delta、theta、alpha、beta、high gamma五个频段的多个听觉刺激部分脑电信号样本;其中数据预处理包括降采样、滤波、去伪迹、样本切分;
步骤(4)、听觉刺激部分脑电信号的特征提取
4.1获取步骤(3)每个脑电信号样本的时域统计特征
4.2获取步骤(3)每个脑电信号样本的时频特征
4.3将步骤4.1得到的时域统计特征和步骤4.2得到的时频特征拼接在一起,获取融合特征;
步骤(5)、插值法减弱背景噪声
采用alpha频段基线校正部分脑电信号数据经过步骤(4)的特征提取后,得到融合特征,作为背景模板;
对步骤(4)处理后的5个频段样本的融合特征减去背景模板,得到干净任务态数据融合特征;
步骤(6)、通道选择
对干净任务态数据融合特征的所有脑电通道使用FCSI(Fisher’s classseparabilityindex)通道选择算法进行处理,在F区、FC区、C区、T区、CP区、P区脑区通道中各自选取FCSI值前n个的融合特征,1≤n≤9;同时将上述融合特征的对应说话人作为标签,构建训练集;
步骤(7)、利用上述训练集对分类器训练
分类器由二维卷积网络、时域卷积网络、Flatten层、全连接层构成;以步骤(6)处理后融合特征为输入,说话人分类结果为输出;
二维卷积网络的输入为步骤(6)处理后融合特征,由两个串联的卷积块构成;每个卷积块由二维卷积单元、最大池化层串联构成;
时域卷积网络的输入为二维卷积网络的输出,由两个串联的残差块构成;每个残差块由两个串联的一维卷积单元、一个恒等映射构成;
步骤(8)、利用训练好的分类器进行声音分类并进而识别出说话人。
2.根据权利要求1所述的一种基于声音诱发脑电信号的说话人识别方法,其特征在于步骤(2)、(3)所述降采样是将步骤(1)基线校正部分、听觉刺激部分原始脑电信号降采样到250Hz。
3.根据权利要求1所述的一种基于声音诱发脑电信号的说话人识别方法,其特征在于步骤(2)、(3)所述滤波是将降采样后的基线校正部分、听觉刺激部分脑电信号分为delta、theta、alpha、beta、high gamma五个频段。
4.根据权利要求1所述的一种基于声音诱发脑电信号的说话人识别方法,其特征在于步骤(3)所述去伪迹是利用工具箱eeglab上的run ica函数,根据独立成分分析方法去除听觉刺激部分5个频段脑电信号中伪迹。
5.根据权利要求1所述的一种基于声音诱发脑电信号的说话人识别方法,其特征在于步骤(3)所述样本切分是对去伪迹后的听觉刺激部分脑电信号进行样本切分,获得相同时长的多个样本。
6.根据权利要求5所述的一种基于声音诱发脑电信号的说话人识别方法,其特征在于计算步骤(3)每个脑电信号样本所有采样点的最大值、最小值、方差、标准差、均值、面积和信息熵,将这7个值作为时域统计特征。
7.根据权利要求6所述的一种基于声音诱发脑电信号的说话人识别方法,其特征在于对步骤(3)每个脑电信号样本做短时傅里叶变换,将信号从时域变换到时频域,得到时频特征。
8.根据权利要求6所述的一种基于声音诱发脑电信号的说话人识别方法,其特征在于脑电信号的通道数为32个。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110241424.7A CN113178195B (zh) | 2021-03-04 | 2021-03-04 | 一种基于声音诱发脑电信号的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110241424.7A CN113178195B (zh) | 2021-03-04 | 2021-03-04 | 一种基于声音诱发脑电信号的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113178195A CN113178195A (zh) | 2021-07-27 |
CN113178195B true CN113178195B (zh) | 2022-08-26 |
Family
ID=76921888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110241424.7A Active CN113178195B (zh) | 2021-03-04 | 2021-03-04 | 一种基于声音诱发脑电信号的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113178195B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781461B (zh) * | 2022-05-25 | 2022-11-22 | 北京理工大学 | 一种基于听觉脑机接口的目标探测方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4883067A (en) * | 1987-05-15 | 1989-11-28 | Neurosonics, Inc. | Method and apparatus for translating the EEG into music to induce and control various psychological and physiological states and to control a musical instrument |
CN101996628A (zh) * | 2009-08-21 | 2011-03-30 | 索尼株式会社 | 提取语音信号的韵律特征的方法和装置 |
CN103976740A (zh) * | 2014-05-23 | 2014-08-13 | 清华大学 | 一种面向网络环境的脑电信号身份识别系统及识别方法 |
CN105939507A (zh) * | 2015-03-06 | 2016-09-14 | 奥迪康有限公司 | 用于增加人的抑制不想要的听觉感知的能力的方法、装置和系统 |
JP2018015212A (ja) * | 2016-07-27 | 2018-02-01 | 凸版印刷株式会社 | 脳波信号処理システム、脳波信号処理方法及びプログラム |
CN111184509A (zh) * | 2019-11-29 | 2020-05-22 | 杭州电子科技大学 | 一种基于传递熵的情绪诱导脑电信号分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
-
2021
- 2021-03-04 CN CN202110241424.7A patent/CN113178195B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4883067A (en) * | 1987-05-15 | 1989-11-28 | Neurosonics, Inc. | Method and apparatus for translating the EEG into music to induce and control various psychological and physiological states and to control a musical instrument |
CN101996628A (zh) * | 2009-08-21 | 2011-03-30 | 索尼株式会社 | 提取语音信号的韵律特征的方法和装置 |
CN103976740A (zh) * | 2014-05-23 | 2014-08-13 | 清华大学 | 一种面向网络环境的脑电信号身份识别系统及识别方法 |
CN105939507A (zh) * | 2015-03-06 | 2016-09-14 | 奥迪康有限公司 | 用于增加人的抑制不想要的听觉感知的能力的方法、装置和系统 |
JP2018015212A (ja) * | 2016-07-27 | 2018-02-01 | 凸版印刷株式会社 | 脳波信号処理システム、脳波信号処理方法及びプログラム |
CN111184509A (zh) * | 2019-11-29 | 2020-05-22 | 杭州电子科技大学 | 一种基于传递熵的情绪诱导脑电信号分类方法 |
Non-Patent Citations (1)
Title |
---|
根据语音分形维和基音周期的说话人性别识别研究;王振华等;《生物医学工程学杂志》;20080831;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113178195A (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11961533B2 (en) | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments | |
EP3469584B1 (en) | Neural decoding of attentional selection in multi-speaker environments | |
CN108236464B (zh) | 基于脑电信号的特征提取方法及其检测提取系统 | |
Cooney et al. | Mel frequency cepstral coefficients enhance imagined speech decoding accuracy from EEG | |
Riaz et al. | Inter comparison of classification techniques for vowel speech imagery using EEG sensors | |
US20070060830A1 (en) | Method and system for detecting and classifying facial muscle movements | |
CN110610719A (zh) | 声音处理设备 | |
Alain et al. | Hearing two things at once: neurophysiological indices of speech segregation and identification | |
CN109871831B (zh) | 一种情感识别方法及系统 | |
CN111184509A (zh) | 一种基于传递熵的情绪诱导脑电信号分类方法 | |
CN112488002B (zh) | 基于n170的情绪识别方法及识别系统 | |
Yang et al. | Improved time-frequency features and electrode placement for EEG-based biometric person recognition | |
CN111000556A (zh) | 一种基于深度模糊森林的情绪识别方法 | |
Rosinová et al. | Voice command recognition using eeg signals | |
Zhu et al. | Contribution of modulation spectral features on the perception of vocal-emotion using noise-vocoded speech | |
Khalighinejad et al. | NAPLib: An open source toolbox for real-time and offline Neural Acoustic Processing | |
CN113178195B (zh) | 一种基于声音诱发脑电信号的说话人识别方法 | |
CN115188448A (zh) | 一种基于脑电波的中医医生诊疗经验记录方法 | |
TW201408259A (zh) | 情緒性腦電波造影方法 | |
Sree et al. | Vowel classification from imagined speech using sub-band EEG frequencies and deep belief networks | |
Koct et al. | Speech Activity Detection from EEG using a feed-forward neural network | |
Sharon et al. | The" Sound of Silence" in EEG--Cognitive voice activity detection | |
CN116369949A (zh) | 一种脑电信号分级情绪识别方法、系统、电子设备及介质 | |
Bollens et al. | SparrKULee: A Speech-evoked Auditory Response Repository of the KU Leuven, containing EEG of 85 participants | |
CN113208633A (zh) | 一种基于eeg脑波的情绪识别方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |