CN116531001A - 一种多听者脑电信号生成及跨听者情感识别的方法及设备 - Google Patents
一种多听者脑电信号生成及跨听者情感识别的方法及设备 Download PDFInfo
- Publication number
- CN116531001A CN116531001A CN202310513378.0A CN202310513378A CN116531001A CN 116531001 A CN116531001 A CN 116531001A CN 202310513378 A CN202310513378 A CN 202310513378A CN 116531001 A CN116531001 A CN 116531001A
- Authority
- CN
- China
- Prior art keywords
- listener
- emotion
- signals
- voice
- electroencephalogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 42
- 210000004556 brain Anatomy 0.000 claims abstract description 63
- 238000013145 classification model Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 230000006698 induction Effects 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000008909 emotion recognition Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 210000004027 cell Anatomy 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000000638 stimulation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000002570 electrooculography Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000000763 evoking effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/377—Electroencephalography [EEG] using evoked responses
- A61B5/38—Acoustic or auditory stimuli
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/372—Analysis of electroencephalograms
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Physiology (AREA)
- Fuzzy Systems (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
Abstract
本发明涉及一种多听者脑电信号生成及跨听者情感识别的方法,包括以下步骤:采集不同情感语音诱发下的听者脑电信号;对不同的语音信号进行预处理和数据增强;建立脑电信号的生成模型,并且执行生成模型的训练;执行生成模型,生成多个听者脑电信号,提取生成的多个听者脑电信号中的ERP波形;构建分类模型,对生成的多个听者脑电信号中的ERP波形进行情感分类。本发明通过使用ERP波形进行跨听者识别,解决跨听者情感识别的难题,提取叠加后ERP波形的能量信息和时序信息,实现对语音诱发的脑电信号准确分类,并且在跨被试情感识别达到较好的识别效果。
Description
技术领域
本发明属于脑电信号处理技术领域,特别涉及一种多听者脑电信号生成及跨听者情感识别的方法。
背景技术
随着AI和脑机接口(brain-computer interface,BCI)技术的显著进步,大脑对外界刺激的编码机制也在不断地被探索。脑电(EEG)信号是大脑内部神经细胞电生理活动的总体反映,可反映人脑的思维活动,它不受主观因素影响,可有效屏蔽与任务无关的诱发干扰,其识别结果具有较强的稳定性和抗干扰性。脑电信号包含了人脑认知的全部信息,脑电信号对情绪的识别是人脑认知的直接结果。因此,利用脑电信号对语音进行情感识别的结果就是人脑智能的真实情感状态。
在实际的人机交互中,说话者的情绪化语音很容易被捕捉到,但是脑电信号的采集比较繁杂,在实际情况下难以采集听者脑电信号以进行准确情感预测。
发明内容
本发明的目的在于提供一种多听者脑电信号生成及跨听者情感识别的方法及设备,能够解决难以采集听者脑电信号以进行准确预测的问题;
为达到上述目的,本发明采用的技术方案是:
一种多听者脑电信号生成及跨听者情感识别的方法,包括以下步骤:
采集不同情感语音诱发下的听者脑电信号;
对不同的语音信号进行预处理和数据增强;
建立脑电信号的生成模型,并且执行生成模型的训练;
执行生成模型,生成多个听者脑电信号,提取生成的多个听者脑电信号中的ERP波形;
构建分类模型,对生成的听者脑电信号进行情感分类。
优选的,所述采集听者脑电信号还包括以下步骤:听者对同一个情感语音分别进行语音情感判断和语义复述,并且同时采集听者脑电信号,其中所述情感判断是指听者对语音信号的情感类别进行识别和判断,所述语义复述是指听者对语音信号的语音内容进行复述。
优选的,所述生成模型的训练包括以下步骤:采用条件生成对抗网络作为生成模型,将采集的听者脑电信号进行预处理;将数据增强后的语音信号输入条件生成对抗网络的生成器内;生成器生成听者脑电信号;条件生成对抗网络的判别器判别预处理后的听者脑电信号和生成的听者脑电信号,进行训练迭代。
所述执行生成模型包括以下步骤:将其他语音信号进行数据增强,增强为多个语音观测信号,将增强的多个语音观测信号输入到生成模型中生成多个听者脑电信号。
优选的,所述语音信号预处理是对语音信号采用短时能量和过零率的双门限端点检测方法;
所述语音信号数据增强包括以下步骤:采用随机观测矩阵对语音信号进行多次观测,得到语音信号的多个观测值;所述观测值的维度小于语音信号的维度。
优选的,还包括以下步骤:
将生成的多个听者脑电信号叠加,提取得到ERP波形;将ERP波形分为多个相同的信号片段,滑动窗口个数计算如下:
其中,S为生成的听者脑电信号长度,m为滑动窗口步长,l为滑动窗口长度;
分段后的ERP波形被分解为θ节律(4-8Hz)、α节律(8-12Hz)、低β节律(12-16Hz)、高β节律(16-25Hz)和γ节律(25-45Hz)的五个频带。
优选的,所述分类模型由卷积神经网络CNN和长短期记忆网络LSTM构成;所述卷积神经网络用于提取ERP波形的频带能量特征;所述长短期记忆网络包括遗忘门、输入门、细胞更新单元和输出门;
所述遗忘门决定丢弃或保留来自前一个细胞元的哪些信息,其公式为:
ft=σ(Wfqt+Ufht-1+bf)
所述输入门决定哪些用于细胞状态的更新:
it=σ(Wiqt+Uiht-1+bi)
所述细胞更新单元将前一层的单元状态逐点乘以遗忘向量以更新单元状态:
所述输出门用于确定下一个隐藏状态的值,该状态包含之前输入的信息:
ot=σ(Woqt+Uoht-1+bo)
ht=ot⊙σ(ct)
其中,σ是sigmoid逻辑回归函数,qt是经过CNN层提取后的特征向量,ht是经过LSTM层提取后的特征向量,ft是遗忘门,it是输入门,ot是输出门,Wf,Wi,Wc,Wo,Uf,Ui,Uc,Uo是变换矩阵,bf,bi,bc,bo是偏置项。
优选的,还包括以下步骤:
所述分类模型的特征向量输入一个以softmax作为激活函数的全连接层,得到生成的听者脑电信号片段被预测为第i类情感的概率为:
其中,W为变换矩阵,b为偏置项,K为情感类别的个数,
所述分类模型通过交叉熵损失来训练,损失函数定义为:
其中,y为脑电片段真实标签的独特向量。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时执行上述的一种多听者脑电信号生成及跨听者情感识别的方法中的步骤。
根据本发明的另一方面,还提供一种多听者脑电信号生成及跨听者情感识别设备,包括:
存储器,用于存储软件应用程序,
处理器,用于执行所述软件应用程序,所述软件应用程序的各程序相对应地执行上述的一种多听者脑电信号生成及跨听者情感识别的方法中的步骤。
本发明的有益效果:
1、本发明采集听者脑电信号的方法,实现了在情感和语义两方面采集脑电信号,用于脑电和语音做多模态不同的数据分析。语音信号采用双门限端点检测,消除噪声的干扰并进行统一的规整,有利于诱发脑电实验中叠加得到明显的ERP波形,提高跨听者脑电情感识别率。
2、本发明采用随机观测矩阵实现对语音数据的增强,使用随机高斯矩阵来观测说话者的语音得到多个增强的语音观测信号,增加了输入数据的随机性,得到多听者脑电信号,解决了使用小样本数据进行模型训练的问题,同时也实现了对信号的降维处理,这样不仅节省了算法的运行成本,而且不会丢失原始信号中的有效特征。
3、本发明利用条件生成对抗网络对语音和脑电信号的映射关系进行了建模,实现将语音信号生成脑电信号,利于脑电信号来预测语音信号情感的目标。
4、ERP波形进行跨听者识别,解决跨听者情感识别的难题。对增强策略生成的脑电信号进行ERP波形叠加,取得更加明显的ERP波形。提取叠加后ERP波形的能量信息和时序信息,实现对语音诱发的脑电信号进行准确的情感分类,并且在跨被试情感识别达到较好的识别效果。
附图说明
图1为本发明过程流程示意图;
图2(A)是基于随机观测矩阵的数据增强流程图,(B)是条件生成对抗网络的训练流程图,(C)是基于条件生成对抗网络的脑电数据生成流程图;
图3(A)是本发明脑电分类模型结构示意图,(B)是长短时记忆网络结构示意图;
图4为真实EEG/ERP和生成EEG/ERP的跨听者情感识别的平均准确率图。
具体实施方式
以下结合附图和具体实施例,对本发明做进一步说明。
本发明中涉及的术语定义如下:
“多听者”:指多个听者;
“跨听者”:指跨被试之间识别,即为训练的数据和要识别的数据不是相同的数据。
如图1所示,本发明一种多听者脑电信号生成及跨听者情感识别的方法,包括以下步骤:
S1、脑电信号获取:采集不同的情感语音诱发下的听者脑电信号;
S2、语音数据增强:对不同的语音信号进行预处理和数据增强;
具体的,步骤S1中,所述采集听者脑电信号还包括以下步骤:
S11、听者对同一个情感语音分别进行语音情感判断和语义复述,并且同时采集听者脑电信号,其中所述情感判断是指听者对语音信号的情感类别进行识别和判断,所述语义复述是指听者对语音信号的语音内容进行复述;
具体的,步骤S2中,所述语音信号预处理是对语音信号采用短时能量和过零率的双门限端点检测方法;
其中,在一些实施例中,情感语音选取CASIA情感语音库中生气、高兴、悲伤和惊奇4种情感的语音信号,每种情感的语音选择30句,且每种情感语音的语义相同,记为真实语音信号;
同时对所选取的真实语音信号采用短时能量和过零率的双门限端点检测方法,双门限端点检测方法是对语音信号的起始端点进行检测,去除语音信号前面的静音部分,保留完整的语音信号;
在真实语音信号进行双门限端点检测过程中,将不同持续时间的语音设置为3000ms的固定持续时间语音,通过笔记本电脑作为刺激呈现设备,外置麦克风作为语音录音设备,采样率为16000Hz;
听者对每个语音听两遍,与此同时采集听者脑电信号,每一句语音信号采取双任务模式,第一遍需听者对语音的情感进行判断任务,每个情感对应不同的数字按键,选择相应的情感按键,对语音进行情感判断,不需要听清语音内容,只需要听出语音韵律情感即可,第二遍听者仔细听语音的内容,在听完内容后对听到的语音进行完整复述和录音,不需要复述语音情感,听者需要对语音信号的语音内容进行完整无误的逐字复现,且在语义复述过程中对参与者复述的语音进行录音,以此类推,直到采集结束,并且采集过程在采用伪随机排列,即不同情感的语音信号不会连续出现,通过上述采集方法实现了在情感和语义两方面采集脑电信号,用于脑电和语音做多模态不同的数据分析;
本发明在大脑的6个区域——前额叶(左/右)、中央(左/左)和顶叶(左/右侧)选择了16个通道作为采集的感兴趣区域(ROI),为Fz、FC3、FC1、FCz、FC4、FC2、C3、C1、CZ、C4、C2、CP3、CP1、CPZ、CP2和CP4;
具体的,步骤S2中,所述语音信号数据增强包括以下步骤:
S21、采用随机观测矩阵对语音信号进行多次观测,得到语音信号的多个观测值;所述观测值的维度小于语音信号的维度;
更具体的,采用随机高斯矩阵Φ对预处理后的N维的真实语音信号X1进行感知观测,如图2(A)所示,即利用M×N维的高斯矩阵对真实语音信号进行感知观测,其中M<<N,得到压缩比为M/N的远小于原始信号维度的多个观测值Y1=ΦjX1;所述增强的语音信号通过设置多个不同的高斯矩阵得到,即对b个不同的语音信号,通过设置个a(a≥2)不同的高斯矩阵Φj,得到语音信号对应的b×a个不同的增强语音信号;
在一些实施例中,选择观测的数量与听者数量相同,实现语音信号的数量扩充。
S3、脑电信号生成:建立脑电信号的生成模型,并且执行生成模型的训练;
具体的,步骤S3中,所述生成模型的训练包括以下步骤:
S31、采用条件生成对抗网络作为生成模型;将语音诱发的听者脑电信号进行预处理;将数据增强后的语音信号输入条件生成对抗网络的生成器内;生成器生成听者脑电信号;条件生成对抗网络的判别器判别预处理后的听者脑电信号和生成的听者脑电信号,进行训练迭代;
具体的,所述听者脑电信号预处理为选择全脑平均作为参考,并采用傅里叶变换对生成的听者脑电信号进行0.5-30Hz的滤波处理,之后进行去伪迹处理;
其中,去伪迹是去除了运动和眼电图伪影平均值超过±100μV的方法;
具体的,条件生成对抗网络是试图发现潜在数据分布的一种生成模型,由生成器G和判别器D组成,将步骤S21中得到的增强语音信号和原始语音信号作为生成器G的输入,生成器将输入的语音信号编码,尽可能生成与由语音诱发的脑电信号一致的样本去欺骗判别器D,判别器D则尽量将生成器G生成的脑电信号和由语音诱发的脑电信号区分开来,其训练过程为固定其中一个网络,更新另一个网络的参数,交替迭代,使得对方的错误最大化,最终生成器G估测出样本数据的分布,其过程如图2(B)所示,在训练过程中,需要根据损失函数来进行优化和调整网络参数,使得生成器和判别器能够达到均衡状态;
其损失函数如下:
其中,a=c=1,b=0,为期望,其本质为在已知观察数据下对生成模型的最大似然估计;
所属条件生成对抗网络的训练过程为生成器和判别器的相互对抗,从判别器的角度最大化损失,到生成器的角度最小化损失;
在训练过程中,定义了一个相似度“阈值”,相似度阈值为0.97,当生成器生成的样本与真实数据的相似度达到该阈值时,也就是当生成器能够生成与语音诱发的的脑电信号相似的合成数据时,判别器网络无法区分哪些数据是真实数据,哪些是由生成器生成的数据,认为生成模型已经训练完成;
条件生成对抗网络在训练完成后,将语音信号输入,利用说话人的语音信号和语音诱发的脑电信号之间的映射关系生成听者脑电信号,其过程如图2(C)所示。
S4、脑电特征提取:执行生成模型生成多个听者脑电信号,提取生成的多个听者脑电信号中的ERP波形;
具体的,将其他说话人的语音信号通过步骤S21的数据增强方法,进行一对多的数据增强,增强为多个语音观测信号,将增强的多个语音观测信号输入到训练后的生成模型生成多个听者脑电信号,增强了利用生成的脑电信号对听者情感的预测能力,并且使这些听者脑电信号为同一情感;
其中,其他说话人的语音信号为与步骤S1中选取的语音信号不同的语音信号,
具体的,还包括以下步骤:
S41、将生成的多个听者脑电信号叠加,提取得到ERP波形;将ERP波形分为多个相同的信号片段,滑动窗口个数计算如下:
其中,S为生成的听者脑电信号长度,m为滑动窗口步长,l为滑动窗口长度,S取3秒(3000个数据),m取16个数据段,l取2秒;
分段后的ERP波形被分解为θ节律(4-8Hz)、α节律(8-12Hz)、低β节律(12-16Hz)、高β节律(16-25Hz)和γ节律(25-45Hz)的五个频带,计算每个ERP波形片段的频带能量并将其展平作为分类模型的输入。
更具体的,将生成的多个脑电信号叠加,提取得到其他说话人的语音信号对应的ERP波形,ERP波形从刺激开始时间锁定,并且对刺激开始0ms时和刺激开始后3000ms之间的波形进行平均。
S5、跨听者脑电信号情感识别:建分类模型,对生成的听者脑电信号进行情感分类。
具体的,如图3(A)所示,所述分类模型由卷积神经网络CNN和长短期记忆网络LSTM构成;所述卷积神经网络由一维卷积神经网络组成,提取步骤S41中ERP波形的频带能量特征信息中更深层的特征信息;
所述长短期记忆网络包括遗忘门、输入门、细胞更新单元和输出门,从卷积神经网络中的频带能量特征中提取时序信息,
如图3(B)所示,所述遗忘门决定丢弃或保留来自前一个细胞元的哪些信息,其公式为:
ft=σ(Wfqt+Ufht-1+bf)
所述输入门决定哪些用于细胞状态的更新:
it=σ(Wiqt+Uiht-1+bi)
所述细胞更新单元将前一层的单元状态逐点乘以遗忘向量以更新单元状态:
所述输出门用于确定下一个隐藏状态的值,该状态包含之前输入的信息:
ot=σ(Woqt+Uoht-1+bo)
ht=ot⊙σ(ct)
其中,σ是sigmoid逻辑回归函数,qt是经过CNN层提取后的特征向量,ht是经过LSTM层提取后的特征向量,ft是遗忘门,it是输入门,ot是输出门,Wf,Wi,Wc,Wo,Uf,Ui,Uc,Uo是变换矩阵,bf,bi,bc,bo是偏置项;
其中,所述分类模型中,设置三个卷积层,一个批标准化层,两层LSTM,一个全连接层。卷积层为一维卷积,用来获取时序信息,卷积核均有64个,三个卷积核长度为15,3,3,第一个和第三个卷积层中步长为2;在第一个卷积层之后设置relu激活函数并在卷积操作完成后设置批标准化层。LSTM网络输出维度设置为512,128,第一层LSTM网络丢弃一半的隐藏神经元;
其中,通过将叠加的EPR波形输入的分类模型中,卷积神经网络提取频带能量特征后,长短期记忆网络从卷积神经网络中提取时序信息,对生成的听者脑电信号进行情感分类,预测情感类别,输出分类结果;更具体的,由于不同的情感所对应的有不同的ERP波形,根据不同的ERP波形,进行情感分类,把它们分成不同的类别;
具体的,还包括以下步骤:
S51、所述分类模型的特征向量输入一个以softmax作为激活函数的全连接层,得到生成的听者脑电信号片段被预测为第i类情感的概率为:
out=Whn+b
其中,W为变换矩阵,b为偏置项,K为情感类别的个数,
所述分类模型通过交叉熵损失来训练,损失函数定义为:
其中,y为脑电片段真实标签的独特向量。
将语音诱发的听者脑电信号和生成的听者脑电信号提取ERP波形后输入到分类模型中得到的预测结果,其中,数据增强的压缩比=0.3,如图4所示,语音诱发的听者脑电信号即为真实EEG,生成的听者脑电信号即为生成EEG,语音诱发的听者脑电信号的ERP波形即为真实ERP,生成的听者脑电信号的ERP波形即为生成ERP,
在跨听者情感识别中,与真实ERP相比,生成ERP的识别率提高了近30%,在生气,悲伤,高兴,惊奇四种情感的识别率中生成的听者脑电信号都远高于语音诱发的脑电信号,进一步的表现了ERP波形特征在跨听者情感识别中比语音诱发的脑电信号表现的更优异,证实了生成模型生成的脑电信号噪音更小,ERP波形特征更加明显。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时执行上述的一种多听者脑电信号生成及跨听者情感识别的方法中的步骤。
根据本发明的另一方面,还提供一种多听者脑电信号生成及跨听者情感识别设备,包括:
存储器,用于存储软件应用程序,
处理器,用于执行所述软件应用程序,所述软件应用程序的各程序相对应地执行上述的一种多听者脑电信号生成及跨听者情感识别的方法中的步骤。
Claims (10)
1.一种多听者脑电信号生成及跨听者情感识别的方法,其特征在于,包括以下步骤:
采集不同情感语音诱发下的听者脑电信号;
对不同的语音信号进行预处理和数据增强;
建立脑电信号的生成模型,并且执行生成模型的训练;
执行生成模型,生成多个听者脑电信号,提取生成的多个听者脑电信号中的ERP波形;
构建分类模型,对生成的多个听者脑电信号中的ERP波形进行情感分类。
2.根据权利要求1所述的一种多听者脑电信号生成及跨听者情感识别的方法,其特征在于,所述采集听者脑电信号还包括以下步骤:听者对同一个情感语音分别进行语音情感判断和语义复述,并且同时采集听者脑电信号,其中所述情感判断是指听者对语音信号的情感类别进行识别和判断,所述语义复述是指听者对语音信号的语音内容进行复述。
3.根据权利要求1所述的一种多听者脑电信号生成及跨听者情感识别的方法,其特征在于,所述生成模型的训练包括以下步骤:采用条件生成对抗网络作为生成模型,将采集的听者脑电信号进行预处理;将数据增强后的语音信号输入条件生成对抗网络的生成器内;生成器生成听者脑电信号;条件生成对抗网络的判别器判别预处理后的听者脑电信号和生成的听者脑电信号,进行训练迭代。
4.根据权利要求1所述的一种多听者脑电信号生成及跨听者情感识别的方法,其特征在于,所述执行生成模型包括以下步骤:将其他语音信号进行数据增强,增强为多个语音观测信号,将增强的多个语音观测信号输入到生成模型中生成多个听者脑电信号。
5.根据权利要求1、3或4所述的一种多听者脑电信号生成及跨听者情感识别的方法,其特征在于,
所述语音信号预处理是对语音信号采用短时能量和过零率的双门限端点检测方法;
所述语音信号数据增强包括以下步骤:采用随机观测矩阵对语音信号进行多次观测,得到语音信号的多个观测值;所述观测值的维度小于语音信号的维度。
6.根据权利要求1所述的一种多听者脑电信号生成及跨听者情感识别的方法,其特征在于,还包括以下步骤:
将生成的多个听者脑电信号叠加,提取ERP波形;将ERP波形分为多个相同的信号片段,滑动窗口个数计算如下:
其中,S为生成的听者脑电信号长度,m为滑动窗口步长,l为滑动窗口长度;
分段后的ERP波形被分解为θ节律(4-8Hz)、α节律(8-12Hz)、低β节律(12-16Hz)、高β节律(16-25Hz)和γ节律(25-45Hz)的五个频带。
7.根据权利要求1或5所述的一种多听者脑电信号生成及跨听者情感识别的方法,其特征在于,所述分类模型由卷积神经网络CNN和长短期记忆网络LSTM构成;所述卷积神经网络用于提取ERP波形的频带能量特征;所述长短期记忆网络包括遗忘门、输入门、细胞更新单元和输出门;
所述遗忘门决定丢弃或保留来自前一个细胞元的哪些信息,其公式为:
ft=σ(Wfqt+Ufht-1+bf)
所述输入门决定哪些用于细胞状态的更新:
it=σ(Wiqt+Uiht-1+bi)
所述细胞更新单元将前一层的单元状态逐点乘以遗忘向量以更新单元状态:
所述输出门用于确定下一个隐藏状态的值,该状态包含之前输入的信息:
ot=σ(Woqt+Uoht-1+bo)
ht=ot⊙σ(ct)
其中,σ是sigmoid逻辑回归函数,qt是经过CNN层提取后的特征向量,ht是经过LSTM层提取后的特征向量,ft是遗忘门,it是输入门,ot是输出门,Wf,Wi,Wc,Wo,Uf,Uc,Uc,Uo是变换矩阵,bf,bi,bc,bo是偏置项。
8.根据权利要求7所述的一种多听者脑电信号生成及跨听者情感识别的方法,其特征在于,还包括以下步骤:
所述分类模型的特征向量输入一个以softmax作为激活函数的全连接层,得到生成的多个听者脑电信号中的ERP波形片段被预测为第i类情感的概率为:
out=Whn*b
其中,pi为生成的听者脑电信号属于i类的概率,W为变换矩阵,b为偏置项,K为情感类别的个数,
所述分类模型通过交叉熵损失来训练,损失函数定义为:
其中,y为脑电片段真实标签的独特向量。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时执行权利要求1至8中任一所述的一种多听者脑电信号生成及跨听者情感识别的方法中的步骤。
10.一种多听者脑电信号生成及跨听者情感识别设备,其特征在于,包括:
存储器,用于存储软件应用程序,
处理器,用于执行所述软件应用程序,所述软件应用程序的各程序相对应地执行权利要求1至8中任一所述的一种多听者脑电信号生成及跨听者情感识别的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310513378.0A CN116531001A (zh) | 2023-05-08 | 2023-05-08 | 一种多听者脑电信号生成及跨听者情感识别的方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310513378.0A CN116531001A (zh) | 2023-05-08 | 2023-05-08 | 一种多听者脑电信号生成及跨听者情感识别的方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116531001A true CN116531001A (zh) | 2023-08-04 |
Family
ID=87446608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310513378.0A Pending CN116531001A (zh) | 2023-05-08 | 2023-05-08 | 一种多听者脑电信号生成及跨听者情感识别的方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116531001A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493963A (zh) * | 2023-11-08 | 2024-02-02 | 山西大学 | 一种基于多尺度双曲对比学习的跨被试脑电情感识别方法及设备 |
-
2023
- 2023-05-08 CN CN202310513378.0A patent/CN116531001A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493963A (zh) * | 2023-11-08 | 2024-02-02 | 山西大学 | 一种基于多尺度双曲对比学习的跨被试脑电情感识别方法及设备 |
CN117493963B (zh) * | 2023-11-08 | 2024-05-24 | 山西大学 | 一种基于多尺度双曲对比学习的跨被试脑电情感识别方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108899050B (zh) | 基于多模态情绪识别系统的语音信号分析子系统 | |
CN108805087B (zh) | 基于多模态情绪识别系统的时序语义融合关联判断子系统 | |
CN108805089B (zh) | 基于多模态的情绪识别方法 | |
Huang et al. | S-EEGNet: Electroencephalogram signal classification based on a separable convolution neural network with bilinear interpolation | |
CN108776788B (zh) | 一种基于脑电波的识别方法 | |
CN112244873B (zh) | 一种基于混合神经网络的脑电时空特征学习与情感分类方法 | |
CN111523601A (zh) | 一种基于知识引导和生成对抗学习的潜在情绪识别方法 | |
CN112151071B (zh) | 一种基于混合小波包特征深度学习的语音情感识别方法 | |
CN112200016A (zh) | 基于集成学习方法AdaBoost的脑电信号情感识别 | |
Mini et al. | EEG based direct speech BCI system using a fusion of SMRT and MFCC/LPCC features with ANN classifier | |
CN115770044B (zh) | 基于脑电相位幅值耦合网络的情绪识别方法及装置 | |
Hernández-Del-Toro et al. | Toward asynchronous EEG-based BCI: Detecting imagined words segments in continuous EEG signals | |
Hussain et al. | A radial base neural network approach for emotion recognition in human speech | |
CN110543831A (zh) | 一种基于卷积神经网络的脑纹识别方法 | |
CN116531001A (zh) | 一种多听者脑电信号生成及跨听者情感识别的方法及设备 | |
CN115414051A (zh) | 一种脑电信号自适应窗口的情绪分类识别方法 | |
Farokhah et al. | Simplified 2D CNN architecture with channel selection for emotion recognition using EEG spectrogram | |
Xie et al. | WT feature based emotion recognition from multi-channel physiological signals with decision fusion | |
CN115969392A (zh) | 基于张量化频空注意力域适应网络的跨时段脑纹识别方法 | |
Xie et al. | A novel solution for EEG-based emotion recognition | |
Liu et al. | Automated Machine Learning for Epileptic Seizure Detection Based on EEG Signals. | |
CN113421546A (zh) | 基于跨被试多模态的语音合成方法及相关设备 | |
Wang et al. | Improved brain–computer interface signal recognition algorithm based on few-channel motor imagery | |
CN114742107A (zh) | 信息服务中的感知信号的识别方法及相关设备 | |
Reaj et al. | Emotion recognition using EEG-based brain computer interface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |