CN115620751A - 一种基于说话人语音诱发的脑电信号预测方法 - Google Patents
一种基于说话人语音诱发的脑电信号预测方法 Download PDFInfo
- Publication number
- CN115620751A CN115620751A CN202211256932.3A CN202211256932A CN115620751A CN 115620751 A CN115620751 A CN 115620751A CN 202211256932 A CN202211256932 A CN 202211256932A CN 115620751 A CN115620751 A CN 115620751A
- Authority
- CN
- China
- Prior art keywords
- signal
- electroencephalogram
- voice
- signals
- observed value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000006698 induction Effects 0.000 title abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims abstract description 13
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims abstract description 12
- 210000004556 brain Anatomy 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 12
- 230000000763 evoking effect Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 210000001061 forehead Anatomy 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 210000004761 scalp Anatomy 0.000 claims description 2
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 claims 1
- 230000001149 cognitive effect Effects 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/372—Analysis of electroencephalograms
- A61B5/374—Detecting the frequency distribution of signals, e.g. detecting delta, theta, alpha, beta or gamma waves
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/377—Electroencephalography [EEG] using evoked responses
- A61B5/38—Acoustic or auditory stimuli
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Veterinary Medicine (AREA)
- Biomedical Technology (AREA)
- Acoustics & Sound (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Psychology (AREA)
- Child & Adolescent Psychology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Developmental Disabilities (AREA)
- Educational Technology (AREA)
- Hospice & Palliative Care (AREA)
- Social Psychology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Epidemiology (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明涉及一种基于说话人语音诱发的脑电信号预测方法。主要解决现有语音诱发方法存在无法在实际情况中采集听者脑电信号的技术问题。本发明包括信号的预处理,映射关系建模和脑电信号预测三个步骤,其中映射关系建模包括信号编码和信号生成两部分,信号编码是采用高斯随机矩阵对说话人语音信号和听者脑电信号进行感知观测,得到对应的观测值,信号生成是采用生成对抗网络为基本模型,将语音信号的观测值作为输入,脑电信号的观测值作为目标,训练生成对抗网络,在脑电信号的预测过程中,将说话人语音作为映射关系模型的输入,生成该说话人语音诱发下的脑电信号的观测值,并对其进行重构,得到重构脑电信号,该脑电信号就是所预测的听者脑电信号。
Description
技术领域
本发明属于脑电技术领域,具体涉及一种基于说话人语音诱发的脑电信号预测方法。
背景技术
脑电(EEG)信号是大脑内部神经细胞电生理活动的总体反映,可反映人脑的思维活动,它不受主观因素影响,可有效屏蔽与任务无关的诱发干扰,其识别结果具有较强的稳定性和抗干扰性。脑电信号中包含人脑认知的全部信息,采用脑电信号对事物进行识别,其识别结果就是人脑认知的直接结果。随着AI、人机交互和脑机接口(BCI)技术的显著进步,大脑对外界刺激的编码机制也在不断地被探索,语音作为人与人之间最重要的交流方式,使机器读懂和理解语义和语音中的情感就显得尤为重要,因而,若能将脑电信号与语音信号的分析结果进行融合,则所得的结果也会更符合人脑的认知分析结果。
然而在目前的人机交互应用中,AI智能体虽然可以很容易采集说话者的语音,但却很难及时获取听者的脑电信号,此外,在关于语音诱发的脑电信号研究中,大多研究者都聚焦于如何从脑电信号中解码出语音诱发信号,关于使用何种方法预测语音诱发的脑电信号还并不清晰,目前的技术是采用线性回归模型,但由于线性回归模型无法对大脑的复杂性和动态性进行建模,使得这种技术在实际信号和预测信号之间的相关性很小,因而限制了其适用性。
发明内容
本发明的目的是解决现有语音诱发方法存在无法在实际情况中采集听者脑电信号的技术问题,提供一种基于说话人语音诱发的脑电信号预测方法。通过该方法,不仅可以预测说话人语音诱发的听者的脑电信号,还可为单模态语音提供脑认知特征,有助于解决单模态语音的情感识别问题。
为解决上述技术问题,本发明采用的技术方案是:
一种基于说话人语音诱发的脑电信号预测方法,其具体步骤为:
1)信号的预处理
采集说话人语音诱发的听者脑电信号,并对说话人语音信号及说话人语音信号所诱发的听者脑电信号进行预处理,所述说话人语音信号的预处理是指对说话人语音信号进行时长规整和分帧处理,得到处理后的真实语音信号X1,所述时长规整是将不同时长的语音数据设置成固定时长的语音数据便于信号的分帧处理;所述听者脑电信号的预处理是指对听者脑电信号进行滤波、去伪迹、基线校正以及数据整合,得到处理后的真实脑电信号X2,所述滤波是采用傅里叶变换对脑电信号进行0.5-30Hz的滤波处理,所述去伪迹是去除眼电、心电和坏的导联信号以及无效脑电信号,所述数据整合是首先提取与说话人语音信号相对应的听者脑电信号,然后再从听者脑电信号中选择有效的电极导联数据作为目标脑电信号,最后对目标脑电信号进行时长规整和分帧处理,该操作与说话人语音信号的时长规整和分帧处理相同;
2)映射关系建模
所述映射关系建模是指模拟大脑对说话人语音信号的编码过程,建立说话人语音信号与脑电信号之间的映射关系模型,所述映射关系模型包括信号编码和信号生成两部分,所述信号编码是采用随机高斯矩阵Φ对预处理后的真实语音信号X1和真实脑电信号X2进行感知观测,即将N×1维的信号在M×N维且M<<N的随机高斯矩阵Φ上进行感知观测,使Y=ΦX,获得M×1维的观测值且观测值Y的维数M远小于原始信号X的维数N,得到压缩比为M/N的远小于原始信号维度的语音信号的观测值Y1和脑电信号的观测值Y2,其中,脑电信号的观测值Y2是通过设置多个随机高斯矩阵Φ对脑电信号进行多次观测采样,得到相同脑电信号的多个观测值Y2;即通过设置a个不同的随机高斯矩阵Φ、a≥2,使得一个脑电信号有a个观测值,通过对b个相同脑电信号进行感知观测、b≥2,得到b×a个观测值,其中,这些相同脑电信号包括不同听者在听到相同语音时所诱发的脑电信号;所述信号生成是根据语音信号的观测值生成脑电信号的观测值,采用生成对抗网络作为信号生成的基本模型,训练语音信号的观测值Y1与脑电信号的观测值Y2之间的映射关系,将语音信号的观测值Y1作为生成对抗网络的输入,将脑电信号的观测值Y2作为生成对抗网络的目标数据,训练生成对抗网络,直到能够生成与真实脑电信号观测值具有相同分布的新的观测值,将训练好的生成对抗网络与信号编码相结合作为语音信号和脑电信号的映射关系模型,建立语音信号和脑电信号之间的映射关系;
3)脑电信号预测
所述脑电信号预测是指对说话人语音信号诱发的听者脑电信号的预测,其过程首先是根据步骤2)所构建的映射关系模型,输入预处理后的说话人语音信号,经过映射关系模型的信号编码和信号生成两个过程,得到语音信号的生成脑电信号的观测值Y2’,然后再对生成脑电信号的观测值Y2’进行重构,得到重构脑电信号,该重构脑电信号即为说话人语音信号诱发的听者脑电预测信号X2'。
进一步地,所述选择有效的电极导联是指在选择大脑头皮表面的六个脑区域中各选取2个导联通道,即左额中央区:FC1,FC3;左中央区:C1,C3;左中央顶区:CP1,CP3;右额中央区:FC2,FC4;右中央区:C2,C4;右中央顶区:CP2,CP4,共12个导联作为有效电极。
进一步地,所述生成对抗网络由生成网络G和判别网络D组成,在训练过程中,生成网络G的输入是语音信号的观测值Y1,判别网络D的目标数据为真实的听者脑电信号的观测值Y2,通过判别网络D的不断拒绝,将语音信号的训练样本训练成与真实脑电信号具有相同分布的新的脑电信号。
进一步地,所述生成脑电信号的观测值Y2’是根据所构建的映射关系模型,使用所构建的生成网络G来生成说话人语音信号诱发的听者的脑电信号的观测值,即生成脑电信号的观测值Y2’。
进一步地,所述对生成脑电信号的观测值Y2’进行重构是指采用OMP信号重构方法对脑电信号进行恢复,得到说话人语音信号诱发的听者脑电预测信号X2'。
本发明的有益效果是:
1、不同于线性回归模型的脑电预测方法,本发明采用的映射关系建模方法更适用于脑电这种非线性信号的分析与处理,通过该方法,所预测的脑电信号更接近真实情况下语音信号所诱发出的脑电信号。
2、本发明通过设置多个高斯随机矩阵,可得到不同听者在听到相同诱发语音时的多个脑电信号的观测值,由于该观测值是本发明中生成对抗网络的目标数据,因此采用本发明可解决小样本数据的模型训练问题。
3、通过预测说话人语音诱发的听者脑电信号,可以进一步预测听者的脑电信号特征,模拟人脑的认知结果,为单模态的语音信号提供脑认知信息,且本发明所提出的方法,不仅可以预测语音诱发的脑电信号,还可更改输入数据,用于预测基于视觉诱发的脑电信号。
附图说明
图1是本发明脑区域的有效电极示意图;
图2是本发明实验方法及过程图。
具体实施方式
下面结合附图和实施例对本发明进行详细描述。
本实施例中的一种基于说话人语音诱发的脑电信号预测方法,其具体步骤为:
1)信号的预处理
采用64导的脑电设备采集说话人语音诱发的听者脑电信号,并对说话人语音信号及说话人语音信号所诱发的听者脑电信号进行预处理,所述说话人语音信号的预处理是指对说话人语音信号进行时长规整和分帧处理,得到处理后的真实语音信号X1,所述时长规整是将不同时长的语音数据设置成固定时长的语音数据便于信号的分帧处理;所述听者脑电信号的预处理是指对听者脑电信号进行滤波、去伪迹、基线校正以及数据整合,得到处理后的真实脑电信号X2,首先采用傅里叶变换对脑电信号进行0.5-30Hz的滤波处理,接着去除眼电、心电和坏的导联信号以及无效脑电信号,同时提取与说话人语音信号相对应的听者脑电信号,然后再从听者脑电信号中选择有效的电极导联数据作为目标脑电信号,最后对目标脑电信号进行时长规整和分帧处理,该操作与说话人语音信号的时长规整和分帧处理相同。
在整合脑电数据过程中,由于一条语音会映射多个参与者的脑电数据,且每个参与者的脑电信号都是多通道的脑电信号,因此需要对多被试和多通道脑电数据进行整合,此外,由于多通道脑电信号之间具有相似性,且在采集过程中有些导联通道的信号干扰较大无法使用,因此在前额区(左/右)、中央区(左/右)、顶区(左/右)6个脑区中各选取2个导联通道,即:左额中央区(LFC):FC1,FC3;左中央区(LC):C1,C3;左中央顶区(LP):CP1,CP3;右额中央区(RF):FC2,FC4;右中央区(RC):C2,C4;右中央顶区(RP):CP2,CP4,如图1所示,共12个导联作为有效电极。
2)映射关系建模
所述映射关系建模是指模拟大脑对说话人语音信号的编码过程,建立说话人语音信号与脑电信号之间的映射关系模型,所述映射关系模型包括信号编码和信号生成两部分。
所述信号编码是采用随机高斯矩阵Φ对预处理后的真实语音信号X1和真实脑电信号X2进行感知观测,即将N×1维的信号在M×N维且M<<N的随机高斯矩阵Φ上进行感知观测,使Y=ΦX,获得M×1维的观测值且观测值Y的维数M远小于原始信号X的维数N,得到压缩比为M/N的远小于原始信号维度的语音信号的观测值Y1和脑电信号的观测值Y2,其中,脑电信号的观测值Y2是通过设置多个随机高斯矩阵Φ对脑电信号进行多次观测采样,得到相同脑电信号的多个观测值Y2,即通过设置a(a≥2)个不同的随机高斯矩阵Φ,使得一个脑电信号有a个观测值,通过对b(b≥2)个相同脑电信号进行感知观测,得到b×a个观测值,其中,这些相同脑电信号包括不同听者在听到相同语音时所诱发的脑电信号。
所述信号生成是根据语音信号的观测值生成脑电信号的观测值,采用生成对抗网络作为信号生成的基本模型,训练语音信号的观测值Y1与脑电信号的观测值Y2之间的映射关系,将语音信号的观测值Y1作为生成对抗网络的输入,将脑电信号的观测值Y2作为生成对抗网络的目标数据,训练生成对抗网络,直到能够生成与真实脑电信号观测值具有相同分布的新的观测值,根据Y2=ΦX2,通过设置a(a≥2)个不同的随机高斯矩阵Φ,使得观测值Y2数量被扩大了a倍,进而扩充了生成对抗网络的目标数据数量,解决了生成对抗网络样本数量少问题。所述生成对抗网络由生成网络G和判别网络D组成,在训练过程中,生成网络G的输入是语音信号的观测值Y1,判别网络D的目标数据为真实的听者脑电信号的观测值Y2,通过判别网络D的不断拒绝,将语音信号的训练样本训练成与真实脑电信号具有相同分布的新的脑电信号。
训练好的生成对抗网络与信号编码相结合即为语音信号和脑电信号的映射关系模型。
3)脑电信号预测
所述脑电信号预测是指对说话人语音信号诱发的听者脑电信号的预测,其过程首先是根据步骤2)所构建的映射关系模型,输入预处理后的说话人语音信号,经过映射关系模型的信号编码和信号生成两个过程,得到语音信号的生成脑电信号的观测值Y2’,然后再对生成脑电信号的观测值Y2’进行重构,得到重构脑电信号,该重构脑电信号即为说话人语音信号诱发的听者脑电预测信号X2’。具体步骤是:采用随机高斯矩阵Ф对说话人的语音信号进行观测,得到说话人的语音信号的观测值Y1,根据所构建的映射关系模型,通过给定生成网络G,输出生成的说话人语音诱发的听者脑电信号观测值,该观测值即为生成脑电信号的观测值Y2’,在对生成脑电信号的观测值Y2’进行重构时,若听者脑电预测信号X2’在稀疏矩阵Ψ下的稀疏值为θ,那么根据Y2’=ФX2’=ФΨθ=ACSθ,由于感知矩阵ACS=ФΨ为已知矩阵,稀疏矩阵Ψ为已知的DCT矩阵,根据X2’=Ψθ,则可采用压缩感知理论中的OMP信号重构方法,通过求解稀疏值θ,就可重构说话人语音诱发的听者脑电预测信号X2’,本发明采用的OMP算法是一种正交匹配追踪算法,它是以贪婪迭代的方式选择θ中的每个元素,每次选择的元素都是与当前ACS的相关程度最大,并通过最小二乘法来得到原始信号的系数逼近,最终求解出生成脑电信号的观测值Y2’下的听者脑电预测信号X2’,即预测出说话人语音诱发下的听者脑电信号。
Claims (5)
1.一种基于说话人语音诱发的脑电信号预测方法,其特征在于,具体步骤为:
1)信号的预处理
采集说话人语音诱发的听者脑电信号,并对说话人语音信号及说话人语音信号所诱发的听者脑电信号进行预处理,所述说话人语音信号的预处理是指对说话人语音信号进行时长规整和分帧处理,得到处理后的真实语音信号X1,所述时长规整是将不同时长的语音数据设置成固定时长的语音数据便于信号的分帧处理;所述听者脑电信号的预处理是指对听者脑电信号进行滤波、去伪迹、基线校正以及数据整合,得到处理后的真实脑电信号X2,所述滤波是采用傅里叶变换对脑电信号进行0.5-30Hz的滤波处理,所述去伪迹是去除眼电、心电和坏的导联信号以及无效脑电信号,所述数据整合是首先提取与说话人语音信号相对应的听者脑电信号,然后再从听者脑电信号中选择有效的电极导联数据作为目标脑电信号,最后对目标脑电信号进行时长规整和分帧处理,该操作与说话人语音信号的时长规整和分帧处理相同;
2)映射关系建模
所述映射关系建模是指模拟大脑对说话人语音信号的编码过程,建立说话人语音信号与脑电信号之间的映射关系模型,所述映射关系模型包括信号编码和信号生成两部分,所述信号编码是采用随机高斯矩阵Φ对预处理后的真实语音信号X1和真实脑电信号X2进行感知观测,即将N×1维的信号在M×N维且M<<N的随机高斯矩阵Φ上进行感知观测,使Y=ΦX,获得M×1维的观测值且观测值Y的维数M远小于原始信号X的维数N,得到压缩比为M/N的远小于原始信号维度的语音信号的观测值Y1和脑电信号的观测值Y2,其中,脑电信号的观测值Y2是通过设置多个随机高斯矩阵Φ对脑电信号进行多次观测采样,得到相同脑电信号的多个观测值Y2;即通过设置a个不同的随机高斯矩阵Φ、a≥2,使得一个脑电信号有a个观测值,通过对b个相同脑电信号进行感知观测、b≥2,得到b×a个观测值,其中,这些相同脑电信号包括不同听者在听到相同语音时所诱发的脑电信号;所述信号生成是根据语音信号的观测值生成脑电信号的观测值,采用生成对抗网络作为信号生成的基本模型,训练语音信号的观测值Y1与脑电信号的观测值Y2之间的映射关系,将语音信号的观测值Y1作为生成对抗网络的输入,将脑电信号的观测值Y2作为生成对抗网络的目标数据,训练生成对抗网络,直到能够生成与真实脑电信号观测值具有相同分布的新的观测值,将训练好的生成对抗网络与信号编码相结合作为语音信号和脑电信号的映射关系模型,建立语音信号和脑电信号之间的映射关系;
3)脑电信号预测
所述脑电信号预测是指对说话人语音信号诱发的听者脑电信号的预测,其过程首先是根据步骤2)所构建的映射关系模型,输入预处理后的说话人语音信号,经过映射关系模型的信号编码和信号生成两个过程,得到语音信号的生成脑电信号的观测值Y2’,然后再对生成脑电信号的观测值Y2’进行重构,得到重构脑电信号,该重构脑电信号即为说话人语音信号诱发的听者脑电预测信号X2’。
2.根据权利要求1所述的一种基于说话人语音诱发的脑电信号预测方法,其特征在于:所述选择有效的电极导联是指在选择大脑头皮表面的六个脑区域中各选取2个导联通道,即左额中央区:FC1,FC3;左中央区:C1,C3;左中央顶区:CP1,CP3;右额中央区:FC2,FC4;右中央区:C2,C4;右中央顶区:CP2,CP4,共12个导联作为有效电极。
3.根据权利要求1所述的一种基于说话人语音诱发的脑电信号预测方法,其特征在于:所述生成对抗网络由生成网络G和判别网络D组成,在训练过程中,生成网络G的输入是语音信号的观测值Y1,判别网络D的目标数据为真实的听者脑电信号的观测值Y2,通过判别网络D的不断拒绝,将语音信号的训练样本训练成与真实脑电信号具有相同分布的新的脑电信号。
4.根据权利要求1所述的一种基于说话人语音诱发的脑电信号预测方法,其特征在于:所述生成脑电信号的观测值Y2’是根据所构建的映射关系模型,使用所构建的生成网络G来生成说话人语音信号诱发的听者的脑电信号的观测值,即生成脑电信号的观测值Y2’。
5.根据权利要求1所述的一种基于说话人语音诱发的脑电信号预测方法,其特征在于:所述对生成脑电信号的观测值Y2’进行重构是指采用OMP信号重构方法对脑电信号进行恢复,得到说话人语音信号诱发的听者脑电预测信号X2’。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211256932.3A CN115620751A (zh) | 2022-10-14 | 2022-10-14 | 一种基于说话人语音诱发的脑电信号预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211256932.3A CN115620751A (zh) | 2022-10-14 | 2022-10-14 | 一种基于说话人语音诱发的脑电信号预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115620751A true CN115620751A (zh) | 2023-01-17 |
Family
ID=84863346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211256932.3A Pending CN115620751A (zh) | 2022-10-14 | 2022-10-14 | 一种基于说话人语音诱发的脑电信号预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620751A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116364096A (zh) * | 2023-03-09 | 2023-06-30 | 浙江大学 | 一种基于生成对抗网络的脑电信号语音解码方法 |
-
2022
- 2022-10-14 CN CN202211256932.3A patent/CN115620751A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116364096A (zh) * | 2023-03-09 | 2023-06-30 | 浙江大学 | 一种基于生成对抗网络的脑电信号语音解码方法 |
CN116364096B (zh) * | 2023-03-09 | 2023-11-28 | 浙江大学 | 一种基于生成对抗网络的脑电信号语音解码方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107024987B (zh) | 一种基于eeg的实时人脑注意力测试和训练系统 | |
CN109199414B (zh) | 一种基于脑电信号的视听诱发情绪识别方法及系统 | |
CN110353702A (zh) | 一种基于浅层卷积神经网络的情感识别方法及系统 | |
CN114533086B (zh) | 一种基于空域特征时频变换的运动想象脑电解码方法 | |
CN105956624A (zh) | 基于空时频优化特征稀疏表示的运动想象脑电分类方法 | |
CN103412646A (zh) | 基于脑机交互的音乐情绪化推荐方法 | |
CN111184509A (zh) | 一种基于传递熵的情绪诱导脑电信号分类方法 | |
CN112488002B (zh) | 基于n170的情绪识别方法及识别系统 | |
CN110135285A (zh) | 一种使用单导设备的脑电静息态身份认证方法及装置 | |
CN108958486A (zh) | 基于人脸识别脑电n170成分的情绪脑机接口系统 | |
CN113208593A (zh) | 基于相关性动态融合的多模态生理信号情绪分类方法 | |
CN115620751A (zh) | 一种基于说话人语音诱发的脑电信号预测方法 | |
CN114699078A (zh) | 一种基于少量通道eeg信号的情绪识别方法及系统 | |
CN113178195B (zh) | 一种基于声音诱发脑电信号的说话人识别方法 | |
CN106843509B (zh) | 一种脑机接口系统 | |
Li et al. | Esaa: An Eeg-Speech Auditory Attention Detection Database | |
CN113208632A (zh) | 一种基于卷积神经网络的注意力检测方法、系统 | |
CN115414050A (zh) | 一种实现情绪识别的eeg脑网络最大团检测方法及系统 | |
Hui et al. | Riemannian Geometric Instance Filtering for Transfer Learning in Brain-Computer Interfaces | |
CN116531001A (zh) | 一种多听者脑电信号生成及跨听者情感识别的方法及设备 | |
CN116392145A (zh) | 一种单通道脑电信号中眨眼伪影的去除方法 | |
CN111904415B (zh) | 一种基于脑电信号评估大脑左右半球信息交互强度的方法 | |
Xu et al. | An End-to-End EEG Channel Selection Method with Residual Gumbel Softmax for Brain-Assisted Speech Enhancement | |
CN114897071A (zh) | 基于单通道脑电的身份识别方法及装置 | |
CN113558637A (zh) | 一种基于相位传递熵的音乐感知下脑网络构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |