CN115620751A

CN115620751A - 一种基于说话人语音诱发的脑电信号预测方法

Info

Publication number: CN115620751A
Application number: CN202211256932.3A
Authority: CN
Inventors: 畅江; 李嘉成; 徐丽云; 孟林盛
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-17

Abstract

本发明涉及一种基于说话人语音诱发的脑电信号预测方法。主要解决现有语音诱发方法存在无法在实际情况中采集听者脑电信号的技术问题。本发明包括信号的预处理，映射关系建模和脑电信号预测三个步骤，其中映射关系建模包括信号编码和信号生成两部分，信号编码是采用高斯随机矩阵对说话人语音信号和听者脑电信号进行感知观测，得到对应的观测值，信号生成是采用生成对抗网络为基本模型，将语音信号的观测值作为输入，脑电信号的观测值作为目标，训练生成对抗网络，在脑电信号的预测过程中，将说话人语音作为映射关系模型的输入，生成该说话人语音诱发下的脑电信号的观测值，并对其进行重构，得到重构脑电信号，该脑电信号就是所预测的听者脑电信号。

Description

一种基于说话人语音诱发的脑电信号预测方法

技术领域

本发明属于脑电技术领域，具体涉及一种基于说话人语音诱发的脑电信号预测方法。

背景技术

脑电(EEG)信号是大脑内部神经细胞电生理活动的总体反映，可反映人脑的思维活动，它不受主观因素影响，可有效屏蔽与任务无关的诱发干扰，其识别结果具有较强的稳定性和抗干扰性。脑电信号中包含人脑认知的全部信息，采用脑电信号对事物进行识别，其识别结果就是人脑认知的直接结果。随着AI、人机交互和脑机接口(BCI)技术的显著进步，大脑对外界刺激的编码机制也在不断地被探索，语音作为人与人之间最重要的交流方式，使机器读懂和理解语义和语音中的情感就显得尤为重要，因而，若能将脑电信号与语音信号的分析结果进行融合，则所得的结果也会更符合人脑的认知分析结果。

然而在目前的人机交互应用中，AI智能体虽然可以很容易采集说话者的语音，但却很难及时获取听者的脑电信号，此外，在关于语音诱发的脑电信号研究中，大多研究者都聚焦于如何从脑电信号中解码出语音诱发信号，关于使用何种方法预测语音诱发的脑电信号还并不清晰，目前的技术是采用线性回归模型，但由于线性回归模型无法对大脑的复杂性和动态性进行建模，使得这种技术在实际信号和预测信号之间的相关性很小，因而限制了其适用性。

发明内容

本发明的目的是解决现有语音诱发方法存在无法在实际情况中采集听者脑电信号的技术问题，提供一种基于说话人语音诱发的脑电信号预测方法。通过该方法，不仅可以预测说话人语音诱发的听者的脑电信号，还可为单模态语音提供脑认知特征，有助于解决单模态语音的情感识别问题。

为解决上述技术问题，本发明采用的技术方案是：

一种基于说话人语音诱发的脑电信号预测方法，其具体步骤为：

1)信号的预处理

采集说话人语音诱发的听者脑电信号，并对说话人语音信号及说话人语音信号所诱发的听者脑电信号进行预处理，所述说话人语音信号的预处理是指对说话人语音信号进行时长规整和分帧处理，得到处理后的真实语音信号X₁，所述时长规整是将不同时长的语音数据设置成固定时长的语音数据便于信号的分帧处理；所述听者脑电信号的预处理是指对听者脑电信号进行滤波、去伪迹、基线校正以及数据整合，得到处理后的真实脑电信号X₂，所述滤波是采用傅里叶变换对脑电信号进行0.5-30Hz的滤波处理，所述去伪迹是去除眼电、心电和坏的导联信号以及无效脑电信号，所述数据整合是首先提取与说话人语音信号相对应的听者脑电信号，然后再从听者脑电信号中选择有效的电极导联数据作为目标脑电信号，最后对目标脑电信号进行时长规整和分帧处理，该操作与说话人语音信号的时长规整和分帧处理相同；

2)映射关系建模

所述映射关系建模是指模拟大脑对说话人语音信号的编码过程，建立说话人语音信号与脑电信号之间的映射关系模型，所述映射关系模型包括信号编码和信号生成两部分，所述信号编码是采用随机高斯矩阵Φ对预处理后的真实语音信号X₁和真实脑电信号X₂进行感知观测，即将N×1维的信号

在M×N维且M<<N的随机高斯矩阵Φ上进行感知观测，使Y＝ΦX，获得M×1维的观测值

且观测值Y的维数M远小于原始信号X的维数N，得到压缩比为M/N的远小于原始信号维度的语音信号的观测值Y₁和脑电信号的观测值Y₂，其中，脑电信号的观测值Y₂是通过设置多个随机高斯矩阵Φ对脑电信号进行多次观测采样，得到相同脑电信号的多个观测值Y₂；即通过设置a个不同的随机高斯矩阵Φ、a≥2，使得一个脑电信号有a个观测值，通过对b个相同脑电信号进行感知观测、b≥2，得到b×a个观测值，其中，这些相同脑电信号包括不同听者在听到相同语音时所诱发的脑电信号；所述信号生成是根据语音信号的观测值生成脑电信号的观测值，采用生成对抗网络作为信号生成的基本模型，训练语音信号的观测值Y₁与脑电信号的观测值Y₂之间的映射关系，将语音信号的观测值Y₁作为生成对抗网络的输入，将脑电信号的观测值Y₂作为生成对抗网络的目标数据，训练生成对抗网络，直到能够生成与真实脑电信号观测值具有相同分布的新的观测值，将训练好的生成对抗网络与信号编码相结合作为语音信号和脑电信号的映射关系模型，建立语音信号和脑电信号之间的映射关系；

3)脑电信号预测

所述脑电信号预测是指对说话人语音信号诱发的听者脑电信号的预测，其过程首先是根据步骤2)所构建的映射关系模型，输入预处理后的说话人语音信号，经过映射关系模型的信号编码和信号生成两个过程，得到语音信号的生成脑电信号的观测值Y₂’，然后再对生成脑电信号的观测值Y₂’进行重构，得到重构脑电信号，该重构脑电信号即为说话人语音信号诱发的听者脑电预测信号X₂'。

进一步地，所述选择有效的电极导联是指在选择大脑头皮表面的六个脑区域中各选取2个导联通道，即左额中央区：FC1，FC3；左中央区：C1，C3；左中央顶区：CP1，CP3；右额中央区：FC2，FC4；右中央区：C2，C4；右中央顶区：CP2，CP4，共12个导联作为有效电极。

进一步地，所述生成对抗网络由生成网络G和判别网络D组成，在训练过程中，生成网络G的输入是语音信号的观测值Y₁，判别网络D的目标数据为真实的听者脑电信号的观测值Y₂，通过判别网络D的不断拒绝，将语音信号的训练样本训练成与真实脑电信号具有相同分布的新的脑电信号。

进一步地，所述生成脑电信号的观测值Y₂’是根据所构建的映射关系模型，使用所构建的生成网络G来生成说话人语音信号诱发的听者的脑电信号的观测值，即生成脑电信号的观测值Y₂’。

进一步地，所述对生成脑电信号的观测值Y₂’进行重构是指采用OMP信号重构方法对脑电信号进行恢复，得到说话人语音信号诱发的听者脑电预测信号X₂'。

本发明的有益效果是：

1、不同于线性回归模型的脑电预测方法，本发明采用的映射关系建模方法更适用于脑电这种非线性信号的分析与处理，通过该方法，所预测的脑电信号更接近真实情况下语音信号所诱发出的脑电信号。

2、本发明通过设置多个高斯随机矩阵，可得到不同听者在听到相同诱发语音时的多个脑电信号的观测值，由于该观测值是本发明中生成对抗网络的目标数据，因此采用本发明可解决小样本数据的模型训练问题。

3、通过预测说话人语音诱发的听者脑电信号，可以进一步预测听者的脑电信号特征，模拟人脑的认知结果，为单模态的语音信号提供脑认知信息，且本发明所提出的方法，不仅可以预测语音诱发的脑电信号，还可更改输入数据，用于预测基于视觉诱发的脑电信号。

附图说明

图1是本发明脑区域的有效电极示意图；

图2是本发明实验方法及过程图。

具体实施方式

下面结合附图和实施例对本发明进行详细描述。

本实施例中的一种基于说话人语音诱发的脑电信号预测方法，其具体步骤为：

1)信号的预处理

采用64导的脑电设备采集说话人语音诱发的听者脑电信号，并对说话人语音信号及说话人语音信号所诱发的听者脑电信号进行预处理，所述说话人语音信号的预处理是指对说话人语音信号进行时长规整和分帧处理，得到处理后的真实语音信号X₁，所述时长规整是将不同时长的语音数据设置成固定时长的语音数据便于信号的分帧处理；所述听者脑电信号的预处理是指对听者脑电信号进行滤波、去伪迹、基线校正以及数据整合，得到处理后的真实脑电信号X₂，首先采用傅里叶变换对脑电信号进行0.5-30Hz的滤波处理，接着去除眼电、心电和坏的导联信号以及无效脑电信号，同时提取与说话人语音信号相对应的听者脑电信号，然后再从听者脑电信号中选择有效的电极导联数据作为目标脑电信号，最后对目标脑电信号进行时长规整和分帧处理，该操作与说话人语音信号的时长规整和分帧处理相同。

在整合脑电数据过程中，由于一条语音会映射多个参与者的脑电数据，且每个参与者的脑电信号都是多通道的脑电信号，因此需要对多被试和多通道脑电数据进行整合，此外，由于多通道脑电信号之间具有相似性，且在采集过程中有些导联通道的信号干扰较大无法使用，因此在前额区(左/右)、中央区(左/右)、顶区(左/右)6个脑区中各选取2个导联通道，即：左额中央区(LFC)：FC1，FC3；左中央区(LC)：C1，C3；左中央顶区(LP)：CP1，CP3；右额中央区(RF)：FC2，FC4；右中央区(RC)：C2，C4；右中央顶区(RP)：CP2，CP4，如图1所示，共12个导联作为有效电极。

2)映射关系建模

所述映射关系建模是指模拟大脑对说话人语音信号的编码过程，建立说话人语音信号与脑电信号之间的映射关系模型，所述映射关系模型包括信号编码和信号生成两部分。

所述信号编码是采用随机高斯矩阵Φ对预处理后的真实语音信号X₁和真实脑电信号X₂进行感知观测，即将N×1维的信号

且观测值Y的维数M远小于原始信号X的维数N，得到压缩比为M/N的远小于原始信号维度的语音信号的观测值Y₁和脑电信号的观测值Y₂，其中，脑电信号的观测值Y₂是通过设置多个随机高斯矩阵Φ对脑电信号进行多次观测采样，得到相同脑电信号的多个观测值Y₂，即通过设置a(a≥2)个不同的随机高斯矩阵Φ，使得一个脑电信号有a个观测值，通过对b(b≥2)个相同脑电信号进行感知观测，得到b×a个观测值，其中，这些相同脑电信号包括不同听者在听到相同语音时所诱发的脑电信号。

所述信号生成是根据语音信号的观测值生成脑电信号的观测值，采用生成对抗网络作为信号生成的基本模型，训练语音信号的观测值Y₁与脑电信号的观测值Y₂之间的映射关系，将语音信号的观测值Y₁作为生成对抗网络的输入，将脑电信号的观测值Y₂作为生成对抗网络的目标数据，训练生成对抗网络，直到能够生成与真实脑电信号观测值具有相同分布的新的观测值，根据Y₂＝ΦX₂，通过设置a(a≥2)个不同的随机高斯矩阵Φ，使得观测值Y₂数量被扩大了a倍，进而扩充了生成对抗网络的目标数据数量，解决了生成对抗网络样本数量少问题。所述生成对抗网络由生成网络G和判别网络D组成，在训练过程中，生成网络G的输入是语音信号的观测值Y₁，判别网络D的目标数据为真实的听者脑电信号的观测值Y₂，通过判别网络D的不断拒绝，将语音信号的训练样本训练成与真实脑电信号具有相同分布的新的脑电信号。

训练好的生成对抗网络与信号编码相结合即为语音信号和脑电信号的映射关系模型。

3)脑电信号预测

所述脑电信号预测是指对说话人语音信号诱发的听者脑电信号的预测，其过程首先是根据步骤2)所构建的映射关系模型，输入预处理后的说话人语音信号，经过映射关系模型的信号编码和信号生成两个过程，得到语音信号的生成脑电信号的观测值Y₂’，然后再对生成脑电信号的观测值Y₂’进行重构，得到重构脑电信号，该重构脑电信号即为说话人语音信号诱发的听者脑电预测信号X₂’。具体步骤是：采用随机高斯矩阵Ф对说话人的语音信号进行观测，得到说话人的语音信号的观测值Y₁，根据所构建的映射关系模型，通过给定生成网络G，输出生成的说话人语音诱发的听者脑电信号观测值，该观测值即为生成脑电信号的观测值Y₂’，在对生成脑电信号的观测值Y₂’进行重构时，若听者脑电预测信号X₂’在稀疏矩阵Ψ下的稀疏值为θ，那么根据Y₂’＝ФX₂’＝ФΨθ＝A_CSθ，由于感知矩阵A_CS＝ФΨ为已知矩阵，稀疏矩阵Ψ为已知的DCT矩阵，根据X₂’＝Ψθ，则可采用压缩感知理论中的OMP信号重构方法，通过求解稀疏值θ，就可重构说话人语音诱发的听者脑电预测信号X₂’，本发明采用的OMP算法是一种正交匹配追踪算法，它是以贪婪迭代的方式选择θ中的每个元素，每次选择的元素都是与当前A_CS的相关程度最大，并通过最小二乘法来得到原始信号的系数逼近，最终求解出生成脑电信号的观测值Y₂’下的听者脑电预测信号X₂’，即预测出说话人语音诱发下的听者脑电信号。

Claims

1.一种基于说话人语音诱发的脑电信号预测方法，其特征在于，具体步骤为：

1)信号的预处理

2)映射关系建模

3)脑电信号预测

所述脑电信号预测是指对说话人语音信号诱发的听者脑电信号的预测，其过程首先是根据步骤2)所构建的映射关系模型，输入预处理后的说话人语音信号，经过映射关系模型的信号编码和信号生成两个过程，得到语音信号的生成脑电信号的观测值Y₂’，然后再对生成脑电信号的观测值Y₂’进行重构，得到重构脑电信号，该重构脑电信号即为说话人语音信号诱发的听者脑电预测信号X₂’。

2.根据权利要求1所述的一种基于说话人语音诱发的脑电信号预测方法，其特征在于：所述选择有效的电极导联是指在选择大脑头皮表面的六个脑区域中各选取2个导联通道，即左额中央区：FC1，FC3；左中央区：C1，C3；左中央顶区：CP1，CP3；右额中央区：FC2，FC4；右中央区：C2，C4；右中央顶区：CP2，CP4，共12个导联作为有效电极。

3.根据权利要求1所述的一种基于说话人语音诱发的脑电信号预测方法，其特征在于：所述生成对抗网络由生成网络G和判别网络D组成，在训练过程中，生成网络G的输入是语音信号的观测值Y₁，判别网络D的目标数据为真实的听者脑电信号的观测值Y₂，通过判别网络D的不断拒绝，将语音信号的训练样本训练成与真实脑电信号具有相同分布的新的脑电信号。

4.根据权利要求1所述的一种基于说话人语音诱发的脑电信号预测方法，其特征在于：所述生成脑电信号的观测值Y₂’是根据所构建的映射关系模型，使用所构建的生成网络G来生成说话人语音信号诱发的听者的脑电信号的观测值，即生成脑电信号的观测值Y₂’。

5.根据权利要求1所述的一种基于说话人语音诱发的脑电信号预测方法，其特征在于：所述对生成脑电信号的观测值Y₂’进行重构是指采用OMP信号重构方法对脑电信号进行恢复，得到说话人语音信号诱发的听者脑电预测信号X₂’。