CN117373492B

CN117373492B - 一种基于深度学习的精神分裂症语音检测方法及系统

Info

Publication number: CN117373492B
Application number: CN202311680752.2A
Authority: CN
Inventors: 赵玉丽; 梁伟业; 杨敬铭; 范宁; 赵文暄
Original assignee: Beijing Huilongguan Hospital (beijing Psychological Crisis Research And Intervention Center)
Current assignee: Beijing Huilongguan Hospital (beijing Psychological Crisis Research And Intervention Center)
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-02-23
Anticipated expiration: 2043-12-08
Also published as: CN117373492A

Abstract

本发明公开了一种基于深度学习的精神分裂症语音检测方法及系统，涉及个人健康风险评估技术领域，所述方法包括：获取受试者人群的认知测试语音样本，集成希尔伯特黄变换和倒谱内插方法提取语音样本的声学特征参数集，声学特征参数集包括音质情感变化特征；构建声学特征参数集的语音向量，根据语音向量训练多尺度多头精神分裂症语音检测模型，其中，语音向量包括音节、音素、音位以及语素单元的隐含状态序列；利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测，输出受检者的人群类别。本发明集成希尔伯特黄变换和倒谱内插方法提取声学特征，利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测。

Description

一种基于深度学习的精神分裂症语音检测方法及系统

技术领域

本发明涉及个人健康风险评估技术领域，具体涉及一种基于深度学习的精神分裂症语音检测方法及系统。

背景技术

精神分裂症是一种慢性神经退化性障碍，具有复发率高、致残率高等特点，常伴随患者终生，严重损害了患者的生活质量和社会认知，其主要临床表现包含幻听、妄想、言语(思维)紊乱、行为异常、阴性症状(如语言贫乏、情感淡漠等)。若能在精神症状发作的早期采取合理有效的自动检测手段，及时加以干预治疗，将有助于改善患者的病况。

目前精神分裂症的临床诊断和监测评估的方法主要有以下几种方式：一是脑影像学方法，通过功能核磁共振(Functional Nuclear Magnetic Resonance，fMRI)诊断脑实质及脑功能的改变，但仪器操作复杂，检测费用高昂，且缺乏客观的生物学标记；二是脑电信号方法，但α波、β波均无特异性，对诊断的价值有限；三是视频分析方法，相比于正常人，精神分裂症患者具有更少的身体运动和更呆滞的面部表情，可以通过分析提取受试者的表情动作特征实现自动检测，但目前的研究瓶颈在于缺乏统一的实验范式，尚处于起步阶段，未达到临床辅助诊断水平；四是基因组学方法，但在基因测序捕捉时仍存在假阳性和假阴性的问题。

研究表明精神分裂症的阴性症状与语音情感表达密切相关，随着大数据、人工智能、语音信号处理算法的飞速发展，将语音情感特征应用于精神分裂症的研究，将为临床诊断精神分裂症提供全新的检测方法。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述全部或至少一部分问题的基于深度学习的精神分裂症语音检测方法及系统。

根据本发明的一个方面，提供了一种基于深度学习的精神分裂症语音检测方法，包括：

获取受试者人群的认知测试语音样本，集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集，其中，所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群，所述声学特征参数集包括音质情感变化特征；

构建所述声学特征参数集的语音向量，根据所述语音向量训练多尺度多头精神分裂症语音检测模型，其中，所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列；

利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测，输出所述受检者的人群类别；

所述集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集包括：

在所述语音向量中加入均值与方差具有相同分布的不同噪声，合成目标语音信号；

计算模态函数中各个IMF分量对应的边际谱的频带能熵比的比值，筛选出包含共振峰的IMF分量，以重构所述语音向量；

利用倒谱内插方法提取多个所述共振峰的声学特征参数集，其中，所述声学特征参数集包括各个共振峰频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度。

更进一步地，对所述多尺度多头精神分裂症语音检测模型的优化函数进行范数优化，所述范数的具体公式为：

其中，…/>为向量参数。

更进一步地，所述优化函数采用RMSProp算法，根据学习率和修正矩阵偏差更新所述RMSProp算法的参数变化量，所述参数变化量更新的具体公式为：

其中，为参数变量量，/>为学习率，/>为超参数，/>为一阶修正偏差，/>为二阶修正偏差。

更进一步地，所述一阶修正偏差的具体公式为：

其中，为一阶系数，s为一阶矩估计，t为时间步长；

所述二阶修正偏差的具体公式为：

其中，为二阶系数，/>为二阶矩估计。

更进一步地，所述多尺度多头精神分裂症语音检测模型的损失函数为：

其中，k为第k个词，K为词的个数，为语音向量中词的序号，/>为序列模型解码器第k个词的概率，/>为前一个词的序号，/>为上下文信息，x为上下文向量特征。

更进一步地，所述多尺度多头精神分裂症语音检测模型中各个卷积网络模块包括一维卷积、门控单元激活和随机失活操作；

所述一维卷积运算的具体公式为：

其中，s(t)为卷积运算结果，u，v为自变量为t的函数，a是累加变量；

所述门控单元激活的具体公式为：

其中，K为当前网络层的输入，F、G为卷积核，为激活函数，b、c为偏置参数。

更进一步地，所述方法还包括：

将所述认知测试语音样本划分为长度为3秒的片段，分别提取所述片段的基因频率、响度、频谱通量、能量以及尖锐度。

更进一步地，在所述根据所述语音向量训练多尺度多头精神分裂症语音检测模型之前，所述方法还包括：

对所述语音向量进行归一化，使用的归一化函数具体为：

其中，、/>分别为语音向量列/>中的最小值及最大值，/>为归一化后的各元素的值。

根据本发明的另一方面，提供了一种基于深度学习的精神分裂症语音检测系统，包括：

语音获取模块，用于获取受试者人群的认知测试语音样本，集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集，其中，所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群，所述声学特征参数集包括音质情感变化特征；

模型训练模块，用于构建所述声学特征参数集的语音向量，根据所述语音向量训练多尺度多头精神分裂症语音检测模型，其中，所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列；

分类检测模块，用于利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测，输出所述受检者的人群类别。

根据本发明提供的方案，获取受试者人群的认知测试语音样本，集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集，其中，所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群，所述声学特征参数集包括音质情感变化特征；构建所述声学特征参数集的语音向量，根据所述语音向量训练多尺度多头精神分裂症语音检测模型，其中，所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列；利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测，输出所述受检者的人群类别。本发明集成希尔伯特黄变换和倒谱内插方法提取声学特征，利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测，为临床诊断精神分裂症提供全新的检测方法。

本发明的技术效果：

（1）通过集成希尔伯特黄变换和倒谱内插方法所提取的声学特征，尤其是针对非稳态与非线性信号，在频域各频率分量的幅度保持不变，不仅去除了干扰噪音，使得声学特征更加突出。

（2）改进多尺度多头精神分裂症语音检测模型的一维卷积运算，有效地缓解模型的过拟合问题，起到正则化的作用，可以和L1正则化、L2正则化和最大范数约束等方法互为补充。

（3）对语音向量进行归一化处理，消除了奇异样本数据导致的不良影响。

（4）对多尺度多头精神分裂症语音检测模型的优化函数进行范数优化，使得到的解更为平滑。

（5）根据学习率和修正矩阵偏差更新RMSProp算法的参数变化量，使得模型的收敛速度更快，可以避免学习率过大或过小的问题。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域谱通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例的基于深度学习的精神分裂症语音检测方法的流程示意图；

图2示出了本发明实施例的基于深度学习的精神分裂症语音检测系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例的基于深度学习的精神分裂症语音检测方法的流程示意图。本方法集成希尔伯特黄变换和倒谱内插方法提取声学特征，利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测。具体地，包括以下步骤：

步骤S101，获取受试者人群的认知测试语音样本，集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集，其中，所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群，所述声学特征参数集包括音质情感变化特征。

本实施例中，受试者包括精神分裂症患者以及正常人，精神分裂症患者包括首发、高危、超高危人群，正常人为正常对照组。受试者自由朗读标准化文本，该标准化文本中包含有音节中的所有元音，通过录音设备对受试者朗读的语音进行采集得到语音样本。由于精神分裂症患者和正常人的元音信号存在共振峰频率分布和波动范围的差异和时变特征，集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集。希尔伯特变换的物理意义是把信号的所有频率分量的相位推迟90度，因此又叫90°移相器，所以原始信号与它的希尔伯特黄变换构成正交副，希尔伯特黄变换将欲分析数据分解为本质模态函数（intrinsic mode functions, IMF），这样的分解流程称为经验模态分解(Empirical ModeDecomposition, EMD)的方法。然后将IMF作希尔伯特转换(Hilbert Transform)，正确地获得资料的瞬时频率，与其他数学转换运算（如傅立叶变换）不同，此方法处理对象针对非稳态与非线性信号。倒谱内插方法的原理为：信号经过功率谱运算并滤波后，成为加权的正弦信号的形式，再经过求对数和功率谱变换，就得到了表示直扩信号存在的脉冲输出，此脉冲的位置表示了该正弦信号的频率，由此可得到PN码周期。如果输入信号不是扩频信号，假设为一正弦信号，则其第一个功率谱变换为一脉冲，经滤波后进入第二次功率谱变换，其输出为幅度很低的三角波输出，因而检测不到其存在。

更进一步地，所述集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集进一步包括：

在所述语音向量中加入均值与方差具有相同分布的不同噪声，合成目标语音信号。例如，在原始的语音向量中加入均值为0、方差为预定值的具有相同分布属性的不同高斯白噪声，合成目标语音信号。

计算模态函数中各个IMF分量对应的边际谱的频带能熵比的比值，筛选出包含共振峰的IMF分量，以重构所述语音向量。

利用倒谱内插方法提取多个所述共振峰的声学特征参数集，其中，所述声学特征参数集包括各个共振峰频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度。例如，提取前m个共振峰的多个共振峰特征参数，对每个共振峰，对于每个共振峰，提取其频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度。该m个共振峰特征参数组成该语音向量的声学特征参数集。

更进一步地，将所述认知测试语音样本划分为长度为3秒的片段，分别提取所述片段的基因频率、响度、频谱通量、能量以及尖锐度。

例如，将认知测试语音样本的长段音频将切分为长度为3秒的片段，分别从时域、频域等角度提取包括基因频率、响度、频谱通量、能量、尖锐度、均方根能量等特征值。

步骤S102，构建所述声学特征参数集的语音向量，根据所述语音向量训练多尺度多头精神分裂症语音检测模型，其中，所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列。

音节一般是由单个元音音素和辅音音素组合而成的语音单位，有时候单个元音音素也可自成音节。音节具有较为明显的感知界限。比如一个汉字对应一个音节，一个假名也对应一个音节。音素是最基本的，最小的语音单位。适用于全体人类语言，并非针对单一特定的语言。（可以认为不同语言的会共享一部分相同的语素）。音位从某种意义上来说是相对于音素更为狭义的概念。音位基于特定的语言，是具有区别意义功能的最小语音单位。（单词或句子的含义的区分，往往会依赖单一的音位的区别），比如在南方一些方言中，前鼻音不分，比如in 和ing。它们表示两个不同的音素，但是在方言中，交流时并不通过in和ing来进行意义的区分，所以这两个韵母是同一个音位。语素是指语言中最小的音义结合体，也就是说一个语言单位必须同时满足三个条件——“最小、有音、有义”才能被称作语素，尤其是“最小”和“有义”。

更进一步地，在所述根据所述语音向量训练多尺度多头精神分裂症语音检测模型之前，对所述语音向量进行归一化，使用的归一化函数具体为：

由于不同评价指标往往具有不同的量纲和量纲单位，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，使得预处理的数据被限定在一定的范围内（比如[0,1]或者[-1,1]），从而消除奇异样本数据导致的不良影响。

计算所述一维卷积的具体公式为：

所述门控单元激活的具体公式为：

例如，卷积神经网络模型包括10个卷积块，每个卷积块均包含3个操作，分别为一维卷积、门控单元激活和随机失活操作。其中，随机失活操作可有效地缓解模型的过拟合问题，起到正则化的作用，可以和L1正则化、L2正则化和最大范数约束等方法互为补充。

其中，…/>为向量参数。对多尺度多头精神分裂症语音检测模型的优化函数进行范数优化，使得到的解更为平滑。

RMSProp算法能够自动调整学习率，使得模型的收敛速度更快，可以避免学习率过大或过小的问题，能够更好地解决学习率调整问题。但在处理稀疏特征时需要调整如学习率等超参数，需要工程师具备一定的调试经验。本实施例中，根据学习率和修正矩阵偏差更新RMSProp算法的参数变化量，可以防止出现分母为0的情况。

更进一步地，所述一阶修正偏差的具体公式为：

其中，为一阶系数，s为一阶矩估计，t为时间步长；

所述二阶修正偏差的具体公式为：

其中，为二阶系数，/>为二阶矩估计。

步骤S103，利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测，输出所述受检者的人群类别。

利用多尺度多头精神分裂症语音检测模型，对精神分裂症首发、高危、超高危和正常对照组四类人群进行分类检测。

Claims

1.一种基于深度学习的精神分裂症语音检测方法，其特征在于，包括：

利用倒谱内插方法提取多个所述共振峰的声学特征参数集，其中，所述声学特征参数集包括各个共振峰频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度；

所述多尺度多头精神分裂症语音检测模型的损失函数为：

；

其中，k为第k个词，K为词的个数，为语音向量中词的序号，/>为序列模型解码器第k个词的概率，/>为前一个词的序号，/>为上下文信息，x为上下文向量特征；

所述多尺度多头精神分裂症语音检测模型中各个卷积网络模块包括一维卷积、门控单元激活和随机失活操作；

计算所述一维卷积的具体公式为：

；

所述门控单元激活的具体公式为：

；

2.根据权利要求1所述的基于深度学习的精神分裂症语音检测方法，其特征在于，对所述多尺度多头精神分裂症语音检测模型的优化函数进行范数优化，所述范数的具体公式为：

；

其中，…/>为向量参数。

3.根据权利要求2所述的基于深度学习的精神分裂症语音检测方法，其特征在于，所述优化函数采用RMSProp算法，根据学习率和修正矩阵偏差更新所述RMSProp算法的参数变化量，所述参数变化量更新的具体公式为：

；

其中，为参数变量，/>为学习率，/>为超参数，/>为一阶修正偏差，/>为二阶修正偏差。

4.根据权利要求3所述的基于深度学习的精神分裂症语音检测方法，其特征在于，所述一阶修正偏差的具体公式为：

；

其中，为一阶系数，s为一阶矩估计，t为时间步长；

所述二阶修正偏差的具体公式为：

；

其中，为二阶系数，/>为二阶矩估计。

5.根据权利要求1所述的基于深度学习的精神分裂症语音检测方法，其特征在于，所述方法还包括：

将所述认知测试语音样本划分为长度为3秒的片段，分别提取所述片段的基音频率、响度、频谱通量、能量以及尖锐度。

6.根据权利要求5所述的基于深度学习的精神分裂症语音检测方法，其特征在于，在所述根据所述语音向量训练多尺度多头精神分裂症语音检测模型之前，所述方法还包括：

对所述语音向量进行归一化，使用的归一化函数具体为：

；

7.一种基于深度学习的精神分裂症语音检测系统，该系统基于如权利要求1-6任一项所述的基于深度学习的精神分裂症语音检测方法，其特征在于，包括：