CN114403878A

CN114403878A - 一种基于深度学习的语音检测疲劳度方法

Info

Publication number: CN114403878A
Application number: CN202210070557.7A
Authority: CN
Inventors: 陈枢茜; 孙溢洋
Original assignee: Nantong Institute of Technology
Current assignee: Nantong Institute of Technology
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-29
Anticipated expiration: 2042-01-20
Also published as: CN114403878B

Abstract

本发明公开了基于深度学习的语音检测疲劳度方法，包括：一、采集运动受试者的语料，建立存储语料的语料库；二、进行疲劳等级划分并对语料库中的语料进行加工标记；三、对所选语料进行数据预处理；四、提取语料库中语料的多个声学特征参数；五、建立BLSTM神经网络模型，进行训练得到疲劳分析模型；同时建立分段分析模型确定分段修正值；六、对待检测的使用者进行语料采集，对得到的语料进行预处理和特征提取；七、将上一步得到的多种声学特征参数输入分析模型输出使用者当前的疲劳等级。本方法未考虑身体机能在运动过程中存在的变化对检测对象的语音回应造成的影响，对声学特征参数综合分析的结果更加可靠准确。

Description

一种基于深度学习的语音检测疲劳度方法

技术领域

本发明涉及汽车智能控制技术领域，具体一种基于深度学习的语音检测疲劳度方法。

背景技术

运动疲劳检测技术在运动训练中具有重要作用，有助于提高运动疲劳检测的科学有效性。目前，学术界的疲劳检测方法可分为主观检测和客观检测两方面。主观疲劳测试方法主要基于主观感知评估疲劳，如主观问卷、斯坦福睡眠量表和睡眠习惯问卷。客观检测方法主要利用仪器设备检测人体的心理、生理和生化指标。具体而言，第一，检测运动员的生理信号，包括表面肌电信号、脑电信号、心电信号以及脉搏等。第二，检测运动员的生化指标，如分析、研究血睾酮、血红蛋白以及皮质醇等指标的变化情况。第三，检测运动员的运动学动力指标，如测试运动员处于某一运动疲劳状态时的平衡能力等。上述方法可以在一定程度上测量疲劳度等级，但实际运用中存在一定的不可操作性。主观检测方法常因受试者或研究者的主观因素而变化。客观检测方法无法实现实时检测，且带有一定的侵入性，会令使用者产生抵触情绪。

为了改善上述疲劳度检测的局限性，本文提出了基于语音分析的疲劳度检测研究。通过语音传递信息是人类最重要、最有效、最常用的信息交换途径。语音中包含的丰富语音内容及情感信息，可避免上述方法中存在的各种问题，引起了学术界的广泛关注，并尝试性应用于疲劳度检测研究。2006年，美国新罕布什尔大学Greeley HP等人提出了一种基于语音识别系统的疲劳度检测方法，提出梅尔频率倒谱系数可以用于描述疲劳特征。2008年，德国Jarek Kraiewskil等人提出了一种基于语音信号的人机互动检测疲劳的声学框架，探索了人在精力集中和困倦时谐音噪声比的差别，其中元音/a：/的识别率达83.3％。2017年，shuxi chen提出了基于语音分析的疲劳度检测研究，提取了语音信号的传统特征参数，并利用SVM及迁移学习算法对语音疲劳度进行分类，其平均识别率在85％左右。

但目前的现有技术对于声学特征的分析多数只考虑了单一声学特征，过程中只是对语音数据预处理后进行特征提取，再直接对提取的单一特征进行分类识别(如图1)，单一特征只能体现一个方面的特点，判断结果的准确性仍需要进一步提高，而现有技术对多种声学特征的综合分析有所欠缺，并且较少考虑身体机能在运动过程中存在的变化对检测对象的语音回应的影响，在分析判断时准确性不足。

发明内容

本发明的目的是提供一种基于深度学习的语音检测疲劳度方法，用于解决现有技术中对多种声学特征的综合分析有所欠缺的技术问题，且并未考虑身体机能在运动过程中存在的变化对检测对象的语音回应造成的影响。

所述的基于深度学习的语音检测疲劳度方法，包括下列步骤：

一、采集运动受试者在运动过程中不同时间的语料，建立存储语料的语料库，其中要有足量的受试者完成从运动开始到运动的稳定状态结束这一身体机能状态变化的完整过程；

二、进行疲劳等级划分并对语料库中的语料进行加工标记，所述标记中的信息包括采集时间和疲劳等级；

三、对所选语料进行数据预处理；

四、提取语料库中语料的多个声学特征参数，声学特征参数包括MFCC和喘息段时长；

五、建立BLSTM神经网络模型，利用提取的声学特征参数对其进行训练得到疲劳分析模型；同时建立分段分析模型用于根据喘息段时长数据的变化规律对运动过程中运动者的身体机能状态进行分段，并根据分段对疲劳分析模型进行修正；

六、对待检测的使用者进行语料采集，对得到的语料进行预处理和特征提取；

七、将上一步得到的多种声学特征参数输入分析模型输出使用者当前的疲劳等级，进行分析时，首先将喘息段时长作为输入，通过分段分析模型确定身体机能状态，再依据身体机能状态确定分段修正值，最后将多种声学特征参数输入疲劳分析模型获得最终的疲劳等级。

优选的，步骤五中，身体机能状态的阶段包括极点前、极点状态、稳定状态和稳定状态后，据此对相应状态下的声学特征参数与疲劳度之间的关系进行分段分析；对于不同强度的运动，在稳定状态中分为真稳定状态和假稳定状态分别进行分析。

优选的，所述BLSTM神经网络模型采用引入注意力机制的BLSTM神经网络对语音段进行深度学习后利用softmax函数进行分类；对于每个时刻的输入x_t，都会有两个相反方向的LSTM与其连接，当前时刻的输出为两个LSTM的组合；

一般的记忆单元包含三个门结构：遗忘门、输入门和输出门，LSTM能够通过三个门结构确定输入信息的保留和丢弃，实现输入信息的循环更新；

输入序列x_t经过遗忘门的作用决定保留和忘记信息，信息的保留和忘记通过一个sigmoid函数来判断，若sigmoid值为0，则丢弃全部信息；若为1，则保留所有信息，其计算公式如下：

f_t＝σ(W_f[x_t，h_t-1]+b_f) (1)

其中，x_t是t时刻的输入，f_t表示遗忘门在t时刻的输出，σ表示sigmoid函数，W_f表示遗忘门的权重，b_f为偏置；

输入门的计算公式为：

i_t＝σ(W_i[x_th_t-1]+b_i) (2)

g_t＝tanh(W_g[x_t，h_t-1]+b_g) (3)

其中，i_t为t时刻的输出，能够确定更新的信息，g_t为候选细胞信息；

输出门确定输出信息，通过sigmoid函数确定将哪些信息输出，计算公式为：

o_t＝σ(W_o[x_t，h_t-1]+b_o) (4)

细胞状态c_t经过tanh函数作用后的输出和输出门的输出的Hadamard乘积为隐藏层在t时刻的输出h_t，计算公式为：

c_t＝f_t⊙c_t-1+i_t⊙g_t (5)

h_t＝o_t⊙tanh(c_t) (6)

其中，⊙表示Hadamard乘积；

BLSTM的计算公式如下：

h_t＝o_t⊙tanh(f_t⊙c_t-1+i_t⊙g_t) (7)

h′_t＝o′_t⊙tanh(f′_t⊙v′_t+1+i′_t⊙g′_t) (8)

公式中的h_t和h′_t分别表示正向和反向LSTM的隐藏层输出。

优选的，所述声学特征参数还包括语音段短时平均能量、语音段短时平均过零率、语音段语速、回答反应时长和基频，其中MFCC、语速、喘息段时长这些特征会被Attention机制分配更多的权重来加深模型记忆；

O_t为BLSTM网络输出的第t个特征向量，将其输入注意力机制隐藏层得到初始状态向量s_t，而后与权重系数α_t对应相乘并累加求和得到最终输出的状态向量Y，计算公式如下：

e_t＝tanh(w_ts_t+b_t) (9)

式中：e_t表示第t个特征向量的状态向量s_t所确定的能量值；w_t表示第t个特征向量的权重系数矩阵；b_t表示第t个特征向量相对应的偏移量，根据式(10)可以实现由输入初始状态到新的注意力状态的转换，之后通过式(11)得到最终输出的状态向量Y，最后将Y与Dense层整合在一起作为一个输出值输入到最后的输出层；

输出层的输入为隐含层中Attention机制层的输出，利用多分类Softmax函数对输出层的输入进行相应计算从而得出疲劳度分类，具体公式为：

y_k＝softmax(w₁Y+b₁) (12)

其中：w₁表示Attention机制层到输出层需要训练的权重系数矩阵；b₁表示需要训练的对应偏置；y_k为输出层的输出预测标签。

优选的，步骤五中，从语料库中随机选择80％的样本作为训练集，将提取好的声学特征参数输入BLSTM网络进行训练，然后输入Softmax分类器进行语音疲劳度检测。

优选的，步骤二中，所述标记中的信息还包括语料种类编号、受试者编号和受试者年龄，受试者编号能表示受试者性别。

优选的，步骤一包含前期建立SUSP-SFD运动疲劳语料库，采用双声道录制，采样频率为48kHz，选取人数相等的男性和女性受试者，均为30人，每位受试者录制4～7条与运动疲劳相关的语料。

本发明具有以下优点：本方案通过深度学习确定喘息段时长的变化规律与身体机能状态之间的关系，实现对身体机能状态的分段，对相应状态下的声学特征参数与疲劳度之间的关系进行分段分析。并在训练中对不同强度的运动和运动者的性别进行了区分，因此得到的分析模型能避免忽视身体机能在运动过程中存在的变化对检测对象的语音回应造成的问题。

本方案利用BLSTM进行语音疲劳度检测，输入参数包括MFCC和喘息段时长在内的多种声学特征参数，能从多方面对运动者的疲劳程度进行综合分析。基于语音分析的疲劳度检测属于非接触式的疲劳度检测，可以降低受试者的抵触心理，具有一定的可推广性。其中，运动过程的语音回应更多受呼吸急促影响，语音容易出现不连贯现象，采用MFCC作为输入，能针对这种差异更好地提高神经网络模型的判定准确性。本方案可用于检测健身疲劳、训练疲劳、车间作业疲劳检测等多个场景。

本方案在对多种声学特征参数进行分析时，还采用了注意力机制设置不同输入参数的权重，其中MFCC、语速、喘息段时长等特征会被Attention机制分配更多的权重来加深模型记忆，能更好的适应运动疲劳中语音回应的特点，确定疲劳值更加准确。结合分段分析对不同身体机能状态下的修正值，能更准确地判断运动者实际的疲劳状态。

附图说明

图1为现有技术中通过语音信息检测疲劳度的基本流程图。

图2为LSTM的网络结构的原理图。

图3为LSTM的记忆单元的原理图。

图4为本发明一种基于深度学习的语音检测疲劳度方法中BLSTM的网络结构的原理图。

图5为Attention机制模型的原理图。

图6为本发明中语音疲劳度检测的语料库录制过程的流程图。

图7为本发明中多种声学特征参数进行疲劳分析过程的流程图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和伸入的理解。

如图2-7所示，本发明提供一种基于深度学习的语音检测疲劳度方法，包括下列步骤：

一、采集运动受试者在运动过程中不同时间的语料，建立存储语料的语料库。

考虑到原始语音信号质量对该系统识别性能的影响，同时，学术界缺乏专用的运动疲劳检测语料库。因此，本方法前期工作包含前期建立SUSP-SFD运动疲劳语料库，采用双声道录制，采样频率为48kHz。选取人数相等的男性和女性受试者，均为30人，每位受试者录制4～7条与运动疲劳相关的语料，语料采集存储到新建的语料库中。其中要有足量的受试者完成从运动开始到运动的稳定状态结束这一身体机能状态变化的完整过程，而语料的采集及语料库的建立流程如图6所示。

二、进行疲劳等级划分并对语料库中的语料进行加工标记。

如表1，对疲劳等级的划分如下：参照疲劳度量表(主观运动强度等级(RPE)量表，如表1)将受试者持续的疲劳感知人为划分为4个疲劳度等级，RPE量表在1970年由瑞士心理学家B.Gunner提出，他以“心率值＝10×RPE值”的设想创造了RPE6-20量表。研究中通过递增运动负荷的测试实现了RPE和运动强度之间的标记，并得出结论：运动强度增加时RPE也随之增加。因此，理论上RPE量表可以很好地反映运动过程中机体的自我感知与运动强度之间的关系。本方法在语音录制后对语料根据自我感知划分到不疲劳状态、稍疲劳状态、疲劳状态以及精疲力竭状态下，结合其他语料信息建立标签并与该语料对应，创建运动疲劳语料库依据标签分类存储语料。

表1主观运动强度等级(RPE)量表

疲劳等级	疲劳水平
		L1	不疲劳
L2	稍疲劳
		L3	疲劳
L4	精疲力竭

对语料库中的语料进行标记，所述标记中的信息包括语料种类编号、受试者编号、受试者年龄、采集时间和疲劳等级，受试者编号能表示受试者性别，如表2。

表2语料库中语料标注规则

三、对所选语料进行数据预处理。这一阶段是指对原始数据进行处理，使处理后的数据满足分类算法的输入要求。预处理技术主要包括两个方面：一是去噪，由于原始信号中存在的噪声会遮盖语音段的重要信息，干扰最终的分类，因此在对语音段进行深度分析之前，需要将原始信号中存在的噪声去除，目前流行的去噪方法主要有基于小波变换的方法、基于滤波器的方法和基于阈值的方法等，本文主要采用基于阈值的方法对语音段进行去噪处理；二是得到平稳的语音帧序列，初始的模拟语音信号不能被计算机所处理，故经过预滤波、采样(采样周期依据奈奎斯特定理，避免造成信号的频域混叠失真)、A/D转换等过程将其转换为数字信号后，再通过对高频部分进行预加重，去除口唇辐射的影响，以此增加语音的高频分辨率，最后考虑到短时平稳特性，通过加窗分帧将数字语音分成便于计算机处理的准平稳的语音帧序列。

四、提取语料库中语料的声学特征参数，声学特征参数包括语音段短时平均能量、语音段短时平均过零率、语音段语速、回答反应时长、基频、梅尔频率倒谱系数(MFCC)和喘息段时长。

语音处理的第一步就是提取语音中包含的有效信息，如此才能对语音信息进行后续处理分析，达到识别的目的。对语音信息进行预处理后就能提取声学特征参数。如表3，声学特征参数包括：(1)短时平均能量。短时平均能量是每一帧语音信号的能量平均值。人体在各种疲劳状态下，音量大小往往有差异性，随着疲劳的逐渐加深，人体会因负荷过重而降低音量。(2)短期平均过零率。短期平均过零率指信号在每帧中通过零值的次数，在一定程度上是信号频率信息的反馈。(3)语音段平均语速。语速是语音信号的韵律特征，是构成语音节奏的基础。许多研究表明，语速变化是语音表达情感的一个重要手段。(4)基频。一般的声音由发音体发出的一系列不同频率和振幅的振动组成。若其中一种振动的频率最低，则它发出的声音就是音高，振动周期称为基音周期，倒数称为基音频率，即基频。本研究中利用语音信号的倒谱特征估计基音周期。(5)梅尔频率倒谱系数。通过研究人耳听觉机理可知，人耳会选择性接收语音的特定频率，但这些频率往往不规律分布。梅尔频率可以将不统一的频率转化为统一频率，即在梅尔频域内，人对音调的感知度呈线性关系。(6)喘息段时长。因为人的呼吸量会随着运动状态的加深而增大，肺部的负荷也会相应增加，导致喘息声延长。

表3语料的声学特征及其统计特征

五、建立BLSTM神经网络模型，利用提取的声学特征参数对其进行训练得到疲劳分析模型。

本方法采用引入注意力机制的双向长短时记忆网络(BLSTM)对语音段进行深度学习后利用softmax函数进行分类。

其中双向长短时记忆网络(BLSTM)的原理如下：

1.长短时记忆网络

长短时记忆网络(Long Short-Term Memory，LSTM)是对循环神经网络的改良，通过门结构实现信息的记忆和更新。LSTM是一种特殊的RNN，与一般RNN不同的是，LSTM的隐藏层不再是单一的神经元，而是由一系列的记忆单元组成。LSTM的网络结构如图2所示，实线表示前馈连接，虚线表示隐藏层的内部连接。

该技术中，一般的记忆单元包含三个门结构：遗忘门、输入门和输出门，如图3所示。LSTM能够通过三个门结构确定输入信息的保留和丢弃，实现输入信息的循环更新。

输入序列x_t经过遗忘门的作用决定保留和忘记信息。信息的保留和忘记通过一个sigmoid函数来判断。若sigmoid值为0，则丢弃全部信息；若为1，则保留所有信息。其计算公式如下：

f_t＝σ(W_f[x_t，h_t-1]+b_f) (1)

其中，x_t是t时刻的输入，f_t表示遗忘门在t时刻的输出，σ表示sigmoid函数，W_f表示遗忘门的权重，b_f为偏置。

输入门的计算公式为：

i_t＝σ(W_i[x_th_t-1]+b_i) (2)

g_t＝tanh(W_g[x_t，h_t-1]+b_g) (3)

其中，i_t为t时刻的输出，能够确定更新的信息。g_t为候选细胞信息。

o_t＝σ(W_o[x_t，h_t-1]+b_o) (4)

c_t＝f_t⊙c_t-1+i_t⊙g_t (5)

h_t＝o_t⊙tanh(c_t) (6)

其中，⊙表示Hadamard乘积。

通过三个门结构，LSTM网络能够决定信息的传递和丢弃，将重要的信息传递到神经网络中，将对当前状态影响较小的信息丢弃。RNN能够学习长期依赖关系，在处理长时间序列问题上具有较好效果。因此，很多学者提出了很多LSTM的变形网络，如DepthGatedRNN、Clockwork RNN、Grid LSTM等，均取得不错的效果。

2.双向长短时记忆网络。

LSTM网络的隐藏层之间的连接是单向的，信息流只能由当前时刻传递到下一时刻，而不能由下一时刻传递到当前时刻。也就是说，当前时刻的细胞状态取决于当前时刻的输入和历史时刻的隐藏层输出。然而，在某些问题中，当前时刻的细胞状态不仅与历史时刻的状态有关，还与未来时刻的状态有关系。例如，在机器翻译任务中，如果能够知道之前的单词及其翻译，也能够知道后面的单词及其翻译，即能够了解上下文的语义关系，对于当前单词的翻译是十分有帮助的。于是，为了弥补LSTM的不足，提出了BLSTM，其结构如图4所示。

可以看出，对于每个时刻的输入x_t，都会有两个相反方向的LSTM与其连接，当前时刻的输出为两个LSTM的组合，也就是说正向和反向LSTM共同决定了当前时刻的输出。

BLSTM的计算公式如下：

h_t＝o_t⊙tanh(f_t⊙c_t-1+i_t⊙g_t) (7)

h′_t＝o′_t⊙tanh(f′_t⊙v′_t+1+i′_t⊙g′_t) (8)

公式中的h_t和h′_t分别表示正向和反向LSTM的隐藏层输出，由公式(1)-(6)确定。BLSTM是可以看作一个正向LSTM和一个反向的LSTM的结合，分别能够学习信号的前向特征和后向特征。BLSTM网络能够同时考虑信号的历史和未来信息，在语音信号的处理上效果优于LSTM。

本方法利用BLSTM进行语音疲劳度检测，将该算法用于优化声学特征完全可行，且很有潜力，具备一定竞争力。基于语音分析的疲劳度检测属于非接触式的疲劳度检测，可以降低受试者的抵触心理，并且疲劳度按大小划分为与疲劳等级对应的阈值范围，从而根据疲劳度检测出当前的疲劳等级，具有一定的可推广性。可用于检测健身疲劳、训练疲劳、车间作业疲劳检测等多个场景。

3.注意力机制(Attention机制)。

Attention机制与人类的视觉所特有的大脑信号处理机制相似，其通过计算不同时刻BLSTM网络中输出的特征向量的权重，突出对预测结果占比更大的特征，从而使整个神经网络模型表现出更优的性能。神经网络在训练过程中通过Attention机制来着重关注一些关键的特征，其核心是权重系数，首先学习每个特征的重要程度，而后根据重要程度为每个特征分配相应的权重。其中MFCC、语速、喘息段时长等特征会被Attention机制分配更多的权重来加深模型记忆。Attention机制模型基本结构如图5所示。

O_t为BLSTM网络输出的第t个特征向量，将其输入注意力机制隐藏层得到初始状态向量s_t，而后与权重系数α_t对应相乘并累加求和得到最终输出的状态向量Y。计算公式如下：

e_t＝tanh(w_ts_t+b_t) (9)

式中：e_t表示第t个特征向量的状态向量s_t所确定的能量值；w_t表示第t个特征向量的权重系数矩阵；b_t表示第t个特征向量相对应的偏移量。根据式(10)可以实现由输入初始状态到新的注意力状态的转换，之后通过式(11)得到最终输出的状态向量Y，最后将Y与Dense层整合在一起作为一个输出值输入到最后的输出层。

4.输出层

输出层的输入为隐含层中Attention机制层的输出。利用多分类Softmax函数对输出层的输入进行相应计算从而得出疲劳度分类，具体公式为：

y_k＝softmax(w₁Y+b₁) (12)

其中：w₁表示Attention机制层到输出层需要训练的权重系数矩阵(即w_t，t＝1)；b₁表示需要训练的对应偏置(即b_t，t＝1)；y_k为输出层的输出预测标签。

从语料库中随机选择80％的样本作为训练集，将提取好的声学特征参数输入BLSTM网络进行训练，然后输入Softmax分类器进行语音疲劳度检测。利用该模型将剩下的20％的样本作为测试集，对其进行疲劳度分类，对应语料库中的疲劳等级，对SUSP-SFD语音疲劳数据库中全部的疲劳样本进行分类，完成基于语音的运动疲劳度识别。

这里需要注意，运动在开始阶段，人体的内脏器官系统的活动水平上升会滞后于运动器官系统，运动器官系统的活动水平的提升又受到内脏器官系统的影响，因而内脏器官的活动水平在长时间剧烈运动开始的一个阶段中会无法满足运动器官活动的需要，造成呼吸困难、胸闷、头晕等现象，即“极点”机能状态，而当极点出现后，继续运动一定时间，内脏器官系统和运动器官系统之间的活动水平达到协调关系，则极点状态下的机体不良反应会逐渐减轻或消失，这种现象也称为“第二次呼吸”，此时运动者的呼吸变得更加均匀自如，运动也更加轻松有力。上述现象造成运动性疲劳如果依据运动者的语音回复进行分析判断，需要对运动过程中身体机能的变化进行考虑，不能简单地依据当时的特征分析结果进行判定。

另一方面，到达第二次呼吸阶段后，一段时间内人体机能在运动过程中保持在一个相对较高的稳定水平，心率、血压和呼吸频率保持在一个稳定状态，但依据有氧运动和无氧运动的差异，稳定状态又分为真稳定状态和假稳定状态，有氧运动和无氧运动的差异在于提升活动水平后的供氧量是否能满足运动器官系统对氧的消耗，在真稳定状态，运动器官系统以有氧代谢为主，能保持较长时间，而假稳定状态下，由于供氧量不能满足有氧代谢，运动器官系统中无氧代谢的比例会快速增加，以无氧代谢为主，稳定状态仅能保持很短时间。

上述运动过程中身体机能的变化往往因为个人体质差异、性别、环境以及运动种类各方面因素导致各阶段持续时间、疲劳感程度都不相同，无法简单依据运动时间长短进行判断，否则判断结果的准确性无法保证。但上述变化均与运动过程中的呼吸系统相关，呼吸的频率深浅相关，即与喘息段时长相关，因此本方法不仅在进行疲劳判断时引入喘息段时长作为输入值，还根据历史记录中的喘息段时长数据进行变化规律进行分析，通过深度学习确定喘息段时长的变化规律与身体机能状态之间的关系，实现对身体机能状态的分段，身体机能状态的阶段包括极点前、极点状态、稳定状态和稳定状态后，据此对相应状态下的声学特征参数与疲劳度之间的关系进行分段分析。此外对于不同强度的运动，在稳定状态中也能分为真稳定状态和假稳定状态分别进行分析，类似的考虑性别差异，本方法能根据语音信息判断运动者的性别，因此在训练时，利用BLSTM进行疲劳检测是针对同性别的运动者进行疲劳度判断，避免忽略性别带来的差异。

同时，本方案还采用MFCC(梅尔频率倒谱系数)作为输入之一，该参数是十二维参数，由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比基于声道模型的LPCC相比具有更好的鲁棒性，更符合人耳的听觉特性，运动疲劳的检测过程中受试者的精神状态在大部分情况下都比较清醒，但更多受呼吸急促影响，语音容易出现不连贯现象，采用MFCC作为输入，能针对这种差异更好地提高神经网络模型的判定准确性。

具体训练过程中，对样本的选择根据性别进行划分，同时在训练时对同一运动者按时序对其采集的语音信息的声学特征参数进行训练，同时也对按时序排列的喘息段时长数据进行变化规律的分析，确定不同身体机能状态的分段，按时间确定身体机能状态的分段与疲劳度判定结果之间的关系，同时根据该关系对疲劳度进行修正，例如考虑到极点状态下，随运动继续会发生第二次呼吸，造成疲劳度减少，因此可以在该阶段将疲劳值向下修正，而假稳定状态相比真稳定状态，运动者的疲劳度会快速增加，因此可以相对将数值向上修正。具体修正数值通过训练确定，目标是让疲劳的判定结果与实际运动强度和持续时间相适应，避免身体机能变化对判定结果造成误差。这里训练过程中喘息段时长数据是随语音信息采集而采集的，也可以独立进行持续的喘息信息采集作为训练分段分析模型的样本集，但要注意喘息信息的特征与语料库中对应语料中喘息段时长数据在时间上保持一致。

六、对待检测的使用者进行语料采集，对得到的语料进行预处理和特征提取。

语料采集、预处理和特征提取的方法分别与之前的步骤一、三和四相同。

七、将上一步得到的多种声学特征参数输入分析模型输出使用者当前的疲劳等级。

之前通过BLSTM神经网络训练得到疲劳分析模型、通过深度学习得到分段分析模型，其中疲劳分析模型包含与身体机能状态分段相对应的分段修正值，因此进行分析时，首先将喘息段时长作为输入，通过分段分析模型确定身体机能状态，再依据身体机能状态确定分段修正值，最后将多种声学特征参数输入疲劳分析模型获得最终的疲劳等级，该步骤流程如图7所示。

对于疲劳分析模型的可靠性，本文采用语音识别领域常见的三种评价指标：加权准确率WA、非加权准确率UA和最佳准确率。WA衡量了语音疲劳度识别系统的总体性能，其计算方式为正确分类的样本数量除以样本总数；UA衡量所有类别的识别性能，其计算方式为各类的分类准确率再除以类别数。本方案采用分层五折交叉方式验证模型预测效果，使用语料库中样本的80％进行训练，20％进行测试，最后对5次预测结果取平均。并将BLSTM的识别准确率与早期提出的基于SVM及AdaBoost的分类准确率在SUSP-SFD数据集上进行对比，如表4。

表4 BLSTM在SUSP-SFD数据集上的识别结果

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进，或未经改进将本发明构思和技术方案直接应用于其它场合的，均在本发明保护范围之内。

Claims

1.一种基于深度学习的语音检测疲劳度方法，其特征在于：包括下列步骤：

三、对所选语料进行数据预处理；

2.根据权利要求1所述的一种基于深度学习的语音检测疲劳度方法，其特征在于：步骤五中，身体机能状态的阶段包括极点前、极点状态、稳定状态和稳定状态后，据此对相应状态下的声学特征参数与疲劳度之间的关系进行分段分析；对于不同强度的运动，在稳定状态中分为真稳定状态和假稳定状态分别进行分析。

3.根据权利要求1或2所述的一种基于深度学习的语音检测疲劳度方法，其特征在于：所述BLSTM神经网络模型采用引入注意力机制的BLSTM神经网络对语音段进行深度学习后利用softmax函数进行分类；对于每个时刻的输入x_t，都会有两个相反方向的LSTM与其连接，当前时刻的输出为两个LSTM的组合；

f_t＝σ(W_f[x_t，h_t-1]+b_f) (1)

输入门的计算公式为：

i_t＝σ(W_i[x_th_t-1]+b_i) (2)

g_t＝tanh(W_g[x_t，h_t-1]+b_g) (3)

o_t＝σ(W_o[x_t，h_t-1]+b_o) (4)

c_t＝f_t⊙c_t-1+i_t⊙g_t (5)

h_t＝o_t⊙tanh(c_t) (6)

其中，⊙表示Hadamard乘积；

BLSTM的计算公式如下：

h_t＝o_t⊙tanh(f_t⊙c_t-1+i_t⊙g_t) (7)

h′_t＝o′_t⊙tanh(f_t′⊙v′_t+1+i′_t⊙g′_t) (8)

公式中的h_t和h′_t分别表示正向和反向LSTM的隐藏层输出。

4.根据权利要求3所述的一种基于深度学习的语音检测疲劳度方法，其特征在于：所述声学特征参数还包括语音段短时平均能量、语音段短时平均过零率、语音段语速、回答反应时长和基频，其中MFCC、语速、喘息段时长这些特征会被Attention机制分配更多的权重来加深模型记忆；

e_t＝tanh(w_ts_t+b_t) (9)

y_k＝soft max(w₁Y+b₁) (12)

5.根据权利要求4所述的一种基于深度学习的语音检测疲劳度方法，其特征在于：步骤五中，从语料库中随机选择80％的样本作为训练集，将提取好的声学特征参数输入BLSTM网络进行训练，然后输入Softmax分类器进行语音疲劳度检测。

6.根据权利要求1所述的一种基于深度学习的语音检测疲劳度方法，其特征在于：步骤二中，所述标记中的信息还包括语料种类编号、受试者编号和受试者年龄，受试者编号能表示受试者性别。

7.根据权利要求1所述的一种基于深度学习的语音检测疲劳度方法，其特征在于：步骤一包含前期建立SUSP-SFD运动疲劳语料库，采用双声道录制，采样频率为48kHz，选取人数相等的男性和女性受试者，均为30人，每位受试者录制4～7条与运动疲劳相关的语料。