CN115547362B - 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 - Google Patents
基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 Download PDFInfo
- Publication number
- CN115547362B CN115547362B CN202211305162.7A CN202211305162A CN115547362B CN 115547362 B CN115547362 B CN 115547362B CN 202211305162 A CN202211305162 A CN 202211305162A CN 115547362 B CN115547362 B CN 115547362B
- Authority
- CN
- China
- Prior art keywords
- frequency
- neural network
- mel
- fatigue
- mel spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 79
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 77
- 230000004927 fusion Effects 0.000 title claims abstract description 33
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 15
- 208000011293 voice disease Diseases 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000003672 processing method Methods 0.000 claims abstract description 4
- 230000000873 masking effect Effects 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000009432 framing Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 14
- 238000009827 uniform distribution Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 5
- 102100030684 Sphingosine-1-phosphate phosphatase 1 Human genes 0.000 claims description 3
- 101710168942 Sphingosine-1-phosphate phosphatase 1 Proteins 0.000 claims description 3
- 102100030677 Sphingosine-1-phosphate phosphatase 2 Human genes 0.000 claims description 3
- 101710168938 Sphingosine-1-phosphate phosphatase 2 Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/18—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state for vehicle drivers or machine operators
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Surgery (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Educational Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- Developmental Disabilities (AREA)
- Epidemiology (AREA)
- Hospice & Palliative Care (AREA)
- Evolutionary Computation (AREA)
- Psychology (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,其包括以下步骤:1)从语音疲劳数据库中获取已分类的语音数据,进行预处理得到梅尔谱图;2)通过图像处理方法对数据进行增广;3)将每张梅尔谱图以频率维度进行分解得到低频、中频、高频三个频梅尔谱图;4)构建并训练三个疲劳度检测神经网络子模型;5)将三个疲劳度检测神经网络子模型中最后一个卷积层输出的特征图组,以频率为维度重新拼接为全频段特征图,构建并训练疲劳度检测神经网络融合模型;6)获取新的语音数据,输出相应疲劳度分类。本发明扩充梅尔谱图数据并对神经网络进行改进,可应对不同时长语音数据,有效对语音疲劳状态进行检测。
Description
技术领域
本发明涉及语音信号处理技术和疲劳检测技术领域,具体是基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法。
背景技术
语音作为人类交流最重要的载体之一,不仅承载着语义内容而且还包含丰富的疲劳信息。语音疲劳检测综合人体工学、信号处理、计算机技术等多学科,在人机交互的发展中起着极其重要的作用。语音疲劳检测技术有助于防范疲劳带来的风险,为智能汽车、智能轨道交通等领域的安全性保障提供技术支撑。
根据语音识别与疲劳检测的相关研究进展,适用于疲劳检测任务的语音特征可被分为以下几类:韵律特征、声音质量特征和谱相关特征,其中,韵律特征包括过零率、对数能量、基频等,声音质量特征包括共振峰频率及其带宽、声门参数等,谱相关特征包括线性谱特征、倒谱特征、线性预测系数等。传统的语音疲劳检测方法往往方法使用人工选取的低层特征以语音帧为单位进行提取,输入用于分类和识别的浅层机器学习模型。然而目前业界对这些特征集是否能有效地描述语音的疲劳信息还存在一定的争议,并且韵律特征、音质特征和谱特征要么属于语音的时域特征,要么属于频域特征,缺少语音信号随时间变化的特性,即融合时频两域相关性的特征。
深度神经网络凭借其强大的建模能力,可有效地捕获隐藏于数据内部的特征,对数据自动地逐级提取特征,从而减少了手工设计特征造成的不完备性。梅尔谱图是一种特殊的语谱图,它既像普通语谱图那样具有空间邻域相关性与时序性,且对语音疲劳信息较为敏感的低频区域占比较大。
因此本发明使用语音的梅尔语谱图,进行数据增广后,使用深度神经网络提取特征并输入至空间金字塔池化层中,展开为具有固定步长的一维特征,然后输入到分类器中输出疲劳状态,完成语音疲劳检测任务。这种方法可以提取出更为完整有效的特征,进一步提高了语音疲劳检测的效果。
发明内容
本发明的目的是针对现有技术的不足,提供基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法。这种方法可以提取语音时频两域的疲劳特征,提高识别准确率,还具有更强的鲁棒性与适用性,网络训练速度也更快。
实现本发明目的的技术方案是一种基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,其包括如下步骤:
S1:获取语音疲劳数据,进行预处理并获得梅尔谱图;
S11:从数据库中获取已经进行疲劳度分类的语音疲劳数据,疲劳度分类包括3种状态:清醒状态、中度疲劳状态、重度疲劳状态;
S12:对每条语音疲劳数据进行预加重;
S13:对预加重语音疲劳数据进行分帧;
S14:对分帧语音疲劳数据采用汉明窗进行加窗处理;
S15:得到语音疲劳数据的梅尔谱图;
S2:通过图像处理方法将数据进行增广;
对步骤S1中的每张梅尔谱图进行数据增强操作来扩充梅尔谱图的数据集,对每张梅尔谱图都进行以下四种操作进行数据增强:时间平移、频率遮蔽、时间遮蔽和时频遮蔽,使得每张梅尔谱图都被扩充为5张梅尔谱图;
S3:将每张梅尔谱图以频率维度进行分解,得到梅尔谱图的低频梅尔谱图、中频梅尔谱图、高频梅尔谱图;
S4:将步骤S3中得到的低频梅尔谱图、中频梅尔谱图、高频梅尔谱图作为输入,分别构建并训练三个疲劳度检测神经网络子模型,三个疲劳度检测神经网络子模型结构相同;
S41:构建疲劳度检测神经网络子模型,具体结构如下:
(1)疲劳度检测神经网络子模型具体连接结构为:由C1、C2、P1、C3、C4、P2、C5、C6、C7、P3、C8、C9、C10、P4、C11、C12、C13、SPP1、FC1、FC2、SF1依次堆叠构成,其中数字表示模块序号,字母表示模块类型,具体为:C表示轻量卷积块,P表示池化层,SPP表示空间金字塔池化层,FC表示全连接层,SF表示Softmax层;
(2)轻量卷积块中包含有常规卷积和轻量卷积;
对有P个卷积核的轻量卷积,只随机使用P/2个卷积核进行常规卷积计算,得到P/2个本征特征图,P为正偶数,再使用轻量卷积对逐个本征特征图进行卷积,获得P/2个轻量化特征图,然后将本征特征图与轻量化特征图组合到一起作为轻量卷积块的输出;
(3)使用空间金字塔池化层进行维度转换,将特征维度统一;
S42:训练基于卷积神经网络的疲劳度检测神经网络子模型,得到训练完成的三个疲劳度检测神经网络子模型,根据输入分别为低频梅尔谱图、中频梅尔谱图、高频梅尔谱图,将三个疲劳度检测神经网络子模型相应称为低频疲劳度检测神经网络子模型、中频疲劳度检测神经网络子模型、高频疲劳度检测神经网络子模型;
S5:将三个疲劳度检测神经网络子模型中最后一个卷积层输出的特征图组,以频率为维度重新拼接为全频段特征图,并以该全频域特征图组作为输入,构建并训练疲劳度检测神经网络融合模型。
S51:构建疲劳度检测神经网络融合模型;
疲劳度检测神经网络融合模型具体连接结构:由C14、SPP2、FC3、FC4、SF2依次堆叠构成,其中数字表示模块序号,字母表示模块类型,具体为:C表示轻量卷积块,SPP表示空间金字塔池化层,FC表示全连接层,SF表示Softmax层;卷积层配置、激活函数设置与疲劳度检测神经网络子模型一致。
S52:训练疲劳度检测神经网络融合模型,得到训练完成的疲劳度检测神经网络融合模型;
S6:获取语音数据,使用步骤S12-S15中的步骤对语音数据进行预处理并获得梅尔谱图;使用步骤S3对梅尔谱图进行频域分解;将数据输入到步骤S4中训练好的子模型中;提取三个子模型最后一个卷积层输出的特征图,拼接为全频段特征图,输入到步骤S5中训练好的疲劳度检测神经网络融合模型中;输出语音数据的疲劳度分类。
优选的,所述步骤S15得到语音疲劳数据的梅尔谱图具体步骤为:
对每一帧加窗分帧语音疲劳数据分别进行快速傅里叶变换,把每一帧快速傅里叶变换后的频域信号转换为频谱图,将加窗分帧语音疲劳数据的频谱图在时间上堆叠起来(即将每帧的频谱图在时间维度上进行拼接),就可以得到加窗分帧语音疲劳数据的功率谱。
创建梅尔滤波器,梅尔滤波器函数Hm(k)可表示为:
其中,m代表滤波器的序号,f(m-1)和f(m)、f(m+1)分别对应第m个滤波器的起始频率点、中间频率点和结束频率点,k为快速傅里叶变换(FTT)后的点数;
优选的,所述步骤S2中时间平移、频率遮蔽、时间遮蔽和时频遮蔽的具体实现步骤如下:
①:时间平移,梅尔谱图随机向右移动一段距离,空出来的部分用高斯噪声填补。高斯噪声指概率密度函数服从高斯分布(即正态分布)的噪声;
②:频率遮蔽,对f个连续的频率通道[f0,f0+f)应用遮蔽掩膜,f是从[0,F]均匀分布中选择得到,F为频率掩膜参数,F为设置在(0,v)之间的一个整数值,f0从[0,v-f)中选择得到,v代表梅尔频率通道的总数量;
③:时间遮蔽,对t个连续的时间步长[t0,t0+t)应用掩膜,t从[0,T]的均匀分布中选择的数字,T为时间掩膜参数,T为设置在(0,τ)之间的一个数值,t0从[0,τ-t)中选择,τ代表时间步长的总数量;
④:时频遮蔽,同时使用时蔽和频率掩蔽。对f个连续的频率通道[f0,f0+f)应用掩膜,f是从[0,F]均匀分布中选择得到,F为频率掩膜参数,f0从[0,v-f)中选择得到,v代表梅尔频率通道的数量。对t个连续的时间步长[t0,t0+t)应用掩膜,t从[0,T]的均匀分布中选择的数字,T为时间掩膜参数,t0从[0,τ-t)中选择。
优选的,所述步骤S3中低频梅尔谱图、中频梅尔谱图、高频梅尔谱图具体为:
通道通过的频率按照滤波器序号由低到高,因此当梅尔滤波器数量为M时,定义低频梅尔谱图包括由通道0到得到的梅尔谱图,中频梅尔谱图包括由通道/>到得到的梅尔谱图,高频梅尔谱图包括由通道/> 到M得到的梅尔谱图
优选的,梅尔滤波器中滤波器数量为64;低频梅尔谱图包括的通道为0到21、中频梅尔谱图包括的通道为22到42、高频梅尔谱图包括的通道为43到63。
优选的,所述步骤S42中疲劳度检测神经网络子模型采用梯度下降算法对模型进行训练,整体损失函数为:
其中,m表示样本数,xi表示第i个样本,h表示预测函数,Θ表示预测函数中出现的所有参数,hΘ(xi)表示第i个样本xi的预测值,yj表示第i个样本的真实值,λ表示正则化系数,n表示参数的个数,θj表示第j个权重。
与现有技术相比,本发明具有以下有益效果:
(1)本发明提取梅尔谱图时频两域的语音疲劳特征,并通过数据增广,增加对模型的训练,提高识别准确度。
(2)本发明对现有卷积神经网络VGG16作为基础架构进行改进,采用轻量卷积块提升网络训练速度,采用空间金字塔池化层解决不同长度的输入语音的疲劳状态判定问题。
(3)本发明将梅尔谱图分解为高中低三张梅尔谱图,采用疲劳度检测神经网络子模型和疲劳度检测神经网络融合模型相结合,提高了识别准确率;对不同说话内容、不同说话人以及不同说话环境具有较好的鲁棒性。
附图说明
图1为实施例的流程示意图;
图2为实施例中网络模型的参数设置图;
图3为实施例中网络子模型示意图;
图4为实施例中网络融合模型示意图。
具体实施方式
以下将参考附图详细说明本发明的示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
下面结合实施例和附图对本发明的内容作进一步的阐述,但不是对本发明的限定。
本发明公开了一种基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,如图1所示,包括如下步骤:
S1:获取语音疲劳数据,进行预处理并获得梅尔谱图。
S11:从数据库中获取已经进行疲劳度分类的语音疲劳数据,疲劳度分类包括3种状态:清醒状态、中度疲劳状态、重度疲劳状态。
S12:对每条语音疲劳数据进行预加重。
通常语音中8kHz以上的信号在每个频率范围内会迅速衰减,预加重技术可以对语音波形信号的高频部分进行提升,语音波形信号经过预加重技术处理后,提高了整个语音波形信号的高频部分幅度,使得整个频谱将变得相对平坦,生成的谱图的视觉效果也将大大提高,这可以提高卷积特征的提取。
使用数字滤波器来实现对语音疲劳数据的预加重,其传递函数为:
H(Z)=1-μZ-1
其中,H(Z)表示经过高通滤波之后得到的频域信号;Z表示语音疲劳数据转换到频域之后的信号;μ表示预加重系数,通常取在0.94到0.97,本发明取0.97。
通过数字滤波器得到预加重语音疲劳数据。
S13:对预加重语音疲劳数据进行分帧。
通常,采用交叠分段的方法进行分帧操作,这是为了使每帧之间可以过渡平滑,保持其连续性。帧移的长度一般为帧长度的一半左右。男性发音的基频约为100Hz,女性发音的基频约为200Hz,相应的周期为10ms和5ms。在正常语速下,音素的持续时间通常为50~200ms。如果想保持语音帧的稳定性,每一帧的长度应该小于音素的长度,即每帧的持续时间在20到50ms之间,通常为30ms;
对预加重语音疲劳数据进行分帧后得到分帧语音疲劳数据,且相邻的分帧语音疲劳数据之间存在有重叠的数据;如,一个持续时间为120ms的预加重语音疲劳数据,每30ms为一段,帧移的长度为15ms,则120ms的预加重语音疲劳数据进行分帧操作后被分为7帧30ms的分帧语音疲劳数据,且相邻的分帧语音疲劳数据之间有15ms的重叠数据。
S14:对分帧语音疲劳数据采用汉明窗进行加窗处理。
采用汉明窗对每帧分帧语音疲劳数据进行加窗处理得到加窗分帧语音疲劳数据,窗函数W(n)可表示为:
其中,N为窗内的采样点总数,n为窗内采样点序号;
分帧语音疲劳数据的每一帧为分段的有限信号,导致在调用傅里叶变换函数的时候发生高频部分泄漏的情况,因此需要采用汉明窗进行加窗处理,汉明窗的幅频特性是旁瓣衰减较大,可以改善频率泄露的情况。
S15:得到语音疲劳数据的梅尔谱图。
对每一帧加窗分帧语音疲劳数据分别进行快速傅里叶变换,把每一帧快速傅里叶变换后的频域信号转换为频谱图,将加窗分帧语音疲劳数据的频谱图在时间上堆叠起来(即将每帧的频谱图在时间维度上进行拼接),就可以得到加窗分帧语音疲劳数据的功率谱。
创建梅尔滤波器,梅尔滤波器函数Hm(k)可表示为:
其中,m代表滤波器的序号,f(m-1)和f(m)、f(m+1)分别对应第m个滤波器的起始频率点、中间频率点和结束频率点,k为频率点序号;
加窗分帧语音疲劳数据的功率谱通过梅尔滤波器得到梅尔谱图,本文选择梅尔滤波器数量为64。
S2:通过图像处理方法将数据进行增广。
对步骤S1中的每张梅尔谱图进行数据增强操作来扩充梅尔谱图的数据集,由于梅尔谱图是特殊的图片,传统的图像增广方法容易破坏梅尔谱图的时序性,因此本实施例采用时间平移、频率遮蔽、时间遮蔽、时频遮蔽结合的方式对梅尔谱图进行数据增强,既保持了图片像素特征之间的前后关系和相对位置,又获得了更为丰富多样的数据集,有利于提高识别准确率;对步骤S1中的每张梅尔谱图都进行以下四种操作,使得每张图都被扩充为5张图:
①:时间平移,梅尔谱图随机向右移动一段距离,空出来的部分用高斯噪声填补。高斯噪声指概率密度函数服从高斯分布(即正态分布)的噪声;
②:频率遮蔽,对f个连续的频率通道[f0,f0+f)应用遮蔽掩膜,f是从[0,F]均匀分布中选择得到,F为频率掩膜参数,F为设置在(0,v)之间的一个整数值,f0从[0,v-f)中选择得到,v代表梅尔频率通道的总数量;
③:时间遮蔽,对t个连续的时间步长[t0,t0+t)应用掩膜,t从[0,T]的均匀分布中选择的数字,T为时间掩膜参数,T为设置在(0,τ)之间的一个数值,t0从[0,τ-t)中选择,τ代表时间步长的总数量;
④:时频遮蔽,同时使用时蔽和频率掩蔽。对f个连续的频率通道[f0,f0+f)应用掩膜,f是从[0,F]均匀分布中选择得到,F为频率掩膜参数,f0从[0,v-f)中选择得到,v代表梅尔频率通道的数量。对t个连续的时间步长[t0,t0+t)应用掩膜,t从[0,T]的均匀分布中选择的数字,T为时间掩膜参数,t0从[0,τ-t)中选择。
S3:为进一步利用梅尔谱图中的低频、中频、高频信息,将每张梅尔谱图以频率维度进行分解,得到低频梅尔谱图、中频梅尔谱图、高频梅尔谱图。每一个梅尔滤波器被称为一个通道,因为通道通过的频率是按照滤波器序号由低到高的,因此当梅尔滤波器数量为M时,定义低频梅尔谱图包括由通道0到得到的梅尔谱图,中频梅尔谱图包括由通道到/>得到的梅尔谱图,高频梅尔谱图包括由通道/>到M得到的梅尔谱图。本申请中选择的梅尔滤波器数量为64,因此将64个梅尔通道分为(0、21)、(22、42)、(43、63)3个部分的分解梅尔谱图,分别代表梅尔谱图的低频梅尔谱图、中频梅尔谱图、高频梅尔谱图。
S4:将步骤S3中得到的低频图、中频图、高频图作为输入,分别构建并训练三个疲劳度检测神经网络子模型。
S41:构建疲劳度检测神经网络子模型。
疲劳度检测神经网络子模型是基于卷积神经网络的轻量化网络模型,是使用现有卷积神经网络VGG16作为基础架构进行改进得到的。疲劳度检测神经网络子模型的改进包括以下几方面:
(1)疲劳度检测神经网络子模型具体连接结构为:由C1、C2、P1、C3、C4、P2、C5、C6、C7、P3、C8、C9、C10、P4、C11、C12、C13、SPP1、FC1、FC2、SF1堆叠构成,其中数字表示模块序号,字母表示模块类型,具体为:C表示轻量卷积块,P表示池化层,SPP表示空间金字塔池化层,FC表示全连接层,SF表示Softmax层,如图3所示。
具体的网络结构参数设置为:每个轻量卷积块中包含3×3的常规卷积和3×3的轻量卷积,步长为1,并对输入的图像矩阵边缘补0。
(2)轻量卷积块中包含有常规卷积过程和轻量卷积过程。
轻量卷积块是对VGG16现有的卷积层进行了改进,将卷积分成两部分完成,假设VGG16现有的某个卷积层有P个卷积核,则轻量化卷积块的第一步是使用P/2个卷积核对输入本卷积块的特征图组进行常规卷积计算(卷积核都是2的倍数),获得P/2个本征特征图,第二步使用P/2个卷积核分别对第一步输出的各本征特征图进行逐个计算,获得P/2个轻量化特征图,然后将本征特征图与轻量化特征图组合到一起作为轻量卷积块的输出。
在现有卷积层中,都是使用所有卷积核对输入的特征图组进行卷积输出特征图,本申请中的轻量卷积块第一步只使用一半卷积核按照常规卷积进行计算,第二步使用卷积核分别对上一步得到的单个特征图进行计算,将第一步的计算结果和第二步的计算结果进行合并,作为输出结果。常规卷积过程是指将输入的特征图组进行卷积得到卷积结果,轻量卷积过程是指对每一张图分别进行卷积。举个简单的例子,假设输入为64张特征图组成的特征图组,常规卷积块有64个卷积核,常规卷积需要分别使用64个卷积核对64张输入特征图进行卷积,并产生64个输出特征图,其发生的卷积处理次数为64·64(4096)次。轻量化卷积块分为两步,第一步使用32个卷积核对64张输入特征图进行卷积,并产生32个输出特征图,卷积处理次数为64·32(2048)次,第二步使用32个卷积核分别对第一步输出的单个特征图进行卷积,并产生32个输出特征图,其发生的卷积处理次数为32·1(32)次,整个轻量化卷积块的卷积处理次数为2048+32(2080)次。将第一步的32张输出特征图和第二步的32张输出特征图拼接在一起,得到与常规卷积数量相同的特征图作为轻量卷积模块的输出。
这种方法减少了神经网络中多余信息的产生,与全部使用常规卷积的方法相比,可以大幅减少计算量,并加快计算速度;本实施例中卷积块中有64个3×3的卷积核,步长为1,并对输入的图像矩阵边缘补0。
(3)空间金字塔池化部分则由于不同时长的语音所对应的梅尔谱图长度并不完全相同,因此需要使用空间金字塔池化层进行维度转换,一方面可以避免需要将不同尺寸的语谱图转换为固定大小输入模型,从而使得语谱图发生不同程度的形变,进而影响到特征提取与疲劳状态分类的弊端,另一方面可以提取不同尺寸的空间特征信息,进而提升模型的鲁棒性。再连接新的全连接层,最后输入到Softmax层中进行分类;SPP层将特征维度统一,第一全连接层子模块的神经元个数512,第二全连接层子模块的神经元个数3。
S42:训练基于卷积神经网络的轻量化网络子模型,将低频梅尔谱图、中频梅尔谱图、高频梅尔谱图作为输入训练得到的三个疲劳度检测神经网络子模型分别被称为低频疲劳度检测神经网络子模型、中频疲劳度检测神经网络子模型、高频疲劳度检测神经网络子模型;训练包括如下步骤:
S421:使用随机梯度下降算法(SGD)计算损失函数,设置训练模型参数,如图2所示,学习率(LEARNING_RATE)为0.01,动量(MOMENTUM)为0.9,一次训练样本数(BATCH SIZE)为64,衰减率(DECAY)为0.0005,最大的迭代次数(MAX_BATCH)为500次。选择L2正则化项,设置基于卷积神经网络的轻量化网络模型的整体损失函数为:
其中,m表示样本数,xi表示第i个样本,h表示预测函数,Θ表示预测函数中出现的所有参数,hΘ(xi)表示第i个样本xi的预测值,yj表示第i个样本的真实值,λ表示正则化系数,n表示参数的个数,θj表示第j个权重。
对损失函数求偏导数如下:
其中,代表损失函数JL2对第j个参数的偏导。
S422:利用偏导数采用随机梯度下降算法更新模型的参数,直至训练完成,通常是达到指定训练次数或整体损失函数平稳就认为神经网络训练完成。
S5:分别提取3个疲劳度检测神经网络子模型中最后一个卷积层输出的特征图,以频率维度将低频特征图、中频特征图、高频特征图重新拼接为全频段特征图,并以该全频域特征图作为输入,构建并训练疲劳度检测神经网络融合模型。
S51:构建疲劳度检测神经网络融合模型,包括以下几方面:
(1)疲劳度检测神经网络融合模型具体连接结构:由C14、SPP2、FC3、FC4、SF2依次堆叠构成,其中数字表示模块序号,字母表示模块类型,具体为:C表示轻量卷积块,SPP表示空间金字塔池化层,FC表示全连接层,SF表示Softmax层,如图4所示。
(2)卷积层配置、激活函数设置与疲劳度检测神经网络子模型一致。
S52:训练疲劳度检测神经网络融合模型,训练方式及参数也与疲劳度检测神经网络子模型一致。
S6:获取语音数据,使用步骤S12-S15中的步骤对语音数据进行预处理并获得梅尔谱图;使用步骤S3对梅尔谱图进行频域分解;将数据输入到步骤S4中训练好的子模型中;提取三个子模型最后一个卷积层输出的特征图,拼接为全频段特征图,输入到步骤S5中训练好的疲劳度检测神经网络融合模型中;输出语音数据的疲劳度分类。
本专利提出的方法有效地解决了语音物理特征性能较差、最佳语音物理特征组合无法确定、浅层模型学习能力较弱的问题,在兼顾特征提取难度、网络复杂度限制的基础上,保证了模型对于不同说话内容、说话人与不同说话时长的鲁棒性,可较好地完成语音疲劳度检测任务,这对后续基于人的疲劳状态分类结果进行用户安全提醒、人机功能自适应调整等方面提供了方法层面的支撑和依据,为智能汽车、智能轨道交通等领域的安全性保障具有较大意义。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (5)
1.一种基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,其特征在于:其包括如下步骤:
S1:获取语音疲劳数据,进行预处理并获得梅尔谱图;
S11:从数据库中获取已经进行疲劳度分类的语音疲劳数据,疲劳度分类包括3种状态:清醒状态、中度疲劳状态、重度疲劳状态;
S12:对每条语音疲劳数据进行预加重;
S13:对预加重语音疲劳数据进行分帧;
S14:对分帧语音疲劳数据采用汉明窗进行加窗处理;
S15:得到语音疲劳数据的梅尔谱图;
S2:通过图像处理方法将数据进行增广;
对步骤S1中的每张梅尔谱图进行数据增强操作来扩充梅尔谱图的数据集,对每张梅尔谱图都进行以下四种操作进行数据增强:时间平移、频率遮蔽、时间遮蔽和时频遮蔽,使得每张梅尔谱图都被扩充为5张梅尔谱图;
S3:将每张梅尔谱图以频率维度进行分解,得到梅尔谱图的低频梅尔谱图、中频梅尔谱图、高频梅尔谱图;
S4:将步骤S3中得到的低频梅尔谱图、中频梅尔谱图、高频梅尔谱图作为输入,分别构建并训练三个疲劳度检测神经网络子模型,三个疲劳度检测神经网络子模型结构相同;
S41:构建疲劳度检测神经网络子模型,具体结构如下:
(1) 疲劳度检测神经网络子模型具体连接结构为:由C1、C2、P1、C3、C4、P2、C5、C6、C7、P3、C8、C9、C10、P4、C11、C12、C13、SPP1、FC1、FC2、SF1依次堆叠构成,其中数字表示模块序号,字母表示模块类型,具体为:C表示轻量卷积块,P表示池化层,SPP表示空间金字塔池化层,FC表示全连接层,SF表示Softmax层;
(2)轻量卷积块中包含有常规卷积和轻量卷积;
对有P个卷积核的轻量卷积,只随机使用P/2个卷积核进行常规卷积计算,得到P/2个本征特征图,P为正偶数,再使用轻量卷积对逐个本征特征图进行卷积,获得P/2个轻量化特征图,然后将本征特征图与轻量化特征图组合到一起作为轻量卷积块的输出;
(3)使用空间金字塔池化层进行维度转换,将特征维度统一;
S42:训练基于卷积神经网络的疲劳度检测神经网络子模型,得到训练完成的三个疲劳度检测神经网络子模型,根据输入分别为低频梅尔谱图、中频梅尔谱图、高频梅尔谱图,将三个疲劳度检测神经网络子模型相应称为低频疲劳度检测神经网络子模型、中频疲劳度检测神经网络子模型、高频疲劳度检测神经网络子模型;
S5:将三个疲劳度检测神经网络子模型中最后一个卷积层输出的特征图组,以频率为维度重新拼接为全频段特征图,并以该全频段特征图组作为输入,构建并训练疲劳度检测神经网络融合模型;
S51:构建疲劳度检测神经网络融合模型;
疲劳度检测神经网络融合模型具体连接结构:由C14、SPP2、FC3、FC4、SF2依次堆叠构成,其中数字表示模块序号,字母表示模块类型,具体为:C表示轻量卷积块,SPP表示空间金字塔池化层,FC表示全连接层,SF表示Softmax层;卷积层配置、激活函数设置与疲劳度检测神经网络子模型一致;
S52:训练疲劳度检测神经网络融合模型,得到训练完成的疲劳度检测神经网络融合模型;
S6:获取语音数据,使用步骤S12-S15中的步骤对语音数据进行预处理并获得梅尔谱图;使用步骤S3对梅尔谱图进行频域分解;将数据输入到步骤S4中训练好的子模型中;提取三个子模型最后一个卷积层输出的特征图,拼接为全频段特征图,输入到步骤S5中训练好的疲劳度检测神经网络融合模型中;输出语音数据的疲劳度分类。
2.根据权利要求1所述的基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,其特征在于:所述步骤S2中时间平移、频率遮蔽、时间遮蔽和时频遮蔽的具体实现步骤如下:
①:时间平移,梅尔谱图随机向右移动一段距离,空出来的部分用高斯噪声填补;高斯噪声指概率密度函数服从高斯分布的噪声;
②:频率遮蔽,对f个连续的频率通道[f0,f0+f)应用遮蔽掩膜,f是从[0, F]均匀分布中选择得到,F为频率掩膜参数,F为设置在(0,v)之间的一个整数值,f0从 [0,v-f) 中选择得到,v代表梅尔频率通道的总数量;
③:时间遮蔽,对t个连续的时间步长[t0,t0+t)应用掩膜,t从[0,T]的均匀分布中选择的数字,T为时间掩膜参数,T为设置在(0,τ)之间的一个数值,t0从[0,τ-t)中选择,τ代表时间步长的总数量;
④:时频遮蔽,同时使用时蔽和频率掩蔽;对f个连续的频率通道 [f0,f0+f) 应用掩膜,f是从[0,F]均匀分布中选择得到,F为频率掩膜参数,f0从[0,v-f) 中选择得到,v代表梅尔频率通道的数量;对t个连续的时间步长[t0,t0+t)应用掩膜,t从[0,T]的均匀分布中选择的数字,T为时间掩膜参数,t0从[0,τ-t)中选择。
3.根据权利要求1所述的基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,其特征在于:所述步骤S3中低频梅尔谱图、中频梅尔谱图、高频梅尔谱图具体为:
通道通过的频率按照滤波器序号由低到高,因此当梅尔滤波器数量为M时,定义低频梅尔谱图包括由通道0到得到的梅尔谱图,中频梅尔谱图包括由通道/>到得到的梅尔谱图, 高频梅尔谱图包括由通道/>到M得到的梅尔谱图。
4.根据权利要求1所述的基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,其特征在于:梅尔滤波器中滤波器数量为64;低频梅尔谱图包括的通道为0到21、中频梅尔谱图包括的通道为22到42、高频梅尔谱图包括的通道为43到63。
5.根据权利要求1所述的基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法,其特征在于:所述步骤S42中疲劳度检测神经网络子模型采用梯度下降算法对模型进行训练,整体损失函数为:
;
其中,表示样本数,/>表示第/>个样本,/>表示预测函数,/>表示预测函数中出现的所有参数,/>表示第i个样本/>的预测值,/>表示第/>个样本的真实值,/>表示正则化系数,/>表示参数的个数,/>表示第/>个权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211305162.7A CN115547362B (zh) | 2022-10-24 | 2022-10-24 | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211305162.7A CN115547362B (zh) | 2022-10-24 | 2022-10-24 | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115547362A CN115547362A (zh) | 2022-12-30 |
CN115547362B true CN115547362B (zh) | 2024-05-10 |
Family
ID=84718605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211305162.7A Active CN115547362B (zh) | 2022-10-24 | 2022-10-24 | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115547362B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
CN110853656A (zh) * | 2019-09-06 | 2020-02-28 | 南京工程学院 | 基于改进神经网络的音频篡改识别算法 |
CN113990303A (zh) * | 2021-10-08 | 2022-01-28 | 华南理工大学 | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 |
KR102418256B1 (ko) * | 2021-12-28 | 2022-07-08 | 아이브스 주식회사 | 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법 |
CN114822512A (zh) * | 2022-06-29 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 音频数据的处理方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2024510679A (ja) * | 2021-03-22 | 2024-03-08 | グーグル エルエルシー | 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ |
-
2022
- 2022-10-24 CN CN202211305162.7A patent/CN115547362B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
CN110853656A (zh) * | 2019-09-06 | 2020-02-28 | 南京工程学院 | 基于改进神经网络的音频篡改识别算法 |
CN113990303A (zh) * | 2021-10-08 | 2022-01-28 | 华南理工大学 | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 |
KR102418256B1 (ko) * | 2021-12-28 | 2022-07-08 | 아이브스 주식회사 | 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법 |
CN114822512A (zh) * | 2022-06-29 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 音频数据的处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于参数迁移和卷积循环神经网络的语音情感识别;缪裕青;邹巍;刘同来;周明;蔡国永;;计算机工程与应用;20190515(第10期);全文 * |
基于深度学习模型的电力变压器故障声音诊断方法研究;吴帆;刘艳霞;刘力铭;何彦德;;电声技术;20200105(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115547362A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | Phasen: A phase-and-harmonics-aware speech enhancement network | |
CN108597539B (zh) | 基于参数迁移和语谱图的语音情感识别方法 | |
CN109326302A (zh) | 一种基于声纹比对和生成对抗网络的语音增强方法 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN110379412A (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN112001992A (zh) | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 | |
CN109785852A (zh) | 一种增强说话人语音的方法及系统 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN110136709A (zh) | 语音识别方法及基于语音识别的视频会议系统 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN111326178A (zh) | 基于卷积神经网络的多模态语音情感识别系统及方法 | |
CN110853656A (zh) | 基于改进神经网络的音频篡改识别算法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN114722812A (zh) | 一种多模态深度学习模型脆弱性的分析方法和系统 | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Hamsa et al. | Speaker identification from emotional and noisy speech using learned voice segregation and speech VGG | |
Jin et al. | Speech separation and emotion recognition for multi-speaker scenarios | |
CN115547362B (zh) | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 | |
CN111009262A (zh) | 语音性别识别的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |