CN116597864A - 一种嗓音检测方法及装置 - Google Patents
一种嗓音检测方法及装置 Download PDFInfo
- Publication number
- CN116597864A CN116597864A CN202310534832.0A CN202310534832A CN116597864A CN 116597864 A CN116597864 A CN 116597864A CN 202310534832 A CN202310534832 A CN 202310534832A CN 116597864 A CN116597864 A CN 116597864A
- Authority
- CN
- China
- Prior art keywords
- multiband
- voice
- voice signal
- time
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 108
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 40
- 230000005856 abnormality Effects 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 24
- 238000013528 artificial neural network Methods 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种嗓音检测方法及装置,涉及声音检测技术领域。包括:将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号;利用一维深度可分离卷积神经网络的第一路径和第二路径分别提取多频带语音信号的时间特征和时频特征,并组合得到多频带语音信号特征向量;利用全连接网络对多频带语音信号特征向量进行分类得到分类结果,将分类结果作为待检测语音信号的异常指数。本发明使用可解释卷积滤波器组可以更好的捕捉待检测语音信号的频带信息,而一维深度可分离卷积神经网络可以分别提取多频带语音信号的时间特征和时频特征,增加了特征提取的有效性,使得该方法更具有可解释性,提高了嗓音检测结果的可靠性。
Description
技术领域
本发明涉及声音检测技术领域,尤其是指一种嗓音检测方法及装置。
背景技术
嗓音是人们交流时的重要工具,自动嗓音检测是一种非常重要的嗓音质量评估方法,近几十年因为其非侵入性、客观性、便捷性受到了越来越多的关注。该技术通过麦克风收集被测试者的声音,并通过对该声音进行分析,判断被测试者是否具有嗓音问题。
目前该技术采用的方法主要有两种,一种是基于特征的方法,先根据声音的特性提取不同的特征,再使用这些特征训练机器学习分类器进行声音分类。在这种方法中,所使用的特征包括扰动类特征(基频微扰、振幅微扰、信噪比和谐噪比)、频谱/倒谱类特征(频谱倾斜、倒谱峰值突出、谐波振幅等)、声门类特征(开启商、振幅商、关闭商、速度商等)、非线性特征(最大李雅普诺夫指数、关联维数、非线性递归量化分析特征等)和多频带特征(梅尔频率倒谱系数、gammatone倒谱系数和gammatone频谱高度)等。由于基于特征的方法所使用的特征是根据不同嗓音问题的区别提出的,所以通常具有可解释性,但是这种方法需要选择合适的分类器,同样的特征在不同的分类器作用下结果可能有很大差距,即嗓音检测结果的可靠性不高。另一种则是基于神经网络的方法,直接将声音输入至神经网络中,由神经网络自行提取深度特征并进行分类。但是,二维神经网络本身被提出用于二维图像的目标检测等应用,将其应用在嗓音检测中则会失去语音作为一维时间序列的本质。一维神经网络比二维神经网络更符合时间序列处理的需求,但简单的卷积神经网络或深度神经网络的堆叠并不能有效的实现嗓音检测。由于神经网络通过输入的信号自行获得合适的特征,并通过全连接层进行结果判断,所以其有效性往往高于基于特征的方法,但神经网络根据信号自动获取特征不具备可解释性,并且更容易对训练数据过拟合。
综上所述,现有的嗓音检测方法存在特征提取有效性低,缺乏可解释性,以及嗓音检测结果可靠性低的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中特征提取有效性低,缺乏可解释性以及嗓音检测结果可靠性低的问题。
为解决上述技术问题,本发明提供了一种嗓音检测方法,包括:
将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号;
利用一维深度可分离卷积神经网络的第一路径提取所述多频带语音信号的时间特征,利用所述一维深度可分离卷积神经网络的第二路径提取所述多频带语音信号的时频特征,将所述多频带语音信号的时间特征与所述多频带语音信号的时频特征组合作为多频带语音信号特征向量;
利用全连接网络对所述多频带语音信号特征向量进行分类得到分类结果,并将所述分类结果作为所述待检测语音信号的异常指数。
在本发明的一个实施例中,所述将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号前还包括:为所述可解释卷积滤波器组中的滤波器分配不同的权重。
在本发明的一个实施例中,所述将待检测语音信号分别输入可解释卷积滤波器组,得到多频带语音信号包括:
将所述待检测语音信号划分为M帧;
将M帧待检测语音信号分别输入至所述可解释卷积滤波器组,得到M组多频带语音信号。
在本发明的一个实施例中,所述利用一维深度可分离卷积神经网络的第一路径提取所述多频带语音信号的时间特征,利用所述一维深度可分离卷积神经网络的第二路径提取所述多频带语音信号的时频特征,将所述多频带语音信号的时间特征与所述多频带语音信号的时频特征组合作为多频带语音信号特征向量包括:
将所述M组多频带语音信号输入至所述一维深度可分离卷积神经网络的第一路径提取所述多频带语音信号的时间特征,得到M组多频带语音信号的时间特征向量;
将所述M组多频带语音信号输入至所述一维深度可分离卷积神经网络的第二路径提取所述多频带语音信号的时频特征,得到M组多频带语音信号的时频特征向量;
将所述M组多频带语音信号的时间特征向量和时频特征向量组合得到M组多频带语音信号特征向量;
其中,所述第一路径包括第一可分离卷积模块、第二可分离卷积模块、第三可分离卷积模块,所述第二路径包括第四可分离卷积模块、第一深度可分离卷积模块和第二深度可分离卷积模块。
在本发明的一个实施例中,所述所述将所述M组多频带语音信号输入至所述一维深度可分离卷积神经网络的第一路径提取所述多频带语音信号的时间特征,得到M组多频带语音信号的时间特征向量包括:
将所述多频带语音信号输入至所述第一可分离卷积模块,得到第一多频带语音信号特征向量,并计算所述第一多频带语音信号特征向量的平均值和方差;
将所述第一多频带语音信号特征向量输入至所述第二可分离卷积模块得到第二多频带语音信号特征向量;
将所述第二多频带语音信号特征向量输入至所述第三可分离卷积模块,得到第三多频带语音信号特征向量;
将所述第一多频带语音信号特征向量的平均值和方差与第三多频带语音信号特征向量组合作为所述多频带语音信号的时间特征向量。
在本发明的一个实施例中,所述将所述M组多频带语音信号输入至所述一维深度可分离卷积神经网络的第二路径提取所述多频带语音信号的时频特征,得到M组多频带语音信号的时频特征向量包括:
将所述多频带语音信号输入至所述第一深度可分离卷积模块,得到第四多频带语音信号特征向量,并计算所述第四多频带语音信号特征向量的平均值和方差;
将所述第四多频带语音信号特征向量输入至所述第四可分离卷积模块,得到第五多频带语音信号特征向量;
将所述第五多频带语音信号特征向量输入至所述第二深度可分离卷积模块,得到第六多频带语音信号特征向量;
将所述第四多频带语音信号特征向量的平均值和方差与所述第六多频带语音信号特征向量组合作为所述多频带语音信号的时频特征向量。
在本发明的一个实施例中,所述利用全连接网络对所述多频带语音信号特征向量进行分类得到分类结果,并将所述分类结果作为所述待检测语音信号的异常指数包括:
将所述M组多频带语音信号特征向量输入至全连接网络进行分类,得到M组分类结果;
对所述M组分类结果取均值作为所述待检测语音信号的异常指数。
在本发明的一个实施例中,所述利用全连接网络对所述多频带语音信号特征向量进行分类得到分类结果,并将所述分类结果作为所述待检测语音信号的异常指数后还包括:将所述待检测语音信号的异常指数与预设阈值比较,以判断所述待检测语音信号的状态。
本发明还提供了一种嗓音检测装置,包括:
滤波模块,用于将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号;
特征提取模块,用于利用一维深度可分离卷积神经网络的第一路径提取所述多频带语音信号的时间特征,利用所述一维深度可分离卷积神经网络的第二路径提取所述多频带语音信号的时频特征,将所述多频带语音信号的时间特征与所述多频带语音信号的时频特征组合作为多频带语音信号特征向量;
分类模块,用于利用全连接网络对所述多频带语音信号特征向量进行分类得到分类结果,并将所述分类结果作为所述待检测语音信号的异常指数。
在本发明的一个实施例中,还包括比较模块,用于将所述待检测语音信号的异常指数与预设阈值比较,以判断所述待检测语音信号的状态。
本发明所述的嗓音检测方法将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号;利用一维深度可分离卷积神经网络的第一路径提取多频带语音信号的时间特征,利用一维深度可分离卷积神经网络的第二路径提取多频带语音信号的时频特征,将该多频带语音信号的时间特征与时频特征组合作为多频带语音信号特征向量;最后利用全连接网络对多频带语音信号特征向量进行分类得到分类结果,并将分类结果作为待检测语音信号的异常指数。由于可解释卷积滤波器组在语音信号处理过程中相比传统卷积神经网络更容易捕捉频带信息且更具有可解释性,且一维深度可分离卷积神经网络包括第一路径和第二路径,能够分别用于提取待检测语音信号的时间特征和时频特征,提高了待检测语音信号特征提取的有效性和可解释性,使得嗓音检测结果更加具有可靠性。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明提供的嗓音检测方法流程图;
图2是可解释卷积滤波器组(SincNet)结构示意图;
图3为一维卷积神经网络卷积块结构示意图;
图4为一维深度可分离卷积网络卷积块结构示意图;
图5为一维深度可分离卷积神经网络结构示意图;
图6为可分离卷积模块结构示意图;
图7为深度可分离卷积模块结构示意图;
图8为SincNet的幅频响应示意图;
图9为本发明提供的一种可解释卷积滤波器组(AT-SincNet)的幅频响应示意图;
图10为AT-SincNet与SincNet的训练损失对比示意图;
图11为AT-SincNet与SincNet的测试损失对比示意图;
图12为本发明提供的另一种嗓音检测方法原理示意图;
图13为本发明提供的嗓音检测方法提取的特征重要性示意图;
图14为本发明提供的嗓音检测装置示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例1:
参照图1所示,本发明提供的嗓音检测方法包括:
S10:将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号。
可解释卷积滤波器组(SincNet)是2018年首次提出的,其结构如图2所示,该滤波器组使用一系列预定义的函数g来进行卷积运算,其计算公式为:
y(n)=x(n)*[g(n,θ)·w(n)],
其中,x(n)和y(n)分别代表滤波器组的输入和输出,w(n)是汉明窗,以便使有限长度的滤波器接近无线长度的理想滤波器的性能。与传统滤波器不同,g(n,θ)只取决于少数可学习的参数θ。若使用具有可学习的低截止频率f1和高截止频率f2的矩形滤波器组来定义g,则其在时域和频域的表达公式为:
g(n,f1,f2)=2f2sinc(2πf2n)-2f1sinc(2πf1n),
其中,sinc(x)=sin(x)/x,rect(·)代表矩形函数。
相比于传统的卷积神经网络(CNN),SincNet具有收敛更快,网络参数少且计算高效的优点,除此之外,SincNet在语音信号处理中更容易捕捉到窄带信息,而CNN更倾向于聚焦在语音信息的低频部分,因此本实施例采用SincNet使得嗓音检测结果更具有可解释性。
S12:利用一维深度可分离卷积神经网络的第一路径提取多频带语音信号的时间特征,利用一维深度可分离卷积神经网络的第二路径提取多频带语音信号的时频特征,将多频带语音信号的时间特征与时频特征组合作为多频带语音信号特征向量。
经典的一维卷积神经网络的卷积块如图3所示,其卷积块的输出可以表达为:
Ok=∑n conv(In,Fk),
其中,一个多通道的时间信号经过多个滤波器的卷积和加权运算后,可以得到一个多通道的信号输出。这种方法可以尽可能地利用各频段的信息,但是多频带的组合和分割使这种卷积网络无法获得特定的输出,每个通道的输出与频段没有相应的关系,降低了神经网络的可解释性。
基于此,本申请实施例中采用一维深度可分离卷积网络提取多频带语音信号的特征,其卷积块如图4所示,包括纵深卷积和点状卷积。其每个卷积块的输出可以表达为:
On=conv(In,Fn),
Ok=∑n Wk,n*On+bk。
深度卷积是按照通道进行的,因此不同通道的信息不会互相干扰,如果需要对不同通道进行信息融合,可以通过点式卷积将不同通道的卷积结果结合起来。
如图5所示为本申请实施例提供的一维深度可分离卷积神经网络的结构,包括第一路径和第二路径。
其中,第一路径用于提取多频带语音信号的时间特征,第二路径用于提取多频带语音信号的时频特征。
可选地,第一路径包括第一可分离卷积模块、第二可分离卷积模块、第三可分离卷积模块。第二路径包括第一深度可分离卷积模块、第二深度可分离卷积模块、第四可分离卷积模块。
其中,如图6所示,该可分离卷积模块包括一维可分离卷积层、批量归一化层和激活函数层。如图7所示,深度可分离卷积模块包括一维可分离卷积层、一维逐点卷积层、批量归一化层和激活函数层。
示例地,基于图5所示的一维深度可分离卷积神经网络结构,步骤S12的具体实现方式为:
S121:将多频带语音信号输入至第一可分离卷积模块,得到第一多频带语音信号特征向量,并计算第一多频带语音信号特征向量的平均值和方差。
S122:将第一多频带语音信号特征向量输入至第二可分离卷积模块得到第二多频带语音信号特征向量。
S123:将第二多频带语音信号特征向量输入至第三可分离卷积模块,得到第三多频带语音信号特征向量。
S124:将第一多频带语音信号特征向量的平均值和方差与第三多频带语音信号特征向量组合作为多频带语音信号的时间特征向量。
其中,第一多频带语音信号特征向量为每个频带语音信号的详细特征,考虑输出特征向量维度大小,将第一多频带语音信号特征向量的平均值和方差作为多频带语音信号的时间特征向量的一部分。第三多频带语音信号特征向量为各频带语音信号的全局特征,以反映多频带语音信号在较长时间内的特性。
S125:将多频带语音信号输入至第一深度可分离卷积模块,得到第四多频带语音信号特征向量,并计算第四多频带语音信号特征向量的平均值和方差;
S126:将第四多频带语音信号特征向量输入至第四可分离卷积模块,得到第五多频带语音信号特征向量;
S127:将第五多频带语音信号特征向量输入至第二深度可分离卷积模块,得到第六多频带语音信号特征向量;
S128:将第四多频带语音信号特征向量的平均值和方差与第六多频带语音信号特征向量组合作为多频带语音信号的时频特征向量。
S129:将多频带语音信号的时间特征和时频特征组合作为多频带语音信号特征向量。
第二路径与第一路径的结构基本相似,其主要区别在于,第二路径在输出短期和长期时频特征之前,用一个输出通道的点卷积确定不同频带之间的关系。
可选地,在本申请的其他实施例中,一维深度可分离卷积神经网络的层数还可以是1、2或其他。当利用神经网络提取特征时,往往从浅层提取的特征是较为详细的,随着网络层数的增加,网络提取的特征会越来越倾向于大区域特征而不是细节特征,因此本实施例中的深度可分离卷积神经网络采用三层卷积层。
S13:利用全连接网络对多频带语音信号特征向量进行分类得到分类结果,并将分类结果作为待检测语音信号的异常指数。
在一些实施例中,步骤S13的具体实现方式为:将多频带语音信号特征向量输入至全连接网络中,根据特征向量之间的非线性组合关系,使用SoftMax函数获取分类结果,并计算该多频带语音信号特征向量被划分为每个类别的预测概率。
其中,预测概率计算公式为:
其中,exp(·)为指数函数。
在一些实施例中,步骤S13后还包括:将待检测语音信号的异常指数与预设阈值比较,以判断待检测语音信号的健康情况。
在本实施例中,使用可解释卷积滤波器组可以更好的捕捉语音信号中的频带信息。使用一维深度可分离卷积神经网络的第一路径和第二路径分别提取多频带语音信号的短时和长时的时间特征与时频特征作为多频带语音信号特征向量,提高了特征提取的有效性和可解释性。最后使用全连接网络对多频带语音信号进行分类得到待检测语音信号的异常指数。因此,使用本实施例提供的可解释卷积滤波器组和一维深度可分离卷积神经网络进行嗓音检测不仅提高了特征提取的有效性,也使其更具有可解释性,增加了嗓音检测结果的可靠性。
实施例2:
基于上述实施例1,本申请实施例还提出了一种改进的可解释卷积滤波器组(AT-SincNet)。
对于一些复杂的深度模型,现有的可解释卷积滤波器组(SincNet)的参数优化是缓慢有限的,在嗓音检测过程中,其优化范围仅在几十赫兹之间,与语音的实际频率范围相比,其优化效果并不明显。
因此,本实施例中提供的AT-SincNet在SincNet的基础上增加了可训练参数A,即每个滤波器的振幅,以便滤波器组在对待检测语音信号划分频带时,根据每个频带信号的重要程度增加或减少每个频带的幅值响应,减少不重要频带的作用。
具体地,AT-SincNet在时域和频域的表达公式为:
gAT(n,f1,f2)=A[2f2sinc(2πf2n)-2f1sinc(2πf1n)],
如图8、图9所示分别为SincNet与AT-SincNet的幅频响应示意图。如图10所示为SincNet与AT-SincNet的训练损失对比示意图。如图11所示为SincNet与AT-SincNet的测试损失对比示意图。
可以看出,AT-SincNet比SincNet具有更好的拟合性,并且由于网络较深,二者对于频带位置和宽度地优化都不明显,但是AT-SincNet可以训练每个滤波器的幅值,从而更好地反映不同频带的重要性。
实施例3:
基于上述实施例1和实施例2,本实施例中提供了另一种语音检测方法,其原理示意图如图12所示,包括:
步骤1:将待检测语音信号划分为M帧。
步骤2:将M帧待检测语音信号分别输入至AT-SincNet,得到M组多频带语音信号。
步骤3:将M组多频带语音信号分别输入一维深度可分离卷积神经网络中的第一路径提取多频带语音信号的时间特征,得到M组多频带语音信号的时间特征向量。
步骤4:将M组多频带语音信号分别输入一维深度可分离卷积神经网络中的第二路径提取多频带语音信号的时频特征,得到M组多频带语音信号的时频特征向量。
步骤5:将M组多频带语音信号的时间特征向量和时频特征向量组合得到M组多频带语音信号特征向量。
步骤6:将M组多频带语音信号特征向量输入至全连接网络进行分类,得到M组分类结果。
步骤7:对M组分类结果取均值作为待检测语音信号的异常指数。
步骤8:将待检测语音信号的异常指数与预设阈值比较,以判断待检测语音信号的健康情况。
示例地,在一些实施例中,可以在获得M组分类结果后,对每一组分类结果进行判断,然后将该判断结果的期望值作为该待检测语音信号的异常指数index,将该异常指数与预设阈值p比较,做出以下判断:
if index>p,
tjen result=pathological;
else result=healthy。
因为嗓音是复杂的非线性信号,即使是健康的嗓音也可能在某些部位出现异常的数值,而病态的嗓音也可能在一段时间内出现正常波形。在一些嗓音检测方法中,为了减少输入数据量,会选择待检测语音的某一段进行检测,而基于嗓音的特性,这种方法往往会导致嗓音检测结果错误。
因此,本实施例中提供的嗓音检测方法将一个语音信号划分为若干帧,分别对每一帧进行判断,然后对若干帧语音信号的判断结果取均值作为待检测语音信号的异常指数。降低了一些异常帧对与嗓音检测结果的影响,提高了嗓音检测结果的可靠性。
实施例4:
基于上述实施例1、实施例2和实施例3,本申请实施例还使用本方法在MEEI、SVD、HUPA三个嗓音数据库以及苏州大学附属第一医院收集的嗓音数据中进行了嗓音检测实验。
如图13所示为使用本方法进行嗓音检测时提取特征的重要性示意图。
表1所示为使用本方法和其他方法分别在三个数据库中进行检测的结果对比数据。
表1
表2所示为使用本方法和其他方法对苏州大学附属第一医院收集的嗓音数据进行检测的结果对比数据。
表2
可以看出本申请提出的嗓音检测方法在进行嗓音检测时相比其他方法具有更高的准确性。
本申请还提供了一种嗓音检测装置,如图14所示,包括:
滤波模块10,用于将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号。
特征提取模块20,用于利用一维深度可分离卷积神经网络的第一路径提取多频带语音信号的时间特征,利用一维深度可分离卷积神经网络的第二路径提取多频带语音信号的时频特征,将多频带语音信号的时间特征与时频特征组合作为多频带语音信号特征向量。
分类模块30,用于利用全连接网络对多频带语音信号特征向量进行分类得到分类结果,并将分类结果作为待检测语音信号的异常指数。
可选地,该嗓音检测装置还包括比较模块,用于将待检测语音信号的异常指数与预设阈值比较,以判断待检测语音信号的状态。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种嗓音检测方法,其特征在于,包括:
将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号;
利用一维深度可分离卷积神经网络的第一路径提取所述多频带语音信号的时间特征,利用所述一维深度可分离卷积神经网络的第二路径提取所述多频带语音信号的时频特征,将所述多频带语音信号的时间特征与所述多频带语音信号的时频特征组合作为多频带语音信号特征向量;
利用全连接网络对所述多频带语音信号特征向量进行分类得到分类结果,并将所述分类结果作为所述待检测语音信号的异常指数。
2.根据权利要求1所述的嗓音检测方法,其特征在于,所述将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号前还包括:为所述可解释卷积滤波器组中的滤波器分配不同的权重。
3.根据权利要求1所述的嗓音检测方法,其特征在于,所述将待检测语音信号分别输入可解释卷积滤波器组,得到多频带语音信号包括:
将所述待检测语音信号划分为M帧;
将M帧待检测语音信号分别输入至所述可解释卷积滤波器组,得到M组多频带语音信号。
4.根据权利要求3所述的嗓音检测方法,其特征在于,所述利用一维深度可分离卷积神经网络的第一路径提取所述多频带语音信号的时间特征,利用所述一维深度可分离卷积神经网络的第二路径提取所述多频带语音信号的时频特征,将所述多频带语音信号的时间特征与所述多频带语音信号的时频特征组合作为多频带语音信号特征向量包括:
将所述M组多频带语音信号输入至所述一维深度可分离卷积神经网络的第一路径提取所述多频带语音信号的时间特征,得到M组多频带语音信号的时间特征向量;
将所述M组多频带语音信号输入至所述一维深度可分离卷积神经网络的第二路径提取所述多频带语音信号的时频特征,得到M组多频带语音信号的时频特征向量;
将所述M组多频带语音信号的时间特征向量和时频特征向量组合得到M组多频带语音信号特征向量;
其中,所述第一路径包括第一可分离卷积模块、第二可分离卷积模块、第三可分离卷积模块,所述第二路径包括第四可分离卷积模块、第一深度可分离卷积模块和第二深度可分离卷积模块。
5.根据权利要求4所述的嗓音检测方法,其特征在于,所述将所述M组多频带语音信号输入至所述一维深度可分离卷积神经网络的第一路径提取所述多频带语音信号的时间特征,得到M组多频带语音信号的时间特征向量包括:
将所述多频带语音信号输入至所述第一可分离卷积模块,得到第一多频带语音信号特征向量,并计算所述第一多频带语音信号特征向量的平均值和方差;
将所述第一多频带语音信号特征向量输入至所述第二可分离卷积模块得到第二多频带语音信号特征向量;
将所述第二多频带语音信号特征向量输入至所述第三可分离卷积模块,得到第三多频带语音信号特征向量;
将所述第一多频带语音信号特征向量的平均值和方差与第三多频带语音信号特征向量组合作为所述多频带语音信号的时间特征向量。
6.根据权利要求4所述的嗓音检测方法,其特征在于,所述将所述M组多频带语音信号输入至所述一维深度可分离卷积神经网络的第二路径提取所述多频带语音信号的时频特征,得到M组多频带语音信号的时频特征向量包括:
将所述多频带语音信号输入至所述第一深度可分离卷积模块,得到第四多频带语音信号特征向量,并计算所述第四多频带语音信号特征向量的平均值和方差;
将所述第四多频带语音信号特征向量输入至所述第四可分离卷积模块,得到第五多频带语音信号特征向量;
将所述第五多频带语音信号特征向量输入至所述第二深度可分离卷积模块,得到第六多频带语音信号特征向量;
将所述第四多频带语音信号特征向量的平均值和方差与所述第六多频带语音信号特征向量组合作为所述多频带语音信号的时频特征向量。
7.根据权利要求4所述的嗓音检测方法,其特征在于,所述利用全连接网络对所述多频带语音信号特征向量进行分类得到分类结果,并将所述分类结果作为所述待检测语音信号的异常指数包括:
将所述M组多频带语音信号特征向量输入至全连接网络进行分类,得到M组分类结果;
对所述M组分类结果取均值作为所述待检测语音信号的异常指数。
8.根据权利要求1所述的嗓音检测方法,其特征在于,所述利用全连接网络对所述多频带语音信号特征向量进行分类得到分类结果,并将所述分类结果作为所述待检测语音信号的异常指数后还包括:将所述待检测语音信号的异常指数与预设阈值比较,以判断所述待检测语音信号的状态。
9.一种嗓音检测装置,其特征在于,包括:
滤波模块,用于将待检测语音信号输入可解释卷积滤波器组,得到多频带语音信号;
特征提取模块,用于利用一维深度可分离卷积神经网络的第一路径提取所述多频带语音信号的时间特征,利用所述一维深度可分离卷积神经网络的第二路径提取所述多频带语音信号的时频特征,将所述多频带语音信号的时间特征与所述多频带语音信号的时频特征组合作为多频带语音信号特征向量;
分类模块,用于利用全连接网络对所述多频带语音信号特征向量进行分类得到分类结果,并将所述分类结果作为所述待检测语音信号的异常指数。
10.根据权利要求9所述的嗓音检测装置,其特征在于,还包括比较模块,用于将所述待检测语音信号的异常指数与预设阈值比较,以判断所述待检测语音信号的状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310534832.0A CN116597864A (zh) | 2023-05-12 | 2023-05-12 | 一种嗓音检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310534832.0A CN116597864A (zh) | 2023-05-12 | 2023-05-12 | 一种嗓音检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116597864A true CN116597864A (zh) | 2023-08-15 |
Family
ID=87598563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310534832.0A Pending CN116597864A (zh) | 2023-05-12 | 2023-05-12 | 一种嗓音检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597864A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116289A (zh) * | 2023-10-24 | 2023-11-24 | 吉林大学 | 病区医护对讲管理系统及其方法 |
CN117975994A (zh) * | 2024-04-01 | 2024-05-03 | 华南师范大学 | 嗓音数据的质量分类方法、装置以及计算机设备 |
-
2023
- 2023-05-12 CN CN202310534832.0A patent/CN116597864A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116289A (zh) * | 2023-10-24 | 2023-11-24 | 吉林大学 | 病区医护对讲管理系统及其方法 |
CN117116289B (zh) * | 2023-10-24 | 2023-12-26 | 吉林大学 | 病区医护对讲管理系统及其方法 |
CN117975994A (zh) * | 2024-04-01 | 2024-05-03 | 华南师范大学 | 嗓音数据的质量分类方法、装置以及计算机设备 |
CN117975994B (zh) * | 2024-04-01 | 2024-06-11 | 华南师范大学 | 嗓音数据的质量分类方法、装置以及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116597864A (zh) | 一种嗓音检测方法及装置 | |
Ittichaichareon et al. | Speech recognition using MFCC | |
Kinnunen et al. | Voice activity detection using MFCC features and support vector machine | |
US7177808B2 (en) | Method for improving speaker identification by determining usable speech | |
Singh et al. | Robust detection of Parkinson's disease using harvested smartphone voice data: A telemedicine approach | |
CN109285551B (zh) | 基于wmfcc和dnn的帕金森患者声纹识别方法 | |
US10548534B2 (en) | System and method for anhedonia measurement using acoustic and contextual cues | |
Vrindavanam et al. | Machine learning based COVID-19 cough classification models-a comparative analysis | |
CN110992985A (zh) | 识别跑步机异音的识别模型确定方法、识别方法、系统 | |
Tan et al. | Evaluation of a Sparse Representation-Based Classifier For Bird Phrase Classification Under Limited Data Conditions. | |
CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
CN116898455B (zh) | 一种基于深度学习模型的睡眠脑电信号检测方法及系统 | |
EP4102500A1 (en) | System and method for robust wakeword detection in presence of noise in new unseen environments without additional data | |
Pazhanirajan et al. | EEG signal classification using linear predictive cepstral coefficient features | |
CN115346561A (zh) | 基于语音特征的抑郁情绪评估预测方法及系统 | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
CN115910097A (zh) | 一种高压断路器潜伏性故障可听声信号识别方法及系统 | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
Porieva et al. | Investigation of lung sounds features for detection of bronchitis and COPD using machine learning methods | |
US10368804B2 (en) | Device, system and method for detection of fluid accumulation | |
Kuresan et al. | Genetic algorithm and principal components analysis in speech-based parkinson's early diagnosis studies | |
Dov et al. | Voice activity detection in presence of transients using the scattering transform | |
Pop et al. | On forensic speaker recognition case pre-assessment | |
US20160080863A1 (en) | Feedback suppression test filter correlation | |
WO2018117171A1 (ja) | 生体音解析方法、プログラム、記憶媒体及び生体音解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |