CN116645975B - 一种呼吸声音特征自动抽取方法、装置、存储介质及系统 - Google Patents
一种呼吸声音特征自动抽取方法、装置、存储介质及系统 Download PDFInfo
- Publication number
- CN116645975B CN116645975B CN202310633815.2A CN202310633815A CN116645975B CN 116645975 B CN116645975 B CN 116645975B CN 202310633815 A CN202310633815 A CN 202310633815A CN 116645975 B CN116645975 B CN 116645975B
- Authority
- CN
- China
- Prior art keywords
- preset
- mel
- frequency
- matrix
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 81
- 208000037656 Respiratory Sounds Diseases 0.000 title claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 59
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 19
- 230000000241 respiratory effect Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000011426 transformation method Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000007781 pre-processing Methods 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 206010061876 Obstruction Diseases 0.000 description 1
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- 235000009413 Ratibida columnifera Nutrition 0.000 description 1
- 241000510442 Ratibida peduncularis Species 0.000 description 1
- 206010047924 Wheezing Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 230000036262 stenosis Effects 0.000 description 1
- 208000037804 stenosis Diseases 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种呼吸声音特征自动抽取方法、装置、存储介质以及系统。通过将Mel频率倒谱系数特征与可变窗口S‑Transform特征融合以获得第一融合矩阵,利用深度学习网络对特征进行自动抽取,该自动抽取方法、装置、计算机可读存储介质以及系统提高了特征抽取的多模态性,减少了重要特征信息损失,并进一步提高了特征抽取效果,保证准确度和有效性;进一步地,本发明公开的一种呼吸声音特征自动抽取方法、装置、存储介质以及系统还通过对采集的声音进行预处理,从而降低了计算量。
Description
技术领域
本发明涉及呼吸声音特征自动抽取技术领域,尤其涉及一种呼吸声音特征自动抽取方法、装置、计算机可读存储介质及系统。
背景技术
呼吸声音特征抽取在健康领域具有重要价值,因为这是一种无创伤的方法,用于辅助诊断和监测非正常呼吸音。因为呼吸音是由人类呼吸系统中的气流引起的,而这些气流本身是不稳定的,并且受多种因素的影响,如呼吸节律、呼吸深度、肺容量等等。此外,呼吸音也受到许多外部因素的干扰,例如环境噪声、呼吸道阻塞或狭窄、肺部疾病等等。这些因素都可以导致呼吸音的频率、振幅和形态发生变化,使得呼吸音信号更加不稳定。因此,呼吸音是一种不稳定的信号,这使得其分析和处理变得更加困难,需要使用特殊的信号处理和分析方法来有效地处理和解释呼吸音信号。
在现有技术中,通常通过时间域特征提取法、频率域特征提取法、Mel频率倒谱系数提取法、线性预测倒谱系数提取法、常用子带参数提取法以及小波变换提取法进行特征抽取,其中,最经典的两种的特征抽取方法,即MFCC(Mel频率倒谱系数)和STFT(短时傅里叶变换),各自在一定程度上能提取有效信息。
但是,MFCC存在如下缺陷:1.对信号变化不敏感:MFCC只关注了频率特征,而忽略了信号在时间轴上的变化,因此在处理瞬态信号(如短促的呼吸声)时效果不佳;2.对参数选取敏感:MFCC的效果受到参数设置的影响,需要对参数进行优化,以达到最佳效果;3.不适合长时间信号:MFCC适用于短时语音信号,长时间的信号(如长时间的呼吸声)需要进行分帧处理。MFCC主要关注语音的音色信息,而忽略了其他重要的语音信息,如语调、语速等,因此如果结合其他特征可以提高分类性能;而STFT则存在如下缺陷:对窗函数的宽窄无法做到精确定义。
因此,当前需要一种呼吸声音特征自动抽取方法、装置、计算机可读存储介质以及系统,从而克服现有技术中存在的上述缺陷。
发明内容
本发明实施例提供一种呼吸声音特征自动抽取方法、装置、计算机可读存储介质以及系统,从而提升呼吸声音特征自动抽取的准确性。
本发明一实施例提供一种呼吸声音特征自动抽取方法,所述自动抽取方法包括:获取待抽取的音频信号样本;根据预设的分频数量、预设的窗口参数组、预设的S变换方法、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得第一融合矩阵;将所述第一融合矩阵输入预设的呼吸特征抽取神经网络中以进行特征抽取,获得呼吸特征向量。
作为上述方案的改进,根据预设的分频数量、预设的窗口参数组、预设的S变换方法、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得第一融合矩阵,具体包括:根据预设的分频数量、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得梅尔倒谱系数矩阵;根据预设的窗口参数组、所述音频信号样本以及预设的S变换方法,获得第一特征矩阵;根据预设的拼接方法、将所述梅尔倒谱系数矩阵以及所述第一特征矩阵进行拼接,获得第一融合矩阵。
作为上述方案的改进,根据预设的分频数量、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得梅尔倒谱系数矩阵,具体包括:将所述音频信号样本分成若干个第一信号帧,并根据预设的窗函数对各个第一信号帧进行窗函数处理,对应获得第二信号帧;每个第二信号帧进行傅里叶变换以获取若干个频域信号;将所述频域信号对应划分到若干个频段以获取若干个频域信号组,并通过预设的梅尔滤波器分别对各个频域信号组进行滤波处理,对应获得若干个对数能量谱;每个对数能量谱对应一个频域信号组;对各个对数能量谱进行离散余弦变换并以矩阵形式输出,获得梅尔倒谱系数矩阵。
作为上述方案的改进,根据预设的窗口参数组、所述音频信号样本以及预设的S变换方法,获得第一特征矩阵,具体包括:根据预设的窗口参数组设置加窗函数;根据所述加窗函数,分别对各个音频信号样本进行S变换以对应获取各个窗口的能量图;将所有的能量图合并为第一特征矩阵输出。
作为上述方案的改进,预设的梅尔滤波器对应的计算公式具体为:其中,|X(k)|为频域信号的模,Hm(k)为第m个梅尔滤波器的频率响应,Lm为第m个频段的对数能量谱。
作为上述方案的改进,所述呼吸特征抽取神经网络包括自注意力层、前馈神经网络、残差连接层、归一化神经网络、头自注意力机制以及前馈神经网络。
作为上述方案的改进,在获取待抽取的音频信号样本之后,所述自动抽取方法还包括:对所述音频信号样本依次进行去噪、滤波和降采样处理。
本发明另一实施例对应提供了一种呼吸声音特征自动抽取装置,所述自动抽取装置包括样本获取单元、矩阵融合单元以及特征抽取单元,其中,所述样本获取单元用于获取待抽取的音频信号样本;所述矩阵融合单元用于根据预设的分频数量、预设的窗口参数组、预设的S变换方法、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得第一融合矩阵;所述特征抽取单元用于将所述第一融合矩阵输入预设的呼吸特征抽取神经网络中以进行特征抽取,获得呼吸特征向量。
作为上述方案的改进,所述矩阵融合单元还用于:根据预设的分频数量、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得梅尔倒谱系数矩阵;根据预设的窗口参数组、所述音频信号样本以及预设的S变换方法,获得第一特征矩阵;根据预设的拼接方法、将所述梅尔倒谱系数矩阵以及所述第一特征矩阵进行拼接,获得第一融合矩阵。
作为上述方案的改进,所述矩阵融合单元还用于:将所述音频信号样本分成若干个第一信号帧,并根据预设的窗函数对各个第一信号帧进行窗函数处理,对应获得第二信号帧;每个第二信号帧进行傅里叶变换以获取若干个频域信号;将所述频域信号对应划分到若干个频段以获取若干个频域信号组,并通过预设的梅尔滤波器分别对各个频域信号组进行滤波处理,对应获得若干个对数能量谱;每个对数能量谱对应一个频域信号组;对各个对数能量谱进行离散余弦变换并以矩阵形式输出,获得梅尔倒谱系数矩阵。
作为上述方案的改进,所述矩阵融合单元还用于:根据预设的窗口参数组设置加窗函数;根据所述加窗函数,分别对各个音频信号样本进行S变换以对应获取各个窗口的能量图;将所有的能量图合并为第一特征矩阵输出。
本发明另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如前所述的呼吸声音特征自动抽取方法。
本发明另一实施例提供了一种呼吸声音特征自动抽取系统,所述自动抽取系统包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如前所述的呼吸声音特征自动抽取方法。
与现有技术相比,本技术方案存在如下有益效果:
本发明提供了一种呼吸声音特征自动抽取方法、装置、计算机可读存储介质以及系统,通过将Mel频率倒谱系数特征与可变窗口S-Transform特征融合以获得第一融合矩阵,利用深度学习网络对特征进行自动抽取,该自动抽取方法、装置、计算机可读存储介质以及系统提高了特征抽取的多模态性,减少了重要特征信息损失,并进一步提高了特征抽取效果,保证准确度和有效性。
进一步地,本发明提供的一种呼吸声音特征自动抽取方法、装置、计算机可读存储介质以及系统还通过对采集的声音进行预处理,从而降低了计算量。
附图说明
图1是本发明一实施例提供的一种呼吸声音特征自动抽取方法的流程示意图;
图2是本发明一实施例提供的一种呼吸声音特征自动抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
具体实施例一
本发明实施例首先描述了一种呼吸声音特征自动抽取方法。图1是本发明一实施例提供的一种呼吸声音特征自动抽取方法的流程示意图。
如图1所示,所述自动抽取方法包括:
S1:获取待抽取的音频信号样本。
在一个实施例中,在获取待抽取的音频信号样本之后,所述自动抽取方法还包括:对所述音频信号样本依次进行去噪、滤波和降采样处理。其中,去噪可以去除环境噪声和仪器噪声,滤波可以去除不必要的高频噪声和低频噪声,降采样可以减少信号的采样率,降低计算量。
S2:根据预设的分频数量、预设的窗口参数组、预设的S变换方法、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得第一融合矩阵。
在一个实施例中,根据预设的分频数量、预设的窗口参数组、预设的S变换方法、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得第一融合矩阵,具体包括:根据预设的分频数量、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得梅尔倒谱系数矩阵;根据预设的窗口参数组、所述音频信号样本以及预设的S变换方法,获得第一特征矩阵;根据预设的拼接方法、将所述梅尔倒谱系数矩阵以及所述第一特征矩阵进行拼接,获得第一融合矩阵。
由于MFCC的特征提取过程依赖于信号的长度,信号的长度不一致在实际应用中可能会存在特征不一致的问题,因此,在提取特征前,本实施事先对音频信号样本进行分频段处理。在此基础上,由于MFCC的方法特征,使得其更适用于处理短时长信号,因此,除了分频段外,本实施例还对音频信号样本进行分帧处理。
在实际应用中,首先将音频信号分成若干个帧,每帧通常是20-40毫秒的长度,两帧之间通常有50%重叠,以保证不会遗漏关键信息;随后,对每帧信号进行窗函数(例如,汉明窗、海宁窗等常用的窗函数,本实施例中采用汉明窗)处理,以减少信号边缘处的突变;接着,对每帧信号进行傅里叶变换,将时域信号转化为频域信号(对应的离散信号采用离散时间傅里叶变换);然后,通过梅尔滤波器组,将信号分为若干个频段(每个频段对应一个梅尔滤波器)分别计算各个频段的对数能量谱,并对每个频段的对数能量谱进行离散余弦变换(DCT),得到梅尔倒谱系数,并以矩阵形式输出为梅尔倒谱系数矩阵。
其中,汉明窗的数学公式为:
w(n)=0.54-0.46*cos(2*pi*n/(N-1));
式中,n是窗口序列的索引,N是窗口序列的长度。
在一个实施例中,预设的梅尔滤波器对应的计算公式具体为:
其中,|X(k)|为频域信号的模,Hm(k)为第m个梅尔滤波器的频率响应,Lm为第m个频段的对数能量谱。
其中,DCT变换的数学公式如下:
其中,M为梅尔滤波器的个数,Lm为第m个频段的对数能量谱,Cn为第n个梅尔倒谱系数。
即,在一个实施例中,根据预设的分频数量、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得梅尔倒谱系数矩阵,具体包括:将所述音频信号样本分成若干个第一信号帧,并根据预设的窗函数对各个第一信号帧进行窗函数处理,对应获得第二信号帧;每个第二信号帧进行傅里叶变换以获取若干个频域信号;将所述频域信号对应划分到若干个频段以获取若干个频域信号组,并通过预设的梅尔滤波器分别对各个频域信号组进行滤波处理,对应获得若干个对数能量谱;每个对数能量谱对应一个频域信号组;对各个对数能量谱进行离散余弦变换并以矩阵形式输出,获得梅尔倒谱系数矩阵。
在一个实施例中,根据预设的窗口参数组、所述音频信号样本以及预设的S变换方法,获得第一特征矩阵,具体包括:根据预设的窗口参数组设置加窗函数;根据所述加窗函数,分别对各个音频信号样本进行S变换以对应获取各个窗口的能量图;将所有的能量图合并为第一特征矩阵输出。
其中,S变换的公式具体为:
式中,x(t)为时域信号,ga(t)为加窗函数(通常选择Mexican Hat,选择合适的S-Transform窗口大小和重叠率,通常需要通过实验得出最佳的参数)。将所有窗口的能量图合并成一个大的矩阵,作为S-Transform能量图的表示。
在获得了梅尔倒谱系数矩阵以及第一特征矩阵之后,将梅尔倒谱系数矩阵以及第一特征矩阵进行融合,用串联的拼接方式将两个矩阵按列拼接在一起,得到新的特征矩阵Input(本文描述为“第一融合矩阵”)。
S3:将所述第一融合矩阵输入预设的呼吸特征抽取神经网络中以进行特征抽取,获得呼吸特征向量。
在一个实施例中,所述呼吸特征抽取神经网络包括自注意力层、前馈神经网络、残差连接、层归一化神经网络、头自注意力机制以及前馈神经网络。
这个设计的多层次相同结构的层级串接组成网络结构来提取融合的呼吸音特征,每一层包含以下三个子层级:自注意力层(Attention layer),前馈神经网络(Feedforwardlayer),残差连接(Residual connection)、层归一化(Layer normalization)、头自注意力机制和前馈神经网络。在最后一层,使用全局池化操作完成呼吸特征抽取神经网络自动抽取特征后的固定大小的特征向量输出呼吸特征向量。
在每个层级中,通过自注意力机制,网络能够自动关注序列中与当前位置相关的其它位置的信息,从而对序列进行更好地特征提取。对于呼吸音来说是时序高相关的,所以对输入的S-tranform和MFCC的融合特征不同于用经典的CNN,ResNET等深度卷积神经网络来自动抽取图像特征,原因如下:ResNet适合捕捉局部特征和纹理,具有平移不变性,参数共享和结构分层等特点,但在处理长距离依赖和全局上下文方面可能略显不足。而Transformer适合处理长距离依赖和全局上下文信息,可以实现并行计算和模型可扩展性,但在捕捉局部特征和纹理方面相对较弱,所以本发明采用ResNet的残差连接和多头自注意力结合使用,以便在捕捉局部特征的同时,也能有效处理长距离依赖和全局上下文信息。因为呼吸音的各种异常情况,例如咳嗽,哮鸣音等在前期的特征变换过程是加窗分帧计算的,所以这些序列结果之间有对应的长距离依赖和全局上下文关系,这个可以通过结合注意力机制和残差连接计算得到加强。
本发明实施例描述了一种呼吸声音特征自动抽取方法,通过将Mel频率倒谱系数特征与可变窗口S-Transform特征融合以获得第一融合矩阵,利用深度学习网络对特征进行自动抽取,该自动抽取方法、装置、计算机可读存储介质以及系统提高了特征抽取的多模态性,减少了重要特征信息损失,并进一步提高了特征抽取效果,保证准确度和有效性;进一步地,本发明实施例描述的一种呼吸声音特征自动抽取方法还通过对采集的声音进行预处理,从而降低了计算量。
具体实施例二
除上述方法外,本发明实施例还公开了一种呼吸声音特征自动抽取装置。图2是本发明一实施例提供的一种呼吸声音特征自动抽取装置的结构示意图。
如图2所示,所述自动抽取装置包括样本获取单元、矩阵融合单元以及特征抽取单元,其中,所述样本获取单元用于获取待抽取的音频信号样本;所述矩阵融合单元用于根据预设的分频数量、预设的窗口参数组、预设的S变换方法、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得第一融合矩阵;所述特征抽取单元用于将所述第一融合矩阵输入预设的呼吸特征抽取神经网络中以进行特征抽取,获得呼吸特征向量。
在一个实施例中,所述矩阵融合单元还用于:根据预设的分频数量、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得梅尔倒谱系数矩阵;根据预设的窗口参数组、所述音频信号样本以及预设的S变换方法,获得第一特征矩阵;根据预设的拼接方法、将所述梅尔倒谱系数矩阵以及所述第一特征矩阵进行拼接,获得第一融合矩阵。
在一个实施例中,所述矩阵融合单元还用于:将所述音频信号样本分成若干个第一信号帧,并根据预设的窗函数对各个第一信号帧进行窗函数处理,对应获得第二信号帧;每个第二信号帧进行傅里叶变换以获取若干个频域信号;将所述频域信号对应划分到若干个频段以获取若干个频域信号组,并通过预设的梅尔滤波器分别对各个频域信号组进行滤波处理,对应获得若干个对数能量谱;每个对数能量谱对应一个频域信号组;对各个对数能量谱进行离散余弦变换并以矩阵形式输出,获得梅尔倒谱系数矩阵。
在一个实施例中,所述矩阵融合单元还用于:根据预设的窗口参数组设置加窗函数;根据所述加窗函数,分别对各个音频信号样本进行S变换以对应获取各个窗口的能量图;将所有的能量图合并为第一特征矩阵输出。
其中,所述自动抽取装置集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。本发明另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如前所述的呼吸声音特征自动抽取方法。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,单元之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例描述了一种呼吸声音特征自动抽取装置及计算机可读存储介质,通过将Mel频率倒谱系数特征与可变窗口S-Transform特征融合以获得第一融合矩阵,利用深度学习网络对特征进行自动抽取,该自动抽取方法、装置、计算机可读存储介质以及系统提高了特征抽取的多模态性,减少了重要特征信息损失,并进一步提高了特征抽取效果,保证准确度和有效性;进一步地,本发明实施例描述的一种呼吸声音特征自动抽取装置及计算机可读存储介质还通过对采集的声音进行预处理,从而降低了计算量。
具体实施例三
除上述方法和装置外,本发明实施例还描述了一种呼吸声音特征自动抽取系统。
所述自动抽取系统包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如前所述的呼吸声音特征自动抽取方法。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述装置的控制中心,利用各种接口和线路连接整个装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明实施例描述了一种呼吸声音特征自动抽取系统,通过将Mel频率倒谱系数特征与可变窗口S-Transform特征融合以获得第一融合矩阵,利用深度学习网络对特征进行自动抽取,该自动抽取方法、装置、计算机可读存储介质以及系统提高了特征抽取的多模态性,减少了重要特征信息损失,并进一步提高了特征抽取效果,保证准确度和有效性;进一步地,本发明实施例描述的一种呼吸声音特征自动抽取系统还通过对采集的声音进行预处理,从而降低了计算量。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种呼吸声音特征自动抽取方法,其特征在于,所述自动抽取方法包括:
获取待抽取的音频信号样本;
根据预设的分频数量、预设的窗口参数组、预设的S变换方法、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得第一融合矩阵;其中,根据预设的窗口参数组设置加窗函数;根据所述加窗函数,分别对各个音频信号样本进行S变换以对应获取各个窗口的能量图;将所有的能量图合并为第一特征矩阵输出;根据预设的分频数量、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得梅尔倒谱系数矩阵;根据预设的拼接方法、将所述梅尔倒谱系数矩阵以及所述第一特征矩阵进行拼接,获得第一融合矩阵;
所述根据预设的分频数量、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得梅尔倒谱系数矩阵,具体包括:
将所述音频信号样本分成若干个第一信号帧,并根据预设的窗函数对各个第一信号帧进行窗函数处理,对应获得第二信号帧;
每个第二信号帧进行傅里叶变换以获取若干个频域信号;
将所述频域信号对应划分到若干个频段以获取若干个频域信号组,并通过预设的梅尔滤波器分别对各个频域信号组进行滤波处理,对应获得若干个对数能量谱;每个对数能量谱对应一个频域信号组;其中,所述预设的梅尔滤波器对应的计算公式具体为:
其中,|X(k)|为频域信号的模,Hm(k)为第m个梅尔滤波器的频率响应,Lm为第m个频段的对数能量谱;
对各个对数能量谱进行离散余弦变换并以矩阵形式输出,获得梅尔倒谱系数矩阵;
将所述第一融合矩阵输入预设的呼吸特征抽取神经网络中以进行特征抽取,获得呼吸特征向量。
2.根据权利要求1所述的呼吸声音特征自动抽取方法,其特征在于,根据预设的分频数量、预设的窗口参数组、预设的S变换方法、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得第一融合矩阵,具体包括:
根据预设的窗口参数组、所述音频信号样本以及预设的S变换方法,获得第一特征矩阵。
3.根据权利要求1所述的呼吸声音特征自动抽取方法,其特征在于,所述呼吸特征抽取神经网络包括自注意力层、前馈神经网络、残差连接层、归一化神经网络、头自注意力机制以及前馈神经网络。
4.根据权利要求1-3任一项所述的呼吸声音特征自动抽取方法,其特征在于,在获取待抽取的音频信号样本之后,所述自动抽取方法还包括:
对所述音频信号样本依次进行去噪、滤波和降采样处理。
5.一种呼吸声音特征自动抽取装置,其特征在于,所述自动抽取装置包括样本获取单元、矩阵融合单元以及特征抽取单元,其中,
所述样本获取单元用于获取待抽取的音频信号样本;
所述矩阵融合单元用于根据预设的分频数量、预设的窗口参数组、预设的S变换方法、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得第一融合矩阵;其中,根据预设的窗口参数组设置加窗函数;根据所述加窗函数,分别对各个音频信号样本进行S变换以对应获取各个窗口的能量图;将所有的能量图合并为第一特征矩阵输出;根据预设的分频数量、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得梅尔倒谱系数矩阵;根据预设的拼接方法、将所述梅尔倒谱系数矩阵以及所述第一特征矩阵进行拼接,获得第一融合矩阵;
所述根据预设的分频数量、预设的Mel频率倒谱系数变换法以及所述音频信号样本,获得梅尔倒谱系数矩阵,具体包括:
将所述音频信号样本分成若干个第一信号帧,并根据预设的窗函数对各个第一信号帧进行窗函数处理,对应获得第二信号帧;
每个第二信号帧进行傅里叶变换以获取若干个频域信号;
将所述频域信号对应划分到若干个频段以获取若干个频域信号组,并通过预设的梅尔滤波器分别对各个频域信号组进行滤波处理,对应获得若干个对数能量谱;每个对数能量谱对应一个频域信号组;其中,所述预设的梅尔滤波器对应的计算公式具体为:
其中,|X(k)|为频域信号的模,Hm(k)为第m个梅尔滤波器的频率响应,Lm为第m个频段的对数能量谱;
对各个对数能量谱进行离散余弦变换并以矩阵形式输出,获得梅尔倒谱系数矩阵;
所述特征抽取单元用于将所述第一融合矩阵输入预设的呼吸特征抽取神经网络中以进行特征抽取,获得呼吸特征向量。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的呼吸声音特征自动抽取方法。
7.一种呼吸声音特征自动抽取系统,其特征在于,所述自动抽取系统包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的呼吸声音特征自动抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310633815.2A CN116645975B (zh) | 2023-05-31 | 2023-05-31 | 一种呼吸声音特征自动抽取方法、装置、存储介质及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310633815.2A CN116645975B (zh) | 2023-05-31 | 2023-05-31 | 一种呼吸声音特征自动抽取方法、装置、存储介质及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116645975A CN116645975A (zh) | 2023-08-25 |
CN116645975B true CN116645975B (zh) | 2024-03-26 |
Family
ID=87618475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310633815.2A Active CN116645975B (zh) | 2023-05-31 | 2023-05-31 | 一种呼吸声音特征自动抽取方法、装置、存储介质及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645975B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105147252A (zh) * | 2015-08-24 | 2015-12-16 | 四川长虹电器股份有限公司 | 心脏疾病识别及评估方法 |
CN108937857A (zh) * | 2018-06-01 | 2018-12-07 | 四川长虹电器股份有限公司 | 一种心音信号的识别与评估方法 |
CN114155879A (zh) * | 2021-12-06 | 2022-03-08 | 哈尔滨工程大学 | 一种利用时频融合补偿异常感知及稳定性的异音检测方法 |
-
2023
- 2023-05-31 CN CN202310633815.2A patent/CN116645975B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105147252A (zh) * | 2015-08-24 | 2015-12-16 | 四川长虹电器股份有限公司 | 心脏疾病识别及评估方法 |
CN108937857A (zh) * | 2018-06-01 | 2018-12-07 | 四川长虹电器股份有限公司 | 一种心音信号的识别与评估方法 |
CN114155879A (zh) * | 2021-12-06 | 2022-03-08 | 哈尔滨工程大学 | 一种利用时频融合补偿异常感知及稳定性的异音检测方法 |
Non-Patent Citations (3)
Title |
---|
Triple-Classification of Respiratory Sounds Using Optimized S-Transform and Deep Residual Networks;H. Chen等;IEEE Access;第07卷;32845-32852 * |
基于深度学习的呼吸应肺病听诊研究与应用;邹佳成;中国优秀硕士学位论文全文数据库 医药卫生科技辑 (月刊)(第01期);第3页第5段-第4页第1段 * |
病理语音的S变换特征;李海峰;房春英;马琳;张满彩;孙佳音;;清华大学学报(自然科学版)(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116645975A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
CN108198545B (zh) | 一种基于小波变换的语音识别方法 | |
CN111816218A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
CN110111769B (zh) | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN110931023B (zh) | 性别识别方法、系统、移动终端及存储介质 | |
Dua et al. | Performance evaluation of Hindi speech recognition system using optimized filterbanks | |
CN110970036A (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
WO2022141868A1 (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
CA3053032A1 (fr) | Methode et appareil de modification dynamique du timbre de la voix par decalage en frequence des formants d'une enveloppe spectrale | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN108172214A (zh) | 一种基于Mel域的小波语音识别特征参数提取方法 | |
Das et al. | Classification of speech with and without face mask using acoustic features | |
CN110970044A (zh) | 一种面向语音识别的语音增强方法 | |
Krishnan et al. | Features of wavelet packet decomposition and discrete wavelet transform for malayalam speech recognition | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
CN116645975B (zh) | 一种呼吸声音特征自动抽取方法、装置、存储介质及系统 | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及系统 | |
CN111341327A (zh) | 一种基于粒子群算法的说话人语音识别方法、装置和设备 | |
CN116013343A (zh) | 语音增强方法、电子设备和存储介质 | |
CN112908344B (zh) | 一种鸟鸣声智能识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |