CN115206347A - 肠鸣音的识别方法、装置、存储介质及计算机设备 - Google Patents
肠鸣音的识别方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN115206347A CN115206347A CN202110397013.7A CN202110397013A CN115206347A CN 115206347 A CN115206347 A CN 115206347A CN 202110397013 A CN202110397013 A CN 202110397013A CN 115206347 A CN115206347 A CN 115206347A
- Authority
- CN
- China
- Prior art keywords
- bowel
- recognition result
- sample
- network model
- sound signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000005236 sound signal Effects 0.000 claims abstract description 116
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 27
- 230000009467 reduction Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 12
- 230000037433 frameshift Effects 0.000 claims description 10
- 206010067715 Gastrointestinal sounds abnormal Diseases 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 6
- 210000002569 neuron Anatomy 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 208000028774 intestinal disease Diseases 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本公开提出一种肠鸣音的识别方法、装置、存储介质及计算机设备,该方法包括获取待识别的肠鸣音信号,对待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征;将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果;根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果。通过本公开能够有效提升肠鸣音识别的准确性,提升肠鸣音识别效果,使得肠鸣音识别结果具有较好的可参考性。
Description
技术领域
本公开涉及计算机设备技术领域,尤其涉及一种肠鸣音的识别方法、装置、存储介质及计算机设备。
背景技术
肠鸣音是一种能够反映人体肠道状况的生物信号,对于肠鸣音的识别能够对肠道疾病的诊断以及术后恢复提供参考和帮助。然而,由于肠鸣音信号噪声大、信号弱、随机性强以及个体差异较大等特点,肠鸣音的识别工作是一项较为困难的工作。
相关技术中,通常采用时频分析、模板匹配法和深度网络法等识别肠鸣音。
这些方式下,受限于肠鸣音的特点,识别准确率并不高,从而不具有较好的可参考性。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本公开的目的在于提出一种肠鸣音的识别方法、装置、存储介质及计算机设备,能够有效提升肠鸣音识别的准确性,提升肠鸣音识别效果,使得肠鸣音识别结果具有较好的可参考性。
为达到上述目的,本公开第一方面实施例提出的肠鸣音的识别方法,包括:获取待识别的肠鸣音信号,对所述待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征;将所述时域特征、所述频域特征及所述倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果;根据所述第一识别结果、所述第二识别结果及所述第三识别结果,确定目标识别结果。
本公开第一方面实施例提出的肠鸣音的识别方法,通过获取待识别的肠鸣音信号,对待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征,并将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果,以及根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果,能够有效提升肠鸣音识别的准确性,提升肠鸣音识别效果,使得肠鸣音识别结果具有较好的可参考性。
为达到上述目的,本公开第二方面实施例提出的肠鸣音的识别装置,包括:提取模块,用于获取待识别的肠鸣音信号,对所述待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征;识别模块,用于将所述时域特征、所述频域特征及所述倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果;确定模块,用于根据所述第一识别结果、所述第二识别结果及所述第三识别结果,确定目标识别结果。
本公开第二方面实施例提出的肠鸣音的识别装置,通过获取待识别的肠鸣音信号,对待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征,并将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果,以及根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果,能够有效提升肠鸣音识别的准确性,提升肠鸣音识别效果,使得肠鸣音识别结果具有较好的可参考性。
本公开第三方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由计算机设备的处理器被执行时,使得计算机设备能够执行本公开第一方面实施例提出的肠鸣音的识别方法。
本公开第三方面实施例提出的非临时性计算机可读存储介质,通过获取待识别的肠鸣音信号,对待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征,并将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果,以及根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果,能够有效提升肠鸣音识别的准确性,提升肠鸣音识别效果,使得肠鸣音识别结果具有较好的可参考性。
本公开第四方面实施例提出的计算机设备,所述计算机设备包括:壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述计算机设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行本公开第一方面实施例提出的肠鸣音的识别方法。
本公开第四方面实施例提出的计算机设备,通过获取待识别的肠鸣音信号,对待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征,并将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果,以及根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果,能够有效提升肠鸣音识别的准确性,提升肠鸣音识别效果,使得肠鸣音识别结果具有较好的可参考性。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本公开一实施例提出的肠鸣音的识别方法的流程示意图;
图2是本公开另一实施例提出的肠鸣音的识别方法的流程示意图;
图3是本公开一实施例提出的肠鸣音的识别装置的结构示意图;
图4是本公开一个实施例提出的计算机设备的结构示意图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本公开,而不能理解为对本公开的限制。相反,本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本公开一实施例提出的肠鸣音的识别方法的流程示意图。
其中,需要说明的是,本实施例的肠鸣音的识别方法的执行主体为肠鸣音的识别装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在计算机设备中,计算机设备可以包括但不限于终端、服务器端等。
参见图1,该方法包括:
S101:获取待识别的肠鸣音信号,对待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征。
其中,待识别的肠鸣音信号可以是任一段需要识别其是否包含肠鸣音的音频信号,该待识别的肠鸣音信号可以包含肠鸣音,也可以不包含肠鸣音。
本公开实施例中,可以采用训练好的深度网络模型来对待识别的肠鸣音信号进行识别,对此不做限制。
上述在获取待识别的肠鸣音信号之后,可以对肠鸣音信号进行特征提取,以得到对应的时域特征、频域特征,以及倒谱域特征,特征提取的方法可以具体参见下述实施例针对深度网络模型的训练过程的方法步骤,在此不再赘述。
可选地,一些实施例中,在获取待识别的肠鸣音信号的步骤之前,还可以获取初始肠鸣音信号;对初始肠鸣音信号进行滤波处理和降噪处理,得到待识别的肠鸣音信号。
其中,初始获取的肠鸣音信号,可以被称为初始肠鸣音信号,对初始肠鸣音信号进行相应的处理得到的肠鸣音信号,即是待识别的肠鸣音信号。
一些实施例中,可以获取多个初始肠鸣音信号,而后对初始肠鸣音信号进行带通滤波处理,得到滤波信号,以及对滤波信号进行降噪处理,并将降噪处理后的滤波信号作为待识别的肠鸣音信号,去除了低频和高频的噪声,有效地降低了噪声干扰,保障了训练数据的质量。
也即是说,初始采集的肠鸣音信号,可以被称为初始肠鸣音信号,而后本公开实施例中支持对初始肠鸣音信号进行相应的处理,将处理后的初始肠鸣音信号作为待识别的肠鸣音信号。
一些实施例中,上述可以先对初始肠鸣音信号进行带通滤波处理,得到滤波信号,而后可以对滤波信号进行降噪处理,可以是调整WebRTC音频降噪模块对于采样频率的处理逻辑,以得到目标WebRTC音频降噪模块,并采用目标WebRTC音频降噪模块,对滤波信号进行降噪处理,从而使得目标WebRTC音频降噪模块能够针对滤波信号达到较好的采样效果,保障去噪处理效果。
举例而言,本公开实施例中可以采用具有针对性的带通滤波器和WebRTC音频降噪模块对采集到的初始肠鸣音信号进行降噪处理,比如可以根据初始肠鸣音信号在频率具有的特性,设计专用的带通滤波器对初始肠鸣音信号进行带通滤波处理,以去除初始肠鸣音信号的低频和高频的噪声,得到滤波信号,而后,对初始肠鸣音信号使用WebRTC音频降噪模块进行降噪,由于WebRTC音频降噪模块仅支持8K,16K和32K采样率的信号,而本公开使用到的初始肠鸣音信号的采样率为5K。
因此,本公开实施例中,可以调整WebRTC音频降噪模块对于采样频率的处理逻辑,以得到目标WebRTC音频降噪模块,比如通过修改WebRTC音频降噪模块的源程序代码的方式,调整其对于其他采样率的支持,通过目标WebRTC音频降噪模块能够有效降低稳定噪声的影响。
可选地,一些实施例中,在获取待识别的肠鸣音信号的步骤之前,还可以获取初始肠鸣音信号;对初始肠鸣音信号进行分帧处理,得到多帧待识别的肠鸣音信号,从而辅助实现对多帧待识别的肠鸣音信号进行特征提取,以得到与其对应的时域特征、频域特征,以及倒谱域特征,在增加识别用特征的丰富性的同时,保障特征提取的准确性。
一些实施例中,可以根据初始肠鸣音信号的特征确定分帧长度,根据分帧长度确定目标帧移,根据分帧长度和目标帧移对初始肠鸣音信号进行分帧处理,从而能够有效地保证各个帧之间的平滑过渡,使帧与帧之间不产生畸变,从而保障肠鸣音信号识别的准确性。
举例而言,将初始肠鸣音信号S’(n)进行分帧处理,根据肠鸣音的特征,将分帧长度设置为128,即N=128,是考虑到128个数据点能够包含一次完整的肠鸣音,且分帧长度一般取2的n次方为宜;目标帧移d=64,目标帧移小于分帧长度,一帧待识别的肠鸣音信号可表示为H’(n)=x’(1),x’(2),...,x’(N)。
S102:将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果。
其中,第一深度网络模型、第二深度网络模型,以及第三深度网络模型的结构可以是不相同的。
深度网络模型,即深度神经网络(Deep Neural Networks,DNN),包括输入层、输出层和隐藏层,也即是说,本公开实施例中采用各种特征分别训练对应的深度网络模型,使得训练的模型能够更加全面的学习肠鸣音的特征从而提升识别性能。
上述在对肠鸣音信号进行特征提取,以得到对应的时域特征、频域特征,以及倒谱域特征之后,可以将时域特征、频域特征,以及倒谱域特征输入至训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型之中,以得到各个深度网络模型输出的对应的识别结果。
其中,第一深度网络模型对应得到的识别结果,可以被称为第一识别结果,第二深度网络模型对应得到的识别结果,可以被称为第二识别结果,第三深度网络模型对应得到的识别结果,可以被称为第三识别结果,该第一识别结果、第二识别结果,以及第三识别结果,可以被融合以辅助确定与上述待识别的肠鸣音信号对应的识别结果。
其中,该识别结果可以是:判定为包含肠鸣音(即,是肠鸣音信号),或者是判定为不包含肠鸣音(即,不是肠鸣音信号),另外一些实施例中,该识别结果也可以是一个数值,而后,可以将该数值与设定阈值(设定阈值例如为0.5)进行比对,如果该数值大于设定阈值0.5,则判定包含肠鸣音,如果该数值小于或者等于设定阈值0.5,则判定不包含肠鸣音,对此不做限制。
举例而言,假设上述的第一深度网络模型、第二深度网络模型及第三深度网络模型是结合多个样本肠鸣音信号训练得到的,则采用多个样本肠鸣音信号,和与样本肠鸣音信号对应的标注数据(包含1884条包含肠鸣音的样本肠鸣音信号,3250条不包含肠鸣音的样本肠鸣音信号,或者在1500条包含肠鸣音的样本肠鸣音信号,3000条不包含肠鸣音的样本肠鸣音信号)训练得到的第一深度网络模型、第二深度网络模型及第三深度网络模型,针对测试数据集(测试数据集包含384条包含肠鸣音的肠鸣音信号,和250条不包含肠鸣音的肠鸣音信号),综合识别率可达85.78%。
S103:根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果。
上述在将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果之后,可以根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果。
比如,可以是基于权重的方式融合各个深度网络模型的输出的识别结果,或者,也可以采用其他任意可能的方式来融合第一深度网络模型、第二深度网络模型,以及第三深度网络模型的识别结果,对此不做限制。
可选地,一些实施例中,比如可以获取第一识别结果、第二识别结果及第三识别结果分别对应的第一权重、第二权重及第三权重,并根据第一识别结果及对应的第一权重、第二识别结果及对应的第二权重及第三识别结果及对应的第三权重进行加权处理,得到目标识别结果。
可选地,一些实施例中,第一权重小于第二权重,第二权重小于第三权重。
上述的各个权重,可以是与相应的特征所对应的,例如与时域特征对应的权重可以被称为第一权重,与频域特征对应的权重可以被称为第二权重,与倒谱域特征MFCC对应的权重可以被称为第三权重。
举例而言,权重的比例可以依据时域特征对应的第一权重<频域特征对应的第二权重<倒谱域特征MFCC对应的第三权重的原则进行分配,是考虑到时域特征易于受到其他信号的时域特征的干扰,且时域特征的表征能力较弱;频域特征较时域特征具有更好的稳定性,对于肠鸣音的表征能力也更强,而倒谱域特征MFCC则更为符合人耳的听觉特性,在表征能力上强于时域特征和频域特征,倒谱域特征MFCC的鲁棒性更强,从而配置倒谱域特征MFCC的第三权重大于时域特征和频域特征对应的权重。
本实施例中,通过获取待识别的肠鸣音信号,对待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征,并将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果,以及根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果,能够有效提升肠鸣音识别的准确性,提升肠鸣音识别效果,使得肠鸣音识别结果具有较好的可参考性。
图2是本公开另一实施例提出的肠鸣音的识别方法的流程示意图。
参见图2,该方法包括:
S201:获取多个样本肠鸣音信号,对多个样本肠鸣音信号进行特征提取,得到每个样本肠鸣音信号对应的样本时域特征、样本频域特征及样本倒谱域特征。
其中,用于训练肠鸣音识别模型的肠鸣音信号,可以被称为样本肠鸣音信号,一份样本肠鸣音信号可以比如一段肠鸣音音频对应的信号帧。
本公开实施例中,可以根据具体肠鸣音识别场景的任务需求,准备相应的训练用的样本肠鸣音信号,和与样本肠鸣音信号对应的标注数据,对此不做限制。
而与样本肠鸣音信号对应的标注数据,可以具体是下述的样本第一识别结果、样本第二识别结果及样本第三识别结果。
一些实施例中,可以获取多个样本肠鸣音信号,而后对多个样本肠鸣音信号进行带通滤波处理,得到滤波信号,以及对滤波信号进行降噪处理,并将降噪处理后的滤波信号作为实际训练用的样本肠鸣音信号,去除了低频和高频的噪声,有效地降低了噪声干扰,保障了训练数据的质量。
上述在获取多个样本肠鸣音信号后,可以对样本肠鸣音信号进行特征提取,以得到对应的样本时域特征、样本频域特征及样本倒谱域特征。
也即是说,本公开实施例中针对样本肠鸣音的偶发性和短持续性,使用样本肠鸣音信号的时域、频域和倒谱域的融合特征进行建模和识别,以增加识别用特征的丰富性,保障肠鸣音的识别准确性。
一些实施例中,可以是对样本肠鸣音信号进行分帧处理,得到与各个样本肠鸣音信号对应的多帧肠鸣音信号;对样本肠鸣音信号对应的多帧肠鸣音信号进行特征提取,以得到与样本肠鸣音信号对应的样本时域特征、样本频域特征及样本倒谱域特征,在增加识别用特征的丰富性的同时,保障特征提取的准确性。
一些实施例中,可以预先确定分帧长度,从而将样本肠鸣音信号分帧处理为多帧的分帧长度的肠鸣音信号,在确定分帧长度时,可以根据样本肠鸣音信号的特征确定分帧长度,分帧长度可被用于确定目标帧移,其中,目标帧移小于分帧长度,从而能够有效地保证各个帧之间的平滑过渡,使帧与帧之间不产生畸变,从而保障肠鸣音信号识别的准确性。
举例而言,将样本肠鸣音信号S(n)进行分帧处理,根据肠鸣音的特征,将分帧长度设置为128,即N=128,是考虑到128个数据点能够包含一次完整的肠鸣音,且分帧长度一般取2的n次方为宜;目标帧移d=64,目标帧移小于分帧长度,一帧样本肠鸣音信号可表示为H(n)=x(1),x(2),...,x(N)。
而后,对样本肠鸣音信号H(n)进行归一化得到原始的样本肠鸣音信号在随时间变化的过程中,所具有的与时间相关的一些特征,将其记为样本时域特征T(n);对H(n)进行傅里叶变换得到128维原始的样本肠鸣音信号的周期性信息,即其频率谱信息,将其做归一化之后记为样本频域特征F(n);提取该帧肠鸣音信号的梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients,MFCCs)特征并做归一化,维数D=13,记为M(d)=M(1),M(2),...,M(D),将M(d)作为样本倒谱域特征。
从而,本公开实施例中提取了上述的T(n),F(n),M(d)记为一帧肠鸣音信号的有效特征,在特征的提取方面融合了时域,频域和倒谱域三种特征,通过对分帧后的肠鸣音信号进行傅里叶变换处理,经过傅里叶变换的肠鸣音信号和MFCC特征作为训练和识别的特征,使用三种特征能够较为全面的表征肠鸣音的特征,使模型能够学习到肠鸣音更为丰富的特点,具有更强的泛化能力从而提高模型识别的准确率。
需要说明的是,使用倒谱域特征MFCC的原因是:倒谱域特征MFCC相较于基于声道模型的线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCC)具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
S202:根据每个样本肠鸣音信号对应的样本时域特征、样本频域特征及样本倒谱域特征进行标注,得到每个样本肠鸣音信号对应的样本第一识别结果、样本第二识别结果及样本第三识别结果。
其中,与样本肠鸣音信号对应的标注数据可以具体是样本第一识别结果、样本第二识别结果及样本第三识别结果,而样本第一识别结果、样本第二识别结果及样本第三识别结果,可以比如该样本肠鸣音信号中包含肠鸣音,或者是该样本肠鸣音信号中不包含肠鸣音。
举例而言,可以根据人工听到的真实情况,将包含有肠鸣音的样本肠鸣音信号对应的样本识别结果记为(1,0),将不包含肠鸣音的样本肠鸣音信号对应的样本识别结果记为(0,1)。
本公开实施例中,考虑到在实际情况中无肠鸣音的几率大于有肠鸣音的几率,无肠鸣音的情形比有肠鸣音的情形要复杂的多,由此,为了有效保障训练数据设计的合理性,可以采集尽可能多的样本肠鸣音信号制作为训练用的数据集,数据集中无肠鸣音的样本肠鸣音信号和有肠鸣音的样本肠鸣音信号的比例为可以配置为2:1,对此不做限制。
S203:根据多个样本时域特征及对应的样本第一识别结果训练第一深度网络模型,得到训练好的第一深度网络模型。
S204:根据多个样本频域特征及对应的样本第二识别结果训练第二深度网络模型,得到训练好的第二深度网络模型。
S205:根据多个样本倒谱域特征及对应的样本第三识别结果训练第三深度网络模型,得到训练好的第三深度网络模型。
上述在对样本肠鸣音信号进行特征提取,以得到对应的样本时域特征、样本频域特征,以及样本倒谱域特征,可以根据样本时域特征和对应的样本第一识别结果训练第一深度网络模型,并根据样本频域特征和对应的样本第二识别结果训练第二深度网络模型,以及根据样本倒谱域特征和样本第三识别结果训练第三深度网络模型。
其中,第一深度网络模型、第二深度网络模型,以及第三深度网络模型的结构可以是不相同的;深度网络模型,即深度神经网络(Deep Neural Networks,DNN),包括输入层、输出层和隐藏层,也即是说,本公开实施例中采用各种特征分别训练对应的深度网络模型,使得训练的模型能够更加全面的学习肠鸣音的特征从而提升识别性能。
其中,采用样本时域特征对应训练的深度网络模型,可以被称为第一深度网络模型,采用样本频域特征对应训练的深度网络模型,可以被称为第二深度网络模型,采用样本倒谱域特征对应训练的深度网络模型,可以被称为第三深度网络模型。
上述在获取样本时域特征、样本频域特征,以及样本倒谱域特征之后,可以将三种特征分别输入到三个深度网络模型中,以训练对应的深度网络模型。
比如,第一深度网络模型用来训练样本时域特征T(n),第一深度网络模型可以具有4个隐藏层,每个隐藏层具有的神经元个数分别为(256,512,512,256),输入层和输出层的神经元个数分别为128和2;第二深度网络模型用来训练样本频域特征F(n),第二深度网络模型可以具有6个隐藏层,每个隐藏层具有的神经元个数分别为(256,512,1024,1024,512,256),输入层和输出层的神经元个数同样分别为128和2;第三深度网络模型用来训练样本倒谱域特征M(d),第三深度网络模型具有8个隐藏层,每个隐藏层具有的神经元个数分别为(64,128,256,512,512,256,128,64),输入层和输出层的神经元个数分别为13和2,上述在训练得到对应的深度网络模型之后,可以采用各种深度网络模型辅助进行肠鸣音识别。
本实施例中,由于是根据提取到的样本时域特征、样本频域特征,以及样本倒谱域特征分别训练对应的深度网络模型,并采用三个对应的深度网络模型来分别学习三种特征,能够有效利用样本时域特征、样本频域特征,以及样本倒谱域特征,避免单一特征造成的识别偏差,能够较为准确的表现肠鸣音的特性。
图3是本公开一实施例提出的肠鸣音的识别装置的结构示意图。
参见图3,该肠鸣音的识别装置30包括:
提取模块301,用于获取待识别的肠鸣音信号,对待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征。
识别模块302,用于将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果。
确定模块303,用于根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果。
需要说明的是,前述图1-图2实施例中对肠鸣音的识别方法实施例的解释说明也适用该实施例的肠鸣音的识别装置30,其实现原理类似,此处不再赘述。
本实施例中,通过获取待识别的肠鸣音信号,对待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征,并将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果,以及根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果,能够有效提升肠鸣音识别的准确性,提升肠鸣音识别效果,使得肠鸣音识别结果具有较好的可参考性。
图4是本公开一个实施例提出的计算机设备的结构示意图。
参见图4,本实施例的计算机设备400包括壳体401、处理器402、存储器403、电路板404和电源电路405,其中,电路板404安置在壳体401围成的空间内部,处理器402和存储器403设置在电路板404上;电源电路405,用于为计算机设备400的各个电路或器件供电;存储器403用于存储可执行程序代码;处理器402通过读取存储器403中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行:
前述图1-图2实施例中肠鸣音的识别方法。
需要说明的是,前述图1-图2实施例中对肠鸣音的识别方法实施例的解释说明也适用该实施例的计算机设备400,其实现原理类似,此处不再赘述。
本实施例中,通过获取待识别的肠鸣音信号,对待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征,并将时域特征、频域特征及倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果,以及根据第一识别结果、第二识别结果及第三识别结果,确定目标识别结果,能够有效提升肠鸣音识别的准确性,提升肠鸣音识别效果,使得肠鸣音识别结果具有较好的可参考性。
为了实现上述实施例,本公开实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述图1-图2实施例中肠鸣音的识别方法。
需要说明的是,在本公开的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种肠鸣音的识别方法,其特征在于,所述方法包括:
获取待识别的肠鸣音信号,对所述待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征;
将所述时域特征、所述频域特征及所述倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果;
根据所述第一识别结果、所述第二识别结果及所述第三识别结果,确定目标识别结果。
2.如权利要求1所述的肠鸣音的识别方法,其特征在于,所述根据所述第一识别结果、所述第二识别结果及所述第三识别结果,确定目标识别结果,包括:
获取所述第一识别结果、所述第二识别结果及所述第三识别结果分别对应的第一权重、第二权重及第三权重;
根据所述第一识别结果及对应的所述第一权重、所述第二识别结果及对应的所述第二权重及所述第三识别结果及对应的第三权重进行加权处理,得到所述目标识别结果。
3.如权利要求2所述的肠鸣音的识别方法,其特征在于,所述第一权重小于所述第二权重,所述第二权重小于所述第三权重。
4.如权利要求1所述的肠鸣音的识别方法,其特征在于,所述第一深度网络模型、所述第二深度网络模型及所述第三深度网络模型的训练,包括:
获取多个样本肠鸣音信号,对多个所述样本肠鸣音信号进行特征提取,得到每个所述样本肠鸣音信号对应的样本时域特征、样本频域特征及样本倒谱域特征;
根据每个所述样本肠鸣音信号对应的样本时域特征、样本频域特征及样本倒谱域特征进行标注,得到每个所述样本肠鸣音信号对应的样本第一识别结果、样本第二识别结果及样本第三识别结果;
根据多个样本时域特征及对应的样本第一识别结果训练所述第一深度网络模型,得到训练好的所述第一深度网络模型;
根据多个样本频域特征及对应的样本第二识别结果训练所述第二深度网络模型,得到训练好的所述第二深度网络模型;
根据多个样本倒谱域特征及对应的样本第三识别结果训练所述第三深度网络模型,得到训练好的所述第三深度网络模型。
5.如权利要求1所述的肠鸣音的识别方法,其特征在于,在所述获取待识别的肠鸣音信号的步骤之前,还包括:
获取初始肠鸣音信号;
对所述初始肠鸣音信号进行分帧处理,得到多帧所述待识别的肠鸣音信号。
6.如权利要求5所述的肠鸣音的识别方法,其特征在于,所述对所述初始肠鸣音信号进行分帧处理,包括:
根据所述初始肠鸣音信号的特征确定分帧长度,根据所述分帧长度确定目标帧移;
根据所述分帧长度和所述目标帧移对所述初始肠鸣音信号进行分帧处理。
7.如权利要求1所述的肠鸣音的识别方法,其特征在于,在所述获取待识别的肠鸣音信号的步骤之前,还包括:
获取初始肠鸣音信号;
对所述初始肠鸣音信号进行滤波处理和降噪处理,得到所述待识别的肠鸣音信号。
8.一种肠鸣音的识别装置,其特征在于,所述装置包括:
提取模块,用于获取待识别的肠鸣音信号,对所述待识别的肠鸣音信号进行特征提取,得到时域特征、频域特征以及倒谱域特征;
识别模块,用于将所述时域特征、所述频域特征及所述倒谱域特征分别输入到训练好的第一深度网络模型、第二深度网络模型及第三深度网络模型,得到对应的第一识别结果、第二识别结果及第三识别结果;
确定模块,用于根据所述第一识别结果、所述第二识别结果及所述第三识别结果,确定目标识别结果。
9.一种计算机设备,所述计算机设备包括壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述计算机设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如权利要求1-7中任一项所述的肠鸣音的识别方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的肠鸣音的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110397013.7A CN115206347A (zh) | 2021-04-13 | 2021-04-13 | 肠鸣音的识别方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110397013.7A CN115206347A (zh) | 2021-04-13 | 2021-04-13 | 肠鸣音的识别方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115206347A true CN115206347A (zh) | 2022-10-18 |
Family
ID=83571321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110397013.7A Pending CN115206347A (zh) | 2021-04-13 | 2021-04-13 | 肠鸣音的识别方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115206347A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052725A (zh) * | 2023-03-31 | 2023-05-02 | 四川大学华西医院 | 一种基于深度神经网络的细粒度肠鸣音识别方法及装置 |
-
2021
- 2021-04-13 CN CN202110397013.7A patent/CN115206347A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052725A (zh) * | 2023-03-31 | 2023-05-02 | 四川大学华西医院 | 一种基于深度神经网络的细粒度肠鸣音识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Priyadarshani et al. | Automated birdsong recognition in complex acoustic environments: a review | |
CN106725532B (zh) | 基于语音特征与机器学习的抑郁症自动评估系统和方法 | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN110123367B (zh) | 计算机设备、心音识别装置、方法、模型训练装置及存储介质 | |
JP2016128935A (ja) | 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出 | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN101023469A (zh) | 数字滤波方法和装置 | |
CN111868823B (zh) | 一种声源分离方法、装置及设备 | |
Puffay et al. | Relating EEG to continuous speech using deep neural networks: a review. | |
CN112382302A (zh) | 婴儿哭声识别方法及终端设备 | |
Wu et al. | Research on acoustic feature extraction of crying for early screening of children with autism | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN115273904A (zh) | 一种基于多特征融合的愤怒情绪识别方法及装置 | |
JP7266390B2 (ja) | 行動識別方法、行動識別装置、行動識別プログラム、機械学習方法、機械学習装置及び機械学習プログラム | |
CN115206347A (zh) | 肠鸣音的识别方法、装置、存储介质及计算机设备 | |
CN113409825A (zh) | 健康智能检测方法、装置、电子设备及可读存储介质 | |
CN110739006B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN105336325A (zh) | 语音信号识别处理方法及装置 | |
Sáenz-Lechón et al. | Effects of audio compression in automatic detection of voice pathologies | |
CN116687438A (zh) | 一种肠鸣音的识别方法和装置 | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
CN105489228A (zh) | 一种基于频域图处理的干罗音识别方法 | |
CN114372513A (zh) | 一种鸟声识别模型的训练方法、分类方法、设备及介质 | |
CN114678037B (zh) | 一种重叠语音的检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |