CN115457975A - 婴儿哭声和咳嗽声检测方法、装置、存储介质及终端设备 - Google Patents
婴儿哭声和咳嗽声检测方法、装置、存储介质及终端设备 Download PDFInfo
- Publication number
- CN115457975A CN115457975A CN202210945981.1A CN202210945981A CN115457975A CN 115457975 A CN115457975 A CN 115457975A CN 202210945981 A CN202210945981 A CN 202210945981A CN 115457975 A CN115457975 A CN 115457975A
- Authority
- CN
- China
- Prior art keywords
- sound
- coughing
- crying
- baby
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010011224 Cough Diseases 0.000 title claims abstract description 135
- 206010011469 Crying Diseases 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001514 detection method Methods 0.000 claims abstract description 133
- 238000012549 training Methods 0.000 claims abstract description 75
- 238000001228 spectrum Methods 0.000 claims abstract description 40
- 238000003062 neural network model Methods 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006872 improvement Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本申请属于人工智能技术领域,尤其涉及一种婴儿哭声和咳嗽声检测方法、装置、计算机可读存储介质及终端设备。方法包括:获取待检测的目标声音;提取目标声音的对数梅尔谱;使用预设的婴儿哭声和咳嗽声检测模型对目标声音的对数梅尔谱进行检测,得到目标声音的检测结果;其中,婴儿哭声和咳嗽声检测模型为基于MobileNetV2网络模型改进,且经过预设的声音样本集训练得到的深度卷积神经网络模型;声音样本集中包括各种婴儿哭声样本、婴儿咳嗽声样本和其他声音样本,其他声音为非婴儿哭声且非婴儿咳嗽声的声音。通过本申请,引入深度卷积神经网络模型来进行婴儿哭声和咳嗽声检测,可以挖掘到声音中更深层次的特征,有效提升了检测结果的准确率。
Description
技术领域
本申请属于人工智能技术领域,尤其涉及一种婴儿哭声和咳嗽声检测方法、装置、计算机可读存储介质及终端设备。
背景技术
随着各类终端设备的智能化程度越来越高,可以在终端设备中嵌入各种复杂功能,例如,通过在终端设备中嵌入婴儿看护功能,能及时发现婴儿哭闹、咳嗽,并向相关看护人员发出警报,避免婴儿独处时发生危险,具有较大的市场应用价值。
但在现有技术中,主要是通过矢量量化(Vector Quantization,VQ)、动态时间归整(Dynamic Time Warping,DTW)、高斯混合模型(Gaussian Mixed Model,GMM)、隐含马尔柯夫模型(Hidden Markov Model,HMM)、随机森林分类器(Random Forest Classifier,RFC)、支持向量机(Support Vector Machine,SVM)、人工神经网络(Artificial NeuralNetwork,ANN)等方法来建立声学模型进行声音检测,这些方法一般只能使用到声音中的底层特征,检测结果的准确率较低。
发明内容
有鉴于此,本申请实施例提供了一种婴儿哭声和咳嗽声检测方法、装置、计算机可读存储介质及终端设备,以解决现有的婴儿哭声和咳嗽声检测方法存在的检测结果准确率较低的问题。
本申请实施例的第一方面提供了一种婴儿哭声和咳嗽声检测方法,可以包括:
获取待检测的目标声音;
提取所述目标声音的对数梅尔谱;
使用预设的婴儿哭声和咳嗽声检测模型对所述目标声音的对数梅尔谱进行检测,得到所述目标声音的检测结果;
其中,所述婴儿哭声和咳嗽声检测模型为基于MobileNetV2网络模型改进,且经过预设的声音样本集训练得到的深度卷积神经网络模型;所述声音样本集中包括各种婴儿哭声样本、婴儿咳嗽声样本和其他声音样本,所述其他声音为非婴儿哭声且非婴儿咳嗽声的声音。
在第一方面的一种具体实现方式中,所述婴儿哭声和咳嗽声检测模型的训练过程可以包括:
提取所述声音样本集中的各个声音样本的对数梅尔谱;
使用初始的婴儿哭声和咳嗽声检测模型分别对各个声音样本的对数梅尔谱进行婴儿哭声和咳嗽声检测,得到各个声音样本的实际检测结果;
根据所述实际检测结果和预设的期望检测结果计算训练损失;
根据所述训练损失对婴儿哭声和咳嗽声检测模型进行模型训练,直至满足预设的训练停止条件,得到训练后的婴儿哭声和咳嗽声检测模型。
在第一方面的一种具体实现方式中,在提取所述声音样本集中各个声音样本的对数梅尔谱之前,所述方法还包括:
对所述声音样本集中的各个声音样本进行数据增强处理,得到各个增强声音样本;
将各个增强声音样本分别添加入所述声音样本集中,得到扩充后的声音样本集。
在第一方面的一种具体实现方式中,所述根据所述实际检测结果和预设的期望检测结果计算训练损失,可以包括:
根据所述实际检测结果和预设的期望检测结果,使用预设的二元交叉熵损失函数计算所述训练损失。
在第一方面的一种具体实现方式中,所述使用预设的婴儿哭声和咳嗽声检测模型对所述目标声音的对数梅尔谱进行检测,得到所述目标声音的检测结果,可以包括:
将所述目标声音的对数梅尔谱输入所述婴儿哭声和咳嗽声检测模型,并获取所述婴儿哭声和咳嗽声检测模型输出的所述目标声音分别属于各个声音类别的概率值;其中,各个声音类别包括婴儿哭声、婴儿咳嗽声和其他声音;
根据最大的概率值对应的声音类别确定所述目标声音的声音类别。
在第一方面的一种具体实现方式中,所述根据最大的概率值对应的声音类别确定所述目标声音的声音类别,可以包括:
判断最大的概率值是否大于预设的概率阈值;
若最大的概率值大于所述概率阈值,则确定所述目标声音的声音类别为最大的概率值对应的声音类别;
若最大的概率值小于或等于所述概率阈值,则确定所述目标声音的声音类别为其他声音。
在第一方面的一种具体实现方式中,所述婴儿哭声和咳嗽声检测模型对MobileNetV2网络模型的改进可以包括:增加两个输入卷积层;增加最大池化层;将单个线性层替换为两个线性层。
本申请实施例的第二方面提供了一种婴儿哭声和咳嗽声检测装置,可以包括:
目标声音获取模块,用于获取待检测的目标声音;
目标声音特征提取模块,用于提取所述目标声音的对数梅尔谱;
婴儿哭声和咳嗽声检测模块,用于使用预设的婴儿哭声和咳嗽声检测模型对所述目标声音的对数梅尔谱进行检测,得到所述目标声音的检测结果;
其中,所述婴儿哭声和咳嗽声检测模型为基于MobileNetV2网络模型改进,且经过预设的声音样本集训练得到的深度卷积神经网络模型;所述声音样本集中包括各种婴儿哭声样本、婴儿咳嗽声样本和其他声音样本,所述其他声音为非婴儿哭声且非婴儿咳嗽声的声音。
在第二方面的一种具体实现方式中,所述婴儿哭声和咳嗽声检测装置还可以包括:
样本特征提取模块,用于提取所述声音样本集中的各个声音样本的对数梅尔谱;
训练检测模块,用于使用初始的婴儿哭声和咳嗽声检测模型分别对各个声音样本的对数梅尔谱进行婴儿哭声和咳嗽声检测,得到各个声音样本的实际检测结果;
训练损失计算模块,用于根据所述实际检测结果和预设的期望检测结果计算训练损失;
模型训练模块,用于根据所述训练损失对婴儿哭声和咳嗽声检测模型进行模型训练,直至满足预设的训练停止条件,得到训练后的婴儿哭声和咳嗽声检测模型。
在第二方面的一种具体实现方式中,所述婴儿哭声和咳嗽声检测装置还可以包括:
数据增强模块,用于对所述声音样本集中的各个声音样本进行数据增强处理,得到各个增强声音样本;将各个增强声音样本分别添加入所述声音样本集中,得到扩充后的声音样本集。
在第二方面的一种具体实现方式中,所述训练损失计算模块可以具体用于:根据所述实际检测结果和预设的期望检测结果,使用预设的二元交叉熵损失函数计算所述训练损失。
在第二方面的一种具体实现方式中,所述婴儿哭声和咳嗽声检测模块可以包括:
概率值获取单元,用于将所述目标声音的对数梅尔谱输入所述婴儿哭声和咳嗽声检测模型,并获取所述婴儿哭声和咳嗽声检测模型输出的所述目标声音分别属于各个声音类别的概率值;其中,各个声音类别包括婴儿哭声、婴儿咳嗽声和其他声音;
声音类别确定单元,用于根据最大的概率值对应的声音类别确定所述目标声音的声音类别。
在第二方面的一种具体实现方式中,所述声音类别确定单元可以包括:
概率值判断子单元,用于判断最大的概率值是否大于预设的概率阈值;
第一确定子单元,用于若最大的概率值大于所述概率阈值,则确定所述目标声音的声音类别为最大的概率值对应的声音类别;
第二确定子单元,用于若最大的概率值小于或等于所述概率阈值,则确定所述目标声音的声音类别为其他声音。
在第二方面的一种具体实现方式中,所述婴儿哭声和咳嗽声检测模型对MobileNetV2网络模型的改进包括:增加两个输入卷积层;增加最大池化层;将单个线性层替换为两个线性层。
本申请实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种婴儿哭声和咳嗽声检测方法的步骤。
本申请实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种婴儿哭声和咳嗽声检测方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述任一种婴儿哭声和咳嗽声检测方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例获取待检测的目标声音;提取所述目标声音的对数梅尔谱;使用预设的婴儿哭声和咳嗽声检测模型对所述目标声音的对数梅尔谱进行检测,得到所述目标声音的检测结果;其中,所述婴儿哭声和咳嗽声检测模型为基于MobileNetV2网络模型改进,且经过预设的声音样本集训练得到的深度卷积神经网络模型;所述声音样本集中包括各种婴儿哭声样本、婴儿咳嗽声样本和其他声音样本,所述其他声音为非婴儿哭声且非婴儿咳嗽声的声音。通过本申请实施例,引入深度卷积神经网络模型来进行婴儿哭声和咳嗽声检测,可以挖掘到声音中更深层次的特征,有效提升了检测结果的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种婴儿哭声和咳嗽声检测模型的训练过程的一个实施例流程图;
图2为本申请实施例中一种婴儿哭声和咳嗽声检测方法的一个实施例流程图;
图3为本申请实施例中一种婴儿哭声和咳嗽声检测装置的一个实施例结构图;
图4为本申请实施例中一种终端设备的示意框图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请实施例的执行主体可以为任意一种终端设备,包括但限于手机、平板电脑、桌上型计算机、笔记本、掌上电脑及机器人等。
在本申请实施例中,可以根据实际情况采用任意一种深度卷积神经网络模型来进行婴儿哭声和咳嗽声检测,从而挖掘到声音中更深层次的特征,有效提升了检测结果的准确率。
MobileNetV2网络模型与ResNet、EfficientNet等其他流行的网络模型相比,在保持相似性能的情况下,涉及的网络参数最少,更加适宜作为基础模型。因此在本申请实施例的一种具体实现方式中,可以采用如下表所示的基于MobileNetV2网络模型改进得到的深度卷积神经网络模型来进行婴儿哭声和咳嗽声检测:
其中,Operator为各层的数据处理过程,conv2d为二维卷积层,bottleneck为瓶颈层,maxpool为最大池化层,linear为线性层,t为扩展因子,c为输出通道数,n为重复数,s为步幅。
从中可以看出,该模型对MobileNetV2网络模型的改进可以包括以下三个方面:第一,增加两个输入卷积层,输入特征需要首先经过这两个卷积层的计算转换,这一处理过程将单维的输入特征转化为三维的张量特征,方便用于匹配原始MobileNetV2框架对输入特征的尺寸要求;第二,增加最大池化层,残差块的最后输出需要进行最大池化处理,相较于平均池化的处理方式,可以更加有效地过滤掉无用信息,且计算更为简捷;第三,在网络结构的最后,将单个线性层替换为两个线性层,从而提高输出结果的准确率。
基于任意一种深度卷积神经网络模型,为了得到能够实现婴儿哭声和咳嗽声检测功能的婴儿哭声和咳嗽声检测模型,可以使用预设的声音样本集对其进行模型训练,其中,声音样本集中可以包括各种婴儿哭声样本、婴儿咳嗽声样本和其他声音样本,每个声音样本均预先标注了对应的期望检测结果,即该声音样本属于预设的各个声音类别中的哪一个类别,各个声音类别可以包括婴儿哭声、婴儿咳嗽声和其他声音这三个声音类别,其他声音为非婴儿哭声且非婴儿咳嗽声的声音。
声音样本集中各个声音类别的声音样本数量可以根据实际情况进行设置,例如,可以设置婴儿哭声的样本数量为694条,婴儿咳嗽声的样本数量为15001条,其他声音的样本数量为1910条,当然也可以根据实际情况设置不同的声音样本数量,本申请实施例对此不作具体限定。每个声音样本的音频长度可以根据实际情况进行设置,例如,可以设置每个声音样本的音频长度为5秒,当然也可以根据实际情况设置不同的音频长度,本申请实施例对此不作具体限定。
在本申请实施例中,可以直接使用该声音样本集对模型进行训练,还可以对该声音样本集中的各个声音样本进行数据增强处理,得到各个增强声音样本,并将各个增强声音样本分别添加入声音样本集中,得到扩充后的声音样本集,使用扩充后的声音样本集对模型进行训练,从而进一步提升模型的鲁棒性和泛化能力。
具体采用何种数据增强处理方法可以根据实际情况进行设置,包括但不限于时间拉伸、音高偏移、随机旋转、网格失真、随机擦除、平移、缩放、混类数据增强(Mixup)以及其他数据增强处理方法,本申请实施例对此不作具体限定。
如图1所示,婴儿哭声和咳嗽声检测模型的训练过程具体可以包括如下步骤:
步骤S101、提取声音样本集中的各个声音样本的对数梅尔谱。
在本申请实施例中,可以采用现有技术中的任意一种方式来进行对数梅尔谱的计算。在一种具体实现方式中,可以使用Librosa开源工具箱来进行对数梅尔谱的计算,其中的具体参数可以根据实际情况进行设置,例如,可以设置短时傅里叶变换(Short-TimeFourier Transform,STFT)的窗口长度为2560,跳跃长度为694,设置梅尔频率刻度阶数为128,设置对应的自然线性频率的最低和最高频率分别为20Hz和22050Hz,当然也可以根据实际情况设置不同的参数,本申请实施例对此不作具体限定。
步骤S102、使用初始的婴儿哭声和咳嗽声检测模型分别对各个声音样本的对数梅尔谱进行婴儿哭声和咳嗽声检测,得到各个声音样本的实际检测结果。
由于本申请实施例中所使用的模型具有很深的网络层结构,在对模型进行初始化时,可以使用在ImageNet图像数据上训练的MobileNetV2网络模型的权重来初始化各个未做改进的网络层,而将Kaiming初始化方法应用于各个做了改进的网络层。由于音频分类的场景与图像分类不同,在本申请实施例中可以不再采用进一步的模型微调训练策略,各个网络层从一开始就进行联合训练。
步骤S103、根据实际检测结果和预设的期望检测结果计算训练损失。
在本申请实施例中,可以根据实际情况使用任意一种损失函数来进行训练损失的计算,例如,可以使用预设的二元交叉熵损失函数计算训练损失,当然也可以根据实际情况设置不同的损失函数,本申请实施例对此不作具体限定。
步骤S104、根据训练损失对婴儿哭声和咳嗽声检测模型进行模型训练,直至满足预设的训练停止条件,得到训练后的婴儿哭声和咳嗽声检测模型。
在计算得到一个训练批次的训练损失之后,则可以根据训练损失对婴儿哭声和咳嗽声检测模型的模型参数进行调整。在本申请实施例中,假设婴儿哭声和咳嗽声检测模型的模型参数为W1,将训练损失反向传播修改婴儿哭声和咳嗽声检测模型的模型参数W1,得到修改后的模型参数W2。修改参数之后再继续执行下一个训练批次的训练过程,在该训练批次的训练过程中,重新计算得到训练损失,将该训练损失反向传播修改婴儿哭声和咳嗽声检测模型的模型参数W2,得到修改后的模型参数W3,……,以此类推,不断重复以上过程,每次训练过程均可对模型参数进行修改,直至满足预设的训练停止条件,其中,训练停止条件可以是训练次数达到预设的次数阈值,次数阈值可以根据实际情况进行设置,例如,可以将其设置为数千、数万、数十万甚至更大的数值;训练停止条件也可以是婴儿哭声和咳嗽声检测模型收敛;由于可能出现训练次数还未达到次数阈值,但婴儿哭声和咳嗽声检测模型已经收敛,可能导致重复不必要的工作;或者婴儿哭声和咳嗽声检测模型始终无法收敛,可能导致无限循环,无法结束训练的过程,基于上述两种情况,训练停止条件还可以是训练次数达到次数阈值或婴儿哭声和咳嗽声检测模型收敛。
在训练集上进行训练的同时,还可以实时借助已导出的模型在验证集的表现来决定训练停止点。训练和推理过程可以在PyTorch框架内完成,具体地,可以使用Adam算法的AMSGrad变体,学习率为1e-3进行优化,每当验证集的损失在五个迭代轮次内停止改善时,学习率就会降低10倍。此外,还可以使用早停法(Early stopping)形式的正则化来防止过度拟合。而在进行预测时,则可以使用时移形式的测试时增强(Test Time Augmentation,TTA)来进一步提高预测的精度。
在训练得到婴儿哭声和咳嗽声检测模型之后,则可以将其应用到实际场景中的婴儿哭声和咳嗽声检测任务中来。
具体地,请参阅图2,本申请实施例中一种婴儿哭声和咳嗽声检测方法的一个实施例可以包括:
步骤S201、获取待检测的目标声音。
在本申请实施例的一种具体实现方式中,可以通过预设的音频采集装置来获取待检测的目标声音,该音频采集装置可以为单个的麦克风,也可以为多个麦克风组成的阵列。
步骤S202、提取目标声音的对数梅尔谱。
对数梅尔谱的具体计算过程可以参照步骤S101中的详细描述,此处不再赘述。
步骤S203、使用预设的婴儿哭声和咳嗽声检测模型对目标声音的对数梅尔谱进行检测,得到目标声音的检测结果。
具体地,可以将目标声音的对数梅尔谱输入婴儿哭声和咳嗽声检测模型,并获取婴儿哭声和咳嗽声检测模型输出的目标声音分别属于各个声音类别的概率值,然后可以根据最大的概率值对应的声音类别确定目标声音的声音类别。
在本申请实施例的一种具体实现方式中,可以直接确定目标声音的声音类别为最大的概率值对应的声音类别。
在本申请实施例的另一种具体实现方式中,为了减少对于婴儿哭声和咳嗽声的误判,还可以预先设置一个概率阈值,并判断最大的概率值是否大于概率阈值,若最大的概率值大于概率阈值,则确定目标声音的声音类别为最大的概率值对应的声音类别;若最大的概率值小于或等于概率阈值,则确定目标声音的声音类别为其他声音。概率阈值的具体取值可以根据实际情况进行设置,例如,可以将其设置为0.6或者其它取值,本申请实施例对此不作具体限定。
在实际的测试中,本申请实施例提供的婴儿哭声和咳嗽声检测方法对于婴儿哭声、婴儿咳嗽声和其他声音这三个声音类别的总体识别准确率为94.83%。从具体类别来看,针对婴儿哭声这一类别,准确率为98.94%,召回率为96.12%。
综上所述,本申请实施例获取待检测的目标声音;提取目标声音的对数梅尔谱;使用预设的婴儿哭声和咳嗽声检测模型对目标声音的对数梅尔谱进行检测,得到目标声音的检测结果;其中,婴儿哭声和咳嗽声检测模型为基于MobileNetV2网络模型改进,且经过预设的声音样本集训练得到的深度卷积神经网络模型;声音样本集中包括各种婴儿哭声样本、婴儿咳嗽声样本和其他声音样本,其他声音为非婴儿哭声且非婴儿咳嗽声的声音。通过本申请实施例,引入深度卷积神经网络模型来进行婴儿哭声和咳嗽声检测,可以挖掘到声音中更深层次的特征,有效提升了检测结果的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的一种婴儿哭声和咳嗽声检测方法,图3示出了本申请实施例提供的一种婴儿哭声和咳嗽声检测装置的一个实施例结构图。
本实施例中,一种婴儿哭声和咳嗽声检测装置可以包括:
目标声音获取模块301,用于获取待检测的目标声音;
目标声音特征提取模块302,用于提取所述目标声音的对数梅尔谱;
婴儿哭声和咳嗽声检测模块303,用于使用预设的婴儿哭声和咳嗽声检测模型对所述目标声音的对数梅尔谱进行检测,得到所述目标声音的检测结果;
其中,所述婴儿哭声和咳嗽声检测模型为基于MobileNetV2网络模型改进,且经过预设的声音样本集训练得到的深度卷积神经网络模型;所述声音样本集中包括各种婴儿哭声样本、婴儿咳嗽声样本和其他声音样本,所述其他声音为非婴儿哭声且非婴儿咳嗽声的声音。
在本申请实施例的一种具体实现方式中,所述婴儿哭声和咳嗽声检测装置还可以包括:
样本特征提取模块,用于提取所述声音样本集中的各个声音样本的对数梅尔谱;
训练检测模块,用于使用初始的婴儿哭声和咳嗽声检测模型分别对各个声音样本的对数梅尔谱进行婴儿哭声和咳嗽声检测,得到各个声音样本的实际检测结果;
训练损失计算模块,用于根据所述实际检测结果和预设的期望检测结果计算训练损失;
模型训练模块,用于根据所述训练损失对婴儿哭声和咳嗽声检测模型进行模型训练,直至满足预设的训练停止条件,得到训练后的婴儿哭声和咳嗽声检测模型。
在本申请实施例的一种具体实现方式中,所述婴儿哭声和咳嗽声检测装置还可以包括:
数据增强模块,用于对所述声音样本集中的各个声音样本进行数据增强处理,得到各个增强声音样本;将各个增强声音样本分别添加入所述声音样本集中,得到扩充后的声音样本集。
在本申请实施例的一种具体实现方式中,所述训练损失计算模块可以具体用于:根据所述实际检测结果和预设的期望检测结果,使用预设的二元交叉熵损失函数计算所述训练损失。
在本申请实施例的一种具体实现方式中,所述婴儿哭声和咳嗽声检测模块可以包括:
概率值获取单元,用于将所述目标声音的对数梅尔谱输入所述婴儿哭声和咳嗽声检测模型,并获取所述婴儿哭声和咳嗽声检测模型输出的所述目标声音分别属于各个声音类别的概率值;其中,各个声音类别包括婴儿哭声、婴儿咳嗽声和其他声音;
声音类别确定单元,用于根据最大的概率值对应的声音类别确定所述目标声音的声音类别。
在本申请实施例的一种具体实现方式中,所述声音类别确定单元可以包括:
概率值判断子单元,用于判断最大的概率值是否大于预设的概率阈值;
第一确定子单元,用于若最大的概率值大于所述概率阈值,则确定所述目标声音的声音类别为最大的概率值对应的声音类别;
第二确定子单元,用于若最大的概率值小于或等于所述概率阈值,则确定所述目标声音的声音类别为其他声音。
在本申请实施例的一种具体实现方式中,所述婴儿哭声和咳嗽声检测模型对MobileNetV2网络模型的改进包括:增加两个输入卷积层;增加最大池化层;将单个线性层替换为两个线性层。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图4示出了本申请实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本申请实施例相关的部分。
如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个婴儿哭声和咳嗽声检测方法实施例中的步骤,例如图2所示的步骤S201至步骤S203。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示模块301至模块303的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。
所述终端设备4可以是手机、平板电脑、桌上型计算机、笔记本、掌上电脑及机器人等计算设备。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备4还可以包括输入输出设备、网络接入设备、总线等。
所述处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备4所需的其它程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种婴儿哭声和咳嗽声检测方法,其特征在于,包括:
获取待检测的目标声音;
提取所述目标声音的对数梅尔谱;
使用预设的婴儿哭声和咳嗽声检测模型对所述目标声音的对数梅尔谱进行检测,得到所述目标声音的检测结果;
其中,所述婴儿哭声和咳嗽声检测模型为基于MobileNetV2网络模型改进,且经过预设的声音样本集训练得到的深度卷积神经网络模型;所述声音样本集中包括各种婴儿哭声样本、婴儿咳嗽声样本和其他声音样本,所述其他声音为非婴儿哭声且非婴儿咳嗽声的声音。
2.根据权利要求1所述的婴儿哭声和咳嗽声检测方法,其特征在于,所述婴儿哭声和咳嗽声检测模型的训练过程包括:
提取所述声音样本集中的各个声音样本的对数梅尔谱;
使用初始的婴儿哭声和咳嗽声检测模型分别对各个声音样本的对数梅尔谱进行婴儿哭声和咳嗽声检测,得到各个声音样本的实际检测结果;
根据所述实际检测结果和预设的期望检测结果计算训练损失;
根据所述训练损失对婴儿哭声和咳嗽声检测模型进行模型训练,直至满足预设的训练停止条件,得到训练后的婴儿哭声和咳嗽声检测模型。
3.根据权利要求2所述的婴儿哭声和咳嗽声检测方法,其特征在于,在提取所述声音样本集中各个声音样本的对数梅尔谱之前,还包括:
对所述声音样本集中的各个声音样本进行数据增强处理,得到各个增强声音样本;
将各个增强声音样本分别添加入所述声音样本集中,得到扩充后的声音样本集。
4.根据权利要求2所述的婴儿哭声和咳嗽声检测方法,其特征在于,所述根据所述实际检测结果和预设的期望检测结果计算训练损失,包括:
根据所述实际检测结果和预设的期望检测结果,使用预设的二元交叉熵损失函数计算所述训练损失。
5.根据权利要求1所述的婴儿哭声和咳嗽声检测方法,其特征在于,所述使用预设的婴儿哭声和咳嗽声检测模型对所述目标声音的对数梅尔谱进行检测,得到所述目标声音的检测结果,包括:
将所述目标声音的对数梅尔谱输入所述婴儿哭声和咳嗽声检测模型,并获取所述婴儿哭声和咳嗽声检测模型输出的所述目标声音分别属于各个声音类别的概率值;其中,各个声音类别包括婴儿哭声、婴儿咳嗽声和其他声音;
根据最大的概率值对应的声音类别确定所述目标声音的声音类别。
6.根据权利要求5所述的婴儿哭声和咳嗽声检测方法,其特征在于,所述根据最大的概率值对应的声音类别确定所述目标声音的声音类别,包括:
判断最大的概率值是否大于预设的概率阈值;
若最大的概率值大于所述概率阈值,则确定所述目标声音的声音类别为最大的概率值对应的声音类别;
若最大的概率值小于或等于所述概率阈值,则确定所述目标声音的声音类别为其他声音。
7.根据权利要求1至6中任一项所述的婴儿哭声和咳嗽声检测方法,其特征在于,所述婴儿哭声和咳嗽声检测模型对MobileNetV2网络模型的改进包括:增加两个输入卷积层;增加最大池化层;将单个线性层替换为两个线性层。
8.一种婴儿哭声和咳嗽声检测装置,其特征在于,包括:
目标声音获取模块,用于获取待检测的目标声音;
目标声音特征提取模块,用于提取所述目标声音的对数梅尔谱;
婴儿哭声和咳嗽声检测模块,用于使用预设的婴儿哭声和咳嗽声检测模型对所述目标声音的对数梅尔谱进行检测,得到所述目标声音的检测结果;
其中,所述婴儿哭声和咳嗽声检测模型为基于MobileNetV2网络模型改进,且经过预设的声音样本集训练得到的深度卷积神经网络模型;所述声音样本集中包括各种婴儿哭声样本、婴儿咳嗽声样本和其他声音样本,所述其他声音为非婴儿哭声且非婴儿咳嗽声的声音。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的婴儿哭声和咳嗽声检测方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的婴儿哭声和咳嗽声检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210945981.1A CN115457975A (zh) | 2022-08-08 | 2022-08-08 | 婴儿哭声和咳嗽声检测方法、装置、存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210945981.1A CN115457975A (zh) | 2022-08-08 | 2022-08-08 | 婴儿哭声和咳嗽声检测方法、装置、存储介质及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457975A true CN115457975A (zh) | 2022-12-09 |
Family
ID=84297331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210945981.1A Pending CN115457975A (zh) | 2022-08-08 | 2022-08-08 | 婴儿哭声和咳嗽声检测方法、装置、存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457975A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386671A (zh) * | 2023-03-16 | 2023-07-04 | 宁波星巡智能科技有限公司 | 婴幼儿哭声类别识别方法、装置、设备及存储介质 |
CN116935861A (zh) * | 2023-08-10 | 2023-10-24 | 广州番禺职业技术学院 | 一种用于婴儿啼哭的哭声检测方法、系统及装置 |
CN118298855A (zh) * | 2024-06-05 | 2024-07-05 | 山东第一医科大学附属省立医院(山东省立医院) | 一种婴儿哭声识别护理方法、系统及存储介质 |
-
2022
- 2022-08-08 CN CN202210945981.1A patent/CN115457975A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386671A (zh) * | 2023-03-16 | 2023-07-04 | 宁波星巡智能科技有限公司 | 婴幼儿哭声类别识别方法、装置、设备及存储介质 |
CN116386671B (zh) * | 2023-03-16 | 2024-05-07 | 宁波星巡智能科技有限公司 | 婴幼儿哭声类别识别方法、装置、设备及存储介质 |
CN116935861A (zh) * | 2023-08-10 | 2023-10-24 | 广州番禺职业技术学院 | 一种用于婴儿啼哭的哭声检测方法、系统及装置 |
CN118298855A (zh) * | 2024-06-05 | 2024-07-05 | 山东第一医科大学附属省立医院(山东省立医院) | 一种婴儿哭声识别护理方法、系统及存储介质 |
CN118298855B (zh) * | 2024-06-05 | 2024-08-09 | 山东第一医科大学附属省立医院(山东省立医院) | 一种婴儿哭声识别护理方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115457975A (zh) | 婴儿哭声和咳嗽声检测方法、装置、存储介质及终端设备 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
US20180115641A1 (en) | Method And Apparatus For Classifying Telephone Dialing Test Audio Based On Artificial Intelligence | |
CN109658921B (zh) | 一种语音信号处理方法、设备及计算机可读存储介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN111798828B (zh) | 合成音频检测方法、系统、移动终端及存储介质 | |
CN111357051A (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN112767927A (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
CN111325190A (zh) | 一种表情识别方法、装置、计算机设备及可读存储介质 | |
CN111680642A (zh) | 一种地形分类方法及装置 | |
CN110889009A (zh) | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN117457017B (zh) | 语音数据的清洗方法及电子设备 | |
CN113591733B (zh) | 基于集成神经网络模型的水声通信调制模式分类识别方法 | |
CN114676825A (zh) | 一种神经网络模型量化方法、系统、设备及介质 | |
CN111062440A (zh) | 一种样本选择方法、装置、设备及存储介质 | |
CN114155875A (zh) | 语音场景篡改鉴别的方法、装置、电子设备及存储介质 | |
CN112818774B (zh) | 一种活体检测方法及装置 | |
CN111353526A (zh) | 一种图像匹配方法、装置以及相关设备 | |
CN114048770B (zh) | 面向数字音频删除和插入篡改操作自动检测方法及系统 | |
CN116844573A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN115472179A (zh) | 面向数字音频删除和插入篡改操作自动检测方法及系统 | |
CN114822558A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN114420136A (zh) | 一种声纹识别模型训练的方法、装置以及存储介质 | |
CN113327616A (zh) | 声纹识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |