CN112382311B - 基于混合神经网络的婴儿啼哭声意图识别方法及装置 - Google Patents
基于混合神经网络的婴儿啼哭声意图识别方法及装置 Download PDFInfo
- Publication number
- CN112382311B CN112382311B CN202011281689.1A CN202011281689A CN112382311B CN 112382311 B CN112382311 B CN 112382311B CN 202011281689 A CN202011281689 A CN 202011281689A CN 112382311 B CN112382311 B CN 112382311B
- Authority
- CN
- China
- Prior art keywords
- convolution
- neural network
- layer
- cnn
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 71
- 206010011469 Crying Diseases 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 54
- 230000004913 activation Effects 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 208000031361 Hiccup Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及语音识别技术领域,本发明旨在解决现有的自动识别婴儿哭闹原因的算法存在识别准确率不高的问题,提出一种基于混合神经网络的婴儿啼哭声意图识别方法及装置,其主要的技术构思为:获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集;建立基于CNN+DNN神经网络的意图识别模型;根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练;根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。本发明提高了婴儿啼哭声意图识别的准确性。
Description
技术领域
本发明涉及语音识别技术领域,具体来说涉及一种基于混合神经网络的婴儿啼哭声意图识别方法及装置。
背景技术
随着近些年来人工智能领域以及语音技术的发展,使得婴儿啼哭声意图识别成为了可能,通过自动识别婴儿哭闹原因的算法,能够让家长更容易理解婴儿哭声的具体含义,从而帮助婴儿更加健康的成长。
现有技术中的自动识别婴儿哭闹原因的算法大多是利用了MFCC特征参数来实现的。例如,基于码本的婴儿哭闹原因识别算法、基于神经网络的婴儿哭闹原因识别算法、基于MFCC特征参数的深度学习婴儿哭闹原因识别算法等,但是由于每种网络模型在不同限制因素下具有不同的优缺点,使得传统的自动识别婴儿哭闹原因的算法存在识别准确率不高的问题。
发明内容
本发明旨在解决现有的自动识别婴儿哭闹原因的算法存在识别准确率不高的问题,提出一种基于混合神经网络的婴儿啼哭声意图识别方法及装置。
本发明解决上述技术问题所采用的技术方案是:基于混合神经网络的婴儿啼哭声意图识别方法,包括以下步骤:
步骤1、获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集;
步骤2、建立基于CNN+DNN神经网络的意图识别模型;
步骤3、根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练;
步骤4、根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。
进一步的,所述数据集中的音频数据和待识别婴儿啼哭声的音频数据均是经过预处理转化之后得到的特征矩阵。
进一步的,所述预处理包括:对音频数据进行分帧后将其转换为pkl格式的音频数据,对所述pkl格式的音频数据参照MFCC梅尔频率倒谱系数的方式提取特征,并通过快速傅里叶变换、取平方值和梅尔滤波,得到梅尔频谱,最后形成特征矩阵。
进一步的,所述基于CNN+DNN神经网络的意图识别模型的前段为包括15个残差网络模块的CNN模型,所述基于CNN+DNN神经网络的意图识别模型的后段为包括3个隐藏层的DNN模型。
进一步的,所述建立基于CNN+DNN神经网络的意图识别模型的方法包括:
依次设置第一卷积层、第一最大池化层、15个串联的残差网络模块、第二池化层、第二卷积层、序列化降维模块、3个隐藏层和输出层;
所述第一卷积层包括16个3×3的卷积核,卷积步长为1,激活函数为ReLU;所述第一最大池化层的大小为3×3,步长为2,填充为1;所述残差网络模块的卷积核的数量依次为{16,16,16,16,16,16,32,32,32,32,32,32,64,64,64},残差网络模块的步长依次为:{1,1,1,2,1,1,2,1,1,2,1,1,1,1,1};所述第一最大池化层大小为2×2,步长为2;所述第二卷积层包括32个1×3的卷积核,卷积步长为[3,1],激活函数为ReLU;所述序列化降维模块用于对数据进行序列化降维后输入至DNN模型;所述隐藏层的激活函数均为ReLU;所述输出层的激活函数为SOFTMAX。
进一步的,每个残差网络模块中包括3个串联的第三卷积层和一个直接与残差网络模块的输入端连接的第四卷积层;
第一个第三卷积层与残差网络模块的输入端连接,其卷积核大小为1×1,卷积步长为1,激活函数为ELU;第二个第三卷积层的卷积核大小为3×3,卷积核的数量和卷积步长由输入值决定,激活函数为ELU;第三个第三卷积层的卷积核大小为1×1,卷积核的数量为输入值的四倍,卷积步长为1,不执行激活函数;所述第四卷积层的卷积核大小为1×1,卷积核的数量为输入值的四倍,卷积步长由输入值决定,不执行激活函数。
进一步的,所述第四卷积层在输入特征矩阵的列数不等于卷积核数量的四倍或者卷积步长为2时才执行,当第四卷积层执行时,对应的残差网络模块的输出值为第三个第三卷积层的输出与第四卷积层的输出值按照位加处理后并执行激活函数ELU的结果,当第四卷积层不执行时,对应的残差网络模块的输出值为第三个第三卷积层的输出值与该残差网络模块的输入值进行位加处理后并执行激活函数ELU的结果。
进一步的,所述根据数据集对基于CNN+DNN神经网络的意图识别模型进行训练包括:
将所述训练集输入到基于CNN+DNN神经网络的意图识别模型中训练网络的参数,利用反向传播算法更新模型参数,所述模型参数至少包括:训练步数、卷积核和权重。
进一步的,所述步骤4之前还包括:从训练集中选取验证集,根据验证集对训练好的基于CNN+DNN神经网络的意图识别模型进行验证,得到验证结果,判断所述验证结果是否合格,若合格,则进入步骤4,否则进入步骤2。
本发明还提出一种基于混合神经网络的婴儿啼哭声意图识别的装置,包括:获取单元、建立单元、训练单元和识别单元;
所述获取单元用于获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集;
所述建立单元用于建立基于CNN+DNN神经网络的意图识别模型;
所述训练单元用于根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练;
所述识别单元用于根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。
本发明的有益效果是:本发明所述的基于混合神经网络的婴儿啼哭声意图识别方法及装置,将人工智能中的卷积神经网络(CNN模型)与深度神经网络(DNN模型)相结合,通过机器学习的方法来实现对婴儿啼哭声的意图识别,提高了婴儿啼哭声的意图识别的准确率。
附图说明
图1为本发明实施例所述的基于混合神经网络的婴儿啼哭声意图识别方法的流程示意图;
图2为本发明实施例所述的基于CNN+DNN神经网络的意图识别模型的结构示意图;
图3为本发明实施例所述的残差神经网络的结构示意图;
图4为本发明实施例所述的基于混合神经网络的婴儿啼哭声意图识别装置的结构示意图。
具体实施方式
下面将结合附图对本发明的实施方式进行详细描述。
本发明旨在解决现有的自动识别婴儿哭闹原因的算法存在识别准确率不高的问题,提出一种基于混合神经网络的婴儿啼哭声意图识别方法及装置,其主要的技术构思为:获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集;建立基于CNN+DNN神经网络的意图识别模型;根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练;根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。
首先,收集数据集,数据集包含婴儿啼哭声的音频数据及其对应的意图概率,数据集用于对意图识别模型进行训练;然后建立基于CNN+DNN神经网络的意图识别模型,该意图识别模型为初步意图识别模型;再然后,根据收集的数据集对建立的初步意图识别模型进行训练,确定用于进行婴儿啼哭声意图识别的模型参数,将得到的模型参数代入初步意图识别模型即可得到用于婴儿啼哭声意图识别的意图识别模型;最后,将待识别婴儿啼哭声的音频数据输入至训练好的意图识别模型中,即可输出待识别婴儿啼哭声对应的意图概率。通过混合神经网络模型,成功识别出生活中各个婴儿啼哭的意义,使照顾婴儿更加地简单,可避免应如何照顾婴儿而产生的家庭争端同时,也让父母更好地照顾婴儿,让婴儿健康的成长。
实施例
本发明实施例所述的基于混合神经网络的婴儿啼哭声意图识别方法,如图1所示,包括以下步骤:
步骤S1、获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集;
具体而言,数据集可以通过婴儿哭声数据库获取,婴儿哭声数据库可以是通过对邓斯坦婴儿语言等理论的学习,在油管等网站上收集多种类型的婴儿哭声数据,经过预处理等步骤建立的婴儿哭声数据库。
数据集中包括多种不同类型的婴儿啼哭声的音频数据及其对应的意图概率,对应的意图可以包括:饥饿、困倦、打嗝、疼痛、不舒服等。
步骤S2、建立基于CNN+DNN神经网络的意图识别模型;
本实施例中,如图2所示,所述基于CNN+DNN神经网络的意图识别模型的前段为包括15个残差网络模块的CNN模型,基于CNN+DNN神经网络的意图识别模型的后段为包括3个隐藏层的DNN模型。
建立基于CNN+DNN神经网络的意图识别模型的方法可以包括:依次设置第一卷积层、第一最大池化层、15个串联的残差网络模块、第二池化层、第二卷积层、序列化降维模块、3个隐藏层和输出层;
所述第一卷积层包括16个3×3的卷积核,卷积步长为1,激活函数为ReLU;所述第一最大池化层的大小为3×3,步长为2,填充为1;所述残差网络模块的卷积核的数量依次为{16,16,16,16,16,16,32,32,32,32,32,32,64,64,64},残差网络模块的步长依次为:{1,1,1,2,1,1,2,1,1,2,1,1,1,1,1};所述第一最大池化层大小为2×2,步长为2;所述第二卷积层包括32个1×3的卷积核,卷积步长为[3,1],激活函数为ReLU;所述序列化降维模块用于对数据进行序列化降维后输入至DNN模型;所述隐藏层的激活函数均为ReLU;所述输出层的激活函数为SOFTMAX。
其中,如图3所示,每个残差网络模块中包括3个串联的第三卷积层和一个直接与残差网络模块的输入端连接的第四卷积层;
第一个第三卷积层与残差网络模块的输入端连接,其卷积核大小为1×1,卷积步长为1,激活函数为ELU;第二个第三卷积层的卷积核大小为3×3,卷积核的数量和卷积步长由输入值决定,激活函数为ELU;第三个第三卷积层的卷积核大小为1×1,卷积核的数量为输入值的四倍,卷积步长为1,不执行激活函数;所述第四卷积层的卷积核大小为1×1,卷积核的数量为输入值的四倍,卷积步长由输入值决定,不执行激活函数。
其中,所述第四卷积层为捷径层。第四卷积层在输入特征矩阵的列数不等于卷积核数量的四倍或者卷积步长为2时才执行,当第四卷积层执行时,对应的残差网络模块的输出值为第三个第三卷积层的输出与第四卷积层的输出值按照位加处理后并执行激活函数ELU的结果,当第四卷积层不执行时,对应的残差网络模块的输出值为第三个第三卷积层的输出值与该残差网络模块的输入值进行位加处理后并执行激活函数ELU的结果。
步骤S3、根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练;
本实施例中,数据集中的音频数据可以是经过预处理转化之后得到的特征矩阵。具体的,可以通过建立生成器模型实现对音频数据的预处理,生成器模型所执行的预处理步骤可以包括:
从指定目录中获取wav格式的音频数据;
对音频数据进行分帧。由于音频信号一般没有定长,因此需要对音频数据分帧,具体的,可以将音频信号分割成若干片段,每一个片段为一帧。本实施例按照帧长25ms,帧移10ms将音频数据分帧;
将音频数据分帧后,将获取的音频数据转变为pkl格式的音频数据;
对pkl格式的音频数据参照MFCC梅尔频率倒谱系数的方式提取特征,并通过快速傅里叶变换、取平方值和梅尔滤波得到梅尔频谱,最后形成特征矩阵。
可以理解,所述根据数据集对基于CNN+DNN神经网络的意图识别模型进行训练包括:
将所述训练集输入到基于CNN+DNN神经网络的意图识别模型中训练网络的参数;本实施例中,训练回合数为60,一次训练所选取的样本数为64段音频数据。
利用反向传播算法更新模型参数,所述模型参数至少包括:训练步数、卷积核和权重。
为了进一步提高意图识别的准确性,所述步骤S4之前还包括:
从训练集中选取验证集,根据验证集对训练好的基于CNN+DNN神经网络的意图识别模型进行验证,得到验证结果,判断所述验证结果是否合格,若合格,则进入步骤S4,进行意图识别流程,否则进入步骤S2,重新对基于CNN+DNN神经网络的意图识别模型进行训练,直到训练出最优模型。
步骤S4、根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。
相应的,待识别婴儿啼哭声的音频数据也可以是经过预处理转化之后得到的特征矩阵。可以通过上述生成器模型实现对音频数据的预处理,将预处理转化之后得到的特征矩阵输入至训练好的基于CNN+DNN神经网络的意图识别模型,即可输出待识别婴儿啼哭声对应的意图概率。
基于上述技术方案,本发明实施例还提出一种基于混合神经网络的婴儿啼哭声意图识别装置,如图4所示,包括:获取单元、建立单元、训练单元和识别单元;
所述获取单元用于获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集;
所述建立单元用于建立基于CNN+DNN神经网络的意图识别模型;
所述训练单元用于根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练;
所述识别单元用于根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。
可以理解,由于本发明实施例所述的基于混合神经网络的婴儿啼哭声意图识别装置是用于实现实施例所述基于混合神经网络的婴儿啼哭声意图识别方法的装置,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的较为简单,相关之处参见方法的部分说明即可。
Claims (8)
1.基于混合神经网络的婴儿啼哭声意图识别方法,其特征在于,包括以下步骤:
步骤1、获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集;
步骤2、建立基于CNN+DNN神经网络的意图识别模型;
步骤3、根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练;
步骤4、根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别;
所述基于CNN+DNN神经网络的意图识别模型的前段为包括15个残差网络模块的CNN模型,所述基于CNN+DNN神经网络的意图识别模型的后段为包括3个隐藏层的DNN模型;
所述建立基于CNN+DNN神经网络的意图识别模型的方法包括:
依次设置第一卷积层、第一最大池化层、15个串联的残差网络模块、第二池化层、第二卷积层、序列化降维模块、3个隐藏层和输出层;
所述第一卷积层包括16个3×3的卷积核,卷积步长为1,激活函数为ReLU;所述第一最大池化层的大小为3×3,步长为2,填充为1;所述残差网络模块的卷积核的数量依次为{16,16,16,16,16,16,32,32,32,32,32,32,64,64,64},残差网络模块的步长依次为:{1,1,1,2,1,1,2,1,1,2,1,1,1,1,1};所述第一最大池化层大小为2×2,步长为2;所述第二卷积层包括32个1×3的卷积核,卷积步长为[3,1],激活函数为ReLU;所述序列化降维模块用于对数据进行序列化降维后输入至DNN模型;所述隐藏层的激活函数均为ReLU;所述输出层的激活函数为SOFTMAX。
2.如权利要求1所述的基于混合神经网络的婴儿啼哭声意图识别方法,其特征在于,所述数据集中的音频数据和待识别婴儿啼哭声的音频数据均是经过预处理转化之后得到的特征矩阵。
3.如权利要求2所述的基于混合神经网络的婴儿啼哭声意图识别方法,其特征在于,所述预处理包括:
对音频数据进行分帧后将其转换为pkl格式的音频数据,对所述pkl格式的音频数据参照MFCC梅尔频率倒谱系数的方式提取特征,并通过快速傅里叶变换、取平方值和梅尔滤波,得到梅尔频谱,最后形成特征矩阵。
4.如权利要求1所述的基于混合神经网络的婴儿啼哭声意图识别方法,其特征在于,每个残差网络模块中包括3个串联的第三卷积层和一个直接与残差网络模块的输入端连接的第四卷积层;
第一个第三卷积层与残差网络模块的输入端连接,其卷积核大小为1×1,卷积步长为1,激活函数为ELU;第二个第三卷积层的卷积核大小为3×3,卷积核的数量和卷积步长由输入值决定,激活函数为ELU;第三个第三卷积层的卷积核大小为1×1,卷积核的数量为输入值的四倍,卷积步长为1,不执行激活函数;所述第四卷积层的卷积核大小为1×1,卷积核的数量为输入值的四倍,卷积步长由输入值决定,不执行激活函数。
5.如权利要求4所述的基于混合神经网络的婴儿啼哭声意图识别方法,其特征在于,所述第四卷积层在输入特征矩阵的列数不等于卷积核数量的四倍或者卷积步长为2时才执行,当第四卷积层执行时,对应的残差网络模块的输出值为第三个第三卷积层的输出与第四卷积层的输出值按照位加处理后并执行激活函数ELU的结果,当第四卷积层不执行时,对应的残差网络模块的输出值为第三个第三卷积层的输出值与该残差网络模块的输入值进行位加处理后并执行激活函数ELU的结果。
6.如权利要求1所述的基于混合神经网络的婴儿啼哭声意图识别方法,其特征在于,所述根据数据集对基于CNN+DNN神经网络的意图识别模型进行训练包括:
从数据集中选取训练集,将所述训练集输入到基于CNN+DNN神经网络的意图识别模型中训练网络的参数,利用反向传播算法更新模型参数,所述模型参数至少包括:训练步数、卷积核和权重。
7.如权利要求1至6任一项所述的基于混合神经网络的婴儿啼哭声意图识别方法,其特征在于,所述步骤4之前还包括:
从数据集中选取验证集,根据验证集对训练好的基于CNN+DNN神经网络的意图识别模型进行验证,得到验证结果,判断所述验证结果是否合格,若合格,则进入步骤4,否则进入步骤2。
8.基于混合神经网络的婴儿啼哭声意图识别装置,其特征在于,包括:获取单元、建立单元、训练单元和识别单元;
所述获取单元用于获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集;
所述建立单元用于建立基于CNN+DNN神经网络的意图识别模型;
所述训练单元用于根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练;
所述识别单元用于根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别;
所述基于CNN+DNN神经网络的意图识别模型的前段为包括15个残差网络模块的CNN模型,所述基于CNN+DNN神经网络的意图识别模型的后段为包括3个隐藏层的DNN模型;
所述建立单元具体用于:
依次设置第一卷积层、第一最大池化层、15个串联的残差网络模块、第二池化层、第二卷积层、序列化降维模块、3个隐藏层和输出层;
所述第一卷积层包括16个3×3的卷积核,卷积步长为1,激活函数为ReLU;所述第一最大池化层的大小为3×3,步长为2,填充为1;所述残差网络模块的卷积核的数量依次为{16,16,16,16,16,16,32,32,32,32,32,32,64,64,64},残差网络模块的步长依次为:{1,1,1,2,1,1,2,1,1,2,1,1,1,1,1};所述第一最大池化层大小为2×2,步长为2;所述第二卷积层包括32个1×3的卷积核,卷积步长为[3,1],激活函数为ReLU;所述序列化降维模块用于对数据进行序列化降维后输入至DNN模型;所述隐藏层的激活函数均为ReLU;所述输出层的激活函数为SOFTMAX。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011281689.1A CN112382311B (zh) | 2020-11-16 | 2020-11-16 | 基于混合神经网络的婴儿啼哭声意图识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011281689.1A CN112382311B (zh) | 2020-11-16 | 2020-11-16 | 基于混合神经网络的婴儿啼哭声意图识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112382311A CN112382311A (zh) | 2021-02-19 |
CN112382311B true CN112382311B (zh) | 2022-08-19 |
Family
ID=74584861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011281689.1A Active CN112382311B (zh) | 2020-11-16 | 2020-11-16 | 基于混合神经网络的婴儿啼哭声意图识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112382311B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863550B (zh) * | 2021-03-01 | 2022-08-16 | 德鲁动力科技(成都)有限公司 | 基于注意力残差学习的哭声检测方法及系统 |
CN113361647A (zh) * | 2021-07-06 | 2021-09-07 | 青岛洞听智能科技有限公司 | 一种未接通电话类型识别方法 |
CN116935861A (zh) * | 2023-08-10 | 2023-10-24 | 广州番禺职业技术学院 | 一种用于婴儿啼哭的哭声检测方法、系统及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818779A (zh) * | 2017-09-15 | 2018-03-20 | 北京理工大学 | 一种婴幼儿啼哭声检测方法、装置、设备及介质 |
CN109376633A (zh) * | 2018-10-15 | 2019-02-22 | 北京车联天下信息技术有限公司 | 一种儿童安抚方法以及装置 |
CN111076809A (zh) * | 2019-12-31 | 2020-04-28 | 四川长虹电器股份有限公司 | 基于卷积神经网络的设备异常声音识别方法及系统 |
CN111276159A (zh) * | 2018-12-05 | 2020-06-12 | 阿里健康信息技术有限公司 | 一种婴儿发音分析方法及服务器 |
CN111326179A (zh) * | 2020-02-27 | 2020-06-23 | 杭州雄迈集成电路技术股份有限公司 | 一种婴儿哭声检测深度学习方法 |
US10783434B1 (en) * | 2019-10-07 | 2020-09-22 | Audio Analytic Ltd | Method of training a sound event recognition system |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI474315B (zh) * | 2012-05-25 | 2015-02-21 | Univ Nat Taiwan Normal | Infant cries analysis method and system |
US10529357B2 (en) * | 2017-12-07 | 2020-01-07 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
US20190254532A1 (en) * | 2018-02-21 | 2019-08-22 | Margaret T. Shaw | Baby language translation system and method of using the same |
-
2020
- 2020-11-16 CN CN202011281689.1A patent/CN112382311B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818779A (zh) * | 2017-09-15 | 2018-03-20 | 北京理工大学 | 一种婴幼儿啼哭声检测方法、装置、设备及介质 |
CN109376633A (zh) * | 2018-10-15 | 2019-02-22 | 北京车联天下信息技术有限公司 | 一种儿童安抚方法以及装置 |
CN111276159A (zh) * | 2018-12-05 | 2020-06-12 | 阿里健康信息技术有限公司 | 一种婴儿发音分析方法及服务器 |
US10783434B1 (en) * | 2019-10-07 | 2020-09-22 | Audio Analytic Ltd | Method of training a sound event recognition system |
CN111076809A (zh) * | 2019-12-31 | 2020-04-28 | 四川长虹电器股份有限公司 | 基于卷积神经网络的设备异常声音识别方法及系统 |
CN111326179A (zh) * | 2020-02-27 | 2020-06-23 | 杭州雄迈集成电路技术股份有限公司 | 一种婴儿哭声检测深度学习方法 |
Non-Patent Citations (3)
Title |
---|
Application of Deep Learning for Recognizing Infant Cries;Chuan-Yu Chang et al;《2016 International Conference on Consumer Electronics》;20160728;第3、4节,图3 * |
Infant cry recognition using a deep transfer learning method;Zhao Bo et al;《Proceedings of the Korea Information Processing Society Conference》;20201105 * |
由婴儿哭声分析哭闹原因算法实现;肖勇涛;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200715;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112382311A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112382311B (zh) | 基于混合神经网络的婴儿啼哭声意图识别方法及装置 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN109256118B (zh) | 基于生成式听觉模型的端到端汉语方言识别系统和方法 | |
CN1013525B (zh) | 认人与不认人实时语音识别的方法和装置 | |
US20200380954A1 (en) | Training method of hybrid frequency acoustic recognition model, and speech recognition method | |
CN111783534B (zh) | 一种基于深度学习的睡眠分期方法 | |
CN112562634B (zh) | 多风格音频合成方法、装置、设备及存储介质 | |
CN113724712B (zh) | 一种基于多特征融合和组合模型的鸟声识别方法 | |
CN111341294B (zh) | 将文本转换为指定风格语音的方法 | |
CN115602165B (zh) | 基于金融系统的数字员工智能系统 | |
CN107039036A (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN106601229A (zh) | 一种基于soc芯片的语音唤醒方法 | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN113488060B (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN115081473A (zh) | 一种多特征融合的制动噪声分类识别方法 | |
Beckmann et al. | Word-level embeddings for cross-task transfer learning in speech processing | |
CN112837670B (zh) | 语音合成方法、装置及电子设备 | |
Li et al. | Research on environmental sound classification algorithm based on multi-feature fusion | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN112580669A (zh) | 一种对语音信息的训练方法及装置 | |
CN113658596A (zh) | 语意辨识方法与语意辨识装置 | |
CN111862991A (zh) | 一种婴儿哭声的识别方法及系统 | |
CN113488077B (zh) | 真实场景下的婴儿哭声检测方法、装置及可读介质 | |
CN114595772A (zh) | 基于Transformer融合模型的婴儿哭声分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |