CN112382311B

CN112382311B - 基于混合神经网络的婴儿啼哭声意图识别方法及装置

Info

Publication number: CN112382311B
Application number: CN202011281689.1A
Authority: CN
Inventors: 谭昊玥
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2022-08-19
Anticipated expiration: 2040-11-16
Also published as: CN112382311A

Abstract

本发明涉及语音识别技术领域，本发明旨在解决现有的自动识别婴儿哭闹原因的算法存在识别准确率不高的问题，提出一种基于混合神经网络的婴儿啼哭声意图识别方法及装置，其主要的技术构思为：获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集；建立基于CNN+DNN神经网络的意图识别模型；根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练；根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。本发明提高了婴儿啼哭声意图识别的准确性。

Description

基于混合神经网络的婴儿啼哭声意图识别方法及装置

技术领域

本发明涉及语音识别技术领域，具体来说涉及一种基于混合神经网络的婴儿啼哭声意图识别方法及装置。

背景技术

随着近些年来人工智能领域以及语音技术的发展，使得婴儿啼哭声意图识别成为了可能，通过自动识别婴儿哭闹原因的算法，能够让家长更容易理解婴儿哭声的具体含义，从而帮助婴儿更加健康的成长。

现有技术中的自动识别婴儿哭闹原因的算法大多是利用了MFCC特征参数来实现的。例如，基于码本的婴儿哭闹原因识别算法、基于神经网络的婴儿哭闹原因识别算法、基于MFCC特征参数的深度学习婴儿哭闹原因识别算法等，但是由于每种网络模型在不同限制因素下具有不同的优缺点，使得传统的自动识别婴儿哭闹原因的算法存在识别准确率不高的问题。

发明内容

本发明旨在解决现有的自动识别婴儿哭闹原因的算法存在识别准确率不高的问题，提出一种基于混合神经网络的婴儿啼哭声意图识别方法及装置。

本发明解决上述技术问题所采用的技术方案是：基于混合神经网络的婴儿啼哭声意图识别方法，包括以下步骤：

步骤1、获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集；

步骤2、建立基于CNN+DNN神经网络的意图识别模型；

步骤3、根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练；

步骤4、根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。

进一步的，所述数据集中的音频数据和待识别婴儿啼哭声的音频数据均是经过预处理转化之后得到的特征矩阵。

进一步的，所述预处理包括：对音频数据进行分帧后将其转换为pkl格式的音频数据，对所述pkl格式的音频数据参照MFCC梅尔频率倒谱系数的方式提取特征，并通过快速傅里叶变换、取平方值和梅尔滤波，得到梅尔频谱，最后形成特征矩阵。

进一步的，所述基于CNN+DNN神经网络的意图识别模型的前段为包括15个残差网络模块的CNN模型，所述基于CNN+DNN神经网络的意图识别模型的后段为包括3个隐藏层的DNN模型。

进一步的，所述建立基于CNN+DNN神经网络的意图识别模型的方法包括：

依次设置第一卷积层、第一最大池化层、15个串联的残差网络模块、第二池化层、第二卷积层、序列化降维模块、3个隐藏层和输出层；

所述第一卷积层包括16个3×3的卷积核，卷积步长为1，激活函数为ReLU；所述第一最大池化层的大小为3×3，步长为2，填充为1；所述残差网络模块的卷积核的数量依次为{16，16，16，16，16，16，32，32，32，32，32，32，64，64，64}，残差网络模块的步长依次为：{1，1，1，2，1，1，2，1，1，2，1，1，1，1，1}；所述第一最大池化层大小为2×2，步长为2；所述第二卷积层包括32个1×3的卷积核，卷积步长为[3,1]，激活函数为ReLU；所述序列化降维模块用于对数据进行序列化降维后输入至DNN模型；所述隐藏层的激活函数均为ReLU；所述输出层的激活函数为SOFTMAX。

进一步的，每个残差网络模块中包括3个串联的第三卷积层和一个直接与残差网络模块的输入端连接的第四卷积层；

第一个第三卷积层与残差网络模块的输入端连接，其卷积核大小为1×1，卷积步长为1，激活函数为ELU；第二个第三卷积层的卷积核大小为3×3，卷积核的数量和卷积步长由输入值决定，激活函数为ELU；第三个第三卷积层的卷积核大小为1×1，卷积核的数量为输入值的四倍，卷积步长为1，不执行激活函数；所述第四卷积层的卷积核大小为1×1，卷积核的数量为输入值的四倍，卷积步长由输入值决定，不执行激活函数。

进一步的，所述第四卷积层在输入特征矩阵的列数不等于卷积核数量的四倍或者卷积步长为2时才执行，当第四卷积层执行时，对应的残差网络模块的输出值为第三个第三卷积层的输出与第四卷积层的输出值按照位加处理后并执行激活函数ELU的结果，当第四卷积层不执行时，对应的残差网络模块的输出值为第三个第三卷积层的输出值与该残差网络模块的输入值进行位加处理后并执行激活函数ELU的结果。

进一步的，所述根据数据集对基于CNN+DNN神经网络的意图识别模型进行训练包括：

将所述训练集输入到基于CNN+DNN神经网络的意图识别模型中训练网络的参数，利用反向传播算法更新模型参数，所述模型参数至少包括：训练步数、卷积核和权重。

进一步的，所述步骤4之前还包括：从训练集中选取验证集，根据验证集对训练好的基于CNN+DNN神经网络的意图识别模型进行验证，得到验证结果，判断所述验证结果是否合格，若合格，则进入步骤4，否则进入步骤2。

本发明还提出一种基于混合神经网络的婴儿啼哭声意图识别的装置，包括：获取单元、建立单元、训练单元和识别单元；

所述获取单元用于获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集；

所述建立单元用于建立基于CNN+DNN神经网络的意图识别模型；

所述训练单元用于根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练；

所述识别单元用于根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。

本发明的有益效果是：本发明所述的基于混合神经网络的婴儿啼哭声意图识别方法及装置，将人工智能中的卷积神经网络(CNN模型)与深度神经网络(DNN模型)相结合，通过机器学习的方法来实现对婴儿啼哭声的意图识别，提高了婴儿啼哭声的意图识别的准确率。

附图说明

图1为本发明实施例所述的基于混合神经网络的婴儿啼哭声意图识别方法的流程示意图；

图2为本发明实施例所述的基于CNN+DNN神经网络的意图识别模型的结构示意图；

图3为本发明实施例所述的残差神经网络的结构示意图；

图4为本发明实施例所述的基于混合神经网络的婴儿啼哭声意图识别装置的结构示意图。

具体实施方式

下面将结合附图对本发明的实施方式进行详细描述。

本发明旨在解决现有的自动识别婴儿哭闹原因的算法存在识别准确率不高的问题，提出一种基于混合神经网络的婴儿啼哭声意图识别方法及装置，其主要的技术构思为：获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集；建立基于CNN+DNN神经网络的意图识别模型；根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练；根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。

首先，收集数据集，数据集包含婴儿啼哭声的音频数据及其对应的意图概率，数据集用于对意图识别模型进行训练；然后建立基于CNN+DNN神经网络的意图识别模型，该意图识别模型为初步意图识别模型；再然后，根据收集的数据集对建立的初步意图识别模型进行训练，确定用于进行婴儿啼哭声意图识别的模型参数，将得到的模型参数代入初步意图识别模型即可得到用于婴儿啼哭声意图识别的意图识别模型；最后，将待识别婴儿啼哭声的音频数据输入至训练好的意图识别模型中，即可输出待识别婴儿啼哭声对应的意图概率。通过混合神经网络模型，成功识别出生活中各个婴儿啼哭的意义，使照顾婴儿更加地简单，可避免应如何照顾婴儿而产生的家庭争端同时，也让父母更好地照顾婴儿，让婴儿健康的成长。

实施例

本发明实施例所述的基于混合神经网络的婴儿啼哭声意图识别方法，如图1所示，包括以下步骤：

步骤S1、获取包含婴儿啼哭声的音频数据及其对应的意图概率的数据集；

具体而言，数据集可以通过婴儿哭声数据库获取，婴儿哭声数据库可以是通过对邓斯坦婴儿语言等理论的学习，在油管等网站上收集多种类型的婴儿哭声数据，经过预处理等步骤建立的婴儿哭声数据库。

数据集中包括多种不同类型的婴儿啼哭声的音频数据及其对应的意图概率，对应的意图可以包括：饥饿、困倦、打嗝、疼痛、不舒服等。

步骤S2、建立基于CNN+DNN神经网络的意图识别模型；

本实施例中，如图2所示，所述基于CNN+DNN神经网络的意图识别模型的前段为包括15个残差网络模块的CNN模型，基于CNN+DNN神经网络的意图识别模型的后段为包括3个隐藏层的DNN模型。

建立基于CNN+DNN神经网络的意图识别模型的方法可以包括：依次设置第一卷积层、第一最大池化层、15个串联的残差网络模块、第二池化层、第二卷积层、序列化降维模块、3个隐藏层和输出层；

其中，如图3所示，每个残差网络模块中包括3个串联的第三卷积层和一个直接与残差网络模块的输入端连接的第四卷积层；

其中，所述第四卷积层为捷径层。第四卷积层在输入特征矩阵的列数不等于卷积核数量的四倍或者卷积步长为2时才执行，当第四卷积层执行时，对应的残差网络模块的输出值为第三个第三卷积层的输出与第四卷积层的输出值按照位加处理后并执行激活函数ELU的结果，当第四卷积层不执行时，对应的残差网络模块的输出值为第三个第三卷积层的输出值与该残差网络模块的输入值进行位加处理后并执行激活函数ELU的结果。

步骤S3、根据所述数据集对基于CNN+DNN神经网络的意图识别模型进行训练；

本实施例中，数据集中的音频数据可以是经过预处理转化之后得到的特征矩阵。具体的，可以通过建立生成器模型实现对音频数据的预处理，生成器模型所执行的预处理步骤可以包括：

从指定目录中获取wav格式的音频数据；

对音频数据进行分帧。由于音频信号一般没有定长，因此需要对音频数据分帧，具体的，可以将音频信号分割成若干片段，每一个片段为一帧。本实施例按照帧长25ms，帧移10ms将音频数据分帧；

将音频数据分帧后，将获取的音频数据转变为pkl格式的音频数据；

对pkl格式的音频数据参照MFCC梅尔频率倒谱系数的方式提取特征，并通过快速傅里叶变换、取平方值和梅尔滤波得到梅尔频谱，最后形成特征矩阵。

可以理解，所述根据数据集对基于CNN+DNN神经网络的意图识别模型进行训练包括：

将所述训练集输入到基于CNN+DNN神经网络的意图识别模型中训练网络的参数；本实施例中，训练回合数为60，一次训练所选取的样本数为64段音频数据。

利用反向传播算法更新模型参数，所述模型参数至少包括：训练步数、卷积核和权重。

为了进一步提高意图识别的准确性，所述步骤S4之前还包括：

从训练集中选取验证集，根据验证集对训练好的基于CNN+DNN神经网络的意图识别模型进行验证，得到验证结果，判断所述验证结果是否合格，若合格，则进入步骤S4，进行意图识别流程，否则进入步骤S2，重新对基于CNN+DNN神经网络的意图识别模型进行训练，直到训练出最优模型。

步骤S4、根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别。

相应的，待识别婴儿啼哭声的音频数据也可以是经过预处理转化之后得到的特征矩阵。可以通过上述生成器模型实现对音频数据的预处理，将预处理转化之后得到的特征矩阵输入至训练好的基于CNN+DNN神经网络的意图识别模型，即可输出待识别婴儿啼哭声对应的意图概率。

基于上述技术方案，本发明实施例还提出一种基于混合神经网络的婴儿啼哭声意图识别装置，如图4所示，包括：获取单元、建立单元、训练单元和识别单元；

所述建立单元用于建立基于CNN+DNN神经网络的意图识别模型；

可以理解，由于本发明实施例所述的基于混合神经网络的婴儿啼哭声意图识别装置是用于实现实施例所述基于混合神经网络的婴儿啼哭声意图识别方法的装置，对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的较为简单，相关之处参见方法的部分说明即可。

Claims

1.基于混合神经网络的婴儿啼哭声意图识别方法，其特征在于，包括以下步骤：

步骤2、建立基于CNN+DNN神经网络的意图识别模型；

步骤4、根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别；

所述基于CNN+DNN神经网络的意图识别模型的前段为包括15个残差网络模块的CNN模型，所述基于CNN+DNN神经网络的意图识别模型的后段为包括3个隐藏层的DNN模型；

所述建立基于CNN+DNN神经网络的意图识别模型的方法包括：

2.如权利要求1所述的基于混合神经网络的婴儿啼哭声意图识别方法，其特征在于，所述数据集中的音频数据和待识别婴儿啼哭声的音频数据均是经过预处理转化之后得到的特征矩阵。

3.如权利要求2所述的基于混合神经网络的婴儿啼哭声意图识别方法，其特征在于，所述预处理包括：

对音频数据进行分帧后将其转换为pkl格式的音频数据，对所述pkl格式的音频数据参照MFCC梅尔频率倒谱系数的方式提取特征，并通过快速傅里叶变换、取平方值和梅尔滤波，得到梅尔频谱，最后形成特征矩阵。

4.如权利要求1所述的基于混合神经网络的婴儿啼哭声意图识别方法，其特征在于，每个残差网络模块中包括3个串联的第三卷积层和一个直接与残差网络模块的输入端连接的第四卷积层；

5.如权利要求4所述的基于混合神经网络的婴儿啼哭声意图识别方法，其特征在于，所述第四卷积层在输入特征矩阵的列数不等于卷积核数量的四倍或者卷积步长为2时才执行，当第四卷积层执行时，对应的残差网络模块的输出值为第三个第三卷积层的输出与第四卷积层的输出值按照位加处理后并执行激活函数ELU的结果，当第四卷积层不执行时，对应的残差网络模块的输出值为第三个第三卷积层的输出值与该残差网络模块的输入值进行位加处理后并执行激活函数ELU的结果。

6.如权利要求1所述的基于混合神经网络的婴儿啼哭声意图识别方法，其特征在于，所述根据数据集对基于CNN+DNN神经网络的意图识别模型进行训练包括：

从数据集中选取训练集，将所述训练集输入到基于CNN+DNN神经网络的意图识别模型中训练网络的参数，利用反向传播算法更新模型参数，所述模型参数至少包括：训练步数、卷积核和权重。

7.如权利要求1至6任一项所述的基于混合神经网络的婴儿啼哭声意图识别方法，其特征在于，所述步骤4之前还包括：

从数据集中选取验证集，根据验证集对训练好的基于CNN+DNN神经网络的意图识别模型进行验证，得到验证结果，判断所述验证结果是否合格，若合格，则进入步骤4，否则进入步骤2。

8.基于混合神经网络的婴儿啼哭声意图识别装置，其特征在于，包括：获取单元、建立单元、训练单元和识别单元；

所述建立单元用于建立基于CNN+DNN神经网络的意图识别模型；

所述识别单元用于根据训练好的基于CNN+DNN神经网络的意图识别模型对待识别婴儿啼哭声的音频数据进行意图识别；

所述建立单元具体用于：