CN107818779A

CN107818779A - 一种婴幼儿啼哭声检测方法、装置、设备及介质

Info

Publication number: CN107818779A
Application number: CN201710835270.8A
Authority: CN
Inventors: 谢湘; 张立强
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2018-03-20

Abstract

本发明公开了一种婴幼儿啼哭声检测方法、装置、设备及介质，用以解决现有婴幼儿啼哭声检测方法的准确率无法取得较大突破的问题。该检测方法中通过根据预设的划分方法，将待识别的语音信息划分为多个第一语音段，并确定每个第一语音段的第一语谱图，根据第一语音段的第一语谱图及预先训练完成的残差网络模型，识别该第一语音段是否包含婴幼儿啼哭声。由于本发明实施例中通过对语音信息进行划分并确定语谱图，利用残差网络模型对语谱图进行识别，有效的提高了婴幼儿啼哭声检测的准确率。

Description

一种婴幼儿啼哭声检测方法、装置、设备及介质

技术领域

本发明涉及语音识别领域，尤其涉及一种婴幼儿啼哭声检测方法、装置、设备及介质。

背景技术

目前，已有的婴幼儿啼哭声检测方法主要是人工提取啼哭声特征参数，再采用机器学习模型如支持向量机(Support Vector Machine，SVM)、神经网络等进行检测的方法。具体的，现有的婴儿啼哭声检测方法包括：步骤一，将语音信号经处理提取得到短时能量、基音频率和倒谱参数等特征参数，其中常用的倒谱参数有线性预测倒谱系数(LinearPrediction Cepstrum Coefficient，LPCC)和梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)，在婴儿哭声检测方面MFCC参数的识别效果优于LPCC，MFCC参数在婴儿哭声检测领域的使用更为广泛。步骤二，将提取的短时能量、基音频率和MFCC参数运用机器学习模型如SVM、神经网络等进行检测。其中，在神经网络模型中，极限学习机(Extreme Learning Machine，ELM)应用具有反向传播的多层感知器和隶属值形式的模糊逻辑，在模型复杂度和训练速度上比应用其他流行方法具有更高的优势，而运用SVM进行检测具有更高的准确率，是目前常用的检测方法。

但目前已有的婴幼儿啼哭声检测方法主要是人工提取特征参数，特征参数提取的好坏决定了检测的效果，而什么样的特征参数能够具有最好的检测效果，现在也是不确定的，并且即使组合多种特征参数也难以完全凸显婴幼儿啼哭声的特点，使得检测的准确率无法取得较大突破。而在建模方面，特征参数提取得越复杂，模型的复杂度也会越高，且模型的效果取决于人工提取的特征参数，无论数据集如何增加，人工提取的特征参数种类都是固定的，因特征选取使模型出现的缺陷并不能通过数据集的增加来改进，因此训练的模型的准确率无法取得较大突破。

发明内容

本发明提供一种婴幼儿啼哭声检测方法、装置、设备及介质，用以提高现有技术中检测婴幼儿啼哭声的准确率。

为达到上述目的，本发明实施例公开了一种婴幼儿啼哭声检测方法，该方法包括：

根据预设的划分方法，将待识别的语音信息划分为多个第一语音段；

确定每个第一语音段的第一语谱图；

针对每个第一语音段，根据该第一语音段的第一语谱图及预先训练完成的残差网络模型，识别该第一语音段是否包含婴幼儿啼哭声。

进一步的，所述残差网络模型的训练过程包括：

针对每个样本语音信息，根据预设的划分方法，将该样本语音信息划分为多个第二语音段，标记该第二语音段是否包含婴幼儿啼哭声；

确定每个第二语音段的第二语谱图；

针对每个第二语音段，根据预先标记的该第二语音段是否包含婴幼儿啼哭声以及该第二语音段的第二语谱图，对残差网络模型进行训练。

进一步的，所述根据预设的划分方法，将待识别的语音信息划分为多个第一语音段包括：

根据第一设定时长将待识别的语音信息划分为多个第一语音段，并且每个在后的第一语音段，与其相邻的在前的第一语音段重叠第二设定时长，其中第二设定时长小于第一设定时长。

本发明实施例公开了一种婴幼儿啼哭声检测装置，包括：

划分模块，用于根据预设的划分方法，将待识别的语音信息划分为多个第一语音段；

确定模块，用于确定每个第一语音段的第一语谱图；

识别模块，用于针对每个第一语音段，根据该第一语音段的第一语谱图及预先训练完成的残差网络模型，识别该第一语音段是否包含婴幼儿啼哭声。

进一步的，所述划分模块，还用于针对每个样本语音信息，根据预设的划分方法，将该样本语音信息划分为多个第二语音段，标记该第二语音段是否包含婴幼儿啼哭声；

所述确定模块，还用于确定每个第二语音段的第二语谱图；

所述装置还包括：

训练模块，用于针对每个第二语音段，根据预先标记的该第二语音段是否包含婴幼儿啼哭声以及该第二语音段的第二语谱图，对残差网络模型进行训练。

进一步的，所述划分模块，具体用于根据第一设定时长将样本语音信息划分为多个第二语音段，并且每个在后的第二语音段，与其相邻的在前的第二语音段重叠第二设定时长，其中第二设定时长小于第一设定时长。

进一步的，所述划分模块，还具体用于根据第一设定时长将待识别的语音信息划分为多个第一语音段，并且每个在后的第一语音段，与其相邻的在前的第一语音段重叠第二设定时长，其中第二设定时长小于第一设定时长。

本发明实施例公开了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如上述任一项所述的方法步骤。

本发明实施例公开了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。

本发明通过对待识别的语音信息按预设方法进行分段处理，采用预先训练完成的残差网络模型针对提取的各语音段的语谱图，识别各语音段中是否包含婴幼儿啼哭声，无需人工提取语音信息的特征参数，克服了特征参数难以完全凸显婴幼儿啼哭声特点的问题，有效的提高了婴幼儿啼哭声检测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种婴幼儿啼哭声的检测方法；

图2为本发明实施例提供的残差网络模型训练结果的示意图；

图3为本发明实施例提供的一种婴幼儿啼哭声检测装置的示意图；

图4为本发明实施例提供的一种计算机设备示意图。

具体实施方式

为了提高婴幼儿啼哭声检测的准确率，本发明实施例提供了一种婴幼儿啼哭声检测方法及装置。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的一种婴幼儿啼哭声的检测方法，该方法包括：

S11：根据预设的划分方法，将待识别的语音信息划分为多个第一语音段。

针对每个语音信息，可以将每个语音信息划分为多个第一语音段，具体的划分时，可以采用多种方法，可以将语音信息划分为多个时长相同或时长不相同的第一语音段，语音信息的末段时长不足时向前划分指定时长，并且针对每个语音信息的第一语音段经过拼接后，可以得到该完整的语音信息；另外，在确定每个第一语音段时，每两个相邻的语音段可以有重叠或者没有重叠。

具体地，本发明实施例中，将该语音信息划分为多个第一语音段的方法包括但不限于以下几种：

第一种，将该语音信息划分为时长相同并且相互不重叠的第一语音段，其中第一语音段的时长可以是相同的1秒或2秒或3.5秒等；例如：将某一语音信息划分为每段时长为2秒的第一语音段，若该语音信息时长共10秒，则可划分为5个第一语音段。

第二种，将该语音信息划分为时长相同并相互重叠的第一语音段，其中第一语音段的时长可以是相同的1秒或2秒或3.5秒等，但其重叠部分时长相同且小于每个第一语音段的时长；例如：将某一语音信息划分为每段时长为2秒的第一语音段，每个在前的第一语音段与与其相邻的在后的第一语音段重叠1秒，若该语音信息时长共10秒，则可划分为9个第一语音段。

第三种，将该语音信息划分为时长不相同并相互不重叠的第一语音段，其中每个第一语音段的时长可以是不相等的1秒或2秒或3.5秒等；例如：将某一语音信息划分为第一个第一语音段时长为1秒，第二个第一语音段时长为2秒，第m个第一语音段时长为n秒的多个第一语音段(其中，m和n为随机的正有理数)。

第四种，将该语音信息划分为时长不相同并相互重叠的第一语音段，其中每个第一语音段的时长可以是不相同的1秒或2秒或3.5秒等，而且相互重叠的时长也可以不相同；例如：将某一时长为12秒的语音信息划分为5个第一语音段，其中，第一个第一语音段时长2秒，第二个第一语音段时长4秒且与第一个第一语音段重叠1秒，第三个第一语音段时长6秒且与第二个第一语音段重叠2秒，第四个第一语音段时长5秒且与第三个第一语音段重叠3秒，第五个第一语音段时长3秒且与第四个第一语音段重叠2秒。

较佳的，将该语音信息划分为时长相同的第一语音段。

S12：确定每个第一语音段的第一语谱图。

在本发明实施例中确定语音段的语谱图为现有技术，在本发明实施例中对该过程不进行说明。确定的第一语谱图的长度和宽度可以相同或者不同，也就是每个第一语谱图的尺寸大小可以相同或者不同。为了方便检测，在本发明实施例中确定的每个第一语音段的第一语谱图大小相等。例如，确定的每个第一语谱图的大小都为128*128。

S13：针对每个第一语音段，根据该第一语音段的第一语谱图及预先训练完成的残差网络模型，识别该第一语音段是否包含婴幼儿啼哭声。

在本发明实施例中预先对残差网络模型进行训练，并且在对残差网络模型进行训练时，也是根据样本中每个语音信息的每个语音段的语谱图，对残差网络模型训练完成的。训练完成的残差网络模型可以根据输入的语音段的语谱图，检测该语音段是否包含婴幼儿啼哭声。具体的，残差网络模型针对输入的该第一语音段的第一语谱图会输出相应的结果，即该语音段是否包含婴幼儿啼哭声。

本实施例中的方法，通过对待识别的语音信息按预设方法进行分段处理并确定每个语音段的语谱图，采用残差网络模型针对各语音段的语谱图，识别各语音段中是否包含婴幼儿啼哭声，无需人工提取语音信息的特征参数，克服了提取特征参数有难度以及特征参数难以完全凸显婴幼儿啼哭声特点的问题，提高了检测婴幼儿啼哭声的准确率。

实施例2：

为了使语音段经过拼接后，可以得到该完整的语音信息，保证语音信息的完整性，在上述实施例的基础上，本发明实施例中，所述根据预设的划分方法，将待识别的语音信息划分为多个第一语音段包括：

为了方便后续的检测，在本发明实施例中第一设定时长和第二设定时长都是固定的，且第二设定时长是第一设定时长的1/2。也就是说，划分后的每个第一语音段时长相同，且每两个相邻的第一语音段相互重叠，重叠的时长为第一语音段时长的1/2。例如，每个第一语音段的时长都为2s，重叠部分的时长都为1s。

进一步的，已知每个待识别的语音信息的时长，时间精度为秒，考虑到每个语音信息的时长可能不同(例如，语音信息a的时长为8秒，语音信息b的时长为10.3秒)，若选取的某一语音信息，根据设定时长不能被整数划分时，对其末段向前划分指定的整数长度。例如，选取的某一语音信息的时长为10.3秒，划分的第一语音段时长设定为2秒、重叠时长设定为1s时，该语音信息不能被整数划分，则将该语音信息的末段向前划分2秒作为最后一个第一语音段，以确保语音段的完整性。

本实施例中的方法，通过将待识别的语音信息划分为多个语音段，且每两个相邻的语音段相互重叠，当某一语音信息不能被整数划分时，对其末段向前划分指定的长度，保证了语音信息的完整性，进而确保了检测效果的准确率不受划分操作的影响。

实施例3：

为了准确的检测婴幼儿啼哭声，在上述实施例的基础上，在本发明实施例中，所述残差网络模型的训练过程包括：

确定每个第二语音段的第二语谱图；

具体的，针对每个样本语音信息，采用与上述检测过程相同的划分方式，将语音信息划分为多个语音段，此时将该每个语音段作为每个第二语音段，具体划分时，可以采用多种方法，可以将语音信息划分为多个时长相同或时长不相同的第二语音段，语音信息的末段时长不足时向前划分指定时长，并且针对每个语音信息的第二语音段经过拼接后，可以得到该完整的语音信息；另外，在确定每个第二语音段时，每两个相邻的语音段可以有重叠或者没有重叠。

具体地，本发明实施例中，将该语音信息划分为多个第二语音段的方法包括但不限于以下几种：

第一种，将该语音信息划分为时长相同并且相互不重叠的第二语音段，其中第二语音段的时长可以是相同的1秒或2秒或3.5秒等；例如：将某一语音信息划分为每段时长为2秒的第二语音段，若该语音信息时长共10秒，则可划分为5个第二语音段。

第二种，将该语音信息划分为时长相同并相互重叠的第二语音段，其中第二语音段的时长可以是相同的1秒或2秒或3.5秒等，但其重叠部分时长相同且小于每个第二语音段的时长；例如：将某一语音信息划分为每段时长为2秒的第二语音段，每个在前的第二语音段与与其相邻的在后的第二语音段重叠1秒，若该语音信息时长共10秒，则可划分为9个第二语音段。

第三种，将该语音信息划分为时长不相同并相互不重叠的第二语音段，其中每个第二语音段的时长可以是不相等的1秒或2秒或3.5秒等；例如：将某一语音信息划分为第一个第二语音段时长为1秒，第二个第二语音段时长为2秒，第m个第二语音段时长为n秒的多个第二语音段(其中，m和n为随机的正有理数)。

第四种，将该语音信息划分为时长不相同并相互重叠的第二语音段，其中每个第二语音段的时长可以是不相同的1秒或2秒或3.5秒等，而且相互重叠的时长也可以不相同；例如：将某一时长为12秒的语音信息划分为5段，其中，第一个第二语音段时长2秒，第二个第二语音段时长4秒且与第一个第二语音段重叠1秒，第三个第二语音段时长6秒且与第二个第二语音段重叠2秒，第四个第二语音段时长5秒且与第三个第二语音段重叠3秒，第五个第二语音段时长3秒且与第四个第二语音段重叠2秒。

优选的，为了方便后续的检测，训练过程的划分方式与检测过程的划分方式相同。在本发明实施例中第一设定时长和第二设定时长都是固定的，且第二设定时长是第一设定时长的1/2。也就是说，划分后的每个第二语音段时长相同，且每两个相邻的第二语音段相互重叠，重叠的时长为第二语音段时长的1/2，例如，每个第二语音段的时长都为2s，重叠部分的时长都为1s。

进一步的，已知每个待识别的语音信息的时长，时间精度为秒，考虑到每个语音信息的时长可能不同(例如，语音信息a的时长为8秒，语音信息b的时长为10.3秒)，若选取的某一样本语音信息，根据设定时长不能被整数划分时，对其末段向前划分指定的整数长度，例如，选取的某一样本语音信息的时长为10.3秒，划分的第二语音段时长设定为2秒、重叠时长设定为1s时，该样本语音信息不能被整数划分，则将该样本语音信息的末段向前划分2秒作为最后一个第二语音段，以确保第二语音段的完整性。

然后，根据已知的是否包含婴幼儿啼哭声标记该第二语音段。具体的，对包含婴幼儿啼哭声的第二语音段添加第一标记，对不包含婴幼儿啼哭声的第二语音段添加第二标记。

确定的第二语谱图的长度和宽度可以相同或者不同，也就是每个第二语谱图的尺寸大小可以相同或者不同，每个第二语谱图的尺寸大小可以相同或者不同。为了方便检测，在本发明实施例中确定的每个第一语谱图和每个第二语谱图的大小是相同的。

因为根据每个第二语音段中是否包含婴儿啼哭声，已经对每个第二语音段进行了标记，因此根据输入的每个第二语音段对应的语谱图，以及待训练的残差网络模型的输出结果，可以完成对残差网络模型的训练。

具体的，根据语谱图对残差网络模型进行训练的过程属于现有技术，在本发明实施例中对该过程不进行赘述。

训练完成的残差网络模型可以根据输入的语音段的语谱图，检测该语音段是否包含婴幼儿啼哭声。具体的，残差网络模型针对输入的语音段的语谱图会输出相应的结果，即该语音段是否包含婴幼儿啼哭声。

优选的，训练残差网络模型的梯度寻优算法为动量梯度算法，动量系数为0.9。

整个残差网络模型共19层，包括：1个卷积核为8*8、滤波器个数为16的卷积层，1个卷积核为5*5、滤波器个数为32的卷积层，4个依次连接的残差模块，1个全连接层。每个残差模块还包括：1个池化层和4个卷积核为3*3的卷积层，其中池化层的尺度为2*2，步长为2。

并且，4个依次连接的残差模块中设置有滤波器，其中第一个残差模块设置成64个滤波器，第二个残差模块设置成128个滤波器，第三个残差模块设置成256个滤波器，第四个残差模块设置成512个滤波器。

残差网络模型训练完成后，当将待识别的语音信息的每一语音段的语谱图输入到该残差网络模型后，该残差网络模型可以识别每一语音段是否包含婴幼儿啼哭声，当语音段包含婴幼儿啼哭声时，其对应的输出结果携带第一标记，当语音段不包含婴幼儿啼哭声时，其对应的输出结果携带第二标记。

上述本发明实施例中的技术方案，至少具有如下的技术效果：

本发明实施例提供的训练完成的残差网络模型，可以直接对语谱图识别，从而检测语音信息中是否包含了婴幼儿啼哭声，不涉及人工提取语音的特征参数，从而避免了提取特征参数有难度以及特征参数不能完全凸显婴幼儿啼哭声特点的问题，提高了检测婴幼儿啼哭声的准确率。

为了验证上述方法的准确率是否有较大突破，本实施例中设计了基于自制语音库的对比实验，该语音库中的哭声语音来自GitHub托管平台中“donate a cry”活动，非哭声语音包括铃声、鸟叫声、车笛声、猫叫声、狗叫声、玻璃碎裂声、警报声、鼾声和雷声共10种环境噪音和正常的普通话朗读语音。采用19层本发明的残差网络模型与SVM、ELM进行对比。

本实验中，对采集的语音信息进行划分，每两个相邻的语音段相互重叠。每个语音段的长度为2s，重叠的长度为1s。得到的数据集共2987个语音段，其中训练语音段与测试语音段的比例为7:3，哭声与非哭声的比例为1:1。提取每个语音段的语谱图，语谱图大小为128*128。

图2为本发明实施例提供的采用上述方法进行训练的残差网络模型的训练结果示意图，在具体的训练时设置的学习率初始值为0.0005，每5个迭代次数(epoch)衰减为原来的0.95，批次大小(batch size)为21，总共训练300个周期，loss为L2正则化项加上交叉熵，根据图2所示可知，在第125个周期时即可达到最高的测试准确率，即99.65％。

而在相同数据集下，提取短时能量、基音频率和MFCC参数，应用SVM和ELM进行检测，SVM的准确率最高为95.30％，ELM的准确率最高为87.53％。由此可见，本发明实施例中婴幼儿啼哭声的检测方法对婴幼儿啼哭声的检测能力极佳，准确率得到了较大突破。

本发明实施例中婴幼儿啼哭声的检测方法，通过对每个样本语音信息按预设方法进行分段处理并确定每个语音段的语谱图，然后根据各语音段的语谱图训练残差网络模型，使得该残差网络模型在婴幼儿啼哭声检测方面得到了比SVM和ELM更高的准确率。

实施例4：

图3为本发明实施例提供的一种婴幼儿啼哭声检测装置的示意图，所述装置包括：

划分模块31，用于根据预设的划分方法，将待识别的语音信息划分为多个第一语音段；

确定模块32，用于确定每个第一语音段的第一语谱图；

识别模块33，用于针对每个第一语音段，根据该第一语音段的第一语谱图及预先训练完成的残差网络模型，识别该第一语音段是否包含婴幼儿啼哭声。

所述划分模块31，还用于针对每个样本语音信息，根据预设的划分方法，将该样本语音信息划分为多个第二语音段，标记该第二语音段是否包含婴幼儿啼哭声；

所述确定模块32，还用于确定每个第二语音段的第二语谱图；

所述装置还包括：

训练模块34，用于针对每个第二语音段，根据预先标记的该第二语音段是否包含婴幼儿啼哭声以及该第二语音段的第二语谱图，对残差网络模型进行训练。

所述划分模块31，具体用于根据第一设定时长将样本语音信息划分为多个第二语音段，并且每个在后的第二语音段，与其相邻的在前的第二语音段重叠第二设定时长，其中第二设定时长小于第一设定时长。

所述划分模块31，还具体用于根据第一设定时长将待识别的语音信息划分为多个第一语音段，并且每个在后的第一语音段，与其相邻的在前的第一语音段重叠第二设定时长，其中第二设定时长小于第一设定时长。

本发明实施例中通过对每个样本语音信息按预设方法进行分段处理并确定每个语音段的语谱图，然后根据各语音段的语谱图训练残差网络模型，使得该残差网络模型在婴幼儿啼哭声检测方面得到了比SVM和ELM更高的准确率；同时，通过将待识别的语音信息划分为多个语音段，且每两个相邻的语音段相互重叠，当某一语音信息不能被整数划分时，对其末段向前划分指定的长度，保证了语音信息的完整性，进而确保了检测效果的准确率不受划分操作的影响；同时，对待识别的语音信息按预设方法进行分段处理并确定每个语音段的语谱图，采用残差网络模型针对各语音段的语谱图，识别各语音段中是否包含婴幼儿啼哭声，无需人工提取语音信息的特征参数，克服了提取特征参数有难度以及特征参数难以完全凸显婴幼儿啼哭声特点的问题，提高了检测婴幼儿啼哭声的准确率。

实施例5：

在上述各实施例的基础上，本发明实施例中还提供了一种电子设备，如图4所示，包括：处理器41、通信接口42、存储器43和通信总线44，其中，处理器41，通信接口42，存储器43通过通信总线44完成相互间的通信；

所述存储器43中存储有计算机程序，当所述程序被所述处理器41执行时，使得所述处理器41执行如下步骤：

确定每个第一语音段的第一语谱图；

基于同一发明构思，本发明实施例中还提供了一种电子设备，由于上述电子设备解决问题的原理与婴幼儿啼哭声检测方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、网络侧设备等。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口42用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在本发明实施例中处理器执行存储器上所存放的程序时，实现对每个样本语音信息按预设方法进行分段处理并确定每个语音段的语谱图，然后根据各语音段的语谱图训练残差网络模型，使得该残差网络模型在婴幼儿啼哭声检测方面得到了比SVM和ELM更高的准确率；同时，将待识别的语音信息划分为多个语音段，且每两个相邻的语音段相互重叠，当某一语音信息不能被整数划分时，对其末段向前划分指定的长度，保证了语音信息的完整性，进而确保了检测效果的准确率不受划分操作的影响；同时，对待识别的语音信息按预设方法进行分段处理并确定每个语音段的语谱图，采用残差网络模型针对各语音段的语谱图，识别各语音段中是否包含婴幼儿啼哭声，无需人工提取语音信息的特征参数，克服了提取特征参数有难度以及特征参数难以完全凸显婴幼儿啼哭声特点的问题，提高了检测婴幼儿啼哭声的准确率。

实施例6：

在上述各实施例的基础上，本发明实施例还提供了一种计算机存储可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

确定每个第一语音段的第一语谱图；

基于同一发明构思，本发明实施例中还提供了一种计算机可读存储介质，由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与婴幼儿啼哭声检测方法相似，因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施，重复之处不再赘述。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

在本发明实施例中提供的计算机可读存储介质内存储计算机程序，计算机程序被处理器执行时实现对每个样本语音信息按预设方法进行分段处理并确定每个语音段的语谱图，然后根据各语音段的语谱图训练残差网络模型，使得该残差网络模型在婴幼儿啼哭声检测方面得到了比SVM和ELM更高的准确率；同时，将待识别的语音信息划分为多个语音段，且每两个相邻的语音段相互重叠，当某一语音信息不能被整数划分时，对其末段向前划分指定的长度，保证了语音信息的完整性，进而确保了检测效果的准确率不受划分操作的影响；同时，对待识别的语音信息按预设方法进行分段处理并确定每个语音段的语谱图，采用残差网络模型针对各语音段的语谱图，识别各语音段中是否包含婴幼儿啼哭声，无需人工提取语音信息的特征参数，克服了提取特征参数有难度以及特征参数难以完全凸显婴幼儿啼哭声特点的问题，提高了检测婴幼儿啼哭声的准确率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种婴幼儿啼哭声检测方法，其特征在于，所述方法包括：

确定每个第一语音段的第一语谱图；

2.如权利要求1所述的婴幼儿啼哭声检测方法，其特征在于，所述残差网络模型的训练过程包括：

确定每个第二语音段的第二语谱图；

3.如权利要求2所述的婴幼儿啼哭声检测方法，其特征在于，所述根据预设的划分方法，将该样本语音信息划分为多个第二语音段包括：

根据第一设定时长将样本语音信息划分为多个第二语音段，并且每个在后的第二语音段，与其相邻的在前的第二语音段重叠第二设定时长，其中第二设定时长小于第一设定时长。

4.如权利要求1所述的婴幼儿啼哭声检测方法，其特征在于，所述根据预设的划分方法，将待识别的语音信息划分为多个第一语音段包括：

5.一种婴幼儿啼哭声检测装置，其特征在于，所述装置包括：

确定模块，用于确定每个第一语音段的第一语谱图；

6.如权利要求5所述的装置，其特征在于，所述划分模块，还用于针对每个样本语音信息，根据预设的划分方法，将该样本语音信息划分为多个第二语音段，标记该第二语音段是否包含婴幼儿啼哭声；

所述确定模块，还用于确定每个第二语音段的第二语谱图；

所述装置还包括：

7.如权利要求6所述的装置，其特征在于，所述划分模块，具体用于根据第一设定时长将样本语音信息划分为多个第二语音段，并且每个在后的第二语音段，与其相邻的在前的第二语音段重叠第二设定时长，其中第二设定时长小于第一设定时长。

8.如权利要求5所述的装置，其特征在于，所述划分模块，具体用于根据第一设定时长将待识别的语音信息划分为多个第一语音段，并且每个在后的第一语音段，与其相邻的在前的第一语音段重叠第二设定时长，其中第二设定时长小于第一设定时长。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法步骤。