CN113488077B

CN113488077B - 真实场景下的婴儿哭声检测方法、装置及可读介质

Info

Publication number: CN113488077B
Application number: CN202111042258.4A
Authority: CN
Inventors: 不公告发明人
Original assignee: Zhuhai Eeasy Electronic Tech Co ltd
Current assignee: Zhuhai Eeasy Electronic Tech Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-07
Anticipated expiration: 2041-09-07
Also published as: CN113488077A

Abstract

本发明涉及一种真实场景下的婴儿哭声检测方法、装置及可读介质的技术方案，包括：采集真实场景下包括有婴儿哭声的音频数据，将音频数据作为数据集进行标注及前处理，得到网络输入数据；将网络输入数据输入至包括有特征提取网络、人声检测网络及哭声检测网络的深度神经网络，并分别进行特征提取、人声检测及哭声检测的训练，得到人声检测网络和哭声检测网络对应的第一损失函数及第二损失函数；对深度神经网络整体进行训练得到第三损失函数，得到婴儿哭声检测模型；通过婴儿哭声检测模型对输入的真实场景采集的音频数据进行检测，得到真实场景的婴儿哭声检测结果。本发明的有益效果为：能够在相对较短的时间内较为准确地检测出婴儿哭声。

Description

真实场景下的婴儿哭声检测方法、装置及可读介质

技术领域

本发明涉及计算机人工智能领域，具体涉及了一种真实场景下的婴儿哭声检测方法、装置及可读介质。

背景技术

对于新生婴儿来说，哭声是他们与外界交流的主要方式。婴儿会通过哭声来表达一些生理需求（如饥饿，口渴，身体不适等）。现在越来越多的智能家居产品都提供婴儿哭声检测的功能，可以协助父母看护婴儿。

现有婴儿哭声检测系统仍然存在许多不足之处，例如，持续的哭声一般要超过30s才能被成功检出，对应用环境要求比较高，大多数产品只能在安静的室内才能取得理想的检测效果，当环境音稍微复杂，检测性能急剧下降。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供了一种真实场景下的婴儿哭声检测方法、装置及可读介质，能够在相对较短的时间内较为准确地检测出哭声。

本发明的技术方案包括一种真实场景下的婴儿哭声检测方法，该方法包括以下步骤：S100，采集真实场景下包括有婴儿哭声的音频数据，将所述音频数据作为数据集进行标注及前处理，得到网络输入数据；S200，将所述网络输入数据输入至包括有特征提取网络、人声检测网络及哭声检测网络的深度神经网络，并分别进行特征提取、人声检测及哭声检测的训练，得到所述人声检测网络和所述哭声检测网络对应的第一损失函数及第二损失函数；S300，对所述深度神经网络整体进行训练得到第三损失函数，得到婴儿哭声检测模型；S400，通过所述婴儿哭声检测模型对输入的真实场景采集的音频数据进行检测，得到真实场景的婴儿哭声检测结果。

根据所述的真实场景下的婴儿哭声检测方法，其中S100包括：所述数据集标注包括人声标注和非人声标注，以及，哭声标注和非哭声标注，其中标注方式为段级别的标注；所述前处理包括对音频数据分别进行预加重、分帧加窗处理，并对每帧数据进行STFT变换，将STFT变换后的结果作为所述网络输入数据。

根据所述的真实场景下的婴儿哭声检测方法，其中特征提取网络包括：经过STFT变换后的音频频谱直接作为网络输入，所述特征提取网络通过多个步长和卷积核参数不同的一维卷积执行特征提取，STFT频谱经过所述特征提取网络的输出作为后续人声检测网络和哭声检测网络的输入特征。

根据所述的真实场景下的婴儿哭声检测方法，其中人声检测网络包括依次连接的DS_block、全连接网络及二分类函数，所述DS_block包括左侧分支及右侧分支，所述左侧分支为逐点卷积，所述右侧分支包括逐点卷积和逐通道卷积，每个所述逐点卷积和所述逐通道卷积后均设置有批归一化函数及激活函数，所述特征提取网络用于对输入的全部特征进行预测，得到人声及非人声的概率值。

根据所述的真实场景下的婴儿哭声检测方法，其中哭声检测网络包括依次连接的多个CNN卷积块、LSTM、全连接网络及二分类函数，获取所述特征提取网络用于对输入的音频频率特征进行预测，得到哭声及非哭声的概率值。

根据所述的真实场景下的婴儿哭声检测方法，其中音频频率的设置为16Khz,则对应的音频频段为0-8Khz，以及音频频段的关注范围为500Hz-4kHz，其中音频频段的关注范围为网络输入范围。

根据所述的真实场景下的婴儿哭声检测方法，其中S400包括第一检测阶段及第二检测阶段，所述第一检测阶段用于判断是否为人声，如果检测出为非人声，则检测结果为非哭声；所述第二检测阶段用于根据检测结果为人声时，进而检测是否包括婴儿哭声，所述第一检测阶段设置有唤醒第二检测阶段的判断阈值，所述判断阈值可自定义调整。

根据所述的真实场景下的婴儿哭声检测方法，其中输入的真实场景采集的音频数据的时间长度大于5s。

本发明的技术方案还包括一种真实场景下的婴儿哭声检测装置，该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现任一项所述的方法步骤。

本发明的技术方案还包括一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现中任一项的方法。

本发明的有益效果为：考虑到数据获取和数据标注的难度，采用弱标签学习机制，简化了标注流程，提高了检测性能；将音频进行STFT变换后的输出直接作为网络的输入，让网络自己学习不同声音种类的频率特征，而非根据人耳感知人为的划分频段；将人声检测机制融入到哭声检测系统中，一方面能够降低现有VAD对哭声检测网络的影响，另一方面利用哭声属于人声这一本质属性，能够加快推理过程；网络处理上，将训练和测试网络进行区分，充分利用数据，避免了由于数据不均衡给训练过程带来的影响。

附图说明

下面结合附图和实施例对本发明进一步地说明：

图1所示为根据本发明实施方式的总体流程图。

图2所示为根据本发明实施方式的特征提取网络示意图。

图3所示为根据本发明实施方式的婴儿哭声检测整体训练示意图。

图4所示为根据本发明实施方式的人声检测网络结构示意图。

图5所示为根据本发明实施方式的DS_block示意图。

图6所示为根据本发明实施方式的哭声检测网络结构示意图。

图7所示为根据本发明实施方式的CNN卷积块示意图。

图8所示为根据本发明实施方式的真实场景下的婴儿哭声检测流程图。

图9所示为根据本发明实施方式的装置图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本发明的描述中，对方法步骤的连续标号是为了方便审查和理解，结合本发明的整体技术方案以及各个步骤之间的逻辑关系，调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。

本发明的描述中，除非另有明确的限定，设置等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示的流程图，该流程包括以下步骤：S100，采集真实场景下包括有婴儿哭声的音频数据，将音频数据作为数据集进行标注及前处理，得到网络输入数据；S200，将网络输入数据输入至包括有特征提取网络、人声检测网络及哭声检测网络的深度神经网络，并分别进行特征提取、人声检测及哭声检测的训练，得到人声检测网络和哭声检测网络对应的第一损失函数及第二损失函数；S300，对深度神经网络整体进行训练得到第三损失函数，得到婴儿哭声检测模型；S400，通过婴儿哭声检测模型对输入的真实场景采集的音频数据进行检测，得到真实场景的婴儿哭声检测结果。其中第一损失函数、第二损失函数及第三损失函数均通过训练且已收敛。其中，数据集标注包含两个阶段，第一阶段数据集标注人声和非人声，第二阶段数据集标注哭声和非哭声。由于婴儿哭声都具有时间连续性和持续性，因此对数据进行标注只需进行段级别的标注数据，不需要严格的帧级别数据，这样也提高了标注效率。以10s为例，对数据集进行分段和标注。数据前处理：将10s的音频分别进行预加重，分帧加窗处理，并对每帧数据进行STFT变换，将STFT变换后的结果作为网络的输入。

参考图2所示的特征提取网络示意图，本实施例与其他声音类深度学习网络不同之处在于，本实施例不采用常用的原始音频/fbank/MFCC特征作为输入，而采用经过STFT变换后的频谱直接作为网络输入，特征提取网络为多个步长和卷积核参数不同的一维卷积，STFT频谱经过特征提取网络的输出作为后续人声预测网络和声音分类的网络的输入特征。图2中，1表示bacthsize=1（每批数据量的大小），T表示时域，F表示频域，f0-fn表示经过卷积网络输出的子带，一维卷积为1*T*f0，1*T*f1…1*T*fn。假设一段10s的音频帧长40ms，帧移20ms，傅里叶变换点数为256，则经过本实施例的网络输出的维度1*T*F为1*499*256，经过N个一维的卷积组模拟频域滤波器输出N个结果，在频域维度上进行拼接后输出维度为1*T*F’，经过一个一维卷积进行维度变换成原始输入维度并与原有输入进行相加作为后续网络的特征输入。参考后续实施例，由于后续的人声检测网络和哭声分类网络是二分类网络，而人声和哭声都是分布在特定频率范围的声音，因此通过一维卷积，让网络自己学习有用的频域信息，比人为划分梅尔频率更加适用于本任务。

婴儿哭声属于一种特殊的人声，现有的婴儿哭声检测网络并未直接在网络中将婴儿哭声和人声进行分开处理，大部分的处理方式为将输入的声音进行VAD（端点检测）处理，过滤掉一部分噪声，将过滤后的哭声作为训练集中的婴儿哭声，采用这种方式有两个缺点，一方面网络对婴儿哭声的检测性能依赖于前期的VAD过滤效果，另一方面，逐帧进行处理依赖于帧级别哭声标注的准确率。无论是过滤不充分或者标注误差都会影响到最后的婴儿哭声检测性能。

图3所示的实施例将网络分为人声检测网络和哭声检测网络两个部分。人声检测网络和哭声检测网络的本质都是二分类网络，为了兼顾检测性能和检测效率，本实施例的技术方案采用Res18作为特征提取器，后接GRU网络提取时域部分信息，将GRU的输出接入到全连接网络得到最终的二分类输出，其中，Res18可更换为其他的神经网络模型，GRU网络也可更换为LSTM/RNN网络。图3中loss1、loss2及loss3分别对应图1实施例的第一损失函数、第二损失函数及第三损失函数，第一损失函数为人声检测网络输出的经过训练且已收敛的损失函数，第二损失函数为哭声检测网络输出的经过训练且已收敛的损失函数，第三损失函数为整体网络输出的经过训练且已收敛的损失函数。

如图4及图5，其中图4所示为人声检测网络区别人声和非人声的工作流程图，并不需要关注声音细节，而人声检测网络在整个网络处理过程中的第一步，只需要对声音进行粗略过滤即可，而图5所示为图4中DS_block的具体结构。

参考图4，其输入特征为特征提取网络的全部特征信息，DS_block的输出进行flatten（扁平化处理）之后经过Linear层（全连接网络层），softmax为二分类函数。假设输入特征维度为[1，T，F]，经过多层DS_block(图4为三层)，输出维度为[1，N，M]（其中N和M由DS_block中的具体参数决定），经过flatten后变换成[1，N*M]，经过softmax最终输出[1，2]的概率值，该实施例中2代表二分类，分别对应人声和非人声的概率值。

参考图5，其中DS_block包括了DW（逐通道卷积）和PW（逐点卷积），左侧分支由PW组成，右侧分支由DW和PW组成，每个PW或者DW后都连接相应的BN和RELU，保证输入输出数据分布一致性。

参考图6，为哭声检测网络的流程图，在整个网络中属于细分网络，需要关注声音的细节部分。本实施例中哭声检测网络的输入音频为16KHz，包含的声音频率范围为0-8KHz，针对哭声检测网络，可以适当的调整输入频率范围，例如哭声一般集中在1000HZ以上，哭声检测网络可以重点关注500Hz-4KHz频率范围内的声音信息。图6中，输入特征为特征提取网络的部分特征信息（重点关注500Hz-4KHz），CNN_block的输出进行flatten之后经过LSTM层，再连接Linear层，softmax为二分类函数。假设输入特征维度为[1，T’，F’]，经过多层CNN_block(图6为三层)，输出维度为[1，N’，M’]（其中N和M由CNN_block中的具体参数决定），经过flatten处理成[1，N’*M’]，经过LSTM处理变成[1，L]，经过softmax最终输出[1，2]的概率值，该实施例2代表二分类，分别对应哭声和非哭声的概率值。

图7为CNN_block（CNN卷积块）的具体结构，与人声检测网络不同的是采用CNN_block代替DS_block，这是因为哭声检测网络更偏向于关注声音的细节。比人声检测网络增加了LSTM，正是因为哭声具有时域连续性。

如图8所示，本发明的实施例提供了一种具体的婴儿哭声检测方式，其流程如下：

通过音频检测设备在设定的时间间隔内循环采集真实场景下的音频数据，其中设定时间间隔大于5s且可自定义设置；

将音频数据输入至婴儿哭声检测模型进行检测，得到婴儿哭声检测结果；

若婴儿哭声检测结果包括有婴儿哭声，可以将检测结果或者检测到包括有婴儿哭声的音频数据发送至用户客户端（如手机APP），不管是否有检测到婴儿哭声，均在后续保持采集真实场景下的音频数据。通过本实施例，可以有效的区分集真实场景是否包括婴儿哭声，提高了婴儿哭声检测精度。

本发明的技术方案包括以下方式：婴儿哭声检测模型的检测基于上述实施例，即先进行人声的检测再进行婴儿哭声的检测，在实际应用中，在人声检测网络还设置有婴儿哭声检测网络的唤醒阈值，唤醒阈值根据检测到人声的时长或者强度进行自定义设置，例如，婴儿在短哭之后不进行后续检测，相对现有技术比较人性化。

图9所示为根据本发明实施方式的装置图。该装置包括存储器100及处理器200，其中处理器200存储有计算机程序，计算机程序用于执行：采集真实场景下包括有婴儿哭声的音频数据，将音频数据作为数据集进行标注及前处理，得到网络输入数据；将网络输入数据输入至包括有特征提取网络、人声检测网络及哭声检测网络的深度神经网络，并分别进行特征提取、人声检测及哭声检测的训练，得到人声检测网络和哭声检测网络对应的第一损失函数及第二损失函数；对深度神经网络整体进行训练得到第三损失函数，得到婴儿哭声检测模型；通过婴儿哭声检测模型对输入的真实场景采集的音频数据进行检测，得到真实场景的婴儿哭声检测结果。

应当认识到，本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种真实场景下的婴儿哭声检测方法，其特征在于，该方法包括以下步骤：

S100，采集真实场景下包括有婴儿哭声的音频数据，将所述音频数据作为数据集进行标注及前处理，得到网络输入数据；

S200，将所述网络输入数据输入至包括有特征提取网络、人声检测网络及哭声检测网络的深度神经网络，并分别进行特征提取、人声检测及哭声检测的训练，得到所述人声检测网络和所述哭声检测网络对应的第一损失函数及第二损失函数；

S300，对所述深度神经网络整体进行训练得到第三损失函数，得到婴儿哭声检测模型；

S400，通过所述婴儿哭声检测模型对输入的真实场景采集的音频数据进行检测，得到真实场景的婴儿哭声检测结果。

2.根据权利要求1所述的真实场景下的婴儿哭声检测方法，其特征在于，所述S100包括：

所述数据集标注包括人声标注和非人声标注，以及，哭声标注和非哭声标注，其中标注方式为段级别的标注；

所述前处理包括对音频数据分别进行预加重、分帧加窗处理，并对每帧数据进行STFT变换，将STFT变换后的结果作为所述网络输入数据。

3.根据权利要求2所述的真实场景下的婴儿哭声检测方法，其特征在于，所述特征提取网络包括：

经过STFT变换后的音频频谱直接作为网络输入，所述特征提取网络通过多个步长和卷积核参数不同的一维卷积执行特征提取，STFT频谱经过所述特征提取网络的输出作为后续人声检测网络和哭声检测网络的输入特征。

4.根据权利要求1所述的真实场景下的婴儿哭声检测方法，其特征在于，所述人声检测网络包括依次连接的DS_block、全连接网络及二分类函数，所述DS_block包括左侧分支及右侧分支，所述左侧分支为逐点卷积，所述右侧分支包括逐点卷积和逐通道卷积，每个所述逐点卷积和所述逐通道卷积后均设置有批归一化函数及激活函数，所述特征提取网络用于对输入的全部特征进行预测，得到人声及非人声的概率值。

5.根据权利要求1所述的真实场景下的婴儿哭声检测方法，其特征在于，所述哭声检测网络包括依次连接的多个CNN卷积块、LSTM、全连接网络及二分类函数，获取所述特征提取网络用于对输入的音频频率特征进行预测，得到哭声及非哭声的概率值。

6.根据权利要求5所述的真实场景下的婴儿哭声检测方法，其特征在于，所述音频频率的设置为16Khz,则对应的音频频段为0-8Khz，以及音频频段的关注范围为500Hz-4kHz，其中音频频段的关注范围为网络输入范围。

7.根据权利要求1所述的真实场景下的婴儿哭声检测方法，其特征在于，所述S400包括第一检测阶段及第二检测阶段，所述第一检测阶段用于判断是否为人声，如果检测出为非人声，则检测结果为非哭声；所述第二检测阶段用于根据检测结果为人声时，进而检测是否包括婴儿哭声，所述第一检测阶段设置有唤醒第二检测阶段的判断阈值，所述判断阈值可自定义调整。

8.根据权利要求1所述的真实场景下的婴儿哭声检测方法，其特征在于，所述输入的真实场景采集的音频数据的时间长度大于5s。

9.一种真实场景下的婴儿哭声检测装置，该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至8中任一项的方法。