CN114582355A

CN114582355A - 基于音视频融合的婴儿哭泣检测方法及装置

Info

Publication number: CN114582355A
Application number: CN202111422641.2A
Authority: CN
Inventors: 余松森; 刘朋
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-06-03
Anticipated expiration: 2041-11-26
Also published as: CN114582355B

Abstract

本发明涉及基于音视频融合的婴儿哭泣检测方法及装置。本发明所述的基于音视频融合的婴儿哭泣检测方法包括：获取待检测的音视频文件，将所述音视频文件进行拆分，得到音频数据和视频数据；提取所述音频数据的梅尔频谱图，使用ResNet神经网络提取所述梅尔频谱图的抽象特征，得到语音特征；提取所述视频数据中连续帧的灰度图像，使用3DCNN网络提取所述灰度图像的抽象特征，得到视觉特征；融合所述语音特征和所述视觉特征，得到混合特征；将所述混合特征输入训练好的ResNet残差网络，得到哭泣检测结果。本发明所述的基于音视频融合的婴儿哭泣检测方法及装置，将语音和视觉信息结合起来进行婴儿哭声的自动识别，提高了婴儿哭声检测的准确度。

Description

基于音视频融合的婴儿哭泣检测方法及装置

技术领域

本发明涉及计算机图像语音处理领域，特别是涉及一种基于音视频融合的婴儿哭泣检测方法及装置。

背景技术

哭声的自动检测在婴儿监测方面发挥着重要的作用。例如，婴儿哭泣检测能够减少父母的护理时间和家庭负担。在医院，高精度的哭声检测减轻了医院员工的工作量，并有助于提高哭声病理学诊断。

在以前的研究中，研究人员发现早期的婴儿声音具有相同的声音特征，但由于生活环境的影响，这些特征会随着时间而消失。基于这一发现，很多人致力于婴儿哭声的音频特征分析和检测算法的设计。大多数的婴儿哭声检测工作都使用频域的特征作为输入，如MFCC和 LFCC。这些特征在声音识别中是非常有效的。至于识别方法，卷积神经网络(CNN)和KNN 等机器学习算法占据了主流趋势。然而以前的哭声检测算法受限于数据，仅使用音频难以识别复杂环境下婴儿哭声。现有的婴儿啼哭识别算法忽略了视觉方面的信息，导致识别精度不高。

发明内容

基于此，本发明的目的在于，提供一种基于音视频融合的婴儿哭泣检测方法及装置，将语音和视觉信息结合起来进行婴儿哭声的自动识别，提高了婴儿哭声检测的准确度。

第一方面，本发明提供基于音视频融合的婴儿哭泣检测方法，该方法包括以下步骤：

获取待检测的音视频文件，将所述音视频文件进行拆分，得到音频数据和视频数据；

提取所述音频数据的梅尔频谱图，使用ResNet神经网络提取所述梅尔频谱图的抽象特征，得到语音特征；

提取所述视频数据中连续帧的灰度图像，使用3DCNN网络提取所述灰度图像的抽象特征，得到视觉特征；

融合所述语音特征和所述视觉特征，得到混合特征；

将所述混合特征输入训练好的ResNet残差网络，得到哭泣检测结果。

进一步地，融合所述语音特征和所述视觉特征，得到混合特征，包括：

采用以下公式融合所述语音特征和所述视觉特征，得到混合特征：

其中，x代表语音特征，y代表视觉特征，Z代表混合特征。

进一步地，使用ResNet神经网络提取所述梅尔频谱图的抽象特征，得到语音特征，包括：

将提取的所述梅尔频谱图转换成220*13维度，输入到ResNet神经网络中，使得所述 ResNet神经网络通过卷积池化操作对所述梅尔频谱图进行抽象高维度特征提取；

截取ResNet神经网络的最后一层1024*1维度的数据，得到所述语音特征。

进一步地，提取所述音频数据的梅尔频谱图之前，还包括：

对所述语音数据进行采样、归一化、预加重和窗口化操作的预处理，得到预处理后的波形图。

进一步地，将所述混合特征输入训练好的ResNet残差网络，得到哭泣检测结果，包括：

将所述混合特征输入训练好的ResNet残差网络；

所述ResNet残差网络对所述混合特征进行卷积和池化操作，得到为哭泣的概率和不为哭泣的概率；

根据所述为哭泣的概率和所述不为哭泣的概率，得到哭泣检测结果。

进一步地，所述ResNet神经网络的训练过程包括：

获取音视频数据集，所述音视频数据集包括多个音视频文件样本，每个所述样本包括音频样本和视频样本；

设置每个所述样本对应的任务标签，其中，所述任务标签包括：语音哭泣标签、视觉哭泣标签、一致性标签和音视频哭泣标签；

将所述设置有任务标签的音视频数据集输入ResNet残差网络进行训练，得到训练好的 ResNet残差网络。

进一步地，将所述音视频文件进行拆分之前，还包括：

对所述音视频文件进行数据归一化处理。

第二方面，本发明还提供基于音视频融合的婴儿哭泣检测装置，包括：

音视频文件拆分模块，用于获取待检测的音视频文件，将所述音视频文件进行拆分，得到音频数据和视频数据；

语音特征提取模块，用于提取所述音频数据的梅尔频谱图，使用ResNet神经网络提取所述梅尔频谱图的抽象特征，得到语音特征；

视觉特征提取模块，用于提取所述视频数据中连续帧的灰度图像，使用3DCNN网络提取所述灰度图像的抽象特征，得到视觉特征；

特征融合模块，用于融合所述语音特征和所述视觉特征，得到混合特征；

哭泣检测模块，用于将所述混合特征输入训练好的ResNet残差网络，得到哭泣检测结果。

第三方面，本发明提供一种智能设备，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如本发明第一方面所述的任意基于音视频融合的婴儿哭泣检测方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述的任意基于音视频融合的婴儿哭泣检测方法的步骤。

本发明提供的基于音视频融合的婴儿哭泣检测方法及装置，使用自制的音视频数据集来识别复杂环境中的婴儿哭声，该数据集比实验室环境中收集的数据集有更好的实用价值；将语音和视觉信息结合起来进行婴儿哭声的自动识别，提高了婴儿哭声检测的准确度；通过设置多任务辅助判断，让算法能够在训练出来后关注到复杂样本的分类，从而提升模型的精度。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明提供的基于音视频融合的婴儿哭泣检测方法的流程示意图；

图2为一个实施例中原始音频波形图与梅尔频谱图的对比示意图；

图3为本发明使用的3DCNN网络结构示意图；

图4为本发明的算法架构示意图；

图5为一个实施例中使用的复杂样本示意图；

图6本发明提供的基于音视频融合的婴儿哭泣检测装置的结构示意图；

图7为本发明提供的一种智能设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该” 也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和 /或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在 A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或” 的关系。

在一个具体的实施例中，如图1所示，本发明提供的基于音视频融合的婴儿哭泣检测方法包括以下步骤：

S01：获取待检测的音视频文件，将所述音视频文件进行拆分，得到音频数据和视频数据。

优选的，在拆分之前，先对音视频文件进行归一化处理。在一个具体的实施例中，统一设置数据的格式为音频帧率30帧/秒、像素1080pix、音频采样率22.5KHZ、单通道。通过上述的归一化参数，可以将任意的输入设置成标准格式。

S02：提取所述音频数据的梅尔频谱图，使用ResNet神经网络提取所述梅尔频谱图的抽象特征，得到语音特征。

婴儿哭声在基频和声音周期方面与其他哭声有很大不同。因此，对婴儿哭声和成人声音进行预处理之后，最终的波形和梅尔谱图如图2所示，左边为波形图，右边为梅尔频谱图。可以看出婴儿哭泣在平铺图上有着明显的周期性，因此，本方法提取频谱图，进行下一步的语音特征提取。

优选的，使用傅里叶变换的方法，将原始的音频信号波形图，转换成频率维度的频谱图。在一个具体的实施例中，使用librosa库提取音频数据的的梅尔频谱图，其底层原理采用短时傅里叶变换。

在另一个优选的实施例中，在提取梅尔频谱图之前，还包括对音频数据进行预处理，包括采样、归一化、预加重和窗口化等操作，以便进一步提高音频特征提取的质量。

采样：声音信号的采样频率、声道、量化单位决定数据的大小和质量，本发明将正负样本音频数据统一参数：转换成wav格式后以单通道、8000采样率、16bit量化单位进行重采样。

归一化：原始的音频数字数据进行归一化处理可以避免数据溢出等异常行为。常用的归一化方法有最值和零均值。零均值归一化能够将样本数据分配为均值μ为0、方差σ为1的数据。最值归一化将data在min-max之间映射，通过系数调整到-1到1之间。如公式1所示，式中min代表x的最小值，max代表x最大值。由于最值归一化可以将数据等比例的缩放，保留数据的变化规律，且-1到1能体现声音的高低分布，因此选用最值方法进行归一化处理。

预加重：受人的发声器官影响，气流经过韧带之后高频信号进行会大幅度衰减，高频的辨识度会降低。需要对信号进行预加重，获得更真实的频域信息。具体方法将语音信号通过传递函数为公式2所示的一阶高通滤波器降低信号高频的损失。(α取值0.95)

H(z)＝1-αz^-1 (2)

其中，H(z)代表预加重之后的输出，a代表加重的权重，Z代表输入语音。通过公式2的滤波器，可以看出对输入进行倒数计算，高频部分会被增强到更接近1，低频部分会被削弱。

该传递函数带入到实际的时间段中进行计算，设n时刻的采样值是x(n),经过预加重后的采样值y(n)为：

y(n)＝x(n)-ax(n-1) (3)

其中，y(n)代表输出，a代表权重，x(n)代表当前时间片段的输入，x(n-1)代表上一时间片段的输入。

分帧加窗：声音是非平稳的信号，但人类发声器官在短时间内震动非常缓慢，一般认为在30毫秒以内声音信号近似不变。分析短时间平稳的音频可以更好的获取声音的特征，因此语音信号需要分割成帧进行分析。分帧的实现方法如式4，采用可移动的窗口函数和语音信号进行加权运算。

S_w(n)＝S(n)W(n) (4)

公式4中S(n)为原始语音信号，W(n)为窗口函数，不同的窗口函数会产生不同信号输出。本发明选用的窗函数为汉明窗(见公式5)，窗口函数中n代表第n个采样点，L为语音帧内的采样点数量，为了保持声音的稳定过渡，每个声音帧与之前声音帧需要具有一定的重复性，本文将L设置成30ms之间的采样点个数，帧移动为L的0.5倍。该窗口函数边缘两端平滑趋近于0，能够体现声音的中间部分，而两端削弱的数据通过重叠帧移可以再现到中间部分。

经过以上采样、归一化、预加重和窗口化操作，得到了更为干净的语音输入。

提取梅尔频谱图作为基础特征之后，采用ResNet网络提取高维度的声音抽象特征。在一个优选的实施例中，使用ResNet神经网络提取所述梅尔频谱图的抽象特征，得到语音特征，包括：

将提取的所述梅尔频谱图转换成220*13维度，输入到ResNet神经网络中，使得所述 ResNet神经网络通过卷积池化操作对所述梅尔频谱图进行抽象高维度特征提取。

S03：提取所述视频数据中连续帧的灰度图像，使用3DCNN网络提取所述灰度图像的抽象特征，得到视觉特征。

优选的，先将所述视频数据的画面进行灰度化处理，之后提取所述视频数据中连续帧的灰度图像。在一个示例性的例子中，视频帧率是30/秒，则每秒提取1、5、10、15、20、25、 30这七帧的灰度图像。

优选的，如图3所示，本发明使用的3DCNN网络架构包括：两层3D卷积层，两层子采样层，一层全连接层(FC)；网络的输入是七个64*64*1像素的帧。网络结构选择3*3*3和 5*5*3规格的3D卷积核。此外，网络结构直接影响到特征层的性能。因此，本发明将特征层的输出维度修改到一个更容易接受的水平。在一个优选的实施例中，1024维的全连接层被用来作为视觉特征。

S04：融合所述语音特征和所述视觉特征，得到混合特征。

在特征融合阶段，如果忽略了模式之间的联系，可能会丢失基本信息。与其他融合方法相比，合理的音视频融合方法能够通过捕捉不同模式之间的相应信息来提高识别能力。然而，以前的特征层融合方法只是探索网络结构的优势。本发明根据婴儿哭声数据集的特点，提出了一个多任务融合网络，能够更合理地提取特征和融合信息。

如前所述，ResNet神经网络的最后1024维全连接层被用作语音特征，3DCNN网络的最后1024维全连接层被用作视觉特征，使用矩阵点积融合方式进行特征融合。

具体的，采用以下公式融合所述语音特征和所述视觉特征，得到混合特征：

其中，x代表语音特征，y代表视觉特征，Z代表混合特征。

S05：将所述混合特征输入训练好的ResNet残差网络，得到哭泣检测结果。

优选的，包括以下子步骤：

S051：将所述混合特征输入训练好的ResNet残差网络；

S052：所述ResNet残差网络对所述混合特征进行卷积和池化操作，得到为哭泣的概率和不为哭泣的概率；

S053：根据所述为哭泣的概率和所述不为哭泣的概率，得到哭泣检测结果。

具体的，对比输出的为哭泣概率和不为哭泣概率，取较大的一方作为本次数据的最终预测结果。

本发明提供的一种基于音视频融合的婴儿哭泣检测方法，将语音和视觉信息结合起来进行婴儿哭声的自动识别，提高了婴儿哭声检测的准确度。

由于缺乏高质量的数据集，之前的方法未能利用视觉信息，因此在一个优选的实施例中，本发明使用了自制的包含音视频信息的婴儿哭泣数据集，并进行数据清洗。在清洗完成之后的数据集上进行算法设计和部署测试。

如图4所示，本发明的前期算法设计包括：使用三维卷积网络架构(3DCNN)从视频信号中提取视觉特征，并通过残差网络(ResNet)提取语音特征。这些网络的输出被融合到残差连接层中进行分类。

与以往注重网络结构的融合算法不同，本发明根据婴儿哭声和其他声音的区别来选择了合适的视觉和听觉特征。此外，一些数据样本在识别上具有挑战性：一些样本的视觉和听觉语义是不一致的。例如在图5中四个样本，图中第一行的视频中婴儿从图像中看起来比较痛苦，但实际上并没有哭泣；第二行的成人在刻意模仿婴儿哭泣，但实际不是婴儿在哭泣；第三行的婴儿从画面上来看并没有在哭泣，但是从语音上有哭泣的声音，这是因为有手机在播放婴儿的哭泣，因此也不存在婴儿在哭泣；第四行婴儿是真正在哭泣。可以看出来，如果只通过单个视觉维度或者音频维度做出判断，是很容易误判前面三行的复杂数据。

多任务学习能够通过损失函数约束训练方向，从而更好的区分上述的复杂环境下的样本。因此发明使用的算法借鉴多任务学习的思想来提高识别精度。在算法中设置了四个任务(图 4中任务1234)：

任务1：只通过语音判断是否样本中存在哭泣；

任务2：只通过视觉判断是否样本中存在哭泣；

任务3：判断画面和声音反映的信息是否一致；

任务4：结合语音和视觉整体判断婴儿是否在哭泣。

这四个任务在训练之前提前设置好对应的标签，采用深度学习算法去训练，从而拟合标签。因此每个样本都有四个标签：语音哭泣标签、视觉哭泣标签、一致性标签和音视频哭泣标签。这样设置后，图5的第一行样本的标签就是0、1、1、0(代表无语音哭泣现象、有视觉哭泣现象、语音和视觉的信息不一致、整体音视频数据无哭泣)。通过这样设置之后，1、 2、3这三个任务会更好的辅助任务4的训练，帮助算法识别复杂的数据样本。但是在最终在实际部署时，只关注任务4的结果。

为了得到精度更好的训练结果，本发明还提供一个自制的音视频数据集来识别复杂环境中的婴儿哭声，该数据集比实验室环境中收集的数据集有更好的实用价值。在此数据集上分析了哭声特征后选择了适当的输入，并提出了一种多任务的音视频融合识别方法用来检测婴幼儿哭泣。

此外，只考虑网络结构并不能带来明显的精度提升，而通过设置多任务按照之前的相关研究证明其会有不错的效果。本算法设计时候在ResNet和3DCNN子网中加入单一模式的识别任务1、2使单模态分类效果显著提升。在融合层中插入判断音频和视觉是否一致的判断任务3可以防止融合特征冲突，保证融合效果。在添加三个辅助任务后，网络的总损失函数可以写成如下：

Loss＝L_{classification}+λ₁L_{correspondence}+λ₂L_{audioclassfication}+λ₃L_{videoclassfication}

其中，L和Loss代表损失函数值，其下标代表具体某一个任务的损失，λ代表权重，

代表数据预测值，y代表数据的真实值。公式7中第一行是整个算法的目标函数，在训练阶段该函数的值越小，代表整体算法的效果越好。第二行到第五行是第一行中四个小的 L的具体计算过程。L_{classification}是关注整体数据是否存在哭泣。correspondence是关注语音和画面反应的信息是否一致。audioclassfication只是从语音对数据进行判断是否存在哭泣。 videoclassfication只从视觉维度来判断数据是否存在一致性。这四个L会在初始化阶段就设置一个权重λ代表不同任务所占有的权重大小。而具体每一个任务中

代表数据预测值，y代表数据的真实值，第二行到第四行的公式是每个任务计算信息熵的标准方程，其目的是计算预测值和真实值之间的差距，差距越小，整体值越小，代表loss越小。而每个任务的loss相加之和最小(第一行公式)是算法设计和训练的最终目标。而且correspondence、 audioclassfication、videoclassfication这三个损失函数代表的分类任务设置，是为了能够更好辅助任务4(classification)提升结果。如图复杂哭泣测试样本所示，如果没有correspondence、 audioclassfication、videoclassfication这三个辅助任务，判断classification的精度会大幅度下降，图5中的复杂样本前三个都会进行错误的预测，而三个辅助任务可以帮助任务4更好的区分，正确识别出图5中的复杂样本。

基于上述的前期算法设计，在一个优选的实施例中，本发明所使用的的ResNet神经网络的训练过程包括：

S001：获取音视频数据集，所述音视频数据集包括多个音视频文件样本，每个所述样本包括音频样本和视频样本。

S002：设置每个所述样本对应的任务标签，其中，所述任务标签包括：语音哭泣标签、视觉哭泣标签、一致性标签和音视频哭泣标签。

S003：将所述设置有任务标签的音视频数据集输入ResNet残差网络进行训练，得到训练好的ResNet残差网络。

部署阶段没有多任务存在，只有一个任务4的标签输出，但是在训练过程中设置了多任务去辅助提升部署阶段标签的识别精度。在训练过程中每个样本有四个标签，分别对应四个任务，有一些复杂样本的标签中会出现任务3(一致性判断)是1的状态，大部分数据都是语音和视频语义一致，也就是一致性标签为0，代表大部分样本中画面没有哭泣时候语音也不会有哭泣，画面有哭泣时候语音也有哭泣。通过设置的损失函数，在训练过程中会对这种不一致的数据进行格外的识别，如果在识别过程中这样的数据识别错了，其loss会增加很多，而整体的训练目标是为了让loss变小，因此对于这个一致性样本会优先识别，不然loss会一直下降不了。通过这样的手段，让算法能够在训练出来后关注到复杂样本的分类，从而提升模型的精度。

与前述的基于音视频融合的婴儿哭泣检测方法对应，本发明还提供基于音视频融合的婴儿哭泣检测装置，如图6所示，该装置400包括：

音视频文件拆分模块401，用于获取待检测的音视频文件，将所述音视频文件进行拆分，得到音频数据和视频数据；

语音特征提取模块402，用于提取所述音频数据的梅尔频谱图，使用ResNet神经网络提取所述梅尔频谱图的抽象特征，得到语音特征；

视觉特征提取模块403，用于提取所述视频数据中连续帧的灰度图像，使用3DCNN网络提取所述灰度图像的抽象特征，得到视觉特征；

特征融合模块404，用于融合所述语音特征和所述视觉特征，得到混合特征；

哭泣检测模块405，用于将所述混合特征输入训练好的ResNet残差网络，得到哭泣检测结果。

在其他实施例中，本发明还提供一种智能设备，如图7所示，包括：

至少一个存储器以及至少一个处理器；

所述存储器920，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器910执行，使得所述至少一个处理器实现如前所述的任意基于音视频融合的婴儿哭泣检测方法的步骤。

在其他实施例中，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的任意基于音视频融合的婴儿哭泣检测方法的步骤。

与现有技术相比，本发明提供的一种基于音视频融合的婴儿哭泣检测方法及装置，加入视觉特征辅助判断婴儿是否在哭泣，提高了识别的精度和准确率。本发明提供的基于音视频融合的婴儿哭泣检测方法及装置，使用自制的音视频数据集来识别复杂环境中的婴儿哭声，该数据集比实验室环境中收集的数据集有更好的实用价值；将语音和视觉信息结合起来进行婴儿哭声的自动识别，提高了婴儿哭声检测的准确度；通过设置多任务辅助判断，让算法能够在训练出来后关注到复杂样本的分类，从而提升模型的精度。

在验证模型效果的过程中，对比了若干个相关算法，主要分为两种对比，一种是和之前的婴儿哭泣算法进行对比，另外一种是对比单任务的融合算法。实验结果如下表：

表1算法效果对比图

方法	准确率
		SVM	0.84
CNN	0.85
		RE-SNet	0.86
3DCNN	0.84
		ResNt+3DCNN+residual connection(单任务)	0.91
ResNet+3DCNN+residual connection(多任务)	0.94

可见，本发明提供的基于音视频融合的婴儿哭泣检测方法有明显的改进，F1分数为94％，高于不使用多任务实验方法3％。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于音视频融合的婴儿哭泣检测方法，其特征在于，包括以下步骤：

融合所述语音特征和所述视觉特征，得到混合特征；

2.根据权利要求1所述的基于音视频融合的婴儿哭泣检测方法，其特征在于，融合所述语音特征和所述视觉特征，得到混合特征，包括：

其中，x代表语音特征，y代表视觉特征，Z代表混合特征。

3.根据权利要求1所述的基于音视频融合的婴儿哭泣检测方法，其特征在于，使用ResNet神经网络提取所述梅尔频谱图的抽象特征，得到语音特征，包括：

将提取的所述梅尔频谱图转换成220*13维度，输入到ResNet神经网络中，使得所述ResNet神经网络通过卷积池化操作对所述梅尔频谱图进行抽象高维度特征提取；

4.根据权利要求1所述的基于音视频融合的婴儿哭泣检测方法，其特征在于，提取所述音频数据的梅尔频谱图之前，还包括：

5.根据权利要求1所述的基于音视频融合的婴儿哭泣检测方法，其特征在于，将所述混合特征输入训练好的ResNet残差网络，得到哭泣检测结果，包括：

将所述混合特征输入训练好的ResNet残差网络；

6.根据权利要求5所述的基于音视频融合的婴儿哭泣检测方法，其特征在于，所述ResNet神经网络的训练过程包括：

将所述设置有任务标签的音视频数据集输入ResNet残差网络进行训练，得到训练好的ResNet残差网络。

7.根据权利要求1所述的基于音视频融合的婴儿哭泣检测方法，其特征在于，将所述音视频文件进行拆分之前，还包括：

对所述音视频文件进行数据归一化处理。

8.基于音视频融合的婴儿哭泣检测装置，其特征在于，包括：

9.一种智能设备，其特征在于，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一所述的基于音视频融合的婴儿哭泣检测方法的步骤。

10.一种计算机可读存储介质，其特征在于：

所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一所述的基于音视频融合的婴儿哭泣检测方法的步骤。