CN113436650B

CN113436650B - 婴儿哭声识别方法、装置、电子设备及存储介质

Info

Publication number: CN113436650B
Application number: CN202110978096.9A
Authority: CN
Inventors: 黄石磊; 陈诚; 程刚; 吕少领; 何竹
Original assignee: Shenzhen Raisound Technology Co ltd
Current assignee: Shenzhen Raisound Technology Co ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-11-16
Anticipated expiration: 2041-08-25
Also published as: CN113436650A

Abstract

本申请涉及人工智能技术领域，揭露了一种婴儿哭声识别方法，所述方法包括：获取待处理婴儿哭声音频，将所述待处理婴儿哭声音频划分为多段音频；通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征；根据多个所述音频特征构建特征图；通过预训练的图卷积神经网络对所述特征图进行分类，得到对所述待处理婴儿哭声音频的哭声识别结果。此外，本申请还涉及一种婴儿哭声识别方法、装置、设备及存储介质。本申请可以提高对婴儿哭声识别的准确率。

Description

婴儿哭声识别方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种婴儿哭声识别方法、装置、电子设备及存储介质。

背景技术

婴儿的哭声是婴儿与外界环境交流的主要方式之一，婴儿的心理和身体上的感受会通过哭声向外界传达，例如，婴儿身体某方面不适，或者婴儿具有某种需求（如想睡觉、想吃东西等）都可能通过哭声表达出来。因此，识别婴儿哭声能够更深入的了解婴儿的需求。现有技术中，对婴儿哭声的识别主要还是依靠人的主观判断，这种方式主要依赖于人的经验，而不同人的经验是有限的，一个人往往无法识别婴儿的各种情况，因此当出现不熟悉的哭声时会无法判断，且大多数接触婴儿的人，如新生儿父母更是缺乏经验的，因此，现有技术中对于婴儿哭声的识别往往不够准确。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种婴儿哭声识别方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种婴儿哭声识别方法，所述方法包括：

获取待处理婴儿哭声音频，将所述待处理婴儿哭声音频划分为多段音频；

通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征；

根据多个所述音频特征构建特征图；

通过预训练的图卷积神经网络对所述特征图进行分类，得到对所述待处理婴儿哭声音频的哭声识别结果。

可选地，所述通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征，包括：

提取多段所述音频的谱图；

通过预训练的神经网络对多个所述谱图进行特征提取，得到多个音频特征。

可选地，所述根据多个所述音频特征构建特征图，包括：

计算多个所述音频特征中任一音频特征与其他音频特征之间的相似度；

根据所述相似度确定与所述任一音频特征相似的目标音频特征；

将所述任一音频特征和所述目标音频特征分别作为不同的节点，在所述不同的节点之间建立连接边，以及将所述不同的节点之间的相似度作为所述连接边的权重值，得到所述特征图。

可选地，所述根据所述相似度确定与所述任一音频特征相似的目标音频特征，包括：

对计算得到的多个所述相似度进行排序；

根据从前到后的顺序选取至少两个相似度对应的至少两个其他音频特征作为所述目标音频特征。

可选地，所述神经网络为深度残差网络。

可选地，所述通过预训练的图卷积神经网络对所述特征图进行分类之前，所述方法还包括：

获取初始图卷积神经网络；

通过半监督学习方式对所述初始图卷积神经网络进行训练，得到所述图卷积神经网络。

可选地，所述获取待处理婴儿哭声音频，包括：

获取监控设备采集的监控信息；

识别所述监控信息中是否包含婴儿哭声；

若所述监控信息中包含婴儿哭声，从所述监控信息中提取婴儿哭声作为所述待处理婴儿哭声音频；

所述得到对所述待处理婴儿哭声音频的哭声识别结果之后，所述方法还包括：

若所述待处理婴儿哭声音频的哭声识别结果为所述待处理婴儿哭声音频为预设类别的哭声，发送预警消息。

第二方面，本申请提供了一种婴儿哭声识别装置，所述装置包括：

语音数据获取模块，用于获取待处理语音数据流，所述待处理语音数据流包含多个语音单元数据；

婴儿哭声分类模块，用于通过集成神经网络依次将多个所述语音单元数据进行编码，并在得到任意一所述语音单元数据的编码数据之后，实时将所述编码数据输入至与所述集成神经网络分开部署的解码器进行解码，以得到多个所述语音单元数据的婴儿哭声分类结果。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的婴儿哭声识别方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的婴儿哭声识别方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的婴儿哭声识别方法、装置、电子设备及计算机可读存储介质，可在获取待处理婴儿哭声音频之后，将所述待处理婴儿哭声音频划分为多段音频；通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征；根据多个所述音频特征构建特征图；通过预训练的图卷积神经网络对所述特征图进行分类，得到对所述待处理婴儿哭声音频的哭声识别结果。通过预训练的图卷积神经网络直接对待处理婴儿哭声音频进行分类，提升了对婴儿哭声识别的准确度，并且由于图卷积神经网络不仅可以学习图像本身的特征还可以关联相邻的图像特征，并且可以捕捉远距离的特征的变化，因此，本实施例中，通过图卷积神经网络可以考虑到婴儿哭声的长期影响以及哭声之间上下文的关系(即哭声之间的联系)，进行更准确的婴儿哭声识别。因此，本发明实施例可以解决识别婴儿哭声的准确率不高的问题，有利于准确地获取婴儿哭声的分类结果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请第一方法实施例提供的一种婴儿哭声识别方法的流程示意图；

图2为根据多个音频特征构建得到的特征图的示例图；

图3为本申请第二方法实施例提供的一种婴儿哭声识别方法的流程示意图；

图4为本申请第一装置实施例提供的一种婴儿哭声识别装置的模块示意图；

图5为本申请第二装置实施例提供的一种婴儿哭声识别装置的模块示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请第一方法实施例提供的一种婴儿哭声识别方法的流程示意图。在本实施例中，所述婴儿哭声识别方法包括：

S11、获取待处理婴儿哭声音频，将所述待处理婴儿哭声音频划分为多段音频。

本实施例中，待处理婴儿哭声音频为持续一段时间的包含婴儿哭声的音频，其中，待处理婴儿哭声音频的格式可以为任意的，如，待处理婴儿哭声音频的格式为WAV格式的。

可选的，待处理婴儿哭声音频的获取方式可以为任意的。例如，待处理婴儿哭声音频可以从数据库中获取，或者从电子设备（如手机）的内容中获取。

本实施例中，可以通过音频中的停顿时间将待处理婴儿哭声划分为多段音频（即多段哭声音频），或者，可以根据预设的哭声时间，将待处理婴儿哭声音频划分为多个相同哭声时间的多段音频（即多段哭声音频），例如，将一段3分钟的待处理婴儿哭声音频划分为18段10秒的音频，或者，将一段3分钟的待处理婴儿音频划分为36段5秒的音频。

S12、通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征。

本实施例中，神经网络可以是卷积神经网络（Convolutional Neural Networks，CNN）。

卷积神经网络是包含卷积计算的前馈神经网络，通过神经网络可以进行特征提取。

具体的，在本实施例中，可以预先对CNN进行音频特征提取的训练，再用训练好的神经网络提取每段哭声音频的特征，得到多个音频特征。

详细地，本实施例中所得到的音频特征可以是特征矩阵。

优选的，所述神经网络为深度残差网络（Deepresidual network，ResNet）。

本实施例中的ResNet可以为ResNet18模型、ResNet50模型、ResNet101模型等。

ResNet相比普通网络每两层之间增加了短路机制，通过增加短路机制形成了残差学习，通过残差学习避免了深度网络的退化问题，从而能够训练更深的网络，使模型的学习能力增强，有利于模型进行更准确的特征提取。

进一步的，本实施例中还可以对现有的ResNet进行调整，从而构建更深的网络。

例如，当使用构建ResNet50时，可以在ResNet50的最后一层全连接层之前增加全局最大池化层，从而提升构建更深的网络，避免过拟合，使训练得到的ResNet50的学习能力更强。

进一步的，所述通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征，包括：

提取多段所述音频的谱图；

本实施例中，可以通过离散傅里叶变换生成每段音频的谱图。

具体的，谱图是信号的频谱的视觉化表示。本实施例中，通过提取到的音频的谱图中横坐标为时间，纵坐标为音频的频率，则该谱图反应了随着时间增长声音的频率的变化，因此，提取谱图所得到的信息更充分，包含了音频中连续的信息，则进一步将谱图用于特征提取，可以提取到更丰富的特征，例如对于每个坐标点都提取特征，则特征提取时能结合前后内容，且能够提取到与前后音频关联的特征。

S13、根据多个所述音频特征构建特征图。

本发明实施例中，特征图是指由特征构建的图，具体的，可以将不同音频特征作为不同节点进行连接，从而实现图的构建，得到特征图。

进一步地，所述根据多个所述音频特征构建特征图，包括：

本实施例中，不同的节点之间的相似度可以通过余弦相似度，或者是高斯相似度，或者是欧式距离来确定。

本实施例中，目标音频特征为与任一音频特征相似的音频特征。

例如，存在15个音频特征，任一音频特征为第1个音频特征，则计算第1个音频特征与其他第i个音频特征的相似度（其中，第i个音频特征为第2个音频特征至第15个音频特征），根据第1个音频特征与其他第i个音频特征的相似度确定与第1个音频特征相似度最高的音频特征为目标音频特征，若第1个音频特征相似度最高的为第5个音频特征，则确定第5个音频特征为目标音频特征。

本实施例中，重复上述操作，从而将多个音频特征中每个音频与其相似的目标音频特征建立连接边，将每个音频与其相似的目标音频特征的相似度作为连接边的权重值。

进一步地，所述根据所述相似度确定与所述任一音频特征相似的目标音频特征，包括：

对计算得到的多个所述相似度进行排序；

本实施例中，在确定目标音频特征时，从其他音频特征中确定最相似的最少两个音频特征作为目标音频特征。

请参见图2，图2为根据多个音频特征构建得到的特征图的示例图。

在此以图2为例对通过前述步骤构建特征图进行说明，若音频特征共有15个，则确定每个音频特征为一个节点，得到编号从0-14共计15个节点，先选取第一个节点，即0节点，分别与其他14个节点的相似度，若得到相似度最高的节点为5节点与14节点，则在0节点与5节点之间建立连接边，以及在0节点与14节点建立连接边，具体的连接边可以为带指向箭头的，由0节点与5节点建立的连接边由0指向5，由0节点与14节点的连接边由0指向14，并且，0节点与5节点的相似度(如高斯相似度或者是欧氏距离)作为0节点与5节点之间连接边的权重值。接着，再计算1节点与其他14个节点的相似度，得到相似度最高的两个节点为2节点和6节点，则在2节点和6节点之间建立连接边，并赋予权重值。以此类推，依次计算图2中各个节点(2节点至14节点)与其他节点的相似度，并获取相似度最高的两个节点分别构建连接边，并根据相似度得到连接边的权重值。

S14、通过预训练的图卷积神经网络对所述特征图进行分类，得到对所述待处理婴儿哭声音频的哭声识别结果。

本实施例中，图卷积神经网络(Graph Convolutional Network，GCN)是基于图进行卷积运算进行特征提取进行婴儿哭声的分类。

本实施例中，可以直接将特征图输入至预训练的图卷积神经网络，得到对待处理婴儿哭声音频的哭声识别结果。

具体地，待处理婴儿哭声音频的哭声识别结果可以为与婴儿情绪有关的，或者是与婴儿身体状况有关的，例如，待处理婴儿哭声音频的识别结果为饿了，或者困了，或者沮丧，或者身体某处不舒服等。

具体的，本实施例中，可以预先对初始的GCN进行训练(例如，通过监督学习的方式对初始的GCN进行训练)，使GCN能够学习识别婴儿不同哭声代表的不同含义，进而得到与训练的图卷积神经网络。

具体的，监督学习(Supervised Learning)是通过学习使模型能够对任意给定的输入，得到输入对应的预测。在监督学习过程，将成对的输入(如各种婴儿哭声的输入)和预期输出数据(如不同哭声对应的不同类别结果)输入至初始的GCN进行训练，使预训练的GCN从中找到一种方法，能够根据给定输入得到预测输出。

进一步的，所述通过预训练的图卷积神经网络对所述特征图进行分类之前，所述方法还包括：

获取初始图卷积神经网络；

具体的，半监督学习方式是使用已标记和未标记的数据对初始图卷积神经网络模型进行训练，得到预训练的图卷积神经网络。

由于半监督学习(Semi-Supervised Learning)减少了人工标记，因此能够节省人力，提高训练的效率，并且半监督学习方式能够在对初始神经网络训练时通过更多的未标注数据进行学习，增加学习训练样本，从而也有利于提高训练得到的图卷积神经网络模型的准确性。

由于GCN不仅可以学习图像本身的特征还可以关联相邻的图像特征，并且可以捕捉远距离的特征的变化，因此，本实施例中，通过GCN可以考虑到婴儿哭声的长期影响以及哭声之间上下文的关系(即哭声之间的联系)，进行更准确的婴儿哭声识别。

本发明实施例中，在获取待处理婴儿哭声音频之后，将所述待处理婴儿哭声音频划分为多段音频；通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征；根据多个所述音频特征构建特征图；通过预训练的图卷积神经网络对所述特征图进行分类，得到对所述待处理婴儿哭声音频的哭声识别结果。通过预训练的图卷积神经网络直接对待处理婴儿哭声音频进行分类，提升了对婴儿哭声识别的准确度，并且由于图卷积神经网络不仅可以学习图像本身的特征还可以关联相邻的图像特征，并且可以捕捉远距离的特征的变化，因此，本实施例中，通过图卷积神经网络可以考虑到婴儿哭声的长期影响以及哭声之间上下文的关系(即哭声之间的联系)，进行更准确的婴儿哭声识别。因此，本发明实施例可以解决识别婴儿哭声的准确率不高的问题，有利于准确地获取婴儿哭声的分类结果。

图3为本申请第二方法实施例提供的一种婴儿哭声识别方法的流程示意图。在本实施例中，所述婴儿哭声识别方法包括：

S21、获取监控设备采集的监控信息。

本实施例中，监控设备可以为一个或多个摄像头。

例如，监控设备为安装在火车站、医院等公共场所的摄像头。

本实施例中，监控设备采集的监控信息可以为视频信息。

S22、识别所述监控信息中是否包含婴儿哭声。

本实施例中，可以通过对监控信息中的音频信息进行提取，再判断音频信息中是否包含婴儿哭声，具体的，可以通过二分类模型（如支持向量机）判断该音频信息中是否包含婴儿哭声。

优选的，可以通过视频或者图像识别监控信息中是否存在婴儿，当监控信息中存在婴儿时，识别监控信息中是否包含婴儿哭声。

S23、若所述监控信息中包含婴儿哭声，从所述监控信息中提取婴儿哭声作为所述待处理婴儿哭声音频。

本实施例中，可以提取监控信息中一段或者多段婴儿哭声作为待处理婴儿哭声音频。

其他可选实施例中，当提取到多段婴儿哭声时，可以根据音频的音色分类，将同一音色的哭声进行合并，得到待处理婴儿哭声音频。

S24、将所述待处理婴儿哭声音频划分为多段音频。

S25、通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征。

S26、根据多个所述音频特征构建特征图。

S27、通过预训练的图卷积神经网络对所述特征图进行分类，得到对所述待处理婴儿哭声音频的哭声识别结果。

本实施例中，有关S24至S27的说明与第一方法实施例中S11至S14基本一致，详细请参见第一方法实施例，此处不再赘述。

S28、若所述待处理婴儿哭声音频的哭声识别结果为所述待处理婴儿哭声音频为预设类别的哭声，发送预警消息。

本实施例中，预设类别可为预先设置的异常类别，当为异常类别时，需要其他人员进行操作处理。具体的，预设类别的婴儿哭声可以为饥饿、疼痛、恐惧等类别的婴儿哭声。

具体的，预警消息可以为语音提醒消息或者是文本提醒消息。

本实施例中，通过监控设备采集到的监控信息获取待处理婴儿哭声音频，并对待处理婴儿哭声音频进行分类，当待处理婴儿哭声音频为预设类别的哭声时进行预警，可以快速准确地根据婴儿声音信息实现监控预警。

如图4所示，本申请实施例提供了一种婴儿哭声识别装置4的模块示意图，所述婴儿哭声识别装置4，包括：音频获取模块41、特征提取模块42、图构建模块43和分类模块44。

所述音频获取模块41，用于获取待处理婴儿哭声音频，将所述待处理婴儿哭声音频划分为多段音频；

所述特征提取模块42，用于通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征；

所述图构建模块43，用于根据多个所述音频特征构建特征图；

所述分类模块44，用于通过预训练的图卷积神经网络对所述特征图进行分类，得到对所述待处理婴儿哭声音频的哭声识别结果。

详细地，本申请实施例中所述婴儿哭声识别装置40中的各模块在使用时采用与上述的图1中所述的婴儿哭声识别方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图5所示，本申请实施例提供了一种婴儿哭声识别装置4的模块示意图，所述婴儿哭声识别装置4，包括：音频获取模块41、特征提取模块42、图构建模块43、分类模块44和预警模块45。

其中，所述音频获取模块41包括监控信息获取单元411、哭声识别单元412、音频提取单元413和音频分段单元414。

所述监控信息获取单元411，用于获取监控设备采集的监控信息；

所述哭声识别单元412，用于识别所述监控信息中是否包含婴儿哭声；

所述音频提取单元413，用于若所述监控信息中包含婴儿哭声，从所述监控信息中提取婴儿哭声作为所述待处理婴儿哭声音频；

所述音频分段单元414，用于将所述待处理婴儿哭声音频划分为多段音频。

预警模块45，用于若所述待处理婴儿哭声音频的哭声识别结果为所述待处理婴儿哭声音频为预设类别的哭声，发送预警消息。

详细地，本申请实施例中所述婴儿哭声识别装置4中的各模块在使用时采用与上述的图2中所述的婴儿哭声识别方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图6所示，本申请实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111、通信接口112、存储器113通过通信总线114完成相互间的通信。

存储器113，用于存放计算机程序。

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的婴儿哭声识别方法，包括：

根据多个所述音频特征构建特征图；

上述通信总线114可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线114可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口112用于上述电子设备与其他设备之间的通信。

存储器113可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器113还可以是至少一个位于远离前述处理器111的存储装置。

上述的处理器111可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的婴儿哭声识别方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

需要说明的是，在本文中，诸如"第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种婴儿哭声识别方法，其特征在于，所述方法包括：

根据多个所述音频特征构建特征图；

2.如权利要求1所述的方法，其特征在于，所述通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征，包括：

提取多段所述音频的谱图；

3.如权利要求1所述的方法，其特征在于，所述根据多个所述音频特征构建特征图，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述相似度确定与所述任一音频特征相似的目标音频特征，包括：

对计算得到的多个所述相似度进行排序；

5.如权利要求1所述的方法，其特征在于，所述神经网络为深度残差网络。

6.如权利要求1所述的方法，其特征在于，所述通过预训练的图卷积神经网络对所述特征图进行分类之前，所述方法还包括：

获取初始图卷积神经网络；

7.如权利要求1至6中任一项所述的方法，其特征在于，所述获取待处理婴儿哭声音频，包括：

获取监控设备采集的监控信息；

识别所述监控信息中是否包含婴儿哭声；

8.一种婴儿哭声识别装置，其特征在于，所述装置包括：

音频获取模块，用于获取待处理婴儿哭声音频，将所述待处理婴儿哭声音频划分为多段音频；

特征提取模块，用于通过预训练的神经网络对多段所述音频进行特征提取，得到多个音频特征；

图构建模块，用于根据多个所述音频特征构建特征图；

分类模块，用于通过预训练的图卷积神经网络对所述特征图进行分类，得到对所述待处理婴儿哭声音频的哭声识别结果。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至7中任意一项所述的婴儿哭声识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的婴儿哭声识别方法的步骤。