CN116386671B

CN116386671B - 婴幼儿哭声类别识别方法、装置、设备及存储介质

Info

Publication number: CN116386671B
Application number: CN202310256092.9A
Authority: CN
Inventors: 陈辉; 熊章; 杜沛力; 张智; 胡国湖
Original assignee: Ningbo Xingxun Intelligent Technology Co ltd
Current assignee: Ningbo Xingxun Intelligent Technology Co ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2024-05-07
Anticipated expiration: 2043-03-16
Also published as: CN116386671A

Abstract

本发明涉及图像处理技术领域，解决了现有技术中在婴幼儿跌倒或脸部被遮挡发出哭声时，无法做出准确的判断，用户无法收到有效的看护信息的问题，提供了一种婴幼儿哭声类别识别方法、装置、设备及存储介质。该方法包括：依据预设的哭声检测规则，当检测到婴幼儿哭声时，获取对应的目标视频，并分解为多帧目标图像；获取目标视频对应的视频类型，并选取与所述视频类型相对应的预设的姿态检测模型，将各所述目标图像输入所述姿态检测模型中，得出对应的姿态特征值；依据预设的哭声分类规则，得出与各所述姿态特征值对应的哭声类别，发出对应的看护信息。本发明通过对婴幼儿需求做出准确的判断，帮助用户收到有效的看护信息的问题。

Description

婴幼儿哭声类别识别方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种婴幼儿哭声类别识别方法、装置、设备及存储介质。

背景技术

随着各种智能终端的发展与普及，智能看护设备的应用也越来越广泛，逐渐成为人们生活的一部分。随着AI技术的发展，婴幼儿看护机被越来越多的年轻父母所接受，目前，婴幼儿看护机在婴幼儿看护的过程中，所起的作用仅仅为摄像头的基本功能的应用。

现有中国专利CN113035241A公开了一种多特征融合识别婴儿哭声类别的方法、装置及设备，所述方法包括：获取婴儿啼哭时的音频特征、姿态动作的动作特征值和声带振动的振动频谱；将动作特征值转化为数据库中的标准特征值；基于标准特征值，对音频特征和振动频谱进行特征融合；将融合后的融合特征输入预置的神经网络，根据神经网络输出的编码特征向量得到婴儿的哭声类别；其中，标准特征值为对应的姿态动作所表征的各哭声类别的概率值。然而，在涉及婴幼儿在跌倒或脸部被遮挡等危险情况下发出的哭声时，上述专利无法针对上述两种危险情况做出准确的判断，婴幼儿易发生摔伤或窒息等危险情况，用户也得不到有效的看护提醒。

为此，当婴幼儿跌倒或脸部被遮挡发出哭声时，如何对婴幼儿需求做出准确的判断，及时地向用户发出有效的看护信息是亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种婴幼儿哭声类别识别方法、装置、设备及存储介质，用以解决现有技术中在婴幼儿跌倒或脸部被遮挡发出哭声时，无法对婴幼儿需求做出准确的判断，用户无法收到有效的看护信息的问题。

本发明采用的技术方案是：

第一方面，本发明提供了一种婴幼儿哭声类别识别方法，其特征在于，所述方法包括：

S1：依据预设的哭声检测规则，当检测到婴幼儿哭声时，获取与婴幼儿哭声对应的目标视频，并将所述目标视频分解为多帧目标图像；

S2：获取所述目标视频对应的视频类型，并选取与所述视频类型相对应的预设的姿态检测模型，将各所述目标图像输入所述姿态检测模型中，得出各所述目标图像对应的姿态特征值；

S3：获取各所述姿态特征值，并依据预设的哭声分类规则，得出与各所述姿态特征值对应的哭声类别，发出与所述哭声类别对应的看护信息。

优选地，所述S1包括：

S11：获取预设的针对哭声检测的第一灵敏度，利用所述第一灵敏度对婴幼儿哭声进行检测；

S12：当依据所述第一灵敏度检测到婴幼儿哭声时，获取与所述婴幼儿哭声对应的哭声时长；

S13：依据所述哭声时长，得出所述目标视频，并将所述目标视频分解为多帧目标图像。

优选地，所述S13包括：

S131：获取预设的时长阈值和针对哭声检测的第二灵敏度，其中，所述第一灵敏度小于第二灵敏度；

S132：当所述哭声时长大于所述时长阈值时，提取出婴幼儿哭声之前的第一视频流作为目标视频，并将所述第一视频流分解为多帧第一目标图像；

S133：当所述哭声时长不大于所述时长阈值时，则利用所述第二灵敏度对婴幼儿哭声进行检测；

S134：当依据所述第二灵敏度检测到婴幼儿哭声时，提取出婴幼儿哭声之后的第二视频流作为目标视频，并将所述第二视频流分解为多帧第二目标图像。

优选地，所述S2包括：

S21：获取目标视频的所述视频类型；

S22：若所述视频类型为所述第一视频流，则将各所述第一目标图像输入预设的动作检测模型，得出婴幼儿的动作种类和数量，并得出各类动作出现的次数和各次动作的持续时间；

S23：若所述视频类型为所述第二视频流，则将各所述第二目标图像输入预设的人脸遮挡判断模型，得出婴幼儿的脸部遮挡情况。

优选地，所述S22包括：

S221：当所述视频类型为所述第一视频流时，获取各所述第一目标图像；

S222：将各所述第一目标图像输入预设的婴幼儿肢体关键点检测模型中，得出各所述婴幼儿肢体关键点的坐标信息，并依据预设的数据处理规则，得出各所述坐标信息对应的标准化坐标值；

S223：获取各所述标准化坐标值，将各所述标准化坐标值输入预设的婴幼儿动作分类模型中，得出婴幼儿的动作种类和数量，并得出各类动作出现的次数和各次动作的持续时间。

优选地，所述S23包括：

S231：当所述视频类型为所述第二视频流时，获取各所述第二目标图像；

S232：将各所述第二目标图像输入预设的婴幼儿脸部关键点检测模型中，得出婴幼儿脸部关键点信息；

S233:依据所述婴幼儿脸部关键点信息，得出婴幼儿脸部遮挡情况。

优选地，所述S3包括：

S31：获取所述婴幼儿动作种类和数量、各类动作出现的次数、各次动作的持续时间和婴幼儿的脸部遮挡情况，记为姿态特征值；

S32：依据各所述姿态特征值，得出与各所述姿态特征值对应的哭声类别，发出与所述哭声类别对应的看护信息，其中，所述哭声类别至少包括：从高处掉落摔伤导致的哭泣和脸部被遮挡呼吸不顺畅导致的哭泣。

第二方面，本发明提供了一种婴幼儿哭声类别识别装置，所述装置包括：

哭声检测模块，用于依据预设的哭声检测规则，当检测到婴幼儿哭声时，获取与婴幼儿哭声对应的目标视频，并将所述目标视频分解为多帧目标图像；

姿态识别模块，用于获取所述目标视频对应的视频类型，并选取与所述视频类型相对应的预设的姿态检测模型，将各所述目标图像输入所述姿态检测模型中，得出各所述目标图像对应的姿态特征值；

哭声状态识别模块，用于获取各所述姿态特征值，并依据预设的哭声状态识别规则，得出与各所述姿态特征值对应的哭声状态，发出与所述哭声状态对应的看护信息。

第三方面，本发明实施例还提供了一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

综上所述，本发明的有益效果如下：

本发明提供的婴幼儿哭声类别识别方法、装置、设备及存储介质，所述方法包括：依据预设的哭声检测规则，当检测到婴幼儿哭声时，获取与婴幼儿哭声对应的目标视频，并将所述目标视频分解为多帧目标图像；获取所述目标视频对应的视频类型，并选取与所述视频类型相对应的预设的姿态检测模型，将各所述目标图像输入所述姿态检测模型中，得出各所述目标图像对应的姿态特征值；获取各所述姿态特征值，并依据预设的哭声分类规则，得出与各所述姿态特征值对应的哭声类别，发出与所述哭声类别对应的看护信息。通过获取与婴幼儿哭声对应的目标视频类型，选取视频类型相对应的姿态检测模型，从而实现了对特定姿态特征下的婴幼儿哭声进行判断的效果，同时通过姿态检测模型识别出的姿态特征值来对哭声进行分类，针对得出的哭声类别，发出哭声类别相对应的看护信息，从而能够在哭声类别为婴幼儿跌倒或脸部被遮挡导致发出哭声时，对婴幼儿需求做出准确的判断，并且及时地向用户发出有效的看护信息。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明实施例1中婴幼儿哭声类别识别方法的整体工作的流程示意图；

图2为本发明实施例1中获取目标视频和目标图像的流程示意图；

图3为本发明实施例1中确定目标视频的视频类型的流程示意图；

图4为本发明实施例1中确定姿态特征值的流程示意图；

图5为本发明实施例1中识别婴幼儿动作特征的流程示意图；

图6为本发明实施例1中判断婴幼儿脸部遮挡情况的流程示意图；

图7为本发明实施例1中依据哭声类别发出对应的看护提醒信息的流程示意图；

图8为本发明实施例2中婴幼儿哭声类别识别装置的结构框图；

图9为本发明实施例3中电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。

实施例1

请参见图1，本发明实施例1公开了一种婴幼儿哭声类别识别方法，所述方法包括：

具体地，在实际的婴幼儿看护场景下，婴幼儿可能因为从床上掉落、面部受到遮挡等原因而哭泣，依据预设的哭声检测规则，当检测到外界的婴幼儿哭声时，及时获取与婴幼儿哭声对应的目标视频，并将所述目标视频分解为多帧目标图像；通过对所述目标视频和目标图像进行分析处理，得出婴幼儿哭泣的真实原因，有利于家长等用户及时对婴幼儿行为进行调整，避免婴幼儿发生危险。

在一实施例中，请参见图2，所述S1包括：

具体地，获取哭声检测的第一灵敏度，利用所述第一灵敏度对婴幼儿哭声进行检测；所述第一灵敏度的值由用户根据实际应用场景来设置，其值越大，则能检测到的哭声越小，例如，在商场、饭店等较为喧闹的场景中，需要设置较大的检测灵敏度，保证能识别到婴幼儿哭声，在家庭卧室等较为安静的场景中，需要设置较小的检测灵敏度，保证识别出的婴幼儿哭声的清晰度。通过灵活设置检测灵敏度，提升不同应用场景下哭声检测的准确性。

具体地，利用第一灵敏度检测到婴幼儿哭声时，获取与所述婴幼儿哭声对应的哭声时长；不同原因导致婴幼儿的哭泣，其哭泣时长也会不同。例如，当婴幼儿受到从床上掉落摔伤等发生哭泣时，婴幼儿由于身体受到持续性的伤害，其哭泣时长往往也较长；而当婴幼儿由于面部受到遮挡等呼吸不畅发生哭泣时，其可能发生窒息，哭泣时长往往较短，通过对哭声时长的判断，采集与哭声时长对应的目标视频，能提升后续对哭声识别的准确度。

在一实施例中，请参见图3，所述S13包括：

具体地，获取预设的时长阈值，若婴幼儿面部受到遮挡，由于遮挡物对声音有一定的减弱作用，此时的婴幼儿哭声由于声音较小可能发生漏检，获取预先设置的一个相比较于第一灵敏度更大的第二灵敏度和时长阈值来对较小的婴幼儿哭声进行检测，能够在婴幼儿面部被遮挡时也能检测出婴幼儿哭声，从而得出更准确的哭声检测结果。

具体地，若检测出的婴幼儿哭声时长大于预先设置的时长阈值，此时识别为哭声时长较长，婴幼儿可能是发生了从床上摔落等危险情况，而婴幼儿发生哭泣是发生在掉落摔伤之后的，则需要将哭声之前的婴幼儿视频作为第一视频流，通过对所述第一视频流进一步分析，确定婴幼儿哭泣的具体原因。

具体地，当哭声时长不大于预设的时长阈值时，此时识别为哭声时长较短，可能婴幼儿的面部被遮挡，利用更大的第二灵敏度对婴幼儿哭声进行检测，保证了此时的婴幼儿哭声不被漏检，进而提升了对婴幼儿哭泣时真实需求的识别的准确度。

具体地，婴幼儿发出哭声时在面部被遮挡过程中持续发出哭声，则将检测出的哭声之后的婴幼儿视频作为第二视频流，对所述第二视频流进行处理和分析，识别婴幼儿脸部是否被遮挡。

具体地，获取预先构建的姿态检测模型，将上述第一视频流和第二视频流分解为对应的图像后输入所述姿态检测模型中，得出图像中的姿态特征值，为后续哭声类别的识别和分类提供基础。其中，所述姿态检测模型包括预先构建的多种婴幼儿看护场景下的各类动作检测模型和脸部遮挡判断模型，各类动作至少包括：婴幼儿翻身、摆动等可能导致婴幼儿跌落的动作；通过所述姿态检测模型，得出各所述目标图像对应的姿态特征值，来判断婴幼儿发生哭泣的实际原因和真实需求，进而向用户发出有效的看护提醒信息，提高了用户的看护体验。

在一实施例中，请参见图4，所述S2包括：

S21：获取目标视频的所述视频类型；

在一实施例中，请参见图5，所述S22包括：

具体地，对各帧所述图像进行检测，判断各帧图像是否包含上述各类动作对应的婴幼儿肢体关键点，若存在，则将包含婴幼儿肢体关键点的该帧图像提取出来，获取提取的各帧图像的长度尺寸La和宽度尺寸Wa，以及各目标图像中婴儿肢体的各关键点的关键点坐标Pa(Xi,Yi)，其中，a为第a张目标图像，i为目标图像的第i个肢体关键点，X为横坐标，Y为纵坐标，W为目标图像的宽度，L为目标图像的长度，Pa(Xi,Yi)为第a张目标图像的第i个肢体关键点的坐标。利用下列公式：

将得到的目标图像的各关键点对应的横坐标和纵坐标转化为对应的浮点值，如将图像a中第i个关键点的横坐标Xi转化为对应的浮点值，将图像a中第i个关键点的横坐标Yi转化为对应的浮点值。

在将关键点坐标转换成对应的浮点值后，利用下列公式：

将各所述浮点值转换为对应的标准坐标值，从而完成关键点坐标的标准化处理，得到各婴幼儿肢体关键点的标准化坐标值。如将图像a中第i个关键点的横坐标Xi经过标准化处理后，得到坐标标准值，将图像a中第i个关键点的横坐标Yi经过标准化处理后得到坐标标准值。

具体地，根据各所述婴幼儿肢体关键点的标准化坐标值，得到各图像对应的动作类型，完成各婴幼儿动作类型的分类，将各图像中的所有肢体关键点的目标坐标值作为一个组，得到与各目标图像一一对应的各肢体关键点的目标坐标组，然后将各组目标坐标值组输入svm分类器进行各图像中的动作分类；svm分类器是一种线性分类器，主要用于二分类，svm分类器可以基于输入的特征图确定图像中包括人脸或不包括人脸。将图像帧的特征图输入分类子网络，分类子网络可以输出每个目标检测框中包含各动作类别的概率，从而实现图像中婴幼儿的动作分类；其中，包括但不仅限于人脸，还可以是胳膊、躯干等，最终输出婴幼儿的各动作种类，并统计出婴幼儿的动作种类数量。预先设置各类动作出现的次数numi和每次动作持续的时间ti，其中i为正整数，例如利用num1表示为婴幼儿发生翻身动作的次数，利用t1表示婴幼儿每次翻身持续的时间，获取各帧图像中统计出的婴幼儿的动作种类数量，若出现一次婴幼儿翻身，则num1加1，并记录婴幼儿翻身动作开始的时间和结束的时间，则t1等于婴幼儿翻身动作开始的时间和结束的时间之差的绝对值。通过对图像中的婴幼儿动作种类、数量、各类动作出现的次数和各次动作的持续时间，能够更加全面地对第一视频流中的婴幼儿动作信息进行分析，保证了确定婴幼儿哭泣原因的准确度。

具体地，由于第二视频流是在检测到婴幼儿哭声较小时提取的，此时婴幼儿可能由于脸部受到遮挡等原因而哭声减弱，因此需要将各所述第二目标图像输入预设的人脸遮挡判断模型，得出婴幼儿的脸部遮挡情况，防止婴幼儿发生窒息等危险情况。

在一实施例中，请参见图6，所述S23包括：

具体地，预先收集大量社会公开的婴幼儿各成长阶段的图像进行分析，主要关注年龄较小的婴幼儿的日常活动图像，以这些图像作为深度学习模型的训练数据，构造和训练基于YoloV6s结构的神经网络检测算法模型。该模型充分学习了大量婴幼儿脸部目标的图像特征，特别是鼻子、嘴巴等关键点特征，将各所述第二目标图像输入所述神经网络检测算法模型中，识别图像中是否出现婴幼儿的鼻子、嘴巴等脸部关键点。由于基于YoloV6s结构的神经网络检测算法模型具有检测精度高、速度快的特点，能够保证人脸遮挡识别的准确度，提升识别效率。

具体地，若通过上述神经网络检测算法模型未出现上述鼻子、嘴巴等婴幼儿脸部关键点，则婴幼儿可能处于“趴睡姿势”或头部被被子等遮挡物盖住，此时认为婴幼儿脸部被遮挡，需要防止发生窒息等危险。

在一实施例中，请参见图7，所述S3包括：

具体地，获取识别出的所述动作种类和数量、各类动作出现的次数、各次动作的持续时间等婴幼儿发出哭声之前的动作特征，并对婴幼儿发出哭声之后脸部是否被遮挡，从而对婴幼儿的哭泣时的真实需求能够准确地判断。

具体地，例如，若获取的视频为第一视频流，对婴幼儿的动作分类结果为婴幼儿发生了多次翻身动作，则婴幼儿发出哭声的原因可能是从床上掉落，受到了摔伤，将哭声原因分类为危险。通过姿态特征值，逆向地推理出婴幼儿发生哭泣的原因，并对哭泣原因进行分类，便于家长等用户对婴幼儿哭泣原因更好的进行判断。此时婴幼儿发生摔伤危险，则需要向用户发出提醒，及时查看婴幼儿的摔伤情况，防止婴幼儿发生危险。若获取的视频为第二视频流，对婴幼儿的姿态检测结果为婴幼儿脸部被遮挡，则需要提醒用户及时帮助婴幼儿清除面部障碍，防止婴幼儿发生窒息等危险，不同的哭声类别对应地向用户发出不同的针对性的看护信息，智能化地帮助用户看护婴幼儿，从而有利于婴幼儿的身心健康成长。

实施例2

请参见图8，本发明实施例2还提供了一种婴幼儿哭声类别识别装置，所述装置包括：

具体地，采用本发明实施例提供的婴幼儿哭声类别识别装置，所述装置包括：哭声检测模块，用于依据预设的哭声检测规则，当检测到婴幼儿哭声时，获取与婴幼儿哭声对应的目标视频，并将所述目标视频分解为多帧目标图像；姿态识别模块，用于获取所述目标视频对应的视频类型，并选取与所述视频类型相对应的预设的姿态检测模型，将各所述目标图像输入所述姿态检测模型中，得出各所述目标图像对应的姿态特征值；哭声状态识别模块，用于获取各所述姿态特征值，并依据预设的哭声状态识别规则，得出与各所述姿态特征值对应的哭声状态，发出与所述哭声状态对应的看护信息。通过获取与婴幼儿哭声对应的目标视频类型，选取视频类型相对应的姿态检测模型，从而实现了对特定姿态特征下的婴幼儿哭声进行判断的效果，同时通过姿态检测模型识别出的姿态特征值来对哭声进行分类，针对得出的哭声类别，发出哭声类别相对应的看护信息，从而能够在哭声类别为婴幼儿跌倒或脸部被遮挡导致发出哭声时，对婴幼儿需求做出准确的判断，并且及时地向用户发出有效的看护信息。

实施例3

另外，结合图1描述的本发明实施例1的婴幼儿哭声类别识别方法可以由电子设备来实现。图9示出了本发明实施例3提供的电子设备的硬件结构示意图。

电子设备可以包括处理器以及存储有计算机程序指令的存储器。

具体地，上述处理器可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性固态存储器。在特定实施例中，存储器包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种婴幼儿哭声类别识别方法。

在一个示例中，电子设备还可包括通信接口和总线。其中，如图9所示，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将所述设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

实施例4

另外，结合上述实施例1中的婴幼儿哭声类别识别方法，本发明实施例4还可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种婴幼儿哭声类别识别方法。

综上所述，本发明实施例提供了一种婴幼儿哭声类别识别方法、装置、设备及存储介质。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种婴幼儿哭声类别识别方法，其特征在于，所述方法包括：

S3：获取各所述姿态特征值，并依据预设的哭声分类规则，得出与各所述姿态特征值对应的哭声类别，发出与所述哭声类别对应的看护信息；

其中，所述S1包括：

当依据预设的第一灵敏度检测到婴幼儿哭声时，获取与所述婴幼儿哭声对应的哭声时长；

获取预设的时长阈值和第二灵敏度，其中，所述第一灵敏度小于第二灵敏度；

当所述哭声时长大于所述时长阈值时，提取出婴幼儿哭声之前的第一视频流作为目标视频，并将所述第一视频流分解为多帧第一目标图像；

当所述哭声时长不大于所述时长阈值且依据所述第二灵敏度检测到婴幼儿哭声时，提取出婴幼儿哭声之后的第二视频流作为目标视频，并将所述第二视频流分解为多帧第二目标图像。

2.根据权利要求1所述的婴幼儿哭声类别识别方法，其特征在于，所述S2包括：

S21：获取目标视频的所述视频类型；

S22：若所述视频类型为所述第一视频流，则将各第一目标图像输入预设的动作检测模型，得出婴幼儿的动作种类和数量，并得出各类动作出现的次数和各次动作的持续时间；

S23：若所述视频类型为所述第二视频流，则将各第二目标图像输入预设的人脸遮挡判断模型，得出婴幼儿的脸部遮挡情况。

3.根据权利要求2所述的婴幼儿哭声类别识别方法，其特征在于，所述S22包括：

4.根据权利要求2所述的婴幼儿哭声类别识别方法，其特征在于，所述S23包括：

5.根据权利要求4所述的婴幼儿哭声类别识别方法，其特征在于，所述S3包括：

6.一种婴幼儿哭声类别识别装置，其特征在于，所述装置包括：

哭声状态识别模块，用于获取各所述姿态特征值，并依据预设的哭声状态识别规则，得出与各所述姿态特征值对应的哭声状态，发出与所述哭声状态对应的看护信息；

其中，所述依据预设的哭声检测规则，当检测到婴幼儿哭声时，获取与婴幼儿哭声对应的目标视频，并将所述目标视频分解为多帧目标图像包括：

7.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-5中任一项所述的方法。

8.一种存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-5中任一项所述的方法。