CN115937743A

CN115937743A - 基于图像融合的婴幼儿看护行为识别方法、装置及系统

Info

Publication number: CN115937743A
Application number: CN202211602518.3A
Authority: CN
Inventors: 陈辉; 张智; 熊章; 杜沛力; 张青军
Original assignee: Wuhan Xingxun Intelligent Technology Co ltd
Current assignee: Wuhan Xingxun Intelligent Technology Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-04-07
Anticipated expiration: 2042-12-09
Also published as: CN115937743B

Abstract

本发明涉及智能看护领域，解决了现有技术中，提供了一种基于图像融合的婴幼儿看护行为识别方法、装置及系统。该方法包括：同时获取第一视角下的第一视频图像和不同于所述第一视角的第二视角下的第二视频图像；识别所述第一视频图像中行为人的人形信息和人脸信息，标注出行为人关键点信息；识别所述第二视频图像中婴幼儿关键点信息；将婴幼儿关键点信息投影到第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为。本发明提高了针对行为人对婴幼儿的行为的识别准确度，给用户更智能有效的看护提醒。

Description

基于图像融合的婴幼儿看护行为识别方法、装置及系统

技术领域

本发明涉及智能看护领域，尤其涉及一种基于图像融合的婴幼儿看护行为识别方法、装置及系统。

背景技术

随着各种智能终端的发展与普及，智能看护设备的应用也越来越广泛，逐渐成为人们生活的一部分。

现有技术中，当涉及到婴幼儿的看护领域时，目前常见的方式是使用目标检测算法对婴幼儿的人形、脸部状态进行检测，简单地根据“婴幼儿是否出现在视频画面中”来判断婴幼儿此时的状态，从而实现看护，无法有效地识别出行为人对婴幼儿做出的具有高级语义概念的行为，例如“婴幼儿被抱入或抱离”，因此，当所述“婴幼儿被抱入或抱离”等具有高级语义概念的行为发生时，用户无法得到有效的提醒。

为此，在涉及到婴幼儿的看护领域时，如何较为准确地识别出行为人对婴幼儿的具有高级语义概念的行为，实现更智能化的看护提醒是亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了基于图像融合的婴幼儿看护行为识别方法、装置及系统，用以解决现有技术中无法较为准确地识别出行为人对婴幼儿的具有高级语义概念的行为的问题。

第一方面，本发明实施例提供了一种基于图像融合的婴幼儿看护行为识别方法，其特征在于，所述方法包括：

同时获取第一视角下的第一视频图像和不同于所述第一视角的第二视角下的第二视频图像；

根据所述第一视频图像，识别所述第一视频图像中行为人的人形信息和人脸信息，依据所述行为人的人形信息标注出行为人的头部、躯干部以及下半身的关键点位置信息，记为行为人关键点信息；

根据所述第二视频图像，识别所述第二视频图像中婴幼儿的头部位置信息，记为婴幼儿关键点信息；

将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为。

优选地，所述行为人关键点信息至少包括以下之一：脖子、左肩膀、右肩膀、左胳膊肘、右胳膊肘、左手腕、右手腕、右臀部、左臀部、右膝盖、左膝盖、右脚踝、左脚踝、鼻子、左耳、右耳、左眼、右眼。

优选地，所述将婴幼儿关键点信息投影到第一视角采集图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为包括：

将婴幼儿关键点信息与行为人关键点信息中的左手腕、右手腕在所述三维坐标系中连线；

连线后，将婴幼儿关键点信息与行为人关键点信息构建具有所有关键点的图网络模型；

依据所述图网络模型，构造无向时空图序列。

优选地，所述构造无向时空图序列包括：

确定婴幼儿关键点与行为人关键点构成的节点特征；

确定婴幼儿关键点与行为人关键点连接后形成边的信息；

依据所述节点特征和所述边的信息，得出所述无向时空图序列。

优选地，所述节点特征包括：节点的平面坐标和置信度；

所述边的信息包括：节点的空间连接关系和时间连接关系。

优选地，在所述将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为之前，所述方法还包括：通过模拟实际应用场景下婴幼儿看护行为，构造其对应视频的所述无向时空图序列作为正样本，并将不同于所述婴幼儿看护行为的其他行为对应视频的无向时空图序列作为负样本，训练得出所述神经网络模型。

优选地，在所述将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为之后，所述方法还包括：根据所述人脸信息，识别出所述行为人的身份信息，依据所述身份信息，推送提醒信息。

第二方面，本发明实施例还提供了一种基于图像融合的婴幼儿看护行为识别装置，所述装置包括：

视频图像获取模块，用于同时获取第一视角下的第一视频图像和不同于所述第一视角的第二视角下的第二视频图像；

行为人关键点信息识别模块，用于根据所述第一视频图像，识别所述第一视频图像中行为人的人形信息和人脸信息，依据所述行为人的人形信息标注出行为人的头部、躯干部以及下半身的关键点位置信息，记为行为人关键点信息；

婴幼儿关键点信息识别模块，用于根据所述第二视频图像，识别所述第二视频图像中婴幼儿的头部位置信息，记为婴幼儿关键点信息；

信息融合及训练模块：用于将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为。

第三方面，本发明实施例还提供了一种基于图像融合的婴幼儿看护行为识别系统，其特征在于，用于实现如权利要求1-7中任一项所述的方法，所述系统包括：全景广角镜头，用于采集所述第一视频图像；带云台的正常角度镜头，用于采集所述第二视频图像；惯性传感器，用于测量所述全景广角镜头和带云台的正常角度镜头之间相对的拍摄角度和空间姿态。

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

综上所述，本发明的有益效果如下：

本发明实施例提供的基于图像融合的婴幼儿看护行为识别方法、装置及系统，同时获取第一视角下的第一视频图像和不同于所述第一视角的第二视角下的第二视频图像；根据所述第一视频图像，识别所述第一视频图像中行为人的人形信息和人脸信息，依据所述行为人的人形信息标注出行为人的头部、躯干部以及下半身的关键点位置信息，记为行为人关键点信息；根据所述第二视频图像，识别所述第二视频图像中婴幼儿的头部位置信息，记为婴幼儿关键点信息；将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为。通过当提取行为人关键点信息时，提取出行为人的人体姿态信息，融合所述婴幼儿关键点信息和所述行为人关键点信息后，通过时空维度信息训练，提高了识别行为人对婴幼儿的具有高级语义概念行为的准确度度，从而给用户更智能有效的看护提醒。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1是本发明实施例1中基于图像融合的婴幼儿看护行为识别方法的流程示意图；

图2是本发明实施例1中投影婴幼儿关键点信息到第一视角下的第一视频图像所构建的三维坐标系中的流程示意图；

图3a是本发明实施例1中正对状态下行为人关键点信息的示意图；

图3b是本发明实施例1中背对状态下行为人关键点信息的示意图；

图4是本发明实施例1中识别行为人对婴幼儿的行为的流程示意图；

图5是本发明实施例1中构建图网络模型的流程示意图；

图6是本发明实施例2中向用户发出提醒信息的流程示意图；

图7是本发明实施例3中基于图像融合的婴幼儿看护行为识别装置的结构框图；

图8是本发明实施例4中电子设备的硬件结构示意图；

图9是本发明实施例5中电子设备的通信结构示意图；

附图标记说明：

1--行为人、101--行为人鼻子关键点、102--行为人左耳关键点、103--行为人脖子关键点、104--行为人左肩膀关键点、105--行为人左手肘关键点、106--行为人左手腕关键点、107--行为人左膝盖关键点、108--行为人左脚踝关键点、109--行为人右脚踝关键点、110--行为人右膝盖关键点、111--行为人手腕关键点、112--行为人右手肘关键点、113--行为人右肩膀关键点、114--行为人右耳关键点、115--行为人右眼关键点、116--行为人左眼关键点、117--行为人左臀部关键点、118--行为人右臀部关键点。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

实施例1

请参见图1，本发明实施例提供了一种基于图像融合的婴幼儿看护行为识别方法，该方法包括：

S1：同时获取第一视角下的第一视频图像和不同于所述第一视角的第二视角下的第二视频图像；

具体地，获取第一视角的第一视频图像，所述第一视频图像是由向前的全景广角镜头所拍摄的，图像范围较广，主要包括婴幼儿的监护人以及其他行为人的姿态、活动等信息；所述第二视频图像是由带云台的正常角度镜头所拍摄的，图像的分辨率较高，主要包括婴幼儿的姿态、活动等信息。通过不同视角的第一视频图像和第二视频图像，能够保证行为人和婴幼儿的信息的采集范围更大。

S2：根据所述第一视频图像，识别所述第一视频图像中行为人的人形信息和人脸信息，依据所述行为人的人形信息标注出行为人的头部、躯干部以及下半身的关键点位置信息，记为行为人关键点信息；

具体地，预先标注并构建家庭场景下包含人形和人脸这2类的训练数据集合，使用YOLOv7对该数据集合进行迭代训练，得到可以检测视频图像中人形信息、人脸信息的第一目标检测网络模型。通过不断地迭代训练，保证了输出人形信息、人脸信息与原标注信息的一致性，提升了所述第一目标检测网络模型的准确度。

具体地，利用预设的第一目标检测模型对所述第一视频图像进行检测，输出行为人的人形信息和人脸信息；基于HRNet人体姿态检测算法，标注出人形信息中的行为人的头部、躯干部以及下半身的关键点位置信息，HRNet人体姿态检测算法的架构是由并行的高分辨率到低分辨率的子网组成，在多分辨率子网之间进行重复的信息交换(多尺度融合)，水平方向和垂直方向分别对应网络的深度和特征图的尺度，其保证了原第一视频图像的高分辨率，从而保证了输出的关键点位置信息的准确度。

S3：根据所述第二视频图像，识别所述第二视频图像中婴幼儿的头部位置信息，记为婴幼儿关键点信息；

具体地，预先标注并构建包括婴幼儿头部、非婴幼儿头部的训练数据集合，利用YOLOv7对该数据集合进行迭代训练，输出可以检测视频图像中婴幼儿头部和非婴幼儿头部的其他头部位置信息的第二目标检测网络模型。由于YOLOv7经过大量的架构优化，具有较高的目标检测速度和精度，提升了第二目标检测网络模型的工作效率。

具体地，利用预设的第二目标检测网络模型对所述第二视频图像进行检测，分别检测出婴幼儿头部位置信息和非婴幼儿头部的其他头部位置信息，将所述其他头部位置信息剔除，只输出婴幼儿头部位置信息作为婴幼儿关键点信息。

S4：将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为。

具体地，请参见图2，将采集第一视频图像的全景广角镜头作为第一镜头，采集第二视频图像的带云台的正常角度镜头作为第二镜头，以第一镜头光心为坐标原点oB，建立oB-xByBzB基准坐标系：zB轴与光轴重合，前方为正；镜头平面上水平方向为xB轴，右边为正，垂直方向为yB轴，向下为正。同时获取第一镜头的姿态角

和第二镜头的姿态角

计算相对姿态角度

其计算公式为：φ＝φC-φB；θ＝θC-θB；

所述第二镜头在第一镜头的yB轴正方向，根据基准坐标系，测得相对距离为h，即第二镜头的相对高度为h，计算相对平移向量t→，其计算公式为：t→＝[0，-h，0]^T。依据所述相对姿态角度(φ，θ，φ)计算相对旋转矩阵

其计算公式如下：

依据所述相对旋转矩阵R(φ，θ，φ)和相对平移向量t→计算第二镜头的相对外参矩阵M，其计算公式如下：

通过张氏标定法，可以得到第一镜头与第二镜头分别的内参矩阵可以表示为：

对于第i个相机，fi为相机焦距，dx_i为单位像素点在的宽度，dy_i为单位像素的高度，(u_0i，v_0i)为图像坐标系中心点到像素坐标系原点的偏移。第i个相机的像素坐标(u_i，v_i)与相机坐标(x_ci，y_ci，z_ci)的关系可以通过内参矩阵进行描述：

综合上述已知关系，计算第二镜头像素坐标系中的点(μ₂，υ₂)在基准坐标系中的坐标(x，y，z):

其中，z_c2为婴幼儿头部中心点在第二镜头相机坐标系zc轴上的坐标，描述婴幼儿头部中心点与镜头之间的距离，其计算公式如下：

z_c2＝F(w_head)

其中w_head为根据所述婴幼儿头部信息得出的婴幼儿头部宽度，F(w_head)为通过多次实验测定的所述婴幼儿头部宽度与镜头距离的映射函数，从而避免双目立体矫正带来的大量计算。

通过上述相机坐标(x，y，z)，可以计算得到(μ₂，υ₂)投影在第一镜头像素坐标(μ₁，υ₁)，其计算公式如下：

获取所述婴幼儿头部中心点在第二镜头的像素坐标(μ2，υ2)投影在第一镜头像素坐标(μ1，υ1)，将其作为一个关键点与步骤S2中输出的行为人关键点信息进行信息融合，融合后的数据输入预设的神经网络模型训练，识别行为人对婴幼儿的行为。

具体地，同时获取第一视角下的第一视频图像和不同于所述第一视角的第二视角下的第二视频图像；根据所述第一视频图像，识别所述第一视频图像中行为人的人形信息和人脸信息，依据所述行为人的人形信息标注出行为人的头部、躯干部以及下半身的关键点位置信息，记为行为人关键点信息；根据所述第二视频图像，识别所述第二视频图像中婴幼儿的头部位置信息，记为婴幼儿关键点信息；将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为。当提取行为人关键点信息时，提取出行为人的人体姿态信息，融合所述婴幼儿关键点信息和所述行为人关键点信息后，通过时空维度信息训练，提高了识别行为人对婴幼儿的具有高级语义概念行为的准确度度，从而给用户更智能有效的看护提醒。

具体地，请参见图3a，此时行为人为正对摄像头状态，其中，标号1为行为人、101为行为人鼻子关键点、102为行为人左耳关键点、103为行为人脖子关键点、104为行为人左肩膀关键点、105为行为人左手肘关键点、106为行为人左手腕关键点、107为行为人左膝盖关键点、108为行为人左脚踝关键点、109为行为人右脚踝关键点、110为行为人右膝盖关键点、111为行为人手腕关键点、112为行为人右手肘关键点、113为行为人右肩膀关键点、114为行为人右耳关键点、115为行为人右眼关键点、116为行为人左眼关键点；请参见图b，此时行为人为背对摄像头状态，117为行为人左臀部关键点、118为行为人右臀部关键点，用户可根据不同的应用场景，将上述行为人的18个关键点信息中任意一种或多种关键点与婴幼儿关键点建立不同的联系，来获取多种看护体验，例如，将婴幼儿头部关键信息与所述左手腕、右手腕的关键点位置信息建立一条连线，用于识别“婴幼儿被抱入或抱离行为”。

优选地，请参见图4，所述将婴幼儿关键点信息投影到第一视角采集图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为包括：

S41：将婴幼儿关键点信息与行为人关键点信息中的左手腕、右手腕在所述三维坐标系中连线；

S42：连线后，将婴幼儿关键点信息与行为人关键点信息构建具有所有关键点的图网络模型；

S43：依据所述图网络模型，构造无向时空图序列。

具体地，请参见图5，获取所述婴幼儿头部中心点在第二镜头的像素坐标(μ₂，υ₂)投影在第一镜头像素坐标(μ₁，υ₁)，将其与行为人关键点信息中的左手腕、右手腕的位置信息建立一条连线，并构建一个所有关键点的图网络模型，通过ST-GCN图卷积网络的方式对每帧视频构建完成的图网络模型进行训练，通过建立时间关系和空间关系的方式来输出一个无向的时空图序列G＝(V，E)，该序列包含19个关键点和T个帧，既包括婴幼儿关键点信息与行为人关键点信息的连接关系，也包括融合后图像的视频帧之间连接关系。通过ST-GCN图卷积网络的方式训练，确定时空图序列的方式保证了最终识别婴幼儿看护行为的准确性。

优选地，所述构造无向时空图序列包括：

确定婴幼儿关键点与行为人关键点构成的节点特征；

确定婴幼儿关键点与行为人关键点连接后形成边的信息；

具体地，构造无向时空图序列G＝(V，E)，其中V为婴幼儿关键点与行为人关键点的特征，其计算公式如下：

V＝{v_ti|t＝1,…,T i＝1,…,19}

其中，v_ti表示t时刻i关键点的信息。E为边的信息，描述关键点之间的连接关系，包括2种：空间连接关系E_S，其计算公式如下：

E_s＝{v_tiv_tj|i＝1,…,19 j＝1,…,19}

其中，v_tj表示t时刻j关键点的信息。时间连接关系E_F，其计算公式如下：

E_F＝{v_tiv_(t+1)i|i＝1,…,19 t＝1,…,T}

其中，v_(t+1)i表示t+1时刻i关键点的信息。

优选地，所述节点特征包括：节点的平面坐标和置信度；

所述边的信息包括：节点的空间连接关系和时间连接关系。

具体地，V为婴幼儿关键点与行为人关键点的特征，其评价的维度如下：(x，y，confidence)，其中x，y为所述婴幼儿关键点与行为人关键点的坐标，confidence为所述婴幼儿关键点与行为人关键点的置信度。

优选地，请参阅图6，在所述将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为之前，所述方法还包括：通过模拟实际应用场景下婴幼儿看护行为，构造其对应视频的所述无向时空图序列作为正样本，并将不同于所述婴幼儿看护行为的其他行为对应视频的无向时空图序列作为负样本，训练得出所述神经网络模型。

具体地，用户模拟实际应用场景下行为人对婴幼儿的看护行为，以“婴幼儿被抱入或抱离”为例，重复步骤S1至S3，提取对应视频图像的行为人关键点信息和婴幼儿关键点信息并构建无向的时空图序列，将“婴幼儿被抱入或抱离”对应的所述时空图序列作为正样本，不同于“婴幼儿被抱入或抱离”的其他行为对应的时空图序列作为负样本，使用ST-GCN对所述正样本和负样本进行训练，输出一个识别“婴幼儿被抱入或抱离”的神经网络模型。

具体地，预先定义一个loss指标，所述loss指标用于衡量实际标注结果与模型输出结果的一致性，最小化所述loss指标，此时认为“婴幼儿被抱入或抱离”行为被识别成功了，获取步骤S2所述的人脸信息，通过MobileFaceNet提取人脸的128维向量特征，从而识别到人员信息，看护设备获取此时的时间信息，向用户发出“谁在什么时间将宝宝被抱走”的看护提醒信息。

实施例2

请参阅图7，本发明实施例提供了一种基于图像融合的婴幼儿看护行为识别装置，所述装置包括：

具体地，采用本发明实施例的装置：视频图像获取模块，用于同时获取第一视角下的第一视频图像和不同于所述第一视角的第二视角下的第二视频图像；行为人关键点信息识别模块，用于根据所述第一视频图像，识别所述第一视频图像中行为人的人形信息和人脸信息，依据所述行为人的人形信息标注出行为人的头部、躯干部以及下半身的关键点位置信息，记为行为人关键点信息；婴幼儿关键点信息识别模块，用于根据所述第二视频图像，识别所述第二视频图像中婴幼儿的头部位置信息，记为婴幼儿关键点信息；信息融合及训练模块：用于将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为。当提取行为人关键点信息时，提取出行为人的人体姿态信息，融合所述婴幼儿关键点信息和所述行为人关键点信息后，通过时空维度信息训练，提高了识别行为人对婴幼儿的具有高级语义概念行为的准确度度，从而给用户更智能有效的看护提醒。

实施例3

另外，请参阅图8，本发明实施例还提供了一种基于图像融合的婴幼儿看护行为识别系统，其特征在于，用于实现如权利要求1-7中任一项所述的方法，所述系统包括：全景广角镜头，用于采集所述第一视频图像；带云台的正常角度镜头，用于采集所述第二视频图像；惯性传感器，用于测量所述全景广角镜头和带云台的正常角度镜头之间相对的拍摄角度和空间姿态。

具体地，请参阅图8，所述基于图像融合的婴幼儿看护行为识别系统还包括处理器以及存储有计算机程序指令的存储器，所述处理器可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性固态存储器。在特定实施例中，存储器包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种基于图像融合的婴幼儿看护行为识别方法。

在一实施例中，所述基于图像融合的婴幼儿看护行为识别系统还可包括通信接口和总线。其中，如图9所示，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

实施例4

另外，结合上述实施例中的基于图像融合的婴幼儿看护行为识别方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于图像融合的婴幼儿看护行为识别方法。

综上所述，本发明实施例提供了一种基于图像融合的婴幼儿看护行为识别方法、装置及系统。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图像融合的婴幼儿看护行为识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于图像融合的婴幼儿看护行为识别方法，其特征在于，所述行为人关键点信息至少包括以下之一：脖子、左肩膀、右肩膀、左胳膊肘、右胳膊肘、左手腕、右手腕、右臀部、左臀部、右膝盖、左膝盖、右脚踝、左脚踝、鼻子、左耳、右耳、左眼、右眼。

3.根据权利要求2所述的基于图像融合的婴幼儿看护行为识别方法，其特征在于，所述将婴幼儿关键点信息投影到第一视角采集图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为包括：

依据所述图网络模型，构造无向时空图序列。

4.根据权利要求3所述的基于图像融合的婴幼儿看护行为识别方法，其特征在于，所述构造无向时空图序列包括：

确定婴幼儿关键点与行为人关键点构成的节点特征；

确定婴幼儿关键点与行为人关键点连接后形成边的信息；

5.根据权利要求4所述的基于图像融合的婴幼儿看护行为识别方法，其特征在于，所述节点特征包括：节点的平面坐标和置信度；

所述边的信息包括：节点的空间连接关系和时间连接关系。

6.根据权利要求5所述的基于图像融合的婴幼儿看护行为识别方法，其特征在于，在所述将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为之前，所述方法还包括：通过模拟实际应用场景下婴幼儿看护行为，构造其对应视频的所述无向时空图序列作为正样本，并将不同于所述婴幼儿看护行为的其他行为对应视频的无向时空图序列作为负样本，训练得出所述神经网络模型。

7.根据权利要求1-6任一项所述的基于图像融合的婴幼儿看护行为识别方法，其特征在于，在所述将婴幼儿关键点信息投影到第一视角下的第一视频图像所构建的三维坐标系中，融合所述婴幼儿关键点信息和所述行为人关键点信息，通过预设的神经网络模型训练，识别行为人对婴幼儿的行为之后，所述方法还包括：根据所述人脸信息，识别出所述行为人的身份信息，依据所述身份信息，推送提醒信息。

8.一种基于图像融合的婴幼儿看护行为识别装置，其特征在于，所述装置包括：

9.一种基于图像融合的婴幼儿看护行为识别系统，其特征在于，用于实现如权利要求1-7中任一项所述的方法，所述系统包括：全景广角镜头，用于采集所述第一视频图像；带云台的正常角度镜头，用于采集所述第二视频图像；惯性传感器，用于测量所述全景广角镜头和带云台的正常角度镜头之间相对的拍摄角度和空间姿态。

10.一种存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。