CN116761035B

CN116761035B - 基于母婴喂食行为识别的视频智能剪辑方法、装置及设备

Info

Publication number: CN116761035B
Application number: CN202310611219.4A
Authority: CN
Inventors: 陈辉; 熊章; 张智; 雷奇文; 艾伟
Original assignee: Wuhan Xingxun Intelligent Technology Co ltd
Current assignee: Wuhan Xingxun Intelligent Technology Co ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2024-05-07
Anticipated expiration: 2043-05-26
Also published as: CN118573948A; CN116761035A

Abstract

本发明涉及智能看护技术领域，解决了现有技术中无法通过视频剪辑的方式记录母婴喂食过程中的美好时光以及视频数据存储空间占用大的问题，提供了一种基于母婴喂食行为识别的视频智能剪辑方法、装置及设备。该方法包括：获取婴幼儿看护场景下的实时视频流，将所述实时视频流压缩为第一分辨率的子码流视频和第二分辨率的主码流视频；将所述子码流视频分解为多帧第一图像，依据预设规则对所述第一图像进行处理，获取存在母婴喂食行为的第二图像；获取主码流视频中与第二图像的帧号对应的第三图像，将所述第三图像与前后预设帧图像合成，剪辑出目标视频集锦。本发明在通过智能化视频剪辑记录母婴喂食过程中美好时光的同时，又缩小了存储空间。

Description

基于母婴喂食行为识别的视频智能剪辑方法、装置及设备

技术领域

本发明涉及智能看护技术领域，尤其涉及一种基于母婴喂食行为识别的视频智能剪辑方法、装置及设备。

背景技术

随着计算机和网络技术的发展，电子设备的功能越来越多样化。通过视频剪辑手段将感兴趣的视频片段拼接成新的视频越来越受用户喜爱。在涉及到婴幼儿智能看护领域，针对婴幼儿的精彩视频剪辑是指将婴幼儿的成长瞬间通过剪辑、特效、背景音乐等手段，制作成一段有趣、生动、具有感染力的视频。由于婴幼儿年龄较小，不具备自主进食的能力，母亲给婴幼儿喂食的情况较为普遍，用户经常想要通过视频剪辑的方式来记录母婴喂食过程中的美好时光，然而，由于原始视频素材的采集、镜头的分割与合并、后期合成等处理，都需要消耗大量的人力与精力，用户需要预先在电子设备中安装视频剪辑工具，并具备基础的视频剪辑能力，当用户的视频剪辑能力较低时，难以基于原始视频素材剪辑创作出一个优质的母婴喂食视频集锦。

现有中国专利CN115812224A公开了一种用于在瓶子喂食期间提供帮助的系统和方法，所述方法包括：识别所述视频图像内的婴儿；确定所述婴儿的定向；识别所述视频图像内的瓶子；确定所述瓶子的定向；确定所述瓶子和/或婴儿为了达到期望的瓶子定向所需的重新定向；以及控制所述显示设备以输出叠加在所述视频图像之上的重新定向指令，以帮助所述受试者重新定向所述瓶子和/或所述婴儿，以实现期望的瓶子和/或婴儿定向。该图像处理器执行图像分析以在婴儿的瓶子喂食期间向受试者(例如婴儿的母亲或其他看护者)提供实时帮助。上述专利虽然识别出了母婴喂食行为并进行帮助，然而，在母婴喂食过程中，视频数据量通常较大，因为监测需要捕捉高分辨率的图像，而这些数据需要大量的存储和传输带宽，由于视频的帧率通常很高，会进一步增加数据量，在实际视频剪辑中，大数据量可能导致存储和传输的成本变得很高。

为此，如何在通过智能化视频剪辑记录母婴喂食过程中美好时光的同时，又减少存储空间是亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于母婴喂食行为识别的视频智能剪辑方法、装置及设备，用以解决现有技术中无法通过视频剪辑的方式记录母婴喂食过程中的美好时光且视频数据存储空间占用大的问题。

本发明采用的技术方案是：

第一方面，本发明提供了一种基于母婴喂食行为识别的视频智能剪辑方法，其特征在于，所述方法包括：

S1：获取婴幼儿看护场景下的实时视频流，将所述实时视频流压缩为第一分辨率的子码流视频和第二分辨率的主码流视频；

S2：将所述子码流视频分解为多帧第一图像，依据预设规则对所述第一图像进行处理，获取存在母婴喂食行为的第二图像；

S3：获取主码流视频中与第二图像位置对应的第三图像，将所述第三图像与前后预设帧图像合成，剪辑出目标视频集锦。

优选地，所述S2包括：

S21：对各所述第一图像进行前景检测，将前景检测后的图像输入婴幼儿检测模型中，获取婴幼儿就餐图像；

S22：对所述婴幼儿就餐图像进行肤色纹理分析，将分析后的图像输入预训练的手部分类模型，获取包含母亲手部的目标图像；

S23：当目标图像中母亲手部向婴幼儿靠近时，将所述目标图像作为所述第二图像输出。

优选地，所述S21包括：

S211：依据帧差法，对各所述第一图像进行处理，得出前景运动区域位置信息；

S212：依据所述前景运动区域位置信息，当判断前景运动区域为预设的目标区域时，将所述第一图像输入所述婴幼儿检测模型中进行检测；

S213：当通过所述婴幼儿检测模型检测到婴幼儿坐在餐椅上时，获得所述婴幼儿就餐图像。

优选地，所述S212包括：

S2121：将所述第一图像输入预训练的餐椅检测模型中，输出餐椅位置信息；

S2122：依据所述前景运动区域位置信息，获取前景运动区域中的前景点坐标信息；

S2123：计算所有前景点的均值坐标信息，依据所述餐椅位置信息和均值坐标信息，得出前景运动区域和餐椅之间的第一相对位置信息；

S2124：依据所述第一相对位置信息，当判断前景运动区域中心在餐椅中心正上方时，将所述第一图像输入所述婴幼儿检测模型中进行检测。

优选地，所述S22包括：

S221：将所述婴幼儿就餐图像输入预训练的手部检测模型中，输出手部图像；

S222：将所述手部图像输入预训练的肤色纹理检测模型中，获取肤色纹理特征信息；

S223：将提取出所述肤色纹理特征信息后的手部图像输入所述手部分类模型中，输出所述目标图像。

6.根据权利要求2所述的基于母婴喂食行为识别的视频智能剪辑方法，其特征在于，所述S23包括：

S231：将所述目标图像输入预训练的目标检测模型中，获得婴幼儿位置信息和母亲手部位置信息；

S232：依据所述婴幼儿位置信息和母亲手部位置信息，得出母亲手部和婴幼儿之间的第二相对位置信息；

S233：依据连续多帧所述目标图像对应的所述第二相对位置信息，当检测到目标图像中母亲手部向婴幼儿靠近时，输出所述第二图像。

优选地，所述S3包括：

S31：获取所述第二图像上的帧号；

S32：将主码流视频中的图像按照所述第二图像上的帧号进行顺序编码，输出所述第三图像；

S33：将所述第三图像与前后预设帧图像合成，剪辑出存在母婴喂食行为的所述目标视频集锦。

第二方面，本发明提供了一种基于母婴喂食行为识别的视频智能剪辑装置，其特征在于，所述装置包括：

视频压缩模块，用于获取婴幼儿看护场景下的实时视频流，将所述实时视频流压缩为第一分辨率的子码流视频和第二分辨率的主码流视频；

母婴喂食行为识别模块，用于将所述子码流视频分解为多帧第一图像，依据预设规则对所述第一图像进行处理，获取存在母婴喂食行为的第二图像；

视频合成模块，用于获取主码流视频中与第二图像的位置对应的第三图像，将所述第三图像与前后预设帧图像合成，剪辑出目标视频集锦。

第三方面，本发明实施例还提供了一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

综上所述，本发明的有益效果如下：

本发明提供的基于母婴喂食行为识别的视频智能剪辑方法、装置及设备，所述方法包括：获取婴幼儿看护场景下的实时视频流，将所述实时视频流压缩为第一分辨率的子码流视频和第二分辨率的主码流视频；将所述子码流视频分解为多帧第一图像，依据预设规则对所述第一图像进行处理，获取存在母婴喂食行为的第二图像；获取主码流视频中与第二图像的帧号对应的第三图像，将所述第三图像与前后预设帧图像合成，剪辑出目标视频集锦。一方面，本发明通过视频压缩，将高分辨率的实时视频流压缩为低分辨率的子码流视频，再对子码流视频进行处理和分析，通过子码流视频去重新对与实时视频流相同分辨率的主码流视频进行分割和合成，在保证剪辑出的视频剪辑具有高分辨率的同时，也减少了数据传输和存储量，提升了剪辑效率；另一方面，通过预设规则识别出发生母婴喂食行为的第二图像，对主码流视频中与所述第二图像对应的第三图像与前后预设帧图像合成，智能化地完成了母婴喂食视频实时剪辑，帮助用户记录了母婴喂食过程中美好时光，提升了用户的体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明实施例1中基于母婴喂食行为识别的视频智能剪辑方法的整体工作的流程示意图；

图2为本发明实施例1中识别母婴喂食行为的流程示意图；

图3为本发明实施例1中提取婴幼儿就餐图像的流程示意图；

图4为本发明实施例1中对第一图像进行前景检测的流程示意图；

图5为本发明实施例1中提取包含母亲手部的目标图像的流程示意图；

图6为本发明实施例1中提取子码流视频中的第二图像的流程示意图；

图7为本发明实施例1中提取主码流视频中的第三图像的流程示意图；

图8为本发明实施例3中基于母婴喂食行为识别的视频智能剪辑装置的结构框图；

图9为本发明实施例4中电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。

实施例1

请参见图1，本发明实施例1公开了一种基于母婴喂食行为识别的视频智能剪辑方法，其特征在于，所述方法包括：

具体地，获取婴幼儿看护场景下摄像头采集的实时视频流，在常见的婴幼儿看护场景中，所述婴幼儿看护场景至少包括以下场景之一：婴幼儿睡眠、母婴喂食、婴幼儿玩耍和婴幼儿沐浴。将所述实时视频流作为原始视频流，通过降低视频分辨率的方式将原始视频流压缩为第一分辨率的子码流视频，并得出第二分辨率的主码流视频，其中，第二分辨率为与原始视频流的分辨率相同且第二分辨率大于所述第一分辨率，第一分辨率可以为640×480。在婴幼儿看护场景下的视频监测中，由于监测时间长，视频数据量通常较大，又因为监测需要捕捉高分辨率的图像，而这些数据需要大量的存储和传输带宽。视频的帧率通常很高会进一步增加数据量，在实际应用中，大数据量可能导致存储和传输的成本变得很高，这也会使数据分析变得困难。通过将视频数据压缩为分辨率更低的子码流视频，可以减少存储和传输数据量，降低存储和传输成本。另外，压缩后的子码流中需要处理的数据量更小，也可以更快地进行分析处理，从而提升了数据的处理效率。

具体地，将所述子码流视频分解为多帧第一图像，子码流视频中可以包含多种与婴幼儿相关的信息，例如婴幼儿睡眠信息、母婴喂食信息、婴幼儿玩耍信息和婴幼儿沐浴信息，通过预设规则对所述第一图像进行处理，其中，所述预设规则包括：通过前景检测算法和第一深度学习算法，提取出第一图像中的婴幼儿就餐图像，再通过肤色纹理特征提取算法和第二深度学习算法，提取出婴幼儿就餐图像中发生母婴喂食的第二图像，其中，前景检测算法是一种计算机视觉算法，也被称为目标检测算法或运动目标检测算法。它是指从输入的图像或视频序列中提取出前景物体(即与背景不同的运动目标)的算法，通常用于视频监控、智能交通、人机交互等领域。前景检测算法的主要目的是提取出感兴趣的目标并去除背景干扰，为后续的目标跟踪、行为分析、事件检测等任务提供基础。肤色纹理特征提取算法是一种基于图像处理和计算机视觉技术的算法，旨在通过分析图像中的肤色区域并提取肤色纹理特征来实现目标检测和跟踪。该算法通常会利用肤色区域在图像中的分布特征和纹理特征，通过对图像进行分割、滤波、边缘检测等操作，得到肤色区域的纹理特征描述，进而对肤色区域进行识别、分类和跟踪。此肤色纹理特征提取算法适用于多种场景，如人脸识别、人体跟踪、手势识别等。第一深度学习算法是一种基于YoloV5s结构的检测算法，第二深度学习算法是一种基于Resnet结构的分类算法。通过将子码流视频中发生母婴喂食行为的第二图像提取出来，便于后续对所述第二图像合成，得出母婴喂食过程的精彩视频集锦，满足用户记录母婴喂食过程中精彩时光的需求。

在一实施例中，请参见图2，所述S2包括：

具体地，对各所述第一图像进行前景检测，所述前景检测是指通过帧差法提取出第一图像中的运动区域，当运动区域与餐椅正上方区域匹配上时，将前景检测后的图像输入婴幼儿检测模型中，得出婴幼儿就餐图像；其中，所述帧差法是一种视频运动检测算法，用于检测视频中的运动物体或运动区域。它通过比较相邻帧之间的像素值差异来识别运动物体。具体地，帧差法先将当前帧图像和前一帧图像进行差分，得到一个差分图像。然后，对差分图像进行二值化处理，得到一个二值图像。这个二值图像中，非零像素点表示当前帧图像和前一帧图像中像素值差异超过一定阈值的像素点，也就是发生了运动的像素点。最后，可以根据二值图像中非零像素点的位置和数量来确定运动物体或运动区域。所述婴幼儿检测模型是一种基于YoloV5s结构的深度学习模型，其训练过程为：数据收集和预处理：从实际场景中采集婴幼儿坐在餐椅上的图像，并进行预处理。例如，将图像缩放到固定的大小，进行数据增强以扩大数据集等。标注样本数据：利用常用的标注工具(例如LabelImg)，标注婴幼儿的特征信息(婴幼儿脸部特征、头部特征等信息)，生成标注数据集。模型训练：使用标注好的数据集进行模型训练，通过不断迭代和调整模型参数，逐渐提高模型的检测准确率和泛化能力。模型评估和调整：对训练好的模型进行评估，例如计算模型的精度、召回率等指标，对模型进行调整和优化,得出所述婴幼儿检测模型。由于图像中若包含母婴喂食这个行为，图像的各像素点会发生运动，通过前景检测提取出第一图像中的运动区域，再通过婴幼儿检测模型提取出运动区域中婴幼儿坐在餐椅上的图像，避免了第一图像中大量的未发生运动的图像或婴幼儿未坐在餐椅上的图像输入后续流程中进行母婴喂食行为识别，从而节约了工作资料，减少了后续行为识别的工作流程。

在一实施例中，请参见图3，所述S21包括：

具体地，所述帧差法是指通过比较各所述第一图像的相邻帧之间的像素值差异来识别运动物体：先将当前帧图像和前一帧图像进行差分，得到一个差分图像。然后，对差分图像进行二值化处理，得到一个二值图像。这个二值图像中，非零像素点表示当前帧图像和前一帧图像中像素值差异超过一定阈值的像素点，也就是发生了运动的像素点。最后，可以根据二值图像中非零像素点的位置和数量来确定前景运动区域，提取前景运动区域中的非零像素点作为前景点，将所有前景点的位置信息作为前景运动区域位置信息。利用帧差法对第一图像进行处理的优点是简单易实现，计算速度快，适用于实时视频处理。

具体地，依据各所述前景点的位置信息，计算得出所有前景点在相机坐标系中的均值坐标信息，依据所述均值坐标信息，当判断前景运动区域为预设的目标区域时，将所述第一图像输入所述婴幼儿检测模型中进行检测；其中，所述预设的目标区域包括：餐椅的正上方区域。母婴喂食过程中，由于母亲需要将食物喂入坐在餐椅上的婴幼儿口中，这一动作会导致图像中餐椅正上方区域出现像素点的运动，通过判断上述识别出的前景运动区域是否为餐椅正上方区域，从而避免了其他区域的运动对母婴喂食行为识别的干扰，提升了识别准确度的同时也提升了识别效率。

在一实施例中，请参见图4，所述S212包括：

具体地，将所述第一图像输入预训练的餐椅检测模型中，得出餐椅位置信息T(x,y,w,h)，其中，x，y分别表示餐椅的最小外接矩形框中心的横、纵坐标，w表示餐椅的宽度，h表示餐椅的高度，所述餐椅检测模型也是一种基于YoloV5s结构的深度学习模型，其训练过程为：数据收集和预处理：从实际场景中采集餐椅的图像，并进行预处理。例如，将图像缩放到固定的大小，进行数据增强以扩大数据集等。标注样本数据：利用常用的标注工具(例如LabelImg)，标注餐椅的特征信息(餐椅的高度、材质和位置等信息)，生成标注数据集。模型训练：使用标注好的数据集进行模型训练，通过不断迭代和调整模型参数，逐渐提高模型的检测准确率和泛化能力。模型评估和调整：对训练好的模型进行评估，例如计算模型的精度、召回率等指标，对模型进行调整和优化,得出能够检测出餐椅位置信息的所述餐椅检测模型。

具体地，获取各所述前景点的位置信息，依据各所述前景点的位置信息，计算得出所有前景点在相机坐标系中的均值坐标C(u,v)，其中u，v分别表示横、纵坐标，通过所述餐椅位置信息T(x,y,w,h)和均值坐标信息C(u,v)，得出前景运动区域和餐椅之间的第一相对位置信息，其中第一相对位置信息包括：正上方、正下方和其他方向。

具体地，依据所述第一相对位置信息，当满足u>x+w/3且u<＝x+2*w/3且v>y时，认为运动区域中心在餐桌中心正上方位置，此时将一图像输入所述训练完成的婴幼儿检测模型中进行检测。

具体地，通过上述婴幼儿检测模型对图像进行依次检测，当检测到婴幼儿时，且此时运动区域中心位于餐椅中心正上方位置，则认为此时婴幼儿坐在餐椅上且发生运动，将此时的图像作为婴幼儿就餐图像提取出来。

具体地，对提取出来的婴幼儿就餐图像进一步进行肤色纹理分析，所述肤色纹理分析包括：利用手部检测算法检测出图像中的手部区域，再利用肤色纹理特征提取算法提取出手部区域的肤色纹理特征；其中，手部检测算法是一种基于YoloV5s结构的深度学习算法，肤色纹理特征提取算法是一种基于图像处理和计算机视觉技术的算法，旨在通过分析图像中的肤色区域并提取肤色纹理特征来实现目标检测和跟踪。将分析后的图像输入预训练的手部分类模型，得出包含母亲手部的目标图像；其中，所述预训练的手部分类模型是一种基于Resnet结构的深度学习模型，其训练过程为：从实际的母婴喂食场景中采集大量的婴幼儿手部图像和母亲手部图像，利用上述肤色纹理特征提取算法提取出婴幼儿手部和母亲手部各自的手部肤色纹理特征信息，将提取出的肤色纹理特征信息输入基于Resnet结构的深度学习模型，通过不断迭代和调整模型参数，逐渐提高模型的检测准确率和泛化能力，得出能够分类婴幼儿手部和母亲手部的所述手部分类模型。通过对婴幼儿就餐图像中出现的手部特征进行提取和分类，识别出母亲手部，从而排除了婴幼儿自主进食这种就餐情况，保证了剪辑视频中婴幼儿和母亲存在互动，满足了用户记录母婴喂食过程中美好时光的视频剪辑需求。

在一实施例中，请参见图5，所述S22包括：

具体地，获取婴幼儿就餐图像，将所述婴幼儿就餐图像输入预训练的手部检测模型中，提取出包含人体手部的所述手部图像，其中，所述手部检测模型的预训练过程为：收集大量包含人体手部的图像数据，利用常用的标注工具(例如LabelImg)，标注图像中的人体手部，得出标注图像数据，将标注了人体手部的图像数据输入基于YoloV5s结构的检测模型中进行训练，通过过不断迭代和调整模型参数，逐渐提高模型的检测准确率和泛化能力，得出能够检测出人体手部的所述手部检测模型。

具体地，所述肤色纹理检测模型的训练过程为：收集大量包含人体手部的训练图像，利用常用的标注工具(例如LabelImg)，标注图像中的人体手部，在利用上述肤色纹理特征提取算法提取出人体手部的肤色纹理特征信息，其中所述肤色纹理特征信息包括：皮肤的色调、亮度、饱和度、皮肤纹路、细节、皮肤斑点、手部的骨骼结构、肌肉结构和血管结构，将包含人体手部的图像和对应的肤色纹理特征信息输入基于YoloV5s结构的深度学习模型中进行训练，得出能够检测出人体手部肤色纹理特征的所述肤色纹理检测模型，将所述手部图像输入预训练的肤色纹理检测模型中，得出手部的肤色纹理特征信息，再将提取出所述肤色纹理特征信息后的手部图像输入经过上述预训练的手部分类模型中，得出包含母亲手部的所述目标图像。

S23：当目标图像中母亲手部向婴幼儿靠近时，获取所述目标图像作为所述第二图像输出。

具体地，获取上述目标图像，此时目标图像中出现了母亲手部，且婴幼儿坐在餐椅之上，则需要进一步判断，当目标图像中母亲手部向婴幼儿靠近时，认为发生母婴喂食行为，将发生母婴喂食行为的目标图像作为第二图像输出。通过判断母亲手部向婴幼儿靠近，从而避免了婴幼儿只是坐在餐椅上而未进食等异常情况的干扰，减少了行为识别的误判概率。

在一实施例中，请参见图6，所述S23包括：

具体地，将所述目标图像输入目标检测模型中，分别得出婴幼儿的位置信息(x1，y1，w1，h1)和母亲手部位置信息(x2，y2，w2，h2)，其中，x1，y1，w1，h1分别表示婴幼儿人形的最小外接矩形框左下角点的横、纵坐标和矩形框的宽和高，x2，y2，w2，h2分别表示母亲手部的最小外接矩形框左下角点的横、纵坐标和矩形框的宽和高，所述目标检测模型包括：上述婴幼儿检测模型和手部检测模型。

具体地，依据所述婴幼儿的位置信息(x1，y1，w1，h1)和母亲手部位置信息(x2，y2，w2，h2)，使用欧几里得距离公式来计算母亲手部和婴幼儿之间的距离。欧几里得距离是指在欧几里得空间中两点之间的距离，它可以通过计算两点间的直线距离来得到。欧几里得距离公式计算两点之间的距离如下：

d＝√((x1+w1/2-x2-w2/2)^2+(y1+h1/2-y2-h2/2)^2)

其中，d表示两点之间的距离，^2表示对括号内的内容取平方，√表示对括号内的内容取平方根。

具体地，获取连续多帧目标图像计算得出的母亲手部与婴幼儿之间的距离序列(d1，d2，d3……dn)，其中，n表示获取的图像帧数，n为正整数，当d1＞d2＞d3＞……＞dn，即d1至d2逐渐减小时，认为目标图像中母亲手部向婴幼儿靠近，将此时d1对应的第二图像输出。

具体地，在主码流视频中提取出与第二图像位置对应的第三图像，将所述第三图像与前后30帧图像合成，得出目标视频集锦。由于主码流视频与原始视频流一样具有较高的分辨率，通过将主码流视频中的第三图像和前后30帧图像进行合成，根据第二图像位置对应的第三图像，可以获取到关键时刻的精准画面，从而提高集锦视频的质量和可观赏性，增加用户的满意度。通过将分辨率更高的第三图像与前后预设帧图像进行合成，可以增强视频的视觉效果，使集锦视频更加生动、真实，进一步提高用户的观看体验。

在一实施例中，请参见图7，所述S3包括：

S31：获取所述第二图像上的帧号；

实施例2

在另一实施例中，若婴儿年龄较小，尚处于需要家长冲泡奶粉进行喂食的阶段，则所述基于母婴喂食行为识别的视频智能剪辑方法还包括:

S24:对各所述第一图像进行前景检测，将前景检测后的图像输入婴幼儿检测模型中，获取婴幼儿就餐图像；

S25：对所述婴幼儿就餐图像进行肤色纹理分析和目标检测，将分析后的图像输入预训练的手部分类模型，获取包含母亲手部和预设物品的目标图像，其中，所述预设物品包括：奶瓶和奶盒；

S26：当目标图像中母亲手部向婴幼儿靠近且所述预设物品向婴幼儿靠近时，将所述目标图像作为所述第二图像输出。

具体地，在原有实施例1的技术方案基础之上，加入了一个目标检测模型，其中所述目标检测模型的训练过程为：收集大量包含婴幼儿奶瓶和奶盒的图像数据，利用常用的标注工具(例如LabelImg)，标注图像中的奶瓶和奶盒，得出标注图像数据，将标注了的图像数据输入基于YoloV5s结构的检测模型中进行训练，通过过不断迭代和调整模型参数，逐渐提高模型的检测准确率和泛化能力，得出能够检测出婴幼儿奶瓶和奶盒的目标检测模型。当目标图像中母亲手部向婴幼儿靠近且所述预设物品向婴幼儿靠近时，将所述目标图像作为所述第二图像输出，通过奶瓶、奶盒与婴幼儿之间的相对位置关系来二次确认，使得母婴行为识别更加准确，减小了误差。

实施例3

请参见图8，本发明实施例3还提供了一种基于母婴喂食行为识别的视频智能剪辑装置，所述装置包括：

具体地，采用本发明实施例提供的基于母婴喂食行为识别的视频智能剪辑装置，所述装置包括：视频压缩模块，用于获取婴幼儿看护场景下的实时视频流，将所述实时视频流压缩为第一分辨率的子码流视频和第二分辨率的主码流视频；母婴喂食行为识别模块，用于将所述子码流视频分解为多帧第一图像，依据预设规则对所述第一图像进行处理，获取存在母婴喂食行为的第二图像；视频合成模块，用于获取主码流视频中与第二图像的位置对应的第三图像，将所述第三图像与前后预设帧图像合成，剪辑出目标视频集锦。一方面，本装置通过视频压缩，将高分辨率的实时视频流压缩为低分辨率的子码流视频，再对子码流视频进行处理和分析，通过子码流视频去重新对与实时视频流相同分辨率的主码流视频进行分割和合成，在保证剪辑出的视频剪辑具有高分辨率的同时，也减少了数据传输和存储量，提升了剪辑效率；另一方面，通过预设规则识别出发生母婴喂食行为的第二图像，对主码流视频中与所述第二图像对应的第三图像与前后预设帧图像合成，智能化地完成了母婴喂食视频实时剪辑，帮助用户记录了母婴喂食过程中美好时光，提升了用户的体验。

实施例4

另外，结合图1描述的本发明实施例1的基于母婴喂食行为识别的视频智能剪辑方法可以由电子设备来实现。图9示出了本发明实施例4提供的电子设备的硬件结构示意图。

电子设备可以包括处理器以及存储有计算机程序指令的存储器。

具体地，上述处理器可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性固态存储器。在特定实施例中，存储器包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种基于母婴喂食行为识别的视频智能剪辑方法。

在一个示例中，电子设备还可包括通信接口和总线。其中，如图9所示，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将所述设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

实施例5

另外，结合上述实施例1中的基于母婴喂食行为识别的视频智能剪辑方法，本发明实施例5还可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于母婴喂食行为识别的视频智能剪辑方法。

综上所述，本发明实施例提供了一种基于母婴喂食行为识别的视频智能剪辑方法、装置及设备。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于母婴喂食行为识别的视频智能剪辑方法，其特征在于，所述方法包括：

S3：获取主码流视频中与第二图像位置对应的第三图像，将所述第三图像与前后预设帧图像合成，剪辑出目标视频集锦；

所述S2包括：

S23：当目标图像中母亲手部向婴幼儿靠近时，将所述目标图像作为所述第二图像输出；

所述S21包括：

S213：当通过所述婴幼儿检测模型检测到婴幼儿坐在餐椅上时，获得所述婴幼儿就餐图像；

其中，所述S212包括：

2.根据权利要求1所述的基于母婴喂食行为识别的视频智能剪辑方法，其特征在于，所述S22包括：

3.根据权利要求1所述的基于母婴喂食行为识别的视频智能剪辑方法，其特征在于，所述S23包括：

4.根据权利要求1所述的基于母婴喂食行为识别的视频智能剪辑方法，其特征在于，所述S3包括：

S31：获取所述第二图像上的帧号；

5.一种基于母婴喂食行为识别的视频智能剪辑装置，其特征在于，所述装置包括：

视频合成模块，用于获取主码流视频中与第二图像的位置对应的第三图像，将所述第三图像与前后预设帧图像合成，剪辑出目标视频集锦；

所述将所述子码流视频分解为多帧第一图像，依据预设规则对所述第一图像进行处理，获取存在母婴喂食行为的第二图像包括：

对各所述第一图像进行前景检测，将前景检测后的图像输入婴幼儿检测模型中，获取婴幼儿就餐图像；

对所述婴幼儿就餐图像进行肤色纹理分析，将分析后的图像输入预训练的手部分类模型，获取包含母亲手部的目标图像；

当目标图像中母亲手部向婴幼儿靠近时，将所述目标图像作为所述第二图像输出；

所述对各所述第一图像进行前景检测，将前景检测后的图像输入婴幼儿检测模型中，获取婴幼儿就餐图像包括：

依据帧差法，对各所述第一图像进行处理，得出前景运动区域位置信息；

依据所述前景运动区域位置信息，当判断前景运动区域为预设的目标区域时，将所述第一图像输入所述婴幼儿检测模型中进行检测；

当通过所述婴幼儿检测模型检测到婴幼儿坐在餐椅上时，获得所述婴幼儿就餐图像；

其中，所述依据所述前景运动区域位置信息，当判断前景运动区域为预设的目标区域时，将所述第一图像输入所述婴幼儿检测模型中进行检测包括：

将所述第一图像输入预训练的餐椅检测模型中，输出餐椅位置信息；

依据所述前景运动区域位置信息，获取前景运动区域中的前景点坐标信息；

计算所有前景点的均值坐标信息，依据所述餐椅位置信息和均值坐标信息，得出前景运动区域和餐椅之间的第一相对位置信息；

依据所述第一相对位置信息，当判断前景运动区域中心在餐椅中心正上方时，将所述第一图像输入所述婴幼儿检测模型中进行检测。

6.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-4中任一项所述的方法。

7.一种存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-4中任一项所述的方法。