CN117173748B

CN117173748B - 一种基于人形识别与人形检测的视频人形事件提取系统

Info

Publication number: CN117173748B
Application number: CN202311454665.5A
Authority: CN
Inventors: 杨程光; 王麒; 陈帅斌; 蒋泽飞; 夏虹
Original assignee: Hangzhou Denghong Technology Co ltd
Current assignee: Hangzhou Denghong Technology Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-01-26
Anticipated expiration: 2043-11-03
Also published as: CN117173748A

Abstract

本发明公开了一种基于人形识别与人形检测的视频人形事件提取系统，其从云端存储服务器接收智能摄像头采集的动检事件视频片段；对所述动检事件视频片段进行人形识别以得到人形识别判断结果；响应于所述人形识别判断结果为有人，将对应图像帧标记为图像关键帧以得到图像关键帧的序列；以及，将所述图像关键帧的序列通过人行检测缩略图生成网络以得到人形区域画框缩略图的序列。这样，可以利用智能摄像头内置动检算法产生的视频片段，判断该视频片段中是否存在人形目标。并且，在该视频片段中出现人形目标时，智能化地生成人形区域画框缩略图的序列，以提供查询。

Description

一种基于人形识别与人形检测的视频人形事件提取系统

技术领域

本发明涉及智能化视频云平台技术领域，尤其涉及一种基于人形识别与人形检测的视频人形事件提取系统。

背景技术

在智能家居领域，智能摄像头不间断地采集大量的视频数据，其中绝大部分视频为重复的背景数据，只有少部分有人形出现的数据才具有查询的价值。目前大量智能摄像头仅有运动物体检测功能并有一定程度的误检，基于动检事件生成的大量视频片段，对于使用者来说仍有不小的查询负担。

因此，在动检视频片段的基础上外加视频人形事件提取功能非常重要，能够在最大化实现监控视频价值的基础上便利使用者的使用。

发明内容

本发明实施例提供一种基于人形识别与人形检测的视频人形事件提取系统，其从云端存储服务器接收智能摄像头采集的动检事件视频片段；对所述动检事件视频片段进行人形识别以得到人形识别判断结果；响应于所述人形识别判断结果为有人，将对应图像帧标记为图像关键帧以得到图像关键帧的序列；以及，将所述图像关键帧的序列通过人行检测缩略图生成网络以得到人形区域画框缩略图的序列。这样，可以利用智能摄像头内置动检算法产生的视频片段，判断该视频片段中是否存在人形目标。并且，在该视频片段中出现人形目标时，智能化地生成人形区域画框缩略图的序列，以提供查询。

本发明实施例还提供了一种基于人形识别与人形检测的视频人形事件提取系统，其包括：视频片段采集模块，用于从云端存储服务器接收智能摄像头采集的动检事件视频片段；人形识别模块，用于对所述动检事件视频片段进行人形识别以得到人形识别判断结果；图像关键帧标记模块，用于响应于所述人形识别判断结果为有人，将对应图像帧标记为图像关键帧以得到图像关键帧的序列；以及生成模块，用于将所述图像关键帧的序列通过人行检测缩略图生成网络以得到人形区域画框缩略图的序列。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在附图中：图1为本发明实施例中提供的一种基于人形识别与人形检测的视频人形事件提取系统的框图。

图2为本发明提供的另一种实施例的基于人形识别与人形检测的视频人形事件提取步骤示意图。

图3为本发明实施例中提供的一种基于人形识别与人形检测的视频人形事件提取方法的流程图。

图4为本发明实施例中提供的一种基于人形识别与人形检测的视频人形事件提取方法的系统架构的示意图。

图5为本发明实施例中提供的一种基于人形识别与人形检测的视频人形事件提取系统的应用场景图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。

在本申请实施例记载中，需要说明的是，除非另有说明和限定，术语“连接”应做广义理解，例如，可以是电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。

在智能家居领域，智能摄像头的应用越来越广泛，它们可以提供安全监控、家庭自动化、远程监控等功能。智能摄像头通过不间断地采集视频数据，记录家庭或办公场所的实时情况。然而，由于摄像头的连续采集，绝大部分的视频数据都是重复的背景数据，例如空无一人的房间或静止的景象，这些重复的背景数据对于使用者来说并没有太大的查询价值，因为它们不提供任何有用的信息。

相比之下，只有少部分视频数据中出现人形目标才具有实际的查询价值。例如，当有人进入房间、外来人员进入家庭区域或者发生其他重要事件时，这些视频数据才会引起用户的关注，并需要进行查询和分析。为了解决这个问题，可以采用智能摄像头内置的运动物体检测功能，该功能可以通过分析视频中的像素变化，检测到运动物体的出现。当有人形目标进入摄像头的视野时，运动物体检测算法能够识别并标记出这些目标。

然而，目前的运动物体检测算法还存在一定的误检问题，可能会将一些非人形目标（如动物、移动的物体等）误判为人形目标，这就给使用者带来了一定的查询负担，需要筛选和过滤大量的视频数据，才能找到真正有价值的人形目标数据。

当智能摄像头仅具备运动物体检测功能且存在一定的误检问题时，使用者在查询具有人形目标的视频数据时可能仍然面临一定的查询负担。为了解决这个问题，引入视频人形事件提取功能是非常重要的，可以最大化实现监控视频的价值，并方便使用者的使用。

因此，为了提高查询效率和准确性，可以在动检视频片段的基础上引入视频人形事件提取功能。通过进一步的人形目标检测和图像序列生成，可以智能地生成人形感兴趣区域图像序列，这些图像序列包含了人形目标在视频片段中的位置和动作，可以帮助使用者更快速地定位和了解视频中的重要内容。

视频人形事件提取功能是在动检视频片段的基础上进一步发展的一项技术，利用计算机视觉和深度学习等技术，通过对视频片段进行人形目标检测和分析，智能地提取出具有人形目标的视频片段，以及相关的人形感兴趣区域图像序列。

通过视频人形事件提取功能，使用者可以更轻松地查询和分析具有人形目标的视频数据，避免了对大量重复背景数据的处理。通过智能提取具有人形目标的视频片段，使用者无需手动筛选和过滤大量的重复背景数据，从而降低了查询的负担，使用者可以更快速地找到感兴趣的视频片段，提高了查询效率。视频人形事件提取功能不仅可以提取具有人形目标的视频片段，还可以生成人形感兴趣区域图像序列。这些图像序列包含了人形目标在视频片段中的位置和动作，为使用者提供了关键的信息，使用者可以通过浏览图像序列，更直观地了解目标的位置和动作，从而更准确地分析和判断。通过引入视频人形事件提取功能，智能摄像头的查询功能得到了优化，提高了用户体验和使用效果。使用者无需花费过多的时间和精力去处理和分析大量的重复背景数据，可以更专注地关注具有人形目标的视频片段，提高了使用的便利性和效率。通过智能摄像头的运动物体检测和人形目标提取功能，使用者可以轻松地筛选和查询具有人形目标的视频数据，避免了对大量重复背景数据的处理。这样，智能摄像头的查询功能得到了优化，提高了用户体验和使用效果。

针对智能摄像头内置动检算法产生的视频片段，本专利提出了一种基于人形识别与人形检测的视频人形事件提取系统，判断视频片段是否存在人形目标，同时对人形目标进行绘制并生成视频片段缩略图提供查询。

实施例1：在本发明的一个实施例中，图1为本发明实施例中提供的一种基于人形识别与人形检测的视频人形事件提取系统的框图。如图1所示，根据本发明实施例的基于人形识别与人形检测的视频人形事件提取系统100，包括：视频片段采集模块110，用于从云端存储服务器接收智能摄像头采集的动检事件视频片段；人形识别模块120，用于对所述动检事件视频片段进行人形识别以得到人形识别判断结果；图像关键帧标记模块130，用于响应于所述人形识别判断结果为有人，将对应图像帧标记为图像关键帧以得到图像关键帧的序列；以及，生成模块140，用于提取所述图像关键帧的序列中的人形感兴趣区域以得到人形区域画框缩略图的序列。

在所述视频片段采集模块110中，从云端存储服务器接收智能摄像头采集的动检事件视频片段。在实施过程中，确保视频片段的传输和存储过程稳定可靠，以避免数据丢失或损坏，使用合适的网络协议和存储方案，以提供高效的数据传输和存储能力。确保视频片段的采集和接收之间的时序同步，以便后续的人形识别和图像关键帧标记模块能够准确处理和分析视频数据。

在所述人形识别模块120中，对动检事件视频片段进行人形识别，以得到人形识别判断结果。在实施过程中，选择和应用高效准确的人形目标检测算法，以确保对视频片段中的人形目标进行准确的识别，这可能涉及使用深度学习模型、图像处理技术等。考虑到智能摄像头的实时应用场景，人形识别算法需要具备较高的实时性和处理效率，以及对大规模视频数据的快速处理能力。

在所述图像关键帧标记模块130中，将人形识别判断结果为有人的图像帧标记为图像关键帧，以得到图像关键帧的序列。在实施过程中，选择和应用适合的关键帧提取算法，以从视频片段中准确提取出具有人形目标的图像关键帧，这可能涉及到图像质量评估、运动分析等技术。根据应用需求和场景特点，制定合适的关键帧选择策略，以确保提取的关键帧能够准确反映视频片段中的人形目标信息。这可能涉及到时间间隔、图像质量、运动程度等因素的综合考虑。

在所述生成模块140中，将所述图像关键帧的序列通过人行检测缩略图生成网络以得到人形区域画框缩略图的序列。也就是，在本申请的技术方案中，在该视频片段中出现人形目标时，智能化地生成人形区域画框缩略图的序列，以提供查询。

在实施过程中，选择和应用适合的区域提取算法，以从图像关键帧中准确提取出人形感兴趣区域，这可能涉及到目标检测、图像分割等技术。确保提取的人形感兴趣区域能够准确地包含人形目标，并尽量减少误检和漏检的情况，以提供高质量的人形感兴趣区域图像序列。

这样，通过人形识别和关键帧提取，减少了查询和分析大量重复背景数据的负担，提高了查询效率。人形识别和关键帧提取提供了具有人形目标的视频片段和图像序列，为使用者提供了关键的信息，帮助其更准确地分析和判断。通过引入人形识别和图像关键帧标记等功能，提高了智能摄像头的查询功能和使用体验，使用户能够更方便地使用和管理视频数据。

针对上述技术问题，本申请的技术构思是利用智能摄像头内置动检算法产生的视频片段，判断该视频片段中是否存在人形目标。并且，在该视频片段中出现人形目标时，智能化地生成人形区域画框缩略图的序列，以提供查询。

基于此，在本申请的技术方案中，首先从云端存储服务器接收智能摄像头采集的动检事件视频片段；并对所述动检事件视频片段进行视频流解码以得到所述动检事件视频片段对应的图片集合。在本申请的实施例中，对所述动检事件视频片段进行基于FFMPEG音视频框架的视频流解码（通过调节抽帧间隔控制解码负载）。

接着，将所述图片集合中的各个图片通过人形识别网络以得到人形识别判断结果。也就是，通过人形识别网络来快速筛选出有人形出现的图片，减少无效的计算。

在本申请的一个具体实施例中，所述人形识别模块，包括：视频流解码单元，用于对所述动检事件视频片段进行视频流解码以得到所述动检事件视频片段对应的图片集合；以及，人形识别单元，用于将所述图片集合中的各个图片通过人形识别网络以得到所述人形识别判断结果。

视频流解码单元对动检事件视频片段进行视频流解码，将其转换为对应的图片集合。通过视频流解码，将动检事件视频片段解析成一系列连续的图像帧，提供了对视频内容的可视化呈现。解码后的图像集合可以进行后续的图像处理操作，例如图像增强、目标检测、图像分割等，以提取更多有用的信息。通过解码后的图片集合，可以进行更深入的数据分析，例如基于图像的特征提取、运动分析等，从而进一步挖掘视频数据的潜在价值。

人形识别单元将图片集合中的各个图片通过人形识别网络，以得到人形识别判断结果。通过人形识别单元，可以对图片集合中的每个图片进行人形目标检测，识别出图片中的人形目标。通过人形识别网络，对检测到的人形目标进行进一步的分析和判断，例如性别识别、年龄估计、行为分析等，从而获得更多关于人形目标的信息。人形识别单元可以实现实时的人形识别，从而能够及时响应动检事件，并提供准确的人形识别判断结果，帮助用户快速作出决策。

视频流解码单元的有益效果包括图像获取、图像处理和数据分析；人形识别单元的有益效果包括人形目标检测、人形识别判断和实时性准确性。这些单元的功能和效果有助于提高智能摄像头系统的性能和用户体验，提供更丰富的视频数据分析和应用能力。

其中，所述人形识别单元，包括：多尺度卷积子单元，用于将所述各个图片通过所述人形识别网络的多尺度卷积结构以得到第一尺度对象特征图、第二尺度对象特征图和第三尺度对象特征图；级联融合子单元，用于使用级联融合模块结构来融合所述第一尺度对象特征图、所述第二尺度对象特征图和所述第三尺度对象特征图以得到对象多尺度特征图；以及，分类子单元，用于将所述对象多尺度特征图通过分类器以得到分类结果，所述分类结果用于表示是否有人。

进一步地，所述多尺度卷积结构，包括：相互并行的第一卷积层和第二卷积层，以及，与所述第一卷积层和所述第二卷积层连接的多尺度融合层，其中，所述第一卷积层和所述第二卷积层使用具有不同尺度的一维卷积核。

多尺度卷积子单元通过人形识别网络的多尺度卷积结构，将每个图片转换为第一尺度、第二尺度和第三尺度的对象特征图。通过多尺度卷积结构，可以从不同尺度上提取图像中的对象特征，包括细节特征和全局特征，从而获得更丰富和多样化的特征表达。多尺度卷积结构可以适应不同尺度的对象，使得人形识别网络能够对不同大小和比例的人形目标进行有效的识别和判断。通过得到的第一尺度、第二尺度和第三尺度对象特征图，可以提供多层次的特征表达，有助于更准确地描述和区分不同的人形目标。

级联融合子单元使用级联融合模块结构，将第一尺度、第二尺度和第三尺度的对象特征图进行融合，得到对象的多尺度特征图。通过级联融合模块结构，可以将不同尺度的对象特征图进行融合，从而综合利用不同尺度上的信息，提高人形识别的准确性和鲁棒性。融合不同尺度的对象特征图可以使得特征表达更加全面和丰富，充分利用多尺度信息的互补作用，提供更准确的人形识别结果。

分类子单元将对象的多尺度特征图通过分类器，得到分类结果，用于表示是否有人。通过分类器对对象的多尺度特征图进行分类，可以判断该对象是否为人形目标，提供有关是否有人的分类结果。通过使用多尺度特征图进行分类，可以提高人形识别的鲁棒性和准确性，对不同尺度和姿态的人形目标具有更好的适应性。

多尺度卷积子单元的有益效果包括多尺度特征提取和尺度适应性；级联融合子单元的有益效果包括多尺度特征融合和信息互补；分类子单元的有益效果包括人形目标分类和鲁棒性准确性。这些子单元的功能和效果有助于提高人形识别的性能和准确性，进一步优化智能摄像头系统的功能和用户体验。

其中，对各个图片进行多尺度卷积的原因在于，多尺度卷积结构可以在不同的分辨率下提取图片中的对象特征，从而可以适应不同大小的人形。接着，通过级联融合模块结构，可以将不同尺度的对象特征图进行有效地融合，从而增强对象特征的表达能力。最后，通过分类器可以根据对象多尺度特征图判断图片中是否有人形出现。

在本申请的一个具体实施例中，所述级联融合子单元，用于：将所述第一尺度对象特征图、所述第二尺度对象特征图和所述第三尺度对象特征图进行级联以得到所述对象多尺度特征图。

在本申请的一个实施例中，所述基于人形识别与人形检测的视频人形事件提取系统，将所述图片集合中的各个图片通过人形识别网络以得到所述人形识别判断结果，还包括训练步骤：对所述多尺度卷积结构、所述级联融合模块结构和所述分类器进行训练；其中，所述训练步骤，包括：获取训练数据，所述训练数据包括训练图片，以及，是否有人的真实值；将所述训练图片通过所述人形识别网络的所述多尺度卷积结构以得到训练第一尺度对象特征图、训练第二尺度对象特征图和训练第三尺度对象特征图；使用所述级联融合模块结构来融合所述训练第一尺度对象特征图、所述训练第二尺度对象特征图和所述训练第三尺度对象特征图以得到训练对象多尺度特征图；对所述训练对象多尺度特征图进行特征分布优化以得到优化对象多尺度特征图；将所述优化对象多尺度特征图通过分类器以得到分类损失函数值；以及，以所述分类损失函数值来对所述多尺度卷积结构、所述级联融合模块结构和所述分类器进行训练。

在本申请的技术方案中，所述训练第一尺度对象特征图、所述训练第二尺度对象特征图和所述训练第三尺度对象特征图的每个特征矩阵表达所述各个图片的基于卷积结构尺度的多尺度图像语义特征，而特征图的各个特征矩阵之间遵循所述人形识别网络的通道分布，并且，在通过级联融合模块结构来融合不同尺度的图像语义特征表示的情况下，可以使得所述训练对象多尺度特征图在其通道维度上具有各个特征矩阵之间的多尺度图像语义特征分布表示，而这会使得所述训练对象多尺度特征图作为整体，对于其各个特征矩阵表达的图像语义特征存在不均衡，并且，本申请的申请人进一步发现，这种不均衡在很大程度上与特征表达尺度相关，即特征矩阵的源图像域的图像语义特征表达尺度，和各个特征矩阵间的多尺度通道关联融合分布尺度，例如，可以理解为相对于进行多尺度通道关联融合分布的尺度，源图像域的不同尺度的图像语义特征分布越不均衡，则所述训练对象多尺度特征图的整体表达也越不均衡。

因此，优选地，对于训练对象多尺度特征图的各个特征矩阵，例如记为，计算针对通道和特征矩阵的加权系数，具体表示为：以如下优化公式对所述训练对象多尺度特征图进行特征分布优化以得到优化对象多尺度特征图；其中，所述优化公式为：

，

其中，是所述训练对象多尺度特征图的各个特征矩阵，/>是所述训练对象多尺度特征图的通道数，/>是特征矩阵/>的全局特征均值，/>是/>组成的特征向量，表示特征向量/>的二范数的平方，/>是特征矩阵/>的尺度，即宽度乘以高度，且表示特征矩阵/>的Frobenius范数的平方，/>是特征矩阵/>的每个位置的特征值，/>和/>表示权重系数。

这里，通过类标准柯西分布式的尾部分布加强机制，可以基于特征尺度对高维特征空间内的特征概率密度分布进行多层次分布结构的相关性约束，以使得具有不同尺度的高维特征的概率密度分布在整体概率密度空间内进行均匀性展开，从而弥补特征尺度偏差导致的概率密度收敛异质性。这样，在训练过程中，以上述权重对所述训练对象多尺度特征图沿通道进行加权，并以上述权重/>对所述训练对象多尺度特征图的每个特征矩阵进行加权，就可以提升优化对象多尺度特征图在分类器的预定概率密度分布域的收敛性，从而提升得到的分类结果的准确性。

进一步地，响应于所述人形识别判断结果为有人，将对应图像帧标记为图像关键帧以得到图像关键帧的序列；并将所述图像关键帧的序列通过基于yolov6-s模型的人形检测网络以得到人形区域画框缩略图的序列。其中，基于yolov6-s模型的人形检测网络是一种用于检测视频图像中人形的深度学习网络。yolov6-s模型是yolov6模型的简化版本，它减少了网络层数和参数量，提高了运行速度和效率。

在本申请的一个具体实施例中，提取所述图像关键帧的序列中的人形感兴趣区域以得到人形区域画框缩略图的序列，包括：将所述图像关键帧的序列通过基于yolov6-s模型的人形检测网络以得到所述人形区域画框缩略图的序列。

通过人形检测网络，可以准确地定位图像关键帧中的人形目标，确定其在图像中的位置和边界框。通过人形检测网络得到的人形目标位置信息，可以提取出与人形目标相关的感兴趣区域图像序列，这些图像序列通常包含了与人形目标相关的动作、姿态和表情等信息。人形感兴趣区域图像序列可以提供更加集中和关键的信息，将注意力集中在人形目标上，减少了对整个图像序列的处理和分析负担。通过提取人形感兴趣区域图像序列，可以提供更紧凑和直观的显示，使用户更容易观察和分析人形目标的动作和行为。

通过基于YOLOv6-S模型的人形检测网络，将图像关键帧的序列转换为人形区域画框缩略图的序列，可以实现人形目标的定位、感兴趣区域提取、关键信息提取和优化用户体验等有益效果。这些效果有助于提高智能摄像头系统对人形目标的识别和分析能力，提供更丰富和有用的视频数据分析结果。

实施例2：在本申请的另一个实施例中，如图2所示，人形动检事件视频片段接收、视频片段解码、图片集合接收、图片预处理、人形识别网络推理、判断是否有人。若判断有人，进行生成图片集合切片、图片集合切片、图片预处理、人形检测网络推理、检测结果绘制、生成缩略图并返回结果。若判断无人，则返回无人结果。

在本申请的一个实施例中，视频解码阶段包括：1.从云端存储服务器接收智能摄像头的动检事件视频片段。

2.对视频片段进行视频流解码。

3.视频片段解码形成对应的图片集合进入人形识别过滤阶段。

进一步地，人形识别过滤阶段包括：4.接收来自视频解码阶段的图片集合。

5.集合内图片按序进行图像预处理。

6.预处理后的图像送入人形识别网络进行判断，其当图像中出现的人形目标占比超过20%时输出为有人，否则为无人。

7.若集合中图片经人形识别网络后判断为有人，则对相应的图片帧进行标记。

8. 完成图片集合的推理后，若集合未包含标记帧则表示该视频片段不包含人形目标，直接返回结果。

9.若集合包含标记帧，则将包含所有标记帧的最小图片集合切片送入人形检测缩略图生成阶段。

更进一步地，人形检测缩略图生成阶段包括：10.接受来自人形识别过滤阶段的图片结合切片。

11.集合内图片按序进行图像预处理。

12.预处理后的图像送入人形检测网络进行人形检测。

13.根据网络的人形检测结果并在图片上进行绘制。

14.将绘制的图片集合合并生成webp缩略图并返回结果。

相比过去的基于人形事件检测方案，本专利结合了人形识别网络与人形检测网络进行多阶段人形事件检测。人形识别网络具有推理速度快，准确率高等优点，能够过滤大部分来自动检事件的误检，大大降低了系统资源开销；同时，人形检测网络使用，生成了人形目标的缩略图大大方便了使用者的快速查看。

在本申请的另一个实施例中，视频解码阶段包括：1.从云端存储服务器接收智能摄像头的动检事件视频片段。

2.基于FFMPEG音视频框架对视频片段进行视频流解码（通过调节抽帧间隔控制解码负载）。

5.集合内图片按序进行图像预处理，包括像素归一化与图像缩放（采用256x256图像分辨率）。

6.预处理后的图像送入人形识别网络进行判断，其中人形识别网络为分类网络PPLCNet，当图像中出现的人形目标占比超过20%时输出为有人，否则为无人。

9.若集合包含标记帧，则确定最小帧序号i与最大帧序号j，将图片集合切片[i,j]送入人形检测缩略图生成阶段。

11.集合内图片按序进行图像预处理，包括像素归一化与图像缩放（采用640x352图像分辨率）。

12.预处理后的图像送入人形检测网络进行人形检测，其中人形检测网络采用yolov6-s模型。

13.根据网络的人形检测结果并在图片上进行绘制。

14.将绘制的图片集合合并生成webp缩略图并返回结果。

综上，基于本发明实施例的基于人形识别与人形检测的视频人形事件提取系统100被阐明，其利用智能摄像头内置动检算法产生的视频片段，判断该视频片段中是否存在人形目标。并且，在该视频片段中出现人形目标时，智能化地生成人形区域画框缩略图的序列，以提供查询。

如上所述，根据本发明实施例的基于人形识别与人形检测的视频人形事件提取系统100可以实现在各种终端设备中，例如用于基于人形识别与人形检测的视频人形事件提取的服务器等。在一个示例中，根据本发明实施例的基于人形识别与人形检测的视频人形事件提取系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于人形识别与人形检测的视频人形事件提取系统100可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于人形识别与人形检测的视频人形事件提取系统100同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于人形识别与人形检测的视频人形事件提取系统100与该终端设备也可以是分立的设备，并且该基于人形识别与人形检测的视频人形事件提取系统100可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

实施例3：图3为本发明实施例中提供的一种基于人形识别与人形检测的视频人形事件提取方法的流程图。图4为本发明实施例中提供的一种基于人形识别与人形检测的视频人形事件提取方法的系统架构的示意图。如图3和图4所示，一种基于人形识别与人形检测的视频人形事件提取方法，包括：210，从云端存储服务器接收智能摄像头采集的动检事件视频片段；220，对所述动检事件视频片段进行人形识别以得到人形识别判断结果；230，响应于所述人形识别判断结果为有人，将对应图像帧标记为图像关键帧以得到图像关键帧的序列；以及，240，将所述图像关键帧的序列通过人行检测缩略图生成网络以得到人形区域画框缩略图的序列。

通过从云端存储服务器接收视频片段，可以获取智能摄像头采集的动检事件数据，为后续的人形识别和处理提供数据基础。将视频片段存储在云端服务器上，可以减轻智能摄像头设备的负担，降低设备存储和处理压力。通过人形识别算法对视频片段进行分析和处理，可以实时地判断视频中是否存在人形目标，并提供准确的人形识别结果。通过人形识别判断结果，可以将只包含人形目标的视频片段提取出来，减少了对整个视频流的查询和处理负担。将人形识别判断为有人的图像帧标记为图像关键帧，可以提取出与人形目标相关的关键信息，例如关键动作、行为和事件等。只保存图像关键帧的序列，可以减少存储空间的占用，提高存储效率。提取人形感兴趣区域图像序列可以将注意力集中在人形目标上，提供更集中和关键的信息，减少对整个图像序列的处理和分析负担。通过提取人形感兴趣区域图像序列，可以更容易地对人形目标的动作、行为和姿态等进行分析和理解，提供更丰富的视频人形事件信息。

基于人形识别与人形检测的视频人形事件提取方法中的各个步骤具有不同的有益效果，包括数据获取和传输、减轻设备负担、实时性和准确性、降低查询负担、关键信息提取、减少存储空间、重点关注人形目标和动作行为分析等。这样，有助于提高智能摄像头系统对视频人形事件的提取和分析能力，优化用户体验和数据处理效率。

本领域技术人员可以理解，上述基于人形识别与人形检测的视频人形事件提取方法中的各个步骤的具体操作已经在上面参考图1到图2的基于人形识别与人形检测的视频人形事件提取系统的描述中得到了详细介绍，并因此，将省略其重复描述。

实施例4：图5为本发明实施例中提供的一种基于人形识别与人形检测的视频人形事件提取系统的应用场景图。如图5所示，在该应用场景中，首先，从云端存储服务器接收智能摄像头采集的动检事件视频片段（例如，如图5中所示意的C）；然后，将获取的动检事件视频片段输入至部署有基于人形识别与人形检测的视频人形事件提取算法的服务器（例如，如图5中所示意的S）中，其中所述服务器能够基于人形识别与人形检测的视频人形事件提取算法对所述动检事件视频片段进行处理，以得到人形区域画框缩略图的序列。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人形识别与人形检测的视频人形事件提取系统，其特征在于，包括：视频片段采集模块，用于从云端存储服务器接收智能摄像头采集的动检事件视频片段；人形识别模块，用于对所述动检事件视频片段进行人形识别以得到人形识别判断结果；图像关键帧标记模块，用于响应于所述人形识别判断结果为有人，将所述动检事件视频片段中的对应图像帧标记为图像关键帧以得到图像关键帧的序列；以及生成模块，用于将所述图像关键帧的序列通过人行检测缩略图生成网络以得到人形区域画框缩略图的序列；

其中，所述人形识别模块，包括：视频流解码单元，用于对所述动检事件视频片段进行视频流解码以得到动检事件视频片段对应的图片集合；以及人形识别单元，用于将所述图片集合中的各个图片通过人形识别网络以得到所述人形识别判断结果；

其中，所述人形识别单元，包括：多尺度卷积子单元，用于将所述各个图片通过所述人形识别网络的多尺度卷积结构以得到第一尺度对象特征图、第二尺度对象特征图和第三尺度对象特征图；级联融合子单元，用于使用级联融合模块结构来融合所述第一尺度对象特征图、所述第二尺度对象特征图和所述第三尺度对象特征图以得到对象多尺度特征图；以及分类子单元，用于将所述对象多尺度特征图通过分类器以得到分类结果，所述分类结果用于表示是否有人；

其中，将所述图片集合中的各个图片通过人形识别网络以得到所述人形识别判断结果，还包括训练步骤：对所述多尺度卷积结构、所述级联融合模块结构和所述分类器进行训练；其中，所述训练步骤，包括：获取训练数据，所述训练数据包括训练图片，以及，是否有人的真实值；将所述训练图片通过所述人形识别网络的所述多尺度卷积结构以得到训练第一尺度对象特征图、训练第二尺度对象特征图和训练第三尺度对象特征图；使用所述级联融合模块结构来融合所述训练第一尺度对象特征图、所述训练第二尺度对象特征图和所述训练第三尺度对象特征图以得到训练对象多尺度特征图；对所述训练对象多尺度特征图进行特征分布优化以得到优化对象多尺度特征图；将所述优化对象多尺度特征图通过分类器以得到分类损失函数值；以及以所述分类损失函数值来对所述多尺度卷积结构、所述级联融合模块结构和所述分类器进行训练；

其中，对所述训练对象多尺度特征图进行特征分布优化以得到优化对象多尺度特征图，包括：以如下优化公式对所述训练对象多尺度特征图进行特征分布优化以得到优化对象多尺度特征图；其中，所述优化公式为：

，

其中，是所述训练对象多尺度特征图的各个特征矩阵，/>是所述训练对象多尺度特征图的通道数，/>是特征矩阵/>的全局特征均值，/>是/>组成的特征向量，/>表示特征向量/>的二范数的平方，/>是所述训练对象多尺度特征图的各个特征矩阵的尺度，且/>表示训练对象多尺度特征图的各个特征矩阵的Frobenius范数的平方，/>是训练对象多尺度特征图的各个特征矩阵的每个位置的特征值，/>和/>表示权重系数；以及以所述权重系数/>对所述训练对象多尺度特征图沿通道进行加权，且以所述权重系数/>对所述训练对象多尺度特征图的每个特征矩阵进行加权以得到所述优化对象多尺度特征图。

2.根据权利要求1所述的基于人形识别与人形检测的视频人形事件提取系统，其特征在于，所述多尺度卷积结构，包括：相互并行的第一卷积层和第二卷积层，以及，与所述第一卷积层和所述第二卷积层连接的多尺度融合层，其中，所述第一卷积层和所述第二卷积层使用具有不同尺度的一维卷积核。

3.根据权利要求2所述的基于人形识别与人形检测的视频人形事件提取系统，其特征在于，所述级联融合子单元，用于：将所述第一尺度对象特征图、所述第二尺度对象特征图和所述第三尺度对象特征图进行级联以得到所述对象多尺度特征图。