CN111553247B

CN111553247B - 一种基于改进骨干网络的视频结构化系统、方法及介质

Info

Publication number: CN111553247B
Application number: CN202010334232.6A
Authority: CN
Inventors: 李慧
Original assignee: Shanghai Kaike Intelligent Technology Co ltd
Current assignee: Shanghai Kaike Intelligent Technology Co ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-08-08
Anticipated expiration: 2040-04-24
Also published as: CN111553247A

Abstract

本发明公开了基于改进骨干网络的视频结构化系统，包括：视频获取模块、图像预处理模块、骨干网络模块和结构化信息构建模块，视频获取模块获取视频流，对视频流进行解码获取视频帧图像；图像预处理模块对获取的视频帧图像进行预处理得到预处理后的视频帧图像，并将预处理后的视频帧图像输入骨干网络模块；骨干网络模块对预处理后的视频帧图像进行2D目标检测、姿态估计、实例分割和3D目标检测，输出目标属性信息；结构化信息构建模块用于通过目标属性信息构建目标对象的结构化信息。通过一个网络检测多种目标对象，节省计算资源，实现2D目标检测、姿态估计、实例分割和3D目标检测，能准确获取目标对象属性，提高目标识别的准确率。

Description

一种基于改进骨干网络的视频结构化系统、方法及介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于改进骨干网络的视频结构化系统、方法及介质。

背景技术

目前，现有技术从视频中检测对象目标方法有一定的缺点。例如，采用anchor-based的方法检测视频中的兴趣目标，需要人为设定大量参数，且离散的anchor尺度设定会导致一些物体无法很好的匹配到anchor，从而导致遗漏，且检测出来的信息比较单一。无法做类似朝向和姿态等兴趣目标的深层信息描述。这样得到的只有图像的二维结构化信息，无法准确获取大小、方向、位置等三维结构化信息。当在一个硬件上需要同时检测与识别视频里的事物以及获得更多关于目标对像的信息时，耗时增加较块，难以满足目标识别、检测、姿态估计、实例分割等多任务同时进行的功能需求。

发明内容

针对现有技术中的缺陷，本发明实施例提供的一种基于改进骨干网络的视频结构化系统、方法及介质，使用同一模型能实现多目标对象的检测，节省计算资源，能准确获取目标对象属性，提高目标识别的准确率。

第一方面，本发明实施例提供的一种基于改进骨干网络的视频结构化系统，包括：视频获取模块、图像预处理模块、骨干网络模块和结构化信息构建模块，

所述视频获取模块用于获取视频流，对视频流进行解码，从视频流中获取视频帧图像；

所述图像预处理模块用于对获取的视频帧图像进行预处理得到预处理后的视频帧图像，并将预处理后的视频帧图像输入骨干网络模块；

所述骨干网络模块用于对预处理后的视频帧图像进行2D目标检测、姿态估计、实例分割和3D目标检测，输出目标属性信息；

所述结构化信息构建模块用于通过目标属性信息构建目标对象的结构化信息。

进一步地，所述骨干网络模块包括2D目标检测单元，所述2D目标检测单元用于从视频帧图像中提取目标对象的位置信息，并通过目标对象的位置信息进行建模，对目标对象进行画像。

进一步地，所述骨干网络模块包括姿态估计单元，所述姿态估计单元用于对人体的关节点进行检测以得到人体的姿态信息。

进一步地，所述骨干网络模块包括实例分割单元，所述实例分割单元用于对视频帧中目标对象目标进行逐像素分割以得到目标的轮廓信息。

进一步地，所述骨干网络模块还包括3D目标检测单元，所述3D目标检测单元用于获取目标对象的三维结构化信息。

第二方面，本发明实施例提供的一种基于改进骨干网络的视频结构化方法，包括：

获取视频流，对视频流进行解码得到视频的视频帧图像；

对获取的视频帧图像进行预处理得到预处理后的视频帧图像；

对预处理后视频帧图像进行2D目标检测、姿态估计、实例分割和3D目标检测，输出目标属性信息；

通过目标属性信息构建目标对象的结构化信息。

进一步地，所述对预处理后视频帧图像进行2D目标检测和姿态估计的具体步骤包括：

从视频帧图像中提取目标对象的位置信息，并通过目标对象的位置信息进行建模，对目标对象进行画像；

对人体的关节点进行检测以得到人体的姿态信息。

进一步地，所述对预处理后视频帧图像进行实例分割的具体步骤包括：

对目标对象进行逐像素分割以获取对象的轮廓信息。

进一步地，所述对预处理后视频帧图像进行3D目标检测的具体方法包括：

获取目标对象的三维结构化信息。

第三方面，本发明实施例提供的一种计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

本发明的有益效果：

本发明实施例提供的一种基于改进骨干网络的视频结构化系统、方法及介质，通过一个骨干网络模块对多种目标对象进行检测，节省计算资源，可以实现2D目标检测、姿态估计、实例分割以及3D目标检测，且这些任务共用同一个模型，能准确获取目标对象属性，提高目标识别的准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明第一实施例所提供的一种基于改进骨干网络的视频结构化系统的结构框图；

图2示出了本发明第一实施例中的骨干网络模型的结构示意图；

图3示出了本发明第二实施例所提供的一种基于改进骨干网络的视频结构化方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1所示，示出了本发明第一实施例所提供的一种基于改进骨干网络的视频结构化系统结构框图，该系统包括：视频获取模块、图像预处理模块、骨干网络模块和结构化信息构建模块，视频获取模块用于获取视频流，对视频流进行解码，从视频流中获取视频帧图像；图像预处理模块用于对获取的视频帧图像进行预处理得到预处理后的视频帧图像，并将预处理后的视频帧图像输入骨干网络模块；骨干网络模块用于对预处理后的视频帧图像进行2D目标检测、姿态估计、实例分割和3D目标检测，输出目标属性信息；结构化信息构建模块用于通过目标属性信息构建目标对象的结构化信息。目标对象包括行人、车辆。视频获取模块采用摄像机采集视频流，对视频流进行解码，得到视频的每个视频帧图像。图像预处理模块对视频帧图像进行裁剪、旋转、增强等预处理操作得到预处理后的视频帧图像，将预处理后的视频帧图像输入到骨干网络模块。骨干网络模块采用改进的DLA-34全卷积网络提取图像特征。骨干网络模块对预处理后的视频帧图像进行2D目标检测、姿态估计、实例分割和3D目标检测，分别得到目标对象位置信息、人体姿态信息、目标轮廓信息和目标对象的三维结构化信息，结构化信息构建模块通过对这些信息构建目标对象结构化信息，存入相应的结构化数据库。如行人数据库、行为图片及特征库、车辆图像及特征库等等，而综合这些数据仓库以及关联视频片段仓库可以建立相应的检索引擎，实现对各类的数据仓库的深度信息挖掘，充分提升视频数据的应用价值，提高视频数据的分析和预测功能。

本发明实施例提供的一种基于改进骨干网络的视频结构化系统，通过一个骨干网络模块对多种目标对象进行检测，节省计算资源，可以实现2D目标检测、姿态估计、实例分割和3D目标检测，能准确获取目标对象属性，提高目标识别的准确率。

骨干网络模块包括骨干网络模型构建单元，通过预测目标对象中心点来呈现目标，然后在中心点位置回归出目标的一些属性，包括尺寸，3D位置，方向，以及姿态。如图2所示，示出了骨干网络模型的结构示意图，骨干网络模型中的数字2、4、8、16、32表示下采样因子，对应的分别是256x256、128x128、64x64、32x32、16x16分辨率的特征图。骨干网络中多次将不同尺度的特征图(如16x16分辨率的特征图)上采样后与更大尺度的特征图(如32x32分辨率的特征图)连接。再输入卷积层中。这是由于深层网络的特征图分辨率低，语义信息表征能力强，空间信息缺乏。而低层网络的感受野小,空间信息表征能力强。所以将浅层特征图和深层特征图跨层连接，有利于提高网络的特征表达能力。另外由于改进的骨干网络没有采用FPN结构，为了让图像中所有目标对象的中心点在同一个特征图上，要求分辨率不能太低，所以骨干网络最终输出的下采样因子是4，相比于其他的目标检测框架该因子较小。

在本实施例中，骨干网络模块包括2D检测单元，所述2D目标检测单元从视频帧图像中提取目标对象的位置信息，并通过目标对象的位置信息进行建模，对目标对象进行画像。2D目标检测单元提取视频帧图像中的人、车辆等目标对象的特征，将目标中心点视为要预测的关键点，通过关键点估计的方法实现2D目标检测，具体实施方式是将图像传入全卷积网络，得到一个热力图，热力图峰值点即中心点，每个特征图的峰值点位置预测了目标的宽高信息。相比于anchor-based检测方法，分配的点仅仅是放在峰值点位置上，没有尺寸框，没有手动设置的阈值做前后景分类，没有NMS算法，所以大大的节省了计算资源，加快了网络运行速度。在整个训练的流程中，需要将真实关键点计算出。中心点的计算方式是：

下采样后，计算出来的中心点是对应低分辨率的中心点。将中心点计算方式设为(R是下采样因子4)：

然后对图像进行标记，在下采样后大小为128x128的图像中，用一个高斯滤波来将关键点分布到特征图上。高斯滤波的计算公式是：

采用Focal loss训练中心点。由于骨干网络对视频帧图像进行了R＝4的下采样，当特征图重新映射到原始图像上的时候会带来精度误差，因此，对于每个中心点，额外采用一个偏置值去补偿，所有类的中心点共享同一个预测的偏置值(offset prediction),偏置值和目标大小(宽高信息)都用L1 loss来训练。整体的损失函数为物体损失、大小损失与偏置损失的和，每个损失都有相应的权重。

在本实施例中，骨干网络模块包括姿态估计单元，所述姿态估计单元用于对人体的关节点进行检测以得到人体的姿态信息。人体姿态估计的目标是检测到人体的17个关节点。方法与2D目标检测的方法相似。将人体的每个关节点视为一个关键点。通过对视频帧图像中人体的17个关键点参数化为相对于中心点的偏移，直接回归出关节点的像素级偏移量；再通过给损失添加mask方式来无视那些不可见的关键点(关节点)。

在本实施例中，骨干网络模块包括实例分割单元，所述实例分割单元用于对目标对象进行像素级分割以得到目标对象的轮廓信息。类比Mask R-CNN之于Faster R-CNN。通过在现有的一阶段检测器上添加mask分支达到实例分割的目的。具体实施方式是通过添加两个并行的分支来完成该任务：第一个分支为protonet,使用骨干网络去产生一系列独立于单一实例的原型mask。会输出k个通道，每个通道可以视作一张原型mask。第二个分支在检测分支上添加额外的head去预测mask系数，以用于编码一个实例在原型mask空间的表示。在mask系数预测时使用了tanh函数进行非线性激活。最后，通过基本的矩阵乘法配合sigmoid函数来处理两分支的输出，合成mask得到最后的分割结果M,计算公式为：

M＝σ(PC^T)

P是h×w×k的原型mask集合，C是n×k的系数集合，代表有n个筛选出的实例，每个实例对应有k个mask系数。

在本实施例中，骨干网络模块还包括3D目标检测单元，所述3D目标检测单元用于获取目标对象的三维结构化信息。3D目标检测与2D目标检测不同的是：进行3D目标检测时，网络的head需要回归三个信息，分别是深度、3D维度、和方向。由于深度很难回归，采取对输出做了变化：其中σ是sigmoid函数，在特征点估计网络上添加了一个深度计算通道，该通道使用了两个卷积层，然后做ReLU运算。用L1 loss来训练深度估计器。目标对象的3D维度是三个标量值，分别表示长、宽、高，单位是米。采用L1 Loss直接回归出它们的绝对值，方向用8个标量值来编码的形式。回归目标对象的方向时，两个bins来呈现方向，每个bin有4个值。对于一个bin,两个值用作softmax分类，其余两个值回归到在每个bin中的角度。

骨干网络在不需要设立Anchor和NMS的基础上，建立了鲁棒快速的的视频结构化网络。其优势和创新之处在于通过一个模型就能实现2D目标检测、姿态估计、实例分割和3D目标检测。且方便扩展、协同提升。对于骨干网络模型不能实现的任务比如车牌识别，可以根据对目标对象的三维结构化信息进行分析判断，判断是否需要识别车牌，若是，则截取车辆图像，输入车牌识别网络中进行识别；若否，则将目标对象的三维结构化信息输入结构化构建模块。

在上述的第一实施例中，提供了一种基于改进骨干网络的视频结构化系统，与之相对应的，本申请还提供一种基于改进骨干网络的视频结构化方法。请参考图3，其为本发明第二实施例提供的一种基于改进骨干网络的视频结构化方法的流程图。由于方法实施例基本相似于装置实施例，所以描述得比较简单，相关之处参见装置实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。

如图3所示，示出了本发明实施例提供的一种基于改进骨干网络的视频结构化方法的流程图，该方法包括：

S1:获取视频流，对视频流进行解码得到视频的视频帧图像。

S2:对获取的视频帧图像进行预处理得到预处理后的视频帧图像。

S3:对预处理后视频帧图像进行2D目标检测、姿态估计、实例分割和3D目标检测，输出目标属性信息。

S4:通过目标属性信息构建目标对象的结构化信息。

具体地，对预处理后视频帧图像进行2D目标检测和姿态估计的具体步骤包括：

对人体的关节点进行检测以得到人体的位置信息。

对预处理后的视频帧图像进行实例分割的具体方法包括：对目标对象进行逐像素分割以获得目标对象的轮廓信息。

具体地，对预处理后视频帧图像进行3D目标检测的具体方法包括：

获取目标对象的三维结构化信息。

本发明实施例提供的一种基于改进骨干网络的视频结构化方法，通过一个骨干网络模块对多种目标对象进行检测，节省计算资源，可以实现2D目标检测、姿态估计、实例分割和3D目标检测，能准确获取目标对象属性，提高目标识别的准确率。

在本发明还提供一种计算机可读存储介质的实施例，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

所述计算机可读存储介质可以是前述实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于改进骨干网络的视频结构化系统，其特征在于，包括：视频获取模块、图像预处理模块、骨干网络模块和结构化信息构建模块，

所述骨干网络模块采用改进的DLA-34全卷积网络提取图像特征，骨干网络模块包括骨干网络模型构建单元，通过预测目标对象中心点来呈现目标，然后在中心点位置回归出目标的属性，包括尺寸、3D位置、方向以及姿态，骨干网络模块用于对预处理后的视频帧图像进行2D目标检测、姿态估计、实例分割和3D目标检测，输出目标属性信息；

2.如权利要求1所述的基于改进骨干网络的视频结构化系统，其特征在于，所述骨干网络模块包括2D目标检测单元，所述2D目标检测单元用于从视频帧图像中提取目标对象的位置信息，并通过目标对象的位置信息进行建模，对目标对象进行画像。

3.如权利要求2所述的基于改进骨干网络的视频结构化系统，其特征在于，所述骨干网络模块包括姿态估计单元，所述姿态估计单元用于对人体的关节点进行检测以得到人体的姿态信息。

4.如权利要求3所述的基于改进骨干网络的视频结构化系统，其特征在于，所述骨干网络模块还包括实例分割单元，所述实例分割单元用于分割出物体的像素，获取目标对象的轮廓。

5.如权利要求4所述的基于改进骨干网络的视频结构化系统，其特征在于，所述骨干网络模块还包括3D目标检测单元，所述3D目标检测单元用于获取目标对象的三维结构化信息。

6.一种基于改进骨干网络的视频结构化方法，其特征在于，包括：

获取视频流，对视频流进行解码得到视频的视频帧图像；

采用改进的DLA-34全卷积网络提取图像特征，通过预测目标对象中心点来呈现目标，然后在中心点位置回归出目标的属性，包括尺寸、3D位置、方向以及姿态，对预处理后视频帧图像进行2D目标检测、姿态估计、实例分割和3D目标检测，输出目标属性信息；

通过目标属性信息构建目标对象的结构化信息。

7.如权利要求6所述的基于改进骨干网络的视频结构化方法，其特征在于，所述对预处理后视频帧图像进行2D目标检测和姿态估计的具体步骤包括：

对人体的关节点进行检测以得到人体的姿态信息。

8.如权利要求7所述的基于改进骨干网络的视频结构化方法，其特征在于，所述对预处理后视频帧图像进行实例分割的具体步骤包括：

对目标对象进行逐像素分割以获取对象的轮廓信息。

9.如权利要求8所述的基于改进骨干网络的视频结构化方法，其特征在于，所述对预处理后视频帧图像进行3D目标检测的具体方法包括：

获取目标对象的三维结构化信息。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求6-9任一项所述的方法。