CN110298281B

CN110298281B - 视频结构化方法、装置、电子设备及存储介质

Info

Publication number: CN110298281B
Application number: CN201910538739.0A
Authority: CN
Inventors: 彭菲; 黄磊; 王朋远; 张健
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2021-10-12
Anticipated expiration: 2039-06-20
Also published as: CN110298281A

Abstract

本申请公开了一种视频结构化方法，属于视频图像处理技术领域，有助于解决获取视频图像的三维结构化信息效率低下的问题。所述方法包括：获取目标场景的可见光视频图像和深度视频图像构成的视频图像对；确定所述深度视频图像的点云数据，并提取所述深度视频图像的所述点云数据的特征向量，作为所述深度视频图像的第一点云特征；根据视频图像对的图像对齐关系，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据；并提取所述目标对象对应的所述点云数据的特征向量，作为所述深度视频图像的第二点云特征；然后，根据所述第一点云特征和所述第二点云特征进行预测，获取所述深度视频图像的三维结构化信息。

Description

视频结构化方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频结构化方法、装置、电子设备及计算机可读存储介质。

背景技术

视频结构化技术是指对视频图像中包括的物体进行结构化信息识别的技术，例如，确定视频图像中物体的颜色、亮度、形状、位置等结构化属性的技术。随着计算机视觉等技术的发展，视频结构化技术被广泛应用于日常生活的各个领域，例如，将视频结构化技术应用于智慧城市、平安城市的布控中。然而现有的视频结构化技术方案大多只能确定视频图像的二维结构化信息，无法准确获取距离、大小、方向等三维结构化信息。对于一些可以获取视频图像的三维结构化信息的方案，由于其算法的复杂度，导致运算量较大，对计算设备的运算能力要求非常高，不利于实施。

可见，现有技术中的视频结构化方案至少存在计算设备在实施该方案时，由于运算量较大，导致的效率低下的缺陷。

发明内容

本申请提供一种视频结构化方法，有助于提升获取视频结构化信息的效率。

为了解决上述问题，第一方面，本申请实施例提供了一种视频结构化方法，包括：

获取目标场景的视频图像对，所述视频图像对中包括像素位置一一对应的可见光视频图像和深度视频图像；

确定所述深度视频图像的点云数据；

通过预设的点云特征提取网络提取所述深度视频图像的所述点云数据的特征向量，作为所述深度视频图像的第一点云特征；

根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据；

通过所述点云特征提取网络提取所述目标对象对应的所述点云数据的特征向量，作为所述深度视频图像的第二点云特征；

将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息。

本申请的一些实施例中，所述根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据的步骤之前，还包括：

通过对所述可见光视频图像进行目标对象检测，确定所述可见光视频图像中包括的所述目标对象在所述可见光视频图像中所处的图像区域。

本申请的一些实施例中，对所述可见光视频图像进行目标对象检测时，所述方法还包括：

确定所述目标对象的类别；

通过与所述类别匹配的二维结构信息识别模型对所述可见光视频图像中所述图像区域内的图像进行识别，确定所述可见光视频图像的二维结构化信息；

所述将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息的步骤之后，还包括：

将所述深度视频图像的三维结构化信息和所述可见光视频图像的二维结构化信息进行组合，得到所述视频图像对的结构化信息。

本申请的一些实施例中，所述根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据的步骤，包括：

根据所述目标对象在所述可见光视频图像中所处的图像区域、所述可见光视频图像与所述深度视频图像的像素位置一一对应关系，确定所述目标图像在所述深度视频图像中所处的图像区域；

对所述目标图像在所述深度视频图像中所处的图像区域内所有像素位置处的前景像素点对应的点云数据进行提取，得到所述目标对象对应的点云数据。

可选的，所述三维结构化信息包括：位置、大小、距离、方向中的任意一种或多种。

第二方面，本申请实施例提供了一种视频结构化装置，包括：

视频图像对获取模块，用于获取目标场景的视频图像对，所述视频图像对中包括像素位置一一对应的可见光视频图像和深度视频图像；

第一点云数据确定模块，用于确定所述深度视频图像的点云数据；

第一点云特征提取模块，用于通过预设的点云特征提取网络提取所述深度视频图像的所述点云数据的特征向量，作为所述深度视频图像的第一点云特征；

第二点云数据确定模块，用于根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据；

第二点云特征提取模块，用于通过所述点云特征提取网络提取所述目标对象对应的所述点云数据的特征向量，作为所述深度视频图像的第二点云特征；

三维结构化信息获取模块，用于将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息。

本申请的一些实施例中，所述装置还包括：

第一图像区域确定模块，用于通过对所述可见光视频图像进行目标对象检测，确定所述可见光视频图像中包括的所述目标对象在所述可见光视频图像中所处的图像区域。

本申请的一些实施例中，所述第一图像区域确定模块进一步还用于：

确定所述目标对象的类别；

相应的，所述装置还包括：

视频图像对的结构化信息获取模块，用于在将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息之后，将所述深度视频图像的三维结构化信息和所述可见光视频图像的二维结构化信息进行组合，得到所述视频图像对的结构化信息。

本申请的一些实施例中，所述第二点云数据确定模块进一步用于：

第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的视频结构化方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的视频结构化方法的步骤。

本申请实施例公开的视频结构化方法，通过获取目标场景的视频图像对，所述视频图像对中包括像素位置一一对应的可见光视频图像和深度视频图像；确定所述深度视频图像的点云数据；通过预设的点云特征提取网络提取所述深度视频图像的所述点云数据的特征向量，作为所述深度视频图像的第一点云特征；根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据；通过所述点云特征提取网络提取所述目标对象对应的所述点云数据的特征向量，作为所述深度视频图像的第二点云特征；最后，将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息，有助于提升获取视频结构化信息的效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一的视频结构化方法流程图；

图2是本申请实施例二的视频结构化方法流程图；

图3是本申请实施例三的视频结构化装置结构示意图之一；

图4是本申请实施例三的视频结构化装置结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本申请实施例公开的一种视频结构化方法，如图1所示，该方法包括：步骤110至步骤160。

步骤110，获取目标场景的视频图像对，所述视频图像对中包括像素位置一一对应的可见光视频图像和深度视频图像。

以视频监控领域为例，可以通过结构光摄相机采集目标场景的可见光视频流和深度视频流，然后，根据所述可见光视频流和深度视频流中视频图像帧的时间戳，确定具有相同时间戳的所述可见光视频流中的一帧可见光视频图像和所述深度视频流中的一帧深度视频图像组成一个视频图像对。由于，结构光摄相机以从同一位置以统一角度同时采集所述可见光视频流和深度视频流，因此，所述可见光视频流和深度视频流中具有相同时间戳的视频图像中像素点位置一一对应。

在本申请的另一些实施例中，也可以通过不同的图像采集设备同时分别采集目标场景的视频图像，如通过可见光摄像头采集目标场景的可见光视频图像，通过深度摄像头采集目标场景的深度视频图像，然后，再将所述可见光视频图像和深度视频图像进行对齐处理，使所述可见光视频图像和深度视频图像中包括的像素位置一一对应，之后，由对齐处理后的所述可见光视频图像和深度视频图像构成一个视频图像对。

在本申请的其他实施例中，还可以采用其他方式获取目标场景的视频图像对，只要所述视频图像对中包括的可见光视频图像和深度视频图像的像素点位置一一对应即可，本申请对获取目标场景的视频图像对的具体方式不做限定。

步骤120，确定所述深度视频图像的点云数据。

深度视频图像也被称为距离影像，是指将从图像采集设备到目标场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。通常，深度视频图像的每个像素点可以通过行列坐标和像素值(即深度值)表示。根据深度图像的成像原理，提取深度视频图像中的像素点的坐标信息。在本申请的一些实施例中，可以通过以下公式根据深度视频图像生成点云数据：

X_w＝(c_x-col)*depth/f_x

Y_w＝(c_y-row)*depth/f_y

Z_w＝depth

上述公式中，c_x,c_y和f_x,f_y为深度视频图像的图像采集设备的标定参数，c_x,c_y代表所述图像采集设备的光心位置，f_x＝f_y为焦距，col表示所述深度视频图像的列坐标，row表示所述深度视频图像的行坐标，depth表示所述深度视频图像坐标位置(row,col)处的像素点的像素值，X_w、Y_w和Z_w则分别表示所述深度视频图像中像素点w对应的点云数据。

按照上述方法对深度视频图像中的每个像素点进行运算处理之后，可以得到所述深度视频图像中每个像素点的点云数据，所述深度视频图像中所有像素点对应的点云数据构成了所述深度视频图像的点云数据。本申请实施例中，可以将得到的所述深度视频图像的点云数据表示为P(x₁,y₁,z₁,x₂,y₂,z₂……x_n,y_n,z_n)，其中(x_i,y_i,z_i)为第i个像素点的坐标。

在本申请的另一些实施例中，还可以采用其他符合深度图像成像原理的公式计算深度视频图像的点云数据，本申请实施例中不再一一例举。

步骤130，通过预设的点云特征提取网络提取所述深度视频图像的所述点云数据的特征向量，作为所述深度视频图像的第一点云特征。

在本申请的一些实施例中，所述预设的点云特征提取网络可以为公用的PointNet(一种点云分类/分割深度学习框架)网络模型。在本申请的另一些实施例中，也可以根据采集的视频图像或目标场景的视频图像的点云数据基于PointNet网络结构训练点云特征提取网络。具体实施时，点云特征提取网络可以参见现有技术，本申请实施例中不再赘述。

将前述步骤确定的所述深度视频图像的所述点云数据输入至所述点云特征提取网络后，所述点云特征提取网络将输出所述点云数据P的全局特征，本申请实施例中记为Ftr_a，点云数据P的全局特征Ftr_a就是所述深度视频图像的第一点云特征。

步骤140，根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据。

在确定了所述深度视频图像的点云数据P的全局特征之后，还需要确定所述深度视频图像中的所述目标对象的点云特征。

在本申请的一些实施例中，根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据的步骤，包括：根据所述目标对象在所述可见光视频图像中所处的图像区域、所述可见光视频图像与所述深度视频图像的像素位置一一对应关系，确定所述目标图像在所述深度视频图像中所处的图像区域；对所述目标图像在所述深度视频图像中所处的图像区域内所有像素位置处的前景像素点对应的点云数据进行提取，得到所述目标对象对应的点云数据。

具体而言，首先通过对所述可见光视频图像进行目标对象检测，确定所述目标对象在所述可见光视频图像中所处的图像区域。然后，根据所述可见光视频图像与所述深度视频图像的像素位置的一一对应关系，确定所述目标对象在所述深度视频图像中所处的图像区域，并根据所述目标对象在所述深度视频图像中所处的图像区域的点云数据，提取生成所述目标对象对应的点云数据。例如，所述可见光视频图像中以(x_v,y_v,h,l)表示的图像区域A会对应所述深度视频图像中以(x_D,y_D,h,l)表示的图像区域B，所述可见光视频图像中像素点(x_v,y_v)与所述深度视频图像中像素点(x_D,y_D,z_D)对应，且这两个像素点均对应所述目标场景中的同一位置。

在本申请的一些实施例中，可以采用预设的目标对象检测模型对所述可见光视频图像进行目标对象检测。例如，采用YOLO(YouOnlyLookOnce，一种目标检测算法)、SSD(single shot multibox detector一种目标检测算法)等现有技术中的目标检测算法训练目标对象检测模型，并基于训练得到的目标对象检测模型对所述可见光视频图像进行目标对象检测，确定所述可见光视频图像中的行人、车辆等目标，即本申请实施例中所述的目标对象的检测框(x,y,h,l)和类别置信度。所述检测框即为所述目标对象在所述可见光视频图像中所处的图像区域。

在确定了所述目标对象在所述可见光视频图像中所处的图像区域之后，对所述目标图像在所述深度视频图像中所处的图像区域内所有像素位置处的前景像素点对应的点云数据进行提取，得到所述目标对象对应的点云数据，包括：对所述深度视频图像的所述点云数据进行前景背景属性预测，确定所述深度视频图像中每个像素点对应的点云数据的前景背景属性；确定所述深度视频图像中与所述图像区域对应的所有像素位置处的像素点对应的点云数据，构成所述目标对象的候选点云数据；从所述候选点云数据中滤除根据所述前景背景属性确定为背景像素点的像素点对应的点云数据，得到所述目标对象对应的点云数据。

在本申请的一些实施例中，可以通过预设的点云分割网络模型对所述深度视频图像的所述点云数据进行前景背景属性预测，得到所述深度视频图像的所述点云数据P的前景背景属性信息矩阵。例如，首先将前述步骤中提取的所述深度视频图像的全局特征Ftr_a与所述深度视频图像的的每个像素点(x_i,y_i,z_i)的信息进行拼接，获得所述深度视频图像的PFV(Point-Wise Feature Vector，点向特征向量)，然后，将拼接后得到的点向特征向量通过预设的点云分割网络模型进行预测，得到所述深度视频图像的所述点云数据P的前景背景属性信息矩阵，前景背景属性信息矩阵可以表示为M(x₁,y₁,z₁,a₁,x₂,y₂,z₂,a₂…x_n,y_n,z_n,a_n)，其中，a_i为0代表第i个点(x_i,y_i,z_i)为背景，a_i为1代表该点为前景。所述点云分割网络模型可以基于PointNet网络结构进行训练。训练点云分割网络模型的具体方法参见现有技术，本申请实施例中不再赘述。经过预测，可以得到所述深度视频图像中每个像素点对应的点云数据的前景背景属性，如前景背景属性信息矩阵中像素点(x_i,y_i,z_i)对应的点云数据的前景背景属性为a_i。

之后，对所述深度视频图像的点云数据进行裁切，得到候选点云数据。具体为，由于所述深度视频图像与所述可见光视频图像具有像素一一对应的关系，可以将所述目标对象在所述可见光视频图像中的所述图像区域的信息，作为所述目标对象在所述深度视频图像中的区域信息，然后，将由该区域信息确定的图像区域中所有像素位置处的像素点对应的点云数据，构成所述目标对象的候选点云数据P_f。

接下来，可以根据前述步骤中确定的所述深度视频图像的点云数据的所述前景背景属性(如前景背景属性信息矩阵M)确定所述候选点云数据的前景背景属性，所述前景背景属性指示了与所述点云数据对应的像素点为前景像素点还是背景像素点。之后，从所述候选点云数据P_f中滤除由所述前景背景属性指示为背景像素点的像素点对应的点云数据，得到所述目标对象对应的点云数据P_f‘。例如，所述候选点云数据P_f中像素点(x_i,y_i,z_i)对应的点云数据的前景背景属性为a_i，如果a_i＝0，则从所述候选点云数据P_f中将像素点(x_i,y_i,z_i)对应的点云数据滤除；反之，如果a_i＝1，则保留所述候选点云数据P_f中的像素点(x_i,y_i,z_i)。

经过根据点云数据的前景背景属性对所述候选点云数据P_f进行过滤处理之后，所述候选点云数据P_f中保留的点云数据构成所述目标对象的候选点云数据，例如记为P_f‘。前景背景属性指示为前景像素点的像素点为所述目标对象成像得到的像素点，通过对所述目标对象所在图像区域的点云数据进行处理，滤除背景像素点对应的点云数据，可以消除干扰，提升获取目标对象在视频图像中三维结构化信息的准确性。

步骤150，通过所述点云特征提取网络提取所述目标对象对应的所述点云数据的特征向量，作为所述深度视频图像的第二点云特征。

接下来，通过用于提取所述深度视频图像的第一点云特征的点云特征提取网络，提取所述目标对象对应的所述点云数据P_f‘的特征向量，此处得到的特征向量为所述深度视频图像的局部特征，将所述局部特征作为所述深度视频图像的第二点云特征，在本实施例中，可以表示为Ftr_l。

在本申请的一些实施例中，在通过所述点云特征提取网络提取所述目标对象对应的所述点云数据的特征向量之前，还包括：确定所述目标对象对应的所述点云数据的重心；将所述目标对象对应的所述点云数据转换到以所述重心为坐标原点的坐标系下。其中，点云数据重心可以为所述点云数据对应的所有像素点分别在x,y,z三个维度上的平均值。进一步的，可以通过将点云数据中每个像素点的在x,y,z三个维度上的信息均减去所述平均值，得到以所述重心为坐标原点的坐标系下的点云数据。通过进行坐标系转换，可以减小目标对象和图像采集设备之间的距离对提取到的第二点云特征的影响，以提升第二点云特征的准确度。

步骤160，将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息。

本申请实施例中所述的三维结构化信息指视频图像中包含的目标对象在所述视频图像中的空间属性信息。在本申请的一些实施例中，所述三维结构化信息包括：位置、大小、距离、方向中的任意一种或多种。在确定了所述第一点云特征Ftr_a和所述第二点云特征Ftr_l之后，将所述第一点云特征Ftr_a和所述第二点云特征Ftr_l进行拼接得到最终特征Ftr，将最终特征Ftr输入至预设的三维视频结构信息预测模型，根据所述三维视频结构信息预测模型的输出结果，即可获取所述深度视频图像的三维结构化信息。本申请的一些实施例中，所述三维视频结构信息预测模型的输出结果为三维边框信息(即3D Box信息)可以表示为(x,y,z,w,h,l,θ)，其中包括：位置信息、大小信息、方向信息等空间信息，其中距离信息l根据位置信息计算得到。

其中，所述三维视频结构信息预测模型为基于PointNet网路结构预先训练的。所述三维视频结构信息预测模型的训练过程参见如下例子。

首先，采集若干目标场景的或与所述目标场景类似的场景的若干视频图像对，所述视频图像对中包括像素位置一一对应的可见光视频图像和深度视频图像。

然后，分别获取每个所述视频图像对中的深度视频图像的点云数据，以及所述深度视频图像中的目标对象对应的点云数据。例如，所述深度视频图像的点云数据为10000*3的点云，所述目标对象(如所述深度视频图像中行人或车辆)对应的点云数据为2048*3的点云。之后，通过所述预设的点云特征提取网络提取所述深度视频图像的点云数据的特征向量(即所述深度视频图像的全局特征)，作为所述深度视频图像的第一点云特征；通过所述预设的点云特征提取网络提取所述目标对象对应的点云数据的特征向量(即所述深度视频图像的局部特征)，作为所述深度视频图像的第二点云特征。将每帧深度视频图像的所述第一点云特征和所述第二点云特征进行拼接，得到该帧深度视频图像的最终特征，并以该最终特征作为该帧深度视频图像对应的样本数据。

之后，获取对该帧深度视频图像中所述目标对象的位置、大小、方向等空间属性进行标注的空间信息(即3D Box信息，3维边框信息)，将所述空间信息作为该帧深度视频图像对应的样本数据的标签。

最后，基于设置了样本标签的样本数据进行多目标学习训练，训练所述三维视频结构信息预测模型。具体训练时，所述三维视频结构信息预测模型的损失包括：目标对象位置的回归偏差loss_l，目标对象大小的回归损失loss_s和目标对象方向的回归损失loss_o，采用自适应优化算法(ADAM，Adaptive moment estimation)训练网络，最终得到所述三维视频结构信息预测模型。本申请的一些实施例中，所述三维视频结构信息预测模型可以采用深度学习模型。

本申请实施例公开的视频结构化方法，获取目标场景的视频图像对，所述视频图像对中包括像素位置一一对应的可见光视频图像和深度视频图像；确定所述深度视频图像的点云数据；通过预设的点云特征提取网络提取所述深度视频图像的所述点云数据的特征向量，作为所述深度视频图像的第一点云特征；根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据；通过所述点云特征提取网络提取所述目标对象对应的所述点云数据的特征向量，作为所述深度视频图像的第二点云特征；最后，将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息，有助于提升获取视频结构化信息的效率。

现有技术中，通常通过在不同位置布设多个可见光图像采集设备采集目标场景的可见光图像，然后，根据各图像采集设备的布设位置之间的关系，通过计算设备对可见光图像进行复杂的图像处理，以提取所述目标场景内目标对象的结构化信息，图像处理算法复杂，占用较多的运算资源，对计算设备的处理能力要求较高，并且，无法对目标对象的位置、大小和朝向等重要空间属性信息进行精确预测。本申请通过结合可见光视频图像和深度视频图像，基于深度视频图像的点云可以获得丰富的视频图像三维结构化信息，不需要布设多个图像采集设备，不需要执行复杂的图像处理算法，运算量小，确定视频图像结构化信息的效率更高。

另一方面，现有技术中目前利用3D Box(即三维边界框)进行物体检测的方法均分为两个阶段。第一阶段为确定3D候选边界框的生成。已有的主要方法有两种：第一种是随机生成法，即在整体点云允许的范围内，随机生成一个三维边界框，对这个三维边界框内的所有点进行特征提取，根据提取到的特征来判断该三维边界框内是否含有目标物体以及进行边界和方向修正；第二种方法是将整体点云视为一个体积元素，每间隔固定大小的范围内设置一个anchor(即锚点)，每个anchor选取几种固定方向和大小的三维边界框作为候选三维边界框，再对候选三维边界框内部的所有点进行特征提取来判断该三维边界框内是否含有目标物体以及进行边界和方向修正。第二阶段，采用NMS(non maximum suppression，非极大值抑制)技术来合并候选三维边界框。这两种方法的运算量大，并且精确度不高。而本申请先利用成熟的二维物体检测技术和运算量较小的点云前景背景分割技术来获取目标对象的点云，相当于得到了候选三维边界框，候选三维边界框的个数在数量上远远小于已有的两种方法，节省了运算量。另外由于利用了目前比较成熟的二维物体检测技术确定目标对象的点云，在获取目标对象点云的准确性上也高于现有技术。

进一步的，通过基于可见光视频图像中的目标对象所处的图像区域信息对深度视频图像的点云进行截取，得到所述深度视频图像的局部特征，然后通过所述深度视频图像的全局特征和局部特征进行目标对象在所述深度视频图像中的空间属性信息(即所述深度视频图像的三维结构化信息)，可以进一步提升确定的三维结构化信息的准确度。

实施例二

本申请实施例公开的一种视频结构化方法，如图2所示，该方法包括：步骤210至步骤290。

步骤210，获取目标场景的视频图像对，所述视频图像对中包括像素位置一一对应的可见光视频图像和深度视频图像。

获取目标场景的视频图像对的具体实施方式参见实施例一，本实施例不再赘述。

步骤220，通过对所述可见光视频图像进行目标对象检测，确定所述可见光视频图像中包括的所述目标对象在所述可见光视频图像中所处的图像区域和所述目标对象的类别。

本申请的一些实施例中，根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据的步骤之前，还包括：通过对所述可见光视频图像进行目标对象检测，确定所述可见光视频图像中包括的所述目标对象在所述可见光视频图像中所处的图像区域。例如，通过预先训练的目标对象检测模型对所述可见光视频图像进行目标对象检测，确定所述可见光视频图像中包括的目标对象的2D bounding box(二维边界信息)。

本申请的一些实施例中，通过对所述可见光视频图像进行目标对象检测时，所述方法还包括：确定所述目标对象的类别。

在本申请的一些实施例中，可以预先采集包括不同目标对象的可见光视频图像，其中，目标对象可以为：行人、车辆、各种动物或物体等。然后，将所述可见光视频图像归一化到指定尺寸(如归一化为416*416*3的RGB图像)，作为训练目标对象检测模型的样本数据；之后，以归一化后的每帧可见光视频图像中的目标对象的2D bounding box信息和所述目标对象的类别信息作为相应样本数据的样本标签；最后，基于上述样本数据训练YOLO v-3模型，得到目标对象检测模型。相应的，在进行目标对象检测时，将采集的包含目标对象的可见光视频图像Picture1调整到所述指定尺寸，得到待检测的可见光视频图像Picture2，之后，将所述待检测的可见光视频图像Picture2输入至训练得到的目标对象检测模型，所述目标对象检测模型将输出所述待检测的可见光视频图像Picture2包括的目标对象的2Dbounding box信息，该目标对象的类别信息以及所述类别信息对应的置信度。例如，输出为目标物体的2D bounding box信息(x,y,h,l)和类别置信度。

步骤230，通过与所述类别匹配的二维结构信息识别模型对所述可见光视频图像中所述图像区域内的图像进行识别，确定所述可见光视频图像的二维结构化信息。

所述二维结构化信息指视频图像中包含的目标对象在所述视频图像中二维属性信息。不同种类的目标对象具有不同的二维属性信息，与所述类别匹配的二维结构信息识别模型将输出相应类别目标对象的二维属性信息。所述二维属性信息可以定义为：行人只且必包含性别、衣服颜色、衣服类型等信息，车辆只包含车颜色、类型等信息。例如，行人的二维属性信息包括：性别、年龄段、是否戴帽子、是否打伞、上下衣类型及其颜色、发型、是否背包和拎东西等；车辆的二维属性信息包括：车牌、车身颜色、车类型、品牌等。

在本申请的一些实施例中，以视频图像中包括行人或车辆为例，可以采用现有的识别车辆的二维结构信息识别模型或识别行人的二维结构信息识别模型对可见光视频图像中车辆或行人的图像进行识别，以确定其中包括的行人或车辆的二维属性信息。例如，根据前述步骤检测得到的2D bounding box信息对上述待检测可见光视频图像进行裁剪，得到目标对象的图像Picture3；然后，根据前述步骤检测得到目标对象的类别对应的置信度，确定上述待检测可见光视频图像Picture2中包括的所述目标对象的类别(如确定为行人)；最后，选择与确定的类别对应的二维结构信息识别模型(如识别行人的二维结构信息识别模型)识别所述目标对象的图像Picture3中的目标对象(如行人)的二维属性信息(如性别、衣服类型、衣服颜色、发型等信息)。

如果根据前述步骤中确定的目标对象的类别及置信度确定所述待检测可见光视频图像中包括的目标对象为车辆，则采用识别车辆的二维结构信息识别模型确定所述待检测可见光视频图像中包括的目标对象(即车辆)的二维属性信息(如车牌、车身颜色、车类型等信息)。

本申请具体实施时，可以采用现有技术中已经存在的识别车辆的二维结构信息识别模型确定输入可见光视频图像中包括的目标对象(即车辆)的二维属性信息、采用现有技术中已经存在的识别行人的二维结构信息识别模型确定输入可见光视频图像中包括的目标对象(即行人)的二维属性信息，也可以预先训练识别行人的二维结构信息识别模型和识别车辆的二维结构信息识别模型。

在训练识别行人的二维结构信息识别模型过程中，采用多目标学习网络，输入为尺寸64*128*3的RGB行人图像(三通道RGB图像)和其二维属性标签(如由性别、发型、衣服颜色组成的二维属性标签)，分别为每个二维属性设定损失函数，并根据其二维属性的重要程度给每个损失设置权重，得出总的损失函数，根据自适应优化方法反向传播训练网络。预测时，输入为待检测可见光视频图像剪切出来并缩放为64*128*3的图像，输出为行人的二维属性信息。

在训练识别车辆的二维结构信息识别模型过程中，采用多标签分类网络，输入为尺寸227*227*3的RGB车辆图像和其二维属性标签(如由车类型、颜色组成的二维属性标签)，模型可采用(AlexNet,Resnet34等)，采用多目标训练的方式，为每个二维属性标签设定损失函数，并根据每个二维属性给其对应的损失设定权重，得出总的损失函数，根据总的损失函数采用自适应优化方法训练网络。预测时，输入为待检测可见光视频图像剪切出来并缩放为227*227*3的图像，输出为车辆的二维属性信息。

二维结构信息识别模型输出的目标对象的二维属性信息构成了所述可见光视频图像的二维结构化信息。

步骤240，确定所述深度视频图像的点云数据。

确定所述深度视频图像的点云数据的具体实施方式参见实施例一，本实施例不再赘述。

步骤250，通过预设的点云特征提取网络提取所述深度视频图像的所述点云数据的特征向量，作为所述深度视频图像的第一点云特征。

通过预设的点云特征提取网络提取所述深度视频图像的所述点云数据的特征向量的具体实施方式参见实施例一，本实施例不再赘述。

步骤260，根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据。

根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据的具体实施方式参见实施例一，本实施例不再赘述。

步骤270，通过所述点云特征提取网络提取所述目标对象对应的所述点云数据的特征向量，作为所述深度视频图像的第二点云特征。

通过所述点云特征提取网络提取所述目标对象对应的所述点云数据的特征向量得到所述深度视频图像的第二点云特征的具体实施方式参见实施例一，本实施例不再赘述。

步骤280，将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息。

将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息的具体实施方式参见实施例一，本实施例不再赘述。

步骤290，将所述深度视频图像的三维结构化信息和所述可见光视频图像的二维结构化信息进行组合，得到所述视频图像对的结构化信息。

在本申请的一些实施例中，将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息的步骤之后，还包括：将所述深度视频图像的三维结构化信息和所述可见光视频图像的二维结构化信息进行组合，得到所述视频图像对的结构化信息。在确定了某一目标场景的深度视频图像的三维结构化信息和所述可见光视频图像的二维结构化信息之后，结合所述三维结构化信息和所述二维结构化信息可以得到所述目标场景的视频图像的更丰富的信息。例如，对某一目标场景的视频图像对进行结构化信息提取之后，可以得到如下视频结构化信息：软件园北门东方12米处，有一辆长约5米，宽约1.9米，高约1.5米的黑色本田雅阁，车牌号为京FXXXX，行驶方向朝西偏南约20度。

而采用现有技术中的方法对上述目标场景的图像进行视频结构化信息提取，将得到如下视频结构化信息：软件园北门东方12米处，有一辆黑色本田雅阁，车牌号为京FXXXX。

可见，本申请通过结合可见光视频图像的二维结构化信息和深度视频图像的三维结构化信息，可以获得视频图像的更加丰富的结构化信息，使得获得的结构化信息对真实场景的表达更充分，对视频中所描述的真实场景的还原度更高。

以视频监控应用场景为例，通过对监控视频流中多个视频图像对的二维结构化信息和三维结构化信息进行组合、分析，可以实现对行人或车辆的运行路线进行更准确的还原和描述。

实施例三

本实施例公开的一种视频结构化装置，如图3所示，所述装置包括：

视频图像对获取模块30，用于获取目标场景的视频图像对，所述视频图像对中包括像素位置一一对应的可见光视频图像和深度视频图像；

第一点云数据确定模块31，用于确定所述深度视频图像的点云数据；

第一点云特征提取模块32，用于通过预设的点云特征提取网络提取所述深度视频图像的所述点云数据的特征向量，作为所述深度视频图像的第一点云特征；

第二点云数据确定模块33，用于根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据；

第二点云特征提取模块34，用于通过所述点云特征提取网络提取所述目标对象对应的所述点云数据的特征向量，作为所述深度视频图像的第二点云特征；

三维结构化信息获取模块35，用于将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息。

本申请的一些实施例中，如图4所示，所述装置还包括：

第一图像区域确定模块36，用于在根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据之前，通过对所述可见光视频图像进行目标对象检测，确定所述可见光视频图像中包括的所述目标对象在所述可见光视频图像中所处的图像区域。

本申请的一些实施例中，所述第一图像区域确定模块36进一步还用于：

确定所述目标对象的类别；

相应的，如图4所示，所述装置还包括：

视频图像对的结构化信息获取模块37，用于在将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息之后，将所述深度视频图像的三维结构化信息和所述可见光视频图像的二维结构化信息进行组合，得到所述视频图像对的结构化信息。

本申请的一些实施例中，所述第二点云数据确定模块33进一步用于：

本申请实施例公开的视频结构化装置，用于实现本申请实施例一和实施例二中所述的视频结构化方法的各步骤，装置的各模块的具体实施方式参见相应步骤，此处不再赘述。

本申请实施例公开的视频结构化装置，获取目标场景的视频图像对，所述视频图像对中包括像素位置一一对应的可见光视频图像和深度视频图像；确定所述深度视频图像的点云数据；通过预设的点云特征提取网络提取所述深度视频图像的所述点云数据的特征向量，作为所述深度视频图像的第一点云特征；根据所述目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据；通过所述点云特征提取网络提取所述目标对象对应的所述点云数据的特征向量，作为所述深度视频图像的第二点云特征；最后，将所述第一点云特征和所述第二点云特征进行拼接后输入至预设的三维视频结构信息预测模型，获取所述深度视频图像的三维结构化信息，有助于提升获取视频结构化信息的效率。

另外，在一些具体应用中，本申请通过结合可见光视频图像的二维结构化信息和深度视频图像的三维结构化信息，可以获得视频图像的更加丰富的结构化信息，使得获得的结构化信息对真实场景的表达更充分，对视频中所描述的真实场景的还原度更高。

相应的，本申请还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例一或实施例二所述的视频结构化方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。

本申请还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一或实施例二所述的视频结构化方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种视频结构化方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种视频结构化方法，其特征在于，包括：

确定所述深度视频图像的点云数据；

根据目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据；

2.根据权利要求1所述的方法，其特征在于，所述根据目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据的步骤之前，还包括：

3.根据权利要求2所述的方法，其特征在于，对所述可见光视频图像进行目标对象检测时，所述方法还包括：

确定所述目标对象的类别；

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据的步骤，包括：

根据所述目标对象在所述可见光视频图像中所处的图像区域、所述可见光视频图像与所述深度视频图像的像素位置一一对应关系，确定目标图像在所述深度视频图像中所处的图像区域；

5.根据权利要求4所述的方法，其特征在于，所述三维结构化信息包括：位置、大小、距离、方向中的任意一种或多种。

6.一种视频结构化装置，其特征在于，包括：

第二点云数据确定模块，用于根据目标对象在所述可见光视频图像中所处的图像区域，对所述深度视频图像的所述点云数据进行截取，确定所述目标对象对应的点云数据；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，所述第一图像区域确定模块进一步还用于：

确定所述目标对象的类别；

所述装置还包括：

9.根据权利要求6至8任一项所述的装置，其特征在于，所述第二点云数据确定模块进一步用于：

根据目标对象在所述可见光视频图像中所处的图像区域、所述可见光视频图像与所述深度视频图像的像素位置一一对应关系，确定目标图像在所述深度视频图像中所处的图像区域；

10.根据权利要求9所述的装置，其特征在于，所述三维结构化信息包括：位置、大小、距离、方向中的任意一种或多种。

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任意一项所述的视频结构化方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5任意一项所述的视频结构化方法的步骤。