CN107563257A

CN107563257A - 视频理解方法及装置

Info

Publication number: CN107563257A
Application number: CN201610509780.1A
Authority: CN
Inventors: 俞刚; 李超; 何奇正; 陈牧歌; 彭雨翔; 吕凯风; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2018-01-09
Anticipated expiration: 2036-07-01
Also published as: CN107563257B

Abstract

本发明提供了一种视频理解方法及装置，所述视频理解方法包括：获取视频数据；对所获取的视频数据进行场景深度估计；以及基于所述场景深度估计的结果进行场景内容理解。根据本发明实施例的视频理解方法及装置通过对场景的深度进行估计，依据场景的深度信息来对场景内容进行分析和理解，能够高效、准确地识别和定位视频内容中的物体。

Description

视频理解方法及装置

技术领域

本发明涉及视频处理技术领域，更具体地涉及一种视频理解方法及装置。

背景技术

视频数据的结构化，通过对视频内容的智能理解，对于视频广告、智能安防等都有着非常重要的价值。比如，对于互联网上的视频内容(比如电视节目)，通过视频的智能化处理，可以得到一些视频中物体的集合(比如在某汽车在视频的第t帧的某个位置开始出现，直到t+k帧结束，其中t和k为自然数)。可以通过对视频内容的理解，来进行广告的链接。另一方面，在安防场景中，比如某辆自行车丢失，可以通过视频的结构化数据找到这辆自行车，然后锁定其被某人偷取的某个时刻。对视频的智能理解的应用远远不限于上述的例子。

目前视频内容的理解往往通过人力来完成。但是当视频数据量随着摄像头数量的爆发式增长而极速增加时，通过人力来完成对视频数据的理解和挖掘已经不可行了。现有的智能算法往往直接对视频内容进行分析和理解，但是当视频场景比较嘈杂的时候，往往很难准确地定位出视频内容中的物体。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种视频理解方法及装置，其通过对场景的深度进行估计，依据场景的深度信息来对场景的背景信息进行分析和理解，能够高效、准确地识别和定位视频内容中的物体。

根据本发明一方面，提供了一种视频理解方法，所述视频理解方法包括：获取视频数据；对所获取的视频数据进行场景深度估计；以及基于所述场景深度估计的结果进行场景内容理解。

在本发明的一个实施例中，所述视频理解方法还包括：在获取所述视频数据后对所述视频数据进行多尺度操作，并且所述场景深度估计和所述场景内容理解在多个尺度上进行；以及将多个尺度上的场景内容理解结果进行融合。

在本发明的一个实施例中，所述场景深度估计进一步包括：对所述视频数据中的至少一帧进行特征提取；以及基于所提取的特征进行视频序列整合，以得到场景深度信息。

在本发明的一个实施例中，所述特征提取利用第一卷积神经网络实现，所述视频序列整合利用第一时序神经网络实现。

在本发明的一个实施例中，所述第一卷积神经网络通过将训练好的标准卷积神经网络剔除全连接层后得到。

在本发明的一个实施例中，所述第一卷积神经网络还包括损失层，以用于实现网络正则化。

在本发明的一个实施例中，所述视频序列整合包括空间信息整合和时间信息整合。

在本发明的一个实施例中，所述第一时序神经网络包括第一循环神经网络和第二循环神经网络，其中，所述基于所提取的特征进行视频序列整合以得到场景深度信息包括：

利用所述第一循环神经网络，基于所提取的特征整合空间上的背景信息；

利用所述第二循环神经网络，基于时间轴上的信息对所述第一循环神经网络的输出进行平滑，以得到场景深度信息。

示例性地，所述第二循环神经网络的输出包括深度图，其中所述深度图上的每个点表示该像素点对应的物体到摄像头的距离。

在本发明的一个实施例中，所述场景内容理解进一步包括：基于所述视频数据和所述场景深度估计的结果对场景进行分析，以得到像素级的类别输出；以及基于所述像素级的类别输出进行空间信息整合和时间信息整合。

在本发明的一个实施例中，所述对场景的分析利用第二卷积神经网络实现，所述空间信息整合和时间信息整合利用第二时序神经网络实现。

在本发明的一个实施例中，所述第二时序神经网络包括第三循环神经网络和第四循环神经网络，其中，所述基于所述像素级的类别输出进行空间信息整合和时间信息整合包括：

利用所述第三循环神经网络，基于所述像素级的类别输出进行空间信息的整合；

利用所述第四循环神经网络，基于时间轴上的信息对所述第三循环神经网络的输出进行时间信息整合，以得到场景内容理解结果。

示例性地，所述将多个尺度上的场景内容理解结果进行融合包括：

利用第三卷积神经网络对多个尺度上的场景内容理解结果进行融合。

在本发明的一个实施例中，所述基于所述场景深度估计的结果进行场景内容理解包括：基于所述场景深度估计的结果以及前一帧的场景内容理解结果，进行当前帧的场景内容理解。

根据本发明另一方面，提供了一种视频理解装置，所述视频理解装置包括：数据获取模块，用于获取视频数据；场景深度估计模块，用于对所获取的视频数据进行场景深度估计；以及场景内容理解模块，用于基于所述场景深度估计的结果进行场景内容理解。

在本发明的一个实施例中，所述数据获取模块还用于在获取所述视频数据后对所述视频数据进行多尺度操作，并且所述场景深度估计模块所进行的所述场景深度估计和所述场景内容理解模块所进行的所述场景内容理解在多个尺度上进行；以及所述视频理解装置还包括多尺度融合模块，用于将多个尺度上的场景内容理解结果进行融合。

在本发明的一个实施例中，所述场景深度估计模块所进行的所述场景深度估计进一步包括：对所述视频数据中的至少一帧进行特征提取；以及基于所提取的特征进行视频序列整合，以得到场景深度信息。

在本发明的一个实施例中，所述场景深度估计模块包括第一卷积神经网络与第一时序神经网络，其中，所述特征提取利用第一卷积神经网络实现，所述视频序列整合利用第一时序神经网络实现。

示例性地，所述第一卷积神经网络通过将训练好的标准卷积神经网络剔除全连接层后得到。

示例性地，所述第一卷积神经网络还包括损失层，以用于实现网络正则化。

利用所述第一循环神经网络，基于所提取的特征整合空间上的背景信息；以及

在本发明的一个实施例中，所述第二循环神经网络的输出包括深度图，其中所述深度图上的每个点表示该像素点对应的物体到摄像头的距离。

在本发明的一个实施例中，所述场景内容理解模块所进行的所述场景内容理解进一步包括：基于所述视频数据和所述场景深度估计的结果对场景进行分析，以得到像素级的类别输出；以及基于所述像素级的类别输出进行空间信息整合和时间信息整合。

在本发明的一个实施例中，所述将多个尺度上的场景内容理解结果进行融合包括：

根据本发明实施例的视频理解方法及装置通过对场景的深度进行估计，依据场景的深度信息来对场景内容进行分析和理解，能够高效、准确地识别和定位视频内容中的物体。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是用于实现根据本发明实施例的视频理解方法和装置的示例电子设备的示意性框图；

图2是根据本发明实施例的视频理解方法的示意性流程图；

图3是根据本发明另一实施例的视频理解方法的示意性流程图；

图4是根据本发明实施例的视频理解装置的示意性框图；

图5是根据本发明另一实施例的视频理解装置的示意性框图；以及

图6是根据本发明实施例的视频理解系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的视频理解方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像传感器110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的视频理解方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑等。

下面，将参考图2描述根据本发明实施例的视频理解方法200。

在步骤S210，获取视频数据。

在一个实施例中，可以获取由图像采集装置所采集的视频数据。该图像采集装置例如可以包括摄像机、或手机、IPAD等智能设备上的图像采集装置、或安防监控系统中的摄像头等。

在步骤S220，对所获取的视频数据进行场景深度估计。

在一个实施例中，该场景深度估计可以进一步包括：对所获取的视频数据中的至少一帧进行特征提取；以及基于所提取的特征进行视频序列整合，以得到场景深度信息。其中，此处的至少一帧可以为当前帧，可以为每帧，可以为当前帧与前一帧，可以为当前帧与之前的第n帧(n大于等于1)等，在此并不进行限定。

例如，可以基于训练好的第一卷积神经网络(CNN)(例如表示为S)用于当前帧的特征提取，并基于时序神经网络用于整合视频序列的信息，进行当前帧的深度估计。其中，可以基于第二时序神经网络以分别用于进行空间信息整合和时间信息整合。示例性地，第一时序神经网络包括第一循环神经网络和第二循环神经网络，第一循环神经网络(RNN)用于基于所提取的特征整合空间上的背景(context)信息，第二循环神经网络用于基于时间轴上的信息对第一循环神经网络的输出进行平滑，以得到场景深度信息。采用该示例方法，最后可以得到跟原始图片(视频当前帧)同样大小的一个深度图(depth map)，图上面的每一个点代表该像素所拍的物体(即对应的物体)到图像采集装置(例如摄像头)的距离值。场景距离的估计对场景视频的分割以及理解有着非常重要的作用。

其中，在一个具体示例中，第二循环神经网络基于时间轴上的信息对第一循环神经网络的输出进行平滑操作时，除基于第一循环神经网络的输出结果外，还基于前一帧的场景深度信息，以得到当前帧的场景深度信息。通过融合当前帧与前一帧的信息，可以进一步提高得到的当前帧的场景信息的准确性。

示例性地，上述第一CNN网络可以采用标准的神经网络结构来实现，比如AlexNet或VGG net等。在实现过程中，可以把网络最后的全连接层剔除，只使用卷积层的网络，这样得到的是一个空间特征图(spatial feature map)，每个点代表一定的距离信息。

示例性地，上述时序神经网络可以包括循环神经网络(RNN)。RNN可以由长短期记忆网络(LSTM)或者门限循环单元(GRU)来实现。由于输入的数据是视频序列数据，所以可以利用时间轴上面的信息进行平滑操作。最后得到一个置信图(confidence map)来代表深度信息。

此外，为了增强网络的识别能力，可以在上述第一卷积神经网络后面接入一个损失层(loss layer)，用于提供网络的正则化，同时可以避免梯度回传过程中梯度消失的问题。

应该理解，本发明不受具体采用的场景深度估计方法的限制，无论是现有的场景深度估计方法还是将来开发的场景深度估计方法，都可以应用于根据本发明实施例的视频理解方法中，并且也应包括在本发明的保护范围内。

在步骤S230，基于场景深度估计的结果进行场景内容理解。

在一个实施例中，可以结合步骤S220中所得到的场景深度信息(例如场景的深度距离信息)以及原始视频数据(例如当前帧的图像信息)对当前场景进行分析(parsing)。

例如，首先整合步骤S210和步骤S220的输出，放置在一起，形成为一个大的特征图(feature map)。然后基于训练好的第二卷积神经网络(例如表示为P)，用于对场景进行分析。此网络P主要用于得到像素级(pixel-level)的类别输出，即对每个像素点进行分类判断。接着基于时序神经网络进行空间信息整合和时间信息整合。示例性地，可以基于两个RNN网络(例如第三循环神经网络和第四循环神经网络)，一个用于空间上面的信息整合和背景信息的利用，另一个用于时间轴上面的整合。具体地，利用第三循环神经网络，基于所述像素级的类别输出进行空间信息的整合；利用第四循环神经网络，基于时间轴上的信息对所述第三循环神经网络的输出进行时间信息整合，以得到场景内容理解结果。

其中，在一个具体示例中，第四循环神经网络在进行信息整合时，除基于第三循环神经网络的输出结果外，还基于前一帧的场景内容理解结果，以得到当前帧的场景内容理解结果。通过融合当前帧与前一帧的信息，可以进一步提高得到的当前帧的场景内容理解结果的准确性。

利用步骤S220中的深度信息的好处是，可以利用物体本身的三维形状(3D shape)来进行判定；另一方面，深度差别过大、或者不连续的区域往往不属于同一个物体。

基于上面的描述，根据本发明实施例的视频理解方法通过对场景的深度进行估计，依据场景的深度信息来对场景的背景信息进行分析和理解，能够高效、准确地识别和定位视频内容中的物体。

示例性地，根据本发明实施例的视频理解方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的视频理解方法可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等，也可部署在安防监控系统处。

下面，将参考图3描述根据本发明另一实施例的视频理解方法300。

在步骤S310，获取视频数据。

该步骤与结合图2所描述的视频理解方法200中的步骤S210类似，为了简洁，此处不再赘述。

在步骤S320，对视频数据进行多尺度操作。

由于所获取的视频数据的场景中的物体对象可能是多尺度的，比如路边的建筑、垃圾桶、行人、行人身上的包等大小可能差别很大。单一尺度的处理可能会对某一个大小的物体比较鲁棒，但是对于其他大小的物体能力不足。因此，对所获取的视频数据进行多尺度操作可以使后续处理在不同尺度上进行，有利于提高后续处理的精度。示例性地，多尺度操作可以包括重新定义图像尺寸(resize)等。

在步骤S330，对多尺度的视频数据分别进行场景深度估计。

该步骤与结合图2所描述的视频理解方法200中的步骤S220类似，不同之处只是在多个尺度上分别进行场景深度估计。此外，用于场景深度估计的第一神经网络S在设计中可以使用不同的网络结构，使网络输出的特征图中的点达到不同的感受域(receptivefield)，以得到多个尺度上的信息。

在步骤S340，基于多尺度的场景深度估计的结果分别进行场景内容理解。

该步骤与结合图2所描述的视频理解方法200中的步骤S230类似，不同之处只是在多个尺度上分别进行场景内容理解。此外，用于场景内容理解的第二神经网络P在设计中可以使用不同的网络结构，使网络输出的特征图中的点达到不同的感受域，以得到多个尺度上的信息。

在步骤S350，将多个尺度上的场景内容理解结果进行融合。

在一个实施例中，可以基于一个小型的卷积神经网络(例如表示为C)，即，第三卷积神经网络，来融合或整合所有信息，以实现对多个尺度的对象的准确的定位和估计。

基于图3所示实施例的视频理解方法使用多尺度深度神经网络来帮助更好地理解场景的背景信息，从而进一步提高视频理解的准确度。

图4示出了根据本发明实施例的视频理解装置400的示意性框图。该视频理解装置400用于实现前述实施例的视频理解方法。

如图4所示，根据本发明实施例的视频理解装置400包括数据获取模块410、场景深度估计模块420和场景内容理解模块430。

其中，数据获取模块410用于获取视频数据。场景深度估计模块420用于对数据获取模块410所获取的视频数据进行场景深度估计。场景内容理解模块430用于基于场景深度估计模块420所输出的场景深度估计的结果进行场景内容理解。数据获取模块410、场景深度估计模块420和场景内容理解模块430均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

在一个实施例中，数据获取模块410可以从图像采集装置获取由图像采集装置所采集的视频数据。该图像采集装置例如可以包括摄像机、或手机、IPAD等智能设备上的图像采集装置、或安防监控系统中的摄像头等。

在一个实施例中，场景深度估计模块420所进行的场景深度估计可以进一步包括：对数据获取模块410所获取的视频数据中的至少一帧进行特征提取，并基于所提取的特征进行视频序列整合，以得到场景深度信息。其中，此处的至少一帧可以为当前帧，可以为每帧，可以为当前帧与前一帧，可以为当前帧与之前的第n帧(n大于等于1)等，在此并不进行限定。

例如，场景深度估计模块420可以包括训练好的卷积神经网络(CNN)(例如表示为S)和时序神经网络。其中，卷积神经网络S用于当前帧的特征提取；时序神经网络用于整合视频序列的信息，进行当前帧的深度估计。示例性地，场景深度估计模块420可以包括两个时序神经网络以分别用于进行空间信息整合和时间信息整合，例如第一个时序神经网络用于整合空间上的背景(context)信息，第二个时序神经网络用于时间轴上的平滑。最后得到跟原始图片(视频当前帧)同样大小的一个深度图(depth map)，图上面的每一个点代表该像素所拍的物体离图像采集装置(例如摄像头)的距离值。场景距离的估计对场景视频的分割以及理解有着非常重要的作用。

示例性地，上述CNN网络可以采用标准的神经网络结构来实现，比如AlexNet或VGGnet等。在实现过程中，可以把网络最后的全连接层剔除，只使用卷积层的网络，这样得到的是一个空间特征图(spatial feature map)，每个点代表一定的距离信息。然后通过第一个时序神经网络用于空间信息的平滑和背景信息的整合。

示例性地，上述时序神经网络可以为循环神经网络(RNN)。RNN可以由长短期记忆网络(LSTM)或者门限循环单元(GRU)来实现。由于输入的数据是视频序列数据，所以可以利用时间轴上面的信息进行平滑操作。最后得到一个置信图(confidence map)来代表深度信息。

此外，为了增强网络的识别能力，可以在上述CNN网络S后面接入一个loss层，用于提供网络的正则化，同时可以避免梯度回传过程中梯度消失的问题。

在一个实施例中，场景内容理解模块430可以结合场景深度估计模块420所输出的场景深度信息(例如场景的深度距离信息)以及数据获取模块所获取的原始视频数据(例如当前帧的图像信息)对当前场景进行分析(parsing)。

示例性地，场景内容理解模块430可以包括训练好的卷积神经网络(例如表示为P)和时序神经网络。其中，卷积神经网络P用于对场景进行分析。此网络P主要用于得到像素级(pixel-level)的类别输出，即对每个像素点进行分类判断。时序神经网络用于进行空间信息整合和时间信息整合。示例性地，场景内容理解模块430可以包括两个RNN网络，一个用于空间上面的信息整合和背景信息的利用，另一个用于时间轴上面的整合。

利用场景深度估计模块420所输出的深度信息的好处是，可以利用物体本身的三维形状(3D shape)来进行判定；另一方面，深度差别过大、或者不连续的区域往往不属于同一个物体。

基于上面的描述，根据本发明实施例的视频理解装置通过对场景的深度进行估计，依据场景的深度信息来对场景的背景信息进行分析和理解，能够高效、准确地识别和定位视频内容中的物体。

下面，将参考图5描述根据本发明另一实施例的视频理解装置500。

如图5所示，根据本发明实施例的视频理解装置500包括数据获取模块510、场景深度估计模块520、场景内容理解模块530和多尺度融合模块540。

其中，数据获取模块510用于获取视频数据、并对视频数据进行多尺度操作。场景深度估计模块520用于对多尺度的视频数据分别进行场景深度估计。场景内容理解模块530用于基于多尺度的场景深度估计的结果分别进行场景内容理解。多尺度融合模块540用于将多个尺度上的场景内容理解结果进行融合。数据获取模块510、场景深度估计模块520、场景内容理解模块530和多尺度融合模块540均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

其中，数据获取模块510、场景深度估计模块520、场景内容理解模块530分别与结合图4所描述的视频理解装置400中的数据获取模块410、场景深度估计模块420、场景内容理解模块430类似，不同之处在于，数据获取模块510在获取视频数据之后还对视频数据进行多尺度操作；此外，场景深度估计模块520所进行的场景深度估计和场景内容理解模块530所进行的场景内容理解均在多个尺度上进行。

这是因为，所获取的视频数据的场景中的物体对象可能是多尺度的，比如路边的建筑、垃圾桶、行人、行人身上的包等大小可能差别很大。单一尺度的处理可能会对某一个大小的物体比较鲁棒，但是对于其他大小的物体能力不足。因此，对所获取的视频数据进行多尺度操作可以使后续处理在不同尺度上进行，有利于提高后续处理的精度。

示例性地，数据获取模块510所进行的多尺度操作可以包括重新定义图像尺寸(resize)等。此外，分别用于场景深度估计模块520和场景内容理解模块530的神经网络P和S在设计中均可以使用不同的网络结构，使网络输出的特征图中的点达到不同的感受域(receptive field)，以得到多个尺度上的信息。

在一个实施例中，多尺度融合模块540可以包括一个小型的卷积神经网络(例如表示为C)，以用于融合或整合所有信息，以实现对多个尺度的对象的准确的定位和估计。

基于图5所示实施例的视频理解装置使用多尺度深度神经网络来帮助更好地理解场景的背景信息，从而进一步提高视频理解的准确度。

由于本实施例的视频理解装置400用于实现前述实施例的视频理解方法，对于该视频理解装置的某些功能此处不再展开，具体可参考前述实施例的视频理解方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图6示出了根据本发明实施例的视频理解系统600的示意性框图。视频理解系统600包括图像传感器610、存储装置620、以及处理器630。

其中，图像传感器610用于采集视频。存储装置620存储用于实现根据本发明实施例的视频理解方法中的相应步骤的程序代码。处理器630用于运行存储装置620中存储的程序代码，以执行根据本发明实施例的视频理解方法的相应步骤，并且用于实现根据本发明实施例的视频理解装置中的相应模块。

在一个实施例中，在所述程序代码被处理器630运行时执行以下步骤：获取视频数据；对所获取的视频数据进行场景深度估计；以及基于所述场景深度估计的结果进行场景内容理解。

此外，在所述程序代码被所述处理器630运行时还执行以下步骤：在获取所述视频数据后对所述视频数据进行多尺度操作，并且所述场景深度估计和所述场景内容理解在多个尺度上进行；以及将多个尺度上的场景内容理解结果进行融合。

在一个实施例中，所述场景深度估计进一步包括：对所述视频数据中的每帧进行特征提取；以及基于所提取的特征进行视频序列整合，以得到场景深度信息。

示例性地，所述特征提取基于训练好的卷积神经网络，所述视频序列整合基于时序神经网络。示例性地，所述时序神经网络为循环神经网络。示例性地，所述视频序列整合包括空间信息整合和时间信息整合。

在一个实施例中，所述场景内容理解进一步包括：基于所述视频数据和所述场景深度估计的结果对场景进行分析，以得到像素级的类别输出；以及基于所述像素级的类别输出进行空间信息整合和时间信息整合。

示例性地，所述对场景的分析基于训练好的卷积神经网络，所述空间信息整合和时间信息整合基于时序神经网络。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的视频理解方法的相应步骤，并且用于实现根据本发明实施例的视频理解装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的视频理解装置的各个功能模块，并且/或者可以执行根据本发明实施例的视频理解方法。

在一个实施例中，所述计算机程序指令在被计算机运行时执行以下步骤：获取视频数据；对所获取的视频数据进行场景深度估计；以及基于所述场景深度估计的结果进行场景内容理解。

此外，所述计算机程序指令在被计算机运行时还执行以下步骤：在获取所述视频数据后对所述视频数据进行多尺度操作，并且所述场景深度估计和所述场景内容理解在多个尺度上进行；以及将多个尺度上的场景内容理解结果进行融合。

根据本发明实施例的视频理解装置中的各模块可以通过根据本发明实施例的视频理解的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的视频理解方法、装置、系统以及存储介质通过对场景的深度进行估计，依据场景的深度信息来对场景的背景信息进行分析和理解，能够高效、准确地识别和定位视频内容中的物体。此外，根据本发明实施例的视频理解方法、装置、系统以及存储介质还可使用多尺度深度神经网络来帮助更好地理解场景的背景信息，从而进一步提高视频理解的准确度。本发明所提出的视频理解方法、装置、系统以及存储介质可以有效实现视频内容的结构化，能够很好的应用于视频监控和智能广告等领域。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频理解方法，其特征在于，所述视频理解方法包括：

获取视频数据；

对所获取的视频数据进行场景深度估计；以及

基于所述场景深度估计的结果进行场景内容理解。

2.根据权利要求1所述的视频理解方法，其特征在于，所述视频理解方法还包括：

在获取所述视频数据后对所述视频数据进行多尺度操作，并且

所述场景深度估计和所述场景内容理解在多个尺度上进行；以及

将多个尺度上的场景内容理解结果进行融合。

3.根据权利要求1或2所述的视频理解方法，其特征在于，所述场景深度估计进一步包括：

对所述视频数据中的至少一帧进行特征提取；以及

基于所提取的特征进行视频序列整合以得到场景深度信息。

4.根据权利要求3所述的视频理解方法，其特征在于，所述特征提取利用第一卷积神经网络实现，所述视频序列整合利用第一时序神经网络实现。

5.根据权利要求4所述的视频理解方法，其特征在于，所述第一卷积神经网络通过将训练好的标准卷积神经网络剔除全连接层后得到。

6.根据权利要求5所述的视频理解方法，其特征在于，所述第一卷积神经网络还包括损失层，以用于实现网络正则化。

7.根据权利要求3所述的视频理解方法，其特征在于，所述视频序列整合包括空间信息整合和时间信息整合。

8.根据权利要求4所述的视频理解方法，其特征在于，所述第一时序神经网络包括第一循环神经网络和第二循环神经网络，其中，所述基于所提取的特征进行视频序列整合以得到场景深度信息包括：

9.根据权利要求8所述的视频理解方法，其特征在于，所述第二循环神经网络的输出包括深度图，其中所述深度图上的每个点表示该像素点对应的物体到摄像头的距离。

10.根据权利要求1至9任一项所述的视频理解方法，其特征在于，所述场景内容理解进一步包括：

基于所述视频数据和所述场景深度估计的结果对场景进行分析，以得到像素级的类别输出；以及

基于所述像素级的类别输出进行空间信息整合和时间信息整合。

11.根据权利要求10所述的视频理解方法，其特征在于，所述对场景的分析利用第二卷积神经网络实现，所述空间信息整合和时间信息整合利用第二时序神经网络实现。

12.根据权利要求11所述的视频理解方法，其特征在于，所述第二时序神经网络包括第三循环神经网络和第四循环神经网络，其中，所述基于所述像素级的类别输出进行空间信息整合和时间信息整合包括：

13.根据权利要求2所述的视频理解方法，其特征在于，所述将多个尺度上的场景内容理解结果进行融合包括：

14.根据权利要求1所述的视频理解方法，其特征在于，所述基于所述场景深度估计的结果进行场景内容理解包括：

基于所述场景深度估计的结果以及前一帧的场景内容理解结果，进行当前帧的场景内容理解。

15.一种视频理解装置，其特征在于，所述视频理解装置包括：

数据获取模块，用于获取视频数据；

场景深度估计模块，用于对所获取的视频数据进行场景深度估计；以及

场景内容理解模块，用于基于所述场景深度估计的结果进行场景内容理解。

16.根据权利要求15所述的视频理解装置，其特征在于，

所述数据获取模块还用于在获取所述视频数据后对所述视频数据进行多尺度操作，并且

所述场景深度估计模块所进行的所述场景深度估计和所述场景内容理解模块所进行的所述场景内容理解在多个尺度上进行；以及

所述视频理解装置还包括多尺度融合模块，用于将多个尺度上的场景内容理解结果进行融合。

17.根据权利要求15或16所述的视频理解装置，其特征在于，所述场景深度估计模块所进行的所述场景深度估计进一步包括：

对所述视频数据中的至少一帧进行特征提取；以及

基于所提取的特征进行视频序列整合，以得到场景深度信息。

18.根据权利要求17所述的视频理解装置，其特征在于，所述场景深度估计模块包括第一卷积神经网络与第一时序神经网络，其中，所述特征提取利用第一卷积神经网络实现，所述视频序列整合利用第一时序神经网络实现。

19.根据权利要求18所述的视频理解装置，其特征在于，所述第一卷积神经网络通过将训练好的标准卷积神经网络剔除全连接层后得到。

20.根据权利要求19所述的视频理解装置，其特征在于，所述第一卷积神经网络还包括损失层，以用于实现网络正则化。

21.根据权利要求17所述的视频理解装置，其特征在于，所述视频序列整合包括空间信息整合和时间信息整合。

22.根据权利要求18所述的视频理解装置，其特征在于，所述第一时序神经网络包括第一循环神经网络和第二循环神经网络，其中，所述基于所提取的特征进行视频序列整合以得到场景深度信息包括：

23.根据权利要求22所述的视频理解装置，其特征在于，所述第二循环神经网络的输出包括深度图，其中所述深度图上的每个点表示该像素点对应的物体到摄像头的距离。

24.根据权利要求15至23任一项所述的视频理解装置，其特征在于，所述场景内容理解模块所进行的所述场景内容理解进一步包括：

25.根据权利要求24所述的视频理解装置，其特征在于，所述对场景的分析利用第二卷积神经网络实现，所述空间信息整合和时间信息整合利用第二时序神经网络实现。

26.根据权利要求25所述的视频理解装置，其特征在于，所述第二时序神经网络包括第三循环神经网络和第四循环神经网络，其中，所述基于所述像素级的类别输出进行空间信息整合和时间信息整合包括：

27.根据权利要求16所述的视频理解方法，其特征在于，所述将多个尺度上的场景内容理解结果进行融合包括：

28.根据权利要求15所述的视频理解装置，其特征在于，所述基于所述场景深度估计的结果进行场景内容理解包括：