CN108875494A

CN108875494A - 视频结构化方法、装置、系统及存储介质

Info

Publication number: CN108875494A
Application number: CN201710964639.5A
Authority: CN
Inventors: 张弛; 徐子尧
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2018-11-23

Abstract

本发明的实施例提供了一种视频结构化方法、装置、系统及存储介质。该方法包括：获取视频；提取所述视频中多个视频帧的图像特征；根据所述图像特征确定所述视频的视频特征；以及基于所述视频特征识别所述视频中的感兴趣对象并确定所述感兴趣对象的属性。上述用于视频结构化的技术方案不仅处理效率高，而且能够获得更准确的视频结构化结果，即使所述视频中包含质量较差的视频帧。

Description

视频结构化方法、装置、系统及存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种视频结构化方法、装置、系统及存储介质。

背景技术

随着通信网络、数据压缩和海量存储技术的发展，越来越多的多媒体信息以计算机可读的形式存在于互联网上。它们不仅包括常见的文字数据，还包括视频等媒体信息。它们一般缺乏语义信息，信息检索系统难以对它们进行有效搜索，只有对媒体数据进行有效结构化，才能帮助人们更快地找到感兴趣内容。

视频结构化是一种视频内容信息提取的智能分析过程，它对视频内容按照语义关系，采用时空分割、特征提取、对象识别等处理手段，组织成可供计算机和人理解的文本信息。目前，视频结构化已经应用到很多领域。例如，对行人、车辆的视频结构化是诸多安防应用中不可或缺的一环。

现有技术的视频结构化中，首先，对视频的每一视频帧中的对象进行属性分类。视频帧中的对象可以为行人和车辆等。对象的属性可以包括行人的性别、年龄、衣着颜色等，还可以包括车辆的颜色等。然后，把同一个对象在多个视频帧中的属性分类结果进行融合。现有技术方案所获得的对象的属性等相关信息准确度不够。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种视频结构化方法、装置、系统及存储介质。

根据本发明一方面，提供了一种视频结构化方法，包括：

获取视频；

提取所述视频中多个视频帧的图像特征；

根据所述图像特征确定所述视频的视频特征；以及

基于所述视频特征识别所述视频中的感兴趣对象并确定所述感兴趣对象的属性。

示例性地，所述根据所述图像特征确定所述视频的视频特征包括：将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络，以获得所述视频特征，其中，对于所述循环式神经网络的隐藏层中的每个神经元，该神经元的输出不仅与当前时刻的输入有关，还与该神经元在其他时刻的输入有关。

示例性地，所述将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络包括：按照所述多个视频帧的时间顺序，将所述多个视频帧的图像特征中的每个视频帧的图像特征输入所述循环式神经网络。

示例性地，所述循环式神经网络是双向循环式神经网络。

示例性地，所述基于所述视频特征识别所述视频中的感兴趣对象并确定所述感兴趣对象的属性包括：

对所述视频特征进行池化处理；

基于经池化后得到的视频特征识别所述视频中的感兴趣对象并确定所述感兴趣对象的属性。

示例性地，所述提取所述视频中多个视频帧的图像特征包括：利用卷积神经网络提取所述视频中多个视频帧的图像特征。

示例性地，所述视频特征是利用循环式神经网络确定的，所述卷积神经网络和所述循环式神经网络组成结构化神经网络；

所述方法还包括：利用训练视频的多个训练视频帧训练初始神经网络，以得到所述结构化神经网络，其中所述训练视频帧中标注了识别对象以及所述识别对象的属性，所述初始神经网络包括初始卷积神经网络和初始循环式神经网络。

根据本发明另一方面，还提供了一种视频结构化装置，包括：

获取模块，用于获取视频；

图像特征提取模块，用于提取所述视频中多个视频帧的图像特征；

特征综合模块，用于根据所述图像特征确定所述视频的视频特征；以及

识别模块，用于基于所述视频特征识别所述视频中的感兴趣对象并确定所述感兴趣对象的属性。

根据本发明又一方面，还提供了一种视频结构化系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：

获取视频；

提取所述视频中多个视频帧的图像特征；

根据所述图像特征确定所述视频的视频特征；以及

根据本发明再一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：

获取视频；

提取所述视频中多个视频帧的图像特征；

根据所述图像特征确定所述视频的视频特征；以及

根据本发明实施例的视频结构化方法、装置、系统及存储介质，通过综合多个视频帧中的图像特征来获得整个视频的视频特征，并基于该视频特征识别对象的属性，不仅能够获得更准确的视频结构化结果，还能提高处理效率。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了用于实现根据本发明实施例的视频结构化方法和装置的示例电子设备的示意性框图；

图2示出了根据本发明一个实施例的视频结构化方法的示意性流程图；

图3示出了根据本发明一个实施例的基于视频特征识别视频中的感兴趣对象并确定感兴趣对象的属性的示意性流程图；

图4示出了根据本发明一个实施例的视频结构化装置400的示意性框图；以及

图5示出了根据本发明一个实施例的视频结构化系统500的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

现有技术的视频结构化技术方案中，针对视频中的独立视频帧进行对象的属性识别，然后，利用独立设计的融合方法，将根据独立视频帧识别的对象的属性进行融合，以完成视频结构化。在这两个过程中，往往存在着人工设计带来的过拟合或欠拟合。因此，上述技术方案无法获得准确的对象的属性。为了解决该问题，本发明的实施例提供了一种视频结构化技术方案。

首先，参照图1来描述用于实现根据本发明实施例的视频结构化方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和视频采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述视频采集装置110可以采集视频，并且将所采集的视频存储在所述存储装置104中以供其它组件使用。视频采集装置110可以是监控摄像头。应当理解，视频采集装置110仅是示例，电子设备100可以不包括视频采集装置110。在这种情况下，可以利用其他视频采集装置采集视频，并将采集的视频发送给电子设备100。

示例性地，用于实现根据本发明实施例的视频结构化方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的视频结构化方法。图2示出根据本发明一个实施例的视频结构化方法200的示意性流程图。如图2所示，该方法200包括以下步骤。

步骤S210，获取视频。

视频可以是任何合适的、需要进行结构化的视频，例如针对被监控区域采集到的视频。视频可以是摄像头等视频采集装置采集到的原始视频，也可以是对原始视频进行剪辑等预处理之后获得的视频。视频可以由客户端设备(诸如包括监控摄像头的安防设备)发送到电子设备100以由电子设备100的处理器102进行处理，也可以由电子设备100包括的视频采集装置110(例如摄像头)采集并传送到处理器102进行处理。

视频可以包括若干视频帧，视频帧中可以包含对象。本文所述的对象可以是任何期望追踪或能够追踪的物体，例如行人、车辆等。

步骤S220，提取步骤S210中所获取的视频中多个视频帧的图像特征。

在本发明各个实施例中，视频中多个视频帧可以为视频中的部分视频帧，也可以为视频中的全部视频帧。

示例性地，可以将视频中的各视频帧分别输入到神经网络，以独立地提取每个视频帧的图像特征。可选地，该神经网络可以是一层或多层的卷积神经网络。换言之，可以利用卷积神经网络分别提取视频中的多个视频帧的图像特征。卷积神经网络是一种前馈神经网络，由若干卷积单元组成。每个卷积单元可以响应一部分覆盖范围内的周围单元。

卷积神经网络的运算目的是提取所输入的视频帧的特征。卷积神经网络的不同层次能够提取不同的特征，由此，总层数不同的卷积神经网络能够提取不同的特征。卷积神经网络的第一卷积层可提取一些低级的特征，如视频帧的边缘、线条和角等特征。后面的卷积层可根据前面的卷积层所提取的低级的特征迭代提取更高级、更复杂的特征。换言之，总层数越多的卷积神经网络提取的特征越复杂。

对于所输入的视频帧，具有特定层数的卷积神经网络可自动提取热力图形式的特征。其中，热力图的像素值表示与热力图的该像素对应的视频帧上的相应区域的特征，该特征通常用一个向量表示。

本领域普通技术人员可以理解，上述热力图、图像的边缘和线条等不同复杂度的特征均是示例。在实际应用中，可以根据需要采用各种图像特征，在本申请中对此不做限制。

对于一个视频帧，所提取的图像特征可以用张量表示，可以称之为特征张量。特征张量可以是三阶的。三阶特征张量的三个阶可以分别代表视频帧的横向，纵向和频道(channel)。横向是视频帧的宽度的方向。纵向是视频帧的高度的方向。在图像特征是热力图的情况下，频道的个数表示特征张量所包含的热力图的个数。换个角度来说，三阶特征张量X可以包括多个元素。示例性地，三阶特征张量X中的每个元素可以表示为X[i][j][k]，其中，i、j、k分别表示不同阶，i＝0,1,2,..,h-1；j＝0,1,...,w-1；k＝0,1,...,c-1；h、w、c分别表示特征张量X的高度，宽度和频道个数。c个元素可以构成一个超像素点(superpixel)，可以用X[i][j]表示。换言之，特征张量中的、横坐标为i且纵坐标为j的所有频道的数值组成的一个c维向量，称该c维向量为超像素点对应的向量或表示超像素点的向量，即，超像素点S＝X[i][j]可以表示为S[k]＝X[i][j][k]，其中k＝0,1,...,c-1。每一个超像素点分别对应视频帧中的一个相应区域。

根据本发明的一个实施例，步骤S220可以包括：基于神经网络，对所输入的视频帧进行卷积和池化(Pooling)，以获得表示所述视频帧的特征张量。对所输入的视频帧进行卷积和池化操作后，特征张量的长与所述视频帧的宽度可能不等，特征张量的宽与所述视频帧的高度也可能不等。

步骤S230，根据步骤S220中所提取的图像特征确定视频的视频特征。在此步骤中，综合步骤S220中所提取的多个视频帧的图像特征，以获得视频的视频特征。视频特征不是仅包括视频中的一个视频帧的信息，而是包括视频中的多个视频帧的信息。

由于在视频中对象的运动过程通常是连续的，因此，在多个视频帧中某特定对象所处的位置通常存在一定的相关性，而且该对象的属性可能保持不变。基于视频中对象的上述客观规律，对于视频中的某一视频帧来说，不仅可以直接检测对象在其中的位置和属性，还可以用于估测该对象在早于其采集的一帧或多帧先前视频帧中的位置和属性，同理，也可以用于估测该对象在晚于其采集的一帧或多帧随后视频帧中的位置和属性。因此，可以基于从多个视频帧所分别独立地提取的图像特征确定整个视频的视频特征，该视频特征包含多个视频帧的信息，以用于识别视频中的对象并确定其属性。

示例性地，可以将多个视频帧中的每个视频帧的图像特征输入到神经网络，以获得视频的视频特征。

可选地，前述神经网络可以是循环式神经网络(Recurrent Neural Network，RNN)。循环式神经网络能够综合视频中的不同视频帧的图像特征，使得基于当前视频帧的信息估测其他视频帧(先前视频帧和/或随后视频帧)的信息(例如当前视频帧中包含的对象在其他视频帧中的位置和属性信息)成为可能。循环式神经网络的神经元间连接构成有向图，通过将状态在自身网络中循环传递，循环式神经网络可以接收广泛的时间序列输入。根据本发明的实施例，该时间序列是视频中每个视频帧的图像特征。对于多个视频帧中的每个视频帧来说，将该视频帧的图像特征输入到循环式神经网络中，循环式神经网络可以建立其与采集时间不同的先前视频帧和/或随后视频帧之间的关联。

循环式神经网络可以包括输入层、隐藏层和输出层。可以将每个视频帧的图像特征逐个输入循环式神经网络的输入层。对于循环式神经网络的隐藏层中的每个神经元，该神经元的输出不仅与当前时刻的输入有关，还与该神经元在其他时刻的输入有关。

可选地，将多个视频帧中的每个视频帧的图像特征输入循环式神经网络时，按照多个视频帧的时间顺序，将其图像特征输入循环式神经网络。可以理解，对于每个视频帧来说，其他视频帧与该视频帧间隔越小，则该其他视频帧与该视频帧的相关性越强。而且，该相关性与视频帧在视频中的时间顺序有关。例如，在视频的一个场景中，其中的一个行人从远处走来并且越来越接近一辆汽车。那么，在该场景有关的视频帧中，至少包括两个对象：行人和汽车。行人检测框的面积应该越来越大，并且在视频帧中的位置具有连续性，而汽车检测框的面积和位置保持不变。虽然对于该汽车来说，图像特征的输入顺序不是很重要；但是对于该行人来说，每个视频帧对于其前后的邻近视频帧都更有参考意义。因此，按照视频帧的时间顺序，将其图像特征输入循环式神经网络，可以获得更准确的视频结构化结果。

可选地，上述循环式神经网络是单向循环式神经网络。对于单向循环式神经网络的隐藏层中的每个神经元，该神经元的输出不仅与当前时刻的输入有关，还与该神经元在当前时刻之前时刻的输入有关。

可选地，上述循环式神经网络是双向循环式神经网络。对于双向循环式神经网络的隐藏层中的每个神经元，该神经元的输出不仅与当前时刻的输入有关，还与该神经元在当前时刻之前和之后时刻的输入都有关。利用双向循环式神经网络来获得视频特征，能够使最终获得的对象和对象的属性更加准确。

步骤S240，基于前述视频特征识别视频中的感兴趣对象并确定感兴趣对象的属性。

如前所述，感兴趣对象可以包括行人和车辆等任何感兴趣对象。在步骤S240中，基于视频特征对视频进行物体检测以识别视频中的感兴趣对象，并且确定感兴趣对象在视频帧中的位置，例如，由紧密包围该感兴趣对象的矩形框限定的矩形区域。该矩形区域可以用中心坐标、宽度和高度来表示。此外，还基于视频特征确定感兴趣对象的属性。示例性地，感兴趣对象的属性包括行人的性别、年龄、衣着颜色、衣着款式、是否背包以及背包颜色，车辆的颜色以及车型号等。

图3示出了根据本发明一个实施例的步骤S240的示意性流程图。如图所示，步骤S240包括以下子步骤。

步骤S241，对步骤S230确定的视频特征进行池化处理。示例性地，可以对循环式神经网络的隐藏层的每个时刻的输出构成的序列进行池化操作，以获得更小维度的视频特征。

步骤S242，基于经池化后得到的视频特征识别视频中的感兴趣对象并确定感兴趣对象的属性。

示例性地，步骤S241可以用神经网络的池化层来实现。步骤S242可以用神经网络的全连接层来实现。该全连接层可以作为用于实现步骤S230的循环式神经网络的输出层。本领域的普通技术人员可以理解，该全连接层仅为示意，而非对本申请的限制。

全连接层可以包括分类器和/或回归器。将经池化后得到的视频特征输入到这些不同的分类器和/或回归器中，可以获得视频结构化结果。具体地，可以利用分类器和/或回归器根据经池化得到的视频特征识别可能存在感兴趣对象的区域中的感兴趣对象，对感兴趣对象的属性进行分类或回归。

上述实施例中，首先对视频特征进行池化操作，然后，再根据经池化后所得到的视频特征进行对象识别和属性分析。池化操作可以压缩视频特征，使其变小，简化后续计算的复杂度。本领域普通技术人员可以理解，可以不进行该池化操作，而直接根据步骤S230所确定的视频特征进行对象识别和属性分析。

根据本发明实施例的上述视频结构化方法，综合了分别从各个视频帧提取的图像特征，获得了视频的视频特征。该视频特征包括了感兴趣对象在多个视频帧的中的关联信息。基于该视频帧进行视频结构化，不仅保证了处理效率，还可以获得更准确的处理结果。特别是对于存在质量较差的视频帧的情况，例如对象被遮挡或者模糊的视频帧，避免了此类视频帧对于视频结构化结果的不良影响，保证了处理结果的准确度。

示例性地，根据本发明实施例的视频结构化方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的视频结构化方法可以部署在视频采集端处，例如，可以部署在小区门禁系统的视频采集端或者部署在诸如车站、商场、银行等公共场所的安防监控系统的视频采集端。替代地，根据本发明实施例的视频结构化方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集视频，客户端将采集到的视频传送给服务器端(或云端)，由服务器端(或云端)进行视频结构化。

可选地，前述卷积神经网络和循环式神经网络组成结构化神经网络。根据本发明一个实施例，在该结构化神经网络中，依次连接有卷积神经网络、循环式神经网络的隐藏层、池化层和全连接层。如前所述，其中池化层是可选的。在视频结构化方法中还可以包括利用训练视频的多个训练视频帧训练初始神经网络，以得到该结构化神经网络。其中初始神经网络包括初始卷积神经网络和初始循环式神经网络。训练视频帧中标注了识别对象以及所述识别对象的属性。训练视频帧可以由行人、车辆对应的视频序列提供。训练视频帧可以是视频中的所有帧，也可以选择以特定或随机的时间间隔从训练视频中抽取若干帧。

初始神经网络的参数可以进行随机初始化，也可以利用之前已经训练好的网络进行初始化。对于这些训练好的网络，可以选取其中的某些部分作为本发明的结构化神经网络的一部分，也可以固定其中的一部分参数不参与训练。

前述多个训练视频帧中可能包含质量很差的单个视频帧，例如对象被遮挡或者清晰度不高的视频帧。这些视频帧作为单独的训练数据时会对模型的精度造成影响，但是采用上述基于多个视频帧的序列进行模型训练时，序列的结构可以消除这种影响从而获得可靠性和实用性更强的神经网络，由此保证视频结构化的准确性。

根据本发明另一方面，还提供了一种视频结构化装置。图4示出了根据本发明一个实施例的视频结构化装置400的示意性框图。

如图4所示，视频结构化装置400包括视频获取模块410、图像特征提取模块420、特征综合模块430和识别模块440。所述各个模块可分别执行上文中所述的视频结构化方法的各个步骤/功能。以下仅对该视频结构化装置400的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

视频获取模块410用于获取视频。视频获取模块410可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

图像特征提取模块420用于提取视频获取模块410所获取的视频中多个视频帧的图像特征。示例性地，所述图像特征提取模块420具体用于利用卷积神经网络提取所述视频中多个视频帧的图像特征。图像特征提取模块420可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

特征综合模块430用于根据图像特征提取模块420所提取的图像特征确定视频的视频特征。特征综合模块430可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

示例性地，所述特征综合模块430具体用于将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络，以获得所述视频特征，其中，对于所述循环式神经网络的隐藏层中的每个神经元，该神经元的输出不仅与当前时刻的输入有关，还与该神经元在其他时刻的输入有关。

示例性地，所述特征综合模块430将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络时是按照所述多个视频帧的时间顺序。

示例性地，所述循环式神经网络是双向循环式神经网络。

识别模块440用于基于特征综合模块430所确定的视频特征识别视频中的感兴趣对象并确定所述感兴趣对象的属性。识别模块440可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

示例性地，所述识别模块440包括池化单元和识别单元。所述池化单元用于对所述视频特征进行池化处理。所述识别单元用于基于经池化后得到的视频特征识别所述视频中的感兴趣对象并确定所述感兴趣对象的属性。

示例性地，前述卷积神经网络和前述循环式神经网络组成结构化神经网络。所述视频结构化装置400还包括训练模块(未示出)。该训练模块用于利用训练视频的多个训练视频帧训练初始神经网络，以得到所述结构化神经网络，其中所述训练视频帧中标注了识别对象以及所述识别对象的属性，所述初始神经网络包括初始卷积神经网络和初始循环式神经网络。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块、单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图5示出了根据本发明一个实施例的视频结构化系统500的示意性框图。如图5所示，视频结构化系统500包括输入装置510、存储装置520、处理器530以及输出装置540。

所述输入装置510用于接收用户所输入的操作指令以及采集数据。输入装置510可以包括键盘、鼠标、麦克风、触摸屏和视频采集装置等中的一个或多个。

所述存储装置520存储用于实现根据本发明实施例的视频结构化方法中的相应步骤的计算机程序指令。

所述处理器530用于运行所述存储装置520中存储的计算机程序指令，以执行根据本发明实施例的视频结构化方法的相应步骤，并且用于实现根据本发明实施例的视频结构化装置400中的视频获取模块410、图像特征提取模块420、特征综合模块430和识别模块440。

在一个实施例中，在所述计算机程序指令被所述处理器530运行时使所述视频结构化系统500执行以下步骤：

获取视频；

提取所述视频中多个视频帧的图像特征；

根据所述图像特征确定所述视频的视频特征；以及

示例性地，在所述计算机程序指令被所述处理器530运行时使所述视频结构化系统500执行的所述提取所述视频中多个视频帧的图像特征的步骤包括：利用卷积神经网络提取所述视频中多个视频帧的图像特征。

示例性地，在所述计算机程序指令被所述处理器530运行时使所述视频结构化系统500执行的所述根据所述图像特征确定所述视频的视频特征的步骤包括：将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络，以获得所述视频特征，其中，对于所述循环式神经网络的隐藏层中的每个神经元，该神经元的输出不仅与当前时刻的输入有关，还与该神经元在其他时刻的输入有关。

示例性地，在所述计算机程序指令被所述处理器530运行时使所述视频结构化系统500执行的所述将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络的步骤包括：按照所述多个视频帧的时间顺序，将所述多个视频帧的图像特征中的每个视频帧的图像特征输入所述循环式神经网络。

示例性地，所述循环式神经网络是双向循环式神经网络。

示例性地，在所述计算机程序指令被所述处理器530运行时使所述视频结构化系统500执行的所述基于所述视频特征识别所述视频中的感兴趣对象并确定所述感兴趣对象的属性的步骤包括：

对所述视频特征进行池化处理；

示例性地，前述卷积神经网络和前述循环式神经网络组成结构化神经网络。在所述计算机程序指令被所述处理器530运行时使所述视频结构化系统500还执行以下步骤：利用训练视频的多个训练视频帧训练初始神经网络，以得到所述结构化神经网络，其中所述训练视频帧中标注了识别对象以及所述识别对象的属性，所述初始神经网络包括初始卷积神经网络和初始循环式神经网络。

此外，根据本发明再一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的视频结构化方法的相应步骤，并且用于实现根据本发明实施例的视频结构化装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行以下步骤：

获取视频；

提取所述视频中多个视频帧的图像特征；

根据所述图像特征确定所述视频的视频特征；以及

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的所述提取所述视频中多个视频帧的图像特征的步骤包括：利用卷积神经网络提取所述视频中多个视频帧的图像特征。

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的所述根据所述图像特征确定所述视频的视频特征的步骤包括：将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络，以获得所述视频特征，其中，对于所述循环式神经网络的隐藏层中的每个神经元，该神经元的输出不仅与当前时刻的输入有关，还与该神经元在其他时刻的输入有关。

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的所述将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络的步骤包括：按照所述多个视频帧的时间顺序，将所述多个视频帧的图像特征中的每个视频帧的图像特征输入所述循环式神经网络。

示例性地，所述循环式神经网络是双向循环式神经网络。

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的所述基于所述视频特征识别所述视频中的感兴趣对象并确定所述感兴趣对象的属性的步骤包括：

对所述视频特征进行池化处理；

示例性地，前述卷积神经网络和前述循环式神经网络组成结构化神经网络。所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器还执行以下步骤：利用训练视频的多个训练视频帧训练初始神经网络，以得到所述结构化神经网络，其中所述训练视频帧中标注了识别对象以及所述识别对象的属性，所述初始神经网络包括初始卷积神经网络和初始循环式神经网络。

根据本发明实施例的视频结构化系统中的各模块可以通过根据本发明实施例的用于实施视频结构化的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的视频结构化方法、装置、系统和存储介质，通过综合各个视频帧的图像特征改善视频结构化的准确性，提高视频结构化的处理效率。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频结构化装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频结构化方法，包括：

获取视频；

提取所述视频中多个视频帧的图像特征；

根据所述图像特征确定所述视频的视频特征；以及

2.如权利要求1所述的方法，其中，所述根据所述图像特征确定所述视频的视频特征包括：

将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络，以获得所述视频特征，其中，对于所述循环式神经网络的隐藏层中的每个神经元，该神经元的输出不仅与当前时刻的输入有关，还与该神经元在其他时刻的输入有关。

3.如权利要求2所述的方法，其中，所述将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络包括：

按照所述多个视频帧的时间顺序，将所述多个视频帧的图像特征中的每个视频帧的图像特征输入所述循环式神经网络。

4.如权利要求2或3所述的方法，其中，所述循环式神经网络是双向循环式神经网络。

5.如权利要求1至3中任一项所述的方法，其中，所述基于所述视频特征识别所述视频中的感兴趣对象并确定所述感兴趣对象的属性包括：

对所述视频特征进行池化处理；

6.如权利要求1至3中任一项所述的方法，其中，所述提取所述视频中多个视频帧的图像特征包括：

利用卷积神经网络提取所述视频中多个视频帧的图像特征。

7.如权利要求6所述的方法，其中，所述视频特征是利用循环式神经网络确定的，所述卷积神经网络和所述循环式神经网络组成结构化神经网络；

所述方法还包括：

利用训练视频的多个训练视频帧训练初始神经网络，以得到所述结构化神经网络，其中所述训练视频帧中标注了识别对象以及所述识别对象的属性，所述初始神经网络包括初始卷积神经网络和初始循环式神经网络。

8.一种视频结构化装置，包括：

视频获取模块，用于获取视频；

9.如权利要求8所述的装置，其中，所述特征综合模块具体用于，将所述多个视频帧的图像特征中的每个视频帧的图像特征输入循环式神经网络，以获得所述视频特征，其中，对于所述循环式神经网络的隐藏层中的每个神经元，该神经元的输出不仅与当前时刻的输入有关，还与该神经元在其他时刻的输入有关。

10.如权利要求9所述的装置，其中，所述特征综合模块具体用于，按照所述多个视频帧的时间顺序，将所述多个视频帧的图像特征中的每个视频帧的图像特征输入所述循环式神经网络。

11.如权利要求8至10中任一项所述的装置，其中，所述图像特征提取模块具体用于，利用卷积神经网络提取所述视频中多个视频帧的图像特征。

12.一种视频结构化系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：

获取视频；

提取所述视频中多个视频帧的图像特征；

根据所述图像特征确定所述视频的视频特征；以及

13.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：

获取视频；

提取所述视频中多个视频帧的图像特征；

根据所述图像特征确定所述视频的视频特征；以及