CN108875517B

CN108875517B - 视频处理方法、装置和系统及存储介质

Info

Publication number: CN108875517B
Application number: CN201711349363.6A
Authority: CN
Inventors: 梁喆; 王天树; 周舒畅
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2022-07-08
Anticipated expiration: 2037-12-15
Also published as: CN108875517A

Abstract

本发明实施例提供一种视频处理方法、装置和系统以及存储介质。该方法包括：获取视频；从视频中识别目标对象；从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像；以及将至少一个图像输出用于从至少一个图像中提取目标对象的结构化信息。上述视频处理方法、装置和系统以及存储介质可以大大减小视频数据量，大大减轻网络传输的负担，使得结合云计算进行视频结构化处理成为可能。

Description

视频处理方法、装置和系统及存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种视频处理方法、装置和系统以及存储介质。

背景技术

在现有的视频结构化处理技术中，大多是由前端相机将采集的视频流通过网络传送给后端服务器进行视频结构化，这对后端服务器的性能提出较高的要求。同时，由于后端服务器的处理能力有限，负载无法提高。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种视频处理方法、装置和系统以及存储介质。

根据本发明一方面，提供了一种视频处理方法。该方法包括：获取视频；从视频中识别目标对象；从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像；以及将至少一个图像输出用于从至少一个图像中提取目标对象的结构化信息。

示例性地，至少一个图像中的每一个是一个完整的视频帧，或者至少一个图像中的每一个是从对应的视频帧中提取的仅包含目标对象的图像块。

示例性地，从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像包括：从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧；以及确定特定数目的视频帧为至少一个图像，或者，从特定数目的视频帧中分别提取仅包含目标对象的图像块作为至少一个图像。

示例性地，从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧包括：对于一个或多个视频帧中的每一个，根据目标对象在该视频帧中的姿态信息、成像质量信息、对象置信度和对象大小中的一项或多项，计算目标对象在该视频帧中的对象识别质量。

示例性地，从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧包括：将一个或多个视频帧中的视频帧依次存储至视频库中，当视频库中所存储的视频帧的数目达到预定数目时，对于一个或多个视频帧中的每个当前视频帧，将该当前视频帧的对象识别质量与视频库中所存储的视频帧的对象识别质量进行对比，如果该当前视频帧的对象识别质量高于视频库中所存储的任一视频帧的对象识别质量，则在视频库中存储该当前视频帧并丢弃先前存储的视频帧中对象识别质量最低的视频帧；以及确定视频库中所存储的视频帧为特定数目的视频帧。

示例性地，从视频中识别目标对象包括：对视频中的每个视频帧进行对象检测，以获得每个视频帧中的每个分立对象的对象信息，对象信息包括对象位置信息；根据每个视频帧中的每个分立对象的对象信息对视频中出现的至少一个跟踪对象进行跟踪；以及确定至少一个跟踪对象之一为目标对象。

示例性地，对象信息还包括姿态信息、成像质量信息和对象置信度中的一项或多项。

示例性地，对视频中的每个视频帧进行对象检测利用卷积神经网络实现。

根据本发明另一方面，提供了一种视频处理装置，包括：视频获取模块，用于获取视频；对象识别模块，用于从视频中识别目标对象；图像提取模块，用于从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像；以及图像输出模块，用于将至少一个图像输出用于从至少一个图像中提取目标对象的结构化信息。

示例性地，图像提取模块包括：视频帧选取子模块，用于从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧；以及图像确定子模块，用于确定特定数目的视频帧为至少一个图像，或者，图像提取子模块，用于从特定数目的视频帧中分别提取仅包含目标对象的图像块作为至少一个图像。

示例性地，视频帧选取子模块包括：对象识别质量计算单元，用于对于一个或多个视频帧中的每一个，根据目标对象在该视频帧中的姿态信息、成像质量信息、对象置信度和对象大小中的一项或多项，计算目标对象在该视频帧中的对象识别质量。

示例性地，视频帧选取子模块包括：存储单元，用于将一个或多个视频帧中的视频帧依次存储至视频库中，当视频库中所存储的视频帧的数目达到预定数目时，对于一个或多个视频帧中的每个当前视频帧，将该当前视频帧的对象识别质量与视频库中所存储的视频帧的对象识别质量进行对比，如果该当前视频帧的对象识别质量高于视频库中所存储的任一视频帧的对象识别质量，则在视频库中存储该当前视频帧并丢弃先前存储的视频帧中对象识别质量最低的视频帧；以及视频帧确定单元，用于确定视频库中所存储的视频帧为特定数目的视频帧。

示例性地，对象识别模块包括：对象检测子模块，用于对视频中的每个视频帧进行对象检测，以获得每个视频帧中的每个分立对象的对象信息，对象信息包括对象位置信息；对象跟踪子模块，用于根据每个视频帧中的每个分立对象的对象信息对视频中出现的至少一个跟踪对象进行跟踪；以及对象确定子模块，用于确定至少一个跟踪对象之一为目标对象。

示例性地，对象检测子模块利用卷积神经网络实现。

根据本发明另一方面，提供了一种视频处理系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：获取视频；从视频中识别目标对象；从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像；以及将至少一个图像输出用于从至少一个图像中提取目标对象的结构化信息。

示例性地，视频处理系统包括相机，相机包括用于采集视频的图像传感器，并且相机包括所述处理器和所述存储器。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像的步骤包括：从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧；以及确定特定数目的视频帧为至少一个图像，或者，从特定数目的视频帧中分别提取仅包含目标对象的图像块作为至少一个图像。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧的步骤包括：对于一个或多个视频帧中的每一个，根据目标对象在该视频帧中的姿态信息、成像质量信息、对象置信度和对象大小中的一项或多项，计算目标对象在该视频帧中的对象识别质量。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧的步骤包括：将一个或多个视频帧中的视频帧依次存储至视频库中，当视频库中所存储的视频帧的数目达到预定数目时，对于一个或多个视频帧中的每个当前视频帧，将该当前视频帧的对象识别质量与视频库中所存储的视频帧的对象识别质量进行对比，如果该当前视频帧的对象识别质量高于视频库中所存储的任一视频帧的对象识别质量，则在视频库中存储该当前视频帧并丢弃先前存储的视频帧中对象识别质量最低的视频帧；以及确定视频库中所存储的视频帧为特定数目的视频帧。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的从视频中识别目标对象的步骤包括：对视频中的每个视频帧进行对象检测，以获得每个视频帧中的每个分立对象的对象信息，对象信息包括对象位置信息；根据每个视频帧中的每个分立对象的对象信息对视频中出现的至少一个跟踪对象进行跟踪；以及确定至少一个跟踪对象之一为目标对象。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的对视频中的每个视频帧进行对象检测的步骤利用卷积神经网络实现。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：获取视频；从视频中识别目标对象；从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像；以及将至少一个图像输出用于从至少一个图像中提取目标对象的结构化信息。

示例性地，所述程序指令在运行时所用于执行的从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像的步骤包括：从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧；以及确定特定数目的视频帧为至少一个图像，或者，从特定数目的视频帧中分别提取仅包含目标对象的图像块作为至少一个图像。

示例性地，所述程序指令在运行时所用于执行的从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧的步骤包括：对于一个或多个视频帧中的每一个，根据目标对象在该视频帧中的姿态信息、成像质量信息、对象置信度和对象大小中的一项或多项，计算目标对象在该视频帧中的对象识别质量。

示例性地，所述程序指令在运行时所用于执行的从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧的步骤包括：将一个或多个视频帧中的视频帧依次存储至视频库中，当视频库中所存储的视频帧的数目达到预定数目时，对于一个或多个视频帧中的每个当前视频帧，将该当前视频帧的对象识别质量与视频库中所存储的视频帧的对象识别质量进行对比，如果该当前视频帧的对象识别质量高于视频库中所存储的任一视频帧的对象识别质量，则在视频库中存储该当前视频帧并丢弃先前存储的视频帧中对象识别质量最低的视频帧；以及确定视频库中所存储的视频帧为特定数目的视频帧。

示例性地，所述程序指令在运行时所用于执行的从视频中识别目标对象的步骤包括：对视频中的每个视频帧进行对象检测，以获得每个视频帧中的每个分立对象的对象信息，对象信息包括对象位置信息；根据每个视频帧中的每个分立对象的对象信息对视频中出现的至少一个跟踪对象进行跟踪；以及确定至少一个跟踪对象之一为目标对象。

示例性地，所述程序指令在运行时所用于执行的对视频中的每个视频帧进行对象检测的步骤利用卷积神经网络实现。

根据本发明实施例的视频处理方法、装置和系统以及存储介质，对视频进行预处理，将包括需要视频结构化处理的目标对象的部分图像信息而非整个视频输出(例如输出至云计算端)，这样可以大大减小视频数据量，大大减轻网络传输的负担，使得结合云计算进行视频结构化处理成为可能。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的视频处理方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的视频处理方法的示意性流程图；

图3示出了根据本发明一个实施例的视频处理装置的示意性框图；以及

图4示出了根据本发明一个实施例的视频处理系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

相对于本地服务器来说，云计算的性能大大增强，其可以承担很高的负载，同时还具有很高的性价比。但由于视频流的数据量通常相当大，所以相机直接传送视频流对网络的要求很高，因而限制了利用云计算来实现对视频中结构化信息的提取。

为了解决利用云计算进行视频结构化信息提取时对网络要求高的缺陷，本发明实施例提供了一种用于相机端的视频处理方法。所述相机端可以包括单独的相机，也可以包括相机及与相机通信的设备(诸如后台服务器)。相机端首先对视频流进行预处理，将需要提取结构化信息的物体从视频中识别出来，获得包括该物体的部分图像。经过预处理可以大大减小数据量，减轻网络传输的负担。预处理后，就可以直接调用云计算接口处理预处理选出的部分图像，从而得到视频结构化所需要的各种属性信息。根据本发明实施例的视频处理方法可以应用于安防监控等各类需要提取视频中的结构化信息的应用领域。

首先，参照图1来描述用于实现根据本发明实施例的视频处理方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108、以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。输出装置108还可以是网络通信接口。

所述图像采集装置110可以采集图像(包括视频帧)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是相机中的图像传感器。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集待处理图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的视频处理方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的视频处理方法。图2示出根据本发明一个实施例的视频处理方法200的示意性流程图。如图2所示，视频处理方法200包括以下步骤。

在步骤S210，获取视频。

所述视频可以包括若干视频帧。视频可以是图像采集装置(例如相机中的图像传感器)采集到的原始视频，也可以是对原始视频进行前期处理(诸如数字化、归一化、平滑等)之后获得的视频。

在一个示例中，可以在获取完整的视频之后，再执行下述步骤S220，即从视频中识别目标对象。在另一个示例中，步骤S210和S220可以是同步执行的，即实时获取视频流，并实时地从获取的视频流中识别目标对象。

需注意，视频可以是在预定时段内获取的视频。例如，假设图像采集装置(例如人脸抓拍相机)的视频采集频率是每秒20帧，如果想要提取开始采集视频之后1分钟内的目标对象的结构化信息，则可以在步骤S210中获取这1分钟内采集到的1200个视频帧，这1200个视频帧组成的一段视频即为步骤S210中获取的视频。上述预定时段可以根据需要设定。

在步骤S220，从视频中识别目标对象。

目标对象可以是任何物体，包括但不限于：人或人体的一部分(诸如人脸)、动物、车辆、建筑物等。

示例性地，步骤S220可以包括：对视频中的每个视频帧进行对象检测，以获得每个视频帧中的每个分立对象的对象信息，对象信息包括对象位置信息；根据每个视频帧中的每个分立对象的对象信息对视频中出现的至少一个跟踪对象进行跟踪；以及确定至少一个跟踪对象之一为目标对象。

分立对象是指每个视频帧中检测到的对象，视频帧之间的各分立对象之间尚未进行关联。跟踪对象指实际出现的对象，不同视频帧中的分立对象可能是同一跟踪对象，通过对象跟踪算法可以将不同视频帧中的分立对象关联起来，实现对同一跟踪对象的跟踪。例如，假设整个视频中共出现了10个行人，每个行人出现在不止一个视频帧中，10个行人可能出现在不同时段采集的视频帧中，通过对象检测和跟踪算法，可以确定整个视频中包含这10个行人。随后，可以分别针对10个行人中的每一个执行后续的步骤S230和S240，也就是说，目标对象为10个行人中的任一行人。

示例性地，对视频中的每个视频帧进行对象检测可以利用卷积神经网络实现。卷积神经网络是预先训练好的。例如，可以预先收集大量样本图像，样本图像中的对象信息是已知的(由人工标注好)。然后，可以将样本图像输入卷积神经网络，采用反向传播算法迭代调整卷积神经网络中的参数(或说权值)，直到训练收敛，从而获得训练好的卷积神经网络。

下面以人脸识别应用为例进行描述。将每个视频帧输入卷积神经网络，卷积神经网络可以输出每个视频帧中的所有人脸的人脸信息。每个人脸的人脸信息可以包括用于指示该人脸所在位置的人脸框(一般为矩形框)的坐标以及该人脸框包含人脸的置信度。当然，除卷积神经网络以外，人脸检测还可以采用其他常规的人脸检测算法实现，本文不对此进行赘述。随后，可以根据各视频帧的人脸检测结果进行人脸跟踪。人脸跟踪可以采用常规的人脸跟踪算法实现，本文不对此进行赘述。通过人脸跟踪，可以确定任一跟踪人脸在整个视频中的运动轨迹。随后，可以将任一跟踪人脸作为目标人脸进行后续的图像提取、传输以及云计算处理。

示例性地，对象信息还可以包括姿态信息、成像质量信息和对象置信度中的一项或多项。对象置信度是指检测到的对象属于预定对象类别的概率。对象置信度可以用一个分数表示。上文关于卷积神经网络的描述中，描述了卷积神经网络可以输出人脸置信度(即对象置信度)。此外，可选地，除对象位置信息和对象置信度之外，卷积神经网络还可以同时输出人脸的姿态信息以及人脸的成像质量信息。姿态信息、成像质量信息、对象置信度等信息可以用于帮助判断视频帧是否满足预设要求，有利于帮助从视频中选出比较有价值的视频帧。

在步骤S230，从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像。

上述一个或多个视频帧可以是视频中包含目标对象的所有视频帧，也可以是视频中包含目标对象的部分视频帧。预设要求可以根据需要设定，例如可以是针对目标对象的姿态信息、对象置信度等方面而设定的要求。

在一个示例中，至少一个图像中的每一个可以是一个完整的视频帧。也就是说，可以从包含目标对象的一个或多个视频帧中直接选取至少一个视频帧，不对选出的视频帧进行截取处理，直接输出至云计算端进行结构化信息的提取。将视频帧直接输出至云计算端的方式可以减轻相机端的计算量，有利于降低相机(及可选的后台服务器)的设计要求和成本。

在另一个示例中，至少一个图像中的每一个可以是从对应的视频帧中提取的仅包含目标对象的图像块。在本示例中，可以从包含目标对象的一个或多个视频帧中选取至少一个视频帧，并分别将选出的视频帧中包含目标对象的图像块提取出来，获得至少一个图像。提取图像块的方式可以排除视频中的无用信息，从而可以进一步降低网络传输的负担。

在步骤S240，将至少一个图像输出用于从至少一个图像中提取目标对象的结构化信息。

结构化信息可以包括目标对象的身份(ID)信息以及各类属性信息。例如，在视频结构化描述的内容方面，公共安全关注的主要是：人员、车辆、行为。对于人员来说，其属性信息可以包括：人员的性别、年龄范围、大致身高、发饰、衣着、携带物品、步履形态等多种人员描述信息；对于车辆来说，其属性信息可以包括：车牌号、车颜色、车型、品牌、子品牌、车贴、车饰物信息等多种车辆描述信息；对于行为来说，其属性信息可以包括：越界、区域、徘徊、遗留、聚集等多种行为描述信息。

示例性地，可以利用相机内的硬件实施上述步骤S210-S230，并且可以利用相机内的软件调用云计算接口来进行结构化信息的提取。云计算端可以提供用于进行视频结构化处理的服务，用户可以购买云上的服务，将采集的视频经过上述预处理之后提取出至少一个图像并将至少一个图像上传至云计算端即可，云计算端可自行完成对所需结构化信息的提取。因此，在相机端调用云计算接口来做视频结构化处理，就不需要单配服务器了，可以只购买云上的服务，这样对相机端的硬件要求也会降低，因此可以节省成本。此外，结构化处理性能也只和云计算端的处理能力有关，因此可以在基本不耗费硬件成本的情况下获得很好的处理结果。采用本文描述的视频结构化处理技术可以提高视频结构化的整体系统性价比。

根据本发明实施例的视频处理方法，对视频进行预处理，将需要视频结构化处理的目标对象的部分图像信息而非整个视频输出(例如输出至云计算端)，这样可以大大减小视频数据量，大大减轻网络传输的负担，使得结合云计算进行视频结构化处理成为可能。结合云计算进行视频结构化处理的方式可以减轻相机前端的硬件需求，降低硬件成本，同时可以达到较高的系统性价比。

示例性地，根据本发明实施例的视频处理方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的视频处理方法可以部署在图像采集端处，例如，在安防应用领域，可以部署在门禁系统的图像采集端；在金融应用领域，可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。

替代地，根据本发明实施例的视频处理方法还可以分布地部署在服务器端和个人终端处。例如，在安防应用领域，可以在图像采集端采集视频，图像采集端将采集的视频传送给后台的服务器，由服务器进行视频处理之后将获得的至少一个图像上传到云计算端进行结构化信息的提取。

根据本发明实施例，步骤S230可以包括：从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧；以及确定特定数目的视频帧为至少一个图像，或者，从特定数目的视频帧中分别提取仅包含目标对象的图像块作为至少一个图像。

如上文所述，可以首先从包含目标对象的一个或多个视频帧中选取至少一个视频帧，随后可以直接将选出的视频帧输出至云计算端，也可以从选出的视频帧中提取图像块之后获得至少一个图像再输出至云计算端。

在从一个或多个视频帧中选取至少一个视频帧时，需要根据预设要求选取。例如，预设要求可以是要求选取对象识别质量最好的若干视频帧。选取对象识别质量好的视频帧有利于后续在云计算端处理时提取更准确的结构化信息。

示例性地，从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧可以包括：对于一个或多个视频帧中的每一个，根据目标对象在该视频帧中的姿态信息、成像质量信息、对象置信度和对象大小中的一项或多项，计算目标对象在该视频帧中的对象识别质量。

预定条件可以根据需要设定，示例性地，预定条件可以指目标对象的对象识别质量最好。

姿态信息是指目标对象在视频帧中朝向各不同方向偏转的角度。例如，在人脸识别应用中，人脸的姿态信息可以采用人脸的俯仰角(pitch，上下翻转角度)、偏航角(yaw，左右翻转角度)和翻滚角(roll，平面内旋转角度)来表示。在获取视频之后或获取视频的过程中，可以针对每个视频帧计算视频帧中所包含的各分立对象的姿态信息，进而确定目标对象的姿态信息。示例性地，可以利用卷积神经网络计算每个视频帧中所包含的各分立对象的姿态信息。此外，示例性地，可以利用上述实现对象检测的同一卷积神经网络计算各分立对象的姿态信息。

成像质量信息是指关于目标对象在视频帧中的成像质量的信息，其可以包括整个视频帧的清晰度和/或视频帧中包含目标对象的图像块的清晰度。在获取视频之后或获取视频的过程中，可以针对每个视频帧评估清晰度(包括整个视频帧的清晰度和/或视频帧中包含各分立对象的图像块的清晰度)，清晰度可以用一个分数(score)表示。清晰度的评估可以采用常规的图像清晰度评估方法实现，本文不赘述。示例性地，可以利用卷积神经网络评估每个视频帧的清晰度和/或每个视频帧中包含各分立对象的图像块的清晰度，进而确定目标对象的成像质量信息。此外，示例性地，可以利用上述实现对象检测的同一卷积神经网络计算每个视频帧的清晰度和/或每个视频帧中包含各分立对象的图像块的清晰度。

上文以人脸识别应用为例描述了对象置信度及其示例性计算方式，此处不再赘述。

根据上文描述，可知对象检测可以获得每个分立对象的对象位置信息。根据对象位置信息即可确定每个分立对象的对象大小。

可以对目标对象在每个视频帧中的姿态信息、成像质量信息、对象置信度和对象大小中的一项或多项进行综合考虑，通过一定的运算方式计算获得一个总的对象识别质量分数，用于衡量目标对象在每个视频帧中的对象识别质量。

可以根据对象识别质量分数的大小对视频帧进行排序，从中选取对象识别质量最高的几个视频帧。

上述姿态信息、成像质量信息、对象置信度和对象大小仅是示例而非对本发明的限制，在选取特定数目的视频帧时，可以根据需要考虑其他的因素。

根据本发明实施例，从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧包括：将一个或多个视频帧中的视频帧依次存储至视频库中，当视频库中所存储的视频帧的数目达到预定数目时，对于一个或多个视频帧中的每个当前视频帧，将该当前视频帧的对象识别质量与视频库中所存储的视频帧的对象识别质量进行对比，如果该当前视频帧的对象识别质量高于视频库中所存储的任一视频帧的对象识别质量，则在视频库中存储该当前视频帧并丢弃先前存储的视频帧中对象识别质量最低的视频帧；以及确定视频库中所存储的视频帧为特定数目的视频帧。

每次获取视频帧之后，可以实时计算各分立对象在此时获取的视频帧(当前视频帧)中的对象识别质量。确定目标对象之后，即可以知道目标对象在包含该目标对象的每个视频帧中的对象识别质量。假设预定数目为3。在获取3个包含目标对象的视频帧之前，每获取一个包含目标对象的视频帧，则可以将其缓存起来(缓存位置为所述视频库)。在获取3个包含目标对象的视频帧之后，每获取一个包含目标对象的视频帧，则将目标对象在该视频帧中的对象识别质量与目标对象在已缓存的3个视频帧中的对象识别质量逐一进行对比。在当前视频帧的对象识别质量高于已缓存的3个视频帧的对象识别质量的情况下，更新缓存内容，将当前视频帧缓存起来，将对象识别质量最低的视频帧丢弃。因此，在视频库中，一直在更新保存对象识别质量最高的几个视频帧。可以理解，如果所述一个或多个视频帧中仅包括两个包含目标对象的视频帧，则最终选取的特定数目的视频帧将为2个，如果所述一个或多个视频帧中包括3个或多于3个包含目标对象的视频帧，则最终获取的特定数目的视频帧将为3个。因此，特定数目可能与预定数目一致，也可能与预定数目不一致。

在预定数目为1的情况下，采用上述方式对视频帧进行处理，则视频库将一直更新保存对象识别质量最高的那个视频帧。

实时计算对象识别质量并实时选取视频帧的方式可以及时、高效地对视频进行处理，从而可以加快视频结构化处理系统的处理速度。

根据本发明另一方面，提供一种视频处理装置。图3示出了根据本发明一个实施例的视频处理装置300的示意性框图。

如图3所示，根据本发明实施例的视频处理装置300包括视频获取模块310、对象识别模块320、图像提取模块330和图像输出模块340。所述各个模块可分别执行上文中结合图2描述的视频处理方法的各个步骤/功能。以下仅对该视频处理装置300的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

视频获取模块310用于获取视频。视频获取模块310可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

对象识别模块320用于从所述视频中识别目标对象。对象识别模块320可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

图像提取模块330用于从包含所述目标对象的一个或多个视频帧中提取满足预设要求的、包含所述目标对象的至少一个图像。图像提取模块330可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

图像输出模块340用于将所述至少一个图像输出用于从所述至少一个图像中提取所述目标对象的结构化信息。图像输出模块340可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

示例性地，图像提取模块330包括：视频帧选取子模块，用于从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧；以及图像确定子模块，用于确定特定数目的视频帧为至少一个图像，或者，图像提取子模块，用于从特定数目的视频帧中分别提取仅包含目标对象的图像块作为至少一个图像。

示例性地，对象识别模块320包括：对象检测子模块，用于对视频中的每个视频帧进行对象检测，以获得每个视频帧中的每个分立对象的对象信息，对象信息包括对象位置信息；对象跟踪子模块，用于根据每个视频帧中的每个分立对象的对象信息对视频中出现的至少一个跟踪对象进行跟踪；以及对象确定子模块，用于确定至少一个跟踪对象之一为目标对象。

示例性地，对象检测子模块利用卷积神经网络实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图4示出了根据本发明一个实施例的视频处理系统400的示意性框图。视频处理系统400包括图像采集装置410、存储装置420、以及处理器430。

图像采集装置410用于采集视频。图像采集装置410是可选的，视频处理系统400可以不包括图像采集装置410。在这种情况下，可以利用其他图像采集装置采集视频，并将采集的视频发送给视频处理系统400。

所述存储装置420存储用于实现根据本发明实施例的视频处理方法中的相应步骤的计算机程序指令。

所述处理器430用于运行所述存储装置420中存储的计算机程序指令，以执行根据本发明实施例的视频处理方法的相应步骤，并且用于实现根据本发明实施例的视频处理装置300中的视频获取模块310、对象识别模块320、图像提取模块330和图像输出模块340。

在一个实施例中，所述计算机程序指令被所述处理器430运行时用于执行以下步骤：获取视频；从视频中识别目标对象；从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像；以及将至少一个图像输出用于从至少一个图像中提取目标对象的结构化信息。

示例性地，视频处理系统400包括相机，相机包括用于采集视频的图像传感器，并且相机包括所述处理器430和所述存储器420。在本实施例中，图像处理装置410即为图像传感器。

示例性地，所述计算机程序指令被所述处理器430运行时所用于执行的从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像的步骤包括：从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧；以及确定特定数目的视频帧为至少一个图像，或者，从特定数目的视频帧中分别提取仅包含目标对象的图像块作为至少一个图像。

示例性地，所述计算机程序指令被所述处理器430运行时所用于执行的从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧的步骤包括：对于一个或多个视频帧中的每一个，根据目标对象在该视频帧中的姿态信息、成像质量信息、对象置信度和对象大小中的一项或多项，计算目标对象在该视频帧中的对象识别质量。

示例性地，所述计算机程序指令被所述处理器430运行时所用于执行的从一个或多个视频帧中选取目标对象的对象识别质量达到预定条件的特定数目的视频帧的步骤包括：将一个或多个视频帧中的视频帧依次存储至视频库中，当视频库中所存储的视频帧的数目达到预定数目时，对于一个或多个视频帧中的每个当前视频帧，将该当前视频帧的对象识别质量与视频库中所存储的视频帧的对象识别质量进行对比，如果该当前视频帧的对象识别质量高于视频库中所存储的任一视频帧的对象识别质量，则在视频库中存储该当前视频帧并丢弃先前存储的视频帧中对象识别质量最低的视频帧；以及确定视频库中所存储的视频帧为特定数目的视频帧。

示例性地，所述计算机程序指令被所述处理器430运行时所用于执行的从视频中识别目标对象的步骤包括：对视频中的每个视频帧进行对象检测，以获得每个视频帧中的每个分立对象的对象信息，对象信息包括对象位置信息；根据每个视频帧中的每个分立对象的对象信息对视频中出现的至少一个跟踪对象进行跟踪；以及确定至少一个跟踪对象之一为目标对象。

示例性地，所述计算机程序指令被所述处理器430运行时所用于执行的对视频中的每个视频帧进行对象检测的步骤利用卷积神经网络实现。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的视频处理方法的相应步骤，并且用于实现根据本发明实施例的视频处理装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的视频处理装置的各个功能模块，并且/或者可以执行根据本发明实施例的视频处理方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取视频；从视频中识别目标对象；从包含目标对象的一个或多个视频帧中提取满足预设要求的、包含目标对象的至少一个图像；以及将至少一个图像输出用于从至少一个图像中提取目标对象的结构化信息。

根据本发明实施例的视频处理系统中的各模块可以通过根据本发明实施例的实施视频处理的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频处理装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频处理方法，包括：

获取视频；

从所述视频中识别目标对象；

从包含所述目标对象的一个或多个视频帧中提取满足预设要求的、包含所述目标对象的至少一个图像；以及

将所述至少一个图像输出至云计算端用于从所述至少一个图像中提取所述目标对象的结构化信息；

其中，所述从包含所述目标对象的一个或多个视频帧中提取满足预设要求的、包含所述目标对象的至少一个图像包括：

从所述一个或多个视频帧中选取所述目标对象的对象识别质量达到预定条件的特定数目的视频帧；以及

确定所述特定数目的视频帧为所述至少一个图像，或者，从所述特定数目的视频帧中分别提取仅包含所述目标对象的图像块作为所述至少一个图像；

其中，所述从所述一个或多个视频帧中选取所述目标对象的对象识别质量达到预定条件的特定数目的视频帧包括：

将所述一个或多个视频帧中的视频帧依次存储至视频库中，当所述视频库中所存储的视频帧的数目达到预定数目时，对于所述一个或多个视频帧中的每个当前视频帧，将该当前视频帧的对象识别质量与所述视频库中所存储的视频帧的对象识别质量进行对比，如果该当前视频帧的对象识别质量高于所述视频库中所存储的任一视频帧的对象识别质量，则在所述视频库中存储该当前视频帧并丢弃先前存储的视频帧中对象识别质量最低的视频帧；以及

确定所述视频库中所存储的视频帧为所述特定数目的视频帧。

2.如权利要求1所述的方法，其中，所述至少一个图像中的每一个是一个完整的视频帧，或者所述至少一个图像中的每一个是从对应的视频帧中提取的仅包含所述目标对象的图像块。

3.如权利要求1所述的方法，其中，所述从所述一个或多个视频帧中选取所述目标对象的对象识别质量达到预定条件的特定数目的视频帧包括：

对于所述一个或多个视频帧中的每一个，根据所述目标对象在该视频帧中的姿态信息、成像质量信息、对象置信度和对象大小中的一项或多项，计算所述目标对象在该视频帧中的对象识别质量。

4.如权利要求1所述的方法，其中，所述从所述视频中识别目标对象包括：

对所述视频中的每个视频帧进行对象检测，以获得所述每个视频帧中的每个分立对象的对象信息，所述对象信息包括对象位置信息；

根据所述每个视频帧中的每个分立对象的对象信息对所述视频中出现的至少一个跟踪对象进行跟踪；以及

确定所述至少一个跟踪对象之一为所述目标对象。

5.如权利要求4所述的方法，其中，所述对象信息还包括姿态信息、成像质量信息和对象置信度中的一项或多项。

6.如权利要求4所述的方法，其中，所述对所述视频中的每个视频帧进行对象检测利用卷积神经网络实现。

7.一种视频处理装置，包括：

视频获取模块，用于获取视频；

对象识别模块，用于从所述视频中识别目标对象；

图像提取模块，用于从包含所述目标对象的一个或多个视频帧中提取满足预设要求的、包含所述目标对象的至少一个图像；以及

图像输出模块，用于将所述至少一个图像输出至云计算端用于从所述至少一个图像中提取所述目标对象的结构化信息；

其中，所述图像提取模块包括：

视频帧选取子模块，用于从所述一个或多个视频帧中选取所述目标对象的对象识别质量达到预定条件的特定数目的视频帧；以及

图像确定子模块，用于确定所述特定数目的视频帧为所述至少一个图像，或者，图像提取子模块，用于从所述特定数目的视频帧中分别提取仅包含所述目标对象的图像块作为所述至少一个图像；

其中，视频帧选取子模块包括：

存储单元，用于将所述一个或多个视频帧中的视频帧依次存储至视频库中，当所述视频库中所存储的视频帧的数目达到预定数目时，对于所述一个或多个视频帧中的每个当前视频帧，将该当前视频帧的对象识别质量与所述视频库中所存储的视频帧的对象识别质量进行对比，如果该当前视频帧的对象识别质量高于所述视频库中所存储的任一视频帧的对象识别质量，则在所述视频库中存储该当前视频帧并丢弃先前存储的视频帧中对象识别质量最低的视频帧；以及

视频帧确定单元，用于确定所述视频库中所存储的视频帧为所述特定数目的视频帧。

8.一种视频处理系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：

获取视频；

从所述视频中识别目标对象；

其中，所述计算机程序指令被所述处理器运行时所用于执行的所述从包含所述目标对象的一个或多个视频帧中提取满足预设要求的、包含所述目标对象的至少一个图像的步骤包括：

其中，所述计算机程序指令被所述处理器运行时所用于执行的所述从所述一个或多个视频帧中选取所述目标对象的对象识别质量达到预定条件的特定数目的视频帧的步骤包括：

9.如权利要求8所述的系统，其中，所述视频处理系统包括相机，所述相机包括用于采集所述视频的图像传感器，并且所述相机包括所述处理器和所述存储器。

10.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：

获取视频；

从所述视频中识别目标对象；

其中，所述程序指令在运行时所用于执行的所述从包含所述目标对象的一个或多个视频帧中提取满足预设要求的、包含所述目标对象的至少一个图像的步骤包括：

其中，所述程序指令在运行时所用于执行的所述从所述一个或多个视频帧中选取所述目标对象的对象识别质量达到预定条件的特定数目的视频帧的步骤包括：