CN110874547B

CN110874547B - 从视频中识别对象的方法和设备

Info

Publication number: CN110874547B
Application number: CN201811003453.4A
Authority: CN
Inventors: 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2023-09-12
Anticipated expiration: 2038-08-30
Also published as: CN110874547A

Abstract

本发明公开了一种从视频中识别对象的方法和设备。所述方法包括：将视频分解成一系列图像帧；在包括第一个图像帧的、彼此间隔预定帧数的特定图像帧的全部区域上检测各个对象，并且对所检测到的对象的图像进行质量评估；对于除特定图像帧以外的其余图像帧，基于前一次检测来在其余图像帧的局部区域上检测对象，并且对所检测到的对象的图像进行质量评估；以及对质量大于第一预定阈值的对象的图像进行识别，其中，基于前一次检测来在其余图像帧的局部区域上检测对象包括：以预定比率扩大其余图像帧中的与前一次检测中检测到的对象的区域对应的区域，以得到局部区域；以及在局部区域内检测对象。

Description

从视频中识别对象的方法和设备

技术领域

本发明涉及一种从视频中识别对象的方法和设备。

背景技术

近些年，例如人脸等对象的识别技术已经是非常热门的技术，并且在诸如监视、移动设备和IOT(物联网)等不同领域中具有非常广泛的应用。尽管对象识别技术已近取得很大的成就，但准确度和速度仍然是阻碍应用的两个问题。随着深度学习技术在对象识别中的应用，对象识别的准确度得到了很大提高。从而，对对象识别的速度存在更加迫切的需求，尤其在GPU资源不可用的情形下。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，该概述并不是关于本发明的穷举性概述，它并非意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为后文的具体实施方式部分的铺垫。

鉴于以上提出的问题，本发明提出了一种从视频中识别对象的方法。该方法包括：将所述视频分解成一系列图像帧；在包括第一个图像帧的、彼此间隔预定帧数的特定图像帧的全部区域上检测各个对象，并且对所检测到的对象的图像进行质量评估；对于除所述特定图像帧以外的其余图像帧，基于前一次检测来在其余图像帧的局部区域上检测对象，并且对所检测到的对象的图像进行质量评估；以及对质量大于第一预定阈值的对象的图像进行识别，其中，基于前一次检测来在其余图像帧的局部区域上检测对象包括：以预定比率扩大所述其余图像帧中的与所述前一次检测中检测到的对象的区域对应的区域，以得到所述局部区域；以及在所述局部区域内检测对象。

根据本发明的另一方面，提供了一种从视频中识别对象的设备，包括：分解装置，被配置成将所述视频分解成一系列图像帧；全局检测和评估装置，被配置成在包括第一个图像帧的、彼此间隔预定帧数的特定图像帧的全部区域上检测各个对象，并且对所检测到的对象的图像进行质量评估；局部检测和评估装置，被配置成对除所述特定图像帧以外的其余图像帧，基于前一次检测来在其余图像帧的局部区域上检测对象，并且对所检测到的对象的图像进行质量评估；以及识别装置，被配置成对质量大于第一预定阈值的对象的图像进行识别。

根据本发明的再一方面，还提供了一种计算机可读存储介质，其存储有能够由处理器运行来执行以下操作的计算机程序：将所述视频分解成一系列图像帧；在包括第一个图像帧的、彼此间隔预定帧数的特定图像帧的全部区域上检测各个对象，并且对所检测到的对象的图像进行质量评估；对于除所述特定图像帧以外的其余图像帧，基于前一次检测来在其余图像帧的局部区域上检测对象，并且对所检测到的对象的图像进行质量评估；以及对质量大于第一预定阈值的对象的图像进行识别，其中，基于前一次检测来在其余图像帧的局部区域上检测对象包括：以预定比率扩大所述其余图像帧中的与所述前一次检测中检测到的对象的区域对应的区域，以得到所述局部区域；以及在所述局部区域内检测对象。

根据本发明的再一方面，还提供了一种程序。所述程序包括机器可执行的指令，当在信息处理系统上执行所述指令时，所述指令使得所述信息处理系统执行根据本发明的上述方法。

根据本发明的方法和设备，能够从视频中快速且准确地识别对象，可以减轻计算机负担。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照附图来阅读本发明的各实施方式，将更容易理解本发明的其它特征和优点，在此描述的附图只是为了对本发明的实施方式进行示意性说明的目的，而非全部可能的实施，并且不旨在限制本发明的范围。在附图中：

图1示出了根据本发明实施方式的从视频中识别对象的方法的流程图。

图2示出了在根据本发明实施方式的方法中的全局检测和评估步骤的处理的流程图。

图3示出了针对第一个图像帧的归类操作的示例。

图4示出了针对除第一个图像帧以外的特定图像帧的归类操作的示例。

图5示出了在根据本发明实施方式的方法中的局部检测和评估步骤的处理的流程图。

图6示出了针对其余图像帧的归类操作的示例。

图7示出了根据本发明实施方式的从视频中识别对象的设备的配置的示意图。

图8示出了在根据本发明实施方式的设备中的全局检测和评估装置的配置的示意图。

图9示出了在根据本发明实施方式的设备中的局部检测和评估装置的配置的示意图。

图10示出了用于实施根据本发明实施方式的方法和设备的计算机的示意性框图。

具体实施方式

现参照附图对本发明的实施方式进行详细描述。应注意，以下描述仅仅是示例性的，而并不旨在限制本发明。此外，在以下描述中，将采用相同的附图标记表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征，可彼此结合，以形成本发明范围内的其他实施方式。

图1示出了根据本发明实施方式的从视频中识别对象的方法的流程图。如图1所示，从视频中识别对象的方法100包括分解步骤S110，用于将视频分解成一系列图像帧；全局检测和评估步骤S120，用于在包括第一个图像帧的、彼此间隔预定帧数的特定图像帧的全部区域上检测各个对象，并且对所检测到的对象的图像进行质量评估；局部检测和评估步骤S130，用于对于除特定图像帧以外的其余图像帧，基于前一次检测来在其余图像帧的局部区域上检测对象，并且对所检测到的对象的图像进行质量评估；以及识别步骤S140，用于对质量大于第一预定阈值的对象的图像进行识别。

在本申请中，为了改善对象检测的速度，基于前一次检测来在当前帧的仅局部区域中执行对象检测。然而，因局部区域检测基于前一次检测来执行，从而无法检测到图像中可能出现的新对象。为了解决该问题，我们在执行预定次数的局部区域检测之后插入一次全局检测，也就是在预定帧数的其余图像帧之后插入一个特定图像帧。该预定帧数可以根据实际应用来设定。

此处，作为处理目标的对象可以是，但不限于，人脸。为了方便，以下以人脸为例来说明本发明的技术方案，但本领域技术人员可以根据以下描述将本发明容易地应用于除人脸以外的对象。

下面，详细介绍步骤S110至S140的操作。

在分解步骤S110中，可以利用诸如opencv、matlab等现有的工具将视频分解成一系列图像帧，以便后续对各个图像帧分别进行处理。该操作已为本领域技术人员所熟知，在此不再详细描述。

图2是示出全局检测和估计步骤S120的处理的流程图。如图2所示，全局检测和评估步骤S120包括全局检测处理S121和质量评估处理S122。

首先以人脸为例来介绍全局检测处理S121。全局检测处理包括全局检测操作S1211、对齐操作S1212和归类操作S1213。在全局检测操作S1211中，针对每个特定图像帧，找到特定图像帧的全部区域中的所有人脸的位置并获取各个人脸图像。该特定图像帧是包括第一个图像帧的、彼此间隔预定帧数的图像帧。然后，在对齐操作S1212中，确定人脸的一些标志点(例如包括鼻尖、眼中部、嘴角等)的位置，并且基于所确定的标志点位置，将各个人脸图像旋转到正面位置(即，对齐)。接着，在归类操作S1213中，将包围对齐后的人脸图像的边界框放入相应列表中。

归类操作S1213用于将相同的人脸图像的边界框放入到同一列表中，并且包括以下两种情形：(1)针对第一个图像帧的归类操作；以及(2)针对除第一个图像帧以外的特定图像帧的归类操作。在第(1)种情形下，如图3所示，首先获取第一个图像帧f₁的对齐后的各个人脸图像的边界框B₁ ⁱ作为第一边界框，其中0≤i≤图像帧中所检测到的全部人脸的数目m。然后，将各个第一边界框B₁ ⁱ分别放入不同的列表中L_i中。换言之，每个第一边界框对应一个列表。在图3中，在第一个图像帧f₁中仅检测到两张人脸，从而仅获取了两个第一边界框B₁ ¹和B₁ ²，这两个边界框B₁ ¹和B₁ ²被分别放入第一列表L₁和第二列表L₂中。

在第(2)种情形下，如图4所示，首先获取特定图像帧f_x的对齐后的各个人脸图像的边界框B_x ⁱ作为第x边界框，其中0≤i≤图像帧中所检测到的全部人脸的数目m。然后，在特定图像帧f_x中获取与前一个图像帧f_x-1中的第x-1边界框B_x-1 ⁱ相对应的对应边界框K_x ⁱ。此处的“对应”是指第x-1边界框B_x-1 ⁱ在前一个图像帧f_x-1中的位置与对应边界框K_x ⁱ在当前图像帧f_x中的位置相同，并且下文中提到的边界框的对应关系亦为类似的含义。接着，查找与第x边界框B_x ⁱ相交的对应边界框K_x ⁱ。若未查找到与第x边界框B_x ⁱ相交的对应边界框K_x ⁱ，则将第x边界框B_x ⁱ放入新的列表中。若第x边界框B_x ⁱ与对应边界框K_x ⁱ相交，则计算以下比率：S＝(第x边界框B_x ⁱ∩对应边界框K_x ⁱ)/(第x边界框B_x ⁱ∪对应边界框K_x ⁱ)。其中，如果比率S大于预定比率，则将第x边界框B_x ⁱ放入与对应边界框K_x ⁱ相对应的第x-1边界框B_x-1 ⁱ所处于的列表中，否则将第x边界框B_x ⁱ放入新的列表中。如图4所示，第x边界框B_x ¹与对应边界框K_x ¹相交并且它们之间的比率S大于预定比率，从而将第x边界框B_x ¹放入与对应边界框K_x ¹对应的第x-1边界框B_x-1 ¹所处于的列表L₁中；而，第x边界框B_x ³与对应边界框K_x ²不相交，从而将第x边界框B_x ³放入新的列表L₃中。

上述预定比率可以根据实际应用来设置。在S121中的人脸全局检测处理可以利用很多现有的技术来实现，诸如多任务级联卷积神经网络MTCNN模型等。

下面，对质量评估处理S122进行描述。如图2所示，质量评估处理S122对所检测到的对象的图像进行质量评估包括质量评估操作S1221和比较操作S1222。具体地，首先，质量评估操作S1221包括：采集关于对象的2种或2种以上质量类别的人脸图像样本A₁、A₂……A_n；提取该人脸图像样本的特征；利用所提取的人脸图像样本的特征对质量评估模型进行训练；提取所检测到的且对齐后的人脸图像的特征；以及利用训练后的模型，基于所提取的人脸图像的特征来计算人脸图像的质量。

人脸图像样本A₁、A₂……A_n可以通过收集不同质量的人脸图像样本f并根据图像质量将人脸图像样本f划分成不同的类别来获得。例如，在n＝2的情形下，不同质量的人脸图像样本可以是：正面的人脸图像样本与非正面的人脸图像样本、高清晰度的人脸图像样本与模糊的人脸图像样本、遮挡的人脸图像样本与非遮挡的人脸图像样本，等等。

人脸图像样本的特征x可以利用诸如卷积神经网络等很多现有的方法来提取。在此，采用多任务级联卷积神经网络MTCNN模型，具体地将MTCNN模型的最后一个卷积层的输出作为人脸图像样本f的特征x。MTCNN模型已为本领域技术人员所熟知，在此不再详细描述其具体操作。

本文中所采用的质量评估模型可以表示为：

其中，A₁、A₂……A_n为图像样本的集合且n为大于等于2的整数，并且A_n-1中的图像样本的预定属性优于A_n中的图像样本的预定属性；x_i表征A_n-1中的图像样本f_i的特征，x_j表征A_n中的图像样本f_j的特征；W和C是通过利用图像样本的集合A₁至A_n求解表达式(1)而得到的参数。

可以利用诸如标准牛顿方法等现有的方法来求解以上表达式(1)，以得到W和C。而所检测到的人脸图像的质量可以根据以下表达式来计算

质量Q(F)＝WX(F)(2)其中，Q(F)表示人脸图像F的质量，X(F)表征人脸图像F的特征。在此，人脸图中的特征同样可以利用MTCNN模型来提取。

接着，在比较操作S1222中，将所计算的人脸图像的质量与预定质量阈值相比较，并且抽取质量大于预定质量阈值的人脸图像。该预定质量阈值可以根据实际应用来设置。

在步骤S120中，可以先执行全局检测处理S121，然后执行质量评估处理S122；或者可以并行执行全局检测处理S121和质量评估处理S122。

图5示出了局部检测和评估步骤的处理的流程图。下面，参考图5，对局部检测和评估步骤S130进行详细描述。

如图5所示，局部检测和评估步骤S130包括局部检测处理S131和质量评估处理S132。局部检测处理S131用于对除特定图像帧以外的其余图像帧，基于前一次检测来在其余图像帧的局部区域上检测对象(以人脸为例)。局部检测处理S131包括两种情形：(1)基于对特定图像帧的检测来在特定图像帧的下一个图像帧的局部区域上检测人脸；以及(2)基于对上一个其余图像帧的检测来在当前其余图像帧的局域区域上检测人脸。这两种情形下所执行的操作一致，在此不再分开描述。

参考图5，局部检测处理S131包括局部检测操作S1311、对齐操作S1312和归类操作S1313。图6示出了局部检测操作S1311的示例。在局部检测操作中，首先，从当前其余图像帧f_x中获取与前一图像帧f_x-1(特定图像帧或其余图像帧)的第x-1边界框B_x-1 ⁱ对应的对应边界框K_x ⁱ；然后，将对应边界框K_x ⁱ以预定比例放大，从而得到放大的放大边界框R_x ⁱ；接着，在放大边界框R_x ⁱ所包围的区域内来执行人脸检测，并获取人脸图像。所述预定比例可以考虑到视频的帧率、对象的移动速度等来设定。

在对齐操作S1312中，确定人脸的一些标志点的位置，例如包括鼻尖、眼中部、嘴角等，并且基于所确定的标志点位置，将各个人脸图像旋转到正面(即，对齐)。

在归类操作S1313中，获取对齐后的人脸图像的边界框B_x ⁱ，作为第x边界框；然后，将第x边界框B_x ⁱ放入与相应的第x-1边界框B_x-1 ⁱ所处的列表相同的列表L_i中。

如图6所示，当前图像帧中的与第x-1边界框B_x-1 ¹对应的边界框K_x ¹被放大预定比例，得到放大边界框R_x ¹；然后，在该放大的边界框R_x ¹内执行人脸检测并获取包围所检测到的人脸的边界框B_x ¹；接着，将该边界框B_x ¹放入与相应的第x-1边界框B_x-1 ¹所处的列表相同的列表L₁中。

在局部检测处理S131中，如果在当前图像帧的放大边界框R_x ⁱ所包围的区域内未检测到人脸，则删除与前一图像帧的第一边界框B_x-1 ⁱ对应的列表。

接下来，描述质量评估处理S132。质量评估处理S132包括质量评估操作S1321和比较操作S1322。在质量评估操作S1321中，利用上述表达式(1)和(2)来计算局部检测处理中所获取的各个人脸图像的质量。具体操作可以参考以上关于质量评估处理S122的描述，在此不再赘述。在比较操作S1322中，将所计算的人脸图像的质量与预定质量阈值相比较，并且抽取质量大于预定质量阈值的人脸图像。

继续参考图1，在步骤S140中，对所抽取的质量大于第一预定阈值的人脸图像进行识别。例如，可以利用现有的技术来识别与人脸图像对应的身份等。该操作已为本领域技术人员所熟知，在此不再详细描述。

以上参考图1至图6描述了根据本发明实施方式的用于从视频中识别对象的方法。下面参考图7至图9来描述根据本发明实施方式的用于从视频中识别对象的设备。

图7示出了根据本发明实施方式的用于从视频中识别对象的设备。如图7所示，用于从视频中识别对象的设备700包括：分解装置710，被配置成将视频分解成一系列图像帧；全局检测和评估装置720，被配置成在包括第一个图像帧的、彼此间隔预定帧数的特定图像帧的全部区域上检测各个对象(例如，人脸)，并且对所检测到的对象的图像进行质量评估；局部检测和评估装置730，被配置成对除特定图像帧以外的其余图像帧，基于前一次检测来在其余图像帧的局部区域上检测对象，并且对所检测到的对象的图像进行质量评估；以及识别装置740，被配置成对质量大于第一预定阈值的对象的图像进行识别。

图8示出了全局检测和评估装置720的示例性配置。如图8所示，全局检测和评估装置720包括全局检测部721，被配置成在包括第一个图像帧的、彼此间隔预定帧数的特定图像帧的全部区域上检测各个对象；以及质量评估部722，被配置成对所检测到的对象的图像进行质量评估。

如图8所示，全局检测部721包括：全局检测单元7211，用于获取特定图像帧的全部区域中的对象的图像；对齐单元7212，用于将所获取的对象的图像旋转到正面位置；以及归类单元7213，针对对齐后的图像，将同一对象的图像的边界框放入到同一列表中，所述边界框包围对象的图像。质量评估部722包括：质量评估单元7221，利用质量评估模型来计算对齐后的图像的质量；以及比较单元7222，将所计算的对象图像的质量与预定质量阈值相比较，并且抽取质量大于预定质量阈值的图像。

图9示出了局部检测和评估装置730的示例性配置。如图9所示，局部检测和评估装置730包括：局部检测部731，被配置成对除特定图像帧以外的其余图像帧，基于前一次检测来在其余图像帧的局部区域上检测对象；以及质量评估部732，被配置成对所检测到的对象的图像进行质量评估。

如图9所示，局部检测部731包括：局部检测单元7311，用于基于前一次检测来获取其余图像帧中的局域区域中的对象的图像；对齐单元7312，用于将所获取的对象的图像旋转到正面位置；以及归类单元7313，针对对齐后的图像，将同一对象的图像的边界框放入到同一列表中，所述边界框包围对象的图像。质量评估部732包括：质量评估单元7321，用于利用质量评估模型来计算对齐后的图像的质量；以及比较单元7322，用于将所计算的对象图像的质量与预定质量阈值相比较，并且抽取质量大于预定质量阈值的图像。

以上参考图7至图9简单地描述了用于从视频中识别对象的设备的构造和操作。关于该设备及其内部的部件和单元的详细操作可以参见以上关于用于从视频中识别对象的方法的描述。在此，不再详细描述。

另外，这里尚需指出的是，上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算机1000)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图10示出了可用于实施根据本发明实施例的方法和系统的计算机的示意性框图。

在图10中，中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中，还根据需要存储当CPU 1001执行各种处理等时所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。

下述部件连接到输入/输出接口1005：输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1009经由网络比如因特网执行通信处理。根据需要，驱动器1010也可连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1010上，使得从中读出的计算机程序根据需要被安装到存储部分1008中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施方式的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

应当注意，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的次序顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

以上对本发明各实施方式的描述是为了更好地理解本发明，其仅仅是示例性的，而非旨在对本发明进行限制。应注意，在以上描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。本领域技术人员可以理解，在不脱离本发明的发明构思的情况下，针对以上所描述的实施方式进行的各种变化和修改，均属于本发明的范围内。

综上，在根据本发明的实施例中，本发明提供了如下技术方案。

方案1.一种从视频中识别对象的方法，包括：

将所述视频分解成一系列图像帧；

在包括第一个图像帧的、彼此间隔预定帧数的特定图像帧的全部区域上检测各个对象，并且对所检测到的对象的图像进行质量评估；

对于除所述特定图像帧以外的其余图像帧，基于前一次检测来在其余图像帧的局部区域上检测对象，并且对所检测到的对象的图像进行质量评估；以及

对质量大于第一预定阈值的对象的图像进行识别，

其中，基于前一次检测来在其余图像帧的局部区域上检测对象包括：以预定比率扩大所述其余图像帧中的与所述前一次检测中检测到的对象的区域对应的区域，以得到所述局部区域；以及在所述局部区域内检测对象。

方案2.根据方案1所述的方法，其中，所述质量评估包括：

采集关于对象的2种或2种以上类别的图像样本；

提取所述图像样本的特征；

利用所提取的图像样本的特征对质量评估模型进行训练；

提取所检测到的对象的图像的特征；以及

利用训练后的模型，基于所提取的图像的特征来计算所述图像的质量。

方案3.根据方案2所述的方法，其中，所述质量评估模型为：

-A₁、A₂……A_n为图像样本的集合且n为大于等于2的整数，并且A_n-1中的图像样本的预定属性优于A_n中的图像样本的预定属性；

-x_i表征A_n-1中的图像样本f_i的特征，x_j表征A_n中的图像样本f_j的特征；以及

-W和C是通过利用图像样本的集合A₁至A_n求解表达式(1)而得到的参数，

其中，所述图像的质量通过以下表达式(2)来计算：

Q(F) ＝ WX(F) (2)

-Q(F)表示图像F的质量，X(F)表征图像F的特征。

方案4.根据方案3所述的方法，其中，所述表达式(1)利用牛顿法来求解。

方案5.根据方案2至4中任一项所述的方法，其中，所述特征利用多任务级联卷积神经网络MTCNN来提取。

方案6.根据方案3或4所述的方法，其中，A₁是高清图像样本的集合且A₂是模糊图像样本的集合，或者A₁是非遮挡图像样本的集合且A₂是遮挡图像样本的集合，或者A₁是正面图像样本的集合且A₂是非正面图像样本的集合。

方案7.根据方案1至4中任一项所述的方法，其中，所述检测利用多任务级联卷积神经网络MTCNN来实现。

方案8.根据方案1至4中任一项所述的方法，其中，

当基于前一次检测来在其余图像帧的局部区域上检测对象时，若所述前一次检测中检测到的两个对象的各自的第一区域和第二区域被分别放入第一列表和第二列表中，则：

将在所述其余图像帧中的与所述第一区域对应的局部区域中检测到的对象的第三区域放入所述第一列表中；以及

将在所述其余图像帧中的与所述第二区域对应的局部区域中检测到的对象的第四区域放入所述第二列表中。

方案9.根据方案8所述的方法，其中，

当在特定图像帧的全部区域上检测各个对象时，若所述前一次检测中检测到的两个对象的各自的第一区域和第二区域被分别放入第一列表和第二列表中，则：

对于所述特定图像帧中所检测到的对象的、与所述第一区域和所述第二区域中的一个区域相交的第三区域，计算所述第三区域与所述一个区域的交集除以所述第三区域与所述一个区域的并集之间的比率，如果所述比率大于第二预定阈值，则将所述第三区域放入所述一个区域所位于的列表中，或者如果所述比率均小于第二预定阈值，则将所述第三区域放入新的列表；以及

对于所述特定图像帧中所检测到的对象的、与所述第一区域或所述第二区域均不相交的第四区域，将所述第四区域放入新的列表。

方案10.根据方案1至4中任一项所述的方法，其中，所述对象为人脸。

方案11.一种从视频中识别对象的设备，包括：

分解装置，被配置成将所述视频分解成一系列图像帧；

全局检测和评估装置，被配置成在包括第一个图像帧的、彼此间隔预定帧数的特定图像帧的全部区域上检测各个对象，并且对所检测到的对象的图像进行质量评估；

局部检测和评估装置，被配置成对除所述特定图像帧以外的其余图像帧，基于前一次检测来在其余图像帧的局部区域上检测对象，并且对所检测到的对象的图像进行质量评估；以及

识别装置，被配置成对质量大于第一预定阈值的对象的图像进行识别。

方案12.根据方案11所述的设备，其中，所述质量评估包括：

采集关于对象的2种或2种以上类别的图像样本；

提取所述图像样本的特征；

利用所提取的图像样本的特征对质量评估模型进行训练；

提取所检测到的对象的图像的特征；以及

方案13.根据方案12所述的设备，其中，所述质量评估模型为：

其中，所述图像的质量通过以下表达式(2)来计算：

Q(F) ＝ WX(F) (2)

-Q(F)表示图像F的质量，X(F)表征图像F的特征。

方案14.根据方案13所述的设备，其中，所述表达式(1)利用牛顿法来求解。

方案15.根据方案12至14中任一项所述的设备，其中，所述特征利用多任务级联卷积神经网络MTCNN来提取。

方案16.根据方案13或14所述的设备，其中，A₁是高清图像样本的集合且A₂是模糊图像样本的集合，或者A₁是非遮挡图像样本的集合且A₂是遮挡图像样本的集合，或者A₁是正面图像样本的集合且A₂是非正面图像样本的集合。

方案17.根据方案11至14中任一项所述的设备，所述局部检测和评估装置还配置成：

方案18.根据方案17所述的设备，所述全局检测和评估装置还被配置成：

方案19.根据方案11至14中任一项所述的设备，其中，所述对象为人脸。

方案20.一种计算机可读存储介质，所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的计算机程序：

将所述视频分解成一系列图像帧；

对质量大于第一预定阈值的对象的图像进行识别，

Claims

1.一种从视频中识别对象的方法，包括：

将所述视频分解成一系列图像帧；

对质量大于第一预定阈值的对象的图像进行识别，

其中，基于前一次检测来在其余图像帧的局部区域上检测对象包括：以预定比率扩大所述其余图像帧中的与所述前一次检测中检测到的对象的区域对应的区域，以得到所述局部区域；以及在所述局部区域内检测对象，

其中，当在特定图像帧的全部区域上检测各个对象时，若所述前一次检测中检测到的两个对象的各自的第一区域和第二区域被分别放入第一列表和第二列表中，则：

对于所述特定图像帧中所检测到的对象的、与所述第一区域和所述第二区域中的一个区域相交的第三区域，计算所述第三区域与所述一个区域的交集除以所述第三区域与所述一个区域的并集之间的比率，如果所述比率大于第二预定阈值，则将所述第三区域放入所述一个区域所位于的列表中，或者如果所述比率均小于第二预定阈值，则将所述第三区域放入新的列表，以及

对于所述特定图像帧中所检测到的对象的、与所述第一区域或所述第二区域均不相交的第四区域，将所述第四区域放入新的列表，

其中，所述第一区域、所述第二区域、所述第三区域和所述第四区域包围各自对应的对齐后的人脸图像，

其中，所述质量评估包括：

采集关于对象的2种或2种以上质量类别的图像样本，

提取所述图像样本的特征，

利用所提取的图像样本的特征对质量评估模型进行训练，

提取所检测到的对象的图像的特征，以及

利用训练后的模型，基于所提取的图像的特征来计算所述图像的质量，

其中，所述质量评估模型为：

其中

A₁、A₂……A_n为图像样本的集合且n为大于等于2的整数，并且A_n-1中的图像样本的预定属性优于A_n中的图像样本的预定属性；

x_i表征A_n-1中的图像样本f_i的特征，x_j表征A_n中的图像样本f_j的特征；以及

W和C是通过利用图像样本的集合A₁至A_n求解表达式(1)而得到的参数，以及

其中，所述图像的质量通过以下表达式(2)来计算：

Q(F) ＝ WX(F) (2)

其中，Q(F)表示图像F的质量，X(F)表征图像F的特征。

2.根据权利要求1所述的方法，其中，所述表达式(1)利用牛顿法来求解。

3.根据权利要求1或2所述的方法，其中，所述特征利用多任务级联卷积神经网络MTCNN来提取。

4.根据权利要求1或2所述的方法，其中，A₁是高清图像样本的集合且A₂是模糊图像样本的集合，或者A₁是非遮挡图像样本的集合且A₂是遮挡图像样本的集合，或者A₁是正面图像样本的集合且A₂是非正面图像样本的集合。

5.根据权利要求1或2所述的方法，其中，所述检测利用多任务级联卷积神经网络MTCNN来实现。

6.根据权利要求1或2所述的方法，其中，

当基于前一次检测来在其余图像帧的局部区域上检测对象时，若所述前一次检测中检测到的两个对象的各自的第一区域和第二区域被分别放入所述第一列表和所述第二列表中，则：

7.一种从视频中识别对象的设备，包括：

分解装置，被配置成将所述视频分解成一系列图像帧；

识别装置，被配置成对质量大于第一预定阈值的对象的图像进行识别，

其中，所述局部检测和评估装置还被配置成以预定比率扩大所述其余图像帧中的与所述前一次检测中检测到的对象的区域对应的区域，以得到所述局部区域，并且在所述局部区域内检测对象，

其中，所述全局检测和评估装置还被配置成，当在特定图像帧的全部区域上检测各个对象时，若所述前一次检测中检测到的两个对象的各自的第一区域和第二区域被分别放入第一列表和第二列表中，则：

其中，所述质量评估包括：

采集关于对象的2种或2种以上质量类别的图像样本，

提取所述图像样本的特征，

利用所提取的图像样本的特征对质量评估模型进行训练，

提取所检测到的对象的图像的特征，以及

其中，所述质量评估模型为：

其中

其中，所述图像的质量通过以下表达式(2)来计算：

Q(F) ＝ WX(F) (2)

其中，Q(F)表示图像F的质量，X(F)表征图像F的特征。