CN109635749B

CN109635749B - 基于视频流的图像处理方法及装置

Info

Publication number: CN109635749B
Application number: CN201811532847.9A
Authority: CN
Inventors: 朱英芳; 陈健生
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2021-03-16
Anticipated expiration: 2038-12-14
Also published as: CN109635749A

Abstract

本发明提供一种基于视频流的图像处理方法及装置，其中方法包括：确定待处理视频图像中包括人脸图像的目标区域；若目标区域包括人脸列表中的第一目标人脸图像，通过人脸跟踪算法确定目标区域中第一目标人脸图像的位置；其中，人脸列表包括待处理视频图像所在视频流中包括的人脸图像；若目标区域不包括第一目标人脸图像，通过人脸检测算法确定目标区域中包括的第二目标人脸图像和第二目标人脸图像的位置。本发明提供的基于视频流的图像处理方法及装置，能够提高人脸识别过程中图像的处理效率。

Description

基于视频流的图像处理方法及装置

技术领域

本发明涉及电子技术领域，尤其涉及一种基于视频流的图像处理方法及装置。

背景技术

人脸识别是一项热门的计算机智能技术，可以从目标图像中提取到人脸图像，以为进一步通过基于人脸图像进行身份识别等操作提供基础。

现有技术中，为了确定待处理图像中所包含的人脸图像，采用MTCNN方式，依次将待处理图像经过三层CNN的处理以识别待处理图像中的人脸图像。其中，第一层P-NET是全卷积网络，用于一次性提取所有的候选人脸列表、第二层R-NET用于对候选人脸列表的验证，最终通过第三层O-NET精确识别人脸图像。

采用现有技术，由于P-NET网络结构较小因此性能较差，P-NET网络输出的候选人脸列表中包括较多重叠的人脸图像。而造成第二层的R-NET和第三层的O-NET需要进行较多无效的验证与识别，降低R-NET和O-NET的处理速度，进而导致了人脸识别过程中图像的处理效率较低。

发明内容

本发明提供一种基于视频流的图像处理方法及装置，通过考虑待处理视频图像所在视频流中已识别的人脸图像，将待处理视频图像中已识别的人脸图像不再通过检测算法进行检测与识别。从而使得检测算法只需对视频流中新增的人脸图像进行识别，提高了检测算法的处理速度，进而提高了人脸识别过程中图像的处理效率。

本发明第一方面提供一种基于视频流的图像处理方法，包括：

确定待处理视频图像中包括人脸图像的多个目标区域；

若所述目标区域包括人脸列表中的第一目标人脸图像，通过人脸跟踪算法确定所述目标区域中所述第一目标人脸图像的位置；其中，所述人脸列表包括所述待处理视频图像所在视频流中包括的人脸图像；

若所述目标区域不包括所述第一目标人脸图像，通过人脸检测算法确定所述目标区域中包括的第二目标人脸图像和所述第二目标人脸图像的位置。

在本发明第一方面一实施例中，所述确定待处理视频图像中包括人脸图像的多个目标区域，包括：

通过P网络P-NET确定待处理视频图像中包括人脸图像的N个目标区域，N≥1；

所述确定待处理视频图像中包括人脸图像的多个目标区域之后，还包括：

确定所述N个目标区域中不包括所述人脸列表中的人脸图像的M个目标区域，M≤N；

所述检测算法包括：

通过R网络R-NET验证所述M个目标区域中包括人脸图像的P个目标；

通过支持向量机+梯度方向直方图SVM+HOG识别所述P个目标区域中包括的第二目标人脸图像。

在本发明第一方面一实施例中，所述跟踪算法包括：

通过支持向量机+梯度方向直方图SVM+HOG对所述N个目标区域中，包括第一目标人脸图像的N-M个目标区域中的第一目标人脸图像进行跟踪。

在本发明第一方面一实施例中，所述通过SVM+HOG识别所述P个目标区域中包括的第二目标人脸图像，包括：

确定所述人脸列表中包括的人脸图像的目标区域的检测窗口大小和空间缩放尺度；

在SVM+HOG中使用所述检测窗口大小和所述空间缩放尺度为参数识别所述P个目标区域中包括的第二目标人脸图像。

在本发明第一方面一实施例中，还包括：

确定所述待处理视频图像中第三目标人脸图像的状态；所述状态至少包括：正脸状态、左侧状态和右侧状态；

确定所述第三目标人脸图像的状态对应的目标识别模型；

根据所述目标识别模型对所述第三目标人脸图像进行对齐检测，得到所述第三目标人脸图像的至少一个特征点。

在本发明第一方面一实施例中，还包括：

通过自适应卡尔曼滤波器对所述至少一个特征点中每个特征点的坐标元素进行滤波处理；其中，所述自适应卡尔曼滤波器中的预测方差通过所述人脸列表中所述第三目标人脸图像的测量方差确定。

在本发明第一方面一实施例中，所述目标识别模型包括：

梯度提升树GDBT；其中，所述GDBT中每个叶子节点通过压缩算法存储1字节的数据，所述数据用于进行人脸图像的对齐检测。

本发明第二方面提供一种基于视频流的图像处理装置，包括：

确定模块，用于确定待处理视频图像中包括人脸图像的多个目标区域；

跟踪模块，用于若所述目标区域包括人脸列表中的第一目标人脸图像，通过人脸跟踪算法确定所述目标区域中所述第一目标人脸图像的位置；其中，所述人脸列表包括所述待处理视频图像所在视频流中包括的人脸图像；

检测模块，用于若所述目标区域不包括所述人脸列表中的人脸图像，通过人脸检测算法确定所述目标区域中包括的第二目标人脸图像和所述第二目标人脸图像的位置。

在本发明第二方面一实施例中，确定模块具体用于，用于通过P网络P-NET确定待处理视频图像中包括人脸图像的N个目标区域，N≥1；

所述确定模块还用于确定所述N个目标区域中不包括所述人脸列表中的人脸图像的M个目标区域，M≤N；

所述检测模块具体用于通过R网络R-NET验证所述M个目标区域中包括人脸图像的P个目标区域，P≤M；

在本发明第二方面一实施例中，还包括：跟踪模块，用于通过支持向量机+梯度方向直方图SVM+HOG对所述N个目标区域中，包括第一目标人脸图像的N-M个目标区域中的第一目标人脸图像进行跟踪。

在本发明第二方面一实施例中，所述检测模块具体用于：

在本发明第二方面一实施例中，还包括：

状态模块，用于确定所述待处理视频图像中第三目标人脸图像的状态；所述状态至少包括：正脸状态、左侧状态和右侧状态；

确定所述第三目标人脸图像的状态对应的目标识别模型；

对齐模块，用于根据所述目标识别模型对所述第三目标人脸图像进行对齐检测，得到所述第三目标人脸图像的至少一个特征点。

在本发明第二方面一实施例中，还包括：

滤波模块，用于通过自适应卡尔曼滤波器对所述至少一个特征点中每个特征点的坐标元素进行滤波处理；其中，所述自适应卡尔曼滤波器中的预测方差通过所述人脸列表中所述第三目标人脸图像的测量方差确定。

在本发明第二方面一实施例中，所述目标识别模型包括：

本发明第三方面提供一种电子设备，包括：处理器，所述处理器与存储器耦合；所述存储器用于，存储计算机程序；所述处理器用于，调用所述存储器中存储的计算机程序，以实现前述第一方面任一实施例所述的方法。

本发明第四方面提供一种电子设备可读存储介质，包括：程序或指令，当所述程序或指令在电子设备上运行时，实现前述第一方面任一实施例所述的方法。

综上，本发明提供一种基于视频流的图像处理方法及装置，其中方法包括：确定待处理视频图像中包括人脸图像的目标区域；若目标区域包括人脸列表中的第一目标人脸图像，通过人脸跟踪算法确定目标区域中第一目标人脸图像的位置；其中，人脸列表包括待处理视频图像所在视频流的中包括的人脸图像；若目标区域不包括人脸列表中的人脸图像，通过人脸检测算法确定目标区域中包括的第二目标人脸图像和第二目标人脸图像的位置。本发明提供的基于视频流的图像处理方法及装置，通过考虑待处理视频图像所在视频流中已识别的人脸图像，将待处理视频图像中已识别的人脸图像不通过检测算法进行检测与识别。从而使得检测算法只需对视频流中新增的人脸图像进行识别，提高了检测算法的处理速度，进而提高了待处理图像的处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于视频流的图像处理方法一实施例的流程示意图；

图2为本发明基于视频流的图像处理方法一实施例的流程示意图；

图3为本发明基于视频流的图像处理方法一实施例的流程示意图；

图4为本发明基于视频流的图像处理方法一实施例的流程示意图；

图5为本发明基于视频流的图像处理方法一实施例的流程示意图；

图6为本发明基于视频流的图像处理装置一实施例的结构示意图；

图7为本发明基于视频流的图像处理装置一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明基于视频流的图像处理方法一实施例的流程示意图。如图1所示，本实施例提供的基于视频流的图像处理方法包括：

S101：确定待处理视频图像中包括人脸图像的目标区域。

具体地，本实施例的执行主体可以是具备相关视频图像处理功能的电子设备，例如：手机、平板电脑、笔记本电脑或服务器等。则在本实施例中，首先确定待处理视频图像中包括人脸图像的目标区域。其中，本实施例中的待处理视频图像中包括人脸图像的目标区域中，可以包括多个目标区域，并且多个目标区域可包括不同或相同的人脸图像。例如：某待处理视频图像中有3个人记为A，B和C，通过S101能够确定出待处理视频图像中的8个包括人脸图像的目标区域，其中，3个目标区域包括A的人脸图像，3个区域包括B的人脸图像，3个区域包括C的人脸图像，并且每个目标区域的大小可能不同。

S102：若目标区域包括人脸列表中的第一目标人脸图像，通过人脸跟踪算法确定目标区域中第一目标人脸图像的位置；其中，人脸列表包括待处理视频图像所在视频流中包括的人脸图像。

具体地，在S102中，如果S101所确定的目标区域中包括第一目标人脸图像，则通过人脸跟踪算法确定目标区域中第一目标人脸图像的位置。其中，本实施例不仅考虑对于包含人脸图像的待处理视频图像本身，还结合待处理视频图像所在视频流。由于在一个视频流中，连续的视频图像可能出现的人脸图像所属的人相同，该些相同的人已经在待处理视频图像前视频图像中经过了人脸检测算法进行检测。本实施例具体通过设置人脸列表，以存储视频流中已经识别的至少一个人脸图像，并针对人脸列表进行检测。例如：待处理视频图像所在视频流中已经识别了三个人脸图像并均已加入了人脸列表中，则在本步骤中，通过判断S101获取的目标区域是否包括人脸列表中的三个人脸图像，若该目标区域包括人脸列表中的第一目标人脸图像，则在后续通过人脸跟踪算法确定目标区域中第一目标人脸图像的位置。因此，在本步骤中，就不需要将所有包括人脸图像的目标区域都人脸检测，而是对目标区域通过人脸列表进行过滤，将包括已经识别的人脸列表中的人脸图像的目标区域不再进行人脸检测。可选地，本步骤中对于人脸跟踪的算法具体实现方式可参照现有技术，本实施例对此不做限定。由于现有的人脸检测算法中的神经网络在计算时耗时较大，而根据已经识别的人脸图像进行比对去重的算法通过已知图像进行比较即可，相对于神经网络的人脸检测算法极大地节省了计算时间，从而能够达到节省人脸检测的时间，提高处理效率的效果，进而提高人脸识别过程中对待处理图像的处理效率。

S103：若目标区域不包括人脸列表中的人脸图像，通过人脸检测算法确定目标区域中包括的第二目标人脸图像和第二目标人脸图像的位置。

具体地，在S103中确定的目标区域中不包括上述人脸列表中的人脸图像，则通过人脸检测算法确定目标区域中包括的第二目标人脸图像以及第二目标人脸图像的位置。本步骤中对于人脸检测算法的具体实现方式可参照现有技术，例如多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks，MTCNN)、支持向量机(Support VectorMachine，SVM)+方向梯度直方图(Histogram of Oriented Gradient，HOG)等人脸检测算法均可实现对于人脸的检测，本实施例对此不做限定。可选地，本实施例中所确定的第二目标人脸图像也可以是多个人的人脸图像，仅为数量上的增减，不再赘述。

综上，本实施例提供的基于视频流的图像处理方法中，通过考虑视频流中已经识别的人脸图像，并在待识别图像的人脸检测过程中，对视频流中未识别的人脸图像进行人脸检测，而对视频流中包括人脸列表中已识别的人脸图像进行人脸跟踪，从而减少了人脸检测时的计算量，进而提高人脸识别过程中对待处理图像的处理效率。

图2为本发明基于视频流的图像处理方法一实施例的流程示意图。本实施例结合如图1所示实施例中的流程，并基于人脸检测的MTCNN，并对MTCNN的检测流程进行了调整以提高通过MTCNN在对待处理视频图像进行人脸检测时的处理效率。如图2所示，本实施例提供的基于视频流的图像处理方法包括：

S201：通过P网络P-NET确定待处理视频图像中包括人脸图像的N个目标区域，N≥1。

当本实施例的执行主体需要基于MTCNN对待处理视频图像进行处理，识别待处理视频图像中所包括的人脸图像时。首先在S201中，先将待处理视频图像通过P-NET对待处理的视频图像进行处理，得到待处理视频图像中包括人脸图像的N个目标区域。其中，P-NET是一种全卷积神经网络，用于对待处理视频图像中可能出现人脸图像的目标区域进行提取，对于P-NET的具体实现方式可参照现有技术，本实施例对此不做限定。本实施例中的待处理视频图像中的N个包括人脸图像的目标区域中，包括至少一个人脸图像，并且至少一个人脸图像可包括不同或相同的人脸。例如：某待处理视频图像中有3个人记为A，B和C，通过P-NET能够确定出待处理视频图像中的8个包括人脸图像的目标区域，其中，3个目标区域包括A的人脸图像，3个区域包括B的人脸图像，3个区域包括C的人脸图像，并且每个目标区域的大小可能不同。

S202：确定所述N个目标区域中不包括人脸列表中的人脸图像的M个目标区域，0≤M≤N。

具体地，由于现有的基于MTCNN进行人脸检测时，由于P-NET的网络结构较小，由P-NET所输出的包括人脸图像的N个目标区域的准确率较低，即N个目标区域中会出现较多重叠并且IOU较低的人脸图像，例如在上述示例中可能包括同一张视频图像中一个人脸的多张图像。因此在MTCNN中需要将P-NET输出的N个包括人脸图像的目标区域输入R-NET，由R-NET对N个目标区域进行过滤和矫正之后得到可用于人脸检测的包含人脸图像的目标区域。但是，当较多的准确率较低的N个目标区域输入R-NET后，由R-NET通过神经网络对N个目标区域进行处理时，随着计算量的增大，R-NET的计算速度将快速降低，进而导致了人脸识别过程中对待处理图像的处理效率较低。

因此，本实施例中，在MTCNN进行人脸检测的R-NET和P-NET之间对R-NET所输出的N个包括人脸图像的目标区域进行处理。其中，本实施例不仅考虑对于包含人脸图像的待处理视频图像本身，还结合待处理视频图像所在视频流。由于在一个视频流中，连续的视频图像可能出现的人脸图像所属的人相同，该些相同的人已经在待处理视频图像前的视频图像中经过了MTCNN算法进行识别。因此，在本申请对于MTCNN提出的改进中，不需要将所有P-NET输出的N个包括人脸图像的目标区域都输入R-NET以及后续的SVM+HOG进行识别，而是对P-NET输出的目标区域进行过滤，将包括人脸列表中已经识别的人脸图像的目标区域不再送入R-NET以及SVM+HOG进行识别。在一种可能的实现方式中，在S202中，将N个包括人脸图像的目标区域与人脸列表进行比对，将N个目标区域中与人脸列表中的人脸图像IOU超过一定阈值的目标区域不再送入R-NET以及SVM+HOG进行识别。对于绝大部分人脸检测场景，通过S202的过滤可将N个目标区域降低到个位数的M个目标区域，从而能够减少R-NET的计算量，提高R-NET的计算速度，进而提高人脸识别过程中对待处理图像的处理效率。

进一步地，本实施例中可设置用于存储已识别的人脸图像的人脸列表，通过将P-NET输出的包括人脸图像的N个目标区域与人脸列表进行比对。以确定出该N个目标区域中，不包括人脸列表中第一目标人脸图像的M个目标区域，用于送入后续的R-NET中进行验证；而该N个目标区域中包括人脸列表中第一目标人脸图像的N-M个目标区域，由于已经进行过人脸检测，因此不再将该N-M个目标区域送入R-NET以及SVM+HOG中进行处理和识别。其中，第一目标人脸图像为所述待处理视频图像所在视频流的前的视频图像中已经识别出所包括的人脸图像，即第一目标人脸图像包括在人脸列表中，并且本实施例中的第一目标人脸图像也可以人脸列表中多个人的人脸图像，仅为数量上的增减，不再赘述。

S203：通过R网络R-NET验证所述M个目标区域中包括人脸图像的P个目标区域，0≤P≤M。

具体地，在本步骤中，将S202中确定的M个目标区域通过R-NET进行验证，将M个包括人脸图像的目标区域进行去重叠以及校正之后，得到最终用于人脸检测的P个目标区域。本步骤中对于P-NET的具体实现方式可参照现有技术，本实施例对此不做限定。

S204：通过SVM+HOG识别所述P个目标区域中包括的第二目标人脸图像，以在一定程度上提高待处理图像的处理效率。

具体地，由于在现有技术中，MTCNN中的O-NET需要经过较多层神经网络的计算，在一些时刻较为消耗处理器CPU计算能力。因此，本实施例的S204中，对于MTCNN进行进一步的改进，将现有技术的MTCNN中用于人脸检测的O-NET替换为SVM+HOG的人脸检测方法，能够在完成原有O-NET分类人脸检测的基础上，与O-NET相比减少计算量，节省处理器CPU的计算能力。

进一步地，在本实施例中，在通过SVM+HOG进行检测校正人脸时，可以通过视频流中已经识别的人脸图像，对空间缩放尺度以及检测窗口大小进行调整。即，上述S204具体包括：确定人脸列表中包括的人脸图像的目标区域的检测窗口大小和空间缩放尺度；在SVM+HOG中使用该检测窗口大小和空间缩放尺度为参数识别P个目标区域中包括的第二目标人脸图像。

其中，现有的SVM+HOG在对包含人脸图像的目标空间进行人脸检测时，以不同的缩放尺度以及检测窗口大小对待识别的目标空间进行检测，通过不断调整缩放尺度以及检测窗口的大小，最终以一定的缩放尺度和检测窗口大小确定目标空间中的人脸。因此，本实施例中，除了在MTCNN中引入了SVM+HOG的人脸检测方法，还进一步地考虑待处理图像所在视频流中，人脸列表中已经识别的人脸图像的检测窗口大小和空间缩放尺度，在SVM+HOG中该些已经识别的人脸图像的检测窗口大小和空间缩放尺度对P个目标区域进行处理。从而能够节省在SVM+HOG的识别方法中不断调整空间缩放尺度以及检测窗口大小的时间以及计算，以进一步提高对人脸检测的效率。

进一步地，在如图2所示的实施例的基础上，本申请一种可能的实现方式中，在S202中确定所述N个目标区域中不包括第一目标人脸图像的M个目标区域之后，还包括：通过支持向量机+梯度方向直方图SVM+HOG对所述N个目标区域中，包括第一目标人脸图像的N-M个目标区域中的第一目标人脸图像进行跟踪。下面结合图3，对本实施例的基于视频流的图像处理方法进行说明。其中，由于在图2所示的实施例中，经过S202确定的M个目标区域不包括人脸列表中的第一目标人脸图像，则送入S203中的R-NET进行处理；而剩余N-M个目标区域由于包括第一目标人脸图像，则不需要进行S203和S204的人脸识别处理，可以同样通过SVM+HOG技术结合人脸列表对该第一目标人脸进行跟踪。

例如：对于视频流的第一帧视频图像，通过如图2所示的人脸检测方法得到第一目标人脸图像，并将第一目标人脸图像加入人脸列表。而在后续的第二帧、第三帧视频图像中，如果都包括了该第一目标人脸图像，则不需要进行S203和S204的人脸识别处理，而直接根据已经识别出的人脸列表中的第一目标人脸图像对第二帧、第三帧视频图像中的人脸图像进行跟踪，确定第一目标人脸是否还存在于后续的视频图像中。即，通过图2流程确定人脸图像后添加到人脸列表，后续根据连续视频帧的视频图像通过人脸图像中的模板进行匹配跟踪。具体地，如果后续视频图像中还包括第一目标人脸图像，则继续在下一帧视频图像进行跟踪。而如果在视频流中的某一帧视频图像中，通过SVM+HOG没有匹配到人脸列表中的第一目标人脸图像，则将第一目标人脸图像从人脸列表中移除。其中，本实施例所述的人脸列表包括如图3中所示的人脸跟踪列表。

可选地，如图3所示的实施例中，还可以对跟踪次数进行限定，例如设置一个跟踪次数门限N。当经过如图2所示的实施例确定了待处理视频图像中包括第一目标人脸图像，则在该第一目标人脸跟踪次数小于或等于N时继续进行跟踪。当第一目标人脸图像的跟踪次数大于N时，需要重新通过SVM+HOG进行第一目标人脸图像的检测校正，如果没有校正成功则需要将第一目标人脸图像从人脸列表中移除。

可选地，本实施例中对于人脸图像进行跟踪的流程可以对视频流中连续的每一帧视频图像进行处理，而前述图2所示的实施例中检测人脸列表中没有的人脸图像时，可以通过对间隔预设帧的视频图像进行处理，从而在保证人脸检测实时性的同时，降低计算量以及CPU的消耗。

图4为本发明基于视频流的图像处理方法一实施例的流程示意图。如图4所示的实施例是在如图1-2任一实施例的基础上，对待处理视频图像中的人脸图像进行人脸对齐操作。其中，人脸对齐指根据输入的人脸图像，自动定位出面部特征点，如眼睛、鼻尖、嘴角点、眉毛以及人脸各部件轮廓点的操作，从而为后续基于人脸器官的定位、表情识别、3D应用等操作提供基础。具体地，本实施例提供的基于视频流的图像处理方法包括：

S501：确定待处理视频图像中第三目标人脸图像的状态；状态至少包括：正脸状态、左侧状态和右侧状态。

其中，在本实施例提供的对待处理视频中的第三目标人脸图像进行对齐前，首先确定该第三目标人脸图像的状态。所述的状态可以用于表示人脸图像中人脸的朝向或者所呈现的角度，并根据不同的朝向或角度将状态分为正脸状态、左侧状态和右侧状态。

可选地，在本步骤一种可能的实现方式中，通过待处理视频图像前一帧的视频图像中识别出的第三目标人脸图像经过对齐检测后得到的至少一个特征点，来确定待处理视频图像中第三目标人脸图像的状态。例如：待处理视频流的视频图像中的第三目标人脸图像的状态是右侧状态，则在下一帧视频图像中，由于视频图像的间隔时间很短，可以认为第三目标人脸图像的状态不会在一帧的范围内产生过大变化，因此可以下一帧视频图像中第三目标人脸图像的状态也是右侧状态。

可选地，本步骤中所述的正脸状态、左侧状态和右侧状态可以以人脸图像中的人脸向左或者向右转动的角度来衡量，并通过图像识别技术确定。例如：正脸状态可以指人脸图像中的人脸向左或向右转动的角度不超过5度的范围、左侧状态可以指人脸图像中的人脸向左转动的角度超过5度、右侧状态可以指人脸图像中的人脸向右转动的角度超过5度。并且，在正脸状态、左侧状态和右侧状态不同角度的划分中也可以允许有部分角度的重叠。

可选地，本实施例中确定人脸图像中人脸角度时，可通过前一帧中的人脸图像经过人脸对齐后输出的人脸特征点，使用opencv库确根据特征点确定人脸的角度。

需要说明的是，本实施例中所述的第三目标人脸图像可以是任意视频图像中的人脸图像，即如图4所示的实施例可以单独执行用于对第三目标人脸图像进行人脸对齐操作。或者，本实施例中所述的第三目标人脸图像还可以是如前述图1-3的实施例中待处理视频图像中识别出的第一目标人脸图像或者第二目标人脸图像，即对待识别视频图像进行人脸检测之后，对人脸检测得到的人脸图像进行人脸对齐操作。

S502：确定第三目标人脸图像的状态对应的目标识别模型。

具体地，在S502中，根据S501中所确定的第三目标人脸图像的状态，确定该状态对应的目标识别模型。其中，识别模型用于人脸对齐过程，将待对齐的人脸与识别模型中的对齐特征进行比对后，能够得到待对齐的人脸图像的至少一个特征点。本申请在现有的识别模型基础上，根据人脸图像不同的状态设置不同的识别模型。例如：人脸状态为正脸状态时，对应正脸模型；人脸状态为左侧状态时，对应左侧模型；人脸状态为右侧状态时，对应右侧模型。其中，正脸模型中只包括状态为正脸状态的人脸图像的对齐特征、左侧模型中只包括状态为左侧状态的人脸图像的对齐特征、右侧模型中只包括状态为右侧状态的人脸图像的对齐特征。则在本步骤中，根据第三目标人脸图像的状态确定与该状态对应的模型为目标识别模型。

S503：根据目标识别模型对第三目标人脸图像进行对齐检测，得到第三目标人脸图像的至少一个特征点。

具体地，在S503中，根据S502中所确定的目标识别模型对第三人脸图像进行对齐检测，得到第三目标人脸图像的至少一个特征点。本步骤中通过识别模型得到人脸图像特征点的方式可参照现有技术，本实施例对此不做限定。

综上，在本申请如图4所示的实施例中，通过对处于不同状态的人脸图像设置不同的识别模型，并根据待对齐的人脸图像的状态确定对应的目标识别模型后，根据目标识别模型对第三目标人脸图像进行对齐检测。因此，本实施例能够通过设置多种用于人脸对齐的识别模型，能够丰富现有技术中只有一个识别模型而导致的侧脸样本分布较少的问题。并且与现有技术中将所有正脸状态和测量状态的样本都加入一个识别模型相比，降低了单个识别模型进行人脸对齐操作的复杂度。进而在保证人脸对齐准确的情况下降低了人脸对齐时的计算量。

可选地，在上述实施例中，S503之后，还可以包括：通过自适应卡尔曼滤波器对至少一个特征点中每个特征点的坐标元素进行滤波处理；其中，自适应卡尔曼滤波器中的预测方差通过人脸列表中第三目标人脸图像的测量方差确定。图4为本发明基于视频流的图像处理方法一实施例的流程示意图。下面结合图4，对本申请上述实施例进行说明。其中，当经过前述流程得到第三目标人脸的至少一个特征点之后，至少一个特征点进行自适应卡尔曼滤波器的滤波处理后，输出稳定的人脸特征点。具体地，最终的人脸特征点输出结果，为了保证点在视频中的稳定性，本发明引进了自适应的卡尔曼滤波解决视频流的局部抖动问题。根据现有技术中的卡尔曼滤波器可描述为：预测值为X(k)＝X(k-1)+W(k)，测量值为Z(k)＝HX(k)+V(k)。在本实施例中对卡尔曼滤波器针对人脸对齐的特点进行改进，将测量值方差V(k)固定为1，并根据待处理视频图像前多帧的测量方差，预测待处理视频图像的预测值方差W(k)，从而实现去除点的局部不规则抖动的同时，保证了点不会出现滞后偏离的问题。例如：在如图4所示的实施例中，经过对齐算法输出的人脸特征点信息之后，将所有的特征点坐标展开成一维向量，分别对每一个元素独进行卡尔曼滤波。针对向量每一个元素，固定测量方差，通过计算前若干连续帧输出的最大最小的差值以及方差，乘以一个缩放因子Si，作为预测方差W(k)进行卡尔曼滤波。例如在一个示例中，如果待处理视频图像的前3帧图像的预测方差呈现递减状态，则本实施例中进行预测的待处理视频图像的预测方差也应该进行递减后确定；而如果待处理视频的前3帧图像的预测方差呈现波动状态，则本实施例中进行预测的待处理视频图像的预测方差也应该保持该波动状态后确定。

可选地，在上述实施例中S403中的根据目标识别模型对第三目标人脸图像进行对齐检测，包括：根据目标识别模型通过梯度提升树(Gradient Boosting Decison Tree，GDBT)对第三目标人脸图像进行对齐检测。其中，由于现有技术中，对齐检测中所使用的GDBT的叶子结点通过4个字节256位的数据来表示人脸识别模型，而在人脸图像的对齐检测中，256位的数据使得使用GDBT的识别模型中存储的模型数据较多，因此占用存储空间，并且在人脸图像的对齐检测时也需要处理较多的数据。因此，本实施例中，将现有技术中使用GDBT进行人脸图像的对齐检测时，叶子节点中每个数据都通过1字节32位的数据来表示，从而通过GDBT中数据量较小的模型数据进行人脸图像的对齐检测。而在人脸对齐检测时，通过32位的数据已经可以满足人脸检测的要求，也就不需要设置更多位数的数据来表示人脸的模型数据。

在一种可能的实现方式中，为了将GDBT的叶子节点中的数据从4个字节256位通过压缩算法转换为1个字节32位，通过两个浮点数保存最大值和最小值后，将其他结果通过平均插值在0-255的范围内，即，通过范围较大的32位数来表示范围较小256位数，例如32位数中的0.1能够表示256位数中的0.11、0.12……。随后将得到的32位数值保存到GDBT的叶子节点的数据上，同时这个处理也运用到训练过程，最终输出的模型数据在几乎无精度损失的前提下，将模型文件中的模型数据由4个字节256位压缩到1个字节32位而接近原本数据量的1/4。

因此，本实施例中对人脸图像进行对齐检测可以基于ERT方案，提取人脸框内Fern特征进行树分裂，利用GDBT回归人脸特征点的方案。与现有技术中GDBT叶子节点存放的是样本经过树分类之后与真实结果残差的平均值相比，本实施例取消了现有的GDBT的叶子节点全浮点数存放的结构，将模型文件中的模型数据由4个字节256位压缩到1个字节32位进行存储，极大地压缩了模型文件的大小，减小了人脸图像进行对齐检测时处理的数据量。

图6为本发明基于视频流的图像处理装置一实施例的结构示意图。如图6所示，本实施例提供的基于视频流的图像处理装置包括：确定模块701，跟踪模块702，检测模块703。确定模块701用于确定待处理视频图像中包括人脸图像的多个目标区域；跟踪模块702用于若所述目标区域包括人脸列表中的第一目标人脸图像，通过人脸跟踪算法确定所述目标区域中所述第一目标人脸图像的位置；其中，所述人脸列表包括所述待处理视频图像所在视频流中包括的人脸图像；检测模块703用于若所述目标区域不包括所述人脸列表中的人脸图像，通过人脸检测算法确定所述目标区域中包括的第二目标人脸图像和所述第二目标人脸图像的位置。

本实施例提供的基于视频流的图像处理装置可用于执行如图1或图2所示的基于视频流的图像处理方法，其实现方式与原理相同，不再赘述。

可选地，确定模块701具体用于通过P网络P-NET确定待处理视频图像中包括人脸图像的N个目标区域，N≥1；确定模块702还用于确定N个目标区域中不包括所述人脸列表中的人脸图像的M个目标区域，M≤N；检测模块703用于通过R网络R-NET验证M个目标区域中包括人脸图像的P个目标区域，P≤M；跟踪模块702具体用于，通过支持向量机+梯度方向直方图SVM+HOG识别P个目标区域中包括的第二目标人脸图像和所述第二目标人脸图像的位置。

本实施例提供的基于视频流的图像处理装置可用于执行如图2所示的基于视频流的图像处理方法，其实现方式与原理相同，不再赘述。

图7为本发明基于视频流的图像处理装置一实施例的结构示意图。如图7所示的装置在如图6所示的基础上，还包括：跟踪模块801，用于通过支持向量机+梯度方向直方图SVM+HOG对N个目标区域中，包括第一目标人脸图像的N-M个目标区域中的第一目标人脸图像进行跟踪。

可选地，在上述实施例中，识别模块具体用于，确定人脸列表中包括的人脸图像的目标区域的检测窗口大小和空间缩放尺度；

在SVM+HOG中使用检测窗口大小和空间缩放尺度为参数识别P个目标区域中包括的第二目标人脸图像。

本实施例提供的基于视频流的图像处理装置可用于执行如图5所示的基于视频流的图像处理方法，其实现方式与原理相同，不再赘述。

可选地，如图7所示的装置在如图6所示的基础上，还包括：状态模块802和对齐模块803。其中，状态模块802用于确定待处理视频图像中第三目标人脸图像的状态；状态至少包括：正脸状态、左侧状态和右侧状态；确定第三目标人脸图像的状态对应的目标识别模型；对齐模块803用于根据目标识别模型对第三目标人脸图像进行对齐检测，得到第三目标人脸图像的至少一个特征点。

本实施例提供的基于视频流的图像处理装置可用于执行如图4所示的基于视频流的图像处理方法，其实现方式与原理相同，不再赘述。

可选地，如图7所示的装置在如图6所示的基础上，还包括：滤波模块804，用于通过自适应卡尔曼滤波器对至少一个特征点中每个特征点的坐标元素进行滤波处理；其中，自适应卡尔曼滤波器中的预测方差通过人脸列表中第三目标人脸图像的测量方差确定。

可选地，在上述实施例中，目标识别模型包括：梯度提升树GDBT；其中，GDBT中每个叶子节点通过压缩算法存储1字节的数据，数据用于进行人脸图像的对齐检测。

本实施例提供的基于视频流的图像处理装置可用于执行如前述实施例所示的基于视频流的图像处理方法，其实现方式与原理相同，不再赘述。

需要说明的是，本申请各实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。在本申请的实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本申请还提供一种计算机可读存储介质，计算机可读存储介质中存储程序代码，当程序代码被执行时，以执行如上述实施例中任一的基于视频流的图像处理方法。

本申请还提供一种计算机程序产品，计算机程序产品包含的程序代码被处理器执行时，实现如上述实施例中任一的基于视频流的图像处理方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于视频流的图像处理方法，其特征在于，包括：

通过P-NET确定待处理视频图像中包括人脸图像的N个目标区域，N≥1；

若所述目标区域不包括所述人脸列表中的人脸图像，确定所述N个目标区域中不包括所述人脸列表中的人脸图像的M个目标区域，M≤N，通过R-NET验证所述M个目标区域中包括人脸图像的P个目标区域，P≤M，通过SVM+HOG识别所述P个目标区域中包括的第二目标人脸图像和所述第二目标人脸图像的位置。

2.根据权利要求1所述的方法，其特征在于，所述人脸跟踪算法包括：

通过SVM+HOG对所述N个目标区域中，包括第一目标人脸图像的N-M个目标区域中的第一目标人脸图像进行跟踪。

3.根据权利要求1所述的方法，其特征在于，所述通过SVM+HOG识别所述P个目标区域中包括的第二目标人脸图像和所述第二目标人脸图像的位置，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

确定所述第三目标人脸图像的状态对应的目标识别模型；

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所述目标识别模型包括：

梯度提升树GDBT；其中，所述GDBT中每个叶子节点存储1字节的数据，所述数据用于进行人脸图像的对齐检测。

7.一种基于视频流的图像处理装置，其特征在于，包括：

确定模块，用于通过P-NET确定待处理视频图像中包括人脸图像的N个目标区域，N≥1；

检测模块，用于若所述目标区域不包括所述人脸列表中的人脸图像，确定所述N个目标区域中不包括所述人脸列表中的人脸图像的M个目标区域，M≤N，通过R-NET验证所述M个目标区域中包括人脸图像的P个目标区域，P≤M，通过SVM+HOG识别所述P个目标区域中包括的第二目标人脸图像和所述第二目标人脸图像的位置。

8.一种电子设备，其特征在于，包括：处理器，所述处理器与存储器耦合；所述存储器用于，存储计算机程序；所述处理器用于，调用所述存储器中存储的计算机程序，以实现权利要求1-6任一所述的方法。

9.一种电子设备可读存储介质，其特征在于，包括：程序或指令，当所述程序或指令在电子设备上运行时，实现权利要求1-6任一所述的方法。