CN111242189B

CN111242189B - 特征提取方法、装置及终端设备

Info

Publication number: CN111242189B
Application number: CN202010008877.0A
Authority: CN
Inventors: 彭冬炜
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2024-03-05
Anticipated expiration: 2040-01-06
Also published as: CN111242189A

Abstract

本发明适用于视频处理技术领域，提供了一种特征提取方法、装置及终端设备，方法包括：提取待处理的目标视频的关键帧画面；获取关键帧画面中的N个人脸，根据N个人脸统计关键帧画面中的视频人物数量，并根据N个人脸获取基于关键帧画面的N个人脸特征；对N个人脸特征去噪，获得M个去噪特征；根据视频人物数量对M个去噪特征进行聚类处理，获得K个聚类中心，将处于同一聚类中心的去噪特征作为同一视频人物的用户脸部特征。通过本发明可以避免错误聚类，提高基于待处理的目标视频的特征认定准确性，使得最终获得的用户脸部特征与视频人物一一对应，即用户脸部特征能够准确代表视频人物的特征。

Description

特征提取方法、装置及终端设备

技术领域

本发明涉及视频处理技术领域，尤其涉及一种特征提取方法、装置及终端设备。

背景技术

视频可以看做多张连续图像的集合，用于图像的技术几乎都可以直接应用于处理视频。但是，视频的时间维度是有利有弊的。视频时间维度带来了相比于图像的海量信息，以帧为例，其含义是1秒钟内传输的图片数，一般来说，帧率低于15帧/秒，用户播放此视频就会有停顿的感觉。因此，视频的帧数高可极大的丰富特征空间。

另外一方面，视频的帧数越高，特征越丰富，则可能包含越多的噪声，比如光照变化，运动模糊等等。对视频进行特征提取时，第一个任务就是提取人物特征，后续工作都是基于人物特征进行处理，但是，视频中所包含噪声会影响特征提取的准确性，使得最后基于视频所得到的代表特征不能准确的表征特定人物。

发明内容

本发明的主要目的在于提出一种特征提取方法、装置及终端设备，以解决现有的技术在处理视频时，视频特征提取不准确，导致视频特征提取结果不能准确代表视频人物特征的问题。

为实现上述目的，本发明实施例第一方面提供了一种特征提取方法，包括：

提取待处理的目标视频的关键帧画面；

获取所述关键帧画面中的N个人脸，根据N个所述人脸统计所述关键帧画面中的视频人物数量，并根据N个所述人脸获取基于所述关键帧画面的N个人脸特征；

对N个所述人脸特征去噪，获得M个去噪特征；

根据所述视频人物数量对M个所述去噪特征进行聚类处理，获得K个聚类中心，将处于同一所述聚类中心的所述去噪特征作为同一所述视频人物的用户脸部特征，其中，M小于或等于N，K小于或等于M，N、M、K为正整数。

结合本发明第一方面，本发明第一实施方式中，所述根据N个所述人脸获取基于所述关键帧画面的N个人脸特征，包括：

对所述关键帧画面的每帧画面的人脸进行特征检测，获得基于所述关键帧画面的人脸特征图像集合；

对所述人脸特征图像集合的每个特征图像进行编码，获得N个人脸特征。

结合本发明第一方面的第一实施方式，本发明第二实施方式中，所述人脸特征图像集合包括人脸框架信息和人脸锚点信息；

所述对所述人脸特征图像集合的每个特征图像进行编码，获得N个人脸特征之前，包括：

利用所述人脸锚点信息将所述人脸框架信息中的人脸对齐；

根据对齐后的所述人脸锚点信息将所述人脸框架信息在所述关键帧画面中裁剪出以人脸为中心的特征图像，并以所述特征图像作为所述人脸特征图像集合中的数据。

结合本发明第一方面的第二实施方式，本发明第三实施方式中，所述对N个所述人脸特征去噪，获得M个去噪特征，包括：

通过所述人脸锚点信息判断第i个所述人脸特征的面部角度是否在预设角度范围内，若第i个所述人脸特征的面部角度在预设角度范围内，则第i个所述人脸特征不为关键帧画面中的噪声画面，否则第i个所述人脸特征为关键帧画面中的噪声画面，第i个所述人脸特征不参与聚类处理；

通过所述人脸框架信息判断第i个所述人脸特征的面部位置是否在预设框架范围内，若第i个所述人脸特征的面部位置在预设框架范围内，则第i个所述人脸特征不为关键帧画面中的噪声画面，否则第i个所述人脸特征为关键帧画面中的噪声画面，第i个所述人脸特征不参与聚类处理；

其中，i为小于或等于N的正整数。

结合本发明第一方面，本发明第四实施方式中，所述根据N个所述人脸统计所述关键帧画面中的视频人物数量，包括：

根据所述关键帧画面的每帧画面的人脸，统计所述每帧画面中出现的人脸数量，获得基于所述关键帧画面的人脸数集合；

以所述人脸数集合中的众数为所述关键帧画面的视频人物数量。

结合本发明第一方面，本发明第五实施方式中，所述提取待处理的目标视频的关键帧画面之前，包括：

计算所述目标视频的每帧视频图像的均方误差；

通过所述均方误差对每帧所述视频图像对进行质量评估，并保留质量评估结果在标准误差范围内的视频图像作为待处理的视频图像。

结合本发明第一方面，本发明第六实施方式中，所述根据所述视频人物数量对M个所述去噪特征进行聚类处理，获得K个聚类中心，包括：

根据所述视频人物数量计算所述聚类中心的数量K；

通过无监督聚类方法对N个所述去噪特征进行聚类，获得K个聚类中心。

本发明实施例第二方面提供了一种特征提取装置，包括：

关键帧提取模块，用于提取待处理的目标视频的关键帧画面；

视频人物数量统计与人脸特征获取模块，用于获取所述关键帧画面中的N个人脸，并根据N个所述人脸统计所述关键帧画面中的视频人物数量，和根据N个所述人脸获取基于所述关键帧画面的N个人脸特征；

人脸特征去噪模块，用于对N个所述人脸特征去噪，获得M个去噪特征；

用户脸部特征获取模块，用于根据所述视频人物数量对M个所述去噪特征进行聚类处理，获得K个聚类中心，将处于同一所述聚类中心的所述去噪特征作为同一所述视频人物的用户脸部特征，其中，M小于或等于N，K小于或等于M，N、M、K为正整数。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。

本发明实施例提出一种特征提取方法，首先提取目标视频的关键帧画面，提高目标视频处理的效率，再基于关键帧画面进行人脸特征的检测，获得人脸特征以及视频人物数量，其中，由视频人物数量可以计算出聚类中心的数量，对上述获得的人脸特征进行去噪，可以过滤掉质量较差或特征认定错误的人脸特征，获得去噪特征。而根据去噪特征进行聚类处理时，能够避免错误聚类，提高基于目标视频的特征认定准确性，使得最终获得的用户脸部特征与视频人物一一对应，即用户脸部特征能够准确代表视频人物的特征。

附图说明

图1为本发明实施例提供的特征提取方法的实现流程示意图；

图2为图1中步骤S102的详细实现流程示意图；

图3为图1中步骤S102的另一详细实现流程示意图

图4为图1中步骤S103的详细实现流程示意图；

图5为本发明实施例提供的特征提取装置的组成结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本文中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

在后续的描述中，发明实施例序号仅仅为了描述，不代表实施例的优劣。

如图1所示，本发明实施例提供了一种特征提取方法，应用于目标视频，本发明实施例中，目标视频可以为单人视频或多人视频，其中，多人视频包括多个视频人物，单人视频包括一个视频人物。而视频人物为进行目标视频并出现在视频中的人物。所述特征提取方法包括但不限于如下步骤：

S101、提取待处理的目标视频的关键帧画面。

在上述步骤S101中，可以通过关键帧筛选算法对所述目标视频进行关键帧提取，获得关键帧画面。

在具体应用中，提取关键帧画面之前，还可包括以下步骤过滤掉质量较差的冗余图像，使得提取的关键帧画面便于后续的人脸特征检测，提高基于目标视频的处理效率：

计算所述目标视频的每帧视频图像的均方误差；

其中，均方误差用于计算原始图像和失真像象素差值的均方值，通过均方值的大小能够确定视频图像的失真程度。

S102、获取所述关键帧画面中的N个人脸，根据N个所述人脸统计所述关键帧画面中的视频人物数量，并根据N个所述人脸获取基于所述关键帧画面的N个人脸特征。

在上述步骤S102中，关键帧画面是基于目标视频的多个图像，每个关键帧画面中具有多个人脸，且各关键帧画面中所能检测到的人脸数量不同，则不同的关键帧画面中出现的视频人物数量不同，在本发明实施例中，将所有关键帧画面中的人脸总数量记为N。

如图2所示，在一个实施例中，上述步骤S102的根据N个所述人脸统计所述关键帧画面中的视频人物数量的一种实现方式可以为：

S10211、对所述关键帧画面的每帧画面的人脸进行特征检测，获得基于所述关键帧画面的人脸特征图像集合；

S10212、对所述人脸特征图像集合的每个特征图像进行编码，获得N个人脸特征。

在上述步骤S10211中，人脸特征图像集合包括人脸框架信息和人脸锚点信息，以人脸特征图像集合中的一个人脸特征为例，其可以为同时标记了人脸框架信息和人脸锚点信息的一个关键帧画面。

在具体应用中，人脸框架信息为上述一个关键帧画面中人脸所处的位置。例如，通过方框表示当前关键帧画面中具有人脸的范围。

在一个实施例中，结合此方框和关键帧画面，即可表示人脸在关键帧画面中的位置。

在具体应用中，人脸锚点信息为关键帧画面中人脸五官的定位点所处位置。例如，当前关键帧画面中，可以标记出基于眼睛的定位点、鼻子的定位点、嘴角的定位点、耳朵轮廓的定位点。

在一个实施例中，在当前关键帧画面中建立坐标，再通过获取上述各定位点的坐标，可以计算出人脸的面部角度。

则在本发明实施例中，上述步骤S10212的对所述人脸特征图像集合的每个特征图像进行编码之前，还包括：

利用所述人脸锚点信息将所述人脸框架信息中的人脸对齐；

则上述步骤S10212中可对所述人脸特征图像集合的每个特征图像进行编码进行编码，最终获得N个人脸特征。

如图3所示，在一个实施例中，上述步骤S102的根据N个所述人脸统计所述关键帧画面中的视频人物数量的一种实现方式可以为：

S10221、根据所述关键帧画面的每帧画面的人脸，统计所述每帧画面中出现的人脸数量，获得基于所述关键帧画面的人脸数集合；

S10222、以所述人脸数集合中的众数为所述关键帧画面的视频人物数量。

在具体应用中，假设有5个关键帧画面，第一个关键帧画面中出现的人脸数量为2，第二个关键帧画面中出现的人脸数量为2，第三个关键帧画面中出现的人脸数量为1，第四个关键帧画面中出现的人脸数量为2，第五个关键帧画面中出现的人脸数量为2，则关键帧画面的人脸数集合为[2,2,1,2,2]，其中，2为众数，关键帧画面的视频人物数量即为2。

S103、对N个所述人脸特征去噪，获得M个去噪特征。

在上述步骤S103中，对根据上述步骤S101至步骤S102所获得的N个人脸特征去噪，即对N个人脸特征进行过滤，去除其中为噪声点的人脸特征。

在一个实施例中，可以通过人脸锚点信息和人脸框架信息对N个所述人脸特征去噪，则上述步骤S103之前，包括：

根据所述人脸特征获取人脸锚点信息和人脸框架信息。

在具体应用中，结合上述的人脸特征图像集合，可知，通过人脸框架信息，可以计算出人脸在关键帧画面中的位置；通过人脸锚点信息，可以计算出人脸的面部角度。

在实际应用中，上述的人脸框架信息，可以使用人脸Bbox(Bounding Box，边界框)模型在关键帧画面中获取。

如图4所示，在一个实施例中，结合上述的人脸特征图像集合，上述步骤S103中的对N个所述人脸特征去噪，获得M个去噪特征的一种实现方式可以为：

S1031、通过所述人脸锚点信息判断第i个所述人脸特征的面部角度是否在预设角度范围内；

若第i个所述人脸特征的面部角度在预设角度范围内，则第i个所述人脸特征不为关键帧画面中的噪声画面，否则第i个所述人脸特征为关键帧画面中的噪声画面，第i个所述人脸特征不参与聚类处理；

S1032、通过所述人脸框架信息判断第i个所述人脸特征的面部位置是否在预设框架范围内；

若第i个所述人脸特征的面部位置在预设框架范围内，则第i个所述人脸特征不为关键帧画面中的噪声画面，否则第i个所述人脸特征为关键帧画面中的噪声画面，第i个所述人脸特征不参与聚类处理；

其中，i为小于或等于N的正整数。

在上述步骤S1031和步骤S1032中，人脸特征的面部角度在预设角度范围内，表示视频人物几乎正面于摄像头，此时捕捉到的人脸特征数量多、准确性高。反之，人脸特征的面部角度在预设角度范围外，表示视频人物几乎没有面向摄像头，则此时捕捉到的人脸特征数量少、准确性低，这一关键帧画面为目标视频中的噪声画面，应当执行去噪处理。

而人脸特征的面部位置在预设框架范围内，表示此时捕捉到的人脸特征没有视频人物的移动范围外，这一关键帧画面中人脸位置的捕捉正确。反之，人脸特征的面部位置在预设框架范围外，表示此时捕捉到的人脸特征在视频人物的移动范围外，这一关键帧画面中人脸位置的捕捉可能出现错误，其捕捉的可能只是与人脸相似的背景或非前景人脸，若基于此关键帧画面的人脸特征进行聚类，则可直接影响最终的视频人物的用户脸部特征的提取，因此，这一关键帧画面也为目标视频中的噪声画面，应当执行去噪处理。

通过上述步骤S103及其步骤S1031和步骤S1032，可以过滤人脸特征模糊的关键帧画面和捕捉有背景人脸的关键画面，从而避免下述步骤S104中出现错误聚类，使得用户脸部特征不能准确代表视频人物的特征的问题。

S104、根据所述视频人物数量对M个所述去噪特征进行聚类处理，获得K个聚类中心，将处于同一所述聚类中心的所述去噪特征作为同一所述视频人物的用户脸部特征。

其中，M小于或等于N，K小于或等于M，N、M、K为正整数。

在上述步骤S104中，聚类中心的数量和视频人物的数量是相同的，即一个聚类中心表示同一个视频人物，而视频人物的数量是固定的，在上述步骤S102的基于关键帧画面的人脸特征检测时直接得出。

则上述步骤S104中根据所述视频人物数量对M个所述去噪特征进行聚类处理，获得K个聚类中心的一种实现方式可以包括：

根据所述视频人物数量计算所述聚类中心的数量K；

在具体应用中，上述无监督聚类处理过程，即将M个去噪特征进行聚类，处于同一聚类中心的去噪特征表示这些去噪特征均为同一视频人物的用户脸部特征。

本发明实施例提供的特征提取方法，首先提取目标视频的关键帧画面，提高目标视频处理的效率，再基于关键帧画面进行人脸特征的检测，获得人脸特征以及视频人物数量，其中，由视频人物数量可以计算出聚类中心的数量，对上述获得的人脸特征进行去噪，可以过滤掉质量较差或特征认定错误的人脸特征，获得去噪特征。而根据去噪特征进行聚类处理时，能够避免错误聚类，提高基于目标视频的特征认定准确性，使得最终获得的用户脸部特征与视频人物一一对应，即用户脸部特征能够准确代表视频人物的特征。

如图5所示，本发明实施例还提供了一种特征提取装置50，包括：

关键帧提取模块51，用于提取待处理的目标视频的关键帧画面；

视频人物数量统计与人脸特征获取模块52，用于获取关键帧画面中的N个人脸，并根据N个人脸统计关键帧画面中的视频人物数量，和根据N个人脸获取基于关键帧画面的N个人脸特征；

人脸特征去噪模块53，用于对N个人脸特征去噪，获得M个去噪特征；

用户脸部特征获取模块54，用于根据视频人物数量对M个去噪特征进行聚类处理，获得K个聚类中心，将处于同一聚类中心的去噪特征作为同一视频人物的用户脸部特征。

其中，M小于或等于N，K小于或等于M，N、M、K为正整数。

在上述的视频人物数量统计与人脸特征获取模块52中，将获取到人脸特征图像集合，其包括人脸框架信息和人脸锚点信息。

则在上述人脸特征去噪模块53中，通过人脸框架信息，可以计算出人脸在关键帧画面中的位置；通过人脸锚点信息，可以计算出人脸的面部角度。

则在一个实施例中，上述人脸特征去噪模块53可以包括如下功能单元：

人脸锚点信息去噪单元，用于通过所述人脸锚点信息判断第i个所述人脸特征的面部角度是否在预设角度范围内；

人脸框架信息去噪单元，用于通过所述人脸框架信息判断第i个所述人脸特征的面部位置是否在预设框架范围内；

其中，i为小于或等于N的正整数。

在上述的人脸特征去噪模块及其子功能单元人脸锚点信息去噪单元和人脸框架信息去噪单元中，人脸特征的面部角度在预设角度范围内，表示视频人物几乎正面于摄像头，此时捕捉到的人脸特征数量多、准确性高。反之，人脸特征的面部角度在预设角度范围外，表示视频人物几乎没有面向摄像头，则此时捕捉到的人脸特征数量少、准确性低，这一关键帧画面为目标视频中的噪声画面，应当执行去噪处理。

通过上述的人脸特征去噪模块，可以过滤人脸特征模糊的关键帧画面和捕捉有背景人脸的关键画面，从而避免用户脸部特征获取模块中出现错误聚类，使得用户脸部特征不能准确代表视频人物的特征的问题。

本发明实施例还提供一种终端设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例中的特征提取方法中的各个步骤。

本发明实施例还提供一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述实施例中的特征提取方法中的各个步骤。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种特征提取方法，其特征在于，包括：

提取待处理的目标视频的关键帧画面；

对N个所述人脸特征去噪，获得M个去噪特征，所述M个去噪特征为过滤掉N个所述人脸特征中质量较差或特征认定错误的人脸特征后的人脸特征；

根据所述视频人物数量对M个所述去噪特征进行聚类处理，获得K个聚类中心，将处于同一所述聚类中心的所述去噪特征作为同一所述视频人物的用户脸部特征，其中，M小于或等于N，K小于或等于M，N、M、K为正整数；

其中，在所述对N个所述人脸特征去噪，获得M个去噪特征之前，所述方法还包括：

根据所述人脸特征获取人脸框架信息；

相应地，所述对N个所述人脸特征去噪，获得M个去噪特征，包括：

通过所述人脸框架信息判断第i个所述人脸特征的面部位置是否在预设框架范围内，若第i个所述人脸特征的面部位置在预设框架范围内，则第i个所述人脸特征不为关键帧画面中的噪声画面，否则第i个所述人脸特征为关键帧画面中的噪声画面，第i个所述人脸特征不参与聚类处理；其中，i为小于或等于N的正整数。

2.如权利要求1所述的特征提取方法，其特征在于，所述根据N个所述人脸获取基于所述关键帧画面的N个人脸特征，包括：

3.如权利要求2所述的特征提取方法，其特征在于，所述人脸特征图像集合还包括人脸锚点信息；

利用所述人脸锚点信息将所述人脸框架信息中的人脸对齐；

4.如权利要求3所述的特征提取方法，其特征在于，所述对N个所述人脸特征去噪，获得M个去噪特征，包括：

其中，i为小于或等于N的正整数。

5.如权利要求1所述的特征提取方法，其特征在于，所述根据N个所述人脸统计所述关键帧画面中的视频人物数量，包括：

6.如权利要求1所述的特征提取方法，其特征在于，所述提取待处理的目标视频的关键帧画面之前，包括：

计算所述目标视频的每帧视频图像的均方误差；

7.如权利要求1所述的特征提取方法，其特征在于，所述根据所述视频人物数量对M个所述去噪特征进行聚类处理，获得K个聚类中心，包括：

根据所述视频人物数量计算所述聚类中心的数量K；

8.一种特征提取装置，其特征在于，包括：

人脸特征去噪模块，用于对N个所述人脸特征去噪，获得M个去噪特征，所述M个去噪特征为过滤掉N个所述人脸特征中质量较差或特征认定错误的人脸特征后的人脸特征；

用户脸部特征获取模块，用于根据所述视频人物数量对M个所述去噪特征进行聚类处理，获得K个聚类中心，将处于同一所述聚类中心的所述去噪特征作为同一所述视频人物的用户脸部特征，其中，M小于或等于N，K小于或等于M，N、M、K为正整数；

所述人脸特征去噪模块还包括人脸框架信息去噪单元；

所述人脸框架信息去噪单元，用于根据所述人脸特征获取人脸框架信息后，通过所述人脸框架信息判断第i个所述人脸特征的面部位置是否在预设框架范围内；

其中，i为小于或等于N的正整数。

9.一种终端设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1至7任一项所述的特征提取方法中的各个步骤。

10.一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7任一项所述的特征提取方法中的各个步骤。