CN104618721A

CN104618721A - 基于特征建模的极低码率下人脸视频编解码方法

Info

Publication number: CN104618721A
Application number: CN201510043125.7A
Authority: CN
Inventors: 杨明强; 曾威; 崔振兴
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2015-01-28
Filing date: 2015-01-28
Publication date: 2015-05-13
Anticipated expiration: 2035-01-28
Also published as: CN104618721B

Abstract

本发明提供了一种基于特征建模的极低码率下人脸视频编解码方法，包括接收方接收发送方视频聊天时传输来的第一帧全部视频信息，确定人脸主体的位置；发送方提取特征点及确定眼睛和嘴巴的位置，并传输至接收方客户端；发送方提取特征点及确定眼睛和嘴巴的位置并传送，与第一帧视频信息匹配合成第二帧视频图像；与第二帧视频图像合成类似，发送方传送之后每一帧视频图像特征点及眼睛和嘴巴的位置信息，与其前一帧视频信息匹配合成该帧视频图像，直至传输第i*n帧视频图像，进入下一步；i＝1,2,3…；n≥3，i和n均为正整数；传送第i*n帧视频图像时，传输该帧全部视频信息，提取特征点及确定眼睛和嘴巴的位置并传输；接收方接收后返回上一步。

Description

基于特征建模的极低码率下人脸视频编解码方法

技术领域

本发明涉及计算机视觉和图像处理技术领域，具体涉及一种基于特征建模的极低码率下人脸视频编解码方法。

背景技术

随着社会经济的发展和人们日常生活水平的提高，使用手机、平板电脑等便携式通讯工具来进行视频聊天的方式正越来越被人们所青睐。然而，虽然无线互联网蓬勃发展，用户量与日俱增，但是由于目前的移动通讯网络速度较慢，影响了视频聊天业务的用户体验，也限制了用户实时视频聊天应用的发展。

现有的移动终端即时通讯软件，一般都是将视频数据压缩同步处理，然后通过网络传输后在另一客户端播放视频画面。但由于传输的数据始终是视频数据，数据传输流量较大，在移动通讯网络这种低码流网络下，视频易发生顿卡、跳帧，甚至无法实时显示，或者牺牲视频质量，造成视频聊天时糟糕的用户体验。目前，提出的技术方案非常少，大都是从改进移动通讯网络入手，升级3G、4G，但费用又相对昂贵，且不能从根本上解决低码率下视频聊天中出现的顿卡、无法实时显示和视频质量差等问题。

发明内容

为解决上述问题，本发明提供了一种基于特征建模的极低码率下人脸视频编解码方法，该方法能在极低码率的条件下，保证视频聊天的流畅，提高视频聊天业务的用户体验，同时为用户实时视频聊天应用提供新的应用前景。

为实现上述目的，本发明采用如下技术方案：

一种基于特征建模的极低码率下人脸视频编解码方法，包括以下步骤：

步骤1：接收方接收发送方视频聊天时传输来的第一帧全部视频信息，并对第一帧视频图像进行显著性区域检测，确定人脸主体的位置；

步骤2：发送方对确定的人脸主体的位置进行人脸建模和提取特征点，确定眼睛和嘴巴的位置，并将特征点及眼睛和嘴巴的位置信息传输至接收方的客户端；

步骤3：发送方利用第一帧已经提取出的特征点进行运动估计，对第二帧视频图像进行确定人脸主体的位置；

步骤4：利用第一帧已经提取出的特征点的运动估计进行人脸模型匹配，确定第二帧视频图像的特征点以及眼睛和嘴巴的位置，传送特征点及眼睛和嘴巴的位置信息，与第一帧视频信息进行匹配，合成第二帧视频图像；

步骤5：与第二帧视频图像合成方法类似，发送方传送之后的每一帧视频图像特征点及眼睛和嘴巴的位置信息，与其前一帧视频信息进行匹配，合成该帧视频图像，直至传输第i*n帧视频图像时，进入步骤6；其中，i＝1,2,3……，i为正整数；n≥3，n为正整数；

步骤6：当传送第i*n帧视频图像时，传输该帧全部视频信息，并对该帧视频图像进行显著性区域检测，确定人脸主体的位置和建立人脸模型，确定特征点以及眼睛和嘴巴的位置，并传输至接收方的客户端；当接收方接收后，返回至步骤5。

所述步骤3中确定人脸主体的位置的过程为：

选取不易被表情所影响的特征点进行估计，并估计其平移分量及旋转分量，得到头部的刚体运动参数，确定人脸的位置。

所述步骤4的具体过程为：

步骤4.1：利用第一帧已经提取出的特征点的运动估计进行人脸模型匹配，确定第二帧视频信息中的各特征点的坐标及幅值，确定眼睛和嘴巴的位置，对眼睛和嘴巴的区域进行DPCM差分编码；

步骤4.2：接收方收到第二帧的特征点的编码信息后，与第一帧视频信息进行匹配，来确定第二帧视频图像中人脸区域的位置与姿态，以及更新第二帧视频图像中的人脸表情；

步骤4.3：修补和填充第二帧视频图像中的背景区域，合成第二帧视频图像；

所述步骤1中的显著性区域检测算法采用基于布尔图的显著性检测模型，利用全局拓扑测度快速检测出视频聊天中最显著区域为人脸部分。

所述步骤2中建立人脸模型的算法为主动外观模型算法。

所述步骤4.2的具体过程为：

利用第二帧中的模型特征点及眼睛和嘴巴区域的信息，与第一帧中的特征点及眼睛和嘴巴区域进行匹配，计算得到映射矩阵，将第一帧图像中的人脸区域映射到新一帧的图像中；

利用接收到的眼睛和嘴巴的编码信息解码出第二帧图像中的眼睛和嘴巴，并对第一帧图像中人脸区域中的眼睛与嘴巴区域进行更新。

所述步骤4.2中第二帧信息与第一帧信息匹配的过程为：

利用汉明距离计算特征点数据间的相似性，以近邻距离与次近邻距离的比值T来确定可能正确的匹配，判定当T<0.8时，最近邻距离对应的特征点为匹配点。

所述映射矩阵为：针对匹配特征点数据，使用随机抽样一致性算法计算得到映射矩阵，将第一帧图像中的人脸区域映射到新一帧的图像中。

所述步骤4.3的具体过程为：

除了人脸区域外，第二帧视频图像中的背景区域的像素值完全利用第一帧视频图像中的像素值，对于第二帧视频图像中由于人脸区域的位移而产生的背景空洞，利用基于块的纹理合成图像修补算法对其进行背景估计并填充，填充和修补之后显示第二帧视频图像。

所述基于块的纹理合成图像修补算法是指根据图像的自相似性，利用已知图像部分对不确定区域进行填充完整。

本发明的有益效果为：

(1)本发明利用显著性区域检测，快速确定视频聊天中的人脸主体，利用主动外观模型中的建模思路对人脸进行建模，提取特征点，并利用直方图确定眼睛以及嘴巴的位置和尺度；

(2)在实时视频聊天的过程中，基于特征对视频图像编码，只传输特征点的相关信息和眼睛、嘴巴区域的编码信息，然后在接收端合成出新一帧的视频图像，大大减少了需要移动网络传输的数据量，符合手机等便携式通讯工具的低码流传输环境的特点，保证实时视频聊天的流畅性。

附图说明

图1为本发明实现流程框图；

图2为视频聊天的某一帧图像；

图3为BMS显著性检测算法流程；

图4为视频图像显著性区域检测结果；

图5为由显著性区域检测确定的人脸区域；

图6为主动外观模型的形状建模后的模型结果；

图7为参考主动外观模型对人脸区域建模的结果。

具体实施方式

下面结合附图对本发明进行详细说明。

如图1所示，本发明的基于特征建模的极低码率下人脸视频编解码方法，包括以下步骤：

步骤2：发送方对确定的人脸主体的位置进行人脸建模和提取特征点，以及确定眼睛和嘴巴的位置，并将特征点及眼睛和嘴巴的位置信息传输至接收方的客户端；

如图2所示，假设其为视频聊天时的第一帧，将第一帧视频图像完整的传输到接收端，并在发送端对第一帧视频图像进行显著性区域检测。显著性区域检测是将图像中对人类视觉系统而言最显著的区域快速检测出来。由于本发明主要针对视频聊天，所以最显著区域是人脸区域。使用显著性区域检测算法比使用人脸检测算法要快得多，更符合实时视频聊天的要求。

本实施例中的显著性检测方法为“a Boolean Map based Saliency model”(BMS)算法，能更好的分离前景目标和背景区域，检测结果如图3所示。

BMS算法的流程图如图4所示，指的是基于布尔图的显著性检测模型，利用了全局拓扑测度，这一拓扑测度已经被证明了有助于感知的图形—背景分割。BMS利用二值图像集合表示图像，根据包围度(surroundedness)来得到注意图(attention maps)，结合所有的注意图来得到平均注意图(mean attention map)，然后得到显著图。BMS算法能更好的提取前景目标，在本发明中也就是人脸区域。

利用显著性检测算法得到人脸区域，如图5所示，对人脸区域进行建模，提取特征点，如图6所示。本发明的建模采用了主动外观模型的特征点标定以及建立形状模型的方法。特征点标定的原则是用最少的点来概括人脸的主要信息,使这些点能显示出人脸的主要特征。而建立形状模型则是利用这些特征点来建立能刻画人脸形状的网格模型。这两步都是利用人脸图像训练集来完成的。主动外观模型建立的形状模型如图7所示，当主动外观模型建模完成后，眼镜、嘴巴区域的具体位置也就确定了。

当要传输第二帧图像时，利用第一帧中已经提取的特征点进行运动估计。先在头脸部确定一些不易被表情变化干扰的关键特征点，如耳根、鼻尖等，然后用最小平均绝对值误差(MAD)准则找到对应点，利用这些点的位移通过两步迭代法求出头部的运动参数，这样就确定了人脸区域，并将建立的人脸模型匹配到第二帧的人脸上，提取特征点的坐标及幅值，确定眼睛、嘴巴的位置和尺度并对其DPCM差分编码。此时只传输特征点的相关信息和眼睛、嘴的编码信息，大大减少所需传输的数据量，以满足在低码流下的实时性要求。

接收方接收到传输过来的第二帧的信息，与第一帧人脸模型的特征点及眼睛、嘴巴区域进行匹配，由匹配数据，计算得到映射矩阵，将第一帧图像中的人脸区域映射到新一帧的图像中。并利用新一帧的眼睛、嘴的编码信息对第一帧人脸区域中的眼睛、嘴进行更新，以更新人脸表情。

第二帧中除了人脸区域以外的背景区域，完全利用第一帧中的背景区域的像素值进行填充，对于第二帧视频图像中由于人脸区域的位移而产生的背景空洞，利用基于块的纹理合成图像修补算法，对其进行背景估计并填充。基于块的纹理合成图像修补算法是指根据图像的自相似性，利用已知图像部分对不确定区域进行填充。在本发明中，需要修补填充的是图像背景中由于人脸区域移动而出现的空洞，因此可以利用背景区域中的相似部分对其进行填充修补。

以后的若干帧图像的传输同传输第二帧视频图像一样，只传输特征点的信息及眼睛和嘴的编码信息，在接收端再合成出视频图像，大大减少网络传输的数据量，在低码流下实现实时性的要求。

为了更新人脸的细节以及背景等图像信息，需要对视频图像整体进行更新，每当传送第i*n帧视频图像时，传输该帧全部视频信息，并对该帧视频图像进行显著性区域检测，确定人脸主体的位置和建立人脸模型，确定特征点以及眼睛和嘴巴的位置，并传输至接收方的客户端；其中，i＝1,2,3……，i为正整数；n≥3，n为正整数。本发明设计为交互式设计，用户可根据自身码流的具体情况设置更新的频率，以达到最佳的用户体验。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于特征建模的极低码率下人脸视频编解码方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于特征建模的极低码率下人脸视频编解码方法，其特征在于，所述步骤3中确定人脸主体的位置的过程为：

3.如权利要求1所述的一种基于特征建模的极低码率下人脸视频编解码方法，其特征在于，所述步骤4的具体过程为：

步骤4.3：修补和填充第二帧视频图像中的背景区域，合成第二帧视频图像。

4.如权利要求3所述的一种基于特征建模的极低码率下人脸视频编解码方法，其特征在于，所述步骤4.2的具体过程为：

利用第二帧中的模型特征点及眼睛和嘴巴区域的信息，与第一帧中的特征点及眼睛和嘴巴区域进行匹配，计算得到映射矩阵，将第一帧图像中的人脸区域映射到新一帧的图像中；利用接收到的眼睛和嘴巴的编码信息解码出第二帧图像中的眼睛和嘴巴，并对第一帧图像中人脸区域中的眼睛与嘴巴区域进行更新。

5.如权利要求3所述的一种基于特征建模的极低码率下人脸视频编解码方法，其特征在于，所述步骤4.2中第二帧信息与第一帧信息匹配的过程为：

6.如权利要求4所述的一种基于特征建模的极低码率下人脸视频编解码方法，其特征在于，所述映射矩阵为：针对匹配特征点数据，使用随机抽样一致性算法计算得到映射矩阵，将第一帧图像中的人脸区域映射到新一帧的图像中。

7.如权利要求3所述的一种基于特征建模的极低码率下人脸视频编解码方法，其特征在于，所述步骤4.3的具体过程为：

8.如权利要求7所述的一种基于特征建模的极低码率下人脸视频编解码方法，其特征在于，所述基于块的纹理合成图像修补算法是指根据图像的自相似性，利用已知图像部分对不确定区域进行填充完整。

9.如权利要求1所述的一种基于特征建模的极低码率下人脸视频编解码方法，其特征在于，所述步骤1中的显著性区域检测算法采用基于布尔图的显著性检测模型，利用全局拓扑测度快速检测出视频聊天中最显著区域为人脸部分。

10.如权利要求1所述的一种基于特征建模的极低码率下人脸视频编解码方法，其特征在于，所述步骤2中建立人脸模型的算法为主动外观模型算法。