CN104023216B

CN104023216B - 人脸视频压缩方法

Info

Publication number: CN104023216B
Application number: CN201410231902.6A
Authority: CN
Inventors: 陶晓明; 李扬; 陆建华; 葛宁
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2014-05-28
Filing date: 2014-05-28
Publication date: 2017-02-15
Anticipated expiration: 2034-05-28
Also published as: CN104023216A

Abstract

一种人脸视频压缩方法，属于多媒体通信时人脸视频数据压缩技术领域，其特征在于，在发送端利用人脸模型进行视频中人脸的定位和参数化表征，得到由光照参数向量、姿态参数向量和形状和外观联合参数向量表示的人脸模型参数向量，并进行基于给定欲保留参数的帧样本个数时的全局最小参数误差和模型参数总比特小于给定上限的约束，把最优自适应帧间压缩后的人脸模型参数向量发送给接收端再利用独立分片线性插值方法进行人脸模型参数向量的恢复，经过人脸形状计算和经过恢复的人脸外观，得到原图像，在大大提高人脸视频压缩比的同时保证了最优重建质量，在时域上最大限度除去人脸视频中的冗余，从而提高了通信资源利用率。

Description

人脸视频压缩方法

技术领域

本发明提供了一种人脸视频压缩方法，属于多媒体通信技术领域。特别设计一种针对人脸视频数据的压缩算法，对数据进行均匀量化和自适应线性插值，主要用于降低视频的数据传输量，可以在极低码率的条件下得到很好的效果，在节约通信资源的同时提供高质量的视频通话、视频会议等视频通信服务。

背景技术

数字多媒体通信是当前通信技术众多领域中最具挑战性、发展最快、研究最活跃的领域之一。自从二十世纪九十年代以来，从数字电视广播到无线多媒体通信等技术已在世界各国陆续得到普遍应用。互联网的普及使得多媒体通信摆脱了电视的局限：Skype、Google Talk等视频聊天软件的出现让人们可以通过电脑进行视频通话、远程会议等多媒体通信。而今，随着智能手机的快速发展，移动终端上例如Facetime和Tango等的应用使多媒体通信在移动网络上普及，用户越来越多地期望得到方便、快捷、无所不在的多媒体通信服务。

另一方面，多样的多媒体通信服务带来了多媒体数据的急剧增长。Cisco在其Visual Network Index(VNI)白皮书中进行了对于近年来采集的移动数据业务相关统计数据的总结与分析，以及对于未来几年的移动数据业务发展的预测。其中指出，2011年全球移动数据使用量达到每月0.6艾字节，是2010年的2.3倍，并且其中移动视频数据量首次突破了50％。这充分表示了当前多媒体，特别是视频数据对于带宽的巨大需求。白皮书还提出在2016年，移动数据量将达到10.8艾字节/月，其中70％以上将为移动视频数据；这对于现有的移动网络提出了严峻挑战。

同时，在如今众多视频通信业务中，视频通话占据愈发重要的位置。2010年PEW进行的统计研究表明，19％的美国用户曾经在线使用手机尝试过视频通话、聊天、会议等多媒体服务，而40％的Skype通话都是视频通话。2012年12月10日的纽约时报刊登的“MobileVideo Creating a New Frontier”文章指出，“科技行业的下一个战场将是你的脸一一让亲朋好友随时随地看见你的脸。”尽管如此，移动视频通话目前尚未得到广泛应用，而视频编码码率较高是一个重要原因；其直接后果包括由无线信道的时变特性造成的通话质量难以保证，以及由于较高数据流量造成的更高通信成本。随着视频通话在移动视频业务中的地位日益提升，针对视频通话特定场景设计的低码率高效视频编码方法将能够有效降低移动视频业务的整体带宽需求，促进移动视频应用和服务的进一步推广和发展。

传统视频编码方法一般是结合了可减少时间冗余的帧间预测和可减少空间冗余的DCT或小波变换的混合编码方法，将视频数据视为具有某些统计特征的随机信号进行编码，而对视频的具体内容不予考虑。然而，人脸视频(如视频通话、会议等)具有相当明显的特征，且人们对于其主体(即人脸)有着非常丰富的先验知识。传统视频编码方法将所有信息一视同仁地编码传输，其中很多关于人脸的共性冗余信息被视为新信息重复传递，浪费了大量网络带宽资源。为了提高人脸视频的压缩效率，有研究人员针对人脸视频的特征，提出了一系列基于模型的视频编码方法。这类方法通过对人脸建模，实现对视频中人脸的参数化表征，使得在传输视频时只需要传输模型的一些参数就可以在接收端利用人脸模型重建出目标。与一般通用视频编码方法相比，这一成果通过利用模型的先验信息降低了视频传输数据量，节省了带宽资源。然而，使用这种压缩方法压缩得出的模型参数向量在时域变化缓慢，视频中前后帧的人脸模型参数仍然具有很大的冗余度和压缩空间。

发明内容

本发明要解决的技术问题是：如何提供一种人脸视频压缩方法，在减少人脸的共性冗余信息重复传递的同时，减少人脸参数化表征后所得到的模型参数向量的时域冗余度，最大限度提高人脸视频的压缩效率，节省网络带宽。

本发明的特征在于，是一种在移动视频通话时对前后帧的人脸模型参数进行时域冗余度压缩的人脸模型的视频编码方法，是在移动视频通话系统的发射端和接收端中依次按以下步骤实现的：

步骤(1)，系统初始化，

使用至少包括云存储、介质存储、闲时传输在内的任何一种方法在发射端和接收端各建立一个统一的人脸模型，步骤如下：

步骤(1.1)，采集D帧人脸图像，构建一个人脸图像训练数据库，包括：人脸训练图像集和人脸训练数据集，前者存储供训练用的D帧人脸图像，后者存储每帧人脸图像的相关训练数据，所述人脸训练参数，也称人脸模型参数，包括：

人脸形状向量S_i，i为所述D张人脸图像的序号，i＝{1，2，...，i，...，D}，D为有限正整数，还有人脸平均形状向量

姿态参数向量(v_i，θ_i)，表示人脸在视频帧中的位置和角度，是用普鲁克分析方法Procrustes Analysis对所述人脸形状向量S_i和平均人脸形状向量用平移和旋转变换校正后得到的平移量V_i和旋转角θ_i，

人脸形状参数向量b_si，表示至少包括轮廓、五官的位置、大小、形状和动作在内的人脸特征，

人脸外观向量g_i，是以所述人脸平均形状向量为目标，通过分片仿射拉伸Piecewise Affine Warping方法使所述人脸形状向量S_i所定义的特征点与人脸平均形状向量所定义的同一个特征点位置相吻合从而得到的一幅由人脸图像中人脸部分的像素值所拉成的向量人脸平均外观向量是对人脸训练数据集中所有人脸外观向量进行平均所得到的，

光照参数向量(μ_i，σ_i)，与拍摄时的光照条件、亮度、对比度和光照角度有关：

μ_i＝mean(g_i)，σ_i＝var(g_i)，

是对所述人脸外观向量g_i做像素强度归一化后得到的光照归一化外观向量，

μ_i是归一化过程得到的平均像素强度，mean为平均值，

σ_i是归一化过程得到的像素强度标准差，var为标准差，

步骤(1.2)，按以下方法计算步骤(1.1)中所述的各人脸训练参数：

所述人脸形状向量S_i，是对第i帧人脸图像用Regularized Landmark Mean-Shift人脸定位算法所得到的s_i＝{(x_i1，y_i1)，...，(x_ij，y_ij)，...，(x_iF，y_iF)}，其中：

j为特征点序号，j＝{1，2，...，j，...，F}，F为特征点数目，

所述人脸平均形状向量为：

所述形状向量参数其中：

P_s是对所有的所述人脸形状向量S_i，i＝{1，...，i，...，D}用主成分分析方法Principal ComponentAnalysis得到的人脸形状变化模式矩阵，为一个列正交矩阵，每一列表示人脸的一种整体运动模式，与反映人脸姿态及外观变化的人脸特征的坐标的整体运动模式，

发射端对任一帧i实时输入的人脸图像，按以下步骤计算最终需压缩的人脸模型参数向量p_i：

p_i＝{(v_i，θ_i)，(μ_i，σ_i)，c_i}，

步骤(2)，发射端对于实时到入的所述D帧人脸图像中的任选帧i按下式计算最终需压缩的某i个人脸模型参数向量p_i：

p_i＝{(v_i，θ_i)，(μ_i，σ_i)，c_i}，其中C_i为任选帧的联合参数向量，其中：

b_si为第i帧人脸形状参数向量，b_si＝P_s ^Ts_i，

为第i帧人脸外观参数向量，

b_i为第i帧人脸形状与外观联合参数向量，

为D帧人脸图像的平均人脸形状与外观联合参数向量，

P_g为对所述人脸训练数据集中的所有人脸外观向量g_i进行主成分分析PrincipalComponent Analysis而得到的人脸外观变化模式矩阵，为一个列正交矩阵，每一列表示由人脸姿态、动作变化造成的人脸外观像素值的一种整体变化模式，

Q是根据对所述人脸训练数据集中的人脸形状参数向量b_si和人脸外观参数向量计算得到的人脸形状和外观联合参数向量b_i，i＝{1，...，i，...，D}进行主成分分析Principal Component Analysis而形成的人脸形状和外观联合参数变化矩阵，为一个列正交矩阵，每一列表示所述人脸形状参数向量b_si和人脸外观参数向量的一种联合变化模式；

步骤(3)，对于步骤(2)得到的人脸模型参数向量p_i依次按以下步骤进行最优自适应帧间压缩，满足给定的模型参数压缩比目标，并把压缩后的人脸模型参数向量p′_i发送给接收端；

步骤(3.1)，设定：M为在设定时间段内输入并缓存的人脸模型参数向量p的缓存帧数，用p_i表示，i＝{1，...，i，...，M}为人脸模型参数向量p的序号，M在数值上等于人脸图像帧数D，

N为欲保留的缓存帧数，M>N，

步骤(3.2)，对所述M个人脸模型参数向量p按以下步骤进行最优多边形近似插值，以便得到N个样本时全局的所有人脸模型参数v、θ、μ、σ、c的全局参数误差最小，步骤如下：

步骤(3.2.1)，在所述M个缓存帧中，保留首、尾两个缓存帧，则每两个相邻人脸模型参数向量间在线性插值后跳过的样本个数为

步骤(3.2.2)，根据步骤步骤(3.2.1)得到的结果对经过线性插值后得到的所有人脸模型参数向量p，对其中v、θ、μ、σ、c共五个人脸模型参数中的每一个，构筑其与任意一个相邻的人脸模型参数向量中同一类别的人脸模型参数之间通过同样的线性插值方式得到的近似结果与原数据之间的误差，用误差的平方和表示为e_i，i′，组成误差平方和矩阵E＝[e_i，i′]，1≤i≤M，1≤i′≤M，若：i′≥i，则e_i，i′＝0，

步骤(3.2.3)，定义方矩阵H＝[h_i，i′]，1≤i≤M，1≤i′≤M，h_i，i′表示把步骤(3.2.2)中第1个人脸模型参数到第i个人脸模型参数之间分成k段再进行所述同样的线性插值方式得到的最小的逐点误差平方和，1≤i≤M，1≤i′≤M，i，i′为k段内的任意二个人脸模型参数向量中同一类别人脸模型参数的对应的参数点，且i′≥i时，h_i，i′＝∞，

步骤(3.2.4)，定义矩阵F＝[f_i′，i]，1≤i≤M，1≤i′≤M，i′<i，f_i′，i表示在步骤(3.2.3)中在把第1个到第i个人脸模型参数分成k段进行线性插值得到最小的逐点误差平方和时，第i个人脸模型参数之前的原始人脸模型参数序号，且i′≥i时，f_i′，i＝-1，

步骤(3.2.5)，依次按以下步骤计算任意一个人脸模型参数向量p_i中任意一个人脸模型参数在得到给定欲保留的缓存帧数N时的全局最小人脸模型参数误差及其序号f_l，m，

设定：先后次序：段号m从1～m_max，l从1～l_max，段号l为不保留的M-N个缓存帧样本的各段的序号，循环执行以下操作：把M个人脸模型参数向量分为从第1个人脸模型参数向量开始的N-1段欲保留的缓存帧数和从第m_max+1个人脸模型参数向量开始的M-N段不保留的人脸模型参数向量两大段，分别计算出对应于每个人脸模型参数向量中各类人脸模型参数点的误差平方和，再求出两者之和的最小值a_l，m，即得到对应于每个人脸模型参数的全局最小参数误差a_l，m及其序号f_l，m；

下标i，i′为N-1段内的二个参数点，m＝{1，2，...，N-1}，i≠i′，

下标i″，i为M-N段内的二个参数点，l＝{m_max+1，...，M}，i≠i″，

arg为对段中的点i取值，m_max＝N-1，l_max＝M-1，

全部所述各类人脸模型参数的全局最小误差a_l，m的向量为A_L，M，

步骤(3.2.6)，根据步骤(3.2.5)的结果，构造一个人脸模型参数误差矩阵R，简称参数误差矩阵，行数为所述人脸模型参数向量中人脸模型参数的个数，每一行对应一个人脸模型参数，

步骤(3.2.7)，依次按以下步骤，按照任意可能的量化比特数与丢帧数的组合，计算在使用所选组合时该组合的模型参数在所述缓存帧中所造成的参数误差的和：

步骤(3.2.7.1)，当所述参数误差矩阵R的每一行对应一个精度为b比特的一个所述人脸模型参数向量p_i中的一个人脸模型参数时，把每一行分为17块，每块对应一个量化比特数，共对应0～16比特共17个量化比特数，

步骤(3.2.7.2)，在所述多边形近似插值公式下，步骤(3.2.7.1)中每一个所述的块对应于各类人脸模型参数下的量化比特数和丢帧数，构成所述参数误差矩阵R的各个元素，

步骤(3.2.7.3)，遍历所述参数误差矩阵R中的各个元素，得到对应的量化比特数和丢帧个数，计算对应的经过所述的多边形近似插值方式得到的所述人脸模型参数与原始的所述人脸模型参数的误差，用∈(p_i)表示，对于不同物理意义的所述人脸模型参数的所述误差进行下述人为对p_i进行扰动Δp_i后再测量重建图像的误差，用∈(p_i+Δp_i)表示，得到所述人脸模型参数误差矩阵R的近似重构误差矩阵∈所需要的加权参数其中：

对所述人脸模型参数误差矩阵R中的每一行使用上述加权即得到近似重构误差矩阵∈，

步骤(3.2.7.4)，根据步骤(3.2.7.3)得到的近似重构误差矩阵∈，就得到对应的由量化比特数和丢帧个数相组合成的不同的组合方案，

步骤(3.2.8)，按以下步骤生成一个与所述近似重构误差矩阵∈大小相同的比特开销矩阵W，记录所有人脸模型参数的所有组合方案的比特开销：

步骤(3.2.8.1)，设定：所述比特开销矩阵W：行数为所述人脸模型参数的个数，列数等于欲保留的缓存帧数N，行序号为对应的人脸模型参数的序号，列为所述量化比特数b的17个块，矩阵元素代表第i个人脸模型参数采用量化比特数b和丢帧个数M-N的组合方案时的比特开销，

步骤(3.2.8.2)，对于第i个人脸模型参数向量p_i，在整段传输过程中产生的总信令开销：

第1个比特，表示所述人脸模型参数向量p_i是否需要传输；1表示需要传输，0表示不需要传输，

第2～10个比特表示每个需要传输的人脸模型参数向量p_i的4个量化比特数和欲保留的所述人脸模型参数的5个人脸模型参数向量的样本数，分别表示v、θ、μ、σ、c，

步骤(3.2.8.3)，第i个人脸模型参数向量p_i在整个传输过程中产生的总数据开销：欲保留的人脸参数帧样本个数N与对应的人脸模型参数的量化比特数b的乘积，

步骤(3.2.8.4)，对所述比特开销矩阵W中的所有矩阵元素，按步骤(3.2.8.1)-步骤(3.2.8.3)分别计算其对应的总信令的和总数据的开销，输入到所述矩阵元素中，

步骤(3.2.9)，依次按以下步骤采用时间开销较小的近似启发式算法求出人脸模型参数向量最小化的总比特开销作为总的实际比特开销：

步骤(3.2.9.1)，对所述近似重构误差矩阵∈进行分行排序：

步骤(3.2.9.1.1)，对每一行的各个所述近似重构误差从左到右依次递减排序得到一个重排近似误差矩阵简称矩阵并记录排序前各所述近似重构误差所对应的各元素的序号在排序后的对应位置，所述元素是指所述人脸模型参数向量中的一个人脸模型参数的一个所述组合方案，再根据所述排序前后序号的对应关系把所述比特开销矩阵W的每一行重新排列构成一个对应于各所述人脸模型参数的元素值的重排比特开销矩阵简称矩阵

步骤(3.2.9.2)，记录所述矩阵中每一行元素从右到左的元素值的依次递增的误差增量，

步骤(3.2.9.3)，以所述矩阵中每一行元素最右端的元素最为起始元素，按照当前的组合方案中选取的量化比特数与丢帧数计算出这种组合所需要的总比特开销，

步骤(3.2.9.4)，若所述总比特开销大于给定的上限值，则根据当前选取的元素向左选取一个误差增量最小的元素，

步骤(3.2.9.5)，若步骤(3.2.9.4)中所选定的元素仍然满足不了总比特开销小于给定上限的要求，则根据当前选定的元素，对另一个更向左的元素重复步骤(3.2.9.4)，直到满足要求为止；

步骤(3.2.9.6)，根据步骤(3.2.9.5)的结果，进行所述人脸模型参数向量p_i的压缩，把结果发送给接收端；

步骤(4)，接收端根据发送端提供的量化比特数和丢帧数的组合方案以及压缩后的人脸模型参数向量p′_i中各类人脸模型的参数，采用同样方式的线性插值方法进行人脸模型参数向量p_i的恢复，

步骤(5)，依次按以下步骤进行人脸视频图像重建：

步骤(5.1)，把所述的人脸形状和外观联合变化模式矩阵Q分为行数等于所述形状参数向量b_s元素个数的Q_s和行数等于所述外观参数向量b_g的元素个数的Q_g，

步骤(5.2)，按下式计算人脸形状向量s和人脸外观向量g：

步骤(5.3)，按下式对人脸外观向量g进行光照反归一化，恢复原图光照，得到原图光照的人脸外观向量g：

g＝σg+μ，

步骤(5.4)，通过分片仿射拉伸的方法，将原图光照的人脸外观向量g从由人脸平均形状向量所表示的特征点坐标位置拉伸至由人脸形状向量s所表示的特征点坐标位置。

本发明的人脸视频压缩方法，通过对人脸视频参数化表征以及对所得模型参数向量的最优自适应帧间压缩，在大大提高人脸视频压缩比的同时保证最优的重建质量，最大限度去除人脸视频中的冗余信息，提高了通信资源的利用效率。

附图说明

图1是本发明实施例整体发明流程图。

图2是本发明实施例模型参数向量压缩方法的基本流程图。

图3是本发明实施例比特分配算法流程图。

具体实施方式

为解决上述技术问题，本发明提供了一种人脸视频压缩方法，该方法包括步骤：

S1、在视频通信前，将人脸模型在发送端和接收端之间共享；

S2、利用该模型，进行视频中人脸的定位和参数化表征，得到模型参数向量；

S3、对模型参数向量进行最优自适应帧间压缩，达到总比特开销小于给定比特开销上限的要求，并将压缩后的模型参数向量发送给接收端；

S4、接收端接收到发送端发送的压缩后模型参数向量后，对其进行解压缩；

S5、接收端利用解压缩的模型参数向量和′共享的人脸模型进行人脸图像重建。

优选的，所述步骤S1中发送端和接收端之间的人脸模型通过云存储、介质存储或闲时传输的方式进行共享。

优选的，所述步骤S2中人脸图像的参数化表征为：

S2.1、姿态参数向量，即人脸在视频帧中的位置、大小、角度；

S2.2、光照参数向量，即拍摄时的光照条件、亮度、对比度、光源角度等；

S2.3、形状参数向量，即人脸的轮廓、五官位置、大小、形状、动作等特征；

S2.4、外观参数向量，即人脸表面的像素特征。

优选的，所述步骤S3中模型参数向量的最优自适应帧间压缩方法为：

S3.1、对输入人脸模型参数向量进行缓存，积累一定时间的模型参数向量进行联合压缩；

S3.2、对于模型参数向量中的所有模型参数，生成一个参数误差矩阵，对于任意可能的量化比特数与丢帧数的组合，计算对该模型参数使用该组合在所有缓存帧中所造成的参数误差的和；

S3.3、对于模型参数向量中的所有模型参数，估计模型参数误差与视频重建误差之间的关系，并根据该关系对S3.2中得到的参数误差矩阵进行加权，得到该模型参数的重建误差矩阵；

S3.4、以压缩比为约束，根据所有模型参数的重建误差矩阵，对重建误差进行组合优化，对于模型参数向量中的所有模型参数，得到最小重建误差的量化与丢帧组合，并对该参数依据得到的组合进行量化和丢帧。

优选的，所述步骤S4中模型参数的解压缩方法为：

S4.1、从发送端得到一定时间内的型参数向量中的所有模型参数的量化和丢帧的组合，以及依据该组合进行量化丢帧压缩后得到的模型参数；

S4.2、对于模型参数向量中的所有模型参数，根据该参数的量化比特数，恢复该参数的精度；

S4.3、对于模型参数向量中的所有模型参数，根据该参数的丢帧数，使用插值方法恢复出丢掉的参数帧。

优选的，所述步骤S5中使用接收端得到解压缩后的模型参数向量后，根据共享的人脸模型，首先恢复人脸表面外观，然后恢复人脸姿态和几何形状，最后通过变形拉伸，重建出所传人脸当时的表情和动作。

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示

本发明实施例提供一种人脸视频传输方法，该方法包括步骤：

S3、对模型参数向量进行最优自适应帧间压缩，达到目标模型参数压缩比，并将压缩后的模型参数向量发送给接收端；

S5、接收端利用解压缩的模型参数向量和分享的人脸模型进行人脸图像重建。

步骤S1中

采用云存储，介质存储，闲时传输等等手段使接收和发送端达到模型的统一。人脸模型包括人脸平均形状人脸形状变化模式矩阵P_s，人脸平均外观人脸外观变化模式矩阵P_g，形状外观联合平均参数以及形状外观联合变化模式矩阵Q。

步骤S2中

得到一帧新的该用户人脸视频图像I，对其进行参数化表征的方法为：

1)对I使用人脸定位算法，得出人脸形状向量s。

2)通过校正所述人脸形状向量s和平均人脸形状向量之间的平移和旋转变换关系，得到的校正后的人脸形状向量并把校正过程中得到的平移量V和旋转角度量θ称为姿态参数向量(v，θ)，表示人脸在视频帧中的位置和角度。

3)根据下式得出此帧的形状参数向量：

4)将I中的人脸分片仿射拉伸至平均形状并进行像素强度归一化，得到外观向量g，并在归一化过程中，得到归一化前的平均像素强度μ和像素强度标准差σ。记(μ，σ)为该帧的光照参数向量。

5)根据下式得出此帧的外观参数向量b_g：

6)根据下式得出此帧的形状外观联合参数向量b：

7)根据下式得出此帧的联合参数向量c：

最终需压缩的人脸模型参数向量p由(v，θ)，(μ，σ)，以及c组成。

步骤S3中

由图2所示，在进行模型参数压缩时，主要利用主动丢帧而后线性插值的方法来减少需要传输的参数样本个数，并使用量化的方法减少每一个参数样本所需要的比特数量。为了在帧间压缩的同时优化重建质量，我们据此对于所有模型参数进行误差分析计算，得到不同的量化比特数和保留样本个数条件下采用两种不同插值方式的误差，再对参数误差进行加权得到重构图像的近似误差，之后根据重构图像误差进行组合优化，得到一定比特数量下重构图像误差最小的所有模型参数的量化和丢帧组合方案。

在对于模型参数向量中任一参数在时域进行丢帧插值的时候，同时采用了以下两种方式：

1)均匀插值方式：

模型参数缓存帧的总个数为M，给定欲保留参数的样本个数N，规定第一个参数和最后一个参数必须作为样本，则每两个欲保留样本之间丢弃的参数帧个数为，在欲保留样本之间进行线性插值。

2)最优多边形近似插值方式：

这个方法可以得到给定欲保留参数的样本个数时的全局最小参数误差。模型参数缓存帧的总个数为M，给定参数的样本个数N，具体步骤如下：

步骤1：初始化，对于所有j＝{1，...，j，...，M}，计算j帧中所缓存的人脸模型参数中任意两点之间通过线性插值得到的近似结果与原数据之间的误差，用逐点误差的平方和表示，并记录在矩阵D中，D＝[d_i，j]，1≤i≤M，1≤j≤M，其中d_i，j表示第i个点和第j个点之间的线性插值数据与原始数据之间误差的平方和，且如果j≥i，则d_i，j＝0。

步骤2：定义矩阵G＝[g_i，j]，1≤j≤M，1≤i≤M，其中g_ij表示将第1个参数到第i个参数分成j段进行线性插值的最小的所述逐点误差平方和，且规定当j≥i时g_ij＝∞。

步骤3：定义矩阵F＝[f_i，j]，0≤j≤M，0≤i≤M，其中f_ij表示将第1个参数到第i个参数分为j段进行插值取得最小误差的平方和时，第i个参数之前的原始参数序号，且规定当j≥i时f_ij＝-1。

步骤4：定义l为参数的位置，m为近似折线的段数，进行如下操作：

循环：m从1到N-1：

循环：l从m+1到l_max＝M-1：

步骤4.1：

步骤4.2：

结束

所求的误差为gM(N-1)，选择的样本序号可通过矩阵F从元素f_M(N-1)逐个回溯得到。

对于所有模型参数的所有可能的量化和丢帧组合方案所造成的误差进行比较分析的方法，包括下列步骤：

1)构造一个参数误差矩阵R，其行数为一个模型参数向量中参数的个数，每一行对应一个模型参数；

2)对一个精度为64比特的模型参数，用均匀量化的方式量化到0比特(不传)至16比特不等，将矩阵R的每一行都分为17块，每一块对应一个量化比特数；

3)对矩阵R中的每一个块，按照插值方式的数量将其划分为对应的单元，每个单元对应固定的插值方式，在本实施方式中使用两种差值方式：多边形近似方式和均匀插值方式；

4)根据固定长度视频缓存的帧数，将第3)步中划分的单元再进一步划分为对应的元素，每个元素对应固定的量化比特数和丢帧个数组合方案下相应的模型参数样本个数；

5)遍历矩阵R中的元素，根据元素所处的位置可以得到对应的量化比特数和丢帧个数的组合方案，计算这样的条件下经过插值得到的模型参数数据与原始模型参数数据误差，存入元素中。

在对模型参数进行误差计算时，由于不同的模型参数所代表的物理含义不同，其对于最终重建质量的影响也不尽相同，因此无论是在多边形近似方法还是均匀插值方法处理之后，在对重构图像误差进行比特分配优化之前都需要进行误差加权，而加权的权值由数值实验方法估计得到，加权后得到近似重构误差矩阵E。

不同的量化丢帧组合方案，除了会造成不同的重建误差，也拥有不同的比特开销。一般来说，对于任意模型参数，比特开销越低的方案，造成的重建误差就越大。为了考虑比特开销的影响，需要生成一个比特开销矩阵W，记录对于所有模型参数的所有组合方案的比特开销，其元素的位置与矩阵E中元素的位置有相同含义，其基本的结构与计算方法如下：

1)模型参数向量的整体传输产生一个总信令开销，其中包括：

a)模型参数向量中哪些模型参数是需要传输的，对每个参数均采用1个比特表示是否传输；

b)每个需传输的模型参数的量化比特数和欲保留的样本个数各是多少，对每个参数，均用4个比特表示量化比特数，用5个比特表示欲保留的样本个数；

2)每一个模型参数可能产生一些信令开销，如使用最优多边形近似方法，则每一个保留的参数样本都需要5比特传输该样本所在的帧数，而均匀丢帧则不需传输此信息。

2)实际模型参数数据的比特开销。

为了得到一定比特数量下最优的重构图像，需要对于所有模型参数在所有可能的量化和丢帧组合方案中间进行选择。因为不同的量化比特数和丢帧个数组合对应着不同的数据量，因此，在进行组合方案选择时，需要结合选定组合方案的数据量及其造成的重构图像误差进行合理选择。这实际上是解决如下的MMKP(Multiple-choice Multi-dimensionalKnapsack Problem，多选背包)问题：

其中，n表示模型参数向量的长度；r_i表示第i个模型参数所有可能的量化丢帧组合方案的个数；e_ij表示第i个参数采用第j种组合方案后与原参数数据之间的误差；Err表示总的近似视频重建误差；ω_ij表示第i个参数采用第j种组合方案所需的比特数；B为比特数的上限；x_ij表示对第i个参数而言，是(x_ij＝1)否(x_ij＝0)选择第j种组合方案。

这种MMKP问题可以采用时间开销较小的启发式算法求解。由图3所示：

1)对矩阵E进行分行排序，每一行的元素经过排序后都是从左到右依次减小，同时记录各个排序之前各元′素序号在排序后的对应位置，并根据矩阵E中元素位置的变化将矩阵W按照元素的对应关系重排。

2)记录矩阵中每一行元素从右至左的元素值的增量。

3)选取矩阵E中每一行最右端的元素作为起始，由此开始，根据当前选取的元素，由矩阵W中对应的元素计算出这种组合方案选择的总比特开销。

4)如果总比特开销大于给定的上限，那么就根据当前选取的元素选取造成误差最小增量的另一个元素，对应位置的误差加上增量之后，更新选取的元素信息，重复第3)步；如果总比特开销小于等于给定的上限，输出当前选择的元素信息，算法结束。

步骤S4中

模型参数解压缩的方法，根据发送端提供的量化和丢帧组合方案和压缩后的模型参数数据，采用独立分片线性插值方法进行模型参数向量的恢复。

步骤S5中

利用人脸模型和解压缩后的模型参数向量进行人脸视频图像重建的方法，其具体方法为：

1)将Q分为行数等于所述形状参数向量b_s元素个数的Q_s和行数等于所述外观参数向量b_g的元素个数的Q_g。依下式计算人脸形状向量s和人脸外观向量g：

2)依下式对g进行反归一化，恢复原图光照：

g＝σg+μ

3)通过分片仿射拉伸的方法，将原图光照的人脸外观向量g从由人脸平均形状向量所表示的特征点坐标位置拉伸至由人脸形状向量s所表示的特征点坐标位置，完成重建过程。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种人脸视频压缩方法，其特征在于，是一种在移动视频通话时对前后帧的人脸模型参数进行时域冗余度压缩的人脸模型的视频编码方法，是在移动视频通话系统的发射端和接收端中依次按以下步骤实现的：

步骤(1)，系统初始化，

使用至少包括云存储、介质存储、闲时传输三种方法之一的任何一种方法在发射端和接收端各建立一个统一的人脸模型，步骤如下：

步骤(1.1)，采集D帧人脸图像，构建一个人脸图像训练数据库，包括：人脸训练图像集和人脸训练参数集，前者存储供训练用的D帧人脸图像，后者存储每帧人脸图像的相关训练数据，人脸训练参数，也称人脸模型参数，包括：

人脸形状向量S_i，i为所述D帧人脸图像的序号，i＝{1，2，...，i，...，D}，D为有限正整数，还有人脸平均形状向量

姿态参数向量(v_i，θ_i)，表示人脸在视频帧中的位置和角度，是用普鲁克分析方法Procrustes Analysis对所述人脸形状向量S_i和人脸平均形状向量用平移和旋转变换校正后得到的平移量v_i和旋转角θ_i，

人脸外观向量g_i，是以所述人脸平均形状向量为目标，通过分片仿射拉伸PiecewiseAffine Warping方法使所述人脸形状向量S_i所定义的特征点与人脸平均形状向量所定义的同一个特征点位置相吻合从而得到的一幅由人脸图像中人脸部分的像素值所拉成的向量人脸平均外观向量是对人脸训练参数集中所有人脸外观向量进行平均所得到的，

μ_{i} = m e a n (g_{i}), σ_{i} = var (g_{i}), {\tilde{g}}_{i} = (g_{i} - μ_{i}) / σ_{i},

μ_i是归一化过程得到的平均像素强度，mean为平均值，

σ_i是归一化过程得到的像素强度标准差，var为标准差，

步骤(1.2)，按以下方法计算步骤(1.1)中的各人脸训练参数：

j为特征点序号，j＝{1，2，...，j，...，F}，F为特征点数目，

所述人脸平均形状向量为：

\overset{&OverBar;}{s} = {(Σ_{j = 1}^{D} x_{j 1} / D, Σ_{j = 1}^{D} y_{j 1} / D), ..., (Σ_{j = 1}^{D} x_{j i} / D, Σ_{j = 1}^{D} y_{j i} / D), ..., (Σ_{j = 1}^{D} x_{j F} / D, Σ_{j = 1}^{D} y_{j F} / D)},

所述形状向量参数其中：

P_s是对所有的所述人脸形状向量S_i，i＝{1，...，i，...，D}用主成分分析方法PrincipalComponent Analysis得到的人脸形状变化模式矩阵，为一个列正交矩阵，每一列表示人脸的一种整体运动模式，与反映人脸姿态及外观变化的人脸特征的坐标的整体运动模式，

p_{i} = {(v_{i}, θ_{i}), (μ_{i}, σ_{i}), c_{i}}, c_{i} = Q_{i}^{T} (b_{i} - \overset{&OverBar;}{b}),

步骤(2)，发射端对于实时输入的所述D帧人脸图像中的任选帧i按下式计算最终需压缩的某i个人脸模型参数向量p_i：

b_si为第i帧人脸形状参数向量，

为第i帧人脸外观参数向量，

b_i为第i帧人脸形状与外观联合参数向量，

为D帧人脸图像的平均人脸形状与外观联合参数向量，

\overset{&OverBar;}{b} = Σ_{i = 1}^{D} b_{i} / D,

P_g为对所述人脸训练参数集中的所有人脸外观向量g_i进行主成分分析PrincipalComponent Analysis而得到的人脸外观变化模式矩阵，为一个列正交矩阵，每一列表示由人脸姿态、动作变化造成的人脸外观像素值的一种整体变化模式，

Q是根据对所述人脸训练参数集中的人脸形状参数向量b_si和人脸外观参数向量计算得到的人脸形状和外观联合参数向量b_i，i＝{1，...，i，...，D}进行主成分分析Principal Component Analysis而形成的人脸形状和外观联合参数变化矩阵，为一个列正交矩阵，每一列表示所述人脸形状参数向量b_si和人脸外观参数向量的一种联合变化模式；

N为欲保留的缓存帧数，M＞N，

步骤(3.2.3)，定义方矩阵H＝[h_i，i′]，1≤i≤M，i≤i′≤M，h_i，i′表示把步骤(3.2.2)中第1个人脸模型参数到第i个人脸模型参数之间分成k段再进行所述同样的线性插值方式得到的最小的逐点误差平方和，1≤i≤M，1≤i′≤M，i，i′为k段内的任意二个人脸模型参数向量中同一类别人脸模型参数的对应的参数点，且i′≥i时，h_i，i′＝∞，

步骤(3.2.4)，定义矩阵F＝[f_i′，i]，1≤i≤M，1≤i′≤M，i′＜i，f_i′，i表示在步骤(3.2.3)中在把第1个到第i个人脸模型参数分成k段进行线性插值得到最小的逐点误差平方和时，第i个人脸模型参数之前的原始人脸模型参数序号，且i′≥i时，f_i′，i＝-1，

a_{l, m} = \underset{m \leq i \leq m_{m a x}}{m i n} (e_{i, i^{'}} + h_{i^{''}, i}),

下标i，i′为N-1段内的二个参数点，m＝{1，2，...，N-1}，i≠i′，下标i″，i为M-N段内的二个参数点，l＝{m_max+1，...，M}，i≠i″，

arg为对段中的点i取值，m_max＝N-1，l_max＝M-1，

全部所述各类人脸模型参数的全局最小误差α_l，m的向量为A_L，M，

步骤(3.2.7.1)，当所述参数误差矩阵R的每一行对应一个精度为b比特的一个所述人脸模型参数向量p_i中的一个人脸模型参数时，把每一行分为17块，每块对应一个量化比特数，共对应0～16比特共17个量化比特数,

\frac{\partial &Element;}{\partial p_{i}} \approx \frac{Δ &Element;}{{Δp}_{i}} = \frac{&Element; (p_{i}) - &Element; (p_{i} + {Δp}_{i})}{{Δp}_{i}},

步骤(3.2.9.1)，对所述近似重构误差矩阵∈进行分行排序：

步骤(3.2.9.3)，以所述矩阵中每一行元素最右端的元素作为起始元素，按照当前的组合方案中选取的量化比特数与丢帧数计算出这种组合所需要的总比特开销，

步骤(4)，接收端根据发送端提供的量化比特数和丟帧数的组合方案以及压缩后的人脸模型参数向量p′_i中各类人脸模型的参数，采用同样方式的线性插值方法进行人脸模型参数向量p_i的恢复，

步骤(5)，依次按以下步骤进行人脸视频图像重建：

步骤(5.1)，把所述的人脸形状和外观联合参数变化矩阵Q分为行数等于所述形状参数向量b_s元素个数的Q_s和行数等于所述外观参数向量b_g的元素个数的Q_g，

步骤(5.2)，按下式计算人脸形状向量S和人脸外观向量g：

S^{S} = \overset{&OverBar;}{s} + P_{s} Q_{s} c, g = \overset{&OverBar;}{g} + P_{g} Q_{g} c,

g＝σg+μ，