CN105046725B - 低比特率视频通话中基于模型和对象的头肩图像重建方法 - Google Patents

低比特率视频通话中基于模型和对象的头肩图像重建方法 Download PDF

Info

Publication number
CN105046725B
CN105046725B CN201510405985.0A CN201510405985A CN105046725B CN 105046725 B CN105046725 B CN 105046725B CN 201510405985 A CN201510405985 A CN 201510405985A CN 105046725 B CN105046725 B CN 105046725B
Authority
CN
China
Prior art keywords
grid
face
head
rectangle
shoulder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510405985.0A
Other languages
English (en)
Other versions
CN105046725A (zh
Inventor
陶晓明
卢继川
李扬
葛宁
陆建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510405985.0A priority Critical patent/CN105046725B/zh
Publication of CN105046725A publication Critical patent/CN105046725A/zh
Application granted granted Critical
Publication of CN105046725B publication Critical patent/CN105046725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

低比特率视频通话中基于模型和对象的头肩图像重建方法,其特征在于,结合基于对象编码和基于模型编码二者的优点,提出的一种同时基于对象和模型的低比特率混合编码方法,这种方法对人脸区域进行2D可变形模型自动训练,然后编码,对头肩的区域采用一个基于Delaunay算法形成的2D网格,并使用网格迭代使其与头部图像匹配较好,然后对图像进行JPEG2000压缩得到对象纹理,将对象网格和对象纹理经信道传输到接收端共享然后编码。这种方法经过网格分割和纹理压缩具有很高的编码效率,同时具有较好的用户体验。它实现了头肩视频在低比特率中的传输,重建视频图像后仍有很好地体验效果,从而提高了通信资源的利用率。

Description

低比特率视频通话中基于模型和对象的头肩图像重建方法
技术领域
本发明涉及视频传输领域,特别是在低比特率情况下的一种多媒体通信时人脸视频的头肩部分的图像重建方法。结合基于对象编码和基于模型编码二者的优点,提出的一种同时基于对象和模型的低比特率混合编码方法(Model-and-Object based Coding,MOBC),它实现了头肩视频在低比特率中的传输,重建视频图像后仍有很好的体验效果,从而提高了通信资源的利用率。
背景技术
近年来无线网络中的基于多媒体业务的数据流急速上升,诸如视频通话、视频会议等多媒体通信应用出现在大量的移动设备中。但是,传统的基于块的混合视频编码技术为了要达到较为满意的通话质量需要比较高的比特率,压缩效率较低,这使无线网络很难承载迅速增长的大量视频数据。由于无线链路的带宽资源成本非常高,因此,需要在保证较好的用户体验质量(Quality-of-Experience,QoE)同时,找到一种更有效的编码方法来减少移动视频传输所需要的带宽。
目前已经有大量这方面的研究工作。为了克服传统的基于分块的编码方法的缺点,研究人员提出了基于兴趣区域的编码方法。基于兴趣区域的编码方式假设,为了提高用户体验,对用户感兴趣的视频区域的质量相对于视频其他区域的质量更加重要。对典型的多媒体通信视频电话和视频会议而言,说话者的头部和上身通常是观察者最感兴趣的。目前已有一种模型辅助方法,即先检测通信者的头肩部分,然后编解码调整比特分配方案,将更多的比特分配到头肩部分,从而在没有需要更多带宽的情况下提高了兴趣区域的视频质量。这些方法提供的视频压缩比率有限,特别的,对于可视电话应用,当脸部靠近相机时,人脸视频占据视频图像中的绝大部分,该方法不能对人脸视频有较好的压缩效果。
不同于基于分块的混合编码,基于对象的编码(Object-based Coding,OBC)和基于模型的编码(Model-based Coding,MBC)技术能够利用所描述对象几何结构的先验知识,从而实现视频中的低比特率传输。这两种方法利用视频中外观和形状的连续性,跟踪外观边缘和内部的关键点,并对其进行编码;即使在建模过程中跟踪失败,进行自适应纹理更新的同时,被跟踪的形状也用于运动补偿(Motion Compensation,MC)。MBC在目标特征上更进一步,它需要一个目标对象优先的分析合成模型,用较少的模型参数表示这个模型对象的形状(和可能的外观),不需要传输全部的运动矢量。MBC虽然提供了一个更高的压缩比,但它的目标特征更有针对性,限制了它的适用范围。
在视频电话和视频会议应用里,脸部都是观察者关注的中心,脸部表情也最丰富。OBC和MBC都已经应用到这些场景并取得一定的成功。基于网格的OBC和MBC用来编码QCIF(176x144),以12-16Kbps的速度,可以每秒传10帧的头肩图像。使用可变形的人脸模型和可降维子空间的方法,MBC也已经在面部的图像/视频压缩中被提出。MBC和OBC压缩效率较高但只能用于头部模型编码。目前,还有一些结合2D网格模型和3D模型的方法已被提出,其中脸部区域用3D模型编码,剩下的头肩的区域采用一个可变形的2D网格进行编码。3D人脸模型提高人脸区域的重建质量,但与二维网格兼容困难,同时模型也需要定义和初始化。另外,如果没有不断地更新纹理,一个粗糙的网格不能提供一个令人满意的纹理重建,会导致系统需要一个更高的比特率来传输图像。
为了克服OBC和MBC编码方法的局限性,实现低的比特速率传输较高质量的视频,我们提出了一种针对头肩的部分的基于对象和模型的低比特率混合编码方法(Model-and-Object based Coding,MOBC)。这种方法对人脸区域进行2D可变形模型自动训练,然后编码;对观察者不感兴趣的头肩区域,我们采用一个自动初始化的2D网格编码,这样2D人脸模型就可以无缝地嵌入网格形成整幅图像。这种方法更加实用,它可以在提高编码效率的同时,有较好的QoE。
发明内容:
针对现有技术的缺陷,本发明的目的在于提供一种在低比特率情况下的头肩视频编码传输。该系统主要进行头部人脸模型参数和网格顶点运动向量的参数传输,相对于传输整个头肩视频的数据,大大减少了传输中所需的数据量,从而实现了在低比特率情况下的视频传输,大大地增加了视频通话、视频会议的在无线多媒体通信中的应用范围,使得视频通话和视频会议可以更加普遍地应用到实际生活中。
本发明中方法涉及到的步骤如下:先将训练好的主动外观AAM模型在发送端和接收端共享,在发送端进行头肩网格初始化,将对象网格和对象纹理经信道传输到接收端共享;进行人脸视频通话时,只需要传输主动外观AAM模型参数和网格顶点运动向量,不需要传输整个视频的数据量,从而实现低比特率的情况下的头肩视频编码传输。
本发明提出的方法,其特征在于,是在由通信各方的移动设备借助基站构成的、供低比特率视频通话用的移动视频通信系统中依次按以下步骤实现的:
视频图像发送端,以下简称发送端,依次执行以下步骤:
步骤(1),获取发送方的第一帧人脸视频图像,用Regularized Landmark Mean-Shift,简称RLMS的正则化的人脸关键坐标点定位方法进行人脸定位,得到估计的人脸关键坐标点位置hi=(xi,yi)的最小边缘,称为脸矩形,x,y为人脸视频图像中关键坐标点的位置,i为关键坐标点的序号,总数共68个,h为坐标点,见“Deformable Model Fitting byRegularized Landmark Mean-Shift”,Jason M.Saragih(2011);
步骤(2),根据步骤(1)得到的脸矩形估计涵盖头部的头矩形和涵盖肩部的肩矩形:
步骤(2.1),估计头矩形:
将所述脸矩形的上缘向上提高一个脸矩形的高度,并将所述脸矩形的左缘和右缘各向左、右扩展一个所述脸矩形的宽度的一半,得到所述头矩形,
步骤(2.2),估计肩矩形:
以所述脸矩形的下缘为上缘,以所述第一帧人脸视频图像的下缘为下缘,并将所述头矩形的左缘和右缘各自向左、右两个方向扩展所述脸矩形宽度的一半,得到肩矩形,
所述头矩形和肩矩形视为头肩可能存在的区域,
步骤(3),利用基于L0梯度最小化的图像平滑方法对所述第一帧视频图像,简称图像,进行平滑滤波,
步骤(4),以所述头肩可能存在的区域为初始区域,用Grabcut图像分割算法找到头肩区域的边界,同时,对所述图像进行JPEG2000压缩,得到对象纹理;
步骤(5),构建步骤(4)得到的所述头肩区域的三角形密集网格:
步骤(5.1),以步骤(4)得到的所述头肩区域中的每一个像素点作为一个三角形网格的顶点,使用Delaunay算法对所述头肩区域进行三角剖分,生成密集的三角网格,
步骤(5.2),用一个矩阵TN×3表示所述的三角形密集网格,简称网格,其中:
N为顶点数,用顶点的坐标位置向量m={(x1,y1),…,(xn,yn),…,(xN,yN)}表示,在数值上N等于所述矩阵TN×3的行数,
每一行n的三个整数{a,b,c}代表序号为a,b,c的三个顶点在所述网格中组成一个子三角形,n=1,2,..,N,
步骤(6),对所述网格进行网格迭代简化,使最终的网格顶点数少于100个:
步骤(6.1),将所述网格中所有顶点标记为可以删除的顶点,
步骤(6.2),网格边界上的顶点的简化:
步骤(6.2.1),对于所述网格边界上相邻的任意三个点,按下式求得从中间点(xi,yi)到其余两点(xi-1,yi-1)和(xi+1,yi+1)连成的直线y=kx+b的垂直距离d:
步骤(6.2.2),判断d是否≥1:
若:d≥1,且所述点(xi,yi)标记为可以删除的顶点,则从所述网格中把所述点(xi,yi)删去,并将在所述网格中所有与所述点(xi,yi)相连的其它所述网格顶点标记为不允许删除的点,
若:d<1,则保留,
步骤(6.2.3),从网格边界上任选一点作为所述中间点开始,沿着所选网格边界依次执行步骤(6.2.1)~步骤(6.2.2),一直到网格边界上的每一点全部执行完为止,得到顶点较少的初始网格,
步骤(6.3),所述网格内部的简化,是指简化不在网格边界上的内部网格顶点:
步骤(6.3.1),按下式计算所有所述内部网格顶点的显著性值Cn′,表示为:
Cn′=|Ix(pn′)|2+|Iy(pn′)|2+Γ(pn′),n′=1,2,...,N′,
N′<N,其中:
pn′=(xn′,yn′),pn′是所述内部网格顶点n的坐标位置,
Ix(pn′)、Iy(pn′)为用“I”标志的所述图像在所述内部网格顶点pn′处的水平、垂直两个方向的偏导,Γ(pn′)是pn′处的Harris角探测响应,见“A combined corner and edgedetector”,C.Harris及M.Stephens,发表于British Machine Vision ConferenceProceedings,1988,其推导过程见149-150页,表达式见150页右栏第27行公式所述,
步骤(6.3.2),按步骤(6.3.1)得到的各所述内部网格顶点的显著性值Cn′由小到大的顺序逐个检查各所述内部网格顶点:删除所连接的其它所述内部网格顶点数少于七个、而且所述显著性值的排序低于设定的排序值、且标定为可以删除的那些所述的内部网格顶点,同时标定:与所删除的所述网格顶点相连的其它所述内部网格顶点为不允许删除点,
步骤(6.3.3),计算经过步骤(6.3.1)、步骤(6.3.2)简化后的网格顶点总数:
若:网格顶点总数大于100个,则,将当前剩余的所有网格顶点标为可以删除的顶点,重复步骤(6.3.1)~(6.3.3),一直到最终的网格顶点总数少于或等于100个为止,最终得到网格顶点总数较少的对象网格;
步骤(7),依次按以下步骤计算基于低比特率编码的人脸模型参数向量c和网格顶点运动向量Δmf
步骤(7.1),利用步骤(1)得到的第一帧中的人脸视频图像内68个所述关键坐标点pn(xi,yi)使用人脸主动外观模型AAM方法估计出一组表征了目标人脸的形状、运动、外表特征的人脸模型参数向量c,
步骤(7.2),对于非人脸部分而言,对步骤(6.2.3)所得到的所述对象网格,从第二帧开始,把跟踪得到的网格顶点的位置坐标与上一帧中同一个所述网格顶点的位置坐标相减,得到每一个所述网格顶点的运动向量,用Δmf=mf-mf-1表示,mf是第f帧的网格顶点的位置参数向量,f=1,2,…,f,…,F,F为总帧数,经过熵编码后,实现数据压缩;
步骤(8),步骤(7)得到的目标人脸模型参数向量c、对象网格顶点运动向量Δmf、和对象网格和对象纹理之间进行比特分配后再经信道传输到接收端:
步骤(8.1),设定:头肩视频编码用的总比特数为u,其中:
对象网格比特数为um=3000比特,
网格顶点运动向量比特数为uv,在设定运动向量的量化水平后是已知的,
对象纹理比特数ut和人脸主动外观模型AAM的参数比特数up,均为未知值,
解下列二元一次联合方程,得出ut和up的值:
其中:
A为所述人脸主动外观模型AAM参数和网格顶点运动向量经比特分配后形成的序列持续的时间,单位为秒,是已知值,,
γ为调整系数,代表人脸部分和非人脸部分之间的相对重要度,0<γ<1;
接收端依次按以下步骤进行图像重建:
步骤(I),通信各方在通话前预置:根据本方训练视频图像按步骤(1)~步骤(7)得到的人脸模型参数向量c和网格顶点的位置参数向量mf
步骤(II),接收端从信道接收到所述视频通话时的各帧人脸模型参数向量c后,使用所述的主动外观模型AAM方法重建人脸图像
步骤(III),接收端收到通话视频的对象网格后,用分片仿射拉伸方法把得到的经过JPEG2000压缩的对象纹理g从所述网格顶点的位置参数向量mf拉伸至当前帧的网格形状向量mf+Δmf,Δmf=mf-mf-1,形成重建的网格图形,经插值后得到重建的对象网格
步骤(IV),根据重建后的对象网格和经JPEG2000压缩的对象纹理形成重建后的各帧图像。
附图说明:
图1:总模块框图
图2:发送端框图
图3:接收端框图
图4:实际效果比较图,其中,(a)使用视频序列Liyang,(b)使用视频序列Franck,(c)使用视频序列Suzie,(d)使用视频序列Miss America,(e)使用视频序列Claire,对于每个视频序列与其它现有方法及原视频帧进行比较,具体比较对象包括:原视频帧;采用HighEfficiency Video Coding标准编码方法编码所的视频帧,简称HEVC;采用人脸检测方法得出人脸区域后对该区域进行特殊处理以提高人脸编码质量的编码方法所得的视频帧,简称HEVC-ROI,见“Improved ROI video coding using variable Gaussian pre-filters andvariance in intensity”,L.Karlsson和M.Sjostrom,2005;采用基于三角网格的运动估计进行基于对象的编码方法所得的视频帧,简称OBC,见“Hierarchical 2-D meshrepresentation,tracking,and compression for object-based video”,P.van Beek、A.Tekalp、N.Zhuang和I.Celasun,1999;以及本专利的方法,简称MOBC。(a)和(b)中由左至右分别为:原视频帧、HEVC、HEVC-ROI、OBC、MOBC,(c)-(e)中由左至右分别为:原视频帧、HEVC、MOBC。
图5:编码率-失真曲线图,其中,(a)使用视频序列Liyang,(b)使用视频序列Franck,(c)使用视频序列Suzie,每幅图横轴代表编码速率,纵轴代表编码保真度,由峰值信噪比,即Peak Signal-Noise Ratio,简称PSNR衡量,每幅图中的实线表示本专利方法的曲线,长短间隔虚线表示HEVC方法的曲线,长虚线表示HEVC-ROI方法的曲线,短虚线表示OVC方法的曲线;同时,用圆形标注的曲线表示只对视
频中整个区域计算PSNR所得的值。
具体实施方式:
低比特率视频通话中基于模型和对象的编码方法,其特征在于,它包含:主动外观AAM模型训练模块,头肩网格初始化模块,低比特率编码传输模块和解码恢复原视频帧模块,其中:
主动外观AAM模型训练模块,它的输入信息是一段人脸视频,输出端是低比特率编码模块;
头肩网格初始化模块,它的输入信息是视频第一帧,输出端是低比特率编码模块;
低比特率编码模块,它的输入端是发送端视频帧、主动外观AAM模型和网格初始化,输出端接信道,输出通过主动外观AAM模型产生的主动外观AAM模型参数,通过网格跟踪产生的头肩网格顶点运动向量和网格初始化后的对象网格和对象纹理;
接收端解码模块,它的输入端是信道和主动外观AAM模型,输出恢复的视频帧。
低比特率视频通话中基于模型和对象的编码方法,其特征在于所述方法是按以下步骤实现的:
1、首先采集一段训练视频,进行主动外观AAM模型训练,并将训练好的该人主动外观AAM模型在发送端和接收端共享;
2、采集输入视频,对输入视频分割头肩部分;
3、将头肩网格初始化,获得对象网格和对象纹理,经信道传输到接收端共享;
4、利用对象网格对所述视频进行跟踪,获得网格顶点运动向量;
5、对所述视频进行人脸定位,通过主动外观AAM模型参数拟合,得到主动外观AAM模型参数;
6、由网格顶点运动向量和主动外观AAM模型参数进行比特分配,并经信道传输;
7、接收端通过信道传输的运动向量和主动外观AAM模型参数向量分别进行非脸部和脸部区域解码,区域合并后重建图像。
其中,网格初始化模块包含头肩分割和网格初始化。
头肩分割的输入端是发送端视频的第一帧,输出端是网格初始化;
网格初始化的输入端是头肩分割,输出端得到对象网格和对象纹理;
对象网格和对象纹理的输出端是低比特率编码模块。
参见附图1,网格初始化的具体流程包括如下步骤:
1、获取视频第一帧,采用Regularized Landmark Mean-Shift (RLMS)算法进行人脸定位,估计人脸边缘轮廓的位置hi=(xi,yi),找到人脸边缘轮廓的最小边缘,称为脸矩形;
2、依据脸矩形估计出涵盖头部和肩区域的矩形,分别叫头矩形和肩矩形,其中,头矩形为以脸矩形的下缘为下缘,将脸矩形的上缘向上提高脸矩形的高度,并将脸矩形的左右缘分别向左右扩展脸矩形宽度的一半所得到的,而头肩矩形则是以脸矩形的下缘为上缘,以图像下缘为下缘,并将头矩形的左右缘分别向左右扩展头矩形宽度的一半所得到的;
3、把头矩形和肩矩形所覆盖的区域称为头肩可能存在的区域,其他区域不考虑;
4、使用L0平滑方法对图像进行平滑;
5、使用Grabcut图像分割算法,以上述头肩可能存在的区域作为初始区域,对图像进行分割,找到头肩区域的边界。
6、将分割得出的头肩区域中的每个像素作为一个顶点,并使用Delaunay算法进行三角剖分,生成稠密的三角网格;设三角网格中有N个顶点,则三角网格由顶点的坐标位置向量m={x1,y1,…,xN,yN}和表示顶点之间三角形连接的矩阵T组成,其中T大小为N×3,其中每一行的三个整数{a,b,c}代表序号为a,b,c的三个顶点在网格中组成一个三角形,将所得的稠密的网格称之为密集网格;
7、对密集网格进行网格迭代简化,形成顶点数较少的网格,称之为初始网格,再去掉被涵盖于脸部区域内的网格顶点,获得对象网格;
其中,网格迭代简化的过程为:
网格迭代简化包括网格边缘的简化和网格内部的简化。首先,将网格中所有顶点标定为可以删除的顶点。
第一步,网格边界上的简化:由于网格边界为一条闭合曲线,任意一点都有两个相邻点。因此,对于相邻的三个点,求出从中间一点(xi,yi)到由两边端点(xi-1,yi-1)和(xi+1,yi+1)组成的直线y=kx+b的距离d,其中b=yi+1-kxi+1,距离公式为:并对所得到的距离与1进行比较,若大于1,则保留(xi,yi),否则若(xi,yi)标记为可以删除的顶点,则将(xi,yi)从三角网格中删除,并将网格中所有与之相连的顶点标记为不可删除的顶点,将上述操作对每个边界上的顶点进行一次;
第二步,内部简化:称所有不在网格边界上的网格顶点为内部网格顶点,按下列公式计算所有内部网格顶点在图像中的显著性值,其中pn′=(xn′,yn′)表示内部点n′的位置,Ix(pn′)、Iy(pn′)表示图像I在pn′处的水平、垂直两个方向的偏导,Γ(pn′)是pn′处已知的Harris角探测响应,它是一种基于pn′及其相邻像素的图像强度的非线性测量,显著性值为:
Cn′=|Ix(pn′)|2+|Iy(pn′)|2+Γ(pn′)
对于所有网格顶点计算得到显著性值后将其由大到小进行排序,显著性值排序后,根据所对应的显著性值取值范围由小到大的顺序对所有内部网格顶点进行检查,若在网格中与当前内部网格顶点相连接的顶点总数少于七个,且该顶点被标记为可以删除的顶点,则从网格中删除该顶点,并将网格中所有与之相连的顶点标记为不可删除的顶点,将上述操作对每个内部网格顶点进行一次;
第三步,若网格顶点个数多于100个,则在现在网格基础上,将网格中所有顶点标定为可以删除的顶点,并重新进行第一、二、三步。
这样不断地简化,使得最终网格顶点个数少于100个。
这样就形成了网格顶点个数较少的初始网格。
8、对图像进行JPEG2000压缩得到对象纹理,将对象网格和对象纹理经信道传输到接收端共享。
其中,低比特率编码模块包含脸部对齐、网格跟踪、脸部编码、非脸部编码和比特分配。
脸部对齐的输入端是发送端视频帧,通过RLMS人脸定位算法得到脸部区域,输出端是脸部编码部分;
脸部编码部分的输入端是脸部对齐和主动外观AAM模型,输出主动外观AAM模型参数;
网格跟踪的输入端是发送端的视频帧,输出端为某一帧的网格顶点向量,网格顶点向量首先输入到非脸部编码,经过非脸部编码与前一帧网格顶点向量做差输出网格顶点运动向量,然后输入到对象网格进行网格更新,以便于下一次的网格顶点运动向量的计算;
主动外观AAM模型参数和网格顶点运动向量的输出端是比特分配;
比特分配的输出端是信道。
参见附图2,低比特率编码模块的具体流程包含以下步骤:
1、发送端得到视频帧,运行RLMS的正则化的人脸关键坐标点定位方法进行人脸定位,得到估计的人脸关键坐标点位置hi=(xi,yi)的最小边缘。
2、利用RLMS算法所找到的人脸关键坐标点位置,使用AAM(Active AppearanceModel)方法估计得到一组表征了目标人脸的形状、运动、外表特点的主动外观AAM模型参数向量c,将主动外观AAM模型参数传输到接收端,并在接收端通过这组主动外观AAM模型参数向量使用AAM方法重建人脸图像;
3、进行网格跟踪,获得网格顶点运动向量;
利用光流法对网格进行跟踪。方法为:获得初始网格后,在视频后面的每一帧里通过像素特征跟踪每个顶点的位置,对于每一帧,将跟踪得到的顶点位置坐标与上一帧中的顶点位置坐标相减,得到每个网格顶点的运动向量;例如由第i帧网格位置向量mi,通过网格跟踪得到对应顶点网格顶点的运动向量为Δmi=mi-mi-1,将运动向量经过熵编码,实现数据压缩。
4、将得到的主动外观AAM模型参数和网格顶点运动向量进行比特分配并经信道传输;
比特分配的方法为:
整个头肩视频编码方法中,脸部区域和非脸部区域之间的比特分配需要服从总的比特预算。总的比特数u分为四部分:对象网格比特数um,对象纹理比特数ut,网格顶点运动向量比特数uv和AAM参数比特数up。其中,um固定在3000比特,运动向量的量化水平给定以后,在网格跟踪以后能计算出uv。剩下ut和up,使它们满足下列关系式:
此处A表示序列持续的时间(以秒为单位),,而γ是一个可调参数,代表人脸部分和非人脸部分之间的相对重要性。γ越大,分配给非人脸部分对象纹理的比特占总的比特预算的比例就越大。当已知了总的预算和γ,我们就可以利用上面的方程组求出ut和up,从而完成比特分配。
其中,接收端解码模块包含脸部解码、非脸部解码和图像恢复。
脸部解码的输入端是主动外观AAM模型和信道传输来的主动外观AAM模型参数,输出是重建的脸部图像;
非脸部解码的输入端是对象网格、对象纹理和网格顶点运动向量,输出重建的非脸部图像,然后网格顶点运动向量对对象网格进行更新;
图像恢复的输入端是重建的脸部图像和非脸部图像,经过边缘模糊化处理,输出端得到重建原视频帧图像。
参见附图3,接收端解码模块的具体流程包含以下步骤:
1、接收端得到信道传输来的人脸模型参数c,通过脸部解码重建脸部图像;
脸部重建的方法为:
主动外观AAM模型采用云存储,介质存储,闲时传输等手段在发送端和接收端进行共享。当接收端收到发过来的模型参数向量c,便能重建脸部图像,定义图像为:表示使用AAM方法由向量c重建得出人脸图像
2、接收端得到信道传输来的网格顶点运动向量,通过拉伸函数进行拉伸,利用对象纹理重建非脸部图像。
非脸部图像重建的具体方法为:
在接收端,对网格图像进行分片仿射拉伸(Piecewise affine warping),定义通过分片线性变换将图像I中的特征点sa变形至sb的操作记作变形函数Warp(I:sa,sb),如下,它表示将一个接收端得到的经过JPEG2000压缩的对象纹理g从参考向量mf拉伸到第f帧的网格形状向量mf+Δmf,Δmf=mf-mf-1形成重建的网格图形,并进行插值,完成对象网格重建。
通过重建的对象网格和JPEG2000压缩的对象纹理形成重建后的第f帧图像,完成图像重建。

Claims (1)

1.低比特率视频通话中基于模型和对象的头肩图像重建方法,其特征在于,是在由通信各方的移动设备借助基站构成的、供低比特率视频通话用的移动视频通信系统中依次按以下步骤实现的:
视频图像发送端,以下简称发送端,依次执行以下步骤:
步骤(1),获取发送方的第一帧人脸视频图像,用Regularized Landmark Mean-Shift,简称RLMS的正则化的人脸关键坐标点定位方法进行人脸定位,得到估计的人脸关键坐标点位置hi=(xi,yi)的最小边缘,称为脸矩形,x,y为人脸视频图像中关键坐标点的位置,i为关键坐标点的序号,总数共68个,h为坐标点,
步骤(2),根据步骤(1)得到的脸矩形估计涵盖头部的头矩形和涵盖肩部的肩矩形:
步骤(2.1),估计头矩形:
将所述脸矩形的上缘向上提高一个脸矩形的高度,并将所述脸矩形的左缘和右缘各向左、右扩展一个所述脸矩形的宽度的一半,得到所述头矩形,
步骤(2.2),估计肩矩形:
以所述脸矩形的下缘为上缘,以所述第一帧人脸视频图像的下缘为下缘,并将所述头矩形的左缘和右缘各自向左、右两个方向扩展所述脸矩形宽度的一半,得到肩矩形,
所述头矩形和肩矩形视为头肩可能存在的区域,
步骤(3),利用基于L0梯度最小化的图像平滑方法对所述第一帧视频图像,简称图像,进行平滑滤波,
步骤(4),以所述头肩可能存在的区域为初始区域,用Grabcut图像分割算法找到头肩区域的边界,同时,对所述图像进行JPEG2000压缩,得到对象纹理;
步骤(5),构建步骤(4)得到的所述头肩区域的三角形密集网格:
步骤(5.1),以步骤(4)得到的所述头肩区域中的每一个像素点作为一个三角形网格的顶点,使用Delaunay算法对所述头肩区域进行三角剖分,生成密集的三角网格,
步骤(5.2),用一个矩阵TN×3表示所述的三角形密集网格,简称网格,其中:
N为顶点数,用顶点的坐标位置向量m={(x1,y1),...,(xn,yn),...,(xN,yN)}表示,在数值上N等于所述矩阵TN×3的行数,
每一行n的三个整数{a,b,c}代表序号为a,b,c的三个顶点在所述网格中组成一个子三角形,n=1,2,..,N,
步骤(6),对所述网格进行网格迭代简化,使最终的网格顶点数少于100个:
步骤(6.1),将所述网格中所有顶点标记为可以删除的顶点,
步骤(6.2),网格边界上的顶点的简化:
步骤(6.2.1),对于所述网格边界上相邻的任意三个点,按下式求得从中间点(xi,yi)到其余两点(xi-1,yi-1)和(xi+1,yi+1)连成的直线y=kx+b的垂直距离d:
d = | y i - kx i - 1 - b | 1 + k 2 , k = y i + 1 - y i - 1 x i + 1 - x i - 1 , b = y i + 1 - kx i + 1 ,
步骤(6.2.2),判断d是否≥1:
若:d≥1,且所述点(xi,yi)标记为可以删除的顶点,则从所述网格中把所述点(xi,yi)删去,并将在所述网格中所有与所述点(xi,yi)相连的其它所述网格顶点标记为不允许删除的点,
若:d<1,则保留,
步骤(6.2.3),从网格边界上任选一点作为所述中间点开始,沿着所选网格边界依次执行步骤(6.2.1)~步骤(6.2.2),一直到网格边界上的每一点全部执行完为止,得到顶点较少的初始网格,
步骤(6.3),所述网格内部的简化,是指简化不在网格边界上的内部网格顶点:
步骤(6.3.1),按下式计算所有所述内部网格顶点的显著性值Cn′,表示为:
Cn′=|Ix(pn′)|2+|Iy(pn′)|2+Γ(pn′),n′=1,2,...,N′,N′<N,其中:
pn′=(xn′,yn′),pn′是所述内部网格顶点n的坐标位置,
Ix(pn′)、Iy(pn′)为用“I”标志的所述图像在所述内部网格顶点pn′处的水平、垂直两个方向的偏导,Γ(pn′)是pn′处已知的Harris角探测响应,
步骤(6.3.2),按步骤(6.3.1)得到的各所述内部网格顶点的显著性值Cn′由小到大的顺序逐个检查各所述内部网格顶点:删除所连接的其它所述内部网格顶点数少于七个、而且所述显著性值的排序达不到相应设定的显著性质取值范围的要求、且标定为可以删除的那些所述的内部网格顶点,同时标定:与所删除的所述网格顶点相连的其它所述内部网格顶点为不允许删除点,
步骤(6.3.3),计算经过步骤(6.3.1)、步骤(6.3.2)简化后的网格顶点总数:
若:网格顶点总数大于100个,则,将当前剩余的所有网格顶点标为可以删除的顶点,重复步骤(6.3.1)~(6.3.3),一直到最终的网格顶点总数少于或等于100个为止,最终得到网格顶点总数较少的对象网格;
步骤(7),依次按以下步骤计算基于低比特率编码的人脸模型参数向量c和网格顶点运动向量Δmf
步骤(7.1),利用步骤(1)得到的第一帧中的人脸视频图像内68个所述关键坐标点pn(xi,yi)使用人脸主动外观模型AAM方法估计出一组表征了目标人脸的形状、运动、外表特征的人脸模型参数向量c,
步骤(7.2),对于非人脸部分而言,对步骤(6.2.3)所得到的所述对象网格,从第二帧开始,把跟踪得到的网格顶点的位置坐标与上一帧中同一个所述网格顶点的位置坐标相减,得到每一个所述网格顶点的运动向量,用Δmf=mf-mf-1表示,mf是第f帧的网格顶点的位置参数向量,f=1,2,...,f,...,F,F为总帧数,经过熵编码后,实现数据压缩;
步骤(8),步骤(7)得到的目标人脸模型参数向量c、对象网格顶点运动向量Δmf、和对象网格和对象纹理之间进行比特分配后再经信道传输到接收端:
步骤(8.1),设定:头肩视频编码用的总比特数为u,其中:
对象网格比特数为um=3000比特,
网格顶点运动向量比特数为uv,在设定运动向量的量化水平后是已知的,
对象纹理比特数ut和人脸主动外观模型AAM的参数比特数up,均为未知值,
解下列二元一次联合方程,得出ut和up的值:
其中:
A为所述人脸主动外观模型AAM参数和网格顶点运动向量经比特分配后形成的序列持续的时间,单位为秒,是已知值,
γ为调整系数,代表人脸部分和非人脸部分之间的相对重要度,0<γ<1;
接收端依次按以下步骤进行图像重建:
步骤(I),通信各方在通话前预置:根据本方训练视频图像按步骤(1)~步骤(7)得到的人脸模型参数向量c和网格顶点的位置参数向量mf
步骤(II),接收端从信道接收到所述视频通话时的各帧人脸模型参数向量c后,使用所述的主动外观模型AAM方法重建人脸图像
步骤(III),接收端收到通话视频的对象网格后,用分片仿射拉伸方法把得到的经过JPEG2000压缩的对象纹理g从所述网格顶点的位置参数向量mf拉伸至当前帧的网格形状向量mf+Δmf,Δmf=mf-mf-1,形成重建的网格图形,经插值后得到重建的对象网格
步骤(IV),根据重建后的对象网格和经JPEG2000压缩的对象纹理形成重建后的各帧图像。
CN201510405985.0A 2015-07-10 2015-07-10 低比特率视频通话中基于模型和对象的头肩图像重建方法 Active CN105046725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510405985.0A CN105046725B (zh) 2015-07-10 2015-07-10 低比特率视频通话中基于模型和对象的头肩图像重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510405985.0A CN105046725B (zh) 2015-07-10 2015-07-10 低比特率视频通话中基于模型和对象的头肩图像重建方法

Publications (2)

Publication Number Publication Date
CN105046725A CN105046725A (zh) 2015-11-11
CN105046725B true CN105046725B (zh) 2017-03-29

Family

ID=54453242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510405985.0A Active CN105046725B (zh) 2015-07-10 2015-07-10 低比特率视频通话中基于模型和对象的头肩图像重建方法

Country Status (1)

Country Link
CN (1) CN105046725B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345819B (zh) * 2017-01-23 2020-09-15 杭州海康威视数字技术股份有限公司 一种发送报警消息的方法和装置
CN108111863A (zh) * 2017-12-22 2018-06-01 洛阳中科信息产业研究院(中科院计算技术研究所洛阳分所) 一种在线实时三维模型视频编解码方法
CN113099161A (zh) * 2021-04-13 2021-07-09 北京中科深智科技有限公司 一种基于深度神经网络的会议视频重建方法和系统
CN113610980A (zh) * 2021-08-03 2021-11-05 江苏三步科技股份有限公司 基于动作捕捉和三维重建的视频会议方法、终端及系统
CN113938666B (zh) * 2021-10-25 2023-07-25 珠海普罗米修斯视觉技术有限公司 基于关键帧的视频数据传输方法、装置及存储介质
CN114067258B (zh) * 2022-01-18 2022-05-03 电子科技大学 一种面部通话视频的分层编码方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7239321B2 (en) * 2003-08-26 2007-07-03 Speech Graphics, Inc. Static and dynamic 3-D human face reconstruction
CN102970510B (zh) * 2012-11-23 2015-04-15 清华大学 人脸视频传输方法
CN104077804B (zh) * 2014-06-09 2017-03-01 广州嘉崎智能科技有限公司 一种基于多帧视频图像构建三维人脸模型的方法

Also Published As

Publication number Publication date
CN105046725A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
CN105046725B (zh) 低比特率视频通话中基于模型和对象的头肩图像重建方法
CN107396124B (zh) 基于深度神经网络的视频压缩方法
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN110852964A (zh) 一种基于深度学习的图像比特增强方法
CN104994382B (zh) 一种感知率失真的优化方法
CN101883291A (zh) 感兴趣区域增强的视点绘制方法
CN105430415A (zh) 一种3d-hevc深度视频帧内快速编码方法
CN111008938B (zh) 一种基于内容和连续性引导的实时多帧比特增强方法
CN103763564B (zh) 基于边缘无损压缩的深度图编码方法
CN102438167B (zh) 一种基于深度图像绘制的立体视频编码方法
CN101350920A (zh) 一种面向全景视频的全局运动估计方法
CN112019828B (zh) 一种视频的2d到3d的转换方法
CN103873867B (zh) 自由视点视频深度图失真预测方法和编码方法
CN102769749B (zh) 一种深度图像的后处理方法
CN104780383B (zh) 一种3d‑hevc多分辨率视频编码方法
CN115063463A (zh) 一种基于无监督学习的鱼眼相机场景深度估计方法
CN109345444B (zh) 深度感知增强的超分辨率立体图像构建方法
CN107767393B (zh) 一种面向移动硬件的场景流估计方法
CN113068031A (zh) 一种基于深度学习的环路滤波方法
CN103826135B (zh) 基于恰可识别视差错误估计的三维视频深度图编码方法
CN117176960A (zh) 多尺度位置信息嵌入的卷积神经网络色度预测编码方法
CN105915886B (zh) 一种基于视频压缩域的深度图推理算法
CN103997653A (zh) 一种基于边缘的面向虚拟视绘制的深度视频的编码方法
CN105635742B (zh) 面向3d视频编码的基于深度增强的重采样方法
CN109996067A (zh) 一种基于深度的全光图像自适应卷积编码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant