CN113573140B

CN113573140B - 一种支持人脸检测与实时超分辨率的码率自适应决策方法

Info

Publication number: CN113573140B
Application number: CN202110780052.5A
Authority: CN
Inventors: 张未展; 袁丹夫; 郑庆华; 罗军锋; 王志文; 杜海鹏; 刘峰; 王洋; 刘汇川; 甄宝珠; 刘迅承; 张志浩; 张凯喆
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2022-05-03
Anticipated expiration: 2041-07-09
Also published as: CN113573140A

Abstract

一种支持人脸检测与实时超分辨率的码率自适应决策方法，通过YcbCr色度检测和帧间代价判定得到各宏块的人脸区域信息和纹理运动区域信息，计算得到各宏块的兴趣区域等级和帧内因子；结合兴趣区域等级和帧内因子，设计兴趣编码量化方案，并集成到H.264编码器中，对视频进行多种码率编码；将编码后的视频进行切割封装，客户端根据码率自适应决策模块的反馈结果将相应的视频文件下载至缓冲区，在缓冲区内完成超分辨率重建，重新编码后替换原视频块，播放器播放质量增强后的视频块。本发明可使编码后的人脸视频图像在保证主观质量的同时尽可能压缩视频大小，达到降低带宽消耗的目的，同时保证视频图像中重要区域的高码率，提升视频清晰程度。

Description

一种支持人脸检测与实时超分辨率的码率自适应决策方法

技术领域

本发明属于视频传输技术领域，特别涉及一种支持人脸检测与实时超分辨率的码率自适应决策方法。

背景技术

随着互联网技术的发展和智能终端设备的普及，利用终端设备在线观看视频越来越流行。目前大多数视频资源以人为主体，在线观看视频时人们会更多关注视频中人的面部表情和身体动作，人们的视野范围往往集中在人身上，其中面部区域在绝大多数情况下都能够作为关注区域，且这一小部分视频内容决定着用户的观看体验质量。随着计算机视觉技术的发展，现在已经提出许多人脸识别的人工智能算法，但这些算法往往需要强大的算力支持，复杂度较高，不利于视频编码中流程化的实现。与此同时，用户对观看高分辨率视频的需求日益增长，在有限的带宽资源和动态的网络波动下，高码率级别的视频传输会消耗大量的网络带宽，带来视频播放卡顿和较高的延时，无法保证用户的视频观看体验，也无法满足用户对于高分辨率视频的需求。

在视频编码问题上，感兴趣区域(Region Of Interest，即ROI)能够从图像中划定具有特殊目的的边界，并圈定该区域以便进行下一步处理。在视频编码中，采用ROI技术根据设定的规则对视频内容进行合理分割，并对图像中重要的区域进行高码率编码，对不重要的区域进行低码率编码。当视频观看者的关注重点聚焦在人脸时，可以在视频编码期间将更多的资源分配给面部区域，以保持这些区域的高质量。因此，通过兴趣感知技术对视频中的面部内容进行准确检测和高质量编码，对其他区域采用低质量编码，可以在有效降低视频传输大小的同时，保证用户良好的体验质量。

在视频传输和播放上，基于固定规则的自适应码率策略无法实现自适应码率传输系统的性能最优化，具有一定的局限性和特殊性。随着机器学习技术迅速应用在流媒体领域，基于强化学习(RL)实现自适应码率选择成为当前的一个热点。通过基于强化学习的自适应码率技术确定传输视频码率级别后，客户端能够从服务器端获取到在当前网络状态下最优码率质量的视频文件，而这样的视频可能无法满足用户对于高分辨率的需求，在此基础上引入图像超分辨率重建技术，对下载到客户端的视频文件进行超分辨率重建，能够很好地满足用户的观看需求，进一步提升用户的视频观看体验。

据申请人检索和查新，检索到的以下几篇与本发明相关的属于视频传输领域的专利，它们分别是：

1.CN201711407905，一种基于强化学习的自适应码率视频传输方法以及系统。

2.CN201810195620，基于超分辨率重建技术的视频传输系统及传输方法。

上述专利1提供了一种基于强化学习的自适应码率视频传输方法以及系统。该方法基于深度神经网络进行码率预测，采用Critic网络学习不同网络状态下选择不同码率所得到的视频质量体验指标，Actor网络利用Critic网络给出的优化目标来最大化视频码率选择带来的奖励，避免了基于固定规则或人工特征选择带来的精度和效率问题，让该方法能够适用于复杂的网络环境，提高了视频质量体验。

上述专利2提供基于超分辨率重建技术的视频传输系统及对应的视频传输方法，涉及视频传输技术领域，具体步骤为：视频接收步骤，网关设备接收视频服务器发送的视频数据；超分辨率重建步骤，网关设备对视频数据进行超分辨率重建；视频发送步骤，网关设备将超分辨率重建后的视频传输给客户端。利用网关设备作为视频服务器与客户端之间的数据传递部件，首先对视频数据进行超分辨率重建并转发到客户端，客户端可以作为视频播放终端，也可以是下一级的其他网络设备。通过设置网关设备，可以在保持相同视频质量的前提下，降低视频内容提供商的运营成本，同时降低普通用户的网络流量成本，减少由于带宽问题而引起的卡顿问题，带给用户更好的使用体验。

上述相关发明专利均应用神经网络，但应用方向不同，专利1利用深度强化学习网络预测将要下载的视频块码率级别，为客户端下载视频切片版本提供合适方案；专利2则将网关设备接收到的视频利用超分辨率重建网络进行图像增强，并将重建后的网络传输到客户端。本发明与上述发明专利的区别在于，在服务器端设计了基于人脸检测的兴趣编码方案，替代了原H.264编码算法，并通过基于强化学习的码率自适应决策模块确定最优码率级别，客户端根据决策结果下载合适码率版本的视频文件到缓冲区，在缓冲区内进行超分辨率重构，结合服务器端和客户端完成视频的编码、传输和超分辨率重构，以提升视频传输效果，为用户提供更好的视频观看体验。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种支持人脸检测与实时超分辨率的码率自适应决策方法，通过人脸检测兴趣编码、自适应决策以及超分辨率重建，能够有效降低视频传输的大小并提升用户的视频观看体验。

为了实现上述目的，本发明采用的技术方案是：

一种支持人脸检测与实时超分辨率的码率自适应决策方法，包括如下步骤：

步骤1，通过YcbCr色度检测和帧间代价的判定得到各宏块的人脸区域信息和纹理运动区域信息，利用上述信息计算得到各宏块的兴趣区域等级和帧内因子。具体包括：

步骤1.1，在服务器端，以源视频帧的宏块中像素点为基本单位，对各像素进行YcbCr色度检测，计算各宏块中肤色像素占整个宏块像素的比例pix[i]_{face_rate}，得到人脸区域的重要等级fac₁[i]，同时，判定帧中宏块是否为人眼感兴趣的区域，获取纹理运动区域重要等级fac₂[i]，其中i表示各宏块的编号。

YCbCr检测的像素点若满足100≤Cb≤127,138≤Cr≤170，则判定该像素点为肤色像素，Cb和Cr分别为蓝色和红色的浓度偏移量成份；

pix[i]_{face_rate}的计算式为：

pix[i]_{face_rate}＝pix[i]_{face_num}/pix[i]_{total_num}

其中pix[i]_{total_num}为各宏块的总像素，计算式为：

式中，i表示各宏块的编号，N为视频帧的宏块数，1≤i≤N；(x,y)为第i个宏块内的像素点坐标；

pix[i]_{face_num}为各宏块内的肤色像素总数，计算式为：

根据pix[i]_{face_rate}得到人脸区域重要等级fac₁[i]，其表达式为：

根据某个宏块的帧间代价cost_block[i]与整幅图像的平均帧间代价cost_image的大小，判定该宏块是否为人眼感兴趣的区域，以此划分纹理运动区域重要等级fac₂[i]，其表达式为：

步骤1.2，根据fac₁[i]和fac₂[i]计算各宏块的兴趣区域等级fac[i]，fac[i]＝fac₁[i]+fac₂[i]，并计算帧内因子fac_roi值。

其中，fac[i]∈{0,1,2,3}，兴趣区域等级的数值越大，表示宏块的优先级越高；

fac_roi根据ROI区域的像素数pix_roi和整幅图像的像素数pix_total计算，计算式为：

fac_roi＝pix_roi/pix_total

式中，ROI区域为兴趣区域等级fac[i]∈{1,2,3}的宏块区域。

步骤2，结合兴趣区域等级和帧内因子，设计兴趣编码量化方案，并集成到H.264编码器中，对视频进行多种码率编码。

其中，兴趣编码量化策略包括对非兴趣感知区域的编码策略，其表达式为：

式中，QP₀为默认量化值，QP_non为非兴趣感知区域的量化值。

步骤3，将编码后的视频进行切割封装，客户端根据码率自适应决策模块的反馈结果将相应的视频文件下载至缓冲区，在缓冲区内完成超分辨率重建，然后通过解码器从缓冲区读取数据并传回播放器。具体包括：

步骤3.1，将编码处理后的视频分割成固定大小的视频块，并封装成MPED-DASH格式的视频文件，将生成的全部视频文件以及媒体描述文件MPD放置在配置好的流媒体服务器上；

步骤3.2，客户端基于服务器端的码率自适应决策结果，选择合适码率版本的视频文件下载到缓冲区，对视频文件进行解码，并在缓冲区中进行视频图像超分辨率重建，将重新编码的视频块替换原始块后播放。

服务器端的码率自适应决策基于强化学习网络实现，代理agent感知外界环境的状态(state)和反馈的奖励(reward)，进行学习和决策，得到最优的视频流码率级别；

其中，状态state包括过去k个视频块的网络吞吐量均值、过去k个视频块的平均下载时间、当前缓冲区剩余大小、整个视频未下载的块数以及上一个视频块通过所述兴趣编码后的码率级别，奖励reward则根据基于深度学习网络实现的超分辨率重建模块返回的视频图像状态信息计算得到，其计算式为：

R_i＝λ*br_ROI+(1-λ)*br_{Non_ROI}

式中，λ为视频图像中ROI区域所占比例，br_ROI为ROI区域经过超分辨率重建后的平均码率，br_{Non_ROI}为非ROI区域经过超分辨率重建后的平均码率。

与现有技术相比，本发明至少具有以下有益效果：

本发明根据视频帧中人脸区域的色度检测结果，结合宏块的纹理运动区域信息，提出了一种基于人脸检测的兴趣编码量化方案；通过将该编码方案集成到H.264中完成视频编码，对兴趣编码后的视频进行切割和封装，基于强化学习的码率自适应决策模块将码率决策结果反馈至客户端，客户端下载对应码率级别的视频文件到缓冲区，通过深度学习网络进行视频超分辨率重建，得到高质量的视频图像。本发明人脸检测兴趣编码方法与原H.264编码算法相比，能够保证编码后的人脸视频图像在保证主观质量的同时尽可能压缩视频大小。

针对动态变化的网络带宽，本发明采用的基于强化学习的码率决策方法结合了兴趣编码技术和超分辨率重构网络，能够有效保证视频图像中重要区域的高码率，在尽可能提升视频观看质量的前提下，降低视频传输代价，减少网络带宽消耗，同时在客户端利用终端计算能力提取有效特征，提升视频清晰程度，为用户提供更好的视频观看体验。

附图说明

图1是本发明结构示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如附图1所示，本发明为一种支持人脸检测与实时超分辨率的码率自适应决策方法，主要由三部分构成，分别是人脸检测兴趣编码部分、自适应决策部分以及超分辨率重建部分，通过YcbCr色度检测和帧间代价的判定得到各宏块的人脸区域信息和纹理运动区域信息，利用上述信息计算得到视频帧各宏块的兴趣区域等级。然后，基于兴趣区域等级和帧内因子，设计人脸检测的兴趣编码量化方案，并集成到H.264编码器中完成视频编码。将编码后的视频进行切割封装，客户端根据码率决策模块反馈的结果将合适码率版本的视频文件下载至缓冲区，在缓冲区内利用预先训练的基于深度学习的超分辨率重建网络进行图像增强，重新编码并替换原视频块，播放器播放质量增强后的视频块。

下面结合具体应用的实施例对本发明的技术方案进行详细说明。

Step 1，在服务器端，以源视频帧的宏块中像素点为基本单位，对各像素进行YcbCr色度检测，计算各宏块中肤色像素占整个宏块像素的比例pix[i]_{face_rate}，得到人脸区域的重要等级fac₁[i]。同时，判定帧中宏块是否为人眼感兴趣的区域，获取纹理运动区域重要等级fac₂[i]；

其中，YCbCr检测的像素点若满足100≤Cb≤127,138≤Cr≤170，则判定该像素点为肤色像素，Cb和Cr分别为蓝色和红色的浓度偏移量成份。

各宏块的总像素pix[i]_{total_num}的计算式为：

式中，i表示各宏块的编号，N为视频帧的宏块数，1≤i≤N；(x,y)为第i个宏块内的像素点坐标。

各宏块内的肤色像素总数pix[i]_{face_num}的计算式为：

根据各宏块总像素pix[i]_{total_num}和各宏块内的肤色像素总数pix[i]_{face_num}，计算各宏块中肤色像素的比例pix[i]_{face_rate}，其计算式为：

pix[i]_{face_rate}＝pix[i]_{face_num}/pix[i]_{total_num}

根据某个宏块的帧间代价cost_block[i]与整幅图像的平均帧间代价cost_image的大小，判定该宏块是否为人眼感兴趣的区域，以此划分纹理运动区域重要等级，用变量fac₂[i]来描述，其表达式为：

Step 2，根据S1中得到的fac₁[i]和fac₂[i]，计算各宏块的兴趣区域等级fac[i]，并计算帧内因子fac_roi值；

其中，各宏块的兴趣区域等级的表达式为：

fac[i]＝fac₁[i]+fac₂[i]

式中，fac[i]∈{0,1,2,3}，兴趣区域等级的数值越大，表示宏块的优先级越高。

根据ROI区域的像素数pix_roi和整幅图像的像素数pix_total，计算帧内因子fac_roi的值，其计算式为：

fac_roi＝pix_roi/pix_total

式中，ROI区域为兴趣区域等级fac[i]∈{1,2,3}的宏块区域。

Step 3，基于S2中得到的兴趣区域等级和帧内因子，制定兴趣编码量化策略，包括对非兴趣感知区域的编码策略，其表达式为：

Step 4,将S3中得到的编码量化策略集成到H.264编码器，对视频进行多种码率编码；

Step 5，将编码处理后的视频分割成固定大小的视频块，并封装成MPED-DASH格式的视频文件，将生成的全部视频文件以及媒体描述文件MPD放置在配置好的流媒体服务器上；

Step 6，客户端基于服务器端的码率自适应决策结果，选择合适码率版本的视频文件下载到缓冲区，对视频文件进行解码，并在缓冲区中完成视频图像超分辨率重建，然后重新编码为视频块，替换回放缓冲区中的原始块，播放器播放质量增强后的视频块。

其中，服务器端的码率自适应决策基于强化学习网络实现，代理agent感知外界环境的状态(state)和反馈的奖励(reward)，进行学习和决策，得到最优的视频流码率级别。

其中，状态state包括过去k个视频块的网络吞吐量均值、过去k个视频块的平均下载时间、当前缓冲区剩余大小、整个视频未下载的块数以及上一个视频块通过S4所述兴趣编码后的码率级别，奖励reward则根据基于深度学习网络实现的超分辨率重建模块返回的视频图像状态信息计算得到，其计算式为：

R_i＝λ*br_ROI+(1-λ)*br_{Non_ROI}

在本发明的一个具体实施例中，采用了如下训练方法：

a)客户端在下载并解码视频文件得到视频帧后，首先采用Bicubic算法将低分辨率图像放大到目标尺寸，放大后的图像仍然为低分辨率图像；

b)将目标尺寸的低分辨率图像输入到一个三层卷积神经网络中，对YcbCr颜色空间的图像进行Y通道重建，网络形式为3个不同的conv层+relu层。其中，第一层卷积神经网络提取输入视频图像的特征，卷积核尺寸为9×9，卷积核数目为64，输出64张特征图；第二层卷积神经网络对第一层提取的特征进行非线性映射，卷积核尺寸为1×1，卷积核数目为32，输出32张特征图；第三层卷积神经网络对映射后的特征进行重建，生成高分辨率图像，卷积核尺寸为5×5，卷积核数目为1，输出最终重建后的高分辨率图像。

因此，超分辨率重建步骤包括：

S1，解码下载的视频文件，得到视频帧数据；

S2，通过插值算法将视频图像放大到目标尺寸；

S3，对目标尺寸图像进行超分辨率重建，输出质量增强后的图像；

本发明采用以上技术方案，在服务器端通过兴趣编码量化方案进行特征提取，对重要区域进行高码率编码，对不重要区域进行低码率编码，实现了视频压缩，视频编码数据降低，用于传输视频的流量相应减小，达到了降低网络带宽消耗的目的。客户端接收到压缩编码后的视频，在每帧视频的基础上进行基于深度学习的超分辨率图像重建，把原视频还原为高分辨率视频，从而有效提升用户的视频观看体验。相比于传统方法，本发明所述方法结合了兴趣编码技术和超分辨率重构网络，充分利用了客户端的终端计算能力完成超分辨率重建，在降低网络带宽消耗的同时，提升了用户的视频观看体验。

表1为通过本发明所述兴趣编码方法对标准YUV视频序列进行编码后的实验结果。

表1兴趣编码实验结果

可以看出，通过兴趣编码后，ROI区域的PSNR平均值增加，即视频的主观质量增加，与此同时，视频总体大小有5％左右的降低。

Claims

1.一种支持人脸检测与实时超分辨率的码率自适应决策方法，其特征在于，包括如下步骤：

步骤1，通过YcbCr色度检测和帧间代价的判定得到各宏块的人脸区域信息和纹理运动区域信息，利用上述信息计算得到各宏块的兴趣区域等级和帧内因子；

步骤2，结合兴趣区域等级和帧内因子，设计兴趣编码量化方案，并集成到H.264编码器中，对视频进行多种码率编码；

步骤3，将编码后的视频进行切割封装，客户端根据码率自适应决策模块的反馈结果将相应的视频文件下载至缓冲区，在缓冲区内完成超分辨率重建，然后通过解码器从缓冲区读取数据并传回播放器；

所述步骤1包括：

步骤1.1，在服务器端，以源视频帧的宏块中像素点为基本单位，对各像素进行YcbCr色度检测，计算各宏块中肤色像素占整个宏块像素的比例pix[i]_{face_rate}，得到人脸区域的重要等级fac₁[i]，同时，判定帧中宏块是否为人眼感兴趣的区域，获取纹理运动区域重要等级fac₂[i]，其中i表示各宏块的编号；

步骤1.2，根据fac₁[i]和fac₂[i]计算各宏块的兴趣区域等级fac[i]，fac[i]＝fac₁[i]+fac₂[i]，并计算帧内因子fac_roi值；

所述步骤1.1中，YCbCr检测的像素点若满足100≤Cb≤127，138≤Cr≤170，则判定该像素点为肤色像素，Cb和Cr分别为蓝色和红色的浓度偏移量成份；

pix[i]_{face_rate}的计算式为：

pix[i]_{face_rate}＝pix[i]_{face_num}/pix[i]_{total_num}

其中pix[i]_{total_num}为各宏块的总像素，计算式为：

pix[i]_{total_num}＝∑∑pix[i]_(x，y)

式中，i表示各宏块的编号，N为视频帧的宏块数，1≤i≤N；(x，y)为第i个宏块内的像素点坐标；

pix[i]_{face_num}为各宏块内的肤色像素总数，计算式为：

pix[i]_face-num＝∑∑{pix[i]_(x，y)|(x，y)为肤色像素点}

所述步骤1.2中，fac[i]∈{0，1，2，3}，兴趣区域等级的数值越大，表示宏块的优先级越高；

fac_roi＝pix_roi/pix_total

式中，ROI区域为兴趣区域等级fac[i]∈{1，2，3}的宏块区域；

所述步骤2中，兴趣编码量化策略包括对非兴趣感知区域的编码策略，其表达式为：

式中，QP₀为默认量化值，QP_non为非兴趣感知区域的量化；

所述步骤3包括：

步骤3.2，客户端基于服务器端的码率自适应决策结果，选择合适码率版本的视频文件下载到缓冲区，对视频文件进行解码，并在缓冲区中进行视频图像超分辨率重建，将重新编码的视频块替换原始块后播放；

其中，所述服务器端的码率自适应决策基于强化学习网络实现，代理agent感知外界环境的状态(state)和反馈的奖励(reward)，进行学习和决策，得到最优的视频流码率级别；

R_i＝λ*br_ROI+(1-λ)*br_{Non_ROI}