CN113573140B - 一种支持人脸检测与实时超分辨率的码率自适应决策方法 - Google Patents

一种支持人脸检测与实时超分辨率的码率自适应决策方法 Download PDF

Info

Publication number
CN113573140B
CN113573140B CN202110780052.5A CN202110780052A CN113573140B CN 113573140 B CN113573140 B CN 113573140B CN 202110780052 A CN202110780052 A CN 202110780052A CN 113573140 B CN113573140 B CN 113573140B
Authority
CN
China
Prior art keywords
video
pix
fac
interest
roi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110780052.5A
Other languages
English (en)
Other versions
CN113573140A (zh
Inventor
张未展
袁丹夫
郑庆华
罗军锋
王志文
杜海鹏
刘峰
王洋
刘汇川
甄宝珠
刘迅承
张志浩
张凯喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110780052.5A priority Critical patent/CN113573140B/zh
Publication of CN113573140A publication Critical patent/CN113573140A/zh
Application granted granted Critical
Publication of CN113573140B publication Critical patent/CN113573140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种支持人脸检测与实时超分辨率的码率自适应决策方法,通过YcbCr色度检测和帧间代价判定得到各宏块的人脸区域信息和纹理运动区域信息,计算得到各宏块的兴趣区域等级和帧内因子;结合兴趣区域等级和帧内因子,设计兴趣编码量化方案,并集成到H.264编码器中,对视频进行多种码率编码;将编码后的视频进行切割封装,客户端根据码率自适应决策模块的反馈结果将相应的视频文件下载至缓冲区,在缓冲区内完成超分辨率重建,重新编码后替换原视频块,播放器播放质量增强后的视频块。本发明可使编码后的人脸视频图像在保证主观质量的同时尽可能压缩视频大小,达到降低带宽消耗的目的,同时保证视频图像中重要区域的高码率,提升视频清晰程度。

Description

一种支持人脸检测与实时超分辨率的码率自适应决策方法
技术领域
本发明属于视频传输技术领域,特别涉及一种支持人脸检测与实时超分辨率的码率自适应决策方法。
背景技术
随着互联网技术的发展和智能终端设备的普及,利用终端设备在线观看视频越来越流行。目前大多数视频资源以人为主体,在线观看视频时人们会更多关注视频中人的面部表情和身体动作,人们的视野范围往往集中在人身上,其中面部区域在绝大多数情况下都能够作为关注区域,且这一小部分视频内容决定着用户的观看体验质量。随着计算机视觉技术的发展,现在已经提出许多人脸识别的人工智能算法,但这些算法往往需要强大的算力支持,复杂度较高,不利于视频编码中流程化的实现。与此同时,用户对观看高分辨率视频的需求日益增长,在有限的带宽资源和动态的网络波动下,高码率级别的视频传输会消耗大量的网络带宽,带来视频播放卡顿和较高的延时,无法保证用户的视频观看体验,也无法满足用户对于高分辨率视频的需求。
在视频编码问题上,感兴趣区域(Region Of Interest,即ROI)能够从图像中划定具有特殊目的的边界,并圈定该区域以便进行下一步处理。在视频编码中,采用ROI技术根据设定的规则对视频内容进行合理分割,并对图像中重要的区域进行高码率编码,对不重要的区域进行低码率编码。当视频观看者的关注重点聚焦在人脸时,可以在视频编码期间将更多的资源分配给面部区域,以保持这些区域的高质量。因此,通过兴趣感知技术对视频中的面部内容进行准确检测和高质量编码,对其他区域采用低质量编码,可以在有效降低视频传输大小的同时,保证用户良好的体验质量。
在视频传输和播放上,基于固定规则的自适应码率策略无法实现自适应码率传输系统的性能最优化,具有一定的局限性和特殊性。随着机器学习技术迅速应用在流媒体领域,基于强化学习(RL)实现自适应码率选择成为当前的一个热点。通过基于强化学习的自适应码率技术确定传输视频码率级别后,客户端能够从服务器端获取到在当前网络状态下最优码率质量的视频文件,而这样的视频可能无法满足用户对于高分辨率的需求,在此基础上引入图像超分辨率重建技术,对下载到客户端的视频文件进行超分辨率重建,能够很好地满足用户的观看需求,进一步提升用户的视频观看体验。
据申请人检索和查新,检索到的以下几篇与本发明相关的属于视频传输领域的专利,它们分别是:
1.CN201711407905,一种基于强化学习的自适应码率视频传输方法以及系统。
2.CN201810195620,基于超分辨率重建技术的视频传输系统及传输方法。
上述专利1提供了一种基于强化学习的自适应码率视频传输方法以及系统。该方法基于深度神经网络进行码率预测,采用Critic网络学习不同网络状态下选择不同码率所得到的视频质量体验指标,Actor网络利用Critic网络给出的优化目标来最大化视频码率选择带来的奖励,避免了基于固定规则或人工特征选择带来的精度和效率问题,让该方法能够适用于复杂的网络环境,提高了视频质量体验。
上述专利2提供基于超分辨率重建技术的视频传输系统及对应的视频传输方法,涉及视频传输技术领域,具体步骤为:视频接收步骤,网关设备接收视频服务器发送的视频数据;超分辨率重建步骤,网关设备对视频数据进行超分辨率重建;视频发送步骤,网关设备将超分辨率重建后的视频传输给客户端。利用网关设备作为视频服务器与客户端之间的数据传递部件,首先对视频数据进行超分辨率重建并转发到客户端,客户端可以作为视频播放终端,也可以是下一级的其他网络设备。通过设置网关设备,可以在保持相同视频质量的前提下,降低视频内容提供商的运营成本,同时降低普通用户的网络流量成本,减少由于带宽问题而引起的卡顿问题,带给用户更好的使用体验。
上述相关发明专利均应用神经网络,但应用方向不同,专利1利用深度强化学习网络预测将要下载的视频块码率级别,为客户端下载视频切片版本提供合适方案;专利2则将网关设备接收到的视频利用超分辨率重建网络进行图像增强,并将重建后的网络传输到客户端。本发明与上述发明专利的区别在于,在服务器端设计了基于人脸检测的兴趣编码方案,替代了原H.264编码算法,并通过基于强化学习的码率自适应决策模块确定最优码率级别,客户端根据决策结果下载合适码率版本的视频文件到缓冲区,在缓冲区内进行超分辨率重构,结合服务器端和客户端完成视频的编码、传输和超分辨率重构,以提升视频传输效果,为用户提供更好的视频观看体验。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种支持人脸检测与实时超分辨率的码率自适应决策方法,通过人脸检测兴趣编码、自适应决策以及超分辨率重建,能够有效降低视频传输的大小并提升用户的视频观看体验。
为了实现上述目的,本发明采用的技术方案是:
一种支持人脸检测与实时超分辨率的码率自适应决策方法,包括如下步骤:
步骤1,通过YcbCr色度检测和帧间代价的判定得到各宏块的人脸区域信息和纹理运动区域信息,利用上述信息计算得到各宏块的兴趣区域等级和帧内因子。具体包括:
步骤1.1,在服务器端,以源视频帧的宏块中像素点为基本单位,对各像素进行YcbCr色度检测,计算各宏块中肤色像素占整个宏块像素的比例pix[i]face_rate,得到人脸区域的重要等级fac1[i],同时,判定帧中宏块是否为人眼感兴趣的区域,获取纹理运动区域重要等级fac2[i],其中i表示各宏块的编号。
YCbCr检测的像素点若满足100≤Cb≤127,138≤Cr≤170,则判定该像素点为肤色像素,Cb和Cr分别为蓝色和红色的浓度偏移量成份;
pix[i]face_rate的计算式为:
pix[i]face_rate=pix[i]face_num/pix[i]total_num
其中pix[i]total_num为各宏块的总像素,计算式为:
Figure BDA0003156284150000041
式中,i表示各宏块的编号,N为视频帧的宏块数,1≤i≤N;(x,y)为第i个宏块内的像素点坐标;
pix[i]face_num为各宏块内的肤色像素总数,计算式为:
Figure BDA0003156284150000042
根据pix[i]face_rate得到人脸区域重要等级fac1[i],其表达式为:
Figure BDA0003156284150000043
根据某个宏块的帧间代价costblock[i]与整幅图像的平均帧间代价costimage的大小,判定该宏块是否为人眼感兴趣的区域,以此划分纹理运动区域重要等级fac2[i],其表达式为:
Figure BDA0003156284150000044
步骤1.2,根据fac1[i]和fac2[i]计算各宏块的兴趣区域等级fac[i],fac[i]=fac1[i]+fac2[i],并计算帧内因子facroi值。
其中,fac[i]∈{0,1,2,3},兴趣区域等级的数值越大,表示宏块的优先级越高;
facroi根据ROI区域的像素数pixroi和整幅图像的像素数pixtotal计算,计算式为:
facroi=pixroi/pixtotal
式中,ROI区域为兴趣区域等级fac[i]∈{1,2,3}的宏块区域。
步骤2,结合兴趣区域等级和帧内因子,设计兴趣编码量化方案,并集成到H.264编码器中,对视频进行多种码率编码。
其中,兴趣编码量化策略包括对非兴趣感知区域的编码策略,其表达式为:
Figure BDA0003156284150000051
Figure BDA0003156284150000052
式中,QP0为默认量化值,QPnon为非兴趣感知区域的量化值。
步骤3,将编码后的视频进行切割封装,客户端根据码率自适应决策模块的反馈结果将相应的视频文件下载至缓冲区,在缓冲区内完成超分辨率重建,然后通过解码器从缓冲区读取数据并传回播放器。具体包括:
步骤3.1,将编码处理后的视频分割成固定大小的视频块,并封装成MPED-DASH格式的视频文件,将生成的全部视频文件以及媒体描述文件MPD放置在配置好的流媒体服务器上;
步骤3.2,客户端基于服务器端的码率自适应决策结果,选择合适码率版本的视频文件下载到缓冲区,对视频文件进行解码,并在缓冲区中进行视频图像超分辨率重建,将重新编码的视频块替换原始块后播放。
服务器端的码率自适应决策基于强化学习网络实现,代理agent感知外界环境的状态(state)和反馈的奖励(reward),进行学习和决策,得到最优的视频流码率级别;
其中,状态state包括过去k个视频块的网络吞吐量均值、过去k个视频块的平均下载时间、当前缓冲区剩余大小、整个视频未下载的块数以及上一个视频块通过所述兴趣编码后的码率级别,奖励reward则根据基于深度学习网络实现的超分辨率重建模块返回的视频图像状态信息计算得到,其计算式为:
Ri=λ*brROI+(1-λ)*brNon_ROI
式中,λ为视频图像中ROI区域所占比例,brROI为ROI区域经过超分辨率重建后的平均码率,brNon_ROI为非ROI区域经过超分辨率重建后的平均码率。
与现有技术相比,本发明至少具有以下有益效果:
本发明根据视频帧中人脸区域的色度检测结果,结合宏块的纹理运动区域信息,提出了一种基于人脸检测的兴趣编码量化方案;通过将该编码方案集成到H.264中完成视频编码,对兴趣编码后的视频进行切割和封装,基于强化学习的码率自适应决策模块将码率决策结果反馈至客户端,客户端下载对应码率级别的视频文件到缓冲区,通过深度学习网络进行视频超分辨率重建,得到高质量的视频图像。本发明人脸检测兴趣编码方法与原H.264编码算法相比,能够保证编码后的人脸视频图像在保证主观质量的同时尽可能压缩视频大小。
针对动态变化的网络带宽,本发明采用的基于强化学习的码率决策方法结合了兴趣编码技术和超分辨率重构网络,能够有效保证视频图像中重要区域的高码率,在尽可能提升视频观看质量的前提下,降低视频传输代价,减少网络带宽消耗,同时在客户端利用终端计算能力提取有效特征,提升视频清晰程度,为用户提供更好的视频观看体验。
附图说明
图1是本发明结构示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如附图1所示,本发明为一种支持人脸检测与实时超分辨率的码率自适应决策方法,主要由三部分构成,分别是人脸检测兴趣编码部分、自适应决策部分以及超分辨率重建部分,通过YcbCr色度检测和帧间代价的判定得到各宏块的人脸区域信息和纹理运动区域信息,利用上述信息计算得到视频帧各宏块的兴趣区域等级。然后,基于兴趣区域等级和帧内因子,设计人脸检测的兴趣编码量化方案,并集成到H.264编码器中完成视频编码。将编码后的视频进行切割封装,客户端根据码率决策模块反馈的结果将合适码率版本的视频文件下载至缓冲区,在缓冲区内利用预先训练的基于深度学习的超分辨率重建网络进行图像增强,重新编码并替换原视频块,播放器播放质量增强后的视频块。
下面结合具体应用的实施例对本发明的技术方案进行详细说明。
Step 1,在服务器端,以源视频帧的宏块中像素点为基本单位,对各像素进行YcbCr色度检测,计算各宏块中肤色像素占整个宏块像素的比例pix[i]face_rate,得到人脸区域的重要等级fac1[i]。同时,判定帧中宏块是否为人眼感兴趣的区域,获取纹理运动区域重要等级fac2[i];
其中,YCbCr检测的像素点若满足100≤Cb≤127,138≤Cr≤170,则判定该像素点为肤色像素,Cb和Cr分别为蓝色和红色的浓度偏移量成份。
各宏块的总像素pix[i]total_num的计算式为:
Figure BDA0003156284150000071
式中,i表示各宏块的编号,N为视频帧的宏块数,1≤i≤N;(x,y)为第i个宏块内的像素点坐标。
各宏块内的肤色像素总数pix[i]face_num的计算式为:
Figure BDA0003156284150000072
根据各宏块总像素pix[i]total_num和各宏块内的肤色像素总数pix[i]face_num,计算各宏块中肤色像素的比例pix[i]face_rate,其计算式为:
pix[i]face_rate=pix[i]face_num/pix[i]total_num
根据pix[i]face_rate得到人脸区域重要等级fac1[i],其表达式为:
Figure BDA0003156284150000073
根据某个宏块的帧间代价costblock[i]与整幅图像的平均帧间代价costimage的大小,判定该宏块是否为人眼感兴趣的区域,以此划分纹理运动区域重要等级,用变量fac2[i]来描述,其表达式为:
Figure BDA0003156284150000081
Step 2,根据S1中得到的fac1[i]和fac2[i],计算各宏块的兴趣区域等级fac[i],并计算帧内因子facroi值;
其中,各宏块的兴趣区域等级的表达式为:
fac[i]=fac1[i]+fac2[i]
式中,fac[i]∈{0,1,2,3},兴趣区域等级的数值越大,表示宏块的优先级越高。
根据ROI区域的像素数pixroi和整幅图像的像素数pixtotal,计算帧内因子facroi的值,其计算式为:
facroi=pixroi/pixtotal
式中,ROI区域为兴趣区域等级fac[i]∈{1,2,3}的宏块区域。
Step 3,基于S2中得到的兴趣区域等级和帧内因子,制定兴趣编码量化策略,包括对非兴趣感知区域的编码策略,其表达式为:
Figure BDA0003156284150000082
Figure BDA0003156284150000083
式中,QP0为默认量化值,QPnon为非兴趣感知区域的量化值。
Step 4,将S3中得到的编码量化策略集成到H.264编码器,对视频进行多种码率编码;
Step 5,将编码处理后的视频分割成固定大小的视频块,并封装成MPED-DASH格式的视频文件,将生成的全部视频文件以及媒体描述文件MPD放置在配置好的流媒体服务器上;
Step 6,客户端基于服务器端的码率自适应决策结果,选择合适码率版本的视频文件下载到缓冲区,对视频文件进行解码,并在缓冲区中完成视频图像超分辨率重建,然后重新编码为视频块,替换回放缓冲区中的原始块,播放器播放质量增强后的视频块。
其中,服务器端的码率自适应决策基于强化学习网络实现,代理agent感知外界环境的状态(state)和反馈的奖励(reward),进行学习和决策,得到最优的视频流码率级别。
其中,状态state包括过去k个视频块的网络吞吐量均值、过去k个视频块的平均下载时间、当前缓冲区剩余大小、整个视频未下载的块数以及上一个视频块通过S4所述兴趣编码后的码率级别,奖励reward则根据基于深度学习网络实现的超分辨率重建模块返回的视频图像状态信息计算得到,其计算式为:
Ri=λ*brROI+(1-λ)*brNon_ROI
式中,λ为视频图像中ROI区域所占比例,brROI为ROI区域经过超分辨率重建后的平均码率,brNon_ROI为非ROI区域经过超分辨率重建后的平均码率。
在本发明的一个具体实施例中,采用了如下训练方法:
a)客户端在下载并解码视频文件得到视频帧后,首先采用Bicubic算法将低分辨率图像放大到目标尺寸,放大后的图像仍然为低分辨率图像;
b)将目标尺寸的低分辨率图像输入到一个三层卷积神经网络中,对YcbCr颜色空间的图像进行Y通道重建,网络形式为3个不同的conv层+relu层。其中,第一层卷积神经网络提取输入视频图像的特征,卷积核尺寸为9×9,卷积核数目为64,输出64张特征图;第二层卷积神经网络对第一层提取的特征进行非线性映射,卷积核尺寸为1×1,卷积核数目为32,输出32张特征图;第三层卷积神经网络对映射后的特征进行重建,生成高分辨率图像,卷积核尺寸为5×5,卷积核数目为1,输出最终重建后的高分辨率图像。
因此,超分辨率重建步骤包括:
S1,解码下载的视频文件,得到视频帧数据;
S2,通过插值算法将视频图像放大到目标尺寸;
S3,对目标尺寸图像进行超分辨率重建,输出质量增强后的图像;
本发明采用以上技术方案,在服务器端通过兴趣编码量化方案进行特征提取,对重要区域进行高码率编码,对不重要区域进行低码率编码,实现了视频压缩,视频编码数据降低,用于传输视频的流量相应减小,达到了降低网络带宽消耗的目的。客户端接收到压缩编码后的视频,在每帧视频的基础上进行基于深度学习的超分辨率图像重建,把原视频还原为高分辨率视频,从而有效提升用户的视频观看体验。相比于传统方法,本发明所述方法结合了兴趣编码技术和超分辨率重构网络,充分利用了客户端的终端计算能力完成超分辨率重建,在降低网络带宽消耗的同时,提升了用户的视频观看体验。
表1为通过本发明所述兴趣编码方法对标准YUV视频序列进行编码后的实验结果。
表1兴趣编码实验结果
Figure BDA0003156284150000101
可以看出,通过兴趣编码后,ROI区域的PSNR平均值增加,即视频的主观质量增加,与此同时,视频总体大小有5%左右的降低。

Claims (1)

1.一种支持人脸检测与实时超分辨率的码率自适应决策方法,其特征在于,包括如下步骤:
步骤1,通过YcbCr色度检测和帧间代价的判定得到各宏块的人脸区域信息和纹理运动区域信息,利用上述信息计算得到各宏块的兴趣区域等级和帧内因子;
步骤2,结合兴趣区域等级和帧内因子,设计兴趣编码量化方案,并集成到H.264编码器中,对视频进行多种码率编码;
步骤3,将编码后的视频进行切割封装,客户端根据码率自适应决策模块的反馈结果将相应的视频文件下载至缓冲区,在缓冲区内完成超分辨率重建,然后通过解码器从缓冲区读取数据并传回播放器;
所述步骤1包括:
步骤1.1,在服务器端,以源视频帧的宏块中像素点为基本单位,对各像素进行YcbCr色度检测,计算各宏块中肤色像素占整个宏块像素的比例pix[i]face_rate,得到人脸区域的重要等级fac1[i],同时,判定帧中宏块是否为人眼感兴趣的区域,获取纹理运动区域重要等级fac2[i],其中i表示各宏块的编号;
步骤1.2,根据fac1[i]和fac2[i]计算各宏块的兴趣区域等级fac[i],fac[i]=fac1[i]+fac2[i],并计算帧内因子facroi值;
所述步骤1.1中,YCbCr检测的像素点若满足100≤Cb≤127,138≤Cr≤170,则判定该像素点为肤色像素,Cb和Cr分别为蓝色和红色的浓度偏移量成份;
pix[i]face_rate的计算式为:
pix[i]face_rate=pix[i]face_num/pix[i]total_num
其中pix[i]total_num为各宏块的总像素,计算式为:
pix[i]total_num=∑∑pix[i](x,y)
式中,i表示各宏块的编号,N为视频帧的宏块数,1≤i≤N;(x,y)为第i个宏块内的像素点坐标;
pix[i]face_num为各宏块内的肤色像素总数,计算式为:
pix[i]face-num=∑∑{pix[i](x,y)|(x,y)为肤色像素点}
根据pix[i]face_rate得到人脸区域重要等级fac1[i],其表达式为:
Figure FDA0003527977160000021
根据某个宏块的帧间代价costblock[i]与整幅图像的平均帧间代价costimage的大小,判定该宏块是否为人眼感兴趣的区域,以此划分纹理运动区域重要等级fac2[i],其表达式为:
Figure FDA0003527977160000022
所述步骤1.2中,fac[i]∈{0,1,2,3},兴趣区域等级的数值越大,表示宏块的优先级越高;
facroi根据ROI区域的像素数pixroi和整幅图像的像素数pixtotal计算,计算式为:
facroi=pixroi/pixtotal
式中,ROI区域为兴趣区域等级fac[i]∈{1,2,3}的宏块区域;
所述步骤2中,兴趣编码量化策略包括对非兴趣感知区域的编码策略,其表达式为:
Figure FDA0003527977160000023
Figure FDA0003527977160000031
式中,QP0为默认量化值,QPnon为非兴趣感知区域的量化;
所述步骤3包括:
步骤3.1,将编码处理后的视频分割成固定大小的视频块,并封装成MPED-DASH格式的视频文件,将生成的全部视频文件以及媒体描述文件MPD放置在配置好的流媒体服务器上;
步骤3.2,客户端基于服务器端的码率自适应决策结果,选择合适码率版本的视频文件下载到缓冲区,对视频文件进行解码,并在缓冲区中进行视频图像超分辨率重建,将重新编码的视频块替换原始块后播放;
其中,所述服务器端的码率自适应决策基于强化学习网络实现,代理agent感知外界环境的状态(state)和反馈的奖励(reward),进行学习和决策,得到最优的视频流码率级别;
其中,状态state包括过去k个视频块的网络吞吐量均值、过去k个视频块的平均下载时间、当前缓冲区剩余大小、整个视频未下载的块数以及上一个视频块通过所述兴趣编码后的码率级别,奖励reward则根据基于深度学习网络实现的超分辨率重建模块返回的视频图像状态信息计算得到,其计算式为:
Ri=λ*brROI+(1-λ)*brNon_ROI
式中,λ为视频图像中ROI区域所占比例,brROI为ROI区域经过超分辨率重建后的平均码率,brNon_ROI为非ROI区域经过超分辨率重建后的平均码率。
CN202110780052.5A 2021-07-09 2021-07-09 一种支持人脸检测与实时超分辨率的码率自适应决策方法 Active CN113573140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110780052.5A CN113573140B (zh) 2021-07-09 2021-07-09 一种支持人脸检测与实时超分辨率的码率自适应决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110780052.5A CN113573140B (zh) 2021-07-09 2021-07-09 一种支持人脸检测与实时超分辨率的码率自适应决策方法

Publications (2)

Publication Number Publication Date
CN113573140A CN113573140A (zh) 2021-10-29
CN113573140B true CN113573140B (zh) 2022-05-03

Family

ID=78164534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110780052.5A Active CN113573140B (zh) 2021-07-09 2021-07-09 一种支持人脸检测与实时超分辨率的码率自适应决策方法

Country Status (1)

Country Link
CN (1) CN113573140B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114885208B (zh) * 2022-03-21 2023-08-08 中南大学 Ndn网络下可伸缩流媒体传输的动态自适应方法、设备及介质
CN114979089B (zh) 2022-04-25 2023-03-24 北京邮电大学 一种实时传输全景视频的系统和方法
CN114565966A (zh) * 2022-04-26 2022-05-31 全时云商务服务股份有限公司 一种人脸视频图像处理方法及装置
CN115037962B (zh) * 2022-05-31 2024-03-12 咪咕视讯科技有限公司 视频自适应传输方法、装置、终端设备以及存储介质
CN116614673B (zh) * 2023-07-21 2023-10-20 山东宝盛鑫信息科技有限公司 一种基于特殊人群的短视频推送系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106791856A (zh) * 2016-12-28 2017-05-31 天津天地伟业生产力促进有限公司 一种基于自适应感兴趣区域的视频编码方法
CN112419202A (zh) * 2020-12-11 2021-02-26 北京林业大学 基于大数据及深度学习的野生动物图像自动识别系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337711A1 (en) * 2011-03-29 2017-11-23 Lyrical Labs Video Compression Technology, LLC Video processing and encoding
JP6024952B2 (ja) * 2012-07-19 2016-11-16 パナソニックIpマネジメント株式会社 画像送信装置、画像送信方法、画像送信プログラム及び画像認識認証システム
CN103905821A (zh) * 2014-04-23 2014-07-02 深圳英飞拓科技股份有限公司 能够识别人脸的视频编码方法及装置
CN112954398B (zh) * 2021-02-07 2023-03-24 杭州网易智企科技有限公司 编码方法、解码方法、装置、存储介质及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106791856A (zh) * 2016-12-28 2017-05-31 天津天地伟业生产力促进有限公司 一种基于自适应感兴趣区域的视频编码方法
CN112419202A (zh) * 2020-12-11 2021-02-26 北京林业大学 基于大数据及深度学习的野生动物图像自动识别系统

Also Published As

Publication number Publication date
CN113573140A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113573140B (zh) 一种支持人脸检测与实时超分辨率的码率自适应决策方法
US10848768B2 (en) Fast region of interest coding using multi-segment resampling
KR20190117651A (ko) 이미지 프로세싱 및 비디오 압축 방법
TWI743919B (zh) 視訊處理裝置及視訊串流的處理方法
US11770510B2 (en) Video information compression using sketch-video
CN110072119B (zh) 一种基于深度学习网络的内容感知视频自适应传输方法
US20220021887A1 (en) Apparatus for Bandwidth Efficient Video Communication Using Machine Learning Identified Objects Of Interest
CN1695381A (zh) 在数字视频信号的后处理中使用编码信息和局部空间特征的清晰度增强
US11893762B2 (en) Method and data processing system for lossy image or video encoding, transmission and decoding
US11070808B2 (en) Spatially adaptive quantization-aware deblocking filter
CN106937112A (zh) 基于h.264视频压缩标准的码率控制方法
CN113497941A (zh) 图像滤波方法、编码方法及相关设备
CN116916036A (zh) 视频压缩方法、装置及系统
US20050140781A1 (en) Video coding method and apparatus thereof
CN115665427A (zh) 直播数据的处理方法、装置及电子设备
JPH06133303A (ja) 動画像符号化装置
Yang et al. Graph-convolution network for image compression
Chi et al. Region-of-interest video coding by fuzzy control for H. 263+ standard
CN117615148B (zh) 一种基于多尺度框架的端到端特征图分层压缩方法
Doutsi et al. Retina-inspired video codec
TWI834087B (zh) 用於從位元流重建圖像及用於將圖像編碼到位元流中的方法及裝置、電腦程式產品
CN113507607B (zh) 一种无需运动补偿的压缩视频多帧质量增强方法
WO2024082971A1 (zh) 一种视频处理方法及相关装置
WO2023082520A1 (zh) 图像处理方法及装置、存储介质及电子装置
Chattopadhyay et al. FMOE-MR: content-driven multiresolution MPEG-4 fine grained scalable layered video encoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant