CN106993188A - 一种基于多人脸视频显著性的hevc压缩编码方法 - Google Patents

一种基于多人脸视频显著性的hevc压缩编码方法 Download PDF

Info

Publication number
CN106993188A
CN106993188A CN201710131188.7A CN201710131188A CN106993188A CN 106993188 A CN106993188 A CN 106993188A CN 201710131188 A CN201710131188 A CN 201710131188A CN 106993188 A CN106993188 A CN 106993188A
Authority
CN
China
Prior art keywords
face
conspicuousness
video
human faces
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710131188.7A
Other languages
English (en)
Other versions
CN106993188B (zh
Inventor
徐迈
刘雨帆
王祖林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710131188.7A priority Critical patent/CN106993188B/zh
Publication of CN106993188A publication Critical patent/CN106993188A/zh
Application granted granted Critical
Publication of CN106993188B publication Critical patent/CN106993188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种基于多人脸视频显著性的HEVC压缩编码方法,属于计算机视觉领域。本发明首先建立包含视觉关注点分布的多人脸视频数据库,检测数据库中视频中的人脸并提取脸部特征,然后建立并训练多隐马尔科夫模型,用人脸在每一帧落入的关注点百分比的变化衡量人脸的显著性变化,作为隐藏状态,将所提取的脸部特征分别作为观测特征,从而实现多人脸显著性检测。更进一步地,以预测得到的显著性图谱指导视频编码过程中的码率分配,将每权重比特bpw代替每像素比特bpp来计算编码需要的量化参数,实现HEVC编码。采用本发明方法,显著性检测结果性能好,在资源有限的情况下有效提升了压缩后视频的主观质量。

Description

一种基于多人脸视频显著性的HEVC压缩编码方法
技术领域
本发明属于计算机视觉领域,具体设计一种通过机器学习来预测多人脸视频显著性的方法,并基于检测到的视频显著性,提出了一种基于HEVC(High Efficiency VideoCoding)视频压缩方法。
背景技术
有研究表明,当人们观看一片较大范围的场景时,他们通常将关注点集中在一块小的区域,该区域被称为显著性区域。而其他区域受到较少的关注,被称之为边缘区域。因此,视觉关注度是人类视觉系统处理庞大数据量的一个显著能力。显著性检测是一种针对图像或者视频有效预测人类可能的视觉关注区域的方法。近年来,显著性检测被广泛运用于物体检测,图像重定向,视觉质量评估以及视频编码。
另外,本发明发现,视频中如果出现人脸,则人脸区域是整个视频尤为显著并受极大关注的区域。统计得到,在含人脸视频中,人脸区域的像素个数仅占整个画面的21%,然而却吸引了95%的关注度。并且,在多人脸视频中,关注点往往集中在其中某个人脸上。因此,研究多人脸视频的显著性具有不可忽略的意义。尽管现已有很多显著性检测方法,但是关于多人脸视频的显著性检测方法却十分稀少,并且考虑到视频多帧相关性以及受关注人脸状态转移的机器学习方法几乎不存在。
另一方面,随着近年来多媒体通信的快速发展,视频分辨率及传输流量也迅速增加。然而,网络带宽并不能完全承受如此庞大的传输流量。因此,在视频编码过程中,需要更大程度地减少冗余,提高效率。通常,视频的输出是人眼,所以在视频压缩编码过程中,需要以最小感知失真为优化目标。
发明内容
本发明针对目前并不完善的显著性检测方法提出一种基于自定义的机器学习方法——多隐马尔科夫模型(Multiple Hidden Markov Model,M-HMM)的多人脸显著性检测方法,并提出一种基于多人脸视频显著性的HEVC压缩编码方法。
本发明提供了一种多人脸显著性检测方法,实现步骤如下:
步骤一、建立包含视觉关注点分布的多人脸视频数据库,检测数据库中视频中的人脸并提取脸部特征。
步骤二、建立并训练多隐马尔科夫模型,包括:
(1)统计每个人脸在每一帧落入的关注点百分比,用该关注点百分比判断人脸显著性变化,该关注点百分比“增加”、“减少”及“不变”分别代表人脸的显著性变化增加、减少和保持不变;
(2)建立多隐马尔科夫模型,具体是:设同一时刻总共有N个隐藏状态,其中第n个隐藏状态代表该时刻第n个人脸的显著性变化,其中第t帧第n个隐藏状态由第t帧第n个人脸的观测特征和前一帧状态决定;定义人脸权重表示第t帧每个人脸区域落入的关注点占落入所有人脸关注点的百分比,一个隐藏状态连接一个隐藏单元N个隐藏单元与N个人脸权重之间为全连接网络。n=1,2,…,N。所述的观测特征包括所提取的脸部特征。
(3)通过最大似然估计算法,学习得到M-HMM的隐藏状态转移矩阵和观测状态转移矩阵。
(4)利用训练得到的M-HMM预测每个人脸受关注度的变化,预测得到最终的显著性图谱。
本发明基于提出的多人脸显著性检测方法,还提供了一种视频编码方法,利用本发明预测得到的显著性图谱进一步指导视频编码过程中的码率分配,来提升视频的主观质量。所述视频编码方法嵌入在高效率视频编码标准HEVC的r-λ码率控制模型上,首先定义每权重比特bpw,根据预测的显著性图谱计算每一个编码单元CTU的平均bpw,然后将bpw代替每像素比特bpp来计算编码需要的量化参数QP,最后将视频的每一帧通过HEVC进行编码。
本发明的优点和积极效果在于:
(1)本发明基于多人脸视频显著性的HEVC压缩编码方法,建立了一个庞大的视觉显著性视频数据库,为后续研究提供帮助。
(2)本发明基于多人脸视频显著性的HEVC压缩编码方法,提出了一种检测多人脸视频显著性的方法,在进行预测时采用M-HMM模型,通过实验证明显著性检测结果性能好。
(3)本发明基于多人脸视频显著性的HEVC压缩编码方法,根据预测到的多人脸显著性图谱来指导视频编码过程中的码率分配,在资源有限的情况下有效地提升了压缩后视频的主观质量。
附图说明
图1为本发明实现多人脸显著性检测及进行视频压缩的总体流程图;
图2为本发明实施例建立数据库采用的不同视频种类示例图;
图3为本发明使用的说话检测框架示意图;
图4为嘴唇边缘宽高示意图;
图5为HMM结构图;
图6为M-HMM结构图;
图7为同一视频多帧显著性图谱展示;
图8为不同视频显著性图谱展示;
图9为本发明基于显著性检测的视频编码方案框图;
图10为本发明的视频压缩方案结果图示;(a)为传统HEVC方案,(b)为本发明方案。
具体实施方式
下面结合附图与具体实例对本发明的技术方案作进一步的详细说明。
本发明提供的一种基于多人脸视频显著性的HEVC压缩编码方法,包括视觉显著性数据库的建立、显著性检测模型的构建、通过实验对本发明有效性的检验、基于所检测到的显著性图谱建立本发明的视频压缩编码方法。
首先,通过眼球追踪实验,建立一个对多人脸视频的视觉关注点分布的数据库,并自动检测图像中的人脸并提取脸部特征。然后,将关注点数据和提取到的脸部特征进行预处理,使之转换成合适M-HMM的形式。
接着,定义并构建显著性检测模型,由多通道构成:说话、转头、正\侧脸、颜色、对比度、方向。其中,前三个属于高维人脸特征通道,需要由学习得到的M-HMM预测,后三者属于低维图像特征通道,可由现有显著性预测算法GBVS模型得到。同时,对显著性检测的技术效果进行评估与分析。
最后,利用预测得到的视频显著性图谱,对传统HEVC视频压缩编码的码率分配部分进行进一步的指导,以达到有限比特数的情况下尽可能提升视频主观质量的目标。
本发明基于多人脸视频显著性的HEVC压缩编码方法,整体步骤如图1所示。步骤一和二实现了多人脸显著性检测方法,步骤三基于上两步骤进行视频压缩。
步骤一、建立数据库。
步骤101、通过眼球追踪实验,记录观测者在自由观看模式下对多人脸视频的关注点,建立包含视觉关注点分布的多人脸视频数据库。
本发明实施例,数据库中包含65个多人脸视频,并且是由3名志愿者在独立的环境下分别在Youtube网站和优酷网站上随机挑选出来。该65个视频:(1)分辨率均为1280×720;(2)时长均在20秒左右;(3)包含人脸个数从1人到27人不等;(4)在眼球追踪实验播放时均由H.264压缩得到;(4)种类分为7类:电视剧\电影(12个)、群体采访(12个)、个人采访(8个)、视频会议(6个)、综艺节目(7个)、音乐视频\脱口秀(10个)、小组讨论(10个),具体见图2及表1。
表1本发明数据库的视频分类
在眼球追踪实验中,39人(26男、13女,年龄在20-49之间)作为被试参与实验,其中仅有2名被试对显著性检测有相关背景知识,其余被试均对该领域和该实验毫无经验。该实验使用的眼动仪(用于追踪眼球转动)型号为Tobii X2-60,频率为60Hz。被试观看视频所用LCD显示屏大小为23英寸。实验过程中,被试被要求坐在一个距离LCD显示屏60厘米左右的舒适的椅子上。在观看视频之前,被试还需要通过眼动仪进行一个9点矫正。然后,被试者开始自由视角观看随机顺序播放的视频。为了避免被试眼部疲劳,本发明将65个视频分成3组,每组播放完毕后有5分钟的休息时间。另外,视频播放过程中,每两个视频之间会有一个10秒的黑屏间隔。最终,该实验总共收集到1,011,647个视觉关注点。
步骤102、对数据库进行分析并提取脸部特征作为机器学习的输入。本发明可以采用以下方法但不限于以下方法。
步骤(1)、运用已有算法自动检测数据库中视频的人脸并标定特征点,同时匹配视频中每个人脸并给他们编号。
先通过现有先进技术检测视频中的人脸并标定特征点。为了提升人脸检测的性能,进一步通过视频相邻帧之间的时序信息解决一些恶劣情况(比如遮挡、光线暗等),即通过线性插值的方法将漏检补全。另外,通过相邻帧各个人脸之间的欧几里得距离将不同帧同一人脸匹配起来。由于多人脸视频中人们运动幅度不大,因此定义当分属于相邻两帧的某两个人脸的欧几里得距离小于一定阈值thE,则该两个人脸属于同一个人。该阈值thE定义如下:
其中w和h分别是检测到人脸的宽和高,γ是控制人脸匹配敏感度的参数,这里设为0.5。
步骤(2)、通过视频中人脸内部的图像信息,提取每个人脸的3种特征(说话、转头、正\侧脸)。
通过分析数据库,发现说话这一行为会导致当前人脸区域吸引大量的关注度。因此,本发明通过训练一种分类器来进行说话检测。如图3,首先提取嘴部特征:嘴部运动(运动强度和方向)、嘴部几何特征(伸长度)、嘴部纹理(嘴部灰度直方图)。其次,将上述提取的特征输入到一种分类器,本发明使用并不限于支持向量机(Support Vector Machine,SVM),得到最终说话行为的分类结果。
具体来说,首先利用光流法来检测嘴部区域每个像素的运动矢量,记录嘴部区域的平均运动强度(公式(2))和方向梯度直方图(公式(3)):
其中,是嘴部区域的平均运动强度,R是嘴部区域,#(R)代表嘴部区域R的像素个数,o(·)是每个像素的光流运动矢量。计算方向直方图时,运动方向被平均划分成L份,每份的范围为360°/L。histl是第l个方向的梯度直方图,ol(x,y)表示第l个方向的光流运动矢量,(x,y)表示像素点的坐标。L是运动方向总数,这里设置L为8。
接下来,利用嘴部区域的特征点定义嘴部几何特征——伸长度。定义嘴唇外边缘的高和宽分别为a和b,嘴唇内边缘的高和宽分别为c和d,如图4所示,则嘴部的伸长度可由如下算得:
其中V即嘴部伸长度,它能较好地表示嘴部张合的几何信息。
同时,嘴部区域纹理的变化也作为说话检测的特征。有研究表明,说话会影响嘴部区域的灰度值分布。因此,先将嘴部区域通过阈值将其二值化,然后计算平均二值灰度:
其中,b(·)代表嘴部区域每个像素点的二值灰度。
最后,将上述特征输入到分类器SVM进行训练,对说话检测这样一个二分类问题(说话或不说话)进行分类。其中,SVM使用的是径向基(radial bias function,RBF)作为内核。输入特征向量为嘴部运动强度嘴部运动方向直方图[hist1,…,histL],嘴部伸长度V,以及分别在三个相邻帧的平均二值灰度B。于是,说话与否的状态就可作为一种高维特征被检测。
关于转头和正\侧脸特征可以通过人脸检测及特征点定位得到。在所使用的人脸特征点定位技术中,检测出68个特征点表示正脸,39个特征点表示侧脸。同样地,转头特征可以通过正\侧脸的变化得到。本发明发现,转头的动作一般影响关注度会持续1秒,因此在检测到头部姿势有变化后1秒内的帧都会被标定为转头。其中,转头也分为两种情况:正脸转侧脸,及侧脸转正脸。
步骤二、根据所建立的数据库以及对数据的分析,建立并训练M-HMM。
步骤201、对数据库中眼球追踪数据以及步骤102提取的特征进行预处理,为训练M-HMM做准备。
步骤(1)、统计数据库视频中每一帧每一个人脸区域落入的关注点个数。计算每一个人脸在当前帧落入的关注点个数占当前帧所有人脸落入的关注点个数总和的百分比。
步骤(2)、设定每个人脸在每一帧落入的关注点百分比“增加”、“减少”及“不变”作为M-HMM的三个状态,并将步骤102提取的脸部特征分别作为M-HMM的观测状态。
设该M-HMM的某个隐马尔科夫模型HMM在第t帧的高维观测特征(如说话、转头、正\侧脸)为ft,隐藏状态为St,代表某一人脸的显著性变化。即St∈{+δ1,0,-δ2},其中δ1(>0)和δ2(>0)分别代表显著性“增加”和“减少”的值,St=0表示该人脸的显著性保持不变。在该HMM中,当前时刻的状态St依赖于前一时刻的状态St-1以及观测特征ft。因此一个视频的某帧显著性图主要决定于观测的高维特征以及前一帧的人脸显著性。
步骤202、用步骤201预处理后的数据,训练并学习M-HMM。
步骤(1)、定义隐马尔科夫模型(Hidden Markov Model,HMM),即一个含有隐含未知参数的马尔科夫过程,以及M-HMM。
HMM是一种基于观测特征预测隐藏状态转移的统计马尔科夫过程,它被广泛应用于机器学习和信号处理领域,如图5所示,S1,S2,…,ST表示不同时间的隐藏状态,f1,f2,…,fT为对应时间的观测特征。在本发明中,HMM被扩展成M-HMM,即将多个HMM组合起来,如图6。
具体来说,对于M-HMM,同一时刻总共有N个隐藏状态,而本发明中每个隐藏状态(在这N个隐藏状态中)代表该第t帧每个人脸的显著性变化(“增加”、“减少”或“不变”),此处定义为 是第t帧第n个隐藏状态,这里与M-HMM中第n个HMM中St相同,它由高维观测特征和前一帧决定。接下来,引入一种全连接网络于M-HMM中,如图6。其中,定义为人脸权重,表示第t帧每个人脸区域落入的关注点占落入所有人脸关注点的百分比,而为隐藏单元。N为人脸编号个数,每个人脸的显著性变化对应一个HMM。是需要预测的数据,在训练阶段给出准确的值进行训练。
因为所以将通过softmax激活函数得到最终的具体计算过程如下:
其中,被定义为
步骤(2)、通过最大似然估计算法,学习得到M-HMM的隐藏状态转移矩阵和观测状态转移矩阵,每个HMM共享该参数集。
步骤203、利用学习得到的M-HMM预测每个人脸受关注度的变化,并经过后处理得到最终的显著性图。
步骤(1)、利用M-HMM,通过维特比算法,得到所有高维特征通道人脸关注度权重的预测结果。
利用M-HMM,通过维特比算法,得到所有高维特征通道人脸关注度权重的预测结果定义这些高维特征表示为K为高维特征个数,表示第t帧第n个人脸的第k个高维特征。
本发明实施例中,定义的高维特征包括:表示该人脸说话(=1)或不说话(=0),代表该人脸是否正在从正脸转向侧脸,表示该人脸是否正在从侧脸转向正脸,表示该人脸目前属于正脸(=1)还是侧脸(=0)。
步骤(2)、将所有高维特征通道的预测结果分别转换成高维特征显著性图谱。
设某一特征通道的预测结果在第t帧的显著性图谱为通过下式(8)计算得到。
其中,表示第t帧第n个人脸通过观测特征生成的显著性图,代表第n个人脸的中心偏至权重,即距离视频中心越远,人脸的显著性相对越低。这里用高斯模型来拟合:
式中,σ是高斯模型的标准差,反映了中心偏至的程度;表示第t帧第n个人脸中心距离视频中心的欧几里得距离。
步骤(3)、通过显著性预测模型,得到颜色、对比度、方向的低维特征显著性图谱。
通过显著性预测模型(GBVS),得到颜色、对比度、方向结合的低维特征显著性图谱,并分别定义为
步骤(4)、将上述所有特征通道的显著性图谱通过加权求和得到最终的显著性预测图。
因此,所有高维特征通过M-HMM以及公式(8)得到高维人脸显著性图于是,先将该高维人脸显著性图通过加权求和结合:
其中,ωk表示第k个高维特征通道的权重。为了获得每个高维特征通道的权重,本发明通过凸线性规划(disciplined convex programming,CVX)解决如下优化方程:
其中,分别代表在总共L个训练视频帧的高维特征多通道显著性图和真实人类关注点图。
接下来,将最终得到的高维特征显著性图与低维特征显著性图通过加权求和的方式结合起来。其中,权重通过在训练数据集的最小二乘拟合得到。最终,多人脸视频每一帧的显著性图St便可得到。
步骤204、为本发明所提出的显著性检测结果进行展示与检验。
本发明随机选取数据库中的视频进行显著性检测,并将本发明与现有算法的检测结果分别展示,如图7和图8。图7表示同一视频不同帧的显著性检测结果,结果显示本发明在同一视频的显著性人脸追踪上性能最优;图8表示不同视频的随机某一帧显著性检测结果,结果显示本发明能在多种视频中表现最好性能。
步骤三、基于本发明提出的显著性检测方法设计一种视频编码方法。
具体方法如下,如图9所示。
步骤301、利用本发明所得到的显著性图进一步指导视频编码过程中的码率分配,来提升视频的主观质量。
一种基于多人脸显著性检测的视频编码方法,即对检测出的显著人脸分配更多的比特数资源,这样可以在码率有限的情况下,提升视频的主观质量。主观质量即人类对视频质量的直观感受和评估。
一种基于多人脸显著性检测的视频编码方法,被嵌入在高效率视频编码标准(High Efficiency Video Coding,HEVC)的r-λ码率控制模型上,被称为感知码率控制方案。具体而言,传统的HEVC码率控制算法通过给定目标码率对率失真优化问题进行求解得到每一个编码单元(Coding Tree Unit,CTU)的每像素比特(bit per pixel,bpp)。本发明定义每权重比特(bit per weight,bpw)代替bpp,通过权重的思想反映不同区域的显著性强弱。设bpwt,i表示第t帧第i个像素的bpw,则得第j个CTU在第t帧的目标码率rt,j为:
其中It,j表示第t帧第j个CTU内的像素集合。在对多人脸视频的某一帧进行编码之前,公式(12)中的bpwt,i可以通过本发明提出的显著性检测方法预测的显著性图谱St得到。令St(i)为第t帧第i个像素的预测显著性值,则
其中rt和It分别为目标码率和第t帧的像素个数。
接下来,每个CTU的平均bpw可被估计得
其中#(It,j)表示第j个CTU内的像素个数。于是,本发明用代替传统码率控制算法中的平均bpp,去计算编码需要的量化参数(Quantization Parameter,QP),对于第j个CTU在第t帧的量化参数具体计算如下:
其中,对于每个CTU,λt,j是优化中的拉格朗日乘子,而QPt,j作为量化参数QP是码率控制模块的输出。另外,αt,j和βt,j为r-λ模型的参数;c1和c2即QP估计的拟合参数。最后,视频的每一帧通过HEVC进行编码,图9总结了本发明的感知码率控制流程。
步骤302、对本发明所提出的视频压缩编码方法的结果进行简单展示与检验。
本发明对所提出的视频压缩编码方法进行简单展示与检验。本发明随机选取其中一个压缩后测试视频的某一帧进行展示,如图10所示,同样可得本发明在某些显著性区域对于传统算法能更好地提升质量。
本发明通过对多人脸视频显著性的检测,对视频压缩的码率分配过程进行控制,适用于对视频主观质量有要求但设备无法传输或存储较大比特率视频的情况下。尽管本发明已参照具体实施方式进行描述和举例说明,但是并不意味着本发明限于该描述的实施方式。

Claims (10)

1.一种多人脸显著性检测方法,其特征在于,包括:
步骤一,建立包含视觉关注点分布的多人脸视频数据库,检测数据库中视频中的人脸并提取脸部特征;
步骤二、建立并训练多隐马尔科夫模型M-HMM;
统计每个人脸在每一帧落入的关注点百分比,用该关注点百分比判断人脸显著性变化,该关注点百分比“增加”、“减少”及“不变”分别代表人脸的显著性变化增加、减少和保持不变;
所建立的M-HMM是:设同一时刻总共有N个隐藏状态,其中第n个隐藏状态代表该时刻第n个人脸的显著性变化,其中第t帧第n个隐藏状态由第t帧第n个人脸的观测特征和前一帧状态决定;定义人脸权重表示第t帧每个人脸区域落入的关注点占落入所有人脸关注点的百分比,一个隐藏状态连接一个隐藏单元N个隐藏单元与N个人脸权重之间为全连接网络;n=1,2,…,N;所述的观测特征包括所提取的脸部特征;
利用训练得到的M-HMM预测每个人脸受关注度的变化,预测得到最终的显著性图谱。
2.根据权利要求1所述的多人脸显著性检测方法,其特征在于,所述的步骤一中,通过眼球追踪实验,记录观测者在自由观看模式下对多人脸视频的关注点,建立包含视觉关注点分布的多人脸视频数据库。
3.根据权利要求1所述的多人脸显著性检测方法,其特征在于,所述的步骤一中,提取的脸部特征包括说话、转头和正\侧脸。
4.根据权利要求3所述的多人脸显著性检测方法,其特征在于,所述的说话特征,检测方法是:
提取嘴部特征,包括嘴部运动、嘴部几何特征和嘴部纹理;嘴部运动包括运动强度和方向,嘴部几何特征用伸长度表示,嘴部纹理用嘴部灰度直方图表示;
将提取的嘴部特征输入分类器,得到最终说话行为的分类结果,判断为说话或不说话。
5.根据权利要求1所述的多人脸显著性检测方法,其特征在于,所述的步骤二的M-HMM中,定义人脸权重
6.根据权利要求1所述的多人脸显著性检测方法,其特征在于,所述步骤二中,构建显著性检测模型的通道,包括脸部特征和颜色、对比度、方向;脸部特征为高维特征,颜色、对比度和方向为低维特征;得到显著性预测图的过程包括:
利用M-HMM,通过维特比算法,得到所有高维特征通道人脸关注度权重的预测结果;将所有高维特征通道的预测结果分别转换成高维特征显著性图谱;获得颜色、对比度、方向的低维特征显著性图谱;将所有高维和低维特征显著性图谱通过加权求和得到最终的显著性预测图。
7.根据权利要求6所述的多人脸显著性检测方法,其特征在于,所述的高维特征包括:表示第n个人脸说话或不说话,代表第n个人脸是否正在从正脸转向侧脸,表示第n个人脸是否正在从侧脸转向正脸,表示第n个人脸目前属于正脸还是侧脸。
8.根据权利要求6或7所述的多人脸显著性检测方法,其特征在于,所述的显著性图谱,首先将高维特征显著性图谱加权求和,各高维特征通道的权重通过凸线性规划求解如下优化方程来获得;
arg min { ω k } k = 1 4 Σ l = 1 L | | Σ k = 1 4 ω k M l , k F * - S l F * | | 2 , s . t . Σ k = 1 4 ω k = 1 , ω k > 0
其中,ωk表示第k个高维特征通道的权重,表示在总共L个训练视频帧的高维特征多通道显著性图;表示在总共L个训练视频帧的真实人类关注点图;
然后,将加权得到的高维特征显著性图与低维特征显著性图通过加权求和的方式结合起来得到最终的显著性图谱,权重通过在训练数据集的最小二乘拟合得到。
9.基于权利要求1~7任一所述的多人脸显著性检测方法的视频编码方法,嵌入在高效率视频编码标准HEVC的r-λ码率控制模型上,其特征在于,该方法包括:
首先,定义每权重比特bpw,根据预测的显著性图谱计算每一个编码单元CTU的平均bpw;
其次,将bpw代替每像素比特bpp来计算编码需要的量化参数QP;
最后,将视频的每一帧通过HEVC进行编码。
10.根据权利要求9所述的视频编码方法,其特征在于,所述的编码单元CTU的平均bpw根据下式计算:
b p w ‾ t , i = r t , j # ( I t , j )
其中,It,j表示第t帧第j个CTU内的像素集合,#(It,j)表示第j个CTU内的像素个数,rt,j表示第j个CTU在第t帧的目标码率,bpwt,i表示第t帧第i个像素的bpw;
第j个CTU在第t帧的量化参数QPt,j计算如下:
λ t , j = α t , j · ( b p w ‾ t , j ) β t , j , QP t , j = c 1 · l n ( λ t , j ) + c 2
其中,λt,j是优化中的拉格朗日乘子,αt,j和βt,j为r-λ模型的参数,c1和c2是量化参数估计的拟合参数。
CN201710131188.7A 2017-03-07 2017-03-07 一种基于多人脸视频显著性的hevc压缩编码方法 Active CN106993188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710131188.7A CN106993188B (zh) 2017-03-07 2017-03-07 一种基于多人脸视频显著性的hevc压缩编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710131188.7A CN106993188B (zh) 2017-03-07 2017-03-07 一种基于多人脸视频显著性的hevc压缩编码方法

Publications (2)

Publication Number Publication Date
CN106993188A true CN106993188A (zh) 2017-07-28
CN106993188B CN106993188B (zh) 2019-09-27

Family

ID=59411583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710131188.7A Active CN106993188B (zh) 2017-03-07 2017-03-07 一种基于多人脸视频显著性的hevc压缩编码方法

Country Status (1)

Country Link
CN (1) CN106993188B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480817A (zh) * 2017-08-09 2017-12-15 浙江群力电气有限公司 一种电压波动指标测量方法及系统
CN109120932A (zh) * 2018-07-12 2019-01-01 东华大学 Hevc压缩域双svm模型的视频显著性预测方法
CN110730346A (zh) * 2018-07-17 2020-01-24 天开数码媒体有限公司 基于编码树单元失真优化的视频编码码率控制方法
CN111666820A (zh) * 2020-05-11 2020-09-15 北京中广上洋科技股份有限公司 一种讲话状态识别方法、装置、存储介质及终端
CN113170134A (zh) * 2018-11-27 2021-07-23 Op方案有限责任公司 用于语境分割和处理的基于块的图片融合
CN114782878A (zh) * 2022-05-26 2022-07-22 广东南方电信规划咨询设计院有限公司 一种视频显著性检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050220348A1 (en) * 2004-03-31 2005-10-06 Fuji Xerox Co., Ltd. Extracting video regions of interest
CN101317185A (zh) * 2005-10-05 2008-12-03 高通股份有限公司 基于视频传感器的自动关注区检测
CN101639940A (zh) * 2008-08-01 2010-02-03 北京大学 一种基于视频内容的提取视频注意窗序列的方法及系统
US20150248586A1 (en) * 2014-03-03 2015-09-03 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning
US20160231411A1 (en) * 2015-02-11 2016-08-11 Xerox Corporation Method and system for detecting that an object of interest has re-entered a field of view of an imaging device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050220348A1 (en) * 2004-03-31 2005-10-06 Fuji Xerox Co., Ltd. Extracting video regions of interest
CN101317185A (zh) * 2005-10-05 2008-12-03 高通股份有限公司 基于视频传感器的自动关注区检测
CN101639940A (zh) * 2008-08-01 2010-02-03 北京大学 一种基于视频内容的提取视频注意窗序列的方法及系统
US20150248586A1 (en) * 2014-03-03 2015-09-03 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning
US20160231411A1 (en) * 2015-02-11 2016-08-11 Xerox Corporation Method and system for detecting that an object of interest has re-entered a field of view of an imaging device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MAI XU ET AL.: "Learning to Detect Video Saliency With HEVC Features", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480817A (zh) * 2017-08-09 2017-12-15 浙江群力电气有限公司 一种电压波动指标测量方法及系统
CN109120932A (zh) * 2018-07-12 2019-01-01 东华大学 Hevc压缩域双svm模型的视频显著性预测方法
CN109120932B (zh) * 2018-07-12 2021-10-26 东华大学 Hevc压缩域双svm模型的视频显著性预测方法
CN110730346A (zh) * 2018-07-17 2020-01-24 天开数码媒体有限公司 基于编码树单元失真优化的视频编码码率控制方法
CN110730346B (zh) * 2018-07-17 2023-05-23 天开数码媒体有限公司 基于编码树单元失真优化的视频编码码率控制方法
CN113170134A (zh) * 2018-11-27 2021-07-23 Op方案有限责任公司 用于语境分割和处理的基于块的图片融合
CN111666820A (zh) * 2020-05-11 2020-09-15 北京中广上洋科技股份有限公司 一种讲话状态识别方法、装置、存储介质及终端
CN114782878A (zh) * 2022-05-26 2022-07-22 广东南方电信规划咨询设计院有限公司 一种视频显著性检测方法
CN114782878B (zh) * 2022-05-26 2024-04-30 广东南方电信规划咨询设计院有限公司 一种视频显著性检测方法

Also Published As

Publication number Publication date
CN106993188B (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN106993188B (zh) 一种基于多人脸视频显著性的hevc压缩编码方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN113688723B (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN108921051B (zh) 基于循环神经网络注意力模型的行人属性识别网络及技术
CN107483920B (zh) 一种基于多层级质量因子的全景视频评估方法及系统
CN112954312B (zh) 一种融合时空特征的无参考视频质量评估方法
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN100559881C (zh) 一种基于人工神经网络的视频质量评价方法
CN111931598B (zh) 一种基于人脸识别的课堂智能实时分析方法及系统
CN111292264A (zh) 一种基于深度学习的图像高动态范围重建方法
CN104811691B (zh) 一种基于小波变换的立体视频质量客观评价方法
Tian et al. A multi-order derivative feature-based quality assessment model for light field image
CN112784698A (zh) 基于深层次时空信息的无参考视频质量评价方法
CN108235001A (zh) 一种基于时空特征的深海视频质量客观评价模型
CN113782190B (zh) 基于多级时空特征和混合注意力网络的图像处理方法
CN110490252A (zh) 一种基于深度学习的室内人数检测方法及系统
CN111047543A (zh) 图像增强方法、装置和存储介质
CN109788275A (zh) 自然性、结构和双目不对称无参考立体图像质量评价方法
CN106339994A (zh) 一种图像增强方法
CN114821434A (zh) 一种基于光流约束的时空增强视频异常检测方法
CN111914617B (zh) 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法
CN110251076B (zh) 融合视觉注意力基于对比度的显著性检测方法及装置
Yang et al. EHNQ: Subjective and objective quality evaluation of enhanced night-time images
CN112488165A (zh) 一种基于深度学习模型的红外行人识别方法及系统
CN110490053B (zh) 一种基于三目摄像头深度估计的人脸属性识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xu Mai

Inventor after: Liu Yufan

Inventor after: Wang Zulin

Inventor after: Liu Shuai

Inventor before: Xu Mai

Inventor before: Liu Yufan

Inventor before: Wang Zulin

GR01 Patent grant
GR01 Patent grant