CN110769252A - 一种利用ai人脸检测提升编码质量的方法 - Google Patents
一种利用ai人脸检测提升编码质量的方法 Download PDFInfo
- Publication number
- CN110769252A CN110769252A CN201911061056.7A CN201911061056A CN110769252A CN 110769252 A CN110769252 A CN 110769252A CN 201911061056 A CN201911061056 A CN 201911061056A CN 110769252 A CN110769252 A CN 110769252A
- Authority
- CN
- China
- Prior art keywords
- face
- face detection
- interest
- region
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000016776 visual perception Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种利用AI人脸检测提升编码质量的方法,对视频进行预处理,然后采用AI人脸检测对视频中的人脸进行检测,然后得到感兴趣区域送入编码器,完成感兴趣区域编码质量提升。本发明通过AI检测提升人脸画质,在码流受限环境,提升了视觉感知质量。
Description
技术领域
本发明属于视频编码技术领域,具体涉及一种利用AI人脸检测提升编码质量的方法。
背景技术
相对于文字而言,人脸面部细节不够突出,在码流受限环境,视频编码器常把人脸局部细节丢失,导致“橡皮脸”现象出现;而观众对画面中的人脸关注度更高,面部轻微的马赛克或模糊,都会给观众带来不适感。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种利用AI人脸检测提升编码质量的方法,利用AI识别标注画面中面部区域,将这些区域送入编码器ROI,在编码时提升ROI画质,从而较好地编码人脸细节。
本发明采用以下技术方案:
一种利用AI人脸检测提升编码质量的方法,对视频进行预处理,然后采用AI人脸检测对视频中的人脸进行检测,然后得到感兴趣区域送入编码器,完成感兴趣区域编码质量提升。
具体的,包括以下步骤:
S1、将欲编码视频帧按比例N做长宽等比例缩小;
S2、缩小后的图片送入AI人脸检测模块;
S3、将AI人脸检测模块中输出标注的人脸的矩形框转坐标转换成感兴趣区域的矩形框坐标;
S4、将步骤S3获得的感兴趣区域送入编码器,设置编码器提升感兴趣区域的编码质量。
进一步的,步骤S1中,根据画面尺寸及需要检测的最小人脸尺寸的个数M计算N为:
N=W/16M
其中,W为画面宽度,当N为非整数时,N取整。
进一步的,步骤S3中,AI人脸检测模块输出的人脸矩形标注框为(x,y,w,h),表示矩形框左上角坐标及框大小;编码器的感兴趣区域矩形区域用左上角及右下角坐标(x1,y1,x2y2)标注,x1=Nx,y1=Ny,x2=N*(x+w),y2=N*(y+h)。
进一步的,针对2个人脸区域,(x1,y1,w1,h1)(x2,y2,w2,h2)表示AI人脸检测输出的2个矩形框,(x11,y11,x12,y12)(x21,y21,x22,y22)表示转换成感兴趣区域的2个矩形区域。
进一步的,步骤S4中,编码器的格式包括H.264,H.265,VP8,VP9,AVS,AVS+,AVS2和AV1。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种利用AI人脸检测提升编码质量的方法,鉴于人眼对图像中人脸的关注度更高,改善人脸画质,会提升整幅画面的视觉感受质量。
进一步的,缩小原始图像,有助于提升AI人脸检测速度。AI人脸检测的最小人脸像素为12x12,考虑到人脸间隔及侧脸因素,缩小后的图像中可检测的人脸不小于16x16像素。
进一步的,AI人脸检测输出的信息为矩形左上角及矩形长宽,编码器ROI需要的信息为矩形的左上及右下坐标,需要进行矩形标识信息的转换,对于多个人脸,需多次转换。
综上所述,本发明通过AI检测提升人脸画质,在码流受限环境,提升了视觉感知质量。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为根据需检测人脸大小及画面尺寸决定压缩比例N示意图;
图2为本发明处理系统框图;
图3为AI检测出的人脸区域图;
图4为普通编码后效果图;
图5为启用ROI后编码效果图;
图6为本发明流程图。
具体实施方式
目前采用大规模集成电路能够实现宏块级人脸检测,通过将包含人脸的宏块在H.264编码中提升编码质量;而采用纯硬件检测人脸仅能检测单个大面积人脸,适用于视频电话场合。随着AI技术发展,利用AI在PC上快速检测图像中大小不同的多张人脸算法已经成熟,如libfacedetection开源人脸检测库,可以在PC上实现1500FPS的检测速度,可检测12x12像素以上的任何大小的多张人脸。
本发明一种利用AI人脸检测提升编码质量的方法,包括以下步骤:
S1、将欲编码视频帧按一定比例N做长宽等比例缩小,缩小画面尺寸有利于提升AI人脸检测速度,但尺寸过小会漏检较小的人脸,根据画面尺寸及需要检测的最小人脸尺寸计算N;
AI检测人脸最小尺寸为12x12像素,考虑到人脸间距及侧脸因素,把可检测人脸扩大为16*16,根据画面尺寸及需要检测的最小人脸尺寸的个数M计算N为:
N=W/16M
为便于物理实现,当N为非整数时,N可以取整,小于等于计算值。
若图1画面宽度为W,要把4个人脸都检测出来,需要画面最小像素数为64x64,则N=W/64;
S2、缩小后的图片送入AI人脸检测模块;
S3、将AI人脸检测模块中输出标注的人脸的矩形框转坐标转换成ROI(感兴趣区域)需要的矩形框坐标;
AI人脸检测模块输出的人脸矩形标注框为(x,y,w,h),表示矩形框左上角坐标及框大小;
编码器ROI矩形区域要用左上角及右下角坐标(x1,y1,x2y2)标注,其中,x1=Nx,y1=Ny,x2=N*(x+w),y2=N*(y+h)。
请参阅图2,图中有2个人脸区域,用(x1,y1,w1,h1)(x2,y2,w2,h2)表示AI人脸检测输出的2个矩形框,用(x11,y11,x12,y12)和(x21,y21,x22,y22)表示转换成ROI(感兴趣区域)的2个矩形区域;
S4、将步骤S3获得的ROI(感兴趣区域)送入编码器,设置编码器提升ROI(感兴趣区域)编码质量。
H.264,H.265,VP8,VP9,AVS,AVS+,AVS2和AV1等编码中提供ROI(感兴趣区域)编码增强功能,若能把视频中的多个人脸位置及大小检测出来,提供到编码器的ROI(感兴趣区域)中,增强人脸编码效果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图3,先采用AI检测出人脸区域,采用普通编码处理后的效果如图4所示,启用ROI后的编码效果如图5所示,图5中仅将人脸区域质量提升,其它区域质量未变,但直观上图5画质远高于图4画质。由于人脸区域远小于整幅图像区域,仅提升人脸区域,可在码流受限环境,提升编码质量。
请参阅图6,本发明一种利用AI人脸检测提升编码质量的方法,利用ffmpeg库将yuv数据压缩,利用libfacedetection库检测图像中人脸和人脸标志得到对应的人脸所在矩形区域,然后利用Intel Media SDK进行编码,具体流程如下:
首先,从文件中读取一帧yuv数据,只取y值,uv值设置为0x80;
利用ffmpeg库函数压缩为1/4yuv;eg:1280x720->320x180;如果失败,返回重新读取一帧yuv数据;如果成功,利用opencv库函数将1/4yu转换为BGR格式数据;如果失败,返回重新读取一帧yuv数据;如果成功,利用libfacedetection库函数检测人脸矩形区域Rect列表,并还原我为原始尺寸OrigRect列表,eg:(24,36,46,40)->(96,144,184,160);
如果存在人脸矩形区域,在Intel MediaSDK sample_encode中Run函数调用EncodeFrameAsync之前,对检测到OrigRect列表分别添加ROI区域,并设置DeltaQP值;
如果失败或不存在人脸矩形区域,利用sample_encode对原始yuv一帧数据进行编码,结束。
上述实施例中,利用libfacedetection库快速检测人脸,设置Media SDK H.264编码器ROI区域,提升人脸编码画质。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (6)
1.一种利用AI人脸检测提升编码质量的方法,其特征在于,对视频进行预处理,然后采用AI人脸检测对视频中的人脸进行检测,然后得到感兴趣区域送入编码器,完成感兴趣区域编码质量提升。
2.根据权利要求1所述的方法,其特征在于,包括以下步骤:
S1、将欲编码视频帧按比例N做长宽等比例缩小;
S2、缩小后的图片送入AI人脸检测模块;
S3、将AI人脸检测模块中输出标注的人脸的矩形框转坐标转换成感兴趣区域的矩形框坐标;
S4、将步骤S3获得的感兴趣区域送入编码器,设置编码器提升感兴趣区域的编码质量。
3.根据权利要求2所述的方法,其特征在于,步骤S1中,根据画面尺寸及需要检测的最小人脸尺寸的个数M计算N为:
N=W/16M
其中,W为画面宽度,当N为非整数时,N取整。
4.根据权利要求2所述的方法,其特征在于,步骤S3中,AI人脸检测模块输出的人脸矩形标注框为(x,y,w,h),表示矩形框左上角坐标及框大小;编码器的感兴趣区域矩形区域用左上角及右下角坐标(x1,y1,x2y2)标注,x1=Nx,y1=Ny,x2=N*(x+w),y2=N*(y+h)。
5.根据权利要求4所述的方法,其特征在于,针对2个人脸区域,(x1,y1,w1,h1)(x2,y2,w2,h2)表示AI人脸检测输出的2个矩形框,(x11,y11,x12,y12)(x21,y21,x22,y22)表示转换成感兴趣区域的2个矩形区域。
6.根据权利要求2所述的方法,其特征在于,步骤S4中,编码器的格式包括H.264,H.265,VP8,VP9,AVS,AVS+,AVS2和AV1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911061056.7A CN110769252A (zh) | 2019-11-01 | 2019-11-01 | 一种利用ai人脸检测提升编码质量的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911061056.7A CN110769252A (zh) | 2019-11-01 | 2019-11-01 | 一种利用ai人脸检测提升编码质量的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110769252A true CN110769252A (zh) | 2020-02-07 |
Family
ID=69335843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911061056.7A Pending CN110769252A (zh) | 2019-11-01 | 2019-11-01 | 一种利用ai人脸检测提升编码质量的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110769252A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737525A (zh) * | 2020-06-03 | 2020-10-02 | 西安交通大学 | 一种多视频节目匹配方法 |
CN114120170A (zh) * | 2021-10-20 | 2022-03-01 | 北京旷视科技有限公司 | 视频画面分析方法、装置、设备、介质及程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103905821A (zh) * | 2014-04-23 | 2014-07-02 | 深圳英飞拓科技股份有限公司 | 能够识别人脸的视频编码方法及装置 |
CN106791856A (zh) * | 2016-12-28 | 2017-05-31 | 天津天地伟业生产力促进有限公司 | 一种基于自适应感兴趣区域的视频编码方法 |
CN110049324A (zh) * | 2019-04-12 | 2019-07-23 | 深圳壹账通智能科技有限公司 | 视频编码方法、系统、设备及计算机可读存储介质 |
CN110298296A (zh) * | 2019-06-26 | 2019-10-01 | 北京澎思智能科技有限公司 | 应用于边缘计算设备的人脸识别方法 |
-
2019
- 2019-11-01 CN CN201911061056.7A patent/CN110769252A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103905821A (zh) * | 2014-04-23 | 2014-07-02 | 深圳英飞拓科技股份有限公司 | 能够识别人脸的视频编码方法及装置 |
CN106791856A (zh) * | 2016-12-28 | 2017-05-31 | 天津天地伟业生产力促进有限公司 | 一种基于自适应感兴趣区域的视频编码方法 |
CN110049324A (zh) * | 2019-04-12 | 2019-07-23 | 深圳壹账通智能科技有限公司 | 视频编码方法、系统、设备及计算机可读存储介质 |
CN110298296A (zh) * | 2019-06-26 | 2019-10-01 | 北京澎思智能科技有限公司 | 应用于边缘计算设备的人脸识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737525A (zh) * | 2020-06-03 | 2020-10-02 | 西安交通大学 | 一种多视频节目匹配方法 |
CN111737525B (zh) * | 2020-06-03 | 2022-10-25 | 西安交通大学 | 一种多视频节目匹配方法 |
CN114120170A (zh) * | 2021-10-20 | 2022-03-01 | 北京旷视科技有限公司 | 视频画面分析方法、装置、设备、介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9013536B2 (en) | Augmented video calls on mobile devices | |
CN101491102B (zh) | 将后处理视为在解码器中执行的视频编码 | |
WO2018006825A1 (zh) | 视频编码方法和装置 | |
WO2018103243A1 (zh) | 一种带宽节省方法、系统、直播终端及可读取存储介质 | |
CN102158712B (zh) | 一种基于视觉的多视点视频信号编码方法 | |
CN102630043B (zh) | 一种基于对象的视频转码方法和装置 | |
CN110620924B (zh) | 编码数据的处理方法、装置、计算机设备及存储介质 | |
CN102006473A (zh) | 视频编码器和编码方法以及视频解码器和解码方法 | |
CN100477799C (zh) | 一种提高电视终端设备数字字幕数据处理效率的方法 | |
CN101977322A (zh) | 基于通用视频编码标准的屏幕编码系统 | |
CN111901603A (zh) | 一种用于静态背景视频的编码方法及解码方法 | |
CN113068034A (zh) | 视频编码方法及装置、编码器、设备、存储介质 | |
CN110769252A (zh) | 一种利用ai人脸检测提升编码质量的方法 | |
CN113949870B (zh) | 一种编码过程中的屏幕内容检测的方法及装置 | |
CN114827620A (zh) | 图像处理方法、装置、设备与介质 | |
CN110570441B (zh) | 一种超高清低延时视频控制方法及系统 | |
CN111246208B (zh) | 视频处理方法、装置及电子设备 | |
CN111212288B (zh) | 视频数据的编解码方法、装置、计算机设备和存储介质 | |
CN103730097B (zh) | 超高分辨率图像的显示方法与系统 | |
KR100575733B1 (ko) | 압축 동영상의 움직임 객체 분할 방법 | |
CN114640882B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN114866776B (zh) | 一种基于深度学习的帧级自适应roi视频压缩方法 | |
CN106303366B (zh) | 一种基于区域分类编码的视频编码的方法及装置 | |
CN102098505A (zh) | 监控视频压缩方法及设备 | |
TW202420815A (zh) | 使用神經網路進行圖像區域的並行處理-解碼、後濾波和rdoq |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200207 |