CN110769252A - 一种利用ai人脸检测提升编码质量的方法 - Google Patents
一种利用ai人脸检测提升编码质量的方法 Download PDFInfo
- Publication number
- CN110769252A CN110769252A CN201911061056.7A CN201911061056A CN110769252A CN 110769252 A CN110769252 A CN 110769252A CN 201911061056 A CN201911061056 A CN 201911061056A CN 110769252 A CN110769252 A CN 110769252A
- Authority
- CN
- China
- Prior art keywords
- face
- face detection
- rectangular
- region
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种利用AI人脸检测提升编码质量的方法,对视频进行预处理,然后采用AI人脸检测对视频中的人脸进行检测,然后得到感兴趣区域送入编码器,完成感兴趣区域编码质量提升。本发明通过AI检测提升人脸画质,在码流受限环境,提升了视觉感知质量。
Description
技术领域
本发明属于视频编码技术领域,具体涉及一种利用AI人脸检测提升编码质量的方法。
背景技术
相对于文字而言,人脸面部细节不够突出,在码流受限环境,视频编码器常把人脸局部细节丢失,导致“橡皮脸”现象出现;而观众对画面中的人脸关注度更高,面部轻微的马赛克或模糊,都会给观众带来不适感。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种利用AI人脸检测提升编码质量的方法,利用AI识别标注画面中面部区域,将这些区域送入编码器ROI,在编码时提升ROI画质,从而较好地编码人脸细节。
本发明采用以下技术方案:
一种利用AI人脸检测提升编码质量的方法,对视频进行预处理,然后采用AI人脸检测对视频中的人脸进行检测,然后得到感兴趣区域送入编码器,完成感兴趣区域编码质量提升。
具体的,包括以下步骤:
S1、将欲编码视频帧按比例N做长宽等比例缩小;
S2、缩小后的图片送入AI人脸检测模块;
S3、将AI人脸检测模块中输出标注的人脸的矩形框转坐标转换成感兴趣区域的矩形框坐标;
S4、将步骤S3获得的感兴趣区域送入编码器,设置编码器提升感兴趣区域的编码质量。
进一步的,步骤S1中,根据画面尺寸及需要检测的最小人脸尺寸的个数M计算N为:
N=W/16M
其中,W为画面宽度,当N为非整数时,N取整。
进一步的,步骤S3中,AI人脸检测模块输出的人脸矩形标注框为(x,y,w,h),表示矩形框左上角坐标及框大小;编码器的感兴趣区域矩形区域用左上角及右下角坐标(x1,y1,x2y2)标注,x1=Nx,y1=Ny,x2=N*(x+w),y2=N*(y+h)。
进一步的,针对2个人脸区域,(x1,y1,w1,h1)(x2,y2,w2,h2)表示AI人脸检测输出的2个矩形框,(x11,y11,x12,y12)(x21,y21,x22,y22)表示转换成感兴趣区域的2个矩形区域。
进一步的,步骤S4中,编码器的格式包括H.264,H.265,VP8,VP9,AVS,AVS+,AVS2和AV1。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种利用AI人脸检测提升编码质量的方法,鉴于人眼对图像中人脸的关注度更高,改善人脸画质,会提升整幅画面的视觉感受质量。
进一步的,缩小原始图像,有助于提升AI人脸检测速度。AI人脸检测的最小人脸像素为12x12,考虑到人脸间隔及侧脸因素,缩小后的图像中可检测的人脸不小于16x16像素。
进一步的,AI人脸检测输出的信息为矩形左上角及矩形长宽,编码器ROI需要的信息为矩形的左上及右下坐标,需要进行矩形标识信息的转换,对于多个人脸,需多次转换。
综上所述,本发明通过AI检测提升人脸画质,在码流受限环境,提升了视觉感知质量。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为根据需检测人脸大小及画面尺寸决定压缩比例N示意图;
图2为本发明处理系统框图;
图3为AI检测出的人脸区域图;
图4为普通编码后效果图;
图5为启用ROI后编码效果图;
图6为本发明流程图。
具体实施方式
目前采用大规模集成电路能够实现宏块级人脸检测,通过将包含人脸的宏块在H.264编码中提升编码质量;而采用纯硬件检测人脸仅能检测单个大面积人脸,适用于视频电话场合。随着AI技术发展,利用AI在PC上快速检测图像中大小不同的多张人脸算法已经成熟,如libfacedetection开源人脸检测库,可以在PC上实现1500FPS的检测速度,可检测12x12像素以上的任何大小的多张人脸。
本发明一种利用AI人脸检测提升编码质量的方法,包括以下步骤:
S1、将欲编码视频帧按一定比例N做长宽等比例缩小,缩小画面尺寸有利于提升AI人脸检测速度,但尺寸过小会漏检较小的人脸,根据画面尺寸及需要检测的最小人脸尺寸计算N;
AI检测人脸最小尺寸为12x12像素,考虑到人脸间距及侧脸因素,把可检测人脸扩大为16*16,根据画面尺寸及需要检测的最小人脸尺寸的个数M计算N为:
N=W/16M
为便于物理实现,当N为非整数时,N可以取整,小于等于计算值。
若图1画面宽度为W,要把4个人脸都检测出来,需要画面最小像素数为64x64,则N=W/64;
S2、缩小后的图片送入AI人脸检测模块;
S3、将AI人脸检测模块中输出标注的人脸的矩形框转坐标转换成ROI(感兴趣区域)需要的矩形框坐标;
AI人脸检测模块输出的人脸矩形标注框为(x,y,w,h),表示矩形框左上角坐标及框大小;
编码器ROI矩形区域要用左上角及右下角坐标(x1,y1,x2y2)标注,其中,x1=Nx,y1=Ny,x2=N*(x+w),y2=N*(y+h)。
请参阅图2,图中有2个人脸区域,用(x1,y1,w1,h1)(x2,y2,w2,h2)表示AI人脸检测输出的2个矩形框,用(x11,y11,x12,y12)和(x21,y21,x22,y22)表示转换成ROI(感兴趣区域)的2个矩形区域;
S4、将步骤S3获得的ROI(感兴趣区域)送入编码器,设置编码器提升ROI(感兴趣区域)编码质量。
H.264,H.265,VP8,VP9,AVS,AVS+,AVS2和AV1等编码中提供ROI(感兴趣区域)编码增强功能,若能把视频中的多个人脸位置及大小检测出来,提供到编码器的ROI(感兴趣区域)中,增强人脸编码效果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图3,先采用AI检测出人脸区域,采用普通编码处理后的效果如图4所示,启用ROI后的编码效果如图5所示,图5中仅将人脸区域质量提升,其它区域质量未变,但直观上图5画质远高于图4画质。由于人脸区域远小于整幅图像区域,仅提升人脸区域,可在码流受限环境,提升编码质量。
请参阅图6,本发明一种利用AI人脸检测提升编码质量的方法,利用ffmpeg库将yuv数据压缩,利用libfacedetection库检测图像中人脸和人脸标志得到对应的人脸所在矩形区域,然后利用Intel Media SDK进行编码,具体流程如下:
首先,从文件中读取一帧yuv数据,只取y值,uv值设置为0x80;
利用ffmpeg库函数压缩为1/4yuv;eg:1280x720->320x180;如果失败,返回重新读取一帧yuv数据;如果成功,利用opencv库函数将1/4yu转换为BGR格式数据;如果失败,返回重新读取一帧yuv数据;如果成功,利用libfacedetection库函数检测人脸矩形区域Rect列表,并还原我为原始尺寸OrigRect列表,eg:(24,36,46,40)->(96,144,184,160);
如果存在人脸矩形区域,在Intel MediaSDK sample_encode中Run函数调用EncodeFrameAsync之前,对检测到OrigRect列表分别添加ROI区域,并设置DeltaQP值;
如果失败或不存在人脸矩形区域,利用sample_encode对原始yuv一帧数据进行编码,结束。
上述实施例中,利用libfacedetection库快速检测人脸,设置Media SDK H.264编码器ROI区域,提升人脸编码画质。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (6)
1.一种利用AI人脸检测提升编码质量的方法,其特征在于,对视频进行预处理,然后采用AI人脸检测对视频中的人脸进行检测,然后得到感兴趣区域送入编码器,完成感兴趣区域编码质量提升。
2.根据权利要求1所述的方法,其特征在于,包括以下步骤:
S1、将欲编码视频帧按比例N做长宽等比例缩小;
S2、缩小后的图片送入AI人脸检测模块;
S3、将AI人脸检测模块中输出标注的人脸的矩形框转坐标转换成感兴趣区域的矩形框坐标;
S4、将步骤S3获得的感兴趣区域送入编码器,设置编码器提升感兴趣区域的编码质量。
3.根据权利要求2所述的方法,其特征在于,步骤S1中,根据画面尺寸及需要检测的最小人脸尺寸的个数M计算N为:
N=W/16M
其中,W为画面宽度,当N为非整数时,N取整。
4.根据权利要求2所述的方法,其特征在于,步骤S3中,AI人脸检测模块输出的人脸矩形标注框为(x,y,w,h),表示矩形框左上角坐标及框大小;编码器的感兴趣区域矩形区域用左上角及右下角坐标(x1,y1,x2y2)标注,x1=Nx,y1=Ny,x2=N*(x+w),y2=N*(y+h)。
5.根据权利要求4所述的方法,其特征在于,针对2个人脸区域,(x1,y1,w1,h1)(x2,y2,w2,h2)表示AI人脸检测输出的2个矩形框,(x11,y11,x12,y12)(x21,y21,x22,y22)表示转换成感兴趣区域的2个矩形区域。
6.根据权利要求2所述的方法,其特征在于,步骤S4中,编码器的格式包括H.264,H.265,VP8,VP9,AVS,AVS+,AVS2和AV1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911061056.7A CN110769252A (zh) | 2019-11-01 | 2019-11-01 | 一种利用ai人脸检测提升编码质量的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911061056.7A CN110769252A (zh) | 2019-11-01 | 2019-11-01 | 一种利用ai人脸检测提升编码质量的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110769252A true CN110769252A (zh) | 2020-02-07 |
Family
ID=69335843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911061056.7A Pending CN110769252A (zh) | 2019-11-01 | 2019-11-01 | 一种利用ai人脸检测提升编码质量的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110769252A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737525A (zh) * | 2020-06-03 | 2020-10-02 | 西安交通大学 | 一种多视频节目匹配方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103905821A (zh) * | 2014-04-23 | 2014-07-02 | 深圳英飞拓科技股份有限公司 | 能够识别人脸的视频编码方法及装置 |
CN106791856A (zh) * | 2016-12-28 | 2017-05-31 | 天津天地伟业生产力促进有限公司 | 一种基于自适应感兴趣区域的视频编码方法 |
CN110049324A (zh) * | 2019-04-12 | 2019-07-23 | 深圳壹账通智能科技有限公司 | 视频编码方法、系统、设备及计算机可读存储介质 |
CN110298296A (zh) * | 2019-06-26 | 2019-10-01 | 北京澎思智能科技有限公司 | 应用于边缘计算设备的人脸识别方法 |
-
2019
- 2019-11-01 CN CN201911061056.7A patent/CN110769252A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103905821A (zh) * | 2014-04-23 | 2014-07-02 | 深圳英飞拓科技股份有限公司 | 能够识别人脸的视频编码方法及装置 |
CN106791856A (zh) * | 2016-12-28 | 2017-05-31 | 天津天地伟业生产力促进有限公司 | 一种基于自适应感兴趣区域的视频编码方法 |
CN110049324A (zh) * | 2019-04-12 | 2019-07-23 | 深圳壹账通智能科技有限公司 | 视频编码方法、系统、设备及计算机可读存储介质 |
CN110298296A (zh) * | 2019-06-26 | 2019-10-01 | 北京澎思智能科技有限公司 | 应用于边缘计算设备的人脸识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737525A (zh) * | 2020-06-03 | 2020-10-02 | 西安交通大学 | 一种多视频节目匹配方法 |
CN111737525B (zh) * | 2020-06-03 | 2022-10-25 | 西安交通大学 | 一种多视频节目匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10628700B2 (en) | Fast and robust face detection, region extraction, and tracking for improved video coding | |
US10491895B2 (en) | Fast and robust human skin tone region detection for improved video coding | |
US9013536B2 (en) | Augmented video calls on mobile devices | |
US10887614B2 (en) | Adaptive thresholding for computer vision on low bitrate compressed video streams | |
US8265167B2 (en) | Application specific video format | |
US20230127009A1 (en) | Joint objects image signal processing in temporal domain | |
CN112232205B (zh) | 移动端cpu实时多功能人脸检测方法 | |
WO2002080525A3 (en) | System and method for performing segmentation-based enhancements of a video image | |
CN103248830A (zh) | 面向移动智能终端增强现实的实时视频合并方法 | |
CN110769252A (zh) | 一种利用ai人脸检测提升编码质量的方法 | |
CN113658073A (zh) | 图像去噪处理方法、装置、存储介质与电子设备 | |
CN111343463A (zh) | 一种图像编码设备、方法及图像编码器 | |
CN113542864B (zh) | 视频的花屏区域检测方法、装置、设备及可读存储介质 | |
US11196977B2 (en) | Unified coding of 3D objects and scenes | |
CN114640882B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
KR100575733B1 (ko) | 압축 동영상의 움직임 객체 분할 방법 | |
CN102300086A (zh) | 对参考帧边界进行扩展和对运动补偿参考样本位置进行限定的方法 | |
CN114549270A (zh) | 结合深度鲁棒水印和模板同步的抗拍摄监控视频水印方法 | |
CN1520180A (zh) | 具有帧速率转换的图像处理装置及其方法 | |
CN113453007A (zh) | 一种提高监控场景h264编码效率的方法 | |
JPH07203436A (ja) | 画像符号化装置 | |
CN212231643U (zh) | 一种图像编码设备及图像编码器 | |
US11943453B2 (en) | Method for encoding a video stream | |
CN118447130A (zh) | 基于两阶段人体骨骼点检测的人脸视频打码系统及方法 | |
CN117729336A (zh) | 一种图像编码方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200207 |
|
RJ01 | Rejection of invention patent application after publication |