CN110769252A

CN110769252A - 一种利用ai人脸检测提升编码质量的方法

Info

Publication number: CN110769252A
Application number: CN201911061056.7A
Authority: CN
Inventors: 曹俊; 吴长丽; 沈雪峰; 符均
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-02-07

Abstract

本发明公开了一种利用AI人脸检测提升编码质量的方法，对视频进行预处理，然后采用AI人脸检测对视频中的人脸进行检测，然后得到感兴趣区域送入编码器，完成感兴趣区域编码质量提升。本发明通过AI检测提升人脸画质，在码流受限环境，提升了视觉感知质量。

Description

一种利用AI人脸检测提升编码质量的方法

技术领域

本发明属于视频编码技术领域，具体涉及一种利用AI人脸检测提升编码质量的方法。

背景技术

相对于文字而言，人脸面部细节不够突出，在码流受限环境，视频编码器常把人脸局部细节丢失，导致“橡皮脸”现象出现；而观众对画面中的人脸关注度更高，面部轻微的马赛克或模糊，都会给观众带来不适感。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种利用AI人脸检测提升编码质量的方法，利用AI识别标注画面中面部区域，将这些区域送入编码器ROI，在编码时提升ROI画质，从而较好地编码人脸细节。

本发明采用以下技术方案：

一种利用AI人脸检测提升编码质量的方法，对视频进行预处理，然后采用AI人脸检测对视频中的人脸进行检测，然后得到感兴趣区域送入编码器，完成感兴趣区域编码质量提升。

具体的，包括以下步骤：

S1、将欲编码视频帧按比例N做长宽等比例缩小；

S2、缩小后的图片送入AI人脸检测模块；

S3、将AI人脸检测模块中输出标注的人脸的矩形框转坐标转换成感兴趣区域的矩形框坐标；

S4、将步骤S3获得的感兴趣区域送入编码器，设置编码器提升感兴趣区域的编码质量。

进一步的，步骤S1中，根据画面尺寸及需要检测的最小人脸尺寸的个数M计算N为：

N＝W/16M

其中，W为画面宽度，当N为非整数时，N取整。

进一步的，步骤S3中，AI人脸检测模块输出的人脸矩形标注框为(x,y,w,h)，表示矩形框左上角坐标及框大小；编码器的感兴趣区域矩形区域用左上角及右下角坐标(x1,y1,x2y2)标注，x1＝Nx,y1＝Ny,x2＝N*(x+w),y2＝N*(y+h)。

进一步的，针对2个人脸区域，(x1,y1,w1,h1)(x2,y2,w2,h2)表示AI人脸检测输出的2个矩形框，(x11,y11,x12,y12)(x21,y21,x22,y22)表示转换成感兴趣区域的2个矩形区域。

进一步的，步骤S4中，编码器的格式包括H.264，H.265，VP8，VP9，AVS，AVS+，AVS2和AV1。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种利用AI人脸检测提升编码质量的方法，鉴于人眼对图像中人脸的关注度更高，改善人脸画质，会提升整幅画面的视觉感受质量。

进一步的，缩小原始图像,有助于提升AI人脸检测速度。AI人脸检测的最小人脸像素为12x12，考虑到人脸间隔及侧脸因素，缩小后的图像中可检测的人脸不小于16x16像素。

进一步的，AI人脸检测输出的信息为矩形左上角及矩形长宽，编码器ROI需要的信息为矩形的左上及右下坐标，需要进行矩形标识信息的转换，对于多个人脸，需多次转换。

综上所述，本发明通过AI检测提升人脸画质，在码流受限环境，提升了视觉感知质量。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为根据需检测人脸大小及画面尺寸决定压缩比例N示意图；

图2为本发明处理系统框图；

图3为AI检测出的人脸区域图；

图4为普通编码后效果图；

图5为启用ROI后编码效果图；

图6为本发明流程图。

具体实施方式

目前采用大规模集成电路能够实现宏块级人脸检测，通过将包含人脸的宏块在H.264编码中提升编码质量；而采用纯硬件检测人脸仅能检测单个大面积人脸，适用于视频电话场合。随着AI技术发展，利用AI在PC上快速检测图像中大小不同的多张人脸算法已经成熟，如libfacedetection开源人脸检测库，可以在PC上实现1500FPS的检测速度，可检测12x12像素以上的任何大小的多张人脸。

本发明一种利用AI人脸检测提升编码质量的方法，包括以下步骤：

S1、将欲编码视频帧按一定比例N做长宽等比例缩小，缩小画面尺寸有利于提升AI人脸检测速度，但尺寸过小会漏检较小的人脸，根据画面尺寸及需要检测的最小人脸尺寸计算N；

AI检测人脸最小尺寸为12x12像素，考虑到人脸间距及侧脸因素，把可检测人脸扩大为16*16，根据画面尺寸及需要检测的最小人脸尺寸的个数M计算N为：

N＝W/16M

为便于物理实现，当N为非整数时，N可以取整，小于等于计算值。

若图1画面宽度为W，要把4个人脸都检测出来，需要画面最小像素数为64x64，则N＝W/64；

S2、缩小后的图片送入AI人脸检测模块；

S3、将AI人脸检测模块中输出标注的人脸的矩形框转坐标转换成ROI(感兴趣区域)需要的矩形框坐标；

AI人脸检测模块输出的人脸矩形标注框为(x,y,w,h)，表示矩形框左上角坐标及框大小；

编码器ROI矩形区域要用左上角及右下角坐标(x1,y1,x2y2)标注，其中，x1＝Nx，y1＝Ny，x2＝N*(x+w)，y2＝N*(y+h)。

请参阅图2，图中有2个人脸区域，用(x1,y1,w1,h1)(x2,y2,w2,h2)表示AI人脸检测输出的2个矩形框，用(x11,y11,x12,y12)和(x21,y21,x22,y22)表示转换成ROI(感兴趣区域)的2个矩形区域；

S4、将步骤S3获得的ROI(感兴趣区域)送入编码器，设置编码器提升ROI(感兴趣区域)编码质量。

H.264，H.265，VP8，VP9，AVS，AVS+，AVS2和AV1等编码中提供ROI(感兴趣区域)编码增强功能，若能把视频中的多个人脸位置及大小检测出来，提供到编码器的ROI(感兴趣区域)中，增强人脸编码效果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图3，先采用AI检测出人脸区域，采用普通编码处理后的效果如图4所示，启用ROI后的编码效果如图5所示，图5中仅将人脸区域质量提升，其它区域质量未变，但直观上图5画质远高于图4画质。由于人脸区域远小于整幅图像区域，仅提升人脸区域，可在码流受限环境，提升编码质量。

请参阅图6，本发明一种利用AI人脸检测提升编码质量的方法，利用ffmpeg库将yuv数据压缩，利用libfacedetection库检测图像中人脸和人脸标志得到对应的人脸所在矩形区域，然后利用Intel Media SDK进行编码，具体流程如下：

首先，从文件中读取一帧yuv数据，只取y值，uv值设置为0x80；

利用ffmpeg库函数压缩为1/4yuv；eg:1280x720->320x180；如果失败，返回重新读取一帧yuv数据；如果成功，利用opencv库函数将1/4yu转换为BGR格式数据；如果失败，返回重新读取一帧yuv数据；如果成功，利用libfacedetection库函数检测人脸矩形区域Rect列表,并还原我为原始尺寸OrigRect列表，eg:(24,36,46,40)->(96,144,184,160)；

如果存在人脸矩形区域，在Intel MediaSDK sample_encode中Run函数调用EncodeFrameAsync之前，对检测到OrigRect列表分别添加ROI区域，并设置DeltaQP值；

如果失败或不存在人脸矩形区域，利用sample_encode对原始yuv一帧数据进行编码，结束。

上述实施例中，利用libfacedetection库快速检测人脸，设置Media SDK H.264编码器ROI区域，提升人脸编码画质。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种利用AI人脸检测提升编码质量的方法，其特征在于，对视频进行预处理，然后采用AI人脸检测对视频中的人脸进行检测，然后得到感兴趣区域送入编码器，完成感兴趣区域编码质量提升。

2.根据权利要求1所述的方法，其特征在于，包括以下步骤：

S1、将欲编码视频帧按比例N做长宽等比例缩小；

S2、缩小后的图片送入AI人脸检测模块；

3.根据权利要求2所述的方法，其特征在于，步骤S1中，根据画面尺寸及需要检测的最小人脸尺寸的个数M计算N为：

N＝W/16M

其中，W为画面宽度，当N为非整数时，N取整。

4.根据权利要求2所述的方法，其特征在于，步骤S3中，AI人脸检测模块输出的人脸矩形标注框为(x,y,w,h)，表示矩形框左上角坐标及框大小；编码器的感兴趣区域矩形区域用左上角及右下角坐标(x1,y1,x2y2)标注，x1＝Nx，y1＝Ny，x2＝N*(x+w)，y2＝N*(y+h)。

5.根据权利要求4所述的方法，其特征在于，针对2个人脸区域，(x1,y1,w1,h1)(x2,y2,w2,h2)表示AI人脸检测输出的2个矩形框，(x11,y11,x12,y12)(x21,y21,x22,y22)表示转换成感兴趣区域的2个矩形区域。

6.根据权利要求2所述的方法，其特征在于，步骤S4中，编码器的格式包括H.264，H.265，VP8，VP9，AVS，AVS+，AVS2和AV1。