CN112612434A

CN112612434A - 一种基于ai技术视频竖屏解决方法

Info

Publication number: CN112612434A
Application number: CN202011484139.XA
Authority: CN
Inventors: 吴奕刚
Original assignee: Hangzhou Arcvideo Technology Co ltd
Current assignee: Hangzhou Arcvideo Technology Co ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-06

Abstract

本发明公开了一种基于AI技术视频竖屏解决方法。它通过输入图像实时进行人脸识别，识别出来人像同预注册的偶像人脸库进行比对，对于识别出来的偶像进行人脸追踪，结合人体行为识别算法计算出偶像整体显示区域大小，最后通过导播模块进行竖屏裁切及声音合成，最后通过编码器达到针对偶像进行竖屏直播和收录的要求。本发明的有益效果是：满足单次拍摄并快速输出偶像竖屏内容的需求。

Description

一种基于AI技术视频竖屏解决方法

技术领域

本发明涉及音视频编码转码相关技术领域，尤其是指一种基于AI技术视频竖屏解决方法。

背景技术

随着选秀节目的繁荣，视频制作方、运营平台加上偶像都非常注重与粉丝形成强情感黏性。在观众的视频内容消费习惯走向多元化、个性化、娱乐化的环境下，竖屏内容主要盛行于以手机为主的移动端手机近来，竖屏内容的生产走热，竖屏综艺也开始受到越来越多的关注。

目前在综艺制作现场对于偶像竖屏制作主要采用下面两种方式：

1.采用传统拍摄流程完成整体综艺的现场拍摄工作，然后把摄像机进行180度旋转再针对每个偶像重新进行拍摄工作，此拍摄作为竖屏内容进行输出。这种方案需要进行多次拍摄，对于偶像和摄像人员带来大量重复工作。

2.采用传统拍摄流程完成整体综艺的现场拍摄工作，在后期制作过程通过视频编辑软件针对偶像进行扣像处理，然后作为竖屏内容进行输出。这种方案只需一次拍摄，但在扣像过程中需要大量的后期视频剪辑工作。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种能够快速输出竖屏内容的基于AI技术视频竖屏解决方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于AI技术视频竖屏解决方法，具体包括如下步骤：

(1)录入偶像人脸素材库并对录入人脸素材进行人脸提取并生成特征码；

(2)通过在录制现场增加单独一台超高清摄像机对所有偶像进行全景拍摄；

(3)对超高清摄像机视频输入信号进行采集、解码和色彩空间转换，对于输入的信息做固定量的缓冲；

(4)通过人脸检测算法对输入图像进行检测，检测并得到人脸区域；

(5)对输出的人脸区域进行图像提取并生成特征码，输出的特征码同人脸素材库已注册的特征码进行一一比对，相似度达到设定阈值认定为此人脸为偶像，最终输出单个或多个的偶像信息及人脸显示区域信息；

(5)根据确定的偶像人脸显示区域信息加入到人脸追踪列表，通过面部特征的单独检测与连续帧中每幅图像面部特征位置的比对；

(6)根据人脸显示区域信息进行人体关键点部件的检测，通过这些关键点位信息加上人脸显示区域信息，以及各个顶点的位置最后组合出当前偶像的整个显示边界框；

(7)根据业务要求预设多种竖屏输出模板，实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切，输出多路的偶像视频数据；

(8)导播输出的多路视频数据通过编码和协议封装之后输出直播流或收录成文件的形式完成竖屏视频制作。

本发明是基于人脸、人体行为识别等AI识别技术，通过增加单独一台4K或8K超高清摄像机对所有偶像进行全景拍摄，在录制过程中通过输入图像实时进行人脸识别，识别出来人像同预注册的偶像人脸库进行比对，对于识别出来的偶像进行人脸追踪，结合人体行为识别算法计算出偶像整体显示区域大小，最后通过导播模块进行竖屏裁切及声音合成，最后通过编码器达到针对偶像进行竖屏直播和收录的要求，满足单次拍摄并快速输出偶像竖屏内容的需求。

作为优选，在步骤(3)中，输入的信息在做固定量的缓冲后，对于每输入的一帧图像通过接口调用AI处理模块进行智能分析，分析结果返回单个或多个偶像的人物信息及当前图像中的显示区域信息。

作为优选，智能分析包括人脸提取、人脸比较和人体关键点结构化分析，人脸和结构化分析之后的数据要基于固定量的缓冲中的数据进行后续处理，而固定量保证输出结果的延时为固定值。

作为优选，在步骤(5)中，人脸追踪具体为：在检测到人脸的前提下，在后续帧中使用追踪技术来捕获人脸的位置及其大小信息，而一个画面中会出现多人的情况，故采用人脸追踪列表来记录所有要追踪的人脸。

作为优选，在步骤(5)中，比对具体为：在第一帧视频图像中使用人脸识别和比对检测出所有出现的人脸，后续采用人脸追踪技术，比对的结果为人脸的位置及大小信息。

作为优选，在步骤(6)中，具体为：通过人体行为识别模块定位出人体的21个主要关键点，关键点的位置包括：头顶、左耳、右耳、左眼、右眼、鼻子、左嘴角、右嘴角、脖子、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左髋部、右髋部、左膝、右膝、左脚踝、右脚踝，然后通过关键点计算出偶像在画面中显示区域。

作为优选，在步骤(7)中，把步骤(3)中智能分析返回的结果信息加上当前图像数据输入到导播模块，导播模块根据业务要求预设多种竖屏输出模板，模板信息中包括人脸输出位置信息或整体人物输出位置，导播模板实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切，输出多路的偶像视频数据。

本发明的有益效果是：通过输入图像实时进行人脸识别，识别出来人像同预注册的偶像人脸库进行比对，对于识别出来的偶像进行人脸追踪，结合人体行为识别算法计算出偶像整体显示区域大小，最后通过导播模块进行竖屏裁切及声音合成，最后通过编码器达到针对偶像进行竖屏直播和收录的要求，满足单次拍摄并快速输出偶像竖屏内容的需求。

附图说明

图1是本发明的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

如图1所述的实施例中，一种基于AI技术视频竖屏解决方法，具体包括如下步骤：

(3)对超高清摄像机视频输入信号进行采集、解码和色彩空间转换，对于输入的信息做固定量的缓冲；输入的信息在做固定量的缓冲后，对于每输入的一帧图像通过接口调用AI处理模块进行智能分析，分析结果返回单个或多个偶像的人物信息及当前图像中的显示区域信息。智能分析包括人脸提取、人脸比较和人体关键点结构化分析，人脸和结构化分析之后的数据要基于固定量的缓冲中的数据进行后续处理，而固定量保证输出结果的延时为固定值，如缓冲5帧，每帧时长为40毫秒，则输出最大延时为200毫秒。

(5)根据确定的偶像人脸显示区域信息加入到人脸追踪列表，通过面部特征的单独检测与连续帧中每幅图像面部特征位置的比对；人脸追踪具体为：在检测到人脸的前提下，在后续帧中使用追踪技术来捕获人脸的位置及其大小信息，而一个画面中会出现多人的情况，故采用人脸追踪列表来记录所有要追踪的人脸。比对具体为：在第一帧视频图像中使用人脸识别和比对检测出所有出现的人脸，后续采用人脸追踪技术，因为追踪所需性能要比人脸比对消耗少，比对的结果为人脸的位置及大小信息。

(6)根据人脸显示区域信息进行人体关键点部件的检测，通过这些关键点位信息加上人脸显示区域信息，以及各个顶点的位置最后组合出当前偶像的整个显示边界框；具体为：通过人体行为识别模块定位出人体的21个主要关键点，关键点的位置包括：头顶、左耳、右耳、左眼、右眼、鼻子、左嘴角、右嘴角、脖子、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左髋部、右髋部、左膝、右膝、左脚踝、右脚踝，然后通过关键点计算出偶像在画面中显示区域。

(7)根据业务要求预设多种竖屏输出模板，实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切，输出多路的偶像视频数据；把步骤(3)中智能分析返回的结果信息加上当前图像数据输入到导播模块，导播模块根据业务要求预设多种竖屏输出模板，模板信息中包括人脸输出位置信息或整体人物输出位置，导播模板实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切，输出多路的偶像视频数据。

Claims

1.一种基于AI技术视频竖屏解决方法，其特征是，具体包括如下步骤：

(1)录入偶像人脸素材库并对录入人脸素材进行人脸提取并生成特征码，即人脸特征向量；

2.根据权利要求1所述的一种基于AI技术视频竖屏解决方法，其特征是，在步骤(3)中，输入的信息在做固定量的缓冲后，对于每输入的一帧图像通过接口调用AI处理模块进行智能分析，分析结果返回单个或多个偶像的人物信息及当前图像中的显示区域信息。

3.根据权利要求2所述的一种基于AI技术视频竖屏解决方法，其特征是，智能分析包括人脸提取、人脸比较和人体关键点结构化分析，人脸和结构化分析之后的数据要基于固定量的缓冲中的数据进行后续处理，而固定量保证输出结果的延时为固定值。

4.根据权利要求1所述的一种基于AI技术视频竖屏解决方法，其特征是，在步骤(5)中，人脸追踪具体为：在检测到人脸的前提下，在后续帧中使用追踪技术来捕获人脸的位置及其大小信息，而一个画面中会出现多人的情况，故采用人脸追踪列表来记录所有要追踪的人脸。

5.根据权利要求4所述的一种基于AI技术视频竖屏解决方法，其特征是，在步骤(5)中，比对具体为：在第一帧视频图像中使用人脸识别和比对检测出所有出现的人脸，后续采用人脸追踪技术，比对的结果为人脸的位置及大小信息。

6.根据权利要求1所述的一种基于AI技术视频竖屏解决方法，其特征是，在步骤(6)中，具体为：通过人体行为识别模块定位出人体的21个主要关键点，关键点的位置包括：头顶、左耳、右耳、左眼、右眼、鼻子、左嘴角、右嘴角、脖子、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左髋部、右髋部、左膝、右膝、左脚踝、右脚踝，然后通过关键点计算出偶像在画面中显示区域。

7.根据权利要求2或3所述的一种基于AI技术视频竖屏解决方法，其特征是，在步骤(7)中，把步骤(3)中智能分析返回的结果信息加上当前图像数据输入到导播模块，导播模块根据业务要求预设多种竖屏输出模板，模板信息中包括人脸输出位置信息或整体人物输出位置，导播模板实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切，输出多路的偶像视频数据。