CN112612434A - 一种基于ai技术视频竖屏解决方法 - Google Patents

一种基于ai技术视频竖屏解决方法 Download PDF

Info

Publication number
CN112612434A
CN112612434A CN202011484139.XA CN202011484139A CN112612434A CN 112612434 A CN112612434 A CN 112612434A CN 202011484139 A CN202011484139 A CN 202011484139A CN 112612434 A CN112612434 A CN 112612434A
Authority
CN
China
Prior art keywords
face
vertical screen
information
video
display area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011484139.XA
Other languages
English (en)
Inventor
吴奕刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Arcvideo Technology Co ltd
Original Assignee
Hangzhou Arcvideo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Arcvideo Technology Co ltd filed Critical Hangzhou Arcvideo Technology Co ltd
Priority to CN202011484139.XA priority Critical patent/CN112612434A/zh
Publication of CN112612434A publication Critical patent/CN112612434A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于AI技术视频竖屏解决方法。它通过输入图像实时进行人脸识别,识别出来人像同预注册的偶像人脸库进行比对,对于识别出来的偶像进行人脸追踪,结合人体行为识别算法计算出偶像整体显示区域大小,最后通过导播模块进行竖屏裁切及声音合成,最后通过编码器达到针对偶像进行竖屏直播和收录的要求。本发明的有益效果是:满足单次拍摄并快速输出偶像竖屏内容的需求。

Description

一种基于AI技术视频竖屏解决方法
技术领域
本发明涉及音视频编码转码相关技术领域,尤其是指一种基于AI技术视频竖屏解决方法。
背景技术
随着选秀节目的繁荣,视频制作方、运营平台加上偶像都非常注重与粉丝形成强情感黏性。在观众的视频内容消费习惯走向多元化、个性化、娱乐化的环境下,竖屏内容主要盛行于以手机为主的移动端手机近来,竖屏内容的生产走热,竖屏综艺也开始受到越来越多的关注。
目前在综艺制作现场对于偶像竖屏制作主要采用下面两种方式:
1.采用传统拍摄流程完成整体综艺的现场拍摄工作,然后把摄像机进行180度旋转再针对每个偶像重新进行拍摄工作,此拍摄作为竖屏内容进行输出。这种方案需要进行多次拍摄,对于偶像和摄像人员带来大量重复工作。
2.采用传统拍摄流程完成整体综艺的现场拍摄工作,在后期制作过程通过视频编辑软件针对偶像进行扣像处理,然后作为竖屏内容进行输出。这种方案只需一次拍摄,但在扣像过程中需要大量的后期视频剪辑工作。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种能够快速输出竖屏内容的基于AI技术视频竖屏解决方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于AI技术视频竖屏解决方法,具体包括如下步骤:
(1)录入偶像人脸素材库并对录入人脸素材进行人脸提取并生成特征码;
(2)通过在录制现场增加单独一台超高清摄像机对所有偶像进行全景拍摄;
(3)对超高清摄像机视频输入信号进行采集、解码和色彩空间转换,对于输入的信息做固定量的缓冲;
(4)通过人脸检测算法对输入图像进行检测,检测并得到人脸区域;
(5)对输出的人脸区域进行图像提取并生成特征码,输出的特征码同人脸素材库已注册的特征码进行一一比对,相似度达到设定阈值认定为此人脸为偶像,最终输出单个或多个的偶像信息及人脸显示区域信息;
(5)根据确定的偶像人脸显示区域信息加入到人脸追踪列表,通过面部特征的单独检测与连续帧中每幅图像面部特征位置的比对;
(6)根据人脸显示区域信息进行人体关键点部件的检测,通过这些关键点位信息加上人脸显示区域信息,以及各个顶点的位置最后组合出当前偶像的整个显示边界框;
(7)根据业务要求预设多种竖屏输出模板,实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切,输出多路的偶像视频数据;
(8)导播输出的多路视频数据通过编码和协议封装之后输出直播流或收录成文件的形式完成竖屏视频制作。
本发明是基于人脸、人体行为识别等AI识别技术,通过增加单独一台4K或8K超高清摄像机对所有偶像进行全景拍摄,在录制过程中通过输入图像实时进行人脸识别,识别出来人像同预注册的偶像人脸库进行比对,对于识别出来的偶像进行人脸追踪,结合人体行为识别算法计算出偶像整体显示区域大小,最后通过导播模块进行竖屏裁切及声音合成,最后通过编码器达到针对偶像进行竖屏直播和收录的要求,满足单次拍摄并快速输出偶像竖屏内容的需求。
作为优选,在步骤(3)中,输入的信息在做固定量的缓冲后,对于每输入的一帧图像通过接口调用AI处理模块进行智能分析,分析结果返回单个或多个偶像的人物信息及当前图像中的显示区域信息。
作为优选,智能分析包括人脸提取、人脸比较和人体关键点结构化分析,人脸和结构化分析之后的数据要基于固定量的缓冲中的数据进行后续处理,而固定量保证输出结果的延时为固定值。
作为优选,在步骤(5)中,人脸追踪具体为:在检测到人脸的前提下,在后续帧中使用追踪技术来捕获人脸的位置及其大小信息,而一个画面中会出现多人的情况,故采用人脸追踪列表来记录所有要追踪的人脸。
作为优选,在步骤(5)中,比对具体为:在第一帧视频图像中使用人脸识别和比对检测出所有出现的人脸,后续采用人脸追踪技术,比对的结果为人脸的位置及大小信息。
作为优选,在步骤(6)中,具体为:通过人体行为识别模块定位出人体的21个主要关键点,关键点的位置包括:头顶、左耳、右耳、左眼、右眼、鼻子、左嘴角、右嘴角、脖子、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左髋部、右髋部、左膝、右膝、左脚踝、右脚踝,然后通过关键点计算出偶像在画面中显示区域。
作为优选,在步骤(7)中,把步骤(3)中智能分析返回的结果信息加上当前图像数据输入到导播模块,导播模块根据业务要求预设多种竖屏输出模板,模板信息中包括人脸输出位置信息或整体人物输出位置,导播模板实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切,输出多路的偶像视频数据。
本发明的有益效果是:通过输入图像实时进行人脸识别,识别出来人像同预注册的偶像人脸库进行比对,对于识别出来的偶像进行人脸追踪,结合人体行为识别算法计算出偶像整体显示区域大小,最后通过导播模块进行竖屏裁切及声音合成,最后通过编码器达到针对偶像进行竖屏直播和收录的要求,满足单次拍摄并快速输出偶像竖屏内容的需求。
附图说明
图1是本发明的结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
如图1所述的实施例中,一种基于AI技术视频竖屏解决方法,具体包括如下步骤:
(1)录入偶像人脸素材库并对录入人脸素材进行人脸提取并生成特征码;
(2)通过在录制现场增加单独一台超高清摄像机对所有偶像进行全景拍摄;
(3)对超高清摄像机视频输入信号进行采集、解码和色彩空间转换,对于输入的信息做固定量的缓冲;输入的信息在做固定量的缓冲后,对于每输入的一帧图像通过接口调用AI处理模块进行智能分析,分析结果返回单个或多个偶像的人物信息及当前图像中的显示区域信息。智能分析包括人脸提取、人脸比较和人体关键点结构化分析,人脸和结构化分析之后的数据要基于固定量的缓冲中的数据进行后续处理,而固定量保证输出结果的延时为固定值,如缓冲5帧,每帧时长为40毫秒,则输出最大延时为200毫秒。
(4)通过人脸检测算法对输入图像进行检测,检测并得到人脸区域;
(5)对输出的人脸区域进行图像提取并生成特征码,输出的特征码同人脸素材库已注册的特征码进行一一比对,相似度达到设定阈值认定为此人脸为偶像,最终输出单个或多个的偶像信息及人脸显示区域信息;
(5)根据确定的偶像人脸显示区域信息加入到人脸追踪列表,通过面部特征的单独检测与连续帧中每幅图像面部特征位置的比对;人脸追踪具体为:在检测到人脸的前提下,在后续帧中使用追踪技术来捕获人脸的位置及其大小信息,而一个画面中会出现多人的情况,故采用人脸追踪列表来记录所有要追踪的人脸。比对具体为:在第一帧视频图像中使用人脸识别和比对检测出所有出现的人脸,后续采用人脸追踪技术,因为追踪所需性能要比人脸比对消耗少,比对的结果为人脸的位置及大小信息。
(6)根据人脸显示区域信息进行人体关键点部件的检测,通过这些关键点位信息加上人脸显示区域信息,以及各个顶点的位置最后组合出当前偶像的整个显示边界框;具体为:通过人体行为识别模块定位出人体的21个主要关键点,关键点的位置包括:头顶、左耳、右耳、左眼、右眼、鼻子、左嘴角、右嘴角、脖子、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左髋部、右髋部、左膝、右膝、左脚踝、右脚踝,然后通过关键点计算出偶像在画面中显示区域。
(7)根据业务要求预设多种竖屏输出模板,实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切,输出多路的偶像视频数据;把步骤(3)中智能分析返回的结果信息加上当前图像数据输入到导播模块,导播模块根据业务要求预设多种竖屏输出模板,模板信息中包括人脸输出位置信息或整体人物输出位置,导播模板实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切,输出多路的偶像视频数据。
(8)导播输出的多路视频数据通过编码和协议封装之后输出直播流或收录成文件的形式完成竖屏视频制作。
本发明是基于人脸、人体行为识别等AI识别技术,通过增加单独一台4K或8K超高清摄像机对所有偶像进行全景拍摄,在录制过程中通过输入图像实时进行人脸识别,识别出来人像同预注册的偶像人脸库进行比对,对于识别出来的偶像进行人脸追踪,结合人体行为识别算法计算出偶像整体显示区域大小,最后通过导播模块进行竖屏裁切及声音合成,最后通过编码器达到针对偶像进行竖屏直播和收录的要求,满足单次拍摄并快速输出偶像竖屏内容的需求。

Claims (7)

1.一种基于AI技术视频竖屏解决方法,其特征是,具体包括如下步骤:
(1)录入偶像人脸素材库并对录入人脸素材进行人脸提取并生成特征码,即人脸特征向量;
(2)通过在录制现场增加单独一台超高清摄像机对所有偶像进行全景拍摄;
(3)对超高清摄像机视频输入信号进行采集、解码和色彩空间转换,对于输入的信息做固定量的缓冲;
(4)通过人脸检测算法对输入图像进行检测,检测并得到人脸区域;
(5)对输出的人脸区域进行图像提取并生成特征码,输出的特征码同人脸素材库已注册的特征码进行一一比对,相似度达到设定阈值认定为此人脸为偶像,最终输出单个或多个的偶像信息及人脸显示区域信息;
(5)根据确定的偶像人脸显示区域信息加入到人脸追踪列表,通过面部特征的单独检测与连续帧中每幅图像面部特征位置的比对;
(6)根据人脸显示区域信息进行人体关键点部件的检测,通过这些关键点位信息加上人脸显示区域信息,以及各个顶点的位置最后组合出当前偶像的整个显示边界框;
(7)根据业务要求预设多种竖屏输出模板,实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切,输出多路的偶像视频数据;
(8)导播输出的多路视频数据通过编码和协议封装之后输出直播流或收录成文件的形式完成竖屏视频制作。
2.根据权利要求1所述的一种基于AI技术视频竖屏解决方法,其特征是,在步骤(3)中,输入的信息在做固定量的缓冲后,对于每输入的一帧图像通过接口调用AI处理模块进行智能分析,分析结果返回单个或多个偶像的人物信息及当前图像中的显示区域信息。
3.根据权利要求2所述的一种基于AI技术视频竖屏解决方法,其特征是,智能分析包括人脸提取、人脸比较和人体关键点结构化分析,人脸和结构化分析之后的数据要基于固定量的缓冲中的数据进行后续处理,而固定量保证输出结果的延时为固定值。
4.根据权利要求1所述的一种基于AI技术视频竖屏解决方法,其特征是,在步骤(5)中,人脸追踪具体为:在检测到人脸的前提下,在后续帧中使用追踪技术来捕获人脸的位置及其大小信息,而一个画面中会出现多人的情况,故采用人脸追踪列表来记录所有要追踪的人脸。
5.根据权利要求4所述的一种基于AI技术视频竖屏解决方法,其特征是,在步骤(5)中,比对具体为:在第一帧视频图像中使用人脸识别和比对检测出所有出现的人脸,后续采用人脸追踪技术,比对的结果为人脸的位置及大小信息。
6.根据权利要求1所述的一种基于AI技术视频竖屏解决方法,其特征是,在步骤(6)中,具体为:通过人体行为识别模块定位出人体的21个主要关键点,关键点的位置包括:头顶、左耳、右耳、左眼、右眼、鼻子、左嘴角、右嘴角、脖子、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左髋部、右髋部、左膝、右膝、左脚踝、右脚踝,然后通过关键点计算出偶像在画面中显示区域。
7.根据权利要求2或3所述的一种基于AI技术视频竖屏解决方法,其特征是,在步骤(7)中,把步骤(3)中智能分析返回的结果信息加上当前图像数据输入到导播模块,导播模块根据业务要求预设多种竖屏输出模板,模板信息中包括人脸输出位置信息或整体人物输出位置,导播模板实时对偶像的人脸显示区域和整个显示边界框结合竖屏输出模板要求进行视频裁切,输出多路的偶像视频数据。
CN202011484139.XA 2020-12-16 2020-12-16 一种基于ai技术视频竖屏解决方法 Pending CN112612434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011484139.XA CN112612434A (zh) 2020-12-16 2020-12-16 一种基于ai技术视频竖屏解决方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011484139.XA CN112612434A (zh) 2020-12-16 2020-12-16 一种基于ai技术视频竖屏解决方法

Publications (1)

Publication Number Publication Date
CN112612434A true CN112612434A (zh) 2021-04-06

Family

ID=75240072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011484139.XA Pending CN112612434A (zh) 2020-12-16 2020-12-16 一种基于ai技术视频竖屏解决方法

Country Status (1)

Country Link
CN (1) CN112612434A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575339A (zh) * 2014-07-21 2015-04-29 北京智膜科技有限公司 基于人脸检测界面的传媒信息推送方法
WO2017084204A1 (zh) * 2015-11-19 2017-05-26 广州新节奏智能科技有限公司 一种二维视频流中的人体骨骼点追踪方法及系统
CN109905595A (zh) * 2018-06-20 2019-06-18 成都市喜爱科技有限公司 一种拍摄及播放的方法、装置、设备及介质
CN110347877A (zh) * 2019-06-27 2019-10-18 北京奇艺世纪科技有限公司 一种视频处理方法、装置、电子设备及存储介质
CN110708606A (zh) * 2019-09-29 2020-01-17 新华智云科技有限公司 一种智能剪辑视频的方法
US20200143146A1 (en) * 2017-11-23 2020-05-07 Beijing Sensetime Technology Development Co., Ltd. Target object recognition method and apparatus, storage medium, and electronic device
CN111901549A (zh) * 2020-08-07 2020-11-06 杭州当虹科技股份有限公司 一种基于人声识别技术辅助现场录制编目方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575339A (zh) * 2014-07-21 2015-04-29 北京智膜科技有限公司 基于人脸检测界面的传媒信息推送方法
WO2017084204A1 (zh) * 2015-11-19 2017-05-26 广州新节奏智能科技有限公司 一种二维视频流中的人体骨骼点追踪方法及系统
US20200143146A1 (en) * 2017-11-23 2020-05-07 Beijing Sensetime Technology Development Co., Ltd. Target object recognition method and apparatus, storage medium, and electronic device
CN109905595A (zh) * 2018-06-20 2019-06-18 成都市喜爱科技有限公司 一种拍摄及播放的方法、装置、设备及介质
CN110347877A (zh) * 2019-06-27 2019-10-18 北京奇艺世纪科技有限公司 一种视频处理方法、装置、电子设备及存储介质
CN110708606A (zh) * 2019-09-29 2020-01-17 新华智云科技有限公司 一种智能剪辑视频的方法
CN111901549A (zh) * 2020-08-07 2020-11-06 杭州当虹科技股份有限公司 一种基于人声识别技术辅助现场录制编目方法

Similar Documents

Publication Publication Date Title
US11902704B2 (en) Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
US10628700B2 (en) Fast and robust face detection, region extraction, and tracking for improved video coding
Liu et al. Key frame extraction from MPEG video stream
WO2022117076A1 (zh) 视频运动估计方法、装置、设备、计算机可读存储介质及计算机程序产品
CN111988658B (zh) 视频生成方法及装置
US8798168B2 (en) Video telecommunication system for synthesizing a separated object with a new background picture
EP1938208A1 (en) Face annotation in streaming video
CN112672090B (zh) 一种云视频会议中优化音视频效果的方法
CN110691204B (zh) 一种音视频处理方法、装置、电子设备及存储介质
CN101420595A (zh) 一种描述和捕获视频对象的方法及设备
CN102724492A (zh) 视频图像传输、播放方法和系统
GB2414615A (en) Object detection, scanning and labelling
CN114419702A (zh) 数字人生成模型、模型的训练方法以及数字人生成方法
Chen et al. Innovative shot boundary detection for video indexing
CN109660762A (zh) 智能抓拍装置中大小图关联方法及装置
CN101313582A (zh) 使用各种运动模型的编码器辅助式帧速率提升转换
CN110379130B (zh) 一种基于多路高清sdi视频的医疗看护防摔倒系统
JP2011205599A (ja) 信号処理装置
WO2023029389A1 (zh) 视频指纹的生成方法及装置、电子设备、存储介质、计算机程序、计算机程序产品
CN112887515B (zh) 视频生成方法及装置
CN111615008B (zh) 基于多设备体验的智能摘要生成和字幕阅读系统
CN112612434A (zh) 一种基于ai技术视频竖屏解决方法
CN116916089A (zh) 一种融合人声特征与人脸特征的智能视频剪辑方法
Nieto et al. An automatic system for sports analytics in multi-camera tennis videos
CN115801977A (zh) 分割视频的多模态系统、分割多媒体的多模态系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210406