CN113382304B - 一种基于人工智能技术的视频拼接方法 - Google Patents

一种基于人工智能技术的视频拼接方法 Download PDF

Info

Publication number
CN113382304B
CN113382304B CN202110630169.5A CN202110630169A CN113382304B CN 113382304 B CN113382304 B CN 113382304B CN 202110630169 A CN202110630169 A CN 202110630169A CN 113382304 B CN113382304 B CN 113382304B
Authority
CN
China
Prior art keywords
video
orientation
current
face orientation
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110630169.5A
Other languages
English (en)
Other versions
CN113382304A (zh
Inventor
谢衍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beibo Xiamen Intelligent Technology Co ltd
Original Assignee
Beibo Xiamen Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beibo Xiamen Intelligent Technology Co ltd filed Critical Beibo Xiamen Intelligent Technology Co ltd
Priority to CN202110630169.5A priority Critical patent/CN113382304B/zh
Publication of CN113382304A publication Critical patent/CN113382304A/zh
Application granted granted Critical
Publication of CN113382304B publication Critical patent/CN113382304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

本发明提供了一种基于人工智能技术的视频拼接方法,包括步骤:获取当前时刻待识别人的站立位置和面部朝向,并预测下一时刻的站立位置和面部朝向;根据预测结果选择机位及调整拍摄角度,进行拍摄;获取多个机位的视频流;基于预先训练得到的人工智能模型从视频流中提取人物特征,并对视频流进行裁剪和排序,得到拼接视频。本发明通过预测人的站立位置和面部朝向预先调整机位及拍摄角度,保证后续拍摄的视频能最大程度具有人脸特征,减少不必要机位的拍摄,同时采用人工智能模型对视频进行自动化的裁剪和排序,减少了设备资源和人力资源的投入,提高了视频拼接的配准率,实现对不同机位或角度视频的无缝拼接,能极大程度呈现完整的视频效果。

Description

一种基于人工智能技术的视频拼接方法
技术领域
本发明涉及视频拼接技术领域,特别涉及一种基于人工智能技术的视频拼接方法。
背景技术
目前,由于自媒体迎来了井喷式的发展,各种各样的信息传递由原来的报纸、电视等媒介转换成了现在以各种视频App为媒介的方式。但是每个视频,由于受场地、天气或角度等因素,如果单纯的一个角度或机位,所呈现的还是有很大的局限性。
随着视频剪辑技术的发展,现阶段采用人工将待剪辑的视频预览一遍,然后基于人为对待剪辑视频的理解进行视频的剪辑拼接,得到多角度多机位的视频。但基于人工的剪辑方式,需要人工预览每一个待剪辑的视频,需要投入大量的设备资源和人力资源,不仅视频剪辑的效率低且由于存在人为操作误差而导致视频剪辑的配准率低,使得视频存在裂缝、错层、弯曲等状态,影响整体的视频效果。
发明内容
本发明所要解决的技术问题是:提供一种基于人工智能技术的视频拼接方法,提高配准率的同时实现自动化的视频拼接。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于人工智能技术的视频拼接方法,包括步骤:
S1、获取当前时刻待识别人的站立位置和面部朝向,并预测下一时刻的站立位置和面部朝向;
S2、根据预测结果选择机位及调整拍摄角度,进行拍摄;
S3、获取多个机位的视频流;
S4、基于预先训练得到的人工智能模型从所述视频流中提取人物特征,并基于所述人物特征对所述视频流进行裁剪和排序,得到拼接视频。
本发明的有益效果在于:本发明提供一种基于人工智能技术的视频拼接方法,通过当前时刻人的站立位置和面部朝向预测下一时刻人的站立位置和面部朝向,从而预先调整机位及拍摄角度,保证后续拍摄的视频能最大程度具有人脸特征,减少了不必要机位的拍摄,同时采用人工智能模型对视频进行自动化的裁剪和排序,在保证效率的同时,减少了设备资源和人力资源的投入,提高了视频拼接的配准率,实现了对不同机位或角度视频的无缝拼接,能极大程度呈现完整的视频效果。
附图说明
图1为一种基于人工智能技术的视频拼接方法的流程图;
图2为实施例二的一种基于人工智能模型进行视频拼接的流程图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1及图2,一种基于人工智能技术的视频拼接方法,包括步骤:
S1、获取当前时刻待识别人的站立位置和面部朝向,并预测下一时刻的站立位置和面部朝向;
S2、根据预测结果选择机位及调整拍摄角度,进行拍摄;
S3、获取多个机位的视频流;
S4、基于预先训练得到的人工智能模型从所述视频流中提取人物特征,并基于所述人物特征对所述视频流进行裁剪和排序,得到拼接视频。
由上述描述可知,本发明的有益效果在于:通过当前时刻人的站立位置和面部朝向预测下一时刻人的站立位置和面部朝向,从而预先调整机位及拍摄角度,保证后续拍摄的视频能最大程度具有人脸特征,减少了不必要机位的拍摄,同时采用人工智能模型对视频进行自动化的裁剪和排序,在保证效率的同时,减少了设备资源和人力资源的投入,提高了视频拼接的配准率,实现了对不同机位或角度视频的无缝拼接,能极大程度呈现完整的视频效果。
进一步地,所述步骤S1具体为以下步骤:
S11、摄像头采集当前拍摄周期内的视频,并从中获取待识别人的当前站立位置以及当前面部朝向;
S12、根据所述当前拍摄周期内所拍摄到视频中所述当前站立位置的移动轨迹变化预测下一拍摄周期内的下一站立位置;
S13、根据所述当前拍摄周期内所拍摄到视频中所述当前面部朝向的朝向变化预测下一拍摄周期内的下一面部朝向;
所述步骤S2具体为以下步骤:
将位于下一站立位置的所述待识别人与所有拍摄范围内的摄像机进行分别连线,得到每一个摄像机对应的人机朝向,计算所述下一面部朝向和每一个摄像机对应的人机朝向之间的角度差,将角度差最小的摄像机作为所述下一拍摄周期内的拍摄相机;
将所述拍摄相机的朝向调整至对准所述待识别人的所述下一站立位置。
由上述描述可知,通过获取已知的人的移动轨迹变化及面部朝向变化预测下一拍摄周期内人可能移动到的站立位置以及当人移动到该预测的站立位置时的面部朝向,并基于摄像头和预测面部朝向的角度差最小原则预测最佳的机位及拍摄角度,预先对机位及角度进行调整,减少了需要实时调整机位及拍摄角度的时间,提高了视频采集的效率,且后续每一次拍摄周期内的拍摄机位和角度能最大程度拍摄到人脸特征,减少了不必要的机位的拍摄,为后续视频拼接处理减少了工作量。
进一步地,所述步骤S11还包括以下步骤:
从所述当前拍摄周期内的视频中获取所述待识别人的当前站立朝向;
所述步骤S12和所述步骤S13之间还包括以下步骤:
根据所述当前拍摄周期内所拍摄到视频中所述当前站立朝向的朝向变化预测下一拍摄周期内的下一站立朝向;
所述步骤S13具体为以下步骤:
S131、获取所述当前拍摄周期内的视频中最后一帧的所述待识别人的当前面部朝向和当前站立朝向,记为第一面部朝向和第一站立朝向;
S132、根据所述当前拍摄周期内的视频中所述待识别人的当前面部朝向和当前站立朝向之间所形成的夹角变化得到面部朝向变化趋势,若所述面部朝向变化趋势为从小到大,则执行步骤S133,否则执行步骤S134;
S133、判断所述第一面部朝向和所述第一站立朝向之间形成的第一夹角是否大于预设上限角度,若是,则将所述下一站立朝向偏移所述预设上限角度之后得到的角度作为下一面部朝向,否则根据所述当前拍摄周期内所拍摄到视频中所述当前面部朝向的朝向变化预测所述下一拍摄周期内的下一面部朝向;
S134、判断所述第一面部朝向和所述第一站立朝向之间形成的第一夹角是否小于预设下限角度,若是,则将所述下一站立朝向作为所述下一拍摄周期内的下一面部朝向,否则根据所述当前拍摄周期内所拍摄到视频中所述当前面部朝向的朝向变化预测所述下一拍摄周期内的下一面部朝向。
由上述描述可知,根据已知的面部朝向和站立朝向之间夹角的变化趋势,预测下一拍摄周期可能的面部朝向,能够确保预测的准确性,同时由于人体构造可知人头部的左右转动是有极限的,因此通过预设上限角度和下限角度,能够进一步保证预测的准确性,防止出现预测的面部朝向超出人体极限这种不合理不科学的情况。
进一步地,所述预设上限角度为[60°,90°],所述预设下限角度为[0°,20°]。
由上述描述可知,根据人体构造可知大多数人的头部能够左右转动的角度为90°,因此预设上限角度为[60°,90°],可最大程度保证预测到的面部朝向角度不会超出人体极限而产生不合理数值;而在待识别人处于正常状态下,其本身头部也不一定保持正向,预设下限角度为[0°,20°],可以过滤一部分不代表待识别人的注意方向的面部朝向,从而使预测更加合理化。
进一步地,所述步骤S2中还包括以下步骤:
将所述待识别人与摄像机之间的连线距离大于预设长度的摄像机滤除。
由上述描述可知,筛除与人离得较远的摄像机,保证拍摄的清晰度。
进一步地,所述步骤S2中将角度差最小的摄像机作为所述下一拍摄周期内的拍摄相机具体包括以下步骤:
将最小角度差以及与最小角度差的正负3°之内的其他角度差所对应的摄像机作为备选摄像机,根据每一个备选摄像机对应的角度差和连线长度进行加权计算之后得到所有备选摄像机的评优分数,将所述评优分数最高的所述备选摄像机作为所述下一拍摄周期内的拍摄相机。
由上述描述可知,将满足能够通过预测结果进行调整以拍摄到最佳画面的多个机位的相机通过评优,获得最优的机位,能够进一步保证后续拍摄到的视频能最大程度具有人脸特征。
进步一地,所述人物特征包括人物面部特征和人物动作特征;
所述人物动作特征包括所述站立位置、所述面部朝向以及人物口型变化;
所述步骤S4具体为:
S41、基于所述人工智能模型从所述视频流中提取所述人物面部特征和所述人物动作特征;
S42、基于所述人物面部特征对所述视频流进行裁剪,得到人物裁剪图;
S43、对所述人物裁剪图进行镜头选择,得到最佳裁剪图;
S44、基于所述人物动作特征对所述最佳裁剪图进行排序,得到拼接视频。
由上述描述可知,通过预先训练好的人工智能模型对视频流中的人物面部特征和人物动作特征进行提取,并自动裁剪和排序,实现视频拼接的自动化,不仅节省了人工的投入,且提高了视频拼接的配准率,极大程度呈现以人物为主的完整视频效果。
进步一地,所述步骤S43中对所述人物裁剪图进行镜头选择具体为:
若同一时间戳下存在一张以上的所述人物裁剪图,则以镜头指标要求对所述人物裁剪图进行筛选,得到一张所述人物裁剪图作为所述最佳裁剪图,否则直接将所述人物裁剪图作为所述最佳裁剪图;
所述镜头指标要求包括所述人物口型变化、人物镜头视角和场景切换要求。
由上述描述可知,由于同一时间戳下可能存在多张具有人物特征的裁剪图,通过镜头指标要求择优选择一张人物裁剪图进行后续的排序,而滤除其他的人物裁剪图,能进一步保证最终的拼接视频能最大程度呈现人物的特征,达到完整的视频效果。
进步一地,所述人工智能模型为卷积神经网络模型;
所述卷积神经网络模型中的每一个卷积层的输入公式均为:
V=conv2(W,X,”valid”)+b;
输出公式为:
Y=φ(V);
其中,X,Y和W均为矩阵形式,W是卷积核矩阵,X是输入矩阵,Y是输出矩阵,b为偏置,valid指卷积运算的类型,conv2()是Matlab中卷积运算的函数,对于所述卷积神经网络模型中的最后一层卷积层,记为第L层,则有总误差公式:
E=12||d-yL||22;
其中d和y分别是期望输出和网络输出的向量,||d-yL||为(d-yL)的范数。
由上述描述可知,卷积神经网络作为深度学习的代表算法之一,具有极强的表征学习能力,可应用于图像识别、物体识别、行为认知、姿态估计等多种领域,通过预先训练获得卷积神经网络模型,能够从视频流中有效提取到人物的面部特征和行为特征,并且通过不断的训练逐渐缩小误差,不断提高视频在同一坐标系中的配准率,以此提升配准后视频融合的效果,使得后续视频拼接无裂缝、无错层和无弯曲等,并且模型在视频拼接时,会自动不断的校准、训练自学习,误差越来越小,配准率也会越来越高。
请参照图1,本发明的实施例一为:
一种基于人工智能技术的视频拼接方法,包括步骤:
S1、获取当前时刻待识别人的站立位置和面部朝向,并预测下一时刻的站立位置和面部朝向。
其中,在本实施例中,步骤S1具体为以下步骤:
S11、摄像头采集当前拍摄周期内的视频,并从中获取待识别人的当前站立位置以及当前面部朝向;从当前拍摄周期内的视频中获取待识别人的当前站立朝向。
S12、根据当前拍摄周期内所拍摄到视频中当前站立位置的移动轨迹变化预测下一拍摄周期内的下一站立位置;根据当前拍摄周期内所拍摄到视频中当前站立朝向的朝向变化预测下一拍摄周期内的下一站立朝向。
S13、根据当前拍摄周期内所拍摄到视频中当前面部朝向的朝向变化预测下一拍摄周期内的下一面部朝向。
其中,步骤S13具体为以下步骤:
S131、获取当前拍摄周期内的视频中最后一帧的待识别人的当前面部朝向和当前站立朝向,记为第一面部朝向和第一站立朝向;
S132、根据当前拍摄周期内的视频中待识别人的当前面部朝向和当前站立朝向之间所形成的夹角变化得到面部朝向变化趋势,若面部朝向变化趋势为从小到大,则执行步骤S133,否则执行步骤S134;
S133、判断第一面部朝向和第一站立朝向之间形成的第一夹角是否大于预设上限角度,若是,则将下一站立朝向偏移预设上限角度之后得到的角度作为下一面部朝向,否则根据当前拍摄周期内所拍摄到视频中当前面部朝向的朝向变化预测下一拍摄周期内的下一面部朝向;
S134、判断第一面部朝向和第一站立朝向之间形成的第一夹角是否小于预设下限角度,若是,则将下一站立朝向作为下一拍摄周期内的下一面部朝向,否则根据当前拍摄周期内所拍摄到视频中当前面部朝向的朝向变化预测下一拍摄周期内的下一面部朝向。
即本实施例通过已知的面部朝向和站立朝向之间夹角的变化趋势,预测下一拍摄周期可能的面部朝向,能够确保预测的准确性,同时由于人体构造可知人的头部的左右转动是有极限的,因此通过预设上限角度和下限角度,能够进一步保证预测的准确性,防止出现预测的面部朝向超出人体极限这种不合理不科学的情况。
其中,在本实施例中,预设上限角度为[60°,90°],预设下限角度为[0°,20°]。
即本实施例根据人体构造可知大多数人的头部能够左右转动的角度为90°左右,因此预设上限角度为[60°,90°],比如预设上限角度为75°,则如果第一面部朝向和第一站立朝向之间的夹角大于75°,比如此时为85°,则以下一站立朝向偏移75°的角度作为下一面部朝向,可最大程度保证预测到的面部朝向角度不会超出人体极限而产生不合理数值。而预设下限角度为[0°,20°],比如预设上限角度为15°,即待识别人处于正常状态下,其本身头部也不一定保持正向,因此,需要过滤一部分不代表待识别人的注意方向的面部朝向,从而使预测更加合理化。
S2、根据预测结果选择机位及调整拍摄角度,进行拍摄。
其中,在本实施例中,步骤S2具体为以下步骤:
将位于下一站立位置的待识别人与所有拍摄范围内的摄像机进行分别连线,得到每一个摄像机对应的人机朝向,计算下一面部朝向和每一个摄像机对应的人机朝向之间的角度差,将角度差最小的摄像机作为下一拍摄周期内的拍摄相机;将拍摄相机的朝向调整至对准待识别人的下一站立位置。
即本实施例基于摄像头和预测得到的面部朝向的角度差最小原则预测最佳的机位及拍摄角度,并预先对机位及角度进行调整,减少了需要实时调整机位及拍摄角度的时间,提高了视频采集的效率,且后续每一次拍摄周期内的拍摄机位和角度能最大程度拍摄到人脸特征,减少了不必要的机位的拍摄,为后续视频拼接处理减少了工作量。
其中,在本实施例中,步骤S2中还包括以下步骤:
将待识别人与摄像机之间的连线距离大于预设长度的摄像机滤除。
即筛除与人离得较远的摄像机,能保证拍摄的清晰度。
其中,在本实施例中,步骤S2中将角度差最小的摄像机作为下一拍摄周期内的拍摄相机具体包括以下步骤:
将最小角度差以及与最小角度差的正负3°之内的其他角度差所对应的摄像机作为备选摄像机,根据每一个备选摄像机对应的角度差和连线长度进行加权计算之后得到所有备选摄像机的评优分数,将评优分数最高的备选摄像机作为下一拍摄周期内的拍摄相机。
即本实施例将满足能够通过预测结果进行调整以拍摄到最佳画面的多个机位的相机通过评优,获得最优的机位,能够进一步保证后续拍摄到的视频能最大程度具有人脸特征。
S3、获取多个机位的视频流;
S4、基于预先训练得到的人工智能模型从视频流中提取人物特征,并基于人物特征对视频流进行裁剪和排序,得到拼接视频。
即本实施例通过采用人工智能模型对视频进行自动化的裁剪和排序,在保证效率的同时,减少了设备资源和人力资源的投入,提高了视频拼接的配准率,实现了对不同机位或角度视频的无缝拼接,能极大程度呈现完整的视频效果。
请参照图2,本发明的实施例二为:
在上述实施例一的基础上,本实施例通过采取深度学习的方法对视频的几何运动模型进行不断的训练和匹配,最终训练得到人工智能模型。本实施例采用卷积神经网络模型作为人工智能模型。
卷积神经网络模型是一种前馈神经网络,具有极强的表征学习能力,由于卷积神经网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而广泛应用于图像识别、物体识别、行为认知、姿态估计等多种领域。它的人工神经元可以响应一部分覆盖范围内的周围单元,能够限制参数个数并挖掘局部结构。
在本实施例中,采用卷积神经网络模型识别视频中的位移、缩放及其他形式扭曲不变性的二维图形。通过局部感受视野、权值共享以及时间或空间亚采样三种思想的结合,获得某种程度的位移、尺度和形变不变性,在卷积神经网络中通过“卷积核”作为中介,同一个卷积核在所有图像内是共享的,图像通过卷积操作后仍能保留原先的位置关系。
其中,卷积神经网络模型的输入公式为:V=conv2(W,X,”valid”)+b。
输出公式为:Y=φ(V)。
上述输入公式和输出公式是对卷积神经网络中的每一个卷积层而言的,即每一个卷积层都有一个不同的权重矩阵W,并且X,Y和W均为矩阵形式,W是卷积核矩阵,X是输入矩阵,Y是输出矩阵,b为偏置,valid指卷积运算的类型,conv2()是Matlab中卷积运算的函数。
记卷积神经网络模型中的最后一层卷积层为第L层,则有总误差公式:
E=12||d-yL||22。
其中d和y分别是期望输出和网络输出的向量,||d-yL||为(d-yL)的范数。
即本实施例通过对卷积神经网络模型进行不断的训练和匹配,逐渐缩小误差,不断提高视频在同一坐标系中的配准率,以此提升配准后视频融合的效果,使得后续视频拼接无裂缝、无错层和无弯曲等,并且模型在视频拼接时,会自动不断的校准、训练自学习,误差越来越小,配准率也会越来越高,从而保证后续视频流中的人物特征的提取的精准性。
在本实施例中,人物特征包括人物面部特征和人物动作特征;人物动作特征包括站立位置、面部朝向以及人物口型变化。
其中,如图2所示,上述实施例一中步骤S4基于预先训练得到的人工智能模型从视频流中提取人物特征,并基于人物特征对视频流进行裁剪和排序,得到拼接视频具体为以下步骤:
S41、基于人工智能模型从视频流中提取人物面部特征和人物动作特征。
S42、基于人物面部特征对视频流进行裁剪,得到人物裁剪图。
S43、对人物裁剪图进行镜头选择,得到最佳裁剪图。
S44、基于人物动作特征对最佳裁剪图进行排序,得到拼接视频。
即本实施例通过预先训练好的卷积神经网络模型对视频流中的人物面部特征和人物动作特征进行提取,并自动裁剪和排序,实现视频拼接的自动化,不仅节省了人工的投入,且提高了视频拼接的配准率,极大程度呈现以人物为主的完整视频效果。
其中,在本实施例中,步骤S43中对人物裁剪图进行镜头选择具体为:
若同一时间戳下存在一张以上的人物裁剪图,则以镜头指标要求对人物裁剪图进行筛选,得到一张人物裁剪图作为最佳裁剪图,否则直接将人物裁剪图作为最佳裁剪图;
镜头指标要求包括人物口型变化、人物镜头视角和场景切换要求。
即由于同一时间戳下可能存在多张具有人物特征的裁剪图,通过镜头指标要求择优选择一张人物裁剪图进行后续的排序,而滤除其他的人物裁剪图,能进一步保证最终的拼接视频能最大程度呈现人物的特征,达到完整的视频效果。
综上所述,本发明提供的一种基于人工智能技术的视频拼接方法,通过获取已知的人的移动轨迹变化及面部朝向变化预测下一拍摄周期内人可能移动到的站立位置以及当人移动到该预测的站立位置时的面部朝向,并基于摄像头和预测面部朝向的角度差最小原则预测最佳的机位及拍摄角度,从而预先对机位及角度进行调整,保证后续拍摄的视频能最大程度具有人脸特征,减少了不必要机位的拍摄,同时采用人工智能模型对视频进行自动化的裁剪和排序,在保证效率的同时,减少了设备资源和人力资源的投入,提高了视频拼接的配准率,实现了对不同机位或角度视频的无缝拼接,能极大程度呈现完整的视频效果。其中,在视频拍摄阶段,根据已知的面部朝向和站立朝向之间夹角的变化趋势,预测下一拍摄周期可能的面部朝向,能够确保预测的准确性,同时基于人体构造及头部转向角度的极限预设上限角度和下限角度,防止出现预测的面部朝向超出人体极限这种不合理不科学的情况,使预测更加合理化;并通过筛除与人离得较远的摄像机,基于评优获得最优的机位,不仅能保证拍摄的清晰度,也能进一步保证后续拍摄到的视频能最大程度具有人脸特征。而在视频拼接阶段,由于同一时间戳下可能存在多张具有人物特征的裁剪图,通过镜头指标要求选择最佳的一张人物裁剪图进行后续的排序,能进一步保证最终的拼接视频能最大程度呈现人物的特征,达到完整的视频效果。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于人工智能技术的视频拼接方法,其特征在于,包括步骤:
S1、获取当前时刻待识别人的站立位置和面部朝向,并预测下一时刻的站立位置和面部朝向,具体为:
S11、摄像头采集当前拍摄周期内的视频,并从中获取待识别人的当前站立位置以及当前面部朝向;
S12、根据所述当前拍摄周期内所拍摄到视频中所述当前站立位置的移动轨迹变化预测下一拍摄周期内的下一站立位置;
S13、根据所述当前拍摄周期内所拍摄到视频中所述当前面部朝向的朝向变化预测下一拍摄周期内的下一面部朝向;
S2、根据预测结果选择机位及调整拍摄角度,进行拍摄,具体为:
将位于下一站立位置的所述待识别人与所有拍摄范围内的摄像机进行分别连线,得到每一个摄像机对应的人机朝向,计算所述下一面部朝向和每一个摄像机对应的人机朝向之间的角度差,将角度差最小的摄像机作为所述下一拍摄周期内的拍摄相机;
将所述拍摄相机的朝向调整至对准所述待识别人的所述下一站立位置;
所述步骤S2中将角度差最小的摄像机作为所述下一拍摄周期内的拍摄相机具体包括以下步骤:
将最小角度差以及与最小角度差的正负3°之内的其他角度差所对应的摄像机作为备选摄像机,根据每一个备选摄像机对应的角度差和连线长度进行加权计算之后得到所有备选摄像机的评优分数,将所述评优分数最高的所述备选摄像机作为所述下一拍摄周期内的拍摄相机;
S3、获取多个机位的视频流;
S4、基于预先训练得到的人工智能模型从所述视频流中提取人物特征,并基于所述人物特征对所述视频流进行裁剪和排序,得到拼接视频。
2.根据权利要求1所述的一种基于人工智能技术的视频拼接方法,其特征在于,所述步骤S11还包括以下步骤:
从所述当前拍摄周期内的视频中获取所述待识别人的当前站立朝向;
所述步骤S12和所述步骤S13之间还包括以下步骤:
根据所述当前拍摄周期内所拍摄到视频中所述当前站立朝向的朝向变化预测下一拍摄周期内的下一站立朝向;
所述步骤S13具体为以下步骤:
S131、获取所述当前拍摄周期内的视频中最后一帧的所述待识别人的当前面部朝向和当前站立朝向,记为第一面部朝向和第一站立朝向;
S132、根据所述当前拍摄周期内的视频中所述待识别人的当前面部朝向和当前站立朝向之间所形成的夹角变化得到面部朝向变化趋势,若所述面部朝向变化趋势为从小到大,则执行步骤S133,否则执行步骤S134;
S133、判断所述第一面部朝向和所述第一站立朝向之间形成的第一夹角是否大于预设上限角度,若是,则将所述下一站立朝向偏移所述预设上限角度之后得到的角度作为下一面部朝向,否则根据所述当前拍摄周期内所拍摄到视频中所述当前面部朝向的朝向变化预测所述下一拍摄周期内的下一面部朝向;
S134、判断所述第一面部朝向和所述第一站立朝向之间形成的第一夹角是否小于预设下限角度,若是,则将所述下一站立朝向作为所述下一拍摄周期内的下一面部朝向,否则根据所述当前拍摄周期内所拍摄到视频中所述当前面部朝向的朝向变化预测所述下一拍摄周期内的下一面部朝向。
3.根据权利要求2所述的一种基于人工智能技术的视频拼接方法,其特征在于,所述预设上限角度为[60°,90°],所述预设下限角度为[0°,20°]。
4.根据权利要求1所述的一种基于人工智能技术的视频拼接方法,其特征在于,所述步骤S2中还包括以下步骤:
将所述待识别人与摄像机之间的连线距离大于预设长度的摄像机滤除。
5.根据权利要求1所述的一种基于人工智能技术的视频拼接方法,其特征在于,所述人物特征包括人物面部特征和人物动作特征;
所述人物动作特征包括所述站立位置、所述面部朝向以及人物口型变化;
所述步骤S4具体为:
S41、基于所述人工智能模型从所述视频流中提取所述人物面部特征和所述人物动作特征;
S42、基于所述人物面部特征对所述视频流进行裁剪,得到人物裁剪图;
S43、对所述人物裁剪图进行镜头选择,得到最佳裁剪图;
S44、基于所述人物动作特征对所述最佳裁剪图进行排序,得到拼接视频。
6.根据权利要求5所述的一种基于人工智能技术的视频拼接方法,其特征在于,所述步骤S43中对所述人物裁剪图进行镜头选择具体为:
若同一时间戳下存在一张以上的所述人物裁剪图,则以镜头指标要求对所述人物裁剪图进行筛选,得到一张所述人物裁剪图作为所述最佳裁剪图,否则直接将所述人物裁剪图作为所述最佳裁剪图;
所述镜头指标要求包括所述人物口型变化、人物镜头视角和场景切换要求。
7.根据权利要求1至6任一所述的一种基于人工智能技术的视频拼接方法,其特征在于,所述人工智能模型为卷积神经网络模型;
所述卷积神经网络模型中的每一个卷积层的输入公式均为:
V=conv2(W,X,”valid”)+b;
输出公式为:
Y=φ(V);
其中,X,Y和W均为矩阵形式,W是卷积核矩阵,X是输入矩阵,Y是输出矩阵,b为偏置,valid指卷积运算的类型,conv2()是Matlab中卷积运算的函数,对于所述卷积神经网络模型中的最后一层卷积层,记为第L层,则有总误差公式:
E=12||d-yL||22;
其中d和y分别是期望输出和网络输出的向量,||d-yL||为(d-yL)的范数。
CN202110630169.5A 2021-06-07 2021-06-07 一种基于人工智能技术的视频拼接方法 Active CN113382304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110630169.5A CN113382304B (zh) 2021-06-07 2021-06-07 一种基于人工智能技术的视频拼接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110630169.5A CN113382304B (zh) 2021-06-07 2021-06-07 一种基于人工智能技术的视频拼接方法

Publications (2)

Publication Number Publication Date
CN113382304A CN113382304A (zh) 2021-09-10
CN113382304B true CN113382304B (zh) 2023-07-18

Family

ID=77576157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110630169.5A Active CN113382304B (zh) 2021-06-07 2021-06-07 一种基于人工智能技术的视频拼接方法

Country Status (1)

Country Link
CN (1) CN113382304B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058743B (zh) * 2023-10-12 2024-02-20 广州尚航信息科技股份有限公司 一种基于dcim平台的数据兼容传输处理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592146A (zh) * 2011-12-28 2012-07-18 浙江大学 适用于视频监控的人脸检测及摄像机云台控制方法
CN109887040A (zh) * 2019-02-18 2019-06-14 北京航空航天大学 面向视频监控的运动目标主动感知方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693417A (zh) * 2012-05-16 2012-09-26 清华大学 基于异构主动视觉网络的人脸图像样本采集优化方法
CN105426841B (zh) * 2015-11-19 2019-02-15 北京旷视科技有限公司 基于人脸检测的监控相机自定位方法及装置
CN105357442A (zh) * 2015-11-27 2016-02-24 小米科技有限责任公司 摄像头拍摄角度调整方法及装置
CN108419014B (zh) * 2018-03-20 2020-02-21 北京天睿空间科技股份有限公司 利用全景摄像机和多台抓拍摄像机联动抓拍人脸的方法
CN110072055A (zh) * 2019-05-07 2019-07-30 中国联合网络通信集团有限公司 基于人工智能的视频制作方法及系统
CN111582129A (zh) * 2020-04-30 2020-08-25 中铁工程装备集团有限公司 一种盾构机司机工作状态实时监测报警方法及装置
CN111942407B (zh) * 2020-07-31 2022-09-23 商汤集团有限公司 轨迹预测方法、装置、设备及存储介质
CN112672090B (zh) * 2020-12-17 2023-04-18 深圳随锐视听科技有限公司 一种云视频会议中优化音视频效果的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592146A (zh) * 2011-12-28 2012-07-18 浙江大学 适用于视频监控的人脸检测及摄像机云台控制方法
CN109887040A (zh) * 2019-02-18 2019-06-14 北京航空航天大学 面向视频监控的运动目标主动感知方法及系统

Also Published As

Publication number Publication date
CN113382304A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN103761514B (zh) 基于广角枪机和多球机实现人脸识别的系统及方法
TWI709107B (zh) 影像特徵提取方法及包含其顯著物體預測方法
CN111770299B (zh) 一种智能视频会议终端的实时人脸摘要服务的方法及系统
CN101406390B (zh) 检测人体部位和人的方法和设备以及对象检测方法和设备
CN112990310A (zh) 服务于电力机器人的人工智能系统及方法
CN107808376B (zh) 一种基于深度学习的举手检测方法
CN109887040A (zh) 面向视频监控的运动目标主动感知方法及系统
CN112288627B (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN110795990B (zh) 一种面向水下设备的手势识别方法
CN109190561B (zh) 一种视频播放中的人脸识别方法及系统
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN112036257A (zh) 一种无感知人脸图像采集方法和系统
CN111709365A (zh) 一种基于卷积神经网络的人体运动姿态自动检测方法
CN111639580A (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN116614705B (zh) 基于多模态视频特征分析的采煤工作面相机调控系统
CN113382304B (zh) 一种基于人工智能技术的视频拼接方法
CN109360179A (zh) 一种图像融合方法、装置及可读存储介质
CN111415318A (zh) 基于拼图任务的无监督相关滤波目标跟踪方法及系统
CN106529441A (zh) 基于模糊边界分片的深度动作图人体行为识别方法
WO2022205329A1 (zh) 对象检测方法、对象检测装置及对象检测系统
CN106778576A (zh) 一种基于sehm特征图序列的动作识别方法
CN112487926A (zh) 一种基于时空图卷积网络的景区投喂行为识别方法
CN113893517B (zh) 基于差帧法的跳绳真假判断方法及系统
CN112766033B (zh) 一种基于多视角相机估计场景下行人共同关注目标的方法
CN111160255B (zh) 一种基于三维卷积网络的捕鱼行为识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant