CN113382304B

CN113382304B - 一种基于人工智能技术的视频拼接方法

Info

Publication number: CN113382304B
Application number: CN202110630169.5A
Authority: CN
Inventors: 谢衍
Original assignee: Beibo Xiamen Intelligent Technology Co ltd
Current assignee: Beibo Xiamen Intelligent Technology Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2023-07-18
Anticipated expiration: 2041-06-07
Also published as: CN113382304A

Abstract

本发明提供了一种基于人工智能技术的视频拼接方法，包括步骤：获取当前时刻待识别人的站立位置和面部朝向，并预测下一时刻的站立位置和面部朝向；根据预测结果选择机位及调整拍摄角度，进行拍摄；获取多个机位的视频流；基于预先训练得到的人工智能模型从视频流中提取人物特征，并对视频流进行裁剪和排序，得到拼接视频。本发明通过预测人的站立位置和面部朝向预先调整机位及拍摄角度，保证后续拍摄的视频能最大程度具有人脸特征，减少不必要机位的拍摄，同时采用人工智能模型对视频进行自动化的裁剪和排序，减少了设备资源和人力资源的投入，提高了视频拼接的配准率，实现对不同机位或角度视频的无缝拼接，能极大程度呈现完整的视频效果。

Description

一种基于人工智能技术的视频拼接方法

技术领域

本发明涉及视频拼接技术领域，特别涉及一种基于人工智能技术的视频拼接方法。

背景技术

目前，由于自媒体迎来了井喷式的发展，各种各样的信息传递由原来的报纸、电视等媒介转换成了现在以各种视频App为媒介的方式。但是每个视频，由于受场地、天气或角度等因素，如果单纯的一个角度或机位，所呈现的还是有很大的局限性。

随着视频剪辑技术的发展，现阶段采用人工将待剪辑的视频预览一遍，然后基于人为对待剪辑视频的理解进行视频的剪辑拼接，得到多角度多机位的视频。但基于人工的剪辑方式，需要人工预览每一个待剪辑的视频，需要投入大量的设备资源和人力资源，不仅视频剪辑的效率低且由于存在人为操作误差而导致视频剪辑的配准率低，使得视频存在裂缝、错层、弯曲等状态，影响整体的视频效果。

发明内容

本发明所要解决的技术问题是：提供一种基于人工智能技术的视频拼接方法，提高配准率的同时实现自动化的视频拼接。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于人工智能技术的视频拼接方法，包括步骤：

S1、获取当前时刻待识别人的站立位置和面部朝向，并预测下一时刻的站立位置和面部朝向；

S2、根据预测结果选择机位及调整拍摄角度，进行拍摄；

S3、获取多个机位的视频流；

S4、基于预先训练得到的人工智能模型从所述视频流中提取人物特征，并基于所述人物特征对所述视频流进行裁剪和排序，得到拼接视频。

本发明的有益效果在于：本发明提供一种基于人工智能技术的视频拼接方法，通过当前时刻人的站立位置和面部朝向预测下一时刻人的站立位置和面部朝向，从而预先调整机位及拍摄角度，保证后续拍摄的视频能最大程度具有人脸特征，减少了不必要机位的拍摄，同时采用人工智能模型对视频进行自动化的裁剪和排序，在保证效率的同时，减少了设备资源和人力资源的投入，提高了视频拼接的配准率，实现了对不同机位或角度视频的无缝拼接，能极大程度呈现完整的视频效果。

附图说明

图1为一种基于人工智能技术的视频拼接方法的流程图；

图2为实施例二的一种基于人工智能模型进行视频拼接的流程图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1及图2，一种基于人工智能技术的视频拼接方法，包括步骤：

S2、根据预测结果选择机位及调整拍摄角度，进行拍摄；

S3、获取多个机位的视频流；

由上述描述可知，本发明的有益效果在于：通过当前时刻人的站立位置和面部朝向预测下一时刻人的站立位置和面部朝向，从而预先调整机位及拍摄角度，保证后续拍摄的视频能最大程度具有人脸特征，减少了不必要机位的拍摄，同时采用人工智能模型对视频进行自动化的裁剪和排序，在保证效率的同时，减少了设备资源和人力资源的投入，提高了视频拼接的配准率，实现了对不同机位或角度视频的无缝拼接，能极大程度呈现完整的视频效果。

进一步地，所述步骤S1具体为以下步骤：

S11、摄像头采集当前拍摄周期内的视频，并从中获取待识别人的当前站立位置以及当前面部朝向；

S12、根据所述当前拍摄周期内所拍摄到视频中所述当前站立位置的移动轨迹变化预测下一拍摄周期内的下一站立位置；

S13、根据所述当前拍摄周期内所拍摄到视频中所述当前面部朝向的朝向变化预测下一拍摄周期内的下一面部朝向；

所述步骤S2具体为以下步骤：

将位于下一站立位置的所述待识别人与所有拍摄范围内的摄像机进行分别连线，得到每一个摄像机对应的人机朝向，计算所述下一面部朝向和每一个摄像机对应的人机朝向之间的角度差，将角度差最小的摄像机作为所述下一拍摄周期内的拍摄相机；

将所述拍摄相机的朝向调整至对准所述待识别人的所述下一站立位置。

由上述描述可知，通过获取已知的人的移动轨迹变化及面部朝向变化预测下一拍摄周期内人可能移动到的站立位置以及当人移动到该预测的站立位置时的面部朝向，并基于摄像头和预测面部朝向的角度差最小原则预测最佳的机位及拍摄角度，预先对机位及角度进行调整，减少了需要实时调整机位及拍摄角度的时间，提高了视频采集的效率，且后续每一次拍摄周期内的拍摄机位和角度能最大程度拍摄到人脸特征，减少了不必要的机位的拍摄，为后续视频拼接处理减少了工作量。

进一步地，所述步骤S11还包括以下步骤：

从所述当前拍摄周期内的视频中获取所述待识别人的当前站立朝向；

所述步骤S12和所述步骤S13之间还包括以下步骤：

根据所述当前拍摄周期内所拍摄到视频中所述当前站立朝向的朝向变化预测下一拍摄周期内的下一站立朝向；

所述步骤S13具体为以下步骤：

S131、获取所述当前拍摄周期内的视频中最后一帧的所述待识别人的当前面部朝向和当前站立朝向，记为第一面部朝向和第一站立朝向；

S132、根据所述当前拍摄周期内的视频中所述待识别人的当前面部朝向和当前站立朝向之间所形成的夹角变化得到面部朝向变化趋势，若所述面部朝向变化趋势为从小到大，则执行步骤S133，否则执行步骤S134；

S133、判断所述第一面部朝向和所述第一站立朝向之间形成的第一夹角是否大于预设上限角度，若是，则将所述下一站立朝向偏移所述预设上限角度之后得到的角度作为下一面部朝向，否则根据所述当前拍摄周期内所拍摄到视频中所述当前面部朝向的朝向变化预测所述下一拍摄周期内的下一面部朝向；

S134、判断所述第一面部朝向和所述第一站立朝向之间形成的第一夹角是否小于预设下限角度，若是，则将所述下一站立朝向作为所述下一拍摄周期内的下一面部朝向，否则根据所述当前拍摄周期内所拍摄到视频中所述当前面部朝向的朝向变化预测所述下一拍摄周期内的下一面部朝向。

由上述描述可知，根据已知的面部朝向和站立朝向之间夹角的变化趋势，预测下一拍摄周期可能的面部朝向，能够确保预测的准确性，同时由于人体构造可知人头部的左右转动是有极限的，因此通过预设上限角度和下限角度，能够进一步保证预测的准确性，防止出现预测的面部朝向超出人体极限这种不合理不科学的情况。

进一步地，所述预设上限角度为[60°,90°]，所述预设下限角度为[0°,20°]。

由上述描述可知，根据人体构造可知大多数人的头部能够左右转动的角度为90°，因此预设上限角度为[60°,90°]，可最大程度保证预测到的面部朝向角度不会超出人体极限而产生不合理数值；而在待识别人处于正常状态下，其本身头部也不一定保持正向，预设下限角度为[0°,20°]，可以过滤一部分不代表待识别人的注意方向的面部朝向，从而使预测更加合理化。

进一步地，所述步骤S2中还包括以下步骤：

将所述待识别人与摄像机之间的连线距离大于预设长度的摄像机滤除。

由上述描述可知，筛除与人离得较远的摄像机，保证拍摄的清晰度。

进一步地，所述步骤S2中将角度差最小的摄像机作为所述下一拍摄周期内的拍摄相机具体包括以下步骤：

将最小角度差以及与最小角度差的正负3°之内的其他角度差所对应的摄像机作为备选摄像机，根据每一个备选摄像机对应的角度差和连线长度进行加权计算之后得到所有备选摄像机的评优分数，将所述评优分数最高的所述备选摄像机作为所述下一拍摄周期内的拍摄相机。

由上述描述可知，将满足能够通过预测结果进行调整以拍摄到最佳画面的多个机位的相机通过评优，获得最优的机位，能够进一步保证后续拍摄到的视频能最大程度具有人脸特征。

进步一地，所述人物特征包括人物面部特征和人物动作特征；

所述人物动作特征包括所述站立位置、所述面部朝向以及人物口型变化；

所述步骤S4具体为：

S41、基于所述人工智能模型从所述视频流中提取所述人物面部特征和所述人物动作特征；

S42、基于所述人物面部特征对所述视频流进行裁剪，得到人物裁剪图；

S43、对所述人物裁剪图进行镜头选择，得到最佳裁剪图；

S44、基于所述人物动作特征对所述最佳裁剪图进行排序，得到拼接视频。

由上述描述可知，通过预先训练好的人工智能模型对视频流中的人物面部特征和人物动作特征进行提取，并自动裁剪和排序，实现视频拼接的自动化，不仅节省了人工的投入，且提高了视频拼接的配准率，极大程度呈现以人物为主的完整视频效果。

进步一地，所述步骤S43中对所述人物裁剪图进行镜头选择具体为：

若同一时间戳下存在一张以上的所述人物裁剪图，则以镜头指标要求对所述人物裁剪图进行筛选，得到一张所述人物裁剪图作为所述最佳裁剪图，否则直接将所述人物裁剪图作为所述最佳裁剪图；

所述镜头指标要求包括所述人物口型变化、人物镜头视角和场景切换要求。

由上述描述可知，由于同一时间戳下可能存在多张具有人物特征的裁剪图，通过镜头指标要求择优选择一张人物裁剪图进行后续的排序，而滤除其他的人物裁剪图，能进一步保证最终的拼接视频能最大程度呈现人物的特征，达到完整的视频效果。

进步一地，所述人工智能模型为卷积神经网络模型；

所述卷积神经网络模型中的每一个卷积层的输入公式均为：

V＝conv2(W,X,”valid”)+b；

输出公式为：

Y＝φ(V)；

其中，X，Y和W均为矩阵形式，W是卷积核矩阵，X是输入矩阵，Y是输出矩阵，b为偏置，valid指卷积运算的类型，conv2()是Matlab中卷积运算的函数，对于所述卷积神经网络模型中的最后一层卷积层，记为第L层，则有总误差公式：

E＝12||d-yL||22；

其中d和y分别是期望输出和网络输出的向量，||d-yL||为(d-yL)的范数。

由上述描述可知，卷积神经网络作为深度学习的代表算法之一，具有极强的表征学习能力，可应用于图像识别、物体识别、行为认知、姿态估计等多种领域，通过预先训练获得卷积神经网络模型，能够从视频流中有效提取到人物的面部特征和行为特征，并且通过不断的训练逐渐缩小误差，不断提高视频在同一坐标系中的配准率，以此提升配准后视频融合的效果，使得后续视频拼接无裂缝、无错层和无弯曲等，并且模型在视频拼接时，会自动不断的校准、训练自学习，误差越来越小，配准率也会越来越高。

请参照图1，本发明的实施例一为：

一种基于人工智能技术的视频拼接方法，包括步骤：

S1、获取当前时刻待识别人的站立位置和面部朝向，并预测下一时刻的站立位置和面部朝向。

其中，在本实施例中，步骤S1具体为以下步骤：

S11、摄像头采集当前拍摄周期内的视频，并从中获取待识别人的当前站立位置以及当前面部朝向；从当前拍摄周期内的视频中获取待识别人的当前站立朝向。

S12、根据当前拍摄周期内所拍摄到视频中当前站立位置的移动轨迹变化预测下一拍摄周期内的下一站立位置；根据当前拍摄周期内所拍摄到视频中当前站立朝向的朝向变化预测下一拍摄周期内的下一站立朝向。

S13、根据当前拍摄周期内所拍摄到视频中当前面部朝向的朝向变化预测下一拍摄周期内的下一面部朝向。

其中，步骤S13具体为以下步骤：

S131、获取当前拍摄周期内的视频中最后一帧的待识别人的当前面部朝向和当前站立朝向，记为第一面部朝向和第一站立朝向；

S132、根据当前拍摄周期内的视频中待识别人的当前面部朝向和当前站立朝向之间所形成的夹角变化得到面部朝向变化趋势，若面部朝向变化趋势为从小到大，则执行步骤S133，否则执行步骤S134；

S133、判断第一面部朝向和第一站立朝向之间形成的第一夹角是否大于预设上限角度，若是，则将下一站立朝向偏移预设上限角度之后得到的角度作为下一面部朝向，否则根据当前拍摄周期内所拍摄到视频中当前面部朝向的朝向变化预测下一拍摄周期内的下一面部朝向；

S134、判断第一面部朝向和第一站立朝向之间形成的第一夹角是否小于预设下限角度，若是，则将下一站立朝向作为下一拍摄周期内的下一面部朝向，否则根据当前拍摄周期内所拍摄到视频中当前面部朝向的朝向变化预测下一拍摄周期内的下一面部朝向。

即本实施例通过已知的面部朝向和站立朝向之间夹角的变化趋势，预测下一拍摄周期可能的面部朝向，能够确保预测的准确性，同时由于人体构造可知人的头部的左右转动是有极限的，因此通过预设上限角度和下限角度，能够进一步保证预测的准确性，防止出现预测的面部朝向超出人体极限这种不合理不科学的情况。

其中，在本实施例中，预设上限角度为[60°,90°]，预设下限角度为[0°,20°]。

即本实施例根据人体构造可知大多数人的头部能够左右转动的角度为90°左右，因此预设上限角度为[60°,90°]，比如预设上限角度为75°，则如果第一面部朝向和第一站立朝向之间的夹角大于75°，比如此时为85°，则以下一站立朝向偏移75°的角度作为下一面部朝向，可最大程度保证预测到的面部朝向角度不会超出人体极限而产生不合理数值。而预设下限角度为[0°,20°]，比如预设上限角度为15°，即待识别人处于正常状态下，其本身头部也不一定保持正向，因此，需要过滤一部分不代表待识别人的注意方向的面部朝向，从而使预测更加合理化。

S2、根据预测结果选择机位及调整拍摄角度，进行拍摄。

其中，在本实施例中，步骤S2具体为以下步骤：

将位于下一站立位置的待识别人与所有拍摄范围内的摄像机进行分别连线，得到每一个摄像机对应的人机朝向，计算下一面部朝向和每一个摄像机对应的人机朝向之间的角度差，将角度差最小的摄像机作为下一拍摄周期内的拍摄相机；将拍摄相机的朝向调整至对准待识别人的下一站立位置。

即本实施例基于摄像头和预测得到的面部朝向的角度差最小原则预测最佳的机位及拍摄角度，并预先对机位及角度进行调整，减少了需要实时调整机位及拍摄角度的时间，提高了视频采集的效率，且后续每一次拍摄周期内的拍摄机位和角度能最大程度拍摄到人脸特征，减少了不必要的机位的拍摄，为后续视频拼接处理减少了工作量。

其中，在本实施例中，步骤S2中还包括以下步骤：

将待识别人与摄像机之间的连线距离大于预设长度的摄像机滤除。

即筛除与人离得较远的摄像机，能保证拍摄的清晰度。

其中，在本实施例中，步骤S2中将角度差最小的摄像机作为下一拍摄周期内的拍摄相机具体包括以下步骤：

将最小角度差以及与最小角度差的正负3°之内的其他角度差所对应的摄像机作为备选摄像机，根据每一个备选摄像机对应的角度差和连线长度进行加权计算之后得到所有备选摄像机的评优分数，将评优分数最高的备选摄像机作为下一拍摄周期内的拍摄相机。

即本实施例将满足能够通过预测结果进行调整以拍摄到最佳画面的多个机位的相机通过评优，获得最优的机位，能够进一步保证后续拍摄到的视频能最大程度具有人脸特征。

S3、获取多个机位的视频流；

S4、基于预先训练得到的人工智能模型从视频流中提取人物特征，并基于人物特征对视频流进行裁剪和排序，得到拼接视频。

即本实施例通过采用人工智能模型对视频进行自动化的裁剪和排序，在保证效率的同时，减少了设备资源和人力资源的投入，提高了视频拼接的配准率，实现了对不同机位或角度视频的无缝拼接，能极大程度呈现完整的视频效果。

请参照图2，本发明的实施例二为：

在上述实施例一的基础上，本实施例通过采取深度学习的方法对视频的几何运动模型进行不断的训练和匹配，最终训练得到人工智能模型。本实施例采用卷积神经网络模型作为人工智能模型。

卷积神经网络模型是一种前馈神经网络，具有极强的表征学习能力，由于卷积神经网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而广泛应用于图像识别、物体识别、行为认知、姿态估计等多种领域。它的人工神经元可以响应一部分覆盖范围内的周围单元，能够限制参数个数并挖掘局部结构。

在本实施例中，采用卷积神经网络模型识别视频中的位移、缩放及其他形式扭曲不变性的二维图形。通过局部感受视野、权值共享以及时间或空间亚采样三种思想的结合，获得某种程度的位移、尺度和形变不变性，在卷积神经网络中通过“卷积核”作为中介，同一个卷积核在所有图像内是共享的，图像通过卷积操作后仍能保留原先的位置关系。

其中，卷积神经网络模型的输入公式为：V＝conv2(W,X,”valid”)+b。

输出公式为：Y＝φ(V)。

上述输入公式和输出公式是对卷积神经网络中的每一个卷积层而言的，即每一个卷积层都有一个不同的权重矩阵W，并且X，Y和W均为矩阵形式，W是卷积核矩阵，X是输入矩阵，Y是输出矩阵，b为偏置，valid指卷积运算的类型，conv2()是Matlab中卷积运算的函数。

记卷积神经网络模型中的最后一层卷积层为第L层，则有总误差公式：

E＝12||d-yL||22。

即本实施例通过对卷积神经网络模型进行不断的训练和匹配，逐渐缩小误差，不断提高视频在同一坐标系中的配准率，以此提升配准后视频融合的效果，使得后续视频拼接无裂缝、无错层和无弯曲等，并且模型在视频拼接时，会自动不断的校准、训练自学习，误差越来越小，配准率也会越来越高，从而保证后续视频流中的人物特征的提取的精准性。

在本实施例中，人物特征包括人物面部特征和人物动作特征；人物动作特征包括站立位置、面部朝向以及人物口型变化。

其中，如图2所示，上述实施例一中步骤S4基于预先训练得到的人工智能模型从视频流中提取人物特征，并基于人物特征对视频流进行裁剪和排序，得到拼接视频具体为以下步骤：

S41、基于人工智能模型从视频流中提取人物面部特征和人物动作特征。

S42、基于人物面部特征对视频流进行裁剪，得到人物裁剪图。

S43、对人物裁剪图进行镜头选择，得到最佳裁剪图。

S44、基于人物动作特征对最佳裁剪图进行排序，得到拼接视频。

即本实施例通过预先训练好的卷积神经网络模型对视频流中的人物面部特征和人物动作特征进行提取，并自动裁剪和排序，实现视频拼接的自动化，不仅节省了人工的投入，且提高了视频拼接的配准率，极大程度呈现以人物为主的完整视频效果。

其中，在本实施例中，步骤S43中对人物裁剪图进行镜头选择具体为：

若同一时间戳下存在一张以上的人物裁剪图，则以镜头指标要求对人物裁剪图进行筛选，得到一张人物裁剪图作为最佳裁剪图，否则直接将人物裁剪图作为最佳裁剪图；

镜头指标要求包括人物口型变化、人物镜头视角和场景切换要求。

即由于同一时间戳下可能存在多张具有人物特征的裁剪图，通过镜头指标要求择优选择一张人物裁剪图进行后续的排序，而滤除其他的人物裁剪图，能进一步保证最终的拼接视频能最大程度呈现人物的特征，达到完整的视频效果。

综上所述，本发明提供的一种基于人工智能技术的视频拼接方法，通过获取已知的人的移动轨迹变化及面部朝向变化预测下一拍摄周期内人可能移动到的站立位置以及当人移动到该预测的站立位置时的面部朝向，并基于摄像头和预测面部朝向的角度差最小原则预测最佳的机位及拍摄角度，从而预先对机位及角度进行调整，保证后续拍摄的视频能最大程度具有人脸特征，减少了不必要机位的拍摄，同时采用人工智能模型对视频进行自动化的裁剪和排序，在保证效率的同时，减少了设备资源和人力资源的投入，提高了视频拼接的配准率，实现了对不同机位或角度视频的无缝拼接，能极大程度呈现完整的视频效果。其中，在视频拍摄阶段，根据已知的面部朝向和站立朝向之间夹角的变化趋势，预测下一拍摄周期可能的面部朝向，能够确保预测的准确性，同时基于人体构造及头部转向角度的极限预设上限角度和下限角度，防止出现预测的面部朝向超出人体极限这种不合理不科学的情况，使预测更加合理化；并通过筛除与人离得较远的摄像机，基于评优获得最优的机位，不仅能保证拍摄的清晰度，也能进一步保证后续拍摄到的视频能最大程度具有人脸特征。而在视频拼接阶段，由于同一时间戳下可能存在多张具有人物特征的裁剪图，通过镜头指标要求选择最佳的一张人物裁剪图进行后续的排序，能进一步保证最终的拼接视频能最大程度呈现人物的特征，达到完整的视频效果。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于人工智能技术的视频拼接方法，其特征在于，包括步骤：

S1、获取当前时刻待识别人的站立位置和面部朝向，并预测下一时刻的站立位置和面部朝向，具体为：

S2、根据预测结果选择机位及调整拍摄角度，进行拍摄，具体为：

将所述拍摄相机的朝向调整至对准所述待识别人的所述下一站立位置；

所述步骤S2中将角度差最小的摄像机作为所述下一拍摄周期内的拍摄相机具体包括以下步骤：

将最小角度差以及与最小角度差的正负3°之内的其他角度差所对应的摄像机作为备选摄像机，根据每一个备选摄像机对应的角度差和连线长度进行加权计算之后得到所有备选摄像机的评优分数，将所述评优分数最高的所述备选摄像机作为所述下一拍摄周期内的拍摄相机；

S3、获取多个机位的视频流；

2.根据权利要求1所述的一种基于人工智能技术的视频拼接方法，其特征在于，所述步骤S11还包括以下步骤：

所述步骤S12和所述步骤S13之间还包括以下步骤：

所述步骤S13具体为以下步骤：

3.根据权利要求2所述的一种基于人工智能技术的视频拼接方法，其特征在于，所述预设上限角度为[60°,90°]，所述预设下限角度为[0°,20°]。

4.根据权利要求1所述的一种基于人工智能技术的视频拼接方法，其特征在于，所述步骤S2中还包括以下步骤：

5.根据权利要求1所述的一种基于人工智能技术的视频拼接方法，其特征在于，所述人物特征包括人物面部特征和人物动作特征；

所述步骤S4具体为：

S43、对所述人物裁剪图进行镜头选择，得到最佳裁剪图；

6.根据权利要求5所述的一种基于人工智能技术的视频拼接方法，其特征在于，所述步骤S43中对所述人物裁剪图进行镜头选择具体为：

7.根据权利要求1至6任一所述的一种基于人工智能技术的视频拼接方法，其特征在于，所述人工智能模型为卷积神经网络模型；

所述卷积神经网络模型中的每一个卷积层的输入公式均为：

V＝conv2(W,X,”valid”)+b；

输出公式为：

Y＝φ(V)；

E＝12||d-yL||22；