CN117177005A

CN117177005A - 基于多模态与动态视角调整的花絮视频生成方法

Info

Publication number: CN117177005A
Application number: CN202311007526.8A
Authority: CN
Inventors: 范涛; 叶建华; 万锦山
Original assignee: Hangzhou Arcvideo Technology Co ltd
Current assignee: Hangzhou Arcvideo Technology Co ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-12-05

Abstract

本发明公开了一种基于多模态与动态视角调整的花絮视频生成方法，包括以下步骤：对输入的视频数据进行预处理，包括音频提取、视频抽帧、文本转换、人脸识别与物体识别，并进行数据同步与对齐；进行多模态特征提取，分别从包括视频、文本、人脸、物体多个模态中提取特征；将来自不同模态的特征集成到统一的特征表示中；根据融合后的特征，采用关键片段检测模型用于自动识别视频素材中的关键片段；根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角；根据动态视角调整后的关键片段结果，自动剪辑和拼接关键片段，生成花絮视频。

Description

基于多模态与动态视角调整的花絮视频生成方法

技术领域

本发明属于视频技术领域，具体涉及一种基于多模态与动态视角调整的花絮视频生成方法。

背景技术

目前在视频剪辑软件中制作花絮视频会遇到以下一些问题：(1)视频剪辑费时费力：人工筛选大量素材，从中挑选出具有吸引力的关键片段，并进行剪辑、拼接等操作。在这一过程中目前已经有一些AI应用(采集人脸、语音等信息)辅助人工筛选素材，但面对海量的辅助信息无从下手仍需要大量的时间和精力。在对素材进行横竖屏转换处理时人工标注AI处理，但仍需要人工对每个素材进行标注。(2)缺乏客观评价标准：人工筛选和剪辑关键片段时，选择的片段可能受到制作者个人喜好和主观判断的影响，导致花絮视频质量参差不齐。而且，在评估视频素材的吸引力、趣味性等方面，缺乏客观、一致的评价标准。(3)技术门槛较高：视频剪辑和制作需要具备一定的专业知识和技能，如熟练掌握视频编辑软件、了解视频编码格式等。这意味着，没有相关经验的用户可能会在制作花絮视频时遇到困难。

发明内容

鉴于以上存在的问题，本发明提供一种基于多模态与动态视角调整的花絮视频生成方法，用于利用先进的计算机视觉、自然语言处理和机器学习技术，较大程度上解决花絮视频制作时所面临的问题。

为解决上述技术问题，本发明采用如下的技术方案：

一种基于多模态与动态视角调整的花絮视频生成方法，包括以下步骤：

对输入的视频数据进行预处理，包括音频提取、视频抽帧、文本转换、人脸识别与物体识别，并进行数据同步与对齐；

进行多模态特征提取，分别从包括视频、文本、人脸、物体多个模态中提取特征；

将来自不同模态的特征集成到统一的特征表示中；

根据融合后的特征，采用关键片段检测模型用于自动识别视频素材中的关键片段；

根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角；

根据动态视角调整后的关键片段结果，自动剪辑和拼接关键片段，生成花絮视频。

一种可能的实施方式中，所述文本转换包括利用自动语音识别将视频中的语音转换成文本以及使用文字识别从视频画面中提取文本信息。

一种可能的实施方式中，所述数据同步与对齐包括：根据语音数据、文本数据、人脸识别和物体识别的结果，按照相应的时间戳进行切分和同步，输出数据的格式为包含多个时间戳的列表，对于每个时间戳，将相应的语音数据、文本数据、人脸识别结果和物体识别结果整合。

一种可能的实施方式中，进行多模态特征提取包括从视频数据中提取关键的视觉特征，使用预训练的深度学习模型ResNet，对视频帧进行特征提取，将提取到的人脸和物体特征整合到视频特征中。

一种可能的实施方式中，进行多模态特征提取包括从文本数据中提取关键的文本特征，使用预训练的语言模型GPT将文本转换为向量表示，使用文本分类模型提取高层次的语义特征。

一种可能的实施方式中，进行多模态特征提取包括从人脸识别结果中提取关键的人脸特征，使用人脸识别算法FaceNet提取的人脸特征，结合人脸关键点检测Dlib提取面部信息。

一种可能的实施方式中，根据融合后的特征，采用关键片段检测模型用于自动识别视频素材中的关键片段进一步包括：

选择时序模型Transformer，以处理不同长度的序列数据；

通过卷积层将时序模型的输出转换为关键片段的概率分布；

根据预测的关键片段概率选取阈值进行筛选得到视频素材中的关键片段。

一种可能的实施方式中，根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角进一步包括视觉显著性分析，包括：

创建金字塔结构，将原始图像I在多个尺度s上进行高斯模糊处理，得到图像金字塔：

I_s＝GaussianBlur(I,s)

其中，GaussianBlur为高斯模糊函数，s为尺度参数；

计算中心-环差，在特定特征通道中，计算不同尺度的图像层之间的中心-环差，得到显著性图S：

S＝|I_c-I_s|

其中，I_c和I_s分别表示在中心和周围尺度的图像，|.|表示绝对值。

合并显著性图，将各个特征通道的显著性图进行归一化和线性融合，得到最终的显著性图SM：

SM＝Normalize(S_c)+Normalize(S_i)+Normalize(S_o)

其中，Normalize为归一化函数，S_c、S_i和S_o分别表示色彩、亮度和方向特征通道的显著性图。

一种可能的实施方式中，根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角进一步包括视角优化，包括：

输入物体跟踪结果及对应的每一帧截图，计算评价函数在当前视角策略下的梯度，沿着梯度的负方向更新视角策略，输出每一帧的最佳视角，其中迭代公式为：

其中V_t表示在第t步的视角策略；η为学习率，用于控制每一步更新的步长；为评价函数f在V_t处的梯度。

一种可能的实施方式中，根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角进一步包括视角变换，其中视角变换包括仿射变换、透视变换、插值方法、动态遮挡处理和视频稳定处理。

采用本发明具有如下的有益效果：

(1)通过对原始数据进行预处理，包括人脸与物体识别，为后续模块提供更准确和可靠的数据输入。与传统方法相比，可以提高后续特征提取和关键片段检测的准确性。

(2)通过提取视频中的视觉、音频和文本信息，能够更全面地捕捉到视频中的关键信息。与单一模态方法相比，多模态方法可以提高关键片段检测的准确性和鲁棒性。

(3)将多模态特征进行融合，形成一个统一的特征表示。与单独使用视觉、音频或文本特征相比，特征融合可以提高关键片段检测的性能，避免因某一模态信息缺失而导致的性能下降。

(4)基于融合后的特征，对视频中的精彩片段进行检测。与仅依赖传统的手工筛选方法相比，可以更高效地找到关键片段，节省制作时间，提高生产效率。

(5)根据关键片段的内容和场景，自动调整视频帧的视角。与传统的静态视角调整方法相比，动态视角调整可以生成更具吸引力的视频，提高观众的观看体验。

(6)将视角调整后的关键片段整合为一个连贯的花絮视频，并进行优化处理。与传统的手工编辑方法相比，可以自动完成过渡效果、颜色校正、噪声去除等操作，提高视频质量，减轻人工负担。。

附图说明

图1为本发明实施例的基于多模态与动态视角调整的花絮视频生成方法的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，所示为本发明一实施例的一种基于多模态与动态视角调整的花絮视频生成方法的步骤流程图，包括以下步骤：

S10，对输入的视频数据进行预处理，包括音频提取、视频抽帧、文本转换、人脸识别与物体识别，并进行数据同步与对齐；

S20，进行多模态特征提取，分别从包括视频、文本、人脸、物体多个模态中提取特征；

S30，将来自不同模态的特征集成到统一的特征表示中；

S40，根据融合后的特征，采用关键片段检测模型用于自动识别视频素材中的关键片段；

S50，根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角；

S60，根据动态视角调整后的关键片段结果，自动剪辑和拼接关键片段，生成花絮视频。

本发明一实施例，S10中，音频提取用于从输入视频中分离出音频信号，以便后续的音频特征提取。可以使用音视频分离库(ffmpeg)对输入视频进行音频提取。

一具体应用实例中，例如输入文件为mp4，命名为input_video.mp4；输出文件为aac，命名为output_audio.aac，则使用如下命令行：ffmpeg-iinput_video.mp4-vn-acodeccopy output_audio.aac即为使用音视频分离库(ffmpeg)对输入视频进行音频提取。

本发明一实施例，S10中，视频抽帧用于从输入视频中抽取关键帧图像，以便后续的OCR、人脸识别、物体识别。具体可以使用OpenCV库对输入视频进行视频抽帧，frame_interval＝25即一秒抽一帧。

一具体应用实例中，例如输入文件为mp4，命名为input_video.mp4；输出文件为png，指定输出文件夹为output_frames；指定输出文件为frame_i.png(i代表第几秒)即为使用OpenCV库对输入视频进行视频抽帧。

本发明一实施例，S10中，文本转换用于将视频中的对话或相关文本信息提取出来，用于后续的文本特征提取。文本转换包括利用自动语音识别将视频中的语音转换成文本以及使用文字识别从视频画面中提取文本信息。

一具体应用实例中，自动语音识别(Automatic Speech Recognition，ASR)使用Google Cloud Speech库提供的SpeechClient类，以及它的recognize方法来实现ASR。将output_audio.aac音频文件路径传递给transcribe_audio_file函数，将音频内容读取到内存中，并调用Speech-to-Text API进行识别。输入为output_audio.aac；则输出ASR结果为json数据，包括文本transcript，置信度confidence(0-1，越趋近1代表准确性越高)和时间戳。

一具体应用实例中，文字识别(Optical Character Recognition，OCR)可以使用Google Cloud Vision API，将视频抽帧文件逐个调用识别图像中的文字。例如输入为视频抽帧文件frame_i.png(i代表第几秒)；输出的OCR结果为json数据，包括文本内容description，文本在图像中的坐标bounding_poly。

本发明一实施例，S10中，人脸识别用于在视频中检测和识别人脸，提取关键面部特征，通过采用人脸检测算法定位视频中的人脸区域。以OpenCV库中的Haar Cascade为例，将视频抽帧文件逐个调用识别图像中的人脸。人脸识别的输出结果是带有人脸边界框的图像和一个包含多个边界框(x,y,w,h)的列表数据。其中x,y表示边界框的中心相对于网格的偏移量；w,h是边界框的宽度和高度。

本发明一实施例，S10中，物体识别用于识别视频中出现的物体及其位置，提取物体特征。通过采用物体识别算法识别视频中的物体并定位其位置。提取物体类别信息和位置信息，用于后续处理。例如采用物体检测模型YOLO(You Only Look Once)在卷积神经网络(CNN)的基础上构建，在图像中精确地定位并识别出物体的位置和类别。YOLO采用“一次看完”的策略来进行物体检测，其将检测问题当作回归问题来解决。首先，YOLO将输入的图像分成S×S个网格。如果物体的中心落在某个网格内，那么这个网格就负责检测这个物体。每个网格会预测B个边界框和对应的置信度，置信度反映了模型对边界框包含物体以及预测的准确度的置信程度。每个边界框包括五个预测值：x,y,w,h和置信度。x,y表示边界框的中心相对于网格的偏移量；w,h是边界框的宽度和高度，但是输出的w,h是相对于整张图像的，而非单个网格。每个网格还会预测C个条件类别概率，C个条件类别概率是只在一个网络中预测的，而在测试时这些预测概率会与每个边界框的置信度相乘，得到最终的类别概率。例如输入为视频抽帧文件frame_i.png(i代表第几秒)；输出的物体识别结果为json数据，包含多个识别结果的列表。每个识别结果是一个字典，包含物体的边界框、置信度、类别ID和类别名称等信息。

本发明一实施例，S10中，数据同步与对齐包括：根据语音数据、文本数据、人脸识别和物体识别的结果，按照相应的时间戳进行切分和同步，输出数据的格式为包含多个时间戳的列表，对于每个时间戳，将相应的语音数据、文本数据、人脸识别结果和物体识别结果整合。用于确保从视频中提取的语音、文本、人脸、物体能够在时间上进行对齐，以便后续的多模态融合。例如输入数据包括：音频数据：(时间戳，识别文本，词汇)；文本数据：(时间戳，识别文本，词汇)；人脸识别：(时间戳，边界框，人物ID)；物体识别：(时间戳，边界框，物体ID，物体名称)，输出数据的格式为一个包含多个时间戳的列表。对于每个时间戳，将相应的语音数据、文本数据、人脸识别结果和物体识别结果整合在一起。

本发明一实施例，S20中，进行多模态特征提取包括从视频数据中提取关键的视觉特征，使用预训练的深度学习模型ResNet，对视频帧进行特征提取，将提取到的人脸和物体特征整合到视频特征中，增强特征的表达能力。

使用预训练的深度学习模型ResNet进行视频特征提取的具体步骤如下：

S201，预处理：将输入的视频帧调整为模型要求的尺寸和颜色空间。ResNet通常要求输入图片的尺寸为224x224。此外，需要将图像数据归一化，使其分布在一个固定的范围内，如[0,1]或[-1,1]。

S202，前向传播：将预处理后的视频帧输入预训练的深度学习模型。模型通过一系列卷积层、池化层和全连接层进行计算，最终得到一个特征向量。

S203，特征提取：模型输出的特征向量通常位于模型的倒数第二层，称为全局平均池化层(Global Average Pooling Layer)。这个特征向量包含了关于输入视频帧的高级语义信息，如物体、场景和动作等。将这个特征向量作为视频特征。例如输入数据格式为已抽取的视频帧PNG；使用数据同步与对齐的结果包括：人脸识别结果为包含时间戳、边界框和人物ID的人脸识别数据；物体识别结果为包含时间戳、边界框、物体ID和物体名称的物体识别数据。输出数据格式为一个包含多个时间戳的列表，每个时间戳包含视频特征、人脸特征和物体特征。

本发明一实施例，S20中，进行多模态特征提取包括从文本数据中提取关键的文本特征，使用预训练的语言模型(Generative Pre-trained Transformer，GPT)将文本转换为向量表示，使用文本分类模型提取高层次的语义特征。

GPT(Generative Pre-trained Transformer)是一种基于Transformer架构的生成式预训练语言模型。GPT使用自回归方法从左到右预测单词，可以生成连贯且具有语义意义的文本。GPT同样可以微调用于各种自然语言处理任务。例如输入为使用数据同步与对齐的文本数据，包含时间戳、识别文本、词汇。输出为一个矩阵，每个输入文本(如句子、段落)都映射到一个固定长度的向量序列。这些向量序列可以表示单词级别的特征，也可以表示整个文本的语义信息。

本发明一实施例，S20中，进行多模态特征提取包括从人脸识别结果中提取关键的人脸特征，使用人脸识别算法FaceNet提取的人脸特征，结合人脸关键点检测Dlib提取面部信息。例如输入为使用数据同步与对齐的人脸识别结果，包含时间戳、边界框和人物ID的人脸识别数据。输出为人脸特征向量，为一个一维的固定长度向量(512维)，表示输入人脸图像的特征。这个向量通常用于度量人脸之间的相似度或作为其他任务的输入特征。不同的人脸识别算法产生的特征向量维度可能不同。以及人脸关键点，是一组二维坐标点，表示人脸上的关键部位(如眼睛、鼻子、嘴巴等)，这些关键点可以用于分析面部表情、姿势等信息。

本发明一实施例，S20中，进行多模态特征提取包括物体特征提取，用于从物体识别结果中提取关键的物体特征。可以是使用物体识别结果信息，结合场景理解和物体间关系提取更丰富的特征。例如输入为使用数据同步与对齐的物体识别结果，包含时间戳，边界框，物体ID，物体名称。输出为包括物体类别、位置信息以及物体之间的关系等。

本发明一实施例，S30中，将来自不同模态的特征集成到一个统一的表示中，以便更好地利用多模态信息，并提升后续任务的性能，融合后的数据用于关键片段检测。将各模态的特征直接组合在一起，形成一个统一的特征(向量或矩阵)表示。可以采用深度学习融合的方法将各模态的特征向量形成一个融合后的特征向量。

为了使来自不同模态的特征具有可比性，使用嵌入层将不同模态的特征映射到相同的向量空间。可以通过在每个模态的特征上添加一个全连接层来实现，全连接层的输出维度相同。在将所有模态特征映射到相同的向量空间后，使用卷积神经网络(CNN)，在特征融合阶段进行更复杂的特征处理。例如输入为2多模态特征提取的结果数据，输出为向量空间、融合了所有模态信息的特征表示。

本发明一实施例，S40中根据融合后的特征，采用关键片段检测模型用于自动识别视频素材中的关键片段进一步包括：

S401，选择时序模型Transformer，以处理不同长度的序列数据；

S402，通过卷积层将时序模型的输出转换为关键片段的概率分布；

S403，根据预测的关键片段概率选取阈值进行筛选得到视频素材中的关键片段。

一具体应用实例，S401中为了捕捉视频序列中的时序信息和上下文关系，选择时序模型Transformer，以处理不同长度的序列数据，有助于识别关键片段。例如输入为向量空间、包含多模态特征融合后的特征序列，通过包括位置编码、对头自注意力、点式前馈网络以及残差连接与层归一化处理，输出时序特征、更新了源特征在时间维度上的上下文信息。

具体的，由于Transformer模型没有内置的时序信息处理机制，需要为输入的特征序列添加位置编码，使模型能够捕捉时序信息。通常使用正弦和余弦函数生成的位置编码。

多头自注意力为在多头自注意力层中，输入特征被分成多个头，每个头分别学习不同的注意力权重。有助于模型学习不同层次和空间尺度上的信息。通过将这些头的输出连接起来，得到自注意力层的输出。

Transformer中的点式前馈网络包括两个全连接层，用于进一步处理注意力层的输出。这些层的激活函数通常为ReLU。

Transformer模型使用残差连接和层归一化来提高训练的稳定性和收敛速度。在每个自注意力和点式前馈网络层后，将原始输入与层输出相加，并进行层归一化。

一具体应用实例，S402中，通过卷积层将时序模型的输出转换为关键片段的概率分布可以通过一个卷积层，将时序模型的输出转换为关键片段的概率分布。输出层的激活函数选择sigmoid，用于表示每个时间点是否为关键片段的概率。例如输入为Transformer时序建模后的时序特征，使用一个一维卷积层(1DConv)处理时序模型，一维卷积层可以捕捉局部时序信息，同时保留整个序列的长度。卷积核的大小和数量可以根据实际需求进行调整。为了将卷积层的输出转换为关键片段的概率分布，需要使用一个激活函数。Sigmoid函数将实数映射到(0,1)区间，可以表示每个时间点是否为关键片段的概率。将卷积层的输出传递给Sigmoid激活函数，得到关键片段的概率分布。

sigmoid(x)＝1/(1+e^(-x))

其中，x是输入值，e是自然对数的底(约为2.71828)。

经常以上处理得到输出为关键片段的概率序列，其长度与输入的时间序列长度相同。

一具体应用实例，S403中，根据预测的关键片段概率选取阈值进行筛选得到视频素材中的关键片段，用于进一步的视频编辑和生成。对于连续的关键片段，可以设置最小片段长度和最大片段间距等参数，对检测到的关键片段进行合并或分割。

本发明一实施例，S50中，物体跟踪的主要目标是在视频序列中连续定位特定物体的位置。例如输入为关键片段序列、对应的每一帧截图、对应的视觉特征向量，目标物体的特征图。输出为在每一帧中目标物体的位置和大小。这通常由物体的边界框(BoundingBox)表示，边界框是一个矩形，由其左上角的坐标和宽度、高度四个参数定义。

可以采用基于卷积神经网络(Convolutional Neural Networks，CNNs)的深度学习方法。也可以采用SiamFC网络，SiamFC网络是一种用于物体跟踪的深度学习模型，它通过比较目标物体和搜索区域的相似性来实现物体跟踪。

在SiamFC中，物体跟踪问题被转化为一个匹配问题，模型需要判断搜索区域中的每个子区域与目标物体是否相似。这种判断通常基于两者的特征相似性，可以用互相关(Cross-correlation)操作进行计算：

output＝cross_correlation(target_feature，search_feature)

其中，target_feature是目标物体的特征图，search_feature是搜索区域的特征图，output是互相关操作的结果，表示每个子区域与目标物体的相似度。

本发明一实施例，S50中，为了根据物体跟踪的结果，规划一系列动态视角调整策略，为视角变换提供依据。在整个关键片段中提供最佳的视觉效果，同时确保主体物体始终在视角范围内，根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角进一步包括视觉显著性分析，用于评估视频帧中各个区域的视觉显著性，以确定视频中最具吸引力的部分。视觉显著性分析通过显著性检测算法(Itti)实现。Itti算法是一种基于生物启发的视觉显著性模型，其基本思想是从色彩、亮度和方向这三个特征通道来构建显著性图。包括：

I_s＝GaussianBlur(I,s)

其中，GaussianBlur为高斯模糊函数，s为尺度参数；

S＝|I_c-I_s|

SM＝Normalize(S_c)+Normalize(S_i)+Normalize(S_o)

本发明一实施例，S50中，根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角进一步包括视角优化，用于根据视觉显著性分析寻找最佳的视角调整策略。视角优化通过优化算法(梯度下降)实现。优化目标可能包括最大化视觉显著性、保持物体在画面中心、避免画面抖动等。输入为物体跟踪结果及对应的每一帧截图。输出为每一帧的最佳视角，这通常由一个矩形区域表示，该区域定义了在视频帧中应该显示的部分。包括：

本发明一实施例，S50中，根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角进一步包括视角变换，其中视角变换包括仿射变换、透视变换、插值方法、动态遮挡处理和视频稳定处理，输入为视角规划结果及对应的视频片段。输出为调整后的视频片段。。

进一步地，仿射变换为通过对输入视频帧进行仿射变换，实现平移、旋转和缩放等视角调整。通过计算仿射变换矩阵并应用于视频帧实现。仿射变换可以保持物体的平行性，适用于大部分视角调整场景。透视变换为通过对输入视频帧进行透视变换，实现更复杂的视角调整。透视变换保持物体的直线性，但会改变平行性，适用于模拟更真实的三维场景效果。透视变换需要计算透视变换矩阵并应用于视频帧。插值方法为在执行视角变换时，对变换后的视频帧进行插值处理，以获得平滑的画面效果。插值方法包括最近邻插值、双线性插值、双三次插值等。动态遮挡处理为在视角变换过程中，针对可能会出现遮挡问题。通过使用图像修复技术(如图像内插法、卷积神经网络等)填补遮挡区域，可以提高视频画面质量。视频稳定处理是为了避免视角变换引入的画面抖动，采用视频稳定技术对输出视频进行处理。视频稳定通过光流估计、全局运动估计等方法实现。

本发明一实施例，S60中，在视频剪辑与拼接过程中，还可以根据用户的偏好和需求对视频进行调整和优化。可以实现将视角调整后的视频片段与原始音频和文本信息进行合成。为了提高合成视频的质量，可以对输出视频进行一些后处理操作，如去除锯齿、图像平滑、色彩校正等。可以使用的具体方法可以为：(1)片段拼接：根据关键片段检测模块的结果，将视角变换后的关键片段按照一定顺序拼接起来。片段拼接通过基于时间线的拼接实现。(2)过渡效果：为了提高视频观看体验，可以在关键片段之间添加过渡效果。常见的过渡效果包括渐入渐出、滑动、缩放等。(3)颜色校正：为了统一不同片段之间的色调和亮度，可以对视频进行颜色校正。颜色校正通过直方图均衡化、颜色转换等方法实现。(4)噪声去除：为了提高视频质量，可以对视频进行噪声去除处理。噪声去除通过时域滤波、频域滤波或基于深度学习的方法实现。

通过以上设置的基于多模态与动态视角调整的花絮视频生成方法，进一步的至少具有以下效果：(1)结合视觉、音频和文本信息进行特征提取，能够更全面地捕捉视频中的关键信息。这样的多模态特征提取可以显著提高关键片段检测的准确性和鲁棒性。(2)通过融合多模态特征，生成一个统一的特征表示。这种特征融合策略可以充分利用不同模态之间的互补信息，提高关键片段检测的性能。此外，特征融合还能够避免因某一模态信息缺失而导致的性能下降。(3)动态视角调整可以根据关键片段的内容和场景自动调整视频帧的视角，生成更具吸引力的视频。这种视角调整策略可以显著提高观众的观看体验。(4)通过将多模态特征提取、特征融合、关键片段检测、动态视角调整等步骤自动化并整合到一个系统中，该方法实现了花絮视频制作的自动化和智能化。这样的自动化和智能化可以大大降低花絮视频制作的人工成本和时间成本。(5)该方法提供了一个端到端的解决方案，从数据预处理到合成与后处理，可以覆盖花絮视频制作的整个流程。这使得内容创作者可以专注于创意，而不必关注繁琐的技术细节。总之，基于多模态与动态视角调整的花絮视频生成方法通过结合多模态特征提取、特征融合、动态视角调整等创新点，实现了花絮视频制作的自动化、智能化和高效化，为内容创作者提供了一个便捷且高效的解决方案。

应当理解，本文所述的示例性实施例是说明性的而非限制性的。尽管结合附图描述了本发明的一个或多个实施例，本领域普通技术人员应当理解，在不脱离通过所附权利要求所限定的本发明的精神和范围的情况下，可以做出各种形式和细节的改变。

Claims

1.一种基于多模态与动态视角调整的花絮视频生成方法，其特征在于，包括以下步骤：

将来自不同模态的特征集成到统一的特征表示中；

2.如权利要求1所述的基于多模态与动态视角调整的花絮视频生成方法，其特征在于，所述文本转换包括利用自动语音识别将视频中的语音转换成文本以及使用文字识别从视频画面中提取文本信息。

3.如权利要求1所述的基于多模态与动态视角调整的花絮视频生成方法，其特征在于，所述数据同步与对齐包括：根据语音数据、文本数据、人脸识别和物体识别的结果，按照相应的时间戳进行切分和同步，输出数据的格式为包含多个时间戳的列表，对于每个时间戳，将相应的语音数据、文本数据、人脸识别结果和物体识别结果整合。

4.如权利要求1所述的基于多模态与动态视角调整的花絮视频生成方法，其特征在于，进行多模态特征提取包括从视频数据中提取关键的视觉特征，使用预训练的深度学习模型ResNet，对视频帧进行特征提取，将提取到的人脸和物体特征整合到视频特征中。

5.如权利要求1所述的基于多模态与动态视角调整的花絮视频生成方法，其特征在于，进行多模态特征提取包括从文本数据中提取关键的文本特征，使用预训练的语言模型GPT将文本转换为向量表示，使用文本分类模型提取高层次的语义特征。

6.如权利要求1所述的基于多模态与动态视角调整的花絮视频生成方法，其特征在于，进行多模态特征提取包括从人脸识别结果中提取关键的人脸特征，使用人脸识别算法FaceNet提取的人脸特征，结合人脸关键点检测Dlib提取面部信息。

7.如权利要求1所述的基于多模态与动态视角调整的花絮视频生成方法，其特征在于，根据融合后的特征，采用关键片段检测模型用于自动识别视频素材中的关键片段进一步包括：

选择时序模型Transformer，以处理不同长度的序列数据；

通过卷积层将时序模型的输出转换为关键片段的概率分布；

8.如权利要求1所述的基于多模态与动态视角调整的花絮视频生成方法，其特征在于，根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角进一步包括视觉显著性分析，包括：

I_s＝GaussianBlur(I,s)

其中，GaussianBlur为高斯模糊函数，s为尺度参数；

S＝|I_c-I_s|

SM＝Normalize(S_c)+Normalize(S_i)+Normalize(S_o)

9.如权利要求1所述的基于多模态与动态视角调整的花絮视频生成方法，其特征在于，根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角进一步包括视角优化，包括：

10.如权利要求1所述的基于多模态与动态视角调整的花絮视频生成方法，其特征在于，根据关键片段的内容和场景，利用包括物体跟踪、动态视角调整的技术切换横屏与竖屏视角进一步包括视角变换，其中视角变换包括仿射变换、透视变换、插值方法、动态遮挡处理和视频稳定处理。