CN117523050B

CN117523050B - 一种ai视频处理方法与装置

Info

Publication number: CN117523050B
Application number: CN202410017040.0A
Authority: CN
Inventors: 刘松国; 范诗扬
Original assignee: Zhijiang Laboratory Technology Holdings Co ltd
Current assignee: Zhijiang Laboratory Technology Holdings Co ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-04-09
Anticipated expiration: 2044-01-05
Also published as: CN117523050A

Abstract

本申请涉及视频处理技术领域，其具体地公开了一种AI视频处理方法与装置，其采用计算机视觉技术，对多张漫画图像进行图像语义特征提取，同时，采用自然语言处理技术，对漫画中的对话和文本描述进行文本识别，提取漫画人物的语言特征，并将两种特征进行融合，基于漫画人物的动作声音情感关联特征来分别生成相应的音频和视频，再将音频数据和视频视频结合起来以得到生成的动漫视频。这样，结合计算机视觉和自然语言处理的技术，能够更好地理解漫画人物的语言特征和漫画图像的情感表达，以生成高质量的视频。

Description

一种AI视频处理方法与装置

技术领域

本申请涉及视频处理技术领域，且更为具体地，涉及一种AI视频处理方法与装置。

背景技术

近年以来，人工智能技术以惊人的速度发展和发展，在AI视频处理领域也取得了显著的进步。AIGC（AI-Generated Content，AI生成内容）是指基于生成对抗网络（GAN）、大型预训练模型等人工智能技术的方法，通过对已有数据进行学习和模式识别，以适当的泛化能力生成相关内容的技术。

AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习，AIGC可以根据输入的条件或指导，生成与之相关的内容。例如，通过输入关键词、描述或样本，AIGC可以生成与之相匹配的文章、图像、音频等。

如今，AIGC越来越多地参与到影视传媒行业之中，为影视产品的制作和宣传赋能。目前，已经存在将AIGC用于动画创作领域，利用AI辅助场景制作，通过画师先手绘大致的场景，然后交给AI进行2次生成，最后画师在AI生成的基础上再做最后的修改，大大节省了创作时间和劳动强度。

现有的技术在一定程度上已经实现了漫画到视频的转化，但往往无法充分提取和理解漫画图像中的语义信息，以及漫画人物的语言特征，使得生成的视频缺乏足够的真实感和情感表达。

因此，期待一种AI视频处理方法与装置。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种AI视频处理方法与装置，其采用计算机视觉技术，对多张漫画图像进行图像语义特征提取，同时，采用自然语言处理技术，对漫画中的对话和文本描述进行文本识别，提取漫画人物的语言特征，并将两种特征进行融合，基于漫画人物的动作声音情感关联特征来分别生成相应的音频和视频，再将音频数据和视频视频结合起来以得到生成的动漫视频。这样，结合计算机视觉和自然语言处理的技术，能够更好地理解漫画人物的语言特征和漫画图像的情感表达，以生成高质量的视频。

相应地，根据本申请的一个方面，提供了一种AI视频处理方法，其包括：

获取多张漫画图像；

从所述多张漫画图像中提取出动漫声音动作情感关联特征向量；

基于所述动漫声音动作情感关联特征向量，生成动漫视频。

在上述AI视频处理方法中，从所述多张漫画图像中提取出动漫声音动作情感关联特征向量，包括：对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量；对所述多张漫画图像中的文本信息进行文本语义理解以提取漫画文本语义特征向量；融合所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量以得到动漫声音动作情感关联特征向量。

在上述AI视频处理方法中，对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量，包括：将所述多张漫画图像分别通过包含嵌入层的ViT模型以得到多个漫画语义特征向量；将所述多个漫画语义特征向量按照漫画顺序排列为漫画语义关联特征矩阵；将所述漫画语义关联特征矩阵通过基于卷积神经网络模型的漫画上下文关联特征提取器以得到所述漫画全局上下文语义特征向量。

在上述AI视频处理方法中，将所述漫画图像通过包含嵌入层的ViT模型以得到漫画语义特征向量，包括：对所述漫画图像进行图像分块处理以得到多个漫画图像块；使用所述ViT模型的嵌入层分别对所述多个漫画图像块中各个漫画图像块进行嵌入编码以得到多个漫画图像块嵌入向量；将所述多个漫画图像块嵌入向量输入所述ViT模型的转换器模块进行转换编码以得到所述漫画语义特征向量。

在上述AI视频处理方法中，将所述漫画语义关联特征矩阵通过基于卷积神经网络模型的漫画上下文关联特征提取器以得到所述漫画全局上下文语义特征向量，包括：使用所述基于卷积神经网络模型的漫画上下文关联特征提取器的各层在层的正向传递中分别对输入数据进行二维卷积处理、沿通道维度的各个特征矩阵的全局均值池化处理和非线性激活处理以由所述基于卷积神经网络模型的漫画上下文关联特征提取器的最后一层输出所述漫画全局上下文语义特征向量。

在上述AI视频处理方法中，对所述多张漫画图像中的文本信息进行文本语义理解以提取漫画文本语义特征向量，包括：对所述多张漫画图像进行OCR文本识别以得到文本信息；将所述文本信息通过基于上下文编码器的语义理解器以得到所述漫画文本语义特征向量。

在上述AI视频处理方法中，融合所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量以得到动漫声音动作情感关联特征向量，包括：

基于所述漫画全局上下文语义特征向量，对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到优化漫画文本语义特征向量；

融合所述漫画全局上下文语义特征向量和所述优化漫画文本语义特征向量以得到所述动漫声音动作情感关联特征向量。

在上述AI视频处理方法中，基于所述漫画全局上下文语义特征向量，对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到优化漫画文本语义特征向量，包括：以如下优化公式对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到所述优化漫画文本语义特征向量；其中，所述优化公式为：

其中，表示所述漫画全局上下文语义特征向量，表示所述漫画全局上下文语义特征向量的第个位置的特征值，表示所述漫画文本语义特征向量的第个位置的特征值，表示以2为底的对数函数值，表示预定超参数，表示所述优化漫画文本语义特征向量的第个位置的特征值。

在上述AI视频处理方法中，基于所述动漫声音动作情感关联特征向量，生成动漫视频，包括：将所述动漫声音动作情感关联特征向量通过基于对抗生成网络的视频生成器以生成视频数据；将所述动漫声音动作情感关联特征向量通过基于对抗生成网络的音频生成器以生成音频数据；合并所述视频数据和所述音频数据以得到所述动漫视频。

根据本申请的另一个方面，提供了一种AI视频处理装置，其包括：

漫画图像获取模块，用于获取多张漫画图像；

漫画图像处理模块，用于从所述多张漫画图像中提取出动漫声音动作情感关联特征向量；

视频生成模块，用于基于所述动漫声音动作情感关联特征向量，生成动漫视频。

与现有技术相比，本申请提供的AI视频处理方法与装置，其采用计算机视觉技术，对多张漫画图像进行图像语义特征提取，同时，采用自然语言处理技术，对漫画中的对话和文本描述进行文本识别，提取漫画人物的语言特征，并将两种特征进行融合，基于漫画人物的动作声音情感关联特征来分别生成相应的音频和视频，再将音频数据和视频视频结合起来以得到生成的动漫视频。这样，结合计算机视觉和自然语言处理的技术，能够更好地理解漫画人物的语言特征和漫画图像的情感表达，以生成高质量的视频。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的AI视频处理方法的流程图。

图2为根据本申请实施例的AI视频处理方法的架构示意图。

图3为根据本申请实施例的AI视频处理方法中从所述多张漫画图像中提取出动漫声音动作情感关联特征向量的流程图。

图4为根据本申请实施例的AI视频处理方法中对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量的流程图。

图5为根据本申请实施例的AI视频处理方法中对所述多张漫画图像中的文本信息进行文本语义理解以提取漫画文本语义特征向量的流程图。

图6为根据本申请实施例的AI视频处理方法中基于所述动漫声音动作情感关联特征向量生成动漫视频的流程图。

图7为根据本申请实施例的AI视频处理装置的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

图1为根据本申请实施例的AI视频处理方法的流程图。图2为根据本申请实施例的AI视频处理方法的架构示意图。如图1和图2所示，根据本申请实施例的AI视频处理方法，包括步骤：S1，获取多张漫画图像；S2，从所述多张漫画图像中提取出动漫声音动作情感关联特征向量；S3，基于所述动漫声音动作情感关联特征向量，生成动漫视频。

在上述AI视频处理方法中，所述步骤S1，获取多张漫画图像。如上述背景技术所言，AI视频生成技术可以帮助创作者和媒体公司快速生成各种类型的媒体内容，包括电影、电视剧、广告和动画等。通过使用AI生成的视频，创作者可以节省时间和成本，并且可以根据需要快速生成大量的创意内容，提供了更高效、更创新和更个性化的视频内容生成方式，推动了娱乐领域的发展和进步。

AI视频生成技术的发展背景可以追溯到计算机视觉、机器学习和深度学习等领域的进展。计算机视觉是研究如何使计算机能够理解和解释图像和视频的领域。随着计算机视觉技术的不断发展，包括目标检测、图像分割和姿态估计等技术的进步，为AI视频生成技术提供了基础。机器学习是一种让计算机通过数据学习并改进性能的方法。随着机器学习算法和模型的发展，如深度学习神经网络，计算机能够从大规模数据中提取特征和模式，并生成具有高度准确性和真实感的视频内容。深度学习是机器学习的一个分支，通过构建多层神经网络来模拟人脑的工作方式。深度学习在图像和视频处理方面取得了重大突破，包括图像分类、目标检测和图像生成等任务，为AI视频生成技术的发展提供了强大的工具和方法。随着互联网的普及和社交媒体的兴起，大量的图像和视频数据被生成和共享。这些数据的积累为AI视频生成技术提供了丰富的训练材料，同时数据集的质量也得到了提升，有助于提高生成视频的质量和多样性。

目前，已经存在将AI视频生成技术用于动画创作领域，但是，尽管AI视频生成技术在某些方面取得了显著进展，但在理解和提取漫画图像中的语义信息以及漫画人物的语言特征方面仍存在挑战。漫画图像通常具有特殊的艺术风格和表现形式，其中包含了丰富的情感和故事元素。由于漫画的抽象性和多样性，目前的技术难以准确地理解和表达其中的细节和语义。这导致生成的视频往往缺乏真实感和情感表达。

基于此，在本申请的技术方案中，采用计算机视觉技术，对多张漫画图像进行图像语义特征提取，同时，采用自然语言处理技术，对漫画中的对话和文本描述进行文本识别，提取漫画人物的语言特征，并将两种特征进行融合，基于漫画人物的动作声音情感关联特征来分别生成相应的音频和视频，再将音频数据和视频视频结合起来以得到生成的动漫视频。这样，结合计算机视觉和自然语言处理的技术，能够更好地理解漫画人物的语言特征和漫画图像的情感表达，以生成高质量的视频。具体地，在本申请的技术方案中，首先，获取多张漫画图像。

在上述AI视频处理方法中，所述步骤S2，从所述多张漫画图像中提取出动漫声音动作情感关联特征向量。考虑到漫画通常包含了角色的对话、动作和情感表达，这些元素对于视频的真实感和情感表达至关重要。为了在生成的动漫视频中表达适当的声音、动作和情感，进一步通过分析漫画中的对话文本来提取出角色的情感状态，如喜悦、愤怒、悲伤等，然后在生成的视频中通过角色的表情、语调和动作来准确地表达这些情感。类似地，通过分析漫画中的动作和场景来提取出角色的动作特征，如走路、奔跑、跳跃等，然后在生成的视频中通过角色的动作来还原这些动作特征。也就是说，通过提取动漫声音动作情感关联特征向量，从而捕捉到漫画中的声音、动作和情感信息，并将其与视频生成过程结合起来，以确保生成的视频在视觉和听觉上都具有一致的表达，使生成的视频能够更好地表达角色的情感变化和故事的发展。

图3为根据本申请实施例的AI视频处理方法中从所述多张漫画图像中提取出动漫声音动作情感关联特征向量的流程图。如图3所示，所述步骤S2，包括：S21，对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量；S22，对所述多张漫画图像中的文本信息进行文本语义理解以提取漫画文本语义特征向量；S23，融合所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量以得到动漫声音动作情感关联特征向量。

具体地，所述步骤S21，对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量。这里，首先，分别提取出各张漫画图像的语义特征，再对各张漫画图像的语义特征进行关联编码，以挖掘出各张漫画图像之间的全局上下文关联特征信息。

图4为根据本申请实施例的AI视频处理方法中对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量的流程图。如图4所示，所述步骤S21，包括：S211，将所述多张漫画图像分别通过包含嵌入层的ViT模型以得到多个漫画语义特征向量；S212，将所述多个漫画语义特征向量按照漫画顺序排列为漫画语义关联特征矩阵；S213，将所述漫画语义关联特征矩阵通过基于卷积神经网络模型的漫画上下文关联特征提取器以得到所述漫画全局上下文语义特征向量。

具体地，所述步骤S211，将所述多张漫画图像分别通过包含嵌入层的ViT模型以得到多个漫画语义特征向量。应可以理解，ViT模型是一种基于自注意力机制的图像处理模型，能够提取图像中的语义信息。ViT模型使用了Transformer模型中的自注意力机制，允许模型在图像中自动找到相关的特征，从而捕捉到图像全局和局部之间的关系，提高了图像特征的表示能力。传统的CNN在输入图像尺寸变化时需要调整网络结构，而ViT模型可以处理不同尺寸的输入图像。它通过将图像分割成固定大小的小块，并使用Transformer模型对这些小块进行编码和整合，从而实现了对不同尺度的自适应性。相比传统的卷积神经网络，ViT模型具有更好的感受野和全局视野，能够更好地理解图像中的语义内容。因此，通过ViT模型提取的漫画语义特征向量能够更准确地表达漫画图像的语义含义。

在本申请的技术方案中，考虑到漫画具有多样的艺术风格和表现形式，包括线条、色彩、阴影等方面的独特特征。ViT模型在学习语义特征时对图像的风格和表现形式相对较为鲁棒，因此可以适应不同的漫画风格，并提取出与语义相关的特征，使得通过ViT模型提取的漫画语义特征向量更具有代表性和可解释性。并且，每张漫画图像包含了不同的场景、角色和情节等信息，通过将多张漫画图像分别输入ViT模型来获得每张图像的独立的语义特征信息，能够更全面地捕捉漫画中的信息和细节，避免将所有信息压缩到一个向量中可能导致的信息丢失或混淆，从而为后续的视频生成过程提供更准确、多样和丰富的输入。

在一个具体示例中，所述步骤S211，包括：对所述漫画图像进行图像分块处理以得到多个漫画图像块；使用所述ViT模型的嵌入层分别对所述多个漫画图像块中各个漫画图像块进行嵌入编码以得到多个漫画图像块嵌入向量；将所述多个漫画图像块嵌入向量输入所述ViT模型的转换器模块进行转换编码以得到所述漫画语义特征向量。

具体地，所述步骤S212，将所述多个漫画语义特征向量按照漫画顺序排列为漫画语义关联特征矩阵。为了保留漫画中的时间关系和上下文信息，并为后续的视频生成过程提供更丰富的语义关联特征，进一步将多个漫画语义特征向量按照漫画顺序排列为漫画语义关联特征矩阵。应可以理解，漫画通常是按照特定的顺序排列的，每张图像都承载着漫画故事的一部分。通过将多个漫画语义特征向量按照漫画顺序排列为语义关联特征矩阵，可以保留漫画中的时间关系和上下文信息。这样，在后续的视频生成过程中，可以更好地还原漫画中的故事情节和角色发展，使生成的视频更加连贯和有序。并且，将多个漫画语义特征向量排列为语义关联特征矩阵后，可以通过矩阵中的行和列之间的关系来捕捉不同特征之间的关联性。例如，矩阵中的行可以表示不同的漫画图像，而列可以表示各个漫画图像中的语义特征，进而通过分析矩阵中的行和列之间的关系来提取更丰富的语义关联特征，进一步增强生成的视频的表现力和连贯性。同时，考虑到漫画的布局和分镜结构通过具有多样化，包括横向布局、纵向布局、分格布局等。将所述多个漫画语义特征向量按照漫画顺序排列为矩阵形式能够适应不同的漫画布局和分镜结构，不受特定布局形式的限制，使得生成的视频能够更好地还原漫画的视觉表现形式，增强观众对漫画故事的理解和沉浸感。

具体地，所述步骤S213，将所述漫画语义关联特征矩阵通过基于卷积神经网络模型的漫画上下文关联特征提取器以得到所述漫画全局上下文语义特征向量。为了捕捉漫画中的全局语义信息和上下文关联，从而提供更全面和准确的特征表示，进一步使用卷积神经网络模型对所述漫画语义关联特征矩阵进行全局上下文语义关联特征挖掘。应可以理解，漫画中的语义信息往往不仅仅依赖于单个图像，而是由多个图像共同构成的，并且漫画中的不同图像之间存在着上下文关联，即前一张图像和后一张图像之间可能存在着故事的延续、角色的变化等关系。通过将漫画语义关联特征矩阵输入基于卷积神经网络的漫画上下文关联特征提取器，利用卷积神经网络对整个矩阵进行全局感知和分析，通过多层卷积和池化操作对漫画语义关联特征矩阵进行特征提取和抽象，进而捕捉到漫画语义关联特征矩阵中不同位置的上下文关联，从而得到更高层次、更丰富的漫画全局语义特征表示，为后续的视频生成过程提供更有信息量和可解释性的输入，有助于生成更具故事性和连贯性的动漫视频。

在一个具体示例中，所述步骤S213，包括：使用所述基于卷积神经网络模型的漫画上下文关联特征提取器的各层在层的正向传递中分别对输入数据进行二维卷积处理、沿通道维度的各个特征矩阵的全局均值池化处理和非线性激活处理以由所述基于卷积神经网络模型的漫画上下文关联特征提取器的最后一层输出所述漫画全局上下文语义特征向量。

具体地，所述步骤S22，对所述多张漫画图像中的文本信息进行文本语义理解以提取漫画文本语义特征向量。应可以理解，文字是漫画中重要的表达方式之一，通过提取漫画中的文字信息，可以在生成的动漫视频中还原漫画中的对话、标语、音效等文字元素，有助于提升视频的表现力和还原度，使观众更好地理解和体验漫画故事。并且，漫画中的文字内容通常与图像内容相互补充和呼应，文字可以提供角色对话、场景解释、情绪表达等信息。通过识别漫画中的文字信息，可以将这些文字内容与图像内容相结合，增强生成的动漫视频的故事连贯性和一致性。观众可以更准确地理解角色的对话和情绪变化，提升观看体验。提取漫画中的文字信息后，进一步对文本信息进行分析和处理，例如情感分析、关键词提取等，从而为后续的视频生成过程提供更多的语义和语境信息，帮助生成更加准确和有针对性的动漫视频。

图5为根据本申请实施例的AI视频处理方法中对所述多张漫画图像中的文本信息进行文本语义理解以提取漫画文本语义特征向量的流程图。如图5所示，所述步骤S22，包括：S221，对所述多张漫画图像进行OCR文本识别以得到文本信息；S222，将所述文本信息通过基于上下文编码器的语义理解器以得到所述漫画文本语义特征向量。

具体地，所述步骤S221，对所述多张漫画图像进行OCR文本识别以得到文本信息。应可以理解，OCR（Optical Character Recognition，光学字符识别）技术是一种将印刷或手写文本转换为可编辑文本的技术。它基于图像处理、模式识别和机器学习等技术，通过识别字符的形状、结构和语义信息，将图像中的文字转换为计算机可处理的文本格式。在本申请的技术方案中，利用OCR文本识别技术，提取出所述多张漫画图像中的文本信息，能够丰富漫画表达、增强故事连贯性、提供更多创作可能性，并辅助后续处理，使得生成的动漫视频中包含文字元素，更具表现力和连贯性。

具体地，所述步骤S222，将所述文本信息通过基于上下文编码器的语义理解器以得到所述漫画文本语义特征向量。为了将文本信息转化为具有语义理解和表示能力的特征向量，以便在生成动漫视频时能够更好地结合漫画图像和文本信息，进一步使用上下文编码器对所述文本信息进行语义编码。应可以理解，基于上下文编码器的语义理解器能够对从漫画中提取的文本信息进行语义理解和表示，以将文本内容转化为语义空间中的特征向量，即所述漫画文本语义特征向量。其中，所述漫画文本语义特征向量中包含了词汇、句法和语义信息，能够更好地表达文本的含义和语境，为后续的视频生成过程提供更准确和有语义的输入。并且，所述漫画文本语义特征向量提供了更高层次的语义信息，例如特定角色的台词、情感表达、特殊场景等，能够指导生成过程中的场景设置、角色表情、动作等方面。通过将所述漫画文本语义特征向量引入视频生成过程，能够提升生成的视频质量，使其更符合文本描述和意图，增强视频的表现力和质感。

具体地，所述步骤S23，融合所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量以得到动漫声音动作情感关联特征向量。应可以理解，漫画中的情感通常通过图像和文本共同表达，将不同模态的语义信息进行融合，能够更好地生成与漫画内容相关的声音、动作和情感表达。也就是说，将漫画全局上下文语义特征向量和漫画文本语义特征向量进行融合编码，从而将图像和文本信息相互关联，使得图像和文本信息相互补充和结合，从而实现更深入和综合的语义表达，确保生成的声音和动作与漫画中的情感一致，增强声音和动作的连贯性和一致性，使模型能够更好地感知和理解角色的动作和情感变化，提升生成视频的质量和表现力。

特别地，在本申请的技术方案中，考虑到漫画全局上下文语义特征向量来自于多张漫画图像，而漫画文本语义特征向量来自于对漫画图像进行OCR文本识别得到的文本信息。这两个数据源的本质和内容差异较大。漫画图像包含了视觉信息，例如图像内容、颜色和构图等，而文本信息则包含了漫画中的文字描述。漫画全局上下文语义特征向量主要反映了漫画图像的视觉语义和上下文信息，例如漫画场景、角色动作和情感表达等。漫画文本语义特征向量则主要反映了漫画中的文字描述和语义信息。这两种信息类别的特征分布在高维特征空间中很可能有所不同，因为它们描述的是不同的方面和属性。由于数据源和信息类别的差异，漫画文本语义特征向量在高维特征空间内的特征分布相对于漫画全局上下文语义特征向量的特征分布存在不均衡性。这意味着两者在特征空间中的分布可能会有较大的差异，无法直接进行比较或融合。为了对这种不均衡性进行补偿，技术方案中提出了基于漫画全局上下文语义特征向量的参数化几何关系过渡先验特征的非刚性一致化方法，以优化漫画文本语义特征向量。这样可以通过考虑漫画全局上下文的语义信息，对漫画文本语义特征向量进行调整和优化，使其更加符合漫画的整体语义和上下文。

在一个具体示例中，所述步骤S23，包括：基于所述漫画全局上下文语义特征向量，对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到优化漫画文本语义特征向量；融合所述漫画全局上下文语义特征向量和所述优化漫画文本语义特征向量以得到所述动漫声音动作情感关联特征向量。

更为具体地，基于所述漫画全局上下文语义特征向量，对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到优化漫画文本语义特征向量，包括：以如下优化公式对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到所述优化漫画文本语义特征向量；其中，所述优化公式为：

在本申请的技术方案中，基于所述漫画全局上下文语义特征向量，对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化，这样，通过引入相对于所述漫画全局上下文语义特征向量的信息鲁棒性，可以提升修正后的漫画文本语义特征向量相对于所述漫画全局上下文语义特征向量的特征分布的聚类性能，从而提升了所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量之间的依赖性和对齐度。这种方法利用了参数化几何关系过渡先验特征的非刚性一致化的优势，即可以在不改变所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量的维度和结构的情况下，实现两者的特征空间的变换和匹配，以使得优化漫画文本语义特征向量与所述漫画全局上下文语义特征向量的特征分布更加接近，这样，不仅可以提高特征对齐的精度和效率，而且可以保持特征的原始信息和语义，避免了特征的信息丢失和混淆。

在上述AI视频处理方法中，所述步骤S3，基于所述动漫声音动作情感关联特征向量，生成动漫视频。应可以理解，所述动漫声音动作情感关联特征向量包含了原始漫画图像的声音信息、动作信息和情感表达，将所述动漫声音动作情感关联特征向量通过生成器进行处理，生成器能够根据其中的特征信息来生成与原始漫画图像语义信息一致的动漫视频。考虑到动漫视频作品通常是由图像和声音两个要素组成的，在本申请的技术方案中，分别将所述所述动漫声音动作情感关联特征向量通过对抗生成网络以生成视频数据和音频数据。也就是说，通过训练两个对抗生成网络模型，使两个对抗生成网络模型能够分别生成与原始漫画图像一致的视频和音频，再将音频数据与视频数据相结合以得到完整的动漫视频。

图6为根据本申请实施例的AI视频处理方法中基于所述动漫声音动作情感关联特征向量生成动漫视频的流程图。如图6所示，所述步骤S3，包括：S31，将所述动漫声音动作情感关联特征向量通过基于对抗生成网络的视频生成器以生成视频数据；S32，将所述动漫声音动作情感关联特征向量通过基于对抗生成网络的音频生成器以生成音频数据；S33，合并所述视频数据和所述音频数据以得到所述动漫视频。

具体地，所述步骤S31，将所述动漫声音动作情感关联特征向量通过基于对抗生成网络的视频生成器以生成视频数据。应可以理解，通过将动漫声音动作情感关联特征向量输入到基于对抗生成网络的视频生成器中，能够将抽象的语义特征转化为具体的视觉内容。生成器能够根据所述动漫声音动作情感关联特征向量中的情感、动作和情节等信息进行创作，生成逼真的图像序列，形成连续的动漫视频，并保持与输入的动漫声音动作情感关联特征向量的语义一致性，使得生成的视频与原始漫画内容保持一致，提高生成视频的可理解性和连贯性，从而将抽象的语义信息转化为人们可以直接感知和理解的视觉内容。具体地，所述基于对抗生成网络的视频生成器包含鉴别器和生成器，其中，所述生成器用于生成视频，所述鉴别器用于计算生成器生成的视频和真实视频之间的差异，并通过梯度下降的方向传播算法来更新所述生成器的网络参数以得到能够生成与漫画素材语义信息一致的视频的视频生成器。进而，再将所述动漫声音动作情感关联特征向量输入所述基于对抗生成网络的视频生成器的生成器以得到所述符合需求的视频数据。也就是说，基于对抗生成网络的视频生成器在训练过程中通过对抗性学习可以逐渐提升生成视频的质量和逼真度。生成器能够学习到漫画内容的视觉特征和规律，从而提升生成视频的质量，生成更真实、更具细节的视频数据。

具体地，所述步骤S32，将所述动漫声音动作情感关联特征向量通过基于对抗生成网络的音频生成器以生成音频数据。声音在动漫中扮演着重要的角色。声音能够提供对话、音效和旁白等信息，帮助观众更好地理解和感知视频内容，增强观众的沉浸感和情感体验。同样地，将所述动漫声音动作情感关联特征向量通过基于对抗生成网络的音频生成器以将语义特征转化为声音内容，生成与漫画内容一致的音频数据，以提供更丰富、更具表现力的声音效果，进而提升视频质量。

具体地，所述步骤S33，合并所述视频数据和所述音频数据以得到所述动漫视频。应可以理解，通过将音频数据与生成的视频数据相结合，以形成完整的动漫视频作品，能够提升生成视频的质量和完整性，获得更具真实感和完整度的动漫视频作品，提供完整的视听体验。并且，声音和视频的相互作用能够创造出更加生动、感人和震撼的效果，使生成的动漫视频更加真实、逼真和高质量，使得观看者更容易产生共鸣和情感连接。

综上，根据本申请实施例的AI视频处理方法被阐明，其采用计算机视觉技术，对多张漫画图像进行图像语义特征提取，同时，采用自然语言处理技术，对漫画中的对话和文本描述进行文本识别，提取漫画人物的语言特征，并将两种特征进行融合，基于漫画人物的动作声音情感关联特征来分别生成相应的音频和视频，再将音频数据和视频视频结合起来以得到生成的动漫视频。这样，结合计算机视觉和自然语言处理的技术，能够更好地理解漫画人物的语言特征和漫画图像的情感表达，以生成高质量的视频。

图7为根据本申请实施例的AI视频处理装置的框图。如图7所示，根据本申请实施例的AI视频处理装置100，包括：漫画图像获取模块110，用于获取多张漫画图像；漫画图像处理模块120，用于从所述多张漫画图像中提取出动漫声音动作情感关联特征向量；视频生成模块130，用于基于所述动漫声音动作情感关联特征向量，生成动漫视频。

这里，本领域技术人员可以理解，上述AI视频处理装置中的各个步骤的具体操作已经在上面参考图1到图6的AI视频处理方法的描述中得到了详细介绍，并因此，将省略其重复描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，所揭露的方法、系统可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请的构思的情况下，还可以包括更多其他等效实施例，均属于本申请的保护范畴。

Claims

1.一种AI视频处理方法，其特征在于，包括：

获取多张漫画图像；

基于所述动漫声音动作情感关联特征向量，生成动漫视频；

其中，从所述多张漫画图像中提取出动漫声音动作情感关联特征向量，包括：

对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量；

对所述多张漫画图像中的文本信息进行文本语义理解以提取漫画文本语义特征向量；

融合所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量以得到动漫声音动作情感关联特征向量；

其中，融合所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量以得到动漫声音动作情感关联特征向量，包括：

融合所述漫画全局上下文语义特征向量和所述优化漫画文本语义特征向量以得到所述动漫声音动作情感关联特征向量；

其中，基于所述漫画全局上下文语义特征向量，对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到优化漫画文本语义特征向量，包括：以如下优化公式对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到所述优化漫画文本语义特征向量；其中，所述优化公式为：

其中，v₁表示所述漫画全局上下文语义特征向量，v_j表示所述漫画全局上下文语义特征向量的第j个位置的特征值，v_i表示所述漫画文本语义特征向量的第i个位置的特征值，log表示以2为底的对数函数值，λ表示预定超参数，v_i′表示所述优化漫画文本语义特征向量的第i个位置的特征值；

其中，对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量，包括：

将所述多张漫画图像分别通过包含嵌入层的ViT模型以得到多个漫画语义特征向量；

将所述多个漫画语义特征向量按照漫画顺序排列为漫画语义关联特征矩阵；

将所述漫画语义关联特征矩阵通过基于卷积神经网络模型的漫画上下文关联特征提取器以得到所述漫画全局上下文语义特征向量。

2.根据权利要求1所述的AI视频处理方法，其特征在于，将所述漫画图像通过包含嵌入层的ViT模型以得到漫画语义特征向量，包括：

对所述漫画图像进行图像分块处理以得到多个漫画图像块；

使用所述ViT模型的嵌入层分别对所述多个漫画图像块中各个漫画图像块进行嵌入编码以得到多个漫画图像块嵌入向量；

将所述多个漫画图像块嵌入向量输入所述ViT模型的转换器模块进行转换编码以得到所述漫画语义特征向量。

3.根据权利要求2所述的AI视频处理方法，其特征在于，将所述漫画语义关联特征矩阵通过基于卷积神经网络模型的漫画上下文关联特征提取器以得到所述漫画全局上下文语义特征向量，包括：

使用所述基于卷积神经网络模型的漫画上下文关联特征提取器的各层在层的正向传递中分别对输入数据进行二维卷积处理、沿通道维度的各个特征矩阵的全局均值池化处理和非线性激活处理以由所述基于卷积神经网络模型的漫画上下文关联特征提取器的最后一层输出所述漫画全局上下文语义特征向量。

4.根据权利要求3所述的AI视频处理方法，其特征在于，对所述多张漫画图像中的文本信息进行文本语义理解以提取漫画文本语义特征向量，包括：

对所述多张漫画图像进行OCR文本识别以得到文本信息；

将所述文本信息通过基于上下文编码器的语义理解器以得到所述漫画文本语义特征向量。

5.根据权利要求4所述的AI视频处理方法，其特征在于，基于所述动漫声音动作情感关联特征向量，生成动漫视频，包括：

将所述动漫声音动作情感关联特征向量通过基于对抗生成网络的视频生成器以生成视频数据；

将所述动漫声音动作情感关联特征向量通过基于对抗生成网络的音频生成器以生成音频数据；

合并所述视频数据和所述音频数据以得到所述动漫视频。

6.一种AI视频处理装置，其特征在于，包括：

漫画图像获取模块，用于获取多张漫画图像；

视频生成模块，用于基于所述动漫声音动作情感关联特征向量，生成动漫视频；

其中，所述漫画图像处理模块，包括：