CN117676195A

CN117676195A - 基于大语言模型的视频生成方法和系统

Info

Publication number: CN117676195A
Application number: CN202410026558.0A
Authority: CN
Inventors: 樊景星
Original assignee: Individual
Current assignee: Individual
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-03-08

Abstract

本发明提供了一种基于大语言模型的视频生成方法和系统，包括：步骤1：输入期望生成视频的相关要求；步骤2：使用大语言模型构建的塔式交互框架对输入要求进行处理，并生成用于生成视频各部分的文本指令；步骤3：调用应用程序接口，使用文本指令生成视频的各个部分；步骤4：对视频的各个部分进行组合，输出生成的视频。本发明通过采用基于大语言模型的塔式交互结构，解决了使用多个大模型完成指定任务时可能存在的不符合要求、主题不一致的问题。

Description

基于大语言模型的视频生成方法和系统

技术领域

本发明涉及大语言模型技术领域，具体地，涉及一种基于大语言模型的视频生成方法和系统。

背景技术

使用大语言模型进行文生视频的技术中，存在着大语言模型调用资源浪费，未开发全部潜力等问题，包括需要大量的视频素材库，仅使用大语言模型生成视频文本等。这样的方法本质上只使用大语言模型进行文本输出，并没有构造一个减少大量计算成本的自动化轻量级方法。

现有技术中(申请号为202311188341.1的中国专利，公开了“一种基于语言大模型自动化合成视频的方法及系统”)的这种基于大语言模型合成视频的方法，其虽然能够支持视频生成的进行，但却极大依赖本地的视频资源库，不能保障灵活性和轻量化要求。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于大语言模型的视频生成方法和系统。

根据本发明提供的基于大语言模型的视频生成方法，包括：

步骤1：输入期望生成视频的相关要求；

步骤2：使用大语言模型构建的塔式交互框架对输入要求进行处理，并生成用于生成视频各部分的文本指令；

步骤3：调用应用程序接口，使用文本指令生成视频的各个部分；

步骤4：对视频的各个部分进行组合，输出生成的视频。

优选地，所述步骤1包括：输入要求在形式上体现为任意的文本，包括用户希望生成视频的相关内容；针对这些文本，首先进行预处理，包括清理文本、去除无关字符和处理特殊符号；接下来，将文本进行分词，得到更小的单位，包括词、短语或子词；然后，将每个词或子词转换成数值形式输入到大语言模型中；最后，大语言模型根据其内部预设的算法和所学习到的语言规则，基于文本的整体意义、语言逻辑、以及用户的原始输入生成回应，生成的回应经过处理后，以文本形式呈现给用户。

优选地，所述步骤2包括：

步骤2.1：采用大语言模型模拟可交互员工的方法，构建可交互员工人工智能体，包括导演、编辑、画师、配乐四个角色；将导演审核定义为一个质量控制函数Q，其作用于编辑、画师和配乐的输出，同时定义旁白生成函数和相应的应用接口；

首先定义各个角色和接口的函数：

D(x)：导演函数，输入视频制作要求x，输出视频风格与基调y；

E(y)：编辑函数，输入y，输出视频脚本z；

A(z)：画师函数，输入z，输出图画指令文本p；

M(z)：配乐函数，输入z，输出配乐指令文本q；

V(z)：旁白函数，输入z，输出旁白指令文本s；

Q(f)：质量控制函数，输入为其他角色的输出f，保证输出质量；

G(p)：图像生成接口，输入p，生成图片i；

H(q)：配乐生成接口，输入q，生成配乐j；

N(s)：配音生成接口，输入s，生成画外音k；

C(i,j,k)：视频组合函数，输入图片i，配乐j，画外音k，生成最终视频v；

接着，描述整个视频制作的流程，具体为：

x→D(x)＝y：将要求x传递给导演函数D，得到输出y；

y→E(y)＝z：将导演的输出y传递给编辑函数E，得到输出z；

z→Q(A(z))＝p′，z→Q(M(z))＝q′，z→Q(V(z))＝s′：将z分别传递给画师、配乐、旁白函数，并通过导演审核函数Q得到审核后的指令文本p′，q′，和s′；

p′→G(p′)＝i，q′→H(q′)＝j，s′→N(s′)＝k：将审核后的指令文本分别输入到图像、配乐、配音生成接口，得到视频组件i，j，和k；

(i,j,k)→C(i,j,k)＝v：将视频组件输入到视频组合函数C，生成最终视频v；

整个视频制作的数学表达式为：

v＝C(G(Q(A(E(D(x))))),H(Q(M(E(D(x))))),N(Q(V(E(D(x))))))；

步骤2.2：输入要求首先传递给导演角色，导演角色奠定视频的风格与基调，并进一步细化视频要求；

步骤2.3：将导演角色的输出传递给编辑角色，编辑角色撰写视频的脚本，包括视频场景描述和旁白内容，过程中导演对输出进行审核；

步骤2.4：将视频场景描述传递给画师角色，画师角色撰写文生图的指令文本，过程中导演对输出进行审核；

步骤2.5：将视频脚本传递给配乐角色，配乐角色撰写文生配乐的指令文本，过程中导演对输出进行审核。

优选地，所述步骤3包括：将文生图指令文本输入文生图应用接口，将配乐指令文本输入文生配乐应用接口，将旁白输入文生配音应用接口，分别获取图片、配乐、画外音作为视频的组成部分。

优选地，所述步骤4包括：将应用接口的输出进行组合，生成最终的输出视频；视频组合使用python进行脚本撰写，应用moviepy 1.0.3代码库；

具体为：首先将收集到的视频组件进行整理，保证场景图像、画外音音频、配乐音频一一对应；然后依据画外音音频的长度确定每一个视频片段的长度，通过代码创建相应的视频片段，并使用场景图像对视频的显示部分进行填充，在每个视频段内显示的内容为单一视频帧的图像展示；接着将画外音音频和配乐音频进行结合，生成视频段的音频内容；最后将视频段的显示内容和音频内容结合，并加入字幕和动画效果提升视频的观赏性；在生成完每段视频的内容后，将各段视频进行拼接即获得最终的成品视频。

根据本发明提供的基于大语言模型的视频生成系统，包括：

模块M1：输入期望生成视频的相关要求；

模块M2：使用大语言模型构建的塔式交互框架对输入要求进行处理，并生成用于生成视频各部分的文本指令；

模块M3：调用应用程序接口，使用文本指令生成视频的各个部分；

模块M4：对视频的各个部分进行组合，输出生成的视频。

优选地，所述模块M1包括：输入要求在形式上体现为任意的文本，包括用户希望生成视频的相关内容；针对这些文本，首先进行预处理，包括清理文本、去除无关字符和处理特殊符号；接下来，将文本进行分词，得到更小的单位，包括词、短语或子词；然后，将每个词或子词转换成数值形式输入到大语言模型中；最后，大语言模型根据其内部预设的算法和所学习到的语言规则，基于文本的整体意义、语言逻辑、以及用户的原始输入生成回应，生成的回应经过处理后，以文本形式呈现给用户。

优选地，所述模块M2包括：

模块M2.1：采用大语言模型模拟可交互员工的方法，构建可交互员工人工智能体，包括导演、编辑、画师、配乐四个角色；将导演审核定义为一个质量控制函数Q，其作用于编辑、画师和配乐的输出，同时定义旁白生成函数和相应的应用接口；

首先定义各个角色和接口的函数：

E(y)：编辑函数，输入y，输出视频脚本z；

A(z)：画师函数，输入z，输出图画指令文本p；

M(z)：配乐函数，输入z，输出配乐指令文本q；

V(z)：旁白函数，输入z，输出旁白指令文本s；

G(p)：图像生成接口，输入p，生成图片i；

H(q)：配乐生成接口，输入q，生成配乐j；

N(s)：配音生成接口，输入s，生成画外音k；

接着，描述整个视频制作的流程，具体为：

x→D(x)＝y：将要求x传递给导演函数D，得到输出y；

y→E(y)＝z：将导演的输出y传递给编辑函数E，得到输出z；

整个视频制作的数学表达式为：

v＝C(G(Q(A(E(D(x))))),H(Q(M(E(D(x))))),N(Q(V(E(D(x))))))；

模块M2.2：输入要求首先传递给导演角色，导演角色奠定视频的风格与基调，并进一步细化视频要求；

模块M2.3：将导演角色的输出传递给编辑角色，编辑角色撰写视频的脚本，包括视频场景描述和旁白内容，过程中导演对输出进行审核；

模块M2.4：将视频场景描述传递给画师角色，画师角色撰写文生图的指令文本，过程中导演对输出进行审核；

模块M2.5：将视频脚本传递给配乐角色，配乐角色撰写文生配乐的指令文本，过程中导演对输出进行审核。

优选地，所述模块M3包括：将文生图指令文本输入文生图应用接口，将配乐指令文本输入文生配乐应用接口，将旁白输入文生配音应用接口，分别获取图片、配乐、画外音作为视频的组成部分。

优选地，所述模块M4包括：将应用接口的输出进行组合，生成最终的输出视频；视频组合使用python进行脚本撰写，应用moviepy 1.0.3代码库；

与现有技术相比，本发明具有如下的有益效果：

(1)通过采用基于大语言模型的塔式交互结构，解决了使用多个大模型完成指定任务时可能存在的不符合要求、主题不一致的问题；

(2)通过采用大语言模型模拟可交互员工的结构，解决了进行一些基于文本任务时可能导致的耗费大量人工成本的问题；

(3)通过采用适用于大语言模型的记忆流结构，解决了大语言模型在进行任务时可能导致的要求遗忘或是重要信息丢失的问题；

(4)通过采用应用接口调用的输出生成结构，解决了进行高数据量任务时消耗大量本地计算资源的问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明基于大语言模型的视频生成方法整体流程图；

图2为面向视频生成的大语言模型塔式交互框架图；

图3为多级大语言模型交互的内容审核方法流程图；

图4为多级大语言模型交互的记忆流构建方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

如图1，本发明提供了一种基于大语言模型的视频生成方法，包括如下步骤：

步骤1：输入期望生成视频的相关要求；

步骤4：对视频的各个部分进行组合，输出生成的视频。

所述步骤1包括：人工指定对期望生成视频的要求，此要求会直接输入大语言模型构建的塔式交互框架。输入要求在形式上体现为任意的文本，需要包括用户希望生成视频的相关内容，可以是场景、主题、故事等等。针对这些文本，首先进行预处理，包括清理文本、去除无关字符、处理特殊符号等。接下来，模型将文本分割成更小的单位，通常是词、短语或子词(subword)，这个过程称为分词(tokenization)。不同语言模型可能使用不同的分词方法。分词后，每个词或子词会被转换成数值形式，通常是向量。经过嵌入表示的文本数据接着被输入到语言模型中。模型内部包含大量的神经网络层，它们会处理这些数据，捕捉词与词之间的关系和上下文信息。在神经网络的作用下，模型不仅理解每个词的意义，还能把握整个句子或段落的上下文。这意味着即使是相同的词，在不同的上下文中也可能被理解为不同的意思。最后，模型根据其内部算法和所学习到的语言规则，生成回应。在生成回应时，模型会考虑到文本的整体意义、语言逻辑、以及用户的原始输入。生成的响应经过处理后，以文本形式呈现给用户。

所述步骤2包括：

步骤2.1：构建基于大语言模型的塔式交互框架：首先采用大语言模型模拟可交互员工的方法，构建可交互员工aiagent(人工智能体，本方法中构建了：导演、编辑、画师、配乐，四个角色)；接着依据塔式交互结构，构建交互流程，如图2；

在此场景中，我们将导演审核定义为一个质量控制函数Q，其作用于编辑、画师和配乐的输出。我们还将定义旁白生成函数和相应的应用接口。

首先定义各个角色和接口的函数：

D(x)：导演函数，输入视频制作要求x，输出视频风格与基调y。

E(y)：编辑函数，输入y，输出视频脚本z。

A(z)：画师函数，输入z，输出图画指令文本p。

M(z)：配乐函数，输入z，输出配乐指令文本q。

V(z)：旁白函数，输入z，输出旁白指令文本s。

Q(f)：质量控制(导演审核)函数，输入为其他角色的输出f，保证输出质量。

G(p)：图像生成接口，输入p，生成图片i。

H(q)：配乐生成接口，输入q，生成配乐j。

N(s)：配音生成接口，输入s，生成画外音k。

C(i,j,k)：视频组合函数，输入图片i，配乐j，画外音k，生成最终视频v。

接着，我们可以用以下步骤和数学表达式来描述整个视频制作的流程：

x→D(x)＝y：将要求x传递给导演函数D，得到输出y。

y→E(y)＝z：将导演的输出y传递给编辑函数E，得到输出z。

z→Q(A(z))＝p′，z→Q(M(z))＝q′，z→Q(V(z))＝s′：将z分别传递给画师、配乐、旁白函数，并通过导演审核函数Q得到审核后的指令文本′p′，′q′，和′s′。

p′→G(p′)＝i，q′→H(q′)＝j，s′→N(s′)＝k：将审核后的指令文本分别输入到图像、配乐、配音生成接口，得到视频组件i，j，和k。

(i,j,k)→C(i,j,k)＝v：将视频组件输入到视频组合函数C，生成最终视频v。

整个视频制作的数学表达式为：

v＝C(G(Q(A(E(D(x))))),H(Q(M(E(D(x))))),N(Q(V(E(D(x))))))

步骤2.3：将导演角色的输出传递给编辑角色，编辑角色撰写视频的脚本，主要包括视频场景描述和旁白内容，过程中导演会对输出进行审核；

步骤2.4：将视频场景描述传递给画师角色，画师角色撰写文生图的指令文本，过程中导演会对输出进行审核；

步骤2.5：将视频脚本传递给配乐角色，配乐角色撰写文生配乐的指令文本，过程中导演会对输出进行审核。

所述步骤3包括：将文生图指令文本输入文生图应用接口，将配乐指令文本输入文生配乐应用接口，将旁白输入文生配音应用接口，分别获取图片、配乐、画外音作为视频的组成部分。

所述步骤4包括：将应用接口的输出进行组合，生成最终的输出视频；视频组合使用python进行脚本撰写，应用了moviepy 1.0.3代码库。

首先将收集到的视频组件进行整理，保证场景图像、画外音音频、配乐音频一一对应。然后依据画外音音频的长度确定每一个视频片段的长度，通过代码创建相应的视频片段，并使用场景图像对视频的显示部分进行填充，在每个视频段内显示的内容为单一视频帧的图像展示。接着将画外音音频和配乐音频进行结合，生成视频段的音频内容。最后将视频段的显示内容和音频内容结合，并加入字幕和简易的动画效果提升视频的观赏性。在生成完每段视频的内容后，只需要将各段视频进行拼接即可获得最终的成品视频。

如图3，需要使用大语言模型针对具体任务生成指定内容的场景，通过使用另外的大语言模型依据任务要求对输出进行审核，可以避免输出中可能存在的错误，进一步保证输出的合理性和合法性。如本项目中，需要‘编辑’角色生成视频文案的部分，需要使用‘导演’角色对输出进行审核，避免输出的不合理性与不合法性。

如图4，需要使用大语言模型针对具体任务生成指定内容的场景，通过使用另外的大语言模型依据任务要求对输出进行审核，可以避免输出偏离任务要求(偏离要求的输出可能存在于模型在迭代过程中遗忘任务要求的情况下)，进一步保证任务要求不被遗忘并始终贯穿模型的记忆库。如本项目中，需要‘编辑’角色生成视频文案的部分，需要使用‘导演’角色对输出进行审核，避免迭代过程中‘编辑’遗忘任务要求输出不符合视频主题的内容。

实施例2

本发明还提供一种基于大语言模型的视频生成系统，所述基于大语言模型的视频生成系统可以通过执行所述基于大语言模型的视频生成方法的流程步骤予以实现，即本领域技术人员可以将所述基于大语言模型的视频生成方法理解为所述基于大语言模型的视频生成系统的优选实施方式。

根据本发明提供的基于大语言模型的视频生成系统，包括：模块M1：输入期望生成视频的相关要求；模块M2：使用大语言模型构建的塔式交互框架对输入要求进行处理，并生成用于生成视频各部分的文本指令；模块M3：调用应用程序接口，使用文本指令生成视频的各个部分；模块M4：对视频的各个部分进行组合，输出生成的视频。

所述模块M1包括：输入要求在形式上体现为任意的文本，包括用户希望生成视频的相关内容；针对这些文本，首先进行预处理，包括清理文本、去除无关字符和处理特殊符号；接下来，将文本进行分词，得到更小的单位，包括词、短语或子词；然后，将每个词或子词转换成数值形式输入到大语言模型中；最后，大语言模型根据其内部预设的算法和所学习到的语言规则，基于文本的整体意义、语言逻辑、以及用户的原始输入生成回应，生成的回应经过处理后，以文本形式呈现给用户。

所述模块M2包括：

首先定义各个角色和接口的函数：

E(y)：编辑函数，输入y，输出视频脚本z；

A(z)：画师函数，输入z，输出图画指令文本p；

M(z)：配乐函数，输入z，输出配乐指令文本q；

V(z)：旁白函数，输入z，输出旁白指令文本s；

G(p)：图像生成接口，输入p，生成图片i；

H(q)：配乐生成接口，输入q，生成配乐j；

N(s)：配音生成接口，输入s，生成画外音k；

接着，描述整个视频制作的流程，具体为：

x→D(x)＝y：将要求x传递给导演函数D，得到输出y；

y→E(y)＝z：将导演的输出y传递给编辑函数E，得到输出z；

整个视频制作的数学表达式为：

v＝C(G(Q(A(E(D(x))))),H(Q(M(E(D(x))))),N(Q(V(E(D(x))))))；

所述模块M3包括：将文生图指令文本输入文生图应用接口，将配乐指令文本输入文生配乐应用接口，将旁白输入文生配音应用接口，分别获取图片、配乐、画外音作为视频的组成部分。

所述模块M4包括：将应用接口的输出进行组合，生成最终的输出视频；视频组合使用python进行脚本撰写，应用moviepy 1.0.3代码库；

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于大语言模型的视频生成方法，其特征在于，包括：

步骤1：输入期望生成视频的相关要求；

步骤4：对视频的各个部分进行组合，输出生成的视频。

2.根据权利要求1所述的基于大语言模型的视频生成方法，其特征在于，所述步骤1包括：输入要求在形式上体现为任意的文本，包括用户希望生成视频的相关内容；针对这些文本，首先进行预处理，包括清理文本、去除无关字符和处理特殊符号；接下来，将文本进行分词，得到更小的单位，包括词、短语或子词；然后，将每个词或子词转换成数值形式输入到大语言模型中；最后，大语言模型根据其内部预设的算法和所学习到的语言规则，基于文本的整体意义、语言逻辑、以及用户的原始输入生成回应，生成的回应经过处理后，以文本形式呈现给用户。

3.根据权利要求1所述的基于大语言模型的视频生成方法，其特征在于，所述步骤2包括：

首先定义各个角色和接口的函数：

E(y)：编辑函数，输入y，输出视频脚本z；

A(z)：画师函数，输入z，输出图画指令文本p；

M(z)：配乐函数，输入z，输出配乐指令文本q；

V(z)：旁白函数，输入z，输出旁白指令文本s；

G(p)：图像生成接口，输入p，生成图片i；

H(q)：配乐生成接口，输入q，生成配乐j；

N(s)：配音生成接口，输入s，生成画外音k；

接着，描述整个视频制作的流程，具体为：

x→D(x)＝y：将要求x传递给导演函数D，得到输出y；

y→E(y)＝z：将导演的输出y传递给编辑函数E，得到输出z；

整个视频制作的数学表达式为：

v＝C(G(Q(A(E(D(x))))),H(Q(M(E(D(x))))),N(Q(V(E(D(x))))))；

4.根据权利要求3所述的基于大语言模型的视频生成方法，其特征在于，所述步骤3包括：将文生图指令文本输入文生图应用接口，将配乐指令文本输入文生配乐应用接口，将旁白输入文生配音应用接口，分别获取图片、配乐、画外音作为视频的组成部分。

5.根据权利要求1所述的基于大语言模型的视频生成方法，其特征在于，所述步骤4包括：将应用接口的输出进行组合，生成最终的输出视频；视频组合使用python进行脚本撰写，应用moviepy 1.0.3代码库；

6.一种基于大语言模型的视频生成系统，其特征在于，包括：

模块M1：输入期望生成视频的相关要求；

模块M4：对视频的各个部分进行组合，输出生成的视频。

7.根据权利要求6所述的基于大语言模型的视频生成系统，其特征在于，所述模块M1包括：输入要求在形式上体现为任意的文本，包括用户希望生成视频的相关内容；针对这些文本，首先进行预处理，包括清理文本、去除无关字符和处理特殊符号；接下来，将文本进行分词，得到更小的单位，包括词、短语或子词；然后，将每个词或子词转换成数值形式输入到大语言模型中；最后，大语言模型根据其内部预设的算法和所学习到的语言规则，基于文本的整体意义、语言逻辑、以及用户的原始输入生成回应，生成的回应经过处理后，以文本形式呈现给用户。

8.根据权利要求6所述的基于大语言模型的视频生成系统，其特征在于，所述模块M2包括：

首先定义各个角色和接口的函数：

E(y)：编辑函数，输入y，输出视频脚本z；

A(z)：画师函数，输入z，输出图画指令文本p；

M(z)：配乐函数，输入z，输出配乐指令文本q；

V(z)：旁白函数，输入z，输出旁白指令文本s；

G(p)：图像生成接口，输入p，生成图片i；

H(q)：配乐生成接口，输入q，生成配乐j；

N(s)：配音生成接口，输入s，生成画外音k；

接着，描述整个视频制作的流程，具体为：

x→D(x)＝y：将要求x传递给导演函数D，得到输出y；

y→E(y)＝z：将导演的输出y传递给编辑函数E，得到输出z；

整个视频制作的数学表达式为：

v＝C(G(Q(A(E(D(x))))),H(Q(M(E(D(x))))),N(Q(V(E(D(x))))))；

9.根据权利要求8所述的基于大语言模型的视频生成系统，其特征在于，所述模块M3包括：将文生图指令文本输入文生图应用接口，将配乐指令文本输入文生配乐应用接口，将旁白输入文生配音应用接口，分别获取图片、配乐、画外音作为视频的组成部分。

10.根据权利要求6所述的基于大语言模型的视频生成系统，其特征在于，所述模块M4包括：将应用接口的输出进行组合，生成最终的输出视频；视频组合使用python进行脚本撰写，应用moviepy 1.0.3代码库；