CN116708951A

CN116708951A - 基于神经网络的视频生成方法和装置

Info

Publication number: CN116708951A
Application number: CN202310720174.4A
Authority: CN
Inventors: 彭瑞达
Original assignee: Beijing Jiarui Technology Co ltd
Current assignee: Beijing Jiarui Technology Co ltd
Priority date: 2023-06-18
Filing date: 2023-06-18
Publication date: 2023-09-05
Anticipated expiration: 2043-06-18
Also published as: CN116708951B

Abstract

本申请公开了一种基于神经网络的视频生成方法和装置，该方法包括：将文本、该文本的第一角色的扮演图片、和具有相同声纹特征的至少一个录音片段输入基于神经网络构建的视频生成模型，其中该文本包括该第一角色的情绪词和台词，基于该视频生成模型生成视频，该视频包括与该第一扮演图片对应的该第一角色的表演者对该文本的演绎。本申请将文本、文本中角色的扮演图片，以及具有与情绪词匹配的声调的录音片段输入基于神经网络构建的视频生成模型来生成视频，用户可以自己选择角色扮演者及其台词具有的音色，生成的视频中扮演者及其表达台词的音色和韵律特征匹配用户的个性需求，能够效地提高生成的视频质量，提高用户参与度并提高用户的体验。

Description

基于神经网络的视频生成方法和装置

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种基于神经网络的视频生成方法和装置。

背景技术

随着人工智能(AI)技术的迅速发展，作为人机交互的一种方式，文本生成视频的技术也随之受到了广泛的关注。例如，短视频作为一种新型的内容记录和媒体表达的方式，迅速占据了人们的生活。

现有技术的视频生成方法是将文本和参考图像输入视频生成模型，通过该视频生成模型基于参考图像生成与文本语义匹配的序列帧，基于序列帧生成目标视频。

但是，采用现有技术所生成的视频质量较低，例如，语音不够自然和流畅，甚至无声，视频中的人物表情或动作不到位，如眼神不对,表情不自然，甚至面部失真等，从而导致用户体验差。

发明内容

本申请实施例提供一种基于神经网络的视频生成方法和装置，能够满足用户的个性需求，并有效地提高生成的视频质量，提高用户参与度并提高用户的体验。

第一方面，提供了一种基于神经网络的视频生成方法，该方法包括：将文本、该文本中的第一角色的扮演图片、和该第一角色对应的具有相同声纹特征的至少一个录音片段输入基于神经网络构建的视频生成模型，其中该文本包括该第一角色的情绪词和台词，该至少一个录音片段包括第一录音片段，该第一录音片段具有与该第一角色的情绪词匹配的声调；基于该视频生成模型生成视频，该视频包括与该第一扮演图片对应的该第一角色的表演者对该文本的演绎，该第一角色的表演者对该文本的演绎包括该第一角色的表演者基于该第一角色的情绪词做出相应的表情，且该第一角色的表演者表达该第一角色的台词的语音具有第一声纹特征以及第一韵律特征；其中该第一声纹特征与该至少一个录音片段的声纹特征的相似度小于或等于声纹相似度阈值，该第一韵律特征包括与该第一角色的情绪词匹配的声调。

可选地，当该情绪词包括情感强烈的用词时，该第一韵律特征包括高声调，其中该情感强烈的用词包括表示疑问、惊异、兴奋、号召、呼唤和/或反问的语气词。

可选地，当该情绪词包括情感稳定的用词时，该第一韵律特征包括低降调，其中该情感稳定的用词包括表示肯定、请求、感叹和/或祝愿的语气词。

可选地，当该情绪词包括情感平淡的用词时，该第一韵律特征包括平直调，其中该情感平淡的用词包括表示庄重和/或严肃的语气词。

可选地，当该情绪词包括特殊感情的用词时，该第一韵律特征包括曲折调，其中该特殊感情的用词表示讽刺、烦躁、轻薄、厌恶和/或意外的语气词。

可选地，该情绪词可以包括情感强烈、稳定、平淡、特殊的用词中的一个或多个。

可选地，该第一韵律特征可以包括与该第一角色的情绪词匹配的音高、音重、音长和音质。

可选地，至少一个录音片段可以包括多个录音片段。例如，多个录音片段中包括第一录音片段和第二录音片段，该第一录音片段和该第二录音片段具有不同的声调；或者多个录音片段可以包括具有相同声调的多个录音片段；或者多个录音片段中可以包括具有高声调的录音片段、具有低降调的录音片段、具有平直调的录音片段和具有曲折调的录音片段。

可选地，多个录音片段中每个录音片段的时长小于或等于第一时长阈值t1且该多个录音片段的总时长大于或等于第二时长阈值t2。例如，2s≤t1≤30s且4s≤t1≤30min。

结合第一方面，在第一方面的一种可能的实现方式中，该文本还可以包括该第一角色的动作词，该方法还包括：将至少一个动作视频帧输入该视频生成模型，其中该至少一个动作视频帧包括该第一角色的动作词对应的肢体动作；以及基于该视频生成模型生成的该视频包括该第一角色的表演者基于该第一角色的动作词做出相应的肢体动作。可选地，该动作视频帧中做出肢体动作的表演者与基于该视频生成模型生成的该视频中的表演者不相同。

可选地，该至少一个动作视频帧可以包括多个动作视频帧，该多个动作视频帧包括该第一角色的动作词对应的不同的肢体动作。例如，抬手对应的肢体动作可以是手与水平线的角度可以是-90°到90°之间的任意角度，如该多个动作视频帧包括投篮抬手45°的第一视频帧和抬手50°的第二视频帧。

结合第一方面，在第一方面的一种可能的实现方式中，视频生成模型可以是基于括生成式预训练变换器GPT神经网络构建的。可选地，该视频生成模型包括：嵌入层、第一特征提取模块、第二特征提取模块、N个解码模块和输出层，其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层，该N为大于1的整数，该第一特征提取模块包括M1个第一子模块，该第一子模块包括依次连接的自注意力层和归一化层，该第二特征提取模块包括M2个第二子模块，该第二子模块包括依次连接的自注意力层和归一化层。

可选地，基于该视频生成模型生成视频，包括：将该文本进行位置编码得到位置向量且将该文本输入该嵌入层得到嵌入向量、将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征；将该位置向量、该嵌入向量、该图像特征、该声纹特征和该声调特征输入该N个解码模块中第一个解码模块的掩码注意力层；以及经过该N个解码模块后在该输出层输出该视频；其中该第一特征提取模块和该第二特征提取模块与该第一个解码模块的掩码注意力层连接，该第一特征提取模块和该第二特征提取模块的输出作为该第一个解码模块输入的一部分。

可选地，基于该视频生成模型生成视频，包括：将该文本进行位置编码得到位置向量且将该文本输入该嵌入层得到嵌入向量、将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、并将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征；将该位置向量和该嵌入向量输入该N个解码模块中第一个解码模块的掩码注意力层，经过该N个解码模块后与该图像特征、该声纹特征和该声调特征输入到该输出层；以及在该输出层输出该视频；其中该第一特征提取模块和该第二特征提取模块与该输出层连接，该第一特征提取模块和该第二特征提取模块的输出作为该输出层输入的一部分。

可选地，视频生成模型还可以包括用于基于至少一个动作视频帧获得动作特征的第三特征模块，该第三特征模块包括M3个第三子模块，该第三子模块包括依次连接的自注意力层和归一化层。其中，该第三特征提取模块与该输出层连接，该第三特征提取模块的输出作为该输出层输入的一部分；或者该第三特征提取模块与该第一个解码模块的掩码注意力层连接，该第三特征提取模块的输出作为该第一个解码模块输入的一部分。

可选地，该每个解码模块采用残差结构，该残差结构包括将该每个解码模块的掩码注意力层的输入和输出作为该第一归一化层的输入、以及将该前向反馈层的输入和输出作为该第二归一化层的输入。

可选地，每个特征提取模块采用残差结构，该残差结构包括将该每个特征提取模块的自注意力层的输入和输出作为其归一化层的输入。

可选地，该输出层包括第三归一化层。

可选地，该视频生成模型可以包括嵌入层、第一特征提取模块、第二特征提取模块、L个解码模块和输出层，该L个解码模块中每个解码模块包括依次连接的自注意力层、交叉注意力层和多层感知器，L为大于1的整数。该第一特征提取模块包括M1个第一子模块，该第一子模块包括依次连接的自注意力层和多层感知器，该第二特征提取模块包括M2个第二子模块，该第二子模块包括依次连接的自注意力层和多层感知器。进一步，该基于该视频生成模型生成视频，包括：将该文本进行位置编码得到位置向量且将该文本输入该嵌入层得到嵌入向量、将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征；将该位置向量和该嵌入向量相加后乘以该L个解码模块中第一个解码模块的自注意力层的查询向量，将该图像特征、该声纹特征和该声调特征分别乘以该L个解码模块中每个解码模块的自注意力层的键向量和值向量；以及经过该L个解码模块后在该输出层输出该视频。

第二方面，提供了一种基于神经网络的视频生成装置，该装置包括处理单元和存储单元，该处理单元用于将文本、该文本中的第一角色的扮演图片、和该第一角色对应的具有相同声纹特征的至少一个录音片段输入该存储单元存储的基于神经网络构建的视频生成模型，以及基于该视频生成模型生成视频。其中该文本包括该第一角色的情绪词和台词，该至少一个录音片段包括第一录音片段，该第一录音片段具有与该第一角色的情绪词匹配的声调；以及该视频包括与该第一扮演图片对应的该第一角色的表演者对该文本的演绎，该第一角色的表演者对该文本的演绎包括该第一角色的表演者基于该第一角色的情绪词做出相应的表情，且该第一角色的表演者表达该第一角色的台词的语音具有第一声纹特征以及第一韵律特征；其中该第一声纹特征与该至少一个录音片段的声纹特征的相似度小于或等于声纹相似度阈值，该第一韵律特征包括与该第一角色的情绪词匹配的声调。

结合第二方面，在第二方面的一种可能的实现方式中，该文本还可以包括该第一角色的动作词，该处理单元还可以用于：将至少一个动作视频帧输入该视频生成模型。其中，该至少一个动作视频帧包括该第一角色的动作词对应的肢体动作；以及基于该视频生成模型生成的该视频包括该第一角色的表演者基于该第一角色的动作词做出相应的肢体动作。可选地，该动作视频帧中做出肢体动作的表演者与基于该视频生成模型生成的该视频中的表演者不相同。

结合第二方面，在第二方面的一种可能的实现方式中，视频生成模型可以是基于生成式预训练变换器GPT神经网络构建的。可选地，该视频生成模型包括：嵌入层、第一特征提取模块、第二特征提取模块、N个解码模块和输出层，其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层，该N为大于1的整数，该第一特征提取模块包括M1个第一子模块，该第一子模块包括依次连接的自注意力层和归一化层，该第二特征提取模块包括M2个第二子模块，该第二子模块包括依次连接的自注意力层和归一化层。

可选地，该处理单元可以具体用于：将该文本进行位置编码得到位置向量且将该文本输入该嵌入层得到嵌入向量、将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征；将该位置向量、该嵌入向量、该图像特征、该声纹特征和该声调特征输入该N个解码模块中第一个解码模块的掩码注意力层；以及经过该N个解码模块后在该输出层输出该视频。其中，该第一特征提取模块和该第二特征提取模块与该第一个解码模块的掩码注意力层连接，该第一特征提取模块和该第二特征提取模块的输出作为该第一个解码模块输入的一部分。

可选地，该处理单元可以具体用于：将该文本进行位置编码得到位置向量且将该文本输入该嵌入层得到嵌入向量、将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、并将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征；将该位置向量和该嵌入向量输入该N个解码模块中第一个解码模块的掩码注意力层，经过该N个解码模块后与该图像特征、该声纹特征和该声调特征输入到该输出层；以及在该输出层输出该视频。其中，该第一特征提取模块和该第二特征提取模块与该输出层连接，该第一特征提取模块和该第二特征提取模块的输出作为该输出层输入的一部分。

可选地，该输出层可以包括第三归一化层。

第三方面，提供了一种基于神经网络的视频生成装置，该装置包括处理器和存储器，该处理器与该存储器耦合，该处理器用于读取并执行该存储器中的指令，以实现上述第一方面中的任一种可能实现方式中的方法。

第四方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码被执行时，实现上述第一方面中的任一种可能实现方式中的方法。

在本申请实施例中，将文本、该文本的第一角色的扮演图片、和具有相同声纹特征的至少一个录音片段输入基于神经网络构建的视频生成模型，基于该视频生成模型生成视频。其中该文本包括该第一角色的情绪词和台词，该视频包括与该第一扮演图片对应的该第一角色的表演者对该文本的演绎。本申请将文本、文本中角色的扮演图片，以及具有与情绪词匹配的声调的录音片段输入基于神经网络构建的视频生成模型来生成视频，用户可以自己选择角色扮演者及其台词具有的音色，生成的视频中扮演者及其表达台词的音色和韵律特征匹配用户的个性需求，能够效地提高生成的视频质量，提高用户参与度并提高用户的体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本申请实施例提供的一种基于神经网络的视频生成方法的过程的示意性流程图。

图2是本申请实施例提供的一种视频生成模型的网络结构示意图。

图3是本申请实施例提供的另一种视频生成模型的网络结构示意图。

图4是本申请实施例提供的另一种视频生成模型的网络结构示意图。

图5是本申请实施例提供的一种基于神经网络的视频生成装置的示意性结构框图。

图6是本申请实施例提供的另一种基于神经网络的视频生成装置的示意性结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本申请保护的范围。

应理解，本申请实施例中的“第一”以及“第二”仅为了区分，或者“第一”为了表示至少一个中的某一个或者多个中的一个等，不应对本申请构成任何限定。还应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还需要说明的是，“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请可以应用于如教育、通信、娱乐等各个领域，包括但不限于电影、电视、新闻、广告、动画、宣传、营销、游戏、MV(音乐短片，Music Video)等视频制作。

下面将结合附图详细说明本申请提供的技术方案。

101，将文本、所述文本中的第一角色的扮演图片、和具有相同声纹特征的至少一个录音片段输入基于神经网络构建的视频生成模型。

在一些实施例中，该视频生成模型可以基于变换器(transformer)神经网络构建的，也可以基于生成式预训练变换器(Generative Pre-Trained Transformer，GPT)神经网络构建的。下面将以GPT神经网络构建该视频生成模型为例进行说明，应理解，本申请并不限于此。

102，基于所述视频生成模型生成视频，其中，该视频包括与该第一扮演图片对应的该第一角色的表演者对该文本的演绎，该第一角色的表演者对该文本的演绎包括该第一角色的表演者基于该第一角色的情绪词做出相应的表情，且该第一角色的表演者表达该第一角色的台词的语音具有第一声纹特征以及第一韵律特征，该第一声纹特征与该至少一个录音片段的声纹特征的相似度小于或等于声纹相似度阈值，该第一韵律特征包括与该第一角色的情绪词匹配的声调。

在本申请实施例中，将文本、文本中角色的扮演图片，以及具有与情绪词匹配的声调的录音片段输入基于神经网络构建的视频生成模型来生成视频，用户可以自己选择角色扮演者及其台词具有的音色，生成的视频中扮演者及其表达台词的音色和韵律特征匹配用户的个性需求，能够效地提高生成的视频质量，提高用户参与度并提高用户的体验。

在一些实施例中，本申请的台词是广义的，可以包括但不限于宣传语、广告语、新闻稿、话剧/剧本台词、介绍、旁白、小故事、任意话语编辑、还可以包括歌词等。在一些实施例中，录音片段的内容是任意的，例如，可以是任意一句话或多句话，也可以是任意哼一小曲等，录音片段的内容与文本的内容可以相同也可以不同。在一些实施例中，该情绪词可以包括情感强烈、稳定、平淡、特殊的用词中的一个或多个。在一些实施例中，本申请的第一声纹特征与该至少一个录音片段的声纹特征可以相同或不同，应理解，本省请对此不作限制。

因此，通过对情绪词的细分，使得生成的视频中角色表演者表达台词不会过于生硬或平铺直叙，而语调的抑扬顿挫更有利于表达，能清晰地传达给用户，从而提高了生成的视频的质量，并提高用户体验。

可选地，多个录音片段中每个录音片段的时长可以小于或等于第一时长阈值t1；该多个录音片段的总时长可以大于或等于第二时长阈值t2。例如，2s≤t1≤30s且4s≤t2≤30min。

通过上述方案，采用多个具有不同声调的录音片段，设置多个录音片段且每个录音片段的录制时长不至于太长，能够提高录音质量，并提高生成视频的语音的声纹和韵律特征的准确度以及生成的视频的质量，从而提高用户的体验。

在一些实施例中，文本还包括第一角色的动作词，生成的视频还可以包括该第一角色的表演者基于第一角色的动作词做出相应的动作。这样，能够满足用户的个性需求，提高用户的参与度，从而提高用户体验。可选地，可以将至少一个动作视频帧输入该视频生成模型，其中该至少一个动作视频帧包括该第一角色的动作词对应的肢体动作。例如，抬手对应的肢体动作可以是手与水平线的角度可以是-90°到90°之间的任意角度，如该多个动作视频帧可以包括投篮抬手45°的第一视频帧和抬手50°的第二视频帧。又例如，动作视频帧还可以包括如摇头对应的头部动作，点头对应的头部动作，和/或下蹲、弯腰、踢腿、飞行、前倾、转身等动作。当然，也可以不输入用户自定义的动作视频帧(即个性化需求)。

应理解，上述例子仅仅是示例性的，而非要限制本申请。文本可以是包括但不限于剧本、对话、新闻稿、介绍、宣传语等，文本中可以是一个角色也可以是多个角色，可以输入多个角色对应的多个扮演图片，针对每一角色对应至少一个录音片段，不同角色对应的声纹特征可以不相同，不同角色对应的扮演图片可以相同或不同。

在本申请的一些实施例中，视频生成模型可以基于GPT神经网络对历史文本集、角色扮演图片集、录音片段集及其对应的视频集进行训练得到(如可以逐一或批量训练)。可选地，训练中可以通过生成的视频与真值(ground truth)进行比较来确定损失函数，包括但不限于角色的台词的韵律特征损失(如声纹特征损失和语调损失)，还可以设置角色表演者的表情匹配、发音的口型匹配以及动作匹配等损失函数。

可选地，可以将样本集分割成训练子集，验证子集和测试子集，其中训练子集可以用于训练构建视频生成模型，验证子集可以用于训练过程中调整该神经网络的超参数，该测试子集可以用于评估该神经网络训练模型的泛化。

在一些实施例中，视频生成模型可以是基于生成式预训练变换器GPT神经网络构建的。可选地，该视频生成模型包括：嵌入层(Embedding)、第一特征提取模块、第二特征提取模块、N个解码模块和输出层。其中，该N个解码模块中每个解码模块包括依次连接的掩码注意力层(Masked Attention)、第一归一化层、前向反馈层和第二归一化层，该N为大于1的整数，该第一特征提取模块可以包括M1个第一子模块，该第一子模块包括依次连接的自注意力层(Self Attention)和归一化层，该第二特征提取模块包括M2个第二子模块，该第二子模块包括依次连接的自注意力层和归一化层。

可选地，该每个解码模块采用残差结构，例如，该残差结构包括将该每个解码模块的掩码注意力层的输入和输出作为该第一归一化层的输入、以及将该前向反馈层的输入和输出作为该第二归一化层的输入。

可选地，每个特征提取模块可以采用残差结构，例如，该残差结构包括将该每个特征提取模块的自注意力层的输入和输出作为其归一化层的输入。

可选地，该输出层可以包括第三归一化层。

例如，上述归一化层可以采用归一化指数函数实现。可选地，输出层可以采用tansig函数和线性(linear)函数。

为了更清楚和直观的解释本申请的技术方案，下面结合图2和图3的实施例进行说明。

如图2所示，图2示出了一种视频生成模型的网络结构示意图。图2的基于GPT神经网络构建的视频生成模型包括嵌入层、第一特征提取模块、第二特征提取模块，N个解码模块和输出层。该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层。第i(i取值1和2)特征提取模块包括Mi个第i子模块、即第一特征提取模块包括M1个第一子模块，第二特征提取模块包括M2个第二子模块，各个子模块包括依次连接的自注意力层和归一化层，每个子模块的自注意力层的输入和输出作为其归一化层的输入。该第一特征提取模块和该第二特征提取模块与该第一个解码模块的掩码注意力层连接，该第一特征提取模块和该第二特征提取模块的输出作为该第一个解码模块输入的一部分。

基于图2的神经网络结构，在一些实施例中，可以将文本进行位置编码得到位置向量，将该文本输入嵌入层得到嵌入向量，将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征。将该位置向量、该嵌入向量、该图像特征、该声纹特征和该声调特征(如相加后分别乘以Q、K和V，Q表示查询向量，K表示键向量，V表示值向量)输入该N个解码模块中第一个解码模块的掩码注意力层；以及经过该N个解码模块后在该输出层输出该视频。

可选地，图2的神经网络结构还可以包括基于至少一个动作视频帧获得动作特征的第三特征提取模块，该第三特征提取模块的结构和连接方式与第一或第二特征提取模块的类似，该第三特征提取模块与该第一个解码模块的掩码注意力层连接，该第三特征提取模块的输出作为该第一个解码模块输入的一部分。第三特征提取模块包括M3个第三子模块，第三特征提取模块包括M3个第三子模块，各个子模块包括依次连接的自注意力层和归一化层，每个子模块的自注意力层的输入和输出作为其归一化层的输入。

如图3所示，图3示出了另一种视频生成模型的网络结构示意图。图3的基于GPT神经网络构建的视频生成模型包括嵌入层、第一特征提取模块、第二特征提取模块，N个解码模块和输出层。该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层。第i(i取值1和2)特征提取模块包括Mi个第i子模块、即第一特征提取模块包括M1个第一子模块，第二特征提取模块包括M2个第二子模块，各个子模块包括依次连接的自注意力层和归一化层，每个子模块的自注意力层的输入和输出作为其归一化层的输入。该第一特征提取模块和该第二特征提取模块与该输出层连接，该第一特征提取模块和该第二特征提取模块的输出作为该输出层输入的一部分。

基于图3的神经网络结构，在一些实施例中，可以将文本进行位置编码得到位置向量，将该文本输入嵌入层得到嵌入向量，将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、并将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征。将该位置向量和该嵌入向量(如相加后分别乘以Q、K和V，Q表示查询向量，K表示键向量，V表示值向量)输入该N个解码模块中第一个解码模块的掩码注意力层，经过该N个解码模块后与该图像特征、该声纹特征和该声调特征输入到该输出层；以及在该输出层输出该视频。

类似地，图3的神经网络结构还可以包括基于至少一个动作视频帧获得动作特征的第三特征提取模块，该第三特征提取模块与输出层连接，该第三特征提取模块的输出作为该输出层输入的一部分。第三特征提取模块包括M3个第三子模块，第三特征提取模块也可以采用上述残差结构。

当然，GPT神经网络结构也可以采用其它结构。例如，该视频生成模型可以包括嵌入层、第一特征提取模块、第二特征提取模块、L个解码模块和输出层，该L个解码模块中每个解码模块包括依次连接的自注意力层(self attention)、交叉注意力层(crossattention)和多层感知器(MLP，Multilayer Perceptron)，L为大于1的整数。该第一特征提取模块包括M1个第一子模块，该第一子模块包括依次连接的自注意力层和多层感知器，该第二特征提取模块包括M2个第二子模块，该第二子模块包括依次连接的自注意力层和多层感知器。可选地，该视频生成模型还可以包括上述第三特征提取模块。可选地，解码模块和/或特征提取模块可以采用残差结构。

示意性地如图4所示，在一些实施例中，该基于该视频生成模型生成视频，包括：将该文本进行位置编码得到位置向量且将该文本输入该嵌入层得到嵌入向量、将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征；将该位置向量和该嵌入向量相加后乘以该L个解码模块中第一个解码模块的自注意力层的查询向量，将该图像特征、该声纹特征和该声调特征相加后乘以该L个解码模块中每个解码模块的自注意力层的键向量Q和值向量V；以及经过该L个解码模块后在该输出层输出该视频。

可选地，将至少一个动作视频帧输入第三特征提取模块得到动作特征，将该图像特征、动作特征、该声纹特征和该声调特征相加后乘以该L个解码模块中每个解码模块的自注意力层的键向量K和值向量V。

可选地，上述多层感知机MLP包括归一化层。

需要说明的是，图2、图3或图4的神经网络结构，类似文本的位置编码，针对每个特征提取模块也可以设置相应的位置编码层。例如，将第一角色的扮演图片输入第一特征提取模块相应的位置编码层得到位置编码向量与图像特征相加后输入第一个解码模块的掩码注意力层或者输入输出层。又例如，将至少一个录音片段输入该第二特征提取模块相应的位置编码层得到位置编码向量与声纹特征和声调特征相加后输入第一个解码模块的掩码注意力层或者输入输出层。

应理解，采用不同的GPT神经网络结构，解码模块的数目可以相同或不同，不同的特征提取模块所包括的子模块的数目可以相同或不同，上述图2-图4的神经网络结构仅仅是示例性的，而非要限制本申请。

基于GPT神经网络构建的视频生成模型，用户可以自己选择角色扮演者及其台词具有的音色，生成的视频中扮演者及其表达台词的音色和韵律特征匹配用户的个性需求，能够效地提高生成的视频质量，提高用户参与度并提高用户的体验。

图5是本申请实施例提供的一种基于神经网络的视频生成装置的示意性结构框图。装置500包括处理单元501和存储单元502。

该处理单元501用于将文本、所述文本中的第一角色的扮演图片、和具有相同声纹特征的至少一个录音片段输入到该存储单元502存储的基于神经网络构建的视频生成模型，以及基于该视频生成模型生成视频。

其中该文本包括该第一角色的情绪词和台词，该至少一个录音片段包括第一录音片段，该第一录音片段具有与该第一角色的情绪词匹配的声调；以及该视频包括与该第一扮演图片对应的该第一角色的表演者对该文本的演绎，该第一角色的表演者对该文本的演绎包括该第一角色的表演者基于该第一角色的情绪词做出相应的表情，且该第一角色的表演者表达该第一角色的台词的语音具有第一声纹特征以及第一韵律特征；其中该第一声纹特征与该至少一个录音片段的声纹特征的相似度小于或等于声纹相似度阈值，该第一韵律特征包括与该第一角色的情绪词匹配的声调。

在一些实施例中，该文本还可以包括该第一角色的动作词，该处理单元501还可以用于：将至少一个动作视频帧输入该视频生成模型。其中，该至少一个动作视频帧包括该第一角色的动作词对应的肢体动作；以及基于该视频生成模型生成的该视频包括该第一角色的表演者基于该第一角色的动作词做出相应的肢体动作。可选地，该动作视频帧中做出肢体动作的表演者与基于该视频生成模型生成的该视频中的表演者不相同。

在一些实施例中，视频生成模型可以是基于GPT神经网络构建的。可选地，该视频生成模型包括：嵌入层、第一特征提取模块、第二特征提取模块、N个解码模块和输出层，其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层，该N为大于1的整数，该第一特征提取模块包括M1个第一子模块，该第一子模块包括依次连接的自注意力层和归一化层，该第二特征提取模块包括M2个第二子模块，该第二子模块包括依次连接的自注意力层和归一化层。

可选地，该处理单元501可以具体用于：将该文本进行位置编码得到位置向量且将该文本输入该嵌入层得到嵌入向量、将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征；将该位置向量、该嵌入向量、该图像特征、该声纹特征和该声调特征输入该N个解码模块中第一个解码模块的掩码注意力层；以及经过该N个解码模块后在该输出层输出该视频。其中，该第一特征提取模块和该第二特征提取模块与该第一个解码模块的掩码注意力层连接，该第一特征提取模块和该第二特征提取模块的输出作为该第一个解码模块输入的一部分

可选地，该处理单元501可以具体用于：将该文本进行位置编码得到位置向量且将该文本输入该嵌入层得到嵌入向量、将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、并将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征；将该位置向量和该嵌入向量输入该N个解码模块中第一个解码模块的掩码注意力层，经过该N个解码模块后与该图像特征、该声纹特征和该声调特征输入到该输出层；以及在该输出层输出该视频。其中，该第一特征提取模块和该第二特征提取模块与该输出层连接，该第一特征提取模块和该第二特征提取模块的输出作为该输出层输入的一部分。

可选地，该输出层可以包括第三归一化层。

可选地，视频生成模型可以包括嵌入层、第一特征提取模块、第二特征提取模块、L个解码模块和输出层，该L个解码模块中每个解码模块包括依次连接的自注意力层、交叉注意力层和多层感知器，该L为大于1的整数，该第一特征提取模块包括M1个第一子模块，该第一子模块包括依次连接的自注意力层和多层感知器，该第二特征提取模块包括M2个第二子模块，该第二子模块包括依次连接的自注意力层和多层感知器。具体地，处理单元401可以用于：将该文本进行位置编码得到位置向量且将该文本输入该嵌入层得到嵌入向量、将该第一角色的扮演图片输入该第一特征提取模块得到图像特征、将该至少一个录音片段输入该第二特征提取模块得到声纹特征和声调特征；将该位置向量和该嵌入向量相加后乘以该L个解码模块中第一个解码模块的自注意力层的查询向量，将该图像特征、该声纹特征和该声调特征分别乘以该L个解码模块中每个解码模块的自注意力层的键向量和值向量；以及经过该L个解码模块后在该输出层输出该视频。

可选地，视频生成装置可以是服务器，用户设备可以与服务器进行通信，向服务器发送请求实现视频的生成。视频生成装置也可以嵌入用户设备。用户设备可以是移动终端，如移动电话和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，包括但不限于移动设备，如手机或者智能手机，个人电脑、PAD、iPad等。

图5所示的装置500可用于执行图1-图4所涉及的方法和步骤，各个单元执行上述相应步骤的具体过程在上述方法实施例中已经详细说明，为了简洁，在此不再赘述。

本申请的装置可以基于视频生成模型实现视频的生成，，将文本、文本中角色的扮演图片，以及具有与情绪词匹配的声调的录音片段输入基于神经网络构建的视频生成模型来生成视频，用户可以自己选择角色扮演者及其台词具有的音色，生成的视频中扮演者及其表达台词的音色和韵律特征匹配用户的个性需求，能够效地提高生成的视频质量，提高用户参与度并提高用户的体验。

图6是本申请实施例提供的另一种视频生成装置的示意性结构框图。如图6所示，装置600包括一个或多个处理器601和一个或多个存储器602耦合，处理器601用于读取并执行该存储器602存储的指令(或计算机程序)，使得该装置600可以执行本申请的方法实施例中由装置700执行的相应流程和/或操作。

图6所示的装置600可用于执行图1-图4所涉及的方法和步骤，为了简洁，此处不再赘述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP(Digital SignalProcessing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是ROM(read-onlymemory，只读存储器)、PROM(programmable ROM，可编程只读存储器)、EPROM(erasablePROM，可擦除可编程只读存储器)、EEPROM(electrically EPROM，电可擦除可编程只读存储器)或闪存。易失性存储器可以是RAM(random access memory，随机存取存储器)，其用作外部高速缓存。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本申请还提供一种计算机可读介质，该计算机可读介质存储有程序代码，当该程序代码被运行时，能够实现上述各个实施例中基于机器学习的光学器件参数的确定装置执行的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于神经网络的视频生成方法，其特征在于，包括：

将文本、所述文本中的第一角色的扮演图片、和第一角色对应的具有相同声纹特征的至少一个录音片段输入基于神经网络构建的视频生成模型，其中所述文本包括所述第一角色的情绪词和台词，所述至少一个录音片段包括第一录音片段，所述第一录音片段具有与所述第一角色的情绪词匹配的声调；以及

基于所述视频生成模型生成视频，所述视频包括与所述第一扮演图片对应的所述第一角色的表演者对所述文本的演绎，所述第一角色的表演者对所述文本的演绎包括所述第一角色的表演者基于所述第一角色的情绪词做出相应的表情，且所述第一角色的表演者表达所述第一角色的台词的语音具有第一声纹特征以及第一韵律特征；其中所述第一声纹特征与所述至少一个录音片段的声纹特征的相似度小于或等于声纹相似度阈值，所述第一韵律特征包括与所述第一角色的情绪词匹配的声调。

2.根据权利要求1所述的方法，其中，

所述第一韵律特征包括与所述第一角色的情绪词匹配的声调，包括：当所述情绪词包括情感强烈的用词时，所述第一韵律特征包括高声调，其中所述情感强烈的用词包括表示疑问、惊异、兴奋、号召、呼唤和/或反问的语气词；当所述情绪词包括情感稳定的用词时，所述第一韵律特征包括低降调，其中所述情感稳定的用词包括表示肯定、请求、感叹和/或祝愿的语气词；当所述情绪词包括情感平淡的用词时，所述第一韵律特征包括平直调，其中所述情感平淡的用词包括表示庄重和/或严肃的语气词；和/或当所述情绪词包括特殊感情的用词时，所述第一韵律特征包括曲折调，其中所述特殊感情的用词表示讽刺、烦躁、轻薄、厌恶和/或意外的语气词。

3.根据权利要求1或2所述的方法，其中，所述至少一个录音片段包括多个录音片段，

所述多个录音片段中包括所述第一录音片段和第二录音片段，所述第一录音片段和所述第二录音片段具有不同的声调；或者

所述多个录音片段包括具有相同声调的多个录音片段；或者

所述多个录音片段中包括具有高声调的录音片段、具有低降调的录音片段、具有平直调的录音片段和具有曲折调的录音片段；或者

所述多个录音片段中每个录音片段的时长小于或等于第一时长阈值t1且所述多个录音片段的总时长大于或等于第二时长阈值t2，2s≤t1≤30s且4s≤t2≤30min。

4.根据权利要求1-3任一项所述的方法，其中，

所述文本还包括所述第一角色的动作词，所述至少一个动作视频帧包括所述第一角色的动作词对应的肢体动作；以及基于所述视频生成模型生成的所述视频包括所述第一角色的表演者基于所述第一角色的动作词做出相应的肢体动作；其中，所述动作视频帧中做出肢体动作的表演者与基于所述视频生成模型生成的所述视频中的表演者不相同；和/或

所述文本还包括与第一角色不同的第二角色，所述第二角色对应的至少一个录音片段与所述第一角色对应的至少一个录音片段具有不同的声纹特征。

5.根据权利要求1-4任一项所述的方法，其中，所述视频生成模型包括：嵌入层、第一特征提取模块、第二特征提取模块、N个解码模块和输出层，所述N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层，所述N为大于1的整数，所述第一特征提取模块包括M1个第一子模块，所述第一子模块包括依次连接的自注意力层和归一化层，所述第二特征提取模块包括M2个第二子模块，所述第二子模块包括依次连接的自注意力层和归一化层；

所述基于所述视频生成模型生成视频，包括：

将所述文本进行位置编码得到位置向量且将所述文本输入所述嵌入层得到嵌入向量、将所述第一角色的扮演图片输入所述第一特征提取模块得到图像特征、将所述至少一个录音片段输入所述第二特征提取模块得到声纹特征和声调特征；将所述位置向量、所述嵌入向量、所述图像特征、所述声纹特征和所述声调特征输入所述N个解码模块中第一个解码模块的掩码注意力层；以及经过所述N个解码模块后在所述输出层输出所述视频；其中所述第一特征提取模块和所述第二特征提取模块与所述第一个解码模块的掩码注意力层连接，所述第一特征提取模块和所述第二特征提取模块的输出作为所述第一个解码模块输入的一部分；

或者

将所述文本进行位置编码得到位置向量且将所述文本输入所述嵌入层得到嵌入向量、将所述第一角色的扮演图片输入所述第一特征提取模块得到图像特征、并将所述至少一个录音片段输入所述第二特征提取模块得到声纹特征和声调特征；将所述位置向量和所述嵌入向量输入所述N个解码模块中第一个解码模块的掩码注意力层，经过所述N个解码模块后与所述图像特征、所述声纹特征和所述声调特征输入到所述输出层；以及在所述输出层输出所述视频；其中所述第一特征提取模块和所述第二特征提取模块与所述输出层连接，所述第一特征提取模块和所述第二特征提取模块的输出作为所述输出层输入的一部分。

6.根据权利要求5所述的方法，其中，所述视频生成模型还包括用于基于至少一个动作视频帧获得动作特征的第三特征模块，所述第三特征模块包括M3个第三子模块，所述第三子模块包括依次连接的自注意力层和归一化层；以及

所述第三特征提取模块与所述输出层连接，所述第三特征提取模块的输出作为所述输出层输入的一部分；或者所述第三特征提取模块与所述第一个解码模块的掩码注意力层连接，所述第三特征提取模块的输出作为所述第一个解码模块输入的一部分。

7.根据权利要求5或6所述的方法，其中，

所述每个解码模块采用残差结构，所述残差结构包括将所述每个解码模块的掩码注意力层的输入和输出作为所述第一归一化层的输入、以及将所述前向反馈层的输入和输出作为所述第二归一化层的输入；

每个特征提取模块采用残差结构，所述残差结构包括将所述每个特征提取模块的自注意力层的输入和输出作为其归一化层的输入；和/或

所述输出层包括第三归一化层。

8.根据权利要求1-4任一项所述的方法，其中，所述视频生成模型包括：嵌入层、第一特征提取模块、第二特征提取模块、L个解码模块和输出层，所述L个解码模块中每个解码模块包括依次连接的自注意力层、交叉注意力层和多层感知器，所述L为大于1的整数，所述第一特征提取模块包括M1个第一子模块，所述第一子模块包括依次连接的自注意力层和多层感知器，所述第二特征提取模块包括M2个第二子模块，所述第二子模块包括依次连接的自注意力层和多层感知器；

所述基于所述视频生成模型生成视频，包括：

将所述文本进行位置编码得到位置向量且将所述文本输入所述嵌入层得到嵌入向量、将所述第一角色的扮演图片输入所述第一特征提取模块得到图像特征、将所述至少一个录音片段输入所述第二特征提取模块得到声纹特征和声调特征；将所述位置向量和所述嵌入向量相加后乘以所述L个解码模块中第一个解码模块的自注意力层的查询向量，将所述图像特征、所述声纹特征和所述声调特征分别乘以所述L个解码模块中每个解码模块的自注意力层的键向量和值向量；以及经过所述L个解码模块后在所述输出层输出所述视频。

9.一种基于神经网络的视频生成装置，其特征在于，包括：处理单元和存储单元，

所述处理单元，用于将文本、所述文本中的第一角色的扮演图片、和所述第一角色对应的具有相同声纹特征的至少一个录音片段输入所述存储单元存储的基于神经网络构建的视频生成模型，以及基于所述视频生成模型生成视频；

其中所述文本包括所述第一角色的情绪词和台词，所述至少一个录音片段包括第一录音片段，所述第一录音片段具有与所述第一角色的情绪词匹配的声调；以及所述视频包括与所述第一扮演图片对应的所述第一角色的表演者对所述文本的演绎，所述第一角色的表演者对所述文本的演绎包括所述第一角色的表演者基于所述第一角色的情绪词做出相应的表情，且所述第一角色的表演者表达所述第一角色的台词的语音具有第一声纹特征以及第一韵律特征；其中所述第一声纹特征与所述至少一个录音片段的声纹特征的相似度小于或等于声纹相似度阈值，所述第一韵律特征包括与所述第一角色的情绪词匹配的声调。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被执行时，实现根据权利要求1-8任一项所述的方法。