CN114567693A

CN114567693A - 视频生成方法、装置和电子设备

Info

Publication number: CN114567693A
Application number: CN202210128795.9A
Authority: CN
Inventors: 刘鑫
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2022-05-31
Anticipated expiration: 2042-02-11
Also published as: CN114567693B

Abstract

本申请公开了一种视频生成方法、装置和电子设备，属于通信领域。在显示目标会话界面的情况下，接收用户在目标会话界面中的第一输入，第一输入为用户对目标音频和目标图像的输入；响应于第一输入，获取目标音频的音频特征信息；根据音频特征信息，对目标音频进行音频切片处理，得到音频情感特征序列；根据音频情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列，并根据目标图像和音频情感特征序列，生成表情图像序列；基于目标图像、音频特征信息、姿势图像序列和表情图像序列，生成并输出目标视频。

Description

视频生成方法、装置和电子设备

技术领域

本申请属于通信领域，具体涉及一种视频生成方法、装置和电子设备。

背景技术

目前，用户在使用电子设备中的聊天类应用程序与某个用户(例如用户A)进行聊天时，由于视频聊天的局限性，为了更好的传递和表达情感，用户可以向用户A发送动态表情包。若用户使用现有的动态表情包，则不能更好的传递和表达用户的情感，因此，用户可以向用户A发送自制动态表情包。

然而，在上述方法中，用户需要提前使用表情包制作应用程序进行录入、剪辑和制作等多个步骤，如此，用户的操作繁琐且耗时，从而电子设备制作动态表情包的效率较低。

发明内容

本申请实施例的目的是提供一种视频生成方法、装置和电子设备，能够解决电子设备制作动态表情包的效率较低的问题。

第一方面，本申请实施例提供了一种视频生成方法，该方法包括：在显示目标会话界面的情况下，接收用户在目标会话界面中的第一输入，第一输入为用户对目标音频和目标图像的输入；响应于第一输入，获取目标音频的音频特征信息；根据音频特征信息，对目标音频进行音频切片处理，得到音频情感特征序列；根据音频情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列，并根据目标图像和音频情感特征序列，生成表情图像序列；基于目标图像、音频特征信息、姿势图像序列和表情图像序列，生成并输出目标视频。

第二方面，本申请实施例提供了一种视频生成装置，视频生成装置包括：该视频生成装置包括：接收模块、获取模块、处理模块、生成模块和输出模块。接收模块，用于在显示目标会话界面的情况下，接收用户在目标会话界面中的第一输入，第一输入为用户对目标音频和目标图像的输入。获取模块，用于响应于接收模块接收的第一输入，获取目标音频的音频特征信息。处理模块，用于根据获取模块获取的音频特征信息，对目标音频进行音频切片处理，得到音频情感特征序列；并根据音频情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列。生成模块，用于根据目标图像和处理模块处理的音频情感特征序列，生成表情图像序列；并基于接收模块接收的目标图像、处理模块处理的姿势图像序列和表情图像序列，生成目标视频。输出模块，用于输出生成模块生成的目标视频。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，在显示目标会话界面的情况下，电子设备可以接收用户在目标会话界面中的第一输入，该第一输入为用户对目标音频和目标图像的输入；然后电子设备可以响应于第一输入，获取目标音频的音频特征信息，并根据音频特征信息，对目标视频进行切片处理，以得到音频情感特征序列，从而可以根据情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列，并根据目标图像和音频情感特征序列，生成表情图像序列，以使得电子设备可以基于目标图像、音频特征信息、姿势图像序列和表情图像序列，生成并输出目标视频。由于电子设备可以直接根据用户在会话界面上输入的语音和图像，直接生成对应的动态表情包，相较于传统技术中，若用户需求通过电子设备中的聊天类应用程序与某个用户(例如用户A)发送动态表情包时，需要提前使用表情包制作应用程序进行录入、剪辑和制作等多个步骤，本申请实施例中，用户无需提前通过表情包制作应用程序对视频和音频进行录入、剪辑等多个步骤，因此，简化了用户的操作，节省了用户的时间，如此，提升了电子设备制作动态表情包的效率和灵活性。

附图说明

图1是本申请实施例提供的一种插帧方法的示意图之一；

图2是本申请实施例提供的一种手机的界面的实例示意图之一；

图3是本申请实施例提供的一种表情特征序列生成方法示意图；

图4是本申请实施例提供的一种视频生成方法示意图；

图5是本申请实施例提供的一种手机的界面的实例示意图之二；

图6是本申请实施例提供的一种视频生成装置的结构示意图；

图7是本申请实施例提供的一种电子设备的硬件结构示意图之一；

图8是本申请实施例提供的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频生成进行详细地说明。

目前，用户可以通过文字、图像和声音接收信息，其中，文字是一种高度精炼的信息，在不同场景下表达方的和接收方对同样的文字信息的理解可能不同，甚至完全相反。然而，用户除了文字交流外，还可以通过语音以传达更多情绪化的信息。因此，在用户使用电子设备进行聊天时，可以通过发送语音与其他用户进行交流，但是由于语音传达的情感不够丰富，因而用户可以选择与其他用户进行视频通话，在视频通话可以为用户带来更多的亲切感的同时，也有很多局限性，因此，用户可以选择向其他用户发送表情包，若用户发送的表情包为非用户的表情包，则该表情包不能完全真实地表达出用户的真实情感，若用户需求制作表情包，则可以通过其他应用程序制作表情包，再向用户发送表情包，以表达情感，因此，在很多情况下，即使是简单图像的表情包也可能承担了用户需求表达情绪的作用，从而可以使得整个对话更加缓和与和谐。

在本申请实施例中，在显示目标会话界面的情况下，电子设备可以接收用户在目标会话界面中的第一输入，该第一输入为用户对目标音频和目标图像的输入；然后电子设备可以响应于第一输入，获取目标音频的音频特征信息，并根据音频特征信息，对目标视频进行切片处理，以得到音频情感特征序列，从而可以根据情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列，并根据目标图像和音频情感特征序列，生成表情图像序列，以使得电子设备可以基于目标图像、音频特征信息、姿势图像序列和表情图像序列，生成并输出目标视频。相较于传统技术中，若用户需求通过电子设备中的聊天类应用程序与用户A发送动态表情包时，需要提前使用表情包制作应用程序进行录入、剪辑和制作等多个步骤，本申请实施例中，用户无需提前通过表情包制作应用程序对视频和音频进行录入、剪辑等多个步骤，因此，简化了用户的操作，节省了用户的时间，如此，提升了电子设备制作动态表情包的效率和灵活性。

本申请实施例提供一种视频生成方法，图1示出了本申请实施例提供的一种视频生成方法的流程图。如图1所示，本申请实施例提供的视频生成方法可以包括下述的步骤201至步骤205。

步骤201、在显示目标会话界面的情况下，电子设备接收用户在目标会话界面中的第一输入。

本申请实施例中，第一输入为用户对目标音频和目标图像的输入。

本申请实施例中，用户可以打开电子设备的聊天类应用程序，并打开任意会话界面(例如目标会话界面)，以使得用户可以在该目标会话界面中进行输入(例如第一输入)，从而电子设备可以根据用户在目标会话界面上的第一输入，获取目标音频特征信息和目标图像的图像特征信息。

可选地，本申请实施例中，用户可以在电子设备显示目标会话界面的情况下，对目标图像和目标音频进行第一输入，以触发电子设备获取目标音频的音频特征信息和目标图像的图像特征信息。

可选地，本申请实施例中，用户可以在电子设备显示目标会话界面的情况下，同时对目标图像和目标音频进行第一输入，以触发电子设备获取目标音频的音频特征信息和目标图像的图像特征信息；或者，用户可以在电子设备显示目标会话界面的情况下，分别对目标图像和目标音频进第一输入，以触发电子设备获取目标音频的音频特征信息和目标图像的图像特征信息。

可选地，本申请实施例中，上述第一输入可以为语音输入、点击输入、圈选输入或长按输入等，具体的可以根据实施情况确定，本申请实施例不作任何限制。

可选地，本申请实施例中，第一输入还可以包括第一子输入和第二子输入，第一子输入为用户对语音控件的输入，以触发电子设备获取目标音频，从而根据目标音频获取目标音频的音频特征信息；第二子输入为用户对任意图像的输入(例如目标图像)，以触发电子设备获取目标图像，从而根据目标图像获取目标图像的图像特征信息。

示例性地，以电子设备为手机为例，如图2中的(A)所示，手机显示目标会话界面(例如用户A的会话界面)10，并在该界面10中显示语音控件11，用户可以对语音控件11进行第一子输入，以触发手机获取目标音频，如图2中的(B)所示，用户可以在用户A的会话界面10中对任意图像(例如目标图像)进行第二子输入，以触发手机获取目标图像，从而手机可以根据目标音频和目标图像获取目标音频的特征信息和目标图像的特征信息。

步骤202、电子设备响应于第一输入，获取目标音频的音频特征信息。

本申请实施例中，电子设备在接收到用户在目标会话界面上的第一输入之后，可以根据用户输入的目标音频，对目标音频进行音频特征提取处理，以获取该目标音频的音频特征信息。

可选地，本申请实施例中，在电子设备接收到用户的第一输入之后，可以对目标音频进行音频特征提取处理，以提取目标音频的梅尔频率倒谱系数特征，从而可以获取目标音频的音频特征信息，或者使用其他方法，以获取目标音频的音频特征信息，具体的可以根据实际使用情况确定，本申请实施例在此不做任何限制。

可选地，本申请实施例中，目标音频的音频特征信息包括以下至少一项：音色信息、音量信息、音乐长度、音域信息、音谱信息、旋律信息、节奏信息、情绪信息和情感信息等。

步骤203、电子设备根据音频特征信息，对目标音频进行音频切片处理，得到音频情感特征序列。

本申请实施例中，电子设备可以根据音频特征信息，对目标音频的每个片段进行音频切片处理，以得到每个片段对应的情感特征，从而得到音频情感特征序列。

可选地，本申请实施例中，上述步骤203具体可以通过下述的步骤203a1和步骤203a2实现。

步骤203a1、电子设备根据音频特征信息，对目标音频进行音频切片处理，得到至少两个音频片段。

本申请实施例中，电子设备可以采用预设算法，并根据音频特征信息，对目标音频进行音频切片处理，得到至少两个音频片段。

步骤203a2、电子设备对至少两个音频片段中的每个音频片段分别进行情感识别处理，得到音频情感特征序列。

可选地，本申请实施例中，电子设备对至少两个音频片段中的每个音频片段分别进行情感识别处理，得到音频情感特征序列I_audio。

可选地，本身实施例中，情感特征包括以下至少一项：中性、愤怒，开心，兴奋，伤心，沮丧，恐惧，惊讶和其他等。

步骤204、电子设备根据音频情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列，并根据目标图像和音频情感特征序列，生成表情图像序列。

可选地，本申请实施例中，上述步骤204中的“电子设备根据音频情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列”具体可以通过下述的步骤204a1至步骤204a4实现。

步骤204a1、电子设备对目标图像进行人脸检测处理，得到第一人脸图像，并获取第一人脸图像的人脸特征信息。

可选地，本申请实施例中，在电子设备接收到用户的第一输入之后，可以采用人脸检测算法对目标图像进行人脸识别处理，以识别出目标图像中的人脸图像，从而电子设备可以采用关键点人脸对齐算法对该目标图像中的人脸图像中的关键点(例如左眼、右眼、鼻子和嘴等)进行对齐处理，以得到对齐后人脸图像，即第一人脸图像，然后电子设备可以对第一人脸图像进行处理，以获取目标图像的图像特征信息。

可选地，本申请实施例中，电子设备可以预先保存标准人脸模型，并根据预先保存的标准人脸模型对目标图像中的人脸图像进行对齐处理，以使得电子设备可以获取目标图像的图像特征信息。

可选地，本申请实施例中，目标图像的图像特征信息可以包括以下至少一项：人脸信息、人脸关键部位信息、情绪信息、姿势信息和表情信息等。

步骤204a2、电子设备根据预设人脸特征序列和人脸特征信息，确定至少两个余弦距离。

本申请实施例中，每个余弦距离用于指示预设人脸特征序列中的一个预设人脸特征与人脸特征信息的差异程度。

可选地，本申请实施例中，电子设备可以预先采集大量的头部动作视频，并对每个视频中每帧的人脸图像进行预处理，并根据上述步骤202c1中的方法对其中的人脸图像进行检测和对齐，提取面部特征嵌入平均F_pose；同时电子设备可以对视频帧序列进行切片，对每个片段中图片帧应用人脸表情识别算法，取识别到的多数情感为当前片段的情感特征，从而得到人脸情感特征序列E_pose。并通过这些头部动作视频建立一个头部姿势库。

可选地，本申请实施例中，电子设备可以采用第一预设公式，并根据预设人脸特征序列和人脸特征信息，确定至少两个余弦距离。

步骤204a3、电子设备根据预设人脸情感特征序列和音频情感特征序列，确定至少两个相似度。

本申请实施例中，每个相似度用于指示预设人脸情感特征序列中的一个预设人脸情感特征与音频情感特征序列的差异程度。

可选地，本申请实施例中，电子设备可以采用第二预设公式和第三预设公式，预设人脸情感特征序列和音频情感特征序列，确定至少两个相似度。

其中，第二公式为：

第三公式为：

步骤204a4、电子设备根据至少两个余弦距离和至少两个相似度，确定姿势图像序列。

可选地，本申请实施例中，上述步骤204a4具体可以通过下述的步骤a和步骤b实现。

步骤a、电子设备对至少两个余弦距离和至少两个相似度进行加权处理，得到多个加权值。

本申请实施例中，每个加权值为一个余弦距离和一个相似度的加权值。

可选地，本申请实施例中，电子设备可以采用第四预设公式，对至少两个余弦距离和至少两个相似度进行加权处理，得到多个加权值。

其中，第四预设公式为：s＝α·s₁+β·s₂；

其中α和β为权衡参数，可选地，取α＝1，β＝0.5。

步骤b、电子设备确定与目标加权值对应的姿势图像，并将目标加权值对应的姿势图像确定为姿势图像序列。

本申请实施例中，目标加权值为多个加权值中权值最大的加权值。

可选地，本申请实施例中，电子设备可以从预设头部姿势模型中确定与目标加权值对应的姿势图像，并将目标加权值对应的姿势图像确定为姿势图像序列，然后对头部姿势库中的s排序，从而选择s得分最高的头部姿势作为候选姿势序列I_po_se。

可选地，本申请实施例中，上述步骤204中的“根据目标图像和音频情感特征序列，生成表情图像序列”具体可以通过下述的步骤204a5至步骤204a7实现。

步骤204a5、电子设备采用表情生成算法，根据目标图像和音频情感特征序列，生成至少两帧表情图像。

本申请实施例中，每帧表情图像为目标图像和音频情感特征序列中的一个音频情感特征生成的表情图像。

可选地，本申请实施例中，电子设备可以根据生成对抗网络，通过引入面部动作单元作为动作信息y₀，并结合目标图像I_y0，经过注意力图像生成器得到G_a，经过像素图像生成器得到G_I，以使得电子设备可以采用第五预设公式将两个生成器的输出结合得到生成生成至少两帧表情图像。

第五预设公式为：

I_yf＝G_A(I_y0|y₀)·G_I(I_y0|y₀)+(1-G_A(I_y0|y₀))·I_y0；

其中Ga为注意力生成器，该注意力生成器可以生成包含图像注意力位置的一维图像，Ga的输出表征了像素图像的每个像素在哪个范围内对最终的输出作用力度；Gi为像素图像生成器，用于生成包含图像像素的三维图像；真实图像判别器Di用于区分图像是真实的还是生成的；动作信息判别器Dy用来区分图像的动作单元信息，以使得生成的图像动作单元特性更好。

示例性地，图3是本申请实施例提供的一种表情特征序列生成方法示意图，如图3所示，电子设备通过将目标图像I_y0输入到生成器和动作单元结合y₀结合生成具有动作单元信息的图像I_yf，为了区分真实图像和生成图像将两者送入判别器去判断，Di区分真假图像，Dy区分动作单元信息，不断优化生成器和判别器达到共同进步，生成器和判别器训练完备。

可选地，本申请实施例中，电子设备可以通过改变输入动作单元的强度(强度范围0～1)，则可生成从一个表情到另一个表情的连续变化图像序列，即至少两个表情序列。

步骤204a6、电子设备在音频情感特征序列中的相邻非中性情感的音频情感特征之间添加中性情绪特征，得到处理后的音频情感特征序列。

可选地，本申请实施例中，电子设备可以在音频情感特征序列中的相邻非中性情感的音频情感特征之间添加中性情绪特征，然后对每个非中性情绪E⁽ⁱ⁾ _audio，生成由中性过渡到E⁽ⁱ⁾ _audio的图片序列为M⁽ⁱ⁾ _n2e，其帧数为L_n2e；以及由E⁽ⁱ⁾ _audio过渡到中性的图片序列M⁽ⁱ⁾ _e2n，帧数为L_e2n，并根据不同的情况，采用对应的预设公式，得到处理后的音频情感特征序列。

可选地，本申请实施例中，为了根据相邻情绪的类别，使得情绪变化地更加自然，不出现明显的突变，则相邻语音片段情感标签对应的图像序列有以下几种情况，对应帧数为L。

在一种可能的方式中：相邻情绪类别相同，则对应的图像序列为同一表情的重复序列，帧数为L_e。

其中，L＝L_e；

在另一种可能的方式中：相邻情绪类别不同且其中一个类别为中性，则对应的图形序列为两个表情的过渡图片序列。

其中，L＝L_e2nor L_n2e；

在又一种可能的方式中：相邻情绪类别不同且都不为中性，则对应的图形序列为前一个表情过渡为中性的图像序列加上中性过渡为后一个表情的图像序列。

其中，L＝L_e2n+L_n2e；

可选地，本申请实施例中，对于语音片段时长T_audio，设定最终视频的帧率FS，L应满足

L＝T_audio·FS；

步骤204a7、电子设备根据至少两帧表情图像和处理后的音频情感特征序列，生成表情图像序列。

本申请实施例中，电子设备可以根据至少两帧表情图像和处理后的音频情感特征序列，从图像序列中有序拼接成连续变化的序列I_frames即生成表情图像序列。

本申请实施例中，目标音频的音频长度和连续图片序列长度相等。

步骤205、电子设备基于目标图像、音频特征信息、姿势图像序列和表情图像序列，生成并输出目标视频。

可选地，本申请实施例中，上述步骤205具体可以通过下述的步骤205a至步骤205c实现。

步骤205a、电子设备对音频特征信息进行编码处理，得到目标音频特征，并对姿势图像序列中的每帧姿势图像分别进行编码处理，得到每帧姿势图像的姿势特征，以及对目标图像和表情图像序列中的每帧表情图像进行编码处理，得到每帧表情图像的特征向量。

可选地，本申请实施例中，电子设备可以根据编码器，分别对音频特征信息、姿势图像序列中的每帧姿势图像以及表情图像序列中的每帧表情图像进行处理，以得到目标音频特征、得到每帧姿势图像的姿势特征以及每帧表情图像的特征向量。

示例性地，图4示出了是本申请实施例提供的一种视频生成方法示意图，如图4所示，电子设备的编码器包括身份空间编码器E_i、身份无关空间编码器E_n，语音编码器E_a。其中，身份空间编码器E_i可以采用ResNeXt50网络，对输入的表情图像序列中的每帧表情图像进行编码处理，得到每帧表情图像的特征向量f_i，应用交叉熵损失函数L_i(f_i(i),f_i(j))，对输入的每帧表情图像进行分类进行模型训练。最终训练完备的E_i对输入的每帧表情图像输出每帧表情图像的特征向量f_i。身份无关空间编码器E_n则需要对训练视频进行预处理，首先是抽取视频的图片帧，并进行数据增强(包括颜色转换、透视变换、中心裁剪操作)以去除一部分身份信息。身份无关空间编码器E_n可以采用VGG-M，图片帧通过E_n生成身份无关特征F_n，再通过全连接层将F_n映射到姿势空间，得到每帧12维的姿势特征f_p。应用交叉熵损失函数L_p(f_p(i),f_p(j))，对输入的姿势图像序列中的每帧姿势图像进行分类进行模型训练。身份无关空间编码器E_n最终将输入的姿势图像序列中的每帧姿势图像映射到身份无关空间，再生成每帧姿势图像的姿势特征f_p。语音编码器E_a训练采用的和E_n训练图片相关的音频信息，可以采用ResNetSE34网络。首先提取音频梅尔特征信息，再经过E_a映射到说话内容空间得到音频特征F_a，同时身份无关特征F_n再通过全连接网络映射到说话内容空间F_a’。利用音频和视频的天然对齐性，对于相同视频下的视频帧，在说话内容空间中F_a和F_a’应该是距离很近的，不同视频中则距离很远。对于F_a’特征，可以取N个音频特征的负样本F_a-，电子设备采用第六预设公式，定义余弦相似度为

第六预设公式为：

采用第七预设公式，电子设备计算出视频到音频同步训练的对比损失为L_v2a

第七预设公式为：

采用同样的地其预设公式，电子设备计算出音频到视频同步训练的对比损失为L_a2v。

最后，电子设备采用第八预设公式，计算出音频和视频同步训练的损失函数为L_a

L_a＝L_v2a+L_a2v；

从而，电子设备可以根据最终语音编码器E_a将输入的对应单帧图像的音频映射到说话内容空间，生成音频特征f_a.

步骤205b、电子设备根据目标音频特征、每帧姿势图像的姿势特征和每帧表情图像的特征向量，生成第一图像序列。

可选地，本申请实施例中，电子设备可以在通过生成器，根据目标音频特征、每帧姿势图像的姿势特征和每帧表情图像的特征向量，生成第一图像序列。

步骤205c、电子设备对第一图像序列进行逐帧拼接处理，得到并输出目标视频。

可选地，本申请实施例中，电子设备可以采用生成对抗网络，对第一图像序列进行逐帧拼接处理，并对逐帧拼接处理后的图像序列进行压缩和封住，以得到并输出目标视频。

可选地，本申请实施例中，上述输出目标视频可以为保存目标视频、发送目标视频或显示目标视频等。

示例性地，结合图2，如图5所示，手机显示用户A的会话界面10，并在该界面10中输出目标视频。

本申请实施例提供一种视频生成方法，在显示目标会话界面的情况下，电子设备可以接收用户在目标会话界面中的第一输入，该第一输入为用户对目标音频和目标图像的输入；然后电子设备可以响应于第一输入，获取目标音频的音频特征信息，并根据音频特征信息，对目标视频进行切片处理，以得到音频情感特征序列，从而可以根据情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列，并根据目标图像和音频情感特征序列，生成表情图像序列，以使得电子设备可以基于目标图像、音频特征信息、姿势图像序列和表情图像序列，生成并输出目标视频。由于电子设备可以直接根据用户在会话界面上输入的语音和图像，直接生成对应的动态表情包，相较于传统技术中，若用户需求通过电子设备中的聊天类应用程序与某个用户(例如用户A)发送动态表情包时，需要提前使用表情包制作应用程序进行录入、剪辑和制作等多个步骤，本申请实施例中，用户无需提前通过表情包制作应用程序对视频和音频进行录入、剪辑等多个步骤，因此，简化了用户的操作，节省了用户的时间，如此，提升了电子设备制作动态表情包的效率和灵活性。

本申请实施例提供的视频生成方法，执行主体可以为视频生成装置。本申请实施例中以视频生成装置执行视频生成方法为例，说明本申请实施例提供的视频生成的装置。

图6示出了本申请实施例中涉及的视频生成装置的一种可能的结构示意图。如图6所示，该视频生成装置70可以包括：接收模块71、获取模块72、处理模块73、生成模块74和输出模块75。

其中，接收模块71，用于在显示目标会话界面的情况下，接收用户在目标会话界面中的第一输入，第一输入为用户对目标音频和目标图像的输入。获取模块72，用于响应于接收模块71接收的第一输入，获取目标音频的音频特征信息。处理器模块73，用于根据获取模块72获取的音频特征信息，对目标音频进行音频切片处理，得到音频情感特征序列；并根据音频情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列；生成模块74，用于基于接收模块71接收的目标图像、获取模块72获取的音频特征信息和所述处理模块73处理的姿势图像序列和表情图像序列，生成目标视频。输出模块75，用于输出生成模块74生成的目标视频。

在一种可能的实现方式中，处理模块73，具体用于根据音频特征信息，对目标音频进行音频切片处理，得到至少两个音频片段；并对至少两个音频片段中的每个音频片段分别进行情感识别处理，得到音频情感特征序列。

在一种可能的实现方式中，处理模块73，具体用于对目标图像进行人脸检测处理，得到第一人脸图像，并获取第一人脸图像的人脸特征信息；根据预设人脸特征序列和人脸特征信息，确定至少两个余弦距离，每个余弦距离用于指示预设人脸特征序列中的一个预设人脸特征与人脸特征信息的差异程度；根据预设人脸情感特征序列和音频情感特征序列，确定至少两个相似度，每个相似度用于指示预设人脸情感特征序列中的一个预设人脸情感特征与音频情感特征序列的差异程度；并根据至少两个余弦距离和至少两个相似度，确定姿势图像序列。

在一种可能的实现方式中，处理模块73，具体用于对至少两个余弦距离和至少两个相似度进行加权处理，得到多个加权值，每个加权值为一个余弦距离和一个相似度的加权值；并确定与目标加权值对应的姿势图像，并将目标加权值对应的姿势图像确定为姿势图像序列，目标加权值为多个加权值中权值最大的加权值。

在一种可能的实现方式中，生成模块74，具体用于采用表情生成算法，根据目标图像和音频情感特征序列，生成至少两帧表情图像，每帧表情图像为目标图像和音频情感特征序列中的一个音频情感特征生成的表情图像；在音频情感特征序列中的相邻非中性情感的音频情感特征之间添加中性情绪特征，得到处理后的音频情感特征序列；并根据至少两帧表情图像和处理后的音频情感特征序列，生成表情图像序列。

在一种可能的实现方式中，生成模块74，具体用于对音频特征信息进行编码处理，得到目标音频特征，并对姿势图像序列中的每帧姿势图像分别进行编码处理，得到每帧姿势图像的姿势特征，以及对目标图像和表情图像序列中的每帧表情图像进行编码处理，得到每帧表情图像的特征向量；根据目标音频特征、每帧姿势图像的姿势特征和每帧表情图像的特征向量，生成第一图像序列；并对第一图像序列进行逐帧拼接处理，得到并输出目标视频。

本申请实施例提供一种视频生成装置，由于电子设备可以直接根据用户在会话界面上输入的语音和图像，直接生成对应的动态表情包，相较于传统技术中，若用户需求通过电子设备中的聊天类应用程序与某个用户(例如用户A)发送动态表情包时，需要提前使用表情包制作应用程序进行录入、剪辑和制作等多个步骤，本申请实施例中，用户无需提前通过表情包制作应用程序对视频和音频进行录入、剪辑等多个步骤，因此，简化了用户的操作，节省了用户的时间，如此，提升了电子设备制作动态表情包的效率和灵活性。

本申请实施例中的视频生成装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频生成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频生成装置能够实现图1至5的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图7所示，本申请实施例还提供一种电子设备M00，包括处理器M01和存储器M02，存储器M02上存储有可在所述处理器M01上运行的程序或指令，该程序或指令被处理器M01执行时实现上述视频生成方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，用户输入单元107，用于在显示目标会话界面的情况下，接收用户在目标会话界面中的第一输入，第一输入为用户对目标音频和目标图像的输入。射频单元101，用于响应于第一输入，获取目标音频的音频特征信息。处理器110，用于根据音频特征信息，对目标音频进行音频切片处理，得到音频情感特征序列；根据音频情感特征序列，对目标图像进行姿势筛选处理，得到姿势图像序列，基于音频特征信息、姿势图像序列和表情图像序列，生成目标视频，并用于输出目标视频。

可选地，本申请实施例中，处理器110，具体用于对根据音频特征信息，对目标音频进行音频切片处理，得到至少两个音频片段；并对至少两个音频片段中的每个音频片段分别进行情感识别处理，得到音频情感特征序列。

可选地，本申请实施例中，处理器110，具体用于对目标图像进行人脸检测处理，得到第一人脸图像，并获取第一人脸图像的人脸特征信息；根据预设人脸特征序列和人脸特征信息，确定至少两个余弦距离，每个余弦距离用于指示预设人脸特征序列中的一个预设人脸特征与人脸特征信息的差异程度；根据预设人脸情感特征序列和音频情感特征序列，确定至少两个相似度，每个相似度用于指示预设人脸情感特征序列中的一个预设人脸情感特征与音频情感特征序列的差异程度；并根据至少两个余弦距离和至少两个相似度，确定姿势图像序列。

可选地，本申请实施例中，处理器110，具体用于对至少两个余弦距离和至少两个相似度进行加权处理，得到多个加权值，每个加权值为一个余弦距离和一个相似度的加权值；并确定与目标加权值对应的姿势图像，并将目标加权值对应的姿势图像确定为姿势图像序列，目标加权值为多个加权值中权值最大的加权值。

可选地，本申请实施例中，处理器110，具体用于采用表情生成算法，根据目标图像和音频情感特征序列，生成至少两帧表情图像，每帧表情图像为目标图像和音频情感特征序列中的一个音频情感特征生成的表情图像；在音频情感特征序列中的相邻非中性情感的音频情感特征之间添加中性情绪特征，得到处理后的音频情感特征序列；并根据至少两帧表情图像和处理后的音频情感特征序列，生成表情图像序列。

可选地，本申请实施例中，处理器110，具体用于对音频特征信息进行编码处理，得到目标音频特征，并对姿势图像序列中的每帧姿势图像分别进行编码处理，得到每帧姿势图像的姿势特征，以及对目标图像和表情图像序列中的每帧表情图像进行编码处理，得到每帧表情图像的特征向量；根据目标音频特征、每帧姿势图像的姿势特征和每帧表情图像的特征向量，生成第一图像序列；并对第一图像序列进行逐帧拼接处理，得到并输出目标视频。

本申请实施例提供一种电子设备，由于电子设备可以直接根据用户在会话界面上输入的语音和图像，直接生成对应的动态表情包，相较于传统技术中，若用户需求通过电子设备中的聊天类应用程序与某个用户(例如用户A)发送动态表情包时，需要提前使用表情包制作应用程序进行录入、剪辑和制作等多个步骤，本申请实施例中，用户无需提前通过表情包制作应用程序对视频和音频进行录入、剪辑等多个步骤，因此，简化了用户的操作，节省了用户的时间，如此，提升了电子设备制作动态表情包的效率和灵活性。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器x09可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

在显示目标会话界面的情况下，接收用户在所述目标会话界面中的第一输入，所述第一输入为用户对目标音频和目标图像的输入；

响应于所述第一输入，获取所述目标音频的音频特征信息；

根据所述音频特征信息，对所述目标音频进行音频切片处理，得到音频情感特征序列；

根据所述音频情感特征序列，对所述目标图像进行姿势筛选处理，得到姿势图像序列，并根据所述目标图像和所述音频情感特征序列，生成表情图像序列；

基于所述目标图像、所述音频特征信息、所述姿势图像序列和所述表情图像序列，生成并输出目标视频。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频特征信息进行音频切片处理，得到音频情感特征序列，包括：

根据所述音频特征信息，对所述目标音频进行音频切片处理，得到至少两个音频片段；

对所述至少两个音频片段中的每个音频片段分别进行情感识别处理，得到所述音频情感特征序列。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述音频情感特征序列，对所述目标图像进行姿势筛选处理，得到姿势图像序列，包括：

对所述目标图像进行人脸检测处理，得到第一人脸图像，并获取所述第一人脸图像的人脸特征信息；

根据预设人脸特征序列和所述人脸特征信息，确定至少两个余弦距离，每个余弦距离用于指示所述预设人脸特征序列中的一个预设人脸特征与所述人脸特征信息的差异程度；

根据预设人脸情感特征序列和所述音频情感特征序列，确定至少两个相似度，每个相似度用于指示所述预设人脸情感特征序列中的一个预设人脸情感特征与所述音频情感特征序列的差异程度；

根据所述至少两个余弦距离和所述至少两个相似度，确定所述姿势图像序列。

4.根据权利要求3所述的方法，其特征在于，所述根据所述至少两个余弦距离和所述至少两个相似度，确定所述姿势图像序列，包括：

对所述至少两个余弦距离和所述至少两个相似度进行加权处理，得到多个加权值，每个加权值为一个余弦距离和一个相似度的加权值；

确定与目标加权值对应的姿势图像，并将所述目标加权值对应的姿势图像确定为所述姿势图像序列，所述目标加权值为所述多个加权值中权值最大的加权值。

5.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标图像和所述音频情感特征序列，生成所述表情图像序列，包括：

采用表情生成算法，根据所述目标图像和所述音频情感特征序列，生成至少两帧表情图像，每帧表情图像为所述目标图像和所述音频情感特征序列中的一个音频情感特征生成的表情图像；

在所述音频情感特征序列中的相邻非中性情感的音频情感特征之间添加中性情绪特征，得到处理后的所述音频情感特征序列；

根据所述至少两帧表情图像和处理后的所述音频情感特征序列，生成所述表情图像序列。

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像、所述音频特征信息、所述姿势图像序列和所述表情图像序列，生成并输出目标视频，包括：

对所述音频特征信息进行编码处理，得到目标音频特征，并对所述姿势图像序列中的每帧姿势图像分别进行编码处理，得到所述每帧姿势图像的姿势特征，以及对所述目标图像和所述表情图像序列中的每帧表情图像进行编码处理，得到所述每帧表情图像的特征向量；

根据所述目标音频特征、所述每帧姿势图像的姿势特征和所述每帧表情图像的特征向量，生成第一图像序列；

对所述第一图像序列进行逐帧拼接处理，得到并输出所述目标视频。

7.一种视频生成装置，其特征在于，所述视频生成装置包括：接收模块、获取模块、处理模块、生成模块和输出模块；

所述接收模块，用于在显示目标会话界面的情况下，接收用户在所述目标会话界面中的第一输入，所述第一输入为用户对目标音频和目标图像的输入；

所述获取模块，用于响应于所述接收模块接收的所述第一输入，获取所述目标音频的音频特征信息；

所述处理模块，用于根据所述获取模块获取的所述音频特征信息，对所述目标音频进行音频切片处理，得到音频情感特征序列；并根据所述音频情感特征序列，对所述目标图像进行姿势筛选处理，得到姿势图像序列；

所述生成模块，用于根据所述目标图像和所述处理模块处理的音频情感特征序列，生成表情图像序列；并基于所述接收模块接收的所述目标图像、所述获取模块获取的所述音频特征信息和所述处理模块处理的姿势图像序列和表情图像序列，生成目标视频；

所述输出模块，用于输出所述生成模块生成的所述目标视频。

8.根据权利要求7所述的装置，其特征在于，

所述处理模块，具体用于根据所述音频特征信息，对所述目标音频进行音频切片处理，得到至少两个音频片段；并对所述至少两个音频片段中的每个音频片段分别进行情感识别处理，得到所述音频情感特征序列。

9.根据权利要求7或8所述的装置，其特征在于，

所述处理模块，具体用于对所述目标图像进行人脸检测处理，得到第一人脸图像，并获取所述第一人脸图像的人脸特征信息；

根据所述至少两个余弦距离和所述至少两个相似度，从确定所述姿势图像序列。

10.根据权利要求9所述的装置，其特征在于，

所述处理模块，具体用于对所述至少两个余弦距离和所述至少两个相似度进行加权处理，得到多个加权值，每个加权值为一个余弦距离和一个相似度的加权值；确定与目标加权值对应的姿势图像，并将所述目标加权值对应的姿势图像确定为所述姿势图像序列，所述目标加权值为所述多个加权值中权值最大的加权值。

11.根据权利要求7或8所述的装置，其特征在于，

所述生成模块，具体用于采用表情生成算法，根据所述目标图像和所述音频情感特征序列，生成至少两帧表情图像，每帧表情图像为所述目标图像和所述音频情感特征序列中的一个音频情感特征生成的表情图像；

12.根据权利要求7所述的装置，其特征在于，

所述生成模块，具体用于对所述音频特征信息进行编码处理，得到目标音频特征，并对所述姿势图像序列中的每帧姿势图像分别进行编码处理，得到所述每帧姿势图像的姿势特征，以及对所述目标图像和所述表情图像序列中的每帧表情图像进行编码处理，得到所述每帧表情图像的特征向量；

13.一种电子设备，其特征在于，包括处理器，和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的视频生成方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的视频生成方法的步骤。