CN115633223A

CN115633223A - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN115633223A
Application number: CN202211256196.1A
Authority: CN
Inventors: 曾夕娟; 何晨怡; 雷刚; 邓峰; 黄劲文
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-01-20

Abstract

本公开提供了一种视频处理方法、装置、电子设备及存储介质，属于计算机技术领域。方法包括：对第一视频进行分类，得到第一视频所属的视频类型；基于视频类型，确定第一视频的音频处理类型；对第一视频进行内容识别，得到音频处理类型对应的内容关键信息；获取目标视频信息，将目标视频信息添加在第一视频中，得到第二视频。本公开实施例提供了一种视频处理方法，考虑到属于不同视频类型的第一视频中的原有音频的特点，确定出第一视频所属的音频处理类型，按照该音频处理类型对应的处理方式，对第一视频进行处理，以针对不同视频类型的第一视频中的原有音频的特点进行处理，得到更具特色的第二视频，进行保证了第二视频的视频效果。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展，视频直播受到广大用户的喜爱。在直播场景下，通常会对直播视频中精彩的直播视频片段进行发布，以吸引用户对该主播账号进行关注，实现了对直播间进行直播引流。通常在将直播视频片段发布出去之前，会对该直播视频片段进行处理，以提升直播视频片段的视频效果，进而能够达到更好的直播引流效果。目前，通常采用固定模板对直播视频片段进行处理，固定模板并不适用于所有的直播视频片段，这样导致处理得到的直播视频片段的视频效果差。

发明内容

本公开提供一种视频处理方法、装置、电子设备及存储介质，能够提升第二视频的视频效果。本公开的技术方案如下：

根据本公开实施例的一方面，提供一种视频处理方法，所述方法包括：

对第一视频进行分类，得到所述第一视频所属的视频类型，所述视频类型指示所述第一视频包含的内容所属的类型；

基于所述视频类型，确定所述第一视频的音频处理类型，所述音频处理类型指示针对所述第一视频中原有音频的处理方式；

对所述第一视频进行内容识别，得到所述音频处理类型对应的内容关键信息，所述内容识别包括音频识别或视频帧识别中的至少一项，所述内容关键信息包括音频识别结果或视频帧识别结果中的至少一项；

获取目标视频信息，所述目标视频信息包括所述原有音频匹配的文本信息、所述内容关键信息匹配的音频或特效中的至少一项；

将所述目标视频信息添加在所述第一视频中，得到第二视频。

在一些实施例中，所述音频处理类型为第一原声类型，所述第一原声类型指示在处理所述第一视频的过程中，保留所述第一视频中的所述原有音频且不再增加额外的音频；所述将所述目标视频信息添加在所述第一视频中，得到第二视频，包括以下至少一项：

在所述目标视频信息包括所述原有音频匹配的文本信息的情况下，将所述文本信息作为字幕添加在所述第一视频中，得到所述第二视频；

在所述内容关键信息包括人脸关键点信息、且所述目标视频信息包括人脸特效的情况下，基于所述人脸关键点信息，确定所述第一视频中视频帧包含的人脸所处的位置，将所述人脸特效添加在所述第一视频中视频帧包含的人脸所处的位置，得到所述第二视频，所述人脸关键点信息指示人脸关键点在所述第一视频包含的各个视频帧中的位置。

在一些实施例中，所述音频处理类型为去除原声类型，所述去除原声类型指示在处理所述第一视频的过程中，将所述第一视频中的所述原有音频替换为其他音频；所述对所述第一视频进行内容识别，得到所述音频处理类型对应的内容关键信息，包括：

对所述第一视频进行人体关键点识别，得到所述去除原声类型对应的人体关键点信息，所述人体关键点信息指示人体关键点在所述第一视频包含的各个视频帧中的位置；

所述获取目标视频信息，包括：

基于所述人体关键点信息，确定所述第一视频中人体的运动频率；

获取与所述运动频率匹配的第一音频；

所述将所述目标视频信息添加在所述第一视频中，得到第二视频，包括：

将所述第一视频中的所述原有音频替换为所述第一音频，得到所述第二视频。

在一些实施例中，所述将所述第一视频中的所述原有音频替换为所述第一音频，得到所述第二视频，包括：

获取所述第一音频的切分点序列，所述切分点序列包括多个时间点，每个时间点为所述第一音频中的节奏点发生的时间点；

以所述切分点序列中的多个时间点为分割点，对所述第一视频进行分割，得到多个子视频片段；

以所述切分点序列中的多个时间点为分割点，对所述第一音频进行分割，得到多个音频片段；

将每个子视频片段中的原有音频替换为属于对应的时间段的音频片段，所述时间段为分割得到所述子视频片段的两个时间点之间的时间段；

按照所述多个子视频片段的时间先后顺序，对替换后的多个子视频片段进行组合，得到所述第二视频。

在一些实施例中，所述获取所述第一音频的切分点序列，包括：

获取所述第一音频的节奏点信息，所述节奏点信息包括多个时间点，所述时间点为所述第一音频中的节奏点发生的时间点；

基于目标间隔时长，从所述节奏点信息中的第一个时间点开始，对所述节奏点信息中的时间点进行筛选，以得到所述切分点序列，所述切分点序列中相邻的每两个时间点之间的间隔时长不小于所述目标间隔时长。

在一些实施例中，所述音频处理类型为第二原声类型，所述第二原声类型指示在处理所述第一视频的过程中，保留所述第一视频中所述原有音频的同时增加额外的音频；所述内容关键信息包括时间点信息，所述时间点信息包括所述第一视频中多个时间点中的目标时间点，所述目标时间点对应的情绪分值大于阈值，所述情绪分值指示所述第一视频中所述目标时间点处的音频对应的对象的情绪积极程度；所述获取目标视频信息，包括：

基于所述时间点信息中的目标时间点对应的情绪分值，确定所述目标时间点对应的情绪类型；

基于所述目标时间点对应的情绪类型，查询情绪类型与音频之间的对应关系，确定与所述目标时间点对应的情绪类型匹配的第二音频；

将所述第二音频添加在所述第一视频中所述目标时间点后，得到所述第二视频，以使所述第二视频在播放至所述目标时间点时播放所述第二音频。

在一些实施例中，所述方法还包括：

将与所述目标时间点对应的情绪分值匹配的贴纸特效，添加在所述第一视频包含的、且与所述目标时间点对应的视频帧中，以使添加后的第一视频在播放至所述目标时间点时显示所述贴纸特效。

在一些实施例中，所述基于所述时间点信息中的目标时间点对应的情绪分值，确定所述目标时间点对应的情绪类型，包括：

确定所述目标时间点对应的情绪分值所属的分值区间；

将所述分值区间对应的情绪类型，确定为所述目标时间点对应的情绪类型。

在一些实施例中，所述方法还包括：

获取与所述第一视频关联的互动信息，所述互动信息包括账号针对所述第一视频发布的评论信息或弹幕信息；

将所述互动信息，添加在所述第一视频包含的、且与所述目标时间点对应的视频帧中，以使添加后的第一视频在播放至所述目标时间点时显示所述互动信息。

在一些实施例中，所述第一视频为直播视频片段，所述将所述目标视频信息添加在所述第一视频中，得到第二视频之前，所述方法还包括：

对所述第一视频进行视频检测，确定所述第一视频对应的连麦人数，所述连麦人数为所述第一视频的视频画面包含的直播间画面的数量；在所述连麦人数包括多个的情况下，从所述第一视频中裁剪出主播账号的视频画面，以得到所述主播账号的视频片段；

所述将所述目标视频信息添加在所述第一视频中，得到第二视频，包括

将所述目标视频信息添加在所述主播账号的视频片段中，得到所述第二视频。

在一些实施例中，所述第一视频包括多个，所述将所述目标视频信息添加在所述第一视频中，得到第二视频，包括：

对于每个第一视频，将所述第一视频对应的目标视频信息添加在所述第一视频中；

将添加后的多个第一视频拼接成所述第二视频。

根据本公开实施例的另一方面，提供视频处理装置，所述装置包括：

分类单元，被配置为执行对第一视频进行分类，得到所述第一视频所属的视频类型，所述视频类型指示所述第一视频包含的内容所属的类型；

确定单元，被配置为执行基于所述视频类型，确定所述第一视频的音频处理类型，所述音频处理类型指示针对所述第一视频中原有音频的处理方式；

识别单元，被配置为执行对所述第一视频进行内容识别，得到所述音频处理类型对应的内容关键信息，所述内容识别包括音频识别或视频帧识别中的至少一项，所述内容关键信息包括音频识别结果或视频帧识别结果中的至少一项；

获取单元，被配置为执行获取目标视频信息，所述目标视频信息包括所述原有音频匹配的文本信息、所述内容关键信息匹配的音频或特效中的至少一项；

添加单元，被配置为执行将所述目标视频信息添加在所述第一视频中，得到第二视频。

在一些实施例中，所述音频处理类型为第一原声类型，所述第一原声类型指示在处理所述第一视频的过程中，保留所述第一视频中的所述原有音频且不再增加额外的音频；所述添加单元，被配置为执行以下至少一项：

在一些实施例中，所述音频处理类型为去除原声类型，所述去除原声类型指示在处理所述第一视频的过程中，将所述第一视频中的所述原有音频替换为其他音频；所述识别单元，被配置为执行对所述第一视频进行人体关键点识别，得到所述去除原声类型对应的人体关键点信息，所述人体关键点信息指示人体关键点在所述第一视频包含的各个视频帧中的位置；

所述获取单元，被配置为执行基于所述人体关键点信息，确定所述第一视频中人体的运动频率；获取与所述运动频率匹配的第一音频；

所述添加单元，被配置为执行将所述第一视频中的所述原有音频替换为所述第一音频，得到所述第二视频。

在一些实施例中，所述添加单元，被配置为执行获取所述第一音频的切分点序列，所述切分点序列包括多个时间点，每个时间点为所述第一音频中的节奏点发生的时间点；以所述切分点序列中的多个时间点为分割点，对所述第一视频进行分割，得到多个子视频片段；以所述切分点序列中的多个时间点为分割点，对所述第一音频进行分割，得到多个音频片段；将每个子视频片段中的原有音频替换为属于对应的时间段的音频片段，所述时间段为分割得到所述子视频片段的两个时间点之间的时间段；按照所述多个子视频片段的时间先后顺序，对替换后的多个子视频片段进行组合，得到所述第二视频。

在一些实施例中，所述添加单元，被配置为执行获取所述第一音频的节奏点信息，所述节奏点信息包括多个时间点，所述时间点为所述第一音频中的节奏点发生的时间点；基于目标间隔时长，从所述节奏点信息中的第一个时间点开始，对所述节奏点信息中的时间点进行筛选，以得到所述切分点序列，所述切分点序列中相邻的每两个时间点之间的间隔时长不小于所述目标间隔时长。

在一些实施例中，所述音频处理类型为第二原声类型，所述第二原声类型指示在处理所述第一视频的过程中，保留所述第一视频中所述原有音频的同时增加额外的音频；所述内容关键信息包括时间点信息，所述时间点信息包括所述第一视频中多个时间点中的目标时间点，所述目标时间点对应的情绪分值大于阈值，所述情绪分值指示所述第一视频中所述目标时间点处的音频对应的对象的情绪积极程度；

所述获取单元，被配置为执行基于所述时间点信息中的目标时间点对应的情绪分值，确定所述目标时间点对应的情绪类型；基于所述目标时间点对应的情绪类型，查询情绪类型与音频之间的对应关系，确定与所述目标时间点对应的情绪类型匹配的第二音频；

所述添加单元，被配置为执行将所述第二音频添加在所述第一视频中所述目标时间点后，得到所述第二视频，以使所述第二视频在播放至所述目标时间点时播放所述第二音频。

在一些实施例中，所述添加单元，还被配置为执行将与所述目标时间点对应的情绪分值匹配的贴纸特效，添加在所述第一视频包含的、且与所述目标时间点对应的视频帧中，以使添加后的第一视频在播放至所述目标时间点时显示所述贴纸特效。

在一些实施例中，所述获取单元，被配置为执行确定所述目标时间点对应的情绪分值所属的分值区间；将所述分值区间对应的情绪类型，确定为所述目标时间点对应的情绪类型。

在一些实施例中，所述获取单元，还被配置为执行获取与所述第一视频关联的互动信息，所述互动信息包括账号针对所述第一视频发布的评论信息或弹幕信息；

所述添加单元，还被配置为执行将所述互动信息，添加在所述第一视频包含的、且与所述目标时间点对应的视频帧中，以使添加后的第一视频在播放至所述目标时间点时显示所述互动信息。

在一些实施例中，所述装置还包括：

检测单元，被配置为执行对所述第一视频进行视频检测，确定所述第一视频对应的连麦人数，所述连麦人数为所述第一视频的视频画面包含的直播间画面的数量；在所述连麦人数包括多个的情况下，从所述第一视频中裁剪出主播账号的视频画面，以得到所述主播账号的视频片段；

所述添加单元，被配置为执行将所述目标视频信息添加在所述主播账号的视频片段中，得到所述第二视频。

在一些实施例中，所述第一视频包括多个，所述添加单元，被配置为执行对于每个第一视频，将所述第一视频对应的目标视频信息添加在所述第一视频中；将添加后的多个第一视频拼接成所述第二视频。

根据本公开实施例的另一方面，提供一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述视频处理方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当该计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述视频处理方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述视频处理方法。

本公开实施例提供了一种视频处理方法，考虑到属于不同视频类型的第一视频中的原有音频的特点，将视频类型划分成多种音频处理类型，以确定第一视频所属的视频类型的方式，进而确定出第一视频所属的音频处理类型，按照该音频处理类型对应的处理方式，对第一视频进行处理，以针对不同视频类型的第一视频中的原有音频的特点进行处理，得到更具特色的第二视频，进行保证了第二视频的视频效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种实施环境示意图。

图2是根据一示例性实施例示出的一种视频处理方法的流程图。

图3是根据一示例性实施例示出的另一种视频处理方法的流程图。

图4是根据一示例性实施例示出的另一种视频处理方法的流程图。

图5是根据一示例性实施例示出的另一种视频处理方法的流程图。

图6是根据一示例性实施例示出的一种获取弹幕信息的流程图。

图7是根据一示例性实施例示出的另一种视频处理方法的流程图。

图8是根据一示例性实施例示出的另一种视频处理方法的流程图。

图9是根据一示例性实施例示出的另一种视频处理方法的流程图。

图10是根据一示例性实施例示出的一种音频理解的流程图。

图11是根据一示例性实施例示出的一种图像理解的流程图。

图12是根据一示例性实施例示出的另一种视频处理方法的流程图。

图13是根据一示例性实施例示出的另一种视频处理方法的流程图。

图14是根据一示例性实施例示出的另一种视频处理方法的流程图。

图15是根据一示例性实施例示出的另一种视频处理方法的流程图。

图16是根据一示例性实施例示出的一种视频处理装置框图。

图17是根据一示例性实施例示出的另一种视频处理装置框图。

图18是根据一示例性实施例示出的一种终端的框图。

图19是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所使用的术语“至少一个”、“多个”、“每个”、“任一”，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个直播视频片段包括3个直播视频片段，而每个是指这3个直播视频片段中的每一个直播视频片段，任一是指这3个直播视频片段中的任意一个，可以是第一个直播视频片段，或者是第二个直播视频片段，或者是第三个直播视频片段。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。需要说明的是，本公开所涉及的信息(包括但不限于文本信息、节奏点信息等)、直播视频片段、音频等，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本公开中涉及到的直播视频片段都是在充分授权的情况下获取的。

本公开实施例提供的视频处理方法，由电子设备执行。在一些实施例中，该电子设备被提供为终端或者服务器。其中，终端为智能手机、智能手表、台式电脑、手提电脑、、MP3(Moving Picture Experts Group Audio Layer III，一种音频压缩技术)播放器、MP4(Moving Picture Experts Group 4，一种音视频编码压缩技术)播放器和膝上型便携计算机等设备中的至少一种。服务器为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。当电子设备被提供为终端时，由该终端实现视频处理方法所执行的操作；当电子设备被提供为服务器时，由该服务器实现视频处理方法所执行的操作。

在一些实施例中，电子设备被提供为服务器。图1是根据一示例性实施例示出的一种视频处理方法的实施环境示意图，如图1所示，该实施环境具体包括：终端101和服务器102，终端101和服务器102通过有线或无线网络连接。

终端101用于提供第一视频，向服务器102发送该第一视频，服务器102用于接收该第一视频，对该第一视频进行处理，得到第二视频。

在一些实施例中，以该第一视频为视频片段为例，终端101用于采集直播视频，向服务器102发送该直播视频，由该服务器102将该直播视频发布登录终端101的账号对应的直播间中，以实现视频直播。服务器102从该直播视频中提取直播视频片段，并对该直播视频片段进行处理，得到第二视频，以便后续能够对该第二视频进行发布。

在一些实施例中，终端101安装由服务器102提供服务的目标应用，该目标应用具有视频直播功能，用户通过终端101登录该目标应用，通过该目标应用向服务器102发送采集到的直播视频，即通过该目标应用实现直播。

另外，上述实施例是以服务器102从终端101发送的直播视频中提取直播视频片段为例进行说明的，而在另一实施例中，终端101在与服务器102进行交互进而实现直播的过程中，由终端101从直播视频中提取直播视频片段，向服务器102发送携带该直播视频片段的视频处理请求，之后再由服务器102基于该视频处理请求，对该直播视频片段进行处理；或者，终端101在进行直播的过程中，从直播视频中提取直播视频片段并进行保存，在未进行直播的情况下，向服务器102发送携带该直播视频片段的视频处理请求，之后再由服务器102基于该视频处理请求，对该直播视频片段进行处理。

图2是根据一示例性实施例示出的一种视频处理方法的流程图，如图2所示，该方法由电子设备执行，该方法包括以下步骤：

在步骤S201中，对第一视频进行分类，得到该第一视频所属的视频类型，该视频类型指示该第一视频包含的内容所属的类型。

该第一视频为任意类型的视频。该视频类型是按照视频包含的内容划分的类型，

在本公开实施例中，该第一视频为任意类型的视频。该视频类型是按照视频包含的内容进行划分的类型。例如，视频类型包括唱歌类型、舞蹈类型、乐器演奏类型、游戏类型、闲聊类型、二次元类型、影视综类型等。视频包含的内容不同，则该视频所归属的视频类型不同。通过对该第一视频进行分类，以确定出该第一视频包含怎样的内容，进而确定出该第一视频所属的视频类型。例如，第一视频中对象在唱歌，则确定该第一视频属于唱歌类型；或者，第一视频中对象在跳舞，则确定该第一视频属于舞蹈类型。

在步骤S202中，基于该视频类型，确定该第一视频的音频处理类型，该音频处理类型指示针对该第一视频中原有音频的处理方式。

在本公开实施例中，第一视频包含音频，属于不同视频类型的第一视频包含的音频的重要程度不同，例如，对于属于唱歌类型的第一视频，该第一视频中的原有音频是该第一视频中重要的信息，则在后续处理该第一视频处理时保留该第一视频中的原有音频。再例如，对于属于舞蹈类型或运动类型的第一视频，该第一视频中的原有音频不是该第一视频中重要的信息，则在后续处理该第一视频时无需保留该第一视频中的原有音频。因此，针对属于不同视频类型的第一视频中的原有音频的特点，将多种视频类型划分成多种音频处理类型，即每个视频类型属于一种音频处理类型，以指示出针对该第一视频中原有音频的处理方式。

例如，该音频处理类型包括第一原声类型、去除原声类型及第二原声类型，第一原声类型指示在处理第一视频的过程中，保留第一视频中的原有音频且不再增加额外的音频，去除原声类型指示在处理第一视频的过程中将第一视频中的原有音频替换为其他音频，第二原声类型指示在处理第一视频的过程中，保留第一视频中的原有音频的同时增加额外的音频；属于该第一原声类型的视频类型包括唱歌类型等，属于去除原声类型的视频类型包括舞蹈类型、运动类型等，属于第二原声类型的视频类型包括电商类型、闲聊类型等。

在步骤S203中，对该第一视频进行内容识别，得到该音频处理类型对应的内容关键信息。

其中，该内容关键信息是与第一视频包含的内容相关的信息。该第一视频包括音频和视频帧，则对该第一视频进行内容识别的过程包括音频识别或视频帧识别中的至少一种，该内容关键信息包括音频识别结果或视频帧识别结果中的至少一项。音频识别用于识别第一视频中的原有音频，以得到与该原有音频匹配的文本信息，视频帧识别用于识别第一视频中的视频帧，以得到视频帧包含的信息，如用于指示视频帧包含的人脸关键点所处的位置的人脸关键点信息、用于指示视频帧中人体关键点所处的位置的人体关键点信息等、或者，用于指示视频帧中包含的文字的文本信息等。

在本公开实施例中，在确定第一视频所属的音频处理类型后，针对属于该音频处理类型的第一视频的特性，对该第一视频进行内容识别，以得到该音频处理类型对应的内容关键信息，便于后续能够针对该第一视频中的原有音频的特点，基于该内容关键信息对该第一视频进行处理。

在步骤S204中，获取目标视频信息，该目标视频信息包括第一视频中的原有音频匹配的文本信息、该内容关键信息匹配的音频或特效中的至少一项。

其中，该目标视频信息是对该第一视频进行处理时用到的信息，该目标视频信息与音频处理类型匹配，是对属于该音频处理类型的第一视频进行处理时用到的信息。该目标视频信息能够包含多种形式的信息中的一种或多种，且目标视频信息包含哪种信息与该第一视频所属的音频处理类型相关。在内容关键信息包括第一视频中的原有音频匹配的文本信息的情况下，即能够将第一视频中的原有音频匹配的文本信息作为该目标视频信息。或者，在内容关键信息包括第一视频中的原有音频匹配的文本信息或者其他信息的情况下，能够获取与该文本信息匹配的音频作为该目标视频信息，或者，还能够获取特效作为该目标视频信息。特效是指视频中的一种特殊效果，用于丰富视频的显示效果，例如，该特效包括人脸特效、礼物特效、弹幕特效等。

在步骤S205中，将该目标视频信息添加在该第一视频中，得到第二视频。

在本公开实施例中，每种音频处理类型对应一种用于对视频进行处理的处理方式，每种处理方式包括内容识别过程和视频处理过程，内容识别过程是从视频中提取与该音频处理类型对应的内容关键信息，视频处理过程是利用识别到的内容关键信息，获取目标视频信息并添加在视频中，以得到新的视频。这样，针对属于任一音频处理类型的第一视频，采用与该音频处理对应的、针对该第一视频中的原有音频的特点的处理方式，对该第一视频进行处理，以得到新的第二视频，以保证得到的第二视频的视频效果。

在一些实施例中，音频处理类型为第一原声类型，第一原声类型指示在处理第一视频的过程中，保留第一视频中的原有音频且不再增加额外的音频；将目标视频信息添加在第一视频中，得到第二视频，包括以下至少一项：

在目标视频信息包括原有音频匹配的文本信息的情况下，将文本信息作为字幕添加在第一视频中，得到第二视频；

在内容关键信息包括人脸关键点信息、且目标视频信息包括人脸特效的情况下，基于人脸关键点信息，确定第一视频中视频帧包含的人脸所处的位置，将人脸特效添加在第一视频中视频帧包含的人脸所处的位置，得到第二视频，人脸关键点信息指示人脸关键点在第一视频包含的各个视频帧中的位置。

本公开实施例提供了一种针对属于第一原声类型的第一视频的处理方式，在确定第一视频属于第一原声类型的情况下，从第一视频中识别出与音频匹配的文本信息，并作为字幕添加在第一视频中，以使后续在播放得到的第二视频时能够同步显示字幕，保证了第二视频的视频效果。并且，还能够通过识别出各个视频帧中人脸关键点的位置，确定出各个视频帧中人脸所处的位置，将人脸特效添加在视频帧中人脸所处的位置，以提升视频帧的显示效果，进而提升第二视频的视频效果。

在一些实施例中，音频处理类型为去除原声类型，去除原声类型指示在处理第一视频的过程中，将第一视频中的原有音频替换为其他音频；对第一视频进行内容识别，得到音频处理类型对应的内容关键信息，包括：

对第一视频进行人体关键点识别，得到去除原声类型对应的人体关键点信息，人体关键点信息指示人体关键点在第一视频包含的各个视频帧中的位置；

获取目标视频信息，包括：

基于人体关键点信息，确定第一视频中人体的运动频率；

获取与运动频率匹配的第一音频；

将目标视频信息添加在第一视频中，得到第二视频，包括：

将第一视频中的原有音频替换为第一音频，得到第二视频。

在本公开实施例中，该第一视频属于去除原声类型，该第一视频中的原有音频不是该第一视频中重要的信息，则通过获取与第一视频中人体的运动频率匹配的第一音频，并将第一视频中的原有音频替换为第一音频，使得第二视频中的音频与第二视频中人体的运动频率匹配，进而提升了第二视频的视频效果。

在一些实施例中，将第一视频中的原有音频替换为第一音频，得到第二视频，包括：

获取第一音频的切分点序列，切分点序列包括多个时间点，每个时间点为第一音频中的节奏点发生的时间点；

以切分点序列中的多个时间点为分割点，对第一视频进行分割，得到多个子视频片段；

以切分点序列中的多个时间点为分割点，对第一音频进行分割，得到多个音频片段；

将每个子视频片段中的原有音频替换为属于对应的时间段的音频片段，时间段为分割得到子视频片段的两个时间点之间的时间段；

按照多个子视频片段的时间先后顺序，对替换后的多个子视频片段进行组合，得到第二视频。

在本公开实施例中，切分点序列中相邻的每两个时间点之间间隔一个时间段，该时间段对应有一个子视频片段和一个音频片段，则将任一时间段对应的子视频片段中的原有音频替换为该时间段对应的音频片段，以保证替换后的每个子视频片段中的人体的运动频率与音频片段的节奏相匹配，进而保证每个子视频片段的视频效果。

在一些实施例中，获取第一音频的切分点序列，包括：

获取第一音频的节奏点信息，节奏点信息包括多个时间点，时间点为第一音频中的节奏点发生的时间点；

基于目标间隔时长，从节奏点信息中的第一个时间点开始，对节奏点信息中的时间点进行筛选，以得到切分点序列，切分点序列中相邻的每两个时间点之间的间隔时长不小于目标间隔时长。

在本公开实施例中，基于设定的目标间隔时长，对节奏点信息中的多个时间点进行筛选，以保证筛选得到的切分点序列中相邻的每两个时间点之间的间隔时长不小于目标间隔时长，进而保证切分点序列中相邻的每两个时间点之间的间隔时长足够长，便于后续用于对第一音频或第一视频进行分割。

在一些实施例中，音频处理类型为第二原声类型，第二原声类型指示在处理第一视频的过程中，保留第一视频中原有音频的同时增加额外的音频；内容关键信息包括时间点信息，时间点信息包括第一视频中多个时间点中的目标时间点，目标时间点对应的情绪分值大于阈值，情绪分值指示第一视频中目标时间点处的音频对应的对象的情绪积极程度；获取目标视频信息，包括：

基于时间点信息中的目标时间点对应的情绪分值，确定目标时间点对应的情绪类型；

基于目标时间点对应的情绪类型，查询情绪类型与音频之间的对应关系，确定与目标时间点对应的情绪类型匹配的第二音频；

将目标视频信息添加在第一视频中，得到第二视频，包括：

将第二音频添加在第一视频中目标时间点后，得到第二视频，以使第二视频在播放至目标时间点时播放第二音频。

在本公开实施例提供了一种智能配音方式，设置有多种情绪类型及情绪类型与音频之间的对应关系，该对应关系包括属于每种情绪类型的音频，查询该对应关系，即可确定与目标时间点对应的情绪类型匹配的第二音频，在确定出每个目标时间点对应的第二音频后，将每个第二音频添加在对应的目标时间点后，以使第二视频在播放至目标时间点时播放该第二音频，以丰富第一视频中的信息，烘托出第一视频中的氛围，进而提升第二视频的视频效果。

在一些实施例中，方法还包括：

将与目标时间点对应的情绪分值匹配的贴纸特效，添加在第一视频包含的、且与目标时间点对应的视频帧中，以使添加后的第一视频在播放至目标时间点时显示贴纸特效。

本公开实施例中，通过在第一视频中添加与目标时间点对应的情绪分值匹配的贴纸特效，以对第一视频的内容进行补充，增强该第一视频中的情绪，以提升得到第二视频的视频效果。

在一些实施例中，基于时间点信息中的目标时间点对应的情绪分值，确定目标时间点对应的情绪类型，包括：

确定目标时间点对应的情绪分值所属的分值区间；

将分值区间对应的情绪类型，确定为目标时间点对应的情绪类型。

在本公开实施例，每种情绪类型对应的分值区间，在确定目标时间点对应的情绪分值后，通过查询情绪分值所属的分值区间，即可确定出目标时间点对应的情绪类型，以保证确定出的情绪类型的准确性，进而保证后续匹配到的第二音频的准确性，进而保证后续得到的第二视频的视频效果。

在一些实施例中，方法还包括：

获取与第一视频关联的互动信息，互动信息包括账号针对第一视频发布的评论信息或弹幕信息；

将互动信息，添加在第一视频包含的、且与目标时间点对应的视频帧中，以使添加后的第一视频在播放至目标时间点时显示互动信息。

在本公开实施例中，针对第一视频发布评论信息或弹幕信息的账号为观众账号，账号会针对该第一视频发布评论信息或弹幕信息，以便该账号与其他账号进行互动，而这些评论信息或弹幕信息即为与该第一视频关联的互动信息。通过将互动信息添加在目标时间点对应的视频帧中，以便丰富第二视频中的信息，体现出在该目标时间点处多个账号参与互动的效果，进而提升该第二视频的视频效果。

在一些实施例中，第一视频为直播视频片段，将目标视频信息添加在第一视频中，得到第二视频之前，方法还包括：

对第一视频进行视频检测，确定第一视频对应的连麦人数，连麦人数为第一视频的视频画面包含的直播间画面的数量；在连麦人数包括多个的情况下，从第一视频中裁剪出主播账号的视频画面，以得到主播账号的视频片段；

将目标视频信息添加在第一视频中，得到第二视频，包括：

将目标视频信息添加在主播账号的视频片段中，得到第二视频。

本公开实施例提供的方案，在第一视频为直播视频片段的情况下，通过对第一视频进行视频检测，以确定出第一视频对应的连麦人数，进而根据连麦人数对第一视频进行处理，以提升视频处理的智能化，丰富视频处理的样式，保证最终得到的第二视频的视频效果。

在一些实施例中，第一视频包括多个，将目标视频信息添加在第一视频中，得到第二视频，包括：

对于每个第一视频，将第一视频对应的目标视频信息添加在第一视频中；

将添加后的多个第一视频拼接成第二视频。

在本公开实施例中，通过对多个第一视频进行视频处理，生成一个第二视频，这样，能够丰富第二视频包含的内容，以保证第二视频的视频效果。

上述图2所示仅为本公开的基本流程，在上述图2所示的实施例的基础上，以该第一视频为直播视频片段、且直播视频片段所属的音频处理类型为第一原声类型为例，在对该直播视频片段进行处理时会在直播视频片段中添加字幕，具体过程详见下述实施例。

图3是根据一示例性实施例示出的另一种视频处理方法的流程图，该方法由电子设备执行，如图3所示，该方法包括以下步骤：

在步骤S301中，对直播视频片段进行分类，得到该直播视频片段所属的直播垂类，该直播垂类指示该直播视频片段包含的内容所属的类型。

在本公开实施例中，该直播视频片段是从直播视频中提取到的视频片段。以该第一视频为直播场景下的直播视频片段为例，第一视频所属的视频类型能够称为直播垂类，直播垂类是指直播场景下的垂直领域，是按照直播场景下的直播视频片段包含的内容进行划分的类型。例如，直播垂类包括唱歌垂类、舞蹈垂类、乐器演奏垂类、游戏垂类、闲聊垂类、二次元垂类、影视综垂类等。在直播场景下，直播视频片段包含的内容不同，则该直播视频片段所归属的直播垂类不同。通过对该直播视频片段进行分类，以确定出该直播视频片段包含怎样的内容，进而确定出该直播视频片段所属的直播垂类。例如，直播视频片段中主播在进行唱歌，则确定该直播视频片段属于唱歌垂类；或者，直播视频片段中主播在进行跳舞，则确定该直播视频片段属于舞蹈垂类。

在一些实施例中，对该直播视频片段进行分类的过程，包括以下两种方式：

方式一：采用分类模型，对该直播视频片段进行分类，得到该直播视频片段所属的直播垂类。

其中，该分类模型用于确定直播视频片段所属的直播垂类，该分类模型为任意的网络模型，该网络模型时采用AI(Artificial Intelligence，人工智能)技术训练得到的，本公开对此不做限定。

方式二：对该直播视频片段中的视频帧进行分类，得到每个视频帧所属的直播垂类，基于直播视频片段中多个视频帧所属的直播垂类，确定该直播视频片段所属的直播垂类。

在本公开实施例中，直播视频片段包括多个视频帧，不同视频帧包含的内容不同，则不同视频帧可能属于不同的直播垂类，在确定出直播视频片段中多个视频帧所属的直播垂类后，通过直播视频片段中多个视频帧所属的直播垂类，能够反映出该直播视频片段所属的直播垂类。

在一些实施例中，基于多个视频帧所属的直播垂类确定直播视频片段所属的直播垂类的过程，包括：确定属于每个直播垂类的视频帧的数量，将最大数量对应的直播垂类确定为该直播视频片段所属的直播垂类。

在本公开实施例中，通过识别直播视频片段中每个视频帧所属的直播垂类，将直播视频片段中占比最大的直播垂类作为该直播视频片段所属的直播垂类，以保证确定出的直播垂类的准确性。

在步骤S302中，基于直播视频片段所属的直播垂类，确定该直播视频片段的音频处理类型，该音频处理类型为第一原声类型，该第一原声类型指示在处理直播视频片段的过程中保留该直播视频片段中的原有音频且不再增加额外的音频。

在本公开实施例中，每种直播垂类属于一种音频处理类型，在确定直播视频片段所属的直播垂类后，即可确定出该直播垂类所属的音频处理类型，也即是，该直播视频片段属于该音频处理类型。本公开实施例是以该直播视频片段属于第一原声类型为例，对于属于该第一原声类型的直播视频片段，该直播视频片段中的原有音频为该直播视频片段中重要的信息，在处理该直播视频片段的过程中保留原有的音频，且不适合在该直播视频片段中添加其他的音频，以避免对该直播视频片段中的原有音频造成干扰。

在一些实施例中，确定直播视频片段的音频处理类型的过程包括：基于直播视频片段所属的直播垂类，查询直播垂类与音频处理类型之间的对应关系，得到该直播视频片段的音频处理类型。

在本公开实施例中，电子设备中存储有直播垂类与音频处理类型之间的对应关系，在该对应关系中，每个直播垂类与一个音频处理类型对应，在确定直播视频片段所属的直播垂类后，查询该对应关系，即可确定出该直播视频片段的音频处理类型。

在步骤S303中，对直播视频片段进行内容识别，得到第一原声类型对应的内容关键信息，该内容关键信息包括与该直播视频片段中的原有音频匹配的文本信息。

在本公开实施例中，该文本信息即为对直播视频片段进行音频识别得到的音频识别结果。在本公开实施例中，音频是多个采样点数据的序列，例如，1秒音频包含16000个采样点数据。从直播视频片段中提取音频，提取到的音频能够以.pcm(Pulse CodeModulation，脉冲编码调制)或.wav(一种数字音频)格式的文件形式存在。通过对直播视频片段中的原有音频进行识别，以得到该文本信息，而对直播视频片段中的原有音频进行识别的过程包括以下两种方式：

方式一：对该直播视频片段中的原有音频进行音频识别，得到与该原有音频匹配的文本信息。

在本公开实施例中，属于第一原声类型的直播视频片段中的原有音频为该直播视频片段中重要的信息，因此，对该直播视频片段中的原有音频进行音频识别，以确定出与该原有音频匹配的文本信息，将该文本信息作为后续用于处理该直播视频片段的内容关键信息。

例如，该直播视频片段所属的直播垂类为唱歌垂类，该唱歌垂类属于第一原声类型，该直播视频片段中的原有音频包括主播唱歌的声音，则对该直播视频片段中的原有音频进行音频识别，得到该音频中主播所唱歌曲的歌词文本信息。

在一些实施例中，该方式一包括：对该直播视频片段中的原有音频包含的多个音频片段进行分类，得到该音频中每个音频片段所属的音频类别，从该多个音频片段中提取属于演唱类别的音频片段，对属于演唱类别的音频片段进行音频识别，得到与该原有音频匹配的文本信息。

在本公开实施例中，音频类别包括演唱类别，属于演唱类别的音频片段包含主播演唱歌曲的声音。在一些实施例中，音频类别还包括伴奏类别、说话类别和演唱类别。属于伴奏类别的音频片段包含伴奏信息，而属于说话类别的音频片段包含主播说话的声音，属于演唱类别的音频片段包含主播演唱歌曲的声音。在一些实施例中，采取音频分类模型，对直播视频片段中的原有音频进行分类；采用音频识别模型，对属于演唱类别的音频片段进行音频识别，该音频识别模型为任意的网络模型，例如，该音频识别模型为ASR(AutomaticSpeech Recognition，自动音频识别)。在本公开实施例中，直播视频片段中的原有音频是由多个音频片段构成的音频序列，通过对音频序列中的多个音频片段进行分类，即可得到分别属于不同音频类别的音频序列。例如，属于伴奏类别的音频片段序列F_M＝[F_M_1,…,F_M_i,…,F_M_n]，属于演唱类别的音频片段序列F_S＝[F_S_1,…,F_S_i,…,F_S_n]，属于说话类别的音频片段序列F_T＝[F_T_1,…,F_T_i,…,F_T_n]。

通过对原有音频包含的多个音频片段进行分类，以识别出属于演唱类别的音频片段，仅对演唱类别的音频片段进行音频识别，即可得到与该原有音频匹配的文本信息，无需对原有音频中所有的音频片段进行音频识别，进而节省了获取文本信息所需的资源，提升了获取文本信息的效率。

方式二：对该直播视频片段中的原有音频进行音乐识别，得到与该音频匹配的文本信息。

在本公开实施例中，文本信息包含与该音频中的音乐匹配的音乐名称。通过对直播视频片段中的原有音频进行音乐识别，即可得到与该音频中的音乐匹配的音乐名称。

在一些实施例中，该方式二包括：对该直播视频片段中的原有音频包含的多个音频片段进行分类，得到该原有音频中每个音频片段所属的音频类别，从该多个音频片段中提取属于演唱类别的音频片段及属于伴奏类别的音频片段，对属于演唱类别的音频片段及属于伴奏类别的音频片段进行音乐识别，得到包含音乐名称的文本信息。

在本公开实施例中，音频类别包括伴奏类别和演唱类别。考虑到音乐包含伴奏部分和演唱部分，则通过对原有音频包含的多个音频片段进行分类，以识别出属于演唱类别的音频片段及属于伴奏类别的音频片段，仅对属于演唱类别的音频片段及属于伴奏类别的音频片段进行音乐识别，即可得到与属于演唱类别的音频片段及属于伴奏类别的音频片段匹配的文本信息，无需对原有音频中所有的音频片段进行音频识别，进而节省了获取文本信息所需的资源，提升了获取文本信息的效率。在一些实施例中，采用音乐识别模型，对属于演唱类别的音频片段及属于伴奏类别的音频片段进行音乐识别。

在步骤S304中，获取目标视频信息，该目标视频信息包括直播视频片段中的原有音频匹配的文本信息。

在本公开实施例中，将内容识别得到的内容关键信息包括与该直播视频片段中的原有音频匹配的文本信息，确定为该目标视频信息。

在步骤S305中，将目标视频信息包括的文本信息作为字幕添加在直播视频片段中，得到第二视频。

本公开实施例提供了一种针对属于第一原声类型的直播视频片段进行处理的方式，在确定直播视频片段属于第一原声类型的情况下，从直播视频片段中识别出与音频匹配的文本信息，并作为字幕添加在直播视频片段中，以使后续在播放得到的第二视频时能够同步显示字幕，保证了第二视频的视频效果。

例如，该直播视频片段属于唱歌垂类，该唱歌垂类属于第一原声类型，则针对该直播视频片段，识别出与该直播视频片段中的原有音频匹配的文本信息，该文本信息包括歌词文本信息或者音乐名称中的至少一项，将该文本信息作为字幕添加在直播视频片段中，得到第二视频，后续在播放第二视频时，会同步显示出歌词字幕或者音乐名称字幕，以使观看该第二视频的用户能够获知该直播视频片段中演唱歌曲的歌词或者歌曲名称，提升了该第二视频的视频效果。

在一些实施例中，文本信息包括歌词文本信息和音乐名称，采用智能标题和自动字幕的方式，将音乐名称作为该直播视频片段的标题，将歌词文本信息作为直播视频片段底部的歌词字幕，自动选择显示方式、字体、颜色、字，对直播视频片段进行字幕渲染，得到该第二视频。

例如，在文本信息包括歌词文本信息和音乐名称的情况下，将音乐名称添加在直播视频片段开头的视频帧中，并将歌词文本信息中的歌词语句分别添加在对应的视频帧中，以使在播放第二视频时，显示音乐名称，并同步显示歌词。

需要说明的是，本公开实施例是以音频处理类型对应的目标视频信息包括原有音频匹配的文本信息为例，将文本信息作为字幕添加在直播视频片段中，而在另一实施例中，在音频处理类型对应的目标视频信息包括其他信息的情况下，无需执行上述步骤S305，而是采取其他方式，将音频处理类型对应的目标视频信息添加在直播视频片段中，得到第二视频。

在一些实施例中，以第一原声类型对应的内容关键信息包括人脸关键点信息、且目标视频信息包括人脸特效为例，则获取第二视频的过程，包括：基于人脸关键点信息，确定直播视频片段中视频帧包含的人脸所处的位置，将目标视频信息中的人脸特效添加在直播视频片段中视频帧包含的人脸所处的位置，得到第二视频。

其中，人脸关键点信息指示人脸关键点在直播视频片段包含的各个视频帧中的位置，则基于该人脸关键点信息，能够确定出每个视频帧中的人脸关键点的位置，进而确定出每个视频帧中人脸所处的位置。本公开通过识别出各个视频帧中人脸关键点的位置，确定出各个视频帧中人脸所处的位置，将人脸特效添加在视频帧中人脸所处的位置，以提升视频帧的显示效果，进而提升第二视频的视频效果。

例如，人脸特效为美颜特效，则将美颜特效添加在直播视频片段中视频帧包含的人脸所处的位置，以提升视频帧中包含的人脸的显示效果，进而提升第二视频的视频效果。

在一些实施例中，电子设备中设置有特效数据库，特效数据库中包括多个人脸特效，从特效数据库中选择人脸特效添加在直播视频片段中。例如，从特效数据库中选择与直播视频片段所属的直播垂类匹配的人脸特效添加在直播视频片段中。

在一些实施例中，获取包含人脸关键点信息的内容关键信息的过程包括：对直播视频片段进行抽帧，得到该直播视频片段包含的多个视频帧，采用人脸检测模型，分别对每个视频帧进行人脸识别，得到人脸关键点信息。

需要说明的是，上述实施例是以第一原声类型对应的目标视频信息仅包括文本信息，或者，仅包括人脸特效为例进行说明的，而在另一实施例中，还能够将上述两种方式进行结合，例如，人脸特效包括与直播视频片段中的原有音频匹配的文本信息及人脸特效，内容关键信息包括人脸关键点信息，则在步骤S303之后，获取第二视频的过程包括：将文本信息作为字幕添加在直播视频片段中；基于人脸关键点信息确定直播视频片段中视频帧包含的人脸所处的位置，将人脸特效添加在直播视频片段中视频帧包含的人脸所处的位置，得到第二视频。

在本公开实施例中，采用多模态技术对直播视频片段进行内容识别，不仅对直播视频片段中的视频帧进行识别，还对直播视频片段中的原有音频进行识别，以丰富识别到的目标视频信息，这样，将采取多元化的处理方式，目标视频信息添加在直播视频片段中，以提升得到的第二视频的视频效果。

需要说明的是，在上述实施例的基础上，在得到第二视频之前，还能对直播视频片段进行其他处理，以提升得到的第二视频的视频效果，详见下述五种方式。

方式一：对直播视频片段中的原有音频进行声音增强，以降低音频中的噪声，提升该第二视频的视频效果。例如，采用音频增强模型，对直播视频片段中的原有音频进行声音增强。

方式二：对直播视频片段中的视频帧进行噪点去除，以提升直播视频片段中视频帧的清晰度，使直播视频片段的画质增强，提升了直播视频片段的视频效果。例如，采用图像去噪模型，对视频帧进行噪点去除。

方式三：对直播视频片段中的视频帧进行图像美化，以提升视频帧的显示效果。例如，对视频帧中的人脸进行自动美颜，或者，基于直播视频片段所属的直播垂类增加与该直播垂类匹配的滤镜，以提升视频帧的显示效果。

方式四：从直播视频片段包含的多个视频帧中选取目标视频帧，作为该第二视频的封面图像。其中，该封面图像是将该第二视频发布出去后且该第二视频未播放时显示的图像。例如，对该第二视频投放在视频展示界面后，在视频展示界面显示发布的多个视频，在视频未播放的情况下显示的视频图像即为视频的封面图像。对于选取目标视频帧的方式，能够采用智能封面提取模型，从直播视频片段中选出能够代表该直播视频片段的视频帧作为封面图像。例如，从直播视频片段中选出具有美感的视频帧，作为第二视频的封面图像。本公开实施例采用了智能封面的方式，从第二视频帧中选取目标视频帧作为该第二视频的封面图像，以提升第二视频再被发布后的显示效果。

方式五：获取与直播视频片段所属的直播垂类匹配的背景图像，对于直播视频片段中包含人体的视频帧，将该视频帧中除人体所在的区域以外的图像，替换为该背景图像，得到更新后的视频帧，由更新后的视频帧及直播视频片段中的原有音频构成该第二视频。本公开实施例，采用图像分割算法，将人体抠出来，然后加上与直播视频片段所属的直播垂类匹配的背景图像，实现了对直播视频片段的智能抠图，提升了得到第二视频的视频效果。

在一些实施例中，电子设备设置有背景数据库，该背景数据库包括多种直播垂类对应的背景图像，同一直播垂类对应的背景图像包括横屏背景图像和竖屏背景图像。在为直播视频片段中的视频帧更换背景图像时，基于视频帧是横屏视频帧还是竖屏视频帧，为该视频帧适配相应的横屏背景图像或竖屏背景图像。在一些实施例中，以横屏背景图像更新视频帧时，背景漏出的部分较多；以竖屏背景图像更新视频帧时，背景漏出的部分较少。

方式六：将直播视频片段最后的目标时间段的视频帧增加逐渐变黑的效果，以使直播视频片段在播放时能够体现出逐渐退出播放的效果，以表示第二视频播放完成，提升了第二视频的视频效果。

本公开通过识别出各个视频帧中人脸关键点的位置，确定出各个视频帧中人脸所处的位置，将人脸特效添加在视频帧中人脸所处的位置，以提升视频帧的显示效果，进而提升第二视频的视频效果。

在本公开实施例中，采用多模态技术对直播视频片段进行内容识别，不仅对直播视频片段中的视频帧进行识别，还对直播视频片段中的原有音频进行识别，以丰富识别到的信息，这样，将采取多元化的处理方式，目标视频信息添加在直播视频片段中，以提升得到的第二视频的视频效果。

上述图2所示仅为本公开的基本流程，在上述图2所示的实施例的基础上，以该第一视频为直播视频片段、且直播视频片段所属的音频处理类型为去除原声类型为例，在对该直播视频片段进行处理时对直播视频片段中的原有音频替换为其他音频，具体过程详见下述实施例。

图4是根据一示例性实施例示出的另一种视频处理方法的流程图，该方法由电子设备执行，如图4所示，该方法包括以下步骤：

在步骤S401中，对直播视频片段进行分类，得到该直播视频片段所属的直播垂类，该直播垂类指示该直播视频片段包含的内容所属的类型。

该步骤S401与上述步骤S301同理，在此不再赘述。

在步骤S402中，基于直播视频片段所属的直播垂类，确定该直播视频片段的音频处理类型，该音频处理类型为去除原声类型，该去除原声类型指示在处理直播视频片段的过程中将直播视频片段中的原有音频替换为其他音频。

在本公开实施例中，以该直播视频片段属于去除原声类型为例，对于属于该去除原声类型的直播视频片段，该直播视频片段中的原有音频不是该直播视频片段中重要的信息，例如，属于该去除原声类型的直播垂类包括舞蹈垂类或运动垂类，属于舞蹈垂类或运动垂类的直播视频片段中的原有音频中可能会存在不合适的音频，例如，主播跳舞或运动时的喘息声，或者，鞋子与地面摩擦的声音，这些声音会影响直播视频片段的视频效果。因此，在处理该直播视频片段的过程中无需保留原有音频，将原有音频替换为与该直播视频片段更匹配的音频，以提升直播视频片段的视频效果。

在步骤S403中，对直播视频片段进行人体关键点识别，得到去除原声类型对应的人体关键点信息，该人体关键点信息指示人的人体关键点在该直播视频片段包含的各个视频帧中的位置。

在本公开实施例中，该人体关键点信息即为对直播视频片段进行视频帧识别得到的视频帧识别结果。在本公开实施例中，去除原声类型对应的内容关键信息包括人体关键点信息。通过对直播视频片段中人体关键点进行识别，能够识别出人体关键点在各个视频帧中的位置，即得到该人体关键点信息。

在一些实施例中，通过对直播视频片段中的视频帧进行人体关键点识别，得到该人体关键点信息，还能够采取人体关键点检测模型，对该直播视频片段中的视频帧进行关键点识别，得到该人体关键点信息。

在本公开实施例中，直播视频片段包括多个视频帧，该多个视频帧的帧率足够大，例如，帧率为25，则在播放该直播视频片段时能够体现出连续的视频效果。通过对直播视频片段进行抽帧，得到该多个视频帧，采用关键点检测模型，分别对每个视频帧进行人体关键点识别，得到该人体关键点信息。

需要说明的是，本公开实施例是以内容关键信息包括人体关键点信息为例，通过对直播视频片段进行人体关键点识别得到该人体关键点信息，而在另一实施例中，无需执行上述步骤S403，而是采取其他方式，对直播视频片段进行内容识别，得到去除原声类型对应的内容关键信息。

在步骤S404中，基于人体关键点信息，确定直播视频片段中人体的运动频率。

在本公开实施例中，该人体关键点信息指示了人的人体关键点在各个视频帧中的位置，则基于人体关键点在各个视频帧中的位置的变化情况，即可确定出各个人体关键点的运动频率，进而确定出人体的运动频率。

在一些实施例中，任一人体对应有多个人体关键点，对于该多个人体关键点中的每个人体关键点，基于该人体关键点信息，确定出该人体关键点在相邻的每两个视频帧中的位置，基于该人体关键点在相邻的每两个视频帧中的位置，确定该人体关键点的移动速度；确定该人体关键点的多个移动速度的平均移动速度，基于该多个人体关键点的平均移动速度的平均值，确定该人体的运动频率。

在本公开实施例中，直播视频片段中相邻的每两个视频帧之间间隔目标时长，则将该人体关键点在相邻的两个视频帧中的位置差异与该目标时长的比值，即为该人体关键点在两个视频帧中的位置变化时的移动速度。

例如，运动频率包括快速、中速、慢速三种，每种运动频率对应有移动速度区间，在确定出多个人体关键点的平均移动速度的平均值后，将该平均值所属的移动速度区间对应的运动频率，确定为该人体的运动频率。

在步骤S405中，获取与人体的运动频率匹配的第一音频。

在本公开实施例中，第一音频与该人体的运动频率匹配表示该第一音频的节奏与该人体的运动频率匹配。

在一些实施例中，音频库包括多种运动频率对应的音频，基于该人体的运动频率，从音频库中获取该人体的运动频率匹配的第一音频。

在本公开实施例中，在配置音频库时，获取每个音频的BPM(Beat Per Minute，节拍数量每分钟)，根据音频的BPM将音乐划分成不同运动频率对应的音频存储于该音频库中。例如，基于音频的BPM将运动频率划分为快速、中速、慢速，按照各个音频所属的运动频率，将各个音频与运动频率对应存储与音频库中。

在一些实施例中，基于人体关键点信息确定出直播视频片段中多个人体的运动频率，则获取第一音频的过程包括：从多个人体的运动频率中确定出占比最大的运动频率，获取与确定的运动频率匹配的第一音频。

例如，基于人体关键点信息确定出直播视频片段中10个人体的运动频率，运动频率包括快速、中速、慢速三种，10个人体中3个人体的运动频率为快速、3个人体的运动频率为慢速、4个人体的运动频率为中速，即占比最大的运动频率为中速，获取与中速匹配的第一音频。

需要说明的是，本公开实施例是以去除原声类型对应的目标视频信息包括第一音频为例进行说明的，而在另一实施例中，无需执行上述步骤S404-405，而是采取其他方式获取去除原声类型对应的目标视频信息。

在步骤S406中，将直播视频片段中的原有音频替换为第一音频，得到第二视频。

在本公开实施例中，该直播视频片段属于去除原声类型，该直播视频片段中的原有音频不是该直播视频片段中重要的信息，则通过获取与直播视频片段中人体的运动频率匹配的第一音频，将直播视频片段中的原有音频删除，并将第一音频添加在直播视频片段中，实现了对直播视频片段中的原有音频的替换效果，使得第二视频中的音频与第二视频中人体的运动频率匹配，进而提升了直播视频片段的视频效果。

在一些实施例中，该步骤S406包括以下步骤1-4：

步骤1、获取第一音频的切分点序列，该切分点序列包括多个时间点，每个时间点为第一音频中的节奏点发生的时间点。

在本公开实施例中，切分点序列用于对第一音频及直播视频片段进行切割，该切分点序列包括的时间点为该第一音频中的节奏点发生的时间点。例如，该切分点序列包括0秒、2秒、4秒及6秒等。该节奏点为第一音频中的音乐节奏点，例如，该节奏点为音乐峰值点或者节拍发生点等。

在一些实施例中，步骤1包括：获取第一音频的节奏点信息，该节奏点信息包括多个时间点，该时间点为第一音频中的节奏点发生的时间点；基于目标间隔时长，从节奏点信息中的第一个时间点开始，对节奏点信息中的时间点进行筛选，以得到切分点序列，该切分点序列中相邻的每两个时间点之间的间隔时长不小于目标间隔时长。

其中，目标间隔时长为任意的时长，例如，目标间隔时长为3秒或10秒等。在本公开实施例中，第一音频中存在多个节奏点，将每个节奏点在该第一音频中发生的时间点构成该第一音频的节奏点信息。考虑到第一音频中的节奏点可能密集，即相邻的两个节奏点发生的时间点之间的间隔时长短，因此，基于设定的目标间隔时长，对节奏点信息中的多个时间点进行筛选，以保证筛选得到的切分点序列中相邻的每两个时间点之间的间隔时长不小于目标间隔时长，进而保证切分点序列中相邻的每两个时间点之间的间隔时长足够长，便于后续用于对第一音频或直播视频片段进行分割。

例如，第一音频的节奏点信息包括的多个时间点为(t0,t1,…，tn)；目标间隔时长为t_seg，将节奏点信息中的第1个时间点t0作为切分点序列T_list中的第1个时间点，此时T_last＝t0，开始遍历节奏点信息中的时间点，当ti–T_past>t_seg时，将ti作为切分点序列T_list中的时间点，并将此时的T_last设置为ti，继续遍历，直至遍历完成节奏点信息中的所有时间点，得到切分点序列T_list。

在一些实施例中，获取第一音频的节奏点信息的过程包括：对第一音频中的多个音频片段进行分类，得到该音频中每个音频片段所属的音频类别，从该多个音频片段中提取属于伴奏类别的音频片段及属于演唱类别的音频片段，对属于伴奏类别的音频片段及属于演唱类别的音频片进行节奏识别，得到该第一音频的节奏点信息。

在本公开实施例中，第一音频中的节奏音频可能是不连续的，因此，从第一音频中识别出属于伴奏类别的音频片段及属于演唱类别的音频片段，并进行节奏识别，以得到该第一音频的节奏点信息，保证确定的节奏点信息的准确性。

步骤2、以切分点序列中的多个时间点为分割点，对直播视频片段进行分割，得到多个子视频片段，以切分点序列中的多个时间点为分割点，对第一音频进行分割，得到多个音频片段。

在本公开实施例中，以切分点序列中的多个时间点为分割点，相邻的每两个分割点对应一个时间段，分别对直播视频片段及第一音频进行分割，得到每个时间段对应的子视频片段和音频片段。即基于相邻的任两个分割点，分别对对直播视频片段及第一音频进行分割，则得到的子视频片段和音频片段对应同一个时间段。结合音频的节奏点发生的时间点对直播视频片段进行分割的方式成为卡点，由于切分点序列中的时间点为第一音频中的节奏点发生的时间点，基于该切分点序列分别对直播视频片段及第一音频进行分割，以实现卡点混剪。

另外，需要说明的是，直播视频片段的时长与第一音频片段的时长可能不相同，如果直播视频片段的时长大于第一音频片段的时长，则以切分点序列中的多个时间点为分割点，对直播视频片段进行分割后，该直播视频片段还剩余有未分割的子视频片段，则后续在获取第二视频时不再使用未分割的子视频片段，以保证得到的子视频片段和音频片段的数量相同；如果直播视频片段的时长小于第一音频片段的时长，则以切分点序列中的多个时间点为分割点，对直播视频片段进行分割完成后，还剩余有未使用的分割点，则不再使用未使用的分割点对第一音频进行分割，以保证得到的子视频片段和音频片段的数量相同。

步骤3、将每个子视频片段中的原有音频替换为属于对应的时间段的音频片段，该时间段为分割得到子视频片段的两个时间点之间的时间段。

步骤4、按照多个子视频片段的时间先后顺序，对替换后的多个子视频片段进行组合，得到第二视频。

在替换后的多个子视频片段中的音频后，按照多个子视频片段在直播视频片段中的顺序，对替换后的多个子视频片段进行组合，以生成一个完整的视频，即该第二视频。

在一些实施例中，该步骤4包括：采用剪辑视频模板，按照多个子视频片段的时间先后顺序，对替换后的多个子视频片段进行剪辑，得到该第二视频。

其中，剪辑视频模板用于以某种剪辑方式对多个子视频片段进行剪辑，该剪辑视频模板采用的剪辑方式包括多种，例如，剪辑方式包括特效处理、转场特效、自动混剪、横转竖、片头片尾、渐退特效等。特效处理是对多个子视频片段进行局部内容放大、震动等的特效处理，转场特效是在相邻的两个子视频片段之间切换时显示的特效，该转场特效包括震动出现、多方向平移、多方向跳出、渐进出现等。自动混剪是结合切分点序列分割出的子视频片段，在不同子视频片段之间引入转场逻辑，进而将多个子视频片段剪辑到一个视频中，以提升得到的视频的质量提升视频的视频效果。横转竖是对视频进行竖屏检测，将横屏视频转为竖屏视频，以方便后续得到的第二视频中各个子视频片段的显示方式统一，便于第二视频后续进行发布，提升了第二视频的视频效果。为多个子视频片段添加片头和片尾，以保证得到第二视频的完整性。例如，添加的片头和片尾与直播视频片段所属的直播垂类匹配，基于该直播视频片段所属的直播垂类，选择与该直播垂类匹配的片头和片尾，作为该第二视频的片头和片尾。渐退特效使得到的第二视频在最后时间段内逐渐变黑的效果，体现出视频由播放过程切换为播放结束，使第二视频结束的更自然，提升了直播视频的视频效果。

通过采用剪辑视频模板对多个子视频片段进行剪辑，以丰富第二视频中包含的信息，丰富了各个子视频片段之间的转场效果，提升第二视频的视频效果。

需要说明的是，本公开实施例是以音频处理类型对应的内容关键信息包括人体关键点信息、目标视频信息包括第一音频为例进行说明的，而在另一实施例中，无需执行上述步骤S404-S406，而是采取其他方式，基于音频处理类型对应的内容关键信息，对直播视频片段进行处理，得到第二视频。

需要说明的是，本公开实施例是以一个直播视频片段为例进行说明的，而在另一实施例中，针对多个直播视频片段，按照上述步骤S401-S406，分别对每个直播视频片段进行处理，对处理后的多个视频片段进行混剪以丰富第二视频包含的内容，提升第二视频的直播效果。其中，多个直播视频片段均属于去除原声类型的情况下，能够丰富第二视频包含的动作，提升第二视频的观感，进而提升了第二视频的视频效果。

本公开实施例提供了一种针对属于去除原声类型的直播视频片段进行处理的方式，属于去除原声类型的直播视频片段中的原有音频不是该直播视频片段中重要的信息，则通过获取与直播视频片段中人体的运动频率匹配的第一音频，并将直播视频片段中的原有音频替换为第一音频，使得第二视频中的音频与第二视频中人体的运动频率匹配，进而提升了直播视频片段的视频效果。

本公开实施例采用卡点混剪的方式，将第一音频与直播视频片段进行混剪，以提升第二视频的直播效果。并且，通过采用剪辑视频模板对多个子视频片段进行剪辑，以丰富第二视频中包含的信息，丰富了各个子视频片段之间的转场效果，提升第二视频的视频效果。

上述图2所示仅为本公开的基本流程，在上述图2所示的实施例的基础上，以该第一视频为直播视频片段、且直播视频片段所属的音频处理类型为第二原声类型为例，在对该直播视频片段进行处理时，保留直播视频片段中的原有音频的同时增加额外的音频，具体过程详见下述实施例。

图5是根据一示例性实施例示出的另一种视频处理方法的流程图，该方法由电子设备执行，如图5所示，该方法包括以下步骤：

在步骤S501中，对直播视频片段进行分类，得到该直播视频片段所属的直播垂类，该直播垂类指示该直播视频片段包含的内容所属的类型。

该步骤S501与上述步骤S301同理，在此不再赘述。

在步骤S502中，基于直播视频片段所属的直播垂类，确定该直播视频片段的音频处理类型，该音频处理类型为第二原声类型，该第二原声类型指示在处理直播视频片段的过程中，保留该直播视频片段中的原有音频的同时增加额外的音频。

在本公开实施例中，以该直播视频片段属于第二原声类型为例，对于属于该第二原声类型的直播视频片段，该直播视频片段中的原有音频是该直播视频片段中重要的信息，但该直播视频片段缺少气氛烘托的音频，因此，在处理该直播视频片段的过程中保留原有的音频同时，在该直播视频片段中增加额外的音频，以实现对该直播视频片段进行配音的效果，增强视频的感染力。例如，属于该第二原声类型的直播视频片段属于闲聊垂类或电商垂类，在直播视频片段中缺少音乐进行气氛烘托，因此，后续在对该直播视频片段进行处理时，为该直播视频片段配乐。

在步骤S503中，对直播视频片段进行内容识别，得到该第二原声类型对应的内容关键信息，该内容关键信息包括时间点信息。

其中，时间点信息包括直播视频片段中多个时间点中的目标时间点，目标时间点对应的情绪分值大于阈值，该阈值为任意的数值，例如，该阈值为80或90等。情绪分值指示直播视频片段中目标时间点处的音频对应的对象的情绪积极程度，音频对应的对象表示该对象发出音频中的声音，例如，在直播场景下，目标时间点对应的情绪分值，表示在该直播视频片段中目标时间点处说话的主播的情绪积极程度，情绪分值越大，表示主播账号在该时间点时的情绪的越积极，情绪分值越小，表示主播账号在该时间点时的情绪的越消极。在本公开实施例中，在该直播视频片段属于第二原声类型的情况下，通过对直播视频片段进行内容识别，以确定出直播视频片段中情绪分值大于阈值的目标时间点，该目标时间点为该直播视频片段中情绪高点。在一些实施例中，该时间点信息为对直播视频片段进行音频识别得到的音频帧识别结果。

在一些实施例中，获取时间点信息的过程包括：对直播视频片段中的视频帧进行文本识别，得到第一文本信息，对直播视频片段中的原有音频进行音频识别，得到第二文本信息，对第一文本信息及第二文本信息进行情绪识别，得到直播视频片段中多个时间点对应的情绪分值，基于多个时间点对应的情绪分值，将多个时间点中情绪分值大于阈值的时间点作为目标时间点，进而得到时间点信息。

其中，多个时间点为第一文本信息在直播视频片段中出现的时间点，或者，为与该第二文本信息匹配的音频在直播视频片段中的播放时间点。该时间点对应的情绪分值用于表示主播账号在该时间点时的情绪的积极程度。在一些实施例中，能够采用OCR(OpticalCharacter Recognition，光学字符识别)，从视频帧中获取第一文本信息；还能够采用NLP(Natural Language Processing，自然语言处理)对第一文本信息及第二文本信息进行情绪识别。

在本公开实施例中，第一文本信息为直播视频片段中的视频帧中出现的文本信息，采用文本框检测的方式，从视频帧中提取出第一文本信息，而第二文本信息即为该直播视频片段中说话的台词文本信息，能够采用音频识别模型对音频进行音频识别得到。在得到与该直播视频片段关联的第一文本信息和第二文本信息后，对该第一文本信息及第二文本信息进行情绪识别，以确定出第一本信息或第二文本信息对应的时间点的情绪分值。

在一些实施例中，第一文本信息及第二文本信息均包括至少一个语句，则获取直播视频片段中多个时间点对应的情绪分值的过程，包括：分别对第一文本信息及第二文本信息中的每个语句进行情绪识别，得到每个语句的情绪分值，将每个语句的情绪分值，确定为每个语句在直播视频片段中对应的时间点对应的情绪分值，即得到直播视频片段中多个时间点对应的情绪分值。

在本公开实施例中，第一文本信息中的语句对应的时间点为该语句在直播视频片段中的视频帧中出现的时间点，而第二文本信息中的语句对应的时间点为直播视频片段中与该语句匹配的音频的播放时间点。

在步骤S504中，获取与时间点信息中的目标时间点对应的情绪分值匹配的第二音频。

在本公开实施例中，不同的音频与不同的情绪分值匹配，即与不同情绪分值的音频能够体现出不同的情绪，因此，在获取到时间点信息后，获取与每个目标时间点对应的情绪分值匹配的第二音频，将获取到的第二音频作为了第二原声类型对应的目标视频信息。

在一些实施例中，该步骤S504包括：确定目标时间点对应的情绪分值所属的分值区间；将分值区间对应的情绪类型，确定为目标时间点对应的情绪类型；基于目标时间点对应的情绪类型，查询情绪类型与音频之间的对应关系，确定与目标时间点对应的情绪类型匹配的第二音频。

在本公开实施例，设置有多种情绪类型，每种情绪类型对应的分值区间。情绪类型与音频之间的对应关系包括属于每种情绪类型的音频，在确定目标时间点对应的情绪类型后，查询该对应关系，即可确定与目标时间点对应的情绪类型匹配的第二音频，以保证确定出的第二音频与该目标时间点对应的情绪分值匹配，保证了第二音频的准确性，进而保证后续得到的第二视频的视频效果。

例如，多种情绪类型包括积极情绪类型、中等情绪类型及消极情绪类型，在确定目标时间点对应的情绪分值，即可确定出该情绪分值属于哪种情绪类型对应的分值区间，进而确定出该目标时间点对应的情绪类型，而对应关系中包括与每种情绪类型匹配的音频，则查询该对应关系，即可确定出第二音频。

在一些实施例中，在与该目标时间点对应的情绪类型匹配多个音频的情况下，从该多个音频中随机选取任一音频作为第二音频。

在一些实施例中，基于情绪类型与音频之间的对应关系配置了音频库，该音频库包含多个音频及对应的情绪类型，则在获取第二音频时，通过查询该音频库即可得到。

在一些实施例中，创建情绪类型与音频之间的对应关系的过程，包括：基于音频的BPM，确定将音频划分为多种不同节奏类型的音频，每种节奏类型与一种情绪类型对应，则基于多个音频对应的节奏类型，创建情绪类型与音频之间的对应关系。

例如，基于音频的BPM将音频划分为三种节奏类型，如快速、中速、慢速，多种情绪类型包括积极情绪类型、中等情绪类型、消极情绪类型，快速与积极情绪类型对应，中速与中等情绪类型对应，慢速与消极情绪类型对应。

在步骤S505中，将第二音频添加在直播视频片段中目标时间点后，得到第二视频，以使该第二视频在播放至目标时间点时播放该第二音频。

在本公开实施例提供了一种智能配音方式，在确定出每个目标时间点对应的情绪分值匹配的第二音频后，将每个第二音频添加在对应的目标时间点后，以使第二视频在播放至目标时间点时播放该第二音频，以丰富直播视频片段中的信息，烘托出直播视频片段中的氛围，进而提升第二视频的视频效果。

例如，该直播视频片段属于闲聊垂类，该闲聊垂类属于第二原声类型，该直播视频片段中以音频为主要信息，又适合添加配乐，则采取原声加智能配乐的方式，在直播视频片段中添加与目标时间点对应的情绪分值匹配的音频作为背景音乐，以烘托第二视频的氛围。

需要说明的是，本公开实施例仅是以音频处理类型为第二原声类型为例，在直播视频片段中添加音频，以得到第二视频，而在另一实施例中，在获取第二视频的过程中，还会在直播视频片段中添加其他内容。在一些实施例中，在直播视频片段中添加其他内容的过程，包括以下两种方式：

方式一：将与目标时间点对应的情绪分值匹配的贴纸特效，添加在直播视频片段包含的、且与目标时间点对应的视频帧中，以使添加后的直播视频片段在播放至目标时间点时显示该贴纸特效。

其中，贴纸特效是以贴纸的形式显示在视频帧中的特效，该贴纸特效为任意类型的特效，例如，该贴纸特效以表情包或小物件贴纸形式存在的特效。例如，与目标时间点对应的情绪分值匹配的贴纸特效为笑脸，则在该目标时间点对应的视频帧中添加该笑脸，以体现出主播账号在该目标时间点时的情绪。目标时间点对应的视频帧为该直播视频片段播放至该目标时间点时显示的视频帧。

本公开实施例中，通过在直播视频片段中添加与目标时间点对应的情绪分值匹配的贴纸特效，以对直播视频片段的内容进行补充，增强该直播视频片段中的情绪，以提升得到第二视频的视频效果。

在一些实施例中，不同的直播垂类对应有不同的贴纸特效库，则获取与目标时间点对应的情绪分值匹配的贴纸特效的过程，包括：基于目标时间点对应的情绪分值，从该直播视频片段所属的直播垂类对应的贴纸特效库中选择与该情绪分值匹配的贴纸特效。

通过引入直播垂类对应的贴纸特效库，实现了自动化匹配素材，此过程无需人工介入，能够适用于实时的大规模视频处理，应用范围广。

方式二：获取与直播视频片段关联的互动信息，该互动信息包括账号针对直播视频片段发布的评论信息或弹幕信息；将该互动信息，添加在该直播视频片段包含的、且与目标时间点对应的视频帧中，以使添加后的直播视频片段在播放至目标时间点时显示该互动信息。

在本公开实施例中，针对直播视频片段发布评论信息或弹幕信息的账号为观众账号，在直播过程中播放该直播视频片段时，观众账号会针对该直播视频片段发布评论信息或弹幕信息，以便与主播账号或其他观众账号进行互动，而这些评论信息或弹幕信息即为与该直播视频片段关联的互动信息。通过将互动信息添加在目标时间点对应的视频帧中，以便丰富第二视频中的信息，体现出在该目标时间点处多个账号参与互动的效果，进而提升该第二视频的视频效果。

在一些实施例中，与直播视频片段关联的互动信息是在直播过程中播放该直播视频片段时，账号针对直播视频片段发布的评论信息或弹幕信息。

在一些实施例中，将互动信息以弹幕的形式，添加在该直播视频片段包含的、且与目标时间点对应的视频帧中，以使第二视频在播放至目标时间点时以弹幕的形式显示互动信息，以体现出多人参与互动的效果，进而提升第二视频的视频效果。

在一些实施例中，将该互动信息，添加在该直播视频片段包含的、且与目标时间点对应的视频帧中之前，还会对互动信息进行筛选，则筛选过程包括：分别对多个互动信息进行情绪识别，得到每个互动信息的情绪分值，基于多个互动信息的情绪分值，从多个互动信息中选择情绪分值最大的目标数量的互动信息，以便后续将选出的目标数量的互动信息添加在直播视频片段中。

其中，该目标数量为任意的数量。通过对多个互动信息进行情绪识别，以确定出各个互动信息的情感倾向，按照多个互动信息对应的情绪分值进行培训，进而筛选出反映积极情绪的互动信息，作为添加在直播视频片段中的素材，以保证后续的第二视频的视频效果。

如图6所示，获取与该直播视频片段关联的互动信息，确定每个互动信息的情绪分值，基于多个互动信息的情绪分值从多个互动信息中选择情绪分值最大的目标数量的互动信息，将选择的目标数量的互动信息作为弹幕信息，将弹幕信息添加在该直播视频片段包含的、且与目标时间点对应的视频帧中。

如图7所示，获取与直播视频片段关联的互动信息，通过对互动信息进行情绪识别，从多个互动信息中选取最适用于直播视频片段的弹幕信息，并从直播视频片段中识别到的文本信息进行情绪识别，以确定出直播视频片段中多个时间点的情绪分值，以便后续确定直播视频片段中的目标时间点，并将弹幕信息添加在该直播视频片段包含的、且与目标时间点对应的视频帧中。

需要说明的是，本公开实施例仅是在步骤S505的基础上，结合上述两种方式中的任一种方式为例进行说明的，而在另一实施例中，上述仅是在步骤S505的基础上，还能够结合上述两种方式来获取第二视频，即获取第二视频的过程包括：将第二音频添加在直播视频片段中目标时间点后；将与目标时间点对应的情绪分值匹配的贴纸特效，添加在直播视频片段包含的、且与目标时间点对应的视频帧中；获取与直播视频片段关联的互动信息，该互动信息包括在直播过程中播放直播视频片段时，账号针对直播视频片段发布的评论信息或弹幕信息；将该互动信息，添加在该直播视频片段包含的、且与目标时间点对应的视频帧中，得到第二视频。

需要说明的是，本公开实施例是以音频处理类型为第二原声类型为例进行说明的，而在另一实施例中，无需执行上述步骤504-505，而是采取其他方式，基于音频处理类型对应的内容关键信息，对直播视频片段进行处理，得到第二视频。

另外，针对属于第二原声类型的直播视频片段，对于有赠送礼物的目标时间点，在直播视频片段中添加礼物特效，以增强直播视频片段中的互动氛围，进而提升视频的视频效果。

另外，针对属于第二原声类型的直播视频片段，还能够为直播视频片段生成配音。在一些实施例中，对直播视频片段中的视频帧进行文本识别，得到第一文本信息，基于该第一文本信息生成与该第一文本信息匹配的音频，将生成的音频添加在该直播视频片段中。

例如，属于第二原声类型的直播视频片段为属于鸡汤垂类的直播视频片段，从属于鸡汤垂类的直播视频片段中识别到第一文本向虚拟后，采用语音合成技术生成与第一文本信息匹配的音频，并添加在直播视频片段中，实现了自动化地为直播视频片段补充音频内容，提升了视频处理的智能化。例如，语音合成技术为(Tex to Speech,TTS)。

在本公开实施例中，提供了一种智能配音方式，在确定出每个目标时间点对应的情绪分值匹配的第二音频后，将每个第二音频添加在对应的目标时间点后，以使第二视频在播放至目标时间点时播放该第二音频，以丰富直播视频片段中的信息，烘托出直播视频片段中的氛围，进而提升第二视频的视频效果。

并且，对从直播视频片段中识别出的文本信息进行情感识别，按照各个目标时间点对应的情感分值为目标时间点搭配匹配的音频，以保证第二视频的视频效果。

基于上述图3至图5所示的实施例可知，针对属于不同直播垂类的直播视频片段中音频的特点，提供了上述三种音频处理类型的视频处理流程，在对直播视频片段进行处理时，基于直播视频片段所属的直播垂类，进而确定出该直播视频片段所属的音频处理类型，按照该音频处理类型对应的视频处理流程，即可对该直播视频片段进行处理，在处理过程中考虑到了属于不同直播垂类的直播视频片段中音频的特点，进而保证了得到的第二视频的视频效果。在上述多种音频处理类型的视频处理流程中，涉及到了文字理解、音频理解、图像理解及剪辑方式，以丰富视频处理的多样化，以使生成的第二视频的视频效果不再单一，丰富了第二视频的视频效果。

并且，在上述多种音频处理类型的视频处理流程中，无需人工干预的创作流程，适用于大规模的实时视频处理，应用范围广。

在上述图2至图5所示的实施例的基础上，在新增任一种直播垂类时，仅需建立该直播垂类与音频处理类型之间的对应关系，后续即可对属于新增的直播垂类的直播视频片段进行处理，并且，在新增任一种音频处理类型时，仅需建立该音频处理类型与直播垂类之间的对应关系，后续即可对属于新增的音频处理类型的直播视频片段进行处理，提升了该视频处理方式的扩展性。

在上述图2所示的实施例的基础上，以第一视频为直播视频片段、且该直播视频片段为连麦直播视频片段为例，从直播视频片段中裁剪出主播账号的视频画面进而生成第二视频，具体过程详见下述实施例。

图8是根据一示例性实施例示出的一种视频处理方法的流程图，如图8所示，该方法由电子设备执行，该方法包括以下步骤：

在步骤S801中，对直播视频片段进行分类，得到该直播视频片段所属的直播垂类，该直播垂类指示该直播视频片段包含的内容所属的类型。

在步骤S802中，基于该视频类型，确定该直播视频片段的音频处理类型，该音频处理类型指示针对该第一视频中原有音频的处理方式。

在步骤S803中，对该直播视频片段进行内容识别，得到该音频处理类型对应的内容关键信息。

在步骤S804中，获取目标视频信息，该目标视频信息包括第一视频中的原有音频匹配的文本信息、该内容关键信息匹配的音频或特效中的至少一项。

该步骤S801-S804与上述步骤S201-204同理，在此不再赘述。

在步骤S805中，对直播视频片段进行视频检测，确定该直播视频片段对应的连麦人数，该连麦人数为该直播视频片段的视频画面包含的直播间画面的数量。

在本公开实施例中，在直播视频片段为多个主播账号连麦直播的视频片段时，该直播视频片段包括与主播账号的数量匹配的直播间画面。则通过对该直播视频片段进行视频检测，即可确定出该直播视频片段的视频画面包含的直播间画面的数量，即确定出直播视频片段对应的连麦人数。

在一些实施例中，确定连麦人数的过程包括：确定该直播视频片段的视频画面的高宽比，将标准高宽比与该视频画面的高宽比对比，得到为该直播视频片段对应的连麦人数。

其中，该标准高宽比为该直播视频片段的视频画面仅为一个直播间画面时的高宽比，而随着视频画面包含的直播间画面的数量增多，该视频画面的高宽比会减小，因此，通过将标准高宽比与该视频画面的高宽比进行对比，即可确定出该直播视频片段对应的连麦人数。

例如，标准高宽比为1280/720，而2人连麦直播的直播视频片段的直播视频画面的高宽比PK的高宽比为1280/(720*2),而对于有N个人连麦的情况，视频高宽比为(2*1280)/[(N//2)*720]，其中“//”表示整除，可以通过视频高(h)宽(w)比判断出连麦人数。

在步骤S806中，在该连麦人数包括多个的情况下，从该直播视频片段中裁剪出主播账号的视频画面，以得到该主播账号的视频片段。

在本公开实施例中，在连麦人数包括多个的情况下，从直播视频片段中裁剪出主播账号的视频画面，以得到仅包含该主播账号对应的直播间画面的视频片段。在裁剪出的视频片段中包含该主播账号对应的直播间画面的视频片段以及原来的直播视频片段中的原有音频。

其中，该直播视频片段是在该主播账号直播的过程中，从该主播账号对应的直播间中提取到的直播视频片段。在一些实施例中，在该连麦人数包括多个的情况下，该直播视频片段的视频画面中左上角的直播间画面为该主播账号的视频画面，则从该直播视频片段中裁剪出该主播账号的视频画面与该直播视频片段中的原有音频，构成该主播账号的视频片段。

需要说明的是，本公开实施例是以先执行步骤S803-S804再执行步骤S805-S806为例进行说明的，而在另一实施例中，还能够先执行步骤S805-S806再执行步骤S803-S804。

在步骤S807中，将目标视频信息添加在该主播账号的视频片段中，得到第二视频。

其中，对主播账号的视频片段进行处理的过程与上述图2至图5所示的实施例中，将目标视频信息添加在直播视频片段中的过程同理，在此不再赘述。

需要说明的是，本公开实施例是在该直播视频片段为多人连麦直播的视频片段为例进行说明的，而在另一实施例中，在该直播视频片段不是连麦直播的视频片段的情况下，该直播视频片段仅包含某个主播账号的直播间画面，则按照上述图2至图5所示的实施例，对该直播视频片段进行处理，得到第二视频即可。

需要说明的是，本公开实施例是以直播视频片段为连麦直播视频片段为例进行说明的，而在另一实施例中，无需执行上述步骤S804-S806，而是采取其他方式，将音频处理类型对应的目标视频信息添加在直播视频片段中，得到第二视频。

本公开实施例提供的方案，在第一视频为直播视频片段的情况下，通过对直播视频片段进行视频检测，以确定出直播视频片段对应的连麦人数，进而根据连麦人数对直播视频片段进行处理，以提升视频处理的智能化，丰富视频处理的样式，保证最终得到的第二视频的视频效果。

需要说明的是，上述图2至图8所示的实施例仅是以一个第一视频为例进行说明的，而在另一实施例中，在获取到多个第一视频的情况下，对于每个第一视频，按照上述图2至图8实施例所示的方案，对于每个第一视频，将第一视频对应的目标视频信息添加在第一视频中；将添加后的多个第一视频拼接成第二视频。

在一些实施例中，该多个第一视频以一个视频序列的形式存在，则通过对该视频序列中的第一视频进行处理，以得到第二视频。在一些实施例中，该多个第一视频是从同一视频中提取的视频片段，或者，是从同一主播账号的直播间中提取的直播视频片段，或者，是属于同一直播垂类的视频片段。这样能够保证多个第一视频之间具有共性，进而保证得到的第二视频的视频效果。

以利用多个第一视频来获取第二视频的过程与上述图4所示的实施例结合为例，能够丰富舞蹈类型或运动类型的第一视频中的动作，提升第二视频的观感，以提升视频的视频效果。

基于上述图2至图8所示的实施例，本公开实施例提供了一种基于视频理解的视频处理系统，通过分析各个视频类型的特点，将视频类型划分成多种音频处理类型，针对不同的音频处理类型设置有不同的视频处理流程，引入音频分类、音乐检测、ASR、NLP、人脸检测、人体检测、图像分类、文本识别、智能配乐、语音合成、音乐卡点、混剪转场等技术，对文字、音频、美工、特效和剪裁技巧五个要素进行统一、协调的智能创作，生成符合该视频类型的精彩视频，以保证生成的第二视频具有所属的音频处理类型的特色，可以满足多种场景的需求，保证了第二视频的视频效果。

本公开实施例提供的方案中，解决了现有技术方案视频理解不全面、创作手法单一、不够自动化的问题。以第一视频为直播视频片段为例，如图9所示，上述多种音频处理类型对应的视频处理流程均包括视频理解阶段和视频生成阶段，对直播视频片段进行内容识别得到音频处理类型对应的内容关键信息，为视频理解阶段，在视频理解阶段中采用音频理解、图像理解或自然语言理解，获取该音频处理类型对应的内容关键信息或与直播视频片段关联的互动信息。基于内容关键信息，获取第二视频的过程为视频生成阶段，在视频生成阶段中，采用了文字生成、音频生成、智能美观、画面特效及剪辑手法等，对直播视频片段进行处理，以提升第二视频的视频效果。在文字生成过程中，会对直播视频片段添加智能标题、智能字幕，或者将互动信息作为弹幕添加在直播视频片段段，以形成自动弹幕。在音频生成过程中，会在直播视频片段中添加智能配乐、智能配音、智能特效或者原声增强。在智能美工时，会对直播视频片段进行画质增强、图像美化、智能封面或智能抠图等。在画面特效时，会在直播视频片段中添加智能贴纸、礼物特效或特效渲染。采用的剪辑方式包括音乐卡点、转场特效、自动混剪、横转竖、片头片尾、渐退等。

在上述图9所示的基础上，如图10所示，对音频理解的过程包括：从直播视频片段中提取音频，采用音频分类模型，对音频中的多个音频片段进行分类，对属于演唱类型的音频片段进行音乐识别，得到音乐名称及节奏点信息，对属于演唱类型的音频片段进行音频识别，得到歌词文本信息或台词文本信息。

在上述图9所示的基础上，如图11所示，对图像理解的过程包括：从直播视频片段中提取视频帧，对视频帧进行人脸检测，即可得到人脸关键点信息；对视频帧的人体关键点识别，得到人体关键点信息；对视频帧进行分类，以确定出直播视频片段所属的直播垂类；对视频帧中的文本进行识别，得到文本信息。

需要说明的是，本公开实施例仅是以上述三种音频处理类型为例进行说明的，而在另一实施例中，还包括其他的音频处理类型，且为其他的音频处理类型对应有视频处理流程。以第一视频为直播视频片段为例，如图12所示，在获取到视频序列后，对视频序列中的直播视频片段进行分类，以确定直播视频片段所属的音频处理类型，之后按照直播视频片段所属的音频处理类型对应的处理流程，对直播视频片段进行视频理解阶段和视频生成阶段，进而得到第二视频。

在视频理解阶段针对音频、图像和文字三个模态对视频进行多模理解，得到与音频处理类型对应的内容关键信息；然后在视频生成阶段，利用视频理解得到的内容关键信息，通过文字识别、音频模块、图像模块和剪辑模块的自动化生成符合音频处理类型的第二视频。

在上述图2至图8所示的实施例的基础上，将该第二视频发布在主播账号的主页或者短视频展示页中，以便为该主播账号的直播间进行引流。并且，在主播账号的主页或者短视频展示页中显示该第二视频时呈现出为该第二视频设定的封面图像。

以上述图3及上述图8结合为了，本公开实施例还提供了一种对属于第一原声类型的直播视频片段进行处理的流程图，以第一视频为直播视频片段为例，如图13所示，在获取到包含多个直播视频片段的视频序列后，确定出每个直播视频片段所属的直播垂类，进而确定出每个直播视频片段所属的音频处理类型，在多个直播视频片段所属的音频处理类型均为第一原声类型的情况下，先执行视频理解流程：对每个直播视频片段分别进行视频检测、音频理解及视频帧理解，以得到每个直播视频片段对应的连麦人数、歌词文本信息、歌名文本信息及人脸关键点信息。之后，再执行视频生成流程：基于每个直播视频片段的连麦人数，裁剪出主播账号的视频片段，并对直播视频片段进行横转竖处理，以调整主播账号的视频片段的显示方式，即将主播账号的视频片段的横屏显示方式转为竖屏显示方式，并在主播账号的视频片段中添加歌词字幕、歌名标题，并在主播账号的视频片段之后添加逐渐变黑的渐退特效，并对主播账号的视频片段进行人像美颜、图像美化等处理，之后采取混剪模板，对多个直播视频片段对应的主播账号的视频片段进行混剪，并对每个主播账号的视频片段进行特效渲染，得到第二视频。

以上述图4及上述图8结合为了，本公开实施例还提供了一种对属于去除原声类型的直播视频片段进行处理的流程图，以第一视频为直播视频片段为例，如图14所示，在获取到包含多个直播视频片段的视频序列后，确定出每个直播视频片段所属的直播垂类，进而确定出每个直播视频片段所属的音频处理类型，在多个直播视频片段所属的音频处理类型均为去除原声类型的情况下，先执行视频理解流程：对每个直播视频片段分别进行视频检测及视频帧理解，以得到每个直播视频片段对应的连麦人数及人体关键点信息。并且采用音频理解的方式，获取音频库中每个音频的节奏点信息。之后，再执行视频生成流程：基于每个直播视频片段的连麦人数，裁剪出主播账号的视频片段，并对直播视频片段进行横转竖处理，以调整主播账号的视频片段的显示方式，即将主播账号的视频片段的横屏显示方式转为竖屏显示方式，并基于人体关键点信息，从音频库中确定出与人体的运动频率匹配的音频，并采用卡点混剪的方式，对音频与主播账号的视频片段进行分割，并将分割得到的每个子视频片段中的原有音频替换为属于对应的时间段的音频片段，之后采取混剪模板，对多个直播视频片段对应的主播账号的子视频片段进行混剪，并对每个主播账号的子视频片段进行特效渲染，得到第二视频。

以上述图4及上述图8结合为了，本公开实施例还提供了一种对属于第二原声类型的直播视频片段进行处理的流程图，以第一视频为直播视频片段为例，如图15所示，在获取到包含多个直播视频片段的视频序列后，确定出每个直播视频片段所属的直播垂类，进而确定出每个直播视频片段所属的音频处理类型，在多个直播视频片段所属的音频处理类型均为第二原声类型的情况下，先执行视频理解流程：对每个直播视频片段分别进行视频检测及视频帧理解，以得到每个直播视频片段对应的连麦人数及台词文本信息，并对台词文本信息以及与直播视频片段关联的互动信息进行自然语言理解，得到每个直播视频片段的时间点信息以及确定每个互动信息的情绪分值。之后，再执行视频生成流程：基于时间点信息中的目标时间点对应的情绪分值，为每个目标时间点匹配音频，基于互动信息的情绪分值，从互动信息中筛选弹幕信息，在直播视频片段中目标时间点处添加弹幕信息、匹配的音频以及贴纸特效，得到第二视频。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图16是根据一示例性实施例示出的一种视频处理装置框图，如图16所示，该装置包括：

分类单元1601，被配置为执行对第一视频进行分类，得到第一视频所属的视频类型，视频类型指示第一视频包含的内容所属的类型；

确定单元1602，被配置为执行基于视频类型，确定第一视频的音频处理类型，音频处理类型指示针对第一视频中原有音频的处理方式；

识别单元1603，被配置为执行对第一视频进行内容识别，得到音频处理类型对应的内容关键信息，内容识别包括音频识别或视频帧识别中的至少一项，内容关键信息包括音频识别结果或视频帧识别结果中的至少一项；

获取单元1604，被配置为执行获取目标视频信息，目标视频信息包括原有音频匹配的文本信息、内容关键信息匹配的音频或特效中的至少一项；

添加单元1605，被配置为执行将目标视频信息添加在第一视频中，得到第二视频。

在一些实施例中，音频处理类型为第一原声类型，第一原声类型指示在处理第一视频的过程中，保留第一视频中的原有音频且不再增加额外的音频；添加单元1605，被配置为执行以下至少一项：

在一些实施例中，音频处理类型为去除原声类型，去除原声类型指示在处理第一视频的过程中，将第一视频中的原有音频替换为其他音频；识别单元1603，被配置为执行对第一视频进行人体关键点识别，得到去除原声类型对应的人体关键点信息，人体关键点信息指示人体关键点在第一视频包含的各个视频帧中的位置；

获取单元1604，被配置为执行基于人体关键点信息，确定第一视频中人体的运动频率；获取与运动频率匹配的第一音频；

添加单元1605，被配置为执行将第一视频中的原有音频替换为第一音频，得到第二视频。

在一些实施例中，添加单元1605，被配置为执行获取第一音频的切分点序列，切分点序列包括多个时间点，每个时间点为第一音频中的节奏点发生的时间点；以切分点序列中的多个时间点为分割点，对第一视频进行分割，得到多个子视频片段；以切分点序列中的多个时间点为分割点，对第一音频进行分割，得到多个音频片段；将每个子视频片段中的原有音频替换为属于对应的时间段的音频片段，时间段为分割得到子视频片段的两个时间点之间的时间段；按照多个子视频片段的时间先后顺序，对替换后的多个子视频片段进行组合，得到第二视频。

在一些实施例中，添加单元1605，被配置为执行获取第一音频的节奏点信息，节奏点信息包括多个时间点，时间点为第一音频中的节奏点发生的时间点；基于目标间隔时长，从节奏点信息中的第一个时间点开始，对节奏点信息中的时间点进行筛选，以得到切分点序列，切分点序列中相邻的每两个时间点之间的间隔时长不小于目标间隔时长。

在一些实施例中，音频处理类型为第二原声类型，第二原声类型指示在处理第一视频的过程中，保留第一视频中原有音频的同时增加额外的音频；内容关键信息包括时间点信息，时间点信息包括第一视频中多个时间点中的目标时间点，目标时间点对应的情绪分值大于阈值，情绪分值指示第一视频中目标时间点处的音频对应的对象的情绪积极程度；

获取单元1604，被配置为执行基于时间点信息中的目标时间点对应的情绪分值，确定目标时间点对应的情绪类型；基于目标时间点对应的情绪类型，查询情绪类型与音频之间的对应关系，确定与目标时间点对应的情绪类型匹配的第二音频；

添加单元1605，被配置为执行将第二音频添加在第一视频中目标时间点后，得到第二视频，以使第二视频在播放至目标时间点时播放第二音频。

在一些实施例中，添加单元1605，还被配置为执行将与目标时间点对应的情绪分值匹配的贴纸特效，添加在第一视频包含的、且与目标时间点对应的视频帧中，以使添加后的第一视频在播放至目标时间点时显示贴纸特效。

在一些实施例中，获取单元1604，被配置为执行确定目标时间点对应的情绪分值所属的分值区间；将分值区间对应的情绪类型，确定为目标时间点对应的情绪类型。

在一些实施例中，获取单元1604，还被配置为执行获取与第一视频关联的互动信息，互动信息包括账号针对第一视频发布的评论信息或弹幕信息；

添加单元1605，还被配置为执行将互动信息，添加在第一视频包含的、且与目标时间点对应的视频帧中，以使添加后的第一视频在播放至目标时间点时显示互动信息。

在一些实施例中，如图17所示，装置还包括：

检测单元1606，被配置为执行对第一视频进行视频检测，确定第一视频对应的连麦人数，连麦人数为第一视频的视频画面包含的直播间画面的数量；在连麦人数包括多个的情况下，从第一视频中裁剪出主播账号的视频画面，以得到主播账号的视频片段；

添加单元1605，被配置为执行将目标视频信息添加在主播账号的视频片段中，得到第二视频。

在一些实施例中，第一视频包括多个，添加单元1605，被配置为执行对于每个第一视频，将第一视频对应的目标视频信息添加在第一视频中；将添加后的多个第一视频拼接成第二视频。

需要说明的是，上述实施例提供的装置在对直播视频片段进行处理时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将电子设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频处理装置与视频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储处理器可执行程序代码的存储器；

其中，处理器被配置为执行该程序代码，以实现上述视频处理方法。

在一些实施例中，电子设备被提供为终端时，图18是根据一示例性实施例示出的一种终端1800的框图。该终端图18示出了本公开一个示例性实施例提供的终端1800的结构框图。该终端1800可以是：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1800包括有：处理器1801和存储器1802。

处理器1801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1802中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1801所执行以实现本公开中方法实施例提供的视频处理方法。

在一些实施例中，终端1800还可选包括有：外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。具体地，外围设备包括：射频电路1804、显示屏1805、摄像头组件1806、音频电路1807、定位组件1808和电源1809中的至少一种。

外围设备接口1803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中，处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上；在一些其他实施例中，处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏1805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时，显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时，显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1805可以为一个，设置终端1800的前面板；在另一些实施例中，显示屏1805可以为至少两个，分别设置在终端1800的不同表面或呈折叠设计；在再一些实施例中，显示屏1805可以是柔性显示屏，设置在终端1800的弯曲表面上或折叠面上。甚至，显示屏1805还可以设置成非矩形的不规则图形，也即异形屏。显示屏1805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1806用于采集图像或视频。可选地，摄像头组件1806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1801进行处理，或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1807还可以包括耳机插孔。

定位组件1808用于定位终端1800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于：加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。

加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号，控制显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1812可以检测终端1800的机体方向及转动角度，陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1813可以设置在终端1800的侧边框和/或显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时，可以检测用户对终端1800的握持信号，由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在显示屏1805的下层时，由处理器1801根据用户对显示屏1805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1814用于采集用户的指纹，由处理器1801根据指纹传感器1814采集到的指纹识别用户的身份，或者，由指纹传感器1814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1814可以被设置终端1800的正面、背面或侧面。当终端1800上设置有物理按键或厂商Logo时，指纹传感器1814可以与物理按键或厂商Logo集成在一起。

光学传感器1815用于采集环境光强度。在一个实施例中，处理器1801可以根据光学传感器1815采集的环境光强度，控制显示屏1805的显示亮度。具体地，当环境光强度较高时，调高显示屏1805的显示亮度；当环境光强度较低时，调低显示屏1805的显示亮度。在另一个实施例中，处理器1801还可以根据光学传感器1815采集的环境光强度，动态调整摄像头组件1806的拍摄参数。

接近传感器1816，也称距离传感器，通常设置在终端1800的前面板。接近传感器1816用于采集用户与终端1800的正面之间的距离。在一个实施例中，当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变小时，由处理器1801控制显示屏1805从亮屏状态切换为息屏状态；当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变大时，由处理器1801控制显示屏1805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图18中示出的结构并不构成对终端1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，电子设备被提供为服务器时，图19是根据一示例性实施例示出的一种服务器1900的框图，该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1901和一个或一个以上的存储器1902，其中，该存储器1902中存储有至少一条程序代码，该至少一条程序代码由该处理器1901加载并执行以实现上述各个方法实施例提供的视频处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述视频处理方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述音频处理类型为第一原声类型，所述第一原声类型指示在处理所述第一视频的过程中，保留所述第一视频中的所述原有音频且不再增加额外的音频；所述将所述目标视频信息添加在所述第一视频中，得到第二视频，包括以下至少一项：

3.根据权利要求1所述的方法，其特征在于，所述音频处理类型为去除原声类型，所述去除原声类型指示在处理所述第一视频的过程中，将所述第一视频中的所述原有音频替换为其他音频；所述对所述第一视频进行内容识别，得到所述音频处理类型对应的内容关键信息，包括：

所述获取目标视频信息，包括：

获取与所述运动频率匹配的第一音频；

4.根据权利要求3所述的方法，其特征在于，所述将所述第一视频中的所述原有音频替换为所述第一音频，得到所述第二视频，包括：

5.根据权利要求4所述的方法，其特征在于，所述获取所述第一音频的切分点序列，包括：

6.根据权利要求1所述的方法，其特征在于，所述音频处理类型为第二原声类型，所述第二原声类型指示在处理所述第一视频的过程中，保留所述第一视频中所述原有音频的同时增加额外的音频；所述内容关键信息包括时间点信息，所述时间点信息包括所述第一视频中多个时间点中的目标时间点，所述目标时间点对应的情绪分值大于阈值，所述情绪分值指示所述第一视频中所述目标时间点处的音频对应的对象的情绪积极程度；所述获取目标视频信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求6所述的方法，其特征在于，所述基于所述时间点信息中的目标时间点对应的情绪分值，确定所述目标时间点对应的情绪类型，包括：

确定所述目标时间点对应的情绪分值所属的分值区间；

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1-9任一项所述的方法，其特征在于，所述第一视频为直播视频片段，所述将所述目标视频信息添加在所述第一视频中，得到第二视频之前，所述方法还包括：

11.根据权利要求1-9任一项所述的方法，其特征在于，所述第一视频包括多个，所述将所述目标视频信息添加在所述第一视频中，得到第二视频，包括：

将添加后的多个第一视频拼接成所述第二视频。

12.一种视频处理装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至11任一项所述的视频处理方法。

14.一种非临时性计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至11中任一项所述的视频处理方法。