CN107135419A

CN107135419A - 一种编辑视频的方法和装置

Info

Publication number: CN107135419A
Application number: CN201710448235.0A
Authority: CN
Inventors: 陈杰
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2017-09-05

Abstract

本发明涉及电子技术领域，尤其涉及一种编辑视频的方法和装置。所述方法包括：对视频文件或视频流所包含的音频帧进行识别，识别出包括音乐的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧；确定所述目标音频帧对应的用于增强效果的显示对象；根据所述目标音频帧确定对应的目标视频帧；将所述显示对象添加到所述目标视频帧的图像中。本发明至少用于实现自动对视频进行编辑，降低人工依赖程度的技术效果。

Description

一种编辑视频的方法和装置

技术领域

本发明涉及电子技术领域，尤其涉及一种编辑视频的方法和装置。

背景技术

为了增强观看体验，视频制作人员往往会在视频中添加用于增强效果的显示对象。举例来说，当视频中出现音乐，在视频中添加形如五线谱的贴纸。

然而，在现有技术中，上述在视频中添加增强效果的显示对象依赖于后期人工编辑。因此，现有技术中编辑视频的方法存在人工依赖程度高的技术问题。

发明内容

本发明实施例提供了一种编辑视频的方法和装置，至少用于实现自动对视频进行编辑，降低人工依赖程度的技术效果。

第一方面，本发明提供了一种编辑视频的方法，包括：

对视频文件或视频流所包含的音频帧进行识别，识别出包括音乐的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧；

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

可选的，在将所述显示对象添加到所述目标视频帧的图像中之前，还包括：

从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置；

将所述显示对象添加到所述目标视频帧的图像中，包括：

将所述显示对象添加到所述目标视频帧的图像中的所述添加位置。

可选的，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置，包括：

在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果；

基于所述预设对象识别结果，从所述目标视频帧的图像中确定出不包括预设对象的区域；

在所述不包括预设对象的区域中确定出所述添加位置。

从所述目标视频帧的图像的预设的边缘区域中选择一位置作为所述添加位置。

可选的，在从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后，所述方法还包括：

基于所述添加位置，获得所述目标视频帧的图像在所述添加位置处的颜色；

根据所述添加位置处的颜色，将所述显示对象的颜色调整至与所述添加位置处的颜色不同。

可选的，，确定所述目标音频帧对应的用于增强效果的显示对象，包括：

获取用于表示音乐的备选对象；

按照所述目标音频帧的音乐，将所述备选对象编辑为跟随所述音乐动态变化的显示对象。

可选的，所述音乐为乐器产生的音乐、人产生的音乐或电子设备产生的音乐中的一种或任意多种。

第二方面，本发明提供了一种编辑视频的装置，包括：

识别模块，用于对视频文件或视频流所包含的音频帧进行识别，识别出包括音乐的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧；

第一确定模块，用于确定所述目标音频帧对应的用于增强效果的显示对象；

第二确定模块，用于根据所述目标音频帧确定对应的目标视频帧；

添加模块，用于将所述显示对象添加到所述目标视频帧的图像中。

可选的，所述装置还包括：

第三确定模块，用于在将所述显示对象添加到所述目标视频帧的图像中之前，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置；

所述添加模块用于将所述显示对象添加到所述目标视频帧的图像中的所述添加位置。

可选的，所述第三确定模块用于在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果；基于所述预设对象识别结果，从所述目标视频帧的图像中确定出不包括预设对象的区域；在所述不包括预设对象的区域中确定出所述添加位置。

可选的，所述第三确定模块用于从所述目标视频帧的图像的预设的边缘区域中选择一位置作为所述添加位置。

可选的，所述装置还包括：

获得模块，用于在从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后，基于所述添加位置，获得所述目标视频帧的图像在所述添加位置处的颜色；

调整模块，用于根据所述添加位置处的颜色，将所述显示对象的颜色调整至与所述添加位置处的颜色不同。

可选的，所述第一确定模块用于获取用于表示音乐的备选对象；按照所述目标音频帧的音乐，将所述备选对象编辑为跟随所述音乐动态变化的显示对象。

第三方面，一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

可选的，所述计算机可读存储介质还存储有另一些计算机程序，该另外一些计算机程序在步骤：将所述显示对象添加到所述目标视频帧的图像中之前被执行，执行时实现以下步骤：

所述计算机可读存储介质中存储的与步骤：将所述显示对象添加到所述目标视频帧的图像中对应的计算机程序在被执行时，具体包括以下步骤：

可选的，所述计算机可读存储介质中存储的与步骤：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置对应的计算机程序在被执行时，具体包括以下步骤：

在所述不包括预设对象的区域中确定出所述添加位置。

可选的，所述计算机可读存储介质还存储有另一些计算机程序，该另外一些计算机程序在步骤：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后被执行，执行时实现以下步骤：

可选的，所述计算机可读存储介质中存储的与步骤：确定所述目标音频帧对应的用于增强效果的显示对象对应的计算机程序在被执行时，具体包括以下步骤：

获取用于表示音乐的备选对象；

第四方面，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

可选的，所述处理器在执行步骤：将所述显示对象添加到所述目标视频帧的图像中之前还执行另一些程序，在执行该另一些程序时实现以下步骤：

所述处理器在执行步骤将所述显示对象添加到所述目标视频帧的图像中对应的程序时具体实现以下步骤：

可选的，所述处理器在执行步骤从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置对应的程序时具体实现以下步骤：

在所述不包括预设对象的区域中确定出所述添加位置。

可选的，所述处理器在执行步骤：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后还执行另一些程序，在执行该另一些程序时实现以下步骤：

可选的，所述处理器在执行步骤确定所述目标音频帧对应的用于增强效果的显示对象对应的程序时具体实现以下步骤：

获取用于表示音乐的备选对象；

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

在本发明实施例的技术方案中，首先对视频文件或视频流所包含的音频帧进行识别，识别出包括音乐的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧，然后确定所述目标音频帧对应的用于增强效果的显示对象，进而将所述显示对象添加到所述目标音频帧对应的目标视频帧的图像中。所以，通过自动识别出视频文件或视频流中包括音乐的目标音频帧，进而在目标音频帧对应的目标视频帧的图像上自动添加上对应的显示对象，由此实现对视频进行自动编辑，所以本发明解决了现有技术存在的视频编辑人工依赖的程度高的技术问题，实现了降低对人工依赖程度的技术效果。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例中编辑视频的方法流程图；

图2a-图2c为本发明实施例中显示对象的示意图；

图3为本发明实施例中一目标视频帧的图像示意图；

图4为在图3所示的图像中添加图2a所示的显示对象而获得图像的示意图；

图5a-图5b为本发明实施例中预设的边缘区域的示意图；

图6为图3所示的图像中不包括人体的区域的示意图；

图7为本发明实施例中另一目标视频帧的图像示意图；

图8为图7所示的图像中不包括埃菲尔铁塔区域的示意图；

图9为在图7所示的图像中添加图2a所示的显示对象而获得图像的示意图；

图10为本发明实施例中编辑视频的装置结构示意图；

图11为本发明实施例中计算机设备的结构示意图。

具体实施方式

为了解决上述技术问题，本发明提供的技术方案思路如下：

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明第一方面提供了一种编辑视频的方法，请参考图1，为编辑视频的方法流程图。该方法包括：

S101：对视频文件或视频流所包含的音频帧进行识别，识别出包括音乐的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧；

S102：确定所述目标音频帧对应的用于增强效果的显示对象；

S103：根据所述目标音频帧确定对应的目标视频帧；

S104：将所述显示对象添加到所述目标视频帧的图像中。

具体来讲，本发明实施例中的视频文件指的是视频录制结束后获得的多媒体数据，视频流指的是视频录制过程中同步形成的，且完整视频文件被传输完成前就可以显示的多媒体数据，可应用于网络直播。视频文件和视频流都包含多帧视频帧，以及包含与视频帧对应的音频帧。视频帧具有图像数据，而音频帧则具有音频数据。通常情况下，视频帧和音频帧的时间轴是同步的，在此种情况下，视频帧和音频帧按照时间轴对应。

在本发明实施例的S101中，对视频文件或视频流的音频帧进行识别。具体来讲，对每帧音频帧的音频进行识别，识别其音频是否包括音乐。其中，本发明所述的音乐包括但不限于乐器产生的音乐、人产生的音乐或电子设备产生的音乐中的一种或任意多种。例如主播A弹奏钢琴产生的音乐，主播A弹奏钢琴且主播A唱歌产生的音乐，主播A手机播放的音乐，主播A手机播放且主播B唱歌的音乐等，本发明不做具体限制。

如果当前识别的音频帧的音频包括音乐，则将该帧音频帧识别为目标音频帧；反之，如果当前识别的音频帧的音频不包括音乐，则不将该帧音频帧识别为目标音频帧。

另外，如果是对视频文件进行识别，则具体是对视频文件包含的多帧音频帧进行识别。如果是对视频流进行识别，则具体是识别接收时间与当前时间最接近的一帧多媒体数据的音频帧。为方便说明，后文将接收时间与当前时间最接近的一帧多媒体数据的音频帧称为“最新的音频帧”。

接下来，在S102中，确定目标音频帧对应的用于增强效果的显示对象。具体来讲，由于目标音频帧的音频包括音乐，换言之，电子设备在输出目标音频帧所在的多媒体数据时用户能够听到音乐，所以为了增加效果，可以确定与音乐有关，或者表达含义为音乐的对象为显示对象。与音乐有关，或者其含义表达音乐的对象例如图2a所示的五线谱、图2b所示的频谱图以及图2c所述的装饰性文字等。在具体实现过程中，本案所属领域的普通技术人员可以根据实际进行设置，本发明不做具体限制。

接着，在S103中，根据目标音频帧确定对应的目标视频帧。具体来讲，确定在时间轴上与目标音频帧对应着相同时刻的视频帧为目标视频帧。

另外，在具体实现过程中，S103也可以在S102之前执行，或者S102和S103同时执行，本发明对S102和S103的执行顺序不做具体限制。

接着，在S104中，将确定出的显示对象添加到目标音频帧对应的目标视频帧的图像中。举例来说，如果将视频流最新的音频帧识别为目标音频帧，而对应的最新的视频帧如图3所示，则在最新的视频帧上添加图2a所示的显示对象，进而获得例如图4所示的图像。

由上述描述可以看出，通过自动识别出视频文件或视频流中包括音乐的目标音频帧，进而在目标音频帧对应的目标视频帧的图像上自动添加上对应的显示对象，由此实现对视频进行自动编辑，所以解决了现有技术存在的视频编辑人工依赖的程度高的技术问题，实现了降低对人工依赖程度的技术效果。同时，在用户观看视频或直播的过程中，当输出音乐时使用户还能观看到的显示对象，可以增强音乐对用户的刺激，进而提高用户体验。

更具体地来说，在S104中添加显示对象时，在一种实施方式中，可以随机选择目标视频帧的图像中的任意位置作为添加位置。或者，在另一个种实施方式中，也可以选择适于添加显示对象的位置作为添加位置，进而避免显示对象影响用户观看视频文件或视频流。该种实施方式在S104之前，还进一步包括如下步骤：

从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置。

具体来讲，适于添加显示对象的添加位置例如为预设对象(例如网络直播的主播、标志性建筑、动物或汽车)以外的位置以及边缘区域的位置等不易影响用户观看的位置。由于适于添加显示对象的位置有多种可能，因此确定添加位置的实施方式也有多种。下面就对其中三种实施方式进行详细介绍。

第一种：

在第一种实施方式中，从目标视频帧的图像中确定出适于添加显示对象的添加位置，具体包括如下过程：

具体来讲，根据经验，视频中主要对象，例如主播、建筑物或动物等常常位于图像的中间区域，因此在边缘区域添加显示对象影响用户观看的可能性小于在中间区域添加显示对象影响用户观看的可能性。

在本发明实施例中，预设的边缘区域可以是连续的，如图5a中阴影区域所示，也可以是离散的，如图5b阴影区域所示。具体地，可以预先获取显示区域尺寸，根据预设尺寸在显示区域中确定出预设的边缘区域。预设尺寸例如为显示尺寸的五分之一，或者1.5cm等，本领域技术人员根据实际进行设置，本发明不做具体限制。

接下来，从预设的边缘区域中选择一位置作为添加位置。具体来讲，可以从预设的边缘区域中随机选择一位置作为添加位置，或者从预设的边缘区域中选择最靠近显示区域中轴线的位置作为添加位置，或者从预设的边缘区域中选择最高的位置最为添加位置等，本发明不做具体限制。

由上述描述可以看出，从预设的边缘区域中选择一位置作为添加位置，进而将显示对象显示目标视频帧的图像的边缘区域中，进而避免显示对象遮挡中间区域的对象，影响用户观看视频文件或视频流中的人体。

一个具体的例子，目标视频帧的图像如图3所示，预设的边缘区域如图5a所示。在预设的边缘区域中选择最高的位置最为添加位置。然后，将如图2a所示的显示对象添加到添加位置，进而获得如图3所示的图像。

第二种：

在第二种实施方式中，从目标视频帧的图像中确定出适于添加显示对象的添加位置，具体包括如下过程：

在所述不包括预设对象的区域中确定出所述添加位置。

更具体地来说，在第二种实施方式中，预设对象具体为人体，例如视频文件中的用户或者视频流中的主播等。因此，在第二种实施方式中，步骤“在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果”具体包括：

在所述目标视频帧的图像中进行人体识别，获得人体识别结果；

步骤“基于所述预设对象识别结果，从所述目标视频帧的图像中确定出不包括预设对象的区域”具体包括：

基于所述人体识别结果，从所述目标视频帧的图像中确定出不包括人体的区域；

步骤“在所述不包括预设对象的区域中确定出所述添加位置”具体包括：

在所述不包括人体的区域中确定出所述添加位置。

具体来讲，根据经验，图像中的人体常为用户主要观看对象，因此将显示对象显示在没有人体的区域中不易影响用户观看。因此，在该种实施方式中，在目标视频帧的图像中进行人体识别，获得人体识别结果。其中，对目标视频的图像进行人体识别的方法可选择现有技术中的任意一种，本发明不做具体限制。

如果人体识别结果表示目标视频帧的图像中不存在人体，那么可以进一步按照上文中的任意实施方式确定添加位置，此处就不再重复赘述了。如果人体识别结果表示目标视频帧的图像中存在人体，那么，进一步根据人体识别结果包含的人体所在区域，从目标视频帧的图像中反向确定出不包括人体的区域。然后，在不包括人体的区域中确定一位置作为添加位置。

具体来讲，可以从不包括人体的区域中随机选择一位置作为添加位置，或者从不包括人体的区域中选择最靠近显示区域中轴线的位置作为添加位置，或者从不包括人体的区域中选择最高的位置最为添加位置等，本发明不做具体限制。

由上述描述可以看出，通过在目标视频帧的图像中进行人体识别，获得人体识别结果，进而根据人体识别结果确定出不包括人体的区域，然后再不从包括人体的区域中确定添加位置，由此使得显示对象不会显示在目标视频帧的人体之上，遮挡人体，避免了显示对象影响用户观看视频文件或视频流中的人体。

一个具体的例子，目标视频帧的图像如图3所示。通过对图3所示的图像进行人体识别，进而确定出图3所示的图像中不包括人体的区域如图6阴影区域所示。然后，从图6所示的不包括人体的区域中随机选择出添加位置，并在添加位置添加图2a所示的五线谱。添加显示对象之后的图像如图4所示。

第三种：

在第三种实施方式中，从目标视频帧的图像中确定出适于添加显示对象的添加位置，具体包括如下过程：

在所述不包括预设对象的区域中确定出所述添加位置。

更具体地来说，在第三种实施方式中，预设对象具体为预设建筑物。因此，在第三种实施方式中，步骤“在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果”具体包括：

在所述目标视频帧的图像中进行预设建筑物识别，获得建筑物识别结果；

基于所述建筑物识别结果，从所述目标视频帧的图像中确定出不包括预设建筑物的区域；

在所述不包括预设建筑物的区域中确定出所述添加位置。

具体来讲，根据经验，若图像中包括标志性建筑物、著名建筑物时，这些建筑物常为用户主要观看对象，因此将显示对象显示在没有建筑物的区域中不易影响用户观看。标志性建筑物、著名建筑物例如天安门、长城、水立方、悉尼歌剧院和埃菲尔铁塔等。因此，在该种实施方式中，在目标视频帧的图像中进行预设建筑物识别，获得建筑物识别结果。

在本发明实施例中，本领域技术人员可以根据实际预先选择一个或多个建筑物作为预设建筑物，然后从各个预设建筑物的图像中提取出建筑物特征。然后，基于预设建筑物的建筑物特征对目标视频的图像进行预设建筑物的识别，获得建筑物识别结果。

如果建筑物识别结果表示目标视频帧的图像中不存在预设建筑物，那么可以进一步按照上文中的任意实施方式确定添加位置，此处就不再重复赘述了。如果建筑物识别结果表示目标视频帧的图像中存在预设建筑物，那么，进一步根据建筑物识别结果包含的预设建筑物所在区域，从目标视频帧的图像中反向确定出不包括预设建筑物的区域。然后，在不包括预设建筑物的区域中确定一位置作为添加位置。

具体来讲，可以从不包括预设建筑物的区域中随机选择一位置作为添加位置，或者从不包括预设建筑物的区域中选择最靠近显示区域中轴线的位置作为添加位置，或者从不包括预设建筑物的区域中选择最高的位置最为添加位置等，本发明不做具体限制。

由上述描述可以看出，通过在目标视频帧的图像中进行预设建筑物识别，获得建筑物识别结果，进而根据建筑物识别结果确定出不包括预设建筑物的区域，然后再不从包括预设建筑物的区域中确定添加位置，由此使得显示对象不会显示在目标视频帧的预设建筑物之上，遮挡预设建筑物，避免了显示对象影响用户观看视频文件或视频流中的预设建筑物。

一个具体的例子，目标视频帧的图像如图7所示。假设预设建筑物包括埃菲尔铁塔。通过对图7所示的图像进行预设建筑物识别，进而确定出图7所示的图像包括预设建筑物，且具体包括的预设建筑物为埃菲尔铁塔。其中，不包括埃菲尔铁塔的区域如图8阴影区域所示。然后，从图8所示的不包括埃菲尔铁塔的区域中随机选择出添加位置，并在添加位置添加图2a所示的五线谱。添加显示对象之后的图像如图9所示。

在具体实现过程中，本发明所属领域的普通技术人员可以选择上述第一种实施方式或第二种实施方式。在不冲突的情况下，也可以同时选择第一种实施方式和第二种实施方式，例如在人体识别结果表示图像中存在人体时应用第二种实施方式，在人体识别结果表示图像中不存在人体时应用第一种实施方式。另外，在具体实现过程中，本发明所属领域的普通技术人员还可以选择其他实施方式，本发明不做具体限制。

进一步，结合上述第一种实施方式、第二种实施方式或第三种实施方式中的一种或任意多种，作为一种可选的实施例，在从目标视频帧的图像中确定出适于添加显示对象的添加位置之后，还进一步包括：

基于所述添加位置，获得所述目标视频帧的图像在所述添加位置处颜色；

具体来讲，根据添加位置坐标，从目标视频帧的图像中读取添加位置处的颜色。然后，将显示对象的颜色调整至与添加位置处的颜色不同。

在一种实施方式中，具体是将显示对象的颜色调整为添加位置处的颜色的反色。例如添加位置处的颜色为黑色，则将显示对象的颜色调整为黑色。或者，在另一种实施方式中，将显示对象的颜色调整为颜色空间中与添加位置处的颜色达到预设距离的颜色。以颜色空间为RGB(红绿蓝，Red Green Blue)颜色空间为例来进行举例说明。添加位置其中一个像素点颜色为(0,0,0)，假设预设距离为100，因此将显示对象在该像素点处的颜色调整为RGB颜色空间中距离(0,0,0)100的颜色，例如(100,0,0)。在具体实现过程中，本发明所属领域的普通技术人员可以根据实际进行设置，本发明不做具体限制。

由上述描述可知，获得目标视频帧的图像在添加位置处颜色，并根据添加位置处的颜色，将显示对象的颜色调整至与添加位置处的颜色不同，由于显示对象颜色与图像添加位置处原本的颜色不同，故而避免了由于颜色一致而导致显示对象被全部或部分淹没，所以本发明实施例保证了用户可以清楚地观看到显示对象，增强了用户体验。

进一步，作为一种可选的实施例，在确定所述目标音频帧对应的用于增强效果的显示对象，具体包括：

获取用于表示音乐的备选对象；

按照所述目标音频帧的音乐，将所述备选对象编辑为跟随所述音乐动态变化的所述显示对象。

具体来讲，首先，获取表示音乐的备选对象。在具体实现过程中，备选对象可以为静态对象，例如图2c所示的文字等，或者，也可以为动态对象，例如图2a所示的五线谱和图2b所示的频谱图等。为了进一步增强效果，在本发明实施例中，选择动态对象作为备选对象。

然后，对目标音频帧的音频进行分解，具体为在不同频率上对目标音频帧进行分解，进而得到目标音频帧的频谱变化趋势。接下来，按照频谱变化趋势对备选对象进行编辑，使备选对象根据频谱变化趋势动态变化。举例来说，将图2a所示的五线谱编辑为跟随音乐动态跳动，或者，将图2b所示的频谱图中的多个频率柱动态显示各个频率的变化。

由上述描述可知，获取用于表示音乐的备选对象，按照目标音频帧的音乐，将备选对象编辑为跟随音乐动态变化的显示对象，使得用户在观看到目标视频帧时，不仅能够听到目标音频帧的音乐，还能观看到随音乐而动态变化的显示对象，进一步增加了效果，增强了用户体验。

下面列举一个具体例子来对上述其中几种实施方式的组合进行说明。

主播通过手机进行直播，并在直播的过程中主播为观众弹钢琴。主播的手机、直播服务器或者观众的观看设备对视频流中最新的音频帧进行识别，进而将最新的音频帧识别为目标音频帧。目标音频帧对应的目标视频帧的图像如图3。接下来，根据目标音频帧确定如图2a所示的备选对象为显示对象，并且根据目标音频帧中的音乐控制图2a示出的显示对象随音乐跳动。接下来，对图3所示的图像进行人体识别，确定出如图6所示的不包括人体的区域。从图6所示的不包括人体的区域中随机选择出添加位置，并在添加位置添加随音乐跳动的五线谱。添加显示对象之后的图像如图4所示。

那么，当主播在直播过程中弹钢琴时，观众不仅能够听到主播的琴声，还能看到主播画面随音乐跳动的五线谱，增强了用户体验。

基于与前述实施例中编辑视频的方法同样的发明构思，本发明第二方面还提供一种编辑视频的装置，如图10所示，包括：

识别模块101，用于对视频文件或视频流所包含的音频帧进行识别，识别出包括音乐的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧；

第一确定模块102，用于确定所述目标音频帧对应的用于增强效果的显示对象；

第二确定模块103，用于根据所述目标音频帧确定对应的目标视频帧；

添加模块104，用于将所述显示对象添加到所述目标视频帧的图像中。

进一步，所述装置还包括：

添加模块104用于将所述显示对象添加到所述目标视频帧的图像中的所述添加位置。

具体来讲，第三确定模块用于在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果；基于所述预设对象识别结果，从所述目标视频帧的图像中确定出不包括预设对象的区域；在所述不包括预设对象的区域中确定出所述添加位置。

或者，第三确定模块用于从所述目标视频帧的图像的预设的边缘区域中选择一位置作为所述添加位置。

更进一步，本发明实施例中，编辑视频的装置还包括：

进一步，第一确定模块102用于获取用于表示音乐的备选对象；按照所述目标音频帧的音乐，将所述备选对象编辑为跟随所述音乐动态变化的显示对象。

更进一步，所述音乐为乐器产生的音乐、人产生的音乐或电子设备产生的音乐中的一种或任意多种。

前述图1-图9实施例中的编辑视频的方法的各种变化方式和具体实例同样适用于本实施例的编辑视频的装置，通过前述对编辑视频的方法的详细描述，本领域技术人员可以清楚的知道本实施例中编辑视频的装置的实施方法，所以为了说明书的简洁，在此不再详述。

基于与前述实施例中编辑视频的方法同样的发明构思，本发明第三方面还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

在所述不包括预设对象的区域中确定出所述添加位置。

获取用于表示音乐的备选对象；

前述图1-图9实施例中的编辑视频的方法的各种变化方式和具体实例同样适用于本实施例的计算机可读存储介质，通过前述对编辑视频的方法的详细描述，本领域技术人员可以清楚的知道本实施例中计算机可读存储介质的实施方法，所以为了说明书的简洁，在此不再详述。

基于与前述实施例中编辑视频的方法同样的发明构思，本发明第三方面还提供一种计算机设备，如图11所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机设备可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意计算机设备，以计算机设备为手机为例：

图11示出的是与本发明实施例提供的计算机设备相关的手机的部分结构的框图。参考图11，手机包括：射频(Radio Frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless-fidelity，Wi-Fi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图11中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图11中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；优选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池)，优选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该计算机设备所包括的处理器380执行存储器存储的程序时实现以下步骤：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

进一步，处理器380在执行步骤：将所述显示对象添加到所述目标视频帧的图像中之前还执行另一些程序，在执行该另一些程序时实现以下步骤：

进一步，处理器380在执行步骤从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置对应的程序时具体实现以下步骤：

在所述不包括预设对象的区域中确定出所述添加位置。

进一步，处理器380在执行步骤：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后还执行另一些程序，在执行该另一些程序时实现以下步骤：

进一步，处理器380在执行步骤确定所述目标音频帧对应的用于增强效果的显示对象对应的程序时具体实现以下步骤：

获取用于表示音乐的备选对象；

另外，音乐为乐器产生的音乐、人产生的音乐或电子设备产生的音乐中的一种或任意多种。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了，A1、一种编辑视频的方法，其特征在于，包括：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

A2、根据A1所述的方法，其特征在于，在将所述显示对象添加到所述目标视频帧的图像中之前，还包括：

将所述显示对象添加到所述目标视频帧的图像中，包括：

A3、根据A2所述的方法，其特征在于，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置，包括：

在所述不包括预设对象的区域中确定出所述添加位置。

A4、根据A2所述的方法，其特征在于，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置，包括：

A5、根据A2所述的方法，其特征在于，在从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后，所述方法还包括：

A6、根据A1所述的方法，其特征在于，确定所述目标音频帧对应的用于增强效果的显示对象，包括：

获取用于表示音乐的备选对象；

A7、根据A1-A6任一项所述的方法，其特征在于，所述音乐为乐器产生的音乐、人产生的音乐或电子设备产生的音乐中的一种或任意多种。

B8、一种编辑视频的装置，其特征在于，包括：

B9、根据B8所述的装置，其特征在于，所述装置还包括：

B10、根据B9所述的装置，其特征在于，所述第三确定模块用于在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果；基于所述预设对象识别结果，从所述目标视频帧的图像中确定出不包括预设对象的区域；在所述不包括预设对象的区域中确定出所述添加位置。

B11、根据B9所述的装置，其特征在于，所述第三确定模块用于从所述目标视频帧的图像的预设的边缘区域中选择一位置作为所述添加位置。

B12、根据B9所述的装置，其特征在于，所述装置还包括：

B13、根据B8所述的装置，其特征在于，所述第一确定模块用于获取用于表示音乐的备选对象；按照所述目标音频帧的音乐，将所述备选对象编辑为跟随所述音乐动态变化的显示对象。

B14、根据B8-B13任一项所述的装置，其特征在于，所述音乐为乐器产生的音乐、人产生的音乐或电子设备产生的音乐中的一种或任意多种。

C15、一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

C16、根据C15所述的计算机可读存储介质，其特征在于，所述计算机可读存储介质还存储有另一些计算机程序，该另外一些计算机程序在步骤：将所述显示对象添加到所述目标视频帧的图像中之前被执行，执行时实现以下步骤：

C17、根据C16所述的计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储的与步骤：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置对应的计算机程序在被执行时，具体包括以下步骤：

在所述不包括预设对象的区域中确定出所述添加位置。

C18、根据C16所述的计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储的与步骤：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置对应的计算机程序在被执行时，具体包括以下步骤：

C19、根据C16所述的计算机可读存储介质，其特征在于，所述计算机可读存储介质还存储有另一些计算机程序，该另外一些计算机程序在步骤：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后被执行，执行时实现以下步骤：

C20、根据C15所述的计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储的与步骤：确定所述目标音频帧对应的用于增强效果的显示对象对应的计算机程序在被执行时，具体包括以下步骤：

获取用于表示音乐的备选对象；

C21、根据C15-C20任一项所述的计算机可读存储介质，其特征在于，所述音乐为乐器产生的音乐、人产生的音乐或电子设备产生的音乐中的一种或任意多种。

D22、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

D23、根据D22所述的计算机设备，其特征在于，所述处理器在执行步骤：将所述显示对象添加到所述目标视频帧的图像中之前还执行另一些程序，在执行该另一些程序时实现以下步骤：

D24、根据D23所述的计算机设备，其特征在于，所述处理器在执行步骤从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置对应的程序时具体实现以下步骤：

在所述不包括预设对象的区域中确定出所述添加位置。

D25、根据D23所述的计算机设备，其特征在于，所述处理器在执行步骤从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置对应的程序时具体实现以下步骤：

D26、根据D23所述的计算机设备，其特征在于，所述处理器在执行步骤：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后还执行另一些程序，在执行该另一些程序时实现以下步骤：

D27、根据D22所述的计算机设备，其特征在于，所述处理器在执行步骤确定所述目标音频帧对应的用于增强效果的显示对象对应的程序时具体实现以下步骤：

获取用于表示音乐的备选对象；

D28、根据D22-27任一项所述的计算机设备，其特征在于，所述音乐为乐器产生的音乐、人产生的音乐或电子设备产生的音乐中的一种或任意多种。

Claims

1.一种编辑视频的方法，其特征在于，包括：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

2.如权利要求1所述的方法，其特征在于，在将所述显示对象添加到所述目标视频帧的图像中之前，还包括：

将所述显示对象添加到所述目标视频帧的图像中，包括：

3.如权利要求2所述的方法，其特征在于，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置，包括：

在所述不包括预设对象的区域中确定出所述添加位置。

4.如权利要求2所述的方法，其特征在于，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置，包括：

5.如权利要求2所述的方法，其特征在于，在从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，确定所述目标音频帧对应的用于增强效果的显示对象，包括：

获取用于表示音乐的备选对象；

7.如权利要求1-6任一项所述的方法，其特征在于，所述音乐为乐器产生的音乐、人产生的音乐或电子设备产生的音乐中的一种或任意多种。

8.一种编辑视频的装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。