CN107493442A

CN107493442A - 一种编辑视频的方法和装置

Info

Publication number: CN107493442A
Application number: CN201710602551.9A
Authority: CN
Inventors: 陈杰
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2017-12-19

Abstract

本发明涉及电子技术领域，尤其涉及一种视频编辑的方法和装置。所述方法包括：对视频文件或视频流所包含的音频帧进行识别，识别出音量和/或声纹满足预设条件的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧；确定所述目标音频帧对应的用于增强效果的显示对象；根据所述目标音频帧确定对应的目标视频帧；将所述显示对象添加到所述目标视频帧的图像中。本发明用于实现降低视频编辑对人工依赖的程度，自动对视频文件或视频流进行编辑的技术效果。

Description

一种编辑视频的方法和装置

技术领域

本发明涉及电子技术领域，尤其涉及一种编辑视频的方法和装置。

背景技术

为了增强观看体验，视频制作人员往往会在视频中添加一下增强效果的显示对象。举例来说，当视频中的人物突然大叫“啊”，则在视频中添加一个感叹号“！”，和/或添加一个文字符为“啊”字的贴纸；当视频中的人物大笑时，则在视频中添加大笑的动态表情。

然而，在现有技术中，上述在视频中添加增强效果的显示对象几乎完全依赖于视频制作人员的后期编辑。因此，现有技术中编辑视频的方法存在人工依赖程度高的技术问题。

发明内容

本发明实施例提供了一种编辑视频的方法和装置，用于实现降低视频编辑对人工依赖的程度，自动对视频文件或视频流进行编辑的技术效果。

第一方面，本发明提供了一种编辑视频的方法，包括：

对视频文件或视频流所包含的音频帧进行识别，识别出音量和/或声纹满足预设条件的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧；

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

可选的，所述预设条件包括所述音频帧的声纹能够与一预设声纹匹配；

所述对视频文件或视频流所包含的音频帧进行识别，识别出声纹满足预设条件的目标音频帧，包括：

提取所述视频文件或视频流每帧所述音频帧的声纹；

将每帧所述音频帧的声纹与一个或多个所述预设声纹进行匹配；

如果所述音频帧的声纹与其中一个所述预设声纹匹配，表示所述音频帧的声纹满足预设条件，将所述音频帧识别为所述目标音频帧。

可选的，每个所述预设声纹关联了一个或多个备选显示对象；

所述确定所述目标音频帧对应的用于增强效果的显示对象，包括：

根据与所述目标音频帧的声纹匹配的所述预设声纹，获取所述预设声纹关联的一个或多个所述备选显示对象；

确定其中一个所述备选显示对象为所述目标音频帧对应的所述显示对象。

可选的，所述预设条件包括音频帧的音量超过预设音量；

所述对视频文件或视频流所包含的音频帧进行识别，识别出音量满足预设条件的目标音频帧，包括：

提取所述视频文件或视频流每帧所述音频帧的音量；

判断所述音频帧的音频是否超过所述预设音量；

如果所述音频帧的音量超过所述预设音量，表示所述音频帧的音量满足预设条件，将所述音频帧识别为所述目标音频帧。

可选的，在确定所述目标音频帧所对应用于增强效果的显示对象之前，还包括：对所述目标音频帧进行语音识别，获得语音识别结果；

所述确定所述目标音频帧所对应用于增强效果的显示对象，包括：如果所述语音识别结果表示所述目标音频帧包括语音，以包括文字符的显示对象为所述目标音频帧对应的所述显示对象，所述文字符为所述目标音频帧的语音内容。

可选的，在将所述显示对象添加到所述目标视频帧的图像中之前，还包括：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置；

将所述显示对象添加到所述目标视频帧的图像中，包括：将所述显示对象添加到所述目标视频帧的图像中的所述添加位置。

可选的，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置，包括：

在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果；

基于所述预设对象识别结果，从所述目标视频帧的图像中确定出不包括预设对象的区域；

在所述不包括预设对象的区域中确定出所述添加位置。

从所述目标视频帧的图像的预设的边缘区域中选择一位置作为所述添加位置。

可选的，在从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后，还包括：

基于所述添加位置，获得所述目标视频帧的图像在所述添加位置处的颜色；

根据所述添加位置处的颜色，将所述显示对象的颜色调整至与所述添加位置处的颜色不同。

第二方面，本发明提供了一种编辑视频的装置，包括：

第一识别模块，用于对视频文件或视频流所包含的音频帧进行识别，识别出音量和/或声纹满足预设条件的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧；

第一确定模块，用于确定所述目标音频帧对应的用于增强效果的显示对象；

第二确定模块，用于根据所述目标音频帧确定对应的目标视频帧；

添加模块，用于将所述显示对象添加到所述目标视频帧的图像中。

所述第一识别模块用于提取所述视频文件或视频流每帧所述音频帧的声纹；将每帧所述音频帧的声纹与一个或多个所述预设声纹进行匹配；如果所述音频帧的声纹与其中一个所述预设声纹匹配，表示所述音频帧的声纹满足预设条件，将所述音频帧识别为所述目标音频帧。

所述第一确定模块，用于根据与所述目标音频帧的声纹匹配的所述预设声纹，获取所述预设声纹关联的一个或多个所述备选显示对象；确定其中一个所述备选显示对象为所述目标音频帧对应的所述显示对象。

可选的，所述预设条件包括音频帧的音量超过预设音量；

所述第一识别模块用于提取所述视频文件或视频流每帧所述音频帧的音量；判断所述音频帧的音频是否超过所述预设音量；如果所述音频帧的音量超过所述预设音量，表示所述音频帧的音量满足预设条件，将所述音频帧识别为所述目标音频帧。

可选的，所述装置还包括语音识别模块，用于在确定所述目标音频帧所对应用于增强效果的显示对象之前，对所述目标音频帧进行语音识别，获得语音识别结果；

所述第一确定模块用于如果所述语音识别结果表示所述目标音频帧包括语音，以包括文字符的显示对象为所述目标音频帧对应的所述显示对象，所述文字符为所述目标音频帧的语音内容。

可选的，所述装置还包括第三确定模块，用于在将所述显示对象添加到所述目标视频帧的图像中之前，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置；

所述添加模块用于将所述显示对象添加到所述目标视频帧的图像中的所述添加位置。

可选的，所述第三确定模块用于在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果；基于所述预设对象识别结果，从所述目标视频帧的图像中确定出不包括预设对象的区域；在所述不包括预设对象的区域中确定出所述添加位置。

可选的，所述第三确定模块用于从所述目标视频帧的图像的预设的边缘区域中选择一位置作为所述添加位置。

可选的，所述装置还包括：

获得模块，用于在从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后，基于所述添加位置，获得所述目标视频帧的图像在所述添加位置处的颜色；

调整模块，用于根据所述添加位置处的颜色，将所述显示对象的颜色调整至与所述添加位置处的颜色不同。

第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一项所述方法的步骤。

第四方面，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

在本发明实施例的技术方案中，首先对视频文件或视频流所包含的音频帧进行识别，识别出音量和/或声纹满足预设条件的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧，然后确定所述目标音频帧对应的用于增强效果的显示对象，进而将所述显示对象添加到所述目标音频帧对应的目标视频帧的图像中。所以，通过自动识别出视频文件或视频流中音量和/或声纹满足预设条件的目标音频帧，进而在目标音频帧对应的目标视频帧的图像上自动添加上对应的显示对象，由此实现对视频进行自动编辑，所以本发明解决了现有技术存在的视频编辑人工依赖的程度高的技术问题，实现了降低对人工依赖程度的技术效果。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例中编辑视频的方法流程图；

图2a-图2c为本发明实施例中显示对象的示意图；

图3为本发明实施例中一目标视频帧的图像示意图；

图4为在图3所示的图像中添加图2a所示的显示对象所获得图像的示意图；

图5a-图5b为本发明实施例中预设的边缘区域的示意图；

图6为图3所示的图像中不包括人体的区域的示意图；

图7为本发明实施例中另一目标视频帧的图像示意图；

图8为图7所示的图像中不包括埃菲尔铁塔区域的示意图；

图9为在图7所示的图像中添加图2a所示的显示对象所获得图像的示意图；

图10为本发明实施例中编辑视频的装置结构示意图；

图11为本发明实施例中计算机设备的结构示意图。

具体实施方式

为了解决上述技术问题，本发明提供的技术方案总体思路如下：

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明第一方面提供了一种编辑视频的方法，请参考图1，为编辑视频的方法流程图。该方法包括：

S101：对视频文件或视频流所包含的音频帧进行识别，识别出音量和/或声纹满足预设条件的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧；

S102：确定所述目标音频帧对应的用于增强效果的显示对象；

S103：根据所述目标音频帧确定对应的目标视频帧；

S104：将所述显示对象添加到所述目标视频帧的图像中。

具体来讲，本发明实施例中的视频文件指的是视频录制结束后获得的多媒体数据，视频流指的是视频录制过程中同步形成的，且完整视频文件被传输完成前就可以显示的多媒体数据，可应用于网络直播。视频文件和视频流都包含多帧视频帧，以及包含与视频帧对应的音频帧。视频帧具有图像数据，而音频帧则具有音频数据。通常情况下，视频帧和音频帧的时间轴是同步的，在此种情况下，视频帧和音频帧按照时间轴对应。

在本发明实施例的S101中，对视频文件或视频流的音频帧进行识别。在具体实现过程中，音频可以通过音量、声纹或频谱等表示，因此对音频的识别可以具体为识别其音量、声纹或频谱等中的一个或任意多个，本发明不做具体限制。为方便介绍，以音量和/或声纹为例来进行后续介绍。

在S101中，对音频帧的音量和/或声纹进行识别，识别出音量/和或声纹满足预设条件的音频帧，将该音频帧确定为目标音频帧。在具体实现过程中，本发明所属领域的技术人员可以根据实际设置不同的预设条件，由此将不同的音频帧识别目标音频帧。举例来说，假设预设条件为音频帧的音量高于预设音量，那么具体就是将音量高于预设音量的音频帧识别为目标音频帧；假设预设条件为音频帧的声纹与预先配置的预设声纹匹配，那么具体就是将声纹与预设声纹匹配的音频帧识别为目标音频帧。

其中，预设音量可以为缺省音量(例如中等音量50dB～60dB)，也可以为视频文件或历史视频流的平均音量等。预设声纹例如为鸟叫声的声纹、猫叫声的声纹或者爆炸声的声纹等。本发明所属领域的普通技术人员可以根据实际进行设置，本发明不做具体限制。

另外，如果是对视频文件进行识别，则具体是对视频文件包含的多帧音频帧进行识别。如果是对视频流进行识别，则具体是识别接收时间与当前时间最接近的一帧或多帧多媒体数据的音频帧。

接下来，在S102中，确定目标音频帧对应的用于增强效果的显示对象。具体来讲，本发明实施例中的显示对象包括但不限于贴纸、弹幕和表情等。图2a-图2c示出了三种显示对象，其中图2a具体示出了一种贴纸，图2b具体示出了一种弹幕，图2c具体示出了一种表情。具体地，可以从多个备选显示对象中任意选择一个作为显示对象，也可以按照一定规则进行选择，例如目标音频帧的声纹与鸟叫声的声纹匹配，则选择图2a所示的小鸟的贴纸为显示对象，本发明不做具体限制。

接着，在S103中，根据目标音频帧确定对应的目标视频帧。具体来讲，确定在时间轴上与目标音频帧对应着相同时刻的视频帧为目标视频帧。

另外，在具体实现过程中，S103也可以在S102之前执行，或者S102和S103同时执行，本发明对S102和S103的执行顺序不做具体限制。

接着，在S104中，将确定出的显示对象添加到目标音频帧对应的目标视频帧的图像中。举例来说，如果将视频流最新的音频帧识别为目标音频帧，而对应的最新的视频帧如图3所示，则在最新的视频帧上添加图2a所示的显示对象，进而获得例如图4所示的图像。

由上述描述可以看出，通过自动识别出视频文件或视频流中音量和/或声纹满足预设条件的目标音频帧，进而在目标音频帧对应的目标视频帧的图像上自动添加上对应的显示对象，由此实现对视频进行自动编辑，所以本发明解决了现有技术存在的视频编辑人工依赖的程度高的技术问题，实现了降低对人工依赖程度的技术效果。

上文中介绍了预设条件可以有多种，那么S101中识别目标音频帧的实现方式也有多种。下面就对其中几种实现方式进行具体介绍。在具体实现过程中，包括但不限于以下几种实现方式。

第一种：

在第一种实现方式中，预设条件为音频帧的声纹能够与一个或多个预设声纹中的一个预设声纹匹配，S101具体可以通过如下过程实现：

提取所述视频文件或视频流每帧所述音频帧的声纹；

具体来讲，预设声纹为某种已知声音的声纹，例如鸟叫声的声纹、爆炸声的声纹、“啊”声的声纹、汽车声音的声纹或者猫叫声的声纹等。本领域技术人员可以预先根据经验提取已知声音的声纹作为预设声纹。

在第一种实现方式中，首先提取视频文件或视频流每帧音频帧的声纹。具体地，如果编辑的是视频文件，可以每次提取一帧或多帧音频帧的声纹进行匹配，匹配完该一帧或多帧音频帧后，再继续提取后续音频帧的声纹；或者也一次性提取所有音频帧的声纹，进而对所有音频帧的声纹进行匹配。如果提取的是视频流音频帧的声纹，可以每隔预设时长(例如20秒)或者每接收到预设数量的新多媒体数据后，提取该预设时长内的视频流或者该预设数量的多媒体数据的音频帧的声纹，本发明不做具体限制。在具体实现过程中，预设时长和预设数量设置的越小，越有利于及时对视频流自动编辑。

接下来，将每帧音频帧的声纹与预先设置的一个或多个预设声纹进行匹配。具体来讲，将音频帧的声纹与每个预设声纹依次进行匹配，如果音频帧的声纹与当前匹配的预设声纹匹配成功，则确定该音频帧的声纹与该个预设声纹匹配，该音频帧满足预设条件，进而确定该音频帧为目标音频帧，可以不再进行下一个预设声纹的匹配；如果音频帧的声纹与当前匹配的预设声纹匹配不成功，则将该音频帧的声纹与下一个预设声纹继续匹配；如果该音频帧的声纹与所有预设声纹均匹配不成功，确定该音频帧不为目标音频帧。

举例来说，预设声纹具体为鸟叫声的声纹、爆炸声的声纹、“啊”声的声纹、汽车声音的声纹以及猫叫声的声纹。如果一音频帧的声纹与鸟叫声的声纹匹配成功，那么可以将该音频帧的声纹看作鸟叫声的声纹，进而将该音频帧的声音看作是鸟叫声。而根据经验，如果视频文件或视频流记录有鸟叫声，对应的视频帧被编辑的可能性高，故而将该音频帧确定为目标音频帧。

根据经验，如果视频文件或视频流中包含有预设声纹，对预设声纹出现的视频图像进行编辑的可能性很高，因此由上述描述可知，通过第一种实现方式将与预设声纹匹配的音频帧确定为目标音频帧，进而后续对相应的目标视频帧进行编辑，由此就实现了自动对包含有预设声纹的音频帧所对应的视频图像进行自动编辑的技术效果。

第二种：

在第二种实现方式中，预设条件为音频帧的音量超过预设音量，S101具体可以通过如下过程实现：

提取所述视频文件或视频流每帧所述音频帧的音量；

判断所述音频帧的音频是否超过所述预设音量；

具体来讲，预设音量可以为静态的缺省音量，例如人说话的中等音量在50dB～60dB，那么可以设置缺省音量为50dB～60dB中的任意值。或者，预设音量也可以为动态变化的音量。具体来讲，在一种实现方式中，如果编辑的是视频文件，可以将视频文件的平均音量设置为预设音量；在另一种实现方式中，如果编辑的视频流，可以将已经接收的视频流的平均音量设置为预设音量，并根据后续接收的视频流重新计算并更新预设音量；在另一种实现方式中，如果编辑的视频流，可以将前一帧视频流的音量的预设倍数设置为预设音量，并根据后续接收的每帧视频流更新预设音量。在具体实现过程中，本发明不做具体限制。预设倍数例如为2倍、5倍或3倍等。

在第二种实现方式中，首先提取视频文件或视频流每帧音频帧的音量。上文中提取音频帧的声纹的多种实现方式也适用于提取音频帧的音量，例如一次提取视频文件一帧或多帧音频帧的音量、提取预设时长或预设数量音频帧的音量等，因此类似之处就不再重复赘述了。

然后，将提取到的音量与预设音量进行比较，判断音频帧的音量是否超过预设音量。如果音频帧的音量等于或大于预设音量，那么音频帧的音量满足预设条件，将该音频帧识别为目标音频帧；反之，如果音频帧的音量低于预设音量，那么音频帧的音量不满足预设条件，不将该音频帧识别为目标音频帧。

举例来说，例如预设音量缺省设置为55dB，如果一音频帧(例如记录的是主播哈哈大笑的声音)的音量超过预设音量，表示该音频帧的音量超过中等音量。而根据经验，通常具有较大音量的音频帧所对应视频帧被编辑的可能性高，因此将该音频帧确定为目标音频帧，便于后续自动编辑对应的目标视频帧。再例如，编辑的是视频文件，预设音量为该视频文件的平均音量，如果一音频帧(例如记录的是主播大叫一声“啊”的声音)的音量超过预设音量，表示该音频帧的音量超过视频文件音量的平均水平。而根据经验，通常超过平均水平的音频帧所对应视频帧被编辑的可能性高，因此将该音频帧确定为目标音频帧，便于后续自动编辑对应的目标视频帧。再例如，如果编辑的是视频流，将已经接收的视频流的平均音量设置为预设音量，如果一音频帧(例如记录的是主播哈哈大笑的声音)的音量超过预设音量，表示该音频帧的音量超过之前接收的视频流的平均音量水平。而根据经验，通常高于一般音量的音频帧所对应视频帧被编辑的可能性高，因此将该音频帧确定为目标音频帧，便于后续自动编辑对应的目标视频帧。再例如，编辑的是视频流，将接收的前一帧视频流的音量的5倍设置为预设音量，如果一音频帧(例如记录的是爆炸的声音)的音量超过预设音量，表示该帧音频帧的音量突然明显超过前一帧视频流的音量。而根据经验，通常对于突然明显高出前一帧音量的音频帧所对应视频帧被编辑的可能性高，因此将该音频帧确定为目标音频帧，便于后续自动编辑对应的目标视频帧。

根据经验，如果视频文件或视频流中的音量突然很高，例如主播突然大笑，对音量突然很高的视频图像进行编辑的可能性很高，因此由上述描述可知，通过第二种实现方式将音量高于预设音量的音频帧确定为目标音频帧，进而后续对相应的目标视频帧进行编辑，由此就实现了自动对音量突然很高的音频帧所对应的视频图像进行自动编辑的技术效果。

第三种：

结合第一种实现方式和第二种实现方式，第三种实现方式的预设条件为音频帧的声纹能够与一个或多个预设声纹中的一个预设声纹匹配，或者音频帧的音量超过预设音量。

具体来讲，在第三种实现方式中，首先提取音频帧的声纹，然后将音频帧的声纹与预设声纹进行匹配。如果音频帧的声纹与其中一个预设声纹匹配，则确定该音频帧为目标音频帧。如果音频帧的声纹与所有预设声纹均不匹配，进一步提取音频帧的音量，然后判断音频帧的音量是否超过预设音量。如果音频帧的音量超过预设音量，则确定音频帧为目标音频帧。如果音频帧的声纹与所有预设声纹均不匹配，并且音频帧的音量也不超过预设音量，则确定音频帧不为目标音频帧。

第四种：

结合第一种实现方式和第二种实现方式，第四种实现方式的预设条件为音频帧的音量超过预设音量，或者音频帧的声纹能够与一个或多个预设声纹中的一个预设声纹匹配。

具体来讲，在第四种实现方式中，首先提取音频帧的音量，然后判断音频帧的音量是否超过预设音量。如果音频帧的音量超过预设音量，则确定音频帧为目标音频帧。如果音频帧的音量不超过预设音量，进一步提取音频帧的声纹，然后将音频帧的声纹与预设声纹进行匹配。如果音频帧的声纹与其中一个预设声纹匹配，则确定音频帧为目标音频帧。如果音频帧的音量不超过预设音量，且音频帧的声纹也与所有预设声纹均不匹配，则确定音频帧不为目标音频帧。

第五种：

结合第一种实现方式和第二种实现方式，第五种实现方式的预设条件为音频帧的音量超过预设音量，且音频帧的声纹能够与一个或多个预设声纹中的一个预设声纹匹配。

具体来讲，在第五种实现方式中，首先提取音频帧的音量，然后判断音频帧的音量是否超过预设音量。如果音频帧的音量超过预设音量，进一步提取该音频帧的声纹，然后将该音频帧的声纹与预设声纹进行匹配。如果音频帧的声纹与其中一个预设声纹匹配，则确定音频帧为目标音频帧。如果音频帧的音量不超过预设音量，或者音频帧的音量超过预设音量但音频帧的声纹与所有预设声纹均不匹配，则确定音频帧不为目标音频帧。

在具体实现过程中，本发明所属的普通技术人员可以根据实际选择上述五种实现方式或者其他实现方式中的任意一种，本发明不做具体限制。

接下来对S102中如何确定显示对象进行介绍。在具体实现过程中，确定目标音频帧不同的实现方式可以有相同或不同的确定显示对象的实施方式，下面就结合其中几种确定目标音频帧的方式来进行介绍。

第一种：

结合第一种、第三种、第四种或第五种确定目标音频帧的实现方式，在第一种确定显示对象的实现方式中，每个预设声纹关联了一个或多个备选显示对象。举例来说，假设预设声纹具体为鸟叫声的声纹、爆炸声的声纹、“啊”声的声纹、汽车声音的声纹以及猫叫声的声纹，鸟叫声的声纹关联了如图2a所示的贴纸，爆炸声的声纹关联了内容为“BOOM”的弹幕和地雷的贴纸、“啊”声的声纹关联了文字符为“啊”的贴纸、汽车声音的声纹关联了汽车的表情以及猫叫声的声纹关联了猫的贴纸。另外，在具体实现过程中，不同预设声纹关联的显示对象可以相同也可以不完全相同。

因此，在该种实施方式中，S102可以通过如下过程实现：

具体来讲，从与目标音频帧的声纹匹配的预设声纹所关联的备选显示对象中确定出一个来作为显示对象。在本发明实施例中，如果该预设声纹仅关联了一个备选显示对象，那么直接将该个备选显示对象确定为目标音频帧对应的显示对象；如果预设声纹关联了多个备选显示对象，那么随机选择一个备选显示对象为目标音频帧对应的显示对象，或者将备选显示对象展示给用户，更确定用户选择的备选显示对象为目标音频帧对应的显示对象，或者选择历史选中次数最多的备选显示对象为目标音频帧对应的显示对象等，本发明不做具体限制。

举例来说，假设与一个目标音频帧的声纹匹配的预设声纹是鸟叫声的声纹，由于鸟叫声的声纹只关联了如图2a所示的贴纸，故而选择如图2a所示的贴纸该个为目标音频帧对应的显示对象。再假设另一个目标音频帧的声纹匹配的预设声纹是爆炸声的声纹，爆炸声的声纹关联了内容为“BOOM”的弹幕和地雷的贴纸，其中内容为“BOOM”的弹幕历史选中的次数为3，地雷的贴纸历史选中的次数为1，故而选择内容为“BOOM”的弹幕为该另一个目标音频帧对应的显示对象。

由上述描述可以看出，通过将与目标音频帧的声纹匹配的预设声纹关联的其中一个备选显示对象作为显示对象，进而实现了根据音频帧的声纹自动在视频图像中编辑上与声纹相关的显示对象。

第二种：

结合第二种、第三种、第四种或第五种确定目标音频帧的实施方式，在第二种确定显示对象的实现方式中，在S102之前还需执行如下步骤：

对所述目标音频帧进行语音识别，获得语音识别结果；

而确定目标音频帧所对应用于增强效果的显示对象，通过如下过程实现：

如果所述语音识别结果表示所述目标音频帧包括语音，以包括文字符的显示对象为所述目标音频帧对应的所述显示对象，所述文字符为所述目标音频帧的语音内容。

具体来讲，在确定显示对象之前，对目标音频帧进行语音识别，获得语音识别结果。本发明实施例中的语音识别结果表示目标音频帧是否包括语音，以及如果目标音频帧包括语音时其具体的语音内容。

接下来，如果语音识别结果表示目标音频帧包括语音时，确定目标音频帧对应的显示对象为包括文字符的显示对象。并且，获取语音识别结果中的语音内容赋值给文字符，以使得显示对象的文字符为目标音频帧的语音内容。

举例来说，对目标音频帧进行语音识别的语音识别结果为“哈哈哈太好笑了”，那么确定显示对象具体为弹幕。进一步，提取语音识别结果“哈哈哈太好笑了”赋值给图2b所示的弹幕文字符，进而使得该弹幕的内容为目标音频帧的语音内容“哈哈哈太好笑了”。

由上述描述可以看出，通过确定包含与语音内容一致的文字符的显示对象作为目标音频帧对应的显示对象，进而实现了将音频帧的语音自动以含有文字符的表达形式编辑到视频图像中。

第三种：

如果在第二种实现方式中，语音识别结果表示目标音频帧中不包括语音，那么进一步按照第一种实现方式中的方式确定显示对象，即确定与目标音频帧的声纹匹配的预设声纹关联的其中一个备选显示对象，作为目标音频帧对应的显示对象。

在具体实现过程中，本发明所属领域的普通技术人员可以根据实际选择上述五种实现方式或者其他实现方式中的任意一种，本发明不做具体限制。

更具体地来说，在S104中添加显示对象时，在一种实现方式中，可以随机选择目标视频帧的图像中的任意位置作为添加位置。或者，在另一个种实现方式中，也可以选择适于添加显示对象的位置作为添加位置，进而避免显示对象影响用户观看视频文件或视频流。该种实现方式在S104之前，还进一步包括如下步骤：

从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置。

具体来讲，适于添加显示对象的添加位置例如为预设对象(例如网络直播的主播、标志性建筑、动物或汽车)以外的位置以及边缘区域的位置等不易影响用户观看的位置。由于适于添加显示对象的位置有多种可能，因此确定添加位置的实施方式也有多种。下面就对其中三种实施方式进行详细介绍。

第一种：

在第一种实现方式中，从目标视频帧的图像中确定出适于添加显示对象的添加位置，具体包括如下过程：

具体来讲，根据经验，视频中主要对象，例如主播、建筑物或动物等常常位于图像的中间区域，因此在边缘区域添加显示对象影响用户观看的可能性小于在中间区域添加显示对象影响用户观看的可能性。

在本发明实施例中，预设的边缘区域可以是连续的，如图5a中阴影区域所示，也可以是离散的，如图5b阴影区域所示。具体地，可以预先获取显示区域尺寸，根据预设尺寸在显示区域中确定出预设的边缘区域。预设尺寸例如为显示尺寸的五分之一，或者1.5cm等，本领域技术人员根据实际进行设置，本发明不做具体限制。

接下来，从预设的边缘区域中选择一位置作为添加位置。具体来讲，可以从预设的边缘区域中随机选择一位置作为添加位置，或者从预设的边缘区域中选择最靠近显示区域中轴线的位置作为添加位置，或者从预设的边缘区域中选择最高的位置最为添加位置等，本发明不做具体限制。

由上述描述可以看出，从预设的边缘区域中选择一位置作为添加位置，进而将显示对象显示目标视频帧的图像的边缘区域中，进而避免显示对象遮挡中间区域的对象，影响用户观看视频文件或视频流中的主要对象。

一个具体的例子，目标视频帧的图像如图3所示，预设的边缘区域如图5a所示。在预设的边缘区域中选择最高的位置最为添加位置。然后，将如图2a所示的显示对象添加到添加位置，进而获得如图4所示的图像。

第二种：

在第二种实现方式中，从目标视频帧的图像中确定出适于添加显示对象的添加位置，具体包括如下过程：

在所述不包括预设对象的区域中确定出所述添加位置。

更具体地来说，在第二种实现方式中，预设对象具体为人体，例如视频文件中的用户或者视频流中的主播等。因此，在第二种实现方式中，步骤“在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果”具体包括：

在所述目标视频帧的图像中进行人体识别，获得人体识别结果；

步骤“基于所述预设对象识别结果，从所述目标视频帧的图像中确定出不包括预设对象的区域”具体包括：

基于所述人体识别结果，从所述目标视频帧的图像中确定出不包括人体的区域；

步骤“在所述不包括预设对象的区域中确定出所述添加位置”具体包括：

在所述不包括人体的区域中确定出所述添加位置。

具体来讲，根据经验，图像中的人体常为用户主要观看对象，因此将显示对象显示在没有人体的区域中不易影响用户观看。因此，在该种实现方式中，在目标视频帧的图像中进行人体识别，获得人体识别结果。其中，对目标视频的图像进行人体识别的方法可选择现有技术中的任意一种，本发明不做具体限制。

如果人体识别结果表示目标视频帧的图像中不存在人体，那么可以进一步按照上文中的任意实现方式确定添加位置，此处就不再重复赘述了。如果人体识别结果表示目标视频帧的图像中存在人体，那么，进一步根据人体识别结果包含的人体所在区域，从目标视频帧的图像中反向确定出不包括人体的区域。然后，在不包括人体的区域中确定一位置作为添加位置。

具体来讲，可以从不包括人体的区域中随机选择一位置作为添加位置，或者从不包括人体的区域中选择最靠近显示区域中轴线的位置作为添加位置，或者从不包括人体的区域中选择最高的位置最为添加位置等，本发明不做具体限制。

由上述描述可以看出，通过在目标视频帧的图像中进行人体识别，获得人体识别结果，进而根据人体识别结果确定出不包括人体的区域，然后再从不包括人体的区域中确定添加位置，由此使得显示对象不会显示在目标视频帧的人体之上，遮挡人体，避免了显示对象影响用户观看视频文件或视频流中的人体。

一个具体的例子，目标视频帧的图像如图3所示。通过对图3所示的图像进行人体识别，进而确定出图3所示的图像中不包括人体的区域如图6阴影区域所示。然后，从图6所示的不包括人体的区域中随机选择出添加位置，并在添加位置添加图2a所示的贴纸。添加显示对象之后的图像如图4所示。

第三种：

在第三种实现方式中，从目标视频帧的图像中确定出适于添加显示对象的添加位置，具体包括如下过程：

在所述不包括预设对象的区域中确定出所述添加位置。

更具体地来说，在第三种实现方式中，预设对象具体为预设建筑物。因此，在第三种实现方式中，步骤“在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果”具体包括：

在所述目标视频帧的图像中进行预设建筑物识别，获得建筑物识别结果；

基于所述建筑物识别结果，从所述目标视频帧的图像中确定出不包括预设建筑物的区域；

在所述不包括预设建筑物的区域中确定出所述添加位置。

具体来讲，根据经验，若图像中包括标志性建筑物、著名建筑物时，这些建筑物常为用户主要观看对象，因此将显示对象显示在没有建筑物的区域中不易影响用户观看。标志性建筑物、著名建筑物例如天安门、长城、水立方、悉尼歌剧院和埃菲尔铁塔等。因此，在该种实施方式中，在目标视频帧的图像中进行预设建筑物识别，获得建筑物识别结果。

在本发明实施例中，本领域技术人员可以根据实际预先选择一个或多个建筑物作为预设建筑物，然后从各个预设建筑物的图像中提取出建筑物特征。然后，基于预设建筑物的建筑物特征对目标视频的图像进行预设建筑物的识别，获得建筑物识别结果。

如果建筑物识别结果表示目标视频帧的图像中不存在预设建筑物，那么可以进一步按照上文中的任意实现方式确定添加位置，此处就不再重复赘述了。如果建筑物识别结果表示目标视频帧的图像中存在预设建筑物，那么，进一步根据建筑物识别结果包含的预设建筑物所在区域，从目标视频帧的图像中反向确定出不包括预设建筑物的区域。然后，在不包括预设建筑物的区域中确定一位置作为添加位置。

具体来讲，可以从不包括预设建筑物的区域中随机选择一位置作为添加位置，或者从不包括预设建筑物的区域中选择最靠近显示区域中轴线的位置作为添加位置，或者从不包括预设建筑物的区域中选择最高的位置最为添加位置等，本发明不做具体限制。

由上述描述可以看出，通过在目标视频帧的图像中进行预设建筑物识别，获得建筑物识别结果，进而根据建筑物识别结果确定出不包括预设建筑物的区域，然后再不从包括预设建筑物的区域中确定添加位置，由此使得显示对象不会显示在目标视频帧的预设建筑物之上，遮挡预设建筑物，避免了显示对象影响用户观看视频文件或视频流中的预设建筑物。

一个具体的例子，目标视频帧的图像如图7所示。假设预设建筑物包括埃菲尔铁塔。通过对图7所示的图像进行预设建筑物识别，进而确定出图7所示的图像包括预设建筑物，且具体包括的预设建筑物为埃菲尔铁塔。其中，不包括埃菲尔铁塔的区域如图8阴影区域所示。然后，从图8所示的不包括埃菲尔铁塔的区域中随机选择出添加位置，并在添加位置添加图2a所示的贴纸。添加显示对象之后的图像如图9所示。

在具体实现过程中，本发明所属领域的普通技术人员可以选择上述第一种实现方式或第二种实现方式。在不冲突的情况下，也可以同时选择第一种实现方式和第二种实现方式，例如在人体识别结果表示图像中存在人体时应用第二种实现方式，在人体识别结果表示图像中不存在人体时应用第一种实现方式。另外，在具体实现过程中，本发明所属领域的普通技术人员还可以选择其他实施方式，本发明不做具体限制。

进一步，结合上述第一种实现方式、第二种实现方式或第三种实现方式中的一种或任意多种，作为一种可选的实施例，在从目标视频帧的图像中确定出适于添加显示对象的添加位置之后，还进一步包括：

基于所述添加位置，获得所述目标视频帧的图像在所述添加位置处颜色；

具体来讲，根据添加位置坐标，从目标视频帧的图像中读取添加位置处的颜色。然后，将显示对象的颜色调整至与添加位置处的颜色不同。

在一种实现方式中，具体是将显示对象的颜色调整为添加位置处的颜色的反色。例如添加位置处的颜色为黑色，则将显示对象的颜色调整为黑色。或者，在另一种实现方式中，将显示对象的颜色调整为颜色空间中与添加位置处的颜色达到预设距离的颜色。以颜色空间为RGB(红绿蓝，Red Green Blue)颜色空间为例来进行举例说明。添加位置其中一个像素点颜色为(0,0,0)，假设预设距离为100，因此将显示对象在该像素点处的颜色调整为RGB颜色空间中距离(0,0,0)100的颜色，例如(100,0,0)。在具体实现过程中，本发明所属领域的普通技术人员可以根据实际进行设置，本发明不做具体限制。

由上述描述可知，获得目标视频帧的图像在添加位置处颜色，并根据添加位置处的颜色，将显示对象的颜色调整至与添加位置处的颜色不同，由于显示对象颜色与图像添加位置处原本的颜色不同，故而避免了由于颜色一致而导致显示对象被全部或部分淹没，所以本发明实施例保证了用户可以清楚地观看到显示对象，增强了用户体验。

基于与前述实施例中编辑视频的方法同样的发明构思，本发明第二方面还提供一种编辑视频的装置，如图10所示，包括：

第一识别模块101，用于对视频文件或视频流所包含的音频帧进行识别，识别出音量和/或声纹满足预设条件的目标音频帧，所述视频文件或视频流还包含与每帧音频帧对应的视频帧；

第一确定模块102，用于确定所述目标音频帧对应的用于增强效果的显示对象；

第二确定模块103，用于根据所述目标音频帧确定对应的目标视频帧；

添加模块104，用于将所述显示对象添加到所述目标视频帧的图像中。

在一种实施方式中，所述预设条件包括所述音频帧的声纹能够与一预设声纹匹配；

第一识别模块101用于提取所述视频文件或视频流每帧所述音频帧的声纹；将每帧所述音频帧的声纹与一个或多个所述预设声纹进行匹配；如果所述音频帧的声纹与其中一个所述预设声纹匹配，表示所述音频帧的声纹满足预设条件，将所述音频帧识别为所述目标音频帧。

进一步，每个所述预设声纹关联了一个或多个备选显示对象；

第一确定模块102，用于根据与所述目标音频帧的声纹匹配的所述预设声纹，获取所述预设声纹关联的一个或多个所述备选显示对象；确定其中一个所述备选显示对象为所述目标音频帧对应的所述显示对象。

在另一种实施方式中，预设条件包括音频帧的音量超过预设音量；

第一识别模块101用于提取所述视频文件或视频流每帧所述音频帧的音量；判断所述音频帧的音频是否超过所述预设音量；如果所述音频帧的音量超过所述预设音量，表示所述音频帧的音量满足预设条件，将所述音频帧识别为所述目标音频帧。

进一步，所述装置还包括语音识别模块，用于在确定所述目标音频帧所对应用于增强效果的显示对象之前，对所述目标音频帧进行语音识别，获得语音识别结果；

第一确定模块102用于如果所述语音识别结果表示所述目标音频帧包括语音，以包括文字符的显示对象为所述目标音频帧对应的所述显示对象，所述文字符为所述目标音频帧的语音内容。

进一步，所述装置还包括第三确定模块，用于在将所述显示对象添加到所述目标视频帧的图像中之前，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置；

具体来讲，所述第三确定模块用于在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果；基于所述预设对象识别结果，从所述目标视频帧的图像中确定出不包括预设对象的区域；在所述不包括预设对象的区域中确定出所述添加位置。

或者，所述第三确定模块用于从所述目标视频帧的图像的预设的边缘区域中选择一位置作为所述添加位置。

更进一步，所述装置还包括：

前述图1-图9实施例中的编辑视频的方法的各种变化方式和具体实例同样适用于本实施例的编辑视频的装置，通过前述对编辑视频的方法的详细描述，本领域技术人员可以清楚的知道本实施例中编辑视频的装置的实施方法，所以为了说明书的简洁，在此不再详述。

基于与前述实施例中编辑视频的方法同样的发明构思，本发明第三方面还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述实施例任一方法的步骤。

基于与前述实施例中编辑视频的方法同样的发明构思，本发明第四方面还提供一种计算机设备，如图11所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机设备可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意计算机设备，以计算机设备为手机为例：

图11示出的是与本发明实施例提供的计算机设备相关的手机的部分结构的框图。参考图11，手机包括：射频(Radio Frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless-fidelity，Wi-Fi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图11中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图11中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；优选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池)，优选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该计算机设备所包括的处理器380执行存储器存储的程序时实现前述实施例中任一方法的步骤。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了，A1、一种编辑视频的方法，其特征在于，包括：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

A2、根据A1所述的方法，其特征在于，所述预设条件包括所述音频帧的声纹能够与一预设声纹匹配；

提取所述视频文件或视频流每帧所述音频帧的声纹；

A3、根据A2所述的方法，其特征在于，每个所述预设声纹关联了一个或多个备选显示对象；

A4、根据A1或A2所述的方法，其特征在于，所述预设条件包括音频帧的音量超过预设音量；

提取所述视频文件或视频流每帧所述音频帧的音量；

判断所述音频帧的音频是否超过所述预设音量；

A5、根据A4所述的方法，其特征在于，在确定所述目标音频帧所对应用于增强效果的显示对象之前，还包括：对所述目标音频帧进行语音识别，获得语音识别结果；

A6、根据A1所述的方法，其特征在于，在将所述显示对象添加到所述目标视频帧的图像中之前，还包括：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置；

A7、根据A6所述的方法，其特征在于，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置，包括：

在所述不包括预设对象的区域中确定出所述添加位置。

A8、根据A6所述的方法，其特征在于，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置，包括：

A9、根据A6所述的方法，其特征在于，在从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置之后，还包括：

B10、一种编辑视频的装置，其特征在于，包括：

B11、根据B10所述的装置，其特征在于，所述预设条件包括所述音频帧的声纹能够与一预设声纹匹配；

B12、根据B11所述的装置，其特征在于，每个所述预设声纹关联了一个或多个备选显示对象；

B13、根据B11或B12所述的装置，其特征在于，所述预设条件包括音频帧的音量超过预设音量；

B14、根据B13所述的装置，其特征在于，所述装置还包括语音识别模块，用于在确定所述目标音频帧所对应用于增强效果的显示对象之前，对所述目标音频帧进行语音识别，获得语音识别结果；

B15、根据B10所述的装置，其特征在于，所述装置还包括第三确定模块，用于在将所述显示对象添加到所述目标视频帧的图像中之前，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置；

B16、根据B15所述的装置，其特征在于，所述第三确定模块用于在所述目标视频帧的图像中进行预设对象识别，获得预设对象识别结果；基于所述预设对象识别结果，从所述目标视频帧的图像中确定出不包括预设对象的区域；在所述不包括预设对象的区域中确定出所述添加位置。

B17、根据B15所述的装置，其特征在于，所述第三确定模块用于从所述目标视频帧的图像的预设的边缘区域中选择一位置作为所述添加位置。

B18、根据B15所述的装置，其特征在于，所述装置还包括：

C19、一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现A1-A9任一项所述方法的步骤。

D20、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现A1-A9任一项所述方法的步骤。

Claims

1.一种编辑视频的方法，其特征在于，包括：

确定所述目标音频帧对应的用于增强效果的显示对象；

根据所述目标音频帧确定对应的目标视频帧；

将所述显示对象添加到所述目标视频帧的图像中。

2.如权利要求1所述的方法，其特征在于，所述预设条件包括所述音频帧的声纹能够与一预设声纹匹配；

提取所述视频文件或视频流每帧所述音频帧的声纹；

3.如权利要求2所述的方法，其特征在于，每个所述预设声纹关联了一个或多个备选显示对象；

4.如权利要求1或2所述的方法，其特征在于，所述预设条件包括音频帧的音量超过预设音量；

提取所述视频文件或视频流每帧所述音频帧的音量；

判断所述音频帧的音频是否超过所述预设音量；

5.如权利要求4所述的方法，其特征在于，在确定所述目标音频帧所对应用于增强效果的显示对象之前，还包括：对所述目标音频帧进行语音识别，获得语音识别结果；

6.如权利要求1所述的方法，其特征在于，在将所述显示对象添加到所述目标视频帧的图像中之前，还包括：从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置；

7.如权利要求6所述的方法，其特征在于，从所述目标视频帧的图像中确定出适于添加所述显示对象的添加位置，包括：

在所述不包括预设对象的区域中确定出所述添加位置。

8.一种编辑视频的装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。