CN107396178A

CN107396178A - 一种编辑视频的方法和装置

Info

Publication number: CN107396178A
Application number: CN201710617556.9A
Authority: CN
Inventors: 陈杰
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2017-11-24
Anticipated expiration: 2037-07-26
Also published as: CN107396178B

Abstract

本发明实施例提供了一种编辑视频的方法和装置，至少用于实现提高对视频编辑的智能化，降低人工依赖程度的技术效果。所述方法包括：接收选取视频文件第A帧图像的第一选取操作，所述视频文件包括依次排序的N帧图像；通过音频输入装置获取语音信息；接收选取所述视频文件第B帧图像的第二选取操作；基于所述语音信息确定显示对象；将所述显示对象添加到所述第A帧图像至所述第B帧图像的B‑A+1帧图像中。

Description

一种编辑视频的方法和装置

技术领域

本发明涉及电子技术领域，尤其涉及一种编辑视频的方法和装置。

背景技术

为了增强观看体验，视频制作人员往往会在视频中添加用于增强效果的显示对象。举例来说，为了对视频中的某一段进行说明，或者增强某一段的观众体验，会在该段视频的图像中添加例如“历史回顾”或“大家都笑得很开心”等显示对象。

然而，在现有技术中，上述在视频中添加增强效果的显示对象几乎完全依赖于人工编辑。具体来讲，假设该段视频从第A帧图像开始至第B帧图像结束(A>B，且A、B均正整数)，那么编辑人员需要在第A帧图像至第B帧图像间总共B-A+1帧的图像上逐个添加显示对象。

因此，现有技术中编辑视频的方法存在人工依赖程度高的技术问题。

发明内容

本发明实施例提供了一种编辑视频的方法和装置，至少用于实现提高对视频编辑的智能化，降低人工依赖程度的技术效果。

第一方面，本发明提供了一种编辑视频的方法，包括：

接收选取视频文件第A帧图像的第一选取操作，所述视频文件包括依次排序的N帧图像；

通过音频输入装置获取语音信息；

接收选取所述视频文件第B帧图像的第二选取操作；

基于所述语音信息确定显示对象；

将所述显示对象添加到所述第A帧图像至所述第B帧图像的B-A+1帧图像中。

可选的，所述基于所述语音信息确定显示对象，包括：

基于所述语音信息，提取出所述语音信息包括的语言内容；

获取一第一备选显示对象，所述第一备选显示对象包含能够被显示的文字符；

将所述语言内容赋值给所述第一备选显示对象的所述文字符；

将赋值完成后的所述第一备选显示对象确定为所述显示对象。

可选的，预先存储有多个第二备选显示对象，每个所述第二备选显示对象与唯一的标识关联存储；

所述基于所述语音信息确定显示对象，包括：

基于所述语音信息，提取出所述语音信息包括的目标标识；

从多个所述第二备选对象中确定与所述目标标识关联存储的所述第二显示对象为所述显示对象。

可选的，在所述通过音频输入装置获取语音信息的过程中，所述方法还包括：

显示多个所述第二备选显示对象，以及每个所述第二显示对象关联的标识。

可选的，所述方法还包括：

接收触发所述视频文件进入可编辑模式的触发操作；

基于所述触发操作，控制所述视频文件进入所述可编辑模式；

在所述可编辑模式下，按照N帧所述图像的排序播放所述视频文件。

可选的，所述接收选取视频文件第A帧图像的第一选取操作，以及所述接收选取所述视频文件第B帧图像的第二选取操作，包括：

在所述视频文件播放过程中，接收针对所述第A帧图像至所述第B帧图像的长按操作；所述长按操作的起始点为所述第一选取操作，所述长按操作的结束点为所述第二选取操作。

可选的，所述通过音频输入装置获取语音信息，包括：

在接收到所述长按操作时，启动所述音频输入装置；

通过所述音频输入装置接收所述语音信息；

当所述长按操作结束，获取所述语音信息。

可选的，在所述将所述显示对象添加到所述第A帧图像至所述第B帧图像的B-A+1帧图像中之前，还包括：从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置；

所述将所述显示对象添加到所述第A帧图像至所述第B帧图像的B-A+1帧图像中，包括：

将所述显示对象添加到B-A+1帧所述图像中的所述添加位置。

可选的，所述从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置，包括：

在所述图像中进行预设对象识别，获得预设对象识别结果；

基于所述预设对象识别结果，从所述图像中确定出不包括预设对象的区域；

在所述不包括预设对象的区域中确定出所述添加位置。

从所述图像的预设的边缘区域中选择一位置作为所述添加位置。

可选的，在所述从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置之后，所述方法还包括：

基于所述添加位置，获得所述图像在所述添加位置处的颜色；

根据所述添加位置处的颜色，将所述显示对象的颜色调整至与所述添加位置处的颜色不同。

第二方面，本发明提供了一种编辑视频的装置，包括：

第一接收模块，用于接收选取视频文件第A帧图像的第一选取操作，所述视频文件包括依次排序的N帧图像；

语音获取模块，用于通过音频输入装置获取语音信息；

第二接收模块，用于接收选取所述视频文件第B帧图像的第二选取操作；

第一确定模块，用于基于所述语音信息确定显示对象；

添加模块，用于将所述显示对象添加到所述第A帧图像至所述第B帧图像的B-A+1帧图像中。

可选的，所述第一确定模块用于基于所述语音信息，提取出所述语音信息包括的语言内容；获取一第一备选显示对象，所述第一备选显示对象包含能够被显示的文字符；将所述语言内容赋值给所述第一备选显示对象的所述文字符；将赋值完成后的所述第一备选显示对象确定为所述显示对象。

所述第一确定模块用于基于所述语音信息，提取出所述语音信息包括的目标标识；从多个所述第二备选对象中确定与所述目标标识关联存储的所述第二显示对象为所述显示对象。

可选的，所述装置还包括显示模块，用于在所述通过音频输入装置获取语音信息的过程中，显示多个所述第二备选显示对象，以及每个所述第二显示对象关联的标识。

可选的，所述装置还包括：

第三接收模块，用于接收触发所述视频文件进入可编辑模式的触发操作；

控制模块，用于基于所述触发操作，控制所述视频文件进入所述可编辑模式；

播放模块，用于在所述可编辑模式下，按照N帧所述图像的排序播放所述视频文件。

可选的，所述第一接收模块以及所述第二接收模块用于在所述视频文件播放过程中，接收针对所述第A帧图像至所述第B帧图像的长按操作；所述长按操作的起始点为所述第一选取操作，所述长按操作的结束点为所述第二选取操作。

可选的，所述语音获取模块用于在接收到所述长按操作时，启动所述音频输入装置；通过所述音频输入装置接收所述语音信息；当所述长按操作结束，获取所述语音信息。

可选的，所述装置还包括第二确定模块，用于在将所述显示对象添加到所述第A帧图像至所述第B帧图像的B-A+1帧图像中之前，从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置；

所述第一确定模块用于将所述显示对象添加到B-A+1帧所述图像中的所述添加位置。

可选的，所述第二确定模块用于在所述图像中进行预设对象识别，获得预设对象识别结果；基于所述预设对象识别结果，从所述图像中确定出不包括预设对象的区域；在所述不包括预设对象的区域中确定出所述添加位置。

可选的，所述第二确定模块用于从所述图像的预设的边缘区域中选择一位置作为所述添加位置。

可选的，所述装置还包括：

获得模块，用于在从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置之后，基于所述添加位置，获得所述图像在所述添加位置处的颜色；

调整模块，用于根据所述添加位置处的颜色，将所述显示对象的颜色调整至与所述添加位置处的颜色不同。

第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一项所述方法的步骤。

第四方面，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

在本发明实施例的技术方案中，接收选取视频文件第A帧图像的第一选取操作，所述视频文件包括依次排序的N帧图像，以及通过音频输入装置获取语音信息，以及接收选取所述视频文件第B帧图像的第二选取操作，然后基于所述语音信息确定显示对象，并将所述显示对象添加到所述第A帧图像至所述第B帧图像之间的图像中。可见，根据所述第一选取操作、所述第二选取操作和语音输入，就智能地确定出所述显示对象，并将所述显示对象自动添加到所述第A帧图像至所述第B帧图像的B-A+1帧图像中，由此解决了现有技术存在的视频编辑人工依赖的程度高的技术问题，实现了依赖少量人工操作智能编辑视频的技术效果。

进一步，对用户而言，通过选取所述第A帧图像和所述第B帧图像，并输入语音，就可以对B-A+1帧图像中的进行编辑，故而也简化了编辑视频的人工操作，方便了用户。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为一种可能的编辑视频系统架构示意图；

图2为本发明实施例中编辑视频的方法流程图；

图3为本发明实施例中平铺显示N帧图像的示意图；

图4a-图4c为本发明实施例中显示对象的示意图；

图5a-图5b为本发明实施例中预设的边缘区域的示意图；

图6为本发明实施例中其中一帧图像的示意图；

图7为在图6所示的图像中添加图4a所示的显示对象所获得图像的示意图；

图8为图6所示的图像中不包括人体的区域的示意图；

图9为本发明实施例中另一帧图像的示意图；

图10为图9所示的图像中不包括埃菲尔铁塔区域的示意图；

图11为在图9所示的图像中添加图4a所示的显示对象所获得图像的示意图；

图12为本发明实施例中编辑视频的装置结构示意图；

图13为本发明实施例中计算机设备的结构示意图。

具体实施方式

为了解决上述技术问题，本发明提供的技术方案思路如下：

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明第一方面提供了一种编辑视频的方法。首先，对能够应用本发明实施例中编辑视频的方法的编辑视频系统架构进行介绍。请参考图1，为一种可能的编辑视频的系统架构示意图。

媒体文件模块用于存储正式视频文件，正式视频文件包括但不限于MP4文件、MKV文件以及3GP文件等。当需要对媒体文件模块存储的正式视频文件进行编辑时，媒体文件模块将正式视频文件传输到媒体解码器模块。媒体解码器模块用于按时间轴分轨读取正式视频文件，进而解码出正式视频文件的音频和图像。可选的，如果正式视频文件为无声文件，也可以不分轨读取，而直接读取图像。接下来，媒体解码器模块将图像传输到渲染器模块，将音频传输到音轨处理模块。在渲染器模块中，对图像进行编辑，例如添加贴纸、人脸识别、控制图像速度和添加滤镜等，本发明不做具体限制。在音轨处理模块中，对音频进行编辑，例如采样、叠加或识别特征音等，本发明不做具体限制。

接下来，如果编辑完成后，用户需要预览，那么渲染器模块和音轨处理模块将编辑后的图像和音频发送到实时预览模块，进而实时预览模块在预览模式下播放编辑后的视频；如果编辑完成后用户需要保存成正式视频文件，那么渲染器模块和音轨处理模块将编辑后的图像和音频发送给媒体编码器，在媒体编码器中重新将音频和图像按照时间轴编码在一起形成正式视频文件，并进一步发送到媒体文件模块存储。

可选的，在具体实现过程中，向媒体解码器发送数据的模块还包括图像采集模块和音频输入模块，换言之，可以将由图像采集模块和音频输入模块采集到的临时视频文件直接发送到媒体解码器进行解码，然后进一步进行编辑。编辑完成后的临时视频文件可以存储为正式视频文件，也可以删除，本发明不做具体限制。

下面请参考图2，为本发明实施例中的编辑视频的方法流程图。该方法包括：

S101：接收选取视频文件第A帧图像的第一选取操作，所述视频文件包括依次排序的N帧图像；

S102：通过音频输入装置获取语音信息；

S103：接收选取所述视频文件第B帧图像的第二选取操作；

S104：基于所述语音信息确定显示对象；

S105：将所述显示对象添加到所述第A帧图像至所述第B帧图像的B-A+1帧图像中。

具体来讲，本发明实施例中的视频文件可以为正式视频文件，也可以为临时视频文件，本发明不做具体限制。视频文件包括依次排序的N帧图像，N帧图像的排序即为播放顺序，N为正整数。

在S101中，接收选取视频文件中第A帧图像的第一选取操作。具体来讲，A为正整数，A＜N。第一选取操作可以是在视频文件播放的状态下执行的操作，例如在预览模式下，用户观看到符合需求的视频段开始，则从第A帧图像开始长按，第A帧图像为该段视频的第一帧图像；或者，第一选取操作也可以是在视频文件未播放的状态下执行的，例如平铺显示视频文件的N帧图像，如图3所示，用户根据需求选取其中的第A帧图像。进一步，第一选取操作可以具体为点击操作、长按操作的起止点、重按操作或勾选操作等，本发明不做具体限制。其中，重按操作指的是压力超过阈值的触控操作。

在S102中，通过音频输入装置获取语音信息。具体来讲，当需要对某段视频进行编辑，且具体是需要在该段视频的图像中添加显示对象时，启动音频输入装置，然后获取用户输入的语音信息。

在S103中，接收选取视频文件中的第B帧图像的第二选取操作。B为正整数，A＜B≤N。类似于第一选取操作，第二选取操作可以是在视频文件播放的状态下执行的，例如在预览模式下，用户观看到符合需求的视频段结束，则在第B帧图像结束长按，第B帧图像为该段视频的最后一帧图像；或者，第二选取操作也可以是在视频文件未播放的状态下执行的，例如图3所示，用户根据需求选取其中的第B帧图像。进一步，第二选取操作也可以具体为点击操作、长按操作的结束点、重按操作或勾选操作等，本发明不做具体限制。

另外，尽管本发明实施例记载的是S101、S102和S103，但在具体实现过程中，S101、S102和S103的执行顺序可以是任意的。例如先执行S101获得第一选取操作，再执行S103获得第二选取操作，再执行S102获得语音信息；或者先执行S102获得语音信息，再执行S101获得第一选取操作，再执行S103获得第二选取操作；或者先执行S101获得第一选取操作，再执行S102获取语音信息，再执行S103获得第二选取操作；或者在一个操作中执行S101和S103，且在该操作执行的同时执行S102。

接下来，在S104中，基于语音信息确定显示对象。具体来讲，在一种实施方式中，可以提取语音信息中的语言内容，进而将包含有语言内容的备选显示对象为显示对象，例如从语音信息中提取出语音内容“2001年”，进而确定如图4a或如图4b所示的显示对象。或者，在另一种实施方式中，也可以提取语音信息中的目标标识，例如编号，进而确定与目标标识对应备选显示对象为显示对象，例如编号1对应如图4c所示的备选显示对象，如果从语音信息中提取出编号“1”，那么将图4c所示的备选显示对象确定为显示对象。

最后，在S105中，将显示对象添加到第A帧图像至第B帧图像间的B-A+1帧图像中。

举一个具体的例子来说明。假设在视频文件预览过程中，用户从播放第35帧图像开始长按视频。在长按操作过程中，启动音频输入装置获取用户输入的语音信息“2001年”。当播放到第100帧图像时用户结束长按操作。假设长按操作的起始点为第一选取操作，长按操作的结束点为第二选取操作，那么由于长按操作由第35帧图像开始，在第100帧图像结束，故而由此确定出第35帧图像、第100帧图像以及排序在第35帧图像和第100帧图像之间的64帧图像，共确定65帧图像。然后，根据语音信息“2001年”确定如图4a所示的显示对象。最后，在第35帧图像至第100帧图像的66帧图像上均添加上图4a所述的显示对象。

再举一个具体的例子来说。假设视频文件的N帧图像平铺显示，如图3所示。第一选取操作和第二选取操作均为勾选操作。用户首先勾选第35帧图像，然后再勾选第100帧图像。进一步，勾选第35帧图像后在第35帧图像上显示标志“A”，勾选第100帧图像后在第100帧图像上显示标志“B”，以便用户确定是否选取了正确的视频段。接着，通过音频输入装置接收语音信息“第1个”。接着，根据语音信息“第1个”中的编号“1”，确定与编号1对应的显示对象如图4c所示。最后，在第35帧图像至第100帧图像的66帧图像上均添加上图4c所述的显示对象。

由上述描述可知，在本发明实施例的技术方案中，接收选取视频文件第A帧图像的第一选取操作，视频文件包括依次排序的N帧图像，以及通过音频输入装置获取语音信息，以及接收选取所述视频文件第B帧图像的第二选取操作，然后基于语音信息确定显示对象，并将显示对象添加到第A帧图像至第B帧图像之间的图像中。可见，根据第一选取操作、第二选取操作和语音输入，就智能地确定出显示对象，并将显示对象自动添加到第A帧图像至第B帧图像的B-A+1帧图像中，由此解决了现有技术存在的视频编辑人工依赖的程度高的技术问题，实现了依赖少量人工操作智能编辑视频的技术效果。

进一步，对用户而言，通过选取第A帧图像和第B帧图像，并输入语音，就可以对B-A+1帧图像中的进行编辑，故而也简化了编辑视频的人工操作，方便了用户。

接下来，对如何基于语音信息确定显示对象进行介绍。在具体实现过程中，确定显示对象的实施方式有多种，下面详细介绍其中两种。

第一种：

在第一种实施方式中，S104可以通过如下过程实现：

基于所述语音信息，提取出所述语音信息包括的语言内容；

具体来讲，语言内容可以是汉语语言内容，英语语言内容或者其他语言内容，本发明不做具体限制。按照语言特征从语音信息中提取出语言内容。举例来说，用户对着语音输入装置说“2001年”，那么从该语音信息中将提取出语言内容“2001年”；用户对着语音输入装置说“轰轰轰(汽车声)…好快啊…轰轰轰”，那么从该语音信息中将提取出语言内容“好快啊”。

本发明实施例中预先存储有第一备选显示对象。具体来讲，第一备选显示对象包含能够被显示的文字符，即，当第一备选显示对象被显示时，其文字符也同时被显示出。第一备选显示对象包括但不限于弹幕、如图4a所示的文字类显示对象或者其他包含文字符的对象，本发明不做具体限制。

另外，如果预先存储的第一备选显示对象仅有一个，那么直接获取该个第一备选显示对象。而如果第一备选显示对象有多个，那么可以将该多个第一备选显示对象显示给用户，进而获取用户的选择的第一备选显示对象，或者也可以自动获取被选次数最高的第一备选显示对象，本发明所属领域的普通技术人员可以根据实际进行设置，本发明不做具体限制。

接下来，将语言内容赋值给获取到的第一显示对象的文字符，使得第一备选显示对象被显示时，其显示的文字符具体为用户输入的语言内容。然后将赋值后的该第一备选显示对象确定显示对象。

举例来说，假设用户对着语音输入装置说“2001年”，从该语音信息中提取出的语言内容为“2001年”。在如图4a和图4b所示的两个第一备选显示对象中，图4a所示的弹幕被选次数为3，图4b所示的文字类对象被选次数为2，因此选择如图4a所示的弹幕。接着，将语言内容“2001年”赋值给如图4a所示的弹幕，进而获得如图4a所示的弹幕。

由上述描述可以看出，通过从语音信息中提取出语言内容，并将语言内容赋值给第一备选显示对象的文字符，再将赋值完成后的第一备选显示对象确定为显示对象，由此实现了将用户输入的语音的语言内容转化成显示对象显示在视频段中的技术效果。对用户而言，通过说出不同语言内容的话，即输入语音信息就可以在视频段中添加上相应文字符的显示对象，方便了用户编辑视频。

第二种：

在第二种实施方式中，S104可以通过如下过程实现：

基于所述语音信息，提取出所述语音信息包括的目标标识；

具体来讲，在第二种实施方式中，预先存储有多个第二备选显示对象，不同于第一备选显示对象的是，第二备选显示对象是任意的，可以包括文字符也可以不包括文字符。每个第二备选显示对象与唯一的标识关联存储。标识可以具体为编号、名称或ID等，本发明不做具体限制。

在第二种实施方式中，用户根据自己的需要，对着语音输入装置说出包括有目标标识的语音信息。目标标识为用户需要添加的显示对象对应的标识。举例来说，用户需要如图4c所示的第二显示对象，而图4c所示的第二备选显示对象关联存储的标识为“12”，因此用户输入包括“12”语音信息，例如“我需要添加第12个对象”。

然后，基于语音信息，从语音信息中提取出标识信息，并将该标识信息中的标识确定为目标标识。例如对语音信息“我需要添加第12个对象”进行分析，确定其包含的标识信息为“12”，进而将“12”确定为目标标识。

然后，从多个第二备选显示对象中获取与目标标识关联存储的第二备选显示对象，将获取到的第二备选显示对象确定为显示对象。还是沿用上文中的例子来说，确定出的目标标识为“12”，而与“12”关联存储的第二备选显示为图4c所示的第二备选显示对象，因此，确定如图4c所示的第二备选显示对象为用户需要添加的显示对象。

由上述描述可以看出，通过从语音信息中提取出目标标识，并将目标标识关联存储的第二备选显示对象确定为显示对象，由此实现了根据简单的语音信息转化出显示对象的技术效果。对用户而言，通过说出不同目标标识，即输入语音信息就可以在视频段中添加上相应的显示对象，方便了用户编辑视频。

可选的，多个第二备选显示对象可以由系统缺省设置，和/或可以由用户根据需要自行设置，本发明不做具体限制。

进一步，结合上述确定显示对象的第二种实施方式，在通过音频输入装置获取语音信息的过程中，还可以进一步包括：

具体来讲，为了避免用户由于无法准确记住自己需要添加的显示对象的标识而导致输入错误，在获取语音信息的过程中，将多个第二备选显示对象以及每个第二备选显示对象关联的标识均显示出来。进而，用户可以观看到每个第二备选显示对象以及对应的标识，从而，一方面不需要用户记忆每个第二备选显示对象对应的标识，另一方面，避免用户输入错误的目标标识而确定出不是用户需要的显示对象。

进一步，结合上述确定显示对象的第一种实施方式或者第二种实施方式，本发明实施例编辑视频的方法还可以进一步包括：

接收触发所述视频文件进入可编辑模式的触发操作；

具体来讲，当用户需要编辑视频时，针对视频文件执行触发操作。具体地，触发操作可以为点击正式视频文件的“编辑”选项，或者在拍摄完成临时视频文件后点击“预览”等，本发明不做具体限制。

如果接收到触发操作，则进入可编辑视频模式。在本发明实施例中，可编辑视频模式包括临时视频文件的预览模式，以及正式视频文件的编辑模式。并且，进入可编辑模式后，按照视频文件N帧图像的排序播放视频文件。

由上述描述可以看出，基于用户的触发操作进入可编辑模式并播放视频文件，相较于观察静态的N帧图像，通过观看动态播放的视频文件可以使用户根据视频的情况确定需要编辑的视频段，进而选取更加合理的B-A+1帧图像。

进一步，结合上述实施方式，在可编辑模式且播放视频文件中，S101中接收第一选取操作以及S103中接收第二选取操作可以通过如下实施方式实现：

具体来讲，在该种实施方式中，第一选取操作具体为长按操作的起始点，第二选取操作具体为长按操作的结束点。举例来说，假设长按操作通过手指与触控屏接触实现，那么手指与触控屏接触即为长按操作的起始点，手指离开触控屏即为长按操作的结束点；假设长按操作通过鼠标点击实现，那么鼠标开始点击即为长按操作的起始点，鼠标停止点击即为长按操作的结束点。

在可编辑模式下，且视频文件播放过程中，如果接收到针对正在播放的视频文件的长按操作，则确定接收到的第一选取操作和第二选取操作。其中，第A帧图像具体为开始长按操作时播放到的图像，第B帧图像具体为长按操作结束时播放到的图像。换言之，长按操作所针对的视频段即为将要添加显示对象的视频段。

一个具体的例子，在可编辑模式下，且视频文件播放过程中，用户的手指从播放到第35帧图像时与触控屏接触开始长按，直到播放到第100帧图像时手指离开触控屏。基于该长按操作，确定在第35帧图像至第100帧图像间的图像上添加显示对象。

由上述描述可知，在视频文件播放过程中，通过接收针对第A帧图像至第B帧图像的长按操作，进而选取第A帧图像至第B帧图像间的B-A+1帧图像进行编辑，使得用户选取视频段的方式简单化。对用户而言，在视频文件的播放过程中，如果观看到自己需要编辑的视频段则通过简单的长按操作即可选取出该视频段，操作方便。

进一步，结合上述S101和S103的实施方式，S102中通过音频输入装置获取语音信息可以通过如下实施方式实现：

在接收到所述长按操作时，启动所述音频输入装置；

通过所述音频输入装置接收所述语音信息；

当所述长按操作结束，获取所述语音信息。

具体来讲，在接收到长按操作时，启动音频输入装置，并通过音频输入装置采集语音信息。换言之，用户执行长按操作的同时就可以说话，进而在选取B-A+1帧图像的同时输入语音信息。然后，当长按操作结束，则获取语音信息，可选的，关闭音频输入装置。

沿用上文中的例子，在接收到用户从第35帧图像开始的长按操作后，启动音频输入装置采集语音。当用户在第100帧图像结束长按操作候，获取采集到的语音信息“2001年”。那么，基于该长按操作，确定在第35帧图像至第100帧图像上添加显示对象。基于语音信息“2001年”确定显示对象具体如图4a所示。最后，在第35帧图像至第100帧图像的66帧图像上添加上该显示对象。

由上述描述可知，在视频文件播放过程中，通过长按操作选取第A帧图像至第B帧图像间的B-A+1帧图像，并获取长按操作期间的语音信息，进而确定显示对象以及需要添加显示对象的视频段，进而在该视频段的图像上添加上对应的显示对象。对用户而言，在视频文件的播放过程中，通过长按操作选取需要编辑的视频段，并在长按的同时输入语音就可以实现对该视频段的编辑，操作方便。

可选的，在S105中添加显示对象时，在一种实现方式中，可以随机选择图像中的任意位置作为添加位置。或者，在另一个种实现方式中，也可以选择适于添加显示对象的位置作为添加位置，进而避免显示对象影响用户观看视频文件或视频流。该种实现方式在S105之前，还进一步包括如下步骤：

从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置；

S105则具体包括：

将所述显示对象添加到B-A+1帧所述图像中的所述添加位置。

具体来讲，适于添加显示对象的添加位置例如为预设对象(例如网络直播的主播、标志性建筑、动物或汽车)以外的位置以及边缘区域的位置等不易影响用户观看的位置。由于适于添加显示对象的位置有多种可能，因此确定添加位置的实施方式也有多种。下面就对其中三种实施方式进行详细介绍。

第一种：

在第一种实现方式中，从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置，具体包括如下过程：

具体来讲，根据经验，视频中主要对象，例如主播、建筑物或动物等常常位于图像的中间区域，因此在边缘区域添加显示对象影响用户观看的可能性小于在中间区域添加显示对象影响用户观看的可能性。

在本发明实施例中，预设的边缘区域可以是连续的，如图5a中阴影区域所示，也可以是离散的，如图5b阴影区域所示。具体地，可以预先获取显示区域尺寸，根据预设尺寸在显示区域中确定出预设的边缘区域。预设尺寸例如为显示尺寸的五分之一，或者1.5cm等，本领域技术人员根据实际进行设置，本发明不做具体限制。

接下来，从每帧图像的预设的边缘区域中选择一位置作为添加位置。具体来讲，可以从预设的边缘区域中随机选择一位置作为添加位置，或者从预设的边缘区域中选择最靠近显示区域中轴线的位置作为添加位置，或者从预设的边缘区域中选择最高的位置最为添加位置等，本发明不做具体限制。

由上述描述可以看出，从每帧图像的预设的边缘区域中选择一位置作为添加位置，进而将显示对象显示每帧图像的边缘区域中，进而避免显示对象遮挡中间区域的对象，影响用户观看视频文件中的主要对象。

一个具体的例子，假设B-A+1帧图像中的其中一帧图像如图6所示，预设的边缘区域如图5a所示。在预设的边缘区域中选择最高的位置最为添加位置。然后，将如图4a所示的显示对象添加到添加位置，进而获得如图7所示的图像。

第二种：

在第二种实现方式中，从目标视频帧的图像中确定出适于添加显示对象的添加位置，具体包括如下过程：

在所述图像中进行预设对象识别，获得预设对象识别结果；

在所述不包括预设对象的区域中确定出所述添加位置。

更具体地来说，在第二种实现方式中，预设对象具体为人体，例如视频文件中的用户。因此，在第二种实现方式中，步骤“在所述图像中进行预设对象识别，获得预设对象识别结果”具体包括：

在所述图像中进行人体识别，获得人体识别结果；

步骤“基于所述预设对象识别结果，从所述图像中确定出不包括预设对象的区域”具体包括：

基于所述人体识别结果，从所述图像中确定出不包括人体的区域；

步骤“在所述不包括预设对象的区域中确定出所述添加位置”具体包括：

在所述不包括人体的区域中确定出所述添加位置。

具体来讲，根据经验，图像中的人体常为用户主要观看对象，因此将显示对象显示在没有人体的区域中不易影响用户观看。因此，在该种实现方式中，在每帧图像中进行人体识别，获得人体识别结果。其中，对图像进行人体识别的方法可选择现有技术中的任意一种，本发明不做具体限制。

如果人体识别结果表示某帧图像中不存在人体，那么可以进一步按照上文中的任意实现方式确定添加位置，此处就不再重复赘述了。如果人体识别结果表示该帧图像中存在人体，那么，进一步根据人体识别结果包含的人体所在区域，从该帧图像中反向确定出不包括人体的区域。然后，在不包括人体的区域中确定一位置作为添加位置。

具体来讲，可以从不包括人体的区域中随机选择一位置作为添加位置，或者从不包括人体的区域中选择最靠近显示区域中轴线的位置作为添加位置，或者从不包括人体的区域中选择最高的位置最为添加位置等，本发明不做具体限制。

由上述描述可以看出，通过在每帧图像中进行人体识别，获得人体识别结果，进而根据人体识别结果确定出每帧图像不包括人体的区域，然后再从不包括人体的区域中确定该帧图像中的添加位置，由此使得显示对象不会显示在B-A+1帧图像的人体之上，遮挡人体，避免了显示对象影响用户观看视频文件中的人体。

一个具体的例子，假设B-A+1帧图像中的其中一帧图像如图6所示。通过对图6所示的图像进行人体识别，进而确定出图6所示的图像中不包括人体的区域如图8阴影区域所示。然后，从图8所示的不包括人体的区域中随机选择出添加位置，并在添加位置添加图4a所示的贴纸。添加显示对象之后该帧图像如图7所示。

第三种：

在第三种实现方式中，从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置，具体包括如下过程：

在所述图像中进行预设对象识别，获得预设对象识别结果；

在所述不包括预设对象的区域中确定出所述添加位置。

更具体地来说，在第三种实现方式中，预设对象具体为预设建筑物。因此，在第三种实现方式中，步骤“在所述图像中进行预设对象识别，获得预设对象识别结果”具体包括：

在所述图像中进行预设建筑物识别，获得建筑物识别结果；

基于所述建筑物识别结果，从所述图像中确定出不包括预设建筑物的区域；

在所述不包括预设建筑物的区域中确定出所述添加位置。

具体来讲，根据经验，若图像中包括标志性建筑物、著名建筑物时，这些建筑物常为用户主要观看对象，因此将显示对象显示在没有建筑物的区域中不易影响用户观看。标志性建筑物、著名建筑物例如天安门、长城、水立方、悉尼歌剧院和埃菲尔铁塔等。因此，在该种实施方式中，在每帧图像中进行预设建筑物识别，获得建筑物识别结果。

在本发明实施例中，本领域技术人员可以根据实际预先选择一个或多个建筑物作为预设建筑物，然后从各个预设建筑物的图像中提取出建筑物特征。然后，基于预设建筑物的建筑物特征对每帧图像进行预设建筑物的识别，获得建筑物识别结果。

如果建筑物识别结果表示某帧图像中不存在预设建筑物，那么可以进一步按照上文中的任意实现方式确定该帧图像的添加位置，此处就不再重复赘述了。如果建筑物识别结果表示该帧图像中存在预设建筑物，那么，进一步根据建筑物识别结果包含的预设建筑物所在区域，从该帧图像中反向确定出不包括预设建筑物的区域。然后，在不包括预设建筑物的区域中确定一位置作为该帧图像的添加位置。

具体来讲，可以从不包括预设建筑物的区域中随机选择一位置作为添加位置，或者从不包括预设建筑物的区域中选择最靠近显示区域中轴线的位置作为添加位置，或者从不包括预设建筑物的区域中选择最高的位置最为添加位置等，本发明不做具体限制。

由上述描述可以看出，通过在每帧图像中进行预设建筑物识别，获得建筑物识别结果，进而根据建筑物识别结果确定出不包括预设建筑物的区域，然后再不从包括预设建筑物的区域中确定添加位置，由此使得显示对象不会显示在视频段的预设建筑物之上，遮挡预设建筑物，避免了显示对象影响用户观看视频文件中的预设建筑物。

一个具体的例子，假设B-A+1帧图像中的另一帧图像如图9所示。假设预设建筑物包括埃菲尔铁塔。通过对图9所示的图像进行预设建筑物识别，进而确定出图9所示的图像包括预设建筑物，且具体包括的预设建筑物为埃菲尔铁塔。其中，不包括埃菲尔铁塔的区域如图10阴影区域所示。然后，从图10所示的不包括埃菲尔铁塔的区域中随机选择出添加位置，并在添加位置添加图4a所示的贴纸。添加显示对象之后的图像如图11所示。

在具体实现过程中，本发明所属领域的普通技术人员可以选择上述第一种实现方式或第二种实现方式。在不冲突的情况下，也可以同时选择第一种实现方式和第二种实现方式，例如在人体识别结果表示图像中存在人体时应用第二种实现方式，在人体识别结果表示图像中不存在人体时应用第一种实现方式。另外，在具体实现过程中，本发明所属领域的普通技术人员还可以选择其他实施方式，本发明不做具体限制。

进一步，结合上述确定添加位置的第一种实现方式、第二种实现方式或第三种实现方式中的一种或任意多种，作为一种可选的实施例，在从第A帧图像至第B帧图像的B-A+1帧图像中确定出适于添加显示对象的添加位置之后，还进一步包括：

具体来讲，根据添加位置坐标，从每帧图像中读取添加位置处的颜色。然后，将显示对象的颜色调整至与添加位置处的颜色不同。

在一种实现方式中，具体是将显示对象的颜色调整为添加位置处的颜色的反色。例如添加位置处的颜色为黑色，则将显示对象的颜色调整为黑色。或者，在另一种实现方式中，将显示对象的颜色调整为颜色空间中与添加位置处的颜色达到预设距离的颜色。以颜色空间为RGB(红绿蓝，Red Green Blue)颜色空间为例来进行举例说明。添加位置其中一个像素点颜色为(0,0,0)，假设预设距离为100，因此将显示对象在该像素点处的颜色调整为RGB颜色空间中距离(0,0,0)100的颜色，例如(100,0,0)。在具体实现过程中，本发明所属领域的普通技术人员可以根据实际进行设置，本发明不做具体限制。

由上述描述可知，获得每帧图像在添加位置处颜色，并根据添加位置处的颜色，将显示对象的颜色调整至与添加位置处的颜色不同，由于显示对象颜色与图像添加位置处原本的颜色不同，故而避免了由于颜色一致而导致显示对象被全部或部分淹没，所以本发明实施例保证了用户可以清楚地观看到显示对象，增强了用户体验。

基于与前述实施例中编辑视频的方法同样的发明构思，本发明第二方面还提供一种编辑视频的装置，如图12所示，包括：

第一接收模块101，用于接收选取视频文件第A帧图像的第一选取操作，所述视频文件包括依次排序的N帧图像；

语音获取模块102，用于通过音频输入装置获取语音信息；

第二接收模块103，用于接收选取所述视频文件第B帧图像的第二选取操作；

第一确定模块104，用于基于所述语音信息确定显示对象；

添加模块105，用于将所述显示对象添加到所述第A帧图像至所述第B帧图像的B-A+1帧图像中。

具体来讲，第一确定模块104用于基于所述语音信息，提取出所述语音信息包括的语言内容；获取一第一备选显示对象，所述第一备选显示对象包含能够被显示的文字符；将所述语言内容赋值给所述第一备选显示对象的所述文字符；将赋值完成后的所述第一备选显示对象确定为所述显示对象。

或者，预先存储有多个第二备选显示对象，每个所述第二备选显示对象与唯一的标识关联存储；

第一确定模块104用于基于所述语音信息，提取出所述语音信息包括的目标标识；从多个所述第二备选对象中确定与所述目标标识关联存储的所述第二显示对象为所述显示对象。

进一步，所述装置还包括显示模块，用于在所述通过音频输入装置获取语音信息的过程中，显示多个所述第二备选显示对象，以及每个所述第二显示对象关联的标识。

可选的，所述装置还包括：

进一步，第一接收模块101以及第二接收模块103用于在所述视频文件播放过程中，接收针对所述第A帧图像至所述第B帧图像的长按操作；所述长按操作的起始点为所述第一选取操作，所述长按操作的结束点为所述第二选取操作。

更进一步，语音获取模块102用于在接收到所述长按操作时，启动所述音频输入装置；通过所述音频输入装置接收所述语音信息；当所述长按操作结束，获取所述语音信息。

第一确定模块104用于将所述显示对象添加到B-A+1帧所述图像中的所述添加位置。

进一步，所述第二确定模块用于在所述图像中进行预设对象识别，获得预设对象识别结果；基于所述预设对象识别结果，从所述图像中确定出不包括预设对象的区域；在所述不包括预设对象的区域中确定出所述添加位置。

或者，所述第二确定模块用于从所述图像的预设的边缘区域中选择一位置作为所述添加位置。

更进一步，所述装置还包括：

前述图1-图11实施例中的编辑视频的方法的各种变化方式和具体实例同样适用于本实施例的编辑视频的装置，通过前述对编辑视频的方法的详细描述，本领域技术人员可以清楚的知道本实施例中编辑视频的装置的实施方法，所以为了说明书的简洁，在此不再详述。

基于与前述实施例中编辑视频的方法同样的发明构思，本发明第三方面还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述实施例任一方法的步骤。

基于与前述实施例中编辑视频的方法同样的发明构思，本发明第四方面还提供一种计算机设备，如图13所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机设备可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意计算机设备，以计算机设备为手机为例：

图13示出的是与本发明实施例提供的计算机设备相关的手机的部分结构的框图。参考图13，手机包括：射频(Radio Frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless-fidelity，Wi-Fi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图13中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；优选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池)，优选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该计算机设备所包括的处理器380执行存储器存储的程序时实现前述实施例中任一方法的步骤。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了，A1、一种编辑视频的方法，其特征在于，包括：

通过音频输入装置获取语音信息；

接收选取所述视频文件第B帧图像的第二选取操作；

基于所述语音信息确定显示对象；

A2、根据A1所述的方法，其特征在于，所述基于所述语音信息确定显示对象，包括：

基于所述语音信息，提取出所述语音信息包括的语言内容；

A3、根据A1所述的方法，其特征在于，预先存储有多个第二备选显示对象，每个所述第二备选显示对象与唯一的标识关联存储；

所述基于所述语音信息确定显示对象，包括：

基于所述语音信息，提取出所述语音信息包括的目标标识；

A4、根据A3所述的方法，其特征在于，在所述通过音频输入装置获取语音信息的过程中，所述方法还包括：

A5、根据A2或A3所述的方法，其特征在于，所述方法还包括：

接收触发所述视频文件进入可编辑模式的触发操作；

A6、根据A5所述的方法，其特征在于，所述接收选取视频文件第A帧图像的第一选取操作，以及所述接收选取所述视频文件第B帧图像的第二选取操作，包括：

A7、根据A6所述的方法，其特征在于，所述通过音频输入装置获取语音信息，包括：

在接收到所述长按操作时，启动所述音频输入装置；

通过所述音频输入装置接收所述语音信息；

当所述长按操作结束，获取所述语音信息。

A8、根据A1所述的方法，其特征在于，在所述将所述显示对象添加到所述第A帧图像至所述第B帧图像的B-A+1帧图像中之前，还包括：从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置；

将所述显示对象添加到B-A+1帧所述图像中的所述添加位置。

A9、根据A8所述的方法，其特征在于，所述从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置，包括：

在所述图像中进行预设对象识别，获得预设对象识别结果；

在所述不包括预设对象的区域中确定出所述添加位置。

A10、根据A8所述的方法，其特征在于，所述从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置，包括：

A11、根据A8所述的方法，其特征在于，在所述从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置之后，所述方法还包括：

B12、一种编辑视频的装置，其特征在于，包括：

语音获取模块，用于通过音频输入装置获取语音信息；

第一确定模块，用于基于所述语音信息确定显示对象；

B13、根据B12所述的装置，其特征在于，所述第一确定模块用于基于所述语音信息，提取出所述语音信息包括的语言内容；获取一第一备选显示对象，所述第一备选显示对象包含能够被显示的文字符；将所述语言内容赋值给所述第一备选显示对象的所述文字符；将赋值完成后的所述第一备选显示对象确定为所述显示对象。

B14、根据B12所述的装置，其特征在于，预先存储有多个第二备选显示对象，每个所述第二备选显示对象与唯一的标识关联存储；

B15、根据B14所述的装置，其特征在于，所述装置还包括显示模块，用于在所述通过音频输入装置获取语音信息的过程中，显示多个所述第二备选显示对象，以及每个所述第二显示对象关联的标识。

B16、根据B13或B14所述的装置，其特征在于，所述装置还包括：

B17、根据B16所述的装置，其特征在于，所述第一接收模块以及所述第二接收模块用于在所述视频文件播放过程中，接收针对所述第A帧图像至所述第B帧图像的长按操作；所述长按操作的起始点为所述第一选取操作，所述长按操作的结束点为所述第二选取操作。

B18、根据B17所述的装置，其特征在于，所述语音获取模块用于在接收到所述长按操作时，启动所述音频输入装置；通过所述音频输入装置接收所述语音信息；当所述长按操作结束，获取所述语音信息。

B19、根据B12所述的装置，其特征在于，所述装置还包括第二确定模块，用于在将所述显示对象添加到所述第A帧图像至所述第B帧图像的B-A+1帧图像中之前，从所述第A帧图像至所述第B帧图像的B-A+1帧图像中确定出适于添加所述显示对象的添加位置；

B20、根据B19所述的装置，其特征在于，所述第二确定模块用于在所述图像中进行预设对象识别，获得预设对象识别结果；基于所述预设对象识别结果，从所述图像中确定出不包括预设对象的区域；在所述不包括预设对象的区域中确定出所述添加位置。

B21、根据B19所述的装置，其特征在于，所述第二确定模块用于从所述图像的预设的边缘区域中选择一位置作为所述添加位置。

B22、根据B19所述的装置，其特征在于，所述装置还包括：

C23、一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现A1-A11任一项所述方法的步骤。

D24、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现A1-A11任一项所述方法的步骤。

Claims

1.一种编辑视频的方法，其特征在于，包括：

通过音频输入装置获取语音信息；

接收选取所述视频文件第B帧图像的第二选取操作；

基于所述语音信息确定显示对象；

2.如权利要求1所述的方法，其特征在于，所述基于所述语音信息确定显示对象，包括：

基于所述语音信息，提取出所述语音信息包括的语言内容；

3.如权利要求1所述的方法，其特征在于，预先存储有多个第二备选显示对象，每个所述第二备选显示对象与唯一的标识关联存储；

所述基于所述语音信息确定显示对象，包括：

基于所述语音信息，提取出所述语音信息包括的目标标识；

4.如权利要求3所述的方法，其特征在于，在所述通过音频输入装置获取语音信息的过程中，所述方法还包括：

5.如权利要求2或3所述的方法，其特征在于，所述方法还包括：

接收触发所述视频文件进入可编辑模式的触发操作；

6.如权利要求5所述的方法，其特征在于，所述接收选取视频文件第A帧图像的第一选取操作，以及所述接收选取所述视频文件第B帧图像的第二选取操作，包括：

7.如权利要求6所述的方法，其特征在于，所述通过音频输入装置获取语音信息，包括：

在接收到所述长按操作时，启动所述音频输入装置；

通过所述音频输入装置接收所述语音信息；

当所述长按操作结束，获取所述语音信息。

8.一种编辑视频的装置，其特征在于，包括：

语音获取模块，用于通过音频输入装置获取语音信息；

第一确定模块，用于基于所述语音信息确定显示对象；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。