CN116033094A

CN116033094A - 视频编辑方法及装置

Info

Publication number: CN116033094A
Application number: CN202211297275.7A
Authority: CN
Inventors: 马子豪
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-04-28

Abstract

本申请公开一种视频编辑方法及装置，属于通信技术领域，该方法包括：根据待编辑的第一视频的多媒体信息，将第一视频划分为多个视频片段，其中，多媒体信息包括：语音信息、图像信息、文字信息中的一项或者多项；生成多个视频片段对应的多条描述信息，其中，一个视频片段对应一条描述信息；显示多条描述信息；接收第一输入；响应于第一输入，从多条描述信息中选择至少一条描述信息作为目标描述信息；将目标描述信息对应的视频片段作为裁剪起点，对第一视频进行裁剪，得到第二视频。

Description

视频编辑方法及装置

技术领域

本申请属于通信技术领域，具体涉及一种视频编辑方法及装置。

背景技术

近年来，随着科技的发展，电子设备的功能越来越丰富，例如：电子设备一般都具有视频编辑功能，用户可以通过电子设备的视频编辑功能，对自己拍摄的视频或者来源于网络的视频进行编辑。

相关技术中，用户通过拖动视频的进度条来进行视频裁剪，这种方式虽然可以实现对视频的编辑，但也存在一些问题，例如：用户很难精准地控制进度条，通常需要多次反复调整进度条，才能确定目标视频片段，操作比较繁琐。

发明内容

本申请实施例的目的是提供一种视频编辑方法及装置，能够简化视频编辑的相关操作。

第一方面，本申请实施例提供了一种视频编辑方法，所述方法包括：

根据待编辑的第一视频的多媒体信息，将所述第一视频划分为多个视频片段，其中，所述多媒体信息包括：语音信息、图像信息、文字信息中的一项或者多项；

生成所述多个视频片段对应的多条描述信息，其中，一个所述视频片段对应一条所述描述信息；

显示所述多条描述信息；

接收第一输入；

响应于所述第一输入，从所述多条描述信息中选择至少一条描述信息作为目标描述信息；

将所述目标描述信息对应的所述视频片段作为裁剪起点，对所述第一视频进行裁剪，得到第二视频。

第二方面，本申请实施例提供了一种视频编辑装置，所述装置包括：

划分模块，用于根据待编辑的第一视频的多媒体信息，将所述第一视频划分为多个视频片段，其中，所述多媒体信息包括：语音信息、图像信息、文字信息中的一项或者多项；

生成模块，用于生成所述多个视频片段对应的多条描述信息，其中，一个所述视频片段对应一条所述描述信息；

显示模块，用于显示所述多条描述信息；

接收模块，用于接收第一输入；

选择模块，用于响应于所述第一输入，从所述多条描述信息中选择至少一条描述信息作为目标描述信息；

编辑模块，用于将所述目标描述信息对应的所述视频片段作为裁剪起点，对所述第一视频进行裁剪，得到第二视频。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，可以通过视频的多媒体信息，将视频进行分段，生成各视频片段的描述信息，利用可视化的描述信息向用户展示各视频片段的主要视频内容，用户可以参考可视化描述信息所展示的视频内容，来选择视频中的裁剪起点，基于裁剪起点对视频进行编辑。本申请实施例中，用户只需选择各视频片段的描述信息，就可以实现对视频的编辑，由于可视化的描述信息可以直观反映各个视频片段的主要内容，因此用户通过选择描述信息来选择视频中的裁剪起点进行视频编辑的方案，可以在确保视频编辑结果符合用户预期的情况下，简化视频编辑的相关操作。

附图说明

图1是本申请实施例提供的视频编辑方法的流程图之一；

图2是本申请实施例提供的视频编辑界面的示例图之一；

图3是本申请实施例提供的视频编辑方法的流程图之二；

图4是本申请实施例提供的视频编辑界面的示例图之二；

图5是本申请实施例提供的视频编辑方法的流程图之三；

图6是本申请实施例提供的视频编辑界面的示例图之三；

图7是本申请实施例提供的一种视频编辑装置的结构框图；

图8是本申请实施例提供的一种电子设备的结构示意图；

图9是实现本申请各个实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

目前，视频编辑软件支持用户通过拖动视频的进度条，选取一段视频进行编辑，在拖动进度条的过程中，进度条上方会显示出视频的画面，用户通过显示的画面和时间来控制想要裁剪出来的视频内容。但是，这种方法可能因为视频内容较大，拖动的时候不精准，而需要多次反复调整进度条，操作比较繁琐。

为了解决上述技术问题，本申请实施例提供了一种视频编辑方法及装置。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频编辑方法进行详细地说明。

需要说明的是，本申请实施例提供的视频编辑方法适用于电子设备，在实际应用中，该电子设备可以包括：智能手机、平板电脑、个人数字助理等移动终端，本申请实施例对此不作限定。

图1是本申请实施例提供的视频编辑方法的流程图之一，如图1所示，该方法可以包括以下步骤：步骤101、步骤102、步骤103、步骤104、步骤105和步骤106；

在步骤101中，根据待编辑的第一视频的多媒体信息，将第一视频划分为多个视频片段，其中，多媒体信息包括：语音信息、图像信息、文字信息中的一项或者多项。

本申请实施例中，为了给用户提供更多视频编辑时的辅助信息，可以根据第一视频的多媒体信息，对第一视频进行关键信息分段，并在有限的时长内，生成每个视频片段的描述信息，用户可以参考描述信息对视频进行编辑。

本申请实施例中，第一视频可以为用户使用电子设备拍摄的视频，也可以为来源于网络例如：视频网站、垂直类门户网站的视频。

本申请实施例中，语音信息为第一视频的源音频中携带的信息，该语音信息可以包括以下至少一项：源音频的语音内容和语音属性信息，该语音属性信息可以包括以下至少一项：音调、音色和响度。

本申请实施例中，图像信息为第一视频的源图像序列中各视频帧携带的信息，该图像信息可以包括以下至少一项：图像内容和图像特征。

本申请实施例中，文字信息可以包括第一视频的字幕信息。

本申请实施例中，将第一视频划分为多个视频片段，可以包括两种划分方式：第一种，将第一视频截取为一个个独立的视频片段，得到多个彼此独立的视频片段；第二种，不进行视频截取操作，记录各视频片段在第一视频中的起始时间点和终止时间点，通过每组起止时间点标记第一视频中的视频片段，得到多个视频片段，其中，一组起止时间点对应一个视频片段。

在一些实施例中，在获取到第一视频后，可以由用户选择第一视频的划分方式。

可选地，当用户选择采用第一视频的语音信息时，上述步骤101包括以下步骤：根据待编辑的第一视频的语音信息，将第一视频划分为多个视频片段。

可选地，当用户选择采用第一视频的图像信息时，上述步骤101包括以下步骤：根据待编辑的第一视频的图像信息，将第一视频划分为多个视频片段。

可选地，当用户选择采用第一视频的文字信息时，上述步骤101包括以下步骤：根据待编辑的第一视频的文字信息，将第一视频划分为多个视频片段。

可选地，当用户选择采用第一视频的所有多媒体信息时，上述步骤101包括以下步骤：根据待编辑的第一视频的语音信息、图像信息和文字信息，将第一视频划分为多个视频片段。

在一些实施例中，可以由电子设备利用人工智能算法，自适应地选择第一视频的划分方式。

可选地，可以优先选择根据第一视频的语音信息，对第一视频进行视频片段划分，如果根据语音信息划分失败，则再根据第一视频的图像信息，对第一视频进行视频片段划分。

可选地，可以优先选择根据第一视频的图像信息，对第一视频进行视频片段划分，如果根据图像信息划分失败，则再根据第一视频的语音信息，对第一视频进行视频片段划分。

可见，本申请实施例中，可以提供多种对第一视频进行划分的方式，灵活性比较高，可以满足用户的多样化需求。

在步骤102中，生成多个视频片段对应的多条描述信息，其中，一个视频片段对应一条描述信息。

本申请实施例中，描述信息用于描述视频片段的相关主要内容，描述信息可以包括以下至少一种类型的信息：文本信息和图像信息。

本申请实施例中，可以记录各视频片段的起始时间点和终止时间点，建立各视频片段起始时间点和终止时间点与描述信息之间的对应关系。

在步骤103中，显示多条描述信息。

本申请实施例中，在显示多条描述信息时，可以在电子设备的屏幕上半个区域内显示第一视频，在屏幕的下半个区域内显示描述信息，以方便用户直观了解第一视频与各条描述信息之间的对应关系。

本申请实施例中，在显示多条描述信息时，可以按照描述信息所对应的视频片段的时间先后顺序，对多条描述信息进行顺序，根据排序结果进行显示。

本申请实施例中，在显示多条描述信息时，可以在显示描述信息的同时，显示各个描述信息对应的视频片段的起止时间信息。

为了便于理解，结合一个例子对上述步骤101至步骤103的内容进行描述，如图2所示，电子设备20上显示第一视频的编辑界面21，编辑界面21上显示第一视频，用户可以选择对第一视频进行分段，界面跳转至编辑界面22，编辑界面22上显示第一视频和第一视频的分段进度，在分段完成后，界面跳转至编辑界面23，编辑界面23上显示第一视频和各视频分段的描述信息。

在步骤104中，接收第一输入。

本申请实施例中，第一输入用于从多条描述信息中选择至少一条目标描述信息。

本申请实施例中，第一输入可以为：用户对描述信息的点击输入，或者为用户输入的语音指令，或者为文本输入，或者为用户输入的特定手势，具体的可以根据实际使用需求确定，本申请实施例对此不作限定。

本申请实施例中，特定手势可以为单击手势、滑动手势、拖动手势、压力识别手势、长按手势、双按手势、双击手势中的任意一种。

本申请实施例中，点击输入可以为单击输入、双击输入或任意次数的点击输入等，还可以为长按输入或短按输入。

在步骤105中，响应于第一输入，从多条描述信息中选择至少一条描述信息作为目标描述信息。

在步骤106中，将目标描述信息对应的视频片段作为裁剪起点，对第一视频进行裁剪，得到第二视频。

在一些实施例中，可以由用户选择裁剪的方式。

可选地，可以通过选取两条目标描述信息，来选取第一视频中的两个视频片段，截取这两个视频片段之间的视频，作为裁切结果或者作为进一步视频编辑的源文件，相应地，上述步骤106包括以下步骤：步骤1061；

在步骤1061中，在目标描述信息对应的视频片段的个数为两个的情况下，按照时间顺序将时间靠前的视频片段作为裁剪起点，将时间靠后的视频片段作为裁剪终点，截取第一视频中裁剪起点至裁剪终点的视频，得到第二视频。

可选地，可以截取第一视频中用户选择的视频片段，基于用户选择的视频片段生成用户期望的编辑视频，相应地，上述步骤106包括以下步骤：步骤1062；

在步骤1062中，从第一视频中截取目标描述信息对应的视频片段，对目标描述信息对应的视频片段进行拼接，得到第二视频。

本申请实施例中，在对用户选择的视频片段进行拼接时，可以按照视频片段的时间先后顺序进行拼接，例如时间靠前的视频片段在拼接时排在前面，时间靠后的视频片段在拼接时排在后面；或者，也可以由用户选择拼接的先后顺序，本申请实施例对此不作限定。

可选地，可以通过删除第一视频中的部分视频片段，来删除对应的视频内容，以避免对视频进行多次编辑和裁切，相应地，上述步骤106包括以下步骤：步骤1063；

在步骤1063中，从第一视频中截取目标描述信息对应的视频片段，对第一视频中剩余的视频片段进行拼接，得到第二视频。

本申请实施例中，在对用户选择的视频片段之外的视频片段进行拼接时，可以按照视频片段的时间先后顺序进行拼接，例如时间靠前的视频片段在拼接时排在前面，时间靠前的视频片段在拼接时排在后面；或者，也可以由用户选择拼接的先后顺序，本申请实施例对此不作限定。

可见，本申请实施例中，可以提供多种视频裁剪的方式，灵活性比较高，可以满足用户的多样化需求。

由上述实施例可见，该实施例中，可以通过视频的多媒体信息，将视频进行分段，生成各视频片段的描述信息，利用可视化的描述信息向用户展示各视频片段的主要视频内容，用户可以参考可视化描述信息所展示的视频内容，来选择视频中的裁剪起点，基于裁剪起点对视频进行编辑。本申请实施例中，用户只需选择各视频片段的描述信息，就可以实现对视频的编辑，由于可视化的描述信息可以直观反映各个视频片段的主要内容，因此用户通过选择描述信息来选择视频中的裁剪起点进行视频编辑的方案，可以在确保视频编辑结果符合用户预期的情况下，简化视频编辑的相关操作。

图3是本申请实施例提供的视频编辑方法的流程图之二，本申请实施例中，通过语音信息对第一视频进行编辑，如图3所示，该方法可以包括以下步骤：步骤301、步骤302、步骤303、步骤304、步骤305、步骤306、步骤307和步骤308；

在步骤301中，获取待编辑的第一视频对应的源音频。

本申请实施例中，可以对第一视频进行解析，得到第一视频对应的源音频。

在步骤302中，对源音频进行语音分句，得到多个语音片段，其中，一个语音片段对应一条语句。

本申请实施例中，对源音频进行语音识别，识别源音频中的各语音停顿点，根据各停顿点的时间信息，对源音频进行语音分句，并记录下每个分句点的起始时间点和终止时间点，作为每个语音片段的时间戳。

在步骤303中，根据多个语音片段，将第一视频划分为多个视频片段，其中，一个语音片段对应一个视频片段。

本申请实施例中，由于源音频中的各时间点与第一视频中的各时间点是一一对应的，因此可以根据源音频的各语音片段的时间戳，将第一视频划分为多个视频片段。

在步骤304中，对于每个视频片段对应的语音片段，识别语音片段的文本信息和语音属性信息；生成包含文本信息和语音属性信息的描述信息。

本申请实施例中，除了可以将各个语音片段识别为文本信息之外，还可以识别各个语音片段的语音属性信息，语音属性信息作为描述信息中的角色特征，使得描述信息中除包含各个语音片段的文本信息之外，还包括各文本信息的角色信息，以方便用户准确地了解视频片段的内容。

本申请实施例中，描述信息中还可以包括各语音片段的时间戳，以便用户直观了解描述信息与第一视频中各视频片段的对应关系。

考虑到一般视频的语音，完成一句完整的句子后会有短暂停顿，在0.8秒至1.1秒之间，标点符号的停顿规律一般是：句号、问号、感叹号、省略号停顿略长于分号、破折号、连接号；分号、破折号、连接号的停顿时间又长于逗号、冒号；逗号、冒号的停顿时间又长于顿号、间隔号。本申请实施例中，在将语音片段识别为文本信息时，可以基于以上停顿规律，为文本信息添加相应的标点符号。

在步骤305中，显示多条描述信息。

本申请实施例中，在显示多条描述信息时，可以按照描述信息所对应的语音片段的时间戳，对多条描述信息进行顺序，根据排序结果进行显示。

本申请实施例中，考虑到描述信息中包含语音属性信息，因此还可以将描述信息转换为多人聊天会话的聊天记录形式，进行显示。

在一个例子中，如下表1所示，各个描述信息中包含角色和内容，可以方便用户区分角色和内容等。

描述信息	角色	语音的文本内容
			描述信息1	男1	今天下班有谁去健身？
描述信息2	男2	我今天要加班去不了。
			描述信息3	女1	我可以去。
描述信息4	女2	我有事也去不了。

表1

在步骤306中，接收第一输入。

本申请实施例中，用户可以通过点击描述信息，来选择目标描述信息；或者，用户可以利用搜索功能，从多条描述信息中匹配到相应的目标描述信息。

在步骤307中，响应于第一输入，从多条描述信息中选择至少一条描述信息作为目标描述信息。

在步骤308中，将目标描述信息对应的视频片段作为裁剪起点，对第一视频进行裁剪，得到第二视频。

为了便于理解，结合一个例子对图3所示实施例进行描述，如图4所示，电子设备20的编辑界面22上显示第一视频和第一视频的分段进度，在分段完成后，界面跳转至编辑界面24，编辑界面24上显示第一视频、基于图像信息进行编辑的第一控件和基于语音信息编辑的第二控件，如果用户选择第二控件，则界面跳转至编辑界面25，编辑界面25上显示第一视频和第一视频的各视频片段的描述信息，其中，描述信息是基于第一视频的语音信息生成的。此外，对于编辑界面25，用户可以通过右上角的控件，对编辑结果进行保存，生成想要的视频，并且作为视频源文件的第一视频不会删除；用户可以通过左下角的控件，撤销上一次对该视频的编辑操作；如果用户误操作了多次，想重新编辑视频，则可以通过右下角的控件实现。

由上述实施例可见，该实施例中，可以通过第一视频的语音对第一视频进行分段，将语音所携带的信息转换为视频片段的可视化描述信息，以辅助用户对视频进行编辑，用户只需选择想要编辑的视频片段的描述信息，就可以实现对视频的编辑，操作比较简单，灵活性较高。

图5是本申请实施例提供的视频编辑方法的流程图之三，本申请实施例中，通过图像信息对第一视频进行编辑，如图5所示，该方法可以包括以下步骤：步骤501、步骤502、步骤503、步骤504、步骤505、步骤506和步骤507；

在步骤501中，获取待编辑的第一视频对应的源图像序列。

本申请实施例中，可以对第一视频进行解析，得到第一视频对应的源图像序列。

在步骤502中，对源图像序列中视频帧进行图像特征识别，并对识别结果进行聚类，得到多个视频片段，其中，每个视频片段中包含的视频帧具有相同的图像特征。

本申请实施例中，为了提高聚类速度，在识别各个视频帧的图像特征时，可以识别视频帧的主要特征，也就是，视频帧中内容占比最多的特征，将主要特征作为图像特征。

在一个例子中，图像特征可以为画面风格，对第一视频进行划分后，得到三个视频片段，其中，第一个视频片段中各个视频帧的风格均为人物类画面，第二个视频片段中各个视频帧的风格均为食物类画面，第三个视频片段中各个视频帧的风格均为风景类画面。

在步骤503中，对于每个视频片段，从视频片段中选择一个视频帧作为代表图像；生成包含图像特征和代表图像的描述信息。

本申请实施例中，可以随机从视频片段中选择一个视频帧作为代表图像，也可以选择图像特征最明显的一个视频帧作为代表图像。

本申请实施例中，描述信息中的图像特征可以为文本形式的内容。

在步骤504中，显示多条描述信息。

本申请实施例中，在显示每条描述信息时，可以将代表图像排在前面显示，将对应的图像特征排在后面显示；或者可以将图像特征排在前面显示，将对应的代表图像排在后面显示。

在步骤505中，接收第一输入。

在步骤506中，响应于第一输入，从多条描述信息中选择至少一条描述信息作为目标描述信息。

在步骤507中，将目标描述信息对应的视频片段作为裁剪起点，对第一视频进行裁剪，得到第二视频。

为了便于理解，结合一个例子对图5所示实施例进行描述，如图6所示，电子设备20的编辑界面22上显示第一视频和第一视频的分段进度，在分段完成后，界面跳转至编辑界面26，编辑界面26上显示第一视频、基于图像信息进行编辑的第一控件和基于语音信息编辑的第二控件，如果用户选择第一控件，则界面跳转至编辑界面27，编辑界面27上显示第一视频和第一视频的各视频片段的描述信息，其中，描述信息是基于第一视频的图像信息生成的。

由上述实施例可见，该实施例中，可以通过第一视频的图像特征对第一视频中的视频帧进行聚类，形成多个视频片段，将画面所携带的信息转换为视频片段的可视化描述信息，以辅助用户对视频进行编辑，用户只需选择想要编辑的视频片段的描述信息，就可以实现对视频的编辑，操作比较简单，灵活性较高。

在本申请提供的另一个实施例中，考虑到一些对话类视频中语音携带的信息量更大，而风景类视频中图像携带的信息量更大，也就是，不同类型的视频中，语音和图像携带的信息量不同，各有侧重，因此，为了进一步简化用户的编辑操作，优化视频编辑效果，可以按照第一视频的类型，选择视频分段方式，相应地，上述步骤101包括以下步骤：步骤1011、步骤1012和步骤1013；

在步骤1011中，确定待编辑的第一视频的类型。

在步骤1012中，在第一视频为包含人物会话的视频的情况下，根据第一视频的语音信息，将第一视频划分为多个视频片段。

在步骤1013中，在第一视频为不包含人物会话的视频的情况下，根据第一视频的图像信息，将第一视频划分为多个视频片段。

在本申请提供的另一个实施例中，考虑到第一视频的语音有时会存在音质不佳的情况，此时采用第一视频的语音信息，可能无法实现对第一视频的分段，或者分段效果比较差，此时，可以采用第一视频的图像信息，或者，采用第一视频的字幕信息，对第一视频进行分段。

在本申请提供的另一个实施例中，考虑到第一视频的图像有时会存在画质不佳的情况，此时采用第一视频的图像信息，可能无法实现对第一视频的分段，或者分段效果比较差，此时，可以采用第一视频的语音信息，对第一视频进行分段。

考虑到第一视频同时存在音质和画质均不佳的情况比较少见，本申请实施例中，可以在画质不佳时使用语音进行视频分段，在音质不佳时采用图像进行视频分段，以确定视频分段能够正常进行。

在本申请提供的另一个实施例中，考虑到第一视频的语音有时会存在部分音质不佳的情况，此时可以根据字幕信息，对第一视频进行分段，或者，可以结合第一视频的语音信息和字幕信息，对第一视频进行分段，分段方式与图3所示实施例类似，在此不再赘述。

可见，与拖动视频进度条来编辑视频的方案相比，本申请实施例中，通过提取视频中的多媒体信息例如语音信息、图像信息和字幕信息，对视频进行分段和聚类，提高了视频编辑的灵活性和定制性。通过描述信息删除某些场景或者片段，避免了对视频进行多次编辑和裁切。整个编辑过程简单且高效，在面对大型视频例如电影时，通过一次编辑就能达到想要裁切的效果，缩小了移动端视频编辑和电脑端视频编辑软件的差距，满足用户对于编辑视频的高需求。

本申请实施例提供的视频编辑方法，执行主体可以为视频编辑装置。本申请实施例中以视频编辑装置执行视频编辑方法为例，说明本申请实施例提供的视频编辑装置。

图7是本申请实施例提供的一种视频编辑装置的结构框图，如图7所示，视频编辑装置700，可以包括：划分模块701、生成模块702、显示模块703、接收模块704、选择模块705和编辑模块706；

划分模块701，用于根据待编辑的第一视频的多媒体信息，将所述第一视频划分为多个视频片段，其中，所述多媒体信息包括：语音信息、图像信息、文字信息中的一项或者多项；

生成模块702，用于生成所述多个视频片段对应的多条描述信息，其中，一个所述视频片段对应一条所述描述信息；

显示模块703，用于显示所述多条描述信息；

接收模块704，用于接收第一输入；

选择模块705，用于响应于所述第一输入，从所述多条描述信息中选择至少一条描述信息作为目标描述信息；

编辑模块706，用于将所述目标描述信息对应的所述视频片段作为裁剪起点，对所述第一视频进行裁剪，得到第二视频。

可选地，作为一个实施例，所述划分模块701，可以包括：

第一获取子模块，用于获取所述待编辑的第一视频对应的源音频；

第一划分子模块，用于对所述源音频进行语音分句，得到多个语音片段，其中，一个所述语音片段对应一条语句；

第二划分子模块，用于根据所述多个语音片段，将所述第一视频划分为多个视频片段，其中，一个所述语音片段对应一个所述视频片段。

可选地，作为一个实施例，所述生成模块702，可以包括：

第一识别子模块，用于对于每个所述视频片段对应的所述语音片段，识别所述语音片段的文本信息和语音属性信息；

第一生成子模块，用于生成包含所述文本信息和所述语音属性信息的描述信息。

可选地，作为一个实施例，所述划分模块701，可以包括：

第二获取子模块，用于获取所述待编辑的第一视频对应的源图像序列；

第二识别子模块，用于对所述源图像序列中视频帧进行图像特征识别；

第三划分子模块，用于对识别结果进行聚类，得到多个视频片段，其中，每个所述视频片段中包含的视频帧具有相同的图像特征。

可选地，作为一个实施例，所述生成模块702，可以包括：

选择子模块，用于对于每个所述视频片段，从所述视频片段中选择一个视频帧作为代表图像；

第二生成子模块，用于生成包含所述图像特征和所述代表图像的描述信息。

可选地，作为一个实施例，所述编辑模块706，可以包括：

第一编辑子模块，用于在所述目标描述信息对应的所述视频片段的个数为两个的情况下，按照时间顺序将时间靠前的所述视频片段作为裁剪起点，将时间靠后的所述视频片段作为裁剪终点，截取所述第一视频中所述裁剪起点至所述裁剪终点的视频，得到第二视频；或者，

第二编辑子模块，用于从所述第一视频中截取所述目标描述信息对应的所述视频片段，对所述目标描述信息对应的所述视频片段进行拼接，得到第二视频；或者，

第三编辑子模块，用于从所述第一视频中截取所述目标描述信息对应的所述视频片段，对所述第一视频中剩余的所述视频片段进行拼接，得到第二视频。

本申请实施例中的视频编辑装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本、或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频编辑装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频编辑装置能够实现图1所述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图8所示，本申请实施例还提供了一种电子设备800，包括处理器801和存储器802，存储器802上存储有可在所述处理器801上运行的程序或指令，该程序或指令被处理器801执行时实现上述视频编辑方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909以及处理器910等部件。

本领域技术人员可以理解，电子设备900还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器910，用于根据待编辑的第一视频的多媒体信息，将所述第一视频划分为多个视频片段，其中，所述多媒体信息包括：语音信息、图像信息、文字信息中的一项或者多项；生成所述多个视频片段对应的多条描述信息，其中，一个所述视频片段对应一条所述描述信息；指示显示单元906显示所述多条描述信息；

用户输入单元907，用于接收第一输入；

处理器910，还用于响应于所述第一输入，从所述多条描述信息中选择至少一条描述信息作为目标描述信息；将所述目标描述信息对应的所述视频片段作为裁剪起点，对所述第一视频进行裁剪，得到第二视频。

可见，本申请实施例中，可以通过视频的多媒体信息，将视频进行分段，生成各视频片段的描述信息，利用可视化的描述信息向用户展示各视频片段的主要视频内容，用户可以参考可视化描述信息所展示的视频内容，来选择视频中的裁剪起点，基于裁剪起点对视频进行编辑。本申请实施例中，用户只需选择各视频片段的描述信息，就可以实现对视频的编辑，由于可视化的描述信息可以直观反映各个视频片段的主要内容，因此用户通过选择描述信息来选择视频中的裁剪起点进行视频编辑的方案，可以在确保视频编辑结果符合用户预期的情况下，简化视频编辑的相关操作。

可选地，作为一个实施例，处理器910，还用于获取所述待编辑的第一视频对应的源音频；对所述源音频进行语音分句，得到多个语音片段，其中，一个所述语音片段对应一条语句；根据所述多个语音片段，将所述第一视频划分为多个视频片段，其中，一个所述语音片段对应一个所述视频片段。

可选地，作为一个实施例，处理器910，还用于对于每个所述视频片段对应的所述语音片段，识别所述语音片段的文本信息和语音属性信息；生成包含所述文本信息和所述语音属性信息的描述信息。

可选地，作为一个实施例，处理器910，还用于获取所述待编辑的第一视频对应的源图像序列；对所述源图像序列中视频帧进行图像特征识别，并对识别结果进行聚类，得到多个视频片段，其中，每个所述视频片段中包含的视频帧具有相同的图像特征。

可选地，作为一个实施例，处理器910，还用于对于每个所述视频片段，从所述视频片段中选择一个视频帧作为代表图像；生成包含所述图像特征和所述代表图像的描述信息。

可选地，作为一个实施例，处理器910，还用于在所述目标描述信息对应的所述视频片段的个数为两个的情况下，按照时间顺序将时间靠前的所述视频片段作为裁剪起点，将时间靠后的所述视频片段作为裁剪终点，截取所述第一视频中所述裁剪起点至所述裁剪终点的视频，得到第二视频；或者，

从所述第一视频中截取所述目标描述信息对应的所述视频片段，对所述目标描述信息对应的所述视频片段进行拼接，得到第二视频；或者，

从所述第一视频中截取所述目标描述信息对应的所述视频片段，对所述第一视频中剩余的所述视频片段进行拼接，得到第二视频。

应理解的是，本申请实施例中，输入单元904可以包括图形处理器(GraphicsProcessing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072中的至少一种。触控面板9071，也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器909可以包括易失性存储器或非易失性存储器，或者，存储器909可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器909包括但不限于这些和任意其它适合类型的存储器。

处理器910可包括一个或多个处理单元；可选的，处理器910集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

本申请实施例还提供了一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频编辑方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例还提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频编辑方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例还提供了一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述视频编辑方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(例如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(例如可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频编辑方法，其特征在于，所述方法包括：

显示所述多条描述信息；

接收第一输入；

2.根据权利要求1所述的方法，其特征在于，所述根据待编辑的第一视频的多媒体信息，将所述第一视频划分为多个视频片段，包括：

获取所述待编辑的第一视频对应的源音频；

对所述源音频进行语音分句，得到多个语音片段，其中，一个所述语音片段对应一条语句；

根据所述多个语音片段，将所述第一视频划分为多个视频片段，其中，一个所述语音片段对应一个所述视频片段。

3.根据权利要求2所述的方法，其特征在于，所述生成所述多个视频片段对应的多条描述信息，包括：

对于每个所述视频片段对应的所述语音片段，识别所述语音片段的文本信息和语音属性信息；

生成包含所述文本信息和所述语音属性信息的描述信息。

4.根据权利要求1所述的方法，其特征在于，所述根据待编辑的第一视频的多媒体信息，将所述第一视频划分为多个视频片段，包括：

获取所述待编辑的第一视频对应的源图像序列；

对所述源图像序列中视频帧进行图像特征识别，并对识别结果进行聚类，得到多个视频片段，其中，每个所述视频片段中包含的视频帧具有相同的图像特征。

5.根据权利要求4所述的方法，其特征在于，所述生成所述多个视频片段对应的多条描述信息，包括：

对于每个所述视频片段，从所述视频片段中选择一个视频帧作为代表图像；

生成包含所述图像特征和所述代表图像的描述信息。

6.根据权利要求1所述的方法，其特征在于，所述将所述目标描述信息对应的所述视频片段作为裁剪起点，对所述第一视频进行裁剪，得到第二视频，包括：

在所述目标描述信息对应的所述视频片段的个数为两个的情况下，按照时间顺序将时间靠前的所述视频片段作为裁剪起点，将时间靠后的所述视频片段作为裁剪终点，截取所述第一视频中所述裁剪起点至所述裁剪终点的视频，得到第二视频；或者，

7.一种视频编辑装置，其特征在于，所述装置包括：

显示模块，用于显示所述多条描述信息；

接收模块，用于接收第一输入；

8.根据权利要求7所述的装置，其特征在于，所述划分模块包括：

9.根据权利要求8所述的装置，其特征在于，所述生成模块包括：

10.根据权利要求7所述的装置，其特征在于，所述划分模块包括：

11.根据权利要求10所述的装置，其特征在于，所述生成模块包括：

12.根据权利要求7所述的装置，其特征在于，所述编辑模块包括：