CN114245229B

CN114245229B - 一种短视频制作方法、装置、设备以及存储介质

Info

Publication number: CN114245229B
Application number: CN202210112231.6A
Authority: CN
Inventors: 沈广成; 范磊; 徐杰; 邢玉杰; 蒋朝权; 彭锦臻; 宋堃
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2024-02-06
Anticipated expiration: 2042-01-29
Also published as: CN114245229A

Abstract

本公开提供了一种短视频制作方法、装置、设备以及存储介质，涉及视频处理技术领域，尤其涉及视频制作技术领域。具体实现方案为：获得源视频；根据所述源视频的内容，确定所述源视频中时长位于预设的短视频时长范围的目标视频片段；基于所述目标视频片段在所述源视频中的起始时间戳以及终止时间戳，从所述源视频中截取所述目标视频片段，作为短视频。应用本公开实施例提供的方案，能够提高视频制作的效率。

Description

一种短视频制作方法、装置、设备以及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及视频制作技术领域。

背景技术

随着互联网通信技术和多媒体技术的迅速发展，短视频已广泛传播于大量用户之间，尤其是各大短视频平台的出现，短视频已经成为人们获取娱乐、新闻等信息的重要来源。当前主要是依赖短视频作者编写视频大纲、录制、后期剪辑制作得到短视频。

发明内容

本公开提供了一种短视频制作方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种短视频制作方法，包括：

获得源视频；

根据所述源视频的内容，确定所述源视频中时长位于预设的短视频时长范围的目标视频片段；

基于所述目标视频片段在所述源视频中的起始时间戳以及终止时间戳，从所述源视频中截取所述目标视频片段，作为短视频。

根据本公开的另一方面，提供了一种短视频制作装置，包括：

源视频获得模块，用于获得源视频；

视频片段确定模块，用于根据所述源视频的内容，确定所述源视频中时长位于预设的短视频时长范围的目标视频片段；

短视频确定模块，用于基于所述目标视频片段在所述源视频中的起始时间戳以及终止时间戳，从所述源视频中截取所述目标视频片段，作为短视频。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述短视频制作方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述短视频制作方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述短视频制作方法。

采用本公开实施例提供的方案，能够提高短视频制作的效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的第一种短视频制作方法的流程示意图；

图2为本公开实施例提供的第二种短视频制作方法的流程示意图；

图3为本公开实施例提供的第三种短视频制作方法的流程示意图；

图4为本公开实施例提供的第四种短视频制作方法的流程示意图；

图5为本公开实施例提供的第五种短视频制作方法的流程示意图；

图6为本公开实施例提供的第六种短视频制作方法的流程示意图；

图7为本公开实施例提供的一种短视频制作以及短视频应用方案的流程框图；

图8为本公开实施例提供的一种短视频制作装置的结构示意图；

图9为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前短视频的制作普遍是视频作者自己编剧本、录制、后期剪辑等，导致短视频的制作过程消耗过多人力成本以及时间。为了解决上述问题，本公开实施例提出了一种短视频制作方法。

在对本公开实施例提供的短视频制作方案进行具体说明之前，首先，对本公开实施例的应用场景进行说明。

本公开实施例的应用场景为：对源视频进行处理，制作得到短视频的应用场景。

上述源视频可以是直播视频，如购物直播视频、课程直播视频、晚会直播视频等。上述源视频也可以是非直播视频，如电视剧、电影、综艺节目等。

进一步的，若源视频为直播视频，上述直播视频可以分为以下两种情况。

第一种情况，直播视频为：直播结束之后生成的完整回放视频。

第二种情况，直播视频为：在直播过程中实时直播的视频。

其次，对本公开实施例的执行主体进行说明，本公开实施例的执行主体可以为具备短视频制作功能的电子设备，上述电子设备可以为终端设备、服务器等。

以下对本公开实施例提供的短视频制作方法进行具体说明。

参见图1，图1为本公开实施例提供的第一种短视频制作方法的流程示意图，上述方法包括以下步骤S101-S103。

步骤S101：获得源视频。

一种实施方式中，可以获得工作人员或者用户在电子设备提供的用户界面上传的数据，基于所上传的数据获得源视频。

针对不同的数据，获得源视频的方式也不同，以下进行具体说明。

1.所上传的数据为视频。

在这种情况下，电子设备可以直接将所获得的视频确定为源视频。

2.所上传的数据为非直播视频的视频标识。上述视频标识可以包括视频名称、视频序列号等。

在这种情况下，电子设备可以从视频库中读取上述视频标识相对应的视频，作为源视频。

3.所上传的数据为已结束直播的第一直播信息。上述第一直播信息可以包括直播的开播时间和结束时间、直播所在的直播间名称、主播名称等。

在这种情况下，电子设备可以从已存储的各直播回放视频中确定第一直播信息相对应的回放视频，作为源视频。

4.所上传的数据为正在直播或者待直播的第二直播信息。上述第二直播信息可以包括直播的开播时间、直播所在的直播间名称、主播名称等。

在这种情况下，电子设备可以针对正在直播或者待直播的直播界面进行录制，获取所录制的直播视频，作为源视频。

步骤S102：根据源视频的内容，确定源视频中时长满足预设的短视频时长范围的目标视频片段。

上述源视频的内容可以包括源视频的画面内容、音频内容等。

上述短视频时长范围可以是工作人员基于经验预先设定的。例如：短视频时长范围可以为：[0.5min,10min]。

一种实施方式中，可以根据源视频的标识、以及视频的标识与该视频所包含视频片段的时间段之间的对应关系，确定源视频所包含的视频片段，若所确定的视频片段的时长位于预设的短视频时长范围内，确定上述视频片段为目标视频片段。

上述视频的标识可以包括视频的名称、序列号等。

上述视频片段的时间段是指视频片段在所属视频的时间段。如视频片段的时间段可以为00:10:00-00:20:00。

上述对应关系可以是预先基于视频的内容生成的对应关系。例如：对于购物直播视频，在购物直播过程中，主播或者购物平台的运营人员可以标记确定购物直播视频中讲解每一商品的视频片段，或者确定购物直播视频中讲解每一问题的视频片段。后台服务器获得所标记的视频片段，并基于所标记的视频片段，建立得到视频的标识与所标记的视频片段的时间段之间的对应关系。

确定目标视频片段的其他实施方式可以参见后续图2对应的实施例，在此不进行详述。

步骤S103：基于目标视频片段在源视频中的起始时间戳以及终止时间戳，从源视频中截取目标视频片段，作为短视频。

从前述步骤S102可知，目标视频片段的时长位于预设的短视频时长范围内，那么，从源视频中截取得到的目标视频片段为短视频。

上述起始时间戳表示目标视频片段在源视频中的起始位置，终止时间戳表示目标视频片段在源视频中的终止位置。

例如：目标视频片段在源视频中的时间段为00:10:00-00:15:00，00:10:00是目标视频片段在源视频中的起始位置，00:10:00是目标视频片段在源视频中的起始时间戳；00:15:00是目标视频片段在源视频中的终止位置，00:15:00是目标视频片段在源视频中的终止时间戳，

源视频可以为视频作者的视频作品，如当源视频为购物直播视频时，视频作者为购物直播的主播，当源视频为up主(Uploader，上传者)自制视频时，视频作者为up主。在这种情况下，在基于上述源视频得到短视频后，可以获得源视频的视频作者的作者标识，将作者标识确定为短视频的作者标识。并且，还可以采用预设的视频推荐策略，确定短视频所针对的目标用户。

鉴于上述情况，在视频推荐场景下，可以首先将上述短视频推送到视频作者的个人主页，由视频作者对短视频进行二次编辑，如更改标题、编辑短视频内容等操作，在检测到视频作者触发短视频发布的操作后，在视频平台发布经过作者二次编辑后的短视频，并重点将上述短视频推荐给上述目标用户，从而实现短视频的精准推荐。上述视频推荐策略可以为feed(喂食)推荐策略。

由以上可见，在本实施例提供的方案中，基于目标视频片段在源视频中的起始时间戳和终止时间戳，从源视频中截取目标视频片段，由于目标视频片段的时长位于短视频时长范围内，截取得到的目标视频片段为短视频，可以看到，本实施例中，是将源视频作为视频素材，从源视频中截取视频片段，相较于现有技术，不需要依赖于视频作者手动制作短视频，显著提高了视频制作效率。

并且，由于目标视频片段是基于源视频的视频内容确定得到的，所以，目标视频片段的视频内容与源视频的视频内容相关，那么，制作得到的短视频与源视频的视频内容关联度较高，并且制作得到的短视频的时长相对于源视频的时长来说是比较短的。因此，短视频的视频内容能够精简地反映源视频的视频内容。

另外，当源视频为直播视频时，由于直播视频通常仅是用于用户回看，直播视频所发挥的作用比较单一。而在本实施例中，将直播视频作为制作短视频的素材，对直播视频进行处理，充分利用了直播视频资源。进一步的，当源视频为在直播过程中实时直播的视频时，基于源视频制作得到的短视频由于其具有精简、时长短、易于推广等特点，相较于正在直播的视频，能够提高用户的兴趣度，在这种情况下，用户可能去选择观看短视频所属的当前正在直播的视频，从而反向提高了正在直播的直播视频的播放量和热度。

以下以源视频为购物直播结束之后生成的回放视频为例，结合具体例子，对上述图1所示实施例提供的短视频制作方案进行说明。

购物主播在直播过程中，可以标记讲解每一商品的视频片段的时间段、或者讲解每一问题的视频片段的时间段。后台服务器基于上述所标记的视频片段的时间段，建立视频标识与视频片段的时间段之间的对应关系，上述对应关系可以存储于预设的数据库中。

鉴于上述情况，基于购物直播视频制作短视频时，可以从上述数据库存储的对应关系中，确定购物直播视频所对应的视频片段的时间段，当所确定的时间段指向的视频片段的时长位于短视频时长范围内，从购物直播视频中截取得到上述视频片段，作为短视频。

在前述图1所示的实施例的步骤S102中，确定得到的目标视频片段的精彩程度可能较低，那么制作得到的短视频的精彩程度同样也较低，为了能够得到精彩程度较高的短视频，本公开的一个实施例中，在前述图1所示的实施例的步骤S103之前，还可以获得目标视频片段的热度值，若目标视频片段的热度值大于预设的热度值阈值，执行步骤S103。

上述预设的热度值阈值可以是预先设定的，例如，以热度值为百分制为例，热度值阈值可以为90。

上述视频片段的热度值表示视频片段受到用户欢迎的程度。由于视频中不同视频片段的精彩程度不同，在用户中受到欢迎的程度也是不同的，当视频片段越精彩，受到用户欢迎的程度越高，该视频片段的热度值越高，当视频片段越不精彩，受到用户欢迎的程度越低，该视频片段的热度值越低。因此，上述热度值能够反映视频片段的精彩程度。

在视频播放过程和播放之后，用户可以对所观看的视频发表评论、弹幕、点赞等内容，可以将用户针对视频所发表内容的数量、时间戳等信息存储于数据库中，基于此，一种实施方式中，可以从上述数据库中获得针对源视频所发表内容的总数量、以及针对目标视频片段所发表内容的目标数量，计算目标数量与总数量之间的比值，作为目标视频片段的热度值。

当目标视频片段的热度值大于预设的热度值阈值，表示该目标视频片段的精彩程度较高，又由于目标视频频段的时长位于预设的短视频时长范围内，所以，目标视频片段既满足短视频时长要求、且精彩程度较高，因此，后续从源视频中截取目标视频片段所得到的短视频，既满足了短视频时长要求、且精彩程度较高。

实现前述图1所示实施例中步骤S102确定目标视频片段时，除了一些实现方式中以视频的标识与该视频所包含的视频片段的时间段之间的对应关系，确定目标视频片段之外，还可以基于视频帧所表达的内容确定目标视频片段。

鉴于上述情况，参见图2，图2为本公开实施例提供的第二种短视频制作方法的流程示意图，与前述图1所示实施例相比，前述图1所示实施例中步骤S102，可以按照下述图2所示实施例的步骤S202-S203实现。

具体的，图2所示实施例包括以下步骤S201-S204。

步骤S201：获得源视频。

上述步骤S201与上述图1所示实施例的步骤S101相同，在此不再赘述。

步骤S202：根据源视频包含的视频帧的图像内容，确定源视频包含的视频帧中表达同一内容且连续的目标视频帧。

视频帧的图像内容包括：视频帧中包含的对象、颜色、纹理等信息。

确定目标视频帧的实施方式可以参见后续图3对应的实施例中步骤S302-S303、图4对应的实施例中步骤S402-S403，在此不进行详述。

步骤S203：确定包含目标视频帧的第一视频片段的第一时长，若第一时长位于预设的短视频时长范围内，将第一视频片段确定为目标视频片段。

由于各目标视频帧表达的是均同一内容，所以，包含上述目标视频帧的第一视频片段主要是围绕一个内容进行演绎的。

例如：以源视频为购物直播视频为例，第一视频片段包含的每一目标视频帧表达的内容均是讲解某商品的商品信息，所以，第一视频片段的内容以讲解某商品为主，上述第一视频片段是购物直播视频中用于讲解某商品的商品信息的视频片段。

以源视频为电视剧为例，第一视频片段包含的每一目标视频帧表达的内容均是情节A的情节信息，所以，第一视频片段的内容是围绕情节A展开的内容，第一视频片段是电视剧中用于描述情节A的视频片段。

源视频的视频帧在源视频中具有相应的时间戳，如第一张视频帧相对应的时间戳为00:00:00，第n张视频帧相对应的时间戳为00:10:00，基于此，一种实施方式中，在确定第一时长时，可以确定第一视频片段包含的起始视频帧相对应的第一时间戳，以及第一视频片段包含的终止视频帧相对应的第二时间戳，计算第一时间戳与第二时间戳形成的时间段的时长，作为第一视频片段的第一时长。

例如：第一视频片段包含的起始视频帧相对应的第一时间戳为：00:10:00、终止视频帧相对应的第二时间戳为00:15:00，上述第一时间戳与第二时间戳形成的时间段为：00:10:00-00:15:00，该时间段的时长为5min，即第一视频片段的第一时长为：5min。

当第一时长位于预设的短视频时长范围，将第一视频片段确定为目标视频片段；当第一时长不位于预设的短视频时长范围，结束流程。

步骤S204：基于目标视频片段在源视频中的起始时间戳以及终止时间戳，从源视频中截取目标视频片段，作为短视频。

上述步骤S204与上述图1所示实施例的步骤S103相同，在此不再赘述。

由以上可见，由于各目标视频帧表达的是同一内容，所以，包含第一视频帧的第一视频片段主要围绕一个内容进行演绎的，第一视频片段的内容的完整性和独立性比较高。在第一视频片段的时长位于预设的短视频时长范围内时，将第一视频片段确定为目标视频片段，从而使得确定得到的目标视频片段不仅满足短视频的时长要求，且完整性和独立性较高。

前述图2所示实施例的步骤S202中确定目标视频帧时，不同实施例中可以采用不同的方式实现。下面分别基于图3中的步骤S302-S303、和图4中S402-S403进行介绍。

参见图3，图3为本公开实施例提供的第三种短视频制作方法的流程示意图，与前述图2所示实施例相比，前述图2所示实施例中步骤S202，可以按照下述步骤S302-S303实现。

具体的，图3所示实施例包括以下步骤S301-S305。

步骤S301：获得源视频。

上述步骤S301与上述图2所示实施例的步骤S201相同，在此不再赘述。

步骤S302：对源视频包含的视频帧进行图像语义分析，得到视频帧所表达的语义。

视频帧所表达的语义能够反映视频帧的图像内容。

图像语义分析的对象可以是源视频包含的每一视频帧，也可以是源视频包含的部分视频帧，例如：可以是按照源视频的起始视频帧到结束视频帧的顺序，对每间隔预设数量个视频帧进行图像语义分析，上述预设数量可以是3、5等。

一种实施方式中，可以采用图像语义分析算法对源视频包含的视频帧进行图像语义分析，得到视频帧所表达的图像语义。

图像语义分析算法可以为Grab cut(交互式图像语义分割方法)、CRF(Conditional random field，条件随机场)等。

步骤S303：确定源视频包含的视频帧中表达同一语义且连续的视频帧，作为目标视频帧。

由于视频帧所表达的语义能够反映视频帧的图像内容，因此，当多个视频帧所表达的语义为同一语义时，能够表示这多个视频帧表达同一内容。因此，能够将源视频包含的视频帧中表达同一语义且连续的视频帧，确定为表达同一内容且连续的目标视频帧。

一种实施方式中，当所得到的语义是以语义特征向量形式表示时，可以计算视频帧对应的语义特征向量之间的距离，基于计算得到的距离确定视频帧所表达语义之间的相似度，将相似度大于预设的语义相似度阈值的视频帧确定为表达同一语义的视频帧，然后从所确定的视频帧中将相连续的视频帧确定为目标视频帧。

步骤S304：确定包含目标视频帧的第一视频片段的第一时长，若第一时长位于预设的短视频时长范围内，将第一视频片段确定为目标视频片段。

步骤S305：基于目标视频片段在源视频中的起始时间戳以及终止时间戳，从源视频中截取目标视频片段，作为短视频。

上述步骤S304-S305与上述图2所示实施例的步骤S203-S204相同，在此不再赘述。

由以上可见，由于视频帧表达的语义能够反映视频帧的图像内容，所以，表达同一语义的视频帧的内容均指向同一内容，所以，将表达同一语义且连续的视频帧确定为目标视频帧，使得确定得到的目标视频帧表达同一内容且连续，从而提高了所确定的目标视频帧的准确度。

参见图4，图4为本公开实施例提供的第四种短视频制作方法的流程示意图，与前述图2所示实施例相比，前述图2所示实施例中步骤S202，可以按照下述步骤S402-S403实现。

具体的，图4所示实施例包括以下步骤S401-S405。

步骤S401：获得源视频。

上述步骤S401与上述图2所示实施例的步骤S101相同，在此不再赘述。

步骤S402：针对源视频包含的视频帧，计算该视频帧与该视频帧的相邻视频帧之间的相似度。

上述视频帧的相邻视频帧可以为：视频帧之后相邻的视频帧；也可以为视频帧之前相邻的视频帧。

在计算相似度时，可以计算两张视频帧之间的欧式距离、余弦距离或者汉明距离等距离，基于预设的距离与相似度之间的对应关系，将计算得到的距离转换为两张视频帧之间的相似度。

计算相似度时所针对的对象可以是视频帧的整张图像，也就是计算两张视频帧的整张图像之间的相似度。

计算相似度所针对的对象也可以是视频帧的部分图像，例如，源视频为购物直播视频时，主播在直播过程中通常按照各个商品顺序进行讲解，在购物直播视频中，通常仅涉及到商品的变化，而主播以及直播间背景不会发生变化，在这种情况下，为节省计算资源，只需要计算视频帧中部分图像之间的相似度。基于上述情况，一种实施方式中，可以计算两张视频帧中预设位置范围内的区域之间的相似度，作为该视频帧对应的相似度。

上述预设位置范围可以是由工作人员预先基于购物直播过程中商品在直播界面所在位置确定的位置范围。

步骤S403：确定源视频包含的视频帧中相似度大于预设的相似度阈值且连续的视频帧，作为目标视频帧。

由于两张视频帧之间的相似度能够反映两张视频帧的图像内容之间的差异，当相似度越大，表示两张视频帧的图像内容之间的差异越小，当相似度越小，表示两张视频帧的图像内容之间的差异越大，又由于当两张视频帧的图像内容之间的差异越小，能够表示两张视频帧的图像内容为同一内容，因此，当多个连续的视频帧之间的相似度大于预设的相似度阈值时，表示多个连续的视频帧之间的相似度较大、所表达的图像内容之间的差异较小，所以，多个连续的视频帧所表达的内容大概率指向同一内容。因此，能够将源视频包含的视频帧中相似度大于预设的相似度阈值且连续的视频帧，确定为表达同一内容且连续的目标视频帧。

一种实施方式中，可以首先确定源视频包含的视频帧中相似度大于预设的相似度阈值的视频帧，然后将所确定的视频帧中相连续的视频帧确定为目标视频帧。

步骤S404：确定包含目标视频帧的第一视频片段的第一时长，若第一时长位于预设的短视频时长范围内，将第一视频片段确定为目标视频片段。

步骤S405：基于目标视频片段在源视频中的起始时间戳以及终止时间戳，从源视频中截取目标视频片段，作为短视频。

上述步骤S404-S405与上述图2所示实施例的步骤S203-S204相同，在此不再赘述。

由以上可见，由于两张视频帧之间的相似度能够反映两张视频帧的图像内容之间的差异，又由于当两张视频帧的图像内容之间的差异越小，能够表示两张视频帧的图像内容为同一内容，因此，当多个连续的视频帧之间的相似度大于预设的相似度阈值时，表示多个连续的视频帧之间的相似度较大、所表达的图像内容之间的差异较小，所以，多个连续的视频帧所表达的内容大概率指向同一内容。因此，将源视频包含的视频帧中相似度大于预设的相似度阈值且连续的视频帧确定为目标视频帧，使得确定得到的目标视频帧表达同一内容且连续，从而提高了所确定的目标视频帧的准确度。

在前述图2所示实施例中，是从视频帧所表达的内容角度出发确定目标视频片段，但是视频除了包含视频帧数据之外，还包含音频数据，因此，可以结合音频数据和视频帧数据确定目标视频片段。

鉴于上述情况，参见图5，图5为本公开实施例提供的第五种短视频制作方法的流程示意图，与前述图2所示实施例相比，在前述图2所示实施例中步骤S203之前，还可以基于第一视频片段的音频数据，从第一视频片段中确定得到目标视频片段。

具体的，图5所示实施例包括以下步骤S501-S506。

步骤S501：获得源视频。

步骤S502：根据源视频包含的视频帧的图像内容，确定源视频包含的视频帧中表达同一内容且连续的目标视频帧。

上述步骤S501-S502分别与上述图2所示实施例的步骤S201-S202相同，在此不再赘述。

步骤S503：获得包含目标视频帧的第一视频片段的音频数据。

由于视频是对视频帧数据和音频数据进行系统层封装得到的流数据，因此，可以使用解码工具对源视频进行解码，从源视频中解码出音频数据，从解码得到的音频数据中确定上述第一视频片段的起始时刻以及结束时刻之间的音频数据，作为上述第一视频片段的音频数据。上述解码工具可以为：FFMpeg(Fast Forward Mpeg)等，具体解码工具可以依据视频采用的编码标准选定。

步骤S504：对音频数据进行语音识别，确定音频数据的时间段内第一时间戳以及第二时间戳。

上述第一时间戳为：视频片段开始标志词的时间戳。

上述第二时间戳为：视频片段结束标志词的时间戳。

在视频中，通常通过开始标志词开始当前视频片段，并通过结束标志词结束当前视频片段，所以，开始标志词能够表征视频片段开始，结束标志词能够表征视频片段结束。例如：以源视频为购物直播视频为例，在直播过程中，主播在开始介绍每一商品之前，可以说“接下来我们介绍下一个商品”，“接下来”、“下一个商品”均可以为开始标志词，主播在结束介绍每一商品时，可以说“这一商品介绍完毕”，“完毕”可以为结束标志词。

一种实施方式中，可以采用矢量量化、动态时间规整等语音识别算法对音频数据进行语音识别，若语音识别结果中包含预设的开始标志词，表示该语音识别结果所对应的第一音频数据段中包括开始标志词，可以将上述第一音频数据段对应的时间戳确定为第一时间戳；若语音识别结果中包含预设的结束标志词，表示该语音识别结果所对应的第二音频数据段中包括结束标志词，可以将上述第二音频数据段对应的时间戳确定为第二时间戳。

在上述步骤S503-S504的基础上，前述图2所示实施例的步骤S203，可以按照下述步骤S505实现。

步骤S505：确定第一视频片段中第一时间戳与第二时间戳之间的目标时间段的第二时长，若第二时长位于预设的短视频时长范围内，将第一视频片段中目标时间段内的第二视频片段确定为目标视频片段。

由于第一时间戳、第二时间戳是第一视频片段的音频数据的时间段内的时间戳，并且，第一时间戳为视频片段开始标志词的时间戳，第二时间戳为视频片段结束标志词的时间戳，所以，第一时间戳与第二时间戳之间的第二视频片段是第一视频片段中一段从开始到结束的内容，第二视频片段的内容相较于第一视频片段的内容完整度、精简度更高，在第二视频片段的时长满足短视频时长要求的情况下，将第二视频片段确定为目标视频片段，进一步提高了目标视频片段的完整度以及精简度。

步骤S506：基于目标视频片段在源视频中的起始时间戳以及终止时间戳，从源视频中截取目标视频片段，作为短视频。

上述步骤S506与上述图2所示实施例的步骤S204相同，在此不再赘述。

当上述源视频为直播视频时，为了保持直播视频与短视频的风格统一，在前述图1所示实施例的步骤S103之后，还可以使得短视频的播放元素与直播视频的直播元素保持一致。

基于上述情况，参见图6，与前述图1所示实施例相比，图6还包括下述步骤S604。

具体的，图6所示实施例包括步骤S601-S604。

步骤S601：获得源视频。

步骤S602：根据源视频的内容，确定源视频中时长满足预设的短视频时长范围的目标视频片段。

步骤S603：基于目标视频片段在源视频中的起始时间戳以及终止时间戳，从源视频中截取目标视频片段，作为短视频。

上述步骤S601-S603分别与上述图1所示实施例的步骤S101-S103相同，在此不再赘述。

步骤S604：获得源视频在直播过程中所采用的直播元素的元素信息，将直播元素的元素信息确定为用于在播放短视频过程中所使用的播放元素的元素信息。

上述直播元素可以包括：直播视频在直播过程中所使用的直播模板、直播装饰物等元素。

当目标视频为购物直播视频时，上述直播元素还可以包括商品购买链接等。这样，将商品购买链接确定为用于在播放短视频过程中所使用的播放元素，也就是在播放短视频过程中会显示商品购买链接，用户在观看短视频过程中，可以便捷地直接通过所显示的商品购买链接购买商品。

直播元素的元素信息可以包括直播元素的元素名称、显示位置、显示时刻、显示时长等信息。

直播视频在直播过程时所采用的直播元素的元素信息可以存储于预设数据库中，基于此，一种实施方式中，可以从上述数据库中获取直播视频相对应的直播元素的元素信息。

由于将直播视频相对应的直播元素的元素信息确定为用于在播放短视频时所使用的播放元素的元素信息，使得播放上述短视频的播放风格与短视频所属的直播视频的直播风格保持一致，从而使得用户能够基于短视频的播放风格快速获知直播视频的直播风格。

以直播视频为例，以下结合图7对本公开实施例提供的短视频制作方案以及短视频应用方案进行说明。图7为本公开实施例提供的一种短视频制作以及短视频应用方案的流程框图。

在图7中，按照箭头指向的顺序，获得直播视频，根据直播视频的视频内容，确定直播视频中时长位于预设的短视频范围内的目标视频片段，若目标视频片段的热度值大于预设的热度值阈值，截取直播视频中目标视频片段，得到短/小视频。

所得到的短/小视频可以应用于视频发布场景、视频推荐场景以及视频搜索场景。

在视频发布场景中，可以通过视频平台发布短/小视频。

具体的，可以将短/小平台推送到直播视频的主播的个人主页，在主播选择短/小视频的名称、描述信息等信息项，并且在检测到用户点击发布视频按钮后，将短/小视频显示在主播的个人主页。

在视频推荐场景中，采用预设的视频推荐策略，针对性地向用户推荐上述短/小视频。

在视频搜索场景中，基于用户在用户界面输入的搜索query(查询词)确定满足搜索query的短/小视频队列。并且，在播放上述队列包含的短/小视频时可以采用直播视频相对应的直播元素。

与上述短视频制作方法相对应的，本公开实施例提供了一种短视频制作装置。

参见图8，图8为本公开实施例提供的一种短视频制作装置的结构示意图，上述装置包括以下模块801-803。

源视频获得模块801，用于获得源视频；

视频片段确定模块802，用于根据所述源视频的内容，确定所述源视频中时长位于预设的短视频时长范围的目标视频片段；

短视频确定模块803，用于基于所述目标视频片段在所述源视频中的起始时间戳以及终止时间戳，从所述源视频中截取所述目标视频片段，作为短视频。

本公开的一个实施例中，上述视频片段确定模块802，包括：

视频帧确定子模块，用于根据所述源视频包含的视频帧的图像内容，确定所述源视频包含的视频帧中表达同一内容且连续的目标视频帧；

视频片段确定子模块，用于确定包含目标视频帧的第一视频片段的第一时长，若所述第一时长位于预设的短视频时长范围内，将所述第一视频片段确定为目标视频片段。

由以上可见，由于各目标视频帧表达的是同一内容，所以，包含第一视频帧的第一视频片段主要围绕一个内容进行演绎的，第一视频片段的内容的完整性和独立性比较高。在第一视频片段的时长位于预设的短视频时长范围内时，将第一视频片段确定为目标视频片段，从而使得确定得到的目标视频片段不仅满足短视频的时长要求，且完整性和独立性较高。本公开的一个实施例中，上述视频帧确定子模块，具体用于对所述源视频包含的视频帧进行图像语义分析，得到视频帧所表达的语义；确定所述源视频包含的视频帧中表达同一语义且连续的视频帧，作为目标视频帧。

本公开的一个实施例中，上述视频帧确定子模块，具体用于针对所述源视频包含的视频帧，计算该视频帧与该视频帧的相邻视频帧之间的相似度；确定所述源视频包含的视频帧中相似度大于预设的相似度阈值且连续的视频帧，作为目标视频帧。

本公开的一个实施例中，所述视频片段确定模块802，还包括：

音频数据获得子模块，用于在所述视频片段确定子模块之前，获得包含目标视频帧的第一视频片段的音频数据；

时间戳确定子模块，用于对所述音频数据进行语音识别，确定所述音频数据的时间段内第一时间戳以及第二时间戳，其中，所述第一时间戳为：视频片段开始标志词的时间戳，所述第二时间戳为：视频片段结束标志词的时间戳；

所述视频片段确定子模块，具体用于确定所述第一视频片段中第一时间戳与第二时间戳之间的目标时间段的第二时长，若所述第二时长位于预设的短视频时长范围内，将所述第一视频片段中目标时间段内的第二视频片段确定为目标视频片段。

由于第一时间戳、第二时间戳是第一视频片段的音频数据的时间段内的时间戳，并且，第一时间戳为视频片段开始标志词的时间戳，第二时间戳为视频片段结束标志词的时间戳，所以，第一视频片段中第一时间戳与第二时间戳之间的第二视频片段是第一视频片段中实际从开始到结束的内容，第二视频片段的内容相较于第一视频片段的内容完整度、精简度更高，在第二视频片段的时长满足短视频时长要求的情况下，将第二视频片段确定为目标视频片段，进一步提高了目标视频片段的完整度以及精简度。

本公开的一个实施例中，上述装置还包括：

热度值判断模块，用于在所述短视频确定模块中基于所述目标视频片段在所述源视频中的起始时间戳以及终止时间戳，从所述源视频中截取所述目标视频片段之前，获得所述目标视频片段的热度值，若所述目标视频片段的热度值大于预设的热度值阈值，触发所述短视频确定模块。

本公开的一个实施例中，上述源视频为直播视频，所述装置还包括：

元素信息确定模块，用于获得所述源视频在直播过程中所采用的直播元素的元素信息，将所述直播元素的元素信息确定为用于在播放所述短视频过程中所使用的播放元素的元素信息。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开的一个实施例中，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

本公开的一个实施例中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述短视频制作方法。

本公开的一个实施例中，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述短视频制作方法。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如短视频制作方法。例如，在一些实施例中，短视频制作方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的短视频制作方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行短视频制作方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种短视频制作方法，包括：

获得源视频；

基于所述目标视频片段在所述源视频中的起始时间戳以及终止时间戳，从所述源视频中截取所述目标视频片段，作为短视频；

所述根据所述源视频的内容，确定所述源视频中时长位于预设的短视频时长范围的目标视频片段，包括：

根据所述源视频包含的视频帧的图像内容，确定所述源视频包含的视频帧中表达同一内容且连续的目标视频帧；

确定包含目标视频帧的第一视频片段的第一时长，若所述第一时长位于预设的短视频时长范围内，将所述第一视频片段确定为目标视频片段；

在所述确定包含目标视频帧的第一视频片段的第一时长之前，还包括：

获得包含目标视频帧的第一视频片段的音频数据；

对所述音频数据进行语音识别，确定所述音频数据的时间段内第一时间戳以及第二时间戳，其中，所述第一时间戳为：视频片段开始标志词的时间戳，所述第二时间戳为：视频片段结束标志词的时间戳；

所述确定包含目标视频帧的第一视频片段的第一时长，若所述第一时长位于预设的短视频时长范围内，将所述第一视频片段确定为目标视频片段，包括：

确定所述第一视频片段中第一时间戳与第二时间戳之间的目标时间段的第二时长，若所述第二时长位于预设的短视频时长范围内，将所述第一视频片段中目标时间段内的第二视频片段确定为目标视频片段；

所述源视频为直播视频，所述方法还包括：

获得所述源视频在直播过程中所采用的直播元素的元素信息，将所述直播元素的元素信息确定为用于在播放所述短视频过程中所使用的播放元素的元素信息，其中，所述直播元素包括：直播视频在直播过程中所使用的直播模板和直播装饰物，所述直播元素的元素信息存储于预设数据库中。

2.根据权利要求1所述的方法，其中，所述确定所述源视频包含的视频帧中表达同一内容且连续的目标视频帧，包括：

对所述源视频包含的视频帧进行图像语义分析，得到视频帧所表达的语义；

确定所述源视频包含的视频帧中表达同一语义且连续的视频帧，作为目标视频帧。

3.根据权利要求1所述的方法，其中，所述确定所述源视频包含的视频帧中表达同一内容且连续的目标视频帧，包括：

针对所述源视频包含的视频帧，计算该视频帧与该视频帧的相邻视频帧之间的相似度；

确定所述源视频包含的视频帧中相似度大于预设的相似度阈值且连续的视频帧，作为目标视频帧。

4.根据权利要求1-3中任一项所述的方法，其中，在所述基于所述目标视频片段在所述源视频中的起始时间戳以及终止时间戳，从所述源视频中截取所述目标视频片段之前，还包括：

获得所述目标视频片段的热度值，若所述目标视频片段的热度值大于预设的热度值阈值，执行所述基于所述目标视频片段在所述源视频中的起始时间戳以及终止时间戳，从所述源视频中截取所述目标视频片段的步骤。

5.一种短视频制作装置，包括：

源视频获得模块，用于获得源视频；

短视频确定模块，用于基于所述目标视频片段在所述源视频中的起始时间戳以及终止时间戳，从所述源视频中截取所述目标视频片段，作为短视频；

所述视频片段确定模块，包括：

视频片段确定子模块，用于确定包含目标视频帧的第一视频片段的第一时长，若所述第一时长位于预设的短视频时长范围内，将所述第一视频片段确定为目标视频片段；

所述视频片段确定模块，还包括：

所述视频片段确定子模块，具体用于确定所述第一视频片段中第一时间戳与第二时间戳之间的目标时间段的第二时长，若所述第二时长位于预设的短视频时长范围内，将所述第一视频片段中目标时间段内的第二视频片段确定为目标视频片段；

所述源视频为直播视频，所述装置还包括：

元素信息确定模块，用于获得所述源视频在直播过程中所采用的直播元素的元素信息，将所述直播元素的元素信息确定为用于在播放所述短视频过程中所使用的播放元素的元素信息，其中，所述直播元素包括：直播视频在直播过程中所使用的直播模板和直播装饰物，所述直播元素的元素信息存储于预设数据库中。

6.根据权利要求5所述的装置，其中，所述视频帧确定子模块，具体用于对所述源视频包含的视频帧进行图像语义分析，得到视频帧所表达的语义；确定所述源视频包含的视频帧中表达同一语义且连续的视频帧，作为目标视频帧。

7.根据权利要求5所述的装置，其中，所述视频帧确定子模块，具体用于针对所述源视频包含的视频帧，计算该视频帧与该视频帧的相邻视频帧之间的相似度；确定所述源视频包含的视频帧中相似度大于预设的相似度阈值且连续的视频帧，作为目标视频帧。

8.根据权利要求5所述的装置，其中，所述装置还包括：

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法。