CN115086760A

CN115086760A - 直播视频剪辑方法、装置及设备

Info

Publication number: CN115086760A
Application number: CN202210551338.0A
Authority: CN
Inventors: 战春儒; 王标; 葛铁铮; 姜宇宁; 张渊猛; 侯兴林
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-20

Abstract

本申请实施例提供一种直播视频剪辑方法、装置及设备。该方法包括：获取直播视频中用于介绍商品对象的视频片段，将视频片段划分成以句子为单位的多个视频子片段，确定视频子片段的类别标签，将多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到商品对象的短视频。该方法能够实现将直播视频中时间分散的多种有效内容均包括在同一短视频中，提高了短视频的质量。

Description

直播视频剪辑方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种直播视频剪辑方法、装置及设备。

背景技术

目前，直播在各行各业都被广泛应用，例如，在商家而言，以主播在直播中对商品进行视频讲解的方式可以吸引用户关注商家以及商家的商品，进而提高商品的销量。

随着直播间累计的内容逐渐增多，同时视频的表达形式相比图文格式的创意可以提供更多的信息，可以基于直播视频生成商品的短视频。通常，是从直播视频中随机选择一段视频作为商品的短视频，然而这样的方式存在生成的短视频中的有效内容较少，短视频的质量较差的问题。

发明内容

本申请实施例提供一种直播视频剪辑方法、装置及设备，用以解决现有技术中生成的短视频中的有效内容较少，短视频的质量较差的问题。

第一方面，本申请实施例提供一种直播视频剪辑方法，包括：

获取直播视频中用于介绍商品对象的视频片段；

将所述视频片段划分成以句子为单位的多个视频子片段；

确定所述视频子片段的类别标签；

将所述多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频。

第二方面，本申请实施例提供一种直播视频剪辑装置，包括：

获取模块，用于获取直播视频中用于介绍商品对象的视频片段；

划分模块，用于将所述视频片段划分成以句子为单位的多个视频子片段；

确定模块，用于确定所述视频子片段的类别标签；

拼接模块，用于将所述多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频。

第三方面，本申请实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如第一方面中任一项所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，实现如第一方面中任一项所述的方法。

本申请实施例还提供一种计算机程序，当所述计算机程序被计算机执行时，用于实现如第一方面任一项所述的方法。

在本申请实施例中，是将直播视频中用于介绍商品对象的视频片段划分成以句子为单位的多个视频子片段，确定视频子片段的类别标签，将多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理得到商品对象的短视频，由于不同类别标签的目标视频子片段中可以包括不同类别的有效内容，且多个目标视频子片段可以不连续，因此通过将多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理得到的短视频，能够实现将直播视频中时间分散的多种有效内容均包括在同一短视频中，提高了短视频的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的应用场景示意图；

图2为本申请一实施例提供的直播视频剪辑方法的流程示意图；

图3为本申请一实施例提供的使用机器学习模型确定类别标签的示意图；

图4为本申请一实施例提供的根据标签编排方式生成短视频的示意图；

图5为本申请另一实施例提供的根据标签编排方式生成短视频的示意图；

图6为本申请一实施例提供的直播视频剪辑装置的结构示意图；

图7为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图1为本申请实施例提供的直播视频剪辑方法的应用场景示意图，如图1所示，该应用场景中可以包括：直播设备11和剪辑设备12，直播设备11可以实时采集对商品对象进行视频直播的直播视频流，剪辑设备12可以获取直播设备11对商品对象进行视频直播时的直播视频，并对直播视频进行剪辑得到商品对象的短视频。其中，直播视频可以是直播设备11当前对商品对象进行视频直播时的直播视频，也可以是直播设备11之前对商品对象进行视频直播时的直播视频，即，剪辑设备12进行直播视频剪辑的直播视频来源可以分为两种情况，如果直播正在进行中则可以通过实时流解析得到直播视频，如果直播已经结束则可以从离线直播间的回放数据中解析得到直播视频。

需要说明的是，图1中是以采集直播视频的设备与剪辑直播视频的设备为不同设备为例，可以理解的是，在其他实施例中，采集直播视频的设备与剪辑直播视频的设备也可以为同一设备。

通常，是从直播视频中随机选择一段视频作为商品的短视频，由于商品对象的有效内容是分散在针对该商品对象的整个直播过程中，因此随机选择一段视频作为商品的短视频会存在生成的短视频中的有效内容较少，短视频的质量较差的问题。

为了解决现有技术中生成的短视频中的有效内容较少，短视频的质量较差的技术问题。在本申请实施例中，是将直播视频中用于介绍商品对象的视频片段划分成以句子为单位的多个视频子片段，确定视频子片段的类别标签，将多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理得到商品对象的短视频，由于不同类别标签的目标视频子片段中可以包括不同类别的有效内容，且多个目标视频子片段可以不连续，因此通过将多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理得到的短视频，能够实现将直播视频中时间分散的多种有效内容均包括在同一短视频中，提高了短视频的质量。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突情况下，下述的实施例及实施例中的特征可以相互组合。

图2为本申请一实施例提供的直播视频剪辑方法的流程示意图，本实施例的执行主体可以为图1中的剪辑设备12。如图2所示，本实施例的方法可以包括：

步骤21，获取直播视频中用于介绍商品对象的视频片段；

步骤22，将视频片段划分成以句子为单位的多个视频子片段；

步骤23，确定视频子片段的类别标签；

步骤24，将多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到商品对象的短视频。

本申请实施例中，可以接收其他设备从直播视频中获取的用于介绍商品对象的视频片段，或者，可以自己从直播视频中获取用于介绍商品对象的视频片段。

示例性的，可以基于主播在直播间的人工操作，从直播视频中获取用于介绍商品的视频片段。其中，人工操作例如可以为讲解操作，在主播讲解某一商品对象之前可以先输入针对该商品的讲解操作，根据主播针对某一商品对象输入讲解操作的时间，以及主播针对该商品对象的下一商品对象输入讲解操作的时间，可以确定主播介绍该商品对象的时间范围，从而可以从直播视频中获取用于介绍该商品对象的视频片段。人工操作例如还可以为将商品链接展示给观众的上商品链接操作，在主播针对某一商品对象的介绍即将结束的时候可以输入针对该商品的上商品链接操作，根据主播针对某一商品对象输入上商品链接操作的时间，以及主播针对该商品对象的上一商品对象输入上商品链接操作的时间，可以确定主播介绍该商品对象的时间范围，从而可以从直播视频中获取用于介绍该商品对象的视频片段。

或者示例性的，可以基于识别算法，从直播视频中获取用于介绍商品对象的视频片段。其中，识别算法可以通过对直播视频的分析，判断主播的行为、口播声音等内容是否存在商品对象的变化，并根据分析结果确定主播讲解单个商品对象的时间范围，从而可以从直播视频中获取用于介绍商品对象的视频片段。

本申请实施例中，在获取到直播视频中用于介绍商品对象的视频片段之后，可以将视频片段划分成以句子为单位的多个视频子片段。其中，可以利用自动语音识别(Automatic Speech Recognition，ASR)对视频片段中的音频部分进行识别，将声音转换成口播文本，并根据口播文本将视频片段划分成以句子为单位的多个视频子片段。需要说明的是，关于以句子为单位对视频或视频片段进行划分的具体方式，可以参考相关技术中的相关描述，在此不再赘述。

本申请实施例中，在将视频片段划分成以句子为单位的多个视频子片段之后，可以确定视频子片段的类别标签，所确定的类别标签可以标注到视频子片段上。视频子片段的类别标签可以用于标识视频子片段中所介绍内容的类别。类别标签可以与商品对象所属的行业有关，以服装行业为例，类别标签例如可以包括材质、适用人群等。以家具行业为例，类别标签例如可以包括漆面、适用风格等。

一个实施例中，可以控制所确定的类别标签为预设的类别标签体系中的一个，从而有利于简化实现，基于此，步骤23具体可以包括：从预设的标签体系中确定视频子片段的类别标签。

考虑到视频直播中的内容有很强的主观性，标签体系中的类别标签可能无法涵盖所有可能的视频内容，可能会出现这样一种情况：虽然从预设的标签体系中确定了某一视频子片段的类别标签，但是该视频子片段中介绍的内容实际并不属于所确定的类别标签所表示的类别。因此，可以从预设的标签体系中确定视频子片段的类别标签及其对应的置信度，某一视频片段的类别标签对应的置信度，可以表示该视频片段中介绍的内容属于该类别标签所表示的类别的概率，置信度越大可以表示该视频片段中介绍的内容属于该类别标签所表示的类别的概率越高。

一个实施例中，可以采用机器学习的方式确定视频子片段的类别标签，机器学习模型可以为深度学习模型，基于此，步骤23具体可以包括：使用机器学习模型，从预设的标签体系中确定视频子片段的类别标签及其有对应的置信度。

一个实施例中，可以基于多模态的数据确定视频子片段的类别标签，有利于提高所确定的类别标签的准确性，其中，多模态的数据可以包括视频、音频或文本中的至少两种，基于此，步骤23具体可以包括：将视频子片段中音频数据的特征信息、视频数据的特征信息或者由音频数据转换成的口播文本的特征信息中的至少两种，输入机器学习模型进行处理，得到视频子片段的类别标签及其对应的置信度。以多模态的数据包括视频、音频和文本为例，使用机器学习模型进行处理的示意图可以如图3所示，其中，深度学习模型的输出可以包括类别标签及其对应的置信度。

以视频、音频和文本作为机器学习模型的输入为例，机器学习模型可以是按照下述方式训练得到：构建机器学习模型，机器学习模型中设置有训练参数；将多个样本特征信息分别输入至预测模型中，生成预测结果；基于预测结果与样本特征信息的样本标签对应的期望结果之间的差异，对训练参数进行迭代调整，直至差异满足预设要求。

其中，样本特征信息是与样本视频片段对应，样本特征信息中可以包括对应样本视频片段中音频数据的特征信息、视频数据的特征信息以及由视频数据转换成的口播文本的特征信息。样本特征信息的样本标签可以为对应样本视频片段的类别标签。

本申请实施例中，在确定视频子片段的类别标签之后，可以根据类别标签，生成商品对象的短视频，具体的，可以将多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到商品对象的短视频。其中，针对同一商品对象得到的短视频的数量可以为一个或多个，单个短视频中多个目标视频子片段的类别标签不同。

示例性的，可以从多个视频子片段中任意选择类别不同的多个目标视频子片段，用于拼接处理，还可以将所选择的多个目标视频子片段按照任意顺序进行拼接处理，得到商品对象的短视频。

或者示例性的，可以从多个视频子片段中按照规定的类别选择类别不同的多个目标视频子片段，用于拼接处理，还可以将所选择的多个目标视频子片段按照规定的顺序进行拼接处理，得到商品对象的短视频，从而能够根据需要控制所生成的短视频所使用的视频子片段的内容类别以及视频子片段之间的播放顺序。一个实施例中，可以通过标签编排方式规定类别及顺序，标签编排方式可以包括多个标签以及该多个标签之间的顺序。

在确定类别标签对应的置信度的情况下，可以使用对应的置信度较高的视频子片段生成商品对象的短视频，基于此，一个实施例中，步骤24具体可以包括：从多个视频子片段中选择置信度排序靠前的多个候选视频子片段；将多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到商品对象的短视频。

一个实施例中，可以根据标签编排方式，将多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到商品对象的短视频。其中，得到商品对象的短视频所根据的标签编排方式的数量可以为一个或多个，根据同一标签编排方式得到的短视频可以为一个或多个。

可选的，标签编排方式中包括的标签可以为视频子片段的类别标签，在此情况下，根据标签编排方式，将多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到商品对象的短视频，具体可以包括：从多个候选视频子片段中选择至少一组视频子片段，每组目标视频子片段中包括类别标签不同的多个目标视频子片段，且该多个目标视频子片段的类别标签分别为标签编排方式中包括的多个标签；以及，按照标签编排方式包括的多个标签之间的顺序，将每组视频子片段中的多个目标视频子片段进行拼接处理，得到商品对象的短视频。

假设标签编排方式的数量为多个，多个候选视频子片段分别视频子片段S1至S6，视频子片段S1的类别标签为C1，视频子片段S2的类别标签为C2，视频子片段S3的类别标签为C3，视频子片段S4的类别标签为C4，视频子片段S5的类别标签为C5，视频子片段S6的类别标签为C5，标签编排方式M1为C1→C2→C3，标签编排方式M2为C2→C3→C4，标签编排方式M3为C1→C4→C5，则如图4所示，根据标签编排方式M1，可以从视频子片段S1至S6中选择视频子片段S1、S2和S3作为一组视频子片段，按照C1→C2→C3的顺序，将视频子片段S1、S2和S3进行拼接处理得到商品对象的一个短视频(即短视频V1)；根据标签编排方式M2，可以从视频子片段S1至S5中选择视频子片段S2、S3和S4作为一组视频子片段，按照C2→C3→C4的顺序，将视频子片段S2、S3和S4进行拼接处理得到商品对象的另一个短视频(即短视频V2)；根据标签编排方式M3，可以从视频子片段S1至S5中选择视频子片段S1、S4和S5作为一组视频子片段并选择S1、S4和S6作为另一组视频子片段，并按照C1→C4→C5的顺序，将视频子片段S1、S4和S5进行拼接处理得到商品对象的又一个短视频(即短视频V3)，并将视频子片段S1、S4和S6进行拼接处理得到商品对象的又一个短视频(即短视频V4)。

或者可选的，标签编排方式中包括的标签可以为对不同行业商品的视频子片段进行聚类得到的聚类标签，从而使得不同行业的商品可以共用标签编排方式，其中，聚类标签可以通过聚类分析的方式得到，例如服装行业的类别标签“材质”以及家具行业的类别标签“漆面”可以聚类为聚类标签“外观”，在此情况下，根据标签编排方式，将多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到商品对象的短视频，具体可以包括：确定视频子片段的类别标签对应的聚类标签；从多个候选视频子片段中选择至少一组视频子片段，每组视频子片段中包括对应的聚类标签不同的多个目标视频子片段，且多个目标视频子片段对应的多个聚类标签分别为标签编排方式中包括的多个标签；以及，按照标签编排方式包括的多个标签之间的顺序，将每组视频子片段中的多个目标视频子片段进行拼接处理，得到商品对象的短视频。

假设标签编排方式的数量为多个，多个候选视频子片段分别为视频子片段S1’至S6’，视频子片段S1’的类别标签对应的聚类标签为X1，视频子片段S2’的类别标签对应的聚类标签为X2，视频子片段S3’的类别标签对应的聚类标签为X3，视频子片段S4’的类别标签对应的聚类标签为X4，视频子片段S5’的类别标签对应的聚类标签为X5，视频子片段S6’的类别标签对应的聚类标签为X5，标签编排方式M1’为X1→X2→X3，标签编排方式M2’为X2→X3→X4，标签编排方式M3’为X1→X4→X5，则如图5所示，根据标签编排方式M1’，可以从视频子片段S1’至S6’中选择视频子片段S1’、S2’和S3’作为一组视频子片段，按照X1→X2→X3的顺序，将视频子片段S1’、S2’和S3’进行拼接处理得到商品对象的一个短视频(即短视频V1’)；根据标签编排方式M2’，可以从视频子片段S1’至S5’中选择视频子片段S2’、S3’和S4’作为一组视频子片段，按照X2’→X3’→X4’的顺序，将视频子片段S2’、S3’和S4’进行拼接处理得到商品对象的另一个短视频(即短视频V2’)；根据标签编排方式M3’，可以从视频子片段S1’至S5’中选择视频子片段S1’、S4’和S5’作为一组视频子片段并选择S1’、S4’和S6’作为另一组视频子片段，按照X1’→X4’→X5’的顺序，将视频子片段S1’、S4’和S5’进行拼接处理得到商品对象的又一个短视频(即短视频V3’)，并将视频子片段S1’、S4’和S6’进行拼接处理得到商品对象的又一个短视频(即短视频V4’)。

本申请实施例中，可以预先定义多个标签编排方式，从预先定义的该多个标签编排方式中选择合适的标签编排方式，以根据合适的标签编排方式生成商品对象的短视频。

一个实施例中，标签编排方式中所包括的标签均为必需标签，在此情况下，可以将预先定义的多个标签编排方式中标签所需的视频子片段均包括在该多个候选视频子片段中的标签编排方式，确定为合适的标签编排方式。例如，在前述图4所示的举例中：假设预先定义了标签编排方式M1，由于多个候选视频子片段中包括了C1、C2和C3所需的视频子片段，因此标签编排方式M1是合适的标签编排方式，可以根据标签编排方式M1生成短视频V1；假设还预先定义了标签编排方式M4为C1→C4→C6，由于多个候选视频子片段中没有包括C6所需的视频子片段，因此标签编排方式M4不合适，可以不根据标签编排方式M4生成短视频。

另一个实施例中，标签编排方式中所包括的标签可以分为必需标签和可选标签，在此情况下，可以将预先定义的多个标签编排方式中必需标签所需的视频子片段均包括在该多个候选视频子片段中的标签编排方式，确定为合适的标签编排方式。例如，在前述图5所示的举例中：假设预先定义了标签编排方式M4’为X1→X4→X6，且X1、X2和X6都为必需标签，由于多个候选视频子片段中没有包括X6所需的视频子片段，因此标签编排方式M4’不是合适的标签编排方式，可以不根据标签编排方式M4’生成短视频；假设还远定义了标签编排方式M5’为X1→X3→X7，且X1和X3为必需标签，X7为可选标签，由于多个候选视频子片段中包括了X1和X3所需的视频子片段，因此标签编排方式M5’是合适的标签编排方式，可以根据标签编排方式M5’生成短视频。

在生成商品对象的短视频之后，还可以对短视频进行进一步的视频加工，以提高短视频画面的多样性，示例性的，可以为短视频增加特效。基于此，一个实施例中，本实施例提供的方法还可以包括：从由目标视频子片段中的音频数据转换成的口播文本中提取关键词，作为目标视频子片段的关键词；根据目标视频子片段的关键词为短视频增加特效。需要说明的是，关于从文本中提取关键词的具体方式，可以参见相关技术中的相关描述，在此不再赘述。

一个实施例中，可以添加的特效以及添加特效的时间可以与目标视频子片段的关键词对应。基于此，根据目标视频子片段的关键词为短视频增加特效，具体可以包括：根据目标视频子片段的关键词，确定对应的特效；在目标视频子片段中口播关键词的时间范围内，添加与关键词对应的特效。例如，可以先判断是否存在与目标视频子片段的关键词匹配的特效，如果存在则可以将与关键词匹配的特效作为关键词对应的特效，如果不存在则可以查找与目标视频子片段的类别标签匹配的特效，并将查找到的与目标视频子片段的类别标签匹配的特效作为关键词对应的特效。

本实施例提供的直播视频剪辑方法，通过获取直播视频中用于介绍商品对象的视频片段，将视频片段划分成以句子为单位的多个视频子片段，确定视频子片段的类别标签，将多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到商品对象的短视频，由于不同类别标签的目标视频子片段中可以包括不同类别的有效内容，且多个目标视频子片段可以不连续，因此通过将多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理得到的短视频，能够实现将直播视频中时间分散的多种有效内容均包括在同一短视频中，提高了短视频的质量。

本申请实施例中提供了一种自动化多模态直播视频剪辑方案，通过对视频子片段中的视频、音频、口播文本等多种模态的信息进行理解能够实现视频子片段的打标，通过设计标签编排方式能够实现复杂的片段拼接，通过添加特效等视频加工手段，能够生成优质视频素材。另外，通过定义合适的标签体系、动态调整标签编排方式等，能够实现从直播视频到短视频的批量化生产，表现了高效的内容分析和提取能力。通过本申请实施例提供的直播视频剪辑方案，可以生成高质量的短视频，是直播视频到短视频生成的有效途径。并且剪辑得到的短视频可以作为视频素材，可进一步促进直播间的推广，而且为商家积累丰富的视频资源，从而实现视频的多样化营销。

图6为本申请一实施例提供的直播视频剪辑装置的结构示意图；参考附图6所示，本实施例提供了一种直播视频剪辑装置，该装置可以执行上述实施例所述的方法，具体的，该装置可以包括：

获取模块61，用于获取直播视频中用于介绍商品对象的视频片段；

划分模块62，用于将所述视频片段划分成以句子为单位的多个视频子片段；

确定模块63，用于确定所述视频子片段的类别标签；

拼接模块64，用于将所述多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频。

一个实施例中，确定模块63具体用于：从预设的标签体系中确定所述视频子片段的类别标签及其对应的置信度；

拼接模块64具体用于：从所述多个视频子片段中选择置信度排序靠前的多个候选视频子片段；将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频。

一个实施例中，确定模块63具体用于：使用机器学习模型，从预设的标签体系中确定所述视频子片段的类别标签及其对应的置信度。

一个实施例中，确定模块63具体用于：将所述视频子片段中音频数据的特征信息、视频数据的特征信息或者由所述音频数据转换成的口播文本的特征信息中的至少两种，输入机器学习模型进行处理，得到所述视频子片段的类别标签及其对应的置信度。

一个实施例中，拼接模块64用于将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频，包括：根据标签编排方式，将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频。

一个实施例中，所述标签编排方式中包括的标签为视频子片段的类别标签；拼接模块64用于根据标签编排方式，将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频，包括：从所述多个候选视频子片段中选择至少一组视频子片段，每组目标视频子片段中包括类别标签不同的多个目标视频子片段，且所述多个目标视频子片段的类别标签分别为标签编排方式中包括的多个标签；以及，按照所述标签编排方式包括的所述多个标签之间的顺序，将每组视频子片段中的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频。

一个实施例中，所述标签编排方式中包括的标签为对不同行业商品的视频子片段进行聚类得到的聚类标签；拼接模块64用于根据标签编排方式，将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频，包括：确定所述视频子片段的类别标签对应的聚类标签；从所述候选多个视频子片段中选择至少一组视频子片段，每组视频子片段中包括对应的聚类标签不同的多个目标视频子片段，且所述多个目标视频子片段对应的多个聚类标签分别为标签编排方式中包括的多个标签；以及，按照所述标签编排方式包括的所述多个标签之间的顺序，将每组视频子片段中的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频。

一个实施例中，拼接模块64还用于：从预先定义的多个标签编排方式中选择合适的标签编排方式。

一个实施例中，本实施例提供的装置还包括特效模块，用于从由所述目标视频子片段中的音频数据转换成的口播文本中提取关键词，作为所述目标视频子片段的关键词；以及，根据所述目标视频子片段的关键词为所述短视频增加特效。

一个实施例中，特效模块用于根据所述目标视频子片段的关键词为所述短视频增加特效，包括：根据所述目标视频子片段的关键词，确定对应的特效；在所述目标视频子片段中口播所述关键词的时间范围内，添加与所述关键词对应的特效。

图6所示装置可以执行图2所示实施例的方法，本实施例未详细描述的部分，可参考对图2所示实施例的相关说明。该技术方案的执行过程和技术效果参见图2所示实施例中的描述，在此不再赘述。

在一个可能的实现中，图6所示装置的结构可实现为一电子设备。如图7所示，该电子设备可以包括：处理器71和存储器72。其中，存储器72用于存储支持电子设备执行上述图2实施例中提供的方法的程序，处理器71被配置为用于执行存储器72中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被处理器71执行时能够实现如下步骤：

获取直播视频中用于介绍商品对象的视频片段；

将所述视频片段划分成以句子为单位的多个视频子片段；

确定所述视频子片段的类别标签；

可选的，处理器71还用于执行前述图2所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括通信接口73，用于电子设备与其他设备或通信网络通信。

另外，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，实现图2所示实施例中任一项所述的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、链表、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种直播视频剪辑方法，其特征在于，包括：

获取直播视频中用于介绍商品对象的视频片段；

将所述视频片段划分成以句子为单位的多个视频子片段；

确定所述视频子片段的类别标签；

2.根据权利要求1所述的方法，其特征在于，所述确定所述视频子片段的类别标签，包括：从预设的标签体系中确定所述视频子片段的类别标签及其对应的置信度；

所述将所述多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频，包括：从所述多个视频子片段中选择置信度排序靠前的多个候选视频子片段；将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频。

3.根据权利要求2所述的方法，其特征在于，所述从预设的标签体系中确定所述视频子片段的类别标签及其对应的置信度，包括：使用机器学习模型，从预设的标签体系中确定所述视频子片段的类别标签及其对应的置信度。

4.根据权利要求3所述的方法，其特征在于，所述使用机器学习模型，从预设的标签体系中确定所述视频子片段的类别标签及其对应的置信度，包括：

将所述视频子片段中音频数据的特征信息、视频数据的特征信息或者由所述音频数据转换成的口播文本的特征信息中的至少两种，输入机器学习模型进行处理，得到所述视频子片段的类别标签及其对应的置信度。

5.根据权利要求2所述的方法，其特征在于，所述将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频，包括：

根据标签编排方式，将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频。

6.根据权利要求5所述的方法，其特征在于，所述标签编排方式中包括的标签为视频子片段的类别标签；所述根据标签编排方式，将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频，包括：

从所述多个候选视频子片段中选择至少一组视频子片段，每组目标视频子片段中包括类别标签不同的多个目标视频子片段，且所述多个目标视频子片段的类别标签分别为标签编排方式中包括的多个标签；

按照所述标签编排方式包括的所述多个标签之间的顺序，将每组视频子片段中的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频。

7.根据权利要求5所述的方法，其特征在于，所述标签编排方式中包括的标签为对不同行业商品的视频子片段进行聚类得到的聚类标签；所述根据标签编排方式，将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频，包括：

确定所述视频子片段的类别标签对应的聚类标签；

从所述候选多个视频子片段中选择至少一组视频子片段，每组视频子片段中包括对应的聚类标签不同的多个目标视频子片段，且所述多个目标视频子片段对应的多个聚类标签分别为标签编排方式中包括的多个标签；

8.根据权利要求5所述的方法，其特征在于，所述根据标签编排方式，将所述多个候选视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频之前，还包括：从预先定义的多个标签编排方式中选择合适的标签编排方式。

9.根据权利要求1所述的方法，其特征在于，所述将所述多个视频子片段中类别标签不同的多个目标视频子片段进行拼接处理，得到所述商品对象的短视频之后，还包括：

从由所述目标视频子片段中的音频数据转换成的口播文本中提取关键词，作为所述目标视频子片段的关键词；

根据所述目标视频子片段的关键词为所述短视频增加特效。

10.根据权利要求9所述的方法，其特征在于，所述根据所述目标视频子片段的关键词为所述短视频增加特效，包括：

根据所述目标视频子片段的关键词，确定对应的特效；

在所述目标视频子片段中口播所述关键词的时间范围内，添加与所述关键词对应的特效。

11.一种直播视频剪辑装置，其特征在于，包括：

确定模块，用于确定所述视频子片段的类别标签；

12.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被执行时，实现如权利要求1至10中任一项所述的方法。