CN112929744A

CN112929744A - 用于分割视频剪辑的方法、装置、设备、介质和程序产品

Info

Publication number: CN112929744A
Application number: CN202110090893.3A
Authority: CN
Inventors: 武莹彧; 廖玺举; 李远杭; 关云鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-06-08
Anticipated expiration: 2041-01-22
Also published as: CN112929744B

Abstract

根据本公开的示例实施例，提供了一种用于分割视频剪辑的方法、装置、设备、计算机可读存储介质和计算机程序产品。涉及人工智能领域，尤其涉及直播领域、视频处理和深度学习技术领域。根据一实施例的具体实现方案为：从第一视频剪辑确定图像数据和音频数据；确定表示音频数据的文本，文本包括按时间排序的多个语句元素，时间指示多个语句元素在第一视频剪辑中出现的时间范围；基于多个语句元素和与多个语句元素在时间上相对应的图像数据，确定第一视频剪辑中的、与多个语句元素相对应的多个视频片段的特征；基于多个视频片段的特征，对第一视频剪辑进行分割以获取多个第二视频剪辑。根据本公开的实施例，可以有效地分割视频，提升用户体验。

Description

用于分割视频剪辑的方法、装置、设备、介质和程序产品

技术领域

本公开涉及人工智能领域，具体涉及直播领域，并且更具体地，涉及用于分割视频剪辑的方法、装置、设备、计算机可读存储介质和计算机程序产品。

背景技术

伴随着互联网的普及和计算机技术的发展，人们对于知识的诉求正在不断提升，并且伴随着视频的发展，人们对于知识的获取方式也发生改变。越来越多的用户选择利用互联网视频进行学习。网络上的视频(例如泛知识直播视频)可以包含科学科普、社科人文、财经、校园学习、职业职场相关的知识点内容讲解，其中一个视频可以包括多个知识点。通常需要将一个长视频分割成关于每个知识点的小视频，以方便用户查找和观看。然而，人工手动操作剪辑需要一定的技术基础，且耗时较长。因此，需要一种针对视频的自动剪辑技术，以将持续数小时的视频自动裁剪为多段有吸引力的短视频片段，其中每段短视频包含一个相对独立完整的内容/知识点。

发明内容

根据本公开的示例实施例，提供了一种用于分割视频剪辑的方法、装置、设备、计算机可读存储介质和计算机程序产品。

在本公开的第一方面中，提供了一种用于分割视频剪辑的方法，包括：从第一视频剪辑确定图像数据和音频数据；确定表示音频数据的文本，文本包括按时间排序的多个语句元素，时间指示多个语句元素在第一视频剪辑中出现的时间范围；基于多个语句元素和与多个语句元素在时间上相对应的图像数据，确定第一视频剪辑中的、与多个语句元素相对应的多个视频片段的特征；基于多个视频片段的特征，对第一视频剪辑进行分割以获取多个第二视频剪辑。

在本公开的第二方面中，提供了一种用于分割视频剪辑的装置，包括：数据分离模块，被配置为从第一视频剪辑确定图像数据和音频数据；第一文本确定模块，被配置为确定表示音频数据的文本，文本包括按时间排序的多个语句元素，时间指示多个语句元素在第一视频剪辑中出现的时间范围；第一片段特征确定模块，被配置为基于多个语句元素和与多个语句元素在时间上相对应的图像数据，确定第一视频剪辑中的、与多个语句元素相对应的多个视频片段的特征；以及第一视频剪辑模块，被配置为基于多个视频片段的特征，对第一视频剪辑进行分割以获取多个第二视频剪辑。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第五方面中，提供了一种计算机程序产品，包括计算机程序指令，该计算机程序指令被处理器实现如本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素。附图用于更好地理解本方案，不构成对本公开的限定，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的用于分割视频剪辑的过程的示例的流程图；

图3示出了根据本公开的一些实施例的对视频的片段进行标识的示意图；

图4示出了根据本公开的实施例的用于分割视频剪辑的装置的示意框图；以及

图5示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例的描述中，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后基于训练得到的参数集对给定的输入进行处理以生成对应的输出。“模型”有时也可以被称为“神经网络”、“学习模型”、“学习网络”或“网络”。这些术语在本文中可互换地使用。

如以上提及的，需要一种将长视频自动裁剪为包括相对独立的知识点的小视频的解决方案。在传统方案中，通常将连续待分割视频的7帧特征输入边界感知网络，然后对该特征进行处理来分割视频。然而，上述传统方案只适用于场景转换特征明显的视频。该方案难以适用于没有明显的场景转换及音频特征变化的视频。

本公开的示例实施例提出了一种用于分割视频剪辑的方案。在该方案中，首先获取待分割视频剪辑的图像数据和音频数据。然后确定与音频数据相关的文本中的每个语句元素相对应的图像特征。接着将文本特征和图像特征融合以确定每个语句元素的特征。最后根据每个语句的特征对视频剪辑进行分割。根据本公开的实施例，通过语句元素的文本特征和图像特征的多模态特征融合，可以准确地确定每个语句的特征。通过句子级别的特征可以有效地识别视频剪辑中的各个小的视频剪辑的起止边界，从而可以自动、高效、准确地分割视频剪辑。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。应当理解，图1所示出的环境100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，环境100包括第一视频剪辑110、计算设备120以及第二视频剪辑130-1、130-2和130-3(下文可以被一起称为多个第二视频剪辑130)。这里虽然仅仅图示为将1个第一视频剪辑分割为3个第二视频剪辑，但数目仅仅是示例性的。还可以同时将多个第一视频剪辑分割为不同数目的第二视频剪辑，本公开在此不做限制。

第一视频剪辑110可以是任何格式的视频，包括但不限于、MPEG、AVI、nAVI、ASF、MOV、3GP、WMV、DivX、XviD、RM、RMVB、FLV/F4V格式的视频。第一视频剪辑110可以是任何类型的视频，例如新闻视频、综艺节目视频、泛知识视频等。在下文中，以泛知识视频为示例进行说明，但这不旨在于限制。泛知识视频是将观看者与创作者分离的一种教学视频。通常采取远程终端传输的方式进行直播或将录制好的视频、音频或影像资料提供给观看者，而不再受到时间和空间限制。一个泛知识视频中可以例如包括多个知识点，其中按视频的时间顺序分别包括对多个知识点进行讲解的小视频。

第一视频剪辑110可以包括语句元素1-10，其中语句元素可以为视频的音频中的每句话。例如语句元素1-3与知识点A相关，语句元素5-7与知识点B相关，语句元素9-10与知识点C相关。计算设备120可以根据语句元素的特征对第一视频剪辑110进行分割，以得到分别与知识点A、B、C相关联的多个第二视频剪辑130。详细过程将参考图2在下文进行描述。请注意，上述语句元素的数目仅仅是示例性的，并且以知识点作为分割视频的标准也是示例性的。还可以存在不同数目的语句元素，并且以不同的分割标准，例如视频中的不同的节目类型、不同的主持人等进行分割，本公开在此不做限制。

计算设备120可以是任何具有计算能力的设备。作为非限制性示例，计算设备120可以是任意类型的固定计算设备、移动计算设备或便携式计算设备，包括但不限于台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、多媒体计算机、移动电话等；计算设备120的全部组件或一部分组件可以分布在云端。计算设备120至少包含处理器、存储器以及其他通常存在于通用计算机中的组件，以便实现计算、存储、通信、控制等功能。

在一些实施例中，计算设备120中可以包括各种预先训练好的神经网络模型。例如本文中的空白/停顿标注模型、语义特征确定模型、图像特征提取模型、序列标注模型等。上述模型可以用于对第一视频中的语句元素进行识别、处理和标识，将在下文结合图2至图3进行详细描述。

备选地，在一些实施例中，计算设备120还可以选取合适的初始模型进行训练以获取上述模型。初始训练模型包括但不限于支持向量机(SVM)模型，贝叶斯模型，随机森林模型，各种深度学习/神经网络模型，诸如卷积神经网络(CNN)、循环神经网络(RNN)等。

图2示出了根据本公开的一些实施例的用于分割视频剪辑的过程200的示例的流程图。过程200可以由计算设备120来实现。

在210，计算设备120从第一视频剪辑110确定图像数据和音频数据。例如，第一视频剪辑110可以泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的不同类型格种类的视频。视频数据可以包括音频数据、视频图像数据、文本数据(如字幕)等等。其中，连续的图像(即视频图像数据)变化每秒超过24帧(frame)画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果。第一视频剪辑110通常为视频流，里面包含了多个段落，例如，在一个完整的泛知识视频中，通常包括与多个知识点相关的多个视频剪辑。

在一些实施例中，计算设备120可以对第一视频剪辑110的视频信号进行转码，以生成预定格式的视频流数据。然后，计算设备120可以对视频流数据进行分流，以获取图像数据和音频数据。还可以应用其他合适的技术从第一视频剪辑110确定图像数据和音频数据，本公开对此不做限制。

在220，计算设备120确定表示音频数据的文本。例如，计算设备120可以将音频数据转换为文本。文本包括按时间排序的多个语句元素1-10，时间指示多个语句元素1-10在第一视频剪辑110中出现的时间范围。

在一个示例中，计算设备120可以首先将上述确定的音频数据按第一视频剪辑110时间顺序分割为多个音频数据。例如将130分钟的音频数据按0-30分钟、30-60分钟、60-90分钟、90-120分钟以及120-130分钟进行分割。然后，计算设备120可以应用自动语音识别技术(ASR)以获取上述分割的音频数据相对应的ASR文本。最后合并各段ASR文本得到与完整的第一视频剪辑110所对应的ASR文本。请注意，上述按30分钟进行分割仅仅是示例性的，还可以按视频的时间长度选择合适的时间进行分割，本公开在此不做限制。通过在音频转换文本前对音频数据进行分割，可以提高文本转换时的准确度，以便于后续的视频分割。

在一些实施例中，在将所述音频数据转换为文本数据之后，计算设备120可以进一步地对文本数据中的停顿信息进行标注，以及基于经标注的文本数据，确定表示音频数据的文本。例如，可以通过经训练的空白/停顿模型对文本数据进行标注。可以通过如下方式获得空白/停顿模型：通过人工标注的视频片段和非视频片段中包含的停顿的时间间隔分布，针对停顿部分的ASR句子采取了添加特殊字符‘$’的策略，即在非视频片段的停顿处添加较多字符，在视频片段的停顿处添加较少的字符，使模型能区分出片段/非片段的停顿间隔来训练模型。对文本数据进行空白/停顿的优点在于，能够更加容易地识别出与不同知识点相关联的视频剪辑的起止边界，同时能有效避免分割后的视频剪辑中包含较长时间的空白/停顿。

备选地，在一些实施例中，还可以首先对音频数据进行处理以移除其中的空白或者停顿的片段，之后再进行音频文本数据转换。

从音频数据获取的文本中可以包括多个语句元素1-10，语句元素可以指视频的演播者的讲解内容中的每个自然语句。在文本中，语句元素1-10按照在第一视频剪辑110中出现的顺序在时间被排序，例如语句元素1对应于0s-6s的时间范围，例如语句元素2对应于7s-10s的时间范围…。

在230，计算设备120基于多个语句元素1-10和与多个语句元素1-10在时间上相对应的图像数据，确定第一视频剪辑110中的、与多个语句元素1-10相对应的多个视频片段的特征。例如，第一视频剪辑110一般由图像、音频、文本等元素组成，想要较为准确地理解、截取视频内容，需要将这些不同模态的信息融合起来应用于模型中来获得更好的分割效果。

在一些实施例中，计算设备120可以首先确定多个语句元素1-10的第一特征。然后，计算设备120可以确定第一视频剪辑110中的、多个语句元素1-10所在的图像帧的第二特征。最后计算设备120可以对第一特征和第二特征进行组合，生成所述视频片段的特征。

计算设备120首先可以对上述获取的文本应用语义特征确定模型，以获取多个语句元素1-10的第一特征。例如，计算设备130可以将抽取处理好的ASR文本经过BERT模型抽取语义特征，提取BERT的倒数第二层的向量作为ASR文本表示向量。BERT是基于转换器的深度双向语言表征模型，其本质上是利用转换器结构构造了一个多层双向的编码器网络。BERT是一种通过海量通用文本语料训练的语言模型。还可以应用其他模型来确定语句元素的特征，本公开在此不做限制。

然后，计算设备120可以确定每个语句元素所在的图像帧，然后将该图像帧输入图像特征提取模型以确定多个图像帧的特征。例如，可以将图像帧的尺寸调整到224*224，并对其进行归一化处理，然后经由ResNet50提取图片特征。在训练图像特征提取模型时，也可以对图像帧进行上述处理，然后直接存储成向量来训练模型。由此，可以提升图像的加载速度以及模型的训练速度。

最后，计算设备可以将上述获得的语句元素特征和图像帧特征进行特征拼接(concatenate)来获取表示包括相应的语句元素的视频片段的特征。通过将图像特征和ASR文本特征进行融合，可以更准确地表示视频片段的特征，以便于更准确、更高效地分割视频。

备选地，在一些实施例中，计算设备120也可以直接将与第一视频剪辑110中的每条字幕相对应的视频内容输入到端对端模型中，以获取与每条字幕相对应的特征以供后续视频分割使用。

在240，计算设备120基于多个视频片段的特征，对第一视频剪辑110进行分割以获取多个第二视频剪辑130。例如，计算设备120可以对上述特征进行分类，根据分类结果确定的各第二视频剪辑的止点间来进行分割。

在一些实施例中，计算设备120将多个视频片段的特征分类为片段特征和非片段特征。然后基于与被分类为片段特征的视频片段相对应的语句元素的时间范围，对第一视频剪辑110进行分割，以获取所述多个第二视频剪辑130。

例如，计算设备120将上述获取的视频片段的特征按照顺序输入序列标注模型，对序列中的每个元素(即每个语句元素所对应的视频片段的特征)根据上下文分类为片段特征和非片段特征。然后确定片段特征的所对应的时间范围，最后根据时间范围对第一视频剪辑110进行分割。将在图3详细描述序列标注模型的训练和使用的一个示例。

计算设备120可以将模型确定出的多个第二视频剪辑130的起止点间的序列进行聚合，将图像帧和语音文本帧与第一视频剪辑110对齐并进行剪辑。最终将第一视频剪辑110自动剪辑成多个1至12分钟的独立完整知识点片段，供后续作者分享发布及用户搜索观看。

在计算设备120完成对第一视频剪辑110的分割之后，计算设备120还会检测经分割的相邻的视频剪辑是否属于同一知识点，也即是否被误分割为两个视频剪辑。

在一个实施例中，计算设备120获取多个第二视频剪辑130中的、在时间上相邻的第三视频剪辑和第四视频剪辑。然后确定第三视频剪辑的第三特征和第四视频剪辑的第四特征。最后如果确定第三特征和第四特征之间的匹配度大于阈值匹配度，将第三视频剪辑和第四视频剪辑合并。例如，计算设备120可以将第三视频剪辑的最后一帧的特征确定为第三视频剪辑的特征，将第四视频剪辑的第一帧的特征确定为第四视频剪辑的特征。然后确定特征间的匹配度，如果该匹配度大于阈值，则将第三视频剪辑和第四视频剪辑合并为同一视频剪辑。通过在分割后进一步确定相邻视频的特征的匹配度，可以防止错误地将本该属于一个知识点的视频剪辑分割为不同的两个视频剪辑，从而进一步增加视频分割的准确性。

根据本公开提出的用于分割视频剪辑的方法，通过语句元素的文本特征和图像特征的多模态特征融合，可以准确地确定每个语句的特征。通过句子级别的特征可以有效地识别视频剪辑中的各个小的视频剪辑的起止边界，从而可以自动、高效、准确地分割视频剪辑。此外，将冗长视频切分成细小知识点片段，可提升视频推荐准确度。进一步地，通过应用该视频分割技术，能大大提高短视频创作的便捷性，吸引更多作者进行创作，吸引更多用户进行观看，增加用户体验和粘性。

图3示出了根据本公开的一些实施例的对视频的片段进行标识的示意图300。

计算设备120可以将表示语句元素1-10所对应的视频片段的特征向量经过Bi-LSTM+CRF序列标注模型进行句子级别的序列标注。例如，本公开使用双向长短期记忆网络LSTM加条件随机场CRF的方式解决图像和文本序列标注的问题，其中标注序列为整段长视频，标注元素为序列中的语句元素。可以使用BIO标注模式，其中“B”表示片段开始，“I”表示在片段中，“O”表示不属于片段的内容。CRF层可以加入一些约束来保证最终的预测结果是有效的。这些约束可以在训练数据时被CRF层自动学习得到。有了这些有用的约束，错误的预测序列会大大减小。

在一些实施例中，可以将一批泛知识直播视频作为训练样本对上述标注模型进行训练。可以人工标注视频中所包含的各知识点片段的准确起止时间点，将上述样本的90％作为训练集训练网络，10％作为测试集验证网络的性能。由于Bi-LSTM拟合能力较强，导致CRF层存在训练不充分的问题。实验发现，适当增加CRF层的学习率会使模型效果提升。因此，我们将模型主体学习率设置为10^-4，CRF层学习率设置为主体学习率的3倍。此外，为了提升训练样本数量、改善模型稳定性和鲁棒性，在构建数据集时可以对文本和图像序列采取了滑窗策略来扩充样本，实现数据增强。

图4示出了根据本公开的实施例的用于分割视频剪辑的装置400的示意框图。如图4所示，装置400包括：数据分离模块410，被配置为从第一视频剪辑确定图像数据和音频数据；第一文本确定模块420，被配置为确定表示音频数据的文本，文本包括按时间排序的多个语句元素，时间指示多个语句元素在第一视频剪辑中出现的时间范围；第一片段特征确定模块430，被配置为基于多个语句元素和与多个语句元素在时间上相对应的图像数据，确定第一视频剪辑中的、与多个语句元素相对应的多个视频片段的特征；以及第一视频剪辑模块440，被配置为基于多个视频片段的特征，对第一视频剪辑进行分割以获取多个第二视频剪辑。

在一些实施例中，第一片段特征确定模块430可以包括：语句特征确定模块，被配置为确定多个语句元素的第一特征；图像特征确定模块，被配置为确定第一视频剪辑中的、多个语句元素所在的图像帧的第二特征；特征组合模块，被配置为对第一特征和第二特征进行组合，生成视频片段的特征。

在一些实施例中，第一视频剪辑模块440可以包括：特征分类模块，被配置为将多个视频片段的特征分类为片段特征和非片段特征；第二视频剪辑模块，被配置为基于与被分类为片段特征的视频片段相对应的语句元素的时间范围，对第一视频剪辑进行分割，以获取多个第二视频剪辑。

在一些实施例中，装置400还可以包括：视频剪辑获取模块，被配置为获取多个第二视频剪辑中的、在时间上相邻的第三视频剪辑和第四视频剪辑；视频剪辑特征确定模块，被配置为确定第三视频剪辑的第三特征和第四视频剪辑的第四特征；以及视频剪辑组合模块，被配置为如果确定第三特征和第四特征之间的匹配度大于阈值匹配度，将第三视频剪辑和第四视频剪辑合并。

在一些实施例中，第一文本确定模块420可以包括：数据转换模块，被配置为将音频数据转换为文本数据；停顿标注模块，被配置为对文本数据中的停顿信息进行标注；以及第二文本确定模块，被配置为基于经标注的文本数据，确定表示音频数据的文本。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如过程200和300。例如，在一些实施例中，过程200和300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的过程200和300的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200和300。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于分割视频剪辑的方法，包括：

从第一视频剪辑确定图像数据和音频数据；

确定表示所述音频数据的文本，所述文本包括按时间排序的多个语句元素，所述时间指示所述多个语句元素在所述第一视频剪辑中出现的时间范围；

基于所述多个语句元素和与所述多个语句元素在时间上相对应的图像数据，确定所述第一视频剪辑中的、与所述多个语句元素相对应的多个视频片段的特征；以及

基于多个视频片段的特征，对所述第一视频剪辑进行分割以获取多个第二视频剪辑。

2.根据权利要求1所述的方法，其中基于所述多个语句元素和与所述多个语句元素相对应的图像数据，确定所述第一视频剪辑中的、与所述多个语句元素相对应的多个视频片段的特征包括：

确定多个语句元素的第一特征；

确定所述第一视频剪辑中的、所述多个语句元素所在的图像帧的第二特征；以及

对所述第一特征和所述第二特征进行组合，生成所述视频片段的特征。

3.根据权利要求1所述的方法，其中基于多个视频片段的特征，对所述第一视频剪辑进行分割以获取多个第二视频剪辑包括：

将所述多个视频片段的特征分类为片段特征和非片段特征；以及

基于与被分类为片段特征的视频片段相对应的语句元素的时间范围，对所述第一视频剪辑进行分割，以获取所述多个第二视频剪辑。

4.根据权利要求1所述的方法，还包括：

获取所述多个第二视频剪辑中的、在时间上相邻的第三视频剪辑和第四视频剪辑；

确定所述第三视频剪辑的第三特征和所述第四视频剪辑的第四特征；以及

如果确定所述第三特征和所述第四特征之间的匹配度大于阈值匹配度，将所述第三视频剪辑和所述第四视频剪辑合并。

5.根据权利要求1所述的方法，其中确定表示所述音频数据的文本包括：

将所述音频数据转换为文本数据；

对所述文本数据中的停顿信息进行标注；以及

基于经标注的文本数据，确定表示所述音频数据的文本。

6.一种用于分割视频剪辑的装置，包括：

数据分离模块，被配置为从第一视频剪辑确定图像数据和音频数据；

第一文本确定模块，被配置为确定表示所述音频数据的文本，所述文本包括按时间排序的多个语句元素，所述时间指示所述多个语句元素在所述第一视频剪辑中出现的时间范围；

第一片段特征确定模块，被配置为基于所述多个语句元素和与所述多个语句元素在时间上相对应的图像数据，确定所述第一视频剪辑中的、与所述多个语句元素相对应的多个视频片段的特征；以及

第一视频剪辑模块，被配置为基于多个视频片段的特征，对所述第一视频剪辑进行分割以获取多个第二视频剪辑。

7.根据权利要求6所述的装置，其中所述第一片段特征确定模块包括：

语句特征确定模块，被配置为确定多个语句元素的第一特征；

图像特征确定模块，被配置为确定所述第一视频剪辑中的、所述多个语句元素所在的图像帧的第二特征；以及

特征组合模块，被配置为对所述第一特征和所述第二特征进行组合，生成所述视频片段的特征。

8.根据权利要求6所述的装置，其中所述第一视频剪辑模块包括：

特征分类模块，被配置为将所述多个视频片段的特征分类为片段特征和非片段特征；以及

第二视频剪辑模块，被配置为基于与被分类为片段特征的视频片段相对应的语句元素的时间范围，对所述第一视频剪辑进行分割，以获取所述多个第二视频剪辑。

9.根据权利要求6所述的装置，还包括：

视频剪辑获取模块，被配置为获取所述多个第二视频剪辑中的、在时间上相邻的第三视频剪辑和第四视频剪辑；

视频剪辑特征确定模块，被配置为确定所述第三视频剪辑的第三特征和所述第四视频剪辑的第四特征；以及

视频剪辑组合模块，被配置为如果确定所述第三特征和所述第四特征之间的匹配度大于阈值匹配度，将所述第三视频剪辑和所述第四视频剪辑合并。

10.根据权利要求6所述的装置，其中所述文本确定模块包括：

数据转换模块，被配置为将所述音频数据转换为文本数据；

停顿标注模块，被配置为对所述文本数据中的停顿信息进行标注；以及

第二文本确定模块，被配置为基于经标注的文本数据，确定表示所述音频数据的文本。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。