CN113766314B

CN113766314B - 视频切分方法、装置、设备、系统及存储介质

Info

Publication number: CN113766314B
Application number: CN202111317971.5A
Authority: CN
Inventors: 刘宏宇; 马先钦; 张佳旭; 王璋盛; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-03-04
Anticipated expiration: 2041-11-09
Also published as: CN113766314A

Abstract

本公开涉及一种视频切分方法、装置、设备、系统及存储介质，该方法包括：获取目标视频的视频特征数据，视频特征数据包括音频数据、字幕数据和镜头数据；对音频数据进行切分，得到多个音频数据片段；基于镜头数据对字幕数据进行切分，得到多个字幕子数据；基于音频数据片段和字幕子数据对目标视频进行切分，得到多个视频片段。根据本公开实施例，实现了能够准确的切分目标视频，以进一步使得用户通过浏览目标视频切分后的视频片段，从目标视频中快速获取准确的信息，以准确且快速的浏览目标视频中所包含的信息。

Description

视频切分方法、装置、设备、系统及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频切分方法、装置、设备、系统及存储介质。

背景技术

随着数字媒体技术的高速发展，各种各样的视频急剧增加，例如，新闻视频、综艺视频、以及影音视频等。

为了使用户快速浏览视频中所包含的信息，需要对视频进行切分。但是，目前的视频切分方法只基于单一视频特征进行视频切分，视频切分的准确性较低，因此，不能使用户从视频中快速获取准确的信息。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种视频切分方法、装置、设备、系统及存储介质。

第一方面，本公开提供了一种视频切分方法，该方法包括：

获取目标视频的视频特征数据，视频特征数据包括音频数据、字幕数据和镜头数据，镜头数据基于镜头边缘检测技术切分得到；

对音频数据进行切分，得到多个音频数据片段；

基于镜头数据对所述字幕数据进行切分，得到多个字幕子数据；

基于音频数据片段和字幕子数据对目标视频进行切分，得到多个视频片段。

第二方面，本公开提供了一种视频切分装置，该装置包括：

视频特征数据获取模块，用于获取目标视频的视频特征数据，视频特征数据包括音频数据、字幕数据和镜头数据，镜头数据基于镜头边缘检测技术切分得到；

音频数据切分模块，用于对音频数据进行切分，得到多个音频数据片段；

字幕数据切分模块，用于基于镜头数据对所述字幕数据进行切分，得到多个字幕子数据；

目标视频切分模块，用于基于音频数据片段和字幕子数据对所述目标视频进行切分，得到多个视频片段。

第三方面，本公开实施例还提供了一种视频切分设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现第一方面所提供的视频切分方法。

第四方面，本公开实施例还提供了一种视频切分系统，该系统包括：视频切分设备和显示设备；

视频切分设备，用于获取目标视频的视频特征数据，视频特征数据包括音频数据、字幕数据和镜头数据，镜头数据基于镜头边缘检测技术切分得到；

对音频数据进行切分，得到多个音频数据片段；

基于镜头数据对字幕数据进行切分，得到多个字幕子数据；

基于音频数据片段和字幕子数据对目标视频进行切分，得到多个视频片段；

显示设备，用于接收视频片段显示操作；

响应于视频片段显示操作，显示视频片段显示操作对应的视频片段。

第五方面，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面所提供的视频切分方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例的一种视频切分方法、装置、设备、系统及存储介质，能够获取目标视频的包括音频数据、字幕数据和镜头数据等视频特征数据，镜头数据基于镜头边缘检测技术切分得到，使得可以获取到目标视频的多模态的视频特征数据，对音频数据进行切分，得到多个音频数据片段，然后基于镜头数据对字幕数据进行切分，得到多个字幕子数据，由此，可以基于多模态的视频特征数据，并分别对视频特征数据中的音频数据，以及利用镜头数据切分字幕数据，进一步基于音频数据片段和字幕子数据切分目标视频，使得将获取到的多模态的视频特征数据融合后切分目标视频，因此，能够准确的切分目标视频，以进一步使得用户通过浏览目标视频切分后的视频片段，从目标视频中快速获取准确的信息，以准确且快速的浏览目标视频中所包含的信息。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种视频切分方法的流程示意图；

图2为本公开实施例提供的一种视频切分方法的整体流程示意图；

图3为本公开实施例提供的另一种视频切分方法的流程示意图；

图4为本公开实施例提供的一种对两个相邻的视频片段进行合并的流程示意图；

图5为本公开实施例提供的另一种视频切分方法的整体流程示意图；

图6为本公开实施例提供的一种视频切分装置的结构示意图；

图7为本公开实施例提供的一种视频切分设备的结构示意图；

图8为本公开实施例提供的一种视频切分系统的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

随着数字媒体技术的高速发展，各种各样的视频急剧增加，例如，新闻视频、综艺视频、短视频、以及影音视频等。

为了使用户快速浏览视频中所包含的信息，需要对视频进行切分。目前的视频切分方法一般基于目标视频的音频特征、视频特征以及文本特征中的单一特征进行视频切分。

例如，新闻视频是一种典型的视频类型,与其它视频类型相比，新闻视频由一系列新闻故事构成，结构特征比较明显，准确对新闻故事进行探测与切分可以使得用户对新闻视频的自动检索与语义理解产生重要作用，并使用户在更高语义层次上快速浏览一段新闻节目中包含的信息。

以切分新闻视频为例，从新闻视频中选取演播室场景与主持人同在的场景作为切分特征，该切分特征相当于新闻场景的视频特征，以基于该切分特征识别新闻视频中的切分点，并进一步基于识别得到的切分点，切分新闻视频。

但是，针对上述切分方式，发明人发现，只基于单一视频特征进行视频切分的方式准确性较低，因此，不能使用户从视频中快速获取准确的信息。

为了提高目标视频的切分准确性和稳定性，目前的视频切分方法还利用目标视频的音频特征、视频特征以及文本特征中的两种或三种特征进行视频切分。

再次以切分新闻视频为例，将新闻视频分割成音频流和视频流，然后利用时间轴融合音频候选点、视频候选点、主持人镜头和主题字幕，对新闻视频进行故事单元分割，以实现对新闻视频进行切分。

但是，针对上述切分方式，这种切分方式本质上利用主题字幕帧和主持人镜头对新闻故事单元进行分割，因此，导致没有实现音频等模态特征与视觉特征的有效融合；另外，新闻视频并不完全按照主持人镜头、新闻故事内容的叙事结构来组织，如无播音员新闻和多标题新闻，这类新闻不以播音员镜头开始，而是直接播放新闻详细内容，并且同一新闻包含多个新闻标题，导致基于播音员镜头的新闻视频切分在特殊情况下无法实现理想效果。

基于上述研究，发明人发现，在进行新闻视频自动切分过程中，最重要的是新闻视频的层次结构利用以及音频、视频、文本等跨模态特征之间的融合，现有的基于多特征融合的新闻视频分割技术在实现新闻自动切分的过程中，并没有考虑音频文本中特有的转场词特征、视频的场景转换特征以及相同新闻事件片段的关键词特征，而是直接利用音频流中的静音区间和视频流中的镜头边界切换点，进行新闻视频分割。

为了解决上述问题，本公开实施例提供了一种能够提高目标视频的切分准确性的视频切分方法、设备及存储介质。

下面，首先结合图1至图5对本公开实施例提供的视频切分方法进行说明。

图1示出了本公开实施例提供的一种视频切分方法的流程示意图。

在本公开一些实施例中，图1所示的视频切分方法可以由视频切分设备设备执行。视频切分设备可以是电子设备或服务器。该电子设备可以包括但不限于诸如智能手机、笔记本电脑、个人数字助理（PDA）、平板电脑（PAD）、便携式多媒体播放器（PMP）、车载终端（例如车载导航终端）、可穿戴设备等的移动终端，以及诸如数字TV、台式计算机、智能家居设备等的固定终端。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。

如图1所示，该视频切分方法可以包括如下步骤。

S110、获取目标视频的视频特征数据，视频特征数据包括音频数据、字幕数据和镜头数据。

在本公开实施例中，视频切分设备获取到目标视频之后，可以对目标视频进行特征识别，以获取目标视频的音频数据、字幕数据和镜头数据，并将识别得到的音频数据、字幕数据和镜头数据作为视频特征数据。

在本公开实施例中，目标视频可以是任意的需要进行切分的新闻视频。

在本公开实施例中，镜头数据基于镜头边缘检测技术切分得到。

具体的，视频切分设备获取到目标视频之后，可以对目标视频进行数据分离，使得将目标视频拆分为音频数据和视频数据，并对视频数据进行字幕识别，得到字幕数据，并且，可以通过镜头边缘检测技术，从目标视频中提取视觉模态信息，将视觉模态信息作为镜头数据，且将镜头数据作为视频切分的最小单元。

在本公开实施例中，音频数据可以包括目标视频的所有音频帧的音频信息。

在本公开实施例中，字幕数据可以包括目标视频的所有视频帧的字幕信息。

在本公开实施例中，镜头数据可以包括目标视频的所有镜头场景的视频特征。

可选的，对目标视频进行数据分离可以通过如下方式实现：

audio,video=data_separate(raw_video)

其中，audio为将目标视频拆分得到的音频数据，video为将目标视频拆分得到的视频数据，raw_video为目标视频，data_separate（*）为数据分离过程。

可选的，对目标视频进行镜头边缘检测可以通过如下方式实现：

shot_res=shot_detetec(video)

其中，shot_res为镜头数据，shot_detetec（*）为镜头边缘检测过程。

在本公开实施例中，可以基于文字识别技术识别视频数据中的字幕数据，并去除视频数据中与视频场景无关区域的信息。

可选的，文字识别技术可以是光学字符识别技术（Optical CharacterRecognition，OCR），在此不做限制。

由此，在本公开实施例中，可以获取目标视频的音频数据、字幕数据和镜头数据，即得到目标视频的多模态数据，以进一步基于多模态数据对目标视频进行切分。

S120、对音频数据进行切分，得到多个音频数据片段。

在本公开实施例中，视频切分设备获取到目标视频的音频数据之后，可以对音频数据所包含的音频内容进行识别，以识别出目标音频内容，基于目标音频内容对音频数据进行切分，得到多个音频数据片段。

其中，目标音频内容可以是音频数据中的用于切分目标视频的音频内容。

可选的，目标音频内容可以包括纯音乐音频、无意义音频、转场音频等，在此不做限制。

在本公开实施例中，每个音频数据片段均对应切分起止时间戳。

由此，在本公开实施例中，可以对视频特征数据中的音频数据进行切分，以得到多个音频数据片段。

S130、基于镜头数据对字幕数据进行切分，得到多个字幕子数据。

在本公开实施例中，视频切分设备获取到目标视频的字幕数据和镜头数据之后，可以基于字幕数据对镜头数据进行切分，以得到多个字幕子数据。

在本公开实施例中，字幕数据可以用于表征目标视频中的语义信息，可以用于对目标视频所表达的事件、情节以及情感等进行高级语义标注，对目标视频进行视频内容分析和理解具有重要作用。对于目标视频，固定位置的字幕数据可以直接表达目标视频的中心思想，且一个视频场景通常具有相同的字幕数据，如果同一个字幕数据连续多帧出现，可以有效利用字幕数据对于实现目标视频自动切分具有重要意义。此外，镜头表达了由一个摄像机镜头连续拍摄的一组内在相关的连续帧，表现了时空上连续的一组运动，可以作为最小切分单元不可分割。

具体的，视频切分设备获取到镜头数据和字幕数据之后，如果相同的字幕数据出现在相同的镜头场景中，将对应同一个镜头场景的字幕数据进行合并，使得同一个镜头场景的字幕数据合并到一起，并使得不同镜头场景的字幕数据分离，因此，可以实现基于镜头数据，对字幕数据进行切分，得到多个镜头场景对应的字幕子数据。

以目标视频为新闻视频为例，视频切分设备获取所有视频帧的字幕数据和所有镜头场景对应的镜头数据，如果字幕数据对应20帧视频图像，如果第1帧视频图像至第4帧视频图像的字幕是“举重字幕”、第4帧视频图像至第10帧视频图像的字幕是“跳水字幕”，第10帧视频图像至第20帧视频图像的字幕也是“跳水字幕”，目标视频的镜头数据所对应的镜头场景包括举重比赛场景和跳水比赛场景，则可以将该跳水比赛场景对应的镜头数据与第4帧视频图像至第10帧视频图像的字幕数据与第10帧视频图像至第20帧视频图像的字幕数据进行合并，使得跳水比赛场景的字幕数据合并到一起，并使举重比赛场景的字幕数据与跳水比赛场景的字幕数据分离，则得到目标视频的两个字幕子数据。

由此，在本公开实施例中，可以利用镜头数据，对字幕数据进行切分，得到多个字幕子数据；对于存在镜头切换、场景切换、新闻片段转场、主持人话语转场的复杂的新闻视频，由于镜头数据划分的粒度较细，可以基于镜头数据对字幕数据进行准确的切分。

S140、基于音频数据片段和字幕子数据对目标视频进行切分，得到多个视频片段。

在本公开实施例中，视频切分设备得到多个音频数据片段和多个字幕子数据之后，可以利用多个音频数据片段和多个字幕子数据对目标视频进行切分，使得将目标视频切分为多个视频片段。

其中，视频片段可以是基于音频数据、字幕数据和镜头数据对目标视频进行切分得到的一个视频帧或者连续多个视频帧。

具体的，视频切分设备可以基于音频数据片段对应的起止时间戳对目标视频进行初步切分，再根据字幕子数据对应的起止时间戳对初步切分得到的视频片段进行二次切分，使得将目标视频切分为多个视频片段。

在本公开实施例中，能够获取目标视频的包括音频数据、字幕数据和镜头数据的视频特征数据，使得可以获取到目标视频的多模态等视频特征数据，对音频数据进行切分，得到多个音频数据片段，然后基于镜头数据对字幕数据进行切分，得到多个字幕子数据，由此，可以基于多模态的视频特征数据，并分别对视频特征数据中的音频数据，以及利用镜头数据切分字幕数据，进一步基于音频数据片段和字幕子数据切分目标视频，使得将获取到的多模态的视频特征数据融合后切分目标视频，因此，能够准确的切分目标视频，以进一步使得用户通过浏览目标视频切分后的视频片段，从目标视频中快速获取准确的信息，以准确且快速的浏览目标视频中所包含的信息。

在本公开另一种实施方式中，可以基于音频数据中的空白数据或者转场数据，对音频数据进行切分，得到多个音频数据片段。

在本公开一些实施例中，可以基于音频数据中的空白数据，对音频数据进行切分，得到多个音频数据片段。

在本公开实施例中，可选的，S120可以包括：

S1201、将音频数据中的纯音乐部分和无意义部分替换为空白数据，得到替换后的音频数据；

S1202、基于空白数据，对替换后的音频数据进行切分，得到多个音频数据片段。

在本公开实施例中，视频切分设备获取到音频数据之后，可以识别音频数据中的纯音乐部分和无意义部分，然后将音频数据中的纯音乐部分和无意义部分替换为空白数据，得到替换后的音频数据，以进一步基于空白数据，对替换后的音频数据进行切分，得到多个音频数据片段。

其中，纯音乐部分可以是音频数据中未讲述目标视频的任何内容的音频片段。

其中，无意义部分可以是音频数据中的与目标视频的主要内容不相关的音频片段。

可选的，无意义部分可以包括停顿内容、与目标视频的主要内容不相关的非停顿内容以及静音部分。

可选的，停顿内容可以包括停顿词。例如，“嗯嗯嗯”、“哦哦哦”、等，在此不做限制。

在一个示例中，目标视频为新闻视频，音频数据包括第1帧音频至第20帧音频，其中，第6帧音频至第9帧音频只包括纯音乐，则第6帧音频至第9帧音频为纯音乐部分，第12帧音频至第13帧音频无声音，则第12帧音频至第13帧音频为静音部分，第15帧音频至第18帧音频包括天气预报信息，则第15帧音频至第18帧音频的内容与目标视频的主要内容不相关，因此，可以将第6帧音频至第9帧音频、第12帧音频至第13帧音频以及第15帧音频至第18帧音频替换为空白数据，使得第6帧音频至第9帧音频、第12帧音频至第13帧音频以及第15帧音频至第18帧音频不包括任何内容，以进一步基于空白数据，对替换后的音频数据进行切分，得到多个音频数据片段。

在另一个示例中，目标视频为综艺视频，音频数据包括第1帧音频至第20帧音频，第6帧音频至第9帧音频只包括纯音乐，则第6帧音频至第9帧音频为纯音乐部分，第12帧音频至第13帧音频无声音，则第12帧音频至第13帧音频为静音部分，第15帧音频至第18帧音频包括广告信息，则第15帧音频至第18帧音频的内容与目标视频的主要内容不相关，因此，可以将第6帧音频至第9帧音频、第12帧音频至第13帧音频以及第15帧音频至第18帧音频替换为空白数据，使得第6帧音频至第9帧音频、第12帧音频至第13帧音频以及第15帧音频至第18帧音频不包括任何内容，以进一步基于空白数据，对替换后的音频数据进行切分，得到多个音频数据片段。

由此，在本公开实施例中，可以将音频数据中的纯音乐部分和无意义部分替换为空白数据，并基于空白数据准确的切分替换后的音频数据。

在本公开另一些实施例中，可以基于预先训练好的转场语句识别模型，识别音频数据中的转场数据，以进一步基于转场数据，对音频数据进行切分，得到多个音频数据片段。

在本公开实施例中，可选的，S120可以包括：

S1203、将音频数据输入预先训练好的转场语句识别模型，得到转场语句识别模型输出的转场数据；

S1204、基于转场数据，对音频数据进行切分，得到多个音频数据片段。

在本公开实施例中，视频切分设备获取到音频数据之后，可以将音频数据输入至预先训练好的转场语句识别模型，以利用转场语句识别模型识别转场数据，以进一步利用转场数据切分音频数据，得到多个音频数据片段。

其中，转场语句识别模型可以是用于识别转场数据的模型。具体的，转场语句识别模型可以基于样本转场数据、样本非转场数据以及样本音频数据对初始模型训练得到。

可选的，转场语句识别模型可以是基于卷积神经网络训练得到的二分类器，在此不做限制。

其中，转场数据可以是目标视频中用于衔接不同讲述内容的转场语句对应的音频数据。

例如，可以将“接下来我们要关注”、“接下来我们再来说说”等转场语句对应的音频数据作为转场数据。

具体的，视频切分设备可以获取第一预设数量的样本转场数据，将第一预设数量的样本转场数据输入至预先训练好的相似语句生成模型中，得到第二预设数量的转场数据的相似数据，将第一预设数量的样本转场数据和第二预设数量的转场数据的相似数据作为样本转场数据，并且，可以提取第三预设数量的样本非转场数据以及样本音频数据，并基于样本转场数据、样本非转场数据以及样本音频数据对初始网络进行迭代训练，得到训练好的转场语句识别模型。

其中，第一预设数量、第二预设数量以及第三预设数量可以是根据需要预先设置的样本数量。

其中，相似语句生成模型可以是用于生成相似语句的模型。可选的，相似语句生成模型可以为新伯特（simbert）模型，在此不做限制。

在一些实施例中，视频切分设备可以将音频数据直接输入至预先训练好的转场语句识别模型，得到转场语句识别模型输出的转场数据。

在另一些实施例中，可以将音频数据中的纯音乐部分和无意义部分替换为空白数据，得到替换后的音频数据，再基于空白数据对替换后音频数据进行切分，得到多个音频数据片段，然后再将多个音频片段输入至预先训练好的转场语句识别模型，得到转场语句识别模型输出的转场数据。

在一个示例中，目标视频为新闻视频，音频数据包括第1帧音频至第20帧音频，第1帧音频至第9帧音频讲述的主要内容是跳水场景，第9帧音频至第12帧音频包括“接下来我们再看看比赛结果”的语句对应的音频数据，将第9帧音频至第12帧音频中的语句对应的音频数据作为转场数据，第12帧音频至第20帧音频讲述的主要内容是跳水颁奖场景，则将音频数据输入至转场语句识别模型之后，转场语句识别模型可以识别出第9帧音频至第12帧音频的转场数据，以进一步基于转场数据将音频数据切分为两个音频数据片段，分别为第1帧音频至第9帧音频的跳水场景对应的音频数据片段和第12帧音频至第20帧音频的跳水颁奖场景对应的音频数据片段。

在另一个示例中，目标视频为综艺视频，音频数据包括第1帧音频至第20帧音频，第1帧音频至第9帧音频讲述的主要内容是歌唱比赛场景，第9帧音频至第12帧音频包括“接下来进入广告，广告之后更精彩”的语句对应的音频数据，将第9帧音频至第12帧音频包括的语句对应的音频数据作为转场数据，第12帧音频至第20帧音频讲述的主要内容是歌唱比赛结果评比场景，则将音频数据输入至转场语句识别模型之后，转场语句识别模型可以识别出第9帧音频至第12帧音频的转场数据，以进一步基于转场数据将音频数据切分为两个音频数据片段，得到第1帧音频至第9帧音频的歌唱比赛场景对应的音频数据片段和第12帧音频至第20帧音频的歌唱比赛结果评比场景对应的音频数据片段。

由此，在本公开实施例中，可以将音频数据输入预先训练好的转场语句识别模型，并基于识别得到的转场数据，对音频数据进行切分，得到多个音频数据片段。

在本公开又一些实施例中，基于预设的正则表达式，识别音频数据中的转场数据，以进一步基于转场数据，对音频数据进行切分，得到多个音频数据片段。

在本公开实施例中，可选的，音频数据包括多个第一音频子数据，每个第一音频子数据对应一个语句。

相应的，S120可以包括：

S1205、基于预设的正则表达式，在音频数据中识别转场数据；

S1206、基于转场数据，对音频数据进行切分，得到多个音频数据片段。

在本公开实施例中，视频切分设备获取到音频数据之后，可以将音频数据中的多个第一音频子数据与预设的正则表达式进行匹配，并计算每个第一音频子数据与预设的正则表达式之间的语句相似度，以基于语句相似度在音频数据中识别转场数据，并基于转场数据，对音频数据进行切分，得到多个音频数据片段。

其中，预设的正则表达式可以是预先生成的用于识别转场数据的参考转场数据对应的正则表达式。具体的，参考转场数据可以是预先生成的转场语句对应的转场数据。由此，预设的正则表达式可以用于表征转场数据。

在一些实施例中，针对S1205，视频切分设备可以直接基于预设的正则表达式，在音频数据中识别转场数据。

在另一些实施例中，针对S1205，在基于转场语句识别模型识别得到的转场数据切分音频数据之后，可以基于预设的正则表达式，在切分之后的音频数据中识别转场数据。

在一些实施例中，S1205的具体步骤，可以包括：

获取参考转场数据；

将参考转场数据转化为预设的正则表达式；

将音频数据中的每个第一音频子数据转化为待识别的正则表达式；

将每个待识别的正则表达式与预设的正则表达式进行匹配，得到每个待识别的正则表达式与预设的正则表达式之间的正则相似度；

若正则相似度大于预先设定的相似度阈值，则将正则相似度大于预先设定的相似度阈值的第一音频子数据作为转场数据。

其中，正则相似度可以用于表征每个待识别的正则表达式与预设的正则表达式之间的匹配程度。

其中，预先设定的相似度阈值可以是根据需要预先设定的相似度。

可选的，预先设定的相似度阈值可以为85%、90%等数据，在此不做限定。

具体的，视频切分设备可以获取参考转场数据，并将参考转场数据转化为预设的正则表达式，并将音频数据中的每个第一音频子数据转化为待识别的正则表达式，将每个待识别的正则表达式与预设的正则表达式进行匹配，计算待识别的正则表达式与预设的正则表达式之间的相似度，若相似度大于预先设定的相似度阈值，则将相似度大于预先设定的相似度阈值的第一音频子数据作为转场数据，否则，则确定音频数据不包括转场数据。

在另一些实施例中，S1205的具体步骤，可以包括：

获取参考转场数据；

将参考转场数据转化为预设的正则表达式；

按照从大到小的顺序，对正则相似度进行排序，将前预设个数的正则相似度对应的第一音频子数据，作为转场数据。

其中，前预设个数可以是根据第一音频子数据的数量设置的用于筛选转场语句的数值。

在一个示例中，第一音频子数据的数量为10，则前预设个数为5。

在另一个示例中，第一音频子数据的数量为20，则前预设个数为10。

具体的，视频切分设备可以获取参考转场数据，并将参考转场数据转化为预设的正则表达式，并将音频数据中的每个第一音频子数据转化为待识别的正则表达式，将每个待识别的正则表达式与预设的正则表达式进行匹配，计算待识别的正则表达式与预设的正则表达式之间的相似度，然后按照从大到小的顺序，对正则相似度进行排序，根据第一音频子数据的数量，将前预设个数的正则相似度对应的第一音频子数据，作为转场数据。

可选的，音频数据还可以包括第二音频子数据和/或第三音频子数据。其中，第二音频子数据和第三音频子数据可以分别对应纯音乐部分和静音部分。

在一个示例中，目标视频为新闻视频，音频数据包括第1帧音频至第20帧音频，具体包括三个第一音频子数据，分别为第1帧音频至第9帧音频、第9帧音频至第12帧音频以及第12帧音频至第20帧音频；其中，第1帧音频至第9帧音频讲述的主要内容是跳水场景，第9帧音频至第12帧音频包括“接下来我们再看看比赛结果”的语句对应的音频数据，第12帧音频至第20帧音频讲述的主要内容是跳水颁奖场景，并将每个第一音频子数据转化为待识别的正则表达式，将待识别的正则表达式与预设的正则表达式进行匹配，若第9帧音频至第12帧音频对应的待识别的正则表达式与预设的正则表达式的正则相似度大于预先设定的相似度阈值（85%），或者，第9帧音频至第12帧音频对应的正则相似度大于第1帧音频至第9帧音频对应的正则相似度，且大于第12帧音频至第20帧音频对应的正则相似度，则识别出第9帧音频至第12帧音频的转场数据，以进一步基于转场数据将音频数据切分为两个音频数据片段，得到第1帧音频至第9帧音频的跳水场景对应的音频数据片段以及第12帧音频至第20帧音频的跳水颁奖场景对应的音频数据片段。

在另一个示例中，目标视频为综艺视频，音频数据包括第1帧音频至第20帧音频，具体包括三个第一音频子数据，分别为第1帧音频至第9帧音频、第9帧音频至第12帧音频以及第12帧音频至第20帧音频；其中，第1帧音频至第9帧音频讲述的主要内容是歌唱比赛场景，第9帧音频至第12帧音频包括“接下来进入广告，广告之后更精彩”的语句对应的音频数据，第12帧音频至第20帧音频讲述的主要内容是歌唱比赛结果评比场景，并将每个第一音频子数据转化为待识别的正则表达式，将待识别的正则表达式与预设的正则表达式进行匹配，若第9帧音频至第12帧音频对应的待识别的正则表达式与预设的正则表达式的正则相似度大于预先设定的相似度阈值（85%），或者，第9帧音频至第12帧音频对应的正则相似度大于第1帧音频至第9帧音频对应的正则相似度，且大于第12帧音频至第20帧音频对应的正则相似度，则识别出第9帧音频至第12帧音频的转场数据，以进一步基于转场数据将音频数据切分为两个音频数据片段，得到第1帧音频至第9帧音频的歌唱比赛场景对应的音频数据片段和第12帧音频至第20帧音频的歌唱比赛结果评比场景对应的音频数据片段。

由此，在本公开实施例中，可以基于预设的正则表达式，识别音频数据中的转场数据，并基于识别得到的转场数据，对音频数据进行切分，得到多个音频数据片段。

在本公开再一些实施例中，音频数据可以包括目标视频的语音文本，并基于语音文本中的目标语句，对语音文本进行切分，得到多个语音文本片段。

在一些实施例中，视频切分设备获取到目标视频的音频数据之后，可以将音频数据转化为语音文本，提取出语音模态对应的语音文本，并基于语音文本的目标语句对语音文本进行切分，得到多个语音文本片段。

其中，目标语句可以是语音文本中的用于切分目标视频的语句。

可选的，目标语句可以包括纯音乐语句、无意义语句、转场语句等，在此不做限制。

可选的，可以基于自动语音识别技术（Automatic Speech Recognition，ASR）对音频数据进行语音识别，使得将音频数据转化为ASR语音文本。

可选的，将音频数据转化为语音文本可以通过如下方式实现：

raw_asr_text=ASR(audio)

其中，raw_asr_text为语音文本，ASR（*）为自动语音识别过程。

由此，在本公开实施例中，可以对目标视频的音频数据包括的语音文本进行切分，得到多个语音文本片段。

为了避免错误的语音文本降低目标视频的切分准确性，可以对语音文本进行纠错处理，以识别出语音文本中的错误字符。

可选的，对语音文本进行纠错处理可以通过如下方式实现：

asr_text=text_correct(raw_asr_text)

其中，asr_text为纠错之后的语音文本，correct(*)为纠错处理过程。

相应的，S120的具体步骤可以包括：对纠错处理之后的语音文本，得到多个语音文本片段。

具体的，视频切分设备获取到音频数据的语音文本之后，可以对语音文本进行纠错处理，以识别出语音文本中的错误字符，并基于纠错处理之后的语音文本进行切分，得到多个音频数据片段。

由此，在本公开实施例中，通过对语音文本进行纠错处理，可以避免错误的语音文本降低目标视频的切分准确性。

在另一些实施例中，音频数据可以包括目标视频的语音文本，可以基于语音文本中的空白字符，对语音文本进行切分，得到多个语音文本片段。

在本公开实施例中，可选的，S120可以包括：

S1211、将语音文本中的纯音乐部分和无意义部分替换为空白字符，得到替换后的语音文本；

S1212、基于空白字符，对替换后的语音文本进行切分，得到多个语音文本片段。

在本公开实施例中，视频切分设备获取到语音文本或者纠错处理后的语音文本之后，识别语音文本中的纯音乐部分和无意义部分，然后将语音文本中的纯音乐部分和无意义部分替换为空白字符，得到替换后的语音文本，以进一步基于空白字符，对替换后的语音文本进行切分，得到多个语音文本片段。

其中，纯音乐部分可以为语音文本中的纯音乐语句对应的内容。

其中，无意义部分可以包括语音文本中的无意义语句对应的内容。

可选的，无意义部分可以包括停顿语句、与目标视频的主要内容不相关的非停顿语句以及静音部分。

可选的，将语音文本中的纯音乐部分和无意义部分替换为空白字符可以通过如下方式实现：

asr_textr=replace_typos(asr_text，“无意义部分”，“纯音乐部分”)

其中，asr_textr为替换后的语音文本，replace_typos(*)为空白字符替换过程。

可选的，基于空白字符，对替换后的语音文本进行切分可以通过如下方式实现：

frame_list=splitByTransition(asr_textr)

其中，frame_list为切分得到的语音文本片段的列表，splitByTransition(*)为语音文本的切分过程。

需要说明的是，S1211~S1212的原理与S1201~S1202的原理相似，在此不做赘述。

由此，在本公开实施例中，可以将语音文本中的纯音乐部分和无意义部分替换为空白字符，并基于空白字符准确的切分替换后的语音文本，得到多个语音文本片段。

在又一些实施例中，音频数据可以包括目标视频的语音文本，可以基于预先训练好的转场语句识别模型，识别音频文本中的转场语句，以进一步基于转场语句，对语音文本进行切分，得到多个语音文本片段。

在本公开实施例中，可选的，S120可以包括：

S1213、将语音文本输入预先训练好的转场语句识别模型，得到转场语句识别模型输出的转场语句；

S1214、基于转场语句，对语音文本进行切分，得到多个语音文本片段。

在本公开实施例中，视频切分设备获取到语音文本或者基于空白字符切分得到语音文本之后，可以将语音文本或切分后的语音文本输入至预先训练好的转场语句识别模型，以利用转场语句识别模型识别转场语句，以进一步利用转场语句切分语音文本，得到多个语音文本片段。

具体的，转场语句识别模型可以基于样本转场语句、样本非转场语句以及样本语音文本对初始模型训练得到。

具体的，视频切分设备可以获取第一预设数量的样本转场语句，将第一预设数量的样本转场语句输入至预先训练好的相似语句生成模型中，得到第二预设数量的转场语句的相似语句，将第一预设数量的样本转场语句和第二预设数量的转场语句的相似语句作为样本转场语句，并且，可以提取第三预设数量的样本非转场语句以及样本语音文本，并基于样本转场语句、样本非转场语句以及样本语音文本对初始网络进行迭代训练，得到训练好的转场语句识别模型。

可选的，转场语句的相似语句可以通过如下方式实现：

[pos1,...,posn]=SimBERT([p1,...,pm])

其中，[pos1,...,posn]为第二预设数量的转场语句的相似语句，第二预设数量为n，[p1,...,pm]为第一预设数量的转场语句，第一预设数量为m，SimBERT(*)为simbert模型生成转场语句的相似语句的过程。

可选的，样本转场语句的构建过程可以通过如下方式实现：

data={(pos1,neg1),...,(posn,negn)}

其中，(pos1,neg1)为第一组样本转场语句和样本非转场语句，(posn, negn)为第n组样本转场语句和样本非转场语句，data为样本转场语句。

可选的，基于转场语句识别模型识别转场语句的过程可以通过如下方式实现：

split_frame1=CNN(frame_list)

其中，split_frame1为基于转场语句识别模型识别得到的转场语句切分后的语音文本，CNN(*)为转场语句识别模型，frame_list为基于空白字符切分得到的语音文本片段的列表。

需要说明的是，S1214~S1216的原理与S1204~S1206的原理相似，在此不做赘述。

由此，在本公开实施例中，可以将语音文本输入预先训练好的转场语句识别模型，并基于识别得到的转场语句，对语音文本进行切分，得到多个语音文本片段。

在再一些实施例中，音频数据可以包括目标视频的语音文本，可以基于预设的正则表达式，识别语音文本中的转场语句，以进一步基于转场语句，对语音文本进行切分，得到多个语音文本片段。

在本公开实施例中，可选的，S120可以包括：

S1215、基于预设的正则表达式，在语音文本中识别转场语句；

S1216、基于转场语句，对语音文本进行切分，得到多个语音文本片段。

在本公开实施例中，视频切分设备获取到语音文本或者基于转场语句模型识别得到的转场语句切分语音文本之后，可以将语音文本或切分之后的语音文本中的多个第一语音子文本与预设的正则表达式进行匹配，并计算每个第一语音子文本与预设的正则表达式之间的语句相似度，以基于语句相似度在语音文本中识别转场语句，并基于转场语句，对语音文本进行切分，得到多个语音文本片段。

其中，预设的正则表达式可以是预先生成的用于识别转场语句的参考转场语句对应的正则表达式。由此，预设的正则表达式可以用于表征转场数据。

可选的，基于预设的正则表达式的转场语句二次切分语音文本可以通过如下方式实现：

split_frame2=searchSplitPosition(split_frame1)

其中，searchSplitPosition(*)为基于预设的正则表达式的转场语句二次切分语音文本的过程，split_frame2为基于预设的正则表达式的转场语句二次切分得到的语音文本，split_frame1为基于转场语句识别模型识别得到的转场语句切分后的语音文本。

需要说明是是，S1215~S1216的原理与S1205~S1206的原理相似，在此不做赘述。

由此，在本公开实施例中，可以基于预设的正则表达式，识别语音文本中的转场语句，并基于识别得到的转场语句，对语音文本进行切分，得到多个语音文本片段。

在本公开又一种实施方式中，可以基于聚类后的字幕子数据之后和音频数据片段对目标视频进行切分。

在本公开一些实施例中，可以将包含相同字幕的多个连续字幕子数据合并为一类，并基于聚类后的字幕子数据之后和音频数据片段对目标视频进行切分。

在本公开实施例中，可选的，在S130之后，该视频切分方法还可以包括：

将包含相同字幕的多个连续字幕子数据合并为一类，得到聚类后的字幕子数据。

相应的，S140可以包括：

基于音频数据片段和聚类后的字幕子数据对目标视频进行切分，得到多个视频片段。

具体的，视频切分设备获取到多个字幕子数据之后，可以利用单遍聚类算法（SinglePass）对每个字幕子数据按照时间顺序，将包含相同字幕的多个连续字幕子数据合并为一类，得到聚类后的字幕子数据，使得对相同字幕的多个连续字幕子数据进行聚类，并使得不同字幕的多个字幕子数据分离，然后基于音频数据片段和聚类后的字幕子数据对目标视频进行切分，得到多个视频片段。

在本公开实施例中，可选的，在将包含相同字幕的多个连续字幕子数据合并为一类，得到聚类后的字幕子数据之后，该视频切分方法还可以包括：

将紧密程度满足预设密度条件的多个初步聚类后的字幕子数据合并为一类，得到二次聚类后的字幕子数据；

相应的，基于音频数据片段和聚类后的字幕子数据对目标视频进行切分，得到多个视频片段，可以具体包括：

基于音频数据片段和二次聚类后的字幕子数据对目标视频进行切分，得到多个视频片段。

在本公开实施例中，视频切分设备将包含相同字幕的多个连续字幕子数据合并为一类，得到聚类后的字幕子数据之后，还可以采用密度聚类算法（DBSCAN），将紧密程度满足预设密度条件的多个初步聚类后的字幕子数据合并为一类，以进一步基于音频数据片段和二次聚类后的字幕子数据对目标视频进行切分，得到多个视频片段。

其中，紧密程度用于表征聚类后的字幕子数据在目标区域内分布的紧密度。具体的，目标区域可以是聚类后的字幕子数据所在的区域。

其中，预设密度条件可以是预先设定的用于判断是否对多个聚类后的字幕子数据进行再次聚类的密度条件。

可选的，预设密度条件可以是最大密度条件。

具体的，视频切分设备可以基于最大密度聚类原则，将紧密程度满足最大密度条件的多个聚类后的字幕子数据合并为一类，得到二次聚类后的字幕子数据。

由此，在本公开实施例中，在得到多个字幕子数据之后，可以将包含相同字幕的多个连续字幕子数据合并为一类，得到聚类后的字幕子数据，将包含相同字幕的多个连续字幕子数据合并为一类，然后，将紧密程度满足预设密度条件的多个初步聚类后的字幕子数据合并为一类，得到二次聚类后的字幕子数据，以进一步基于音频数据片段和二次聚类后的字幕子数据对目标视频进行切分，得到多个视频片段，因此，可以进一步提高目标视频的切分准确性。

在本公开另一些实施例中，字幕数据可以包括目标视频中的字幕文本，可以基于镜头数据对字幕文本进行切分，得到多个字幕子文本。

在一些实施例中，视频切分设备获取到目标视频的字幕数据之后，可以将字幕数据转化为字幕文本，以提取视频模态对应的字幕文本，并基于镜头数据对字幕文本进行切分，得到多个字幕子文本。

其中，字幕文本可以是将通过OCR技术识别得到的字幕数据进行文本转化后得到的文本。

可选的，将通过OCR技术识别得到的字幕数据转为字幕文本可以通过如下方式实现：

raw_ocr_text=OCR(video)

其中，raw_ocr_text为字幕文本，OCR(*)为OCR识别过程。

可选的，多个字幕子文本的获取过程可以通过如下方式实现：

merge_frame_list=mergeByShotedge(ocr_textt,shot_res)

其中，merge_frame_list为多个字幕子文本，ocr_textt为字幕文本，shot_res为镜头数据，mergeByShotedge（*）为字幕文本的切分过程。

由此，在本公开实施例中，目标视频的字幕数据包括的字幕文本，以基于镜头数据对字幕文本进行切分，得到多个字幕子文本。

为了避免错误的字幕文本降低目标视频的切分准确性，可以对字幕文本进行纠错处理，以识别出字幕文本中的错误字符。

可选的，对字幕文本进行纠错处理可以通过如下方式实现：

ocr_text=text_correct(raw_ocr_text)

其中，ocr_text为纠错之后的字幕文本，text_correct(*)为纠错处理过程。

相应的，S130的具体步骤可以包括：对纠错处理之后的字幕文本，得到多个字幕文本片段。

具体的，视频切分设备获取到字幕数据的字幕文本之后，可以对字幕文本进行纠错处理，以识别出字幕文本中的错误字符，对纠错处理之后的字幕文本，得到多个字幕文本片段。

由此，在本公开实施例中，通过对字幕文本进行纠错处理，可以避免错误的字幕文本降低目标视频的切分准确性。

在另一些实施例中，字幕数据可以包括目标视频中的字幕文本，可以将包含相同字幕的多个连续字幕子文本合并为一类，得到聚类后的字幕子文本，并基于音频文本片段和聚类后的字幕子文本对目标视频进行切分，得到多个视频片段。

在本公开实施例中，可选的，S130可以包括：

将包含相同字幕的多个连续字幕子文本合并为一类，得到聚类后的字幕子文本；

相应的，S140可以包括：

在本公开实施例中，视频切分设备获取到镜头数据和字幕数据之后，可以将字幕数据转化为字幕文本，并利用单遍聚类算法（SinglePass）对每个字幕子文本按照时间顺序，将包含相同字幕的多个连续字幕子文本合并为一类，得到聚类后的字幕子文本，使得对相同字幕的多个连续字幕子文本进行聚类，并使得不同字幕的多个字幕子文本分离，然后基于音频文本片段和聚类后的字幕子文本对目标视频进行切分，得到多个视频片段。

可选的，基于SinglePass将包含相同字幕的多个连续字幕子文本合并为一类可以通过如下方式实现：

cluster_res1=SinglePass(merge_frame_list)

其中，cluster_res1为聚类后的字幕子文本，merge_frame_list为多个字幕子数据，SinglePass(*)为SinglePass检测过程。

由此，在本公开实施例中，在得到多个字幕子数据之后，可以将包含相同字幕的多个连续字幕子数据合并为一类，得到聚类后的字幕子数据，将包含相同字幕的多个连续字幕子数据合并为一类，以进一步基于音频数据片段和聚类后的字幕子数据对目标视频进行切分，得到多个视频片段，因此，可以进一步提高目标视频的切分准确性。

在本公开实施例中，可选的，在将包含相同字幕的多个连续字幕子文本合并为一类，得到聚类后的字幕子文本之后，该视频切分方法还可以包括：

将紧密程度满足预设密度条件的多个初步聚类后的字幕子文本合并为一类，得到二次聚类后的字幕子文本；

相应的，基于音频文本片段和聚类后的字幕子文本对目标视频进行切分，得到多个视频片段，可以具体包括：

基于音频文本片段和二次聚类后的字幕子文本对目标视频进行切分，得到多个视频片段。

在本公开实施例中，视频切分设备将包含相同字幕的多个连续字幕子文本合并为一类，得到聚类后的字幕子文本之后，还可以采用密度聚类算法（DBSCAN），将紧密程度满足预设密度条件的多个初步聚类后的字幕子文本合并为一类，以进一步基于音频文本片段和二次聚类后的字幕子文本对目标视频进行切分，得到多个视频片段。

可选的，基于DBSCAN对聚类后的字幕子文本进行二次聚类可以通过如下方式实现：

cluster_res2=DBSCAN(cluster_res1)

其中，cluster_res2为二次聚类后的字幕子文本，cluster_res1为初步聚类后的字幕子数据，DBSCAN(*)为DBSCAN聚类过程。

由此，在本公开实施例中，在得到纠错后的字幕子数据，将包含相同字幕的多个连续字幕子数据合并为一类，然后，将紧密程度满足预设密度条件的多个初步聚类后的字幕子数据合并为一类，得到二次聚类后的字幕子数据，以进一步基于音频数据片段和二次聚类后的字幕子数据对目标视频进行切分，得到多个视频片段，因此，可以进一步提高目标视频的切分准确性。

在本公开再一种实施方式中，可以根据字幕子数据对音频数据片段进行修正，以基于多个修正后的音频片段数据，对目标视频进行切分，得到多个视频片段。

在本公开实施例中，利用音频数据片段对目标视频进行初步切分得到的初步切分片段可能存在未被识别的切分点，为了对目标视频进行准确的切分，可以基于字幕子数据对音频数据片段进行修正，以得到目标视频准确切分的目标切分视频。

在本公开实施例中，可选的，S140可以包括：

S141、根据字幕子数据对音频数据片段进行修正，得到多个修正后的音频片段数据；

S142、基于多个修正后的音频片段数据，对目标视频进行切分，得到多个视频片段。

在本公开实施例中，视频切分设备获取到字幕子数据和音频数据片段之后，可以先根据字幕子数据对音频数据片段进行修正，得到多个修正后的音频片段数据，然后基于多个修正后的音频片段数据，对目标视频进行切分，得到多个视频片段，使得得到的视频片段更准确。

具体的，视频切分设备可以根据字幕子数据对音频数据片段进行修正，可以是基于字幕子数据识别音频数据片段中的切分点，若识别到切分点，则基于字幕子数据对音频数据片段进行切分，以修正音频片段数据，得到修正后的音频片段数据，进一步基于多个修正后的音频片段数据，对目标视频进行切分，得到多个视频片段。

具体的，视频切分设备可以基于多个修正后的音频片段数据的起止时间戳，对目标视频进行切分，得到多个视频片段。

在本公开实施例中，可选的，S141可以包括：

S1411、在多个音频数据片段和多个字幕子数据中，确定目标音频数据片段和目标音频数据片段对应的目标字幕子数据，目标音频数据片段与目标字幕子数据之间存在语义重叠；

S1412、基于目标字幕子数据对目标音频数据片段进行修正，得到多个修正后的音频数据片段。

相应的，S142可以包括：

基于多个修正后的音频数据片段对应的起止时间戳，对目标视频进行切分，得到多个视频片段。

在本公开实施例中，视频切分设备获取到字幕子数据和音频数据片段之后，可以在多个音频数据片段和多个字幕子数据中，确定目标音频数据片段和目标音频数据片段对应的目标字幕子数据，以找到存在交叉关系和包含关系的目标音频数据片段与目标字幕子数据，使得目标音频数据片段与目标字幕子数据之间存在语义重叠，然后基于目标字幕子数据对目标音频数据片段进行修正，得到多个修正后的音频数据片段，进一步基于多个修正后的音频数据片段对应的起止时间戳，对目标视频进行切分，得到多个视频片段。

其中，目标音频数据片段可以是包括未成功识别的切分点的且需要进行二次切分的音频数据片段。

其中，目标字幕子数据可以是与目标音频数据片段存在交叉关系或者包含关系的字幕子数据，因此，使得目标音频数据片段与目标字幕子数据之间存在语义重叠。

具体的，视频切分设备可以根据目标字幕子数据对目标音频数据片段进行修正，可以是基于目标字幕子数据识别目标音频数据片段中的切分点，若识别到切分点，则基于目标字幕子数据对目标音频数据片段进行切分，以修正目标音频片段数据，得到修正后的目标音频片段数据，进一步基于多个修正后的音频数据片段对应的起止时间戳，对目标视频进行切分，得到多个视频片段。

在本公开实施例中，可选的，字幕数据可以包括字幕文本，音频数据可以包括音频文本。

其中，基于字幕文本、音频文本以及镜头数据对目标视频进行切分的原理与前述实施例相似，在此不做赘述。

以目标视频为新闻视频为例，目标视频的音频数据片段包括第1帧音频至第12帧音频，并且，该音频数据切分片段中的第1帧音频至第7帧音频对应的场景为跳水场景，第9帧音频至第12帧音频对应的场景为跳水颁奖场景，由此，该音频数据切分片段中存在未识别的切分点，可以在第1帧音频至第7帧音频、第9帧音频至第12帧音频以及多个字幕子数据中，确定目标音频数据片段和目标音频数据片段对应的目标字幕子数据，以找到存在交叉关系和包含关系的目标音频数据片段与目标字幕子数据，使得目标字幕切分数据对应的场景包括跳水场景，或者，目标字幕切分数据对应的场景包括跳水颁奖场景，然后基于目标字幕子数据对目标音频数据片段进行修正，得到多个修正后的音频数据片段，因此，修正后的音频数据片段包括跳水场景对应的第1帧音频至第7帧音频以及跳水颁奖场景对应的第9帧音频至第12帧音频，以进一步基于多个修正后的音频数据片段对应的起止时间戳，对目标视频进行切分，得到多个视频片段。

图2示出了本公开实施例提供的一种视频切分方法的整体流程示意图。具体的，结合图2所示解释所描述的内容。

如图2所示，视频切分方法可以在两个支路执行，两个支路分别执行如下步骤：

第1个支路、获取音频文本，并对音频文本进行切分，得到多个音频文本片段；

第2个支路、获取字幕文本和镜头数据，并基于音频数据片段和字幕子数据对所述目标视频进行切分，得到多个视频片段。

针对第1个支路，首先，视频切分设备可以基于空白字符，对替换空白字符后的音频文本进行切分，得到多个音频文本片段；然后，识别多个音频文本片段中的转场语句，并基于转场语句进一步切分多个音频文本片段，具体的，可以基于预先训练好的转场语句识别模型或者预设的正则表达式识别多个音频文本片段中的转场语句；最后，基于识别得到的转场句对音频文本片段进行切分，得到音频文本片段。

针对第2个支路，首先，基于镜头数据，对字幕文本进行切分，得到多个字幕子文本；然后，基于SinglePass聚类算法，对每个字幕子文本进行聚类，得到聚类后的字幕子文本；接着，基于DBSCAN聚类算法，对聚类后的字幕子文本进行二次聚类，得到二次聚类后的字幕子文本，以实现得到场景合并后的多个字幕子文本。

进一步的，获取第1个支路得到的音频文本片段和第2个支路得到的多个字幕子文本，可以将第1个支路得到的音频文本片段和第2个支路得到的多个字幕子文本进行信息融合，具体的，可以根据字幕子文本对音频文本片段进行修正，得到多个修正后的音频文本片段，并基于多个修正后的音频文本片段，对目标视频进行切分，得到多个视频片段。

由此，在本公开实施例中，可以根据字幕子文本对音频文本片段进行修正，得到多个修正后的音频文本片段，并基于多个修正后的音频文本片段，对目标视频进行切分，得到多个视频片段，因此，提高了目标视频的切分准确性。

进一步的，对于新闻视频来说，由于新闻视频存在镜头切换、场景切换、新闻片段转场、主持人话语转场等，导致新闻事件切分点确定难度大，并且，无播音员新闻不以播音员镜头开始，直接播放新闻内容，与前序新闻之间没有播音员镜头相隔，较难检测，基于无播音员新闻的语音文本无明显转场模式，而字幕文本主题字幕存在较大差异，因此，通过融合音频文本、镜头数据和字幕文本的信息，可以对新闻视频进行准确的切分。

在本公开再一种实施方式中，在将目标视频切分为多个视频片段之后，可以识别视频片段的目标主题词，基于目标主题词，更新多个视频片段。

图3示出了本公开实施例提供的另一种视频切分方法的流程示意图。

如图3所示，该视频切分方法可以包括如下步骤。

S310、获取目标视频的视频特征数据，视频特征数据包括音频数据、字幕数据和镜头数据。

S320、对音频数据进行切分，得到多个音频数据片段。

S330、基于镜头数据对字幕数据进行切分，得到多个字幕子数据。

S340、基于音频数据片段和字幕子数据对目标视频进行切分，得到多个视频片段。

其中，S310~S340与S110~S140相似，在此不做赘述。

S350、提取每个视频片段的目标主题词。

在本公开实施例中，对目标视频进行切分后，同一主题词可能会出现在不同的视频片段中，这种情况是因为将同一视频片段分割成多个片段造成的，因此，需要对切分后的视频片段进行再次修正，以提高目标视频切分准确性。

在本公开实施例中，视频切分设备切分得到视频片段之后，可以提取每个视频片段的目标主题词，以进一步将同一个目标主题词对应的视频片段进行合并。

在本公开实施例中，目标主题词可以是包含视频片段的切分主题的词语。

在本公开实施例中，可选的，S350可以包括：将每个视频片段输入至预先训练好的主题识别模型，得到每个视频片段的目标主题词。

其中，主题识别模型可以是基于样本主题词和样本视频训练得到的。

可选的，主题模型可以为经典概率主题模型（Latent Dirichlet Allocation，LDA）。

可选的，利用LDA识别每个视频片段的目标主题可以通过如下方式实现：

(word1i,p1i),...,(wordnumi,pnumi)=LDA(fragi)

其中，word1i为视频片段fragi的第1个主题词，p1i为word1i在视频片段fragi的主题中出现的概率，wordnumi为视频片段fragi的第num个词，pnumi为wordnumi在视频片段fragi的主题中出现的概率。

由此，在本公开实施例中，可以基于主题模型准确的识别出目标主题词。

S360、基于目标主题词，计算每两个相邻的视频片段之间的语义相似度。

在本公开实施例中，视频切分设备识别出目标主题词之后，可以基于目标主题词，计算每两个相邻的视频片段之间的语义相似度，以基于语义相似度，对视频片段进行合并。

其中，语义相似度可以用于表征每两个视频片段之间的主题词的相关程度。

在本公开实施例中，可选的，在S360之前，该视频切分方法还可以包括：

在每个视频片段包括至少一个目标主题词的情况下，将每个视频片段的至少一个目标主题词进行拼接，得到拼接后的目标主题词。

相应的，S360可以包括：

基于拼接后的目标主题词，计算每两个相邻的视频片段之间的语义相似度。

其中，拼接后的目标主题词可以是每个视频片段对应的主题词串。

可选的，将每个视频片段的至少一个目标主题词进行拼接可以通过如下方式实现：

str_semai=concat(topic_word1i,...,topic_wordki)

其中，str_semai为每个视频片段对应的主题词串，topic_word1i,..., topic_wordki为视频片段fragi的k个主题词，concat(*)为主题词拼接过程。

进一步的，视频切分设备可以基于拼接后的目标主题词，计算每两个相邻的视频片段之间的语义相似度。

可选的，基于拼接后的目标主题词，计算每两个相邻的视频片段之间的语义相似度可以通过如下方式执行：

sim=SimBERT(str_semai-1,str_semai)

其中，sim为每两个相邻的视频片段之间的语义相似度，str_semai-1为当前视频片段的相邻上个视频片段，str_semai为当前的视频片段，SimBERT(*)为主题词合并模型。

由此，在本公开实施例中，可以将每个视频片段的至少一个目标主题词进行拼接，以基于拼接后的目标主题词，计算每两个相邻的视频片段之间的语义相似度。

S370、将语义相似度大于预设的语义相似度阈值的两个相邻的视频片段进行合并，得到合并后的视频片段。

在本公开实施例中，视频切分设备计算得到语义相似度之后，可以将语义相似度与预设的语义相似度阈值比较，若语义相似度大于预设的语义相似度阈值，则将两个相邻的视频片段进行合并，得到合并后的视频片段，否则，不执行视频片段合并的操作。

其中，预设的语义相似度阈值可以是根据需要预先设定的语义相似度。

可选的，预设的语义相似度阈值可以是80%、90%等数据，在此不做限制。

可选的，基于语义相似度和语义相似度阈值，得到合并后的视频片段可以通过如下方式实现：

fragi-1,fragi∈cluster_(j-1)， sim≥ϑ

fragi-1∈clusterj-1,fragi∈clusterj， sim<ϑ

其中，cluster_(j-1)为上一个视频片段所属的类别，clusterj为当前的视频片段所属的类别，ϑ为预设的相似度阈值。

由此，基于上述方式，得到合并后的视频片段可以通过如下方式实现：

newj=merge(frag1,...,fragi)，(frag1,...,fragi)∈clusterj

其中，clusterj可以为第j个类别的视频片段，merge(*)为合并过程。

图4示出了本公开实施例提供的一种对两个相邻的视频片段进行合并的流程示意图。

如图4所示，首先，通过阶段1对目标视频进行切分，得到多个视频片段，然后识别每个视频片段的目标主题词，并基于目标主题词计算每两个视频片段之间的语义相似度，将语义相似度大于预设的语义相似度阈值的两个相邻的视频片段进行合并；然后，通过阶段2，基于合并后的视频片段更新目标视频的切分片段，得到更新后的视频片段。

图5示出了本公开实施例提供的另一种视频切分方法的整体流程示意图。

如图5所示，首先，获取目标视频，并对目标视频进行镜头边缘检测、字幕识别以及音频识别，得到视频特征数据；然后，对音频数据进行切分，得到多个音频数据片段，基于镜头数据对字幕数据进行切分，得到多个字幕子数据，并基于音频数据片段和字幕子数据对目标视频进行切分，得到多个视频片段；进一步的，提取每个视频片段的目标主题词，基于目标主题词，以对视频片段的目标主题进行预测；接着，计算每两个相邻的视频片段之间的语义相似度，以将语义相似度大于预设的语义相似度阈值的两个相邻的视频片段进行合并，以基于合并后的视频片段更新目标视频的切分结果。

由此，在本公开实施例中，可以计算每两个相邻的视频片段之间的语义相似度，如果语义相似度大于预设的语义相似度阈值，并将语义相似度大于预设的语义相似度阈值的两个相邻的视频片段进行合并，得到合并后的视频片段，以更新目标视频的视频片段。

进一步的，对于多标题新闻视频来说，如果转场句错误分割，基于纯文本内容合并尺度弱，由于语音文本包括目标主题之外的新闻内容，可以基于语义相似度将切分的视频片段进行合并，因此，解决了转场句错误分割的问题。

综上，基于多模态的视频特征数据对新闻视频进行切分的方法相比于单一模态特征，可以实现从不同角度对新闻视频进行分割以及对多模态信息进行融合，因此，可以提升媒资汇聚、编目、管理和分发各个环节工作效率，使受众快速有效完成视频摘要和视频检索。

本公开实施例还提供了一种用于实现上述的视频切分装置，下面结合图6进行说明。在本公开实施例中，该视频切分装置可以为视频切分设备。视频切分设备可以为电子设备或服务器。其中，电子设备可以包括移动终端、平板电脑、车载终端、可穿戴电子设备、虚拟现实（Virtual Reality，VR）一体机、智能家居设备等具有通信功能的设备。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。

图6示出了本公开实施例提供的一种视频切分装置的结构示意图。

如图6所示，视频切分装置600可以包括：视频特征数据获取模块610、音频数据切分模块620、字幕数据切分模块630和目标视频切分模块640。

其中，视频特征数据获取模块610，用于获取目标视频的视频特征数据，视频特征数据包括音频数据、字幕数据和镜头数据，镜头数据基于镜头边缘检测技术切分得到；

音频数据切分模块620，用于对音频数据进行切分，得到多个音频数据片段；

字幕数据切分模块630，用于基于镜头数据对字幕数据进行切分，得到多个字幕子数据；

目标视频切分模块640，用于基于音频数据片段和字幕子数据对目标视频进行切分，得到多个视频片段。

在本公开实施例中，能够获取目标视频的包括音频数据、字幕数据和镜头数据等视频特征数据，使得可以获取到目标视频的多模态的视频特征数据，对音频数据进行切分，得到多个音频数据片段，然后基于镜头数据对字幕数据进行切分，得到多个字幕子数据，由此，可以基于多模态的视频特征数据，并分别对视频特征数据中的音频数据，以及利用镜头数据切分字幕数据，进一步基于音频数据片段和字幕子数据切分目标视频，使得将获取到的多模态的视频特征数据融合后切分目标视频，因此，能够准确的切分目标视频，以进一步使得用户通过浏览目标视频切分后的视频片段，从目标视频中快速获取准确的信息，以准确且快速的浏览目标视频中所包含的信息。

可选的，音频数据切分模块620还可以用于将音频数据中的纯音乐部分和无意义部分替换为空白数据，得到替换后的音频数据；

基于空白数据，对替换后的音频数据进行切分，得到多个音频数据片段。

可选的，音频数据切分模块620还可以用于将音频数据输入预先训练好的转场语句识别模型，得到转场语句识别模型输出的转场数据；

基于转场数据，对音频数据进行切分，得到多个音频数据片段。

可选的，音频数据包括音频数据包括多个第一音频子数据，每个第一音频子数据对应一个语句；

相应的，音频数据切分模块620还可以用于基于预设的正则表达式，在音频数据中识别转场数据；

可选的，音频数据包括目标视频的语音文本。

可选的，每个字幕子数据对应同一个镜头场景；

相应的，该装置还包括：第一聚类模块；

其中，第一聚类模块，用于将包含相同字幕的多个连续字幕子数据合并为一类，得到聚类后的字幕子数据；

相应的，目标视频切分模块640还用于基于音频数据片段和聚类后的字幕子数据对目标视频进行切分，得到多个视频片段。

可选的，该装置还包括：第二聚类模块；

其中，第二聚类模块，用于将紧密程度满足预设密度条件的多个初步聚类后的字幕子数据合并为一类，得到二次聚类后的字幕子数据；

相应的，目标视频切分模块640还用于基于音频数据片段和二次聚类后的字幕子数据对目标视频进行切分，得到多个视频片段。

可选的，字幕数据包括目标视频中的字幕文本。

可选的，目标视频切分模块640还用于根据字幕子数据对音频数据片段进行修正，得到多个修正后的音频片段数据；

基于多个修正后的音频片段数据，对目标视频进行切分，得到多个视频片段。

可选的，目标视频切分模块640还用于在多个音频数据片段和多个字幕子数据中，确定目标音频数据片段和目标音频数据片段对应的目标字幕子数据，目标音频数据片段与目标字幕子数据之间存在语义重叠；

基于目标字幕子数据对目标音频数据片段进行修正，得到多个修正后的音频数据片段。

可选的，目标视频切分模块640还用于基于多个修正后的音频数据片段对应的起止时间戳，对目标视频进行切分，得到多个视频片段。

可选的，该视频切分装置还包括：目标主题词提取模块、语义相似度计算模块和视频片段合并模块；

其中，目标主题词提取模块，用于提取每个视频片段的目标主题词；

语义相似度计算模块，用于基于目标主题词，计算每两个相邻的视频片段之间的语义相似度；

视频片段合并模块，用于将语义相似度大于预设的语义相似度阈值的两个相邻的视频片段进行合并，得到合并后的视频片段

可选的，该视频切分装置还包括：目标主题词拼接模块；

其中，目标主题词拼接模块，用于在每个视频片段包括至少一个目标主题词的情况下，将每个视频片段的至少一个目标主题词进行拼接，得到拼接后的目标主题词；

相应的，语义相似度计算模块还用于基于拼接后的目标主题词，计算每两个相邻的视频片段之间的语义相似度。

需要说明的是，图6所示的视频切分装置600可以执行图1至图5所示的方法实施例中的各个步骤，并且实现图1至图5所示的方法实施例中的各个过程和效果，在此不做赘述。

图7示出了本公开实施例提供的一种视频切分设备的结构示意图。

如图7所示，该视频切分设备可以包括处理器701以及存储有计算机程序指令的存储器702。

具体地，上述处理器701可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器702可以包括用于信息或指令的大容量存储器。举例来说而非限制，存储器702可以包括硬盘驱动器（Hard Disk Drive，HDD）、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线（Universal Serial Bus，USB）驱动器或者两个及其以上这些的组合。在合适的情况下，存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器702可在综合网关设备的内部或外部。在特定实施例中，存储器702是非易失性固态存储器。在特定实施例中，存储器702包括只读存储器（Read-Only Memory，ROM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable ROM，PROM）、可擦除PROM（Electrical Programmable ROM，EPROM）、电可擦除PROM（Electrically ErasableProgrammable ROM，EEPROM）、电可改写ROM（Electrically Alterable ROM，EAROM）或闪存，或者两个或及其以上这些的组合。

处理器701通过读取并执行存储器702中存储的计算机程序指令，以执行本公开实施例所提供的数据采集方法的步骤。

在一个示例中，该视频切分设备还可包括收发器703和总线704。其中，如图7所示，处理器701、存储器702和收发器703通过总线704连接并完成相互间的通信。

总线704包括硬件、软件或两者。举例来说而非限制，总线可包括加速图形端口（Accelerated Graphics Port，AGP）或其他图形总线、增强工业标准架构（ExtendedIndustry Standard Architecture，EISA）总线、前端总线（Front Side BUS，FSB）、超传输（Hyper Transport，HT）互连、工业标准架构（Industrial Standard Architecture，ISA）总线、无限带宽互连、低引脚数（Low Pin Count，LPC）总线、存储器总线、微信道架构（MicroChannel Architecture，MCA）总线、外围控件互连（Peripheral Component Interconnect，PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（Serial Advanced TechnologyAttachment，SATA）总线、视频电子标准协会局部（Video Electronics StandardsAssociation Local Bus，VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线704可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

以下是本公开实施例提供的视频切分系统的实施例，该视频切分系统与上述各实施例的视频切分方法属于同一个发明构思，在视频切分系统的实施例中未详尽描述的细节内容，可以参考上述视频切分方法的实施例。

图8示出了本公开实施例提供的一种视频切分系统的结构示意图。

如图8所示，该系统包括：视频切分设备810和显示设备820；

视频切分设备810，用于获取目标视频的视频特征数据，视频特征数据包括音频数据、字幕数据和镜头数据，镜头数据基于镜头边缘检测技术切分得到；

对音频数据进行切分，得到多个音频数据片段；

基于镜头数据对字幕数据进行切分，得到多个字幕子数据；

显示设备820，用于接收视频片段显示操作；

以下是本公开实施例提供的计算机可读存储介质的实施例，该计算机可读存储介质与上述各实施例的视频切分方法属于同一个发明构思，在计算机可读存储介质的实施例中未详尽描述的细节内容，可以参考上述视频切分方法的实施例。

本实施例提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种视频切分方法，该方法包括：

对音频数据进行切分，得到多个音频数据片段；

基于镜头数据对字幕数据进行切分，得到多个字幕子数据；

当然，本公开实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本公开任意实施例所提供的视频切分方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本公开可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（Read-Only Memory, ROM）、随机存取存储器（RandomAccess Memory, RAM）、闪存（FLASH）、硬盘或光盘等，包括若干指令用以使得一台计算机云平台（可以是个人计算机，服务器，或者网络云平台等）执行本公开各个实施例所提供的视频切分方法。

注意，上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解，本公开不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此，虽然通过以上实施例对本公开进行了较为详细的说明，但是本公开不仅仅限于以上实施例，在不脱离本公开构思的情况下，还可以包括更多其他等效实施例，而本公开的范围由所附的权利要求范围决定。

Claims

1.一种视频切分方法，其特征在于，包括：

获取目标视频的视频特征数据，所述视频特征数据包括音频数据、字幕数据和镜头数据，所述镜头数据基于镜头边缘检测技术切分得到；

对所述音频数据进行切分，得到多个音频数据片段，所述音频数据片段基于纯音乐音频、无意义音频以及转场音频切分得到；

基于所述镜头数据对所述字幕数据进行切分，得到多个字幕子数据；

基于所述音频数据片段和所述字幕子数据对所述目标视频进行切分，得到多个视频片段，所述视频片段基于所述音频数据片段对应的起止时间戳以及所述字幕子数据对应的起止时间戳切分得到；

所述基于所述镜头数据对所述字幕数据进行切分，得到多个字幕子数据，包括：

基于所述镜头数据，将同一个镜头场景的字幕数据进行合并，并将不同镜头场景的字幕数据分离，得到所述多个字幕子数据。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行切分，得到多个音频数据片段，包括：

将所述音频数据中的纯音乐部分和无意义部分替换为空白数据，得到替换后的音频数据；

基于所述空白数据，对所述替换后的音频数据进行切分，得到所述多个音频数据片段。

3.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行切分，得到多个音频数据片段，包括：

将所述音频数据输入预先训练好的转场语句识别模型，得到所述转场语句识别模型输出的转场数据；

基于所述转场数据，对所述音频数据进行切分，得到所述多个音频数据片段。

4.根据权利要求1所述的方法，其特征在于，所述音频数据包括多个第一音频子数据，每个所述第一音频子数据对应一个语句；

其中，所述对所述音频数据进行切分，得到多个音频数据片段，包括：

基于预设的正则表达式，在所述音频数据中识别转场数据；

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述音频数据包括目标视频的语音文本。

6.根据权利要求1所述的方法，其特征在于，每个所述字幕子数据对应同一个镜头场景；

其中，在所述基于所述镜头数据对所述字幕数据进行切分，得到多个字幕子数据之后，所述方法还包括：

将包含相同字幕的多个连续字幕子数据合并为一类，得到聚类后的字幕子数据；

其中，所述基于所述音频数据片段和所述字幕子数据对所述目标视频进行切分，得到多个视频片段，包括：

基于所述音频数据片段和所述聚类后的字幕子数据对所述目标视频进行切分，得到多个视频片段。

7.根据权利要求6所述的方法，其特征在于，在所述将包含相同字幕的多个连续字幕子数据合并为一类，得到聚类后的字幕子数据之后，所述方法还包括：

其中，所述基于所述音频数据片段和所述聚类后的字幕子数据对所述目标视频进行切分，得到多个视频片段，包括：

基于所述音频数据片段和所述二次聚类后的字幕子数据对所述目标视频进行切分，得到多个视频片段。

8.根据权利要求1或权利要求6-7中任一项所述的方法，其特征在于，所述字幕数据包括所述目标视频中的字幕文本。

9.根据权利要求1所述的方法，其特征在于，所述基于所述音频数据片段和所述字幕子数据对所述目标视频进行切分，得到多个视频片段，包括：

根据所述字幕子数据对所述音频数据片段进行修正，得到多个修正后的音频片段数据；

基于所述多个修正后的音频片段数据，对所述目标视频进行切分，得到所述多个视频片段。

10.根据权利要求9所述的方法，其特征在于，所述根据所述字幕子数据对所述音频数据片段进行修正，得到多个修正后的音频数据片段，包括：

在所述多个音频数据片段和所述多个字幕子数据中，确定目标音频数据片段和所述目标音频数据片段对应的目标字幕子数据，所述目标音频数据片段与所述目标字幕子数据之间存在语义重叠；

基于所述目标字幕子数据对所述目标音频数据片段进行修正，得到多个所述修正后的音频数据片段。

11.根据权利要求9所述的方法，其特征在于，所述基于所述多个修正后的音频数据片段，对所述目标视频进行切分，得到所述多个视频片段，包括：

基于所述多个修正后的音频数据片段对应的起止时间戳，对所述目标视频进行切分，得到所述多个视频片段。

12.根据权利要求1所述的方法，其特征在于，在所述基于所述音频数据片段和所述字幕子数据对所述目标视频进行切分，得到多个视频片段之后，所述方法还包括：

提取每个所述视频片段的目标主题词；

基于所述目标主题词，计算每两个相邻的视频片段之间的语义相似度；

将语义相似度大于预设的语义相似度阈值的两个相邻的视频片段进行合并，得到合并后的视频片段。

13.根据权利要求12所述的方法，其特征在于，在所述基于所述目标主题词，计算每两个相邻的视频片段之间的语义相似度之前，所述方法还包括：

在每个所述视频片段包括至少一个目标主题词的情况下，将每个所述视频片段的至少一个目标主题词进行拼接，得到拼接后的目标主题词；

其中，所述基于所述目标主题词，计算每两个相邻的视频片段之间的语义相似度，包括：

基于所述拼接后的目标主题词，计算每两个相邻的视频片段之间的语义相似度。

14.一种视频切分装置，其特征在于，包括：

视频特征数据获取模块，用于获取目标视频的视频特征数据，所述视频特征数据包括音频数据、字幕数据和镜头数据，所述镜头数据基于镜头边缘检测技术切分得到；

音频数据切分模块，用于对所述音频数据进行切分，得到多个音频数据片段，所述音频数据片段基于纯音乐音频、无意义音频以及转场音频切分得到；

字幕数据切分模块，用于基于所述镜头数据对所述字幕数据进行切分，得到多个字幕子数据；

目标视频切分模块，用于基于所述音频数据片段和所述字幕子数据对所述目标视频进行切分，得到多个视频片段，所述视频片段基于所述音频数据片段对应的起止时间戳以及所述字幕子数据对应的起止时间戳切分得到；

所述字幕数据切分模块具体用于，基于所述镜头数据，将同一个镜头场景的字幕数据进行合并，并将不同镜头场景的字幕数据分离，得到所述多个字幕子数据。

15.一种视频切分设备，其特征在于，包括：

处理器；

存储器，用于存储可执行指令；

其中，所述处理器用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述权利要求1-13中任一项所述的视频切分方法。

16.一种视频切分系统，其特征在于，包括：视频切分设备和显示设备；

所述视频切分设备，用于获取目标视频的视频特征数据，所述视频特征数据包括音频数据、字幕数据和镜头数据，所述镜头数据基于镜头边缘检测技术切分得到；

基于所述音频数据片段和所述字幕子数据对所述目标视频进行切分，得到多个视频片段；

基于所述镜头数据，将同一个镜头场景的字幕数据进行合并，并将不同镜头场景的字幕数据分离，得到所述多个字幕子数据；

所述显示设备，用于接收视频片段显示操作；

响应于所述视频片段显示操作，显示所述视频片段显示操作对应的视频片段，所述视频片段基于所述音频数据片段对应的起止时间戳以及所述字幕子数据对应的起止时间戳切分得到。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得处理器实现上述权利要求1-13中任一项所述的视频切分方法。