CN112399269B

CN112399269B - 视频分割方法、装置、设备及存储介质

Info

Publication number: CN112399269B
Application number: CN202011261757.8A
Authority: CN
Inventors: 曾乙峰
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2023-06-20
Anticipated expiration: 2040-11-12
Also published as: CN112399269A

Abstract

本申请实施例公开了一种视频分割方法、装置、设备及存储介质，涉及视频处理技术领域，其包括：获取视频数据，所述视频数据包含视频图像和音频数据；将所述音频数据转换成文本数据；对所述文本数据进行分段，以得到多个子文本数据；根据所述子文本数据对所述视频数据进行分割，以得到多个子视频数据，每个子文本数据对应一个子视频数据。采用上述方案可以解决现有技术中，截取视频数据时效率低的技术问题。

Description

视频分割方法、装置、设备及存储介质

技术领域

本申请实施例涉及视频处理技术领域，尤其涉及一种视频分割方法、装置、设备及存储介质。

背景技术

随着互联网技术和多媒体技术的快速发展，用户可观看的视频内容形式越来越丰富，例如，用户可以通过视频网站观看网络上的在线视频数据，再如，用户可以通过直播网站观看正在直播的视频数据，又如，用户可以下载或缓存在线视频数据，以在需要的时候离线观看。

此时，随着视频资源越来越丰富，用户对视频数据进行再处理的需求越来越大，例如，分割视频数据的某段内容并进而二次加工(如添加字幕、更改音频内容、转换音频音色等)。现有技术中，通常采用人工的方式截取视频数据中的某段内容。然而，当视频数据包含的内容较多(时间较长)时，需要人工浏览较多的内容才能确定截取内容在视频数据中的位置，这样大大降低了处理效率。

发明内容

本申请提供了一种视频分割方法、装置、设备及存储介质，以解决现有技术中，截取视频数据时效率低的技术问题。

第一方面，本申请实施例提供了一种视频分割方法，包括：

获取视频数据，所述视频数据包含视频图像和音频数据；

将所述音频数据转换成文本数据；

对所述文本数据进行分段，以得到多个子文本数据；

根据所述子文本数据对所述视频数据进行分割，以得到多个子视频数据，每个子文本数据对应一个子视频数据。

进一步的，所述对所述文本数据进行分段，以得到多个子文本数据包括：

确定所述文本数据中各单个文本在所述视频数据中对应的第一播放时刻；

根据各所述第一播放时刻对所述文本数据进行分段，以得到多个子文本数据。

进一步的，所述根据各所述第一播放时刻对所述文本数据进行分段，以得到多个子文本数据包括：

根据各所述第一播放时刻，计算相邻单个文本间的播放时刻间隔时长；

确认所述播放时刻间隔时长大于或等于时长阈值的相邻单个文本；

根据确认的相邻单个文本对所述文本数据进行分段，以得到多个子文本数据。

根据各所述第一播放时刻，确定目标播放时刻在所述文本数据中对应的目标单个文本；

根据所述目标单个文本对所述文本数据进行分段，以得到多个子文本数据。

对所述文本数据进行语义识别；

根据语义识别结果对所述文本数据进行分段，以得到多个子文本数据。

进一步的，还包括：

根据所述子文本数据为相应的子视频数据添加字幕。

进一步的，所述根据所述子文本数据对所述视频数据进行分割，以得到多个子视频数据包括：

确定所述子文本数据中起始单个文本的第二播放时刻；

根据所述第二播放时刻对所述视频数据进行分割，以将所述第二播放时刻作为分割后子视频数据的起始播放时刻。

第二方面，本申请实施例还提供了一种视频分割装置，包括：

视频获取模块，用于获取视频数据，所述视频数据包含视频图像和音频数据；

数据转换模块，用于将所述音频数据转换成文本数据；

数据分段模块，用于对所述文本数据进行分段，以得到多个子文本数据；

视频分割模块，用于根据所述子文本数据对所述视频数据进行分割，以得到多个子视频数据，每个子文本数据对应一个子视频数据。

第三方面，本申请实施例还提供了一种视频分割设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的视频分割方法。

第四方面，本申请实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的视频分割方法。

上述视频分割方法、装置、设备及存储介质，通过获取视频数据，并根据视频数据中的音频数据得到对应的文本数据，对文本数据进行分段以得到多个子文本数据，之后，根据子文本数据对视频数据进行分割，以得到多个子视频数据的技术手段，实现了对视频数据的自动化分割，解决了现有技术中，截取视频数据时效率低的技术问题。此时，即使分割的子视频数据不符合用户的需求，用户也可以对子视频数据再次进行截取，此时，由于子视频数据包含的内容相对较少，因此，也可以提高用户的截取效率。进一步的，通过不同的分割方案对视频数据进行分割，可以满足用户的不同需求，如用户需要得到多个播放时长相等的子视频数据时可以采用方案一，用户需要每个子视频数据中音频内容具有关联性时可以采用方案二，大幅提升了用户的使用体验。进一步的，得到子视频数据后，可以对各子视频数据自动添加字幕，以便于用户明确各子视频数据中音频数据的内容，便于后续处理时用户快速确定子视频数据是否为其需要的数据。

附图说明

图1为本申请一个实施例提供的一种视频分割方法的流程图；

图2为本申请一个实施例提供的一种视频分割装置的结构示意图；

图3为本申请一个实施例提供的一种视频分割设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例中提供的视频分割方法可以由视频分割装置执行，该视频分割装置可以通过软件和/或硬件的方式实现，并集成在视频分割设备中。其中，视频分割设备可以是平板电脑、台式电脑、服务器等智能设备。

图1为本申请一个实施例提供的一种视频分割方法的流程图。参考图1，该视频分割方法具体包括：

步骤110、获取视频数据，视频数据包含视频图像和音频数据。

实施例中，视频数据包括视频图像和音频数据。视频图像是指视频数据中各帧图像，即视频图像是指视频数据包含的影像内容。音频数据是指视频数据中的声音内容。即播放视频数据时用户除了观看到影像内容还可以收听到声音内容。视频数据的来源实施例不做限定，例如，视频数据是从互联网中获取的数据，也可以是从其他已连接设备(有线或无线连接)中获取的数据，还可以是本地图像采集装置(如摄像头)拍摄的视频数据，且拍摄过程中通过音频采集装置(如麦克风)采集对应的音频数据。视频数据中视频图像和音频数据所包含的内容实施例不做限定。

步骤120、将音频数据转换成文本数据。

文本数据通过音频数据确定，即将音频数据转换为可观看、可读取的文本数据。一个实施例中，利用自动语音识别技术(Automatic Speech Recognition，ASR)将音频数据转换成文本数据，且利用ASR进行语音识别时所采用的具体手段实施例不做限定。另一个实施例中，利用机器学习手段，通过构建神经网络模型的方式将音频数据转换为文本数据。

进一步的，文本数据的数据类型实施例不做限定。文本数据中的单个文本均可以在音频数据中找到相应的文字或单词。其中，单个文本可以认为是文本数据中的最小记录单元，例如，文本数据为“自动切分视频”，该文本数据包含6个单个文本，每个单个文本为一个文字。

可理解，实际应用中，音频数据可能还包括环境噪音(如动物声音、建筑工地声音等)，因此，实施例中，将音频数据转换成文本数据时，可以去除音频数据的环境噪音，此时，保留的音频数据仅为人类语言。

可选的，得到文本数据后，文本数据与视频数据关联存储，以便于用户通过文本数据快速确定视频数据的内容。

步骤130、对文本数据进行分段，以得到多个子文本数据。

示例性的，将文本数据分割为多段数据，实施例中，每段数据记为一个子文本数据，各子文本数据组成文本数据。每个子文本数据中的单个文本为连续的单个文本，即每个子文本数据对应音频数据中一段时间连续的数据。

进一步的，分段方式可以结合实际情况设定，例如，按照文本数据所表示的语义对文本数据进行分段，如对文本数据进行语义识别后，确定文本数据中前一部分的语义内容为对A地区的环境介绍，后一部分的语义内容为对B地区的环境介绍，因此，根据语义识别结果将文本数据分为两个子文本数据。又如，根据文本数据中各单个文本在视频数据中的播放时刻对文本数据进行分段，如将一段播放时长内的单个文本划分到一个子文本数据中或者是将连续播放的单个文本划分到一个子文本数据中，其中，连续播放的单个文本是指各单个文本之间的播放时刻间隔时间较短。再如，根据文本数据的字数进行分段，即每个子文本数据中包含相等的文本字数。

实施例中，为了便于理解，以下述方案为例，描述文本数据的分段过程：

方案一、步骤130包括步骤131-步骤132：

步骤131、确定文本数据中各单个文本在视频数据中对应的第一播放时刻。

具体的，视频数据在播放过程中，音频数据中的文字或单词均在视频数据中存在对应的播放时刻，该播放时刻体现当前文字或单词在视频数据播放时长中的位置。实施例中，将该播放时刻记为第一播放时刻。第一播放时刻的精确度可以根据实际情况设定，例如，第一播放时刻精确到毫秒。

根据音频数据得到文本数据中，文本数据中的每个单个文本均可以在视频数据中找到对应的第一播放时刻。具体的，确定每个单个文本在音频数据中对应的文字或字母，之后，将文字或字母对应的第一播放时刻作为单个文本的第一播放时刻。或者是，将音频数据转换为文本数据时，同步获取单个文本对应的文字或字母的第一播放时刻，并作为单个文本的第一播放时刻。

步骤132、根据各第一播放时刻对文本数据进行分段，以得到多个子文本数据。

得到单个文本的第一播放时刻后，便可以根据第一播放时刻对文本数据进行分段。一个实施例中，将第一播放时刻连续的单个文本分为一段。此时，步骤132包括步骤1321-步骤1323：

步骤1321、根据各第一播放时刻，计算相邻单个文本间的播放时刻间隔时长。

相邻单个文本是指在文本数据中两个单个文本之间没有的其他文本，属于相邻关系。每个相邻单个文本均包含两个单个文本。具体的，获取文本数据中每个相邻单个文本对应的两个第一播放时刻，之后，计算两个第一播放时刻之间的差值。该差值可以体现相邻单个文本中前一单个文本播放到后一单个文本之间的时间间隔，实施例中，将该差值记为播放时刻间隔时长。可理解，播放时刻间隔时长越大，相邻单个文本之间的间隔时长就越长，音频数据中对应文字或字母间的停顿就越长。

可理解，对于文本数据而言，除了第一个单个文本和最后一个单个文本之外，剩余的每个单个文本均存在两个相邻的单个文本，即每个单个文本均作为一个相邻单个文本中的后一单个文本以及另一个相邻单个文本中的前一单个文本。

步骤1322、确认播放时刻间隔时长大于或等于时长阈值的相邻单个文本。

示例性的，人类在讲话时，为了便于收听者的理解，会在讲话过程中产生停顿，因此，实施例中，通过停顿对文本数据进行分段。具体的，预先设定一个时长阈值，根据时长阈值可以确定相邻的两个单个文本之间的停顿是否为用于分段的停顿。其中，时长阈值的具体值可以根据实际情况设定。

具体的，获取每个相邻单个文本对应的播放时刻间隔时长后，分别将每个播放时刻间隔时长与时长阈值进行比较，以得到大于或等于时长阈值的播放时刻间隔时长。之后，确定大于或等于时长阈值的播放时刻间隔时长所对应的相邻单个文本。

步骤1323、根据确认的相邻单个文本对文本数据进行分段，以得到多个子文本数据。

可理解，当播放时刻间隔时长大于或等于时长阈值时，说明播放时刻间隔时长对应的相邻单个文本中两个单个文本之间存在停顿，且该停顿时长较长，可以进行分段。因此，根据该停顿对文本数据进行分段。具体的，在播放时刻间隔时长大于或等于时长阈值时，将对应的相邻单个文本作为分割线以对文本数据进行分段，即将相邻单个文本中的两个单个文本分别作为前一分段的最后一个单个文本和下一分段的第一个单个文本。按照这种方式，将确认的每个相邻单个文本均作为分割线，便可以得到多个子文本数据。

另一个实施例中，根据第一播放时刻将一定时间长度内的单个文本分为一段。此时，步骤132包括步骤1324-步骤1325：

步骤1324、根据各第一播放时刻，确定目标播放时刻在文本数据中对应的目标单个文本。

具体的，预先设定一目标时长，以使各子文本数据对应的音频数据的持续时长小于该目标时长。目标时长的具体值可以结合视频数据的总时长确定，例如，总时长为60分钟，那么，预先设定的目标时长可以为10分钟。

进一步的，目标播放时刻是指根据预先设定的目标时长对文本数据进行切割后，每个子文本数据中第一个单个文本对应的第一播放时刻。具体的，根据预先设定的目标时长和视频数据的总时长确定目标播放时刻。例如，预先设定的时间长度为10分钟，视频数据的总时长为60分钟，且第一播放时刻精确到毫秒，那么，目标播放时刻分别为00分00秒00毫秒、10分00秒00毫秒、20分00秒00毫秒、30分00秒00毫秒、40分00秒00毫秒、50分00秒00毫秒。确定各目标播放时刻后，便可以确定文本数据中，目标播放时刻对应的单个文本，实施例中，将目标播放时刻对应的单个文本记为目标单个文本。具体的，在各第一播放时刻中，查找与目标播放时刻相等的第一播放时刻，之后，将查找到的第一播放时刻所对应的单个文本作为目标单个文本。

需说明，实际应用中，目标播放时刻处可能不存在对应的目标单个文本，即目标播放时刻刚好处于相邻单个文本之间，例如，相邻单个文本对应的两个第一播放时刻分别为40分01秒55毫秒和40分02秒10毫秒，目标播放时刻为40分02秒00毫秒，此时，目标播放时刻刚好处于两个单个文本的第一播放时刻之间。此时，将位于目标播放时刻后面的第一个单个文本作为目标单个文本，例如，将40分02秒10毫秒对应的单个文本作为目标单个文本。

步骤1325、根据目标单个文本对文本数据进行分段，以得到多个子文本数据。

具体的，将各目标单个文本分别作为各子文本数据的第一个单个文本，以实现对文本数据的分段。

可选的，在分段时确定目标单个文本与前一个单个文本之间的播放时刻间隔时长是否满足一定的阈值，该阈值可以根据实际情况设定，该阈值用于确定目标单个文本与前一个单个文本是否属于同一个句子。可理解，同一句子中的文字或字母间具有很近的播放时刻。若是，则说明目标单个文本和前一个单个文本不属于同一句子，此时，将目标单个文本作为子文本数据的第一个单个文本，否则，说明目标单个文本和前一个单个文本属于同一句子，此时，将前一个单个文本作为子文本数据的第一个单个文本，并再次确定第一个单个文本与前一个单个文本之间的播放时刻间隔时长，重复上述过程，直到播放时刻间隔时长满足一定的阈值时，将其对应的单个文本作为子文本段落的第一个单个文本。

方案二、步骤130包括步骤133-步骤134：

步骤133、对文本数据进行语义识别。

具体的，语义识别可理解为对文本数据进行加工以明确其表示的含义。语义识别所采用的技术手段实施例不做限定，例如，利用神经网络构建语义识别模型，并对语义识别模型进行训练，以通过语义识别模型对文本数据进行语义识别。

步骤134、根据语义识别结果对文本数据进行分段，以得到多个子文本数据。

示例性的，进行语义识别后可以得到语义识别结果，通过语义识别结果可以确定文本数据中各句子表示的含义，每个句子均由多个单个文本组成，句子的划分可以通过语义识别得到，或者是播放时刻间隔时长得到。

进一步的，通过语义识别结果还可以确定相邻句子间是否具有关联性，关联性是指两个句子描述的内容之间存在关联。例如，相邻句子都是对物品A的描述，因此，可以确定相邻句子具有关联性。之后，将具有关联性的相邻句子划分到同一子文本数据中，进而得到多个子文本数据。可选的，若文本数据中所有句子均具有关联性，则可以根据句子的数量进行划分，即将一定数量的相邻句子组成一个子文本数据，其中，每个子文本数据包含的句子数量可以根据实际情况设定。

可理解，实际应用中，可以选择上述任一方案，或者是，结合两个方案，并为每个方案设定触发条件，当满足触发条件时，选择对应的方案对视频数据进行分割。

步骤140、根据子文本数据对视频数据进行分割，以得到多个子视频数据，每个子文本数据对应一个子视频数据。

具体的，对文本数据分段后，便可以根据子文本数据对视频数据进行分割，以将视频数据分为多个子数据，实施例中，将对视频数据进行分割后得到的子数据记为子视频数据，此时，每个子视频数据均是根据对应的子文本数据得到，即子视频数据中包含子文本数据对应的音频内容。

一个实施例中，根据子文本数据分割视频数据时，确定子文本数据中第一个单个文本对应的第一播放时刻和最后一个单个文本对应的第一播放时刻，之后，在视频数据中截取两个第一播放时刻之间的内容作为子视频数据。可理解，若前一个子文本数据中最后一个单个文本的第一播放时刻和后一个子文本数据中第一个单个文本的第一播放时刻之间具有较长的播放时刻间隔时长，则按照上述方式进行分割后，两个子文本数据之间具有空白音频(没有人类语言的音频)对应的视频内容不会出现在子视频数据中。此时，为了防止具有空白音频的视频内容被丢弃，实施例中，在分割视频数据时具体包括步骤141-步骤142：

步骤141、确定子文本数据中起始单个文本的第二播放时刻。

起始单个文本是指子文本数据中第一个单个文本，实施例中，将起始单个文本对应的第一播放时刻记为第二播放时刻。可理解，每个子文本数据对应一个第二播放时刻。

步骤142、根据第二播放时刻对视频数据进行分割，以将第二播放时刻作为分割后子视频数据的起始播放时刻。

根据第二播放时刻对视频数据进行分割时，将第二播放时刻作为各子视频数据的起始播放时刻。具体的，在视频数据中查找各第二播放时刻对应的帧图像，之后，将该帧图像作为子视频数据中的第一帧图像，同时，将音频数据中第二播放时刻作为子视频数据中音频起始播放时刻，进而实现对视频数据的分割。可理解，若第二播放时刻不存在对应的帧图像，则将位于第二播放时刻后的第一个帧图像作为子视频数据的第一帧图像。

可选的，对于第一个子视频数据而言，若其对应的子文本数据中起始单个文本的第二播放时刻不是视频数据的起始播放时刻，则可以直接将视频数据的起始播放时刻作为第一个子视频数据的起始播放时刻。

进一步的，得到多个子视频数据后，便可以进行后续的处理。例如，根据子文本数据为相应的子视频数据添加字幕。

具体的，预先设定子视频数据中字幕的添加区域、字幕的字体、字幕的颜色以及字幕的字号。之后，将子文本数据中的各单个文本转换成对应的字体、颜色和字号，并显示在字幕的添加区域中，以实现为子视频数据中添加字幕。其中，在添加区域中添加字幕时，可以是将一定播放时长(如2s)内的单个文本同时显示在添加区域，或者是将一个句子中的单个文本同时显示在添加区域中，又或者采用其他的规则将单个文本显示在添加区域中。

可选的，在添加字幕前，先确定子视频数据中是否已经添加了字幕，若是，则无需再次添加字幕，否则，可以添加字幕。

可选的，为了便于用户对子视频数据的查找和处理，得到子视频数据后，可以对子视频数据添加标签，其中，标签内容可以根据实际情况设定，如标签内容包含视频数据的名称、子视频数据的编号以及子视频数据对应的子文本数据中的关键字等。

上述，通过获取视频数据，并根据视频数据中的音频数据得到对应的文本数据，对文本数据进行分段以得到多个子文本数据，之后，根据子文本数据对视频数据进行分割，以得到多个子视频数据的技术手段，实现了对视频数据的自动化分割，解决了现有技术中，截取视频数据时效率低的技术问题。此时，即使分割的子视频数据不符合用户的需求，用户也可以对子视频数据再次进行截取，此时，由于子视频数据包含的内容相对较少，因此，也可以提高用户的截取效率。进一步的，通过不同的分割方案对视频数据进行分割，可以满足用户的不同需求，如用户需要得到多个播放时长相等的子视频数据时可以采用方案一，用户需要每个子视频数据中音频内容具有关联性时可以采用方案二，大幅提升了用户的使用体验。进一步的，得到子视频数据后，可以对各子视频数据自动添加字幕，以便于用户明确各子视频数据中音频数据的内容，便于后续处理时用户快速确定子视频数据是否为其需要的数据。

图2为本申请一个实施例提供的一种视频分割装置的结构示意图。参考图2，本实施例提供的视频分割装置包括：视频获取模块201、数据转换模块202、数据分段模块203以及视频分割模块204。

其中，视频获取模块201，用于获取视频数据，所述视频数据包含视频图像和音频数据；数据转换模块202，用于将所述音频数据转换成文本数据；数据分段模块203，用于对所述文本数据进行分段，以得到多个子文本数据；视频分割模块204，用于根据所述子文本数据对所述视频数据进行分割，以得到多个子视频数据，每个子文本数据对应一个子视频数据。

上述，通过获取视频数据，并根据视频数据中的音频数据得到对应的文本数据，对文本数据进行分段以得到多个子文本数据，之后，根据子文本数据对视频数据进行分割，以得到多个子视频数据的技术手段，实现了对视频数据的自动化分割，解决了现有技术中，截取视频数据时效率低的技术问题。此时，即使分割的子视频数据不符合用户的需求，用户也可以对子视频数据再次进行截取，此时，由于子视频数据包含的内容相对较少，因此，也可以提高用户的截取效率。

在上述实施例的基础上，数据分段模块203包括：第一时刻确定单元，用于确定所述文本数据中各单个文本在所述视频数据中对应的第一播放时刻；第一分段单元，用于根据各所述第一播放时刻对所述文本数据进行分段，以得到多个子文本数据。

在上述实施例的基础上，第一分段单元包括：时长计算子单元，用于根据各所述第一播放时刻，计算相邻单个文本间的播放时刻间隔时长；时长比较子单元，用于确认所述播放时刻间隔时长大于或等于时长阈值的相邻单个文本；第一文本分段子单元，用于根据确认的相邻单个文本对所述文本数据进行分段，以得到多个子文本数据。

在上述实施例的基础上，第一分段单元包括：目标时刻确定子单元，用于根据各所述第一播放时刻，确定目标播放时刻在所述文本数据中对应的目标单个文本；第二文本分段子单元，用于根据所述目标单个文本对所述文本数据进行分段，以得到多个子文本数据。

在上述实施例的基础上，数据分段模块203包括：语义识别单元，用于对所述文本数据进行语义识别；第二分段单元，用于根据语义识别结果对所述文本数据进行分段，以得到多个子文本数据。

在上述实施例的基础上，还包括：字幕添加模块，用于根据所述子文本数据为相应的子视频数据添加字幕。

在上述实施例的基础上，视频分割模块204包括：第二时刻确定单元，用于确定所述子文本数据中起始单个文本的第二播放时刻；数据分割单元，用于根据所述第二播放时刻对所述视频数据进行分割，以将所述第二播放时刻作为分割后子视频数据的起始播放时刻。

本实施例提供的视频分割装置包含在视频分割设备中，可以用于执行上述实施例提供的视频分割方法，具备相应的功能和有益效果。

值得注意的是，上述视频分割装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图3为本申请一个实施例提供的一种视频分割设备的结构示意图。具体的，如图3所示，该视频分割设备包括处理器30、存储器31、输入装置32、输出装置33；该视频分割设备中处理器30的数量可以是一个或多个，图3中以一个处理器30为例；该视频分割设备中的处理器30、存储器31、输入装置32、输出装置33可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器31作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的视频分割方法中的程序指令/模块(例如，视频分割装置中的视频获取模块201、数据转换模块202、数据分段模块203以及视频分割模块204)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块，从而执行视频分割设备的各种功能应用以及数据处理，即实现上述实施例提供的视频分割方法。

存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据视频分割设备的使用所创建的数据等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器31可进一步包括相对于处理器30远程设置的存储器，这些远程存储器可以通过网络连接至视频分割设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置32可用于接收输入的数字或字符信息，以及产生与视频分割设备的用户设置以及功能控制有关的键信号输入，还可以包括图像采集装置(如摄像头)、音频采集装置(如麦克风)等。输出装置33可包括扬声器、显示屏32等设备。此外，视频分割设备还可以包括通信装置(图未示)，该通信装置可与其他设备进行数据通信。

上述视频分割设备可以用于执行任意实施例提供的视频分割方法，具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种视频分割方法，该方法包括：

获取视频数据，所述视频数据包含视频图像和音频数据；

将所述音频数据转换成文本数据；

对所述文本数据进行分段，以得到多个子文本数据；

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的视频分割方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的视频分割方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种视频分割方法，其特征在于，包括：

获取视频数据，所述视频数据包含视频图像和音频数据；

将所述音频数据转换成文本数据；

对所述文本数据进行分段，以得到多个子文本数据；

根据所述子文本数据对所述视频数据进行分割，以得到多个子视频数据，每个子文本数据对应一个子视频数据；

所述对所述文本数据进行分段，以得到多个子文本数据包括：

根据各所述第一播放时刻对所述文本数据进行分段，以得到多个子文本数据；

所述根据各所述第一播放时刻对所述文本数据进行分段，以得到多个子文本数据，包括：根据各所述第一播放时刻，计算相邻单个文本间的播放时刻间隔时长；确认所述播放时刻间隔时长大于或等于时长阈值的相邻单个文本；根据确认的相邻单个文本对所述文本数据进行分段，以得到多个子文本数据；

所述根据所述子文本数据对所述视频数据进行分割，以得到多个子视频数据包括：

确定所述子文本数据中起始单个文本的第二播放时刻；

2.根据权利要求1所述的视频分割方法，其特征在于，还包括：

根据所述子文本数据为相应的子视频数据添加字幕。

3.一种视频分割装置，其特征在于，包括：

数据转换模块，用于将所述音频数据转换成文本数据；

视频分割模块，用于根据所述子文本数据对所述视频数据进行分割，以得到多个子视频数据，每个子文本数据对应一个子视频数据；

所述数据分段模块包括：第一时刻确定单元，用于确定所述文本数据中各单个文本在所述视频数据中对应的第一播放时刻；第一分段单元，用于根据各所述第一播放时刻对所述文本数据进行分段，以得到多个子文本数据；

所述第一分段单元包括：时长计算子单元，用于根据各所述第一播放时刻，计算相邻单个文本间的播放时刻间隔时长；时长比较子单元，用于确认所述播放时刻间隔时长大于或等于时长阈值的相邻单个文本；第一文本分段子单元，用于根据确认的相邻单个文本对所述文本数据进行分段，以得到多个子文本数据；

所述视频分割模块包括：第二时刻确定单元，用于确定所述子文本数据中起始单个文本的第二播放时刻；数据分割单元，用于根据所述第二播放时刻对所述视频数据进行分割，以将所述第二播放时刻作为分割后子视频数据的起始播放时刻。

4.一种视频分割设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-2中任一所述的视频分割方法。

5.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-2中任一所述的视频分割方法。