CN107623860A

CN107623860A - 多媒体数据分割方法和装置

Info

Publication number: CN107623860A
Application number: CN201710677389.7A
Authority: CN
Inventors: 李冠楠
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-08-09
Filing date: 2017-08-09
Publication date: 2018-01-23

Abstract

本发明提供了一种多媒体数据分割方法及装置，涉及多媒体技术领域。所述多媒体数据分割方法包括：从待分割的多媒体数据中提取音频数据和视频数据，将所述音频数据划分为静音片段和非静音片段，将相邻的所述静音片段与所述非静音片段之间的临界时刻确定为音频分割点，将所述视频数据划分为视频片段，将相邻的所述视频片段之间的临界时刻确定为视频分割点，根据所述音频分割点和所述视频分割点，对所述多媒体数据进行分割，得到多媒体数据段。本发明能够根据音频分割点和视频分割点对多媒体数据进行分割，能够满足对音频数据的分割需要和对视频数据的分割需要，提高了分割多媒体数据的准确性。

Description

多媒体数据分割方法和装置

技术领域

本发明涉及多媒体技术领域，特别是涉及一种多媒体数据分割方法及装置。

背景技术

多媒体技术对信息传递起着至关重要的作用。相对于文本数据，多媒体数据由于能够同时包括音频数据和视频数据，所以能够生动形象地传递大量的信息，比如，一期新闻节目或一集电视剧节目等。但由于多媒体数据的数据量通常较大，且一个多媒体数据中可能是包括多个不同主题的信息，比如一期新闻节目中可能包括多个主题的新闻片段，不利于信息的传递，所以，为了便于信息传递，需要一种多媒体数据分割方法。

现有技术中，可以提取多媒体数据中的视频数据，通过镜头检测、主持人画面检测、字幕检测等方式，将该视频数据划分为视频片段，相邻视频片段之间的临界时刻即为视频分割点，然后按照该视频分割点，对该多媒体数据进行分割，从而将一个数据量较大的多媒体数据分割为多个较小的多媒体数据，或者，将一个包括多个主题的多媒体数据分割为多个包括单个主题的多媒体数据。

但由于视频分割点是仅根据视频数据确定的分割点，而多媒体数据中还包括音频数据，所以根据该视频分割点对该多媒体数据进行分割，可能导致音频数据所表示的语义不连贯，比如将一段完整的乐曲分割开来，或者将一段完整的对话分割开来等。因此，根据该视频分割点对该媒体数据进行分割的准确性较低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的多媒体数据分割方法及装置。

依据本发明的一个方面，提供了多媒体数据分割方法，包括：

从待分割的多媒体数据中提取音频数据和视频数据；

将所述音频数据划分为静音片段和非静音片段，将相邻的所述静音片段与所述非静音片段之间的临界时刻确定为音频分割点；

将所述视频数据划分为视频片段，将相邻的所述视频片段之间的临界时刻确定为视频分割点；

根据所述音频分割点和所述视频分割点，对所述多媒体数据进行分割，得到多媒体数据段。

可选的，所述将所述音频数据划分为静音片段和非静音片段包括：

将所述音频数据划分为音频处理单元；

检测所述音频处理单元的音频类型，所述音频类型包括静音类型和非静音类型；

根据所述音频类型，对划分的音频处理单元进行合并，得到所述静音片段和所述非静音片段。

可选的，所述检测所述音频处理单元的音频类型包括：

确定所述音频处理单元的均方根值；

如果所述均方根值小于绝对静音阈值，确定所述音频处理单元的音频类型为静音类型；

如果所述均方根值大于或等于所述绝对静音阈值，确定所述音频处理单元的音频类型为非静音类型。

可选的，所述检测所述音频处理单元的音频类型包括：

确定所述音频处理单元的均方根值；

如果所述均方根值小于相对静音阈值与特定值之差，确定所述音频处理单元的音频类型为静音类型；

如果所述均方根值大于或等于所述相对静音阈值与所述特定值之差，确定所述音频处理单元的音频类型为非静音类型；

其中，所述相对静音阈值为均方根值队列中包括的均方根值的平均值，所述均方根值队列中包括的均方根值为在所述音频处理单元之前连续的音频处理单元的均方根值。

可选的，在所述确定所述音频处理单元的均方根值之后，还包括：

判定所述均方根值队列中包括的均方根值的数目大于或等于第一预设数目；

将所述均方根值队列中头部的均方根值删除；

将所述音频处理单元的均方根值添加至所述均方根值队列的尾部。

可选的，所述根据所述音频类型，对划分的音频处理单元进行合并包括：

判定连续的音频处理单元的音频类型相同；

将连续的音频处理单元顺次合并。

可选的，在所述将连续的音频处理单元顺次合并之后，还包括：

判定所述静音片段的音频时长小于第一预设时长；

将所述静音片段重置为所述非静音片段。

可选的，所述根据所述音频分割点和所述视频分割点，对所述多媒体数据进行分割包括：

根据所述音频分割点判断所述视频分割点是否可用；

如果所述视频分割点可用，根据所述视频分割点对所述多媒体数据进行分割。

可选的，所述根据所述音频分割点判断所述视频分割点是否可用包括：

如果所述视频分割点处于对应所述静音片段的头分割点和尾分割点之间，确定所述视频分割点可用，其中，所述静音片段的头分割点为与所述静音片段对应的两个音频分割点中时刻靠前的音频分割点，所述静音片段的尾分割点为与所述静音片段对应的两个音频分割点中时刻靠后的音频分割点。

可选的，所述视频片段包括镜头画面，所述镜头画面包括画面帧，所述根据所述音频分割点判断所述视频分割点是否可用包括：

如果在以所述视频分割点为起点之后的第二预设数目的画面帧中存在所述静音片段的头分割点，确定所述视频分割点可用；或，

如果在以所述视频分割点为起点之前的第三预设数目的画面帧中存在所述静音片段的尾分割点，确定所述视频分割点可用。

可选的，在所述根据所述音频分割点判断所述视频分割点是否可用之后，还包括：

如果所述视频分割点不可用，且未查找到以所述视频分割点为起点之前的第四预设数目的镜头画面内存在可用的视频分割点，根据所述视频分割点对所述多媒体数据进行分割；

如果所述视频分割点不可用，且查找到以所述视频分割点为起点之前的第四预设数目的镜头画面内存在可用的视频分割点，根据查到的视频分割点对所述多媒体数据进行分割。

如果所述视频分割点不可用，且未查找到以所述视频分割点为起点之前的第五预设数目的画面帧内存在可用的视频分割点，根据所述视频分割点对所述多媒体数据进行分割；

如果所述视频分割点不可用，且查找到以所述视频分割点为起点之前的第五预设数目的画面帧内存在可用的视频分割点，根据查找到的视频分割点对所述多媒体数据进行分割。

根据本发明的另一方面，提供了多媒体数据分割装置，包括：

提取模块，用于从待分割的多媒体数据中提取音频数据和视频数据；

第一划分模块，用于将所述音频数据划分为静音片段和非静音片段，将相邻的所述静音片段与所述非静音片段之间的临界时刻确定为音频分割点；

第二划分模块，用于将所述视频数据划分为视频片段，将相邻的所述视频片段之间的临界时刻确定为视频分割点；

分割模块，用于根据所述音频分割点和所述视频分割点，对所述多媒体数据进行分割，得到多媒体数据段。

可选的，所述第一划分模块包括：

划分子模块，用于将所述音频数据划分为音频处理单元；

检测子模块，用于检测所述音频处理单元的音频类型，所述音频类型包括静音类型和非静音类型；

合并子模块，用于根据所述音频类型，对划分的音频处理单元进行合并，得到所述静音片段和所述非静音片段。

可选的，所述检测子模块还用于：

确定所述音频处理单元的均方根值；

可选的，所述检测子模块还用于：

确定所述音频处理单元的均方根值；

可选的，所述检测子模块还用于：

将所述均方根值队列中头部的均方根值删除；

可选的，所述合并子模块还用于：

判定连续的音频处理单元的音频类型相同；

将连续的音频处理单元顺次合并。

可选的，所述合并子模块还用于：

判定所述静音片段的音频时长小于第一预设时长；

将所述静音片段重置为所述非静音片段。

可选的，所述分割模块包括：

判断子模块，用于根据所述音频分割点判断所述视频分割点是否可用；

第一分割子模块，用于如果所述视频分割点可用，根据所述视频分割点对所述多媒体数据进行分割。

可选的，所述判断子模块还用于：

可选的，所述视频片段包括镜头画面，所述镜头画面包括画面帧，所述判断子模块还用于：

可选的，所述分割模块还包括：

第二分割子模块，用于如果所述视频分割点不可用，且未查找到以所述视频分割点为起点之前的第四预设数目的镜头画面内存在可用的视频分割点，根据所述视频分割点对所述多媒体数据进行分割；

第三分割子模块，用于如果所述视频分割点不可用，且查找到以所述视频分割点为起点之前的第四预设数目的镜头画面内存在可用的视频分割点，根据查到的视频分割点对所述多媒体数据进行分割。

可选的，所述分割模块还包括：

第四分割子模块，用于如果所述视频分割点不可用，且未查找到以所述视频分割点为起点之前的第五预设数目的画面帧内存在可用的视频分割点，根据所述视频分割点对所述多媒体数据进行分割；

第五分割子模块，用于如果所述视频分割点不可用，且查找到以所述视频分割点为起点之前的第五预设数目的画面帧内存在可用的视频分割点，根据查找到的视频分割点对所述多媒体数据进行分割。

在本发明实施例中，能够从待分割的多媒体数据中提取音频数据和视频数据，通过将该音频数据划分为静音片段和非静音片段，确定音频数据中的音频分割点，通过将该视频数据划分为视频片段，确定视频数据中的视频分割点，因此，根据音频分割点和视频分割点对该多媒体数据进行分割，能够满足对音频数据的分割需要和对视频数据的分割需要，提高了分割多媒体数据的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是根据本发明实施例提供的一种多媒体数据分割方法的步骤流程图；

图2是根据本发明实施例提供的一种音频数据的示意图；

图3是根据本发明实施例提供的一种视频数据的示意图；

图4是根据本发明实施例提供的一种多媒体数据的示意图；

图5是根据本发明实施例提供的一种多媒体数据的分割方式示意图；

图6是根据本发明实施例提供的另一种多媒体数据分割方法的步骤流程图；

图7是根据本发明实施例提供的另一种多媒体数据的分割方式示意图；

图8是根据本发明实施例提供的一种多媒体数据分割装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

参照图1，示出了本发明实施例中的一种多媒体数据分割方法的步骤流程图，该多媒体数据分割方法包括：

步骤101，从待分割的多媒体数据中提取音频数据和视频数据。

由于多媒体数据中通常会包括视频数据和音频数据，因此，为了便于从音频数据中确定音频分割点，从视频数据中确定视频分割点，进而根据该音频分割点和该视频分割点，准确地对该多媒体数据进行分割，提高分割多媒体数据的准确性，可以从待分割的多媒体数据中提取音频数据和视频数据。

该多媒体数据分割方法可以应用于电子设备中，该电子设备可以是电脑、手机等设备。

待分割的多媒体数据为需要分割的多媒体数据，该多媒体数据可以是MP(MovingPicture Experts Group，动态图像专家组)4或AVI(Audio Video Interleaved，音频视频交错格式)等格式多媒体数据，当然，在实际应用中，该多媒体数据还可以是其它格式的多媒体数据。

该多媒体数据可以通过接收提交的多媒体数据得到。其中，可以提供一个多媒体数据提交入口，通过该多媒体数据提交入口接收提交的多媒体数据地址，然后根据该多媒体数据地址从本地存储或者服务器中获取该多媒体数据。

该多媒体数据地址为该多媒体数据在本地存储或者该服务器中存储的地址。

该服务器可以是提供数据存储服务的服务器。

由于该多媒体数据中的视频轨和音频轨通常都是分开的，所以可以从视频轨中提取该视频数据，从音频轨中提取该音频数据。

步骤102，将所述音频数据划分为静音片段和非静音片段，将相邻的所述静音片段与所述非静音片段之间的临界时刻确定为音频分割点。

由于多媒体数据中可能会包括停顿，比如，新闻节目中，主持人播报一个主题的新闻完毕之后，通常停顿一段时间之后，再继续播报下一主题的新闻，停顿这一段时间所对应的音频数据即为静音片段，所以可以将该音频数据划分为静音片段和非静音片段，进而确定音频分割点。

其中，可以将该音频数据展示给用户，根据展示的音频数据接收提交的音频分割操作，根据该音频分割操作，将该视频数据划分为静音片段和非静音片段。

该音频分割操作为用于将该音频数据划分为静音片段和非静音片段的操作，通过该音频分割操作可以确定静音片段的起始位置或结束位置、非静音片段的起始位置或结束位置中的至少一个。该音频分割操作可以由用户触发，该音频分割操作可以为点击操作、滑动操作、触摸操作等操作。

在本发明实施例中，优选的，该音频数据中可以包括一个以上的静音片段和一个以上的非静音片段。

例如，从多媒体数据1提取得到音频数据1，如图2所示。其中，时间轴为多媒体数据1的时间轴，用于说明多媒体数据1的时长。音频数据1中顺次包括非静音片段1、静音片段1、非静音片段2、静音片段2和非静音片段3。非静音片段1和静音片段1之间的临界时刻即为音频分割点1，静音片段1和非静音片段2之间的临界时刻即为音频分割点2，非静音片段2和静音片段2之间的临界时刻即为音频分割点3，静音片段2和非静音片段3之间的临界时刻即为音频分割点4。

步骤103，将所述视频数据划分为视频片段，将相邻的所述视频片段之间的临界时刻确定为视频分割点。

为便于对该多媒体数据进行分割，可以将该视频数据划分为视频片段，相邻的视频片段之间的临界时刻即为视频分割点。

其中，由于该视频数据通常包括镜头画面，且镜头画面可以包括画面帧，不同的镜头画面可能属于不同的主题，所以，可以通过镜头检测、主持人检测、字幕检测等方式，将该视频数据划分为视频片段，该视频片段包括镜头画面。

该镜头画面指一个以上连续且能够表达特定涵义的画面帧的组合，比如，通过同一镜头从开机至关机所拍摄到的画面帧的组合。

可以通过镜头检测、主持人检测或字幕检测等方式中的至少一种，将该视频数据划分为视频片段。

其中，通过镜头检测，可以将该视频数据中画面帧划分割为镜头画面，并将连续的(比如第一特定数目的)镜头画面确定为一个视频片段；通过主持人检测，可以将包括主持人的镜头画面至下一包括主持人的镜头画面之前的镜头画面确定为一个视频片段；通过字幕检测，能够将包括字幕信息的镜头画面至下一包括字幕信息的镜头画面之前的镜头画面确定为一个视频片段。当然，也可以先通过镜头检测将该视频数据分割为镜头画面，再通过主持人检测确定镜头画面是否包括主持人，通过字幕检测确定视镜头画面是否包括字幕信息，从而将镜头画面划分为包括字幕信息和主持人的镜头画面、包括字幕信息但不包括主持人的镜头画面、包括主持人但不包括字幕信息的镜头画面以及不包括字幕信息和主持人的镜头画面，根据主持人及字幕变化情况将多个镜头画面确定为一个视频片段。

第一特定数目可以通过预先设置得到，比如接收提交的数值得到。

在本发明实施例中，优选的，该视频数据可以划分为一个以上的视频片段，各视频片段可以包括一个以上的镜头画面，各镜头画面可以包括一个以上的画面帧。

例如，从多媒体数据1提取到的视频数据1，如图3所示。视频数据1中包括视频片段1、视频片段2、视频片段3、视频片段4和视频片段5，且视频片段1和视频片段5中包括字幕信息，视频片段5中还包括主持人。其中，视频片段1和视频片段2之间的临界时刻为视频分割点1，视频片段2和视频片段3之间的临界时刻为视频分割点2，视频片段3和视频片段4之间的临界时刻为视频分割点3，视频片段4和视频片段5之间的临界时刻为视频分割点4。

步骤104，根据所述音频分割点和所述视频分割点，对所述多媒体数据进行分割，得到多媒体数据段。

为了避免仅依据视频分割点对该多媒体数据进行分割，导致的分割多媒体数据不准确的问题，也即是，为了满足对音频数据和对视频数据的分割需要，进而提高分割多媒体数据的准确性，可以根据该音频分割点和该视频分割点，对该多媒体数据进行分割。

其中，可以在根据该视频分割点，对该多媒体数据进行分割的基础上，也根据该音频分割点，对该多媒体数据进行分割，从而得到多媒体数据段。

多媒体数据段为对该多媒体数据进行分割得到的数据段，该多媒体数据段的格式，可以与该多媒体数据的格式相同。相对于该多媒体数据，该多媒体数据段的数据量较小，且该多媒体数据段中的内容可以对应一个主题。

例如，多媒体数据1如图4所示，在根据如图3所示的是视频分割点对多媒体数据1进行分割的基础上，根据如图2所示的视频分割点对多媒体数据1进行分割，得到多媒体数据段1、多媒体数据段2、多媒体数据段3、多媒体数据段4、多媒体数据段5、多媒体数据段6、多媒体数据段7、多媒体数据段8和多媒体数据段9，如图5所示。

实施例二

参照图6，示出了本发明实施例中的一种多媒体数据分割方法的步骤流程图，该多媒体数据分割方法包括：

步骤601，电子设备从待分割的多媒体数据中提取音频数据和视频数据。

其中，从待分割的多媒体数据中提取音频数据和视频数据的方式，可以与实施例一中步骤101从待分割的多媒体数据中提取音频数据和视频数据的方式相同，此处不再一一赘述。

步骤602，所述电子设备将所述音频数据划分为静音片段和非静音片段，将相邻的所述静音片段与所述非静音片段之间的临界时刻确定为音频分割点。

在本发明实施例中，优选的，为了提高对该音频数据进行处理的效率，进而提高将该音频数据划分为静音片段和非静音片段的效率和准确性，可以将所述音频数据划分为音频处理单元，检测所述音频处理单元的音频类型，所述音频类型包括静音类型和非静音类型，根据所述音频类型，对划分的音频处理单元进行合并，得到所述静音片段和所述非静音片段。

可以将该音频数据划分为第一特定时长的数据模块，将该数据模块划分为第二特定数目的音频处理单元，

其中，第一特定时长或第二特定数目可以由该电子设备通过事先设置得到，比如，接收提交的数值得到。第一特定时长可以为1秒，第二特定数目可以为40。

例如，第二特定时长为k秒，第二特定数目为M，则该数据模块可以表示为S_k={s_i|i=1，2，...k·N}，该音频处理单元可以表示为其中，N表示该音频数据的采样率，N的值可以是16000。

可以确定所述音频处理单元的均方根值，如果所述均方根值小于绝对静音阈值，确定所述音频处理单元的音频类型为静音类型；如果所述均方根值大于或等于所述绝对静音阈值，确定所述音频处理单元的音频类型为非静音类型。

RMS(Soot Meam Square，均方根值)能够说明该音频处理单元中的音量大小，且复杂度较低，能够提高将音频数据划分为静音片段和非静音片段的效率，满足实时对多媒体数据进行分割的需求，因此，可以通过该该音频处理单元的RMS来判断该音频处理单元的音频类型。

其中，该音频处理单元的RMS可以通过公式来计算得到。如果则确定音频处理单元的音频类型为静音类型，如果则确定音频处理单元的音频类型为非静音类型。δ_a表示该绝对静音阈值。

该绝对静音阈值可以通过事先设置得到，比如接收提交的数值得到。该绝对静音阈值可以为-60。

在本发明实施例中，优选的，为了降低该音频数据中的背景噪声对划分静音片段和非静音片段的干扰，提高检测音频处理单元的音频类型的准确性，以提高将该音频数据划分为静音片段和非静音片段的准确性，进而提高分割多媒体数据的准确性，可以确定所述音频处理单元的均方根值，如果所述均方根值小于相对静音阈值与特定值之差，确定所述音频处理单元的音频类型为静音类型。如果所述均方根值大于或等于所述相对静音阈值与所述特定值之差，确定所述音频处理单元的音频类型为非静音类型。其中，所述相对静音阈值为均方根值队列中包括的均方根值的平均值，所述均方根值队列中包括的均方根值为在所述音频处理单元之前连续的音频处理单元的均方根值。

其中，如果则确定音频处理单元的音频类型为静音类型，如果果则确定音频处理单元的音频类型为非静音类型。δ_r表示该相对静音阈值，δ_b表示该特定值。

该均方根值队列可以通过存储在该音频处理单元之前，连续的音频处理单元的均方根值得到。

该特定值可以由该电子设备事先设置得到，比如接收提交的数值得到。该特定值可以为-25。

在本发明实施例中，优选的，为了提高该均方根值队列的准确性，提高确定音频处理单元的音频类型准确性，进而提高分割多媒体数据的可靠性，在确定该音频处理单元的均方根值之后，还可以判定所述均方根值队列中包括的均方根值的数目大于或等与第一预设数目，将所述均方根值队列中头部的均方根值删除，将所述音频处理单元的均方根值添加至所述均方根值队列的尾部。或者，判定所述均方根值队列中包括的均方根值的数目小于第一预设数目，将所述音频处理单元的均方根值添加至所述均方根值队列的尾部。也即是，该均方根值队列最多能够存储在该音频处理单元之前、第一预设数目的音频处理单元的均方根值。

第一预设数目可以由该电子设备通过事先设置得到，比如接收提交的数值得到。第一预设数目可以是800。

对于连续的音频处理单元，可以判定连续的音频处理单元的音频类型相同，将连续的音频处理单元顺次合并。当然，如果判定连续的音频处理单元的音频类型不同，可以不执行将连续的音频处理单元顺次合并的操作。

其中，连续的音频处理单元为将该音频数据划分得到音频处理单元中任意连续的音频处理单元。当连续的音频处理单元的音频类型均为静音类型，或者均为非静音类型，则确定连续的音频处理单元的音频类型相同。

例如，将音频数据2划分为音频处理单元，顺次为音频处理单元1、音频处理单元2、音频处理单元3、音频处理单元4和音频处理单元5。确定音频处理单元1、音频处理单元4和音频处理单元5的音频类型为非静音类型，音频处理单元2和音频处理单元3的音频类型为静音类型，因此，音频处理单元1作为非静音片段1，将音频处理单元2和音频处理单元3合并，得到静音片段1，将音频处理单元4和音频处理单元5合并，得到非静音片段2。

在本发明实施例中，优选的，由于如果该视频数据与该音频数据不同步，可能会导致分割多媒体数据的准确性较低，因此，为了对该视频数据与该音频数据同步需求，提高将该音频数据划分为静音片段和非静音片段的准确性，进而提高分割多媒体数据的准确性，在将连续的音频处理单元顺次合并之后，可以判定所述静音片段的音频时长小于第一预设时长，将所述静音片段重置为所述非静音片段。

第一预设时长可以由该电子设备通过事先设置得到，比如接收提交的数值得到。

当然，在将该静音片段重置为该非静音片段之后，为了提高将该音频数据划分为静音片段和非静音片段的准确性，进而提高分割多媒体数据的准确性，可以判定存在与该非静音片段相邻的非静音片段，并将该非静音片段和与该非静音片段相邻的非静音片段进行合并。

例如，第一预设时长为20毫秒，音频数据2包括的静音片段1的音频时长为19毫秒，19<20，所以将静音片段1重置为非静音片段3。且由于与该非静音片段3相邻的为非静音片段1和非静音片段2，所以，将非静音片段1、非静音片段2和非静音片段3进行合并。

步骤603，所述电子设备将所述视频数据划分为视频片段，将相邻的所述视频片段之间的临界时刻确定为视频分割点。

其中，将所述视频数据划分为视频片段，将相邻的所述视频片段之间的临界时刻确定为视频分割点的方式，可以与实施例一中步骤103将所述视频数据划分为视频片段，将相邻的所述视频片段之间的临界时刻确定为视频分割点的方式相同，此处不再一一赘述。

在步骤601-步骤603中，确定了视频分割点以及音频分割点，因此，在接下来的步骤604-606中，可以根据该视频分割点和该音频分割点，将该多媒体数据分割为多媒体数据段。在本发明实施例中，优选的，可以根据视频分割点判断所有的视频分割点是否效，进而对于各视频分割点，可以确定执行步骤605或步骤606。当然，在实际应用中，为了提高分割多媒体数据的效率或者其它原因，也可以不必对每个视频分割点都判断该视频分割点是否有效。比如，由前述可知，视频片段所包括的镜头画面可以划分为包括字幕信息和主持人的镜头画面、包括字幕信息但不包括主持人的镜头画面、包括主持人但不包括字幕信息的镜头画面以及不包括字幕信息和主持人的镜头画面，因此，在本发明的另一优选实施例中，为了避免因为字幕出现较晚导致的对多媒体数据分割不准确的问题，对于各视频分割点，可以在判定该视频分割点所分割的两个视频片段中，时刻靠前的视频片段的最后一个镜头画面为不包括字幕信息和主持人的镜头画面，时刻靠后的视频片段的第一个镜头画面为包括字幕信息但不包括主持人的镜头画面的情况下，对该视频分割点执行步骤604-步骤606所述的操作；在判定该视频分割点所分割的两个视频片段为其它情况时，直接确定该视频分割点可用，并执行步骤605所述的操作。

步骤604，所述电子设备根据所述音频分割点判断所述视频分割点是否可用。如果所述视频分割点可用，执行步骤605，如果所述视频分割点不可用，执行步骤606。

在该多媒体数据中，由于字幕信息与该视频数据不同步，或者字幕信息和主持人出现较晚等原因，根据该视频数据确定的该视频分割点可能并不能够准确对该多媒体数据进行分割，即该视频分割点不可用，因此，为了提高分割多媒体数据的准确性，可以根据该音频分割点来判断该视频分割点是否可用。

在本发明实施例中，优选的，如果该视频分割点处于该静音片段中，则说明需要对该视频数据分割的位置与该音频数据停顿的位置相吻合，因此为了确定该视频分割点的是否可用，进而提高分割多媒体数据的准确性，如果所述视频分割点处于对应所述静音片段的头分割点和尾分割点之间，确定所述视频分割点可用，其中，所述静音片段的头分割点为与所述静音片段对应的两个音频分割点中时刻靠前的音频分割点，所述静音片段的尾分割点为与所述静音片段对应的两个音频分割点中时刻靠后的音频分割点。相应地，如果所述视频分割点未处于对应所述静音片段的头分割点和尾分割点之间，确定所述视频分割点不可用，

例如，对于如图4所示的多媒体数据中，视频分割点1、视频分割点3和视频分割点4未处于静音片段中，所以视频分割点1、视频分割点3和视频分割点4不可用。视频分割点2处于音频分割点3(即静音片段2的头分割点)与音频分割点4(即静音片段2的尾分割点)之间，即视频分割点2处于静音片段2中，所以视频分割点2可用。

在本发明实施例中，优选的，由于该视频片段包括镜头画面，该镜头画面包括画面帧，因此，为了提高确定该视频分割点是否可用的准确性，进而提高分割多媒体数据的准确性，如果在以所述视频分割点为起点之后的第二预设数目的画面帧中存在所述静音片段的头分割点，确定所述视频分割点可用；或，如果在以所述视频分割点为起点之前的第三预设数目的画面帧中存在所述静音片段的尾分割点，确定所述视频分割点可用。相应地，如果在以所述视频分割点为起点之后的第二预设数目的画面帧中不存在所述静音片段的头分割点，且在以所述视频分割点为起点之前的第三预设数目的画面帧中不存在所述静音片段的尾分割点，确定所述视频分割点不可用。

可以确定在以该视频分割点为起点之后的第二预设数目的画面帧至该视频分割点之间的时长，判断所确定的时长中是否包括静音片段的头分割点。或者，确定在以该视频分割点为起点之前的第三预设数目的画面帧至该视频分割点之间的时长，判断所确定的时长中是否包括静音片段的尾分割点。

第二预设数目或第三预设数目可以由该电子设备预先设置得到，比如，接收提交的数值得到。第二预设数目和第三预设数目可以是4。

步骤605，所述电子设备根据所述视频分割点对所述多媒体数据进行分割，得到多媒体数据段。

由于该视频分割点有效，所以，可以通过该视频分割点，对该多媒体数据进行分割。

步骤606，所述电子设备在所述视频分割点的预设范围内查找可用的视频分割点，如果存在可用的视频分割点，通过查找到的视频分割点对所述多媒体数据进行分割，如果不存在可用的视频分割点，通过所述视频分割点对所述多媒体数据进行分割。

该预设范围可以是以所述视频分割点为起点之前的第四预设数目的镜头画面内，或者，以所述视频分割点为起点之前的第五预设数目的画面帧内。当然，在实际应用中，该预设范围可以是以所述视频分割点为起点之后的第四预设数目的镜头画面内，或者，以所述视频分割点为起点之后的第五预设数目的画面帧内。

第四预设数目和第五预设数目可以由该电子设备预先设置得到，比如，接收提交的数值得到。

当然，如果在该视频分割点的预设范围内，查找到多个可用的视频分割点，可以通过查找到的距离该视频分割点最近的视频分割点，对该多媒体数据进行分割。

例如，在如图4所示的多媒体数据中，视频分割点3和视频分割点4均不可用，但在以视频分割点3或视频分割点4的预设范围内存在可用的视频分割点2，所以，可以通过视频分割点2，对该多媒体数据进行分割，得到多媒体数据段1和多媒体数据段2，如图7所示。

如果所述视频分割点不可用，且未查找到以所述视频分割点为起点之前的第四预设数目的镜头画面内存在可用的视频分割点，根据所述视频分割点对所述多媒体数据进行分割；如果所述视频分割点不可用，且查找到以所述视频分割点为起点之前的第四预设数目的镜头画面内存在可用的视频分割点，根据查到的视频分割点对所述多媒体数据进行分割。

可以确定在以该视频分割点为起点之前的第四预设数目的画面帧至该视频分割点之间的时长，判断所确定的时长中是否包括可用的视频分割点。

当然，在实际应用中，由于该预设范围可以是以所述视频分割点为起点之后的第四预设数目的镜头画面内，所以，如果所述视频分割点不可用，且未查找到以所述视频分割点为起点之后的第四预设数目的镜头画面内存在可用的视频分割点，根据所述视频分割点对所述多媒体数据进行分割；如果所述视频分割点不可用，且查找到以所述视频分割点为起点之后的第四预设数目的镜头画面内存在可用的视频分割点，根据查到的视频分割点对所述多媒体数据进行分割。

如果所述视频分割点不可用，且未查找到以所述视频分割点为起点之前的第五预设数目的画面帧内存在可用的视频分割点，根据所述视频分割点对所述多媒体数据进行分割；如果所述视频分割点不可用，且查找到以所述视频分割点为起点之前的第五预设数目的画面帧内存在可用的视频分割点，根据查找到的视频分割点对所述多媒体数据进行分割。

可以确定在以该视频分割点为起点之前的第五预设数目的画面帧至该视频分割点之间的时长，判断所确定的时长中是否包括可用的视频分割点。

当然，在实际应用中，由于该预设范围可以是以所述视频分割点为起点之后的第五预设数目的画面帧内，所以，如果所述视频分割点不可用，且未查找到以所述视频分割点为起点之后的第五预设数目的画面帧内存在可用的视频分割点，根据所述视频分割点对所述多媒体数据进行分割；如果所述视频分割点不可用，且查找到以所述视频分割点为起点之后的第五预设数目的画面帧内存在可用的视频分割点，根据查找到的视频分割点对所述多媒体数据进行分割。

在本发明实施例中，首先，能够从待分割的多媒体数据中提取音频数据和视频数据，通过将该音频数据划分为静音片段和非静音片段，确定音频数据中的音频分割点，通过将该视频数据划分为视频片段，确定视频数据中的视频分割点，因此，根据音频分割点和视频分割点对该多媒体数据进行分割，能够满足对音频数据的分割需要和对视频数据的分割需要，提高了分割多媒体数据的准确性。

其次，能够将该音频数据划分音频处理单元，根据该音频处理单元的均方根值，准确地确定该音频处理单元的音频类型，并将连续的音频类型相同的音频处理单元进行合并，从而准确地得到静音片段和非静音片段，提高了确定音频分割点的准确性，进而提高了分割多媒体数据的准确性。

另外，能够根据该音频分割点判断该视频分割点是否可用，如果该视频分割点可用，则通过该视频分割点对多媒体数据进行分割，如果该视频分割点不可用，则在以该视频分割点为起点的预设范围内查找可用的视频分割点，通过查找到的可用的视频分割点对该多媒体数据进行分割，避免了该视频分割点不准确而导致的分割该多媒体数据准确性较低的问题，进一步提高了分割多媒体数据的准确性。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必需的。

实施例三

参照图8，示出了本发明实施例中的一种多媒体数据分割装置的结构框图，该多媒体数据分割装置包括：

提取模块801，用于从待分割的多媒体数据中提取音频数据和视频数据；

第一划分模块802，用于将所述音频数据划分为静音片段和非静音片段，将相邻的所述静音片段与所述非静音片段之间的临界时刻确定为音频分割点；

第二划分模块803，用于将所述视频数据划分为视频片段，将相邻的所述视频片段之间的临界时刻确定为视频分割点；

分割模块804，用于根据所述音频分割点和所述视频分割点，对所述多媒体数据进行分割，得到多媒体数据段。

可选的，所述第一划分模块包括：

划分子模块，用于将所述音频数据划分为音频处理单元；

可选的，所述检测子模块还用于：

确定所述音频处理单元的均方根值；

可选的，所述检测子模块还用于：

确定所述音频处理单元的均方根值；

可选的，所述检测子模块还用于：

将所述均方根值队列中头部的均方根值删除；

可选的，所述合并子模块还用于：

判定连续的音频处理单元的音频类型相同；

将连续的音频处理单元顺次合并。

可选的，所述合并子模块还用于：

判定所述静音片段的音频时长小于第一预设时长；

将所述静音片段重置为所述非静音片段。

可选的，所述分割模块包括：

可选的，所述判断子模块还用于：

可选的，所述分割模块还包括：

对于上述多媒体数据分割装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的多媒体数据分割方案不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的多媒体数据分割方案中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种多媒体数据分割方法，其特征在于，包括：

从待分割的多媒体数据中提取音频数据和视频数据；

2.根据权利要求1所述的多媒体数据分割方法，其特征在于，所述将所述音频数据划分为静音片段和非静音片段包括：

将所述音频数据划分为音频处理单元；

3.根据权利要求2所述的多媒体数据分割方法，其特征在于，所述检测所述音频处理单元的音频类型包括：

确定所述音频处理单元的均方根值；

4.根据权利要求2所述的多媒体数据分割方法，其特征在于，所述检测所述音频处理单元的音频类型包括：

确定所述音频处理单元的均方根值；

5.根据权利要求4所述的多媒体数据分割方法，其特征在于，在所述确定所述音频处理单元的均方根值之后，还包括：

将所述均方根值队列中头部的均方根值删除；

6.根据权利要求2所述的多媒体数据分割方法，其特征在于，所述根据所述音频类型，对划分的音频处理单元进行合并包括：

判定连续的音频处理单元的音频类型相同；

将连续的音频处理单元顺次合并。

7.根据权利要求6所述的多媒体数据分割方法，其特征在于，在所述将连续的音频处理单元顺次合并之后，还包括：

判定所述静音片段的音频时长小于第一预设时长；

将所述静音片段重置为所述非静音片段。

8.根据权利要求1所述的多媒体数据分割方法，其特征在于，所述根据所述音频分割点和所述视频分割点，对所述多媒体数据进行分割包括：

根据所述音频分割点判断所述视频分割点是否可用；

9.根据权利要求8所述的多媒体数据分割方法，其特征在于，所述根据所述音频分割点判断所述视频分割点是否可用包括：

10.根据权利要求8所述的多媒体数据分割方法，其特征在于，所述视频片段包括镜头画面，所述镜头画面包括画面帧，所述根据所述音频分割点判断所述视频分割点是否可用包括：

11.根据权利要求8所述的多媒体数据分割方法，其特征在于，在所述根据所述音频分割点判断所述视频分割点是否可用之后，还包括：

12.根据权利要求8所述的多媒体数据分割方法，其特征在于，在所述根据所述音频分割点判断所述视频分割点是否可用之后，还包括：

13.一种多媒体数据分割装置，其特征在于，包括：

14.根据权利要求13所述的多媒体数据分割装置，其特征在于，所述第一划分模块包括：

划分子模块，用于将所述音频数据划分为音频处理单元；

15.根据权利要求14所述的多媒体数据分割装置，其特征在于，所述检测子模块还用于：

确定所述音频处理单元的均方根值；

16.根据权利要求14所述的多媒体数据分割装置，其特征在于，所述检测子模块还用于：

确定所述音频处理单元的均方根值；

17.根据权利要求16所述的多媒体数据分割装置，其特征在于，所述检测子模块还用于：

将所述均方根值队列中头部的均方根值删除；

18.根据权利要求14所述的多媒体数据分割装置，其特征在于，所述合并子模块还用于：

判定连续的音频处理单元的音频类型相同；

将连续的音频处理单元顺次合并。

19.根据权利要求18所述的多媒体数据分割装置，其特征在于，所述合并子模块还用于：

判定所述静音片段的音频时长小于第一预设时长；

将所述静音片段重置为所述非静音片段。

20.根据权利要求13所述的多媒体数据分割装置，其特征在于，所述分割模块包括：

21.根据权利要求20所述的多媒体数据分割装置，其特征在于，所述判断子模块还用于：

22.根据权利要求20所述的多媒体数据分割装置，其特征在于，所述视频片段包括镜头画面，所述镜头画面包括画面帧，所述判断子模块还用于：

23.根据权利要求20所述的多媒体数据分割装置，其特征在于，所述分割模块还包括：

24.根据权利要求20所述的多媒体数据分割装置，其特征在于，所述分割模块还包括：