CN103905742A

CN103905742A - 视频文件的切分方法及装置

Info

Publication number: CN103905742A
Application number: CN201410143826.3A
Authority: CN
Inventors: 崔玉斌; 宿玉文
Original assignee: Sumavision Technologies Co Ltd
Current assignee: Sumavision Technologies Co Ltd
Priority date: 2014-04-10
Filing date: 2014-04-10
Publication date: 2014-07-02

Abstract

本发明公开了一种视频文件的切分方法及装置，在上述方法中，将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M<N，N和M均为正整数；分别获取每个音频数据单元对应的视频图像帧所在的GoP，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；根据码流分析结果对与音频文件同步播放的视频文件进行切分。根据本发明提供的技术方案，提高了新媒体内容产生系统的效率和性能。

Description

视频文件的切分方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种视频文件的切分方法及装置。

背景技术

图1是根据相关技术的新闻节目大数据Map-Reduce并行处理流程的示意图。如图1所示，在Hadoop中的每个数据节点上运行Map作业，各自处理一路新闻电视节目。Map主要执行以下两种操作：

其一、是采用语音识别算法对电视新闻播音员的语音数据进行处理；

其二、是进行视频内容分析和视频切分输出新媒体数据。

其中，Map第一阶段的主要目的在于对视频段进行语音识别分析以获取语音关键词作为标签，并为新媒体内容搜索建立索引。而Map第二阶段的主要目的在于产生当今日益流行的三屏新媒体短视频内容。然后再由Reduce作业将新媒体内容进行分类聚合，从而适应于新媒体聚合门户应用。

然而，上述技术方案存在如下缺陷：相关技术中为了并行计算而简单切分文件会导致语音识别的准确率下降。另外，自动化切分新媒体内容缺乏紧密性、准确性和完整性。

发明内容

本发明提供了一种视频文件的切分方法及装置，以至少解决相关技术中为了并行计算而简单切分文件会导致语音识别的准确率下降的问题。

根据本发明的一个方面，提供了一种视频文件的切分方法。

根据本发明实施例的视频文件的切分方法包括：将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M<N，N和M均为正整数；分别获取每个音频数据单元对应的视频图像帧所在的视频图像组（GoP），并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；根据码流分析结果对与音频文件同步播放的视频文件进行切分。

优选地，根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元包括：按照预先设定的关键词类别分别对每个音频数据段中出现的多个关键词进行分类；对每种分类中的各个关键词的出现频率进行统计分析并在对每个关键词的出现频率进行降序排列后选取前X个关键词，其中，X为正整数；判断相邻的多个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值；如果是，则对相邻的多个音频数据段进行合并。

优选地，采用以下公式判断相邻的两个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值：

Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i}^{v} (j) - Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i - 1}^{v} (j) < TH,

其中，

表示在第i个音频数据段中，第v个类别，第j个关键词在经过统计分析后得到的出现频率，λ_v为符合泊松分布包络线的关键词类别的权重系数，C为预先设定的关键词类别的数量，v和j均为正整数且v<C，TH为预设阈值。

优选地，根据码流分析结果对与音频文件同步播放的视频文件进行切分包括：在对GoP以及与GoP前后相邻的两个GoP进行码流分析后，获取每个GoP内各个视频帧的宏块序号、DC分量数值、运动矢量残差值和帧内编码宏块数量；根据宏块序号和DC分量数值检测每个GoP中的关键帧；采用运动矢量残差值进行运动复杂度分析；根据相邻视频帧各自的帧内编码宏块数量统计相邻视频帧的帧内编码宏块数量的变化幅度；根据检测结果、运动复杂度分析结果以及变化幅度统计结果确定对视频文件的切分位置。

优选地，采用Hadoop中的数据节点上运行的Map作业对音频文件进行划分，生成M个音频数据单元，以及对与音频文件同步播放的视频文件进行切分；采用Reduce作业对划分后的音频文件以及划分后的视频文件进行分类聚合。

根据本发明的另一方面，提供了一种视频文件的切分装置。

根据本发明实施例的视频文件的切分装置包括：处理模块，用于将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M<N，N和M均为正整数；分析模块，用于分别获取每个音频数据单元对应的视频图像帧所在的GoP，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；切分模块，用于根据码流分析结果对与音频文件同步播放的视频文件进行切分。

优选地，处理模块包括：分类单元，用于按照预先设定的关键词类别分别对每个音频数据段中出现的多个关键词进行分类；选取单元，用于对每种分类中的各个关键词的出现频率进行统计分析并在对每个关键词的出现频率进行降序排列后选取前X个关键词，其中，X为正整数；判断单元，用于判断相邻的多个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值；合并单元，用于在判断单元输出为是时，对相邻的多个音频数据段进行合并。

优选地，判断单元，用于采用以下公式判断相邻的两个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值：

Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i}^{v} (j) - Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i - 1}^{v} (j) < TH,

其中，

优选地，切分模块包括：获取单元，用于在对GoP以及与GoP前后相邻的两个GoP进行码流分析后，获取每个GoP内各个视频帧的宏块序号、DC分量数值、运动矢量残差值和帧内编码宏块数量；检测单元，用于根据宏块序号和DC分量数值检测每个GoP中的关键帧；分析单元，用于采用运动矢量残差值进行运动复杂度分析；统计单元，用于根据相邻视频帧各自的帧内编码宏块数量统计相邻视频帧的帧内编码宏块数量的变化幅度；确定单元，用于根据检测结果、运动复杂度分析结果以及变化幅度统计结果确定对视频文件的切分位置。

优选地，上述装置应用于Hadoop中的数据节点上运行的Map作业中，并采用Reduce作业对划分后的音频文件以及划分后的视频文件进行分类聚合。

通过本发明实施例，采用将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M<N，N和M均为正整数；分别获取每个音频数据单元对应的视频图像帧所在的GoP，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；根据码流分析结果对与音频文件同步播放的视频文件进行切分，即基于音频文件和视频文件之间的同步性以及上下文内容的语义关联性进行文件切分，以产生适应三屏流媒体应用的新媒体内容。由此解决了相关技术中为了并行计算而简单切分文件会导致语音识别的准确率下降的问题，进而提高了新媒体内容产生系统的效率和性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据相关技术的新闻节目大数据Map-Reduce并行处理流程的示意图；

图2是根据本发明实施例的视频文件的切分方法的流程图；

图3是根据本发明实施例的视频文件的切分装置的结构框图；

图4是根据本发明优选实施例的视频文件的切分装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图2是根据本发明实施例的视频文件的切分方法的流程图。如图2所示，该方法可以包括以下处理步骤：

步骤S202：将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M<N，N和M均为正整数；

步骤S204：分别获取每个音频数据单元对应的视频图像帧所在的GoP，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；

步骤S206：根据码流分析结果对与音频文件同步播放的视频文件进行切分。

相关技术中，为了并行计算而简单切分文件会导致语音识别的准确率下降。采用如图2所示的方法，基于音频文件和视频文件之间的同步性以及上下文内容的语义关联性进行文件切分，以产生适应三屏流媒体应用的新媒体内容。由此解决了相关技术中为了并行计算而简单切分文件会导致语音识别的准确率下降的问题，进而提高了新媒体内容产生系统的效率和性能。

在优选实施过程中，可以采用Hadoop中的数据节点上运行的Map作业对音频文件进行划分，生成M个音频数据单元，以及对与音频文件同步播放的视频文件进行切分；以及采用Reduce作业对划分后的音频文件以及划分后的视频文件进行分类聚合。

优选地，在步骤S202中，根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元可以包括以下操作：

步骤S1：按照预先设定的关键词类别分别对每个音频数据段中出现的多个关键词进行分类；

步骤S2：对每种分类中的各个关键词的出现频率进行统计分析并在对每个关键词的出现频率进行降序排列后选取前X个关键词，其中，X为正整数；

步骤S3：判断相邻的多个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值；如果是，则对相邻的多个音频数据段进行合并。

对于上述播音员的声纹识别过程可以采用相关技术中的现有方案，其目的在于获得播音员的标准语音文件。在语音识别过程中，只有对新闻播音员的标准语音识别才能够获得超过预设阈值（例如：95%以上）的准确率。

在优选实施例中，可以将待处理的语音文件划分成等间隔的音频数据段，再根据音频数据段中频繁出现的高频词汇来判断相邻音频数据段内容的相似性，从而将语音内容相似的多个音频数据段合并为一个情节单元（CU），然后将该情节单元定义为一段内容上下文关联度较强的音视频片段。而对于非播音员的语音片段，则可以自动划归到前一段播音员语音的情节单元。

优选地，在步骤S3中，可以采用以下公式判断相邻的两个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值：

Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i}^{v} (j) - Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i - 1}^{v} (j) < TH,

其中，

在优选实施例中，基于播音员语音情节单元的视频段合并过程如下：

第一步、播音员语音的音频数据段划分。

假设Vi表示第i个在t秒间隔采样的音频数据段，其中，i=1，2，3……N，N为正整数；t的初始值可以设置为对样本新闻视频播音员陈述一句话所持续的时间长短统计学习得到的样本均值，在通常情况下不会超过10秒；并且可以根据实际处理的视频数据进行t值的自适应调整，而对于不足t秒的播音员语音，则可以按照实际时间加以处理。

第二步、将语音内容相似的多个音频数据段合并为一个情节单元。

通过对新闻内容的分析可以获知，一段主题新闻内容播音员很有可能会在该段新闻内容中反复提到特定的人名、事件名、地名、时间等热门词汇。由此可以将这类词汇定义为关键词，该关键词的数据结构为：

上述结构体中的变量含义如下：

（1）可以按照人物、事件、地点、时间等设置枚举变量，假设系统初始设置的类别总数为C；

（2）保存关键词的名称；

（3）采用

表示在第i个音频数据段中，第v类，第j个关键词在经过统计后出现的频度数量，其中，v<C，j=1，2，3…N，N为正整数。然后可以按照关键词类别的枚举变量值设置符合泊松分布包络线的关键词类别权重系数λ_v，其中，v=1，2…C，C为正整数。

按照上述

可以对关键词进行降序排列，对比排序后第i段第v类的前Δ个关键词名称与第i-1段第v类前Δ个关键词的名称是否存在重复。如果第i段与第i-1段的每类前Δ个关键词名称集合的交集元素的数量超过Δ-σ个（σ≤△），则可以认定第i段与第i-1段的语音内容相似，从而可以进行最终的合并判决。上述Δ与σ可以根据实际的检测内容自适应选取，并可以自适应调整。

基于上述判定准则，可以认定前后两段音频内容的重点一致。接下来，需要进行最终的音频数据段合并准则判定：

Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i}^{v} (j) - Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i - 1}^{v} (j) < TH

其中，可以采用关键词汇的权重与关键词汇出现频率的乘积作为最终判定分段内容相似性的参考依据。而TH为经验阈值，通常可以根据分类样本进行统计，其初始值可以设置为样本均值，并可自适应地进行调整。

第三步、情节单元边界检测。

语音情节单元边界检测过程是为了确定两段内容独立的语音情节单元的精确切分点。在前后两个t秒的音频数据段无法合并的情况下，可以记录后一个t秒音频数据段中各类经过排序的前Δ个关键词与前一个t秒音频数据段中各类关键词的补集内（即在后一个t秒音频数据段中新出现的关键词集合）的关键词名称。依次选取补集中频率最高的各类关键词的名称，在前后2t秒的音频数据段中寻找该关键词第一次出现的时间点，并将2t秒内最靠前（最早）的时间点确定为语音情节单元边界，以便在该语音情节单元对应的视频图像组（GoP）邻域内找到精确的文件切分点。

优选地，在步骤S206中，根据码流分析结果对与音频文件同步播放的视频文件进行切分可以包括以下步骤：

步骤S4：在对GoP以及与GoP前后相邻的两个GoP进行码流分析后，获取每个GoP内各个视频帧的宏块序号、DC分量数值、运动矢量残差值和帧内编码宏块数量；

步骤S5：根据宏块序号和DC分量数值检测每个GoP中的关键帧；

步骤S6：采用运动矢量残差值进行运动复杂度分析；

步骤S7：根据相邻视频帧各自的帧内编码宏块数量统计相邻视频帧的帧内编码宏块数量的变化幅度；

步骤S8：根据检测结果、运动复杂度分析结果以及变化幅度统计结果确定对视频文件的切分位置。

在优选实施例中，如果已经确定语音情节单元边界对应的视频帧后，在该视频帧所在的GoP与前后两个相邻的GoP内进行码流分析，以获得宏块序号、DC系数、运动矢量残差值和帧内编码宏块数量等关键数据。采用该视频突变场景检测方法能够有效地降低计算复杂度，仅读取2.5秒左右时间内的60帧视频码流进行比特级的解码处理即可。而对于视频渐变场景则采用语音关键词进行切分即可。

本发明优选实施例所采用的视频场景检测过程如下：

第一步、播音员头肩像关键帧检测。

对于新闻类节目而言，具有播音员头肩像的视频帧是辅助进行场景划分的重要依据。采用存在监督机器学习的方式选取各个电视台新闻播音员各种播报场景帧作为样本，提取具有播音员头肩像的关键帧的宏块或块的序号和DC分量数值进行统计，获取样本均值和方差等数字特征形成样本特征库。在实际检测过程中可以采用最小二乘法与样本特征库内的特征数据进行比对，只要波动不超过样本方差即可判断当前帧是播音员头肩像。

第二步、运动复杂度分析。

在GoP邻域内，假设RF为参考帧，CF为当前帧，Σ_mv为累加的CF解码宏块或块的解码运动矢量差值之和，如果Σ_mv<Th_mv，则可以判定当前帧为平滑场景帧，符合播音员头肩像场景的特征；如果Σ_mv>>Th_mv，则可以判定前后预测帧运动剧烈，存在场景切换的可能。Th_mv为通过对样本分析获取的阈值，在通常情况下，可以选取样本场景中各个视频帧Σ_mv的样本均值。

第三步、帧内宏块数统计。

在GoP邻域内，假设

表示第α帧的帧内编码宏块数量，α为视频帧的序号。再假设

为通过对样本分析获取的视频预测帧（P、B帧）帧内宏块的数量阈值，在通常情况下，可以选取样本均值。如果

即后一预测帧的帧内编码宏块数量突然成倍增加，则认定前后预测帧纹理差异较大或运动特别剧烈，存在场景切换的可能。

如果在GoP邻域内检测到播音员头肩像的关键帧，且连续GoP场景平滑，则可以判定当前场景为播音员头肩像场景，该场景的第一个GoP可以作为切分前后新闻内容短视频的备选断点。

而对于两段新闻片段之间没有播报场景视频帧的情况，如果前后预测帧运动剧烈变化，或者，帧内编码宏块剧烈上升，则可以将当前GoP作为切分前后新闻内容短视频的备选断点。

作为本发明的一个优选实施例，可以采用如下的文件切分过程：

在通常情况下，电视节目可以采用开环GoP。开环GoP可以定义为：当前GoP结尾的预测帧采用下一个GoP的参考帧；而闭环GoP则不会参考下一个GoP的帧。GoP从I帧开始，当检测到帧类型是I帧后，则可以确定其为GoP边界。

切分文件的原则是保持播音员语音的完整性且保持音频与视频同步。对于播音员语音从I帧开始且为开环GoP的情况，需要更改I帧后面紧邻的两个B帧的参考关系，删除前向参考，然后再切分，以便在解码处理时能够正确重建。而对于闭环GoP，则无需处理便可直接切分。若播音员语音开始的时间点对应的视频帧不是I帧，对应I1B2B3P4B5B6P7B8B9P10B11B12I13的开环显示帧结构，码流帧结构为I1P4B2B3P7B5B6P10B8B9I13B11B12。可以分为以下两种情况进行处理：

对于P帧而言，解码该P帧并将其重新编码为全帧内宏块P帧，丢弃当前GoP中显示时间在该P帧前面的视频帧对应的码流，而后面的其他帧码流则无需变化。

对于B帧而言，确定其后向参考帧，如果为I帧，则无需处理；如果为P帧，则需要解码重建，并将其重新编码为全帧内宏块P帧。然后对该B帧进行解码处理，再将其编码为全帧内宏块P帧，丢弃当前GoP中显示时间在该B帧前面的视频帧对应的码流，而对显示时间在该B帧后面的B帧进行解码重建，并重新编码为全帧内宏块P帧。

图3是根据本发明实施例的视频文件的切分装置的结构框图。如图3所示，该视频文件的切分装置可以包括：处理模块10，用于将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M<N，N和M均为正整数；分析模块20，用于分别获取每个音频数据单元对应的视频图像帧所在的GoP，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；切分模块30，用于根据码流分析结果对与音频文件同步播放的视频文件进行切分。

采用如图3所示的装置，解决了相关技术中为了并行计算而简单切分文件会导致语音识别的准确率下降的问题，进而提高了新媒体内容产生系统的效率和性能。

在优选实施过程中，上述装置可以应用于Hadoop中的数据节点上运行的Map作业中，并采用Reduce作业对划分后的音频文件以及划分后的视频文件进行分类聚合。

优选地，如图4所示，处理模块10可以包括：分类单元100，用于按照预先设定的关键词类别分别对每个音频数据段中出现的多个关键词进行分类；选取单元102，用于对每种分类中的各个关键词的出现频率进行统计分析并在对每个关键词的出现频率进行降序排列后选取前X个关键词，其中，X为正整数；判断单元104，用于判断相邻的多个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值；合并单元106，用于在判断单元输出为是时，对相邻的多个音频数据段进行合并。

优选地，判断单元104，用于采用以下公式判断相邻的两个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值：

Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i}^{v} (j) - Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i - 1}^{v} (j) < TH,

其中，

优选地，如图4所示，切分模块30可以包括：获取单元300，用于在对GoP以及与GoP前后相邻的两个GoP进行码流分析后，获取每个GoP内各个视频帧的宏块序号、DC分量数值、运动矢量残差值和帧内编码宏块数量；检测单元302，用于根据宏块序号和DC分量数值检测每个GoP中的关键帧；分析单元304，用于采用运动矢量残差值进行运动复杂度分析；统计单元306，用于根据相邻视频帧各自的帧内编码宏块数量统计相邻视频帧的帧内编码宏块数量的变化幅度；确定单元308，用于根据检测结果、运动复杂度分析结果以及变化幅度统计结果确定对视频文件的切分位置。

从以上的描述中，可以看出，上述实施例实现了如下技术效果（需要说明的是这些效果是某些优选实施例可以达到的效果）：采用本发明实施例所提供的技术方案，根据电视内容中视频、音频同步以及在上下文语义上具有强关联性的特点，提出了一种基于Hadoop云计算Map-Reduce架构的音频情节和视频场景的大数据新闻节目文件切分方法，以产生适应三屏流媒体应用的新媒体内容。其中，每路Map处理一个新闻节目，以确保语音识别的准确率。另外，对电视新闻内容进行深入分析可知，电视内容中的视频和音频是同步的，在语义上具有强关联性，因此，可以根据播音员语音内容情节上下文的连贯性，按照固定间隔切分视频段，并按照语音语义进行合并。不仅如此，还通过设计计算复杂度较低的视频场景检测方法以及采用保证主客观质量的视频切分方法，进一步确保自动产生的新媒体视频在语义上具有连贯性、准确性和完整性，同时在结构上确保音视频文件的同步与完整。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频文件的切分方法，其特征在于，包括：

将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M<N，N和M均为正整数；

分别获取每个音频数据单元对应的视频图像帧所在的视频图像组GoP，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；

根据码流分析结果对与所述音频文件同步播放的视频文件进行切分。

2.根据权利要求1所述的方法，其特征在于，根据各个音频数据段的内容相似度对所述相邻的多个音频数据段进行合并，生成M个音频数据单元包括：

按照预先设定的关键词类别分别对每个音频数据段中出现的多个关键词进行分类；

对每种分类中的各个关键词的出现频率进行统计分析并在对每个关键词的出现频率进行降序排列后选取前X个关键词，其中，X为正整数；

判断所述相邻的多个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值；如果是，则对所述相邻的多个音频数据段进行合并。

3.根据权利要求2所述的方法，其特征在于，采用以下公式判断所述相邻的两个音频数据段中各自选取的前X个关键词的重复率是否超过所述预设阈值：

Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i}^{v} (j) - Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i - 1}^{v} (j) < TH,

其中，

表示在第i个音频数据段中，第v个类别，第j个关键词在经过统计分析后得到的出现频率，λ_v为符合泊松分布包络线的关键词类别的权重系数，C为所述预先设定的关键词类别的数量，v和j均为正整数且v<C，TH为所述预设阈值。

4.根据权利要求1所述的方法，其特征在于，根据码流分析结果对与所述音频文件同步播放的视频文件进行切分包括：

在对所述GoP以及与所述GoP前后相邻的两个GoP进行码流分析后，获取每个GoP内各个视频帧的宏块序号、DC分量数值、运动矢量残差值和帧内编码宏块数量；

根据所述宏块序号和所述DC分量数值检测每个GoP中的关键帧；

采用所述运动矢量残差值进行运动复杂度分析；

根据相邻视频帧各自的帧内编码宏块数量统计所述相邻视频帧的帧内编码宏块数量的变化幅度；

根据检测结果、运动复杂度分析结果以及变化幅度统计结果确定对所述视频文件的切分位置。

5.根据权利要求1至4中任一项所述的方法，其特征在于，采用Hadoop中的数据节点上运行的Map作业对所述音频文件进行划分，生成所述M个音频数据单元，以及对与所述音频文件同步播放的视频文件进行切分；采用Reduce作业对划分后的音频文件以及划分后的视频文件进行分类聚合。

6.一种视频文件的切分装置，其特征在于，包括：

处理模块，用于将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M<N，N和M均为正整数；

分析模块，用于分别获取每个音频数据单元对应的视频图像帧所在的视频图像组GoP，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；

切分模块，用于根据码流分析结果对与所述音频文件同步播放的视频文件进行切分。

7.根据权利要求6所述的装置，其特征在于，所述处理模块包括：

分类单元，用于按照预先设定的关键词类别分别对每个音频数据段中出现的多个关键词进行分类；

选取单元，用于对每种分类中的各个关键词的出现频率进行统计分析并在对每个关键词的出现频率进行降序排列后选取前X个关键词，其中，X为正整数；

判断单元，用于判断所述相邻的多个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值；

合并单元，用于在所述判断单元输出为是时，对所述相邻的多个音频数据段进行合并。

8.根据权利要求7所述的装置，其特征在于，所述判断单元，用于采用以下公式判断所述

相邻的两个音频数据段中各自选取的前X个关键词的重复率是否超过所述预设阈值：

Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i}^{v} (j) - Σ_{v = 1}^{C} Σ_{j = 1}^{x} λ_{v} \cdot {kw}_{i - 1}^{v} (j) < TH,

其中，

9.根据权利要求6所述的装置，其特征在于，所述切分模块包括：

获取单元，用于在对所述GoP以及与所述GoP前后相邻的两个GoP进行码流分析后，获取每个GoP内各个视频帧的宏块序号、DC分量数值、运动矢量残差值和帧内编码宏块数量；

检测单元，用于根据所述宏块序号和所述DC分量数值检测每个GoP中的关键帧；

分析单元，用于采用所述运动矢量残差值进行运动复杂度分析；

统计单元，用于根据相邻视频帧各自的帧内编码宏块数量统计所述相邻视频帧的帧内编码宏块数量的变化幅度；

确定单元，用于根据检测结果、运动复杂度分析结果以及变化幅度统计结果确定对所述视频文件的切分位置。

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述装置应用于Hadoop中的数据节点上运行的Map作业中，并采用Reduce作业对划分后的音频文件以及划分后的视频文件进行分类聚合。