CN104778230B

CN104778230B - 一种视频数据切分模型的训练、视频数据切分方法和装置

Info

Publication number: CN104778230B
Application number: CN201510149297.2A
Authority: CN
Inventors: 张彦刚; 王涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2018-11-06
Anticipated expiration: 2035-03-31
Also published as: CN104778230A

Abstract

本发明实施例提供了一种视频数据切分模型的训练、视频数据切分方法和装置，该训练方法包括：对第一视频数据进行视频特征检测，以获得一个或多个第一视频特征向量信息；采用一个或多个第一视频特征向量信息进行训练，以获得视频数据切分模型；采用视频数据切分模型对第一视频数据进行切分，以获得切分结果；根据切分结果判断视频数据切分模型是否满足预设的验证条件；若是，则输出视频数据切分模型；若否，则重新执行采用一个或多个第一视频特征向量信息进行训练，以获得视频数据切分模型的步骤。本发明实施例训练不同的视频切分模型，实现了视频数据的自动切分，大大减少了人工干预的操作，大大减少了切分的时间和人力成本。

Description

一种视频数据切分模型的训练、视频数据切分方法和装置

技术领域

本发明涉及视频数据处理技术领域，特别是涉及一种视频数据切分模型的生成方法、一种基于视频数据切分模型的视频数据切分方法、一种视频数据切分模型的训练装置和一种基于视频数据切分模型的视频数据切分装置。

背景技术

近年来，随着互联网的高速发展，网上的信息量急剧增加，其中包含了大量的视频数据，例如，新闻视频、综艺类节目等等。

由于许多视频数据都是一个大的整体，里面包含多个段落，例如，在一个完整的新闻视频中，往往包括了多则新闻片段。

因此，往往需要对视频数据进行切分，以获得所包含的段落。

现在诸如新闻视频的切分等都是基于依赖人工进行的，即人工判断切分的位置，这往往需要人工浏览视频的每一帧，工作量巨大，耗费大量的时间、人力成本。

由于在网络环境中视频数量的在高速增长中，人工切分视频数据的方式在时间和人力成本上越来越高，以至于无法承受。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频数据切分模型的生成方法、一种基于视频数据切分模型的视频数据切分方法和相应的一种视频数据切分模型的训练装置、一种基于视频数据切分模型的视频数据切分。

为了解决上述问题，本发明实施例公开了一种视频数据切分模型的生成方法，包括：

对第一视频数据进行视频特征检测，以获得一个或多个第一视频特征向量信息；

采用所述一个或多个第一视频特征向量信息进行训练，以获得视频数据切分模型；

采用所述视频数据切分模型对所述第一视频数据进行切分，以获得切分结果；

根据所述切分结果判断所述视频数据切分模型是否满足预设的验证条件；

若是，则输出所述视频数据切分模型；若否，则重新执行采用所述一个或多个第一视频特征向量信息进行训练，以获得视频数据切分模型的步骤。

优选地，所述对第一视频数据进行视频特征检测，以获得一个或多个第一视频特征向量信息的步骤包括：

对第一视频数据进行视频特征检测，以获得一个或多个第一切分特征值；

按照所述一个或多个第一切分特征值对第一视频数据进行向量化处理，以获得第一视频特征向量信息。

优选地，所述对第一视频数据进行视频特征检测，以获得一个或多个第一切分特征值的步骤包括：

对第一视频数据进行语音活动检测、镜头边界检测、标题检测、人物检测、文本检测中的一种或多种视频特征检测，以获得第一静音点、第一镜头边界、第一标题信息、第一人物对象、内容相同或相似的第一目标文本信息中的一种或多种第一切分特征值；

其中，所述第一文本信息为对第一视频数据进行语音识别所获得的文本信息。

优选地，所述采用所述视频数据切分模型对所述第一视频数据进行切分，以获得切分结果的步骤包括：

采用所述视频数据切分模型对所述第一视频数据进行切分，获得多个第一视频子数据；

将所述多个第一视频子数据与样本视频子数据进行对比，以确定所述多个第一视频子数据切分正确或切分错误；所述样本视频子数据为对所述第一视频数据进行切分获得视频数据。

优选地，所述样本视频子数据为对所述第一视频数据进行正确切分所获得的视频数据；

所述验证条件包括针对所述第一视频数据进行切分，切分的准确率超过准确率阈值，和/或，切分的召回率超过召回率阈值。

优选地，所述第一视频数据具有第一视频数据标识；所述方法还包括：

对第一视频数据标识、输出的视频数据切分模型、视频特征检测的方式建立映射关系；

其中，所述第一视频数据标识包括节目ID，和/或，电视台ID与时间区段ID的集合。

本发明实施例还公开了一种基于视频数据切分模型的视频数据切分方法，包括：

获取第二视频数据的第二视频数据标识；

查找所述第二视频数据标识对应的视频数据切分模型和视频特征检测的方式；

按照所述视频特征检测的方式对所述第二视频数据进行视频特征检测，以获得一个或多个第二视频特征向量信息；

将所述一个或多个第二视频特征向量信息输入至所述视频数据切分模型中；

采用所述视频数据切分模型对所述第二视频数据进行切分。

优选地，所述视频数据切分模型通过如下方式训练：

优选地，所述按照所述视频特征检测的方式对所述第二视频数据进行视频特征检测，以获得一个或多个第二视频特征向量信息的步骤包括：

按照所述视频特征检测的方式对第二视频数据进行视频特征检测，以获得一个或多个第二切分特征值；

按照所述一个或多个第二切分特征值对第二视频数据进行向量化处理，以获得第二视频特征向量信息。

优选地，所述按照所述视频特征检测的方式对第二视频数据进行视频特征检测，以获得一个或多个第二切分特征值的步骤包括：

对第二视频数据进行语音活动检测、镜头边界检测、标题检测、人物检测、文本检测中的一种或多种视频特征检测，以获得第二静音点、第二镜头边界、第二标题信息、第二人物对象、内容相同或相似的第二目标文本信息中的一种或多种第二切分特征值；

其中，所述第二文本信息为对第二视频数据进行语音识别所获得的文本信息。

优选地，所述第二视频数据标识包括节目ID，和/或，电视台ID与时间区段ID的集合。

本发明实施例还公开了一种视频数据切分模型的生成装置，包括：

第一视频特征检测模块，用于对第一视频数据进行视频特征检测，以获得一个或多个第一视频特征向量信息；

视频数据切分模型训练模块，用于采用所述一个或多个第一视频特征向量信息进行训练，以获得视频数据切分模型；

第一视频数据切分模块，用于采用所述视频数据切分模型对所述第一视频数据进行切分，以获得切分结果；

验证条件判断模块，用于根据所述切分结果判断所述视频数据切分模型是否满足预设的验证条件；若是，则调用视频数据切分模型输出模块，若否，则重新调用视频数据切分模型训练模块；

视频数据切分模型输出模块，用于输出所述视频数据切分模型。

优选地，所述第一视频特征检测模块包括：

第一切分特征值获得子模块，用于对第一视频数据进行视频特征检测，以获得一个或多个第一切分特征值；

第一向量化处理子模块，用于按照所述一个或多个第一切分特征值对第一视频数据进行向量化处理，以获得第一视频特征向量信息。

优选地，所述第一切分特征值获得子模块包括：

第一综合检测子模块，用于对第一视频数据进行语音活动检测、镜头边界检测、标题检测、人物检测、文本检测中的一种或多种视频特征检测，以获得第一静音点、第一镜头边界、第一标题信息、第一人物对象、内容相同或相似的第一目标文本信息中的一种或多种第一切分特征值；

优选地，所述第一视频数据切分模块包括：

第一视频子数据获得子模块，用于采用所述视频数据切分模型对所述第一视频数据进行切分，获得多个第一视频子数据；

对比子模块，用于将所述多个第一视频子数据与样本视频子数据进行对比，以确定所述多个第一视频子数据切分正确或切分错误；所述样本视频子数据为对所述第一视频数据进行切分获得视频数据。

优选地，所述第一视频数据具有第一视频数据标识；所述装置还包括：

映射关系建立模块，用于对第一视频数据标识、输出的视频数据切分模型、视频特征检测的方式建立映射关系；

本发明实施例还公开了一种基于视频数据切分模型的视频数据切分装置，包括：

获取模块，用于获取第二视频数据的第二视频数据标识；

查找模块，用于查找所述第二视频数据标识对应的视频数据切分模型和视频特征检测的方式；

第二视频特征检测模块，用于按照所述视频特征检测的方式对所述第二视频数据进行视频特征检测，以获得一个或多个第二视频特征向量信息；

输入模块，用于将所述一个或多个第二视频特征向量信息输入至所述视频数据切分模型中；

第二视频数据切分模块，用于采用所述视频数据切分模型对所述第二视频数据进行切分。

优选地，所述视频数据切分模型通过调用如下模块训练：

优选地，所述第二视频特征检测模块包括：

第二切分特征值获得子模块，用于按照所述视频特征检测的方式对第二视频数据进行视频特征检测，以获得一个或多个第二切分特征值；

第二向量化处理子模块，用于按照所述一个或多个第二切分特征值对第二视频数据进行向量化处理，以获得第二视频特征向量信息。

优选地，所述第二切分特征值获得子模块包括：

第二综合检测子模块，用于对第二视频数据进行语音活动检测、镜头边界检测、标题检测、人物检测、文本检测中的一种或多种视频特征检测，以获得第二静音点、第二镜头边界、第二标题信息、第二人物对象、内容相同或相似的第二目标文本信息中的一种或多种第二切分特征值；

本发明实施例包括以下优点：

由于每个电视台、不同的节目，其节目结构和强特征一般都是不同的，想通过一种通用的切分方法适应所有的节目，是一件非常困难的事情，本发明实施例针对不同的视频数据，采用其视频特征向量信息进行训练，以获得视频数据切分模型，若应用该视频数据切分模型对视频数据进行切分所获得的切分结果满足预设的验证条件，则输出该视频数据切分模型，否则重新训练，通过对视频数据的自学习，训练不同的视频切分模型，以对不同的视频数据进行切分，实现了视频数据的自动切分，大大减少了人工干预的操作，大大减少了切分的时间和人力成本。

本发明实施例综合采用多种切分特征值，且切分特征值具有可扩充性，随着处理手段的进化，和对视频内容认识的加深，该训练框架可以不断的加入新的切分特征值，以提高视频数据切分模型的训练精度。

本发明实施例通过规则型判定切分点，针对特定的视频数据，如固定的新闻数据，无需大量数据进行训练，可以立即使用，综合静音点和镜头边界的判定，可以大大减少切分点的数量，大幅降低整个系统的开销，融合了标题信息、人物对象，并在此基础上又结合文本信息进行切分点的判断，大幅度提高了提高训练和识别的精度，减少运算量，进而提高了切分的效率。

附图说明

图1是本发明的一种视频数据切分模型的生成方法实施例的步骤流程图；

图2是本发明的一种基于视频数据切分模型的视频数据切分方法实施例的步骤流程图；

图3是本发明的一种视频数据切分模型的生成装置实施例的结构框图；

图4是本发明的一种基于视频数据切分模型的视频数据切分装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种视频数据切分模型的生成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，对第一视频数据进行视频特征检测，以获得一个或多个第一视频特征向量信息；

视频可以泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。

在本发明实施例中，视频数据可以包括音频数据、视频图像数据、文本数据(如字幕)等等。

其中，连续的图像变化每秒超过24帧(frame)画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果。

需要说明的是，该视频数据实际可以包括资讯类视频数据，如新闻视频等，还可以包括其他类型的视频数据，本发明实施例对此不加以限制。

为使本领域技术人员更好地理解本发明实施例，在发明实施例中，将新闻视频作为视频数据的一种示例进行说明。

输入的第一视频数据通常为视频流，里面包含了多个段落，例如，在一个完整的新闻视频中，往往包括了多则新闻片段。

在本发明的一种优选实施例中，步骤101可以包括如下子步骤：

子步骤S11，对第一视频数据进行视频特征检测，以获得一个或多个第一切分特征值；

在本发明实施例中，可以对第一视频数据进行视频特征检测，以检测出第一视频数据的切分特征(即第一切分特征值，表征段落边界的特征)，进一步由第一视频数据的特征训练视频数据切分模型。

在本发明实施例的一种优选示例中，子步骤S11可以包括如下子步骤：

子步骤S111，对第一视频数据进行语音活动检测、镜头边界检测、标题检测、人物检测、文本检测中的一种或多种视频特征检测，以获得第一静音点、第一镜头边界、第一标题信息、第一人物对象、内容相同或相似的第一目标文本信息中的一种或多种第一切分特征值；

在本示例中，视频数据特征检测可以包括以下的一种或多种：

1、语音活动检测(Voice Activity Detection，VAD)；

语音活动检测又称语音端点检测、语音边界检测等等，可以指在噪声环境中检测语音的存在与否，不存在语音的位置可以称之为静音点。

在视频数据中，不同的段落之间转换通常会出现静音点，即可以表征视频数据中不同段落的边界，因此，静音点可以作为段落边界的特征。

例如，在新闻视频中，若当前则新闻播报完毕，需要转换播报其他则新闻，通常会转换主持人进行播报，此时通常会出现静音点。

2、镜头边界检测；

镜头(shot)可以是由一个摄像机在事件或空间连续的情况下连续拍摄的一组内容相关的连续视频帧。

镜头边界大致可以分为突变(cut)和渐变(gradual transition)边界。

突变也称为切边，两个镜头的切换发生在连续的两帧视频图像数据上；而渐变是两个镜头之间的转变，是逐渐完成的，通常可能延续几帧到几十帧视频图像数据。

镜头边界的形成是两个镜头切换的结果，对于观察者来说，是视频镜头的内容发生了某种意义上的变化，即镜头边界可能是由于视频内容的不连续造成的，即可以表征视频数据中不同段落的边界，因此，镜头边界可以作为段落边界的特征。

例如，在新闻视频中，若当前则新闻播报完毕，需要转换播报其他则新闻时，通常会切换至主持人画面，进行其他则新闻的播报，此时通常会出现镜头边界。

3、标题检测；

在本示例中，可以在视频图像数据中某个置信度较高的区域截取图像区域，判断该图像区域的特征与预先采集的标题的样本图像的特征是否相同或相似(如相似度超过某个相似度阈值)，若是，则可以判断该图像区域包含标题信息。

对于新闻视频等视频数据，标题信息可以指在视频数据之前对视频数据的内容加以概括或评价的简短文字，即可以表征视频数据中不同段落的边界，因此，标题信息可以作为段落边界的特征。

4、人物检测；

在本示例中，可以对视频图像数据的指定区域进行人脸检测，以获取包含人物对象的视频图像数据，并计算包含人物对象的视频图像数据之间的相似度，若连续N(N为正整数)帧为相同或相似(如相似度超过某个相似度阈值)的视频图像数据，则可以判断该连续N帧的视频图像数据中包含第一人物对象。

对于新闻视频等视频数据，第一人物对象可以指在主持人，当需要对另一则新闻进行播报时，通常会将镜头切回至主持人画面，且主持人所在的位置也是大体稳定的，即可以表征视频数据中不同段落的边界，因此，本发明实施例可以以指定的人物对象关联的时间作为段落边界的特征。

5、文本检测。

在本示例中中，可以预先对视频数据中的音频数据进行语音识别(AutomaticSpeech Recognition，ASR)，将语音中的词汇内容(即语音数据)转换为计算机可读的输入(即文本信息)。

目前，语音识别技术通常由语音识别系统实现。主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成：

1、信号处理及特征提取模块；该模块的主要任务是从音频数据中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

2、声学模型；语音识别系统多采用基于一阶隐马尔科夫模型进行建模。

3、发音词典；发音词典包含语音识别系统所能处理的词汇集及其发音。发音词典实际提供了声学模型与语言模型的映射。

4、语言模型；语言模型对语音识别系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。

5、解码器；解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。

对于新闻视频等视频数据，一般每个段落所描述的是一个故事(如一则新闻)，其内容是相关的，即可以表征视频数据中不同段落的边界，因此，本示例可以对第一文本信息进行文本分析，查找出内容相同或相似(如相似度超过某个相似度阈值)的目标文本信息，以目标文本信息作为段落边界的特征。

当然，上述视频特征检测方式及其特征值只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他视频特征检测方式及其特征值，本发明实施例对此不加以限制。另外，除了上述视频特征检测方式及其特征值外，本领域技术人员还可以根据实际需要采用其它视频特征检测方式及其特征值，本发明实施例对此也不加以限制。

子步骤S12，按照所述一个或多个第一切分特征值对第一视频数据进行向量化处理，以获得第一视频特征向量信息。

在具体实现中，对于具有第一切分特征值的视频数据帧，可以将其转换为第一向量，例如，1；

对于不具有第一切分特征值的视频数据帧，可以将其转换为第二向量，例如，0；

则在第一视频特征向量信息中，各帧视频数据可以以第一向量、第二向量进行表示。

步骤102，采用所述一个或多个第一视频特征向量信息进行训练，以获得视频数据切分模型；

在实际应用中，可以通过机器学习的方法，采用所述一个或多个第一视频特征向量信息进行训练，以获得视频数据切分模型。

例如，该机器学习的方法可以包括SVM(Support Vector Machine，支持向量机)、adaboost等等。

在机器学习领域中，SVM是一个有监督的学习模型，通常用来进行模式识别、分类、以及回归分析。

SVM的思想可以概括为两点：

(1)它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能；

(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面，使得学习器得到全局最优化，并且在整个样本空间的期望风险以某个概率满足一定上界。

adaboost是一种迭代算法，其可以针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

adaboost本身可以通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特征，并放在关键的训练数据上面。

当然，上述训练方式只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他训练方式，本发明实施例对此不加以限制。另外，除了上述训练方式外，本领域技术人员还可以根据实际需要采用其它训练方式，本发明实施例对此也不加以限制。

步骤103，采用所述视频数据切分模型对所述第一视频数据进行切分，以获得切分结果；

在视频数据切分模型中，可以描述基于某种视频特征检测方式所获得的特征值如何进行组合以获得切分点。

由于第一切分特征值已经输入，因此，可以不进行新的特征值的输入，直接按照视频数据切分模型对第一视频数据进行切分，以切分结果对切分的情况(如切分正确、切分错误)进行描述。

在本发明的一种优选实施例中，步骤103可以包括如下子步骤：

子步骤S21，采用所述视频数据切分模型对所述第一视频数据进行切分，获得多个第一视频子数据；

子步骤S22，将所述多个第一视频子数据与样本视频子数据进行对比，以确定所述多个第一视频子数据切分正确或切分错误；

其中，所述样本视频子数据可以为对所述第一视频数据进行正确切分获得视频数据。

应用本发明实施，可以预先对第一视频数据进行切分，获得切分正确的样本视频子数据。

在某些情况下，例如，新节目产生，节目改版，人工再确认等等，可以人工介入对视频数据进行切分，利用人工切分的结果，对视频数据切分模型进行训练、生成。

将切分正确的样本视频子数据与基于新训练的视频数据切分模型所获得的第一视频子数据进行对比，若该第一视频子数据与样本视频子数据一致，则可以确认该切分正确，反之，若该第一视频子数据与样本视频子数据不一致，则可以确认该切分结果错误。

可以确认第一视频子数据切分正确或切分错误，作为检测结果。

步骤104，根据所述切分结果判断所述视频数据切分模型是否满足预设的验证条件；若是，则执行步骤105，若否，则重新执行步骤102；

步骤105，输出所述视频数据切分模型。

在本发明实施例中，切分正确和切分错误的第一视频子数据可以作为模型训练中的正样本和负样本，对视频数据切分模型进行验证。

在一个示例中，验证条件可以包括针对所述第一视频数据进行切分(并非一定针对不同类型的视频数据的统计)，切分的准确率超过准确率阈值，和/或，切分的召回率超过召回率阈值。

则在本示例中，当切分的准确率超过准确率阈值，和/或，切分的召回率超过召回率阈值时，可以认为视频数据切分模型满足预设的验证条件，从中选取准确率、召回率满足要求的视频数据切分模型。

当然，除了准确率率、召回率外，还可以设置其他验证条件，本发明实施例对此不加以限制。

满足验证条件的视频数据切分模型则可以输出，用于其他同类型视频数据的切分，不满足验证条件的视频数据切分模型则可以重新进行训练，直接训练出满足验证条件的视频数据切分模型。

需要说明的是，本发明实施例所指“重新”，可以指调整应用SVM、adaboost等机器学习的方法训练中的训练参数后，再次进行训练的过程。

在本发明的一种优选实施例中，所述第一视频数据可以具有第一视频数据标识，第一视频数据标识可以是能够代表一个唯一确定类型的视频数据的信息，例如，节目ID，或者，电视台ID与时间区段ID的集合等等。

则在本发明实施例中，该方法还可以包括如下步骤：

步骤106，对第一视频数据标识、输出的视频数据切分模型、视频特征检测的方式建立映射关系。

对于满足验证条件的视频数据切分模型，可以建立第一视频数据标识、输出的视频数据切分模型、视频特征检测的方式建立映射关系，并存储在模型库(数据库)中，以用于其他同类型的视频数据的切分。

参照图2，示出了本发明的一种基于视频数据切分模型的视频数据切分方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，获取第二视频数据的第二视频数据标识；

输入的第二视频数据通常为视频流，里面包含了多个段落，例如，在一个完整的新闻视频中，往往包括了多则新闻片段。

该第二视频数据可以包括第二视频数据标识可以是能够代表一个唯一确定类型的视频数据的信息，例如，节目ID，或者，电视台ID与时间区段ID的集合等等。

步骤202，查找所述第二视频数据标识对应的视频数据切分模型和视频特征检测的方式；

应用本发明实施例，可以预先建立第二视频数据标识、视频数据切分模型、视频特征检测的方式的映射关系，并存储在模型库(数据库)中。

则在本发明实施例中，可以按照映射关系在模型库(数据库)中查找第二视频数据标识对应的视频数据切分模型和视频特征检测的方式。

步骤203，按照所述视频特征检测的方式对所述第二视频数据进行视频特征检测，以获得一个或多个第二视频特征向量信息；

在本发明实施例中，可以对第二视频数据进行视频特征检测，以检测出第二视频数据的切分特征(即第二切分特征值)，进一步由视频数据切分模型按照第二视频数据的切分特征对第二视频数据进行切分。

在本发明的一种优选实施例中，步骤203可以包括如下子步骤：

子步骤S31，按照所述视频特征检测的方式对第二视频数据进行视频特征检测，以获得一个或多个第二切分特征值；

每种视频特征检测可以获得一个第二切分特征值，该第二切分特征值可以表征段落边界的特征。

在本发明实施例的一种优选示例中，子步骤S31可以包括如下子步骤：

子步骤S311，对第二视频数据进行语音活动检测、镜头边界检测、标题检测、人物检测、文本检测中的一种或多种视频特征检测，以获得第二静音点、第二镜头边界、第二标题信息、第二人物对象、内容相同或相似的第二目标文本信息中的一种或多种第二切分特征值；

其中，所述第二文本信息可以为对第二视频数据进行语音识别所获得的文本信息。

1、语音活动检测(Voice Activity Detection，VAD)；

2、镜头边界检测；

镜头边界大致可以分为突变(cut)和渐变(gradual transition)边界。

3、标题检测；

4、人物检测；

5、文本检测。

子步骤S32，按照所述一个或多个第二切分特征值对第二视频数据进行向量化处理，以获得第二视频特征向量信息。

则在第二视频特征向量信息中，各帧视频数据可以以第一向量、第二向量进行表示。

步骤204，将所述一个或多个第二视频特征向量信息输入至所述视频数据切分模型中；

步骤205，采用所述视频数据切分模型对所述第二视频数据进行切分。

向视频数据切分模型输入第二视频特征向量信息，则视频数据切分模型可以依据确定的组合关系计算出视频数据的切分点，对第二视频数据进行切分。

在本发明的一种优选实施例中，所述视频数据切分模型可以通过如下方式训练：

步骤S41，对第一视频数据进行视频特征检测，以获得一个或多个第一视频特征向量信息；

步骤S42，采用所述一个或多个第一视频特征向量信息进行训练，以获得视频数据切分模型；

步骤S43，采用所述视频数据切分模型对所述第一视频数据进行切分，以获得切分结果；

步骤S44，根据所述切分结果判断所述视频数据切分模型是否满足预设的验证条件；若是，则执行步骤S45，若否，则重新执行步骤S42；

步骤S45，输出所述视频数据切分模型。

在本发明实施例的一种优选实施例中，步骤S41可以包括如下子步骤：

子步骤S51，对第一视频数据进行视频特征检测，以获得一个或多个第一切分特征值；

子步骤S52，按照所述一个或多个第一切分特征值对第一视频数据进行向量化处理，以获得第一视频特征向量信息。

在本发明实施例的一种优选示例中，子步骤S51可以包括如下子步骤：

子步骤S511，对第一视频数据进行语音活动检测、镜头边界检测、标题检测、人物检测、文本检测中的一种或多种视频特征检测，以获得第一静音点、第一镜头边界、第一标题信息、第一人物对象、内容相同或相似的第一目标文本信息中的一种或多种第一切分特征值；

在本发明实施例的一种优选实施例中，步骤步骤S43可以包括如下子步骤：

子步骤S431，采用所述视频数据切分模型对所述第一视频数据进行切分，获得多个第一视频子数据；

子步骤S432，将所述多个第一视频子数据与样本视频子数据进行对比，以确定所述多个第一视频子数据切分正确或切分错误；所述样本视频子数据为对所述第一视频数据进行切分获得视频数据。

在具体实现中，所述样本视频子数据可以为对所述第一视频数据进行正确切分所获得的视频数据；

所述验证条件可以包括针对所述第一视频数据进行切分，切分的准确率超过准确率阈值，和/或，切分的召回率超过召回率阈值。

在本发明实施例的一种优选实施例中，所述第一视频数据可以具有第一视频数据标识；所述视频数据切分模型可以通过如下方式训练：

步骤S46，对第一视频数据标识、输出的视频数据切分模型、视频特征检测的方式建立映射关系；

在本发明实施例中，由于步骤S41-步骤S45与步骤101-步骤105的应用基本相似，所以描述的比较简单，相关之处参见步骤101-步骤105的部分说明即可，本发明实施例在此不加以详述。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种视频数据切分模型的生成装置实施例的结构框图，具体可以包括如下模块：

第一视频特征检测模块301，用于对第一视频数据进行视频特征检测，以获得一个或多个第一视频特征向量信息；

视频数据切分模型训练模块302，用于采用所述一个或多个第一视频特征向量信息进行训练，以获得视频数据切分模型；

第一视频数据切分模块303，用于采用所述视频数据切分模型对所述第一视频数据进行切分，以获得切分结果；

验证条件判断模块304，用于根据所述切分结果判断所述视频数据切分模型是否满足预设的验证条件；若是，则调用视频数据切分模型输出模块305，若否，则重新调用视频数据切分模型训练模块302；

视频数据切分模型输出模块305，用于输出所述视频数据切分模型。

在本发明的一种优选实施例中，所述第一视频特征检测模块301可以包括如下子模块：

在本发明实施例的一种优选示例中，所述第一切分特征值获得子模块可以包括如下子模块：

在本发明的一种优选实施例中，所述第一视频数据切分模块303可以包括如下子模块：

对比子模块，用于将所述多个第一视频子数据与样本视频子数据进行对比，以确定所述多个第一视频子数据切分正确或切分错误；所述样本视频子数据为对所述第一视频数据进行切分获得视频数据。在具体实现中，所述样本视频子数据可以为对所述第一视频数据进行正确切分所获得的视频数据；

在本发明的一种优选实施例中，所述第一视频数据可以具有第一视频数据标识；所述装置还可以包括如下模块：

其中，所述第一视频数据标识可以包括节目ID，和/或，电视台ID与时间区段ID的集合。

参照图4，示出了本发明的一种基于视频数据切分模型的视频数据切分装置实施例的结构框图，具体可以包括如下模块：

获取模块401，用于获取第二视频数据的第二视频数据标识；

查找模块402，用于查找所述第二视频数据标识对应的视频数据切分模型和视频特征检测的方式；

第二视频特征检测模块403，用于按照所述视频特征检测的方式对所述第二视频数据进行视频特征检测，以获得一个或多个第二视频特征向量信息；

输入模块404，用于将所述一个或多个第二视频特征向量信息输入至所述视频数据切分模型中；

第二视频数据切分模块405，用于采用所述视频数据切分模型对所述第二视频数据进行切分。

在本发明的一种优选实施例中，所述第二视频特征检测模块403可以包括如下子模块：

在本发明实施例的一种优选示例中，所述第二切分特征值获得子模块可以包括如下子模块：

在具体实现中，所述第二视频数据标识可以包括节目ID，和/或，电视台ID与时间区段ID的集合。

在本发明的一种优选实施例中，所述视频数据切分模型可以通过调用如下模块训练：

在本发明的一种优选实施例中，所述第一视频特征检测模块可以包括如下子模块：

在本发明的一种优选实施例中，所述第一视频数据切分模块可以包括如下子模块：

在本发明的一种优选实施例中，所述第一视频数据可以具有第一视频数据标识；所述视频数据切分模型还可以通过调用如下模块训练：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频数据切分模型的生成方法、一种基于视频数据切分模型的视频数据切分方法、一种视频数据切分模型的训练装置和一种基于视频数据切分模型的视频数据切分装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频数据切分模型的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对第一视频数据进行视频特征检测，以获得一个或多个第一视频特征向量信息的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述对第一视频数据进行视频特征检测，以获得一个或多个第一切分特征值的步骤包括：

其中，所述第一目标文本信息为对第一视频数据进行语音识别所获得的文本信息。

4.根据权利要求1或2或3所述的方法，其特征在于，所述采用所述视频数据切分模型对所述第一视频数据进行切分，以获得切分结果的步骤包括：

5.根据权利要求4所述的方法，其特征在于，所述样本视频子数据为对所述第一视频数据进行正确切分所获得的视频数据；

6.根据权利要求1或2或3或5所述的方法，其特征在于，所述第一视频数据具有第一视频数据标识；所述方法还包括：

7.一种基于视频数据切分模型的视频数据切分方法，其特征在于，包括：

获取第二视频数据的第二视频数据标识；

采用所述视频数据切分模型对所述第二视频数据进行切分。

8.根据根据权利要求7所述的方法，其特征在于，所述视频数据切分模型通过如下方式训练：

9.根据权利要求7或8所述的方法，其特征在于，所述按照所述视频特征检测的方式对所述第二视频数据进行视频特征检测，以获得一个或多个第二视频特征向量信息的步骤包括：

10.根据权利要求9所述的方法，其特征在于，所述按照所述视频特征检测的方式对第二视频数据进行视频特征检测，以获得一个或多个第二切分特征值的步骤包括：

其中，所述第二目标文本信息为对第二视频数据进行语音识别所获得的文本信息。

11.根据权利要求7或8或10所述的方法，其特征在于，所述第二视频数据标识包括节目ID，和/或，电视台ID与时间区段ID的集合。

12.一种视频数据切分模型的生成装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述第一视频特征检测模块包括：

14.根据权利要求13所述的装置，其特征在于，所述第一切分特征值获得子模块包括：

15.根据权利要求12或13或14所述的装置，其特征在于，所述第一视频数据切分模块包括：

16.根据权利要求15所述的装置，其特征在于，所述样本视频子数据为对所述第一视频数据进行正确切分所获得的视频数据；

17.根据权利要求12或13或14或16所述的装置，其特征在于，所述第一视频数据具有第一视频数据标识；所述装置还包括：

18.一种基于视频数据切分模型的视频数据切分装置，其特征在于，包括：

获取模块，用于获取第二视频数据的第二视频数据标识；

19.根据根据权利要求18所述的装置，其特征在于，所述视频数据切分模型通过调用如下模块训练：

20.根据权利要求18或19所述的装置，其特征在于，所述第二视频特征检测模块包括：

21.根据权利要求20所述的装置，其特征在于，所述第二切分特征值获得子模块包括：

22.根据权利要求18或19或21所述的装置，其特征在于，所述第二视频数据标识包括节目ID，和/或，电视台ID与时间区段ID的集合。