CN104679779B

CN104679779B - 视频分类的方法和装置

Info

Publication number: CN104679779B
Application number: CN201310631901.6A
Authority: CN
Inventors: 王利民; 乔宇; 黎伟; 许春景; 汤晓鸥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2019-02-01
Anticipated expiration: 2033-11-29
Also published as: US20160275355A1; US10002296B2; EP3067831A1; WO2015078134A1; CN104679779A; EP3067831A4

Abstract

本发明实施例公开了一种视频分类的方法和装置，涉及电子信息技术领域，能够提高视频分类的精确度。本发明的方法包括：按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合；利用所述运动原子集合和所述分段结果，生成能够表达复杂运动模式的运动短语集合，并生成基于所述运动短语集合的所述样本视频库中的视频的描述向量；利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。本发明适用于视频分类的场景中。

Description

视频分类的方法和装置

技术领域

本发明涉及电子信息技术领域，尤其涉及一种视频分类的方法和装置。

背景技术

随着视频数据的大量增加，用户逐个浏览视频，根据视频中人物的运动信息对视频进行分类需要耗费大量的时间和精力。虽然现在已经可以针对视频中一些如行走、跑步等简单的运动对视频进行分类，但是视频中的运动往往比较复杂，如体育活动等，针对简单运动对视频分类已经不能满足用户的需要了。为了能够针对这些视频中较为复杂且连续的运动对视频进行分类，现有技术从视频中提取一些局部区域的特征，如HOG（Histogram ofOriented Gradients，方向梯度直方图）等特征，根据这些特征进行类聚，形成运动原子，运动原子是具有某些共性的简单运动模式，之后计算待检测视频与这些运动原子的响应，将得到的响应组成向量，再根据得到的向量对待检测视频进行分类。

但是，视频中总是会出现具有较强时序关系的复杂运动，通过由运动原子得到的向量对待检测视频进行分类，难以保证分类的精确度。因此，在现有技术采用了另一种方法，将视频中的较复杂运动按时间分解成一些由简单运动组成的片段，每一个片段都对应一个时间点，在进行分类时，按照时间顺序将每一个片段与样本分解出的片段进行比对，得到每一个片段各自的比对得分，将这些比对得分进行加权求和得到最终的比对得分，根据最终的比对得分对视频进行分类。

但是，对于较连续且持续时间较长的复杂运动，现有技术很难将这样的复杂运动恰当的分解成由简单运动组成的片段，而且当视频中复杂运动的分解时间点设置不同时，与样本分解出的片段进行比对后得到的比对得分也不同，从而导致视频分类产生多个不同的结果，难以统一，视频分类的精确度也比较低。

发明内容

本发明的实施例提供一种视频分类的方法和装置，能够提高视频分类的精确度。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供一种视频分类的方法，包括：

按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合，所述样本视频库包括至少一个视频，所述运动原子集合中的运动原子是根据所述样本视频库中的视频生成的；

利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量；

利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。

结合第一方面，在第一种可能的实现方式中，所述利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量，包括：

根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合，所述运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子；

筛选所述运动短语，并得到筛选结果；

根据所述筛选结果，生成与所述样本视频库中的视频对应的描述向量。

结合第一方面和第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述样本视频库包括至少二个视频，并且所述样本视频库中的视频的类型相同。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，还包括：

获取运动原子单元π(A,t,σ)，并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P₁,c)，A为运动原子，t为所述样本视频库中视频中的时间点，σ为高斯分布的标准差，V为所述样本视频库中的视频，P₁为所述一个运动短语，r(V,P₁)为所述一个运动短语P₁对所述样本视频库中的视频的响应， OR_i指计算所述样本视频库中的视频与时间相邻的所述运动原子单元的响应，S(P₁,c)表示和所述一个运动短语响应最大的所述样本视频库中的视频的集合，c为所述样本视频库中的视频的类型的标识，Φ(V,t′)为所述样本视频库中视频中以t′开始的所述分段结果的视频特征，Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类器得到的得分，N(t′|t,σ) 是指以t为均值，σ为标准差的高斯分布，Ω(t)指以t为中心的一个邻域；

获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值△RepSet (P₁,c)， T_c为所述样本视频库中标识为c的视频分段得到的片段的数量，为所述运动短语集合，且所述一个运动短语包含的所述运动原子所属视频类型的标识为c；

针对所述运动短语集合中的每一个运动短语，执行上述过程，并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值；

所述筛选所述运动短语，得到筛选结果，包括：

根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照Rep(P₁,c)+△RepSet(P₁,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前m₁个运动短语作为第1筛选结果，m₁为大于等于1的正整数；

从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语，使得所述第1筛选结果中的运动短语具有2个运动原子；

重复上述过程，直至得到第n-1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语，使得所述第n-1筛选结果中的运动短语具有n个运动原子，再根据所述第n-1筛选结果中的运动短语得到第n筛选结果，所述第n筛选结果为按照Rep(P_n,c)+△RepSet(P_n,c)的值由大到小的顺序排列的前m_n个运动短语，m_n为大于等于1的正整数，第n筛选结果中的运动短语具有n个运动原子，n为大于等于1的正整数；

根据所述第1至第n筛选结果，生成所述描述向量。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述样本视频库包括至少二个视频，并且所述样本视频库包括至少二种类型的视频；所述根据筛选结果，生成与所述样本视频库中的视频对应的描述向量，包括：

根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果，得到筛选结果集合；

根据所述筛选结果集合，生成所述样本视频库中的视频对应的描述向量。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频，包括：

生成所述待检测视频对应的响应向量；

获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则，所述第一分类规则用于确定所述待检测视频的所属类型；

根据所述第一分类规则和所述响应向量，确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同，并将所述待检测视频分类。

结合第一方面和第一方面的第二种可能的实现方式，在第六种可能的实现方式中，所述利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频，包括：

生成所述待检测视频对应的响应向量。；

根据所述样本视频库中各个视频对应的描述向量，得到第二分类规则，所述第二分类规则用于检测所述待检测视频是否与所述样本视频库中的视频的类型相同；

检测所述待检测视频的响应向量是否符合所述第二分类规则；

若符合，则确定所述待检测视频与所述样本视频库中的视频的类型相同。

结合第一方面，在第七种可能的实现方式中，还包括：

获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语，所述主要运动短语为与所述至少一个分量对应的运动短语；

获取并显示所述待检测视频的关键帧，所述关键帧与所述主要运动短语中的每个运动原子单元的响应最大。

第二方面，本发明实施例提供一种视频分类的装置，包括：

第一生成模块，用于按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合，所述样本视频库包括至少一个视频，所述运动原子集合中的运动原子是根据所述样本视频库中的视频生成的；

第二生成模块，用于利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量；

分类模块，用于利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。

结合第二方面，在第一种可能的实现方式中，所述第二生成模块，包括：

第一生成单元，用于根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合，所述运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子；

筛选单元，用于筛选所述运动短语，并得到筛选结果；

第二生成单元，用于根据所述筛选结果，生成与所述样本视频库中的视频对应的描述向量。

结合第二方面和第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述样本视频库包括至少二个视频，并且所述样本视频库中的视频的类型相同。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述运动短语集合中的运动短语包括一个所述运动原子集合中的运动原子；所述第二生成模块，还包括：

第一获取单元，用于获取运动原子单元π(A,t,σ)，并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P₁,c)，A为运动原子，t为所述样本视频库中视频中的时间点，σ为高斯分布的标准差，V为所述样本视频库中的视频，P₁ 为所述一个运动短语，r(V,P₁)为所述一个运动短语P₁对所述样本视频库中的视频的响应，OR_i指计算所述样本视频库中的视频与时间相邻的所述运动原子单元的响应，S(P₁,c)表示和所述一个运动短语响应最大的所述样本视频库中的视频的集合，c为所述样本视频库中的视频的类型的标识，Φ(V,t′)为所述样本视频库中视频中以t′开始的所述分段结果的视频特征，Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类器得到的得分，N(t′|t,σ) 是指以t为均值，σ为标准差的高斯分布，Ω(t)指以t为中心的一个邻域；

第二获取单元，用于获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值△RepSet(P₁,c)，T_c为所述样本视频库中标识为c 的视频分段得到的片段的数量，为所述运动短语集合，且所述一个运动短语包含的所述运动原子所属视频类型的标识为c；

所述筛选单元，包括：

筛选子单元，用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照Rep(P₁,c)+△RepSet(P₁,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前m₁个运动短语作为第1筛选结果，m₁为大于等于1的正整数；

添加子单元，用于从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语，使得所述第1筛选结果中的运动短语具有2个运动原子；

连续运行所述筛选子单元和所述添加子单元，直至得到第n-1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语，使得所述第n-1筛选结果中的运动短语具有n个运动原子，再根据所述第n-1筛选结果中的运动短语得到第n筛选结果，所述第n筛选结果为按照Rep(P_n,c)+△RepSet(P_n,c)的值由大到小的顺序排列的前m_n个运动短语，m_n为大于等于1的正整数，第n筛选结果中的运动短语具有n个运动原子，n为大于等于1的正整数；

第一生成子单元，用于根据所述第1至第n筛选结果，生成所述描述向量。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述样本视频库包括至少二个视频，并且所述样本视频库包括至少二种类型的视频；

所述第二生成单元，包括：

集合子单元，用于根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果，得到筛选结果集合；

第二生成子单元，用于根据所述筛选结果集合，生成所述样本视频库中的视频对应的描述向量。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述分类模块，包括：

第三生成单元，用于生成所述待检测视频对应的响应向量；

第三获取单元，用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则，所述第一分类规则用于确定所述待检测视频的所属类型；

第一分类单元，用于根据所述第一分类规则和所述响应向量，确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同，并将所述待检测视频分类。

结合第二方面和第二方面的第二种可能的实现方式，在第六种可能的实现方式中，所述分类模块，包括：

第四生成单元，用于生成所述待检测视频对应的响应向量；

第四获取单元，用于根据所述样本视频库中各个视频对应的描述向量，得到第二分类规则，所述第二分类规则用于检测所述待检测视频是否与所述样本视频库中的视频的类型相同；

检测单元，用于检测所述待检测视频的响应向量是否符合所述第二分类规则；

第二分类单元，用于当符合时，确定所述待检测视频与所述样本视频库中的视频的类型相同。

结合第二方面，在第七种可能的实现方式中，还包括：

获取模块，用于获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语，所述主要运动短语为与所述至少一个分量对应的运动短语；

显示模块，用于获取并显示所述待检测视频的关键帧，所述关键帧与所述主要运动短语中的每个运动原子单元的响应最大。

本发明实施例提供的一种视频分类的方法和装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的。而现有技术中根据运动原子得到待检测视频对应的向量的方案如图1a所示，由于运动原子不含有时间因素，无法体现连续复杂运动的运动原子之间的时序关系。而本发明根据运动原子，生成了运动短语，又根据运动短语生成了描述向量，运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子，用于描述连续复杂运动的运动原子之间的时序关系，例如：采用SVM分类器将待检测视频分类，本发明的方案如图1b所示。现有技术中将视频按时间分解成简单片段的方案，由于分解片段的时间设置点选择不同，会导致视频分类结果也不同，因此难以恰当的将连续复杂运动分解成简单运动组成的片段，从而导致分类结果不精确。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，以及根据运动短语生成的描述向量，从而能够对包括长时间的连续复杂运动的视频进行准确分类。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1a为现有技术中的一种视频分类的方法的举例流程图；

图1b为本发明提供的一种视频分类的方法的举例流程图；

图1c为本发明实施例提供的一种视频分类的方法的流程图；

图2为本发明实施例提供的一种视频分类的方法的一种具体实现方式的流程图；

图3a为本发明实施例提供的一种视频分类的方法的另一种具体实现方式的流程图；

图3b为本发明实施例提供的一种视频分类的方法的又一种具体实现方式的流程图；

图3c为本发明实施例提供的或操作和与操作的举例说明示意图；

图4a为本发明实施例提供的一种视频分类的方法的再一种具体实现方式的流程图；

图4b为本发明实施例提供的显示视频中的主要信息的举例说明示意图；

图5本发明实施例提供的一种视频分类的装置的结构示意图；

图6为本发明实施例提供的一种视频分类的装置的一种具体实现方式的结构示意图；

图7为本发明实施例提供的另一种视频分类的装置的结构示意图；

图8为本发明实施例提供的另一种视频分类的装置的一种具体实现方式的结构示意图；

图9为本发明实施例提供的另一种视频分类的装置的另一种具体实现方式的结构示意图；

图10为本发明实施例提供的另一种视频分类的装置的又一种具体实现方式的结构示意图；

图11为本发明实施例提供的又一种视频分类的装置的结构示意图；

图12为本发明实施例提供的一种视频分类系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提供的技术方案能够根据待检测视频中的运动信息，生成运动原子集合，最终得到样本视频库中的视频的描述向量，利用描述向量对待检测视频进行分类。在实际应用中，本方案可以将待检测视频粗略分为大类，如音乐视频、体育视频或舞蹈视频等；视频也可以将待检测视频详细分为小类，如短跑视频、跳高视频或跳远视频等。

本发明实施例提供了一种视频分类的方法，如图1c所示，包括：

101，按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合。

其中，样本视频库中的视频可以根据用户分类的需求来选择，比如：用户想要将待检测视频分为舞蹈视频、话剧视频、体育视频三大类型，那么可以选择舞蹈视频、话剧视频、体育视频这三大类型的视频放入样本视频库，作为样本视频库中的视频。再比如：用户想要将待检测的体育类视频分为跳高视频、游泳视频、体操视频三个较小的类型，那么可以选择跳高视频、游泳视频、体操视频三个较小的类型的视频放入样本视频库，作为样本视频库中的视频。

其中，样本视频库包括至少一个视频，运动原子集合中的运动原子是根据样本视频库中的视频生成的。系统将样本视频库中的每个视频分成长度相等的视频片段，相邻视频片段之间有一定的时间重叠，比如：视频片段1是视频中00:00:00-00:01:00的片段，与视频片段1相邻的视频片段2是视频中00:00:30-00:01:30的片段。系统对每一个视频片段提取低层视频特征，低层视频特征可以是HOG（Histogram of Oriented Gradients，方向梯度直方图）特征、稠密轨迹特征等，得到低层视频特征的集合，低层视频特征的集合可以表示为N为样本视频库中的视频数，k为每个视频分解成的视频片段数，h_i是一个d 维的向量，d由具体的低层视频特征决定，根据公式得到低层视频特征的相似度参数Sim(h_i,h_j)，μ为所有向量两两之间欧式距离的均值，表示h_i的第K维分量。系统再根据低层视频特征的相似度参数，利用聚类算法形成运动原子，聚类算法可以是近邻传播算法等。由运动原子得到运动原子集合。

102，利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量。

其中，运动原子集合中的运动原子按照一定时间顺序发生，可以形成运动短语，利用运动短语与样本视频库中的视频计算响应，将得到的响应的值组成样本视频库中的视频的描述向量，从而达到将视频的内容量化的目的。

103，利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。

其中，利用样本视频库中的视频的描述向量，可以形成视频分类的规则，通过确定待检测视频与样本视频库中哪一种视频的类型相同，将待检测视频分类。

本发明实施例提供的一种视频分类的方法，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，以及根据运动短语生成的描述向量，从而能够对包括长时间的连续复杂运动的视频进行准确分类。

可选的，在图1所示的方案的基础上，本发明实施例还提供了一种视频分类的方法的具体方案，对图1中的102的执行过程进一步细化，其中，102可以具体实现为1021-1023，如图2所示，包括：

1021，根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合。

其中，运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子，运动短语可以表示运动原子之间的时序关系。

1022，筛选所述运动短语，并得到筛选结果。

其中，如果在运动原子集合中共有M个运动原子，样本视频库中的每个视频被分解为k个片段，那么可能生成2^M×k个运动短语，大量的运动短语使得分类过程中的计算量增大，此时通过筛选出具有良好的代表性、覆盖性和判别性的运动短语作为筛选结果，进行之后的流程。

1023，根据所述筛选结果，生成与所述样本视频库中的视频对应的描述向量。

其中，利用筛选结果中的运动短语与样本视频库中的视频计算响应，将得到的响应的值组成样本视频库中的视频的描述向量，从而达到将视频的内容量化的目的。

本发明实施例提供的一种视频分类的方法，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，并对运动短语进行筛选，根据筛选结果，生成描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，并减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类。

可选的，在图2所示的方案的基础上，本发明实施例还提供了一种视频分类的方法的具体方案，在图2中的1022细化的执行过程中增加了1024-1025，并对图2中的1022和103的执行过程进一步细化，其中，1022可以具体实现为10221-10224，103可以具体实现为1031a-1034a，如图3a所示，包括：

1024，获取运动原子单元π(A,t,σ)，并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P₁,c)。

其中，A为运动原子，t为样本视频库中视频中的时间点，σ为高斯分布的标准差，V为样本视频库中的视频，P₁为一个运动短语，而且这一个运动短语P₁包括运动原子集合中的1个运动原子；r(V,P₁)为一个运动短语P₁对样本视频库中的视频的响应，表示运动短语中的或操作，或操作指计算样本视频库中的同种类型的视频与时间位于邻近区域的运动短语中的运动原子单元的响应，并选取时间位于邻近区域的响应最大的运动原子单元的响应值；表示运动短语中的与操作，与操作指在或操作中选取的响应最大的运动原子单元的响应中取最小值，当这个最小值大于预设的阈值时，表示运动短语与样本视频库中的视频匹配度高，例如：如图3c所示，OR为或操作，AND为与操作，运动原子单元1与运动原子单元2的时间位于相邻区域，运动原子单元3与运动原子单元4的时间位于相邻区域，对运动原子单元1与运动原子单元2进行或操作，运动原子单元 1的响应大于运动原子单元2的响应，选取运动原子单元1的响应值，同时对运动原子单元3 与运动原子单元3进行或操作，运动原子单元4的响应大于运动原子单元3的响应，选取运动原子单元4的响应值，再对比运动原子单元1的响应与运动原子单元4的响应，选取运动原子单元1的响应与运动原子单元4的响应中最小的响应值；S(P₁,c)表示和一个运动短语响应最大的样本视频库中的视频的集合，c为样本视频库中的视频的类型的标识，Φ(V,t′)为样本视频库中视频中以t′开始的分段结果的视频特征，Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类器得到的得分，N(t′|t,σ)是指以t为均值，σ为标准差的高斯分布， Ω(t)指以t为中心的一个邻域。

其中，代表性参数要求运动短语对某一类型的视频有尽可能大的反应，表示该运动短语对于这一类型的视频具有代表性。

进一步的，运动短语P₁对某一种类型的视频的判别性参数Dis(P₁,c)表示运动短语对某一种类型的视频的代表性与其他类型的视频的差异，判别性参数越大，表示运动短语的判别性能越好，C表示样本视频库中的所有的视频的类型。

1025，获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值△RepSet(P₁,c)。

其中， T_c为样本视频库中标识为c的视频分段得到的片段的数量，为运动短语集合，且一个运动短语包含的运动原子所属视频类型的标识为c。

其中，覆盖性要求筛选出的运动短语生成的运动短语集合能够尽量覆盖各个类型的视频。

其中，针对所述运动短语集合中的每一个运动短语执行104-105，并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值。

10221，根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照Rep(P₁,c)+△RepSet(P₁,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前m1个运动短语作为第1筛选结果。

其中，m₁为大于等于1的正整数，m₁可以是系统根据样本视频库中的视频的类型和数量设定的值，也可以由用户设定并输入。

10222，从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语，使得所述第1筛选结果中的运动短语具有2个运动原子。

其中，系统可以从运动原子集合中提取的运动原子加入第1筛选结果中的运动短语，运用遍历的方法生成具有2个运动原子的新的运动短语，在生成的新的运动短语中的这2个运动原子不在同一时间点发生。

10223，重复上述过程，直至得到第n-1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语，使得所述第n-1筛选结果中的运动短语具有n个运动原子，再根据所述第n-1筛选结果中的运动短语得到第n筛选结果。

其中，比如：运动短语集合中的运动短语包括运动原子集合中的1个运动原子，通过10221，得到第1筛选结果，再通过10222，得到具有2个运动原子的新的运动短语，再通过10221的过程对具有2个运动原子的新的运动短语进行筛选，得到第2筛选结果，再通过10222的过程得到具有3个运动原子的新的运动短语，以此类推，直至得到第n筛选结果。

其中，第n筛选结果为按照Rep(P_n,c)+△RepSet(P_n,c)的值由大到小的顺序排列的前m_n个运动短语，m_n为大于等于1的正整数，第n筛选结果中的运动短语具有n个运动原子，n为大于等于1的正整数，n可以是系统根据样本视频库中的视频的类型和数量设定的值，也可以由用户设定并输入。

10224，根据所述第1至第n筛选结果，生成所述描述向量。

其中，第1筛选结果中的运动短语包括运动原子集合中的1个运动原子，第2筛选结果中的运动短语包括运动原子集合中的2个运动原子，以此类推，第n筛选结果中的运动短语包括运动原子集合中的n个运动原子。

其中，根据第1至第n筛选结果中的运动短语，生成筛选出的运动短语的集合，将筛选出的运动短语的集合作为基底，得到样本视频库中的视频的描述向量，样本视频库中的每一个视频都有对应的描述向量，描述向量中的每一个分量都是第1至第n筛选结果中的运动短语对样本视频库中的视频的响应。

1031a，生成所述待检测视频对应的响应向量。

其中，将10224中得到的筛选出的运动短语的集合作为基底，生成待检测视频对应的响应向量，响应向量中的分量是第1至第n筛选结果中的运动短语对待检测视频的响应。

1032a，根据所述样本视频库中各个视频对应的描述向量，得到第二分类规则。

其中，样本视频库包括至少二个视频，并且样本视频库中的视频的类型相同。根据描述向量，可以生成第二分类规则，比如：使用SVM（Support Vector Machine，支持向量机）分类器进行分类，将得到的样本视频库中的视频的描述向量加入SVM分类器，SVM分类器会生成分类规则，分类规则可以是第二分类规则，第二分类规则用于检测待检测视频是否与样本视频库中的视频的类型相同。

1033a，检测所述待检测视频的响应向量是否符合所述第二分类规则。

其中，利用1032a中生成的第二分类规则检测待检测视频的响应向量，从而确定待检测视频是否与样本库中的视频的类型相同。

1034a，若符合，则确定所述待检测视频与所述样本视频库中的视频的类型相同。

其中，样本视频库包括至少二个视频，并且样本视频库中的视频的类型相同，如果待检测视频的响应向量符合第二分类规则，则确定待检测视频的类型与样本视频库中的视频的类型相同；如果待检测视频的响应向量不符合第二分类规则，则确定待检测视频的类型与样本视频库中的视频的类型不同，从而对检测视频进行分类。比如：样本视频库包括五个视频，且五个视频的类型均为舞蹈类视频，检测待检测视频的种类是否为舞蹈类，对待检测视频进行分类，可以将待检测视频分为舞蹈类视频和非舞蹈类视频两个类型。

本发明实施例提供的一种视频分类的方法，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，对每一个运动短语计算代表性参数和覆盖性参数的贡献值，首先生成包括一个运动原子的运动短语，根据代表性参数和覆盖性参数的贡献值，筛选出具有良好代表性和覆盖性的运动短语，得到第1筛选结果，再将一个运动原子加入第1筛选结果中的运动短语，得到新的运动短语，再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选，得到第2筛选结果，以此类推，重复该过程，直至得到第n筛选结果，根据第1至第n筛选结果，生成描述向量，利用描述向量，生成第二分类规则，得到待检测视频的响应向量，检测待检测视频的类型是否与样本视频库中的视频的类型相同，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类。

进一步的，在图2和图3a所示的方案的基础上，本发明实施例还提供了一种视频分类的方法的具体方案，对图2中的1023和103的执行过程进一步细化，其中，1023可以具体实现为10231-10232，103可以具体实现为1031b-1033b，如图3b所示，包括：

10231，根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果，得到筛选结果集合。

其中，样本视频库包括至少二个视频，并且样本视频库包括至少二种类型的视频。样本视频库中的每一个类型的视频都具有对应的第1至第n筛选结果，将样本视频库中不同类型的视频对应的第1至第n筛选结果合并，得到筛选结果集合，该筛选结果集合包括样本视频库中所有不同类型的视频对应的运动短语。

10232，根据所述筛选结果集合，生成所述样本视频库中的视频对应的描述向量。

其中，将筛选结果集合中的运动短语作为基底，生成样本视频库中的视频对应的描述向量，样本视频库中的每一个视频都有对应的描述向量，描述向量中的每一个分量都是样本视频库中不同类型的视频对应的第1至第n筛选结果中的运动短语对样本视频库中的视频的响应。

1031b，生成所述待检测视频对应的响应向量。

其中，将10232中得到的筛选结果集合中的运动短语作为基底，生成待检测视频对应的响应向量，响应向量中的分量是样本视频库中不同类型的视频对应的第1至第n筛选结果中的运动短语对待检测视频的响应。

1032b，获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则。

其中，样本视频库包括至少二个视频，并且样本视频库包括至少二种类型的视频。根据样本视频库中各个不同类型的视频对应的所述描述向量，生成第一分类规则，比如：使用SVM（Support Vector Machine，支持向量机）分类器进行分类，将得到的样本视频库中不同类型的视频的描述向量加入SVM分类器，SVM分类器会生成分类规则，分类规则可以是第一分类规则，第一分类规则用于确定待检测视频的所属类型。

1033b，根据所述第一分类规则和所述响应向量，确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同，并将所述待检测视频分类。

其中，样本视频库包括至少二种类型的视频，第一分类规则用于确定待检测视频的所属类型，比如：样本视频库中包括三种类型的视频，分别是舞蹈类视频、体育类视频、杂技类视频，使用SVM（Support Vector Machine，支持向量机）分类器对待检测视频进行分类，在1032b中生成了第一分类规则，将1031b中得到的待检测视频的响应向量加入SVM分类器，根据第一分类规则，SVM分类器将待检测视频分为舞蹈类视频、体育类视频、杂技类视频三类中的其中一类。

本发明实施例提供的一种视频分类的方法，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，对每一个运动短语计算代表性参数和覆盖性参数的贡献值，首先生成包括一个运动原子的运动短语，根据代表性参数和覆盖性参数的贡献值，筛选出具有良好代表性和覆盖性的运动短语，得到第1筛选结果，再将一个运动原子加入第1筛选结果中的运动短语，得到新的运动短语，再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选，得到第2筛选结果，以此类推，重复该过程，直至得到第n筛选结果，将样本库中不同类型的视频对应的第1至第n筛选结果合并，得到筛选结果集合，并根据筛选结果集合生成描述向量，利用描述向量，生成第一分类规则，得到待检测视频的响应向量，确定待检测视频的类型与样本视频库包括的视频的类型中的一种类型相同，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，减少了生成描述向量的时间，并且能够对多个不同类型的包括长时间的连续复杂运动的视频进行准确分类。

可选的，在图2所示的方案的基础上，本发明实施例还提供了一种视频分类的方法的具体方案，增加了104-105，能够提取并显示待检测视频的主要信息，如图4a所示，包括：

104，获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语。

其中，待检测视频的响应向量中的分量可以是筛选出的运动短语对待检测视频的响应，分量越大，表示待检测视频与该分量对应的运动短语的匹配程度越高。

其中，主要运动短语为与至少一个分量对应的运动短语，比如：待检测视频的响应向量具有10个分量，将10个分量按照由大到小的顺序排列，获取前3个分量，并得到这前三个分量对应的运动短语，这前三个分量对应的运动短语就是主要运动短语。

105，获取并显示所述待检测视频的关键帧。

其中，关键帧与主要运动短语中的每个运动原子单元的响应最大，所以关键帧能够表示待检测视频中的最主要的信息，系统除了显示待检测视频的关键帧，还可以显示关键帧附近的帧，从而将待检测视频中的包括运动的主要内容呈现出来，例如：如图4b所示，在一个视频中的跳远动作的连续的9帧中，通过104-105的过程，可以得知关键帧为第2帧与第6帧，显示关键帧和关键帧附近的帧，所以显示第1-3帧和第5-7帧。

本发明实施例提供的一种视频分类的方法，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，并对运动短语进行筛选，根据筛选结果，生成描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的，还可以根据待检测视频的响应向量中的分量，得到主要运动短语，从而得到并显示关键帧。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，并减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类；同时，还可以利用待检测视频的响应向量中的分量，得到并显示待检测视频的关键帧，将待检测视频的主要内容清楚简要的呈现出来，使得用户能够快速了解视频的主要内容。

本发明实施例还提供了一种视频分类的装置200，如图5所示，包括：

第一生成模块201，用于按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合。

其中，样本视频库包括至少一个视频，运动原子集合中的运动原子是根据样本视频库中的视频生成的。

第二生成模块202，用于利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量。

分类模块203，用于利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。

本发明实施例提供的一种视频分类的装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，以及根据运动短语生成的描述向量，从而能够对包括长时间的连续复杂运动的视频进行准确分类。

可选的，如图6所示，所述第二生成模块202，包括：

第一生成单元2021，用于根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合。

其中，运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子。

可选的，样本视频库包括至少二个视频，并且样本视频库中的视频的类型相同。

筛选单元2022，用于筛选所述运动短语，并得到筛选结果。

第二生成单元2023，用于根据所述筛选结果，生成与所述样本视频库中的视频对应的描述向量。

本发明实施例提供的一种视频分类的装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，并对运动短语进行筛选，根据筛选结果，生成描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，并减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类。

可选的，如图7所示，所述第二生成模块202，还包括：

第一获取单元2024，用于获取运动原子单元π(A,t,σ)，并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P₁,c)。

其中，A为运动原子，t为样本视频库中视频中的时间点，σ为高斯分布的标准差，V为样本视频库中的视频，P₁为一个运动短语，r(V,P₁)为一个运动短语P₁对样本视频库中的视频的响应， OR_i指计算样本视频库中的视频与时间相邻的运动原子单元的响应，S(P₁,c)表示和一个运动短语响应最大的样本视频库中的视频的集合，c为样本视频库中的视频的类型的标识，Φ(V,t′)为样本视频库中视频中以t′ 开始的分段结果的视频特征，Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类器得到的得分，N(t′|t,σ)是指以t为均值，σ为标准差的高斯分布，Ω(t)指以t为中心的一个邻域。

其中，运动短语集合中的运动短语包括一个运动原子集合中的运动原子。

第二获取单元2025，用于获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值△RepSet(P₁,c)。

针对所述运动短语集合中的每一个运动短语，运行上述单元，并得到运动短语集合中的每一个运动短语的代表性参数和贡献值。

所述筛选单元2022，包括：

筛选子单元20221，用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照Rep(P₁,c)+△RepSet(P₁,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前m₁个运动短语作为第1筛选结果，m₁为大于等于1的正整数。

添加子单元20222，用于从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语，使得所述第1筛选结果中的运动短语具有2个运动原子。

连续运行所述筛选子单元和所述添加子单元，直至得到第n-1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语，使得所述第n-1筛选结果中的运动短语具有n个运动原子，再根据所述第n-1筛选结果中的运动短语得到第n筛选结果，所述第n筛选结果为按照Rep(P_n,c)+△RepSet(P_n,c)的值由大到小的顺序排列的前m_n个运动短语，m_n为大于等于1的正整数，第n筛选结果中的运动短语具有n个运动原子，n为大于等于1的正整数。

第一生成子单元20223，用于根据所述第1至第n筛选结果，生成所述描述向量。

本发明实施例提供的一种视频分类的装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，对每一个运动短语计算代表性参数和覆盖性参数的贡献值，首先生成包括一个运动原子的运动短语，根据代表性参数和覆盖性参数的贡献值，筛选出具有良好代表性和覆盖性的运动短语，得到第1筛选结果，再将一个运动原子加入第1筛选结果中的运动短语，得到新的运动短语，再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选，得到第2筛选结果，以此类推，重复该过程，直至得到第n筛选结果，根据第1至第n筛选结果，生成描述向量，利用描述向量，生成第二分类规则，得到待检测视频的响应向量，检测待检测视频的类型是否与样本视频库中的视频的类型相同，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类。

可选的，如图8所示，所述第二生成单元2023，包括：

集合子单元20231，用于根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果，得到筛选结果集合。

其中，样本视频库包括至少二个视频，并且样本视频库包括至少二种类型的视频。

第二生成子单元20232，用于根据所述筛选结果集合，生成所述样本视频库中的视频对应的描述向量。

本发明实施例提供的一种视频分类的装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，对每一个运动短语计算代表性参数和覆盖性参数的贡献值，首先生成包括一个运动原子的运动短语，根据代表性参数和覆盖性参数的贡献值，筛选出具有良好代表性和覆盖性的运动短语，得到第1筛选结果，再将一个运动原子加入第1筛选结果中的运动短语，得到新的运动短语，再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选，得到第2筛选结果，以此类推，重复该过程，直至得到第n筛选结果，将样本库中不同类型的视频对应的第1至第n筛选结果合并，得到筛选结果集合，并根据筛选结果集合生成描述向量，利用描述向量，生成第一分类规则，得到待检测视频的响应向量，确定待检测视频的类型与样本视频库包括的视频的类型中的一种类型相同，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，减少了生成描述向量的时间，并且能够对多个不同类型的包括长时间的连续复杂运动的视频进行准确分类。

可选的，如图9所示，所述分类模块203，包括：

第三生成单元2031，用于生成所述待检测视频对应的响应向量。

第三获取单元2032，用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则。

其中，第一分类规则用于确定待检测视频的所属类型。

第一分类单元2033，用于根据所述第一分类规则和所述响应向量，确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同，并将所述待检测视频分类。

可选的，如图10所示，所述分类模块203，包括：

第四生成单元2034，用于生成所述待检测视频对应的响应向量。

第四获取单元2035，用于根据所述样本视频库中各个视频对应的描述向量，得到第二分类规则。

其中，第二分类规则用于检测待检测视频是否与样本视频库中的视频的类型相同。

检测单元2036，用于检测所述待检测视频的响应向量是否符合所述第二分类规则。

第二分类单元2037，用于当符合时，确定所述待检测视频与所述样本视频库中的视频的类型相同。

可选的，如图11所示，所述装置200，还包括：

获取模块204，用于获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语。

其中，主要运动短语为与至少一个分量对应的运动短语。

显示模块205，用于获取并显示所述待检测视频的关键帧。

其中，关键帧与主要运动短语中的每个运动原子单元的响应最大。

本发明实施例提供的一种视频分类的装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，并对运动短语进行筛选，根据筛选结果，生成描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的，还可以根据待检测视频的响应向量中的分量，得到主要运动短语，从而得到并显示关键帧。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，并减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类；同时，还可以利用待检测视频的响应向量中的分量，得到并显示待检测视频的关键帧，将待检测视频的主要内容清楚简要的呈现出来，使得用户能够快速了解视频的主要内容。

本发明实施例还提供了一种视频分类系统300，如图12所示，包括：至少一个处理器301，例如CPU，至少一个通信总线302，存储器303，至少一个网络接口304或者用户接口305。通信总线302用于实现这些组件之间的连接通信。可选的，用户接口305包括显示器、键盘、鼠标、触摸屏等设备。存储器303可能包含高速RAM存储器，也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。

具体的，存储器303可以用于存储样本视频库和样本视频库中的视频的分段结果，还可以用于存储运动原子集合、样本视频库中的视频的描述向量和运动短语集合，还可以用于存储运动短语的筛选结果、样本视频库中的视频的类型和待检测视频的响应向量，还可以用于存储运动短语的代表性参数、覆盖性参数和覆盖性参数的贡献值等等，还可以用于存储生成的第一分类规则和第二分类规则。

具体的，处理器301可以用于按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合；以及，用于利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量；以及，用于利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。

具体的，处理器301还可以用于根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合；以及，用于筛选所述运动短语，并得到筛选结果；以及，用于根据所述筛选结果，生成与所述样本视频库中的视频对应的描述向量。

具体的，处理器301还可以用于获取运动原子单元π(A,t,σ)，并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P₁,c)；以及，用于获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值△RepSet(P₁,c)，以及，用于针对所述运动短语集合中的每一个运动短语，执行上述过程，并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值。

其中，T_c为样本视频库中标识为c的视频分段得到的片段的数量，为运动短语集合，且一个运动短语包含的运动原子所属视频类型的标识为c。

其中，样本视频库包括至少二个视频，并且样本视频库中的视频的类型相同。运动短语集合中的运动短语包括一个运动原子集合中的运动原子。

具体的，处理器301还可以用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照Rep(P₁,c)+△RepSet(P₁,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前m₁个运动短语作为第1筛选结果；以及，用于从所述运动原子集合中提取一个运动原子加入所述第1筛选结果中的运动短语，使得所述第1筛选结果中的运动短语具有2个运动原子；以及，用于重复上述过程，直至得到第n-1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语，使得所述第n-1筛选结果中的运动短语具有n个运动原子，再根据所述第n-1筛选结果中的运动短语得到第n筛选结果，所述第n筛选结果为按照Rep(P_n,c)+△RepSet(P_n,c)的值由大到小的顺序排列的前m_n个运动短语，m_n为大于等于1的正整数，第n筛选结果中的运动短语具有n个运动原子；以及，用于根据所述第1至第n筛选结果，生成所述描述向量。

其中，m₁为大于等于1的正整数，n为大于等于1的正整数。

具体的，处理器301还可以用于根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果，得到筛选结果集合；以及，用于根据所述筛选结果集合，生成所述样本视频库中的视频对应的描述向量。

具体的，处理器301还可以用于生成所述待检测视频对应的响应向量；以及，用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则；以及，用于根据所述第一分类规则和所述响应向量，确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同，并将所述待检测视频分类。

其中，第一分类规则用于确定待检测视频的所属类型。

具体的，处理器301还可以用于生成所述待检测视频对应的响应向量；以及，用于根据所述样本视频库中各个视频对应的描述向量，得到第二分类规则；以及，用于检测所述待检测视频的响应向量是否符合所述第二分类规则；以及，用于当符合时，确定所述待检测视频与所述样本视频库中的视频的类型相同。

具体的，处理器301还可以用于获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语；以及，用于获取并显示所述待检测视频的关键帧。

其中，主要运动短语为与至少一个分量对应的运动短语。关键帧与主要运动短语中的每个运动原子单元的响应最大。

本发明实施例提供的一种视频分类系统，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，并对运动短语进行筛选，根据筛选结果，生成描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的，还可以根据待检测视频的响应向量中的分量，得到主要运动短语，从而得到并显示关键帧。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，并减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类；同时，还可以利用待检测视频的响应向量中的分量，得到并显示待检测视频的关键帧，将待检测视频的主要内容清楚简要的呈现出来，使得用户能够快速了解视频的主要内容。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频分类的方法，其特征在于，包括：

利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量，包括：根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合，所述运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子；筛选所述运动短语，并得到筛选结果；根据所述筛选结果，生成与所述样本视频库中的视频对应的描述向量；

2.根据权利要求1所述的方法，其特征在于，所述样本视频库包括至少二个视频，并且所述样本视频库中的视频的类型相同。

3.根据权利要求2所述的视频分类的方法，其特征在于，所述运动短语集合中的运动短语包括一个所述运动原子集合中的运动原子；所述方法还包括：

获取运动原子单元π(A,t,σ)，并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P₁,c)，A为运动原子，t为所述样本视频库中视频中的时间点，σ为高斯分布的标准差，V为所述样本视频库中的视频，P₁为所述一个运动短语，r(V,P₁)为所述一个运动短语P₁对所述样本视频库中的视频的响应， OR_i指计算所述样本视频库中的视频与时间相邻的所述运动原子单元的响应，S(P₁,c)表示和所述一个运动短语响应最大的所述样本视频库中的视频的集合，c为所述样本视频库中的视频的类型的标识，Φ(V,t′)为所述样本视频库中视频中以t′开始的所述分段结果的视频特征，Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类器得到的得分，N(t′|t,σ)是指以t为均值，σ为标准差的高斯分布，Ω(t)指以t为中心的一个邻域；

获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值ΔRepSet(P₁,c)， T_c为所述样本视频库中标识为c的视频分段得到的片段的数量，为所述运动短语集合，且所述一个运动短语包含的所述运动原子所属视频类型的标识为c；

所述筛选所述运动短语，得到筛选结果，包括：

根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照Rep(P₁,c)+ΔRepSet(P₁,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前m₁个运动短语作为第1筛选结果，m₁为大于等于1的正整数；

重复上述过程，直至得到第n-1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语，使得所述第n-1筛选结果中的运动短语具有n个运动原子，再根据所述第n-1筛选结果中的运动短语得到第n筛选结果，所述第n筛选结果为按照Rep(P_n,c)+ΔRepSet(P_n,c)的值由大到小的顺序排列的前m_n个运动短语，m_n为大于等于1的正整数，第n筛选结果中的运动短语具有n个运动原子，n为大于等于1的正整数；

根据所述第1至第n筛选结果，生成所述描述向量。

4.根据权利要求3所述的视频分类的方法，其特征在于，所述样本视频库包括至少二个视频，并且所述样本视频库包括至少二种类型的视频；

所述根据筛选结果，生成与所述样本视频库中的视频对应的描述向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频，包括：

生成所述待检测视频对应的响应向量；

6.根据权利要求1或2所述的视频分类的方法，其特征在于，所述利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频，包括：

生成所述待检测视频对应的响应向量；

7.根据权利要求1所述的视频分类的方法，其特征在于，还包括：

8.一种视频分类的装置，其特征在于，包括：

第二生成模块，用于利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量，包括：第一生成单元，用于根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合，所述运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子；筛选单元，用于筛选所述运动短语，并得到筛选结果；第二生成单元，用于根据所述筛选结果，生成与所述样本视频库中的视频对应的描述向量；

9.根据权利要求8所述的装置，其特征在于，所述样本视频库包括至少二个视频，并且所述样本视频库中的视频的类型相同。

10.根据权利要求9所述的装置，其特征在于，所述运动短语集合中的运动短语包括一个所述运动原子集合中的运动原子；所述第二生成模块，还包括：

第一获取单元，用于获取运动原子单元π(A,t,σ)，并根据所述运动原子单元获取一个运动短语的代表性参数Rep(P₁,c)，A为运动原子，t为所述样本视频库中视频中的时间点，σ为高斯分布的标准差，V为所述样本视频库中的视频，P₁为所述一个运动短语，r(V,P₁)为所述一个运动短语P₁对所述样本视频库中的视频的响应， OR_i指计算所述样本视频库中的视频与时间相邻的所述运动原子单元的响应，S(P₁,c)表示和所述一个运动短语响应最大的所述样本视频库中的视频的集合，c为所述样本视频库中的视频的类型的标识，Φ(V,t′)为所述样本视频库中视频中以t′开始的所述分段结果的视频特征，Score(Φ(V,t′),A)是将Φ(V,t′)输入到支持向量机SVM分类器得到的得分，N(t′|t,σ)是指以t为均值，σ为标准差的高斯分布，Ω(t)指以t为中心的一个邻域；

第二获取单元，用于获取所述一个运动短语的覆盖性参数并根据所述一个运动短语的覆盖性参数得到所述一个运动短语对所述覆盖性参数的贡献值ΔRepSet(P₁,c)， T_c为所述样本视频库中标识为c的视频分段得到的片段的数量，为所述运动短语集合，且所述一个运动短语包含的所述运动原子所属视频类型的标识为c；

所述筛选单元，包括：

筛选子单元，用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照Rep(P₁,c)+ΔRepSet(P₁,c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前m₁个运动短语作为第1筛选结果，m₁为大于等于1的正整数；

连续运行所述筛选子单元和所述添加子单元，直至得到第n-1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第n-1筛选结果中的运动短语，使得所述第n-1筛选结果中的运动短语具有n个运动原子，再根据所述第n-1筛选结果中的运动短语得到第n筛选结果，所述第n筛选结果为按照Rep(P_n,c)+ΔRepSet(P_n,c)的值由大到小的顺序排列的前m_n个运动短语，m_n为大于等于1的正整数，第n筛选结果中的运动短语具有n个运动原子，n为大于等于1的正整数；

11.根据权利要求10所述的视频分类的装置，其特征在于，所述样本视频库包括至少二个视频，并且所述样本视频库包括至少二种类型的视频；

所述第二生成单元，包括：

12.根据权利要求11所述的装置，其特征在于，所述分类模块，包括：

第三生成单元，用于生成所述待检测视频对应的响应向量；

13.根据权利要求8或9所述的装置，其特征在于，所述分类模块，包括：

第四生成单元，用于生成所述待检测视频对应的响应向量；

14.根据权利要求8所述的装置，其特征在于，还包括：