CN101404030A

CN101404030A - 一种视频中周期性结构片段检测的方法及系统

Info

Publication number: CN101404030A
Application number: CNA2008102255620A
Authority: CN
Inventors: 黄庆明; 张维刚; 蒋树强; 高文
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2008-11-05
Filing date: 2008-11-05
Publication date: 2009-04-08
Anticipated expiration: 2028-11-05
Also published as: CN101404030B

Abstract

本发明涉及一种视频中周期性结构片段检测的方法及系统，所述方法包括：步骤1，从所述视频中删除重放片段；步骤2，以子镜头为单元对所述视频进行分解；步骤3，依据被分解出的子镜头间的相似度的距离对所述子镜头进行聚类；步骤4，根据所述子镜头在所述视频中的位置及所述子镜头所属的子镜头类，确定构成周期性结构片段的关键子镜头序列，并从所述视频中匹配出所有所述关键子镜头序列。本发明能够对视频中的周期性结构片段进行有效检测，且不依赖于特定领域知识，可应用到多种不同类型的视频上。

Description

一种视频中周期性结构片段检测的方法及系统

技术领域

本发明涉及视频结构化及内容分析领域，尤其涉及一种视频中周期性结构片段检测的方法及系统。

背景技术

随着各种数字视频摄录设备的小型化、高速化及普及化，每天都有数量巨大的视频数据产生，但由于这些数据以非结构化形式存在并且数量巨大，所以如何快速有效的管理和访问这些视频内容便成为目前视频应用的一个瓶颈。该瓶颈的突破口就在于新的视频自动化分析处理技术。该类技术包括视频结构化分析、视频内容分析、视频精彩摘要、基于内容的视频索引和检索。

一般而言，视频结构化分析是视频内容分析等后续应用处理的第一步。

下面对现有技术中的镜头、子镜头、关键帧和周期性结构片段进行详细说明。

镜头，是由摄像机一次不间断拍摄中所得到的一系列连续视频帧组成，在时间和空间上表示一个连续的动作。

子镜头，是指比镜头颗粒度更小视频结构单元，一个镜头或一小段视频可以被划分为一个或多个子镜头，划分标准是视频视觉内容的统一性。也就是说，子镜头相对于镜头所包含的视觉内容更紧凑、更单一。

关键帧，是指可以用来代表镜头或子镜头内容的重要视频帧。

周期性结构片段，是指包含一个完整动作或事件并在视频中反复多次近似重复出现的结构片段，周期性结构片段构成视频主体内容并具有丰富语义。周期性结构片段本身是由一系列的关键子镜头组成。

根据拍摄对象、娱乐形式、应用场所的不同，视频可以分为电影、家庭视频、音乐视频、体育视频、监控视频和新闻视频等。不同类型的视频因为所拍摄相机数、拍摄地点、拍摄手法的不同，而展现出不同的结构特性来。

以体育视频为例，运动员的动作画面是构成体育视频的最主要内容。运动员往往都是依次在相对固定的场地或器材上进行动作展示，有着确定的时序结构，不同的运动员所展示的动作形式也基本上相类似，并且这些动作画面一般都是通过位置相对固定的某个摄像机拍摄成体育视频的，因此，从整段体育视频上来看，不同运动员的展示动作片段具有很高的相似性，呈现出周期性模式。以体育视频中的射箭运动视频来说，每个运动员的完整比赛动作都是由“亮相准备→拉弓瞄准放弦→射中箭靶”组成。一个运动员完成动作后，另一个运动员按同样动作次序完成比赛，上述动作画面周期性出现；对应的，在射箭视频中，由“准备→拉弓瞄准放弦→箭靶”一系列子镜头画面所构成的完整射箭动作结构片段也为周期性出现。

再比如，在跳水运动中，运动员的完整动作由“跳台或跳板上亮相准备→起跳→空中姿态动作→入水→得分”组成，在整个比赛过程中，运动员按比赛轮次交替出现，跳水动作过程周期性出现；对应的，在跳水视频中，由“准备→起跳→空中跳水动作→入水→得分”一系列子镜头画面所构成的完整跳水动作结构片段也是周期性出现。

同样，在监控视频中，一些结构片段也呈现出一定的周期性，比如说在银行柜台前面的监控摄像头所拍下的视频里，构成视频最主要内容的客户办理业务的画面结构片段是周期性出现的。在新闻视频中，播音员画面结构片段是周期性出现。

上面给出的体育、监控、新闻等视频的共同特征是，均具有较好的结构性，内容上呈现出一定的单一性，拍摄相机、拍摄地点相对固定，视频主要内容由具有丰富语义的周期性结构片段组成。可以利用这些共同特征来对这类结构性很好的视频进行结构化分析及内容语义分析。

对于后续高级应用处理，如视频浏览、索引、检索、精彩程度排序、视频摘要、视频增强，需要将上述周期性片段从视频中检测出来。

发明内容

为解决上述问题，本发明提供了一种视频中周期性结构片段检测的方法及系统，用于从视频中检测出周期性结构片段。

本发明公开了一种视频中周期性结构片段检测的方法，包括：

步骤1，从所述视频中删除重放片段；

步骤2，以子镜头为单元对所述视频进行分解；

步骤3，依据被分解出的子镜头间的相似度的距离对所述子镜头进行聚类；

步骤4，根据所述子镜头在所述视频中的位置及所述子镜头所属的子镜头类，确定构成周期性结构片段的关键子镜头序列，并从所述视频中匹配出所有所述关键子镜头序列。

所述步骤1进一步为：

步骤21，查找出所述视频的重放片段的起始帧和结束帧；

步骤22，依据所述起始帧的帧号和所述结束帧的帧号，将所述重放片段从所述视频中删除。

所述步骤2进一步为：

步骤31，对所述视频进行子镜头边界检测，以获得子镜头的起始帧的位置和结束帧的位置；

步骤32，依据所述起始帧的位置和所述结束帧的位置将所述视频分解为子镜头。

所述步骤3进一步为：

步骤41，从所述子镜头中提取关键帧；

步骤42，计算所述关键帧间的相似度的距离作为所述子镜头间相似度的距离；

步骤43，依据所述相似度的距离对所述子镜头进行聚类。

所述步骤41进一步为：

步骤51，从所述子镜头中查找出同所述子镜头中其他帧的相似度的距离最小的帧作为所述子镜头的关键帧。

所述步骤4进一步为

步骤61，对同一子镜头类中的子镜头赋予相同标号；

步骤62，按子镜头在所述视频中的位置将所述子镜头的标号排列成子镜头标号序列；

步骤63，从所述子镜头标号序列中查找出周期性出现的关键标号子串，所述子镜头标号序列中出现的关键标号子串对应的子镜头序列为所述关键子镜头序列；

步骤64，将所述子镜头标号序列同所述关键标号子串进行匹配，所述子镜头标号序列中被匹配的标号子串对应的子镜头序列为视频中的周期性结构片段。

所述步骤3完成所述聚类后还包括：

步骤71，根据子镜头类中包含的子镜头的时间长度和，消除噪声子镜头类。

所述步骤71进一步为：

步骤81，按子镜头类中包含子镜头的数量从高到低的顺序对子镜头类进行排序；

步骤82，确定主要子镜头类的个数N_valid，所述排序中前N_valid个子镜头类中子镜头的时间长度和占所述视频时间长度的比例大于预设值，所述排序中前N_valid-1个类中子镜头的时间长度和占所述视频时间长度的比例小于所述预设值；

步骤83，所述排序中第N_valid个子镜头类之后的子镜头类为噪声子镜头类，将所述噪音子镜头类从所述排序中删除。

所述步骤64中的匹配为精确匹配或模糊匹配。

所述步骤82中的预设值为90％。

本发明还公开了一种视频中周期性结构片段检测的系统，所述系统包括：

预处理模块，用于从所述视频中删除重放片段；

子镜头分解模块，用于在所述预处理模块完成对所述视频的预处理后，以子镜头为单元对所述视频进行分解；

子镜头聚类模块，用于在所述子镜头分解模块完成分解后，依据被分解出的子镜头间的相似度的距离对所述子镜头进行聚类；

检测模块，用于在所述子镜头聚类模块完成聚类后，根据所述子镜头在所述视频中的位置及所述子镜头所属的子镜头类，确定构成周期性结构片段的关键子镜头序列，并从所述视频中匹配出所有所述关键子镜头序列。

所述预处理模块进一步用于查找出所述视频的重放片段的起始帧和结束帧；依据所述起始帧的帧号和所述结束帧的帧号，将所述重放片段从所述视频中删除。

所述子镜头分解模块进一步用于对所述视频进行子镜头边界检测，以获得子镜头的起始帧的位置和结束帧的位置；依据所述起始帧的位置和所述结束帧的位置将所述视频分解为子镜头。

所述子镜头聚类模块进一步用于从所述子镜头中提取关键帧；计算所述关键帧间的相似度的距离作为所述子镜头间相似度的距离；依据所述相似度的距离对所述子镜头进行聚类。

所述子镜头聚类模块，在从所述子镜头中提取关键帧时，进一步用于从所述子镜头中查找出同所述子镜头中其他帧的相似度的距离最小的帧作为所述子镜头的关键帧。

所述检测模块进一步用于对同一子镜头类中的子镜头赋予相同标号；按子镜头在所述视频中的位置将所述子镜头的标号排列成子镜头标号序列；从所述子镜头标号序列中查找出周期性出现的关键标号子串，所述子镜头标号序列中出现的关键标号子串对应的子镜头序列为所述关键子镜头序列；将所述子镜头标号序列同所述关键标号子串进行匹配，所述子镜头标号序列中被匹配的标号子串对应的子镜头序列为视频中的周期性结构片段。

所述子镜头聚类模块在完成所述聚类后还用于根据子镜头类中包含的子镜头的时间长度和，消除噪声子镜头类。

所述子镜头聚类模块在根据子镜头类中包含的子镜头的时间长度和消除噪声子镜头类时进一步用于按子镜头类中包含子镜头的数量从高到低的顺序对子镜头类进行排序；确定主要子镜头类的个数N_valid，所述排序中前N_valid个子镜头类中子镜头的时间长度和占所述视频时间长度的比例大于预设值，所述排序中前N_valid-1个类中子镜头的时间长度和占所述视频时间长度的比例小于所述预设值；所述排序中第N_valid个子镜头类之后的子镜头类为噪声子镜头类，将所述噪音子镜头类从所述排序中删除。

所述匹配为精确匹配或模糊匹配。

所述预设值为90％。

本发明的有益效果在于，能够对视频中的周期性结构片段进行有效检测，且不依赖于特定领域知识，可应用到多种不同类型的视频上。

附图说明

图1是本发明中视频中周期性结构片段检测的方法流程图；

图2是本发明中从视频中删除重放片段的方法流程图；

图3是本发明中以子镜头为单元对视频进行分解的方法流程图；

图4是本发明中对子镜头进行聚类的方法流程图；

图5是本发明中消除噪声子镜头类的方法流程图；

图6是本发明中进行检测的方法流程图；

图7是本发明中视频中周期性结构片段检测的系统结构图。

具体实施方式

下面结合附图，对本发明做进一步的详细描述。

如图1所示，本发明的视频中周期性结构片段检测的方法如下所述。

步骤S101，对被检测的视频进行预处理，从视频中删除重放片段。

如广播体育视频中，往往采用重放的技术把运动员的精彩动作视频片段重复播放一遍或以不同角度的慢动作形式来重复播放，以便于观众能够更好的欣赏到运动员的精彩表现。但由于此类重放片段的内容与正常播放的周期性结构片段内容上有很多重复或相似之处，会给周期性结构片段的检测带来误判，所以需要首先将重放片段检测出来并删除掉。

从视频中删除重放片段的方法如图2所示。

步骤S201，查找出视频的重放片段的起始帧和结束帧。

现有的视频重放片段检测技术包括基于标识画面(Logo)的重放片段检测技术、基于插帧比较的重放片段检测技术。

步骤S202，依据起始帧的帧号和结束帧的帧号，将检测出的重放片段从视频中删除。

步骤S102，以子镜头为单元对所述视频进行分解。

以子镜头为单元对视频进行分解的方法如图3所示。

步骤S301，对视频进行子镜头边界检测，以获得子镜头的起始帧的位置和结束帧的位置。

现有的子镜头边界检测方法包括：基于阈值的视频子镜头边界检测技术、基于运动特征的视频子镜头边界检测技术、基于机器学习算法的视频子镜头边界检测技术。

步骤S302，依据起始帧的位置和结束帧的位置将视频分解为子镜头。

每个子镜头包含一个动作单元。

视频表示为子镜头集合

V＝{Sub_i，1≤i≤N_sub}，

其中Sub_i为第i个子镜头，N_sub为视频包括的子镜头的数目。

步骤S103，依据被分解出的子镜头间的相似度的距离对子镜头进行聚类。

对子镜头进行聚类的方法如图4所示。

步骤S401，从子镜头中提取关键帧。

从子镜头中查找出同该子镜头中其他帧的相似度的距离最小的帧作为该子镜头的关键帧。关键帧与其他帧最相似，最能够代表该子镜头内容。

一具体实施例中采用颜色特征和形状描述特征来计算任意两帧间的相似度的距离。

子镜头Sub_i表示为{F_j ⁱ，1≤j≤Nⁱ _frame}，其中，F_j ⁱ是子镜头Sub_i的第j个帧，Nⁱ _frame是子镜头Sub_i的帧数目。

以两帧间的HSV颜色直方图差表征两帧间颜色特征上的相似度距离。帧F_j ⁱ和帧F_k ⁱ间颜色特征上的相似度的距离为，

HD (F_{j}^{i}, F_{k}^{i}) = Σ_{b = 1}^{Bin} | H_{j}^{i} (b) - H_{k}^{i} (b) |

其中，H_j ⁱ(b)和H_k ⁱ(b)分别为帧F_j ⁱ和帧F_k ⁱ的归一化HSV颜色直方图，Bin为总的颜色量化级数，b为对应的颜色量化级，取值范围为[1，Bin]。

以两帧间的统计角点变化率表征两帧间形状描述特征上的相似度距离。帧F_j ⁱ和帧F_k ⁱ间形状特征上的相似度的距离为，

SCCR (F_{j}^{i}, F_{k}^{i}) = \sqrt{{(H_{X} (F_{j}^{i}, F_{k}^{i}))}^{2} + {(H_{Y} (F_{j}^{i}, F_{k}^{i}))}^{2}}

其中，H_X(F_j ⁱ，F_k ⁱ)和H_Y(F_j ⁱ，F_k ⁱ)分别是帧F_j ⁱ和帧F_k ⁱ间的垂直方向和水平方向的角点投影直方图差，

H_{X} (F_{j}^{i}, F_{k}^{i}) = Σ_{b = 1}^{Bin} | X h_{j}^{i} (b) - X h_{k}^{i} (b) |

H_{Y} (F_{j}^{i}, F_{k}^{i}) = Σ_{b = 1}^{Bin} | Y h_{j}^{i} (b) - Y h_{k}^{i} (b) |

Bin是角点投影直方图的总级数，b为对应的角点投影直方图量化级，取值范围为[1，Bin]；Xh_j ⁱ(b)和Yh_j ⁱ(b)分别是帧F_j ⁱ的垂直方向及水平方向角点投影直方图。

两帧F_j ⁱ和F_k ⁱ间的相似度的距离为

Dis \tan ce (F_{j}^{i}, F_{k}^{i}) = αHD (F_{j}^{i}, F_{k}^{i}) + (1 - α) SCCR (F_{j}^{i}, F_{k}^{i})

其中，α为距离调节系数，0≤α≤1。

设子镜头Sub_i的关键帧为F_key ⁱ，其帧序号为key，

key = \underset{j}{\arg \min} Σ_{\underset{k! = j}{k = 1}}^{{N^{i}}_{frame}} Dis \tan ce (F_{j}^{i}, F_{k}^{i}), 1 \leq j \leq {N^{i}}_{frame}

子镜头集合V就用关键帧集合K＝{Fⁱ _key，1≤i≤N_sub}表征。

步骤S402，计算关键帧间的相似度的距离作为子镜头间相似度的距离。

一具体实施例中采用颜色特征和形状描述特征来计算任意两关键帧间的相似度的距离。

以两关键帧间的HSV颜色直方图差表征两帧间颜色特征上的相似度的距离。关键帧Fⁱ _key和关键帧F^j _key间颜色特征上的相似度的距离为，

HD (F_{key}^{i}, F_{key}^{j}) = Σ_{b = 1}^{Bin} | H_{key}^{i} (b) - H_{key}^{j} (b) |

其中，Hⁱ _key(b)和H^j _key(b)分别为关键帧Fⁱ _key和关键帧F^j _key的归一化HSV颜色直方图，Bin为总的颜色量化级数，b为对应的颜色量化级，取值范围为[1，Bin]。

以两关键帧间的统计角点变化率表征两关键帧间形状描述特征上的相似度的距离。关键帧Fⁱ _key和关键帧F^j _key间形状特征上的相似度的距离为，

SCCR (F_{key}^{i}, F_{key}^{j}) = \sqrt{{(H_{X} (F_{key}^{i}, F_{key}^{j}))}^{2} + {(H_{Y} (F_{key}^{i}, F_{key}^{j}))}^{2}}

其中，H_X(Fⁱ _key，F^j _key)和H_YFⁱ _key，F^j _key))分别是关键帧Fⁱ _key和关键帧F^j _key间的垂直方向和水平方向的角点投影直方图差，

H_{X} (F_{key}^{i}, F_{key}^{j}) = Σ_{b = 1}^{BIn} | X h_{key}^{i} (b) - X h_{key}^{j} (b) |

H_{Y} (F_{key}^{i}, F_{key}^{j}) = Σ_{b = 1}^{BIn} | Y h_{key}^{i} (b) - Y h_{key}^{j} (b) |

Bin是角点投影直方图的总级数，b为对应的角点投影直方图量化级，取值范围为[1，Bin]；Xhⁱ _key(b)和Yhⁱ _key(b)分别是关键帧Fⁱ _key的垂直方向及水平方向角点投影直方图。

关键帧Fⁱ _key和关键帧F^j _key间的相似度的距离为

Dis \tan ce (F_{key}^{i}, F_{key}^{j}) = αHD (F_{key}^{i}, F_{key}^{j}) + (1 - α) SCCR (F_{key}^{i}, F_{key}^{j})

其中，α为距离调节系数，0≤α≤1。

步骤S403，依据关键帧的相似度的距离对子镜头进行聚类。

应用已有的无监督聚类方法或半监督聚类算法，如K-means、ISODATA、谱聚类及EM-聚类，可实现子镜头的聚类。

在一具体实施方式中，步骤S103完成所述聚类后还按子镜头类中包含的子镜头的时间长度和，消除噪声子镜头类。

消除噪声子镜头类的方法流程如图5所示。

步骤S501，按子镜头类中包含子镜头的数量从高到低的顺序将子镜头类进行排序。

步骤S502，确定主要子镜头类的个数N_valid。

排序中前N_valid个子镜头类中子镜头的时间长度和占视频时间长度的比例大于预设值，排序中前N_valid-1个类中子镜头的时间长度和占视频时间长度的比例小于所述预设值。

主要子镜头类，其包含的子镜头通常为含有关键动作的子镜头，也就是在视频中近似重复出现的次数多，为构成视频内容的主体部分。

在一具体实施例中预设值为90％。采用预设值为90％，一方面保证主要子镜头类中包含的子镜头数量足够多，以供选择；另一方面能够除去适当数量的噪声子镜头类，以减少噪声子镜头类的影响。

步骤S503，排序中第N_valid个子镜头类之后的子镜头类为噪声子镜头类，将噪音子镜头类从排序中删除。

步骤S104，根据子镜头在视频中的位置及子镜头所属的子镜头类，确定构成周期性结构片段的关键子镜头序列，并从视频中匹配出所有所述关键子镜头序列。

步骤S104的具体方法流程如图6所示。

步骤S601，对同一子镜头类中的子镜头赋予相同标号。

排序中有N_valid个子镜头类，则按子镜头类在排序中的位置，将子镜头类分别标号为之0，1，2，……，N_valid-1，每个子镜头类中的子镜头都用该子镜头类的标号作为自身标号。

步骤S602，按子镜头在视频中的位置将子镜头的标号排列成子镜头标号序列。

比如，“31010105432032020310151010”就是具体实验中所得到的一段射箭视频的子镜头标号序列。

步骤S603，从子镜头标号序列中查找出周期性出现的关键标号子串，子镜头标号序列中出现的关键标号子串对应的子镜头序列为所述关键子镜头序列。

通过对子镜头标号序列进行周期性模式分析，从子镜头标号序列中查找出周期性出现的关键标号子串。

例如，穷举出所有可能的子镜头标号序列的标号子串，并给出各个标号子串对应的子镜头序列的画面，从中选择出构成周期性结构片段的关键子镜头序列，关键子镜头序列对应的标号子串为关键标号子串。

步骤S604，将子镜头标号序列同关键标号子串进行匹配，子镜头标号序列中被匹配的标号子串对应的子镜头序列为视频中的周期性结构片段。

将子镜头标号序列同关键标号子串进行精确匹配或模糊匹配，找出子镜头标号序列中所有重复出现并匹配的标号子串，匹配的标号子串对应的子镜头序列为视频中的周期性结构片段。

本发明视频中周期性结构片段检测的系统如图7所示。

系统包括：

预处理模块701，用于从所述视频中删除重放片段。

预处理模块701进一步用于查找出所述视频的重放片段的起始帧和结束帧；依据所述起始帧的帧号和所述结束帧的帧号，将所述重放片段从所述视频中删除。

子镜头分解模块702，用于在所述预处理模块701完成对所述视频的预处理后，以子镜头为单元对所述视频进行分解。

子镜头分解模块702进一步用于对所述视频进行子镜头边界检测，以获得子镜头的起始帧的位置和结束帧的位置；依据所述起始帧的位置和所述结束帧的位置将所述视频分解为子镜头。

子镜头聚类模块703，用于在所述子镜头分解模块702完成分解后，依据被分解出的子镜头间的相似度的距离对所述子镜头进行聚类。

子镜头聚类模块703进一步用于从所述子镜头中提取关键帧；计算所述关键帧间的相似度的距离作为所述子镜头间相似度的距离；依据所述相似度的距离对所述子镜头进行聚类。

子镜头聚类模块703在从所述子镜头中提取关键帧时，进一步用于从所述子镜头中查找出同所述子镜头中其他帧的相似度的距离最小的帧作为所述子镜头的关键帧。

子镜头聚类模块703在完成所述聚类后还用于根据子镜头类中包含的子镜头的时间长度和，消除噪声子镜头类。

子镜头聚类模块703在根据子镜头类中包含的子镜头的时间长度和消除噪声子镜头类时进一步用于按子镜头类中包含子镜头的数量从高到低的顺序对子镜头类进行排序；确定主要子镜头类的个数N_valid，所述排序中前N_valid个子镜头类中子镜头的时间长度和占所述视频时间长度的比例大于预设值，所述排序中前N_valid-1个类中子镜头的时间长度和占所述视频时间长度的比例小于所述预设值；所述排序中第N_valid个子镜头类之后的子镜头类为噪声子镜头类，将所述噪音子镜头类从所述排序中删除。

所述预设值为90％。

检测模块704，用于在所述子镜头聚类模块703完成聚类后，根据所述子镜头在所述视频中的位置及所述子镜头所属的子镜头类，确定构成周期性结构片段的关键子镜头序列，并从所述视频中匹配出所有所述关键子镜头序列。

检测模块704进一步用于对同一子镜头类中的子镜头赋予相同标号；按子镜头在所述视频中的位置将所述子镜头的标号排列成子镜头标号序列；从所述子镜头标号序列中查找出周期性出现的关键标号子串，所述子镜头标号序列中出现的关键标号子串对应的子镜头序列为所述关键子镜头序列；将所述子镜头标号序列同所述关键标号子串进行匹配，所述子镜头标号序列中被匹配的标号子串对应的子镜头序列为视频中的周期性结构片段。

所述匹配为精确匹配或模糊匹配。

本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下，还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明，而是由权利要求书的范围来确定的。

Claims

1.一种视频中周期性结构片段检测的方法，其特征在于，包括：

步骤1，从所述视频中删除重放片段；

步骤2，以子镜头为单元对所述视频进行分解；

2.如权利要求1所述视频中周期性结构片段检测的方法，其特征在于，

所述步骤1进一步为：

步骤21，查找出所述视频的重放片段的起始帧和结束帧；

3.如权利要求1所述视频中周期性结构片段检测的方法，其特征在于，

所述步骤2进一步为：

4如权利要求1所述视频中周期性结构片段检测的方法，其特征在于，

所述步骤3进一步为：

步骤41，从所述子镜头中提取关键帧；

步骤43，依据所述相似度的距离对所述子镜头进行聚类。

5.如权利要求4所述视频中周期性结构片段检测的方法，其特征在于，

所述步骤41进一步为：

6.如权利要求1所述视频中周期性结构片段检测的方法，其特征在于，

所述步骤4进一步为

步骤61，对同一子镜头类中的子镜头赋予相同标号；

7.如权利要求1所述视频中周期性结构片段检测的方法，其特征在于，

所述步骤3完成所述聚类后还包括：

8.如权利要求7所述视频中周期性结构片段检测的方法，其特征在于，

所述步骤71进一步为：

9.如权利要求6所述视频中周期性结构片段检测的方法，其特征在于，

所述步骤64中的匹配为精确匹配或模糊匹配。

10.如权利要求8所述视频中周期性结构片段检测的方法，其特征在于，

所述步骤82中的预设值为90％。

11.一种视频中周期性结构片段检测的系统，其特征在于，所述系统包括：

预处理模块，用于从所述视频中删除重放片段；

12.如权利要求11所述视频中周期性结构片段检测的系统，其特征在于，

13.如权利要求11所述视频中周期性结构片段检测的系统，其特征在于，

14如权利要求11所述视频中周期性结构片段检测的系统，其特征在于，

15.如权利要求14所述视频中周期性结构片段检测的系统，其特征在于，

16.如权利要求11所述视频中周期性结构片段检测的系统，其特征在于，

17.如权利要求11所述视频中周期性结构片段检测的系统，其特征在于，

18.如权利要求17所述视频中周期性结构片段检测的系统，其特征在于，

19.如权利要求16所述视频中周期性结构片段检测的系统，其特征在于，

所述匹配为精确匹配或模糊匹配。

20.如权利要求18所述视频中周期性结构片段检测的系统，其特征在于，

所述预设值为90％。