CN107133266B

CN107133266B - 视频镜头类别的检测方法及装置和数据库更新方法及装置

Info

Publication number: CN107133266B
Application number: CN201710209966.XA
Authority: CN
Inventors: 刘楠
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2020-02-18
Anticipated expiration: 2037-03-31
Also published as: CN107133266A

Abstract

本发明实施例提供了视频镜头类别的检测方法及装置和数据库更新方法及装置，所述方法包括：利用已建立的视觉特征数据库，对输入的视频流进行检测，获得以镜头为单位的类别标签序列；其中所述类别标签包括：片头、片尾、广告和普通节目镜头标签；所述视觉特征数据库中存储有片头、片尾和广告类别的视觉特征及其对应的类别标签；遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列；将纠正后的类别标签序列确定为检测结果。应用本发明实施例，可以更加准确地检测出不同类别的镜头。

Description

视频镜头类别的检测方法及装置和数据库更新方法及装置

技术领域

本发明涉及视觉特征数据库更新技术领域，特别是涉及一种视视频镜头类别的检测方法及装置和数据库更新方法及装置。

背景技术

目前，对视频镜头类别的检测，主要应用于去除视频中的广告镜头。具体来说，视频网站需要对接收的电视直播节目放到网站上供用户观看。但是，电视直播视频中存在大量的广告镜头，导致用户体验不佳，因此需要将电视直播视频中的广告镜头检测出来，以进一步去除广告镜头。

现有技术中对视频镜头类型类别的检测，通常采用被动检测的方法，其过程主要包括如下步骤：首先，需要预先建立一个视觉特征数据库，其中包括了片头、片尾、广告和普通节目的视觉特征及对应的类别标签；然后进行视频镜头类别检测时，将待检测视频流分割为一系列连续的镜头，提取每个镜头中的代表帧的视觉特征，用提取的视觉特征与视觉特征数据库进行匹配，根据匹配结果，确定镜头类别是片头、片尾或广告，如果都不匹配则镜头类别为正常节目，经过上述过程，视频流序列被变换为以镜头为单位的类别标签序列。这样，就可以根据类型类别结果序列，找到视频中的广告镜头，从而去除广告镜头。

实际应用中，在对输入的视频流去除广告镜头处理后，仍然有一部分广告没有被检测出来并去除。可见，采用现有技术中视频镜头类别的检测方法完全依赖视觉特征数据库中的数据是否全面准确，然而目前视觉特征数据库中的数据不能实时更新，因此导致获得的类别结果序列不够准确。

另外，现有技术中一般采用主动检测法和被动检测法检测视频中存在的广告，并根据检测出的广告的视觉特征更新广告镜头视觉特征数据库。主动检测法是利用广告镜头区别于普通节目镜头的一些特征，如镜头切换率或者视频帧颜色切换率，识别广告，进而依据识别出来的广告更新广告特征视觉特征数据库，再依据广告特征视觉特征数据库对视频进行广告检测。被动检测法是利用人工识别出来的广告的视觉特征更新广告特征视觉特征数据库，进而依据广告特征视觉特征数据库对视频进行广告检测。

在视频网站将输入的视频流中的广告镜头检测出来后，人们发现仍然有一部分广告没有检测出来，可见，现有技术的广告镜头视觉特征数据库存储的广告镜头的视觉特征数据不全，应用这样的数据库进行广告检测的结果不够准确。

发明内容

本发明实施例的一个目的在于提供一种视频镜头类别的检测方法及装置，以提高视频镜头类别检测结果的准确性；另一个目的在于提供一种视觉特征数据库更新方法及装置，使视觉特征数据库中的数据更全。具体技术方案如下：

为达到上述目的，第一方面，本发明实施例提供了视频镜头类别的检测方法，包括：

利用已建立的视觉特征数据库，对输入的视频流进行检测，获得以镜头为单位的类别标签序列；其中所述类别标签包括：片头、片尾、广告和普通节目镜头标签；所述视觉特征数据库中存储有片头、片尾和广告类别的视觉特征及其对应的类别标签；

遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列；

将纠正后的类别标签序列确定为检测结果。

可选的，所述遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列的步骤，包括：

按照预设长度将所述类别标签序列切分成多个子序列；

针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正，获得包含纠正后的各个子序列的纠正后的类别标签序列。

可选的，所述针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正的步骤，包括：

针对每个仅含有一个与子序列两端的第一镜头标签不同的第二镜头标签的子序列，将所述第二镜头标签纠正为第一镜头标签，其中，所述第一镜头标签为片头、片尾或广告镜头标签中的一种。

针对每个仅含有一个与子序列两端的普通节目标签不同的第三镜头标签的子序列，且所述第三镜头标签的时长小于第一预设阈值时，将所述第三镜头标签纠正为普通节目镜头标签，其中所述第三镜头标签为片头或者片尾镜头标签；

针对每个含有至少一个广告镜头标签的子序列，且所述子序列中包含的广告镜头标签的总时长小于第二预设阈值的情况下，将所述广告镜头标签纠正为普通节目标签，其中，所述广告镜头标签位于所述子序列的两端之间的中部。

可选的，所述针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正，获得包含纠正后的各个子序列的纠正后的类别标签序列，包括：

针对每个含有至少二个与序列两端广告镜头标签不同的第四镜头标签的子序列，在所述第四镜头标签的总时长小于第三预设阈值的情况下，将所述第四镜头标签纠正为广告镜头标签，其中，所述第三镜头标签为片头、片尾和普通节目标签中至的一种或多种。

针对每个一端为片尾镜头标签或者广告镜头标签，中部为第一预设数量个节目镜头标签，另一端为广告镜头标签或者片头镜头标签的子序列，在所述节目镜头标签总时长小于第四预设阈值的情况下，将所述镜头节目标签纠正为广告镜头标签。

第二方面，本发明实施例提供了一种视觉特征数据库更新方法,包括：

根据纠正后的类别标签序列，将纠正为广告镜头标签对应的镜头的视觉特征加入视觉特征数据库。

按照预设长度将所述类别标签序列切分成多个子序列；

可选的，所述根据纠正后的类别标签序列，将纠正为广告镜头标签对应的镜头的视觉特征加入视觉特征数据库，包括：

记录所述纠正后的类别标签序列中被纠正为广告镜头标签对应的镜头；

将被记录的镜头包含的每一视频帧，与所述视觉特征数据库中的视觉特征进行匹配；

若所述视觉特征数据库中不存在与所述被记录的镜头包含的任一视频帧的的视觉特征相同的视觉特征，将所述被记录的镜头的视觉特征和对应的广告标签加入到所述视觉特征数据库中。

在所述纠正后的类别标签序列中被纠正的为连续的广告镜头标签，且所述连续的广告镜头标签对应镜头的总时长为第五预设阈值的整数倍时，记录所述所述连续广告镜头标签对应的镜头；

将被记录的各个连续广告镜头的视觉特征和对应的广告镜头标签加入到所述视觉特征数据库中。

则抽取所述广告镜头标签对应的镜头的至少一个代表帧；

针对每一代表帧，利用哈希算法，计算该代表帧的视觉特征；

将得到的视觉特征和广告镜头标签加入到所述视觉特征数据库中。

第三方面，本发明实施例提供了一种视频镜头类别的检测装置，包括：检测模块、纠正模块和确定模块，其中，

所述检测模块，用于利用已建立的视觉特征数据库，对输入的视频流进行检测，获得以镜头为单位的类别标签序列；其中所述类别标签包括：片头、片尾、广告和普通节目镜头标签；所述视觉特征数据库中存储有片头、片尾和广告类别的视觉特征及其对应的类别标签；

所述纠正模块，用于遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列；

所述确定模块，用于将纠正后的类别标签序列确定为检测结果。

可选的，所述纠正模块，具体用于：

按照预设长度将所述类别标签序列切分成多个子序列；

可选的，所述纠正模块，具体用于：

第四方面，本发明实施例提供了一种视觉特征数据库更新装置,包括：检测模块、纠正模块和添加模块，其中，

所述添加模块，用于根据纠正后的类别标签序列，将纠正为广告镜头标签对应的镜头的视觉特征加入视觉特征数据库。

可选的，所述纠正模块，具体用于：

按照预设长度将所述类别标签序列切分成多个子序列；

可选的，所述纠正模块，具体用于：

可选的，所述添加模块，具体用于：

则抽取所述广告镜头标签对应的镜头的至少一个代表帧；

本发明实施例提供的一种视频镜头类别的检测方法及装置，所述方法包括：利用已建立的视觉特征数据库，对输入的视频流进行检测，获得以镜头为单位的类别标签序列；其中所述类别标签包括：片头、片尾、广告和普通节目镜头标签；所述视觉特征数据库中存储有片头、片尾和广告类别的视觉特征及其对应的类别标签；遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列；将纠正后的类别标签序列确定为检测结果。

应用本发明实施例，在利用已建立的视觉特征数据对输入的视频流进行广告镜头检测的基础上，再利用不同镜头标签之间特征的区别，将被误检的镜头标签进行纠正，相对于现有技术可以更加准确地检测出不同类别的镜头。

本发明实施例还提供了一种视觉特征数据库更新方法及装置,所述方法包括：利用已建立的视觉特征数据库，对输入的视频流进行检测，获得以镜头为单位的类别标签序列；其中所述类别标签包括：片头、片尾、广告和普通节目镜头标签；所述视觉特征数据库中存储有片头、片尾和广告类别的视觉特征及其对应的类别标签；遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列；根据纠正后的类别标签序列，将纠正为广告镜头标签对应的镜头的视觉特征加入视觉特征数据库。

应用本发明实施例，将被误检的镜头纠正为广告镜头，再将被纠正为广告的镜头标签对应的视觉特征加入广告镜头的视觉特征数据库，相对于现有技术使广告镜头的视觉特征数据库中的数据更全。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频镜头类别的检测方法的流程示意图；

图2为本发明实施例提供的一种视觉特征数据库更新方法的流程示意图；

图3为本发明实施例提供的一种视频镜头类别的检测装置的结构示意图；

图4为本发明实施例提供的一种视觉特征数据库更新装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术问题，本发明实施例提供了一种视频镜头类别的检测方法及装置和一种视觉特征数据库更新方法及装置。

下面首先对一种视频镜头类别的检测方法进行介绍。

图1为本发明实施例提供的一种视频镜头类别的检测方法的流程示意图，如图1所示，该方法包括：

S101：利用已建立的视觉特征数据库，对输入的视频流进行检测，获得以镜头为单位的类别标签序列；其中所述类别标签包括：片头、片尾、广告和普通节目镜头标签；所述视觉特征数据库中存储有片头、片尾和广告类别的视觉特征及其对应的类别标签。

示例性的，利用镜头检测算法，将输入的视频流分割成一系列的镜头，得到镜头序列。再利用存储有视觉特征和与该视觉特征对应的类别标签的已建立的视觉特征数据库，对得到的镜头序列进行检测，得到镜头的类别标签序列。如果视觉特征数据库中片头镜头的类别标签为“0”、片尾镜头的类别标签为“1”、广告镜头的类别标签为“2”，可以将不属于上述视觉特征数据库中类别的镜头确定为普通节目镜头，并将普通节目镜头的类别标签确定为“3”。这样，可以得到用数字表示的类别标签序列。

假设得到的类别标签序列为：1，1，1，2，1，1，1，1，1，1，2，2，3，2，2，2，2，2，2，2，3，1，3，3，3，3，3，3，3，3，3，2，2，3，3，3，3，3，3，3，2，2，2，2，1，3，1，1，2，2，1，1，1，1，3，3，2，2，2,2。

可以理解的是，视频中所谓的镜头为视频流中相似的视频帧的聚类。需要说明的是，获取节目直播视频中包含的镜头为现有技术，常用的有两种，一种是比较复杂的基于小波变换的算法，另一种是较为简单的基于颜色直方图的算法。且利用已建立的视觉特征数据库，对输入的视频流进行检测，获得以镜头为单位的类别标签序列为现有技术，这里不再赘述。

通常情况下，类别标签也被称为镜头标签。

S102：遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列。

可选地，在一种具体实现方式中，可以按照预设长度将所述类别标签序列切分成多个子序列；针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正，获得包含纠正后的各个子序列的纠正后的类别标签序列。

可选地，在一种具体实现方式中，可以针对每个仅含有一个与子序列两端的第一镜头标签不同的第二镜头标签的子序列，将所述第二镜头标签纠正为第一镜头标签，其中，所述第一镜头标签为片头、片尾或广告镜头标签中的一种。

可选地，在一种具体实现方式中，可以针对每个仅含有一个与子序列两端的普通节目标签不同的第三镜头标签的子序列，且所述第三镜头标签的时长小于第一预设阈值时，将所述第三镜头标签纠正为普通节目镜头标签，其中所述第三镜头标签为片头或者片尾镜头标签；针对每个含有至少一个广告镜头标签的子序列，且所述子序列中包含的广告镜头标签的总时长小于第二预设阈值的情况下，将所述广告镜头标签纠正为普通节目标签，其中，所述广告镜头标签位于所述子序列的两端之间的中部。

可选地，在一种具体实现方式中，可以针对每个含有至少二个与序列两端广告镜头标签不同的第四镜头标签的子序列，在所述第四镜头标签的总时长小于第三预设阈值的情况下，将所述第四镜头标签纠正为广告镜头标签，其中，所述第三镜头标签为片头、片尾和普通节目标签中至的一种或多种。

可选地，在一种具体实现方式中，可以针对每个一端为片尾镜头标签或者广告镜头标签，中部为第一预设数量个节目镜头标签，另一端为广告镜头标签或者片头镜头标签的子序列，在所述节目镜头标签总时长小于第四预设阈值的情况下，将所述镜头节目标签纠正为广告镜头标签。

在实际情况中，S102步骤可以具体的分为以下四种情形，下面分别举例进行说明。

例如：遍历S101步骤中得到的类别标签序列，如果以10个镜头标签的长度为预设长度，将S101步骤中得到的类别标签序列切分成多个子序列，得到的子序列结果如下：

1，1，1，2，1，1，1，1，1，1，

2，2，3，2，2，2，2，2，2，2，

3，1，3，3，3，3，3，3，3，3，

3，2，2，3，3，3，3，3，3，3，

2，2，2，2，1，3，1，1，2，2，

1，1，1，1，3，3，2，2，2，2。

第一种情形，针对子序列两端的镜头标签为“0”、“1”或者“2”，且子序列中仅含有一个与两端的镜头标签不同的镜头标签，如“0”、“1”、“2”或者“3”的子序列，将与两端的镜头标签不同的镜头标签“0”、“1”、“2”或者“3”纠正为与子序列两端的镜头标签一致的镜头标签。以上述子序列之一“1，1，1，2，1，1，1，1，1，1”为例，遍历该序列，将镜头标签“2”纠正为“1”，得到类别标签序列“1，1，1，1，1，1，1，1，1，1”；或者以上述子序列“2，2，3，2，2，2，2，2，2，2”为例，遍历该序列，将类别标签“3”纠正为“2”，得到类别标签序列“2，2，2，2，2，2，2，2，2，2”。

第二种情形，针对子序列两端的镜头标签为“3”，且子序列中仅含有一个镜头标签为“0”或者“1”，在镜头标签为“0”或者“1”的镜头的时长小于第一预设阈值10秒时，将镜头标签“0”或者“1”纠正为镜头标签“3”。以上述子序列之“3，1，3，3，3，3，3，3，3，3”为例，遍历该序列，在镜头标签为“1”的镜头总时长小于10秒的情况下，将镜头标签“1”纠正为“3”，得到的类别标签子序列“3，3，3，3，3，3，3，3，3”。

针对子序列两端的镜头标签为“3”，且子序列中含有一个或者多个镜头标签为“2”的子序列，在镜头标签为“2”的镜头的时长小于第二预设阈值5秒的情况下，将镜头标签“2”纠正为镜头标签“3”。以上述子序列“3，2，2，3，3，3，3，3，3，3”为例，遍历该序列，在镜头标签为“2，2”的镜头的总时长小于5秒的情况下，将镜头标签“2，2”纠正为“3，3”，得到新的子序列“3，3，3，3，3，3，3，3，3，3”。

第三种情形，针对子序列两端的镜头标签为“2”，且子序列中含有多个镜头标签为“0”和/或“1”和/或“3”的子序列，在与镜头标签“2”不同的镜头的时长小于第三预设阈值20秒的情况下，将该子序列中含有的与镜头标签“2”不同的镜头标签纠正为镜头标签“2”。以上述子序列之一“2，2，2，2，1，3，1，1，2，2”为例，遍历该序列，在镜头标签为“1，3，1，1”的镜头的总时长小于20秒的情况下，将镜头标签“1，3，1，1”纠正为“2，2，2，2”，得到新的子序列“2，2，2，2，2，2，2，2，2，2”。

第四种情形，针对子序列一端的为一个或者多个镜头标签“1”或者“2”，子序列中部含有2镜头标签为“3”的子序列，另一端为一个或者多个镜头标签为“2”或者“0”的子序列，在镜头标签为“3”的镜头的时长小于第四预设阈值15秒的情况下，将该子序列中含有的镜头标签“3”纠正为广告镜头标签“2”。以上述子序列之一“1，1，1，1，3，3，2，2，2，2”为例，遍历该序列，在镜头标签为“3，3”的镜头的总时长小于15秒的情况下，将镜头标签“3，3”纠正为“2，2”，得到的子序列为“1，1，1，1，2，2，2，2，2”。

需要说明的是，上述多个镜头可以是连续镜头，也可以是非连续镜头。另外，通常情况下利用公式(e-s)/fps确定出每一镜头的以秒为单位的时长，其中，e为该镜头的结束帧对应的时刻，s为该镜头的开始帧对应的时刻，fps为该镜头的帧率，且帧率根据输入的视频的格式确定的或者视频中预先设定的。

上述的根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列的具体实现方式，仅仅作为示例性说明，并不应构成对本发明的限定。

S103：将纠正后的类别标签序列确定为检测结果。

举例来说，可以将S102步骤中得到的类别标签序列“2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，2，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，2，2，2，2，2，2，2，2，2，2，1，1，1，1，2，2，2，2，2”确定为检测结果。

应用本发明图1所示实施例，在利用已建立的视觉特征数据对输入的视频流进行广告镜头检测的基础上，再利用不同镜头标签之间特征的区别，将被误检的镜头标签进行纠正，相对于现有技术可以更加准确地检测出不同类别的镜头。

图2为本发明实施例提供的一种视觉特征数据库更新方法的流程示意图，如图2所示，该方法包括：

S201：利用已建立的视觉特征数据库，对输入的视频流进行检测，获得以镜头为单位的类别标签序列；其中所述类别标签包括：片头、片尾、广告和普通节目镜头标签；所述视觉特征数据库中存储有片头、片尾和广告类别的视觉特征及其对应的类别标签。

需要说明的是，本步骤与图1所示的视频镜头类别的检测方法中的步骤S101相同，这里不再重复。

通常情况下，类别标签也被称为镜头标签。

S202：遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列。

需要说明的是，本步骤与图1所示的视频镜头类别的检测方法中的步骤S102相同，这里不再重复。

S203：根据纠正后的类别标签序列，将纠正为广告镜头标签对应的镜头的视觉特征加入视觉特征数据库。

可选地，在一种具体实现方式中，可以记录所述纠正后的类别标签序列中被纠正为广告镜头标签对应的镜头；将被记录的镜头包含的每一视频帧，与所述视觉特征数据库中的视觉特征进行匹配；若所述视觉特征数据库中不存在与所述被记录的镜头包含的任一视频帧的的视觉特征相同的视觉特征，将所述被记录的镜头的视觉特征和对应的广告标签加入到所述视觉特征数据库中。

可选地，在一种具体实现方式中，可以在所述纠正后的类别标签序列中被纠正的为连续的广告镜头标签，且所述连续的广告镜头标签对应镜头的总时长为第五预设阈值的整数倍时，记录所述所述连续广告镜头标签对应的镜头；将被记录的各个连续广告镜头的视觉特征和对应的广告镜头标签加入到所述视觉特征数据库中。

可选地，在一种具体实现方式中，可以则抽取所述广告镜头标签对应的镜头的至少一个代表帧；针对每一代表帧，利用哈希算法，计算该代表帧的视觉特征；将得到的视觉特征和广告镜头标签加入到所述视觉特征数据库中。

在实际应用中，S203步骤可以分为以下两种情形，下面分别举例进行说明。

第一种情形，该情形对应S202步骤中的第一种情形和第二种情形。在S202步骤的第一种情形中，被纠正为“2”的镜头标签“3”对应的镜头的每一帧与已建立的视觉特征数据库中的视觉特征进行匹配，如果在已建立的视觉特征数据库中查找到了与该镜头的其中一帧或者多帧的视觉特征相同的视觉特征，一般不进行进一步的操作。

如果在已建立的视觉特征数据库中不存在与该镜头的任一帧相同的视觉特征。本步骤中以被纠正为“2”的镜头标签为例进行说明，提取关键帧的方法有多种，通常情况下，以(e-s)/(n+1)为间隔抽取n帧作为代表帧，其中，e为该镜头的结束帧对应的时刻，s为该镜头的开始帧对应的时刻，n为抽取的代表帧的数量。将代表帧由RGB空间转化为灰度空间，利用哈希算法对转化到灰度空间的代表帧进行哈希编码，得到的哈希编码即为该镜头的视觉特征。然后，将该视觉特征和与该镜头的视觉特征对应的镜头标签“2”加入到该已建立的视觉特征数据库中。

第二种情形，该情形对应S202步骤中的第三种情形和第四种情形。将被纠正为“2”的镜头标签“1，3，1，1”和镜头标签“3，3”对应的镜头的视觉特征，与已建立的视觉特征数据库中的视觉特征进行匹配，如果在已建立的视觉特征数据库中查找到了与该镜头的其中一帧或者多帧的视觉特征相同的视觉特征，一般不进行进一步的操作。

如果在已建立的视觉特征数据库中不存在与该镜头的任一帧的视觉特征相同的视觉特征，则抽取上述镜头的关键帧，并将抽取的关键帧的视觉特征加入到该已建立的视觉特征数据库中，从而更新已建立的视觉特征数据库，用于对输入的视频流进行下一次检测。

需要说明的是，抽取代表帧的方法和确定代表帧的视觉特征的方法包括但不仅限于上述方法。

应用本发明图2所示实施例，将被误检的镜头纠正为广告镜头，再将被纠正为广告的镜头标签对应的视觉特征加入广告镜头的视觉特征数据库，相对于现有技术使广告镜头的视觉特征数据库中的数据更全。

与图1所示实施例相对应，本发明实施例还提供了一种视频镜头类别的检测装置。

图3为本发明实施例提供的一种视频镜头类别的检测装置的结构示意图。如图所示，该装置包括：检测模块301、纠正模块302和确定模块303，其中，

检测模块301，用于利用已建立的视觉特征数据库，对输入的视频流进行检测，获得以镜头为单位的类别标签序列；其中所述类别标签包括：片头、片尾、广告和普通节目镜头标签；所述视觉特征数据库中存储有片头、片尾和广告类别的视觉特征及其对应的类别标签。

纠正模块302，用于遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列。

可选地，在一种具体实现方式中，纠正模块302，具体用于：按照预设长度将所述类别标签序列切分成多个子序列；针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正，获得包含纠正后的各个子序列的纠正后的类别标签序列。

可选地，在一种具体实现方式中，纠正模块302，具体用于：针对每个仅含有一个与子序列两端的第一镜头标签不同的第二镜头标签的子序列，将所述第二镜头标签纠正为第一镜头标签，其中，所述第一镜头标签为片头、片尾或广告镜头标签中的一种。

可选地，在一种具体实现方式中，纠正模块302，具体用于：针对每个仅含有一个与子序列两端的普通节目标签不同的第三镜头标签的子序列，且所述第三镜头标签的时长小于第一预设阈值时，将所述第三镜头标签纠正为普通节目镜头标签，其中所述第三镜头标签为片头或者片尾镜头标签；针对每个含有至少一个广告镜头标签的子序列，且所述子序列中包含的广告镜头标签的总时长小于第二预设阈值的情况下，将所述广告镜头标签纠正为普通节目标签，其中，所述广告镜头标签位于所述子序列的两端之间的中部。

可选地，在一种具体实现方式中，纠正模块302，具体用于：针对每个含有至少二个与序列两端广告镜头标签不同的第四镜头标签的子序列，在所述第四镜头标签的总时长小于第三预设阈值的情况下，将所述第四镜头标签纠正为广告镜头标签，其中，所述第三镜头标签为片头、片尾和普通节目标签中至的一种或多种。

可选地，在一种具体实现方式中，纠正模块302，具体用于：针对每个一端为片尾镜头标签或者广告镜头标签，中部为第一预设数量个节目镜头标签，另一端为广告镜头标签或者片头镜头标签的子序列，在所述节目镜头标签总时长小于第四预设阈值的情况下，将所述镜头节目标签纠正为广告镜头标签。

确定模块303，用于将纠正后的类别标签序列确定为检测结果。

应用本发明图3所示实施例，在利用已建立的视觉特征数据对输入的视频流进行广告镜头检测的基础上，再利用不同镜头标签之间特征的区别，将被误检的镜头标签进行纠正，相对于现有技术可以更加准确地检测出不同类别的镜头。

与图2所示实施例相对应，本发明实施例还提供了一种视觉特征数据库更新装置。

图4为本发明实施例提供的一种视觉特征数据库更新装置的结构示意图，如图所示，该装置包括：检测模块401、纠正模块402和添加模块403，其中，

检测模块401，用于利用已建立的视觉特征数据库，对输入的视频流进行检测，获得以镜头为单位的类别标签序列；其中所述类别标签包括：片头、片尾、广告和普通节目镜头标签；所述视觉特征数据库中存储有片头、片尾和广告类别的视觉特征及其对应的类别标签。

纠正模块402，用于遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列。

可选地，在一种具体实现方式中，纠正模块402，具体用于：按照预设长度将所述类别标签序列切分成多个子序列；针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正，获得包含纠正后的各个子序列的纠正后的类别标签序列。

可选地，在一种具体实现方式中，纠正模块402，具体用于：针对每个仅含有一个与子序列两端的第一镜头标签不同的第二镜头标签的子序列，将所述第二镜头标签纠正为第一镜头标签，其中，所述第一镜头标签为片头、片尾或广告镜头标签中的一种。

可选地，在一种具体实现方式中，纠正模块402，具体用于：针对每个仅含有一个与子序列两端的普通节目标签不同的第三镜头标签的子序列，且所述第三镜头标签的时长小于第一预设阈值时，将所述第三镜头标签纠正为普通节目镜头标签，其中所述第三镜头标签为片头或者片尾镜头标签；针对每个含有至少一个广告镜头标签的子序列，且所述子序列中包含的广告镜头标签的总时长小于第二预设阈值的情况下，将所述广告镜头标签纠正为普通节目标签，其中，所述广告镜头标签位于所述子序列的两端之间的中部。

可选地，在一种具体实现方式中，纠正模块402，具体用于：针对每个含有至少二个与序列两端广告镜头标签不同的第四镜头标签的子序列，在所述第四镜头标签的总时长小于第三预设阈值的情况下，将所述第四镜头标签纠正为广告镜头标签，其中，所述第三镜头标签为片头、片尾和普通节目标签中至的一种或多种。

可选地，在一种具体实现方式中，纠正模块402，具体用于：针对每个一端为片尾镜头标签或者广告镜头标签，中部为第一预设数量个节目镜头标签，另一端为广告镜头标签或者片头镜头标签的子序列，在所述节目镜头标签总时长小于第四预设阈值的情况下，将所述镜头节目标签纠正为广告镜头标签。

添加模块403，用于根据纠正后的类别标签序列，将纠正为广告镜头标签对应的镜头的视觉特征加入视觉特征数据库。

添加模块403，具体用于：记录所述纠正后的类别标签序列中被纠正为广告镜头标签对应的镜头；将被记录的镜头包含的每一视频帧，与所述视觉特征数据库中的视觉特征进行匹配；若所述视觉特征数据库中不存在与所述被记录的镜头包含的任一视频帧的的视觉特征相同的视觉特征，将所述被记录的镜头的视觉特征和对应的广告标签加入到所述视觉特征数据库中。

添加模块403，具体用于：在所述纠正后的类别标签序列中被纠正的为连续的广告镜头标签，且所述连续的广告镜头标签对应镜头的总时长为第五预设阈值的整数倍时，记录所述所述连续广告镜头标签对应的镜头；将被记录的各个连续广告镜头的视觉特征和对应的广告镜头标签加入到所述视觉特征数据库中。

添加模块403，具体用于：则抽取所述广告镜头标签对应的镜头的至少一个代表帧；针对每一代表帧，利用哈希算法，计算该代表帧的视觉特征；将得到的视觉特征和广告镜头标签加入到所述视觉特征数据库中。

应用本发明图4所示实施例，将被误检的镜头纠正为广告镜头，再将被纠正为广告的镜头标签对应的视觉特征加入广告镜头的视觉特征数据库，相对于现有技术使广告镜头的视觉特征数据库中的数据更全。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频镜头类别的检测方法，其特征在于，所述方法包括：

将纠正后的类别标签序列确定为检测结果。

2.根据权利要求1所述的方法，其特征在于，所述遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列的步骤，包括：

按照预设长度将所述类别标签序列切分成多个子序列；

3.根据权利要求2所述的方法，其特征在于，所述针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正的步骤，包括：

4.根据权利要求2所述的方法，其特征在于，所述针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正的步骤，包括：

5.根据权利要求2所述的方法，其特征在于，所述针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正，获得包含纠正后的各个子序列的纠正后的类别标签序列，包括：

针对每个含有至少二个与序列两端广告镜头标签不同的第四镜头标签的子序列，在所述第四镜头标签的总时长小于第三预设阈值的情况下，将所述第四镜头标签纠正为广告镜头标签，其中，第三镜头标签为片头、片尾和普通节目标签中至的一种或多种。

6.根据权利要求2所述的方法，其特征在于，所述针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正，获得包含纠正后的各个子序列的纠正后的类别标签序列，包括：

针对每个一端为片尾镜头标签或者广告镜头标签，中部为第一预设数量个节目镜头标签，另一端为广告镜头标签或者片头镜头标签的子序列，在所述节目镜头标签总时长小于第四预设阈值的情况下，将镜头节目标签纠正为广告镜头标签。

7.一种视觉特征数据库更新方法,其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述遍历所述类别标签序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述类别标签序列进行纠正，获得纠正后的类别标签序列的步骤，包括：

按照预设长度将所述类别标签序列切分成多个子序列；

9.根据权利要求8所述的方法，其特征在于，所述针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正的步骤，包括：

10.根据权利要求8所述的方法，其特征在于，所述针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正的步骤，包括：

11.根据权利要求8所述的方法，其特征在于，所述针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正，获得包含纠正后的各个子序列的纠正后的类别标签序列，包括：

12.根据权利要求8所述的方法，其特征在于，所述针对每个子序列，从一端开始遍历所述子序列，根据不同类别标签在类别标签序列中排列位置特征和/或不同类别镜头的长度特征，对所述子序列进行纠正，获得包含纠正后的各个子序列的纠正后的类别标签序列，包括：

13.根据权利要求9或10所述的方法，其特征在于，所述根据纠正后的类别标签序列，将纠正为广告镜头标签对应的镜头的视觉特征加入视觉特征数据库，包括：

14.根据权利要求11或12所述的方法，其特征在于，所述根据纠正后的类别标签序列，将纠正为广告镜头标签对应的镜头的视觉特征加入视觉特征数据库，包括：

在所述纠正后的类别标签序列中被纠正的为连续的广告镜头标签，且所述连续的广告镜头标签对应镜头的总时长为第五预设阈值的整数倍时，记录所述连续的广告镜头标签对应的镜头；

15.根据权利要求7所述的方法，其特征在于，所述根据纠正后的类别标签序列，将纠正为广告镜头标签对应的镜头的视觉特征加入视觉特征数据库，包括：

则抽取所述广告镜头标签对应的镜头的至少一个代表帧；

16.一种视频镜头类别的检测装置，其特征在于，所述装置包括：检测模块、纠正模块和确定模块，其中，

17.根据权利要求16所述的装置，其特征在于，所述纠正模块，具体用于：

按照预设长度将所述类别标签序列切分成多个子序列；

18.根据权利要求17所述的装置，其特征在于，所述纠正模块，具体用于：

19.根据权利要求17所述的装置，其特征在于，所述纠正模块，具体用于：

20.根据权利要求17所述的装置，其特征在于，所述纠正模块，具体用于：

21.根据权利要求17所述的装置，其特征在于，所述纠正模块，具体用于：

22.一种视觉特征数据库更新装置,其特征在于，所述装置包括：检测模块、纠正模块和添加模块，其中，

23.根据权利要求22所述的装置，其特征在于，所述纠正模块，具体用于：

按照预设长度将所述类别标签序列切分成多个子序列；

24.根据权利要求23所述的装置，其特征在于，所述纠正模块，具体用于：

25.根据权利要求23所述的装置，其特征在于，所述纠正模块，具体用于：

26.根据权利要求23所述的装置，其特征在于，所述纠正模块，具体用于：

27.根据权利要求23所述的装置，其特征在于，所述纠正模块，具体用于：

28.根据权利要求24或25所述的装置，其特征在于，所述添加模块，具体用于：

29.根据权利要求26或27所述的装置，其特征在于，所述添加模块，具体用于：

30.根据权利要求22所述的装置，其特征在于，所述添加模块，具体用于：

则抽取所述广告镜头标签对应的镜头的至少一个代表帧；