CN101601302A

CN101601302A - 用于自动分类潜在的镜头和场景检测信息的方法和装置

Info

Publication number: CN101601302A
Application number: CNA2007800507531A
Authority: CN
Inventors: 阿南德·卡普尔
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2007-01-31
Filing date: 2007-12-11
Publication date: 2009-12-09
Anticipated expiration: 2027-12-11
Also published as: KR101426978B1; WO2008127319A2; CN101601302B; KR20090115132A; EP2109992A2; JP5766915B2; JP2015149084A; WO2008127319A3; JP2010517469A; US8891020B2; US20100007793A1

Abstract

提供了一种方法和装置，用于在处理视频内容之前，将从所述视频内容得到的预处理视频信息分类。所述装置包括分类器(120)，用于至少基于预处理视频信息，识别视频内容中具有在随后的处理期间导致错误的可能性的场景和镜头中的至少一个。此外，分类器(120)用于至少基于预处理视频信息，将所识别的场景和镜头分类为一个或多个各自的类别。

Description

用于自动分类潜在的镜头和场景检测信息的方法和装置

相关申请的交叉引用

本申请要求2007年1月31日提交的美国临时申请序列号第60/898660号的权益，通过引用将其全部内容并入于此。

技术领域

本原理一般涉及视频处理，并且更具体地涉及用于自动分类潜在的镜头(shot)和场景检测信息的方法和装置。

背景技术

此部分意在向读者介绍可能与以下描述和/或要求的本原理的各方面有关的技术的各方面。相信此讨论有助于为读者提供背景信息，以方便更好地理解本原理的各方面。因此，应理解，应基于这种考虑来阅读这些叙述，这些叙述并非作为对现有技术的承认。

数字视频内容的处理经常需要一个或多个预处理步骤，以便使得随后的处理步骤更有效。所述处理可包括但不限于编码。所述预处理可包括但不限于镜头检测和/或场景检测。

通常，上述预处理并非对所有可能的视频内容执行。在任何情况下，参照视频内容的验证处理结果以确定是否丢失了任何镜头或场景都是耗时并昂贵的。因此，需要识别和分类具有高丢失可能性的候选场景，并在处理开始时验证这些候选场景。

发明内容

通过本原理来解决现有技术的这些和其他缺陷和缺点，本原理针对一种用于自动分类潜在的镜头和场景检测信息的方法和装置。

根据本原理的一方面，提供了一种装置，用于在处理视频内容之前，将从所述视频内容得到的预处理视频信息分类。所述装置包括：分类器，用于至少基于预处理视频信息，识别视频内容中具有在随后的处理期间导致错误的可能性的场景和镜头中的至少一个。此外，所述分类器用于至少基于预处理视频信息，将所识别的场景和镜头分类为一个或多个各自的类别。

根据本原理的另一方面，提供了一种方法，用在处理视频内容之前，将从所述视频内容得到的预处理视频信息分类。所述方法包括：至少基于预处理视频信息，识别视频内容中具有在随后的处理期间导致错误的可能性的场景和镜头中的至少一个。此外，所述方法包括：至少基于预处理视频信息，将所识别的场景和镜头分类为一个或多个各自的类别。

结合附图阅读示例性实施例的以下详细描述，本原理的这些和其他方面、特征和优点将变得明显。

附图说明

根据以下示例性附图可以更好地理解本原理，在附图中：

图1是图示根据本原理实施例的装置的示例性高级框图的框图；

图2是根据本原理的实施例、用于编码视频内容的示例性方法的流程图；以及

图3是根据本原理的实施例、用于视频序列的示例性分类的图。

具体实施方式

本原理针对用于自动分类潜在的镜头和场景检测信息的方法和装置。

本描述例示本原理。因此应理解本领域技术人员将能够设计出虽然未在这里明确描述或示出、但是体现本原理并且包括在本原理的精神和范围内的各种布置。

这里所叙述的所有例子和条件语句意在教学目的，以帮助读者理解由发明人贡献以促进本领域技术的本原理和构思，并被解释为不限制为这样具体叙述的例子和条件。

此外，这里叙述本原理的原理、方面、以及实施例的所有陈述、以及本原理的具体例子意在包含本原理的结构的和功能的等价物。另外，意在这样的等价物包括当前已知的等价物以及将来发展的等价物，即，无论结构如何、执行相同功能的所开发的任何元件。

因此，例如，本领域技术人员将理解：这里呈现的框图表示体现本原理的示例电路的概念性视图。类似地，将理解：任何流程图示、流程图、状态转换图、伪代码等等表示各种处理，所述各种处理可以基本上在计算机可读介质中表示，并因此由计算机或处理器执行，无论这样的计算机或处理器是否被明确示出。

附图中所示的各种元件的功能可以通过使用专用硬件以及能够与适合的软件相关联而执行软件的硬件来提供。当由处理器提供时，所述功能可以由单个专用处理器、单个共享处理器、或其中一些可以被共享的多个独立处理器提供。此外，术语“处理器”或“控制器”的明确使用不应被解释为唯一地代表能够执行软件的硬件，其也可以隐含地、不受限制地包括数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)、以及非易失性存储装置。

也可以包括其它的传统的和/或定制的硬件。类似地，附图中所示的任何开关只是概念性的。它们的功能可以通过程序逻辑的操作、通过专用逻辑、通过程序控制和专用逻辑间的交互作用、或甚至手动地执行，具体技术可由实施者选择，如从上下文中被更具体地理解的。

在本申请权利要求书中，被表达为用于执行特定功能的部件的任何元件意图包括执行该功能的任何方式，包括例如：a)执行该功能的电路元件的组合，b)与用于执行软件的适当电路相结合以执行该功能的任何形式的软件，因此包括固件、伪代码等。由这样的权利要求书限定的本原理在于以下事实：以权利要求书要求的方式将由各种所叙述的装置提供的功能组合并结合在一起。因此，可以提供那些功能的任何部件被视为等效于这里示出的那些部件。

说明书中引用的本原理的“一个实施例”或者“实施例”指结合所述实施例描述的特定特征、结构、特性等等包含在本原理的至少一个实施例中。由此，在贯穿说明书的各处出现的词语“在一个实施例中”或者“在实施例中”的出现不一定都指同一实施例。

应该理解，术语“和/或”和“至少一个”的使用，例如在“A和/或B”和“A和B中的至少一个”的情况下，意在涵盖仅选择所列的第一选项(A)、仅选择所列的第二选项(B)、或者选择两个选项(A与B)。作为进一步的例子，在“A、B、和/或C”以及“A、B、C中的至少一个”的情况下，此类词句意在涵盖仅选择所列的第一选项(A)、仅选择所列的第二选项(B)、仅选择所列的第三选项(C)、仅选择所列的第一与第二选项(A与B)、仅选择所列的第一与第三选项(A与C)、仅选择所列的第二与第三选项(B与C)、或者选择全部三个选项(A与B与C)。本领域与相关领域的普通技术人员容易理解，可以将此扩展到所列的诸多项目。此外，这里，如在“场景/镜头”中的“/”的使用意在涵盖紧接在此之前描述的“场景和/或镜头”。

此外，应理解，本原理可应用到使用任何视频编码标准和/或建议来编码的视频，包括所述视频编码标准和/或建议的扩展，同时维持本原理的精神。例如，本原理可与下述任何标准一起使用，但不限于此：国际标准化组织/国际电工委员会(ISO/IEC)运动画面专家组-1(MPEG-1)标准；ISO/IEC MPEG-2标准；国际电信联盟电信部门(ITU-T)H.263建议；ISO/IEC MPEG-4第10部分高级视频编码(AVC)标准/ITU-T H.264建议(下文中“MPEG-4AVC标准”)等等。

此外，应理解，尽管关于使用并行处理器对若干场景并行执行场景的处理的应用、在一个实施例中描述了本原理，但是本原理不仅限于之前的应用，因此，本原理可应用到涉及视频的处理的其他应用。即，给出这里所提供的本原理的教导，本领域和相关领域的普通技术人员将设想出可应用本原理的这个和各种其他应用，同时维持本原理的精神。

应理解，本原理的一个或多个实施例可涉及场景和/或镜头和/或以其他方式与场景和/或镜头相关。尽管术语“场景”和“镜头”对本领域和相关领域普通技术人员是公知的，仍然提供下面的描述以帮助读者确定每个术语可能涉及什么。

例如，场景趋于被宽泛地使用，并且通常较容易被理解和/或关联。此外，关于电影和与电影相关的术语，术语“场景”可用来指多个镜头(所述场景通常可具有与其相关联的故事和/或逻辑内容)。此外，关于电影，场景趋于具有(比下面即将描述的镜头)更长的持续时间。应注意，施加到场景的预处理算法对于这样的场景中的缓慢的相机变化较不敏感。

相反，镜头趋于被具体地使用，并且趋于涉及相机变化(包括但不限于硬切换(hard-cuts))。应注意，预处理算法典型地对于镜头敏感(例如，与场景相比)。这是由于在镜头中经常涉及的某些特性，所述特性包括但不限于：镜头趋于具有相对短的持续时间(如，例如在动作片中)或相对长的持续时间(如，例如在戏剧中)，其中，就它们各自对于编码的适合性而言，这样的持续时间实际上不是最佳的。

本原理的一个或多个实施例针对分类并指示这样的特性和不规则性，以使得所涉及的对应场景和镜头更适于后处理，所述后处理例如但不限于编码和/或压缩。

转到图1，通过参考标号100总地指示图示根据本原理的实施例的装置的示例性高级框图。装置100包括视频预处理器110、分类器120、和视频处理器130。如以下在这里进一步详细描述的，视频预处理器110可被配置为接收并预处理视频数据，并输出对应的预处理信息。例如，视频数据的这种预处理可包括但不限于场景检测、镜头检测等等。场景检测可用于检测任何下述处理，但不限于此：场景切换；迭化(dissolve)；淡入；淡出；闪光等等。预处理信息可包括但不限于任何下述信息：切换的检测；淡入的检测；淡出的检测；迭化的检测；场景长度的确定等等。

分类器120接收由视频预处理器110提供的预处理信息，并且识别、并可选地分类(例如由于被误分类和/或作为特定类型的场景和/或镜头全部丢失，和/或等等)具有高丢失可能性的任何场景，并提供分类信息。视频处理器130从预处理器110接收视频数据，并从分类器120接收分类信息。视频处理器130输出使用来自预处理器110的视频数据和来自分类器120的分类信息处理的视频。处理后的视频可以是例如比特流。此外，比特流可符合一个或多个视频编码标准和/或建议而被编码。在此情况下，视频处理器130包括编码器。

应理解，例如基于阈值、历史数据等等，将场景和/或镜头识别为具有在随后的处理期间造成错误的可能性(有可能)。应理解，历史数据可包括例如来自过去的结果的数据，所述过去的结果从对输入到预处理器110(和/或另一预处理器)的视频数据和/或输入到预处理器110(和/或另一预处理器)的其他预处理的视频数据执行的一个或多个之前的预处理步骤而得到。

如上所述，本原理针对用于自动地分类潜在的镜头和场景检测问题的方法和装置。

此外，如上所述，期望在预处理步骤中对场景进行识别的许多可能的示例之一是当使用分开的处理器对若干场景并行执行处理时。如果可以检测丢失的场景切换并因此产生分类信息，则可以通过例如将一个较长的场景断开为两个较短的场景、导致编码期间的更多的并行化来获得改进的性能。所有镜头/场景的验证导致更好的场景检测，这可以导致编码和再编码时的更高质量的编码和更好的性能。本原理提供实现该识别和分类的方法和装置。

实现该分类的许多可能的方式之一是基于初始场景检测算法的结果，根据镜头/场景的持续时间识别和分类所述镜头/场景。场景可以按升序或降序排列，并且还可标记场景在整个视频内容内的实际位置。阈值可用于例如进一步分类短于或长于阈值的那些场景。这样，可以发现可能被其他预处理算法之一丢失的潜在的问题场景。阈值可以是固定值，该固定值可以取决于下述中的任何，但不限于此：被预处理的视频的类型；对发现的场景持续时间进行的统计分析。例如，如果阈值是基于场景持续时间的，则对动作片阈值可以设置得较短，因为动作片趋于具有更快速的场景切换。其他类型的电影可能具有较长的场景，所以阈值将设置得较高，以便分类哪些场景相对较长或较短。

如果高于阈值的超长的视频场景具有高错误可能性，则这样的场景可被其他预处理场景/镜头检测算法分开地分类。类似地，通常是闪光的超短的场景可被标记为对于随后的处理潜在的困难的场景。替代地，如果场景中的前百分之N和后百分之M需要特殊关注，则可对其分开地分类。

使用场景长度对场景进行分类仅是分类场景的一种方法。阈值参数可使用未压缩的视频内容的其他参数得到，或在执行预处理以得到基于整个视频内容的统计数字后，使用那些统计数字得到。在这些情况中的任何情况下，使用那些结果执行分类。

该分类使得如例如编码的下游处理更精确、具有改进的质量、并且在性能上更有效。

转到图2，通过参考标号200总地指示根据本原理的实施例的、用于编码视频内容的示例性方法。

方法200包括开始块205，其将控制传到功能块210。功能块210导入视频内容，并将控制传到功能块215。功能块215产生预处理视频内容数据，并将控制传到判定块220。关于功能块215，产生的预处理视频内容数据可包括但不限于：场景/镜头检测、淡化/迭化检测、直方图、基于颜色、类似场景、比特率、缩略图等等的分类。

判定块220确定镜头/场景是否在预设阈值之上。如果是，则将控制传到功能块225。否则，将控制传到功能块230。关于功能块220，这样的预设阈值可对应于例如持续时间。

功能块225基于持续时间长度执行识别和分类中的至少一个，并将控制传到功能块230。关于功能块225，例如，这样的分类可包括可选地使用阈值持续时间值分类场景/镜头；可选地基于场景/镜头的前百分之N和后百分之M的各自的持续时间对其进行分类；可选地基于(大于阈值持续时间值的)上阈值将超长的场景/镜头分类为一个或多个各自的类别；以及基于(小于阈值持续时间值的)下阈值将超短的场景/镜头分类为一个或多个各自的类别；将单个帧场景分类为一个或多个各自的类别。当然，如上所述，本原理不限于之前的分类，因此还可根据本原理使用其他分类，同时维持本原理的精神。

功能块230基于场景/镜头检测执行识别和分类中的至少一个，并将控制传到功能块232。关于功能块230，这样的分类可包括例如将下述中的任何分配到一个或多个各自的类别：淡入；淡出；迭化；切换；等等。

功能块232关于在随后处理期间导致错误的可能性，执行基于阈值和/或过去的数据的识别和分类中的至少一个，并将控制传到功能块235。

功能块235固定分类的场景/镜头，以防止可能的随后的处理错误，并将控制传到功能块240。功能块240基于预先指定的准则标记潜在的问题场景/镜头，并将控制传到功能块245。关于功能块240，可被标记的潜在的问题场景/镜头取决于预先指定的准则，可包括例如未被功能块235固定的一个或多个场景/镜头、以及被功能块240固定的一个或多个场景/镜头。例如，尽管功能块235固定一个或多个分类的场景/镜头，但是这样的行为可能仍然没有完全解决在处理期间遭遇的任何问题，因此，标记这样的场景/镜头以使得随后的处理“知道”该情况。

功能块245指示导入的视频内容中的直到所有场景/镜头中的至少一些(例如，每功能块240标记的场景/镜头)的各自的位置，并将控制传到判定块250。判定块250确定是否存在要固定的更多的场景/镜头。如果是，则将控制返回到功能块235。否则，将控制传到功能块255。

功能块255开始视频内容的处理(例如，编码)，并将控制传到结束块299。

在实现分类之后，可使用一个或多个方法，通过功能块235更改视频内容，所述方法包括但不限于：添加或移除场景边界；改变场景转换的类型；或许多其他的可能的视频效果之一。

转到图3，通过参考标号300总地指示根据本原理实施例的视频序列的示例性分类。

分类300包括默认类别305、超长类别310、超短类别315、淡入类别320、淡出类别325、迭化类别330等等。

默认类别305可包括例如所有切换。

超长类别310可包括例如基于分类的前百分之一的超长场景。

超短类别315可包括例如所有帧场景以及基于分类的后百分之一的超短场景。

淡入类别320可包括例如由预处理器110发现的所有淡入镜头/场景。

淡出类别325可包括例如由预处理器110发现的所有淡出镜头/场景。

迭化类别330可包括例如由预处理器110发现的所有迭化镜头/场景。

例如超长类别310的扩展示出属于超长类别310之内的所有场景。用户可选择(例如，点击)一类别以查看所选择的类别的所有成员。

应理解，前面的示例性类别仅是说明性的，因此，本原理不仅限于这些类别。即，给出此处提供的本原理的教导，本领域和相关领域的普通技术人员将设想出可根据本原理使用的这些以及各种其他类别，同时维持本原理的精神。

此外，应理解，关于图3示出的示例性分类300示出为使用图形用户界面(GUI)399，所述GUI 399允许用户看见根据本原理进行的识别和分类。此外，这样的GUI 399允许用户修改这样的分类以及固定标记为潜在的问题的场景和/或镜头。在另一实施例中，可自动执行这样的场景和镜头的修复。本领域和相关领域普通技术人员容易地设想出根据本原理的GUI的这些和其他变化，同时维持本原理的精神。

现在将给出本发明的许多伴随优点/特征中的一些的描述，其中的一些已经在上面提及。例如，一个优点/特征是一种装置，用于在处理视频内容之前，分类从所述视频内容得到的预处理视频信息。所述装置包括：分类器，用于至少基于预处理视频信息，识别视频内容中具有在随后的处理期间导致错误的可能性的场景和镜头中的至少一个。此外，所述分类器用于至少基于预处理视频信息，将所识别的场景和镜头分类为一个或多个各自的类别。

另一优点/特征是具有如上所述的分类器的装置，其中所述预处理视频信息包括在处理之前的视频内容的参数和视频内容的统计数字中的至少一个。

另一优点/特征是具有如上所述的分类器的装置，其中所述预处理视频信息包括对应于下述至少之一的信息：场景持续时间、镜头持续时间、场景检测、镜头检测、淡化检测、迭化检测、直方图、色彩、与其他场景的类似度、与其他镜头的类似度、比特率和缩略图。

另一优点/特征是具有如上所述的分类器的装置，其中所述分类器使用阈值持续时间值，以便对场景和镜头中的至少一个进行识别和分类中的至少一个。

此外，另一优点/特征是具有如上所述使用阈值持续时间值的分类器的装置，其中基于来自关于视频内容执行的运行统计分析的信息，动态计算阈值持续时间值。

此外，另一优点/特征是具有如上所述使用阈值持续时间值的分类器的装置，其中所述分类器使用上阈值和下阈值中的至少一个来执行下述处理中的至少一个：将场景和镜头中的至少一个识别为超长和超短以及将场景和镜头中的至少一个分类为超长和超短。上阈值大于阈值持续时间值，而下阈值小于阈值持续时间值。

此外，另一优点/特征是具有如上所述使用上阈值和下阈值中的至少一个的分类器的装置，其中所述分类器将分类为超短的任何场景标记为对于随后处理潜在的困难的场景。

此外，另一优点/特征是具有如上所述的分类器的装置，其中所述分类器基于场景和镜头中的至少一个的前百分之N和后百分之M的各自的持续时间，对所述场景和镜头中的至少一个的前百分之N和后百分之M中的至少一个执行识别和分类中的至少一个。

此外，另一优点/特征是具有如上所述的分类器的装置，其中所述分类器进一步基于阈值和历史数据中的至少一个，将场景和镜头中的至少一个识别和分类为具有在随后的处理期间导致错误的可能性。所述历史数据包括从对视频数据和其他视频数据中的至少一个执行的一个或多个之前的预处理步骤获得的过去的结果的数据。

此外，另一优点/特征是具有如上所述的分类器的装置，其中所述分类器固定所述识别的场景和镜头，以防止随后的处理期间的错误。

而且，另一优点/特征是具有如上所述的分类器的装置，其中所述分类器指示场景和镜头中的至少一个在视频内容中的位置。

此外，另一优点/特征是具有如上所述的分类器的装置，其中一个或多个类别对应于淡入、淡出、迭化和切换中的至少一个。

基于这里的教导，相关领域普通技术人员可以容易确定本原理的这些和其它特征和优点。应理解，本原理的教导可以以硬件、软件、固件、专用处理器、或其组合的各种形式来实现。

最优选地，本原理的教导被实现为硬件和软件的组合。另外，软件可以实现为以有形方式实现在程序存储单元上的应用程序。该应用程序可以被上传到包含任何适当体系结构的机器并且由其执行。优选地，所述机器被实现在计算机平台之上，其具有诸如一个或者多个中央处理单元(“CPU”)、随机存取存储器(“RAM”)、以及输入/输出(“I/O”)接口之类的硬件。计算机平台还可以包括操作系统和微指令代码。此处描述的各种处理和功能可以为微指令代码的一部分或者为应用程序的一部分，或者其任意组合，其可以由CPU执行。另外，诸如附加的数据存储单元以及打印单元之类的各种其他外设单元可以连接到计算机平台。

还应该理解，因为在附图中所示的某些系统构成组件与方法优选地以软件实现，所以系统组件或者处理功能块之间的实际连接可能依赖于本原理的编排方式而不同。给出此处的教导，相关领域的普通技术人员将能够设想出本原理的这些以及类似的实现或者配置。

虽然此处参照附图描述了说明性实施例，但是应该理解本原理不限于那些确切的实施例，并且相关领域的普通技术人员在不脱离本原理的范围与精神的前提下，可以在其中进行各种变化和修改。所有这些变化和修改都意在包含在权利要求书所提出的本原理的范围之内。

Claims

1.一种装置，用于在处理视频内容之前，将从所述视频内容得到的预处理视频信息分类，所述装置包括：

分类器(120)，用于至少基于预处理视频信息，识别视频内容中具有在随后的处理期间导致错误的可能性的场景和镜头中的至少一个，并且至少基于预处理视频信息，将所识别的场景和镜头分类为一个或多个各自的类别。

2.如权利要求1所述的装置，其中所述预处理视频信息包括在处理之前的视频内容的参数和视频内容的统计数字中的至少一个。

3.如权利要求1所述的装置，其中所述预处理视频信息包括对应于下述至少之一的信息：场景持续时间、镜头持续时间、场景检测、镜头检测、淡化检测、迭化检测、直方图、色彩、与其他场景的类似度、与其他镜头的类似度、比特率和缩略图。

4.如权利要求1所述的装置，其中所述分类器(120)使用阈值持续时间值，以便对场景和镜头中的至少一个进行识别和分类中的至少一个。

5.如权利要求4所述的装置，其中基于来自关于视频内容执行的运行统计分析的信息，动态计算阈值持续时间值。

6.如权利要求4所述的装置，其中所述分类器(120)使用上阈值和下阈值中的至少一个，执行下述处理中的至少一个：将场景和镜头中的至少一个识别为超长和超短以及将场景和镜头中的至少一个分类为超长和超短，其中上阈值大于阈值持续时间值，而下阈值小于阈值持续时间值。

7.如权利要求6所述的装置，其中所述分类器(120)将分类为超短的任何场景标记为对于随后处理潜在困难的场景。

8.如权利要求1所述的装置，其中所述分类器(120)基于场景和镜头中的至少一个的前百分之N和后百分之M的各自的持续时间，对所述场景和镜头中的至少一个的前百分之N和后百分之M的至少一个执行识别和分类中的至少一个。

9.如权利要求1所述的装置，其中所述分类器(120)进一步基于阈值和历史数据中的至少一个，将场景和镜头中的至少一个识别和分类为具有在随后的处理期间导致错误的可能性，其中所述历史数据包括从对视频数据和其他视频数据中的至少一个执行的一个或多个之前的预处理步骤获得的过去的结果的数据。

10.如权利要求1所述的装置，其中所述分类器(120)固定所识别的场景和镜头，以防止随后的处理期间的错误。

11.如权利要求1所述的装置，其中所述分类器(120)指示场景和镜头中的至少一个在视频内容中的位置。

12.如权利要求1所述的装置，其中一个或多个类别对应于淡入、淡出、迭化和切换中的至少一个。

13.一种方法，用在处理视频内容之前，将从所述视频内容得到的预处理视频信息分类，所述方法包括：

至少基于预处理视频信息，识别(225，230)视频内容中具有在随后的处理期间导致错误的可能性的场景和镜头中的至少一个；以及

至少基于预处理视频信息，将所识别的场景和镜头分类(225，230)为一个或多个各自的类别。

14.如权利要求13所述的方法，其中所述预处理视频信息包括在处理之前的视频内容的参数和视频内容的统计数字中的至少一个(225)。

15.如权利要求13所述的方法，其中所述预处理视频信息包括对应于下述至少之一的信息：场景持续时间、镜头持续时间、场景检测、镜头检测、淡化检测、迭化检测、直方图、色彩、与其他场景的类似度、与其他镜头的类似度、比特率和缩略图(215)。

16.如权利要求13所述的方法，其中所述阈值持续时间值用于对场景和镜头中的至少一个进行识别和分类中的至少一个(225)。

17.如权利要求16所述的方法，其中基于来自关于视频内容执行的运行统计分析的信息，动态计算阈值持续时间值。

18.如权利要求16所述的方法，其中所述识别步骤和所述分类步骤中的至少一个使用上阈值和下阈值中的至少一个，以执行下述处理中的至少一个：将场景和镜头中的至少一个识别为超长和超短以及将场景和镜头中的至少一个分类为超长和超短，其中上阈值大于阈值持续时间值，而下阈值小于阈值持续时间值(225)。

19.如权利要求18所述的方法，其中所述分类步骤将分类为超短的任何场景标记为对于随后处理潜在困难的场景(240)。

20.如权利要求13所述的方法，其中所述识别步骤和所述分类步骤中的至少一个基于场景和镜头中的至少一个的前百分之N和后百分之M的各自的持续时间，对所述场景和镜头中的至少一个的前百分之N和后百分之M的至少一个分别执行识别和分类中的至少一个(225)。

21.如权利要求13所述的方法，其中所述识别步骤和所述分类步骤中的至少一个进一步基于阈值和历史数据中的至少一个，将场景和镜头中的至少一个分别识别和分类为具有在随后的处理期间导致错误的可能性，其中所述历史数据包括从对视频数据和其他视频数据中的至少一个执行的一个或多个之前的预处理步骤获得的过去的结果的数据(232)。

22.如权利要求13所述的方法，进一步包括固定(235)所识别的场景和镜头，以防止随后的处理期间的错误。

23.如权利要求13所述的方法，进一步包括指示(245)场景和镜头中的至少一个在视频内容中的位置。

24.如权利要求13所述的方法，其中一个或多个类别对应于淡入、淡出、迭化和切换中的至少一个(230)。