CN114731410A

CN114731410A - 检测视频连续镜头中的场景转换

Info

Publication number: CN114731410A
Application number: CN202080079181.5A
Authority: CN
Inventors: J·J·伍德; D·T·坎宁顿; E·李; G·G·基亚雷拉
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-11-15
Filing date: 2020-11-11
Publication date: 2022-07-08
Also published as: AU2020383008B2; AU2020383008A1; US11227160B2; DE112020004774T5; GB202208763D0; GB2606293A; WO2021094939A1; US20210150216A1; JP2023501417A; GB2606293B

Abstract

本发明提供了用于检测视频连续镜头中的场景转换的概念。一个示例包括，对于视频连续镜头的多个不同帧中的每一个，获得与该帧中检测到的对象相关联的置信度度量的值。然后基于所获得的置信度度量的值来检测视频连续镜头中的场景转换。

Description

检测视频连续镜头中的场景转换

背景技术

本发明一般涉及视频处理，并且特别地涉及检测视频连续镜头(footage)中的场景转换。

场景检测是提供索引和搜索视频连续镜头的视频处理的子集。场景之间的转换(诸如“渐隐”或“交叉渐变”)对现有的场景检测算法造成困难，因为用于识别场景变化的低级别信息(例如，颜色直方图、亮度、对比度)通常不能在宽范围的视频连续镜头上很好地概括。例如，可能难以检测具有相似对比度、亮度、颜色等的场景之间的渐隐过渡。

此外，现有的场景检测算法通常是独立的，并且需要独立于其他视频处理任务运行。因此，现有的场景检测方法对于大视频可能表现出显著的处理要求。因此，需要解决本领域中的上述问题。

发明内容

从第一方面来看，本发明提供了用于检测视频连续镜头中的场景转换的计算机实现的方法，该方法包括：对于视频连续镜头的多个不同帧中的每个帧，获得与该帧中的检测到的对象相关联的置信度度量的值；以及基于所获得的置信度度量的值来检测视频连续镜头中的场景转换。

从另一方面来看，本发明提供了计算机程序产品，包括具有程序指令的计算机可读存储介质，该程序指令可由处理单元执行，以使处理单元在计算机网络上运行时执行用于检测视频连续镜头中的场景转换的方法，其中，方法包括以下步骤：对于视频连续镜头的多个不同帧中的每个帧，获得与该帧中的检测到的对象相关联的置信度度量的值；以及基于所获得的置信度度量的值来检测视频连续镜头中的场景转换。

从另一方面来看，本发明提供了用于检测视频连续镜头中的场景转换的系统，系统包括一个或多个处理器和一个或多个有形存储介质，该有形存储介质存储用于由一个或多个处理器执行的编程指令，编程指令包括用于以下操作的指令：经由接口为视频连续镜头的多个不同帧中的每一帧获得与该帧中的检测到的对象相关联的置信度度量的值；以及基于所获得的置信度度量的值来检测视频连续镜头中的场景转换。

从另一方面来看，本发明提供了用于检测视频连续镜头中的场景转换的计算机程序产品，该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质可由处理电路读取并且存储由处理电路执行以执行用于执行本发明的步骤的方法的指令。

从另一方面来看，本发明提供了计算机程序，其存储在计算机可读介质上并且可加载到数字计算机的内部存储器中，包括软件代码部分，当程序在计算机上运行时，用于执行本发明的步骤。

本发明还涉及计算机程序产品，其包括使得系统的处理器或网络的多个处理器能够实现方法的计算机可读程序代码。本发明还涉及计算机系统，其包括至少一个处理器和这种计算机程序产品，其中至少一个处理器适于执行计算机程序产品的计算机可读程序代码。本发明还涉及用于检测视频连续镜头中的场景转换的系统。本发明寻求提供用于检测视频连续镜头中的场景转换的计算机实现的方法。

本发明还试图提供计算机程序产品，其包括用于在由处理单元执行时实现所提出的方法的计算机程序代码。

本发明还试图提供适于执行该计算机程序代码的处理系统。

本发明还试图提供用于检测视频连续镜头中的场景转换的系统。

根据本发明的一个方面，提供了用于检测视频连续镜头中的场景转换的计算机实现的方法。该方法包括，对于视频连续镜头的多个不同帧中的每一帧，获得与该帧中检测到的对象相关联的置信度度量的值。该方法还包括基于所获得的置信度度量的值来检测视频连续镜头中的场景转换。

根据本发明的又一方面，提供了用于检测视频连续镜头中的场景转换的系统。该系统包括接口组件，其被配置为针对视频连续镜头的多个不同帧中的每个帧，获得与该帧中检测到的对象相关联的置信度度量的值。该系统还包括检测组件，其被配置为基于所获得的置信度度量的值来检测视频连续镜头中的场景转换。

根据本发明的另一方面，提供了用于检测视频连续镜头中的场景转换的计算机程序产品。该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质具有随其体现的程序指令，该程序指令可由处理单元执行以使处理单元执行根据所提出的实施例的方法。

根据本发明的另一方面，提供了处理系统，包括至少一个处理器和根据实施例的计算机程序产品。至少一个处理器适于执行计算机程序产品的计算机程序代码。

附图说明

现在将参考以下附图仅通过示例的方式描述本发明的优选实施例，其中：

图1是其中可以实现说明性实施例的各方面的示例系统的框图；

图2是用于检测视频连续镜头中的场景转换的系统的示例性实施例的简化框图；

图3示出了根据示例性实施例的与检测到的对象相关联的置信度值如何在视频连续镜头的帧之间变化的示例；以及

图4是用于检测视频连续镜头中的场景转换的系统的示例性实施例的简化框图。

具体实施方式

应当理解，附图仅仅是示意性的，并且不是按比例绘制的。还应当理解，在所有附图中使用相同的附图标记来表示相同或相似的部件。

在本申请的上下文中，其中本发明的实施例构成方法，应当理解，该方法可以是用于由计算机执行的过程，即，可以是计算机可实现的方法。因此，该方法的各个步骤可以反映计算机程序的各个部分，例如一个或多个算法的各个部分。

此外，在本申请的上下文中，系统可以是适于执行本发明的方法的一个或多个实施例的单个设备或分布式设备的集合。例如，系统可以是个人计算机(PC)、服务器或经由诸如局域网、因特网等网络连接的PC和/或服务器的集合，以便协作地执行本发明的方法的至少一个实施例。

提出了用于检测视频连续镜头中的场景转换的概念。特别地，提出了可以基于与视频连续镜头的不同帧的检测到的对象相关联的置信度度量的值来检测视频连续镜头中的场景转换。换句话说，在视频的帧之间检测到的对象的置信度值的变化可以用于识别视频中的场景转换的存在。

发明人提出了分析视频的帧之间的检测到的对象的置信度以推断或识别视频中的转变的存在的概念。因此，所提出的实施例可以被提供作为对现有视频处理流水线的扩展，该现有视频处理流水线检测视频中的对象并且指示相关联的置信度值。

该提议可以消除对于人工手动调谐的需要(这是当前对于许多常规方法的要求)。举例来说，所提出的实施例可以与用于检测场景转换的已知成本函数方法集成，以便增加该方法检测场景转换的鲁棒性。实施例也可以与现有的逐帧对象检测器一起实现。

提出了可以分析与视频连续镜头的不同帧的所检测对象相关联的置信度度量的值，以便检测视频连续镜头中的场景转换。例如，可比较帧之间的检测对象的相关联的置信度得分，以便以相对直接的方式识别场景转换。与不以有效鲁棒方式解释渐隐类型场景转换的常规方法不同，实施例可以可靠地检测渐隐类型场景转换。

所提出的概念可以利用高级语义信息来提供有效场景转换检测方法，并且这可以实现与现有视频处理方法/算法的集成。

例如，发明人提出，对于视频连续镜头的多个不同帧中的每一个，可以获得与该帧中检测到的对象相关联的置信度度量的值。然后，可以基于所获得的置信度度量的值来检测视频连续镜头中的场景转换。

实施例因此可以提供以下优点，即它们对于在具有类似的低级别像素信息的场景之间的渐隐过渡是鲁棒的。

所提出的概念(多个概念)可以提供的另一个优点是，实施例可以不需要检查原始视频帧。相反，实施例可以采用常规对象检测器的(一个或多个)输出。结果，实施例可以结合已经被配置为检测视频连续镜头中的对象并提供与检测到的对象相关联的置信度值的预先存在的视频处理算法来使用。因此，这些实施例可以利用由对象检测算法/组件提供的信息，并且因此补充现有的/传统的视频处理算法/系统。

因此，通过所提出的实施例可以实现在视频处理期间对现有和/或新的对象检测算法的简单集成和动态使用。

因此，所提出的实施例可以提供用于修改和/或补充视频处理算法的功能的概念。例如，实施例可以用于将新的或附加的场景转换算法集成到现有的视频处理系统中。实施例因此可以帮助向现有视频处理实现提供改进的或扩展的功能。实施例因此可以通过利用关于视频连续镜头中的所检测的对象的信息来提供修改的和/或扩展的场景转换检测功能，从而增加视频处理系统的价值。实施例因此可以帮助向现有场景检测和/或视频处理实现提供改进的或扩展的功能。

在实施例中，基于所获得的置信度度量的值来检测场景转换可以包括：分析所获得的置信度度量的值，以识别视频连续镜头的多个不同的帧上的置信度度量的值的趋势或模式；以及基于置信度的值中的所识别的趋势或模式来识别视频连续镜头中的场景转换。例如，识别场景转换可以包括：将置信度值中的所识别的趋势或模式与预定的模式的趋势进行比较；以及基于比较结果识别视频连续镜头中的场景转换。因此，所提出的实施例可以采用相对简单的数据/趋势分析技术，从而使实现的成本和/或复杂度最小化。

此外，实施例还可以基于置信度的值中的所识别的趋势或模式来对所识别的场景转换进行分类。因此，实施例不仅可以检测场景转换的存在，而且还可以识别所检测的场景转换的类型或类别。例如，在视频的连续帧上与检测到的对象相关联的置信度值的平滑、逐渐的减小可以用于推断场景转换是“渐隐”转换，而在视频的连续帧上与检测到的对象相关联的置信度值的突然的阶跃变化可以用于推断场景转换是“剪切”或“快速消失”转换。

在一些实施例中，基于所获得的置信度度量的值来检测场景转变可包括：响应于所获得的置信度度量的值在视频连续镜头的连续帧上减小，确定视频连续镜头中的场景转换的存在。换句话说，提出了当场景作为转换的一部分缓慢消失或渐隐时，与场景中的所检测对象相关联的置信度度量的值也将与场景的慢消失或渐隐一致地减小。因此，可以实现相对简单的数据值分析技术来确定视频连续镜头中场景转换的存在。

在实施例中，基于所获得的置信度度量的值来检测场景转换可以包括：响应于所获得的置信度度量的值在视频连续镜头的连续帧上增加，确定视频连续镜头中的场景转换的存在。建议当场景作为转换的一部分缓消失或渐隐时，与场景中检测到的对象相关联的置信度度量的值也将与场景的消失/渐隐一致地增加。同样，因此可以实现相对简单的数据值分析技术来确定视频连续镜头中的场景转换的存在。

一些实施例可以进一步包括：将所获得的置信度度量的值与阈值进行比较；以及基于比较结果来识别场景转换的开始和结束中的至少一个。作为示例，识别场景转换的结束可以包括：确定视频连续镜头的帧，对于该帧，所获得的置信度度量的值从超过阈值的值减小到不超过阈值的值；以及基于所确定的帧来确定场景转换的结束。类似地，识别场景转换的开始可以包括：确定视频连续镜头的帧，对于该帧，所获得的置信度度量的值从不超过阈值的值增加到超过阈值的值；以及基于所确定的帧来确定场景转换的开始。因此，可以采用简单的数据值比较技术来准确地推断场景转换的开始和/或结束。

在一些实施例中，获得置信度度量的值可包括：获得与视频连续镜头的第一帧中的所检测到的对象相关联的置信度度量的第一值；以及获得与视频连续镜头的第二后续帧中的检测到的对象相关联的置信度度量的第二值。视频连续镜头的第一帧和第二帧可以是例如视频连续镜头的连续帧。

图1是其中可以实现说明性实施例的各方面的示例系统200的框图。系统200是计算机的示例，诸如分布式处理系统中的客户端，实现本发明的说明性实施例的过程的计算机可用代码或指令可以位于其中。例如，系统200可以被配置为实现根据实施例的接口组件和检测组件。

在所描述的示例中，系统200采用集线器体系结构，其包括北桥和存储器控制器集线器(NB/MCH)202以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。处理单元206、主存储器208和图形处理器210连接到NB/MCH 202。图形处理器210可以通过加速图形端口(AGP)连接到NB/MCH 202。

在所描述的示例中，局域网(LAN)适配器212连接到SB/ICH 204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、硬盘驱动器(HDD)226、CD-ROM驱动器230、通用串行总线(USB)端口和其它通信端口232，以及PCI/PCIe设备234通过第一总线238和第二总线240连接到SB/ICH 204。PCI/PCIe设备可以包括例如以太网适配器、附加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器，而PCIe不使用。ROM 224可以是例如闪速基本输入/输出系统(BIOS)。

HDD 226和CD-ROM驱动器230通过第二总线240连接到SB/ICH 204。HDD 226和CD-ROM驱动器230可以使用例如集成驱动电子设备(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)设备236可以连接到SB/ICH 204。

操作系统在处理单元206上运行。操作系统协调并提供对系统200(或例如图2中的系统300)内的各种组件的控制。作为客户机，操作系统可以是市场上可用的操作系统。面向对象的编程系统，例如Java^TM编程系统，可以与操作系统一起运行，并提供从在系统200上执行的Java^TM程序或应用程序到操作系统的调用。Java和所有基于Java的商标和标志是Oracle和/或其附属公司的商标或注册商标。

作为服务器，系统200可以是例如

eServerTM System P5

系统

计算机系统，其运行高级交互执行

操作系统或

操作系统。系统200可以是包括处理单元206中的多个处理器的对称多处理器(SMP)系统。可替换地，可以采用单处理器系统。IBM eServer，System p5，AIX是国际商业机器公司在全世界的许多管辖区注册的商标。根据来自Linus Torvalds的专有被许可人Linux基金会的子许可，在全球范围内的商标的所有者，使用注册商标

用于操作系统、编程系统以及应用或程序的指令位于诸如HDD 226的存储设备上，并且可以被加载到主存储器208中以由处理单元206执行。类似地，根据实施例的一个或多个消息处理程序可适于由存储设备和/或主存储器208存储。

本发明的说明性实施例的过程可以由处理单元206使用计算机可用程序代码来执行，计算机可用程序代码可以位于诸如例如主存储器208、ROM224的存储器中，或者位于一个或多个外围设备226和230中。

诸如图2所示的第一总线238或第二总线240的总线系统可以包括一个或多个总线。当然，总线系统可以使用任何类型的通信结构或体系结构来实现，该通信结构或体系结构提供在附接到该结构或体系结构的不同组件或设备之间的数据的传输。诸如图1的调制解调器222或网络适配器212的通信单元可以包括用于发送和接收数据的一个或多个设备。存储器可以是例如主存储器208、ROM224或诸如在图1中的NB/MCH202中找到的缓存。

本领域的普通技术人员将理解，图1中的硬件可以根据实现方式而变化。除了图1中描述的硬件之外，或者作为其替代，可以使用诸如闪存、等效的非易失性存储器或光盘驱动器等的其它内部硬件或外围设备。此外，在不脱离本发明的范围的情况下，除了先前提到的系统之外，可以将示例性实施例的处理应用于多处理器数据处理系统。

此外，系统200可以采取多种不同数据处理系统中的任何一种的形式，包括客户端计算设备、服务器计算设备、平板计算机、膝上型计算机、电话或其他通信设备、个人数字助理(PDA)等。在一些说明性示例中，系统200可以是便携式计算设备，其配置有闪存以提供用于存储例如操作系统文件和/或用户生成的数据的非易失性存储器。因此，系统200本质上可以是任何已知的或以后开发的数据处理系统，而没有体系结构限制。

现在参考图2，描述了用于检测视频连续镜头310中的场景转换的系统200(标记为系统300)的示例性实施例的简化框图。

系统200包括接口组件320，其被配置为对于视频连续镜头的多个不同帧中的每一帧，获得与帧中检测到的对象相关联的置信度度量的值(即，置信度值)。

在该示例中，接口组件320被配置为获得与视频连续镜头的第一帧中的检测到的对象相关联的置信度度量的第一值，并且获得与视频连续镜头的第二后续帧中的检测到的对象相关联的置信度度量的第二值。换句话说，接口组件320获得与视频连续镜头的相应多个连续帧中的所检测对象相关联的置信度度量的多个值。

这里，接口组件320从视频处理器330获得置信度值。该示例的视频处理器330是常规的视频处理系统，其被配置为处理接收到的视频连续镜头，并且作为该处理的结果，检测视频连续镜头中的对象并确定相关联的置信度值。在这样做时，视频处理器330可以采用确定与检测到的对象相关联的置信度值的已知和可用对象检测算法中的任何一个或多个。

用于检测视频连续镜头310中的场景转换的系统200还包括检测组件340。检测组件340被配置为基于所获得的置信度度量的值来检测视频连续镜头中的场景转换。

在图2的示例中，检测组件340包括分析组件350和处理器360。分析组件350被配置为分析所获得的置信度度量的值，以识别视频连续镜头的多个不同帧的置信度度量的值的趋势或模式。处理器360然后被配置为基于置信度的值中的所识别的趋势或模式来识别视频连续镜头中的场景转换。

仅作为示例，响应于所获得的置信度度量的值在视频连续镜头的连续帧上减小，检测组件340的处理器360确定视频连续镜头310中的场景转换的存在。检测组件340的处理器360响应于所获得的置信度度量的值在视频连续镜头的连续帧上增加，确定视频连续镜头310中的场景转换的存在。

在图2的示例中，检测组件340还包括被配置为将所获得的置信度度量的值与阈值进行比较的比较单元370。检测组件340被配置为基于由比较单元370获得的比较结果来识别场景转换的开始和结束中的至少一个。例如，为了识别场景转换的开始，检测组件340被配置为确定视频连续镜头的帧，对于该帧，所获得的置信度度量的值从不超过阈值的值增加到超过阈值的值。类似地，为了识别场景转换的结束，检测组件340被配置为确定视频连续镜头的帧，对于该帧，所获得的置信度度量的值从超过阈值的值减小到不超过阈值的值。

通过进一步解释，现在将参考另一示例描述根据所提出的实施例的分析所获得的置信度度量的值以检测视频连续镜头中的场景转换的概念

下面的步骤(i)到(viii)描述了视频连续镜头的示例，其中，沙发上的狗和猫的视频剪辑(即，第一场景)转换到户外的人与他的汽车和摩托车的镜头(即，第二场景)。所提出的实施例被配置为检测这两个场景之间的转换。

(i)现有的逐帧卷积神经网络(CNN)被用来检测视频连续镜头中的对象和相关联的置信度值。作为示例，确定视频连续镜头的第一帧和第二帧的所检测对象和相关联的置信度值为如下表1中所详述的：

表1

(ii)使用滑动窗口方法(例如以批大小100和窗口大小5)对所有对象检测器帧进行迭代，得到批结果。图3示出了与所检测的对象相关联的置信度值如何在视频连续镜头的帧之间变化的示例。在所描绘的示例中，百分比值指示与视频连续镜头的帧的所检测到的对象相关联的置信度值(即，置信度度量的值)。为了表示置信度值的变化，用变化的灰度梯度阴影来描绘箭头，其中更浅的阴影表示更低的置信度值。作为示例，与检测到的狗相关联的置信度值从帧#1中的90％的值降低到大约帧#57中的47％。由箭头的从更深阴影(对于帧#1)到更浅阴影(对于帧#57)变化的填充来表示置信度值随着视频的帧的行进而减小。

(iii)利用由对象检测器的输出提供的位置信息，对场景中的对象给予唯一的ID并且对其逐帧跟踪。注意，如果出现相同类型的多个对象，则对每个对象发出不同的ID。可以使用对每个对象类型的预期移动的可感知估计(例如，根据对象检测器预测的类别标签)来跟踪各个对象。这可以在对所有帧进行迭代之前计算。

(iv)如图3中的梯度阴影所示，帧到帧地监测与每个唯一对象相关联的置信度值。

(v)如果出现新的对象集合(例如，对象具有超过30％的阈值的关联置信度值)，并且这与当前在屏幕上的先前对象的置信度的同时减小匹配，则推断这指示渐隐转换的开始(例如，从图3中的帧#45)。

(vi)如果新对象的置信度继续增加，而旧对象的置信度继续降低超过30％阈值，则该点指示渐隐转换的结束(图3中的帧#60)。

(vii)如果在任何点上，上述条件(v)和(vi)中的任何一个失败，则由于不存在渐隐转换，所以从暂态存储器中移除开始和结束位置。注意，所分配的唯一对象ID信息可以用于确定相同的对象是否可见。

(viii)对于视频连续镜头中的帧的所有批重复该过程。

从以上示例中，将理解，所提出的实施例可以从所获得的置信度度量的值在视频的连续帧上跨越阈值来推断转变。例如，与第一检测对象相关联的置信度值的减小和与第二检测对象相关联的置信度值的增大的定时一致或对应，可以指示渐隐转变(如图3中的图示所描绘的)。此外，可基于置信度值超过预定阈值(其可为可配置的)的帧来识别转换的开始和/或结束点。

作为进一步的示例，如图4所示，实施例可以包括计算机系统70，其可以形成联网系统7的一部分。例如，可以由计算机系统70来实现用于检测视频连续镜头中的场景转换的系统。计算机系统/服务器70的组件可以包括但不限于一个或多个处理布置，例如包括处理器或处理单元71、系统存储器74和将包括系统存储器74的各种系统组件耦合到处理单元71的总线90。

系统存储器74可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)75和/或缓冲存储器76。计算机系统/服务器70还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。在这种情况下，每个都可以通过一个或多个数据介质接口连接到总线90。存储器74可以包括至少一个程序产品，该程序产品具有一组(例如，至少一个)程序模块，这些程序模块被配置为执行所提出的实施例的功能。例如，存储器74可以包括计算机程序产品，该计算机程序产品具有可由处理单元71执行以使系统执行根据所提出的实施例的用于检测视频连续镜头中的场景转换的方法的程序。

具有一组(至少一个)程序模块79的程序/实用程序78可以存储在存储器74中，程序模块79通常执行所提出的实施例的功能和/或方法，以检测视频连续镜头中的场景转换。

计算机系统/服务器70还可以与一个或多个外部设备80通信，诸如键盘、指示设备、显示器85等；一个或多个设备，其使得用户能够与计算机系统/服务器70交互；和/或任何使计算机系统/服务器70能够与一个或多个其它计算设备通信的设备(例如网卡、调制解调器等)。这种通信可以经由输入/输出(I/O)接口72发生。然而，计算机系统/服务器70可以经由网络适配器73与一个或多个网络(诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，因特网))通信(例如，以将重建的内容传送给系统或用户)。

在本申请的上下文中，其中本发明的实施例构成方法，应当理解，该方法是用于由计算机执行的过程，即，是计算机可实现的方法。因此，该方法的各个步骤反映了计算机程序的各个部分，例如一个或多个算法的各个部分。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，该计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、存储级存储器(SCM)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如其上记录有指令的打孔卡或凹槽中的凸起结构之类的机械编码设备，以及上述的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言(例如Smalltalk、C++等)以及常规的过程式编程语言(例如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

已经出于说明的目的给出了本发明的各种实施例的描述，但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims

1.一种用于检测视频连续镜头中的场景转换的计算机实现的方法，所述方法包括：

对于视频连续镜头的多个不同帧中的每个帧，获得与所述帧中的所检测的对象相关联的置信度度量的值；以及

基于所获得的置信度度量的值来检测所述视频连续镜头中的场景转换。

2.根据权利要求1所述的方法，其中，基于所获得的置信度度量的值来检测场景转变包括：

分析所获得的所述置信度度量的值，以识别所述视频连续镜头中的所述多个不同帧上的所述置信度度量的值的趋势或模式；以及

基于所述置信度的值中的所识别的趋势或模式来识别所述视频连续镜头中的所述场景转换。

3.根据权利要求2所述的方法，其中，识别场景转换包括：

将所述置信度的值中的所识别的趋势或模式与预定的模式的趋势进行比较；以及

基于所述比较结果来识别所述视频连续镜头中的所述场景转换。

4.根据权利要求2或3所述的方法，还包括：

基于所述置信度的值中的所识别的趋势或模式来对所识别的场景转换进行分类。

5.根据前述权利要求中任一项所述的方法，其中，基于所获得的所述置信度度量的值来检测场景转换包括：

响应于所获得的所述置信度度量的值在所述视频连续镜头的连续帧上减小，确定所述视频连续镜头中的场景转换的存在。

6.根据权利要求1至4中任一项所述的方法，其中，基于所获得的所述置信度度量的值来检测场景转换包括：

响应于所获得的所述置信度度量的值在所述视频连续镜头的连续帧上增加，确定所述视频连续镜头中的场景转换的存在。

7.根据前述权利要求中任一项所述的方法，还包括：

将所获得的所述置信度度量的值与阈值进行比较；以及

基于所述比较结果来识别所述场景转换的开始和结束中的至少一者。

8.根据权利要求7所述的方法，其中，识别所述场景转换的结束包括：

确定所述视频连续镜头中的帧，对于所述帧，所获得的所述置信度度量的值从超过所述阈值的值减小到不超过所述阈值的值；以及

基于所确定的帧来确定所述场景转换的结束。

9.根据权利要求7所述的方法，其中，识别所述场景转换的开始包括：

确定所述视频连续镜头中的帧，对于所述帧，所获得的所述置信度度量的值从不超过所述阈值的值增加到超过所述阈值的值；以及

基于所确定的帧来确定所述场景转换的开始。

10.根据前述权利要求中任一项所述的方法，其中，获得置信度度量的值包括：

获得与所述视频连续镜头的第一帧中的所检测的对象相关联的所述置信度度量的第一值；以及

获得与所述视频连续镜头的第二后续帧中的所检测的对象相关联的所述置信度度量的第二值。

11.根据权利要求10所述的方法，其中，所述视频连续镜头中的所述第一帧和所述第二帧是所述视频连续镜头中的连续帧。

12.一种计算机程序产品，用于检测视频连续镜头中的场景转换，所述计算机程序产品包括：

计算机可读存储介质，其可由处理电路读取并且存储用于由所述处理电路执行以执行根据权利要求1至11中任一项所述的方法的指令。

13.一种计算机程序，其存储在计算机可读介质上并且可加载到数字计算机的内部存储器中，包括软件代码部分，当所述程序在计算机上运行时，用于执行根据权利要求1至11中任一项所述的方法。

14.一种用于检测视频连续镜头中的场景转换的系统，所述系统包括一个或多个处理器和存储由所述一个或多个处理器执行的编程指令的一个或多个有形存储介质，所述编程指令包括用于以下的指令：

对于视频连续镜头的多个不同帧中的每个帧，经由接口获得与所述帧中的所检测的对象相关联的置信度度量的值；以及

15.根据权利要求14所述的系统，其中，用于检测的指令包括用于以下的指令：

基于所述置信度的值中的所识别的趋势或模式来识别所述视频连续镜头中的场景转换。

16.根据权利要求14或15所述的系统，其中，所述检测包括：

17.根据权利要求14或15所述的系统，其中，所述检测包括：

18.根据权利要求14至17中任一项所述的系统，其中，所述检测包括：

将所获得的所述置信度度量的值与阈值进行比较；以及

19.根据权利要求18所述的系统，其中，识别所述场景转换的开始包括：

基于所确定的帧来确定所述场景转换的开始。

20.根据权利要求14至19中任一项所述的系统，其中，获得置信度度量的值包括：