CN110383335A

CN110383335A - 视频内容中基于光流和传感器输入的背景减除

Info

Publication number: CN110383335A
Application number: CN201880015991.7A
Authority: CN
Inventors: 李平山; J·岛田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-04-11
Filing date: 2018-04-03
Publication date: 2019-10-25
Also published as: KR20190122807A; WO2018191070A3; WO2018191070A2; JP2020514891A; EP3593319A4; JP2021082316A; US20180293735A1; EP3593319A2

Abstract

用于视频内容中基于光流和传感器输入的背景减除的设备和方法，包括一个或多个处理器，所述一个或多个处理器被配置成利用光流图，计算当前图像帧中的多个像素相对于前一图像帧的多个第一运动向量值。基于从设置在设备中的传感器接收的输入，为当前图像帧中的所述多个像素，计算多个第二运动向量值。基于一组规定的参数，为所述多个第一运动向量值确定置信度。基于确定的置信度，和所述多个第一运动向量值与所述多个第二运动向量值之间的相似性参数，从当前图像帧中提取一个或多个背景区域。

Description

视频内容中基于光流和传感器输入的背景减除

相关申请的交叉引用/援引并入

无

技术领域

本公开的各个实施例涉及背景-前景分离技术。更具体地，本公开的各个实施例涉及视频内容中基于光流和传感器输入的背景减除。

背景技术

计算机视觉领域的最新进展已导致关于视频内容中的背景和前景检测的各种技术的发展。这类用于视频内容中背景和前景检测及分离的技术在诸如视频监视应用或自动聚焦应用之类的各种应用中可以有用。

基于光流过程，可以进行图像序列中的背景检测和减除(或消除)。光流过程基于背景区域通常覆盖捕捉的图像帧的最大部分的假设，从而通过光流过程将图像帧中的最大区域识别为背景区域。在某些情形下，在图像/视频捕捉期间，对象可能靠近图像捕捉装置。在这样的情形下，前景区域可能覆盖捕捉的图像帧的大部分，而背景区域变得相对较小。在这样的情形下，基于光流过程的技术可能导致在背景减除期间消除感兴趣的对象。从而，可能需要一种改进的背景减除系统和方法来克服与不精确的背景检测及减除关联的问题。

通过说明的系统与参考附图在本申请的剩余部分中记载的本公开的一些方面的比较，对本领域的技术人员来说，常规和传统方法的另外的限制和缺陷将变得明显。

发明内容

提供一种更完整地记载在权利要求书中的实质上如附图至少之一中所示，和/或结合附图至少之一所述的视频内容中基于光流和传感器输入的背景减除。

根据对本公开的以下详细说明以及附图的审阅，可领会本公开的这些及其他特征及优点，其中，自始至终相同的附图标记指示相同的部分。

附图说明

图1是按照本公开的一个实施例，图解说明用于视频内容中基于光流和传感器输入的背景减除的例证网络环境的方框图。

图2是按照本公开的一个实施例，图解说明例证的图像处理设备的方框图。

图3按照本公开的一个实施例，图解说明视频内容中基于光流和传感器输入的背景减除的例证情形。

图4A和4B按照本公开的一个实施例，共同描述图解说明视频内容中基于光流和传感器输入的背景减除的例证操作的流程图。

具体实施方式

下述各种实现可存在于公开的用于视频内容中基于光流和传感器输入的背景减除的设备和方法中。本公开的例证方面可包括可进一步包括配置成捕捉图像帧序列的一个或多个处理器的设备。所述图像帧序列至少可包括当前图像帧和前一图像帧。所述一个或多个处理器可被配置成利用光流图，计算当前图像帧中的多个像素相对于前一图像帧的多个第一运动向量值。所述光流图可基于当前图像帧和前一图像帧中的所述多个像素的像素值之差来生成。当前图像帧可包括一个或多个前景区域和一个或多个背景区域。基于从设置在所述设备中的传感器接收的输入，还可为当前图像帧中的所述多个像素，计算多个第二运动向量值。接收的输入可对应于当前图像帧中的所述多个像素中的每一个的角速度信息。基于一组规定的参数，可以确定多个第一运动向量值的置信度。基于确定的置信度，和所述多个第一运动向量值与所述多个第二运动向量值之间的相似性参数，可以提取当前图像帧中的所述一个或多个背景区域。

所述多个第一运动向量值可分别对应于所述多个像素中的每一个从前一图像帧到当前图像帧的相对移动。所述多个第二运动向量值可对应于对于设置在所述设备中的陀螺仪传感器(或者其他运动传感器)计算的多个运动向量值。所述多个第二运动向量值的计算可进一步基于所述设备的一个或多个装置参数。所述一个或多个装置参数可包括所述设备的透镜的焦距、水平像素的数量、以及设置在所述设备中的成像器组件的宽度。

按照一个实施例，所述设备中的所述一个或多个处理器还可被配置成比较所述多个第二运动向量值与所述多个像素的多个第一运动向量值，以便提取所述一个或多个背景区域。基于所述多个第二运动向量值与所述多个第一运动向量值之间的比较，可以确定当前图像帧中的所述多个像素中的每一个的相似性参数。基于置信度和与所述多个像素中的每一个相关的相似性参数，可以生成置信图。基于确定的与所述多个像素中的每一个相关的相似性参数与指定阈值的比较，可以提取所述一个或多个背景区域。

按照本公开的例证方面，图像处理系统可包括成像装置中的一个或多个处理器，所述一个或多个处理器可被配置成利用光流图，计算当前图像帧中的多个像素相对于前一图像帧的多个第一运动向量值。所述光流图可基于当前图像帧和前一图像帧中的所述多个像素的像素值之差来生成。当前图像帧可包括一个或多个前景区域和一个或多个背景区域。基于从设置在所述设备中的传感器接收的输入，可为当前图像帧中的所述多个像素，计算多个第二运动向量值。接收的输入可对应于当前图像帧中的所述多个像素中的每一个的角速度信息。基于一组规定的参数，可以确定多个第一运动向量值的置信度。基于确定的置信度，和所述多个第一运动向量值与所述多个第二运动向量值之间的相似性参数，可以提取当前图像帧中的所述一个或多个背景区域。所述成像装置中的一个或多个处理器还可被配置成基于提取的一个或多个背景区域，在当前图像帧中检测一个或多个感兴趣的对象。所检测的一个或多个感兴趣的对象可对应于当前图像帧中运动着的一个或多个对象。所述成像装置中的一个或多个处理器可以自动聚焦于检测到的一个或多个感兴趣的对象。所述成像装置可以更改检测到的一个或多个感兴趣的对象的一个或多个视觉参数。

图1是按照本公开的一个实施例，图解说明视频内容中基于光流和传感器输入的背景减除的方框图。参见图1，图中表示了网络环境100。网络环境100可包括图像处理设备102、服务器104、通信网络106、诸如用户108之类的一个或多个用户、图像帧序列110、以及诸如对象112之类的一个或多个对象。参见图1，图像处理设备102可以通过通信网络106，通信耦接到服务器104。用户108可与图像处理设备102关联。

图像处理设备102可包含可被配置成处理一个或多个数字图像和/或视频以便进行背景减除的适当逻辑、电路、接口和/或代码。图像处理设备102可被配置成捕捉包括对象112的图像帧序列110。图像处理设备102还可被配置成处理捕捉的图像帧序列110，以便进行背景减除。图像处理设备102的例子可包括(但不限于)成像装置(比如数字相机、便携式摄像机(camcorder))、运动捕捉系统、拍照手机、投影仪、计算机工作站、大型计算机、手持计算机、蜂窝/移动电话机、智能家电、视频播放器、DVD刻录机/播放器、电视机和/或其他计算装置。

服务器104可包含可被配置成与图像处理设备102通信的适当逻辑、电路、接口和/或代码。服务器104还可包括可被配置成保存多个数字图像和/或视频的一个或多个存储系统。服务器104的例子可包括(但不限于)web服务器、数据库服务器、文件服务器、应用服务器、云服务器或者它们的组合。

通信网络106可包括图像处理设备102可通过其与服务器104通信的介质。通信网络106的例子可包括(但不限于)因特网、云网络、长期演进(LTE)网络、无线局域网(WLAN)、局域网(LAN)、电话线路(POTS)和/或城域网(MAN)。网络环境100中的各个装置可被配置成按照各种有线和无线通信协议，连接到通信网络106。这样的有线和无线通信协议的例子可包括(但不限于)传输控制协议和网际协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备间通信、蜂窝通信协议或蓝牙(BT)通信协议至少之一，或者它们的组合。

图像帧序列110可以指的是从成像装置的取景器观看，并由用户108通过利用图像处理设备102捕捉的场景的视频。图像帧序列110可包括一个或多个对象，比如对象112。按照一个实施例，对象112可以是可在图像帧序列110中构成前景区域的感兴趣的对象。图像帧序列110还可包括一个或多个背景区域。例如，图像帧序列110中的除前景区域之外的任意区域可对应于背景区域。

对象112可以是捕捉的图像帧序列110中的运动对象、在一段时间内改变其形状的变形对象、或者位于同一位置处但是在不同时刻定向不同的对象。对象112的例子可包括(但不限于)人类对象、动物、或者非人类或无生命对象，比如车辆或运动项目。

操作中，图像处理设备102可对应于可用于捕捉场景的视频的成像装置。所述视频可包括至少包含当前图像帧和前一图像帧的图像帧序列(比如图像帧序列110)。捕捉的图像帧序列110还可包括一个或多个感兴趣的对象(比如对象112)。所述一个或多个感兴趣的对象可构成所述一个或多个前景区域，而除所述一个或多个感兴趣的对象之外的任意区域可构成图像帧序列110中的一个或多个背景区域。

图像处理设备102可被配置成计算当前图像帧中的多个像素相对于前一图像帧的多个第一运动向量值。图像处理设备102可被配置成利用光流图来计算所述多个第一运动向量值。光流图可基于当前图像帧和前一图像帧中的所述多个像素的像素值之差来生成。所述多个第一运动向量值可以对应于所述多个像素中的每一个从前一图像帧到当前图像帧的相对移动。

图像处理设备102还可被配置成为当前图像帧中的所述多个像素，计算多个第二运动向量值。可基于从设置在图像处理设备102中的传感器接收的输入，计算所述多个第二运动向量值。例如，从传感器接收的输入可对应于当前图像帧中的所述多个像素中的每一个的角速度信息。包含在图像处理设备102中的传感器可对应于运动传感器，比如陀螺仪传感器。所述多个第二运动向量值可对应于对于设置在图像处理设备102中的传感器(例如陀螺仪传感器)计算的多个运动向量值。所述多个第一运动向量值和所述多个第二运动向量值的计算在图2中详细说明。

图像处理设备102还可被配置成基于一组规定的参数，确定计算的所述多个第一运动向量值的置信度。例如，所述一组规定的参数可包括(但不限于)图像帧中的前景对象所覆盖的面积与图像帧的总面积之比，和/或图像帧的对比度。图像处理设备102还可被配置成比较计算的多个第一运动向量值与当前图像帧中的所述多个像素中的每一个的多个第二运动向量值。基于所述多个第二运动向量值与所述多个第一运动向量值之间的比较，可对于当前图像帧中的所述多个像素中的每一个，确定相似性参数。与像素相关的相似性参数可指示对应第一运动向量值与对应第二运动向量值之间的相似程度。图像处理设备102还可被配置成比较当前图像帧中的所述多个像素中的每一个的相似性参数与指定阈值，以从当前图像帧中提取所述一个或多个背景区域。例如，图像处理设备102可从当前图像帧中，提取相似性参数超过指定阈值的一个或多个像素。提取的一个或多个像素可构成提取的一个或多个背景区域。所述一个或多个背景区域的提取例如在图3以及图4A和4B中详细说明。

按照一个实施例，图像处理设备102还可被配置成基于确定的置信度，和确定的所述多个像素中的每一个的相似性参数，生成置信图。生成的置信图可指示可实现一个或多个背景区域中的每一个的检测和提取的置信水平。置信水平可以由置信度数字地表示。置信图可按照置信度，图形地表示提取的一个或多个背景区域。按照一个实施例，图像处理设备102可被配置成当确定的置信度低于预定或者规定的下置信阈值时，基于确定的所述多个第一运动向量值的置信度，把空间信息用于所述多个第一运动向量值的计算。所述预定或规定的下置信阈值可以由用户108预先规定，或者参考指定的阈值设定。

按照一个实施例，图像处理设备102可被配置成当确定的所述多个第一运动向量值的置信度高于预定或者规定的上置信阈值时，基于所述多个第一运动向量值，提取所述一个或多个背景区域。按照另一个实施例，图像处理设备102可被配置成当确定的所述多个第一运动向量值的置信度在预定或者规定的下置信阈值与预定或者规定的上置信阈值的指定范围中时，基于所述多个第一运动向量值和所述多个第二运动向量值，提取所述一个或多个背景区域。

按照一个实施例，图像处理设备102可被配置成利用提取的一个或多个背景区域，在当前图像帧中检测一个或多个感兴趣的对象。图像处理设备102可进一步利用生成的置信图来检测所述一个或多个感兴趣的对象。一旦精确地提取了所述一个或多个背景区域，图像处理设备102就可对检测的一个或多个感兴趣的对象，进行一个或多个图像处理操作(比如自动聚焦于所述一个或多个感兴趣的对象，或者所述一个或多个感兴趣的对象的视觉参数的更改)。

图2是按照本公开的一个实施例，图解说明例证图像处理设备的方框图。图2是结合图1的要素说明的。参见图2，图中表示了在图像处理设备102中实现的方框图200。方框图200可包括处理电路200A和光学电路200B。处理电路200A可包括诸如图像处理器202之类的一个或多个处理器、存储器204、光流生成器206、运动传感器208、背景提取器210、输入/输出(I/O)装置212和收发器214。I/O装置212还可包括显示器212A。光学电路200B可包括具有规定尺寸的成像器216，成像器216由成像器控制器218控制，以便进行稳定拍摄。光学电路200B还可包括多个透镜220，所述多个透镜220由透镜控制器222和透镜驱动器224控制。所述多个透镜220还可包括光圈220A。在光学电路200B中还表示了快门226。快门226可允许光线持续确定的一段时间通过，使成像器216曝光，以便拍摄图像帧序列110。

尽管方框图200被表示成在例证的图像处理设备(比如图像处理设备102)中实现，不过本公开的各个实施例不限于此。因而，按照一个实施例，方框图200可以在例证的服务器(比如服务器104)中实现，而不脱离本公开的各个实施例的范围。

参考图2，存储器204、光流生成器206、运动传感器208、背景提取器210、输入/输出(I/O)装置212和收发器214可以通信连接到图像处理器202。背景提取器210可被配置成接收来自光流生成器206的图像帧序列110的光流图，和来自运动传感器208的输入。所述多个透镜220可与透镜控制器222和透镜驱动器224连接。所述多个透镜220可由透镜控制器222与图像处理器202联合控制。

图像处理器202可包含可被配置成执行保存在存储器204中的一组指令的适当逻辑、电路、接口和/或代码。图像处理器202可被配置成指令背景提取器210从由图像处理设备102捕捉的图像帧序列110中，提取一个或多个背景区域。图像处理器202可以是基于本领域已知的许多处理器技术实现的专用图像处理应用处理器。图像处理器202的例子可以是基于X86的处理器、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器和/或其他硬件处理器。

存储器204可包含可被配置成保存可由图像处理器202、光流生成器206和背景提取器210执行的一组指令的适当逻辑、电路和/或接口。存储器204可被配置成保存由图像处理设备102捕捉的图像帧序列110(比如当前图像帧和前一图像帧)。存储器204还可被配置成保存图像处理设备102的操作系统和关联应用。存储器204的实现例子可包括(但不限于)随机存取存储器(RAM)、只读存储器(ROM)、硬盘驱动器(HDD)和/或闪存驱动器。

光流生成器206可包含可被配置成从存储器204接收由图像处理设备102捕捉的视频内容的图像帧序列110的适当逻辑、电路和/或接口。光流生成器206还可被配置成基于图像帧序列110中的当前图像帧，和图像帧序列110中的位于当前图像帧之前的图像帧，生成光流图。位于当前图像帧之前的图像帧可被称为前一图像帧。光流生成器206的例子可包括基于X86的处理器、RISC处理器、ASIC处理器、CISC处理器和/或其他硬件处理器。光流生成器206可被实现为图像处理设备102中的单独处理器或电路(如图所示)。按照一个实施例，光流生成器206和图像处理器202可被实现成进行光流生成器206和图像处理器202的功能的集成处理器或处理器集群。

运动传感器208可包含可被配置成检测诸如图像处理设备102之类的设备中的运动(线性运动或角运动)的适当逻辑、电路、接口和/或代码。例如，运动传感器208可被配置成检测图像帧序列110中的图像帧中的多个像素的角速度信息。运动传感器208的实现例子可包括(但不限于)陀螺仪传感器、加速度计和/或传感器。

背景提取器210可包含可被配置成从图像帧(比如图像帧序列110中的当前图像帧)提取一个或多个背景区域的适当逻辑、电路和/或接口。背景提取器210可被配置成实现各种算法和数学函数，来计算当前图像帧中的多个像素相对于前一图像帧的多个第一运动向量值。所述多个第一运动向量值可以利用由光流生成器206生成的光流图来计算。所述多个第一运动向量值可对应于所述多个像素中的每一个从前一图像帧到当前图像帧的相对运动。背景提取器210还可被配置成实现各种算法和数学函数，来基于从运动传感器208接收的输入(比如角速度信息)，计算当前图像帧中的所述多个像素的多个第二运动向量值。当前图像帧中的所述一个或多个背景区域的提取可以基于计算的所述多个第一运动向量值，和计算的所述多个第二运动向量值。背景提取器210可被实现为图像处理设备102中的单独处理器或电路(如图所示)。按照一个实施例，背景提取器210和图像处理器202可被实现成进行背景提取器210和图像处理器202的功能的集成处理器或处理器集群。

I/O装置212可包含可被配置成接收来自用户(比如用户108)的输入的适当逻辑、电路、接口和/或代码。I/O装置212还可被配置成向用户108提供输出。I/O装置212可包含可被配置成与图像处理器202通信的各种输入和输出装置。输入装置的例子可包括(但不限于)触摸屏、键盘、鼠标、控制杆、麦克风和/或图像捕捉装置。输出装置的例子可包括(但不限于)显示器212A和/或扬声器。

显示器212A可包含可被配置成向用户108显示提取的一个或多个背景区域的适当逻辑、电路、接口和/或代码。显示器212A可以通过几种已知技术(比如(但不限于)液晶显示器(LCD)显示器、发光二极管(LED)显示器、等离子体显示器和/或有机LED(OLED)显示器技术至少之一)和/或其他显示器来实现。按照一个实施例，显示器212A可以指的是各种输出装置，比如智能眼镜装置的显示屏、基于投影的显示器、电致变色显示器和/或透明显示器。

收发器214可包括可被配置成通过通信网络106把图像帧序列110发送给服务器104的适当逻辑、电路、接口和/或代码。收发器214可实现支持与通信网络106的有线或无线通信的已知技术。收发器214可包括(但不限于)天线、调频(FM)收发器、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码器(CODEC)芯片集、用户标识模块(SIM)卡和/或本地缓冲器。收发器214可通过无线通信，与网络(比如因特网、内部网和/或无线网络，比如蜂窝电话网、无线局域网(LAN)和/或城域网(MAN))通信。无线通信可以利用多种通信标准、协议和技术任意之一，比如长期演进(LTE)、全球移动通信系统(GSM)、增强数据GSM环境(EDGE)、宽带码分多址接入(W-CDMA)、码分多址接入(CDMA)、时分多址接入(TDMA)、蓝牙、无线保真(Wi-Fi)(e.120g.,IEEE 802.11a、IEEE 802.11b、IEEE802.11g和/或IEEE 802.11n)、网际协议话音(VoIP)、Wi-MAX、电子邮件用协议、即时消息接发和/或短消息服务(SMS)。

成像器216可包含可被配置成把图像(比如图像帧序列110中的多个图像帧)无任何失真地从模拟光信号变换成一系列的数字像素的适当电路和/或接口。成像器216的实现例子可包括(但不限于)电荷耦合器件(CCD)成像器和互补金属氧化物半导体(CMOS)成像器。

成像器控制器218可包含可被配置成基于从图像处理器202接收的指令，控制成像器216的定向或方向的适当逻辑、电路和/或接口。成像器控制器218可以通过利用为本领域的技术人员公知的几种技术来实现。

多个透镜220可对应于和相机本体及机构一起使用以捕捉对象(比如对象112)的图像(比如图像帧序列110)的光学透镜或透镜组件。图像可被捕捉在胶片或者能够以化学或电子方式保存图像的其他介质上。

透镜控制器222可包含可被配置成控制多个透镜220的各种特性(比如变焦、聚焦、或者光圈220A或孔径)的适当逻辑、电路和/或接口。和图像处理器202一起，透镜控制器222可以在内部作为图像处理设备102的成像单元的一部分，或者可以是独立的单元。透镜控制器222可以通过利用为本领域的技术人员公知的几种技术来实现。

透镜驱动器224可包含可被配置成基于从透镜控制器222接收的指令进行变焦和聚焦控制以及光圈控制的适当逻辑、电路和/或接口。透镜驱动器224可以通过利用为本领域的技术人员公知的几种技术来实现。

操作中，诸如图像处理设备102之类的例证设备可通过多个透镜220，捕捉图像帧序列110。所述多个透镜220可以由透镜控制器222及透镜驱动器224与图像处理器202一起控制。可基于从用户接收的输入信号，控制多个透镜220。通过呈现在显示器212A上的图形按钮的选择、手势、和/或在图像处理设备102处可用的硬件按钮的按钮按下事件，用户可以提供输入信号。或者，图像处理设备102可以取回预先保存在存储器204中的另一个图像帧序列。图像帧序列110可以对应于诸如视频片段之类的视频，并且至少可包括当前图像帧和前一图像帧。

背景提取器210可被配置成利用由光流生成器206生成的光流图，计算当前图像帧中的多个像素的多个第一运动向量值。基于当前图像帧和前一图像帧中多个像素的像素值之差，可以生成光流图。所述多个第一运动向量值可对应于所述多个像素中的每一个从前一图像帧到当前图像帧的相对移动。基于本领域已知的各种数学函数，可以确定所述多个像素中的每一个从前一图像帧到当前图像帧的相对移动的这类计算。这样的数学函数的例子可包括(但不限于)绝对差值和(SAD)函数、差值平方和(SSD)函数、绝对差值加权和(WSAD)函数和/或差值平方加权和(WSSD)函数。然而，也可以实现本领域已知的其他数学函数，来计算所述多个像素中的每一个的相对移动，而不脱离本公开的范围。这种计算的所述多个像素中的每一个的相对移动可以用下述数学表达式(1)表示：

按照一个实施例，背景提取器210可基于一组规定的参数，确定计算的多个第一运动向量值的置信度。例如，所述一组规定的参数可包括(但不限于)一个或多个前景对象所覆盖的面积与图像帧的总面积之比，和/或图像帧中的前景和背景区域的对比度。确定的所述多个第一运动向量值中的每一个的置信度可指示对应的第一运动向量值的精确度参数。例如，同与另一个像素的第一运动向量值相关的较低置信度相比，与一个像素的第一运动向量值相关的较高置信度可指示较高的精确度。例如，同对于在图像帧中具有较高对比率的第二组像素计算的第一运动向量值相比，对于在图像帧中具有较低对比率的第一组像素计算的第一运动向量值进一步显示出较低的置信度。

背景提取器210可被配置成计算当前图像帧中的多个像素的多个第二运动向量值。背景提取器210可基于由运动传感器208提供的输入(比如角速度信息)，计算所述多个第二运动向量值。多个第二运动向量值的计算还可以基于诸如图像处理设备102之类的例证设备的一个或多个装置参数。所述一个或多个装置参数的例子可包括(但不限于)多个透镜220的有效焦距、水平像素的数量、以及成像器216的宽度。计算的多个第二运动向量值可被表示成所述多个第二运动向量值可基于运动传感器208，指示当前图像帧中的多个像素相对于前一图像帧的移动。所述多个像素的这类移动例如可以通过以下数学表达式(2)表示：

其中

其中，

θ表示时间Δt[秒]内的移动角度，是基于从运动传感器208接收的角速度信息，[度/秒]计算的；以及

f[mm]表示多个透镜220中的透镜的焦距。

成像器每个像素大小[m]＝X/H*10^-3

其中，

X表示成像器216的宽度；以及

H表示成像器216的水平像素的计数。

按照一个实施例，背景提取器210可被配置成比较计算的所述多个第一运动向量值与所述多个像素的所述多个第二运动向量值。背景提取器210可基于所述多个第二运动向量值与所述多个第一运动向量值之间的比较，进一步确定当前图像帧中的所述多个像素中的每一个的相似性参数。换句话说，确定的与像素相关的相似性参数可指示对应的第一运动向量值与对应的第二运动向量值之间的相似程度。背景提取器210还可被配置成比较当前图像帧中的所述多个像素中的每一个的相似性参数与指定阈值。所述阈值可由用户108预先指定。基于当前图像帧中的所述多个像素中的每一个的相似性参数与指定阈值之间的比较，可以从当前图像帧中提取所述一个或多个背景区域。例如，相似性参数超过指定阈值的一个或多个像素可被认为构成一个或多个背景区域，从而由背景提取器210提取。

按照一个实施例，背景提取器210还可被配置成基于确定的置信度和确定的所述多个像素中的每一个的相似性参数，生成置信图。置信图可根据置信度，图形地表示提取的一个或多个背景区域。换句话说，生成的置信图可指示背景提取器210已检测并提取所述一个或多个背景区域中的每一个的置信水平。同与置信图中较低的置信水平关联的另一个背景区域相比，与置信图中较高的置信水平关联的背景区域可指示提取的区域表示当前图像帧中的实际背景区域的可能性较高。在生成的置信图中，与较低的置信度关联的像素进一步与较低的置信水平关联，与较高的置信度关联的另一像素进一步与较高的置信水平关联。从而，包括具有较低置信度的像素的背景区域可与置信图中较低的置信水平关联。

按照一个实施例，背景提取器210还可被配置成把提取的一个或多个背景区域和生成的置信图提供给图像处理器202。图像处理器202可被配置成基于提取的一个或多个背景区域和生成的置信图，在当前图像帧中检测感兴趣的对象(比如对象112)。图像处理器202还可对感兴趣的对象进行一个或多个图像处理操作。所述一个或多个图像处理操作可包括(但不限于)自动聚焦于感兴趣的对象、增强感兴趣的对象的视觉参数(比如颜色、色调、饱和度、对比度和/或亮度)。图3中描述了所述一个或多个背景区域的提取的例子。

图3按照本公开的一个实施例，图解说明视频内容中基于光流和传感器的背景减除的例证情形。图3是结合图1和2的要素说明的。参考图3，图中表示了例证情形300，所述例证情形300包括与直播足球比赛的场景对应的前一图像帧302和当前图像帧304。该场景包括4名足球运动员、观众和足球场。诸如图像处理设备102之类的成像装置设置在最大变焦。从而，场景中的足球运动员同观众和足球场相比，似乎更靠近图像处理设备102，并占据前一图像帧302和当前图像帧304的大部分。捕捉的场景可对应于视频内容。观众和足球场可对应于一个或多个背景区域，而4名足球运动员可对应于感兴趣的对象(即，一个或多个前景区域)。例证情形300还包括光流图306、传感器输入308、以及由背景提取器210生成的背景减除的不同输出(比如输出312)。图中还表示了光流生成器206、运动传感器208和背景提取器210(图2)。

为了简洁起见，用不同的图案表示光流图306中的多个区域。然而，本领域的技术人员会明白本公开的范围不限于光流图306的例证表示，以便类似于真实的光流图。例如，真实的光流中的多个区域通常用不同颜色深浅或者相同颜色的强度变化来表示。

参考例证情形300，前一图像帧302和当前图像帧304可对应于图像帧序列110。前一图像帧302可在时刻t-1捕捉，当前图像帧304可在下一时刻t捕捉。光流生成器206可基于本领域已知的一种或多种技术，生成光流图306。光流图306可包含多个区域306a、...、306j。所述多个区域306a、...、306j中的区域306a、306b和306g对应于场景中的4名足球运动员。区域306h和306j对应于场景中的观众。此外，区域306c、306d、306e和306i对应于场景中的足球场。

光流生成器206可把生成的光流图306提供给背景提取器210。背景提取器210可通过利用如图2中所述的数学表达式(1)，基于光流图306计算当前图像帧304中的多个像素的多个第一运动向量值。背景提取器210还可接收来自运动传感器208的传感器输入308(比如角速度信息)。背景提取器210随后可基于传感器输入308，计算当前图像帧304中的所述多个像素的多个第二运动向量值。背景提取器210还可把图像处理设备102的一个或多个装置参数(比如多个透镜220的焦距、水平像素的数量、以及成像器216的宽度)用于所述多个第二运动向量值的计算。背景提取器210可基于如图2中所述的应用于与前一图像帧302和当前图像帧304对应的传感器输入308的数学表达式(2)，计算所述多个第二运动向量值。

背景提取器210可基于所述多个第一运动向量值，从当前图像帧304中提取一个或多个背景区域。背景提取器210可基于所述多个第一运动向量值和多个第二运动向量值，从当前图像帧304中提取一个或多个背景区域314B、…、314I，如在背景提取器210的输出312中所示。包含在输出312中的提取的一个或多个背景区域314B、…、314I可精确表示当前图像帧304的实际的一个或多个背景区域。背景提取器210可进一步比较计算的多个第一运动向量值与所述多个像素的多个第二运动向量值，以确定当前图像帧304中的所述多个像素中的每一个的相似性参数。背景提取器210随后可比较所述多个像素中的每一个的相似性参数与指定阈值，以提取当前图像帧304中的一个或多个背景区域314B、…、314I。

按照一个实施例，背景提取器210可基于一组规定的参数，确定计算的多个第一运动向量值的置信度。所述一组规定的参数可包括(但不限于)图像帧中的前景对象所覆盖的面积与图像帧的总面积之比，和/或图像帧的对比度。

按照一个实施例，背景提取器210可基于确定的置信度，和确定的当前图像帧304中的所述多个像素中的每一个的相似性参数，生成置信图。置信图可根据置信度，表示一个或多个背景区域(提取的一个或多个背景区域314B)。例如，在生成的置信图中，与背景区域314B和314D、…、314I相比，背景区域314C和314D具有较低的置信水平。从而，与背景区域314B和314D、…、314I表示当前图像帧304的实际(或真实)背景区域的可能性相比，背景区域314C和314D表示当前图像帧304的实际(或真实)背景区域的可能性较小。

按照一个实施例，图像处理器202可基于输出312和生成的置信图，检测当前图像帧304的一个或多个前景区域。图像处理器202可把除提取的一个或多个背景区域314B、…、314I之外的任何区域检测为当前图像帧304的一个或多个前景区域。按照一个实施例，由于与背景区域314B和314D、…、314I相比，在生成的置信图中的置信水平较低，图像处理器202可把背景区域314C和314D包含在检测到的一个或多个前景区域中。图像处理器202随后可对所述一个或多个前景区域进行一个或多个图像处理操作。

按照一个实施例，图像处理设备102可对应于成像装置(例如，数字相机或便携式摄像机)。成像装置可以利用提取的一个或多个背景区域(比如一个或多个背景区域314B、…、314I)，在当前图像帧304中检测一个或多个感兴趣的对象。成像装置还可用于在当前图像帧304中，检测一个或多个运动着的对象。所述一个或多个运动着的对象可对应于所述一个或多个感兴趣的对象。此外，成像装置可用于自动聚焦于检测到的一个或多个感兴趣的对象。基于所述一个或多个背景区域的提取，成像装置可更改一个或多个感兴趣的对象的一个或多个视觉参数(例如，亮度、对比度、色调、饱和度或颜色)。例如，图像处理设备102可以用作视频监视设备。

基于所述多个第一运动向量值和多个第二运动向量值，从图像帧(比如当前图像帧304)中提取一个或多个背景区域(比如一个或多个背景区域314B、…、314I)可以向诸如图像处理设备102之类的设备，提供精确地把一个或多个前景区域和一个或多个背景区域分开的能力。此外，在图像帧中的一个或多个前景区域所覆盖的面积相对大于图像帧中的一个或多个背景区域所覆盖的面积的情形下，与常规的图像处理设备相比，图像处理设备102精确度更好地提取一个或多个背景区域(比如一个或多个背景区域314B、…、314I)。换句话说，在图像帧中一个或多个背景区域所覆盖的面积相对小于一个或多个前景区域所覆盖的面积的情形下，公开的设备和方法精确地从图像帧中提取所述一个或多个背景区域。

图4A和4B按照本公开的一个实施例，共同描述图解说明视频内容中基于光流和传感器的背景减除的例证操作的流程图。参考图4A和4B，图中表示了流程图400。流程图400是结合图1、2和3说明的。在用于视频内容中基于光流和传感器的背景减除的图像处理设备102处实现的操作开始于402，随后进入404。

在404，可捕捉包括图像帧序列的视频内容。图像处理设备102中的图像处理器202可指令透镜控制器222和成像器控制器218控制多个透镜220和成像器216，以捕捉视频内容的图像帧序列。按照一个实施例，图像处理设备102可从存储器204和/或服务器104，取回视频内容的图像帧序列。该图像帧序列至少可包括当前图像帧和前一图像帧。图3中表示并说明了一个例子，其中图像处理设备102捕捉包括前一图像帧302和当前图像帧304的图像帧序列110。

在406，可以生成视频内容的当前图像帧的光流图。光流生成器206可被配置成基于当前图像帧和前一图像帧，生成光流图。图3中表示并说明了一个例子，其中光流生成器206基于当前图像帧304和前一图像帧302，生成光流图306。

在408，可以计算当前图像帧中的多个像素相对于前一图像帧的多个第一运动向量值。背景提取器210可被配置成通过利用光流图，计算当前图像帧中的多个像素的多个第一运动向量值。图2和3中表示并说明了一个例子，其中背景提取器210通过利用光流图306，计算当前图像帧304中的多个像素的多个第一运动向量值。背景提取器210可以实现各种算法和数学函数(例如，如图2中所述的数学表达式(1))，来计算所述多个第一运动向量值。

在410，可以接收来自运动传感器的传感器输入。背景提取器210可被配置成接收来自运动传感器208的传感器输入。图2和3中表示并说明了一个例子，其中背景提取器210接收来自运动传感器208的传感器输入308(比如角速度信息)。

在412，可为当前图像帧中的所述多个像素，计算多个第二运动向量值。背景提取器210可被配置成基于接收的传感器输入，计算当前图像帧中的所述多个像素的多个第二运动向量值。图2和3中表示并说明了一个例子，其中背景提取器210基于接收的传感器输入308，计算当前图像帧304中的所述多个像素的多个第二运动向量值。背景提取器210可以实现各种算法和数学函数(例如，如图2中所述的数学表达式(2))，来计算所述多个第二运动向量值。

在414，可对于所述多个第一运动向量值，确定置信度。背景提取器210可被配置成基于一组规定的参数，确定所述多个第一运动向量值的置信度。图2和3中表示并说明了一个例子，其中背景提取器210基于所述一组规定的参数，确定所述多个第一运动向量值的置信度。

在416，可比较所述多个第二运动向量值与所述多个第一运动向量值。背景提取器210可被配置成比较所述多个第二运动向量值与所述多个第一运动向量值。图2和3中表示并说明了一个例子，其中背景提取器210比较所述多个第二运动向量值与所述多个第一运动向量值。

在418，可对于当前图像帧中的所述多个像素中的每一个，确定相似性参数。背景提取器210可被配置成基于所述多个第二运动向量值与所述多个第一运动向量值的比较，确定当前图像帧中的所述多个像素中的每一个的相似性参数。图2和3中表示并说明了一个例子，其中背景提取器210确定当前图像帧304中的所述多个像素中的每一个的相似性参数。

在420，可以比较与所述多个像素中的像素相关的相似性参数与指定阈值。背景提取器210可被配置成比较与所述多个像素中的像素相关的相似性参数与指定阈值。所述阈值可以由与图像处理设备102关联的用户108预先指定。图2和3中表示并说明了一个例子，其中背景提取器210比较与当前图像帧304中的所述多个像素中的每一个相关的相似性参数与指定阈值。

在422，可把相似性参数超过指定阈值的像素包含在一个或多个背景区域中。背景提取器210可被配置成把相似性参数超过指定阈值的像素包含在要被提取的一个或多个背景区域中。背景提取器210可把对应相似性参数超过指定阈值的所有像素包含在所述一个或多个背景区域中。

在424，可以从当前图像帧中，提取一个或多个背景区域。背景提取器210可被配置成从当前图像帧中，提取包含对应相似性参数超过指定阈值的所有像素的一个或多个背景区域。背景提取器210还可生成指示所述多个像素中的像素被提取从而被包含在所述一个或多个背景区域中的置信水平的置信图。基于相似性参数，和与当前图像帧中的所述多个像素的所述多个第一运动向量值相关的置信度，可以生成置信图。背景提取器210可把提取的一个或多个背景区域提供给图像处理器202，以便进一步处理当前图像帧304(例如，检测一个或多个前景区域，或者自动聚焦于感兴趣的对象)。图2和3中表示并说明了一个例子，其中背景提取器210从当前图像帧304中，提取一个或多个背景区域314B、…、314I。控制可转到结束426。

按照本公开的一个实施例，公开了一种图像处理设备。诸如图像处理设备102(图1)之类的设备可包括一个或多个处理器(比如图像处理器202、光流生成器206、背景提取器210(图2))。背景提取器210可被配置成利用光流图(比如光流图306(图3))，计算当前图像帧(比如当前图像帧304(图3))中的多个像素相对于前一图像帧(比如前一图像帧302(图3))的多个第一运动向量值。背景提取器210可被配置成基于从设置在图像处理设备102中的传感器(比如运动传感器208(图2))接收的输入(比如传感器输入308(图3))，为当前图像帧304中的所述多个像素计算多个第二运动向量值。背景提取器210还可被配置成基于一组规定的参数，确定所述多个第一运动向量值的置信度。背景提取器210还可被配置成基于确定的置信度，和所述多个第一运动向量值与所述多个第二运动向量值之间的相似性参数，从当前图像帧304中提取一个或多个背景区域(比如一个或多个背景区域314B、…、314I(图3))。

本公开的各个实施例包含许多优点，包括用于视频内容中基于光流和传感器输入的背景减除的设备和方法。基于光流和传感器输入的背景减除克服了在感兴趣的对象靠近图像捕捉装置时的有缺陷的背景提取。例如，在利用最大变焦捕捉场景的图像帧的情况下，感兴趣的对象看起来非常接近于图像捕捉装置，并占据捕捉的图像帧的大部分。例如，如图3中图解所示，可使图像处理设备在最大变焦下工作，从而4名足球运动员占据当前图像帧304和前一图像帧302的大部分。在这种情形下，与感兴趣的对象相比，背景区域占据较小的部分。通常，在这种情形下，利用常规设备和方法的背景提取可能不精确，因为常规设备提取图像帧中的最大部分作为背景区域。背景提取器210使图像处理设备102能够精确提取一个或多个背景区域，而不管图像中的背景区域覆盖范围如何。

背景提取器210还生成指示提取的背景区域表示图像帧的实际背景区域的可能性的置信图。从而，图像处理器202可利用置信图和提取的一个或多个背景区域来识别高置信背景区域，所述高置信背景区域可用于进一步处理图像帧。

本公开的各个实施例可提供非临时性计算机可读介质和/或存储介质，和/或非临时性机器可读介质和/或存储介质，具有可由机器和/或计算机执行以便进行图像处理的至少一个代码段的机器代码和/或计算机程序保存在所述介质上。所述至少一个代码段可使机器和/或计算机进行操作，所述操作包括利用光流图，计算当前图像帧中的多个像素相对于前一图像帧的多个第一运动向量值。基于从设置在设备中的传感器接收的输入，可为当前图像帧中的所述多个像素，计算多个第二运动向量值。基于一组规定的参数，可以确定所述多个第一运动向量值的置信度。基于确定的置信度，和所述多个第一运动向量值与多个第二运动向量值之间的相似性参数，可以从当前图像帧中提取一个或多个背景区域。

本公开可以用硬件，或者硬件与软件的组合实现。本公开可以集中地在至少一个计算机系统中，或者分布地实现，在分布实现的情况下，不同的元件可散布在几个互连的计算机系统中。适宜于执行记载在本文中的方法的计算机系统或其他设备可以是合适的。硬件与软件的组合可以是带有计算机程序的通用计算机系统，当被加载和执行时，所述计算机程序可控制所述计算机系统，以致所述计算机系统执行记载在本文中的方法。本公开可以用包含还完成其他功能的集成电路的一部分的硬件实现。

本公开也可被嵌入计算机程序产品中，所述计算机程序产品包含使记载在本文中的方法的实现成为可能的所有特征，并且当被载入计算机系统中时，能够执行这些方法。尽管参考一些实施例，说明了本公开，不过，本领域的技术人员明白可以作出各种改变，可以置换各种等同物，而不脱离本公开的范围。另外，可以作出许多修改，以使特定状况或材料适应于本公开的教导，而不脱离本公开的范围。于是，本公开不限于公开的特定实施例，相反，本公开将包含落在所附权利要求书的范围内的所有实施例。

Claims

1.一种图像处理设备，包括：

一个或多个处理器，所述一个或多个处理器被配置成：

利用光流图计算当前图像帧中的多个像素相对于前一图像帧的多个第一运动向量值；

基于从设置在所述设备中的传感器接收的输入，计算所述当前图像帧中的所述多个像素的多个第二运动向量值；

基于一组规定的参数确定所述多个第一运动向量值的置信度；以及

基于所述确定的置信度和所述多个第一运动向量值与所述多个第二运动向量值之间的相似性参数，从所述当前图像帧中提取一个或多个背景区域。

2.按照权利要求1所述的设备，其中所述一个或多个处理器还被配置成捕捉图像帧序列，其中所述图像帧序列至少包括所述当前图像帧和所述前一图像帧。

3.按照权利要求1所述的设备，其中所述一个或多个处理器还被配置成基于所述当前图像帧和所述前一图像帧中的所述多个像素的像素值之差生成所述光流图。

4.按照权利要求1所述的设备，其中所述接收的输入对应于所述当前图像帧中的所述多个像素中的每一个的角速度信息。

5.按照权利要求1所述的设备，其中所述多个第一运动向量值中的每一个对应于所述多个像素中的每一个从所述前一图像帧到所述当前图像帧的相对移动。

6.按照权利要求1所述的设备，其中所述多个第二运动向量值对应于对于设置在所述设备中的陀螺仪传感器计算的多个运动向量值。

7.按照权利要求1所述的设备，其中所述多个第二运动向量值的所述计算进一步基于所述设备的一个或多个装置参数，其中所述一个或多个装置参数包括所述设备的透镜的焦距、水平像素的数量、以及设置在所述设备中的成像器组件的宽度。

8.按照权利要求1所述的设备，其中所述一个或多个处理器还被配置成比较所述多个像素的所述多个第二运动向量值与所述多个第一运动向量值，以便提取所述一个或多个背景区域。

9.按照权利要求8所述的设备，其中所述一个或多个处理器还被配置成基于所述多个第二运动向量值与所述多个第一运动向量值之间的所述比较，确定所述当前图像帧中的所述多个像素中的每一个的所述相似性参数。

10.按照权利要求9所述的设备，其中所述一个或多个处理器还被配置成基于所述置信度和与所述多个像素中的每一个相关的所述相似性参数生成置信图。

11.按照权利要求10所述的设备，其中基于所述确定的与所述多个像素中的每一个相关的相似性参数与规定阈值的比较提取所述一个或多个背景区域。

12.按照权利要求1所述的设备，其中所述当前图像帧包括一个或多个前景区域和所述一个或多个背景区域。

13.一种图像处理系统，包括：

成像装置中的一个或多个处理器，所述成像装置中的所述一个或多个处理器被配置成：

利用光流图，计算当前图像帧中的多个像素相对于前一图像帧的多个第一运动向量值；

基于从设置在所述成像装置中的传感器接收的输入，计算所述当前图像帧中的所述多个像素的多个第二运动向量值；

基于一组规定的参数确定所述多个第一运动向量值的置信度；

基于所述确定的置信度和所述多个第一运动向量值与所述多个第二运动向量值之间的相似性参数，从所述当前图像帧中提取一个或多个背景区域；以及

基于所述提取的一个或多个背景区域，在所述当前图像帧中检测一个或多个感兴趣的对象。

14.按照权利要求13所述的图像处理系统，其中所述检测的一个或多个感兴趣的对象对应于所述当前图像帧中运动着的一个或多个对象。

15.按照权利要求13所述的图像处理系统，其中所述成像装置中的所述一个或多个处理器还被配置成自动聚焦于所述检测到的一个或多个感兴趣的对象。

16.按照权利要求13所述的图像处理系统，其中所述成像装置中的所述一个或多个处理器还被配置成更改所述检测到的一个或多个感兴趣的对象的一个或多个视觉参数。

17.一种图像处理方法，所述方法包括：

在被配置成处理图像帧序列的设备中：

基于从传感器接收的输入计算所述当前图像帧中的所述多个像素的多个第二运动向量值；

基于所述确定的置信度和所述多个第一运动向量值与所述多个第二运动向量值之间的相似性参数，提取所述当前图像帧中的一个或多个背景区域。

18.按照权利要求17所述的方法，还包括基于所述当前图像帧和所述前一图像帧中的所述多个像素的像素值之差生成所述光流图。

19.按照权利要求17所述的方法，还包括比较所述多个像素的所述多个第二运动向量值与所述多个第一运动向量值，以便提取所述一个或多个背景区域。

20.按照权利要求19所述的方法，还包括基于所述多个第二运动向量值与所述多个第一运动向量值之间的所述比较，确定所述当前图像帧中的所述多个像素中的每一个的所述相似性参数。