CN103460250B

CN103460250B - 基于感兴趣对象的图像处理

Info

Publication number: CN103460250B
Application number: CN201180070040.8A
Authority: CN
Inventors: 栗强; 李文龙; 王鹏; 王涛; 杜杨洲; 李建国
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-04-11
Filing date: 2011-04-11
Publication date: 2017-11-28
Anticipated expiration: 2031-04-11
Also published as: CN103460250A; US20160112674A1; JP2014515225A; TW201246942A; EP2697776A1; US9247203B2; KR20130129471A; US9871995B2; EP2697776A4; US20130342640A1; JP5859111B2; TWI563825B; WO2012139275A1

Abstract

提供一种装置、方法和系统，其中，所述系统包括编码引擎，该编码引擎以比用于编码和/或压缩各个图像帧的背景的比特密度更高的比特密度来编码和/或压缩在所述各个图像帧内的一个或多个感兴趣对象。所述系统可以进一步包括上下文引擎，该上下文引擎识别包括所述一个或多个感兴趣对象的至少一部分的感兴趣区域并且按比例增加各个图像帧内的所述感兴趣区域以强调所述感兴趣对象。

Description

基于感兴趣对象的图像处理

技术领域

本公开通常涉及数据处理，特别是涉及基于感兴趣对象的图像处理。

背景技术

除非本文以其它方式进行了指示，在这一部分中描述的材料对于本申请中的权利要求不是现有技术，并且不通过包括在这一部分中而被承认作为现有技术。

通常，成像处理应用，并且特别是视频会议解决方案，可以从一个或多个摄像机接收或捕获直播视频图像帧，压缩捕获的视频图像帧，并且向一个或多个接收方发射压缩的视频图像帧，该接收方可以然后对接收的视频图像帧进行解压缩。今天，通过网络使用移动设备来进行越来越多的诸如视频会议的图像处理应用，与配置为使用静止设备支持所述应用的传统网络相比较，所述网络会具有相对较低的带宽。这样，发射的视频的质量以及这些应用的用户体验可能常常不太理想。

附图说明

将通过示例性说明而非限制的方式来描述附图中示出的本公开的实施例，在附图中，相似的附图标记指代类似的元件，并且其中：

图1是说明根据本公开各种实施例的示例图像处理设备的框图；

图2是说明根据本公开各种实施例的视频信号的示例单独图像帧的框图；

图3是说明根据本公开各种实施例的图像处理设备的编码引擎的操作的一部分的流程图；

图4是说明根据本公开各种实施例的图像处理设备的上下文引擎的操作的一部分的流程图；

图5是说明根据本公开各种实施例的图像处理设备的操作的一部分的流程图；

图6是说明根据本公开实施例的适合于用于实践描述的方法和/或装置的各种方面的示例计算机系统的框图；并且

图7是说明根据本公开实施例的具有配置为使一种装置实践图像处理设备的各种操作的编程指令的制造物品的框图。

具体实施方式

本公开的各种实施例可以描述包括编码引擎的装置、方法和系统，该编码引擎配置为以比用于编码和/或压缩单独图像帧的背景的比特密度更高的比特密度来编码和/或压缩在所述图像帧内的一个或多个感兴趣对象。所述图像处理系统可以进一步包括上下文引擎，该上下文引擎配置为识别包括所述一个或多个感兴趣对象的至少一部分的感兴趣区域并且缩放所述各个帧内的所述感兴趣区域以强调所述感兴趣对象。

在各种实施例中，一种装置可以包括编码引擎，该编码引擎配置为接收视频信号的多个图像帧，并且以比用于编码和/或压缩各个图像帧的背景的比特密度更高的一个或多个比特密度为基础来编码和/或压缩与所述各个图像帧内的一个或多个感兴趣对象相关联的一个或多个区域，其中，所述背景和所述一个或多个区域形成所述各个图像帧。所述装置可以进一步包括发射机，该发射机耦接到所述编码引擎并且配置为向一个或多个接收方发射编码/压缩的多个图像帧。

在各种实施例中，所述一个或多个感兴趣对象可以包括视频会议的参与者的一个或多个面部。

在各种实施例中，所述装置可以进一步包括上下文引擎，该上下文引擎耦接到所述编码引擎并且配置为识别所述各个图像帧内的所述一个或多个感兴趣对象。

在各种实施例中，所述上下文引擎可以进一步配置为识别所述各个图像帧内的感兴趣区域，其中，所述感兴趣区域可以至少部分地包括所述一个或多个感兴趣对象。

在各种实施例中，所述上下文引擎可以进一步配置为按比例增加所述各个图像帧内的所述感兴趣区域以增加所述各个图像帧内的所述感兴趣区域的突出性。

在各种实施例中，所述上下文引擎可以进一步配置为调整所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内。

在各种实施例中，所述上下文引擎可以进一步配置为以上下文信息为基础来调整所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置中。

在各种实施例中，所述装置的所述一个或多个感兴趣对象可以包括视频会议的参与者的一个或多个面部，并且所述上下文信息可以包括所述一个或多个面部的面部取向。

在各种实施例中，所述发射机可以进一步配置为分开地发射所述一个或多个感兴趣对象和所述背景。

在各种实施例中，一种方法可以包括：接收视频信号的多个图像帧；并且以比用于编码和/或压缩各个图像帧的背景的比特密度更高的一个或多个比特密度为基础来编码和/或压缩与所述各个图像帧内的一个或多个感兴趣对象相关联的一个或多个区域，其中，所述背景和所述一个或多个区域形成所述各个图像帧。

在各种实施例中，所述方法可以进一步包括识别所述各个图像帧内的所述一个或多个感兴趣对象。

在各种实施例中，所述方法可以进一步包括识别所述各个图像帧内的感兴趣区域，其中，所述感兴趣区域至少部分地包括所述一个或多个感兴趣对象。

在各种实施例中，所述方法可以进一步包括按比例增加所述各个图像帧内的所述感兴趣区域，以增加所述各个图像帧内的所述感兴趣区域的突出性。

在各种实施例中，所述方法可以进一步包括调整所述各个图像帧内的所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内。

在各种实施例中，所述方法可以进一步包括以上下文信息为基础来调整所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置处。

在各种实施例中，所述方法的所述一个或多个感兴趣对象可以包括视频会议的参与者的一个或多个面部，并且其中，所述上下文信息可以包括所述一个或多个面部的面部取向。

在各种实施例中，所述方法可以进一步包括向一个或多个接收方发射编码/压缩的多个图像帧，其中，所述发射可以包括分开地发射所述一个或多个感兴趣对象和所述背景。

在各种实施例中，一种系统可以包括：配置为捕获具有多个图像帧的视频信号的摄像机；可操作地耦接到所述摄像机并且配置为执行下列操作的编码引擎：接收多个捕获的图像帧；并且以比用于编码和/或压缩各个图像帧的背景的比特密度更高的一个或多个比特密度为基础来编码和/或压缩所述各个图像帧内的一个或多个感兴趣对象，其中，所述背景和所述一个或多个感兴趣对象形成所述各个图像帧。所述系统可以进一步包括发射机，该发射机耦接到所述编码引擎并且配置为向一个或多个接收方发射编码/压缩的多个图像帧。

在各种实施例中，其中，所述上下文信息可以包括所述一个或多个接收方中的一个的视角；并且其中，所述系统的所述上下文引擎可以进一步配置为控制所述摄像机以便以所述一个或多个接收方中的一个的视角为基础来调整捕获的视频信号。

在各种实施例中，一种制造物品可以包括：有形和非暂态的计算机可读存储介质；以及存储在所述存储介质中的多个编程指令，所述编程指令配置为使一种装置响应于所述编程指令的执行而执行操作，所述操作包括：接收视频信号的多个图像帧；并且以比用于编码和/或压缩各个图像帧的背景的比特密度更高的一个或多个比特密度为基础来编码和/或压缩所述各个图像帧内的一个或多个感兴趣对象，其中，所述背景和所述一个或多个感兴趣对象形成所述图像帧。

在下面的详细描述中，参考形成该详细描述的一部分的附图，并且其中通过可以实践本公开的说明实施例的方式来示出所述详细描述。应该理解，在不偏离本公开的范围的情况下，可以利用其它实施例，并且可以做出结构或逻辑改变。因此，并不意在以限制的意义来做出下面的详细描述，并且根据本公开实施例的范围由所附权利要求及其等同物来限定。

可以将各种操作按照可能对理解本公开实施例有帮助的方式顺次地描述为多个分立的操作；然而，不应该将描述的顺序解释为暗含这些操作是顺序依赖的。

出于描述的目的，具有形式“A/B”或具有形式“A和/或B”的短语意指(A)、(B)或(A和B)。出于描述的目的，具有形式“A、B和C中的至少一个”的短语意指(A)、(B)、(C)、(A和B)、(A和C)、(B和C)或(A、B和C)。出于描述的目的，具有形式“(A)B”的短语意指(B)或(AB)，即，A是可选的元素。

所述描述可以使用短语“在一实施例中”或“在实施例中”，这两个短语可以分别指代相同或不同实施例中的一个或多个。而且，如关于本公开实施例使用的术语“包括”、“包含”、“具有”等等是同义词。所述描述可以指代各个图像帧的“感兴趣对象”和“背景”。出于这一申请的目的，包括权利要求，术语“背景”指代减去图像帧的一个或多个“感兴趣对象”的剩余部分，除非上下文清晰地以其它方式进行了指示。

图1是说明根据本公开各种实施例的示例图像处理设备的框图。如图1中说明的，图像处理设备100可以包括经由总线140彼此耦接的编码引擎110、上下文引擎120和发射机130。尽管图1阐释了经由总线140耦接的设备100的各种部件，但是在各种实施例中，编码引擎110、上下文引擎120和发射机130可以经由诸如一个或多个点到点连接或者总线层级的任何适当机制进行耦接。

尽管图1阐释了特定部件，但是设备100可以包括便于图像处理和/或发射的其它适当部件，例如天线、摄像机、解码引擎、显示器等等，为了容易理解本公开，没有示出这些部件。进而，尽管将图1中示出的部件阐释为设备100内的单独方框，但是可以将由这些方框中的一些执行的功能集成到单个部件内，或者可以使用两个或更多个单独部件来进行进一步再分。例如，可以将解码引擎(未示出)和编码引擎110集成到单个解码/编码引擎中。此外，可以将包括编码引擎110、上下文引擎120和发射机130的全部或部分的设备100实现在软件或硬件或其组合中。

在各种实施例中，图像处理设备100可以包括有线或无线电子设备，例如桌上型计算机、膝上型计算机、手持计算机、平板计算机、蜂窝电话、寻呼机、音频和/或视频播放器(例如，MP3播放器或DVD播放器)、游戏设备、视频摄像机、数字摄像机、导航设备(例如，GPS设备)、无线外围设备(例如，打印机、扫描仪、头戴式耳机、键盘、鼠标等等)、医疗设备(例如，心率监测仪、血压监测仪等等)、机顶盒和/或其它适当的相对静止的、便携式或移动电子设备。

在各种实施例中，图像处理设备100可以经由一个或多个有线或无线网络连接来发射处理的图像，该有线或无线网络连接例如是私人网络、个人区域网(PAN)、局域网(LAN)、虚拟私人网络(VPN)、城域网(MAN)、广域网(WAN)、专有网络或通常被称为互联网的公共网络或其组合。

在各种实施例中，图像处理设备100可以具有使用各种调制技术来无线地发射处理的图像的能力，该调制技术包括扩频调制(例如，直接序列码分多址(DS-CDMA)和/或跳频码分多址(FH-CDMA))、时分复用(TDM)调制、频分复用(FDM)调制、正交频分复用(OFDM)调制、多载波调制(MDM)、正交频分多址(OFDMA)、SC-FDMA(单载波FDMA)和/或其它适当的调制技术，以经由无线链路进行通信。在一个示例中，视频会议设备100可以根据要求非常低功率的适当的无线通信协议进行操作，该无线通信协议例如是蓝牙、Zigbee、近场通信(NFC)、超宽带(UWB)和/或射频识别(RFID)，以实现无线个人域网(WPAN)、无线局域网(WLAN)和/或无线城域网(WMAN)。

在各种实施例中，图像处理设备100可以是视频会议应用或系统的一部分，并且可以利用可以类似于或不类似于图像处理设备100的一个或多个其它图像处理设备(未示出)来促进视频会议。

在各种实施例中，编码引擎110可以接收包括一系列图像帧的视频信号。在各种实施例中，所述视频信号可以包括未压缩的原始数据格式的图像帧。在各种实施例中，可能已经按照有损或无损编码/压缩方案对所述视频信号进行了编码/压缩，该有损或无损编码方案例如是1984年由国际电信联盟电信标准化组织(ITU-T)公布的H.261、1993由国际标准化组织(ISO)公布的MPEG-1部分2以及1998年由ISO公布的H.264/MPEG-4AVC等等。编码引擎110可以从设备100的通信接口(未示出)接收视频信号，该设备100可以从外部源接收视频信号。可选地，编码引擎110可以经由总线140从附接到设备100或以其它方式与设备100集成的视频摄像机接收视频信号。

编码引擎110可以配置为作为流逐个地或并行地编码和/或压缩图像帧。编码引擎110可以对视频信号进行变换编码(例如，对视频信号进行解码并且以不同的方案为基础对该视频信号进行重新编码)，如果该视频信号已经被编码/压缩。编码引擎110可以对附加信息进行编码或者将该附加信息添加到视频信号，该附加信息例如是与视频信号、子标题和数字版权管理等等的搜索的前向、后向或随机访问有关的信息。编码引擎110可以使用任何已知的视频/图像压缩方案或方法来编码/压缩图像帧，该视频/图像压缩方案或方法例如是帧间压缩、帧内压缩、离散余弦变换(DCT)、片段压缩、匹配追踪、离散小波变换(DWT)等等。

在各种实施例中，编码引擎110可以具有与一个或多个图像帧内的一个或多个感兴趣对象(OOI)有关的信息。OOI可以与设备100的应用或使用场景有关。示例OOI可以包括在视频会议会话期间讲话者的面部和/或肩部区域、在电视播送期间经过跑道行驶的机动车辆、由监视摄像机捕获和/或跟踪的移动对象等等。在各种实施例中，包含在视频信号的图像帧内的OOI区域的数量可以逐帧地改变。例如，在图像帧中可以存在单个OOI，并且在随后或其它图像帧中可以存在多个OOI。

图2是说明根据本公开各种实施例的视频流的示例单独图像帧的框图。如说明的，图像帧200可以包括OOI区域210、OOI区域212、OOI区域214和围绕OOI区210-214并且由图像帧200内的阴影区域指示的背景230。尽管图2阐释了具有三个OOI区域的图像帧200，但是在各种实施例中，图像帧200可以包括更多或更少的OOI区域。尽管图2说明了具有相同尺寸和形状的多个OOI区域210-214，但是应该理解，各种OOI区域210-214的尺寸、形状和位置仅仅是说明性的，并且在各种实施例中可以不同。进而，示例说明示出了围绕OOI区域210-214的背景230，但是在其它图像帧中，背景230可以仅部分地围绕或相邻于OOI区域210-214。

在各种实施例中，编码引擎可以应用不同的量化参数来编码/压缩一个或多个OOI区域210-214和背景230，该背景230连同OOI区域210-214一起构成图像帧。在某些实施例中，编码引擎110可以配置为使用比用于编码/压缩背景230的比特密度更高的一个或多个比特密度来编码/压缩一个或多个OOI区域210-214。例如，在使用设备100的视频会议应用中，可以将在讲话者的面部和肩部周围的区域分别识别为两个OOI区域。编码引擎110可以使用可以允许其他会议出席者更清楚地看到讲话者的面部表情的高比特密度来编码/压缩在讲话者的面部周围的区域，并且可以使用中等比特密度来编码/压缩在讲话者的肩部周围的区域，并且可以使用低比特密度来编码/压缩图像帧的背景。这样，与每一个图像帧内的非面部区域(例如，背景)的比特相比较，可以向讲话者的面部区域(例如，一个或多个OOI区域)分配更多的比特。构成高、中或低比特密度的内容可以逐应用地变化。

在各种实施例中，除了或代替上述的比特密度优先编码和/或压缩，编码引擎110可以使用基于区域的编码技术来编码/压缩图像帧200。例如，可以使用不同的编码/压缩模型来单独地编码/压缩OOI区域210-214和背景230。编码引擎110可以以非参数背景模型为基础来编码/压缩背景230。编码引擎110可以以单独的编码和/或压缩模型为基础来编码/压缩和压缩OOI区域210-214。可以将图像帧200的编码/压缩的OOI区域210-214与编码/压缩的背景230单独地经由发射机130发射到一个或多个接收方(图1中未示出)。一个或多个接收方可以如接收那样单独地对背景和OOI区域进行解压缩和解码，并且组合该区域和背景以重构完整的图像帧。

在各种实施例中，编码引擎110可以以先前或随后的图像帧为基础来编码/压缩特定图像帧200以例如通过使用帧间压缩等等来实现更有效的压缩。

在例如视频会议应用的各种实施例中，背景230在大部分时间内可以静止或实质上静止，并且可以不改变或最低限度地逐帧改变。因此，代替在每一个图像帧中发射背景，发射机130可以周期性地每两个或更多个图像帧地发射背景230。在其它实施例中，在检测到一个或多个先前图像帧上的背景的(明显)改变时，发射机130可以动态地发射背景230。通过使用比特密度优化的编码和/或其中对背景和OOI区域进行分开地编码、压缩和发射的基于区域的编码/压缩技术，可以增强设备100的编码和/或发射效率。因此，可以改善以设备100为基础的视频会议应用的用户体验，特别是在使用其中网络带宽可能受限的移动设备进行的视频会议中。

在各种实施例中，上下文引擎120可以配置为检测、识别和/或跟踪图像帧200内或视频流中的一个或多个OOI区域210-214，并且向编码引擎110提供与OOI区域210-214有关的信息。上下文引擎120可以以对于对象跟踪或面部识别已知的各种技术为基础来检测OOI区域210-214。这样的对象跟踪技术之一可以是以AdaBoost分类器的级联为基础来无遗漏地扫描图像帧上的窗口。在各种实施例中，上下文引擎120可以提供OOI信息以辅助编码引擎110编码和/或压缩图像帧。

在各种实施例中，上下文引擎120可以进一步配置为识别图像帧内可以包括所述一个或多个OOI区域的至少一部分的感兴趣区域(ROI)。示例ROI可以是被说明为由图2中的虚线围绕的区域。可以以例如(Rx,Ry)的ROI 220的坐标表示的边框为基础来识别该ROI220的位置和尺寸。在各种实施例中，ROI 220可以包括或不包括背景230的部分。

在各种实施例中，上下文引擎120还可以识别ROI区域220内的中心点P_c。在某些实施例中，可以将P_c定义为ROI内的所有OOI区域的加权中心。例如，可以以下面的表达式为基础来识别P_c：

其中P_i是每一个检测的OOI区域的中心位置，并且N是检测的OOI区域的数量。在其它实施例中，可以将P_c识别为ROI内的最大OOI区域的中心点，例如，最接近摄像机的感兴趣对象。例如，可以将P_c定义为：

P_c＝arg max(size(P_i))

其中argmax(size(P_i))是具有最大尺寸的OOI区域的中心点。在又一些其它实施例中，P_c可以是从一个或多个先前帧检测到改变的OOI的中心点。例如，P_c可以用于指示代表当前正在视频会议中与多个参与者讲话的人或被监视摄像机跟踪的移动对象之一的OOI。在各种实施例中，如上面讨论的，P_c可以是或不是ROI 220的真实“中心”。

在各种实施例中，如说明的，上下文引擎120可以通过包括所有OOI区域210-214的边框来识别ROI区域220。在各种实施例中，一旦识别了ROI 220，上下文引擎120就可以调整该ROI 220，包括调整其尺寸、位置并缩放，以使中心点P_c在图像帧200的中心部分处或在该中心部分附近。在各种实施例中，也可以连同ROI 220一起移动和/或缩放围绕ROI 220的区域，以维持ROI 220和围绕ROI 220的背景230的部分之间的空间相关性。

在某些实施例中，上下文引擎120可以将ROI 220按比例尽可能地增加到图像帧200的维度(或原始尺寸)，其可以使或不使ROI 220内的图像失真。在某些实施例中，ROI220的维度(或长宽比)可以不按比例增加以匹配图像帧200的维度(或长宽比)。因此，上下文引擎可以选择性地选择包括背景区域230的一部分，或者移除ROI 220的一部分，以按照正确的长宽比来显示ROI 220内的图像。类似地，上下文引擎120可以选择性地移除/包括ROI 220和背景230的一部分，以便在图像帧200的中心位置处或附近移动中心点P_c。结果，ROI 220内的至少一个OOI，例如OOI 210，可以在图像帧200的中心部分处或附近表现得更大并聚焦。

在各种实施例中，上下文引擎120可以向编码引擎110提供包括缩放/修改的ROI220的图像帧，以辅助编码引擎110进行编码和/或压缩以及图像帧的随后发射，如先前公开的。

在各种实施例中，可以将摄像机(未示出)附接到设备100或者以其它方式与设备100集成，以捕获具有图像帧的流的视频信号。上下文引擎120可以可操作地耦接到摄像机并且配置为控制该摄像机。在识别每一个图像帧内的ROI 220而不是按比例增加或移动ROI220时，上下文引擎120可以控制摄像机以放大或缩小或横摇摄像机角度，以便聚焦在ROI220上，从而将ROI 220内的至少一个OOI放置在图像帧200的中心部分中。

在各种实施例中，上下文引擎120可以进一步配置为调整ROI 220的尺寸和位置以便以一条或多条上下文信息为基础来有意地将至少一个OOI放置在偏离中心的位置处。上下文信息可以取决于设备100的应用或使用场景。例如，在视频会议会话中，上下文引擎120可以使用当前讲话者的面部取向(例如，姿势)作为上下文信息。

在各种实施例中，面部取向信息可以用于推导除了识别的ROI之外的潜在的感兴趣区域，并且可以用于使ROI的提取稳定。例如，如果讲话者正在直视摄像机，则可以将该讲话者表示为位于视频的中心部分处或附近。然而，如果讲话者在说话的同时朝向他/她的右侧看，则在各种实施例中，上下文引擎120可以将ROI 220的窗口选择性地移动或横摇到讲话者的“右侧”、按比例增加或减小或者以其它方式调整ROI 220，以在讲话者的“右侧”显示更多的背景230。对于另一示例，视频会议可以包括多个参与者。上下文引擎120可以初始地识别所有参与者作为感兴趣对象，并且绘制ROI以包括所有参与者。然而，面部取向信息可以指示参与者之一没有正在看摄像机，但他/她的头低下(也许正在阅读)。在各种实施例中，上下文引擎120可以选择从ROI中临时排除该参与者(或OOI)，以使得当前从事谈话的人可以更突出地显示在屏幕的中心处。在各种实施例中，在检测到该参与者的面部取向的(明显)改变时，上下文引擎120可以重新调整ROI 220以将该参与者包括在图像中。

在各种实施例中，上下文引擎120可以配置为分析图像帧200并且产生上下文信息。例如，在视频会议应用中，为了包括讲话者的面部取向作为上下文信息，上下文引擎120可以配置为分析讲话者的面部取向。上下文引擎120可以以面部的三个不同角度，例如俯仰、偏航和滚转，的测量和分析为基础来分析该讲话者的面部取向。

在各种实施例中，代替上下文引擎120分析图像帧以产生上下文信息，可以向上下文引擎120提供上下文信息。例如，可以经由网络通过设备100的发射机130向一个或多个接收方发射视频。可以由安装在接收方侧处的一个或多个摄像机以先前描述的类似面部取向跟踪方法或其它已知方法为基础来跟踪一个或多个接收方的视点(或视角)。可选地，除了面部取向跟踪，可以通过例如从华盛顿州Redmond的微软公司可得到的Xbox摄像机套件的具有合适软件的摄像机利用任何已知方法来类似地识别和/或跟踪一个或多个接收方的姿势。因此，在某些实施例中，上下文信息可以包括视频的一个或多个接收方的视点和/或姿势。例如，如果接收方正在朝向视频的左侧看，则可以经由网络将这样的视点信息反馈到上下文引擎120，并且上下文引擎120可以调整该视频的ROI区域220或者一个或多个附接的摄像机，以朝向视频的左侧显示更多的信息。出于类似的目的，也可以将接收方的姿势反馈到上下文引擎120。可选地，视频的接收方可以经由其它输入方法向上下文引擎120提供上下文信息，该其它输入方法例如是键盘、鼠标、经由麦克风的语音输入等等。因此，通过从一个或多个接收方接收上下文信息，设备100可以能够向视频会议的参加者提供虚拟现实效应或者向视频的接收方提供远程控制能力。

在各种实施例中，上下文引擎120可以以该上下文信息为基础来向编码引擎110提供包括调整的ROI 220的图像帧，以辅助该图像帧的编码和/或压缩，以及通过发射机130的这样的图像帧的随后发射，如先前公开的。

图3是说明根据本公开各种实施例的图像处理设备的编码引擎的操作的一部分的流程图。在方框310中，编码引擎110可以接收图像帧的流或者与嵌入在每一个图像帧中的一个或多个OOI区域有关的信息。在方框320中，编码引擎110可以使用如先前公开的比特密度优先编码/压缩和/或基于区域的差分编码/压缩来编码/压缩每一个图像帧。在基于区域的编码/压缩中，发射机130可以向一个或多个接收方分开地发射背景和一个或多个OOI区域。发射机130可以每两个或更多个图像帧地周期性地发射背景，或者在检测到背景中的改变时动态地发射背景。编码引擎110可以重复上面的操作，直到处理了所有图像。可以在每一个图像帧中发射一个或多个OOI区域。一个或多个接收方可以然后如接收那样对该图像进行解压缩和重构。

图4是说明根据本公开各种实施例的图像处理设备的上下文引擎的操作的一部分的流程图。在方框410中，上下文引擎120可以接收图像帧的流，并且可以配置为逐个或并行地处理该图像帧的流。上下文引擎120可以与编码引擎110并行地接收图像帧的流，或者可选地，在编码引擎110之前处理该图像帧。在方框420中，上下文引擎120可以识别图像帧内的一个或多个OOI区域，并且向编码引擎110提供OOI区域信息，用于如先前公开的编码和/或压缩。在方框430中，上下文引擎120可以在图像帧内建立包括至少一个OOI区域的ROI。上下文引擎120可以缩放该ROI并且减小在图像帧内的ROI外部的区域，以使得可以在图像的中心处突出地显示一个或多个OOI区域并且该一个或多个OOI区域表现为聚焦在图像内。上下文引擎120可以调整ROI的尺寸和位置，以将至少一个或多个OOI居中地放置在图像帧内。在方框440中，上下文引擎120可以分析图像帧以产生与该图像帧相关联的上下文信息。在方框450中，上下文引擎120可以以该上下文信息为基础来调整ROI，以将一个或多个OOI区域中的至少一个放置在图像帧内偏离中心的位置中。上下文引擎120可以在具有或者不具有在上下文信息下的调整的情况下，将OOI和/或ROI信息传递到编码引擎110。上下文引擎120可以重复上述步骤，直到处理了所有图像。

图5是说明根据本公开各种实施例的图像处理设备的操作的一部分的流程图。在方框510中，附接到图像处理设备100的一个或多个视频摄像机(在图1中未示出)可以捕获二维(2D)或三维(3D)格式的视频图像。在方框520中，上下文引擎可以分析每一个图像帧以识别一个或多个OOI区域。在方框530中，上下文引擎120可以在图像帧内建立ROI并且在图像帧内缩放ROI，以将至少一个OOI放置在该图像帧的中心部分处。在方框540中，上下文引擎可以分析图像帧并产生一条或多条上下文信息，包括面部取向信息的估计，并且根据上下文信息修改ROI。上下文引擎120可以向编码引擎110转发包括修改的ROI的图像帧。在方框550中，编码引擎110可以以比特密度优先或基于区域的差分编码和/或压缩为基础来逐个或并行地编码/压缩图像帧的流。在方框560中，发射机130可以将编码/压缩的图像帧发射到一个或多个接收方。上下文引擎120、编码引擎110和发射机130可以重复上面的步骤，直到处理了所有图像帧。

图6是说明根据本公开实施例适合于用于实践描述的方法和/或装置的各种方面的示例计算机系统的框图。如图所示，计算机系统600可以包括电源单元601、多个处理器或处理器内核602、系统存储器604、海量存储606和通信接口610。出于本申请的目的，包括权利要求，术语“处理器”和“处理器内核”可以被认为是同义词，除非上下文明确地以其它方式要求。

此外，计算系统600可以包括一个或多个有形的非暂态计算机可读海量存储设备606(例如磁盘、硬驱、压缩盘只读存储器(CDROM)等等)、输入/输出设备108(例如键盘、光标控制等等)。在各种实施例中，I/O设备608可以包括一个或多个摄像机618。元件可以经由系统总线612进行彼此耦接并且耦接到较早列举的元件，系统总线612代表一条或多条总线。在多条总线的情况下，它们可以由一个或多个总线桥(未示出)桥接。数据可以经过系统总线612从I/O设备608，例如从摄像机618，传递到处理器602。

系统存储器604和海量存储606可以用于存储实现在本文中被共同表示为622的一个或多个操作系统、固件模块或驱动器、应用等等的编程指令的作业拷贝和永久拷贝。在由处理器602执行时，该编程指令可以使计算系统600执行编码引擎110、上下文引擎120和/或发射机130的操作，如先前公开的。摄像机618可以捕获视频图像的流，并且可以受到如前面公开的上下文引擎120的控制。

可以将编程指令的永久拷贝例如经过例如压缩盘(CD)的分配介质(未示出)或经过通信接口610(来自分配服务器(未示出))放置到工厂中或现场中的永久存储606中。也就是说，具有代理程序实现的一个或多个分配介质可以用于分配代理并且对各种计算设备进行编程。

这些元件601-622的剩余构成是已知的，并且因此将不再进行进一步描述。

图7说明了根据本公开实施例的具有配置为使一种装置能够实践图像处理设备的各种操作的编程指令的制造物品。如图所示，制造物品700可以包括计算机可读的非暂态存储介质710。存储介质710可以包括配置为实现图像处理设备的编程指令720。

存储介质710代表本领域中已知的宽范围的永久性存储介质，包括但不局限于闪存、光盘或磁盘。具体地，编程指令720可以响应于通过图像处理装置对这些指令的执行而使该装置执行操作，该操作包括：接收视频信号的多个图像帧；并且以比用于编码和/或压缩各个图像帧的背景的比特密度更高的一个或多个比特密度为基础来编码和/或压缩所述各个图像帧内的一个或多个感兴趣对象，其中所述背景和所述一个或多个感兴趣对象形成所述各个图像帧。

尽管本文说明和描述了具体实施例，但是本领域的普通技术人员将意识到，在不偏离本公开实施例的范围的情况下，各种可选和/或等同实现可以替代示出和说明的具体实施例。本申请意在涵盖本文讨论的实施例的任何修改或变化。因此，本公开的实施例显然意在仅由权利要求及其等同物来限制。

Claims

1.一种用于图像处理的装置，包括：

编码引擎，该编码引擎配置为：

接收视频信号的多个图像帧；以及

上下文引擎，该上下文引擎耦接到所述编码引擎并且配置为：

识别各个图像帧内的一个或多个感兴趣对象(OOI)；以及

在各个图像帧内识别包含所述一个或多个感兴趣对象(OOI)的一个感兴趣区域(ROI)，其中，所述感兴趣区域(ROI)的中心点被确定为在所述感兴趣区域(ROI)中的所有感兴趣对象(OOI)的区域的加权中心其中，P_i是每一个感兴趣对象(OOI)的区域的中心位置，并且N是所识别的感兴趣对象(OOI)的数量；

发射机，该发射机耦接到所述编码引擎并且配置为向一个或多个接收方发射编码或压缩的多个图像帧，

其中，所述编码引擎进一步被配置为：

以比用于编码或压缩背景的比特密度更高的一个或多个比特密度为基础，来编码或压缩与在各个图像帧内的所述一个或多个感兴趣对象(OOI)相关联的所述感兴趣区域(ROI)。

2.如权利要求1所述的装置，其中，所述上下文引擎进一步配置为：将各个图像帧内的所述感兴趣区域按比例放大至所述各个图像帧的尺寸。

3.如权利要求1所述的装置，其中，所述一个或多个感兴趣对象包括视频会议的参与者的一个或多个面部。

4.如权利要求1所述的装置，其中，所述背景和所述感兴趣区域形成所述各个图像帧。

5.如权利要求1所述的装置，其中，所述上下文引擎进一步配置为：调整所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内。

6.如权利要求1所述的装置，其中，所述上下文引擎进一步配置为：以上下文信息为基础来调整所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置中。

7.如权利要求6所述的装置，其中，所述一个或多个感兴趣对象包括视频会议的参与者的一个或多个面部，并且其中，所述上下文信息包括所述一个或多个面部的面部取向。

8.如权利要求4所述的装置，其中，所述发射机进一步配置为分开地发射所述一个或多个感兴趣对象和所述背景。

9.一种用于图像处理的方法，包括：

接收视频信号的多个图像帧；

识别各个图像帧内的一个或多个感兴趣对象(OOI)；

在各个图像帧内识别包含所述一个或多个感兴趣对象(OOI)的一个感兴趣区域(ROI)，其中，所述感兴趣区域(ROI)的中心点被确定为在所述感兴趣区域(ROI)中的所有感兴趣对象(OOI)的区域的加权中心其中，P_i是每一个感兴趣对象(OOI)的区域的中心位置，并且N是所识别的感兴趣对象(OOI)的数量；以及

10.如权利要求9所述的方法，进一步包括：将各个图像帧内的所述感兴趣区域按比例放大至所述各个图像帧的尺寸。

11.如权利要求9所述的方法，其中，所述背景和所述感兴趣区域形成所述各个图像帧。

12.如权利要求9所述的方法，进一步包括：调整所述各个图像帧内的所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内。

13.如权利要求9所述的方法，进一步包括：以上下文信息为基础来调整所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置处。

14.如权利要求13所述的方法，其中，所述一个或多个感兴趣对象包括视频会议的参与者的一个或多个面部，并且其中，所述上下文信息包括所述一个或多个面部的面部取向。

15.如权利要求9所述的方法，进一步包括：向一个或多个接收方发射编码或压缩的多个图像帧，其中，所述发射包括分开地发射所述一个或多个感兴趣对象和所述背景。

16.一种用于图像处理的系统，包括：

摄像机，该摄像机配置为捕获具有多个图像帧的视频信号；

编码引擎，该编码引擎可操作地耦接到所述摄像机并且配置为执行下列操作：

接收多个捕获的图像帧；

识别各个图像帧内的一个或多个感兴趣对象(OOI)；以及

其中，所述编码引擎进一步被配置为：

17.如权利要求16所述的系统，其中，所述上下文引擎进一步配置为：将各个图像帧内的所述感兴趣区域按比例放大至所述各个图像帧的尺寸。

18.如权利要求16所述的系统，其中，所述背景和所述感兴趣区域形成所述各个图像帧。

19.一种用于图像处理的装置，包括：

用于接收视频信号的多个图像帧的单元；

用于识别各个图像帧内的一个或多个感兴趣对象(OOI)的单元；

用于在各个图像帧内识别包含所述一个或多个感兴趣对象(OOI)的一个感兴趣区域(ROI)的单元，其中，所述感兴趣区域(ROI)的中心点被确定为在所述感兴趣区域(ROI)中的所有感兴趣对象(OOI)的区域的加权中心其中，P_i是每一个感兴趣对象(OOI)的区域的中心位置，并且N是检测到的感兴趣对象(OOI)的数量；以及

用于以比用于编码或压缩背景的比特密度更高的一个或多个比特密度为基础，来编码或压缩与在各个图像帧内的所述一个或多个感兴趣对象(OOI)相关联的所述感兴趣区域(ROI)的单元。

20.如权利要求19所述的装置，进一步包括：

用于将各个图像帧内的所述感兴趣区域按比例放大至所述各个图像帧的尺寸的单元。

21.如权利要求19所述的装置，其中，所述背景区域围绕与所述一个或多个感兴趣对象相关联的所述感兴趣区域。

22.如权利要求19所述的装置，进一步包括：用于调整所述各个图像帧内的所述感兴趣区域以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内的单元。

23.如权利要求19所述的装置，进一步包括：用于以上下文信息为基础来调整所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置处的单元。

24.如权利要求19所述的装置，其中，所述一个或多个感兴趣对象包括视频会议的参与者的一个或多个面部。

25.如权利要求19所述的装置，进一步包括：用于向一个或多个接收方发射编码或压缩的多个图像帧的单元，其中，所述发射包括分开地发射所述一个或多个感兴趣对象和所述背景。

26.一种有形和非暂态的计算机可读存储介质，其上存储有多个编程指令，所述编程指令配置为使一种装置响应于所述编程指令的执行而执行操作，所述操作包括：

接收视频信号的多个图像帧；

识别各个图像帧内的一个或多个感兴趣对象(OOI)；

27.如权利要求26所述的有形和非暂态的计算机可读存储介质，所述操作进一步包括：将各个图像帧内的所述感兴趣区域按比例放大至所述各个图像帧的尺寸。

28.如权利要求26所述的有形和非暂态的计算机可读存储介质，其中，所述背景和所述感兴趣区域形成所述各个图像帧。

29.如权利要求26所述的有形和非暂态的计算机可读存储介质，所述操作进一步包括：调整所述各个图像帧内的所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内。

30.如权利要求26所述的有形和非暂态的计算机可读存储介质，所述操作进一步包括：以上下文信息为基础来调整所述感兴趣区域，以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置处。

31.如权利要求30所述的有形和非暂态的计算机可读存储介质，其中，所述一个或多个感兴趣对象包括视频会议的参与者的一个或多个面部，并且其中，所述上下文信息包括所述一个或多个面部的面部取向。

32.如权利要求26所述的有形和非暂态的计算机可读存储介质，所述操作进一步包括：向一个或多个接收方发射编码或压缩的多个图像帧，其中，所述发射包括分开地发射所述一个或多个感兴趣对象和所述背景。