CN103460250B - 基于感兴趣对象的图像处理 - Google Patents

基于感兴趣对象的图像处理 Download PDF

Info

Publication number
CN103460250B
CN103460250B CN201180070040.8A CN201180070040A CN103460250B CN 103460250 B CN103460250 B CN 103460250B CN 201180070040 A CN201180070040 A CN 201180070040A CN 103460250 B CN103460250 B CN 103460250B
Authority
CN
China
Prior art keywords
interest
picture frame
ooi
area
roi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180070040.8A
Other languages
English (en)
Other versions
CN103460250A (zh
Inventor
栗强
李文龙
王鹏
王涛
杜杨洲
李建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN103460250A publication Critical patent/CN103460250A/zh
Application granted granted Critical
Publication of CN103460250B publication Critical patent/CN103460250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

提供一种装置、方法和系统,其中,所述系统包括编码引擎,该编码引擎以比用于编码和/或压缩各个图像帧的背景的比特密度更高的比特密度来编码和/或压缩在所述各个图像帧内的一个或多个感兴趣对象。所述系统可以进一步包括上下文引擎,该上下文引擎识别包括所述一个或多个感兴趣对象的至少一部分的感兴趣区域并且按比例增加各个图像帧内的所述感兴趣区域以强调所述感兴趣对象。

Description

基于感兴趣对象的图像处理
技术领域
本公开通常涉及数据处理,特别是涉及基于感兴趣对象的图像处理。
背景技术
除非本文以其它方式进行了指示,在这一部分中描述的材料对于本申请中的权利要求不是现有技术,并且不通过包括在这一部分中而被承认作为现有技术。
通常,成像处理应用,并且特别是视频会议解决方案,可以从一个或多个摄像机接收或捕获直播视频图像帧,压缩捕获的视频图像帧,并且向一个或多个接收方发射压缩的视频图像帧,该接收方可以然后对接收的视频图像帧进行解压缩。今天,通过网络使用移动设备来进行越来越多的诸如视频会议的图像处理应用,与配置为使用静止设备支持所述应用的传统网络相比较,所述网络会具有相对较低的带宽。这样,发射的视频的质量以及这些应用的用户体验可能常常不太理想。
附图说明
将通过示例性说明而非限制的方式来描述附图中示出的本公开的实施例,在附图中,相似的附图标记指代类似的元件,并且其中:
图1是说明根据本公开各种实施例的示例图像处理设备的框图;
图2是说明根据本公开各种实施例的视频信号的示例单独图像帧的框图;
图3是说明根据本公开各种实施例的图像处理设备的编码引擎的操作的一部分的流程图;
图4是说明根据本公开各种实施例的图像处理设备的上下文引擎的操作的一部分的流程图;
图5是说明根据本公开各种实施例的图像处理设备的操作的一部分的流程图;
图6是说明根据本公开实施例的适合于用于实践描述的方法和/或装置的各种方面的示例计算机系统的框图;并且
图7是说明根据本公开实施例的具有配置为使一种装置实践图像处理设备的各种操作的编程指令的制造物品的框图。
具体实施方式
本公开的各种实施例可以描述包括编码引擎的装置、方法和系统,该编码引擎配置为以比用于编码和/或压缩单独图像帧的背景的比特密度更高的比特密度来编码和/或压缩在所述图像帧内的一个或多个感兴趣对象。所述图像处理系统可以进一步包括上下文引擎,该上下文引擎配置为识别包括所述一个或多个感兴趣对象的至少一部分的感兴趣区域并且缩放所述各个帧内的所述感兴趣区域以强调所述感兴趣对象。
在各种实施例中,一种装置可以包括编码引擎,该编码引擎配置为接收视频信号的多个图像帧,并且以比用于编码和/或压缩各个图像帧的背景的比特密度更高的一个或多个比特密度为基础来编码和/或压缩与所述各个图像帧内的一个或多个感兴趣对象相关联的一个或多个区域,其中,所述背景和所述一个或多个区域形成所述各个图像帧。所述装置可以进一步包括发射机,该发射机耦接到所述编码引擎并且配置为向一个或多个接收方发射编码/压缩的多个图像帧。
在各种实施例中,所述一个或多个感兴趣对象可以包括视频会议的参与者的一个或多个面部。
在各种实施例中,所述装置可以进一步包括上下文引擎,该上下文引擎耦接到所述编码引擎并且配置为识别所述各个图像帧内的所述一个或多个感兴趣对象。
在各种实施例中,所述上下文引擎可以进一步配置为识别所述各个图像帧内的感兴趣区域,其中,所述感兴趣区域可以至少部分地包括所述一个或多个感兴趣对象。
在各种实施例中,所述上下文引擎可以进一步配置为按比例增加所述各个图像帧内的所述感兴趣区域以增加所述各个图像帧内的所述感兴趣区域的突出性。
在各种实施例中,所述上下文引擎可以进一步配置为调整所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内。
在各种实施例中,所述上下文引擎可以进一步配置为以上下文信息为基础来调整所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置中。
在各种实施例中,所述装置的所述一个或多个感兴趣对象可以包括视频会议的参与者的一个或多个面部,并且所述上下文信息可以包括所述一个或多个面部的面部取向。
在各种实施例中,所述发射机可以进一步配置为分开地发射所述一个或多个感兴趣对象和所述背景。
在各种实施例中,一种方法可以包括:接收视频信号的多个图像帧;并且以比用于编码和/或压缩各个图像帧的背景的比特密度更高的一个或多个比特密度为基础来编码和/或压缩与所述各个图像帧内的一个或多个感兴趣对象相关联的一个或多个区域,其中,所述背景和所述一个或多个区域形成所述各个图像帧。
在各种实施例中,所述方法可以进一步包括识别所述各个图像帧内的所述一个或多个感兴趣对象。
在各种实施例中,所述方法可以进一步包括识别所述各个图像帧内的感兴趣区域,其中,所述感兴趣区域至少部分地包括所述一个或多个感兴趣对象。
在各种实施例中,所述方法可以进一步包括按比例增加所述各个图像帧内的所述感兴趣区域,以增加所述各个图像帧内的所述感兴趣区域的突出性。
在各种实施例中,所述方法可以进一步包括调整所述各个图像帧内的所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内。
在各种实施例中,所述方法可以进一步包括以上下文信息为基础来调整所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置处。
在各种实施例中,所述方法的所述一个或多个感兴趣对象可以包括视频会议的参与者的一个或多个面部,并且其中,所述上下文信息可以包括所述一个或多个面部的面部取向。
在各种实施例中,所述方法可以进一步包括向一个或多个接收方发射编码/压缩的多个图像帧,其中,所述发射可以包括分开地发射所述一个或多个感兴趣对象和所述背景。
在各种实施例中,一种系统可以包括:配置为捕获具有多个图像帧的视频信号的摄像机;可操作地耦接到所述摄像机并且配置为执行下列操作的编码引擎:接收多个捕获的图像帧;并且以比用于编码和/或压缩各个图像帧的背景的比特密度更高的一个或多个比特密度为基础来编码和/或压缩所述各个图像帧内的一个或多个感兴趣对象,其中,所述背景和所述一个或多个感兴趣对象形成所述各个图像帧。所述系统可以进一步包括发射机,该发射机耦接到所述编码引擎并且配置为向一个或多个接收方发射编码/压缩的多个图像帧。
在各种实施例中,其中,所述上下文信息可以包括所述一个或多个接收方中的一个的视角;并且其中,所述系统的所述上下文引擎可以进一步配置为控制所述摄像机以便以所述一个或多个接收方中的一个的视角为基础来调整捕获的视频信号。
在各种实施例中,一种制造物品可以包括:有形和非暂态的计算机可读存储介质;以及存储在所述存储介质中的多个编程指令,所述编程指令配置为使一种装置响应于所述编程指令的执行而执行操作,所述操作包括:接收视频信号的多个图像帧;并且以比用于编码和/或压缩各个图像帧的背景的比特密度更高的一个或多个比特密度为基础来编码和/或压缩所述各个图像帧内的一个或多个感兴趣对象,其中,所述背景和所述一个或多个感兴趣对象形成所述图像帧。
在下面的详细描述中,参考形成该详细描述的一部分的附图,并且其中通过可以实践本公开的说明实施例的方式来示出所述详细描述。应该理解,在不偏离本公开的范围的情况下,可以利用其它实施例,并且可以做出结构或逻辑改变。因此,并不意在以限制的意义来做出下面的详细描述,并且根据本公开实施例的范围由所附权利要求及其等同物来限定。
可以将各种操作按照可能对理解本公开实施例有帮助的方式顺次地描述为多个分立的操作;然而,不应该将描述的顺序解释为暗含这些操作是顺序依赖的。
出于描述的目的,具有形式“A/B”或具有形式“A和/或B”的短语意指(A)、(B)或(A和B)。出于描述的目的,具有形式“A、B和C中的至少一个”的短语意指(A)、(B)、(C)、(A和B)、(A和C)、(B和C)或(A、B和C)。出于描述的目的,具有形式“(A)B”的短语意指(B)或(AB),即,A是可选的元素。
所述描述可以使用短语“在一实施例中”或“在实施例中”,这两个短语可以分别指代相同或不同实施例中的一个或多个。而且,如关于本公开实施例使用的术语“包括”、“包含”、“具有”等等是同义词。所述描述可以指代各个图像帧的“感兴趣对象”和“背景”。出于这一申请的目的,包括权利要求,术语“背景”指代减去图像帧的一个或多个“感兴趣对象”的剩余部分,除非上下文清晰地以其它方式进行了指示。
图1是说明根据本公开各种实施例的示例图像处理设备的框图。如图1中说明的,图像处理设备100可以包括经由总线140彼此耦接的编码引擎110、上下文引擎120和发射机130。尽管图1阐释了经由总线140耦接的设备100的各种部件,但是在各种实施例中,编码引擎110、上下文引擎120和发射机130可以经由诸如一个或多个点到点连接或者总线层级的任何适当机制进行耦接。
尽管图1阐释了特定部件,但是设备100可以包括便于图像处理和/或发射的其它适当部件,例如天线、摄像机、解码引擎、显示器等等,为了容易理解本公开,没有示出这些部件。进而,尽管将图1中示出的部件阐释为设备100内的单独方框,但是可以将由这些方框中的一些执行的功能集成到单个部件内,或者可以使用两个或更多个单独部件来进行进一步再分。例如,可以将解码引擎(未示出)和编码引擎110集成到单个解码/编码引擎中。此外,可以将包括编码引擎110、上下文引擎120和发射机130的全部或部分的设备100实现在软件或硬件或其组合中。
在各种实施例中,图像处理设备100可以包括有线或无线电子设备,例如桌上型计算机、膝上型计算机、手持计算机、平板计算机、蜂窝电话、寻呼机、音频和/或视频播放器(例如,MP3播放器或DVD播放器)、游戏设备、视频摄像机、数字摄像机、导航设备(例如,GPS设备)、无线外围设备(例如,打印机、扫描仪、头戴式耳机、键盘、鼠标等等)、医疗设备(例如,心率监测仪、血压监测仪等等)、机顶盒和/或其它适当的相对静止的、便携式或移动电子设备。
在各种实施例中,图像处理设备100可以经由一个或多个有线或无线网络连接来发射处理的图像,该有线或无线网络连接例如是私人网络、个人区域网(PAN)、局域网(LAN)、虚拟私人网络(VPN)、城域网(MAN)、广域网(WAN)、专有网络或通常被称为互联网的公共网络或其组合。
在各种实施例中,图像处理设备100可以具有使用各种调制技术来无线地发射处理的图像的能力,该调制技术包括扩频调制(例如,直接序列码分多址(DS-CDMA)和/或跳频码分多址(FH-CDMA))、时分复用(TDM)调制、频分复用(FDM)调制、正交频分复用(OFDM)调制、多载波调制(MDM)、正交频分多址(OFDMA)、SC-FDMA(单载波FDMA)和/或其它适当的调制技术,以经由无线链路进行通信。在一个示例中,视频会议设备100可以根据要求非常低功率的适当的无线通信协议进行操作,该无线通信协议例如是蓝牙、Zigbee、近场通信(NFC)、超宽带(UWB)和/或射频识别(RFID),以实现无线个人域网(WPAN)、无线局域网(WLAN)和/或无线城域网(WMAN)。
在各种实施例中,图像处理设备100可以是视频会议应用或系统的一部分,并且可以利用可以类似于或不类似于图像处理设备100的一个或多个其它图像处理设备(未示出)来促进视频会议。
在各种实施例中,编码引擎110可以接收包括一系列图像帧的视频信号。在各种实施例中,所述视频信号可以包括未压缩的原始数据格式的图像帧。在各种实施例中,可能已经按照有损或无损编码/压缩方案对所述视频信号进行了编码/压缩,该有损或无损编码方案例如是1984年由国际电信联盟电信标准化组织(ITU-T)公布的H.261、1993由国际标准化组织(ISO)公布的MPEG-1部分2以及1998年由ISO公布的H.264/MPEG-4AVC等等。编码引擎110可以从设备100的通信接口(未示出)接收视频信号,该设备100可以从外部源接收视频信号。可选地,编码引擎110可以经由总线140从附接到设备100或以其它方式与设备100集成的视频摄像机接收视频信号。
编码引擎110可以配置为作为流逐个地或并行地编码和/或压缩图像帧。编码引擎110可以对视频信号进行变换编码(例如,对视频信号进行解码并且以不同的方案为基础对该视频信号进行重新编码),如果该视频信号已经被编码/压缩。编码引擎110可以对附加信息进行编码或者将该附加信息添加到视频信号,该附加信息例如是与视频信号、子标题和数字版权管理等等的搜索的前向、后向或随机访问有关的信息。编码引擎110可以使用任何已知的视频/图像压缩方案或方法来编码/压缩图像帧,该视频/图像压缩方案或方法例如是帧间压缩、帧内压缩、离散余弦变换(DCT)、片段压缩、匹配追踪、离散小波变换(DWT)等等。
在各种实施例中,编码引擎110可以具有与一个或多个图像帧内的一个或多个感兴趣对象(OOI)有关的信息。OOI可以与设备100的应用或使用场景有关。示例OOI可以包括在视频会议会话期间讲话者的面部和/或肩部区域、在电视播送期间经过跑道行驶的机动车辆、由监视摄像机捕获和/或跟踪的移动对象等等。在各种实施例中,包含在视频信号的图像帧内的OOI区域的数量可以逐帧地改变。例如,在图像帧中可以存在单个OOI,并且在随后或其它图像帧中可以存在多个OOI。
图2是说明根据本公开各种实施例的视频流的示例单独图像帧的框图。如说明的,图像帧200可以包括OOI区域210、OOI区域212、OOI区域214和围绕OOI区210-214并且由图像帧200内的阴影区域指示的背景230。尽管图2阐释了具有三个OOI区域的图像帧200,但是在各种实施例中,图像帧200可以包括更多或更少的OOI区域。尽管图2说明了具有相同尺寸和形状的多个OOI区域210-214,但是应该理解,各种OOI区域210-214的尺寸、形状和位置仅仅是说明性的,并且在各种实施例中可以不同。进而,示例说明示出了围绕OOI区域210-214的背景230,但是在其它图像帧中,背景230可以仅部分地围绕或相邻于OOI区域210-214。
在各种实施例中,编码引擎可以应用不同的量化参数来编码/压缩一个或多个OOI区域210-214和背景230,该背景230连同OOI区域210-214一起构成图像帧。在某些实施例中,编码引擎110可以配置为使用比用于编码/压缩背景230的比特密度更高的一个或多个比特密度来编码/压缩一个或多个OOI区域210-214。例如,在使用设备100的视频会议应用中,可以将在讲话者的面部和肩部周围的区域分别识别为两个OOI区域。编码引擎110可以使用可以允许其他会议出席者更清楚地看到讲话者的面部表情的高比特密度来编码/压缩在讲话者的面部周围的区域,并且可以使用中等比特密度来编码/压缩在讲话者的肩部周围的区域,并且可以使用低比特密度来编码/压缩图像帧的背景。这样,与每一个图像帧内的非面部区域(例如,背景)的比特相比较,可以向讲话者的面部区域(例如,一个或多个OOI区域)分配更多的比特。构成高、中或低比特密度的内容可以逐应用地变化。
在各种实施例中,除了或代替上述的比特密度优先编码和/或压缩,编码引擎110可以使用基于区域的编码技术来编码/压缩图像帧200。例如,可以使用不同的编码/压缩模型来单独地编码/压缩OOI区域210-214和背景230。编码引擎110可以以非参数背景模型为基础来编码/压缩背景230。编码引擎110可以以单独的编码和/或压缩模型为基础来编码/压缩和压缩OOI区域210-214。可以将图像帧200的编码/压缩的OOI区域210-214与编码/压缩的背景230单独地经由发射机130发射到一个或多个接收方(图1中未示出)。一个或多个接收方可以如接收那样单独地对背景和OOI区域进行解压缩和解码,并且组合该区域和背景以重构完整的图像帧。
在各种实施例中,编码引擎110可以以先前或随后的图像帧为基础来编码/压缩特定图像帧200以例如通过使用帧间压缩等等来实现更有效的压缩。
在例如视频会议应用的各种实施例中,背景230在大部分时间内可以静止或实质上静止,并且可以不改变或最低限度地逐帧改变。因此,代替在每一个图像帧中发射背景,发射机130可以周期性地每两个或更多个图像帧地发射背景230。在其它实施例中,在检测到一个或多个先前图像帧上的背景的(明显)改变时,发射机130可以动态地发射背景230。通过使用比特密度优化的编码和/或其中对背景和OOI区域进行分开地编码、压缩和发射的基于区域的编码/压缩技术,可以增强设备100的编码和/或发射效率。因此,可以改善以设备100为基础的视频会议应用的用户体验,特别是在使用其中网络带宽可能受限的移动设备进行的视频会议中。
在各种实施例中,上下文引擎120可以配置为检测、识别和/或跟踪图像帧200内或视频流中的一个或多个OOI区域210-214,并且向编码引擎110提供与OOI区域210-214有关的信息。上下文引擎120可以以对于对象跟踪或面部识别已知的各种技术为基础来检测OOI区域210-214。这样的对象跟踪技术之一可以是以AdaBoost分类器的级联为基础来无遗漏地扫描图像帧上的窗口。在各种实施例中,上下文引擎120可以提供OOI信息以辅助编码引擎110编码和/或压缩图像帧。
在各种实施例中,上下文引擎120可以进一步配置为识别图像帧内可以包括所述一个或多个OOI区域的至少一部分的感兴趣区域(ROI)。示例ROI可以是被说明为由图2中的虚线围绕的区域。可以以例如(Rx,Ry)的ROI 220的坐标表示的边框为基础来识别该ROI220的位置和尺寸。在各种实施例中,ROI 220可以包括或不包括背景230的部分。
在各种实施例中,上下文引擎120还可以识别ROI区域220内的中心点Pc。在某些实施例中,可以将Pc定义为ROI内的所有OOI区域的加权中心。例如,可以以下面的表达式为基础来识别Pc
其中Pi是每一个检测的OOI区域的中心位置,并且N是检测的OOI区域的数量。在其它实施例中,可以将Pc识别为ROI内的最大OOI区域的中心点,例如,最接近摄像机的感兴趣对象。例如,可以将Pc定义为:
Pc=arg max(size(Pi))
其中argmax(size(Pi))是具有最大尺寸的OOI区域的中心点。在又一些其它实施例中,Pc可以是从一个或多个先前帧检测到改变的OOI的中心点。例如,Pc可以用于指示代表当前正在视频会议中与多个参与者讲话的人或被监视摄像机跟踪的移动对象之一的OOI。在各种实施例中,如上面讨论的,Pc可以是或不是ROI 220的真实“中心”。
在各种实施例中,如说明的,上下文引擎120可以通过包括所有OOI区域210-214的边框来识别ROI区域220。在各种实施例中,一旦识别了ROI 220,上下文引擎120就可以调整该ROI 220,包括调整其尺寸、位置并缩放,以使中心点Pc在图像帧200的中心部分处或在该中心部分附近。在各种实施例中,也可以连同ROI 220一起移动和/或缩放围绕ROI 220的区域,以维持ROI 220和围绕ROI 220的背景230的部分之间的空间相关性。
在某些实施例中,上下文引擎120可以将ROI 220按比例尽可能地增加到图像帧200的维度(或原始尺寸),其可以使或不使ROI 220内的图像失真。在某些实施例中,ROI220的维度(或长宽比)可以不按比例增加以匹配图像帧200的维度(或长宽比)。因此,上下文引擎可以选择性地选择包括背景区域230的一部分,或者移除ROI 220的一部分,以按照正确的长宽比来显示ROI 220内的图像。类似地,上下文引擎120可以选择性地移除/包括ROI 220和背景230的一部分,以便在图像帧200的中心位置处或附近移动中心点Pc。结果,ROI 220内的至少一个OOI,例如OOI 210,可以在图像帧200的中心部分处或附近表现得更大并聚焦。
在各种实施例中,上下文引擎120可以向编码引擎110提供包括缩放/修改的ROI220的图像帧,以辅助编码引擎110进行编码和/或压缩以及图像帧的随后发射,如先前公开的。
在各种实施例中,可以将摄像机(未示出)附接到设备100或者以其它方式与设备100集成,以捕获具有图像帧的流的视频信号。上下文引擎120可以可操作地耦接到摄像机并且配置为控制该摄像机。在识别每一个图像帧内的ROI 220而不是按比例增加或移动ROI220时,上下文引擎120可以控制摄像机以放大或缩小或横摇摄像机角度,以便聚焦在ROI220上,从而将ROI 220内的至少一个OOI放置在图像帧200的中心部分中。
在各种实施例中,上下文引擎120可以进一步配置为调整ROI 220的尺寸和位置以便以一条或多条上下文信息为基础来有意地将至少一个OOI放置在偏离中心的位置处。上下文信息可以取决于设备100的应用或使用场景。例如,在视频会议会话中,上下文引擎120可以使用当前讲话者的面部取向(例如,姿势)作为上下文信息。
在各种实施例中,面部取向信息可以用于推导除了识别的ROI之外的潜在的感兴趣区域,并且可以用于使ROI的提取稳定。例如,如果讲话者正在直视摄像机,则可以将该讲话者表示为位于视频的中心部分处或附近。然而,如果讲话者在说话的同时朝向他/她的右侧看,则在各种实施例中,上下文引擎120可以将ROI 220的窗口选择性地移动或横摇到讲话者的“右侧”、按比例增加或减小或者以其它方式调整ROI 220,以在讲话者的“右侧”显示更多的背景230。对于另一示例,视频会议可以包括多个参与者。上下文引擎120可以初始地识别所有参与者作为感兴趣对象,并且绘制ROI以包括所有参与者。然而,面部取向信息可以指示参与者之一没有正在看摄像机,但他/她的头低下(也许正在阅读)。在各种实施例中,上下文引擎120可以选择从ROI中临时排除该参与者(或OOI),以使得当前从事谈话的人可以更突出地显示在屏幕的中心处。在各种实施例中,在检测到该参与者的面部取向的(明显)改变时,上下文引擎120可以重新调整ROI 220以将该参与者包括在图像中。
在各种实施例中,上下文引擎120可以配置为分析图像帧200并且产生上下文信息。例如,在视频会议应用中,为了包括讲话者的面部取向作为上下文信息,上下文引擎120可以配置为分析讲话者的面部取向。上下文引擎120可以以面部的三个不同角度,例如俯仰、偏航和滚转,的测量和分析为基础来分析该讲话者的面部取向。
在各种实施例中,代替上下文引擎120分析图像帧以产生上下文信息,可以向上下文引擎120提供上下文信息。例如,可以经由网络通过设备100的发射机130向一个或多个接收方发射视频。可以由安装在接收方侧处的一个或多个摄像机以先前描述的类似面部取向跟踪方法或其它已知方法为基础来跟踪一个或多个接收方的视点(或视角)。可选地,除了面部取向跟踪,可以通过例如从华盛顿州Redmond的微软公司可得到的Xbox摄像机套件的具有合适软件的摄像机利用任何已知方法来类似地识别和/或跟踪一个或多个接收方的姿势。因此,在某些实施例中,上下文信息可以包括视频的一个或多个接收方的视点和/或姿势。例如,如果接收方正在朝向视频的左侧看,则可以经由网络将这样的视点信息反馈到上下文引擎120,并且上下文引擎120可以调整该视频的ROI区域220或者一个或多个附接的摄像机,以朝向视频的左侧显示更多的信息。出于类似的目的,也可以将接收方的姿势反馈到上下文引擎120。可选地,视频的接收方可以经由其它输入方法向上下文引擎120提供上下文信息,该其它输入方法例如是键盘、鼠标、经由麦克风的语音输入等等。因此,通过从一个或多个接收方接收上下文信息,设备100可以能够向视频会议的参加者提供虚拟现实效应或者向视频的接收方提供远程控制能力。
在各种实施例中,上下文引擎120可以以该上下文信息为基础来向编码引擎110提供包括调整的ROI 220的图像帧,以辅助该图像帧的编码和/或压缩,以及通过发射机130的这样的图像帧的随后发射,如先前公开的。
图3是说明根据本公开各种实施例的图像处理设备的编码引擎的操作的一部分的流程图。在方框310中,编码引擎110可以接收图像帧的流或者与嵌入在每一个图像帧中的一个或多个OOI区域有关的信息。在方框320中,编码引擎110可以使用如先前公开的比特密度优先编码/压缩和/或基于区域的差分编码/压缩来编码/压缩每一个图像帧。在基于区域的编码/压缩中,发射机130可以向一个或多个接收方分开地发射背景和一个或多个OOI区域。发射机130可以每两个或更多个图像帧地周期性地发射背景,或者在检测到背景中的改变时动态地发射背景。编码引擎110可以重复上面的操作,直到处理了所有图像。可以在每一个图像帧中发射一个或多个OOI区域。一个或多个接收方可以然后如接收那样对该图像进行解压缩和重构。
图4是说明根据本公开各种实施例的图像处理设备的上下文引擎的操作的一部分的流程图。在方框410中,上下文引擎120可以接收图像帧的流,并且可以配置为逐个或并行地处理该图像帧的流。上下文引擎120可以与编码引擎110并行地接收图像帧的流,或者可选地,在编码引擎110之前处理该图像帧。在方框420中,上下文引擎120可以识别图像帧内的一个或多个OOI区域,并且向编码引擎110提供OOI区域信息,用于如先前公开的编码和/或压缩。在方框430中,上下文引擎120可以在图像帧内建立包括至少一个OOI区域的ROI。上下文引擎120可以缩放该ROI并且减小在图像帧内的ROI外部的区域,以使得可以在图像的中心处突出地显示一个或多个OOI区域并且该一个或多个OOI区域表现为聚焦在图像内。上下文引擎120可以调整ROI的尺寸和位置,以将至少一个或多个OOI居中地放置在图像帧内。在方框440中,上下文引擎120可以分析图像帧以产生与该图像帧相关联的上下文信息。在方框450中,上下文引擎120可以以该上下文信息为基础来调整ROI,以将一个或多个OOI区域中的至少一个放置在图像帧内偏离中心的位置中。上下文引擎120可以在具有或者不具有在上下文信息下的调整的情况下,将OOI和/或ROI信息传递到编码引擎110。上下文引擎120可以重复上述步骤,直到处理了所有图像。
图5是说明根据本公开各种实施例的图像处理设备的操作的一部分的流程图。在方框510中,附接到图像处理设备100的一个或多个视频摄像机(在图1中未示出)可以捕获二维(2D)或三维(3D)格式的视频图像。在方框520中,上下文引擎可以分析每一个图像帧以识别一个或多个OOI区域。在方框530中,上下文引擎120可以在图像帧内建立ROI并且在图像帧内缩放ROI,以将至少一个OOI放置在该图像帧的中心部分处。在方框540中,上下文引擎可以分析图像帧并产生一条或多条上下文信息,包括面部取向信息的估计,并且根据上下文信息修改ROI。上下文引擎120可以向编码引擎110转发包括修改的ROI的图像帧。在方框550中,编码引擎110可以以比特密度优先或基于区域的差分编码和/或压缩为基础来逐个或并行地编码/压缩图像帧的流。在方框560中,发射机130可以将编码/压缩的图像帧发射到一个或多个接收方。上下文引擎120、编码引擎110和发射机130可以重复上面的步骤,直到处理了所有图像帧。
图6是说明根据本公开实施例适合于用于实践描述的方法和/或装置的各种方面的示例计算机系统的框图。如图所示,计算机系统600可以包括电源单元601、多个处理器或处理器内核602、系统存储器604、海量存储606和通信接口610。出于本申请的目的,包括权利要求,术语“处理器”和“处理器内核”可以被认为是同义词,除非上下文明确地以其它方式要求。
此外,计算系统600可以包括一个或多个有形的非暂态计算机可读海量存储设备606(例如磁盘、硬驱、压缩盘只读存储器(CDROM)等等)、输入/输出设备108(例如键盘、光标控制等等)。在各种实施例中,I/O设备608可以包括一个或多个摄像机618。元件可以经由系统总线612进行彼此耦接并且耦接到较早列举的元件,系统总线612代表一条或多条总线。在多条总线的情况下,它们可以由一个或多个总线桥(未示出)桥接。数据可以经过系统总线612从I/O设备608,例如从摄像机618,传递到处理器602。
系统存储器604和海量存储606可以用于存储实现在本文中被共同表示为622的一个或多个操作系统、固件模块或驱动器、应用等等的编程指令的作业拷贝和永久拷贝。在由处理器602执行时,该编程指令可以使计算系统600执行编码引擎110、上下文引擎120和/或发射机130的操作,如先前公开的。摄像机618可以捕获视频图像的流,并且可以受到如前面公开的上下文引擎120的控制。
可以将编程指令的永久拷贝例如经过例如压缩盘(CD)的分配介质(未示出)或经过通信接口610(来自分配服务器(未示出))放置到工厂中或现场中的永久存储606中。也就是说,具有代理程序实现的一个或多个分配介质可以用于分配代理并且对各种计算设备进行编程。
这些元件601-622的剩余构成是已知的,并且因此将不再进行进一步描述。
图7说明了根据本公开实施例的具有配置为使一种装置能够实践图像处理设备的各种操作的编程指令的制造物品。如图所示,制造物品700可以包括计算机可读的非暂态存储介质710。存储介质710可以包括配置为实现图像处理设备的编程指令720。
存储介质710代表本领域中已知的宽范围的永久性存储介质,包括但不局限于闪存、光盘或磁盘。具体地,编程指令720可以响应于通过图像处理装置对这些指令的执行而使该装置执行操作,该操作包括:接收视频信号的多个图像帧;并且以比用于编码和/或压缩各个图像帧的背景的比特密度更高的一个或多个比特密度为基础来编码和/或压缩所述各个图像帧内的一个或多个感兴趣对象,其中所述背景和所述一个或多个感兴趣对象形成所述各个图像帧。
尽管本文说明和描述了具体实施例,但是本领域的普通技术人员将意识到,在不偏离本公开实施例的范围的情况下,各种可选和/或等同实现可以替代示出和说明的具体实施例。本申请意在涵盖本文讨论的实施例的任何修改或变化。因此,本公开的实施例显然意在仅由权利要求及其等同物来限制。

Claims (32)

1.一种用于图像处理的装置,包括:
编码引擎,该编码引擎配置为:
接收视频信号的多个图像帧;以及
上下文引擎,该上下文引擎耦接到所述编码引擎并且配置为:
识别各个图像帧内的一个或多个感兴趣对象(OOI);以及
在各个图像帧内识别包含所述一个或多个感兴趣对象(OOI)的一个感兴趣区域(ROI),其中,所述感兴趣区域(ROI)的中心点被确定为在所述感兴趣区域(ROI)中的所有感兴趣对象(OOI)的区域的加权中心其中,Pi是每一个感兴趣对象(OOI)的区域的中心位置,并且N是所识别的感兴趣对象(OOI)的数量;
发射机,该发射机耦接到所述编码引擎并且配置为向一个或多个接收方发射编码或压缩的多个图像帧,
其中,所述编码引擎进一步被配置为:
以比用于编码或压缩背景的比特密度更高的一个或多个比特密度为基础,来编码或压缩与在各个图像帧内的所述一个或多个感兴趣对象(OOI)相关联的所述感兴趣区域(ROI)。
2.如权利要求1所述的装置,其中,所述上下文引擎进一步配置为:将各个图像帧内的所述感兴趣区域按比例放大至所述各个图像帧的尺寸。
3.如权利要求1所述的装置,其中,所述一个或多个感兴趣对象包括视频会议的参与者的一个或多个面部。
4.如权利要求1所述的装置,其中,所述背景和所述感兴趣区域形成所述各个图像帧。
5.如权利要求1所述的装置,其中,所述上下文引擎进一步配置为:调整所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内。
6.如权利要求1所述的装置,其中,所述上下文引擎进一步配置为:以上下文信息为基础来调整所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置中。
7.如权利要求6所述的装置,其中,所述一个或多个感兴趣对象包括视频会议的参与者的一个或多个面部,并且其中,所述上下文信息包括所述一个或多个面部的面部取向。
8.如权利要求4所述的装置,其中,所述发射机进一步配置为分开地发射所述一个或多个感兴趣对象和所述背景。
9.一种用于图像处理的方法,包括:
接收视频信号的多个图像帧;
识别各个图像帧内的一个或多个感兴趣对象(OOI);
在各个图像帧内识别包含所述一个或多个感兴趣对象(OOI)的一个感兴趣区域(ROI),其中,所述感兴趣区域(ROI)的中心点被确定为在所述感兴趣区域(ROI)中的所有感兴趣对象(OOI)的区域的加权中心其中,Pi是每一个感兴趣对象(OOI)的区域的中心位置,并且N是所识别的感兴趣对象(OOI)的数量;以及
以比用于编码或压缩背景的比特密度更高的一个或多个比特密度为基础,来编码或压缩与在各个图像帧内的所述一个或多个感兴趣对象(OOI)相关联的所述感兴趣区域(ROI)。
10.如权利要求9所述的方法,进一步包括:将各个图像帧内的所述感兴趣区域按比例放大至所述各个图像帧的尺寸。
11.如权利要求9所述的方法,其中,所述背景和所述感兴趣区域形成所述各个图像帧。
12.如权利要求9所述的方法,进一步包括:调整所述各个图像帧内的所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内。
13.如权利要求9所述的方法,进一步包括:以上下文信息为基础来调整所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置处。
14.如权利要求13所述的方法,其中,所述一个或多个感兴趣对象包括视频会议的参与者的一个或多个面部,并且其中,所述上下文信息包括所述一个或多个面部的面部取向。
15.如权利要求9所述的方法,进一步包括:向一个或多个接收方发射编码或压缩的多个图像帧,其中,所述发射包括分开地发射所述一个或多个感兴趣对象和所述背景。
16.一种用于图像处理的系统,包括:
摄像机,该摄像机配置为捕获具有多个图像帧的视频信号;
编码引擎,该编码引擎可操作地耦接到所述摄像机并且配置为执行下列操作:
接收多个捕获的图像帧;
上下文引擎,该上下文引擎耦接到所述编码引擎并且配置为:
识别各个图像帧内的一个或多个感兴趣对象(OOI);以及
在各个图像帧内识别包含所述一个或多个感兴趣对象(OOI)的一个感兴趣区域(ROI),其中,所述感兴趣区域(ROI)的中心点被确定为在所述感兴趣区域(ROI)中的所有感兴趣对象(OOI)的区域的加权中心其中,Pi是每一个感兴趣对象(OOI)的区域的中心位置,并且N是所识别的感兴趣对象(OOI)的数量;以及
发射机,该发射机耦接到所述编码引擎并且配置为向一个或多个接收方发射编码或压缩的多个图像帧,
其中,所述编码引擎进一步被配置为:
以比用于编码或压缩背景的比特密度更高的一个或多个比特密度为基础,来编码或压缩与在各个图像帧内的所述一个或多个感兴趣对象(OOI)相关联的所述感兴趣区域(ROI)。
17.如权利要求16所述的系统,其中,所述上下文引擎进一步配置为:将各个图像帧内的所述感兴趣区域按比例放大至所述各个图像帧的尺寸。
18.如权利要求16所述的系统,其中,所述背景和所述感兴趣区域形成所述各个图像帧。
19.一种用于图像处理的装置,包括:
用于接收视频信号的多个图像帧的单元;
用于识别各个图像帧内的一个或多个感兴趣对象(OOI)的单元;
用于在各个图像帧内识别包含所述一个或多个感兴趣对象(OOI)的一个感兴趣区域(ROI)的单元,其中,所述感兴趣区域(ROI)的中心点被确定为在所述感兴趣区域(ROI)中的所有感兴趣对象(OOI)的区域的加权中心其中,Pi是每一个感兴趣对象(OOI)的区域的中心位置,并且N是检测到的感兴趣对象(OOI)的数量;以及
用于以比用于编码或压缩背景的比特密度更高的一个或多个比特密度为基础,来编码或压缩与在各个图像帧内的所述一个或多个感兴趣对象(OOI)相关联的所述感兴趣区域(ROI)的单元。
20.如权利要求19所述的装置,进一步包括:
用于将各个图像帧内的所述感兴趣区域按比例放大至所述各个图像帧的尺寸的单元。
21.如权利要求19所述的装置,其中,所述背景区域围绕与所述一个或多个感兴趣对象相关联的所述感兴趣区域。
22.如权利要求19所述的装置,进一步包括:用于调整所述各个图像帧内的所述感兴趣区域以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内的单元。
23.如权利要求19所述的装置,进一步包括:用于以上下文信息为基础来调整所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置处的单元。
24.如权利要求19所述的装置,其中,所述一个或多个感兴趣对象包括视频会议的参与者的一个或多个面部。
25.如权利要求19所述的装置,进一步包括:用于向一个或多个接收方发射编码或压缩的多个图像帧的单元,其中,所述发射包括分开地发射所述一个或多个感兴趣对象和所述背景。
26.一种有形和非暂态的计算机可读存储介质,其上存储有多个编程指令,所述编程指令配置为使一种装置响应于所述编程指令的执行而执行操作,所述操作包括:
接收视频信号的多个图像帧;
识别各个图像帧内的一个或多个感兴趣对象(OOI);
在各个图像帧内识别包含所述一个或多个感兴趣对象(OOI)的一个感兴趣区域(ROI),其中,所述感兴趣区域(ROI)的中心点被确定为在所述感兴趣区域(ROI)中的所有感兴趣对象(OOI)的区域的加权中心其中,Pi是每一个感兴趣对象(OOI)的区域的中心位置,并且N是所识别的感兴趣对象(OOI)的数量;以及
以比用于编码或压缩背景的比特密度更高的一个或多个比特密度为基础,来编码或压缩与在各个图像帧内的所述一个或多个感兴趣对象(OOI)相关联的所述感兴趣区域(ROI)。
27.如权利要求26所述的有形和非暂态的计算机可读存储介质,所述操作进一步包括:将各个图像帧内的所述感兴趣区域按比例放大至所述各个图像帧的尺寸。
28.如权利要求26所述的有形和非暂态的计算机可读存储介质,其中,所述背景和所述感兴趣区域形成所述各个图像帧。
29.如权利要求26所述的有形和非暂态的计算机可读存储介质,所述操作进一步包括:调整所述各个图像帧内的所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个居中地放置在所述各个图像帧内。
30.如权利要求26所述的有形和非暂态的计算机可读存储介质,所述操作进一步包括:以上下文信息为基础来调整所述感兴趣区域,以将所述一个或多个感兴趣对象中的至少一个放置在所述各个图像帧内的偏离中心的位置处。
31.如权利要求30所述的有形和非暂态的计算机可读存储介质,其中,所述一个或多个感兴趣对象包括视频会议的参与者的一个或多个面部,并且其中,所述上下文信息包括所述一个或多个面部的面部取向。
32.如权利要求26所述的有形和非暂态的计算机可读存储介质,所述操作进一步包括:向一个或多个接收方发射编码或压缩的多个图像帧,其中,所述发射包括分开地发射所述一个或多个感兴趣对象和所述背景。
CN201180070040.8A 2011-04-11 2011-04-11 基于感兴趣对象的图像处理 Active CN103460250B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/072601 WO2012139275A1 (en) 2011-04-11 2011-04-11 Object of interest based image processing

Publications (2)

Publication Number Publication Date
CN103460250A CN103460250A (zh) 2013-12-18
CN103460250B true CN103460250B (zh) 2017-11-28

Family

ID=47008780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180070040.8A Active CN103460250B (zh) 2011-04-11 2011-04-11 基于感兴趣对象的图像处理

Country Status (7)

Country Link
US (2) US9247203B2 (zh)
EP (1) EP2697776A4 (zh)
JP (1) JP5859111B2 (zh)
KR (1) KR20130129471A (zh)
CN (1) CN103460250B (zh)
TW (1) TWI563825B (zh)
WO (1) WO2012139275A1 (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5482068B2 (ja) * 2009-10-01 2014-04-23 ソニー株式会社 中継局、中継方法、無線通信システム及び無線通信装置
US8482593B2 (en) 2010-05-12 2013-07-09 Blue Jeans Network, Inc. Systems and methods for scalable composition of media streams for real-time multimedia communication
US9124757B2 (en) 2010-10-04 2015-09-01 Blue Jeans Networks, Inc. Systems and methods for error resilient scheme for low latency H.264 video coding
US9300705B2 (en) 2011-05-11 2016-03-29 Blue Jeans Network Methods and systems for interfacing heterogeneous endpoints and web-based media sources in a video conference
US9369673B2 (en) * 2011-05-11 2016-06-14 Blue Jeans Network Methods and systems for using a mobile device to join a video conference endpoint into a video conference
US9721324B2 (en) * 2011-09-10 2017-08-01 Microsoft Technology Licensing, Llc Thumbnail zoom
US9813255B2 (en) * 2012-07-30 2017-11-07 Microsoft Technology Licensing, Llc Collaboration environments and views
US8890923B2 (en) 2012-09-04 2014-11-18 Cisco Technology, Inc. Generating and rendering synthesized views with multiple video streams in telepresence video conference sessions
CN104782121A (zh) * 2012-12-18 2015-07-15 英特尔公司 多区域视频会议编码
GB2511730A (en) * 2013-01-28 2014-09-17 Microsoft Corp Spatially adaptive video coding
WO2014175919A1 (en) 2013-04-26 2014-10-30 Intel IP Corporation Shared spectrum reassignment in a spectrum sharing context
JP2014215604A (ja) * 2013-04-30 2014-11-17 ソニー株式会社 画像処理装置および画像処理方法
US9880560B2 (en) * 2013-09-16 2018-01-30 Deere & Company Vehicle auto-motion control system
GB201318658D0 (en) 2013-10-22 2013-12-04 Microsoft Corp Controlling resolution of encoded video
US20150237351A1 (en) * 2014-02-18 2015-08-20 Penne Lee Techniques for inclusion of region of interest indications in compressed video data
KR102264920B1 (ko) * 2014-03-05 2021-06-14 에스케이플래닛 주식회사 영상 식별 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체
US9871967B2 (en) * 2015-01-22 2018-01-16 Huddly As Video transmission based on independently encoded background updates
JP7045856B2 (ja) * 2015-01-22 2022-04-01 ハドリー インコーポレイテッド 独立符号化バックグラウンド更新に基づく映像伝送
EP3274909A4 (en) * 2015-03-27 2018-11-21 Intel Corporation Low-cost face recognition using gaussian receptive field features
KR20160137258A (ko) * 2015-05-22 2016-11-30 삼성전자주식회사 전자 장치 및 그의 화면 표시 방법
KR20170042431A (ko) 2015-10-08 2017-04-19 삼성전자주식회사 디스플레이 모양에 따라 영상 데이터를 불균일하게 인코딩/디코딩하도록 구성되는 전자 장치
KR20170091323A (ko) * 2016-02-01 2017-08-09 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
CN105979216A (zh) * 2016-06-12 2016-09-28 浙江宇视科技有限公司 一种感兴趣区域的视频传输方法及装置
CN115409940A (zh) 2016-11-30 2022-11-29 松下电器(美国)知识产权公司 终端、接收方法、分发装置及分发方法
US10560680B2 (en) 2017-01-28 2020-02-11 Microsoft Technology Licensing, Llc Virtual reality with interactive streaming video and likelihood-based foveation
TWI647956B (zh) * 2017-04-11 2019-01-11 大眾電腦股份有限公司 物件追蹤系統及其方法
US10728616B2 (en) * 2017-04-19 2020-07-28 Intel Corporation User interest-based enhancement of media quality
CN109429065A (zh) * 2017-09-05 2019-03-05 联咏科技股份有限公司 视频编码装置及视频编码方法
US11637885B2 (en) 2018-06-07 2023-04-25 Motorola Solutions, Inc. System and method for sending and rendering an image by a device based on receiver's context
US10915776B2 (en) * 2018-10-05 2021-02-09 Facebook, Inc. Modifying capture of video data by an image capture device based on identifying an object of interest within capturted video data to the image capture device
CN110113288B (zh) * 2019-05-23 2021-06-22 徐州中矿康普盛通信科技有限公司 一种基于机器学习的ofdm解调器的设计和解调方法
JP2021022910A (ja) * 2019-07-30 2021-02-18 株式会社リコー 通信端末、通信プログラム、通信方法及び通信システム
CN113011210B (zh) * 2019-12-19 2022-09-16 北京百度网讯科技有限公司 视频处理方法和装置
US11418773B2 (en) * 2020-04-21 2022-08-16 Plato Systems, Inc. Method and apparatus for camera calibration
TWI820341B (zh) * 2020-07-15 2023-11-01 圓展科技股份有限公司 影像追蹤及顯示方法
US11785069B2 (en) * 2020-10-11 2023-10-10 The Research Foundation For The State University Of New York System and method for content-adaptive real-time video communication
CN116368812A (zh) * 2020-10-22 2023-06-30 高通股份有限公司 用于改进图像捕获操作的机制
US11451745B2 (en) * 2021-02-24 2022-09-20 Gn Audio A/S Conference device with multi-videostream control
CN113660495A (zh) * 2021-08-11 2021-11-16 易谷网络科技股份有限公司 实时视频流压缩方法、装置、电子设备以及存储介质
WO2023136418A1 (en) * 2022-01-13 2023-07-20 Samsung Electronics Co., Ltd. Method and electronic device for automatically generating region of interest centric image

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1678075A (zh) * 2004-04-02 2005-10-05 索尼公司 图像编码方法、成像装置、以及计算机程序
CN101164341A (zh) * 2005-03-01 2008-04-16 高通股份有限公司 用于视频电话的质量度量偏移的关注区编码
CN101313578A (zh) * 2005-09-26 2008-11-26 韩国电子通信研究院 用于在可伸缩视频编码中定义和重构感兴趣区域的方法和装置
CN101453569A (zh) * 2007-09-10 2009-06-10 卡西欧计算机株式会社 摄像装置、摄像方法及记录其程序的计算机可读存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07135651A (ja) * 1993-11-10 1995-05-23 Matsushita Electric Ind Co Ltd 映像通信システム
EP0840982B1 (en) * 1996-05-24 2002-02-13 Koninklijke Philips Electronics N.V. Motion estimation
US6097853A (en) * 1996-09-11 2000-08-01 Da Vinci Systems, Inc. User definable windows for selecting image processing regions
JP2000099691A (ja) * 1998-09-18 2000-04-07 Toshiba Corp 人物撮影装置
JP2001094980A (ja) * 1999-09-21 2001-04-06 Sharp Corp データ処理装置
JP2001119696A (ja) 1999-10-20 2001-04-27 Canon Inc 画像符号化方法及び装置
US6894714B2 (en) * 2000-12-05 2005-05-17 Koninklijke Philips Electronics N.V. Method and apparatus for predicting events in video conferencing and other applications
DE10300048B4 (de) * 2002-01-05 2005-05-12 Samsung Electronics Co., Ltd., Suwon Verfahren und Vorrichtung zur Bildcodierung und -decodierung
JP3915652B2 (ja) * 2002-10-09 2007-05-16 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置
US7450165B2 (en) * 2003-05-02 2008-11-11 Grandeye, Ltd. Multiple-view processing in wide-angle video camera
US8948468B2 (en) * 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
JP2005110160A (ja) * 2003-10-02 2005-04-21 Konica Minolta Holdings Inc 撮像装置
JP4472324B2 (ja) * 2003-12-25 2010-06-02 京セラ株式会社 テレビ電話装置
US7751482B1 (en) * 2004-02-27 2010-07-06 Vbrick Systems, Inc. Phase correlation based motion estimation in hybrid video compression
JP2005286442A (ja) * 2004-03-29 2005-10-13 Saxa Inc 監視システムおよび画像通信装置
US7738710B2 (en) * 2004-08-02 2010-06-15 Electronics For Imaging, Inc. Methods and apparatus for communicating and displaying compressed image data
US7551772B2 (en) * 2004-11-30 2009-06-23 Hewlett-Packard Development Company, L.P. Blur estimation in a digital image
US8693537B2 (en) * 2005-03-01 2014-04-08 Qualcomm Incorporated Region-of-interest coding with background skipping for video telephony
US8768084B2 (en) * 2005-03-01 2014-07-01 Qualcomm Incorporated Region-of-interest coding in video telephony using RHO domain bit allocation
US8019175B2 (en) * 2005-03-09 2011-09-13 Qualcomm Incorporated Region-of-interest processing for video telephony
KR20080049061A (ko) * 2005-09-26 2008-06-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 물체 또는 사람의 운동을 추적하기 위한 방법 및 디바이스
US7558404B2 (en) * 2005-11-28 2009-07-07 Honeywell International Inc. Detection of abnormal crowd behavior
JP2008005349A (ja) * 2006-06-23 2008-01-10 Yamaha Corp 映像符号化装置、映像伝送装置、映像符号化方法及び映像伝送方法
WO2008057285A2 (en) * 2006-10-27 2008-05-15 Vidient Systems, Inc. An apparatus for image capture with automatic and manual field of interest processing with a multi-resolution camera
US7831063B2 (en) * 2007-02-19 2010-11-09 Laughlin Richard H Small event detector in presence of clutter
JP2009246642A (ja) 2008-03-31 2009-10-22 Kddi Corp 映像伝送装置、映像表示装置および映像伝送システム
JP2010087613A (ja) * 2008-09-29 2010-04-15 Saxa Inc プレゼンテーション画像配信システム
US8237771B2 (en) * 2009-03-26 2012-08-07 Eastman Kodak Company Automated videography based communications
JP5308391B2 (ja) * 2010-03-31 2013-10-09 富士フイルム株式会社 画像符号化装置および方法並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1678075A (zh) * 2004-04-02 2005-10-05 索尼公司 图像编码方法、成像装置、以及计算机程序
CN101164341A (zh) * 2005-03-01 2008-04-16 高通股份有限公司 用于视频电话的质量度量偏移的关注区编码
CN101313578A (zh) * 2005-09-26 2008-11-26 韩国电子通信研究院 用于在可伸缩视频编码中定义和重构感兴趣区域的方法和装置
CN101453569A (zh) * 2007-09-10 2009-06-10 卡西欧计算机株式会社 摄像装置、摄像方法及记录其程序的计算机可读存储介质

Also Published As

Publication number Publication date
CN103460250A (zh) 2013-12-18
US20160112674A1 (en) 2016-04-21
JP2014515225A (ja) 2014-06-26
TW201246942A (en) 2012-11-16
EP2697776A1 (en) 2014-02-19
US9247203B2 (en) 2016-01-26
KR20130129471A (ko) 2013-11-28
US9871995B2 (en) 2018-01-16
EP2697776A4 (en) 2015-06-10
US20130342640A1 (en) 2013-12-26
JP5859111B2 (ja) 2016-02-10
TWI563825B (en) 2016-12-21
WO2012139275A1 (en) 2012-10-18

Similar Documents

Publication Publication Date Title
CN103460250B (zh) 基于感兴趣对象的图像处理
KR101099884B1 (ko) 동화상데이터의 부호화방법, 복호화방법, 이들을 실행하는단말장치, 및 쌍방향 대화형 시스템
US7583287B2 (en) System and method for very low frame rate video streaming for face-to-face video conferencing
CN101622876B (zh) 用于提供个人视频服务的系统和方法
US9030486B2 (en) System and method for low bandwidth image transmission
US7659920B2 (en) System and method for very low frame rate teleconferencing employing image morphing and cropping
TWI262724B (en) Mosquito noise detection and reduction
US20140341280A1 (en) Multiple region video conference encoding
NZ595843A (en) System and method for multi-stream video compression using multiple encoding formats
JP2016527791A (ja) 画像処理方法及び装置
WO2018120657A1 (zh) 一种共享虚拟现实数据的方法和设备
US11310560B2 (en) Bitstream merger and extractor
US9148463B2 (en) Methods and systems for improving error resilience in video delivery
CN109168032B (zh) 视频数据的处理方法、终端、服务器及存储介质
CN109413152B (zh) 图像处理方法、装置、存储介质及电子设备
TW201414307A (zh) 會議終端及該會議終端的視頻處理方法
CN116847087A (zh) 视频处理方法、装置、存储介质及电子设备
JP2020115299A (ja) 仮想空間情報処理装置、方法、プログラム
CN114697731B (zh) 投屏方法、电子设备及存储介质
KR20150086385A (ko) 관심 객체 기반 이미지 처리
US20240095966A1 (en) Coding of displacements by use of contexts for vertex mesh (v-mesh)
CN113160342B (zh) 基于反馈的编码方法及装置、存储介质、电子设备
US20230105436A1 (en) Generative adversarial network for video compression
US20220405976A1 (en) Vr image compression transmission method and system
Söderström Very low bitrate facial video coding: based on principal component analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant