CN104364825B - 增强现实辅助视频会议的视觉调节 - Google Patents

增强现实辅助视频会议的视觉调节 Download PDF

Info

Publication number
CN104364825B
CN104364825B CN201380015305.3A CN201380015305A CN104364825B CN 104364825 B CN104364825 B CN 104364825B CN 201380015305 A CN201380015305 A CN 201380015305A CN 104364825 B CN104364825 B CN 104364825B
Authority
CN
China
Prior art keywords
background
prospect
video conference
drawing zone
border
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380015305.3A
Other languages
English (en)
Other versions
CN104364825A (zh
Inventor
欧纽·G·盖勒伍兹
安东尼厄斯·考克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN104364825A publication Critical patent/CN104364825A/zh
Application granted granted Critical
Publication of CN104364825B publication Critical patent/CN104364825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

一种装置,所述装置包括处理器,用于接收视频远程呈现图像,其中所述视频远程呈现图像具有背景和至少一个前景,所述前景具有边界;确定所述前景的所述边界;将绘图区与所述前景的所述边界重叠,其中所述绘图区模糊了所述边界;以及将所述图像的所述背景替换为新背景。

Description

增强现实辅助视频会议的视觉调节
相关申请案的交叉参考
本发明要求2012年4月9日由Onur G.Guleryuz等人递交的发明名称为“增强现实辅助视频会议的视觉调节(Visual Conditioning for Augmented-Reality-AssistedVideo Conferencing)”的第61/621612号美国临时专利申请案的在先申请优先权,该在先申请的内容以引用的方式并入本文本中。
关于由联邦政府赞助的
研究或开发的声明
不适用。
参考缩微胶片附录
不适用。
背景技术
远程呈现(Telepresence),例如涉及远程位置的多个用户的视频会议正日益流行。在远程呈现应用中,视频对象可表示视频帧中感兴趣的区域,该视频帧包括前景(例如,受试人)和背景(例如,周围环境)。可将来自不同源的多个视频对象传输到远程呈现系统中的公共位置,在那里,可以对这些视频对象进行接收、处理或共同显示,每个视频对象都位于自己的背景中。除非利用了远程呈现室或其它人造环境,涉及许多个体的会议会导致视觉和背景的不协调。此类背景会使视频会议参与者分散注意力和/或眼花缭乱,并且可能会降低身临其境的视频会议体验。虽然需要在视觉上将受试人从其各自的周围环境中分离或分割,可用的图像/视频分割技术通常会导致令人无法接受的视频会议渲染质量。
发明内容
一方面,本发明包括一种装置,所述装置包括处理器,用于接收视频电话会议图像,其中所述视频电话会议图像具有背景和至少一个前景,所述前景具有边界;确定所述前景的所述边界;将绘图区与所述前景的所述边界重叠,其中所述绘图区模糊了所述边界;以及将所述图像的所述背景替换为新背景。
另一方面,本发明包括一种计算机程序产品,包括存储于非瞬时性媒质中的计算机可执行指令,当处理器执行所述指令时,处理器执行如下操作:接收视频会议图像,其中所述图像具有前景和背景;选择至少一个主前景色;识别新背景,其中所述新背景具有至少一个与所述主前景色匹配的主背景色;以及将所述背景替换为所述新背景。
又一方面,本发明包括一种用于增强现实辅助视频会议的视觉调节的方法,所述方法包括将视频会议图像分离为前景和第一背景,其中分离出具有至少一个分段的前景;在所述分段周围衍生绘图区;设计一个或多个将在所述绘图区中渲染的纹理;选择第二背景;以及将所述前景、所述一个或多个纹理、和所述第二背景组合形成合成图像。
结合附图和权利要求书,可从以下的详细描述中更清楚地理解这些和其它特征。
附图说明
为了更完整地理解本发明,现在参考以下结合附图和详细描述进行的简要描述,其中相同参考标号表示相同部分。
图1为通用远程呈现架构的实施例的示意图。
图2为视频会议中呈现的一组示例性视频帧的图像。
图3为一种用于增强现实辅助视频会议的视觉调节的方法的实施例的流程图。
图4描绘了视频会议图像边界确定过程的实施例。
图5描绘了在边界像素上估计的分割误差扩散。
图6A为衍生绘图区的过程的实施例的视觉表示。
图6B为衍生纹理场的过程的实施例的视觉表示。
图7A为从前景图像中衍生广义边界区的过程的实施例的视觉表示。
图7B是为给定像素衍生沿流场的轮廓的过程的实施例的视觉表示。
图7C为衍生每像素方向和沿前景轮廓的关联定向纹理的过程的实施例的视觉表示。
图8为两通滤波分析的实施例的视觉表示。
图9为具有三个参与者的经视觉调节的增强现实辅助视频会议会话。
图10为应用到视频会议中的三个参与者的有代表性的经视觉调节的增强现实辅助视频会议背景。
图11示出了典型的通用网络部件。
具体实施方式
最初应理解,尽管下文提供一个或多个实施例的说明性实施方案,但可使用任意数目的当前已知或现有的技术来实施所公开的系统和/或方法。本发明决不应限于下文所说明的所述说明性实施方案、图式和技术,包含本文所说明并描述的示范性设计和实施方案,而是可以在所附权利要求书的范围以及其均等物的完整范围内修改。
本发明包括一种系统和方法,其用于允许具有降低的计算复杂性和能源要求的更为简单的设备来实现令增强现实辅助视频会议看上去赏心悦目的视觉调节。当使用多点控制单元(MCU)时,所述系统和方法在显示器或服务器处的渲染步骤处进行操作,所揭示的系统和方法可利用人类视觉系统的基本属性来隐藏分割花屏。具体而言,可以选择具有隐藏由于噪声边界、缺失区等造成的分割花屏的定向纹理的令人视觉愉悦的视觉背景来匹配和突出参与者的视觉特征。所揭示的系统和方法可尤其利用简单计算和查找表将其实现。所揭示的方法可基于艺术设计学中建立的绘图和颜色选择原则。所设计的定向纹理可能受“弧形线影法(contour hatching)”绘图技术的激发,而所设计的背景可能受“交叉影线(crosshatching)”阴影技术以及“和谐(harmonic)”色彩的激发。
一些图像分割的尝试可使用背景减除。每当前景(例如,参与者)和背景描绘十分不同时,可大致推断出该前景的正确分割。背景减除技术可能适合移动设备上快速、低复杂性的实施方式。但是,即使在使用不同背景的色度键入场景下,分割误差容易受到尤其是在分割边界处可见的错误影响。
分割还使用深度传感器。深度传感器可计算场景中的点到成像平面的距离并在每像素处增加记录的色彩信息。当仅分割色彩很少产生合适结果时,深度信息使大为改善的分割成为可能。为了充分利用深度模态,用户必须意识到可能妨碍成功应用性能的传感器局限性。进一步地,深度传感器设备在确定准确的深度值方面存在准确性问题。这些问题在深度图边缘变得尤其严重,在深度图边缘,边缘周围的大型区域可能具有不准确的或缺失的深度值。由于深度图边缘正好是基于深度的分割的操作区域,因此产生的分割往往具有错误边界。
一些方法将精密的传统分割方法(例如,“图割”)和深度传感器以及背景减除结合来生成更为精密的分割。然而,由于这些方法可能计算复杂,因此益处有限,这对于移动应用配置文件而言是个问题,并且当这些边界对应于较慢色彩变化时,这些方法可能也无法改善分割边界。
图1展示了通用远程呈现架构100的实施例的示意图。远程呈现架构100可以采用包括通过网络160连接到服务器150的n个终端110-140的客户端-服务器模式,其中n是大于1的整数。终端110-140中的每个终端可具有至少一个用户,共计至少n个不同用户。终端110-140可用于捕捉视频帧、数字化帧以及在网络160上将数字视频信号传输到服务器150。应注意,尽管本发明主要集中于视频信号,为了促进远程呈现,除了或结合视频信号,还可在远程呈现架构100中记录、处理和传输音频和/或其它补充信号。服务器150可用于从n个终端中的每个终端接收数字视频信号,处理视频信号,并且随后将视频信号传输回n个终端110-140中的每个终端,该视频信号是n个输入信号的某种转换。网络160可以是路由器和将视频信号在n个终端110-140中的每个终端和服务器150之间传输所必需的其它处理设备的任意组合。网络160可以是公共因特网或本地以太网络等。终端110-140可通过有线或无线链路连接到网络160。
图2为视频会议200中呈现的一组可能用于连接远程呈现架构(例如,图1的远程呈现架构100)的示例性视频帧的图像,如终端(例如,图1的终端110-140)处所示。各视频帧202可(例如,通过网络摄像机)源自终端,且可具有前景部件204(例如,受试人)和背景部件206(例如,办公室)。
图3为一种用于增强现实辅助视频会议的视觉调节的方法300的实施例的流程图。方法300开始于方框302,确定前景(例如,图2的前景部件204)的边界像素。下文进一步结合图4描述边界确定。一旦确定了边界,在方框304处可通过固定各边界像素周围的矩形邻域建立沿流场(flowfield)的关联轮廓。可交替地或可选地使用其它类型和/或几何形状的邻域,例如方形邻域、圆形邻域等。可借助于预定义的具有边界连通性的邻域(例如,4连通或8连通)建立边界像素的集合。下文结合图7论述了边界像素邻域。建立沿流场的轮廓可进一步包括拟合边界像素邻域,即产生的边界像素的子集,以(例如,使用下文进一步结合图4所述的平滑函数)参数化方框306处的噪音分割边界。在方框308处,方法300可确定可与噪音分割边界重叠的绘图区。绘图区可以是噪音分割边界周围的区域,其中真实边界可能是且可被认为是包括估计的边界的容错区。为了建立绘图区,方法300可估计如下文进一步结合接图5所述的分割误差扩散。在一些实施例(例如,图5描绘的实施例)中,可优选地切换方框306和308的执行顺序。或者,在一些实施例中,可以在分割阶段计算对各边界像素上的误差扩散的估计并且可将其传送到渲染阶段。在方框310处,方法300可获取和/或设计可能在绘图区渲染的纹理以掩盖、屏蔽、混淆和/或隐藏分割误差。纹理可以是通过使用定向滤波器过滤独立和/或同分布随机过程而获取的随机、半随机或图案化的场,例如,衍生的纹理可以是定向移动平均过程,且可以从预定义查找表中选择。如果额外的计算复杂度的开销是值得的,那么通过利用沿流场的轮廓、绘图区和估计的分割误差扩散,可将纹理可选地设计为更为紧密地匹配前景图像的本地结构。下文进一步结合图6B-7C论述设计和/或获取纹理。在方框312处,可以(例如,通过从多个具有已知特性的背景中选择背景或通过基于前景的特征设计背景)选择匹配和突出前景的令人视觉愉悦的背景。令人视觉愉悦的色彩组合可包括协调、匹配的色彩,如艺术设计学领域中的技术人员所知。在一项实施例中,为基础背景图片分配色彩值以与前景图片的分配色彩值互补。下文进一步结合图4论述设计匹配和突出前景的令人愉悦的背景的这些和其它方式。在方框314处,组合前景、纹理化的绘图区和设计的背景以获取最后的合成图像。这可能如下文进一步结合图4论述而完成。
图4描绘了一种增强现实辅助视频会议的视觉调节的实施例。在图4中,过程400可开始于将初始视频会议图像402,v(x)分离为定义在像素{x|s(x)=1}的前景404和定义在像素{x|s(x)=0}上的背景406,例如,如图3的方框302所述。衍生绘图区408(例如,图3的方框308的绘图区),随后边界区410叠加在绘图区上。接着,开发设计纹理412(例如,图3的方框310的设计纹理),在413中出于说明性原因示出分割的前景404的细节图,识别互补背景414(例如,图3的方框312的背景)以及产生合成图像416(例如,图3的方框314的合成图像)。
过程400可通过使用像素x(例如,4连通或8连通的邻域)周围具有预定义的边界连通性的邻域,即像素区域Nx分析视频会议图像来建立前景404的边界。如果二值分割s(x)等于1,且在其具有边界连通性的邻域中至少一个像素Nx满足s(y)=0(其中,y∈Nx),那么像素x可视为边界像素。二值分割是指设计仅由0和1两个值组成的光线强度的阈值。本文将包括边界的像素集合称为{x|δ(x)=1}。不是边界部分的像素集合为{x|δ(x)=0}。一旦确定了边界δ(x),可通过固定每个像素周围的矩形邻域并考虑邻域内的边界部分开始建立沿流场的关联轮廓θ(x),。接着,可以将产生的边界像素的子集拟合参数化平滑函数以生成沿流场的轮廓θ(x),例如其中L(.,φ)为使用斜率为φ(0≤φ≤π)的线的与边界的线性拟合。对于的结果为空集的情况,可将θ(x)设置为指示符值或可使用计算出的参数值从附近像素推断出。线性平滑函数可用于使用确定线斜率的θ(x)获取与δ1Nx的最佳线性拟合。或者,高阶多项式可用于获取最佳线性拟合以及其它基础函数。尽管该实施例描述了在每个像素处计算边界子集和关联的拟合,但在替代性实施例中,这些计算仅可以在边界像素处执行并推广到整个图像域。此外,例如,可使用所属领域已知的技术将拟合阶段需要的计算授权给查找表(LUT)。
返回图4,过程400可确定可重叠噪音分割边界(例如,如图3的方框308所述)的绘图区408,ρ(x)。可借助沿流场的轮廓θ(x)和(例如,如向量ε(x)中包含的方向θ(x)和与θ(x)正交的方向中)对分割误差扩散σ的估计在边界δ(x)周围建立绘图区408,ρ(x)。因此,确定绘图区408可开始于估计分割误差扩散,例如向前景的扩散向背景的扩散以及沿流场的轮廓的方向的扩散σθ(x)。具有两个与θ(x)正交的估计允许分析适应非对称误差扩散,这在深度传感器将对具有不同属性的材料之间的边界进行成像时是常见的。前景和背景误差扩散可收集在向量中,其中为前景方向的2-D单元向量,如下文定义。
为了使过程400确定绘图区408,过程400可首先识别分割误差扩散。可将误差扩散发送到渲染端用于确定绘图区,例如图4的绘图区408。当这类误差估计不实际或不可用和/或当一些性能损失可以接受时,适于给定类图像的固定值可用于分割误差估计。可通过使用图5描绘的估计流程进一步修改此类固定值以重新获取一些丢失的性能。图5描绘了(例如,在绘图区确定阶段)在边界像素x上估计的分割误差扩散。图5示出了与θ(x)正交的单元向量502,λx。λx可指向前景或背景。点504,x,可表示边界上的像素。点506,y,可表示分割的物体边界上或分割的物体内的像素。可将前景方向的单元向量定义如下:
其中vx表示x周围的矩形邻域,T表示转置。如上所述,可以交替地使用其它邻域类型和/或几何形状。可将背景方向的单元向量设置如下:
点504到修正的点508,e,的距离可表示为可通过以下等式获取绘图区:
其中0≤1u(.,.,.)≤1为不定内核,求和指数r仅求和边界上的点,且C为确保ρ(x)≤1的常数。例如:
简单的定向高斯函数可用于不定内核u,例如,对于给定的方向和扩散,应用以下等式:
其中F为高斯内核,中σF为固定前景常数,σB为固定背景常数,并且CF,CB>0是为确保不定内核从其前景平滑转换到其背景部分而选择的常数,例如
如所属领域技术人员已知,可以可选地或交替地利用其它功能。在替代性实施例中,可以在在线访问的查找表中预计算和存储不定内核以建立绘图区。
可以通过将乘以校正值的常数dB与固定的背景常数相加估计出朝向背景的扩散可以使用与本地背景重叠的一部分前景计算出(正如通过对边界的线性近似)校正值可以可选地或交替地使用高阶近似。因此,朝向背景的扩散可表示如下:其中dB≥0,例如,1、1.2、1.5、2.1等,且
其中q=1,但可以可选地使用其它q≥0的值,例如q=2,0.5,1.5,1.7102等。可以以大体相同的方式估计朝向前景的扩散,即其中dF为正常数并且
正如朝向背景的扩散一样,可以可选地或交替地使用高阶近似。此处,q=1,但可以可选地使用其它q≥0的值。沿流场的轮廓的方向的扩散σθ(x)可以固定为非零正数值,即特定视频分辨率(例如,640x480)的0.5、0.9、2.0等,并且可以线性地缩放以适应其它分辨率(例如,1280x960的两倍值)。沿流场的轮廓的方向的扩散σθ(x)还可以基于沿流场的轮廓的本地变化以类似的方式调节。
图6A示出了衍生绘图区(例如,图4的绘图区408)的过程的实施例的视觉表示。分别表示前景和背景误差扩散的斜率602和向量604可输入到LUT606以识别不定内核608。不定内核608随边界612和沿流场614的轮廓一起输入到累加器610。累加器610可使用下文进一步解释的公式616衍生出绘图区。
返回图4,过程400可接着衍生出定向设计纹理412以允许更紧密地匹配前景图像的本地结构。纹理可衍生自沿流场的轮廓,并且可选地借助从前景图像获取的本地定向相关等进一步参数。以额外的计算复杂度为代价,增加进一步参数可允许设计的纹理更紧密地匹配前景图像的本地结构。在一些实施例中,纹理可以衍生为随机场并通过使用定向滤波器过滤独立和/或同分布随机过程而获取,例如衍生的纹理可以是定向移动平均过程。可以可选地或交替地使用自回归平均过程等更为精密的随机过程和纹理重采样技术。定向高斯函数,例如
其中
可以用作移动平均滤波器,其中参考θ(x)确定方向。要求完全指定高斯滤波器的剩余两个参数σh和σv,即控制方向θ(x)和与θ(x)正交的方向中的滤波器带宽的标准偏差,可通过从前景图像测量的上述定向相关设置为固定值或可以是按每像素变化。
设计纹理412可以离线计算并添加到存储由多个参数(例如,方向、沿流场的轮廓、标准偏差和从前景获取的定向相关等)索引的随机场实现。LUT可利用三个纹理参数或变量(例如方向、线段长度和线段粗细)来查找纹理。每个设计纹理412实现的值可以缩放和变换,使得满足可通过使用所需参数对LUT进行咨询来在线对这些实现进行采样以产生纹理值α(x),所需参数是使用邻域μx为特定像素获取,如下文图7C中进一步所述。
可通过如下等式获得φ-定向设计纹理场实现:
其中R(.)为零均值和单位方差的独立同分布(i.i.d.)高斯过程,其中纹理可衍生为简单移动平均过程,该过程可生成合适的弧形线影描绘。以此类推,如果将纹理描绘看作是铅笔在纸上画的图,参数φ可以控制铅笔笔划的方向,σh可以控制铅笔笔划典型长度,且σv可以控制铅笔笔划的典型粗细。其它实施例可利用一般自回归移动平均(ARMA)过程和/或更为精密的方法,例如基于小波变换的纹理生成技术。源自沿流场的轮廓的纹理可类似于弧形线影图案。当纹理在绘图区中渲染以形成最终合成物cf(x),纹理可允许前景中的类似纹理区大体上或近似地无缝延伸到背景中。图6B示出了衍生纹理场的过程的实施例的视觉表示。独立同随机过程生成器618将值提供给零均值和单位方差的i.i.d.高斯过程R(x)620。第二高斯过程,定向高斯函数622通过两个高斯函数R(x)620和622的卷积624产生φ-定向设计纹理场626。
图7A示出了从前景图像中衍生广义边界区的过程的实施例的视觉表示。可分析前景702,例如图4的前景402以提取广义边界区域704,例如图4的边界410。图7B示出了衍生沿流场的轮廓714(例如,沿边界的用于给定像素x的图6的沿流场的轮廓614)的过程的实施例的视觉表示。像素706可与预定义像素邻域结合以创建本地化边界像素邻域708。广义边界区704可视为位于本地化边界像素邻域708以产生本地化边界像素邻域710。在LUT712处,可将线性平滑函数应用到本地化边界像素邻域710以产生沿流场的轮廓714,例如图6的沿流场的轮廓614。图7C示出了衍生沿前景轮廓的每像素方向和关联定向纹理(例如图4的设计纹理412)的过程的实施例的视觉表示。在LUT716处,可以将沿流场714的轮廓和本地化前景718以及本地化视频会议图像720相结合以产生φ-定向设计纹理场722,即需要的设计纹理。
过程400可为增强现实辅助视频会议设计令人视觉愉悦的背景414。人类观察员更喜欢某些色彩组合是艺术设计学中所公知的。研究人员已经尝试量化各种色彩空间中的匹配色彩,例如和谐色彩,各种色彩空间产生推荐的图片符合哪些直方图的模板。因此,过程400可包括设计具有非常低复杂性的色彩调制函数的背景,该色彩调制函数调制基础背景图片的色彩值以匹配前景图片的色彩值。例如,根据以下公式,可从色系(例如色相(H)、饱和度(S)和值(V)(HSV)色彩空间)中选择主前景色DF作为前景色的加权平均值:
其中Cv(x)=[H(x) S(x) V(x)]为x处的前景图像的HSV主色彩向量v,w为权重,其可以为多个部件的平均(例如S和V部件)以优先选择易见、饱和的色彩。可以可选地或交替地使用其它权重和色彩空间,例如色相、饱和度和量度(HSL),色相、饱和度和强度(HSI)或红、绿和蓝。过程400可接着选择一种协调的突出所计算的主色彩DF的颜色hF。可使用多种模板选择协调色彩,如相关技术中已知的。假设H信道以弧度表示,hF可以hF=DF+[π,0,0]来计算。一旦过程400计算hF,调制函数可通过确保背景主色为计算出的协调色(例如,DB=hF)控制基础背景色彩值。对于灰阶基础背景,例如仅具有V分量的像素的基础背景图像,可通过缩放像素V分量和分配相互协调的H和S分量到各个像素。可以计算色彩基础背景图像的主色彩,可以计算相互协调的颜色的差异因子。产生的差异因子随后可应用到每个像素。在一些实施例中,(例如,可以通过再利用定向纹理LUT)使用借助完成交叉影线图案的采样定向纹理形成的灰阶背景以实现纹理和混合。其它实施例可使用通过剪贴图包或数据库获取的色彩背景。其它实施例可随时间改变背景和/或使用预先存在的视频以形成基础背景帧,可调制基础背景帧以形成随时间变化的背景。这些和其它变化对于相关技术领域的技术人员而言是显而易见的。通过使用上述机制,过程410设计令人视觉愉悦的与前景图像404互补的背景b(x)414。一旦设计了b(x),可以形成初始合成物ci(x)=s(x)v(x)+(1-s(x))b(x)。随后可以修改该初始合成物以形成最终合成物。在一项实施例中,可为整个背景图像确定单一前景主色。可使用该单一前景主色来调制上文所述的背景图像色彩。在另一项实施例中,可将背景图像像素划分为K个区域,ρi(i=l,...,K)。随后可为每个区域计算单独的前景主色彩,该前景主色彩可用于调制区域中的背景图像色彩。区域可以为单个背景像素或可以是形成不规则或规则形状(例如,方形、三角形和椭圆等)的一组像素。还可通过在基础背景图像上应用基于物体的区域分解算法确定区域。在一项实施例中,用于区域i的主前景色,例如用于ρi的主前景色DF可计算如下:
其中d(x,ρi)测量前景像素x和区域ρi之间的距离。在一项实施例中,d(x,ρi)=min{||x-y||2|y∈ρi}。在另一项实施例中
可修改初始权重以适应d(.,.),如相关技术领域普通技术人员所知。在一项实施例中,分割端可通过在接近前景区域的像素上使用实际或初始背景中(例如,实际场景或现实世界视频电话会议用户环境中)的色彩确定背景色彩线索。背景色彩线索可定义为一个或多个色彩值和关联的像素坐标,关联的像素坐标表示原始场景中的背景色彩接近表示的像素位置处表示的色彩值。可以通过平均接近前景区的像素上的实际场景中的实际背景像素色彩获取这些线索。一经确定,这些线索可被发送到渲染端以待用于构造令人视觉愉悦的实际背景。当这些线索可用时,渲染端(例如,通过选择色系中与实际背景类似或分离类似的虚拟背景色,例如,相邻色轮)可以在确定虚拟背景色时确保与发送的色彩线索无重大偏差。这样可有助于进一步避免花屏。
返回图4,过程400可产生合成图像416。最终的合成图像可表示为cf(x)=ρ(x)τ(x)+(1-ρ(x))ci(x),其中τ(x)=γ(x)vA(x)+(1-γ(x))b(x),vA(x)是对给定邻域计算出的本地平均,γ(x)为取决于所设计纹理的融合因子,其中1≥γ(x)≥0,下文进一步论述。因此,渲染的纹理可使用给定背景调制前景的本地平均。
过程400计算融合因子γ(x)的一种方式是通过设置γ(x)=0(x)直接使用计算出的定向纹理。然而,过程400可通过使用比较在不同的分辨率所计算的前景的不同的启发法(例如,在低分辨率处和高分辨率处使用空间平均)获取更准确的结果。如果这两个平均在像素上达成一致,那么增加了像素属于前景的把握。图8示出了两通滤波分析的实施例的视觉表示。如图8所示,视频会议图像802(例如图4的视频会议图像)可以通过不同带通频率(ωL和ωH,其中ωH>ωL)处的两个低通滤波器(LPF)804和806。低通滤波器可进一步接收二值分割808(例如图4的二值分割),这样,如果需要的话,仅过滤前景像素,并且输出vL(x)和vH(x),vL(x)和vH(x)可分别表示低分辨率和高分辨率平均。此外,可以计算出差异测量的值。这些值可能是,表示差异测量的结果为输入大为迥异时的较大标量和输入类似时的较小标量,例如。因此,融合因子可以表示为其中1≥cα≥0为常数。因此,过程400可与413中详细示出的前景404、具有设计的纹理412的绘图区410和设计的背景414相结合以生成合成图像416,合成图像416包括经视觉调节的增强现实辅助视频图像。
图9示出了具有三个参与者的经视觉调节的增强现实辅助视频会议会话。行902示出了位于原始位置(即,具有色彩、形状和类型变化的原背景,例如图4的视频会议图像402)的参与者。行904示出了和分割花屏形成前景的参与者视觉的噪音分割,例如图4的前景404。行906示出了执行例行增强现实辅助视频会议的视觉调节之后的最终的合成图像,例如图4的合成图像416。每个最终合成图像可具有不同的色彩背景和/或纹理,例如一个最终合成图像的背景可能是蓝色,第二背景的色彩从绿色渐变为橘色,第三背景可能是紫色并包括网格重复图案。
图10示出了应用到视频会议中的三个参与者的典型的经视觉调节的增强现实辅助视频会议背景。可以从多种色彩中选择列1002中示出的该背景(例如,图4的背景406)以与前景(例如,图4的前景404)色彩匹配。该背景可包括适合与前景色彩匹配的色彩渐变和/或色系。视频会议中参与者之间的背景的色彩、图案和/或纹理可能不同,或背景可以一直在参与者之间交叉应用,如行1004中所示。当视频会议图像(例如,图4的视频会议图像402)在前景中包含两个或两个以上人员时,背景可包括适合接邻地区中的前景参与者的图案、纹理和/或色彩渐变。可选择色彩、图案或纹理以帮助掩蔽分割误差。
尽管通常在单个部件处理的背景下论述,如所属领域技术人员所显而易见,可在视频电话会议会话的任何一端完成至少一部分所揭示的系统和方法。例如,分割误差扩散和色彩线索可以识别并从完成视频捕捉的站点(例如,图1的服务器150)传送到进行渲染的站点(例如,图1的一个或多个110至140)。此类替代性实施例明确在本发明的范围内。
上述的网络部件可在任意通用网络部件上实施,例如计算机或网络组件,其具有足够的处理能力、存储资源及网络吞吐能力来处理其上的必要工作量。图11示出了典型的通用网络部件1100的示意图,该网络部件适用于实施本文所公开的方法的一项或多项实施例,例如,图1的终端110至140或服务器150。网络部件1100包括处理器1102(可以称为中央处理器单元或CPU),该处理器与包含以下项的存储设备通信:辅助存储设备1104、只读存储器(ROM)1106、随机存取存储器(RAM)1108、输入/输出(I/O)设备1110(例如,摄像头、麦克风、显示屏幕等)以及网络连接设备1112。处理器1102可以实施为一个或多个CPU芯片,或者可以为一个或多个专用集成电路(ASIC)和/或数字信号处理器(DSP)的一部分。
辅助存储装置1104通常由一个或多个磁盘驱动器或可擦除可编程ROM(EPROM)组成,且用于数据的非易失性存储。辅助存储器1104可以用于存储程序,当选择执行这些程序时,所述程序将加载到RAM1108中。ROM1106用于存储在程序执行期间读取的指令以及可能读取的数据。ROM1106为非易失性存储设备,其存储容量相对于辅助存储器1104的较大存储容量而言通常较小。RAM1108用于存储易失性数据,并且可能用于存储指令。ROM1106和RAM1108两者的存取速度通常比辅助存储器1104的存取速度快。
本发明公开至少一项实施例,且所属领域的普通技术人员对所述实施例和/或所述实施例的特征作出的变化、组合和/或修改均在本发明公开的范围内。因组合、合并和/或省略所述实施例的特征而得到的替代性实施例也在本发明的范围内。应当理解的是,本发明已明确阐明了数值范围或限制,此类明确的范围或限制应包括涵盖在上述范围或限制(如从大约1至大约10的范围包括2、3、4等;大于0.10的范围包括0.11、0.12、0.13等)内的类似数量级的迭代范围或限制。例如,每当公开具有下限Rl和上限Ru的数值范围时,具体是公开落入所述范围内的任何数字。具体而言,特别公开所述范围内的以下数字:R=Rl+k*(Ru-Rl),其中k是从1%到100%以1%增量递增的变量,即,k是1%、2%、3%、4%、5%……50%、51%、52%……95%、96%、97%、98%、99%或100%。此外,还特此公开了,上文定义的两个R值所定义的任何数值范围。除非另行说明,术语“大约”表示其后数值的±10%的范围。相对于权利要求的某一要素,术语“可选择”的使用表示该要素可以是需要的,或者也可以是不需要的,二者均在所述权利要求的范围内。使用如“包括”、“包含”和“具有”等较广术语应被理解为提供对如“由……组成”、“基本上由……组成”以及“大体上由……组成”等较窄术语的支持。本文所述的所有文档都以引入的方式并入本文中。
虽然本发明中已提供若干实施例,但应理解,在不脱离本发明的精神或范围的情况下,本发明所公开的系统和方法可以以许多其它特定形式来体现。本发明的实例应被视为说明性而非限制性的,且本发明并不限于本文本所给出的细节。例如,各种元件或部件可以在另一系统中组合或合并,或者某些特征可以省略或不实施。
此外,在不脱离本发明的范围的情况下,各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其它系统、模块、技术或方法进行组合或合并。展示或论述为彼此耦合或直接耦合或通信的其它项也可以采用电方式、机械方式或其它方式通过某一接口、设备或中间部件间接地耦合或通信。其它变化、替代和改变的示例可以由本领域的技术人员在不脱离本文精神和所公开的范围的情况下确定。

Claims (12)

1.一种视频图像处理装置,其特征在于,包括:
处理器,用于:
接收视频电话会议图像,其中所述视频电话会议图像具有背景和至少一个前景,其中所述前景具有边界;
确定所述前景的所述边界;
确定绘图区;
将所述绘图区与所述前景的所述边界重叠,其中所述绘图区模糊了所述边界;以及
将所述图像的所述背景替换为新背景;
其中,所述确定所述绘图区包括:
建立沿流场的轮廓;
估计与沿流场的轮廓相关联的一个或更多误差扩散;以及
利用所述沿流场的轮廓和所述一个或多个误差扩散衍生所述绘图区。
2.根据权利要求1所述的装置,其特征在于,所述绘图区包含一个或多个纹理,其中纹理化的绘图区的纹理选自包括以下项的组:随机纹理、半随机纹理、图案化的纹理以及选择以匹配所述前景的本地结构的标准场。
3.根据权利要求1所述的装置,其特征在于,所述处理器进一步用于从多个新背景中选择所述新背景,所述选择包括使所述新背景的色彩和所述前景的色彩相互协调。
4.根据权利要求1所述的装置,其特征在于,所述处理器进一步用于:
接收第二视频电话会议图像,其中所述第二视频电话会议图像具有背景和前景,其中所述前景具有边界;
确定所述第二视频电话会议图像的所述前景的所述边界;
将绘图区与所述第二视频电话会议图像的所述前景的所述边界重叠,其中所述第二视频电话会议图像的所述绘图区模糊了所述第二视频电话会议图像的所述前景的所述边界;以及
将所述第二视频电话会议图像的所述背景替换为新背景,其中所述第二视频电话会议图像的所述新背景的色彩、纹理或两者不同于所述视频电话会议图像的所述新背景。
5.根据权利要求1所述的装置,其特征在于,所述处理器进一步用于从多个新背景中选择所述新背景,所述选择包括选择纹理以促进从所述前景到所述新背景的平滑视觉转换。
6.根据权利要求1所述的装置,其特征在于,所述处理器进一步用于:
建立沿流场的轮廓,其中所述沿流场的轮廓为与所述边界的线性拟合;
估计所述沿流场的轮廓的方向和与所述沿流场的轮廓正交的方向中的分割误差扩散;
使用所述分割误差扩散从查找表获取不定内核;
以及
从所述不定内核、所述边界和所述沿流场的轮廓衍生所述绘图区。
7.一种用于增强现实辅助视频会议的视觉调节的方法,其特征在于,包括:
将视频会议图像分离为前景和第一背景,其中分离出具有至少一个分段的前景;
在所述分段周围衍生绘图区;
设计一个或多个将在所述绘图区中呈现的纹理;
选择第二背景;以及
组合所述前景、所述一个或多个纹理、所述绘图区和所述第二背景以形成合成图像;
其中,衍生所述绘图区包括:
确定在所述前景的边界处的像素;
固定每个边界像素周围的邻域以生成近似边界;
通过将所述近似边界拟合平滑函数获取沿流场的轮廓;
估计分割误差扩散;
获取不定内核;以及
使用所述沿流场的轮廓和所述不定内核获取所述绘图区。
8.根据权利要求7所述的方法,其特征在于,进一步包括:
识别至少一个主前景色;以及
为所述第二背景选择背景色,其中所述背景色与所述前景色相互协调。
9.根据权利要求7所述的方法,其特征在于,选择包括:
平均所述第一背景中的所述背景像素色彩以获取平均第一背景色;以及
基于所述平均第一背景色确定所述第二背景的所述色彩,其中所述第二背景的所述色彩在色系中与所述平均第一背景色类似或分离类似。
10.根据权利要求7所述的方法,其特征在于,选择纹理以促进从所述前景到新背景的平滑视觉转换。
11.根据权利要求7所述的方法,其特征在于,选择所述第二背景包括:
使用预先存在的视频形成多个基础背景帧;以及
调制所述多个基础背景帧以形成随时间变化的背景。
12.根据权利要求7所述的方法,其特征在于,设计一个或多个纹理包括使用从包括以下项的组中选择一个或多个技术设计的纹理近似所述前景图像的本地结构:随机场生成,半随机场生成、图案化场生成、自回归平均过程和纹理重采样过程。
CN201380015305.3A 2012-04-09 2013-04-08 增强现实辅助视频会议的视觉调节 Active CN104364825B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261621612P 2012-04-09 2012-04-09
US61/621,612 2012-04-09
PCT/US2013/035656 WO2013155006A2 (en) 2012-04-09 2013-04-08 Visual conditioning for augmented-reality-assisted video conferencing

Publications (2)

Publication Number Publication Date
CN104364825A CN104364825A (zh) 2015-02-18
CN104364825B true CN104364825B (zh) 2017-03-29

Family

ID=48143002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380015305.3A Active CN104364825B (zh) 2012-04-09 2013-04-08 增强现实辅助视频会议的视觉调节

Country Status (4)

Country Link
US (1) US9154732B2 (zh)
EP (2) EP2942754B1 (zh)
CN (1) CN104364825B (zh)
WO (1) WO2013155006A2 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8854416B2 (en) * 2010-04-27 2014-10-07 Lifesize Communications, Inc. Recording a videoconference using a recording server
JP5914992B2 (ja) * 2011-06-02 2016-05-11 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム
US20140368669A1 (en) * 2012-10-04 2014-12-18 Google Inc. Gpu-accelerated background replacement
US9485459B2 (en) * 2012-12-14 2016-11-01 Biscotti Inc. Virtual window
US9654563B2 (en) 2012-12-14 2017-05-16 Biscotti Inc. Virtual remote functionality
US20150324076A1 (en) 2012-12-14 2015-11-12 Biscotti Inc. Distributed Infrastructure
EP2806401A1 (en) * 2013-05-23 2014-11-26 Thomson Licensing Method and device for processing a picture
EP2824913A1 (en) * 2013-07-09 2015-01-14 Alcatel Lucent A method for generating an immersive video of a plurality of persons
JP6260809B2 (ja) * 2013-07-10 2018-01-17 ソニー株式会社 ディスプレイ装置、情報処理方法、及び、プログラム
US10075656B2 (en) * 2013-10-30 2018-09-11 At&T Intellectual Property I, L.P. Methods, systems, and products for telepresence visualizations
US9210377B2 (en) 2013-10-30 2015-12-08 At&T Intellectual Property I, L.P. Methods, systems, and products for telepresence visualizations
US9270943B2 (en) 2014-03-31 2016-02-23 Futurewei Technologies, Inc. System and method for augmented reality-enabled interactions and collaboration
EP3219098B1 (en) 2014-11-14 2021-10-06 PCMS Holdings, Inc. System and method for 3d telepresence
GB2532953A (en) 2014-12-02 2016-06-08 Ibm Overlay display
CN106204690B (zh) * 2015-05-04 2020-04-17 阿里巴巴集团控股有限公司 一种图像处理方法及装置
US9582860B2 (en) * 2015-07-24 2017-02-28 Google Inc. Temporally smooth video enhancement
WO2017030985A1 (en) 2015-08-14 2017-02-23 Pcms Holdings, Inc. System and method for augmented reality multi-view telepresence
US20170053621A1 (en) * 2015-08-20 2017-02-23 Microsoft Technology Licensing, Llc Roundtrip Reintegration of Asynchronous 3D Session
WO2017077533A1 (en) * 2015-11-02 2017-05-11 Artincam Ltd. Real-time alpha compositing for high-resolution image stream
US11853635B2 (en) 2016-03-09 2023-12-26 Samsung Electronics Co., Ltd. Configuration and operation of display devices including content curation
WO2017172528A1 (en) 2016-04-01 2017-10-05 Pcms Holdings, Inc. Apparatus and method for supporting interactive augmented reality functionalities
CN110178368B (zh) * 2017-01-31 2021-12-14 惠普发展公司,有限责任合伙企业 基于所接收的信息的视频变焦控制
US10158828B2 (en) * 2017-04-05 2018-12-18 Facebook, Inc. Customized graphics for video conversations
CN108875759B (zh) * 2017-05-10 2022-05-24 华为技术有限公司 一种图像处理方法、装置及服务器
CN107578369A (zh) * 2017-09-08 2018-01-12 北京奇虎科技有限公司 视频数据处理方法及装置、计算设备
US10839577B2 (en) 2017-09-08 2020-11-17 Apple Inc. Creating augmented reality self-portraits using machine learning
US11394898B2 (en) 2017-09-08 2022-07-19 Apple Inc. Augmented reality self-portraits
US11914671B2 (en) 2018-10-01 2024-02-27 International Business Machines Corporation Performing uncertainty quantification analysis with efficient two dimensional random fields
CN113452926B (zh) * 2018-10-26 2023-01-13 创新先进技术有限公司 图像采集设备、系统及方法
DE102018220880B4 (de) 2018-12-04 2023-06-29 Audi Ag Verfahren und Vorrichtung zum Modifizieren einer Bildanzeige eines Fahrzeuginnenraums bei einem Videotelefonat in einem Fahrzeug sowie ein Kraftfahrzeug
CN110896498A (zh) * 2019-10-03 2020-03-20 刘纪君 计算机场景特效系统
US11498005B1 (en) * 2020-06-30 2022-11-15 Amazon Technologies, Inc. Geometry-aware encoding of 2D elements
US11625875B2 (en) * 2020-11-06 2023-04-11 Adobe Inc. Generating modified digital images incorporating scene layout utilizing a swapping autoencoder
US11551385B1 (en) * 2021-06-23 2023-01-10 Black Sesame Technologies Inc. Texture replacement system in a multimedia
CN113411537B (zh) * 2021-06-25 2023-04-25 Oppo广东移动通信有限公司 视频通话方法、装置、终端及存储介质
US20230126108A1 (en) * 2021-10-22 2023-04-27 Zoom Video Communications, Inc. Dynamic context-sensitive virtual backgrounds for video conferences

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101326514A (zh) * 2005-12-09 2008-12-17 微软公司 实况视频中的背景移除
CN101753851A (zh) * 2008-12-17 2010-06-23 华为终端有限公司 背景更换的方法、虚拟场景合成的方法及相关系统和设备
CN102077587A (zh) * 2008-06-30 2011-05-25 惠普开发有限公司 合成视频流

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7430339B2 (en) 2004-08-09 2008-09-30 Microsoft Corporation Border matting by dynamic programming
US7227567B1 (en) * 2004-09-14 2007-06-05 Avaya Technology Corp. Customizable background for video communications
US7612794B2 (en) 2005-05-25 2009-11-03 Microsoft Corp. System and method for applying digital make-up in video conferencing
US7834894B2 (en) * 2007-04-03 2010-11-16 Lifetouch Inc. Method and apparatus for background replacement in still photographs
US8194097B2 (en) * 2008-12-12 2012-06-05 Seiko Epson Corporation Virtual masking using rigid parametric modeling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101326514A (zh) * 2005-12-09 2008-12-17 微软公司 实况视频中的背景移除
CN102077587A (zh) * 2008-06-30 2011-05-25 惠普开发有限公司 合成视频流
CN101753851A (zh) * 2008-12-17 2010-06-23 华为终端有限公司 背景更换的方法、虚拟场景合成的方法及相关系统和设备

Also Published As

Publication number Publication date
CN104364825A (zh) 2015-02-18
EP2820620A2 (en) 2015-01-07
US20130265382A1 (en) 2013-10-10
EP2942754A1 (en) 2015-11-11
US9154732B2 (en) 2015-10-06
WO2013155006A2 (en) 2013-10-17
WO2013155006A3 (en) 2014-02-20
EP2820620B1 (en) 2016-06-08
EP2942754B1 (en) 2017-01-04

Similar Documents

Publication Publication Date Title
CN104364825B (zh) 增强现实辅助视频会议的视觉调节
CN110832541B (zh) 图像处理装置和方法
CN109360235B (zh) 一种基于光场数据的混合深度估计方法
US8638329B2 (en) Auto-stereoscopic interpolation
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
Xu et al. Performance evaluation of color correction approaches for automatic multi-view image and video stitching
TWI455062B (zh) 三維視訊內容產生方法
US8977039B2 (en) Pulling keys from color segmented images
CN110598610A (zh) 一种基于神经选择注意的目标显著性检测方法
JP6408314B2 (ja) カラービデオ処理システムおよび方法、ならびに対応するコンピュータプログラム
CN104756491A (zh) 基于组合的深度提示从单视场图像生成深度图
US11328399B2 (en) Method and apparatus, and storage medium for processing style image
CN110264403A (zh) 一种基于图像深度分层的去伪影图像拼接方法
JP2019117558A (ja) カラー情報推定モデル生成装置、画像カラー化装置およびそれらのプログラム
CN105488846A (zh) 一种显示方法及电子设备
CN102223545B (zh) 一种快速多视点视频颜色校正方法
Qiao et al. A novel segmentation based depth map up-sampling
JP5210416B2 (ja) 立体画像生成装置、立体画像生成方法、プログラム、および記録媒体
Li et al. Optimal seamline detection in dynamic scenes via graph cuts for image mosaicking
Yuan et al. Addressing visual consistency in video retargeting: A refined homogeneous approach
KR20130092240A (ko) 디지털 사진의 드로잉 변환 방법
WO2011071978A1 (en) Three dimensional image rendering
CN116258655B (zh) 基于手势交互的实时图像增强方法及系统
CN113781350B (zh) 图像处理方法、图像处理装置、电子设备及存储介质
US9554086B1 (en) True motion vector editing tool

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant