CN114339120A - 沉浸式视频会议系统 - Google Patents

沉浸式视频会议系统 Download PDF

Info

Publication number
CN114339120A
CN114339120A CN202111522154.3A CN202111522154A CN114339120A CN 114339120 A CN114339120 A CN 114339120A CN 202111522154 A CN202111522154 A CN 202111522154A CN 114339120 A CN114339120 A CN 114339120A
Authority
CN
China
Prior art keywords
conference
participant
viewpoint
virtual
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111522154.3A
Other languages
English (en)
Inventor
杨蛟龙
张译中
童欣
郭百宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN202111522154.3A priority Critical patent/CN114339120A/zh
Publication of CN114339120A publication Critical patent/CN114339120A/zh
Priority to PCT/US2022/049472 priority patent/WO2023113948A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

根据本公开的实现,提供了一种用于沉浸式视频会议的方案。在该方案中,首先确定视频会议的会议模式,该会议模式可以指示视频会议的虚拟会议空间的布局。进一步地,可以基于布局来确定与视频会议中的第二参与方相关联的视点信息,该视点信息用于指示第二参与方在视频会议中观看第一参与方的虚拟视点。进一步地,可以基于视点信息确定第一参与方的第一视图,并向与第二参与方相关联的会议设备发送第一视图,以用于向第二参与方显示基于该第一视图生成的会议图像。由此,一方面,能够使视频会议参与方获得更加真实的沉浸式视频会议体验,另一方面,可以更加灵活地根据需要获得期望的虚拟会议空间布局。

Description

沉浸式视频会议系统
背景技术
近年来,在多方面因素的影响下,远程视频会议逐渐被应用于人们工作或娱乐等多个方面。远程视频会议能够有效地帮助参与方克服距离等限制,并实现远程协作。
然而,与面对面会话相比,会议的参与方(participant)很难在视频会议中感受到诸如眼神接触等视觉信息并进行自然的交互(包括转头,多人会议中的转头和注意力转移,私下交谈,以及分享文档等),这使得视频会议难以提供如面对面会话般的高效沟通。
发明内容
根据本公开的实现,提供了一种用于沉浸式视频会议的方案。在该方案中,首先确定视频会议的会议模式,该会议模式可以指示视频会议的虚拟会议空间的布局。进一步地,可以基于布局来确定与视频会议中的第二参与方相关联的视点信息,该视点信息用于指示第二参与方在视频会议中观看第一参与方的虚拟视点。进一步地,可以基于视点信息确定第一参与方的第一视图,并向与第二参与方相关联的会议设备发送第一视图,以用于向第二参与方显示基于该第一视图生成的会议图像。由此,一方面,能够使视频会议参与方获得更加真实的沉浸式视频会议体验,另一方面,可以更加灵活地根据需要获得期望的虚拟会议空间布局。
提供发明内容部分是为了简化的形式来介绍对概念的标识,其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
图1示出了根据本公开的一些实现的示例会议系统布置的示意图;
图2A和图2B示出了根据本公开的一些实现的会议模式的示意图;
图3A和图3B示出了根据本公开的另一些实现的会议模式的示意图;
图4A和图4B示出了根据本公开的又一些实现的会议模式的示意图;
图5示出了根据本公开的一些实现的示例会议系统的示意框图;
图6示出了根据本公开的一些实现的确定视点信息的示意图;
图7示出了根据本公开的一些实现的视图生成模块的示意图;
图8示出了根据本公开的一些实现的深度预测模块的示意图;
图9示出了根据本公开的一些实现的视图绘制模块的示意图;
图10示出了根据本公开的一些实现的用于视频会议的示例方法的流程图;
图11示出了根据本公开的一些实现的用于生成视图的示例方法的流程图;以及
图12示出了根据本公开的一些实现的示例计算设备的框图。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
现在将参照若干示例实现来论述本公开。应当理解,论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本主题的范围的任何限制。
如本文所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如以上讨论的,与面对面会话相比,参与方很难在视频会议中感受到诸如眼神接触等视觉信息,这使得视频会议难以提供如面对面会话般的高效沟通。人们期望能够在视频会议中获得更加真实且高效的交流体验。
根据本公开的实现,提供了一种用于视频会议的方案。在该方案中,首先确定视频会议的会议模式,该会议模式可以指示视频会议的虚拟会议空间的布局。进一步地,可以基于布局来确定与视频会议中的第二参与方相关联的视点信息,该视点信息用于指示第二参与方在视频会议中观看第一参与方的虚拟视点。进一步地,可以基于视点信息确定第一参与方的第一视图,并向与第二参与方相关联的会议设备发送第一视图,以用于向第二参与方显示基于该第一视图生成的会议图像。
通过根据会议模式来灵活地构建虚拟会议空间,本公开的实施例能够提高会议系统的灵活性。此外,通过基于视点信息来生成基于视点的视图,本公开的实施例还能够使视频会议参与方获得更加真实的视频会议体验。
以下参考附图来说明本公开的基本原理和若干示例实现。
示例布置
图1示出了根据本公开实施例的示例会议系统布置100。如图1所示,布置100(也称为一个会议单元)例如可以包括一个立方形的物理会议空间,这样的物理会议空间例如也可以称为Cubicle。如下文将详细介绍的,这样的物理会议空间可以根据会议模式所指示的布局而被动态地构建为用于视频会议的虚拟会议空间,从而提高会议系统的灵活性。
如图1所示,布置100还可以包括显示装置110-1、110-2和110-3(单独或统一称为显示装置110)。在图1的示例布置100中,显示装置110可以包括在该物理会议空间的三面墙壁上所设置的三个分离的显示屏,其可以被配置为向坐在椅子130上的参与方提供沉浸式会议图像。在一些实现中,显示装置110例如也可以被设置在物理会议空间的一面墙壁或两面墙壁上。
在一些实现中,显式装置110也可以包括一体成型的柔性屏幕(例如,环形屏幕)。该柔性屏幕例如可以具有180度的可视角,以向参与方提供沉浸式会议图像。
在一些实现中,显式装置110也可以通过其他适当的图像呈现技术来为参与方提供沉浸式会议图像。示例性地,显式装置110可以包括用于向参与方提供沉浸式图像的投影设备。该投影设备例如可以在物理会议空间的墙面上投影会议图像。
如下文将详细介绍的,沉浸式会议图像可以包括视频会议中其他会议参与方的视图。在一些实现中,显示装置110可以具有适当的尺寸,或者使沉浸式图像具有适当的尺寸,以使得参与方在沉浸式图像中所看到的其他会议参与方的视图具有真实的比例,从而提高会议系统的真实感。
附加地,沉浸式会议图像还可以包括虚拟背景,以提高视频会议的真实感。附加地,沉浸式会议图像例如还可以包括可操作图像区域,其例如可以提供诸如电子白板的功能,以响应于视频会议中适当参与方的操作而提供相应的响应。
如图1所示,布置100还可以包括一组图像捕获装置120。在一些实现中,如图1所示,为了提高所生成的参与方视图的质量,一组图像捕获装置120可以包括从不同方向对参与方进行拍摄的多个相机。如图1所示,该组图像捕获装置120例如可以被设置为物理会议空间中的一面墙壁上。
在一些实现中,图像捕获装置120例如可以包括深度相机,以捕获参与方的图像数据和对应的深度数据。备选地,图像捕获装置120也可以包括普通的RGB相机,并可以通过双目视觉等技术来确定对应的深度信息。在一些实现中,图像捕获装置120包含的所有相机可以被配置为能够同步采集图像。
在一些实现中,还可以根据会议模式的需要,在布置100中设置相应的其他组件,例如,用于圆桌会议模式的半圆形桌面、用于并肩会议模式的L型转角桌面等。
基于这样的方式,视频会议的参与方可以通过这样的物理会议空间来获得沉浸式视频会议体验。此外,如下文将详细介绍的,这样的模块化物理会议空间设置还有助于更加灵活地构建所需的虚拟会议空间。
在一些实现中,布置100还可以包括与控制图像捕获装置120和显示装置110通信连接的控制设备140。如下文将详细介绍的,控制设备140可以例如控制参与方图像捕获、视频会议图像生成和显示等过程。
在一些实现中,还可以对布置100所包含的显式装置110,图像捕获装置120,其他组件(半圆形桌面、L型转角桌面等)进行预先标定,有确定所有组件在布置100中的位置。
示例会议模式
利用如上文所讨论的模块化物理会议空间,本公开的实施例可以通过将多个模块化物理会议空间虚拟化为多个子虚拟空间,并相应地构建具有不同布局的虚拟会议空间,以支持不同类型的会议模式。以下将描述示例会议模式。
示例1:面对面会议模式
在一些实现中,本公开的会议系统可以支持面对面会议模式。图2A和图2B示出了根据本公开一些实现的面对面会议模式的示意图。如图2A所示,在面对面会议模式中,会议系统可以通过将两个参与方210和220所在的物理会议空间所对应的子虚拟空间进行面对面拼接,以构建虚拟会议空间200A。
如图2B所示,从参与方210的视角来看,会议系统可以利用参与方210所在物理会议空间中的正面的显示装置110-1来提供会议图像225。如图2B所示,该会议图像225可以包括另一参与方220的视图。在一些实现中,该会议图像225例如还可以虚拟背景,例如背景墙以及半圆形桌面。
在面对面会议模式中,本公开的实施例使两个参与方能够获得如同在一张桌上面对面会谈的体验。
示例2:圆桌会议模式
在一些实现中,本公开的会议系统可以支持圆桌会议模式。图3A和图3B示出了根据本公开一些实现的圆桌会议模式的示意图。如图3A所示,在圆桌会议模式中,会议系统可以通过将多个参与方(例如,图3A中所示的参与方310、320-1和320-2)所在的物理会议空间对应的子虚拟空间进行组合,以构建虚拟会议空间300A。能够看到,与面对面会议模式的布局不同,在圆桌会议模式中,多个参与方可以按照一定夹角设置。
如图3B所示,从参与方310的视角来看,会议系统可以利用参与方310所在物理会议空间中的正面的显示装置110-1来提供会议图像325。如图3B所示,该会议图像325可以包括参与方320-1和参与方320-2的视图。在一些实现中,该会议图像325例如还可以虚拟背景,例如背景墙、半圆形桌面或电子白板区域等。
在一些实现中,电子白板区域例如可以用于提供与视频会议有关的内容,例如文档、图片、视频、幻灯片等。备选地,该电子白板区域的内容可以响应于适当参与方的指示而变化。例如,该电子白板区域可以用于播放幻灯片,并且可以响应于幻灯片宣讲者的手势指令、声音指令或其他适当类型的指令而执行翻页动作。
在圆桌会议模式中,本公开的实施例使参与方能够获得与其他多个参与方如同在一张桌上面谈的体验。
示例3:并肩会议模式
在一些实现中,本公开的会议系统可以支持圆桌会议模式。图4A和图4B示出了根据本公开一些实现的并肩(side by side)会议模式的示意图。如图4A所示,在并肩会议模式中,会议系统可以通过将参与方410和420所在的物理会议空间对应的子虚拟空间进行侧向组合,以构建虚拟会议空间400A。能够看到,与面对面会议模式的布局不同,在并肩会议模式中,参与方420将被呈现在参与方410的侧面,而非正面。
如图4B所示,从参与方410的视角来看,会议系统可以利用参与方310所在物理会议空间中的显示装置110-1和110-2来提供会议图像425。
如图4B所示,在参与方410侧面的显示装置110-1可以用于显示参与方420的视图。在一些实现中,显示装置110-1还可以显示与参与方420相关联的虚拟背景,例如虚拟桌面和位于参与方420前方的虚拟显示器等。由此,在并肩会议模式中,参与方410可以获得参与方420如同位于相邻工位的视觉体验。
在一些实现中,如图4B所示,在参与方410正面的显示装置110-2还可以例如呈现可以支持交互的可操作图像区域,例如虚拟屏幕区域430。在一些实现中,虚拟屏幕例如可以是云操作系统的图形界面,参与方410例如可以通过适当的方式来与该图形界面进行交互。例如,参与方可以通过键盘、鼠标等控制设备来利用云操作系统对文档进行在线编辑。
在一些实现中,虚拟屏幕区域430也可以通过参与方420所在物理会议空间中的显示装置实时地呈现,由此实现在线的远程交互。
在一个示例场景中,参与方410例如可以利用键盘实时修改虚拟屏幕区域430中的代码,并例如可以通过语音实时征求另一参与方420的意见。另一参与方420可以通过会议图像实时查看参与方410所作出的修改,并可以通过语音来提供意见。或者,另一参与方420例如也可以请求该虚拟屏幕区域430的控制权,并通过适当的控制设备(例如,鼠标或键盘等)来执行修改。
在另一个示例场景中,参与方410和参与方420可以分别具有不同的虚拟屏幕区域,类似于真实工作场景中的不同工作设备。进一步地,这样的虚拟屏幕区域例如可以通过云操作系统来实现,并且可以支持参与方410或参与方420发起两个不同虚拟屏幕区域之间的实时交互。例如,通过拖拽的方式,将一个文件实时地从一个虚拟屏幕区域拖拽到另一个虚拟屏幕区域等。
由此,在并肩会议模式中,本公开的实现可以利用显示装置的其他区域进一步提供远程协作等工作,进而丰富了视频会议的功能。
在一些实现中,参与方410和参与方420在虚拟会议空间400A中的间距例如可以根据输入而被动态地调整,以使得两个参与方感觉更近或者更远。
其他会议模式
以上介绍了一些示例会议模式,应当理解,其他适当的会议模式也是可能的。示例性地,本公开的会议系统例如还可以支持演讲会议模式,其中一个或多个参与者例如可以被指定为演讲者,而其他一个或多个参与者可以被指定为听众。相应地,会议系统可以构建虚拟会议场景以使得演讲者例如可以被绘制在讲台的一侧,而听众被绘制在讲台的另一侧。
应当理解,其他适当的虚拟会议空间布局也是可能的。在如上文所讨论的模块化物理会议空间的基础上,本公开的会议系统可以灵活地根据需要构建不同类型的虚拟会议空间布局。
在一些实现中,会议系统可以根据视频会议包括的参与方的数目来自动地确定会议模式。例如,当确定参与方为两人时,系统可以自动确定为面对面会议模式。
在一些实现中,会议系统可以根据与视频会议相关联的会议设备的数目来自动地确定会议模式。例如,但确定视频会议的接入终端数目大于两个时,系统可以自动确定为圆桌会议模式。
在一些实现中,会议系统还可以根据与视频会议相关联的配置信息来确定会议模式。例如,视频会议的参与方或组织方可以在发起视频会议前通过输入来配置会议模式。
在一些实现中,会议系统还可以根据视频会议的参与方的交互或者响应于环境的变化而在视频会议中动态地更改会议模式。例如,会议系统可以默认将两人会议模式推荐为面对面模式,并在接收到参与方指令后,动态地调整为并肩会议模式。或者,会议系统最开始仅检测到两名参与方,并启动面对面会议模式,并在检测到新的参与方加入视频会议后,可以自动地切换为圆桌会议模式。
系统架构
图5进一步示出了根据本公开实现的会议系统500的示例架构图。如图5所示,发送方550表示会议系统500中远程的参与方,其例如可以是图2A中的参与方220、图3A中的参与方320-1和320-2、或图4A中的参与方440。接收方560表示会议系统500中本地的参与方,例如图2A中的参与方210、图3A中的参与方310、或图4A中的参与方410。
如图5所示,以发送方550作为示例,会议系统500可以包括图像获取模块510-1,其被配置为利用图像捕获装置120来获取发送方550的图像。
会议系统500还包括视点确定模块520-1,其被配置为根据所获取的发送方550的图像来确定发送方550的视点信息。该视点信息可以进一步被提供至接收方560对应的视图生成模块530-2。
会议系统500还包括视图生成模块530-1,其被配置为接收由接收方560对应的视点确定模块520-2所确定的接收方560的视点信息,并基于发送方550的图像来生成发送方550的视图。该视图可以进一步被提供至接收方560对应的绘制模块540-2。
会议系统500还包括绘制模块540-1,其被配置为根据所接收的接收方560的视图和背景图像来生成最终的会议图像,以用于提供给发送方550。在一些实现中,绘制模块540-1可以直接呈现所接收的接收方560的视图。备选地,绘制模块540-1还可以对所接收的视图进行相应的处理以获得最终用于显示的接收方560的图像。
以下将结合图6至图9来详细描述各模块的实现。
视点确定
如上文所介绍的,视点确定模块520-2被配置为基于所捕获的接收方560的图像来确定接收方560的视点信息。图6进一步示出了根据本公开的一些实现的确定视点信息的示意图。
如图6所示,视点确定模块520-1或视点确定模块520-2可以基于会议模式所指示的布局信息来确定与虚拟会议空间630所对应的全局坐标系。进一步地,视点确定模块520可以进一步确定从发送方550的第一物理会议空间620到虚拟会议空间630的坐标变换
Figure BDA0003407915630000101
以及从接收方560的第二物理会议空间610到虚拟会议空间的坐标变换
Figure BDA0003407915630000102
从而可以确定第二物理会议空间610到第一物理会议空间620的坐标变换
Figure BDA0003407915630000103
进一步地,视点确定模块520-1或视点确定模块520-2可以确定接收方560在第二物理会议空间610中的第一视点位置。在一些实现中,该视点位置可以通过检测接收方560的面部特征来确定。示例性地。视点确定模块520可以检测接收方560的两个眼睛的位置,并将两个眼睛的中点位置确定为接收方560的第一视点位置。应当理解,其他适当的特征点也可以用于确定接收方560的第一视点位置。
在一些实现中,为了确定第一视点位置,可以首先对系统进行标定,从而确定显示装置110与图像捕获装置120之间的相对位置关系,以及它们相对于地面的位置。
进一步地,图像获取模块510-2每一帧都能够从图像捕获装置120获取多幅图像,其数量取决于图像捕获装置120的数量。可以对每一幅图像进行人脸检测,如果能够检测到一个人脸,就获取两只眼睛眼球中心的像素坐标,分别记为并将这两个像素的中点记为视点。如果不能检测到人脸,或检测到多个人脸,则跳过这幅图像。
在一些实现中,如果有两幅及以上的图像能够检测到眼睛,则通过三角化计算当前帧视点的三维坐标eye_pos。然后对当前帧视点的三维坐标eye_pos进行滤波。滤波方法为eye_pos’=w*eye_pos+(1-w)*eye_pos_prev。其中eye_pos_prev为上一帧视点的三维坐标,w是当前视点的权重系数。权重系数例如可以正比与eye_pos和eye_pos_prev的距离L(米),以及两帧之间的时间间隔T(秒)。示例性地,w可以被确定为(100*L)*(5*T),并最终将其值截断在0和1之间。
在一些实现中,可以由视点确定模块520-1或视点确定模块520-2根据第二物理会议空间610到第一物理会议空间620的坐标变换
Figure BDA0003407915630000111
来将第一视点位置转换为在第一物理会议空间620中的第二视点位置(也称为虚拟视点),该第二视点位置可以进一步被用于确定发送方550的视图的视点信息。
示例性地,可以由接收方560的视点确定模块520-2确定接收方560的第二视点位置,并将第二视点位置发送至发送方550。或者,可以由接收方560的视点确定模块520-2确定接收方560的第一视点位置,并将第一视点位置发送至发送方550,以由视点确定模块520-1根据第一视点位置来确定接收方560在第一物理会议空间620中的第二视点位置。
通过将接收方560的视点位置发送至发送方550以用于确定发送方550的视图,本公开的实现可以节约对发送方550的捕获图像进行传输,从而降低网络传输的开销,减少视频会议的传输时延。
视图生成
如上文所介绍的,视图生成模块530-1被配置为基于所捕获的发送方550的图像以及接收方560的视点信息来生成发送方550的视图。图7进一步示出了根据本公开的一些实现的视图生成模块的示意图700。
如图7所示,视图生成模块530-1主要包括深度预测模块740和视图绘制模块760。深度预测模块740被配置为基于由一组图像捕获装置120所捕获的发送方550的一组图像710和对应的一组深度图720来确定目标深度图750。视图绘制模块760则被配置为进一步基于目标深度图750、一组图像710和一组深度图720来生成发送方550的视图770。
在一些实现中,视图生成模块540-1可以对该组图像710进行图像分割,以保留与发送方550相关联的图像部分。应当理解,可以采用任何适当的图像分割算法来对该组图像710进行处理。
在一些实现中,用于确定目标深度图750和视图770的一组图像710可以是基于视点信息而从用于捕捉发送方550的图像的多个图像捕获装置中选择的。示例性地,以图1所示的布置100为例,图像捕获装置例如可以包括被安装在不同位置的六个深度相机。
在一些实现中,视图生成模块530-1可以基于视点信息指示的视点位置与用于捕获第一参与方的图像的多个图像捕获装置的安装位置之间的距离,从多个图像捕获装置中确定一组图像捕获装置,并获取该组图像捕获装置所捕获的一组图像710和对应的深度图720。例如,视图生成模块530可以选择安装位置与视点位置距离最近的四个深度相机,并获取该四个深度相机所捕获的图像。
在一些实现中,为了提高处理效率,视图生成模块530-1还可以包括下采样模块730,以对一组图像710和一组深度图720进行下采样,以提高运算效率。
深度预测
以下将参考图8来详细描述深度预测模块740的具体实现。如图8所示,深度预测模块740首先可以将一组深度图720,表示为{Di},投影到视点信息所指示的虚拟视点,以获得投影后的深度图{D′i}。进一步地,虚拟视点深度预测模块740可以通过平均来获得初始深度图805:
Figure BDA0003407915630000121
其中,M′i表示{D′i}的可见性掩码。
进一步地,深度预测模块740还可以基于初始深度图805来构建一组候选深度图810。具体地,深度预测模块740可以定义深度修正范围[-Δd,Δd],并从该范围中均匀地采样N个修正值{σk},并将其添加到初始深度图805,以确定一组候选深度图810:
Figure BDA0003407915630000131
进一步地,深度预测模块740可以通过利用一组候选深度图810将所述一组图像720扭曲(warp)到虚拟视点,确定与所述一组候选深度图810相关联的概率信息。
具体地,如图8所示,深度预测模块740可以利用卷积神经网络CNN 815来处理一组图像710,表示为{Ii},以确定一组图像特征820,表示为{Fi}。进一步地,深度预测模块740可以包括扭曲模块825,其被配置为根据一组虚拟深度图710而将一组图像特征820扭曲到虚拟视点。
进一步地,扭曲模块825可以进一步计算通过不同深度图扭曲后的多个图像特征之间的特征方差,以作为对应像素点的代价。示例性地,代价矩阵830可以表示为:H×W×N×C,其中H表示图像的高度,W表示图像的宽度,C表示特征通道的数目。
进一步地,深度预测模块740可以利用卷积神经网络CNN 835来处理代价矩阵830,以确定与一组候选深度图810相关联的概率信息840,表示为P,其尺寸为H×W×N。
进一步地,深度预测模块740还包括加权模块845,其被配置为基于概率信息,并根据一组候选深度图710来确定目标深度图750:
Figure BDA0003407915630000132
基于这样的方式,本公开的实现可以确定更为精准的深度图。
视图绘制
以下将参考图9来详细描述视图绘制模块760的具体实现。如图9所示,视图绘制模块760可以包括权重预测模块920,以被配置为基于输入特征910来确定一组混合权重。
在一些实现中,权重预测模块930例如可以被实现为诸如卷积神经网络的机器学习模型。在一些实现中,到该机器学习模型的输入特征910可以包括一组投影图像的特征,例如可以表示为:
Figure BDA0003407915630000141
在一些实现中,该组投影图像是根据目标深度图750将一组图像710投影到虚拟视点所确定的。
在一些实现中,输入特征910还可以包括一组投影图像所对应的可见性掩码
Figure BDA0003407915630000142
在一些实现中,输入特征910还可以包括与一组图像捕获视点相关联的深度差异信息,其中该组图像捕获视点指示该组图像捕获装置120的视点位置。具体地,对于深度图D中的每个像素p,视图绘制模块760可以确定深度信息
Figure BDA0003407915630000143
具体地,视图绘制模块760可以将深度图D投影到该组图像捕获视点,以确定一组投影深度图。进一步地,视图绘制模块760可以将将该组深度图进一步扭曲回到虚拟视点,从而确定深度信息
Figure BDA0003407915630000144
进一步地,视图绘制模块760可以确定两者之间的差异
Figure BDA0003407915630000145
应当理解,扭曲操作旨在表示将投影深度图中的像素对应到深度图D中的对应像素,而不改变投影深度图中像素的深度值。
在一些实现中,输入特征910还可以包括角度差异信息,其中角度差异信息指示与相应图像捕获视点相关联的第一角度同与虚拟视点相关联的第二角度之间的差异,第一角度基于目标深度图中像素对应的表面点与相应图像捕获视点而被确定,第二角度基于表面点与虚拟视点而被确定。
具体地,针对该组图像捕获视点中的第一捕获视点,视图绘制模块760可以确定深度图D中像素对应的表面点到第一捕获视点的第一角度,表示为
Figure BDA0003407915630000146
进一步地,视图绘制模块760还可以确定该表面点到虚拟视点的第二角度,表示为N。进一步地,视图绘制模块760可以基于第一角度和第二角度,确定角度差异信息,其表示为
Figure BDA0003407915630000147
在一些实现中,输入特征910可以表示为:
Figure BDA0003407915630000148
应当理解,视图绘制模块760也可以仅利用以上信息中的部分信息来作为输入特征910。
进一步地,权重预测模块920可以基于输入特征910来确定一组混合权重。在一些实现中,如图9所示,视图绘制模块760还可以包括上采样模块930以对一组混合权重进行上采样,从而获得与原始分辨率匹配的权重信息Wi。进一步地,权重预测模块920例如还可以对权重信息进行归一化:
Figure BDA0003407915630000151
进一步地,视图绘制模块760可以包括混合模块940,以基于所确定的权重信息来对一组投影图像进行混合,以确定混合图像:
Figure BDA0003407915630000152
在一些实现中,权重预测模块920还可以包括后处理模块950,以基于混合图像来确定第一视图770。在一些实施例中,后处理模块950可以包括卷积神经网络,以用于对混合图像进行后处理操作,其示例可以包括但不限于:优化轮廓边界、填补空洞或优化面部区域等。
基于上文所介绍的视图绘制模块,通过在确定混合权重的过程中考虑深度差异和角度差异,本公开的实现方式能够在混合过程中提高深度差异更小和/或角度差异更小的图像的权重,从而能够进一步提高所生成的视图的质量。
模型训练
如参考图7至图9所介绍的,视图生成模块530-1可以包括多个机器学习模型。在一些实现中,可以通过端到端训练来协同地训练该多个机器学习模型。
在一些实现中,用于训练的损失函数可以包括基于目标深度图的混合图像Ia与一组图像710扭曲后的扭曲图像{I′i}之间的差异:
Figure BDA0003407915630000153
其中x表示图像像素,M=∪iM′i表示Ia的有效像素掩码,||·||1表示l1范数运算。
在一些实现中,用于训练的损失函数可以包括混合图像Ia与真值(ground-truth)图像I*之间的差异:
Figure BDA0003407915630000161
其中真值图像例如可以是利用额外的图像捕获装置所获得的。
在一些实现中,用于训练的损失函数可以包括深度图的平滑性损失:
Figure BDA0003407915630000162
其中
Figure BDA0003407915630000163
表示拉普拉斯算子。
在一些实现中,用于训练的损失函数可以包括经过混合模块940输出的混合图像与真值(ground-truth)图像I*之间的差异:
Figure BDA0003407915630000164
在一些实现中,用于训练的损失函数可以包括后处理模块950输出的视图与真值(ground-truth)图像I*之间的rgba差异:
Figure BDA0003407915630000165
在一些实现中,用于训练的损失函数可以包括后处理模块950输出的视图与真值(ground-truth)图像I*之间的色彩差异:
Figure BDA0003407915630000166
在一些实现中,用于训练的损失函数可以包括α-图损失:
Figure BDA0003407915630000167
在一些实现中,用于训练的损失函数可以与人脸面部相关联的感知损失:
Figure BDA0003407915630000168
其中crop(·)表示面部检测框切除操作,并且φl(·)表示经训练的网络的特征提取运算。
在一些实现中,用于训练的损失函数可以包括GAN损失:
Figure BDA0003407915630000169
其中D表示判别器网络。
在一些实现中,用于训练的损失函数可以包括对抗损失:
Figure BDA0003407915630000171
应当理解,可以利用以上损失函数中一个或多个的组合来作为训练视图生成模块530-1的目标函数。
示例过程
图10示出了根据本公开一些实现的用于视频会议的示例过程1000的流程图。过程1000例如可以由图1中的控制设备140或其他适当的设备(例如将结合图11讨论的设备1100)来实现。
如图10所示,在框1002,控制设备140确定视频会议的会议模式,视频会议至少包括第一参与方和第二参与方,会议模式指示视频会议的虚拟会议空间的布局。
在框1004,控制设备140基于布局,确定与第二参与方相关联的视点信息,视点信息指示第二参与方在视频会议中观看第一参与方的虚拟视点。
在框1006,控制设备140基于视点信息,确定第一参与方的第一视图。
在框1008,控制设备140向与第二参与方相关联的会议设备发送第一视图,以用于向第二参与方显示会议图像,会议图像基于第一视图而被生成。
在一些实现中,虚拟会议空间包括第一子虚拟空间和第二子虚拟空间,第一子虚拟空间是通过虚拟化第一参与方所处的第一物理会议空间所确定,布局指示第一子虚拟空间和第二子虚拟空间在虚拟会议空间中的分布,第二子虚拟空间是通过虚拟化第二参与方所处的第二物理会议空间所确定。
在一些实现中,基于布局确定与第二参与方相关联的视点信息包括:基于布局,确定第一物理会议空间与虚拟会议空间之间的第一坐标变换和第二物理会议空间与虚拟会议空间之间的第二坐标变换;基于第一坐标变换和第二坐标变换,将第二参与方在第二物理会议空间中的第一视点位置变换为在第一物理会议空间中的第二视点位置;以及基于第二视点位置,确定视点信息。
在一些实现中,第一视点位置是通过检测第二参与方的面部特征点而确定。
在一些实现中,基于视点信息生成第一参与方的第一视图包括:获取由一组图像捕获装置捕获的第一参与方的一组图像,一组图像与一组深度图相对应;基于一组图像和一组深度图,确定与视点信息对应的目标深度图;以及基于目标深度图和一组图像,确定与视点信息对应的第一参与方的第一视图。
在一些实现中,方法还包括:基于视点信息指示的视点位置与用于捕获第一参与方的图像的多个图像捕获装置的安装位置之间的距离,从多个图像捕获装置中确定一组图像捕获装置。
在一些实现中,视频会议还包括第三参与方,并且会议图像的生成还基于第三参与方的第二视图。
在一些实现中,会议图像还包括可操作图像区域,可操作图像区域中的图形元素响应于第一参与方或第二参与方的交互动作而发生变化。
在一些实现中,会议模式包括以下中的至少一项:面对面会议模式、多人圆桌会议模式、并肩会议模式或演讲会议模式。
在一些实现中,确定视频会议的会议模式包括:基于以下至少一项来确定会议模式:视频会议包括的参与方的数目、与视频会议相关联的会议设备的数目、或与视频会议相关联的配置信息。
图11示出了根据本公开一些实现的用于确定视图的示例过程1100的流程图。过程1100例如可以由图1中的控制设备140或其他适当的设备(例如将结合图11讨论的设备1100)来实现。
如图11所示,在框1102,控制设备140基于一组图像和与一组图像对应的一组深度图,确定与虚拟视点相关联的目标深度图,一组图像由与一组图像捕获视点相关联的一组图像装置所捕获。
在框1104,控制设备140确定与一组图像捕获视点相关联的深度差异信息或角度差异信息;其中,深度差异信息指示与相应图像捕获视点对应的投影深度图中像素的深度与目标深度图中对应像素的深度之间的差异,投影深度图是通过将目标深度图投影到相应图像捕获视点而被确定,并且角度差异信息指示与相应图像捕获视点相关联的第一角度同与虚拟视点相关联的第二角度之间的差异,第一角度基于目标深度图中像素对应的表面点与相应图像捕获视点而被确定,第二角度基于表面点与虚拟视点而被确定。
在框1106,控制设备140基于深度差异信息或角度差异信息,确定与一组图像捕获视点相关联的一组混合权重。
在框1108,控制设备140基于一组混合权重,对一组投影图像进行混合,以确定与虚拟视点对应的目标视图,一组投影图像通过将一组图像投影到虚拟视点而被生成在一些实现中,确定与虚拟视点相关联的目标深度图包括:对一组图像和一组深度图进行下采样;以及利用经下采样的一组图像和一组深度图,确定与视点信息对应的目标深度图。
在一些实现中,基于一组混合权重,对一组投影图像进行混合包括:对一组混合权重进行上采样,以确定权重信息;以及基于权重信息,对一组投影图像进行混合,以确定与虚拟视点对应的目标视图。
在一些实现中,确定与虚拟视点相关联的目标深度图包括:基于一组深度图,确定与虚拟视点对应的初始深度图;基于初始深度图,构建一组候选深度图;通过利用一组候选深度图将一组图像扭曲到虚拟视点,确定与一组候选深度图相关联的概率信息;以及基于概率信息,根据一组候选深度图确定目标深度图。
在一些实现中,基于一组混合权重,对一组投影图像进行混合包括:基于一组混合权重,对一组投影图像进行混合,以确定混合图像;并且方法还包括:利用神经网络对混合图像进行后处理,以确定目标视图。
示例设备
图12示出了可以用来实施本公开的实施例的示例设备1200的示意性框图。应当理解,图12所示出的设备1200仅仅是示例性的,而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图12所示,设备1200的组件可以包括但不限于一个或多个处理器或处理单元1210、存储器1220、存储设备1230、一个或多个通信单元1240、一个或多个输入设备1250以及一个或多个输出设备1260。
在一些实现中,设备1200可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任何类型的移动终端、固定终端或便携式终端,包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,设备1200能够支持任何类型的针对用户的接口(诸如“可佩戴”电路等)。
处理单元1210可以是实际或虚拟处理器并且能够根据存储器1220中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高设备1200的并行处理能力。处理单元1210也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。
设备1200通常包括多个计算机存储介质。这样的介质可以是设备1200可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器1220可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器1220可以包括一个或多个会议模块1225,这些程序模块被配置为执行本文所描述的各种实现的视频会议功能。会议模块1225可以由处理单元1210访问和运行,以实现相应功能。存储设备1230可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,其能够用于存储信息和/或数据并且可以在设备1200内被访问。
设备1200的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,设备1200可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。设备1200还可以根据需要通过通信单元1240与一个或多个外部设备(未示出)进行通信,外部设备诸如数据库、其他存储设备、服务器、显示设备等,与一个或多个使得用户与设备1200交互的设备进行通信,或者与使得设备1200与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
输入设备1250可以是一个或多个各种输入设备,例如鼠标、键盘、追踪球、语音输入设备、相机等。输出设备1260可以是一个或多个输出设备,例如显示器、扬声器、打印机等。
示例实现方式
以下列出了本公开的一些示例实现方式。
在本公开的第一方面,提供了一种用于视频会议的方法。该方法包括:确定视频会议的会议模式,视频会议至少包括第一参与方和第二参与方,会议模式指示视频会议的虚拟会议空间的布局;基于布局,确定与第二参与方相关联的视点信息,视点信息指示第二参与方在视频会议中观看第一参与方的虚拟视点;基于视点信息,确定第一参与方的第一视图;以及向与第二参与方相关联的会议设备发送第一视图,以用于向第二参与方显示会议图像,会议图像基于第一视图而被生成。
在一些实现中,虚拟会议空间包括第一子虚拟空间和第二子虚拟空间,布局指示第一子虚拟空间和第二子虚拟空间在虚拟会议空间中的分布,第一子虚拟空间是通过虚拟化第一参与方所处的第一物理会议空间所确定,第二子虚拟空间是通过虚拟化第二参与方所处的第二物理会议空间所确定。
在一些实现中,基于布局确定与第二参与方相关联的视点信息包括:基于布局,确定第一物理会议空间与虚拟会议空间之间的第一坐标变换和第二物理会议空间与虚拟会议空间之间的第二坐标变换;基于第一坐标变换和第二坐标变换,将第二参与方在第二物理会议空间中的第一视点位置变换为在第一物理会议空间中的第二视点位置;以及基于第二视点位置,确定视点信息。
在一些实现中,第一视点位置是通过检测第二参与方的面部特征点而确定。
在一些实现中,基于视点信息生成第一参与方的第一视图包括:获取由一组图像捕获装置捕获的第一参与方的一组图像,一组图像与一组深度图相对应;基于一组图像和一组深度图,确定与视点信息对应的目标深度图;以及基于目标深度图和一组图像,确定与视点信息对应的第一参与方的第一视图。
在一些实现中,方法还包括:基于视点信息指示的视点位置与用于捕获第一参与方的图像的多个图像捕获装置的安装位置之间的距离,从多个图像捕获装置中确定一组图像捕获装置。
在一些实现中,视频会议还包括第三参与方,并且会议图像的生成还基于第三参与方的第二视图。
在一些实现中,会议图像还包括可操作图像区域,可操作图像区域中的图形元素响应于第一参与方或第二参与方的交互动作而发生变化。
在一些实现中,会议模式包括以下中的至少一项:面对面会议模式、多人圆桌会议模式、并肩会议模式或演讲会议模式。
在一些实现中,确定视频会议的会议模式包括:基于以下至少一项来确定会议模式:视频会议包括的参与方的数目、与视频会议相关联的会议设备的数目、或与视频会议相关联的配置信息。
在本公开的第二方面,提供了一种电子设备。该设备包括:处理单元;以及存储器,耦合至处理单元并且包含存储于其上的指令,指令在由处理单元执行时使设备执行以下动作:确定视频会议的会议模式,视频会议至少包括第一参与方和第二参与方,会议模式指示视频会议的虚拟会议空间的布局;基于布局,确定与第二参与方相关联的视点信息,视点信息指示第二参与方在视频会议中观看第一参与方的虚拟视点;基于视点信息,确定第一参与方的第一视图;以及向与第二参与方相关联的会议设备发送第一视图,以用于向第二参与方显示会议图像,会议图像基于第一视图而被生成。
在一些实现中,虚拟会议空间包括第一子虚拟空间和第二子虚拟空间,布局指示第一子虚拟空间和第二子虚拟空间在虚拟会议空间中的分布,第一子虚拟空间是通过虚拟化第一参与方所处的第一物理会议空间所确定,第二子虚拟空间是通过虚拟化第二参与方所处的第二物理会议空间所确定。
在一些实现中,基于布局确定与第二参与方相关联的视点信息包括:基于布局,确定第一物理会议空间与虚拟会议空间之间的第一坐标变换和第二物理会议空间与虚拟会议空间之间的第二坐标变换;基于第一坐标变换和第二坐标变换,将第二参与方在第二物理会议空间中的第一视点位置变换为在第一物理会议空间中的第二视点位置;以及基于第二视点位置,确定视点信息。
在一些实现中,第一视点位置是通过检测第二参与方的面部特征点而确定。
在一些实现中,基于视点信息生成第一参与方的第一视图包括:获取由一组图像捕获装置捕获的第一参与方的一组图像,一组图像与一组深度图相对应;基于一组图像和一组深度图,确定与视点信息对应的目标深度图;以及基于目标深度图和一组图像,确定与视点信息对应的第一参与方的第一视图。
在一些实现中,方法还包括:基于视点信息指示的视点位置与用于捕获第一参与方的图像的多个图像捕获装置的安装位置之间的距离,从多个图像捕获装置中确定一组图像捕获装置。
在一些实现中,视频会议还包括第三参与方,并且会议图像的生成还基于第三参与方的第二视图。
在一些实现中,会议图像还包括可操作图像区域,可操作图像区域中的图形元素响应于第一参与方或第二参与方的交互动作而发生变化。
在一些实现中,会议模式包括以下中的至少一项:面对面会议模式、多人圆桌会议模式、并肩会议模式或演讲会议模式。
在一些实现中,确定视频会议的会议模式包括:基于以下至少一项来确定会议模式:视频会议包括的参与方的数目、与视频会议相关联的会议设备的数目、或与视频会议相关联的配置信息。
在本公开的第三方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令,机器可执行指令在由设备执行时使设备执行以下动作:确定视频会议的会议模式,视频会议至少包括第一参与方和第二参与方,会议模式指示视频会议的虚拟会议空间的布局;基于布局,确定与第二参与方相关联的视点信息,视点信息指示第二参与方在视频会议中观看第一参与方的虚拟视点;基于视点信息,确定第一参与方的第一视图;以及向与第二参与方相关联的会议设备发送第一视图,以用于向第二参与方显示会议图像,会议图像基于第一视图而被生成。
在一些实现中,虚拟会议空间包括第一子虚拟空间和第二子虚拟空间,布局指示第一子虚拟空间和第二子虚拟空间在虚拟会议空间中的分布,第一子虚拟空间是通过虚拟化第一参与方所处的第一物理会议空间所确定,第二子虚拟空间是通过虚拟化第二参与方所处的第二物理会议空间所确定。
在一些实现中,基于布局确定与第二参与方相关联的视点信息包括:基于布局,确定第一物理会议空间与虚拟会议空间之间的第一坐标变换和第二物理会议空间与虚拟会议空间之间的第二坐标变换;基于第一坐标变换和第二坐标变换,将第二参与方在第二物理会议空间中的第一视点位置变换为在第一物理会议空间中的第二视点位置;以及基于第二视点位置,确定视点信息。
在一些实现中,第一视点位置是通过检测第二参与方的面部特征点而确定。
在一些实现中,基于视点信息生成第一参与方的第一视图包括:获取由一组图像捕获装置捕获的第一参与方的一组图像,一组图像与一组深度图相对应;基于一组图像和一组深度图,确定与视点信息对应的目标深度图;以及基于目标深度图和一组图像,确定与视点信息对应的第一参与方的第一视图。
在一些实现中,方法还包括:基于视点信息指示的视点位置与用于捕获第一参与方的图像的多个图像捕获装置的安装位置之间的距离,从多个图像捕获装置中确定一组图像捕获装置。
在一些实现中,视频会议还包括第三参与方,并且会议图像的生成还基于第三参与方的第二视图。
在一些实现中,会议图像还包括可操作图像区域,可操作图像区域中的图形元素响应于第一参与方或第二参与方的交互动作而发生变化。
在一些实现中,会议模式包括以下中的至少一项:面对面会议模式、多人圆桌会议模式、并肩会议模式或演讲会议模式。
在一些实现中,确定视频会议的会议模式包括:基于以下至少一项来确定会议模式:视频会议包括的参与方的数目、与视频会议相关联的会议设备的数目、或与视频会议相关联的配置信息。
在本公开的第四方面,提供了一种用于视频会议的方法。该方法包括:基于一组图像和与一组图像对应的一组深度图,确定与虚拟视点相关联的目标深度图,一组图像由与一组图像捕获视点相关联的一组图像装置所捕获;确定与一组图像捕获视点相关联的深度差异信息或角度差异信息;其中,深度差异信息指示与相应图像捕获视点对应的投影深度图中像素的深度与目标深度图中对应像素的深度之间的差异,投影深度图是通过将目标深度图投影到相应图像捕获视点而被确定,并且角度差异信息指示与相应图像捕获视点相关联的第一角度同与虚拟视点相关联的第二角度之间的差异,第一角度基于目标深度图中像素对应的表面点与相应图像捕获视点而被确定,第二角度基于表面点与虚拟视点而被确定;基于深度差异信息或角度差异信息,确定与一组图像捕获视点相关联的一组混合权重;以及基于一组混合权重,对一组投影图像进行混合,以确定与虚拟视点对应的目标视图,一组投影图像通过将一组图像投影到虚拟视点而被生成。
在一些实现中,确定与虚拟视点相关联的目标深度图包括:对一组图像和一组深度图进行下采样;以及利用经下采样的一组图像和一组深度图,确定与视点信息对应的目标深度图。
在一些实现中,基于一组混合权重,对一组投影图像进行混合包括:对一组混合权重进行上采样,以确定权重信息;以及基于权重信息,对一组投影图像进行混合,以确定与虚拟视点对应的目标视图。
在一些实现中,确定与虚拟视点相关联的目标深度图包括:基于一组深度图,确定与虚拟视点对应的初始深度图;基于初始深度图,构建一组候选深度图;通过利用一组候选深度图将一组图像扭曲到虚拟视点,确定与一组候选深度图相关联的概率信息;以及基于概率信息,根据一组候选深度图确定目标深度图。
在一些实现中,基于一组混合权重,对一组投影图像进行混合包括:基于一组混合权重,对一组投影图像进行混合,以确定混合图像;并且方法还包括:利用神经网络对混合图像进行后处理,以确定目标视图。
在本公开的第五方面,提供了一种电子设备。该设备包括:处理单元;以及存储器,耦合至处理单元并且包含存储于其上的指令,指令在由处理单元执行时使设备执行以下动作:基于一组图像和与一组图像对应的一组深度图,确定与虚拟视点相关联的目标深度图,一组图像由与一组图像捕获视点相关联的一组图像装置所捕获;确定与一组图像捕获视点相关联的深度差异信息或角度差异信息;其中,深度差异信息指示与相应图像捕获视点对应的投影深度图中像素的深度与目标深度图中对应像素的深度之间的差异,投影深度图是通过将目标深度图投影到相应图像捕获视点而被确定,并且角度差异信息指示与相应图像捕获视点相关联的第一角度同与虚拟视点相关联的第二角度之间的差异,第一角度基于目标深度图中像素对应的表面点与相应图像捕获视点而被确定,第二角度基于表面点与虚拟视点而被确定;基于深度差异信息或角度差异信息,确定与一组图像捕获视点相关联的一组混合权重;以及基于一组混合权重,对一组投影图像进行混合,以确定与虚拟视点对应的目标视图,一组投影图像通过将一组图像投影到虚拟视点而被生成。
在一些实现中,确定与虚拟视点相关联的目标深度图包括:对一组图像和一组深度图进行下采样;以及利用经下采样的一组图像和一组深度图,确定与视点信息对应的目标深度图。
在一些实现中,基于一组混合权重,对一组投影图像进行混合包括:对一组混合权重进行上采样,以确定权重信息;以及基于权重信息,对一组投影图像进行混合,以确定与虚拟视点对应的目标视图。
在一些实现中,确定与虚拟视点相关联的目标深度图包括:基于一组深度图,确定与虚拟视点对应的初始深度图;基于初始深度图,构建一组候选深度图;通过利用一组候选深度图将一组图像扭曲到虚拟视点,确定与一组候选深度图相关联的概率信息;以及基于概率信息,根据一组候选深度图确定目标深度图。
在一些实现中,基于一组混合权重,对一组投影图像进行混合包括:基于一组混合权重,对一组投影图像进行混合,以确定混合图像;并且方法还包括:利用神经网络对混合图像进行后处理,以确定目标视图。
在本公开的第六方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令,机器可执行指令在由设备执行时使设备执行以下动作:基于一组图像和与一组图像对应的一组深度图,确定与虚拟视点相关联的目标深度图,一组图像由与一组图像捕获视点相关联的一组图像装置所捕获;确定与一组图像捕获视点相关联的深度差异信息或角度差异信息;其中,深度差异信息指示与相应图像捕获视点对应的投影深度图中像素的深度与目标深度图中对应像素的深度之间的差异,投影深度图是通过将目标深度图投影到相应图像捕获视点而被确定,并且角度差异信息指示与相应图像捕获视点相关联的第一角度同与虚拟视点相关联的第二角度之间的差异,第一角度基于目标深度图中像素对应的表面点与相应图像捕获视点而被确定,第二角度基于表面点与虚拟视点而被确定;基于深度差异信息或角度差异信息,确定与一组图像捕获视点相关联的一组混合权重;以及基于一组混合权重,对一组投影图像进行混合,以确定与虚拟视点对应的目标视图,一组投影图像通过将一组图像投影到虚拟视点而被生成。
在一些实现中,确定与虚拟视点相关联的目标深度图包括:对一组图像和一组深度图进行下采样;以及利用经下采样的一组图像和一组深度图,确定与视点信息对应的目标深度图。
在一些实现中,基于一组混合权重,对一组投影图像进行混合包括:对一组混合权重进行上采样,以确定权重信息;以及基于权重信息,对一组投影图像进行混合,以确定与虚拟视点对应的目标视图。
在一些实现中,确定与虚拟视点相关联的目标深度图包括:基于一组深度图,确定与虚拟视点对应的初始深度图;基于初始深度图,构建一组候选深度图;通过利用一组候选深度图将一组图像扭曲到虚拟视点,确定与一组候选深度图相关联的概率信息;以及基于概率信息,根据一组候选深度图确定目标深度图。
在一些实现中,基于一组混合权重,对一组投影图像进行混合包括:基于一组混合权重,对一组投影图像进行混合,以确定混合图像;并且方法还包括:利用神经网络对混合图像进行后处理,以确定目标视图。
在本公开的第七方面,提供了一种视频会议系统。该系统包括:至少两个会议单元,至少两个会议单元中的每个会议单元包括:一组图像捕获装置,被配置为捕获视频会议的参与方的图像,参与方处于物理会议空间中;以及显示装置,被设置在物理会议空间中,以用于向参与方提供沉浸式会议图像,沉浸式会议图像包括视频会议的至少一个其他参与方的视图;其中,至少两个会议单元的至少两个物理会议空间被虚拟化为至少两个子虚拟空间,至少两个子虚拟空间根据视频会议的会议模式所指示的布局而被组织为用于视频会议的虚拟会议空间。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (20)

1.一种用于视频会议的方法,包括:
确定视频会议的会议模式,所述视频会议至少包括第一参与方和第二参与方,所述会议模式指示所述视频会议的虚拟会议空间的布局;
基于所述布局,确定与所述第二参与方相关联的视点信息,所述视点信息指示所述第二参与方在所述视频会议中观看所述第一参与方的虚拟视点;
基于所述视点信息,确定所述第一参与方的第一视图;以及
向与所述第二参与方相关联的会议设备发送所述第一视图,以用于向所述第二参与方显示会议图像,所述会议图像基于所述第一视图而被生成。
2.根据权利要求1所述的方法,其中所述虚拟会议空间包括第一子虚拟空间和第二子虚拟空间,所述布局指示所述第一子虚拟空间和所述第二子虚拟空间在所述虚拟会议空间中的分布,所述第一子虚拟空间是通过虚拟化所述第一参与方所处的第一物理会议空间所确定,所述第二子虚拟空间是通过虚拟化所述第二参与方所处的第二物理会议空间所确定。
3.根据权利要求2所述的方法,其中基于所述布局确定与所述第二参与方相关联的视点信息包括:
基于所述布局,确定所述第一物理会议空间与所述虚拟会议空间之间的第一坐标变换和所述第二物理会议空间与所述虚拟会议空间之间的第二坐标变换;
基于所述第一坐标变换和所述第二坐标变换,将所述第二参与方在所述第二物理会议空间中的第一视点位置变换为在所述第一物理会议空间中的第二视点位置;以及
基于所述第二视点位置,确定所述视点信息。
4.根据权利要求3所述的方法,其中所述第一视点位置是通过检测所述第二参与方的面部特征点而确定。
5.根据权利要求1所述的方法,其中基于所述视点信息生成所述第一参与方的第一视图包括:
获取由一组图像捕获装置捕获的所述第一参与方的一组图像,所述一组图像与一组深度图相对应;
基于所述一组图像和所述一组深度图,确定与所述视点信息对应的目标深度图;以及
基于所述目标深度图和所述一组图像,确定与所述视点信息对应的所述第一参与方的所述第一视图。
6.根据权利要求5所述的方法,还包括:
基于所述视点信息指示的视点位置与用于捕获所述第一参与方的图像的多个图像捕获装置的安装位置之间的距离,从所述多个图像捕获装置中确定所述一组图像捕获装置。
7.根据权利要求1所述的方法,其中所述视频会议还包括第三参与方,并且所述会议图像的生成还基于所述第三参与方的第二视图。
8.根据权利要求1所述的方法,其中所述会议图像还包括可操作图像区域,所述可操作图像区域中的图形元素响应于所述第一参与方或所述第二参与方的交互动作而发生变化。
9.根据权利要求1所述的方法,其中所述会议模式包括以下中的至少一项:面对面会议模式、多人圆桌会议模式、并肩会议模式或演讲会议模式。
10.根据权利要求1所述的方法,其中确定所述视频会议的所述会议模式包括:
基于以下至少一项来确定所述会议模式:所述视频会议包括的参与方的数目、与所述视频会议相关联的会议设备的数目、或与所述视频会议相关联的配置信息。
11.一种生成视图的方法,包括:
基于一组图像和与所述一组图像对应的一组深度图,确定与虚拟视点相关联的目标深度图,所述一组图像由与一组图像捕获视点相关联的一组图像装置所捕获;
确定与所述一组图像捕获视点相关联的深度差异信息或角度差异信息;
其中,所述深度差异信息指示与相应图像捕获视点对应的投影深度图中像素的深度与所述目标深度图中对应像素的深度之间的差异,所述投影深度图是通过将所述目标深度图投影到所述相应图像捕获视点而被确定,并且
所述角度差异信息指示与所述相应图像捕获视点相关联的第一角度同与所述虚拟视点相关联的第二角度之间的差异,所述第一角度基于所述目标深度图中像素对应的表面点与所述相应图像捕获视点而被确定,所述第二角度基于所述表面点与所述虚拟视点而被确定;
基于所述深度差异信息或所述角度差异信息,确定与所述一组图像捕获视点相关联的一组混合权重;以及
基于所述一组混合权重,对一组投影图像进行混合,以确定与所述虚拟视点对应的目标视图,所述一组投影图像通过将所述一组图像投影到所述虚拟视点而被生成。
12.根据权利要求11所述的方法,其中确定与虚拟视点相关联的目标深度图包括:
对所述一组图像和所述一组深度图进行下采样;以及
利用经下采样的所述一组图像和所述一组深度图,确定与所述视点信息对应的所述目标深度图。
13.根据权利要求12所述的方法,其中基于所述一组混合权重,对所述一组投影图像进行混合包括:
对所述一组混合权重进行上采样,以确定权重信息;以及
基于所述权重信息,对所述一组投影图像进行混合,以确定与所述虚拟视点对应的目标视图。
14.根据权利要求11所述的方法,其中确定与虚拟视点相关联的目标深度图包括:
基于所述一组深度图,确定与所述虚拟视点对应的初始深度图;
基于所述初始深度图,构建一组候选深度图;
通过利用所述一组候选深度图将所述一组图像变形到所述虚拟视点,确定与所述一组候选深度图相关联的概率信息;以及
基于所述概率信息,根据所述一组候选深度图确定所述目标深度图。
15.根据权利要求11所述的方法,其中基于所述一组混合权重,对所述一组投影图像进行混合包括:基于所述一组混合权重,对所述一组投影图像进行混合,以确定混合图像;并且
所述方法还包括:利用神经网络对所述混合图像进行后处理,以确定所述目标视图。
16.一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述电子设备根据权利要求1至10中任一项所述的方法。
17.一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述电子设备根据权利要求11至15中任一项所述的方法。
18.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令,所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1至10中任一项所述的方法。
19.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令,所述机器可执行指令在由设备执行时使所述设备执行根据权利要求11至15中任一项所述的方法。
20.一种视频会议系统,包括:
至少两个会议单元,所述至少两个会议单元中的每个会议单元包括:
一组图像捕获装置,被配置为捕获视频会议的参与方的图像,所述参与方处于物理会议空间中;以及
显示装置,被设置在所述物理会议空间中,以用于向所述参与方提供沉浸式会议图像,所述沉浸式会议图像包括所述视频会议的至少一个其他参与方的视图;
其中,所述至少两个会议单元的至少两个物理会议空间被虚拟化为至少两个子虚拟空间,所述至少两个子虚拟空间根据所述视频会议的会议模式所指示的布局而被组织为用于所述视频会议的虚拟会议空间。
CN202111522154.3A 2021-12-13 2021-12-13 沉浸式视频会议系统 Pending CN114339120A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111522154.3A CN114339120A (zh) 2021-12-13 2021-12-13 沉浸式视频会议系统
PCT/US2022/049472 WO2023113948A1 (en) 2021-12-13 2022-11-10 Immersive video conference system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111522154.3A CN114339120A (zh) 2021-12-13 2021-12-13 沉浸式视频会议系统

Publications (1)

Publication Number Publication Date
CN114339120A true CN114339120A (zh) 2022-04-12

Family

ID=81051609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111522154.3A Pending CN114339120A (zh) 2021-12-13 2021-12-13 沉浸式视频会议系统

Country Status (2)

Country Link
CN (1) CN114339120A (zh)
WO (1) WO2023113948A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9041739B2 (en) * 2012-01-31 2015-05-26 Microsoft Technology Licensing, Llc Matching physical locations for shared virtual experience
US8976224B2 (en) * 2012-10-10 2015-03-10 Microsoft Technology Licensing, Llc Controlled three-dimensional communication endpoint
US10089788B2 (en) * 2016-05-25 2018-10-02 Google Llc Light-field viewpoint and pixel culling for a head mounted display device

Also Published As

Publication number Publication date
WO2023113948A1 (en) 2023-06-22

Similar Documents

Publication Publication Date Title
US11210838B2 (en) Fusing, texturing, and rendering views of dynamic three-dimensional models
US10535181B2 (en) Virtual viewpoint for a participant in an online communication
US11100664B2 (en) Depth-aware photo editing
US10430994B1 (en) Techniques for determining a three-dimensional textured representation of a surface of an object from a set of images with varying formats
US8994780B2 (en) Video conferencing enhanced with 3-D perspective control
Isgro et al. Three-dimensional image processing in the future of immersive media
US8976224B2 (en) Controlled three-dimensional communication endpoint
EP3954111A1 (en) Multiuser asymmetric immersive teleconferencing
CN112243583A (zh) 多端点混合现实会议
KR102612529B1 (ko) 신규 뷰 합성을 위한 신경 블렌딩
US20230231983A1 (en) System and method for determining directionality of imagery using head tracking
Mulligan et al. Stereo-based environment scanning for immersive telepresence
Baričević et al. User-perspective AR magic lens from gradient-based IBR and semi-dense stereo
US11887249B2 (en) Systems and methods for displaying stereoscopic rendered image data captured from multiple perspectives
CN116708862A (zh) 直播间的虚拟背景生成方法、计算机设备及存储介质
Zhu et al. 3D modeling and motion parallax for improved videoconferencing
Zhu et al. A shared augmented virtual environment for real‐time mixed reality applications
CN114339120A (zh) 沉浸式视频会议系统
US11562529B2 (en) Generating and modifying an artificial reality environment using occlusion surfaces at predetermined distances
Thatte et al. Real-World Virtual Reality With Head-Motion Parallax
Jung et al. Immersive Virtual Reality Content Supporting a Wide and Free Viewpoint made with a Single 360° Camera
Gradient-Based User-Perspective AR Magic Lens from Gradient-Based IBR and Semi-Dense Stereo
Daniel et al. Design and Development of a Desktop-Based Tele-Immersion Prototype

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination