CN116420351A - 提供虚拟会议中的发送参与者的3d表示 - Google Patents
提供虚拟会议中的发送参与者的3d表示 Download PDFInfo
- Publication number
- CN116420351A CN116420351A CN202180074870.1A CN202180074870A CN116420351A CN 116420351 A CN116420351 A CN 116420351A CN 202180074870 A CN202180074870 A CN 202180074870A CN 116420351 A CN116420351 A CN 116420351A
- Authority
- CN
- China
- Prior art keywords
- real
- time
- data
- model
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000003384 imaging method Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 24
- 230000003190 augmentative effect Effects 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 16
- 230000000007 visual effect Effects 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/157—Conference systems defining a virtual conference space and using avatars or agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/12—Acquisition of 3D measurements of objects
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Radio Relay Systems (AREA)
Abstract
提供了一种用于提供虚拟会议中的发送参与者的三维(3D)表示的方法。该方法在表示提供器(1)中执行,并且包括:获得人的至少一部分的非实时3D模型;获得虚拟会议的发送参与者的部分实时3D数据;以及将非实时3D模型与部分实时3D数据进行组合,从而产生发送参与者的组合3D表示。
Description
技术领域
本公开涉及用于提供虚拟会议中的发送参与者的三维(3D)表示的方法、用于提供虚拟会议中的发送参与者的3D表示的表示提供器、以及用于提供虚拟会议中的发送参与者的3D表示的计算机程序。
背景技术
对远程虚拟会议的需求不断增加。尽管二维(2D)视频(例如经由MicrosoftTeams)在当今很常见,但由更强大的扩展现实(XR)设备驱动的三维(3D)沉浸式通信很快会将虚拟会议的用户体验提升到新的水平。XR是增强现实(AR)、虚拟现实(VR)等的总称。
为了使3D虚拟会议工作,应当例如基于诸如激光雷达、雷达或立体成像之类的技术,使用3D成像设备来捕获每个参与者。但是,3D成像导致在参与者的用户设备之间传输大量数据。
对于虚拟会议来说,实时从3D成像设备、3D流(例如点云)捕获数据并且对数据进行编码仍然是一个挑战。对于带宽变化很大的网络(临时尖峰/中断),并且考虑到3D捕获流的带宽需求,这也是一个问题。另一个问题是网络延迟抖动,其对会议体验产生显著的负面影响。
发明内容
一个目的是减少3D虚拟会议的资源使用,特别是诸如带宽之类的网络资源使用。
根据第一方面,提供了一种用于提供虚拟会议中的发送参与者的三维3D表示的方法。所述方法在表示提供器中执行。所述方法包括:获得人的至少一部分的非实时3D模型;获得所述虚拟会议的所述发送参与者的部分实时3D数据;以及将所述非实时3D模型与所述部分实时3D数据进行组合,从而产生所述发送参与者的组合3D表示。
根据第二方面,提供了一种用于提供虚拟会议中的发送参与者的三维3D表示的表示提供器。所述表示提供器包括处理器和存储指令的存储器,所述指令在由所述处理器执行时使得所述表示提供器:获得人的至少一部分的非实时3D模型;获得所述虚拟会议的所述发送参与者的部分实时3D数据;以及将所述非实时3D模型与所述部分实时3D数据进行组合,从而产生所述发送参与者的组合3D表示。
根据第三方面,提供了一种用于提供虚拟会议中的发送参与者的3D表示的计算机程序。所述计算机程序包括计算机程序代码,所述计算机程序代码当在表示提供器上被执行时使得所述表示提供器:获得人的至少一部分的非实时3D模型;获得所述虚拟会议的所述发送参与者的部分实时3D数据;以及将所述非实时3D模型与所述部分实时3D数据进行组合,从而产生所述发送参与者的组合3D表示。
根据第四方面,提供了一种计算机程序产品,其包括根据第三方面的计算机程序和所述计算机程序被存储在其上的计算机可读装置。
在本上下文中,部分实时3D数据被理解为是表示发送参与者的部分(例如特定身体部分,如参与者的头部)的实时摄像机流。在虚拟会议期间实时捕获实时摄像机流。人的至少一部分的非实时3D模型被理解为是表示发送参与者的3D模型,基于非实时3D模型,可以通过将部分实时3D数据与非实时3D模型进行组合来导出发送参与者的完整表示。非实时3D模型是预先生成的(非实时),并且可以是例如用于与发送参与者具有相同性别和体型的人的通用模型,或者是特定于发送参与者的模型。通过在虚拟会议期间仅发送部分实时3D数据而不是参与者的完整表示,并且将部分实时3D数据与非实时3D模型进行组合,降低了会议期间对网络带宽的要求。
通常,除非本文另外明确定义,否则权利要求中使用的所有术语将根据其在技术领域中的普通含义来解释。除非另外明确说明,否则对一/一个/该元件、装置、组件、部件、步骤等的所有引用应公开地解释为是指该元件、装置、组件、部件、步骤等的至少一个实例。除非明确说明,否则本文公开的任何方法的步骤不必以所公开的确切顺序执行。
附图说明
现在参考附图通过示例的方式来描述各方面和实施例,其中:
图1是示出其中可以针对虚拟会议应用本文提供的实施例的环境的示意图;
图2是示出图1所示的参与者的虚拟会议的示意图;
图3是示出组合3D数据的实施例的示意图,其中非实时3D模型基于2D摄像机源;
图4是示出组合3D数据的实施例的示意图,其中非实时3D模型基于3D摄像机源;
图5是示出3D建模实施例的调用流程的序列图,其中非实时3D模型和部分实时3D数据在服务器中被组合;
图6是示出3D建模实施例的调用流程的序列图,其中非实时3D模型和部分实时3D数据由接收者用户设备组合;
图7是示出3D建模实施例的调用流程的序列图,其中个性化3D模型和部分实时3D数据在服务器中被组合;
图8是示出3D建模实施例的调用流程的序列图,其中个性化3D模型和部分实时3D数据由接收者用户设备组合;
图9示出了基于2D图像输入而生成的3D模型;
图10示出了来自点云的部分3D数据;
图11是示出基于来自服务器的视觉反馈对组合3D表示与实时流进行交叉验证的调用流程的序列图;
图12A-12B是示出用于提供虚拟会议中的发送参与者的3D表示的方法的实施例的流程图;
图13是示出表示提供器的组件的示意图;
图14是示出根据实施例的图13的表示提供器1的功能模块的示意图;以及
图15示出了包括计算机可读装置的计算机程序产品的示例。
具体实施方式
现在将在以下参考附图更全面地描述本公开的各方面,在附图中示出了本发明的特定实施例。但是,这些方面可以以多种不同的形式体现,并且不应被解释为限制;而是,通过示例的方式提供这些实施例以使得本公开详尽并完整,并且将本发明的所有方面的范围完全传达给本领域技术人员。说明书中相同的编号指相同的元件。
本文提供的实施例通过将部分实时3D数据(由发送参与者处的成像设备实时捕获)与非实时3D模型进行组合,提供了虚拟会议中的参与者的资源高效的3D表示。与依赖于3D计算机生成的化身(avatar)的现有技术相比,本文提供的实施例通过用由3D成像设备捕获的实时3D数据增强发送参与者的3D模型,来提供会议参与者的真实表示。因为完整的3D捕获深度图像(其提供发送参与者的完整捕获表示)是带宽密集的并且对延迟要求很高,所以本文提供的实施例将从3D成像设备实时捕获的部分实时3D数据与参与者的非实时3D模型表示进行组合,以提供真实的3D表示和降低的网络要求两者。
在本文提供的实施例中,部分实时3D数据(例如以流的形式)从参与者(在本文中表示为发送参与者)的3D成像设备被实时发送到网络中的服务器(例如边缘云服务器),在该服务器中,该部分实时3D数据被与训练后的非实时3D模型进行组合,以提供发送参与者的组合3D表示。这降低了传送实时3D数据对网络的带宽要求,并且将服务器中的参与者的3D模型与部分地表示参与者的实时3D流进行组合,以提供发送参与者的完整3D表示以用于由接收用户设备呈现。非实时3D模型可选地被加密以保护隐私。其目的是让发送参与者控制3D模型的使用方式,即,未经同意不得重用3D模型。
本文提供的实施例降低了对网络的实时带宽和延迟以及延迟抖动要求。与当今的2D视频通信相比,3D虚拟会议向参与者提供3D沉浸式体验。要注意的是,虚拟会议在此被解释为允许在至少两个参与者之间使用3D设备实现虚拟存在的任何连接,例如被解释为3D视频电话、3D虚拟商务会议、3D虚拟庭审等。
实施例能够基于移动运营商域中的所谓边缘云中的服务器,通过这种方式能够针对虚拟3D通信提供新的服务产品,并且可选地保护从边缘云服务器到用户设备的3D通信。
与否则可能的情况相比,降低的带宽、延迟和延迟抖动要求允许在网络的更大部分处(即,在网络的更深处,例如在小区边缘,包括深度室内位置)提供虚拟3D通信服务。
图1是示出其中可以针对虚拟会议应用本文提供的实施例的环境的示意图。存在第一参与者5a、第二参与者5b和第三参与者。不同实体之间的通信由通信网络6来实现。通信网络可以是基于互联网协议(IP)的网络。该网络可以例如包括本地无线网络、蜂窝网络、有线局域网、广域网(例如互联网)等中的任何一个或多个。
第一参与者5a在第一物理空间7a(例如家或办公室)中,并且具有能够呈现3D内容的第一用户设备2a。例如,第一用户设备2a可以是XR设备,例如采取眼镜、智能电话或平板电脑的形式。提供了第一3D成像设备4a以捕获第一参与者5a的3D图像。可选地,第一3D成像设备4a形成第一用户设备2a的一部分(未示出)。第一用户设备2a和第一3D成像设备4a中的每一个都直接(如图所示)或经由另一个本地设备(例如经由第一用户设备2a)被连接到通信网络6。
第二参与者5b在第二物理空间7b(例如家或办公室)中,并且具有能够呈现3D内容的第二用户设备2b。例如,第二用户设备2b可以是XR设备,例如采取眼镜或智能电话的形式。提供了第二3D成像设备4b以捕获第二参与者5b的3D图像。可选地,第二3D成像设备4b形成第二用户设备2b的一部分(未示出)。第二用户设备2b和第二3D成像设备4b中的每一个都直接(如图所示)或经由另一个本地设备(例如经由第二用户设备2b)被连接到通信网络6。
第三参与者5c在第三物理空间7c(例如家或办公室)中,并且具有能够呈现3D内容的第三用户设备2c。例如,第三用户设备2c可以是XR设备,例如采取眼镜或智能电话的形式。提供了第三3D成像设备4c以捕获第三参与者5c的3D图像。可选地,第三3D成像设备4c形成第三用户设备2c的一部分(未示出)。第三用户设备2c和第三3D成像设备4c中的每一个都直接(如图所示)或经由另一个本地设备(例如经由第三用户设备2c)被连接到通信网络6。
3D成像设备4a-4c可以使用任何一种合适的技术(例如激光雷达、雷达、立体成像等)或这些技术的组合来实现。来自3D成像设备4a-4c的输出可以是任何合适的格式,例如点云、RGB(红绿蓝)深度、网格(mesh)等。
提供了被连接到通信网络6的服务器3。服务器3可以形成由云服务提供商提供的云服务的一部分。服务器3使用单个物理计算机来实现,或者使用单个位置中或跨越多个位置的多个计算机来实现。
使用图1中公开的组件,参与者5a、5b、5c可以建立虚拟会议,从而提供其他参与者的视觉3D呈现。
图2是示出图1所示的参与者的虚拟会议的示意图。图2中的视图是虚拟会议的3D环境的虚拟透视图,其具有第一参与者5a的第一表示5a’、第二参与者5b的第二表示5b’和第三参与者5c的第三表示5c’。在相应的用户设备2a、2b、2c的实际呈现中,视图被呈现为从相应的表示5a’、5b’、5c’看到的视图。
以下提供了其中描述一个参与者的表示的实施例。该参与者被表示为发送参与者,并且观看发送参与者的参与者被称为接收参与者。但是,要注意的是,可以向所有其他参与者类似地表示虚拟会议的所有参与者。换言之,本文提供的实施例可以被应用于具有至少一个发送参与者的多个参与者。换言之,例如如果发送参与者正在演讲,则可以在一个或多个接收参与者的用户设备上呈现该发送参与者。替代地或附加地,可以在其他参与者的用户设备上呈现两个或更多个发送参与者。
图3是示出3D数据组合的实施例的示意图,其中非实时3D模型基于2D摄像机源。这示出了基于将训练后的非实时3D模型与部分实时3D数据进行组合的实施例。2D摄像机流可以被用于构造非实时3D模型。例如,这可以基于在Feng等人的“Joint 3D FaceReconstruction and Dense Alignment with Position Map Regression Network(用位置图回归网络进行联合三维人脸重建和密集对齐)”(在提交本申请时,可以在https://arxiv.org/abs/1803.07835处获得)中描述的方法,其公开了基于2D图像来导出人脸的3D形状。
附加地,在图3的下部,部分实时3D数据通过网络被发送到表示提供器1(在服务器3或接收参与者的用户设备中实现),表示提供器1将非实时3D模型与部分实时3D数据进行组合,以生成参与者的真实3D表示。
要注意的是,2D摄像机和3D成像设备(例如3D摄像机)表示图像捕获系统,并且可以共同位于一个摄像机中或者在单独的设备中提供。这同样适用于本公开中描述的其他实施例。
要注意的是,尽管在图3和图4中示出了猫,但实施例主要被应用于人类参与者。
图4是示出3D数据组合的实施例的示意图,其中非实时3D模型基于3D成像设备源。在该实施例中,服务器3预先生成参与者的完整3D表示,并且将其存储在例如在边缘云中的服务器上。所生成的3D表示可以特定用于每个参与者,并且在虚拟会议之前生成。这减少了虚拟会议期间的带宽需求。附加地,服务器可以优化3D摄像机流输入以用于生成非实时3D模型(例如背景去除)。预先生成的非实时3D模型可以例如从不同角度捕获参与者的3D表示。在运行时期间,非实时3D模型被与来自3D成像设备的部分实时3D数据进行组合,以提供虚拟会议中的参与者的真实3D表示。组合在表示提供器1中进行,表示提供器1可以在服务器3中或者在接收参与者的用户设备中实现。
图5是示出3D建模实施例的调用流程的序列图,其中非实时3D模型和部分实时3D数据在服务器中被组合。要注意的是,对于所有序列图,“捕获系统”形成发送参与者的用户设备的一部分,并且可以包括2D摄像机和3D成像设备之一或两者。
对于图3所示的实施例,示出了训练和执行阶段。在训练阶段,通过考虑大型流数据集(例如包括深度图像和纹理图像的点云),2D和3D摄像机流被用于训练非实时3D模型。每当在本公开中使用点云时,点云包含3D空间中的一组点(例如作为笛卡尔坐标)。点云可以包含大量的点,例如多达数万个点或者甚至数百万个点。
在执行阶段,2D摄像机图像被用于基于训练后的非实时3D模型来构造3D模型。此外,部分实时3D数据从3D成像设备被发送到服务器,在服务器中将其与非实时3D模型进行组合。组合3D表示被提供给接收参与者的用户设备。
图6是示出3D建模实施例的调用流程的序列图,其中非实时3D模型和部分实时3D数据由接收者用户设备组合。在训练之后,生成的非实时3D模型被提供给用户设备,并且在执行期间,2D图像和部分实时3D数据被提供给用户设备。只要可行,3D模型便可以预先被传输到用户设备,以减少会议期间的实时带宽需求。每当在该实施例或本文提供的任何其他实施例中传输3D模型时,3D模型可以被加密以保护隐私。
图7是示出3D建模实施例的调用流程的序列图,其中3D个性化模型和部分实时3D数据在服务器3中被组合。
该实施例可以被与图4的实施例进行组合。在训练阶段,从不同角度表示未来发送参与者的3D流被提供给服务器,服务器针对未来发送参与者构建个性化3D模型储存库。在执行阶段,基于3D成像设备的方位和发送参与者的身份,从服务器中选择正确的3D模型。该模型被与从3D成像设备接收的部分实时3D数据进行组合,并且组合3D表示被提供给用户设备。
图8是示出3D建模实施例的调用流程的序列图,其中3D个性化模型和部分实时3D数据由接收者用户设备组合。组合在接收参与者的用户设备中发生。可以在虚拟会议之前将预先生成的非实时3D模型提供给用户设备。在虚拟会议期间,3D成像设备的方位被提供给用户设备以选择非实时3D模型,并且部分实时3D数据被提供给用户设备。非实时3D模型和部分实时3D数据两者的组合由用户设备执行。非实时3D模型被传输到用户设备以减少实时带宽需求。
图9示出了基于2D图像输入而生成的3D数据。图9的上部示出了可以在表示提供器1中(其在服务器或用户设备中)基于2D图像输入而生成的输出3D模型。图9的下部示出了具有头发和颈部的计算机建模的化身的完整头部。
对于实际方面,参与者头部的表示可以被分成多个部分,例如颈部、脸部和头发。使用该实施例,组合3D表示可以被制作成动画,并且如果需要,则可以基于部分实时3D数据来调整旋转。
图10示出了从点云导出的部分3D数据,示出了脸部、前颈部和上半身。注意,在该点云中不包括头发。
图11是示出基于来自表示提供器的视觉反馈对组合3D表示与实时流进行交叉验证的调用流程的序列图。组合3D表示可以作为来自表示提供器的视觉反馈被提供给捕获系统,即,发送参与者的用户设备。发送参与者的用户设备使用组合3D表示对组合3D表示与来自3D成像设备的实时流进行交叉验证。可以向表示设备提供反馈。反馈可以是对交叉验证的简单确认,或者也可以包括流的特定区域中的错误指示,从而允许表示设备改进它对组合3D表示的生成。
交叉验证可以在虚拟会议开始时发生、周期性地发生或者在需要时发生,例如如果组合中的错误级别高于特定阈值,则发送所生成的模型以进行交叉验证。要注意的是,交叉验证可以被应用于本文提供的任何实施例。
图12A-12B是示出用于提供虚拟会议中的发送参与者的3D表示的方法的实施例的流程图。方法的实施例在表示提供器1中执行,表示提供器1可以在接收参与者的用户设备中或者在服务器中被实现。
在可选的生成非实时3D模型步骤40中,表示提供器1基于摄像机数据来生成非实时3D模型,例如如上所述。摄像机数据包括来自2D摄像机或来自3D成像设备的数据。非实时3D模型可以例如恰好在虚拟会议之前(如作为建立过程的一部分)被与虚拟会议一起适配。这能够确保非实时3D模型包含发送参与者的当前外观(例如发型、衣服、化妆、晒黑、光照条件等)的最新信息。
在获得非实时3D模型步骤42中,表示提供器1获得人的至少一部分的非实时3D模型。
非实时3D模型可以是特定用于发送参与者5a的模型。
替代地,非实时3D模型是作为能够被用于多个不同的发送参与者的通用模型的模型。在这种情况下,可以基于发送参与者5a的特性(例如性别、年龄等),从多个非实时3D模型中选择非实时3D模型。
在获得部分实时3D数据步骤44中,表示提供器1获得虚拟会议的发送参与者5a的部分实时3D数据。部分实时3D数据由发送参与者处的3D成像设备捕获,并且包含描绘发送参与者的3D数据。
在组合步骤46中,表示提供器1将非实时3D模型与部分实时3D数据进行组合,从而产生发送参与者5a的组合3D表示。
当实时部分实时3D数据暂时不可用时,该步骤可以包括:将非实时3D模型与最近接收的部分实时3D数据进行组合,以及生成发送参与者的表示不可用性的外观。例如,可以生成组合3D表示,其中发送参与者正在看向一侧,从而指示发送参与者未关注。随着时间的推移,参与者将了解到这是网络问题的指示,该指示被以直观和自然的方式来指示。
可选地,表示提供器1形成服务器3的一部分。在这种情况下,在可选的向接收者发送组合步骤47中,表示提供器1向接收参与者的用户设备2a发送组合3D表示,以用于由该用户设备2a针对接收参与者来呈现。
在可选的向源发送组合步骤48中,表示提供器1向发送参与者的用户设备2a发送组合3D表示。这使得发送参与者的用户设备能够针对发送参与者呈现组合表示,从而允许发送参与者观看他(她)们的如由接收参与者看到的视觉表示。视觉表示包括例如由于网络质量的变化而导致的通信效果。例如,发送参与者可以看到接收参与者何时观察到发送参与者的不可用性。可选地,成功的呈现和/或成功的组合3D表示的指示被提供给发送参与者的用户设备。
在可选的接收性能指示步骤50中,表示提供器1从发送参与者的用户设备2a接收性能指示。
现在转到图12B,其是示出组合步骤46的可选子步骤的流程图。
在可选的识别非实时3D模型中的身体特征子步骤46a中,表示提供器1识别非实时3D模型中的至少一个身体特征。这种身体特征可以例如是颈部、眼睛、嘴唇、张口、脸部、头发等中的任何一个或多个。
在可选的识别实时3D数据中的身体特征子步骤46b中,表示提供器1识别实时3D数据中的至少一个身体特征。
在可选的生成子步骤46c中,表示提供器1基于非实时3D模型和实时3D数据两者来生成发送参与者5a的组合3D表示。在此生成中,对于形成非实时3D模型和实时3D数据两者的一部分的身体特征(在此表示为共同身体特征),对实时3D数据给予更多的考虑。这可以通过对非实时3D模型和实时3D数据应用不同的权重来实现。可选地,当网络带宽减小时,对实时3D数据应用更多的考虑。
对于共同身体特征,可以针对实时3D数据分配更高的权重(脸部周围的关键信息例如可以被优先化)。
加权也可以基于部分实时3D数据的质量,例如当部分实时3D数据的质量非常高时,仅部分实时3D数据被用于这些区域,而当质量低时,或者在未接收部分实时3D数据的中断期间,部分实时3D数据被跳过或减少。
对于仅非实时3D模型有贡献的部分(例如身体部位),仅来自非实时3D模型的数据被用于生成组合3D表示。
在组合步骤46中,非实时3D模型和部分实时3D数据的组合可以以不同的方式发生,例如来自3D模型和部分实时3D数据两者的点云坐标的叠加。这可以包括多个可选步骤来改进组合。
在一个实施例中,部分实时3D数据中与参与者的特定身体特征相对应的部分在预处理中由服务器或摄像机来识别。这种部分与部分实时3D数据一起被详细说明,例如作为辅助数据。这种部分可以例如对应于被认为对视觉体验非常重要的区域(例如眼睛或嘴部周围的区域)。
可选地,当在服务器中执行时,组合还基于与接收用户的用户设备的连接性。例如,当网络连接性良好时,生成和发送基于共同和非共同部分的完整3D表示,而当网络条件差时,仅发送组合后的共同部分。
当组合在用户设备中发生时,组合可以取决于用户设备的处理和能量要求。组合还可以取决于通信能力,例如实时3D数据中的内容的范围。
例如,通过采用可以被实时执行的训练后的机器学习(ML)/人工智能(AI)模型,组合可以被自动化。
组合3D表示被显示在接收参与者的用户设备上,从而允许接收参与者以实时3D数据和非实时3D模型的组合来可视化发送参与者。
如上所述,表示提供器可以被实现为接收参与者的用户设备的一部分,并且如上所述,接收参与者的用户设备可以是XR设备。
使用本文提供的实施例,能够部署3D捕获(例如,使用点云),而没有现有技术的巨大带宽要求的挑战。此外,不使用点云压缩标准,因为这些标准不太适合于实时通信。
此外,本文提供的一些实施例基于发送参与者捕获的实时3D数据的最相关部分。与2D到3D转换相比,这种解决方案导致极大提高的质量。
图13是示出表示提供器1的组件的示意图。要注意的是,当实现为主机设备(例如服务器3或接收用户设备2b)的一部分时,所提到的一个或多个组件可以与主机设备共享。使用以下中的一项或多项的任何组合来提供处理器60:合适的中央处理单元(CPU)、图形处理单元(GPU)、多处理器、微控制器、数字信号处理器(DSP)等,它们能够执行存储在存储器64中的软件指令67,存储器64因此可以是计算机程序产品。替代地,处理器60可以使用专用集成电路(ASIC)、现场可编程门阵列(FPGA)等来实现。处理器60可以被配置为执行上面参考图12A-12B描述的方法。
存储器64可以是随机存取存储器(RAM)和/或只读存储器(ROM)的任何组合。存储器64还包括永久性存储装置,其例如可以是磁存储器、光存储器、固态存储器或甚至远程安装的存储器中的任何一个或组合。
还提供了数据存储器66,用于在处理器60中执行软件指令期间读取和/或存储数据。数据存储器66可以是RAM和/或ROM的任何组合。
表示提供器1还包括用于与外部和/或内部实体通信的I/O接口62。可选地,I/O接口62还包括用户接口。
表示提供器1的其他组件被省略,以免使本文提供的概念模糊不清。
图14是示出根据一个实施例的图13的表示提供器1的功能模块的示意图。使用软件指令(例如在表示提供器1中执行的计算机程序)来实现模块。替代地或附加地,使用硬件来实现模块,这些硬件例如是专用集成电路(ASIC)、现场可编程门阵列(FPGA)或离散逻辑电路中的任何一个或多个。模块对应于图12A和12B所示方法中的步骤。
非实时3D模型生成器70对应于步骤40。非实时3D模型获得器72对应于步骤42。部分实时3D数据获得器74对应于步骤44。组合器76对应于步骤46。3D模型身体特征识别器76a对应于子步骤46a。3D数据身体特征识别器76b对应于子步骤46b。生成器76c对应于子步骤46c。组合到接收者发送器77对应于步骤47。组合到源发送器78对应于步骤48。性能指示接收器80对应于步骤50。
图15示出了包括计算机可读装置的计算机程序产品90的一个示例。在该计算机可读装置上,可以存储计算机程序91,该计算机程序可以使得处理器执行根据本文描述的实施例的方法。在该示例中,计算机程序产品采取可移动固态存储器(例如通用串行总线(USB)驱动器)的形式。如上所述,计算机程序产品还可以体现在设备的存储器中,例如图13的计算机程序产品64。尽管计算机程序91在此被示意性地示为可移动固态存储器的一部分,但计算机程序可以以适合于计算机程序产品的任何方式被存储,例如另一种类型的可移动固态存储器或光盘,例如光盘(CD)、数字多功能光盘(DVD)或蓝光光盘。
上面参考几个实施例主要描述了本公开的各方面。但是,如本领域技术人员容易理解的,在由所附专利权利要求限定的本发明的范围内,上面公开的实施例之外的其他实施例同样也是可能的。因此,尽管本文公开了各个方面和实施例,但其他方面和实施例对本领域技术人员来说将是显而易见的。本文公开的各个方面和实施例是为了说明目的而并非旨在作为限制,并且真正的范围和精神由以下权利要求来指示。
Claims (36)
1.一种用于提供虚拟会议中的发送参与者(5a)的三维3D表示的方法,所述方法在表示提供器(1)中执行,所述方法包括以下步骤:
获得(42)人的至少一部分的非实时3D模型;
获得(44)所述虚拟会议的所述发送参与者(5a)的部分实时3D数据;以及
将所述非实时3D模型与所述部分实时3D数据进行组合(46),从而产生所述发送参与者(5a)的组合3D表示。
2.根据权利要求1所述的方法,其中,将所述非实时3D模型与所述部分实时3D数据进行组合(46)的步骤包括以下子步骤:
识别(46a)所述非实时3D模型中的至少一个身体特征;
识别(46b)所述实时3D数据中的至少一个身体特征;
基于所述非实时3D模型和所述实时3D数据两者,生成(46c)所述发送参与者(5a)的所述组合3D表示,其中,对于形成所述非实时3D模型和所述实时3D数据两者的一部分的身体特征,对所述实时3D数据给予更多的考虑。
3.根据权利要求2所述的方法,其中,生成(46c)子步骤包括:通过对所述非实时3D模型和所述实时3D数据应用不同的权重,对所述实时3D数据应用更多的考虑。
4.根据权利要求2或3所述的方法,其中,生成(46c)子步骤包括:当网络带宽减小时,对所述实时3D数据应用更多的考虑。
5.根据前述权利要求中任一项所述的方法,其中,将所述非实时3D模型与所述部分实时3D数据进行组合(46)的步骤包括:当实时部分实时3D数据暂时不可用时,将所述非实时3D模型与最近接收的部分实时3D数据进行组合(46),以及生成所述发送参与者的表示不可用性的外观。
6.根据前述权利要求中任一项所述的方法,还包括以下步骤:
基于摄像机数据,生成(40)所述非实时3D模型。
7.根据权利要求6所述的方法,其中,所述摄像机数据包括来自2D摄像机的数据。
8.根据权利要求6或7所述的方法,其中,所述摄像机数据包括来自3D成像设备的数据。
9.根据前述权利要求中任一项所述的方法,其中,所述非实时3D模型是特定用于所述发送参与者(5a)的模型。
10.根据前述权利要求中任一项所述的方法,其中,所述非实时3D模型是作为能够被用于多个不同的发送参与者的通用模型的模型。
11.根据权利要求10所述的方法,其中,基于所述发送参与者(5a)的特性,从多个非实时3D模型中选择所述非实时3D模型。
12.根据前述权利要求中任一项所述的方法,还包括以下步骤:
向所述发送参与者的用户设备(2a)发送(48)所述组合3D表示。
13.根据权利要求12所述的方法,还包括以下步骤:
从所述发送参与者的所述用户设备(2a)接收(50)性能指示。
14.根据前述权利要求中任一项所述的方法,其中,所述表示提供器(1)形成接收参与者(5b)的用户设备(2b)的一部分。
15.根据权利要求14所述的方法,其中,所述接收参与者的所述用户设备(2b)是扩展现实XR设备。
16.根据权利要求1至14中任一项所述的方法,其中,所述表示提供器(1)形成服务器(3)的一部分。
17.根据权利要求16所述的方法,还包括以下步骤:
向所述接收参与者的用户设备(2b)发送(47)所述组合3D表示。
18.一种用于提供虚拟会议中的发送参与者(5a)的三维3D表示的表示提供器(1),所述表示提供器(1)包括:
处理器(60);以及
存储器(64),其存储指令(67),所述指令(67)在由所述处理器执行时使得所述表示提供器(1):
获得人的至少一部分的非实时3D模型;
获得所述虚拟会议的所述发送参与者(5a)的部分实时3D数据;以及
将所述非实时3D模型与所述部分实时3D数据进行组合,从而产生所述发送参与者(5a)的组合3D表示。
19.根据权利要求18所述的表示提供器(1),其中,用于将所述非实时3D模型与所述部分实时3D数据进行组合的指令包括指令(67),所述指令(67)在由所述处理器执行时使得所述表示提供器(1):
识别所述非实时3D模型中的至少一个身体特征;
识别所述实时3D数据中的至少一个身体特征;
基于所述非实时3D模型和所述实时3D数据两者,生成所述发送参与者(5a)的所述组合3D表示,其中,对于形成所述非实时3D模型和所述实时3D数据两者的一部分的身体特征,对所述实时3D数据给予更多的考虑。
20.根据权利要求19所述的表示提供器(1),其中,用于生成的指令包括指令(67),所述指令(67)在由所述处理器执行时使得所述表示提供器(1):通过对所述非实时3D模型和所述实时3D数据应用不同的权重,对所述实时3D数据应用更多的考虑。
21.根据权利要求19或20所述的表示提供器(1),其中,用于生成的指令包括指令(67),所述指令(67)在由所述处理器执行时使得所述表示提供器(1):当网络带宽减小时,对所述实时3D数据应用更多的考虑。
22.根据权利要求18至21中任一项所述的表示提供器(1),其中,用于将所述非实时3D模型与所述部分实时3D数据进行组合的指令包括指令(67),所述指令(67)在由所述处理器执行时使得所述表示提供器(1):当实时部分实时3D数据暂时不可用时,将所述非实时3D模型与最近接收的部分实时3D数据进行组合,以及生成所述发送参与者的表示不可用性的外观。
23.根据权利要求18至22中任一项所述的表示提供器(1),还包括指令(67),所述指令(67)在由所述处理器执行时使得所述表示提供器(1):
基于摄像机数据,生成所述非实时3D模型。
24.根据权利要求23所述的表示提供器(1),其中,所述摄像机数据包括来自2D摄像机的数据。
25.根据权利要求23或24所述的表示提供器(1),其中,所述摄像机数据包括来自3D成像设备的数据。
26.根据权利要求18至25中任一项所述的表示提供器(1),其中,所述非实时3D模型是特定用于所述发送参与者(5a)的模型。
27.根据权利要求18至26中任一项所述的表示提供器(1),其中,所述非实时3D模型是作为能够被用于多个不同的发送参与者的通用模型的模型。
28.根据权利要求27所述的表示提供器(1),其中,基于所述发送参与者(5a)的特性,从多个非实时3D模型中选择所述非实时3D模型。
29.根据权利要求18至28中任一项所述的表示提供器(1),还包括指令(67),所述指令(67)在由所述处理器执行时使得所述表示提供器(1):
向所述发送参与者的用户设备(2a)发送所述组合3D表示。
30.根据权利要求29所述的表示提供器(1),还包括指令(67),所述指令(67)在由所述处理器执行时使得所述表示提供器(1):
从所述发送参与者的所述用户设备(2a)接收性能指示。
31.一种接收参与者(5b)的用户设备(2b),包括根据权利要求18至30中任一项所述的表示提供器(1)。
32.根据权利要求31所述的用户设备(2b),其中,所述用户设备(2b)是扩展现实XR设备。
33.一种服务器(3),包括根据权利要求18至30中任一项所述的表示提供器(1)。
34.根据权利要求33所述的服务器(3),还包括指令(67),所述指令(67)在由所述处理器执行时使得所述表示提供器(1):
向所述接收参与者的用户设备(2b)发送所述组合3D表示。
35.一种用于提供虚拟会议中的发送参与者(5a)的三维3D表示的计算机程序(67,91),所述计算机程序包括计算机程序代码,所述计算机程序代码当在表示提供器(1)上被执行时使得所述表示提供器(1):
获得人的至少一部分的非实时3D模型;
获得所述虚拟会议的所述发送参与者(5a)的部分实时3D数据;以及
将所述非实时3D模型与所述部分实时3D数据进行组合,从而产生所述发送参与者(5a)的组合3D表示。
36.一种计算机程序产品(64,90),包括根据权利要求35所述的计算机程序和所述计算机程序被存储在其上的计算机可读装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063116424P | 2020-11-20 | 2020-11-20 | |
US63/116,424 | 2020-11-20 | ||
PCT/EP2021/068756 WO2022106077A1 (en) | 2020-11-20 | 2021-07-07 | Providing a 3d representation of a transmitting participant in a virtual meeting |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116420351A true CN116420351A (zh) | 2023-07-11 |
Family
ID=76958963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180074870.1A Pending CN116420351A (zh) | 2020-11-20 | 2021-07-07 | 提供虚拟会议中的发送参与者的3d表示 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230396735A1 (zh) |
EP (1) | EP4248646A1 (zh) |
JP (1) | JP2023551181A (zh) |
CN (1) | CN116420351A (zh) |
AU (1) | AU2021384132A1 (zh) |
WO (1) | WO2022106077A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023232267A1 (en) * | 2022-06-03 | 2023-12-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Supporting an immersive communication session between communication devices |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2351425A (en) * | 1999-01-20 | 2000-12-27 | Canon Kk | Video conferencing apparatus |
US9325936B2 (en) * | 2013-08-09 | 2016-04-26 | Samsung Electronics Co., Ltd. | Hybrid visual communication |
-
2021
- 2021-07-07 CN CN202180074870.1A patent/CN116420351A/zh active Pending
- 2021-07-07 WO PCT/EP2021/068756 patent/WO2022106077A1/en active Application Filing
- 2021-07-07 EP EP21742793.9A patent/EP4248646A1/en active Pending
- 2021-07-07 US US18/033,855 patent/US20230396735A1/en active Pending
- 2021-07-07 JP JP2023530518A patent/JP2023551181A/ja active Pending
- 2021-07-07 AU AU2021384132A patent/AU2021384132A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230396735A1 (en) | 2023-12-07 |
AU2021384132A1 (en) | 2023-06-15 |
JP2023551181A (ja) | 2023-12-07 |
AU2021384132A9 (en) | 2024-02-08 |
EP4248646A1 (en) | 2023-09-27 |
WO2022106077A1 (en) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11303850B2 (en) | Communication using interactive avatars | |
US11861936B2 (en) | Face reenactment | |
US9936165B2 (en) | System and method for avatar creation and synchronization | |
US20140198121A1 (en) | System and method for avatar generation, rendering and animation | |
US9398262B2 (en) | Communication using avatar | |
CN110536151A (zh) | 虚拟礼物特效的合成方法和装置、直播系统 | |
WO2014194439A1 (en) | Avatar-based video encoding | |
CN105493501A (zh) | 虚拟视觉相机 | |
CN110083235A (zh) | 交互系统及数据处理方法 | |
CN110427227B (zh) | 虚拟场景的生成方法、装置、电子设备及存储介质 | |
US11181862B2 (en) | Real-world object holographic transport and communication room system | |
Fechteler et al. | A framework for realistic 3D tele-immersion | |
CN116420351A (zh) | 提供虚拟会议中的发送参与者的3d表示 | |
Gunkel et al. | From 2d to 3D video conferencing: Modular RGB-D capture and reconstruction for interactive natural user representations in immersive extended reality (XR) communication | |
CN109525483A (zh) | 移动终端及其互动动画的生成方法、计算机可读存储介质 | |
Pérez | Exploring the Realverse: Building, Deploying, and Managing QoE in XR Communications | |
Hou et al. | A Digitized You in My Eye: A Perceptually Driven Spatial Communication Prototype for XR | |
Van Broeck et al. | Real-time 3D video communication in 3D virtual worlds: Technical realization of a new communication concept | |
Zhu et al. | Virtual avatar enhanced nonverbal communication from mobile phones to PCs | |
KR20230141598A (ko) | 가상 환경에서의 비디오 통신을 위한 헤드 트래킹 기반의 미디어 선택 | |
CN117591205A (zh) | 虚拟环境中的细节级别管理 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |