CN109952759B

CN109952759B - 用于具有hmd的视频会议的改进的方法和系统

Info

Publication number: CN109952759B
Application number: CN201780068245.XA
Authority: CN
Inventors: 巴尔巴罗斯·基里斯肯
Original assignee: Wei Shida Electronic Industry And Trade Co ltd
Current assignee: Wei Shida Electronic Industry And Trade Co ltd
Priority date: 2017-02-03
Filing date: 2017-02-03
Publication date: 2021-06-15
Anticipated expiration: 2037-02-03
Also published as: JP2020507221A; EP3358835A1; WO2018141408A1; CN109952759A; TR201702966A2; KR20190112712A; EP3358835B1; KR102574874B1; US20210281802A1

Abstract

本发明涉及一种用于在视频会议会话期间修改视频数据的方法。该方法包括至少以下步骤：提供第一终端(100A)，其包括用于捕获至少视觉输入的第一摄像机单元(103X)以及第一头戴式显示器(102)；提供至少用于输出视觉输入的第二终端(100B)；利用第一摄像机单元(103X)提供或捕获第一人(101)的头部的第一基本图像数据或第一基本视频数据；当所述第一人(101)佩戴头戴式显示器(102)时利用第一摄像机单元捕获所述第一人(101)的头部的第一处理图像数据或第一处理视频数据；确定第一处理图像数据或第一处理视频数据的表示第一头戴式显示器(102)的视觉外观的第一处理数据部分；通过用第一基本数据部分替换第一处理图像数据或第一处理视频数据的第一处理数据部分来生成第一组经修改的图像数据或经修改的视频数据，其中，第一基本数据部分是第一基本图像数据或第一基本视频数据的一部分，并且表示人的面部的一部分，特别是表示第一人(101)的眼睛。

Description

用于具有HMD的视频会议的改进的方法和系统

本发明涉及根据权利要求1所述的一种用于在视频会议会话期间修改视频数据的方法、根据权利要求14所述的一种用于执行这种方法的计算机程序产品以及根据权利要求15所述的一种用于视频会议会话的系统。

背景技术

本发明的技术领域涉及视频会议系统。这种视频会议系统能够通过数据连接，特别是因特网连接，经由独立的终端(如计算机或笔记本电脑或智能手机)进行视觉通信。在一些视频会议系统中使用头戴式显示器(HMD)。这种HMD使虚拟现实(VR)和/或增强现实(AR)和/或混合现实(MR)成为可能。

除了视频会议以外，虚拟会见室、虚拟空间、角色扮演游戏和虚拟环境通常也使用HMD进行，而如果不能看到用户真实面部的话，HMD在这样的应用中也是令人不快和令人不安的。

文献US6806898B1公开了一种用于在视频会议环境中自动调整注视和头部姿势的系统和方法，其中，每个参与者具有摄像机和显示器。参与者的图像在虚拟3D空间中呈现。校正头部姿势方位和眼睛注视方向使得3D空间中的参与者的图像看起来正在看他们在屏幕上看到的人。如果参与者正在看观看者，则他们的注视被设置为朝向“摄像机”，这给人眼神接触的感觉。

文献US20080252637公开了一种基于虚拟现实的电话会议。

文献US20110202306公开了一种可调节的虚拟现实系统。

具有头戴式显示器的视频会议可能令人不安，因为由于HMD的大尺寸，会议中的其他人仅看到佩戴该HMD的人的面部的一小部分。

文献US2004/0130614A1公开了一种用于远程呈现通信的方法、系统和装置。

发明目的

因此，本发明的目的是提供一种用于视频会议的方法和一种在视频会议会话期间提高用户舒适度的视频会议系统。

发明内容

通过根据权利要求1所述的一种用于在视频会议会话期间修改视频数据的方法来达到前面提到的目的。本发明的方法包括至少以下步骤：提供第一终端，该第一终端包括用于捕获至少视觉输入的第一摄像机单元以及第一头戴式显示器，其中，第一头戴式显示器包括QR码；提供至少用于输出视觉输入的第二终端；提供服务器装置或通信装置或传输介质，其中，所述第一终端和所述第二终端经由传输介质、特别是服务器装置连接以用于进行数据交换；利用第一摄像机单元提供或捕获第一人的头部的第一基本图像数据或第一基本视频数据；当所述第一人佩戴头戴式显示器时利用第一摄像机单元捕获所述第一人的头部的第一处理图像数据或第一处理视频数据；确定第一处理图像数据或第一处理视频数据的表示第一头戴式显示器的视觉外观的第一处理数据部分以及QR码，其中，QR码表示关于HMD的形状的信息或者用于下载表示HMD的形状的数据的链接；通过用第一基本数据部分替换第一处理图像数据或第一处理视频数据的第一处理数据部分来生成第一组经修改的图像数据或经修改的视频数据，其中，第一基本数据部分是第一基本图像数据或第一基本视频数据的一部分，并且第一基本数据部分表示所述的人的面部的一部分，特别是表示人的眼睛，特别地用于经由至少一个另外的终端(特别是至少第二终端)输出第一经修改的图像数据或第一经修改的视频数据(其特别地表示所述的人的完整面部)。

因此，本发明公开了一种当一个、两个或更多个用户佩戴头戴式显示器(HMD)(例如，虚拟现实眼镜(VR)或增强现实眼镜(AR))时提供优选地全脸视频会议的方法。如果在一方、两方或更多方使用HMD/VR/AR设备的情况下，用户面部的重要部分(特别是眼睛)被HMD/VR/AR设备覆盖，使得其他用户无法看到全脸，并且使得视频会议在某种程度上变得无意义。利用该新颖的方法，将人或用户的一个或更多个先前记录的面部姿势覆盖(叠加)在实时视频上并且传输至远程目的地以建立具有全脸视图而没有任何障碍的视频会议。

另外的优选实施方式是从属权利要求的主题和/或以下说明部分。

根据本发明的优选实施方式，第二终端包括第二摄像机单元和第二头戴式显示器。本发明的特征还在于如下步骤：利用第二摄像机单元提供或捕获第二人的头部的第二基本图像数据或第二基本视频数据；以及当所述第二人佩戴第二头戴式显示器时利用第二摄像机单元捕获所述第二人的头部的第二处理图像数据或第二处理视频数据；以及确定第二处理图像数据或第二处理视频数据的表示第二头戴式显示器的视觉外观的第二处理数据部分；以及通过用第二基本数据部分替换第二处理图像数据或第二处理视频数据的第二处理数据部分来生成或形成第二组经修改的图像数据或经修改的视频数据，其中，第二基本数据部分是第二基本图像数据或第二基本视频数据的一部分，并且表示所述第二人的面部的一部分，特别是表示第二人的眼睛，特别地用于经由第一终端输出第二经修改的图像数据或第二经修改的视频数据。该实施方式是有益的，因为不仅仅一个或不仅仅至少一个HMD被整合至视频会议方法中。因此，两个或至少两个人或用户可以在佩戴HMD时使用本发明的视频会议方法。

根据本发明的另外的优选实施方式，第一经修改的图像数据或第一经修改的视频数据以及/或者第二经修改的图像数据或第二经修改的视频数据经由连接至服务器装置的至少一个另外的终端输出。该实施方式是有益的，因为并非每个终端都需要具有HMD。因此，佩戴或不佩戴HMD的人或用户可以以相同的方式进行交互，特别是每个用户或人的面部(特别是全脸或无HMD状态)显示在一个、两个或至少一个或至少两个或更多个终端上。

终端可以被理解为具有屏幕或者在表面上或空间中投影视觉图像的每个设备。因此，终端优选地是笔记本电脑、平板PC、台式PC、智能电话、TV等。还可想到终端和HMD是一个设备。

根据本发明的另外的优选实施方式，另外的终端包括另外的摄像机单元和另外的头戴式显示器。本发明的特征还在于以下步骤：利用另外的摄像机单元提供或捕获另外的人的头部的另外的基本图像数据或另外的基本视频数据；当所述另外的人佩戴另外的头戴式显示器时利用另外的摄像机单元捕获所述另外的人的头部的另外的处理图像数据或另外的处理视频数据；确定另外的处理图像数据或另外的处理视频数据的表示另外的头戴式显示器的视觉外观的另外的处理数据部分；通过用另外的基本数据部分替换另外的处理图像数据或另外的处理视频数据的另外的处理数据部分来形成另外的一组经修改的图像数据或经修改的视频数据，其中，另外的基本数据部分是另外的基本图像数据或另外的基本视频数据的一部分，并且表示所述另外的人的面部的一部分，特别是表示所述另外的人的眼睛，特别地用于经由第一终端和/或经由第二终端和/或任何另外的终端、特别是同时地输出另外的经修改的图像数据或另外的经修改的视频数据。该实施方式是有益的，因为多个用户或人、特别是多于两个或三个或者多于三个或四个或者多于四个的用户或人可以佩戴或使用HMD。还可想到在同一视频会议会话中使用不同类型的HMD，特别是VR和AR设备。因此，由处理图像数据或处理视频数据表示的每个HMD可以用表示使用所述的相应HMD的用户的面部部分(特别是眼睛)的数据进行替换。

根据本发明的优选实施方式的第一基本视频数据、第二基本视频数据和/或另外的基本视频数据或者第一基本图像数据、第二基本图像数据和/或另外的基本图像数据存储在相应终端的存储器中和/或存储在服务器装置上。第一基本视频数据、第二基本视频数据和/或另外的基本视频数据或者第一基本图像数据、第二基本图像数据和/或另外的基本图像数据被捕获一次并且被处理，以防需要第一经修改的视频数据、第二经修改的视频数据和/或另外的经修改的视频数据或者第一经修改的图像数据、第二经修改的图像数据和/或另外的经修改的图像数据。可替选地，第一基本视频数据、第二基本视频数据和/或另外的基本视频数据或者第一基本图像数据、第二基本图像数据和/或另外的基本图像数据在每当所述第一人、第二人和/或第三人加入视频会议时被捕获，并且第一基本视频数据、第二基本视频数据和/或另外的基本视频数据或者第一基本图像数据、第二基本图像数据和/或另外的基本图像数据被更新或替换并且被处理，以防需要第一经修改的视频数据、第二经修改的视频数据和/或另外的经修改的视频数据或者第一经修改的图像数据、第二经修改的图像数据和/或另外的经修改的图像数据。

根据本发明的另外的优选实施方式，至少一个终端并且优选地终端中的大多数或所有终端包括用于捕获和/或输出音频数据的装置，其中，由一个终端捕获的所捕获的音频数据被至少路由至一个或更多个另外的终端。这种装置例如可以是麦克风。音频捕获装置可以布置在HMD处或者可以是终端的一部分。

根据本发明的另外的优选实施方式，第一头戴式显示器相对于第一人的面部的位置通过对象识别来确定。第一头戴式显示器的形状优选地通过对象识别确定并且/或者识别数据以视觉或电子方式提供。由于第一头戴式显示器与第一终端之间的数据连接，电子识别数据被提供。根据本发明的另外的优选实施方式，第二头戴式显示器相对于第二人的面部的位置借助于对象识别来确定。第二头戴式显示器的形状优选地通过对象识别确定并且/或者识别数据以视觉或电子方式提供。由于第二头戴式显示器与第二终端之间的数据连接，电子识别数据被提供。根据本发明的另外的优选实施方式，另外的头戴式显示器相对于另外的人的面部的位置借助于对象识别来确定。另外的头戴式显示器的形状优选地由对象识别确定并且/或者识别数据以视觉或电子方式提供。由于另外的头戴式显示器与另外的终端之间的数据连接，电子识别数据被提供。

根据本发明的另外的优选实施方式，生成表示第一人的面部的皮肤部分的运动的面部运动数据，其中，皮肤部分的运动由所述第一摄像机单元捕获。优选地也生成表示第二人的面部的皮肤部分的运动的面部运动数据，其中，皮肤部分的运动由所述第二摄像机单元捕获。优选地也生成表示第三人的面部的皮肤部分的运动的面部运动数据，其中，皮肤部分的运动由所述第三摄像机单元捕获。

根据本发明的另外的优选实施方式，生成表示第一人的至少一只眼睛的运动的眼睛运动数据，其中，眼睛的运动由眼睛跟踪装置捕获。还生成表示第二人的至少一只眼睛的运动的眼睛运动数据，其中，眼睛的运动由第二眼睛跟踪装置捕获。还生成表示另外的人的至少一只眼睛的运动的眼睛运动数据，其中，眼睛的运动由另外的眼睛跟踪装置捕获。面部的皮肤运动可以由可选的面部运动检测器检测，其中，除了眼睛跟踪装置之外或作为其替代，可以提供面部运动检测器。还可想到提供组合的眼睛跟踪和面部运动检测器，特别是布置在HMD上或HMD内部或作为HMD的一部分的检测器。

根据另外的优选实施方式，依赖于第一人的面部的所捕获的面部运动数据以及/或者第一人的至少一只眼睛的所捕获的眼睛运动数据对第一基本数据部分进行修改。根据另外的优选实施方式，依赖于第二人的面部的所捕获的面部运动数据以及/或者第二人的至少一只眼睛的所捕获的眼睛运动数据对第二基本数据部分进行修改。根据另外的优选实施方式，依赖于第三人的面部的所捕获的面部运动数据以及/或者第三人的至少一只眼睛的所捕获的眼睛运动数据对第三基本数据部分进行修改。

根据另外的优选实施方式，表示第一人的眼睛的形状的眼睛数据作为第一基本数据部分的一部分被识别。优选地依赖于所捕获的眼睛运动数据对眼睛数据进行修改，并且/或者优选地识别第一基本数据部分中表示第一人的面部的在眼睛上方和/或下方的皮肤部分的皮肤数据。优选地依赖于所捕获的面部运动数据对皮肤数据进行修改。根据另外的优选实施方式，表示第二人的眼睛的形状的眼睛数据作为第二基本数据部分的一部分被识别。优选地依赖于所捕获的眼睛运动数据对眼睛数据进行修改，并且/或者优选地识别第二基本数据部分中表示第二人的面部的在眼睛上方和/或下方的皮肤部分的皮肤数据。优选地依赖于所捕获的面部运动数据对皮肤数据进行修改。根据另外的优选实施方式，表示另外的人的眼睛的形状的眼睛数据作为另外的基本数据部分的一部分被识别。优选地依赖于所捕获的眼睛运动数据对眼睛数据进行修改，并且/或者优选地识别另外的基本数据部分中表示另外的人的面部的在眼睛上方和/或下方的皮肤部分的皮肤数据。优选地依赖于所捕获的面部运动数据对皮肤数据进行修改。该实施方式是有益的，因为表示使用HMD的相应人的眼睛运动的视觉数据可以用于进一步增强视频会议会话或系统的可用性和/或舒适性。

眼睛跟踪装置优选地是近眼PCCR跟踪器。所述眼睛跟踪装置优选地布置在第一头戴式显示器上或其内部以及/或者布置在第二头戴式显示器上或其内部以及/或者布置在另外的头戴式显示器上或其内部。

根据本发明的另外的优选实施方式，本发明的方法包括以下步骤：特别地借助于摄像机单元，接收与第一人的头部的姿势相关的信息；根据物对象的姿势定向头部(特别是第一人的头部)的虚拟模型和头部的面部注视；将来自视频会议通信的一部分的可见像素投影至虚拟模型上；创建头部的合成的眼睛，该合成的眼睛产生在空间中的期望点处的面部注视；根据产生的面部注视定向虚拟模型；以及将虚拟模型投影至视频会议通信的相应部分上，其中，第一组经修改的图像数据或经修改的视频数据的至少一部分被虚拟模型替换。该实施方式是有益的，因为相应的(第一、第二和/或另外的)处理图像数据或(第一、第二和/或另外的)处理视频数据可以被修改以进一步改进本发明的方法或本发明的系统。

创建合成的眼睛优选地包括接收眼睛的分段信息并且估计虹膜和瞳孔信息以创建合成的眼睛。合成的眼睛优选地还包括使用分段信息在视频会议通信的相应部分上数字地绘制合成眼睛以用合成眼睛替换原始眼睛。优选地，提供在视频会议通信期间实时数字地调整虚拟模型的合成眼睛的步骤。视频会议通信优选地在至少两个参与者之间进行，并且高度优选地由因特网、集成服务数字网络或直接通信链路中的至少一个来推动。

本发明还涉及一种计算机程序产品，其用于执行根据权利要求1至13所述的方法。

本发明还涉及一种用于视频会议会话的系统。该系统优选地至少包括：第一终端，该第一终端包括用于捕获至少视觉输入的第一摄像机单元和第一头戴式显示器，其中，第一头戴式显示器包括QR码；至少用于输出视觉输入的第二终端；服务器装置，其中，第一终端和第二终端经由服务器装置连接以用于进行数据交换，其中，利用第一摄像机单元提供或捕获第一人的头部的第一基本图像数据或第一基本视频数据，其中，当所述第一人佩戴头戴式显示器时利用第一摄像机单元捕获第一人的头部的第一处理图像数据或第一处理视频数据，其中，确定第一处理图像数据或第一处理视频数据的表示第一头戴式显示器的视觉外观的第一处理数据部分以及QR码，其中，QR码表示关于HMD的形状的信息或者用于下载表示HMD的形状的数据的链接，其中，通过用第一基本数据部分替换第一处理图像数据或第一处理视频数据的第一处理数据部分来形成第一组经修改的图像数据或经修改的视频数据，其中，第一基本数据部分是第一基本图像数据或第一基本视频数据的一部分，并且第一基本数据部分表示所述的人的面部的一部分，特别是表示所述的人的眼睛，其中，第一经修改的图像数据或第一经修改的视频数据，特别是表示所述的人的完整面部的第一经修改的图像数据或第一经修改的视频数据，经由第二终端输出。

本发明的另外的益处、目标和特征将通过附图的以下说明进行描述，附图中示出了本发明的示例性部件。根据本发明的系统和方法的在其功能方面至少在本质上是匹配的部件可以用相同的附图标记进行标记，其中，关于所述附图这些部件不是必须被多次标记或描述。

在下文中，参照附图仅示例性地对本发明进行描述。

附图说明

图1示出了其中使用HMD的现有技术视频会议会话的示意图；

图2示出了根据本发明的也使用HMD的视频会议会话的第一示意图；

图3示出了根据本发明的也使用HMD的视频会议会话的第二示意图；

图4示意性地示出了用表示一部分人脸形状的像素对表示HMD的像素的替换；

图5示出了可以在本发明的视频会议会话期间使用的几个HMD；

图6示出了用于识别使用中的HMD或用于检测使用中的HMD的形状的几种可能性；

图7示出了示意性地示出的HMD的前视图和侧视图，其中，示出的HMD包括眼睛跟踪装置；

图8示意性地示出了面部动作跟踪期间的场景，其中，可以在有标记或没有标记的情况下执行面部动作跟踪；

图9示出了系统激活流程图的示例；

图10示意性地示出了图像处理期间表示步骤的流程图的示例；以及

图11示意性地示出了具有多个用户的视频会议；

图12示出了在示例性情况下连接至虚拟环境、虚拟会见室的多个用户。

图1示出了现有技术的设置。本文示出了第一用户的头部的前视图101A和第一用户101的头部的侧视图(轮廓)101B。第一用户101佩戴HMD 102。该HMD 102(示例性情况下为VR眼镜)在前视图中示出为102A并且在侧视图中示出为102B。第一用户101的头部由第一摄像机单元103X拍摄。第一摄像机单元103X是可以在视频会议会话期间使用的摄像机单元。第一摄像机单元103X在示例性情况下优选地位于外部，但是任何其他选项都是可行的。

附图标记103Y表示第二摄像机单元。第二用户111的头部由第二摄像机单元103Y拍摄。第二摄像机单元103Y是可以在视频会议会话期间使用的摄像机单元。第二摄像机单元103Y在示例性情况下优选地位于外部，但是任何其他选择都是可行的。还可想到第二用户111在本发明的视频会议会话期间使用或佩戴HMD。

附图标记103Z表示另外的摄像机单元。另外的用户114的头部由另外的摄像机单元103Z拍摄。另外的摄像机单元103Z是可以在视频会议会话期间使用的摄像机单元。另外的摄像机单元103Z在示例性情况下优选地位于外部，但是任何其他选择都是可行的。

附图标记A表示第一用户101和第二用户111经由视频会议系统进行通信的情况。在这种情况下，仅第一用户101佩戴HMD，第二用户111使用与HMD不同的光学输出装置例如屏幕。在这种情况下，由第一摄像机103X和由第二摄像机103Y捕获的数据经由任何传输介质105传输至另一方以用于视频会议。在示例性情况下，传输介质105优选地为服务器单元，特别是因特网。还可以经由路径104将音频数据以及视频数据从第一用户101侧的第一用户终端100A发送至第二用户111侧的第二用户终端100B，并且反之亦然。因此，利用第一摄像机单元103X捕获的视频数据经由屏幕109输出至第二用户111。因此，第二用户111看到佩戴HMD的第一用户110。

附图标记B表示第一用户101和另外的用户114经由视频会议系统进行通信的情况。在这种情况下，第一用户101和另外的用户114两者都使用或佩戴HMD。在这种情况下，由第一摄像机103X和由另外的摄像机103Z捕获的数据经由任何传输介质105传输至另一方以用于视频会议。在示例性情况下，传输介质105优选地为服务器单元，特别是因特网。还可以经由路径104将音频数据以及视频数据从第一用户101侧的第一用户终端100A发送至另外的用户114侧的另外的用户终端100C，并且反之亦然。因此，利用第一摄像机单元103X捕获的视频数据经由HMD 112输出至第二用户111。由第一摄像机单元103A捕获的视频数据优选地经由HMD 112的右屏幕和HMD 112的左屏幕输出。因此，第二用户111看到佩戴HMD的第一用户110，这意味着第一用户101的视频113A、113B被无任何改变地传输至HMD 112的相应镜片的右屏幕112A和HMD 112的相应镜片的左屏幕112B。

因此，图1简单地描述了关闭本发明所发生的情况，同时也是现有技术的状态，其中，因为用户带有HMD(附图中的VR眼镜)，无法传输全脸图像，没有眼神接触并且没有面对面交流，这会令视频会议的参与者感到非常不快。

图2示出了本发明方法和系统的第一示意图。附图标记201表示记录的第一用户101的头部数据以用于面部动作捕获，特别是用矢量、栅格、图像和/或视频的任何方法捕获的头部数据。该记录的头部数据201优选地不包括表示HMD的数据，因此优选地仅包括表示头部的数据，特别是表示面部、面部的形状、嘴部上方和前额下方、面部的眼睛区域的数据。所述记录的第一用户101的头部数据201可以传输至计算系统或计算单元，特别是服务器和/或第一终端100A或第二终端100B或任何另外的终端100C。计算系统或计算单元利用记录的数据201修改由第一摄像机单元103X捕获的数据。以此方式的修改优选地指组合、替换、覆盖或叠加，特别是实时地组合、替换、覆盖或叠加。因此，视频或图片被输出至第二用户111，其中，所述视频或图片不同于由第一摄像机单元103X捕获的视频或图片。所输出的或观看的图片优选地是人工生成的，特别是通过对由摄像机103X捕获的数据和记录的头部数据201进行组合而人工生成。因此，附图标记202表示即使他或她使用HMD，也传输第一用户101的全脸视图的图像数据。

同样在情况B中，另外的用户114看到眼睛，特别是看到第一人101的全脸。

因此，附图标记203A表示即使他或她针对HMD的右显示使用HMD(特别地，使用VR眼镜)也传输第一用户101的全脸视图的图像数据。因此，附图标记203B表示即使他或她针对HMD的右显示使用HMD(特别，使用VR眼镜)也传输第一用户101的全脸视图的图像数据。

因此，本发明公开了一种用于在视频会议会话期间修改视频数据的方法或者一种用于提供高级视频会议会话的方法。提供并使用第一终端100A，其中，第一终端100A可以是笔记本电脑、台式电脑、移动电话、平板PC、TV等。该终端100A优选地包括用于捕获至少视觉输入的第一摄像机单元103X，并且还包括第一头戴式显示器102。此外，提供并且使用第二终端100B以至少用于输出视觉输入。优选地，提供数据传输装置，特别是服务器装置106，其中，所述第一终端100A和所述第二终端100B经由服务器装置106或数据传输装置连接以用于进行数据交换。利用第一摄像机单元103X优选地提供或捕获第一人101的头部的第一基本图像数据或第一基本视频数据201。利用第一摄像机单元103X捕获当所述第一人101佩戴第一头戴式显示器102时的所述第一人101的头部的第一处理图像数据或第一处理视频数据。第一处理图像数据或第一处理视频数据的表示第一头戴式显示器102的视觉外观的第一处理数据部分被捕获，其中，通过用第一基本数据部分替换第一处理图像数据或第一处理视频数据的第一处理数据部分来生成第一组经修改的图像数据或经修改的视频数据。第一基本数据部分优选地是第一基本图像数据或第一基本视频数据的一部分，并且表示所述第一人101的面部的一部分，特别是所述的人101的眼睛。第一经修改的图像数据或第一经修改的视频数据，特别是表示所述第一人101的完整面部的第一经修改的图像数据或第一经修改的视频数据可以经由第二终端100B的输出设备(特别是屏幕)被输出或显示。

因此，本发明涉及当一个或更多个用户使用或佩戴HMD(头戴式显示器)时的视频会议(或任何其他电话会议技术)。HMD(头戴式显示器)可以是具有其自己的显示器的独立的任何虚拟现实眼镜或作为移动电话附件的虚拟现实眼镜、将增强图像(视频)叠加到现实世界的增强现实眼镜、混合现实设备和/或平视显示器(HUD)。

摄像机设备或摄像机单元103X至103Z可以是任何摄像机，举一些示例，如移动电话或任何计算机的外部摄像机或嵌入式摄像机。摄像机可以是单镜头摄像机或双镜头(多镜头)摄像机甚至光场摄像机。

视频会议可以利用即时通讯(IM)或voip环境通过因特网完成。术语视频会议优选地涵盖所有类型的视频会议活动(例如，电话会议)。

图3示出了如何捕获并处理记录的头部数据201。

利用学习环或记录的视频或类似技术获得用户头部数据301。优选地捕获第一用户101的头部的前透视图作为第一用户101的头部的头部数据。附图标记302表示所述头部和/或所述摄像机单元310的旋转运动，特别是在至少180°或至少270°或360°的范围内的旋转运动。摄像机单元310优选地是记录设备，特别是简单的摄像机或者更复杂的设备，例如，优选地具有扫描激光支持的沉浸式或浅景深摄像机。还可想到摄像机单元310是第一摄像机单元103X或另一摄像机单元。检测第一HMD 102的尺寸，并且适当地裁剪307用户头部数据301以用于替换表示捕获的正使用或佩戴HMD的第一人101的HMD图像或HMD视频数据的数据。经裁剪的数据传输308至单元以用于图形或图像数据或视频数据修改。

提供309经裁剪的数据305以用于修改由第一摄像机单元103X捕获的图像或视频数据，特别是处理图像数据或处理视频数据。

因此，图2和图3示出了使用本发明时的状态和本发明的益处。记录的面部数据(面部姿势)被裁剪为具有HMD的尺寸并且优选地与实时视频组合(覆盖或叠加)，然后传输至第二用户和另外的用户的视频是第一用户的全脸，正如他/她没有使用HMD，这改善了整个视频会议体验。在图2和图3中，与图像/视频处理相关的计算在第一用户侧完成，但是任何其他选择都是可行的，例如，在服务器上或者在相应的接收者的终端100A、100B上。还可想到许多用户，特别是两个以上的用户正在加入同一视频会议会话，其中，多个或所有用户正在使用或佩戴HMD。因此，使用HMD的(优选的)所有用户的图像或视频数据(处理图像数据或处理视频数据)优选地用表示相应用户的面部表面部分(特别是眼睛)的图像或视频数据来修改。

图4示出了覆盖或替换处理的示例。经裁剪的数据305或表示面部的预定义部分的数据(特别是表示第一用户101的面部的预定义部分的数据，特别是眼睛的数据)覆盖或替换处理图像数据或处理视频数据的表示HMD的至少一部分。换句话说并且作为一个选项：将经裁剪的沉浸式数据305传输401至处理图像数据或处理视频数据，以用于部分地或部份性地覆盖402处理图像数据或处理视频数据。

图5示出了用于HMD实施方式的四个示例。附图标记102A指的是VR眼镜(具有移动电话/智能电话作为屏幕)，附图标记501指的是具有自己的屏幕的独立VR眼镜或VR眼镜，附图标记502指的是一种单眼覆盖的AR眼镜或混合现实眼镜，以及附图标记503指的是一种双眼覆盖的AR眼镜或混合现实眼镜。因此，图5示出了在面部上方具有不同的覆盖面积的不同的HMD，其中具有智能电话的VR眼镜的覆盖面积最大。

图6示出了如何可以收集关于使用中的HMD的信息，特别是关于使用中的HMD的形状和/或颜色和/或尺寸的三个示例。附图标记601指的是用于动作捕获和尺寸检测的无标记检测或电子检测。因此，可以通过图像分析来收集HMD的特征。附图标记602表示对于摄像机单元103X可见的HMD的部分上的特殊形状或点或点标记。附图标记603表示QR标记，其中，QR码表示关于HMD的特征的信息或用于下载表示所述HMD的特征的数据的链接。因此，图6示出了系统如何检测用户面部位置的HMD位置以及可能的HMD尺寸。为了更加沉浸，视频会议系统需要在正确定位用户的眼睛他或她正在看的地方并且修正表情，可以使用不同的传感器和眼睛跟踪机制。

另外或替代地可想到其他可能性，如经由无线技术(像NFC或者蓝牙或者RFID或者WiFi)或者非无线或电缆连接技术，特别是USB，进行数据传输。

图7示出了特殊的HMD 102A。该HMD 102A优选地包括眼睛跟踪器，特别是任何类型的眼睛跟踪器(最可能为近眼PCCR跟踪器)701和/或用于检测面部运动的检测器(电容式或光学式)702。用户头部数据301，特别是经裁剪的用户头部数据优选地根据由所述眼睛跟踪器701和/或所述面部运动检测器702测量的测量结果进行修改。因此，第一用户101的面部的显示外观看起来更加真实。

图8示出了用于面部运动跟踪的示例。点标记801的光学检测允许确定或分析面部运动。然而，另外或替代地，不同的检测方法是(例如，无标记方法)是可行的。

图9示出了表示系统激活的流程图。

根据附图标记901，启动本发明的系统或视频会议会话。因此，在902中检查系统是否真正启动，假使系统未启动902N，则不发生任何反应904。假使系统真正启动902Y，则检查是否检测到至少一个HMD 904。假使没有检测到HMD设备904N，则不发生任何反应。假使检测到HMD设备904Y，则请求或加载或生成记录的数据(基本图像数据或基本视频数据)。然后，系统的启动结束908。

图10示出了示例性地示出如何在第一用户侧，特别是由第一终端完成图像处理的流程图。捕获实时视频1001。所述的捕获的实时视频1001或所述的处理图像数据或处理视频数据由于图像/视频处理1002而被修改(最优选地在第一用户侧完成，但是任何其他选项诸如在云中、视频会议服务器中或远程用户处进行计算是可行的)。利用记录的数据1004完成图像/视频处理1002或过处理像数据或处理视频数据的修改。优选地表示第一用户的至少一只眼睛的数据与处理图像数据或处理视频数据组合。组合的已覆盖的图像/视频结果作为输出1003。

因此，图10中所示的覆盖计算可以传输至任何计算位置和系统和设备，但是最有可能的是这种计算在用户侧完成并且设备/终端更可能是计算机(台式机、PC、笔记本电脑)或智能电话或平板电脑。

图11示出了具有或不具有HMD的多个用户可以加入本发明的视频会议会话，其中，这些用户中的至少一个使用或佩戴HMD。附图标记1101表示第一用户(对应于图1、图2和图3中的第一用户101)，附图标记1102表示第二用户，附图标记1103表示第二用户，附图标记1104表示第二用户并且附图标记1105表示第n用户。因此，视频会议通信优选地在至少两个参与者之间发生，并且高度优选地由用于视频会议105的至少一个传输介质，特别是因特网106、综合服务数字网络或直接通信链路来推动。

图12示出了示例性情况下的虚拟环境1200或虚拟会见室。还可想到，虚拟环境1200是特别用于角色扮演游戏等的虚拟空间。第一用户1201在示例性情况下具有HMD VR眼镜。第二用户1202在示例性情况下也具有HMD VR眼镜。第N用户1203在示例性情况下也具有HMD，特别是VR眼镜。从虚拟环境1200可以看出，由于本发明，与会的所有人在该虚拟环境中都被显示成没有HMD 1201A、HMD 1202A和HMD 1203A

因此，本发明涉及一种系统和方法，其中，该方法优选地用于在视频会议会话期间修改视频数据，并且包括至少以下步骤：提供第一终端100A，该第一终端100A包括用于捕获至少视觉输入的第一摄像机单元103X，以及第一头戴式显示器102；提供至少用于输出视觉输入的第二终端100B；提供服务器装置105，其中，所述第一终端100A和所述第二终端100B经由服务器装置105连接以用于进行数据交换；利用第一摄像机单元103X提供或捕获第一人101的头部的第一基本图像数据或第一基本视频数据；当所述第一人101佩戴头戴式显示器102时利用第一摄像机单元捕获第一人101的头部的第一处理图像数据或第一处理视频数据；确定第一处理图像数据或第一处理视频数据的表示第一头戴式显示器102的视觉外观的第一处理数据部分；通过用第一基本数据部分替换第一处理图像数据或第一处理视频数据的第一处理数据部分来生成第一组经修改的图像数据或经修改的视频数据，其中，第一基本数据部分是第一基本图像数据或第一基本视频数据的一部分，并且第一基本数据部分表示所述的人的面部的一部分，特别是表示所述第一人101的眼睛。

经由第二终端100B输出第一经修改的图像数据或第一经修改的视频数据，特别是表示所述第一人101的完整面部的第一经修改的图像数据或第一经修改的视频数据。

因此，本发明的方法首先记录或拍摄没有VR/AR眼镜的用户面部的图片。在该过程中，可以使用任何技术，例如浅景深摄影或任何其他3D或沉浸式视频/照片技术。在对眼睛附近的用户面部区域进行建模之后，优选地将其存储在设备或终端上。当用户开始在视频会议或视频通话中使用VR/AR眼镜时，计算机容易地检测VR/AR眼镜的边缘(或者任何其他方法，例如，标识符等)，并将具有VR/AR眼镜的视频结合至普通视频，结果是其他用户看到没有VR/AR眼镜的正常面部。附加特征将是VR/AR眼镜内的眼睛跟踪还可以正确地定位眼睛。

附图标记

100A 第一用户终端

100B 第二用户终端

100C 另外的用户终端

101 第一人/第一用户

101A 用户头部(第一用户)的前视图

101B 用户头部(第一用户)的侧视图(轮廓)

102 第一HMD

102A HMD设备的前视图(示例性情况下为VR眼镜)

102B HMD设备的侧视图(示例性情况下为VR眼镜)

103X 在第一用户处的用于视频会议的第一摄像机单元(在示例性情况下位于外部但可以是任何其他选项)

103Y 在第二用户处的用于视频会议的摄像机(在示例性情况下位于外部但可以是任何其他选项)

103Z 在第三用户处的用于视频会议的摄像机(在示例性情况下位于外部但可以是任何其他选项)

104 两个用户都发送视频-音频信息

105 用于视频会议的任何传输介质

106 在示例性情况下传输介质是因特网

A 第二用户在视频会议中使用屏幕显示

109 屏幕

110 传输的第一用户佩戴HMD的视频

111 第二用户

B 第三用户在视频会议中也使用VR眼镜

112 另外的用户的HMD

112A VR眼镜的右屏幕

112B VR眼镜的左屏幕

113A 至眼镜的右屏幕的第一用户的无任何改变的传输视频

113B 至眼镜的左屏幕的第一用户的无任何改变的传输视频

114 另外的用户

115 另外的头戴式显示器

201 记录的第一用户的头部数据以用于面部动作捕获(使用矢量、栅格、图像和/或视频的任何方法)

309 传输至计算系统(未示出)以用于将实时视频与记录的数据组合(覆盖-叠加)

202 即使他或她使用HMD，也传输第一用户的全脸视图

203A 针对VR眼镜的右显示，即使他或她使用HMD，也传输第一用户的全脸视图

203B 针对VR眼镜的左显示，即使他或她使用HMD，也传输第一用户的全脸视图

301 用户头部数据通过学习环或记录的视频或类似内容获得

302 旋转并获得360°或类似的广角数据

303 检测到HMD的尺寸并进行合适的裁剪

304 合适的裁剪

305 经裁剪的数据

307 通过获得合适的HMD尺寸而裁剪传输的数据

308 经裁剪的数据传输

310 记录设备(简易摄像机或者更复杂的设备，例如具有扫描激光支持的沉浸式或浅景深摄像机)

401 传输经裁剪的沉浸式数据

402 完成覆盖

501 具有自己的屏幕的独立VR眼镜或VR眼镜

502 一种单眼覆盖的AR眼镜或混合现实眼镜

503 一种双眼覆盖的AR眼镜或混合现实眼镜

601 用于动作捕获和尺寸检测的无标记检测或电子检测

602 点标记

603 QR标记

701 任何类型的眼睛跟踪器(最可能为近眼PCCR跟踪器)

702 用于面部运动的检测器(电容式或光学式)

801 点标记

901 启动

902 发明(公开的系统)是否被激活

902N/Y 否/是

903 什么都不做

904 是否检测到HMD？

904N/Y 否/是

905 什么都不做

906 用记录的数据覆盖实时视频

907 记录的数据

908 结束

1001 实时视频

1002 图像/视频处理(最优选地在第一用户侧完成，但是任何其他选项诸如在云中、视频会议服务器中或远程用户处进行计算是可行的)

1003 输出组合的已覆盖的图像

1004 记录的数据

1200 示例性情况下的虚拟环境、虚拟会见室，而虚拟空间和/或角色扮演游戏等也是可行的

1201 在示例性情况下具有HMD VR眼镜的第一用户

1201A 在虚拟环境中看到的第一用户

1202 在示例性情况下具有HMD VR眼镜的第二用户

1202A 在虚拟环境中看到的第二用户

1203 在示例性情况下具有HMD VR眼镜的第N用户

1203A 在虚拟环境中看到的第N用户

Claims

1.一种用于在视频会议会话期间修改视频数据的方法，至少包括以下步骤：

提供第一终端(100A)，

所述第一终端(100A)包括用于捕获至少视觉输入的第一摄像机单元(103X)，以及

第一头戴式显示器(102)，

其中，所述第一头戴式显示器包括QR码，

提供至少用于输出视觉输入的第二终端(100B)，

提供服务器装置(105)，

其中，所述第一终端(100A)和所述第二终端(100B)经由所述服务器装置(105)连接以用于进行数据交换，

利用所述第一摄像机单元(103X)提供或捕获第一人(101)的头部的第一基本图像数据或第一基本视频数据，

生成表示所述第一人(101)的至少一只眼睛的运动的眼睛运动数据，其中，所述眼睛的运动由眼睛跟踪装置(702)捕获，眼睛跟踪装置(702)是近眼PCCR跟踪器，其中，所述眼睛跟踪装置(702)被布置在第一头戴式显示器(102)上或其内部，

当所述第一人(101)佩戴所述头戴式显示器(102)时利用所述第一摄像机单元捕获所述第一人(101)的头部的第一处理图像数据或第一处理视频数据，

确定所述第一处理图像数据或所述第一处理视频数据的表示第一头戴式显示器(102)的视觉外观的第一处理数据部分以及所述QR码，其中，所述QR码表示关于HMD的形状的信息或者用于下载表示所述HMD的形状的数据的链接，

通过用第一基本数据部分替换所述第一处理图像数据或所述第一处理视频数据的第一处理数据部分来生成第一组经修改的图像数据或经修改的视频数据，

其中，所述第一基本数据部分是所述第一基本图像数据或所述第一基本视频数据的一部分，并且表示所述第一人的面部的一部分。

2.根据权利要求1所述的方法，其特征在于，

所述第二终端(100B)包括：

第二摄像机单元(103Y)，以及

第二头戴式显示器，

并且所述方法的特征在于包括以下步骤：

利用所述第二摄像机单元(103Y)提供或捕获第二人(111)的头部的第二基本图像数据或第二基本视频数据，

当所述第二人(111)佩戴第二头戴式显示器时利用所述第二摄像机单元(103Y)捕获所述第二人(111)的头部的第二处理图像数据或第二处理视频数据，

确定所述第二处理图像数据或所述第二处理视频数据的表示第二头戴式显示器的视觉外观的第二处理数据部分，

通过用第二基本数据部分替换所述第二处理图像数据或所述第二处理视频数据的第二处理数据部分来形成第二组经修改的图像数据或经修改的视频数据，

其中，所述第二基本数据部分是所述第二基本图像数据或所述第二基本视频数据的一部分，并且表示所述第二人(111)的面部的一部分，

经由所述第一终端(100A)输出第二经修改的图像数据或第二经修改的视频数据。

3.根据权利要求1所述的方法，其特征在于，

第一经修改的图像数据或第一经修改的视频数据以及/或者所述第二经修改的图像数据或所述第二经修改的视频数据经由连接至所述服务器装置(105)的至少一个另外的终端(100C)输出。

4.根据权利要求1所述的方法，其特征在于，

另外的终端(100C)包括另外的摄像机单元(103Z)和另外的头戴式显示器(112)，

并且所述方法的特征在于包括以下步骤：

利用所述另外的摄像机单元(103Z)提供或捕获另外的人(114)的头部的另外的基本图像数据或另外的基本视频数据，

当所述另外的人(114)佩戴另外的头戴式显示器(112)时利用所述另外的摄像机单元(103Z)捕获所述另外的人(114)的头部的另外的处理图像数据或另外的处理视频数据，

确定所述另外的处理图像数据或所述另外的处理视频数据的表示另外的头戴式显示器(112)的视觉外观的另外的处理数据部分，

通过用另外的基本数据部分替换所述另外的处理图像数据或所述另外的处理视频数据的另外的处理数据部分来形成另外的一组经修改的图像数据或经修改的视频数据，

其中，所述另外的基本数据部分是所述另外的基本图像数据或所述另外的基本视频数据的一部分，并且表示所述另外的人(114)的面部的一部分，

经由所述第一终端(100A)和/或经由所述第二终端(100B)输出所述另外的经修改的图像数据或所述另外的经修改的视频数据。

5.根据权利要求1所述的方法，其特征在于，

所述第一基本视频数据、所述第二基本视频数据和/或所述另外的基本视频数据或者所述第一基本图像数据、所述第二基本图像数据和/或所述另外的基本图像数据被存储在相应的终端(100A，100B，100C)的存储器中和/或被存储在所述服务器装置(105)上，

其中，所述第一基本视频数据、所述第二基本视频数据和/或所述另外的基本视频数据或者所述第一基本图像数据、所述第二基本图像数据和/或所述另外的基本图像数据被捕获一次并且被处理，以防需要第一经修改的视频数据、第二经修改的视频数据和/或另外的经修改的视频数据或者第一经修改的图像数据、第二经修改的图像数据和/或另外的经修改的图像数据，

或者，

其中，所述第一基本视频数据、所述第二基本视频数据和/或所述另外的基本视频数据或者所述第一基本图像数据、所述第二基本图像数据和/或所述另外的基本图像数据在每当所述第一人、所述第二人和/或所述第三人(101，111，114)加入视频会议时被捕获，并且所述第一基本视频数据、所述第二基本视频数据和/或所述另外的基本视频数据或者所述第一基本图像数据、所述第二基本图像数据和/或所述另外的基本图像数据被更新或替换并且被处理，以防需要第一经修改的视频数据、第二经修改的视频数据和/或另外的经修改的视频数据或者第一经修改的图像数据、第二经修改的图像数据和/或另外的经修改的图像数据。

6.根据权利要求1所述的方法，其特征在于，

至少一个终端(100A)或者所有终端(100A，100B，100C)包括用于捕获和/或输出音频数据的装置，其中，由一个终端捕获的所述的捕获的音频数据被至少路由至一个或更多个另外的终端。

7.根据权利要求1所述的方法，其特征在于，

所述第一头戴式显示器(102)相对于第一人(101)的面部的位置通过对象识别来确定，

所述第一头戴式显示器(102)的形状通过对象识别确定，并且/或者识别数据以视觉或电子方式提供。

8.根据权利要求1所述的方法，其特征在于，

表示所述第一人(101)的面部的皮肤部分的运动的面部运动数据被生成，其中，所述皮肤部分的运动由所述第一摄像机单元(103X)捕获。

9.根据权利要求1所述的方法，其特征在于，

依赖于以下数据对第一基本数据部分进行修改：

第一人(101)的面部的所述的捕获的面部运动数据，

以及/或者

第一人(101)的至少一只眼睛的所述的捕获的眼睛运动数据。

10.根据权利要求9所述的方法，其特征在于，

将表示第一人(101)的眼睛的形状的眼睛数据识别为所述第一基本数据部分的一部分，

其中，依赖于所述的捕获的眼睛运动数据对所述眼睛数据进行修改，

以及/或者

所述第一基本数据部分中表示第一人(101)的面部的在眼睛上方和/或下方的皮肤部分的皮肤数据被识别，

其中，依赖于所述的捕获的面部运动数据对所述皮肤数据进行修改。

11.根据权利要求1所述的方法，其特征在于包括：

接收与第一人(101)的头部的姿势相关的信息；

根据对象的姿势定向所述头部的虚拟模型和所述头部的面部注视；

将来自视频会议通信的一部分的可见像素投影至所述虚拟模型上；

创建所述头部的合成的眼睛，所述合成的眼睛产生在空间中的期望点处的面部注视；

根据所产生的面部注视定向所述虚拟模型；以及

将所述虚拟模型投影至视频会议通信的相应部分上，

其中，所述第一组经修改的图像数据或经修改的视频数据的至少一部分由所述虚拟模型替换。

12.一种计算机可读记录介质，其上存储有计算机程序，所述程序在被计算设备执行时使所述计算设备执行根据权利要求1至11中任一项所述的方法。

13.一种用于视频会议会话的系统，至少包括：

第一终端(100A)，

其包括用于捕获至少视觉输入的第一摄像机单元(103X)和第一头戴式显示器(102)，

其中，所述第一头戴式显示器包括QR码，

第二终端(100B)，其至少用于输出视觉输入，

服务器装置(105)，

其中，利用所述第一摄像机单元(103X)提供或捕获第一人(101)的头部的第一基本图像数据或第一基本视频数据，

其中，当所述第一人(101)佩戴所述头戴式显示器(102)时利用所述第一摄像机单元(103X)捕获所述第一人(101)的头部的第一处理图像数据或第一处理视频数据，

其中，确定所述第一处理图像数据或所述第一处理视频数据的表示第一头戴式显示器的视觉外观的第一处理数据部分以及所述QR码，其中，所述QR码表示关于HMD的形状的信息或者用于下载表示所述HMD的形状的数据的链接，

其中，生成表示所述第一人(101)的至少一只眼睛的运动的眼睛运动数据，其中，所述眼睛的运动由眼睛跟踪装置(702)捕获，眼睛跟踪装置(702)是近眼PCCR跟踪器，其中，所述眼睛跟踪装置(702)被布置在第一头戴式显示器(102)上或其内部，

其中，通过用第一基本数据部分替换所述第一处理图像数据或所述第一处理视频数据的第一处理数据部分来形成第一组经修改的图像数据或经修改的视频数据，

其中，所述第一基本数据部分是所述第一基本图像数据或所述第一基本视频数据的一部分，并且表示所述第一人(101)的面部的一部分，

其中，第一经修改的图像数据或第一经修改的视频数据经由所述第二终端(100B)输出。