CN116664803A

CN116664803A - 用于合成图像的方法和设备

Info

Publication number: CN116664803A
Application number: CN202310545589.2A
Authority: CN
Inventors: S·西鲍德; J·弗勒雷奥; F·杰拉德
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2016-04-22
Filing date: 2017-04-10
Publication date: 2023-08-29
Also published as: JP7142575B2; US20190122439A1; EP3446290A1; US11568606B2; KR20190021197A; EP3446290B1; WO2017182315A1; CN109478344A; US20210082197A1; KR102330090B1; KR20210144917A; US10846932B2; KR102474088B1; JP2022188059A; JP2019522831A; CN109478344B

Abstract

用于合成和/或发送第一图像到第一显示设备的方法和设备，该方法包括接收表示场景的第二图像，该场景包括显示第三图像的第二显示设备；接收第三图像；获得表示第二显示设备相对于场景的姿势的第一信息；根据第一信息使第三图像变形；通过使用获得的第一信息组合第二图像和变形的第三图像来生成第一图像；以及发送表示第一图像的数据。

Description

用于合成图像的方法和设备

本申请是申请日为2017年4月10日、申请号为201780031761.5、发明名称为“用于合成图像的方法和设备”的发明专利申请的分案申请。

技术领域

本公开涉及例如在移动设备，诸如，例如头戴式显示器(HMD)，平板电脑或智能电话，上消费的沉浸式视频内容的背景下的图像处理的领域。

背景技术

诸如头戴式显示器(HMD)或平板电脑之类的显示设备允许用户浏览沉浸式视频内容。例如，头戴式显示器(HMD)是戴在头上或作为头盔的一部分的显示设备，其在一只眼睛前面(单眼HMD)或在每只眼睛前面(双目HMD)具有小显示光学器件。它们特别允许用户观看3D虚拟场景并通过旋转他/她的头来浏览它。根据用户头部姿势更新场景的视图。这样的设备最初在几十年前提出，但最近，由于特别是OLED和LCD屏幕的进步，它们的价格以及它们的性能已经发生了巨大变化，甚至一些HMD现在是消费产品。这样的HMD的价格是合理的并且可以提供110°视场，同时实现关于头部姿势估计的非常低的延时(例如，20ms)。

各种视差可能影响整体用户体验。例如，如果视觉参数没有被对齐，则用户可能感觉恶心。因此，创建沉浸体验的设备和能力可以改进或另外生成关于用户与现实世界交互的能力的问题。

发明内容

说明书中对“一个实施例”，“实施例”，“示例实施例”，“具体实施例”的引用指示描述的实施例可以包括具体特征、结构或特性，但是每个实施例可以不必包括具体特征、结构或特性。而且，这样的短语不必指代同一实施例。此外，当结合实施例描述具体特征、结构或特性时，提出无论是否明确描述，结合其他实施例影响这样的特征、结构或特性在本领域技术人员的知识中。

本公开涉及将第一图像发送到第一显示设备的方法，该方法包括：

-接收表示场景的第二图像，场景包括显示第三图像的第二显示设备；

-接收第三图像；

-获得表示第二显示设备相对于场景的姿势的第一信息；

-根据第一信息使第三图像变形；

-通过使用所获得的第一信息组合第二图像和变形的第三图像，生成第一图像；

-发送表示第一图像的数据。

根据特性，变形的第三图像被重叠在第二图像的包括第二显示设备的屏幕的表示的部分上。

根据特定特性，从与第一显示设备相关联的摄像头接收第二图像。

根据另一特性，从将第三图像发送到第二显示设备的源设备接收第三图像，用于在第二显示设备上显示。

根据具体特性，第一显示设备是头戴式显示器，并且第二显示设备是包括显示屏的移动设备。

根据另一特性，通过比较接收到的第三图像与包括显示第三图像的第二显示设备的第二图像的内容，获得第一信息。

根据特定特性，获得包括从第二显示设备接收第一信息。

根据另一特性，获得包括：

-获取第二显示设备的第四图像，至少一个基准标记显示在第二显示设备上；

-跟踪第四图像上的至少一个基准标记；

-基于被跟踪的至少一个基准标记确定第一信息。

根据具体特性，第一显示设备包括适配于获取第四图像的摄像头。

根据特定特性，利用第一显示设备外部的摄像头获取第四图像，该方法还包括获取表示第一显示设备的位置的第二信息，第一图像使用第二信息合成。

根据具体特性，第三图像属于一组图像，其包括：

-表示现实环境的视频序列的图像；

-表示虚拟环境的视频序列的图像；

-表示包括现实和虚拟对象的场景的视频序列的图像；以及

-包括图形用户界面的至少一个图形对象的图像；

-包括至少一个文本元素的图像。

根据特定特性，合成还包括组合第二图像和变形的第三图像与表示持有所述变形的第三图像被重叠到的所述第二显示设备的手部的第五图像。

本公开也涉及配置为将第一图像发送到第一显示设备的设备，该设备包括：

-用于接收表示场景的第二图像的部件，场景包括显示第三图像的第二显示设备；

-用于接收第三图像的部件；

-用于获得表示第二显示设备相对于场景的姿势的第一信息的部件；

-用于根据第一信息使所述第三图像变形的部件；

-用于通过使用所获得的第一信息组合第二图像和变形的第三图像，生成第一图像的部件；

-用于发送表示第一图像的数据的部件。

-接收器，被配置为接收表示场景的第二图像，场景包括显示第三图像的第二显示设备，并且被配置为接收第三图像；

-处理器，被配置为：

_○获得表示第二显示设备相对于场景的姿势的第一信息；

_○根据第一信息使第三图像变形；

_○通过使用第一信息组合第二图像和变形的第三图像，生成第一图像；

-发送器，被配置为发送表示第一图像的数据。

该设备被配置为执行上述方法的步骤。

本公开也涉及计算机程序产品，包括程序代码的指令，用于当在计算机上执行程序时由至少一个处理器执行发送第一图像的上述方法。

本公开也涉及(非暂时)处理器可读介质，具有存储在其中的指令，用于使得处理器执行发送第一图像的至少一个上述方法。

附图说明

阅读以下说明时，将更好理解本公开，且其它特定特征和优点将显现，说明参考附图，在附图中：

-图1A和1B每个示出根据本原理的示例分别从图1C和1D图示的第二图像和第三图像获得的第一图像的示例；

-图2A示出根据本原理的示例性实施例的获得图1A或1B的第一图像的第一处理；

-图2B示出根据本原理的示例性实施例的获得图6的第一图像的第二处理；

-图3示出根据本原理的示例性实施例的将图1A或1B的第一图像发送到显示设备的方法；

-图4示意性示出根据本原理的示例的被配置用于显示图1A和1B的一个或多个第一图像的第一显示设备4的结构；

-图5示意性地示出根据本原理的示例的适配于实现发送图3的第一图像的方法的装置的结构；

-图6示出根据本原理的示例的从第二图像和第三图像获得的第一图像的另一示例。

具体实施方式

现在参考附图描述主题，在附图中，相同的参考数字自始至终用以指代相同的元件。在下面的描述中，为了说明的目的，阐述很多特定细节，以提供主题的完全理解。然而，可以明白的是，可以在不需要这些特定细节的情况下实践主题实施例。

将参考将第一图像发送到第一显示设备(例如，HMD或平板电脑)的方法的特定实施例和配置用于实现该方法的设备来描述本原理。通过将第二图像(例如，从用户沉浸入的视频内容中提取)与第三图像(例如，表示正在观看沉浸式内容的用户的现实环境的图像或用户在他/她的手中持有的他/她的智能手机或平板电脑上接收的消息的图像)组合来合成要发送的第一图像。第三图像例如重叠在用户当前持有的第二显示设备的图像上。可以将用户的手的图像可选地添加到显示第三图像的第二显示设备的图像上的第一图像。

将可视内容(即，第三图像)添加到第二图像中以形成第一图像使得用户能够沉浸在例如沉浸式内容(即，第二图像)中以与他/她的现实环境交互。例如，当沉浸在沉浸式内容中的用户(例如，当佩戴显示沉浸式内容的HMD时)在他/她的智能手机上接收到呼叫或SMS时，他/她具有直接查看接收到的呼叫或短信同时仍然沉浸在沉浸式内容中的能力。利用将他/她的手部的图像叠加在沉浸式内容内的智能手机的图像上来显示他/她在他/她的手部持有的智能手机，使得用户能够像他/她在他/她的现实环境中所看到的那样控制智能手机。例如从智能手机(例如，经由控制装置)接收呼叫或SMS的图像，以受益于HMD的全显示分辨率。

根据另一实施例，第二图像可以对应于场景的图像，该场景包括显示第三图像(例如，视频内容)的第二显示设备。第二图像例如利用与第一显示设备中相关联(例如，嵌入第一显示设备)的图像获取设备(例如，摄像头、网络摄像头)获取(例如，平板电脑或智能电话的后摄像头，集成到HMD的正面中的摄像头以获取佩戴HMD的用户移动到的场景的图像)。为了受益于在第一显示设备上显示的场景的图像的最佳分辨率，第三图像可以由图像处理设备直接从将第三图像发送到第二显示设备的源设备(例如，机顶盒、与第二显示设备相关联的解码设备)接收。图像处理设备可以通过组合接收到的第三图像(或其处理版本)和第二图像来合成第一图像。

图1A和1B示出根据本发明原理的具体和非限制性实施例的要在第一显示设备(例如，HMD)上显示的第一图像10，11的两个示例。第一图像10，11例如是静止图像或由第一图像序列组成的第一视频序列的图像。第一图像10，11例如从两个或三个不同的源获得。可以通过将图1C图示的第二图像12与例如图1D图示的第四图像13的一部分(例如，表示第二显示设备130的第四图像13的一部分)组合来获得第一图像10，11，第二显示设备130是例如诸如由人例如佩戴或持有第一显示设备的人手持的平板电脑或智能手机之类的移动设备。

图1A图示从第二图像12与包括第二显示设备130的图像13的一部分的组合获得的第一图像10的第一示例，第三图像100被重叠在从第四图像13提取的第二显示设备130的图像上。在该非限制性示例中，第三图像100对应于由第四图像13中图示的第二显示设备130的摄像头获取的现实环境的图像。一个或多个基准标记显示在图1D的示例的第二显示设备130上，基准标记用于定位和/或分段第二显示设备130，如关于图2的更多细节解释。基准标记包括例如由几何形状简单形状(诸如，正方形或矩形)组成的二维黑白图案。第四图像13例如对应于佩戴第一显示设备的用户所站立的现实环境的图像，用户持有第二显示设备130。可以利用获取佩戴第一显示设备的用户的现实环境的图像的第一显示设备的摄像头获取第四图像13，获取的主方向对应于例如佩戴第一显示设备的用户的主可视化方向，获取方向随着佩戴第一显示设备的用户的头部的移动而变化。根据另一示例，可以利用第一显示设备外部的摄像头获取第四图像13，例如网络摄像头或视频监视系统的摄像头。第二图像12例如对应于计算机生成的图像(CGI)，即表示虚拟环境的图像，CGI叠加在与现实世界视图相关联的图像(称为增强现实或混合现实)或者与现实世界视图相关联的图像上。通过使用第二显示载体的图像作为第三图像的重叠的载体，在第二图像12内结合用户的现实环境的图像，使得用户能够看到他/她的现实环境，同时保持沉浸在第二图像的环境(现实或虚拟)中。如果第三图像由第二显示设备的摄像头提供，则用户可以通过将第二显示设备指向他/她想要看到的现实环境的区域(例如，当人进入用户的环境并开始与他/她交谈时)来选择他/她想要看到的内容。由第二显示设备的摄像头获取的第三图像被发送到控制设备(例如，关于图5描述的设备5)，其将变形的第三图像发送到第一显示设备。变形的第三图像受益于第二显示设备的摄像头的分辨率且受益于第一显示设备的(多个)屏幕的分辨率。根据变型，第三图像100直接重叠在第二图像12上，而不需要使用第二显示设备130的图像作为第三图像的载体。

图1B图示从第二图像12与包括第二显示设备130的图像13的一部分的组合获得的第一图像11的第二示例，第三图像110被重叠在从第四图像13提取的第二显示设备的图像上。在该非限制性示例中，第三图像110对应于包括一个或多个图形对象(例如，菜单、按钮)的图形用户界面(GUI)的图像。沉浸在第一图像11内的用户具有按压任何图形对象的能力，就好像他在物理上看到他/她当前握在他/她手中的第二显示设备上显示的GUI，同时仍然具有沉浸在第二图像12的环境的印象。GUI的图形对象上的任何动作被发送到控制设备(例如，关于图5描述的装置5)，控制设备可以将与被按压的图形对象相关联的控制参数重新定向到预期的装置，例如当GUI旨在控制与第一图像相关联的一个或多个参数(例如，亮度、与第一图像相关联的音轨的强度、对比度、播放/暂停)时的第一显示设备或者当GUI旨在与用户的现实环境交互或控制(例如，控制照明元件、百叶窗、音频播放器)时现实环境的其他元件。根据变型，第三图像110直接重叠在第二图像12上，而不需要使用第二显示设备130的图像作为第三图像的载体。

第二图像12对应于例如从第二图像的第二视频序列获得的图像。第二视频序列例如对应于沉浸式视频内容。沉浸式视频内容对应于视频，使得观看其的用户能够浏览视频，即在确定的时间仅在第一显示设备的(多个)屏幕上显示沉浸式内容的一部分，显示的部分取决于佩戴第一显示设备的用户的观看方向。沉浸式视频内容对应于一个或多个图像的序列，每个图像的视场大于用于可视化沉浸式内容的第一显示设备的视场。沉浸式视频包括图像或图像序列，每个图像对应于例如计算机生成的图像(CGI)，CGI叠加在现实世界视图(称为增强现实或混合现实)或例如利用多个摄像头获取以获得例如现实世界的180°、220°或360°图像(也称为4π球面视频)的现实世界视图上。这样的视频内容被称为沉浸式视频内容，因为其使得观看其的用户感觉沉浸在视频内容中，用户能够浏览到视频内容。通过诸如HMD的显示设备能够呈现对沉浸式视频内容的浏览。

图6示出根据本原理的另一具体和非限制性示例的在第一显示设备60(例如，平板电脑)上显示的第一图像600的另一个示例。第一图像可以是静止图像或包括第一图像序列的第一视频序列的图像。第一图像600例如通过组合多个图像获得，例如，从不同源获得的2、3或更多。第一图像600例如对应于第二图像和第三图像的组合。当第一图像是第一视频序列的图像时，可以通过组合包括第二视频图像序列的第二视频序列和包括第三视频图像序列的第三视频序列来获得第一视频序列，每个第一图像对应第二视频序列的一个第二图像与第三视频序列的第三图像(分别在第二和第三视频序列内具有相同的相关联时间戳)的组合。

例如，通过获取场景6，例如利用第一显示设备60的后摄像头601，获得第二图像。包含在第二图像中的场景6的视图例如取决于用虚线表示的摄像头601的视场(或焦点)。第二图像例如是大视场图像(高达360°，例如110°、135°、180°、240°或360°)或标准视场图像(例如，65°、70°或90°)。场景6包括一个或多个第二显示设备61(例如，与投影仪和/或智能电话和/或平板电脑相关联的电视机和/或显示屏)以及可选地一个或多个其他对象(图6中未图示)，其可能取决于场景的性质(例如，当场景对应于起居室时的沙发，当场景对应于卧室时的床，当场景对应于餐厅时的桌子，当场景对应于电影院时的椅子)。根据变型，利用未嵌入第一显示设备60中的摄像头(例如，网络摄像头或安全摄像头)获取场景6的第二图像。

第一图像600包括场景的第二显示设备61的表示601作为其一部分。

第三图像611对应于在获取第二图像的同时在第二显示设备61上显示的内容610。为了获得第一图像600，通过使用第三图像611增强第二图像来创建第一图像。可以例如通过将第三图像611重叠到第二图像上(例如在第二图像的对应其于第二显示设备61的表示的区域上)来获得增强。其他增强是可能的，例如当对象(未示出)在第二图像中遮挡显示设备61的部分时，由没有在遮挡区域的第三图像对第二图像的部分重叠。其他增强模式可以包括创建超分辨率图像，重叠第三图像的缩放部分，在增强之前将颜色管理(链接到场景光和第一和第二显示的属性)添加到第三图像。第三图像的内容610例如由图像处理装置接收，该图像处理装置被配置为处理第二图像和接收到的第三图像610以获得第二图像。第三图像610例如从将第三图像610发送到第二显示设备61的源设备接收，例如，存储设备，解码设备，机顶盒，DVD或蓝光读取器，膝上型计算机，个人计算设备，诸如平板电脑或智能电话的移动设备。使用直接从源接收到的第三图像使得能够增加第三图像的显示质量。显示质量包括分辨率，模糊度，噪声和颜色方面。从源设备获得的第三图像具有比用摄像头601获取的并且在第二图像内可用的第三图像的获取版本更好的质量。实际上，第二图像遭受摄像头的噪声，摄像头传感器的有限空间分辨率，摄像头电子器件的有限时间分辨率，摄像头传感器同色异谱(metamerism)以及摄像头601和/或显示器60的其他有限颜色容量的影响。

图4示意性示出被配置用于显示视频内容的第一显示设备4的硬件实施例，其内容至少部分地根据第一显示设备4的位置而变化。第一显示设备4例如对应于HMD。第一显示设备4包括至少一个惯性传感器41，至少一个显示单元(例如LCD(液晶显示器)，OLED(有机发光二极管)或LCOS(硅上液晶))42和传输单元43。惯性传感器41例如对应于陀螺仪，并且第一显示设备4包括例如三个陀螺仪，一个用于俯仰，一个用于滚动，一个用于偏航。根据另一示例，惯性传感器41对应于IMU(惯性测量单元)。控制器可以与惯性传感器相关联，控制器被配置为处理表示由惯性传感器获取的设备的位置变化的数据，并且经由第一总线将该数据发送到传输单元43。传输单元43例如是无线接口，并且被配置为经由无线链路(例如，根据Wi-Fi或蓝牙)将从惯性传感器41接收的数据发送到外部设备(未示出)。外部设备例如是机顶盒(STB)，计算机或适配于存储和/或组成和/或解码(多个)视频内容的任何设备。传输单元43还可以被配置为经由无线链路例如从外部设备接收数据，该数据表示要在(多个)显示单元42上显示的视频内容的(多个)第一图像10。然后，表示要显示的(多个)第一图像10的数据经由第二总线发送到(多个)显示单元42。根据变型，传输单元是被配置为经由有线链路例如根据USB或HDMI标准发送/接收数据的接口。外部设备可以向HMD发送与HMD的测量位置相对应的视频内容的一部分。与HMD的测量位置相对应的视频内容的部分例如利用建立与现实世界中的HMD相关联的视点和与视频内容相关联的虚拟摄像头的视点之间的关系的特定函数来确定。根据第一显示设备的测量位置控制要在第一显示设备的(多个)显示屏幕上显示的视频内容的部分，使得佩戴第一显示设备的用户能够浏览到视频内容，尤其是当视频内容大于与第一显示设备的(多个)显示屏相关联的视场。例如，如果由第一显示设备(即，HMD)提供的视场等于110°(例如关于偏航轴)并且如果视频内容提供180°的内容，则佩戴HMD的用户可以将他/她的头部向右或向左旋转以看到由HMD提供的视场之外的视频内容的部分。

根据另一示例，第一显示设备4对应于诸如平板电脑(例如，图6的平板电脑60)或智能电话的移动设备。第一图像可以由与嵌入在移动设备中的存储器(例如，RAM或SSD)相关联的处理设备/单元(例如，CPU和/或GPU)获得，处理设备/单元被配置为组合第二图像和第三图像，以获得第一个图像。根据该示例，传输单元43被配置为接收第二图像和/或第三图像。移动设备还可以包括获取设备，例如摄像头，配置为获取第二图像。

图2A示出根据本原理的第一具体和非限制性实施例的适配于生成第一图像10或11的处理。该处理例如由嵌入或不嵌入显示第一图像的第一显示设备中的图像处理装置实现。图5示出这样的图像处理装置的示例。

在该处理的第一操作20中，获得第四图像13。第四图像13例如从诸如摄像头的获取设备接收。例如，摄像头例如与第一显示设备(例如，HMD，用于显示由关于图2描述的处理产生的第一图像10，11)相关联(例如，集成到)。摄像头可以是与其中站立佩戴HMD的用户的现实环境相关联的摄像头。根据另一示例，从存储设备(例如，诸如RAM(随机存取存储器)或SSD(固态驱动器)存储器)的存储器)接收第四图像。第四图像13例如表示佩戴第一显示设备的用户站立其中的现实环境的确定视图，该视图由用于获取第四图像的摄像头的获取方向确定。在图2和1D的示例中，第四图像包括由佩戴第一显示设备的用户的手握住的第二显示设备(例如，移动设备，诸如，平板电脑或移动电话)的表示。

在该处理的第二操作21中，确定第二显示设备在现实环境中的位置。该位置例如通过在第四图像中检测布置在第二显示设备上的可见界标(例如在第二显示设备的一个或多个角上)来确定，位置确定方法使用例如由Fanelli等(在“Real time head poseestimation with random regression forests”中，在Computer Vision and PatternRecognition，2011年)描述的可见界标。根据另一个示例，可以通过使用非线性优化算法或使用最小化对象空间共线性误差的方法(由Chien-Ping Lu等人在“Fast and GloballyConvergent Pose Estimation From Video Images”1998年2月18日中描述)分析第四图像来确定位置。根据另一示例，在第二显示设备上显示一个或多个基准标记，并在分析第四图像时使用以确定第二显示设备的姿势，例如由Fakhr-eddine Ababsa等人在“RobustCamera Pose Estimation Using 2D Fiducials Tracking for Real-Time AugmentedReality Systems”，ACM SIGGRAPH VRCAI，2004年，页2226-2229中描述。例如，可以使用OpenCV中的ArUco软件与显示在第二显示设备上的基准标记板组合，以提供表示标记板的取向和第四图像中的每个标记的位置的三个矢量。

根据变型，位置信息由第二显示设备发送，表示位置的参数例如由第二显示设备的传感器(例如陀螺仪)确定。

根据另一变型，取向可以与位置信息一起使用，例如当位置信息不足时。例如，当第二显示设备具有长方形或正方形形状时，确定四个角的坐标提供关于第二显示设备的位置的足够信息，以执行以下操作。相反，当确定第二显示设备的单个点的坐标时，可以利用3D空间中的第二显示设备的取向来完成位置信息。具有取向信息的位置形成姿势信息。

在第三操作22中，投影第三图像220以适合在操作21确定的第二显示设备的位置或姿势。通过应用透视投影，第三图像220被变形以适合第二显示设备的感知几何形状。为了达到该目的，确定要应用于使第四图像变形以重叠在第四图像中的第二显示设备的表示上的同形(homographic)矩阵。例如，通过使用在操作21中确定的位置或姿势信息来确定同形矩阵，第三图像的点对应于第四图像的角，在对应于第四图像的角的第三图像的点和第二显示设备的表示的对应点之间建立映射。将同形矩阵应用于输入的第三图像220提供变形的第三图像221，其具有与第二显示设备的表示的形状相对应的形状。

当利用第一显示设备外部的摄像头获取第四图像时，需要表示第一显示设备的姿势的第二信息(以与第二显示设备的姿势信息相同的参考帧表达)来变形第三图像。该第二信息可以以与第二显示设备的第一姿势信息相同的方式获得，即，例如通过分析包括第一显示设备和第二显示设备的图像，或者可以直接从与第一显示设备相关联的传感器获得。

在可以顺序地或同时地执行的第四操作23和第五操作24中，第四图像13中第四显示设备231和用户的手241的表示被分段。图像分段是将图像分区成多个片段的处理，每个片段对应于一组像素。例如当位置信息由第二显示设备的角的坐标给出时，基于表示位置的信息，执行第二显示设备的分段。根据变型，分段还基于表示尺寸(例如，长度和宽度)的信息，例如当仅知道第二显示设备的一个角的坐标时或者当仅知道第二显示设备的取向信息时。所述尺寸信息例如被接收用于第二显示设备或从查询表中检索，该查询表提供用于第二显示设备的不同参考的列表的这样的信息。例如通过检测HSV颜色空间中的皮肤色调(如V.A.Oliveira等人在“Skin Detection using HSV color space”中描述)来执行用户的手部的分段。

在第六，第七和第八操作25，26，27中，利用可以顺序地或同时地执行的合成操作来获得最终的第一图像221。合成对应于将来自不同来源的视觉元素组合成(多个)单个图像。变形的第三图像271被重叠到第二显示设备的分段表示231上，并且手部241的分段表示被插入到第一图像中，以在显示变形的第三图像的分段表示的前面看到。最终合成27包括将具有变形的第三图像的手部的表示结合或重叠到第二图像上以生成最终第一图像271。这使得用户能够在他/她当前观看在第一显示设备上的内容中具有显示补充内容的窗口。取决于第三图像的内容，使得用户能够例如获得他/她所站立的现实环境的视图和/或控制他/她所站立的现实环境的一个或多个对象和/或控制他/她当前在观看的内容。

图2B示出根据本原理的第二具体和非限制性实施例的适配于生成第一图像600的另一处理。该处理例如由嵌入或不嵌入显示第一图像的第一显示设备中的图像处理装置实现。图5示出这样的图像处理装置的示例。

在该处理的第一操作201中，获得表示场景6的一个或多个第二图像。第二图像例如从诸如摄像头的获取设备接收。摄像头例如与第一显示设备(用于显示由关于图6描述的处理产生的第一图像600的HMD或平板电脑)相关联(例如，集成到)。摄像头可以是与其中站立佩戴第一显示设备的用户的现实环境相关联的摄像头。根据另一示例，从存储设备(例如，诸如RAM(随机存取存储器)或SSD(固态驱动器)存储器的存储器)接收或获得第二图像。第二图像例如表示佩戴第一显示设备的用户站立于的现实环境的确定视图，该视图由用于获取第二图像的摄像头的获取方向确定。在图6的示例中，第二图像包括第二显示设备61(例如，电视机)的表示。

在该处理的第二操作202中，获得一个或多个第三图像610，例如从源设备接收。第三图像例如对应于在场景6的第二显示设备上显示的图像。源设备例如对应于发送和/或解码第三图像以在第二显示设备上显示的源设备。一个或多个第三图像可以存储在图像处理装置的存储器(例如RAM或SSD)中或存储在高速缓存中以用于进一步处理。经由无线(例如，WiFi或蓝牙)或有线(例如，以太网或USB或HDMI)连接来接收一个或多个第三图像。

在该处理的第三操作203中，确定关于第二图像的视点和观看方向(例如，第二图像的获取视点)的场景6中的第二显示设备61的位置、取向、比例和形状。为了达到该目的，可以例如在第二图像中检测第二图像中的第二显示设备的表示。

该位置例如通过在第二图像中检测布置在第二显示设备上的可见界标(例如在第二显示设备的一个或多个角上)来确定，位置确定方法使用例如由Fanelli等(在“Realtime head pose estimation with random regression forests”中，Computer Visionand Pattern Recognition，2011年)描述的可见界标。界标的比例和取向给出第二显示的比例和取向。例如，可以通过分析第二图像中由检测到的界标占据的区域的形状来获得第二显示器的形状。

根据另一示例，可以通过使用非线性优化算法或使用最小化对象空间共线性误差的方法(由Chien-Ping Lu等人在“Fast and Globally Convergent Pose EstimationFrom Video Images”1998年2月18日中描述)来确定位置、取向和比例。

根据另一示例，通过将第二图像的内容与场景6中的第二显示设备上显示的视频内容(即，第三图像)进行比较来确定第二显示设备的位置，视频内容(即，第三图像)直接从源接收，以将后者视频内容发送到第二显示设备。知道在第二显示设备6上显示的视频(即，第三图像)的内容，比较处理的目的是将这样的视频内容定位在第二图像中，这使得能够检测第二图像中第二显示设备的位置、取向、比例和表示的形状。

根据另一示例，通过将不同的连续(时间上讲)第二图像的内容相互比较来确定第二显示设备的位置。通过考虑与一组连续的第二图像(例如，对应于第二图像序列的视频序列的10，20或20帧)相关联的视点不变化，第二图像的仅随时间改变的内容的部分对应于在第二显示设备61上显示的内容。可以相对于它们中的一个配准第二图像，并且可以通过图像差异化来检测第二显示设备的表示，该图像差异化突出由于在第二显示设备上显示第三图像引起的第二图像序列内的改变，第三图像的内容随时间变化。

根据另一示例，在第二显示设备上显示一个或多个基准标记，并在分析第四图像时使用以确定第二显示设备的姿势，例如由Fakhr-eddine Ababsa等人在“Robust CameraPose Estimation Using 2D Fiducials Tracking for Real-Time Augmented RealitySystems”，ACM SIGGRAPH VRCAI，2004年，页2226-2229中描述。例如，可以使用OpenCV中的ArUco软件与显示在第二显示设备上的基准标记板组合，以提供表示标记板的取向和第四图像中的每个标记的位置的三个矢量。

根据变型，取向可以与位置信息一起使用，例如当位置信息不足时。例如，当第二显示设备具有长方形或正方形形状时，确定四个角的坐标提供关于第二显示设备的位置的足够信息，以执行以下操作。相反，当确定第二显示设备的单个点的坐标时，可以利用3D空间中的第二显示设备的取向来完成位置信息。具有取向信息的位置形成姿势信息。

在第四操作204中，投影一个或多个第三图像610以适合在操作203确定的第二显示设备的位置或姿势。通过应用投影，使第三图像610变形以适合第二显示设备的感知几何形状。投影可以是透视，弱透视，正交，或具有例如足够的几何精度或足够轻的实现印记(footprint)的任何其他适当类型。为了达到该目的并且根据非限制性示例，确定要应用于使接收到的第三图像610变形以重叠在第二图像中的第二显示设备的表示上的同形矩阵。例如，通过使用在操作203中确定的位置或姿势信息来确定同形矩阵，第三图像610的点对应于接收到的长方形第三图像610的角，在接收到的第三图像的角和第二显示设备的表示的对应点(例如，第二图像中检测到的第二显示设备的帧的角)之间建立映射。将同形矩阵应用于接收到的第三图像610提供变形的第三图像611，其具有与第二显示设备的表示的形状相对应的形状。

当利用第一显示设备外部的摄像头获取第二图像时，需要表示第一显示设备的姿势的第二信息(以与第二显示设备的姿势信息相同的参考帧表达)来对接收到的第三图像进行变形。该第二信息可以以与第二显示设备的第一姿势信息相同的方式获得，即，例如通过分析包括第一显示设备和第二显示设备的图像，或者可以直接从与第一显示设备相关联的传感器获得。

在第五操作205中，利用可以顺序地或同时地执行的合成操作获得最终第一图像600。合成对应于将来自不同源的视觉元素组合或增强为(多个)单个图像。变形的第三图像611例如重叠在第二显示设备的表示601上。这使得用户能够受益于由接收到的第三图像610的分辨率和第一显示设备的屏幕的分辨率导致的最佳分辨率。

根据变型，变形的第三图像611在第二图像内在时间上重叠在固定地点。例如，在连续的第二图像序列中，第一第三图像可以重叠在与第二显示设备的表示相对应的序列的第一第二图像的区域上并且然后(第三图像序列中的)其他第三图像可以在序列的其他第二图像内的相同地点处重叠，即使第二显示设备的表示的地点在第二图像序列内随时间变化。当持有第一显示设备并获取第二图像的用户在场景内移动时，第二显示设备的表示的地点可以变化。将(多个)第三图像的重叠固定在固定地点使得能够避免例如由于获取第二图像时用户的手抖动引起的第三图像的小抖动，。

根据可选的变型，可以在合成处理期间将虚拟对象添加到第一图像，例如当生成表示增强现实场景或增强虚拟场景的第一图像时。

图3示出根据本原理的具体和非限制性实施例的将第一图像发送到第一显示设备的方法。

在初始化步骤30中，更新装置5的不同参数。特别地，姿势信息，透视投影的参数以任何方式初始化。

在步骤31中，接收第二图像。第二图像例如表示虚拟环境，例如计算机生成的图像(例如，用于游戏应用)。根据其他示例，第二图像是表示现实环境的图像，例如利用一个或多个摄像头获取的图像，或者包括现实和虚拟元素的图像。第二图像可以属于连续的第二图像序列(即，视频序列)。根据特定实施例，第二图像是沉浸式内容的一部分，第二图像的尺寸对应于第一显示设备能够显示的内容的尺寸。第二图像例如经由因特网或通过LAN(局域网)中的无线或有线连接从远程存储设备(例如，服务器)接收。根据另一示例，经由总线从本地存储器(例如，RAM或SSD)接收第二图像，该总线连接来自配置为处理第二图像的处理单元(例如，处理器，例如CPU和/或一个或多个GPU)的本地存储器。根据另一示例，从图像获取设备(例如，与第一显示设备相关联的摄像头)接收一个或多个第二图像。

在步骤32中，获得(例如接收或确定)表示第二显示设备的位置的第一信息。第一信息可以例如通过有线或无线连接从第二显示设备接收。根据另一示例，通过在包括第二显示设备的表示的第四图像上应用姿势估计算法来确定第一信息，如在图2A的操作21或图2B的操作203中更详细地解释。第四图像220(在图6和图2B的示例中也称为第二图像)可以利用与第一显示设备相关联的摄像头或者利用第一显示设备外部的摄像头(例如属于佩戴或持有第一显示设备的用户站立其中的现实环境)来获取。根据可选的变型，可以获得第二显示设备的取向信息，将位置和取向信息组合在一起以提供第二显示设备的姿势。

在步骤33中，接收第三图像。第三图像例如经由因特网或通过LAN(局域网)中的无线或有线连接或从远程存储设备(例如，第二显示设备或属于例如用户站立其中的现实环境的摄像头)。第三图像属于一组图像，包括：

-视频序列的图像，例如，表示现实环境的电影或视频序列，例如佩戴或持有第一显示设备的用户站立其中的现实环境。所述图像例如利用与第二显示设备(例如由用户持有)相关联的摄像头或者利用位于所述现实环境内的摄像头获取。根据变型，该图像表示远离用户的环境的现实环境，例如表示与用户站立的房间不同的房间。根据另一变型，该图像表示人，例如人的面部，该图像例如利用智能手机的摄像头或所述人的平板电脑的摄像头获取并在第二显示设备上接收；

-表示虚拟环境的视频序列的图像；

-表示组合现实和虚拟元素或对象的场景的视频序列的图像；

-包括图形用户界面(GUI)的一个或多个图形对象的图像，其适于例如控制第一和/或第二图像的参数，控制用户的环境的元素(例如，接通/断开(多个)灯，警报器，百叶窗)；和

-包括文本元素的图像，例如在第二显示设备上接收的SMS(短消息服务)的文本元素。

第三图像可以是上述图像中的若干或全部的组合的任何上述图像，例如包括现实环境的一个或多个图像的第三图像序列，在第二显示设备上呼叫用户的人的面部的一个或多个图像，一个或多个文本元素。根据变型，第三图像可以是几个上述图像的合成，例如嵌入图形和/或文本元素的用户的现实环境的图像。

然后根据在步骤32获得的第一位置信息(或根据第一姿势信息)使第三图像变形，如关于图2的操作22的更多细节解释。

在步骤34中，通过组合变形的第三图像和接收的第二图像来生成(例如，合成)第一图像。变形的第三图像例如被重叠在接收的第二图像的确定区域上，例如，在第二图像的左下部分或第二图像的右下部分或在用户定义的部分中。根据变型，合成还包括组合第四图像的分段部分，第四图像包括由佩戴或持有第一显示设备的用户持有的第二显示设备的表示。根据该变型，第三图像被重叠到表示第二显示设备的分段部分上，其中用户的手持有在其上显示第三图像的第二显示设备。然后，佩戴第一显示设备的用户在不需要离开他/他沉浸的环境的情况下访问补充内容，例如他/她的环境的视图或者进入第二显示设备(例如智能手机或平板电脑)的消息的视图。直接从源接收到的第三图像的重叠使得能够在显示所述第三图像时受益于第一显示设备的全分辨率。

在步骤35中，将在步骤34获得的表示第一图像的数据发送到第一显示设备，以例如显示在第一显示设备的(多个)屏幕上。该数据包括例如与第一图像的像素相关联的纹理信息，例如与每个像素相关联的RGB信息。

可以针对若干第二图像(即，第二图像序列)和/或若干第三图像(即，第三图像序列)和/或若干第四图像(即，第四图像序列)迭代这些步骤以生成第一图像序列。

图5示意性示出被配置用于合成和/或发送第一图像的装置5的硬件实施例。设备5还被配置用于创建一个或几个第一图像的显示信号。设备5例如对应于平板电脑，智能手机，游戏控制台，计算机，膝上型计算机或机顶盒。

装置5包括以下元件，通过地址和数据的总线55相互连接，该总线55也传输时钟信号：

-微处理器51(或CPU)，

-图形卡52，包括：

·若干图形处理器单元(或GPU)520，

·图形随机存取存储器(GRAM)521，

-ROM(只读存储器)型的非易失性存储器56，

-随机存取存储器或RAM 57，

-发送器58，被配置为将表示第一图像的数据发送到例如第一显示信号，

-接收器59，被配置为接收来自第二显示设备、来自(多个)摄像头、来自第一显示设备的数据(例如，表示观看方向的信息)，表示第二和/或第三和/或第四图像的数据，来自第二显示设备的控制参数；

-一个或几个I/O(输入/输出)设备54，诸如触觉接口，鼠标，网络摄像头等，以及

-电源59。

装置5还可以包括直接连接到图形卡52的显示屏类型的一个或多个显示设备53，以显示在图形卡中计算的图像，例如现场。使用专用总线将显示设备53连接到图形卡52提供具有更高数据传输比特率的优点，从而减少显示由图形卡组成的图像的等待时间。根据变型，显示设备在装置5的外部，并通过电缆或无线连接到装置5，以发送显示信号。装置5(例如图形卡52)包括用于传输或连接的接口(图5中未示出)，其适配于将显示信号发送到外部显示部件，诸如例如第一显示设备(例如HMD)，LCD或等离子屏幕或视频投影仪。

注意，在存储器521，56和57的描述中使用的“寄存器”一词表示在提到的每个存储器中，低容量的存储区(一些二进制数据)以及大容量的存储区(使整个程序能够存储或者全部或部分表示所计算的或者要显示的数据的数据)二者。

当通电时，微处理器51加载并执行包含在RAM 57中的程序的指令。

随机存取存储器57显著包括：

-在寄存器570中，负责接通装置5的微处理器51的操作程序，

-数据571，表示第一，第二，第三和/或第四(多个)图像(例如RGB数据)，

-信息572，表示第二显示设备和/或第一显示设备的位置(和/或姿势)。

实现本公开特定的(多个)方法的步骤的算法(例如，发送第一图像的方法和/或合成第一图像的方法)存储在与实现这些步骤的装置5相关联的图形卡52的存储器GRAM 521中。当接通并且一旦数据571和信息572被加载到RAM 57中时，图形卡52的图形处理器520将这些参数加载到GRAM 521中并且例如使用HLSL(高级着色器语言)语言或GLSL(OpenGL着色语言)并以“着色器”的微程序的形式执行这些算法的指令。

随机存取存储器GRAM 521显著包括：

-在寄存器中，表示第二图像的数据；

-在寄存器中，表示第三和/或第四图像的数据；

-在寄存器中，表示第一图像的数据；

-在寄存器中，表示位置或姿势信息的数据。

根据另一变型，如果GRAM 521中可用的存储器存储空间不足，则由CPU51分配RAM57的一部分，用于存储标识符和距离。然而，该变型在包括由包含在GPU中的微程序组成的环境的表示的图像的合成中导致更大的等待时间，因为数据必须通过总线55从图形卡发送到随机存取存储器57，对于总线55，传输容量通常低于图形卡中可用于将数据从GPU发送到GRAM的传输容量并且反之亦然。

根据另一变型，电源58在装置5外部。

在替代实施例中，装置5不包括任何ROM而仅包括RAM，实现本公开特定的方法的步骤并且关于图2或3描述的算法存储在RAM中。根据另一变型，装置5包括SSD(固态驱动器)存储器而不是ROM和/或RAM。

当然，本公开不限于先前描述的实施例。

特别地，本公开不限于发送第一图像的方法，而是还延伸至用于合成/生成第一图像的方法(和配置用于合成/生成第一图像的设备)和/或用于显示第一图像的方法(和配置用于显示第一图像的设备)。

可以例如以方法或者处理、装置、软件程序、数据流或者信号来实现在此描述的实现方式。即便仅仅在单一形式的实现方式的背景中进行讨论(例如，仅仅作为方法或设备讨论)，但所讨论的特征的实现方式还可以以其它形式(例如程序)来实现。例如，可以以合适的硬件、软件和固件来实现装置。可以以例如诸如处理器之类的装置来实现所述方法，处理器指通常包括例如计算机、微处理器、集成电路或者可编程逻辑设备的处理装置。处理器还包括通信设备，诸如例如，智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(PDA)，以及便于在终端用户之间信息通信的其它设备。

可以在各种不同的装备或者应用中嵌入在此描述的各种处理和特征的实现方式，具体地，例如，与数据编码、数据解码、视图生成、纹理处理和图像和相关纹理信息和/或深度信息的其他处理相关联的装备或者应用中。这样的装备的示例包括编码器、解码器、处理来自解码器输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、网络服务器、机顶盒、膝上型计算机、个人计算机、蜂窝电话、PDA，以及其它通信设备。应清楚，设备可以是移动的、并且甚至被安装在移动车辆上。

另外，可以通过处理起执行指令来实现方法，并且这样的指令(和/或由实现方式产生的数据值)可以被存储在处理器可读介质上，诸如例如，集成电路、软件载体或者其它存储设备，诸如例如硬盘、致密盘(CD)、光盘(诸如例如通常被称为数字多用途盘或者数字视盘的DVD，)随机存取存储器(“RAM”)或者只读存储器(“ROM”)中。指令可以形成在处理器可读介质上有形体现的应用程序。指令可以例如在硬件、固件、软件或者组合中。指令可以在例如操作系统、单独的应用程序、或者二者的组合中发现。因此，处理器可以被表征为被配置为执行处理的设备和包括具有用于执行处理的指令的处理器可读介质的设备(诸如存储设备)这二者。此外，除了指令以外或者替代指令，处理器可读介质可以存储由实现方式产生的数据值。

对于本领域技术人员将显而易见的是，实现方式可以产生各种信号，这些信号被格式化以携带可以例如存储或传输的信息。该信息可以包括例如用于执行方法的指令，或者由描述的实现方式之一产生的数据。例如，信号可以被格式化以携带用于写入或读取描述的实施例的语法的规则作为数据，或者携带由描述的实施例写入的实际语法值作为数据。这样的信号可以被格式化，例如作为电磁波(例如，使用频谱的射频部分)或者作为基带信号。格式化可以包括，例如，编码数据流和用编码数据流调制载波。信号携带的信息可以是例如模拟或数字信息。如已知的，信号可以通过各种不同的有线或无线链路传输。信号可以存储在处理器可读介质上。

已经描述多个实现方式。然而，将理解，可以进行各种修改。例如，不同实现方式的元素可以被组合、补充、修改或者移除以产生其它实现方式。另外，本领域技术人员将理解，其它结构和处理可以替换公开的那些，并且作为结果的实现方式将与所公开的实现方式以至少基本上相同的(多个)方式、执行至少基本上相同的(多个)功能来实现至少基本上相同的(多个)结果。相应地，这些和其它实现方式是可以由本公开想到。

Claims

1.一种方法，包括:

获得现实环境的捕获图像，其中所述现实环境包括具有屏幕的设备，并且其中所述捕获图像包括具有所述屏幕的所述设备；

基于所述捕获图像确定所述屏幕的姿势；

从除了所述捕获图像之外的源获得要在虚拟场景中的屏幕的表示上显示的2D内容；

投影所述2D内容以产生投影的2D内容，所述投影的2D内容与所述屏幕的所述姿势对齐；以及

生成所述虚拟场景作为虚拟内容项目和所述投影的2D内容的组合。

2.根据权利要求1所述的方法，还包括在用户的头戴式显示器HMD中显示所述虚拟场景。

3.根据权利要求2所述的方法，其中，所述捕获图像是使用所述HMD的至少一个摄像头获得的。

4.根据权利要求1所述的方法，其中，所述捕获图像中的所述屏幕显示至少一个标记，并且其中所述屏幕的所述姿势是基于检测所述捕获图像中的所述至少一个标记来确定的。

5.根据权利要求1所述的方法，其中，所述2D内容是2D图像。

6.根据权利要求1所述的方法，其中，所述2D内容包括文本、图形和图形对象中的至少一个。

7.根据权利要求1所述的方法，其中，所述设备是便携式设备。

8.根据权利要求7所述的方法，其中，所述便携式设备包括图形用户界面GUI，并且其中所述方法还包括接收对所述便携式设备上的所述GUI的图形对象的按压动作，其中所述按压动作控制所述2D内容的一个或多个参数。

9.根据权利要求1所述的方法，还包括从所述捕获图像中对所述设备的图像分段，其中所述虚拟场景还从所述设备的分段图像中生成。

10.根据权利要求1所述的方法，其中，所述虚拟场景还从持有所述设备或与所述设备交互的所述用户的手的表示中生成。

11.一种装置，包括:

存储器，存储处理器可执行程序指令；以及

至少一个硬件处理器，被配置为执行所述程序指令以：

基于所述捕获图像确定所述屏幕的姿势；

12.根据权利要求11所述的装置，其中，所述至少一个硬件处理器还被配置以执行所述程序指令以在用户的头戴式显示器HMD中显示所述虚拟场景。

13.根据权利要求12所述的装置，其中，所述捕获图像是使用所述HMD的至少一个摄像头获得的。

14.根据权利要求11所述的装置，其中，所述捕获图像中的所述屏幕显示至少一个标记，并且其中所述屏幕的所述姿势是基于检测所述捕获图像中的所述至少一个标记来确定的。

15.根据权利要求11所述的装置，其中，所述2D内容是2D图像。

16.根据权利要求11所述的装置，其中，所述2D内容包括文本、图形和图形对象中的至少一个。

17.根据权利要求11所述的装置，其中，所述设备是便携式设备。

18.根据权利要求17所述的装置，其中，所述便携式设备包括图形用户界面GUI，并且其中所述至少一个硬件处理器还被配置以接收对所述便携式设备上的所述GUI的图形对象的按压动作，其中所述按压动作控制所述2D内容的一个或多个参数。

19.根据权利要求11所述的装置，其中，所述至少一个硬件处理器还被配置以从所述捕获图像中对所述设备的图像分段，其中所述虚拟场景还从所述设备的分段图像中生成。

20.根据权利要求11所述的装置，其中，所述虚拟场景还从持有所述设备或与所述设备交互的所述用户的手的表示中生成。