CN111630568B

CN111630568B - 电子装置及其控制方法

Info

Publication number: CN111630568B
Application number: CN201980008878.0A
Authority: CN
Inventors: 潘大铉; 朴佑镇; 韩成元
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-02-27
Filing date: 2019-01-03
Publication date: 2023-11-10
Anticipated expiration: 2039-01-03
Also published as: US20200402251A1; US11657520B2; KR102595787B1; CN111630568A; KR20190102906A; WO2019168264A1

Abstract

公开了一种包括根据人工智能算法学习的学习模型的电子装置。根据本公开的电子装置可包括输入单元和处理器，其中，当通过输入单元接收到包括至少一个对象的二维图像时，处理器通过将所述二维图像应用于第一学习模型来获取与所述至少一个对象相关的第一深度信息，通过将第一深度信息和所述至少一个对象的实际测量的深度数据应用于第二学习模型来获取与所述至少一个对象相关的第二深度信息，并且基于第二深度信息来获取与所述二维图像相关的三维信息，其中，第一深度信息被实现为包括根据所述至少一个对象的类型的深度数据。

Description

电子装置及其控制方法

技术领域

本公开涉及一种从二维图像获得三维信息的电子装置及其控制方法。

背景技术

随着电子技术的发展，使用三维图像数据的电子装置已经投入使用。具体地，三维图像数据可被用于诸如电子行业、医疗行业、娱乐行业等各个领域。

通常，通过单独获得深度信息的图像捕获装置(诸如立体相机)获得三维数据。然而，存在这样的问题：利用通常由普通人使用的普通单色相机难以获得诸如深度信息的三维图像数据。此外，存在一个问题，即尽管普通人使用立体相机，但是他/她发现难以处理深度信息并将深度信息用于二维图像中。

另外，由于缺乏关于捕获对象的类型的信息，因此存在由立体相机获得的三维图像数据难以用于各种行业领域的问题。

发明内容

技术问题

本公开鉴于上述需求而做出，并且本公开的目的是通过根据人工智能算法将二维图像应用于人工智能学习模型来提供三维图像信息。

技术方案

根据本公开的实施例，提供了一种电子装置，所述电子装置包括根据人工智能算法训练的学习模型、输入单元和处理器，处理器被配置为：基于经由输入单元接收到包括至少一个对象的二维图像，通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息，通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息，并且基于第二深度信息获得关于所述二维图像的三维信息，其中，第一深度信息包括根据所述至少一个对象的类型的深度数据。

处理器可被配置为通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的类型的信息。

第一深度信息可包括与对象中包括的多个像素中的每个像素相应的深度值，处理器可被配置为通过将所述深度值应用于第二学习模型，根据所述深度值与相应于所述多个像素中的每个像素的地面真实深度数据之间的欧几里得距离来调整所述深度值以获得第二深度信息。

包括在第一深度信息中的所述深度数据可以是根据对象的类型被一般化的代表性深度值，并且所述地面真实深度数据可以是通过利用立体相机捕获所述至少一个对象而获得的地面真实深度值。

电子装置还可包括图像捕获单元，图像捕获单元可包括单色相机，并且所述二维图像是由单色相机捕获的图像。

根据本公开的另一实施例，提供了一种用于控制电子装置的方法，所述方法包括：基于包括至少一个对象的二维图像被接收，通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息，通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息；并且基于第二深度信息获得关于所述二维图像的三维信息，其中，第一深度信息包括根据所述至少一个对象的类型的深度数据。

获得第一深度信息的步骤可包括通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的类型的信息。

第一深度信息可包括与包括在对象中的多个像素中的每个像素相应的深度值，并且获得第二深度信息的步骤可包括：通过将所述深度值应用于第二学习模型，根据所述深度值与相应于所述多个像素中的每个像素的地面真实深度数据之间的欧几里得距离来调整所述深度值以获得第二深度信息。

包括在第一深度信息中的所述深度数据是根据对象的类型被一般化的代表性深度值，并且所述地面真实深度数据可以是通过利用立体相机捕获所述至少一个对象而获得的地面真实深度值。

所述二维图像是由单色相机捕获的图像。

根据本公开的又一实施例，提供了一种存储计算机指令的非暂时性计算机可读介质，所述计算机指令使得电子装置能够基于所述计算机指令被电子装置的处理器执行而执行操作，其中，所述操作包括：基于包括至少一个对象的二维图像被接收，通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息，通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息，并且基于第二深度信息获得关于所述二维图像的三维信息，其中，第一深度信息包括根据所述至少一个对象的类型的深度数据。

获得第一深度信息的操作可包括通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的类型的信息。

所述二维图像可以是由单色相机捕获的图像。

发明效果

如上所述，根据本公开的实施例，用户能够仅通过捕获二维图像来容易地获得关于二维图像的三维信息。

附图说明

图1是用于说明根据实施例的通过使用电子装置从二维图像获得三维信息的操作的示图。

图2是用于说明根据实施例的电子装置的配置的框图。

图3是用于说明根据实施例的电子装置的具体配置的框图。

图4a是用于说明根据实施例的用于实现人工智能算法的处理器的配置的示图。

图4b是用于说明根据实施例的学习单元和识别单元的具体配置的示图。

图5是用于说明根据实施例获得的包括三维信息的图像的示图。

图6是用于说明根据实施例的用于控制电子装置的方法的流程图。

具体实施方式

在简要解释说明书中使用的术语之后，将详细描述本公开。

考虑到本公开中的功能，在本公开中使用的术语已经被选择了尽可能广泛使用的通用术语，但是这些术语可根据本领域技术人员的意图、先例、新技术的出现等而变化。另外，在特定情况下，也存在申请人任意选择的术语，该情况下的含义将在本公开的描述中详细描述。因此，在本公开中使用的术语应当基于术语本身的含义和贯穿本公开的内容来定义，而不是基于术语的简单名称来定义。

本公开的实施例可进行各种改变并且包括各种实施例，并且具体实施例将在附图中示出并且在说明书中详细描述。然而，应当理解的是，这并不限制具体实施例的范围，并且包括在所公开的精神和技术范围中的所有修改、等同物和/或替代形式。在描述本公开时，当确定现有技术的详细描述可能不必要地模糊本公开的要点时，省略该现有技术的详细描述。

术语“第一”、“第二”等可用于描述各种元件，但元件可不受所述术语限制。所述术语仅用于将一个元件与另一个元件区分开。

除非另外具体定义，否则单数表达可涵盖复数表达。应当理解的是，诸如“包括”或“由……组成”的术语在本文中用于指定特性、数字、步骤、操作、元件、部件或其组合的存在，并且不排除添加存在其他特性、数字、步骤、操作、元件、部件或其组合中的一个或更多个或添加其他特性、数字、步骤、操作、元件、部件或其组合中的一个或更多个的可能性。

本公开中的诸如“模块”或“单元”的术语可执行至少一个功能或操作，并且可被实现为硬件、软件或硬件和软件的组合。此外，除了当多个“模块”、“单元”等中的每个需要在单独的硬件中实现时，组件可被集成在至少一个模块中并且在至少一个处理器(未示出)中实现。

在下文中，将参照附图详细描述本公开的实施例，使得本领域技术人员可容易地在本公开的技术领域中实现和使用实施例。但是，本公开可以以各种不同的形式来实现，并且不限于本文所描述的实施例。另外，在附图中，为了清楚地描述本公开，省略了与描述无关的部分，在整个说明书中对相同的部分使用相同的附图标记。

图1是用于说明根据本公开的实施例的通过使用电子装置从二维图像获得三维信息的操作的示图。

根据本公开的实施例，电子装置100可被实现为包括单色相机的智能电话。这是为了便于描述，并且如果电子装置100不包括相机，则电子装置100可包括能够从外部接收二维图像的各种电子装置。因此，电子装置100可被实现为诸如计算机、TV、机顶盒、智能电话、智能手表等的各种装置。电子装置100还可包括相机和能够同时接收二维图像的接收单元。

根据本公开的实施例，电子装置100可捕获外部的视图。电子装置100可从通过捕获外部的视图而获得的二维图像获得三维信息。根据另一实施例的电子装置100可通过从外部装置接收捕获的二维图像来获得三维信息。例如，可利用深度图来获得三维信息。

电子装置100可通过根据人工智能算法将二维图像应用于各种学习模型来获得三维信息。

在这种情况下，电子装置100可通过将二维图像应用于第一学习模型来根据二维图像中包括的对象的类型获得简要深度信息。

然后，电子装置100可通过将所获得的深度信息和地面真实深度数据(或勘测深度数据或测量数据深度数据)应用于第二学习模型来获得具有高准确度的深度信息。也就是说，在根据对象类型通过分类学习获得简要深度信息之后，电子装置100可通过将简要深度信息调整为接近地面真实深度数据来获得精细的深度信息。

图2是用于说明根据本公开的实施例的电子装置的配置的框图。

根据本公开的实施例的电子装置100可包括输入单元110和处理器120。

输入单元110可获得二维图像，并将二维图像发送至处理器120。在这种情况下，二维图像可包括至少一个对象。

根据本公开的实施例，输入单元110可从外部装置接收二维图像。具体地，输入单元110可包括用于接收二维图像的至少一个输入端口。每个端口可包括例如DP、USB、HDMI、RGB、DVI、雷电接口(Thunderbolt)、MHL、AES/EBU、光学、同轴等。

根据本公开的另一实施例，输入单元110可包括至少一个通信模块。在这种情况下，输入单元110可从外部装置或服务器接收二维图像。例如，输入单元110可通过诸如红外(IR)、无线保真(WI-FI)、蓝牙、Zigbee、信标、近场通信(NFC)、WAN、以太网或IEEE 1394的各种通信系统执行通信。输入单元110还可包括全部输入端口和通信模块。

处理器120控制电子装置100的一般操作。

根据本公开的实施例，处理器120可被实现为数字信号处理器(DSP)、微处理器或处理数字信号的时间控制器(TCON)。然而，不限于此，并且处理器120可包括中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)或通信处理器(CP)以及ARM处理器中的一个或更多个，或者处理器120可被定义为相应的术语。另外，处理器120可被实现为包括处理算法的片上系统(SoC)或大规模集成电路(LSI)，或者可以以现场可编程门阵列(FPGA)的形式来实现。

当经由输入单元110接收到包括至少一个对象的二维图像时，处理器120可通过将二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息。具体地，处理器120可执行深度学习的各种学习方法中的分类学习。

第一深度信息可包括根据所述至少一个对象的类型的深度数据。例如，处理器120可通过将二维图像应用于第一学习模型来获得与包括在二维图像中的对象的类型和包括在对象中的每个像素相应的深度值。

在这种情况下，处理器120可根据对象的类型利用深度数据来训练第一学习模型。

深度数据可包括根据对象的类型被一般化的代表性深度值。具体地，处理器120可根据第一学习模型获得针对每种类型的对象被一般化的深度值，处理器120可利用针对每种类型的对象的深度值对第一学习模型进行训练，以利用针对每种类型的对象被一般化的代表性深度值执行训练。

例如，如果对象的类型是车辆，则通常车辆的前灯部分位于挡风玻璃的前方。处理器120可通过训练根据第一学习模型获得一般化的深度值，该一般化的深度值示出车辆前灯的深度值低于车辆的挡风玻璃的深度值。另外，处理器120可根据第一学习模型识别车辆的特定形状(诸如前灯、挡风玻璃等)并且可根据第一学习模型识别出二维图像中包括的对象的类型是车辆。

处理器120可通过将包括在二维图像的对象中的每个像素值应用于第一学习模型来获得与包括在对象中的每个像素相应的第一深度信息。也就是说，处理器120可利用与每个像素值相应的第一深度信息来训练第一学习模型。

通过这样做，处理器120可通过第一学习模型根据对象的类型获得第一深度信息。

处理器120可通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得第二深度信息，并基于第二深度信息获得关于二维图像的三维信息。

例如，由处理器120获得的第一深度信息可包括根据对象类型近似的深度值。因此，处理器120可使用地面真实深度数据基于第二学习模型获得三维信息，以获得精细的深度值。

在这种情况下，地面真实深度数据可包括由立体相机获得的深度值。另外，可在能够获得准确深度数据的模拟环境中提供地面真实深度数据。地面真实深度数据可被存储在存储器130中，或者可从外部装置或服务器接收地面真实深度数据。

另外，处理器120可通过将与包括在第一深度信息中的多个像素中的每个像素相应的深度值应用于第二学习模式、并根据与所述多个像素中的每个像素相应的地面真实深度数据和所述深度值之间的欧几里得距离调整所述深度值来获得第二深度信息。

具体地，处理器120可通过使用第二学习模型来获得由第一学习模型估计的第一深度信息与地面真实深度数据之间的欧几里得距离，并基于所获得的距离来获得通过使深度的损失最小化而获得的第二深度信息。

在这种情况下，处理器120可通过使用第二学习模型使包括在第一深度信息中的每个像素与包括在地面真实深度数据中的每个像素相应，来获得包括在每个像素中的深度值的欧几里得距离。

另外，处理器120可通过调整第一深度信息的深度值以使通过使用第二学习模型获得的多个欧几里得距离的平均值最小化来获得第二深度信息。

由处理器120获得的第二深度信息可包括关于对象的类型的信息。具体地，处理器120可基于比包括在第一深度信息中的深度值更精细的包括在第二深度信息中的深度值来获得关于对象的类型的信息。在这种情况下，处理器120可获得具有比基于包括在第一深度信息中的深度值获得的关于对象的类型的信息更高精度的信息。

因此，处理器120可基于根据对象的类型获得的第一深度信息和地面真实深度数据来获得比第一深度信息更精细的第二深度信息。

处理器120可基于第二深度信息获得关于二维图像的三维信息。例如，处理器120可基于第二深度信息获得三维信息，诸如与对象的距离、相对位置、XYZ坐标值。

图3是用于说明根据本公开的实施例的电子装置的具体配置的框图。

根据本公开的实施例的电子装置100可包括输入单元110、处理器120、存储器130和图像捕获单元140。

存储器130存储电子装置100的操作所需的各种数据。在示例中，存储器130可存储用于从二维图像获得三维信息的根据人工智能算法训练出的各种学习模型。

特别地，存储器130可存储处理器120执行各种处理所需的数据。例如，存储器130可被实现为包括在处理器120中的内部存储器(诸如ROM、RAM等)或者可被实现为与处理器120分离的存储器。在这种情况下，根据数据存储目的，存储器130可以以嵌入在电子装置100中的存储器的形式被实现，或者以可从电子装置100拆卸的存储器的形式被实现。例如，用于操作电子装置100的数据可被存储在嵌入在电子装置100中的存储器中，并且用于电子装置100的扩展功能的数据可被存储在可从电子装置100拆卸的存储器中。嵌入在电子装置100中的存储器可被实现为非易失性存储器、易失性存储器、闪存存储器、硬盘驱动器(HDD)或固态驱动器(SSD)，并且，可从电子装置100拆卸的存储器可被实现为存储卡(例如，微型SD卡或USB存储器)、可连接到USB端口的外部存储器(例如，USB存储器)。

图像捕获单元140可捕获外部的视图作为二维图像。根据实施例，图像捕获单元140可包括单色相机。图像捕获单元140可关于外部的视图的特定区域获得由多个像素组成的二维图像。图像捕获单元140可将获得的二维图像发送到处理器120。

与立体相机不同，单色相机意味着不能通过捕获外部的视图来直接获得三维信息(例如，深度值)的相机。在这种情况下，图像捕获单元140可被实现为诸如电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)的图像传感器。CCD是这样的装置：在该装置中，电荷载流子被存储在电容器中并被承载，同时每个金属氧化物硅(MOS)电容器位于非常近的距离处。CMOS图像传感器是使用采用COMS技术按照像素数量创建MOS晶体管并通过使用COMS技术顺序地检测输出的开关方法的装置，其中，COMS技术将控制电路和信号处理电路用作外围电路。

图4a是用于说明根据本公开的实施例的用于实现人工智能算法的处理器的配置的示图。

参照图4a，处理器400可包括学习单元410和识别单元420中的至少一个。图4a的处理器400与图2和图3的处理器120相应。

学习单元410可生成或训练具有用于预定状态确定的标准的识别模型。学习单元410可通过使用收集的学习数据来产生具有确定标准的识别模型。

在示例中，学习单元410可通过使用包括对象的二维图像和深度值中的至少一个作为学习数据来产生、训练或更新具有用于确定包括在图像中的对象的类型的标准的对象识别模型。

在另一示例中，学习单元410可通过使用包括对象的二维图像和深度值中的至少一个作为学习数据来产生、训练或更新具有用于确定对象的深度的标准的深度识别模型。

上述识别模型可包括第一学习模型和第二学习模型。

识别单元420可通过使用预定数据作为训练后的识别模型的输入数据来预测包括在预定数据中的识别目标。

例如，识别单元420可通过使用包括对象的二维图像和深度值中的至少一个作为训练后的识别模型的输入数据来获得、预测或推断关于包括在二维图像中的对象的类型的信息。

在另一示例中，识别单元420可通过使用包括对象的二维图像和深度值中的至少一个作为训练后的识别模型的输入数据来获得、预测或推断关于包括在二维图像中的对象的深度信息。

学习单元410的至少一部分和识别单元420的至少一部分可被实现为软件模块或者以至少一个硬件芯片的形式被制造并且被安装在电子装置100上。例如，学习单元410和识别单元420中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式被制造，并且可被制造为图形专用处理器(例如，GPU或常规通用处理器(例如，CPU或应用处理器))的一部分，并且被安装在上述各种电子装置或对象识别装置上。用于人工智能的专用硬件芯片是专门用于可能性计算的专用处理器，并且可以以比常规通用处理器更高的并行处理性能来快速处理人工智能领域(诸如机器学习)中的计算操作。如果学习单元410和识别单元420被实现为软件模块(或包括指令的程序模块)，则软件模块可被存储在非暂时性计算机可读介质中。在这种情况下，软件模块可由操作系统(O/S)提供或由预定应用提供。另外，软件模块的一部分可由操作系统(O/S)提供，而另一部分可由预定应用提供。

在这种情况下，学习单元410和识别单元420可被安装在一个电子装置上或者可被分别安装在单独的电子装置上。例如，学习单元410和识别单元420中的一个可被包括在电子装置100中，并且其中的另一个可被包括在外部服务器中。另外，学习单元410和识别单元420可以以有线或无线方式连接，使得学习单元410可将构建的模型信息提供给识别单元420，并且输入到识别单元420的数据作为附加学习数据被提供给学习单元410。

图4b是用于说明根据本公开的实施例的学习单元和识别单元的具体配置的示图。

参照图4b的(a)，根据实施例的学习单元410可包括学习数据获得单元410-1和模型学习单元410-4。另外，学习单元410还可选择性地包括学习数据预处理单元410-2、学习数据选择单元410-3和模型评估单元410-5中的至少一个。

学习数据获得单元410-1可获得识别模型预测识别目标所需的学习数据。根据本公开的实施例，学习数据获得单元410-1可获得包括对象的二维图像、关于对象的类型的信息、第一深度信息和对象的地面真实深度数据中的至少一个作为学习数据。学习数据可以是由学习单元410或学习单元410的制造商收集或测试的数据。

模型学习单元410-4可通过使用学习数据来训练识别模型以具有关于如何确定预定识别目标的确定标准。例如，模型学习单元410-4可通过使用学习数据的至少一部分作为确定标准的监督学习来训练识别模型。另外，模型学习单元410-4可例如通过无监督学习来训练识别模型，该无监督学习通过在无需特别监督的情况下使用学习数据进行自训练来找出用于确定情况的确定标准。另外，模型学习单元410-4可例如通过使用关于根据训练的情况确定的结果是否准确的反馈的强化学习来训练识别模型。此外，模型学习单元410-4可例如通过使用包括误差反向传播或梯度下降的学习算法来训练识别模型。

另外，模型学习单元410-4可通过使用输入数据来训练关于哪个学习数据将被用于预测识别目标的选择标准。

如果预先构建的识别模型的数量多于一个，则模型学习单元410-4可将基础学习数据与输入的学习数据高度相关的识别模型确定为待训练的识别模型。在这种情况下，可针对每种类型的数据预先对基本学习数据片段进行分类，并且可针对每种类型的数据预先构建识别模型。例如，可基于诸如生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的种类、学习数据的创建者、学习数据中的对象的类型等的各种标准来预先对基本学习数据片段进行分类。

例如，当训练识别模型时，模型学习单元410-4可存储训练出的识别模型。在这种情况下，模型学习单元410-4可将训练出的识别模型存储在电子装置100的存储器130中。另外，模型学习单元410-4可将训练出的识别模型存储在经由有线或无线网络连接到电子装置100的服务器的存储器中。

学习单元410还可包括学习数据预处理单元410-2和学习数据选择单元410-3，以便改善识别模型的分析结果或节省提供识别模型所需的资源或时间。

学习数据预处理单元410-2可对所获得的数据进行预处理，使得所获得的数据在用于情况确定的学习中使用。学习数据预处理单元410-2可以以预定义格式处理所获得的数据，使得模型学习单元410-4可将所获得的数据用于训练以获得深度信息。

学习数据选择单元410-3可从由学习数据获得单元410-1获得的数据或由学习数据预处理单元410-2预处理的数据中选择学习所需的数据。选择出的学习数据可被提供给模型学习单元410-4。学习数据选择单元410-3可根据预定的选择标准从获得的或预处理的数据中选择学习所需的学习数据。另外，学习数据选择单元410-3可根据由模型学习单元410-4执行的学习，根据预定的选择标准来选择学习数据。

学习单元410还可包括模型评估单元410-5，以便改进识别模型的分析结果。

如果根据评估数据输出的分析结果不满足预定标准，则模型评估单元410-5可将评估数据输入到识别模型，并且可使模型学习单元410-4再次执行训练。在这种情况下，评估数据可以是用于评估识别模型的预定义数据。

例如，如果训练出的识别模型的关于评估数据的分析结果中的具有不准确的分析结果的评估数据片的数量或比率超过预定阈值，则模型评估单元410-5可评估出不满足预定标准。

如果训练出的识别模型的数量多于一个，则模型评估单元410-5可评估训练出的识别模型中的每个是否满足预定标准，并将满足预定标准的模型确定为最终识别模型。在这种情况下，如果满足预定标准的模型的数量多于一个，则模型评估单元410-5可将按照高评估等级的顺序预先设置的任何一个或预定数量的模型确定为最终识别模型。

参照图4b的(b)，根据实施例的识别单元420可包括识别数据获得单元(或输入数据获得单元)420-1和识别结果提供单元420-4。

另外，识别单元420还可可选地包括识别数据预处理单元(或输入数据预处理单元)420-2、识别数据选择单元(或输入数据选择单元)420-3和模型更新单元420-5中的至少一个。

识别数据获得单元(或输入数据获得单元)420-1可获得用于获得深度信息所需的数据。识别结果提供单元420-4可通过将由识别数据获得单元(或输入数据获得单元)420-1获得的数据作为输入值应用于训练出的识别模型来获得深度信息。识别结果提供单元420-4可根据数据的分析目的提供分析结果。识别结果提供单元420-4可通过将由识别数据预处理单元(输入数据预处理单元)420-2预处理的或由将在后面描述的识别数据选择单元(输入数据选择单元)420-3选择的数据作为输入值应用于识别模型来获得分析结果。分析结果可由识别模型确定。

在实施例中，识别结果提供单元420-4可通过将由识别数据获得单元(或输入数据获得单元)420-1获得的包括对象的二维图像应用于训练出的识别模型来获得(或预测)与对象相应的第一深度信息。

在另一实施例中，识别结果提供单元420-4可通过将由识别数据获得单元(或输入数据获得单元)420-1获得的对象的第一深度信息和地面真实深度数据应用于训练出的识别模型来获得(或预测)与对象相应的第二深度信息。

识别单元420还可包括识别数据预处理单元(或输入数据预处理单元)420-2和识别数据选择单元(或输入数据选择单元)420-3，以便改善识别模型的分析结果或节省提供分析结果所需的资源或时间。

识别数据预处理单元(或输入数据预处理单元)420-2可对所获得的数据进行预处理，使得所获得的数据用于获得深度信息。识别数据预处理单元(或输入数据预处理单元)420-2可以以预定义格式处理所获得的数据，使得识别结果提供单元420-4容易地使用所获得的数据来获得深度信息。

识别数据选择单元(或输入数据选择单元)420-3可从由识别数据获得单元(或输入数据获得单元)420-1获得的数据和由识别数据预处理单元(或输入数据预处理单元)420-2预处理的数据中选择获得深度信息所需的数据。所选择的数据可被提供给识别结果提供单元420-4。识别数据选择单元(或输入数据选择单元)420-3可根据用于情况确定的预定选择标准来选择获得或预处理的数据中的一些或全部数据。另外，识别数据选择单元(或输入数据选择单元)420-3可通过训练模型学习单元410-4根据预定的选择标准来选择数据。

模型更新单元420-5可基于由识别结果提供单元420-4提供的分析结果的评估来控制识别模型被更新。例如，模型更新单元420-5可通过向模型学习单元410-4提供由识别结果提供单元420-4提供的分析结果来请求模型学习单元410-4另外训练或更新识别模型。

图5是用于说明根据本公开的实施例获得的包括三维信息的图像的示图。

根据本公开的实施例，处理器120可将所获得的三维信息应用于二维图像。具体地，处理器120可将与包括在二维图像中的像素相应的三维信息应用于每个像素。通过这样做，处理器120可使用二维图像获得虚拟三维图像。

处理器120可根据用户的输入旋转三维图像。

参照图5的(a)，在旋转通过传统技术获得的三维图像的情况下，图像可能由于包括在三维图像中的深度信息的低精度而失真。但是，参照图5的(b)，在旋转根据本公开的实施例获得的三维图像的情况下，由于包括在三维图像中的深度信息的高精度，因此图像的失真减小。

图6是用于说明根据本公开的实施例的用于控制电子装置的方法的流程图。

根据本公开的实施例，当接收到包括至少一个对象的二维图像时，电子装置100可通过将二维图像应用于第一学习模型来获得关于至少一个对象的第一深度信息(S610)。

具体地，第一深度信息可包括根据至少一个对象的类型的深度数据。另外，除了深度值之外，第一深度信息还可包括关于对象的类型的信息。

另外，电子装置100可使用第一学习模型识别二维图像中包括的对象的类型，并根据识别出的类型获得对象的代表性深度值。

电子装置100可通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息(S620)。

具体地，电子装置100可使用根据对象的类型获得的第一深度信息和地面真实深度数据来获得具有比第一深度信息更高精度的第二深度信息。

电子装置100可基于第二深度信息获得二维图像的三维信息(S630)。

在这种情况下，三维信息可包括各种空间信息，诸如与包括在二维图像中的对象的距离、三维形状等。

根据上述本公开的实施例的方法的至少一些配置可以以可安装在现有电子装置中的应用的形式来实现。

另外，根据上述本公开的实施例的方法的至少一些配置可简单地通过现有电子装置中的软件更新或硬件更新来实现。

此外，上述本公开的实施例中的至少一些配置可通过电子装置中准备的嵌入式服务器或电子装置的外部服务器来执行。

上述实施例的至少一些配置可使用软件、硬件或其组合在计算机或类似装置可读的记录介质中实现。在一些情况下，本说明书中描述的实施例的至少一些配置可被实现为处理器本身。根据软件方面的实现，本说明书中描述的诸如程序和功能的实施例的至少一些配置可被实现为单独的软件模块。软件模块中的每个可执行本说明书中描述的一个或更多个功能和操作。

用于执行根据上述本公开的实施例的电子装置的处理操作的计算机指令可被存储在非暂时性计算机可读介质中。当存储在这种非暂时性计算机可读介质中的计算机指令由特定机器的处理器执行时，计算机指令可使得特定机器能够执行根据上述实施例的电子装置的处理操作。

非暂时性计算机可读介质不是短时间存储数据的介质(诸如寄存器、高速缓存或内存)，而是意指半永久地存储数据并且可由机器读取的介质。非暂时性计算机可读介质的具体示例可包括CD、DVD、硬盘、蓝光盘、USB、存储卡和ROM。

在上文中，已经示出和描述了本公开的优选实施例，但是本公开不限于上述特定实施例，本领域技术人员可在不脱离在权利要求中要求保护的本公开的要旨的情况下进行各种修改，并且不可从本公开的技术精神或预期单独地理解这样的修改。

Claims

1.一种包括根据人工智能算法训练的学习模型的电子装置，其中，所述电子装置包括：

输入单元；以及

处理器，被配置为：

基于经由输入单元接收到包括至少一个对象的二维图像，通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息和关于所述至少一个对象的类型的信息，其中，第一深度信息包括与所述至少一个对象的类型相应的深度数据，

通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息，并且

基于第二深度信息获得关于所述二维图像的三维信息，其中，所述三维信息包括与对象的距离、相对位置以及XYZ坐标值，

其中，第一深度信息包括与包括在对象中的多个像素中的每个像素相应的深度值，

其中，处理器被配置为通过将所述深度值应用于第二学习模型，根据所述深度值与相应于所述多个像素中的每个像素的所述地面真实深度数据之间的欧几里得距离来调整所述深度值以获得第二深度信息，

其中，包括在第一学习模型中的所述深度数据是根据对象的类型被一般化的代表性深度值，

其中，包括在第二学习模型中的所述地面真实深度数据是通过利用立体相机捕获所述至少一个对象而获得的地面真实深度值，并且

其中，处理器被配置为通过调整第一深度信息的深度值以使通过使用第二学习模型获得的多个欧几里得距离的平均值最小化来获得第二深度信息，第二深度信息包括关于对象的类型的信息，关于对象的类型的信息是基于包括在第二深度信息中的深度值获得的，其中，包括在第二深度信息中的深度值比包括在第一深度信息中的深度值更精细。

2.根据权利要求1所述的装置，还包括：

图像捕获单元，

其中，图像捕获单元包括单色相机，并且

其中，所述二维图像是由单色相机捕获的图像。

3.根据权利要求1所述的装置，其中，第一学习模型是基于根据特定类型的对象一般化的第一深度值和第二深度值来训练的，

其中，第一深度值与所述特定类型的对象的第一区域相应，并且第二深度值与所述特定类型的对象的第二区域相应，第一深度值低于第二深度值。

4.根据权利要求3所述的装置，其中，基于对象的类型是车辆，第一深度值与车辆的前灯相应，并且第二深度值与车辆的挡风玻璃相应，第一深度值低于第二深度值。

5.一种用于控制电子装置的方法，所述电子装置包括根据人工智能算法训练的学习模型，其中，所述方法还包括：

基于包括至少一个对象的二维图像被接收，通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息和关于所述至少一个对象的类型的信息，其中，第一深度信息包括与所述至少一个对象的类型相应的深度数据；

通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息；并且

其中，获取第二深度信息的步骤包括：通过将所述深度值应用于第二学习模型，根据所述深度值与相应于所述多个像素中的每个像素的所述地面真实深度数据之间的欧几里得距离来调整所述深度值以获得第二深度信息，

其中，获取第二深度信息的步骤包括：通过调整第一深度信息的深度值以使通过使用第二学习模型获得的多个欧几里得距离的平均值最小化来获得第二深度信息，第二深度信息包括关于对象的类型的信息，关于对象的类型的信息是基于包括在第二深度信息中的深度值获得的，其中，包括在第二深度信息中的深度值比包括在第一深度信息中的深度值更精细。

6.根据权利要求5所述的方法，其中，所述二维图像是由单色相机捕获的图像。

7.根据权利要求5所述的方法，其中，第一学习模型是基于根据特定类型的对象一般化的第一深度值和第二深度值来训练的，

8.根据权利要求7所述的方法，其中，基于对象的类型是车辆，第一深度值与车辆的前灯相应，并且第二深度值与车辆的挡风玻璃相应，第一深度值低于第二深度值。

9.一种存储计算机指令的非暂时性计算机可读介质，其中，所述计算机指令使得电子装置能够基于所述计算机指令被电子装置的处理器执行而执行操作，所述电子装置包括根据人工智能算法训练的学习模型，其中，所述操作包括：

10.根据权利要求9所述的非暂时性计算机可读介质，其中，所述二维图像是由单色相机捕获的图像。