CN111630568B - 电子装置及其控制方法 - Google Patents

电子装置及其控制方法 Download PDF

Info

Publication number
CN111630568B
CN111630568B CN201980008878.0A CN201980008878A CN111630568B CN 111630568 B CN111630568 B CN 111630568B CN 201980008878 A CN201980008878 A CN 201980008878A CN 111630568 B CN111630568 B CN 111630568B
Authority
CN
China
Prior art keywords
depth
information
depth value
depth information
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980008878.0A
Other languages
English (en)
Other versions
CN111630568A (zh
Inventor
潘大铉
朴佑镇
韩成元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN111630568A publication Critical patent/CN111630568A/zh
Application granted granted Critical
Publication of CN111630568B publication Critical patent/CN111630568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种包括根据人工智能算法学习的学习模型的电子装置。根据本公开的电子装置可包括输入单元和处理器,其中,当通过输入单元接收到包括至少一个对象的二维图像时,处理器通过将所述二维图像应用于第一学习模型来获取与所述至少一个对象相关的第一深度信息,通过将第一深度信息和所述至少一个对象的实际测量的深度数据应用于第二学习模型来获取与所述至少一个对象相关的第二深度信息,并且基于第二深度信息来获取与所述二维图像相关的三维信息,其中,第一深度信息被实现为包括根据所述至少一个对象的类型的深度数据。

Description

电子装置及其控制方法
技术领域
本公开涉及一种从二维图像获得三维信息的电子装置及其控制方法。
背景技术
随着电子技术的发展,使用三维图像数据的电子装置已经投入使用。具体地,三维图像数据可被用于诸如电子行业、医疗行业、娱乐行业等各个领域。
通常,通过单独获得深度信息的图像捕获装置(诸如立体相机)获得三维数据。然而,存在这样的问题:利用通常由普通人使用的普通单色相机难以获得诸如深度信息的三维图像数据。此外,存在一个问题,即尽管普通人使用立体相机,但是他/她发现难以处理深度信息并将深度信息用于二维图像中。
另外,由于缺乏关于捕获对象的类型的信息,因此存在由立体相机获得的三维图像数据难以用于各种行业领域的问题。
发明内容
技术问题
本公开鉴于上述需求而做出,并且本公开的目的是通过根据人工智能算法将二维图像应用于人工智能学习模型来提供三维图像信息。
技术方案
根据本公开的实施例,提供了一种电子装置,所述电子装置包括根据人工智能算法训练的学习模型、输入单元和处理器,处理器被配置为:基于经由输入单元接收到包括至少一个对象的二维图像,通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息,通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息,并且基于第二深度信息获得关于所述二维图像的三维信息,其中,第一深度信息包括根据所述至少一个对象的类型的深度数据。
处理器可被配置为通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的类型的信息。
第一深度信息可包括与对象中包括的多个像素中的每个像素相应的深度值,处理器可被配置为通过将所述深度值应用于第二学习模型,根据所述深度值与相应于所述多个像素中的每个像素的地面真实深度数据之间的欧几里得距离来调整所述深度值以获得第二深度信息。
包括在第一深度信息中的所述深度数据可以是根据对象的类型被一般化的代表性深度值,并且所述地面真实深度数据可以是通过利用立体相机捕获所述至少一个对象而获得的地面真实深度值。
电子装置还可包括图像捕获单元,图像捕获单元可包括单色相机,并且所述二维图像是由单色相机捕获的图像。
根据本公开的另一实施例,提供了一种用于控制电子装置的方法,所述方法包括:基于包括至少一个对象的二维图像被接收,通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息,通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息;并且基于第二深度信息获得关于所述二维图像的三维信息,其中,第一深度信息包括根据所述至少一个对象的类型的深度数据。
获得第一深度信息的步骤可包括通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的类型的信息。
第一深度信息可包括与包括在对象中的多个像素中的每个像素相应的深度值,并且获得第二深度信息的步骤可包括:通过将所述深度值应用于第二学习模型,根据所述深度值与相应于所述多个像素中的每个像素的地面真实深度数据之间的欧几里得距离来调整所述深度值以获得第二深度信息。
包括在第一深度信息中的所述深度数据是根据对象的类型被一般化的代表性深度值,并且所述地面真实深度数据可以是通过利用立体相机捕获所述至少一个对象而获得的地面真实深度值。
所述二维图像是由单色相机捕获的图像。
根据本公开的又一实施例,提供了一种存储计算机指令的非暂时性计算机可读介质,所述计算机指令使得电子装置能够基于所述计算机指令被电子装置的处理器执行而执行操作,其中,所述操作包括:基于包括至少一个对象的二维图像被接收,通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息,通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息,并且基于第二深度信息获得关于所述二维图像的三维信息,其中,第一深度信息包括根据所述至少一个对象的类型的深度数据。
获得第一深度信息的操作可包括通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的类型的信息。
第一深度信息可包括与包括在对象中的多个像素中的每个像素相应的深度值,并且获得第二深度信息的步骤可包括:通过将所述深度值应用于第二学习模型,根据所述深度值与相应于所述多个像素中的每个像素的地面真实深度数据之间的欧几里得距离来调整所述深度值以获得第二深度信息。
包括在第一深度信息中的所述深度数据可以是根据对象的类型被一般化的代表性深度值,并且所述地面真实深度数据可以是通过利用立体相机捕获所述至少一个对象而获得的地面真实深度值。
所述二维图像可以是由单色相机捕获的图像。
发明效果
如上所述,根据本公开的实施例,用户能够仅通过捕获二维图像来容易地获得关于二维图像的三维信息。
附图说明
图1是用于说明根据实施例的通过使用电子装置从二维图像获得三维信息的操作的示图。
图2是用于说明根据实施例的电子装置的配置的框图。
图3是用于说明根据实施例的电子装置的具体配置的框图。
图4a是用于说明根据实施例的用于实现人工智能算法的处理器的配置的示图。
图4b是用于说明根据实施例的学习单元和识别单元的具体配置的示图。
图5是用于说明根据实施例获得的包括三维信息的图像的示图。
图6是用于说明根据实施例的用于控制电子装置的方法的流程图。
具体实施方式
在简要解释说明书中使用的术语之后,将详细描述本公开。
考虑到本公开中的功能,在本公开中使用的术语已经被选择了尽可能广泛使用的通用术语,但是这些术语可根据本领域技术人员的意图、先例、新技术的出现等而变化。另外,在特定情况下,也存在申请人任意选择的术语,该情况下的含义将在本公开的描述中详细描述。因此,在本公开中使用的术语应当基于术语本身的含义和贯穿本公开的内容来定义,而不是基于术语的简单名称来定义。
本公开的实施例可进行各种改变并且包括各种实施例,并且具体实施例将在附图中示出并且在说明书中详细描述。然而,应当理解的是,这并不限制具体实施例的范围,并且包括在所公开的精神和技术范围中的所有修改、等同物和/或替代形式。在描述本公开时,当确定现有技术的详细描述可能不必要地模糊本公开的要点时,省略该现有技术的详细描述。
术语“第一”、“第二”等可用于描述各种元件,但元件可不受所述术语限制。所述术语仅用于将一个元件与另一个元件区分开。
除非另外具体定义,否则单数表达可涵盖复数表达。应当理解的是,诸如“包括”或“由……组成”的术语在本文中用于指定特性、数字、步骤、操作、元件、部件或其组合的存在,并且不排除添加存在其他特性、数字、步骤、操作、元件、部件或其组合中的一个或更多个或添加其他特性、数字、步骤、操作、元件、部件或其组合中的一个或更多个的可能性。
本公开中的诸如“模块”或“单元”的术语可执行至少一个功能或操作,并且可被实现为硬件、软件或硬件和软件的组合。此外,除了当多个“模块”、“单元”等中的每个需要在单独的硬件中实现时,组件可被集成在至少一个模块中并且在至少一个处理器(未示出)中实现。
在下文中,将参照附图详细描述本公开的实施例,使得本领域技术人员可容易地在本公开的技术领域中实现和使用实施例。但是,本公开可以以各种不同的形式来实现,并且不限于本文所描述的实施例。另外,在附图中,为了清楚地描述本公开,省略了与描述无关的部分,在整个说明书中对相同的部分使用相同的附图标记。
图1是用于说明根据本公开的实施例的通过使用电子装置从二维图像获得三维信息的操作的示图。
根据本公开的实施例,电子装置100可被实现为包括单色相机的智能电话。这是为了便于描述,并且如果电子装置100不包括相机,则电子装置100可包括能够从外部接收二维图像的各种电子装置。因此,电子装置100可被实现为诸如计算机、TV、机顶盒、智能电话、智能手表等的各种装置。电子装置100还可包括相机和能够同时接收二维图像的接收单元。
根据本公开的实施例,电子装置100可捕获外部的视图。电子装置100可从通过捕获外部的视图而获得的二维图像获得三维信息。根据另一实施例的电子装置100可通过从外部装置接收捕获的二维图像来获得三维信息。例如,可利用深度图来获得三维信息。
电子装置100可通过根据人工智能算法将二维图像应用于各种学习模型来获得三维信息。
在这种情况下,电子装置100可通过将二维图像应用于第一学习模型来根据二维图像中包括的对象的类型获得简要深度信息。
然后,电子装置100可通过将所获得的深度信息和地面真实深度数据(或勘测深度数据或测量数据深度数据)应用于第二学习模型来获得具有高准确度的深度信息。也就是说,在根据对象类型通过分类学习获得简要深度信息之后,电子装置100可通过将简要深度信息调整为接近地面真实深度数据来获得精细的深度信息。
图2是用于说明根据本公开的实施例的电子装置的配置的框图。
根据本公开的实施例的电子装置100可包括输入单元110和处理器120。
输入单元110可获得二维图像,并将二维图像发送至处理器120。在这种情况下,二维图像可包括至少一个对象。
根据本公开的实施例,输入单元110可从外部装置接收二维图像。具体地,输入单元110可包括用于接收二维图像的至少一个输入端口。每个端口可包括例如DP、USB、HDMI、RGB、DVI、雷电接口(Thunderbolt)、MHL、AES/EBU、光学、同轴等。
根据本公开的另一实施例,输入单元110可包括至少一个通信模块。在这种情况下,输入单元110可从外部装置或服务器接收二维图像。例如,输入单元110可通过诸如红外(IR)、无线保真(WI-FI)、蓝牙、Zigbee、信标、近场通信(NFC)、WAN、以太网或IEEE 1394的各种通信系统执行通信。输入单元110还可包括全部输入端口和通信模块。
处理器120控制电子装置100的一般操作。
根据本公开的实施例,处理器120可被实现为数字信号处理器(DSP)、微处理器或处理数字信号的时间控制器(TCON)。然而,不限于此,并且处理器120可包括中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)或通信处理器(CP)以及ARM处理器中的一个或更多个,或者处理器120可被定义为相应的术语。另外,处理器120可被实现为包括处理算法的片上系统(SoC)或大规模集成电路(LSI),或者可以以现场可编程门阵列(FPGA)的形式来实现。
当经由输入单元110接收到包括至少一个对象的二维图像时,处理器120可通过将二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息。具体地,处理器120可执行深度学习的各种学习方法中的分类学习。
第一深度信息可包括根据所述至少一个对象的类型的深度数据。例如,处理器120可通过将二维图像应用于第一学习模型来获得与包括在二维图像中的对象的类型和包括在对象中的每个像素相应的深度值。
在这种情况下,处理器120可根据对象的类型利用深度数据来训练第一学习模型。
深度数据可包括根据对象的类型被一般化的代表性深度值。具体地,处理器120可根据第一学习模型获得针对每种类型的对象被一般化的深度值,处理器120可利用针对每种类型的对象的深度值对第一学习模型进行训练,以利用针对每种类型的对象被一般化的代表性深度值执行训练。
例如,如果对象的类型是车辆,则通常车辆的前灯部分位于挡风玻璃的前方。处理器120可通过训练根据第一学习模型获得一般化的深度值,该一般化的深度值示出车辆前灯的深度值低于车辆的挡风玻璃的深度值。另外,处理器120可根据第一学习模型识别车辆的特定形状(诸如前灯、挡风玻璃等)并且可根据第一学习模型识别出二维图像中包括的对象的类型是车辆。
处理器120可通过将包括在二维图像的对象中的每个像素值应用于第一学习模型来获得与包括在对象中的每个像素相应的第一深度信息。也就是说,处理器120可利用与每个像素值相应的第一深度信息来训练第一学习模型。
通过这样做,处理器120可通过第一学习模型根据对象的类型获得第一深度信息。
处理器120可通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得第二深度信息,并基于第二深度信息获得关于二维图像的三维信息。
例如,由处理器120获得的第一深度信息可包括根据对象类型近似的深度值。因此,处理器120可使用地面真实深度数据基于第二学习模型获得三维信息,以获得精细的深度值。
在这种情况下,地面真实深度数据可包括由立体相机获得的深度值。另外,可在能够获得准确深度数据的模拟环境中提供地面真实深度数据。地面真实深度数据可被存储在存储器130中,或者可从外部装置或服务器接收地面真实深度数据。
另外,处理器120可通过将与包括在第一深度信息中的多个像素中的每个像素相应的深度值应用于第二学习模式、并根据与所述多个像素中的每个像素相应的地面真实深度数据和所述深度值之间的欧几里得距离调整所述深度值来获得第二深度信息。
具体地,处理器120可通过使用第二学习模型来获得由第一学习模型估计的第一深度信息与地面真实深度数据之间的欧几里得距离,并基于所获得的距离来获得通过使深度的损失最小化而获得的第二深度信息。
在这种情况下,处理器120可通过使用第二学习模型使包括在第一深度信息中的每个像素与包括在地面真实深度数据中的每个像素相应,来获得包括在每个像素中的深度值的欧几里得距离。
另外,处理器120可通过调整第一深度信息的深度值以使通过使用第二学习模型获得的多个欧几里得距离的平均值最小化来获得第二深度信息。
由处理器120获得的第二深度信息可包括关于对象的类型的信息。具体地,处理器120可基于比包括在第一深度信息中的深度值更精细的包括在第二深度信息中的深度值来获得关于对象的类型的信息。在这种情况下,处理器120可获得具有比基于包括在第一深度信息中的深度值获得的关于对象的类型的信息更高精度的信息。
因此,处理器120可基于根据对象的类型获得的第一深度信息和地面真实深度数据来获得比第一深度信息更精细的第二深度信息。
处理器120可基于第二深度信息获得关于二维图像的三维信息。例如,处理器120可基于第二深度信息获得三维信息,诸如与对象的距离、相对位置、XYZ坐标值。
图3是用于说明根据本公开的实施例的电子装置的具体配置的框图。
根据本公开的实施例的电子装置100可包括输入单元110、处理器120、存储器130和图像捕获单元140。
存储器130存储电子装置100的操作所需的各种数据。在示例中,存储器130可存储用于从二维图像获得三维信息的根据人工智能算法训练出的各种学习模型。
特别地,存储器130可存储处理器120执行各种处理所需的数据。例如,存储器130可被实现为包括在处理器120中的内部存储器(诸如ROM、RAM等)或者可被实现为与处理器120分离的存储器。在这种情况下,根据数据存储目的,存储器130可以以嵌入在电子装置100中的存储器的形式被实现,或者以可从电子装置100拆卸的存储器的形式被实现。例如,用于操作电子装置100的数据可被存储在嵌入在电子装置100中的存储器中,并且用于电子装置100的扩展功能的数据可被存储在可从电子装置100拆卸的存储器中。嵌入在电子装置100中的存储器可被实现为非易失性存储器、易失性存储器、闪存存储器、硬盘驱动器(HDD)或固态驱动器(SSD),并且,可从电子装置100拆卸的存储器可被实现为存储卡(例如,微型SD卡或USB存储器)、可连接到USB端口的外部存储器(例如,USB存储器)。
图像捕获单元140可捕获外部的视图作为二维图像。根据实施例,图像捕获单元140可包括单色相机。图像捕获单元140可关于外部的视图的特定区域获得由多个像素组成的二维图像。图像捕获单元140可将获得的二维图像发送到处理器120。
与立体相机不同,单色相机意味着不能通过捕获外部的视图来直接获得三维信息(例如,深度值)的相机。在这种情况下,图像捕获单元140可被实现为诸如电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)的图像传感器。CCD是这样的装置:在该装置中,电荷载流子被存储在电容器中并被承载,同时每个金属氧化物硅(MOS)电容器位于非常近的距离处。CMOS图像传感器是使用采用COMS技术按照像素数量创建MOS晶体管并通过使用COMS技术顺序地检测输出的开关方法的装置,其中,COMS技术将控制电路和信号处理电路用作外围电路。
图4a是用于说明根据本公开的实施例的用于实现人工智能算法的处理器的配置的示图。
参照图4a,处理器400可包括学习单元410和识别单元420中的至少一个。图4a的处理器400与图2和图3的处理器120相应。
学习单元410可生成或训练具有用于预定状态确定的标准的识别模型。学习单元410可通过使用收集的学习数据来产生具有确定标准的识别模型。
在示例中,学习单元410可通过使用包括对象的二维图像和深度值中的至少一个作为学习数据来产生、训练或更新具有用于确定包括在图像中的对象的类型的标准的对象识别模型。
在另一示例中,学习单元410可通过使用包括对象的二维图像和深度值中的至少一个作为学习数据来产生、训练或更新具有用于确定对象的深度的标准的深度识别模型。
上述识别模型可包括第一学习模型和第二学习模型。
识别单元420可通过使用预定数据作为训练后的识别模型的输入数据来预测包括在预定数据中的识别目标。
例如,识别单元420可通过使用包括对象的二维图像和深度值中的至少一个作为训练后的识别模型的输入数据来获得、预测或推断关于包括在二维图像中的对象的类型的信息。
在另一示例中,识别单元420可通过使用包括对象的二维图像和深度值中的至少一个作为训练后的识别模型的输入数据来获得、预测或推断关于包括在二维图像中的对象的深度信息。
学习单元410的至少一部分和识别单元420的至少一部分可被实现为软件模块或者以至少一个硬件芯片的形式被制造并且被安装在电子装置100上。例如,学习单元410和识别单元420中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式被制造,并且可被制造为图形专用处理器(例如,GPU或常规通用处理器(例如,CPU或应用处理器))的一部分,并且被安装在上述各种电子装置或对象识别装置上。用于人工智能的专用硬件芯片是专门用于可能性计算的专用处理器,并且可以以比常规通用处理器更高的并行处理性能来快速处理人工智能领域(诸如机器学习)中的计算操作。如果学习单元410和识别单元420被实现为软件模块(或包括指令的程序模块),则软件模块可被存储在非暂时性计算机可读介质中。在这种情况下,软件模块可由操作系统(O/S)提供或由预定应用提供。另外,软件模块的一部分可由操作系统(O/S)提供,而另一部分可由预定应用提供。
在这种情况下,学习单元410和识别单元420可被安装在一个电子装置上或者可被分别安装在单独的电子装置上。例如,学习单元410和识别单元420中的一个可被包括在电子装置100中,并且其中的另一个可被包括在外部服务器中。另外,学习单元410和识别单元420可以以有线或无线方式连接,使得学习单元410可将构建的模型信息提供给识别单元420,并且输入到识别单元420的数据作为附加学习数据被提供给学习单元410。
图4b是用于说明根据本公开的实施例的学习单元和识别单元的具体配置的示图。
参照图4b的(a),根据实施例的学习单元410可包括学习数据获得单元410-1和模型学习单元410-4。另外,学习单元410还可选择性地包括学习数据预处理单元410-2、学习数据选择单元410-3和模型评估单元410-5中的至少一个。
学习数据获得单元410-1可获得识别模型预测识别目标所需的学习数据。根据本公开的实施例,学习数据获得单元410-1可获得包括对象的二维图像、关于对象的类型的信息、第一深度信息和对象的地面真实深度数据中的至少一个作为学习数据。学习数据可以是由学习单元410或学习单元410的制造商收集或测试的数据。
模型学习单元410-4可通过使用学习数据来训练识别模型以具有关于如何确定预定识别目标的确定标准。例如,模型学习单元410-4可通过使用学习数据的至少一部分作为确定标准的监督学习来训练识别模型。另外,模型学习单元410-4可例如通过无监督学习来训练识别模型,该无监督学习通过在无需特别监督的情况下使用学习数据进行自训练来找出用于确定情况的确定标准。另外,模型学习单元410-4可例如通过使用关于根据训练的情况确定的结果是否准确的反馈的强化学习来训练识别模型。此外,模型学习单元410-4可例如通过使用包括误差反向传播或梯度下降的学习算法来训练识别模型。
另外,模型学习单元410-4可通过使用输入数据来训练关于哪个学习数据将被用于预测识别目标的选择标准。
如果预先构建的识别模型的数量多于一个,则模型学习单元410-4可将基础学习数据与输入的学习数据高度相关的识别模型确定为待训练的识别模型。在这种情况下,可针对每种类型的数据预先对基本学习数据片段进行分类,并且可针对每种类型的数据预先构建识别模型。例如,可基于诸如生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的种类、学习数据的创建者、学习数据中的对象的类型等的各种标准来预先对基本学习数据片段进行分类。
例如,当训练识别模型时,模型学习单元410-4可存储训练出的识别模型。在这种情况下,模型学习单元410-4可将训练出的识别模型存储在电子装置100的存储器130中。另外,模型学习单元410-4可将训练出的识别模型存储在经由有线或无线网络连接到电子装置100的服务器的存储器中。
学习单元410还可包括学习数据预处理单元410-2和学习数据选择单元410-3,以便改善识别模型的分析结果或节省提供识别模型所需的资源或时间。
学习数据预处理单元410-2可对所获得的数据进行预处理,使得所获得的数据在用于情况确定的学习中使用。学习数据预处理单元410-2可以以预定义格式处理所获得的数据,使得模型学习单元410-4可将所获得的数据用于训练以获得深度信息。
学习数据选择单元410-3可从由学习数据获得单元410-1获得的数据或由学习数据预处理单元410-2预处理的数据中选择学习所需的数据。选择出的学习数据可被提供给模型学习单元410-4。学习数据选择单元410-3可根据预定的选择标准从获得的或预处理的数据中选择学习所需的学习数据。另外,学习数据选择单元410-3可根据由模型学习单元410-4执行的学习,根据预定的选择标准来选择学习数据。
学习单元410还可包括模型评估单元410-5,以便改进识别模型的分析结果。
如果根据评估数据输出的分析结果不满足预定标准,则模型评估单元410-5可将评估数据输入到识别模型,并且可使模型学习单元410-4再次执行训练。在这种情况下,评估数据可以是用于评估识别模型的预定义数据。
例如,如果训练出的识别模型的关于评估数据的分析结果中的具有不准确的分析结果的评估数据片的数量或比率超过预定阈值,则模型评估单元410-5可评估出不满足预定标准。
如果训练出的识别模型的数量多于一个,则模型评估单元410-5可评估训练出的识别模型中的每个是否满足预定标准,并将满足预定标准的模型确定为最终识别模型。在这种情况下,如果满足预定标准的模型的数量多于一个,则模型评估单元410-5可将按照高评估等级的顺序预先设置的任何一个或预定数量的模型确定为最终识别模型。
参照图4b的(b),根据实施例的识别单元420可包括识别数据获得单元(或输入数据获得单元)420-1和识别结果提供单元420-4。
另外,识别单元420还可可选地包括识别数据预处理单元(或输入数据预处理单元)420-2、识别数据选择单元(或输入数据选择单元)420-3和模型更新单元420-5中的至少一个。
识别数据获得单元(或输入数据获得单元)420-1可获得用于获得深度信息所需的数据。识别结果提供单元420-4可通过将由识别数据获得单元(或输入数据获得单元)420-1获得的数据作为输入值应用于训练出的识别模型来获得深度信息。识别结果提供单元420-4可根据数据的分析目的提供分析结果。识别结果提供单元420-4可通过将由识别数据预处理单元(输入数据预处理单元)420-2预处理的或由将在后面描述的识别数据选择单元(输入数据选择单元)420-3选择的数据作为输入值应用于识别模型来获得分析结果。分析结果可由识别模型确定。
在实施例中,识别结果提供单元420-4可通过将由识别数据获得单元(或输入数据获得单元)420-1获得的包括对象的二维图像应用于训练出的识别模型来获得(或预测)与对象相应的第一深度信息。
在另一实施例中,识别结果提供单元420-4可通过将由识别数据获得单元(或输入数据获得单元)420-1获得的对象的第一深度信息和地面真实深度数据应用于训练出的识别模型来获得(或预测)与对象相应的第二深度信息。
识别单元420还可包括识别数据预处理单元(或输入数据预处理单元)420-2和识别数据选择单元(或输入数据选择单元)420-3,以便改善识别模型的分析结果或节省提供分析结果所需的资源或时间。
识别数据预处理单元(或输入数据预处理单元)420-2可对所获得的数据进行预处理,使得所获得的数据用于获得深度信息。识别数据预处理单元(或输入数据预处理单元)420-2可以以预定义格式处理所获得的数据,使得识别结果提供单元420-4容易地使用所获得的数据来获得深度信息。
识别数据选择单元(或输入数据选择单元)420-3可从由识别数据获得单元(或输入数据获得单元)420-1获得的数据和由识别数据预处理单元(或输入数据预处理单元)420-2预处理的数据中选择获得深度信息所需的数据。所选择的数据可被提供给识别结果提供单元420-4。识别数据选择单元(或输入数据选择单元)420-3可根据用于情况确定的预定选择标准来选择获得或预处理的数据中的一些或全部数据。另外,识别数据选择单元(或输入数据选择单元)420-3可通过训练模型学习单元410-4根据预定的选择标准来选择数据。
模型更新单元420-5可基于由识别结果提供单元420-4提供的分析结果的评估来控制识别模型被更新。例如,模型更新单元420-5可通过向模型学习单元410-4提供由识别结果提供单元420-4提供的分析结果来请求模型学习单元410-4另外训练或更新识别模型。
图5是用于说明根据本公开的实施例获得的包括三维信息的图像的示图。
根据本公开的实施例,处理器120可将所获得的三维信息应用于二维图像。具体地,处理器120可将与包括在二维图像中的像素相应的三维信息应用于每个像素。通过这样做,处理器120可使用二维图像获得虚拟三维图像。
处理器120可根据用户的输入旋转三维图像。
参照图5的(a),在旋转通过传统技术获得的三维图像的情况下,图像可能由于包括在三维图像中的深度信息的低精度而失真。但是,参照图5的(b),在旋转根据本公开的实施例获得的三维图像的情况下,由于包括在三维图像中的深度信息的高精度,因此图像的失真减小。
图6是用于说明根据本公开的实施例的用于控制电子装置的方法的流程图。
根据本公开的实施例,当接收到包括至少一个对象的二维图像时,电子装置100可通过将二维图像应用于第一学习模型来获得关于至少一个对象的第一深度信息(S610)。
具体地,第一深度信息可包括根据至少一个对象的类型的深度数据。另外,除了深度值之外,第一深度信息还可包括关于对象的类型的信息。
另外,电子装置100可使用第一学习模型识别二维图像中包括的对象的类型,并根据识别出的类型获得对象的代表性深度值。
电子装置100可通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息(S620)。
具体地,电子装置100可使用根据对象的类型获得的第一深度信息和地面真实深度数据来获得具有比第一深度信息更高精度的第二深度信息。
电子装置100可基于第二深度信息获得二维图像的三维信息(S630)。
在这种情况下,三维信息可包括各种空间信息,诸如与包括在二维图像中的对象的距离、三维形状等。
根据上述本公开的实施例的方法的至少一些配置可以以可安装在现有电子装置中的应用的形式来实现。
另外,根据上述本公开的实施例的方法的至少一些配置可简单地通过现有电子装置中的软件更新或硬件更新来实现。
此外,上述本公开的实施例中的至少一些配置可通过电子装置中准备的嵌入式服务器或电子装置的外部服务器来执行。
上述实施例的至少一些配置可使用软件、硬件或其组合在计算机或类似装置可读的记录介质中实现。在一些情况下,本说明书中描述的实施例的至少一些配置可被实现为处理器本身。根据软件方面的实现,本说明书中描述的诸如程序和功能的实施例的至少一些配置可被实现为单独的软件模块。软件模块中的每个可执行本说明书中描述的一个或更多个功能和操作。
用于执行根据上述本公开的实施例的电子装置的处理操作的计算机指令可被存储在非暂时性计算机可读介质中。当存储在这种非暂时性计算机可读介质中的计算机指令由特定机器的处理器执行时,计算机指令可使得特定机器能够执行根据上述实施例的电子装置的处理操作。
非暂时性计算机可读介质不是短时间存储数据的介质(诸如寄存器、高速缓存或内存),而是意指半永久地存储数据并且可由机器读取的介质。非暂时性计算机可读介质的具体示例可包括CD、DVD、硬盘、蓝光盘、USB、存储卡和ROM。
在上文中,已经示出和描述了本公开的优选实施例,但是本公开不限于上述特定实施例,本领域技术人员可在不脱离在权利要求中要求保护的本公开的要旨的情况下进行各种修改,并且不可从本公开的技术精神或预期单独地理解这样的修改。

Claims (10)

1.一种包括根据人工智能算法训练的学习模型的电子装置,其中,所述电子装置包括:
输入单元;以及
处理器,被配置为:
基于经由输入单元接收到包括至少一个对象的二维图像,通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息和关于所述至少一个对象的类型的信息,其中,第一深度信息包括与所述至少一个对象的类型相应的深度数据,
通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息,并且
基于第二深度信息获得关于所述二维图像的三维信息,其中,所述三维信息包括与对象的距离、相对位置以及XYZ坐标值,
其中,第一深度信息包括与包括在对象中的多个像素中的每个像素相应的深度值,
其中,处理器被配置为通过将所述深度值应用于第二学习模型,根据所述深度值与相应于所述多个像素中的每个像素的所述地面真实深度数据之间的欧几里得距离来调整所述深度值以获得第二深度信息,
其中,包括在第一学习模型中的所述深度数据是根据对象的类型被一般化的代表性深度值,
其中,包括在第二学习模型中的所述地面真实深度数据是通过利用立体相机捕获所述至少一个对象而获得的地面真实深度值,并且
其中,处理器被配置为通过调整第一深度信息的深度值以使通过使用第二学习模型获得的多个欧几里得距离的平均值最小化来获得第二深度信息,第二深度信息包括关于对象的类型的信息,关于对象的类型的信息是基于包括在第二深度信息中的深度值获得的,其中,包括在第二深度信息中的深度值比包括在第一深度信息中的深度值更精细。
2.根据权利要求1所述的装置,还包括:
图像捕获单元,
其中,图像捕获单元包括单色相机,并且
其中,所述二维图像是由单色相机捕获的图像。
3.根据权利要求1所述的装置,其中,第一学习模型是基于根据特定类型的对象一般化的第一深度值和第二深度值来训练的,
其中,第一深度值与所述特定类型的对象的第一区域相应,并且第二深度值与所述特定类型的对象的第二区域相应,第一深度值低于第二深度值。
4.根据权利要求3所述的装置,其中,基于对象的类型是车辆,第一深度值与车辆的前灯相应,并且第二深度值与车辆的挡风玻璃相应,第一深度值低于第二深度值。
5.一种用于控制电子装置的方法,所述电子装置包括根据人工智能算法训练的学习模型,其中,所述方法还包括:
基于包括至少一个对象的二维图像被接收,通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息和关于所述至少一个对象的类型的信息,其中,第一深度信息包括与所述至少一个对象的类型相应的深度数据;
通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息;并且
基于第二深度信息获得关于所述二维图像的三维信息,其中,所述三维信息包括与对象的距离、相对位置以及XYZ坐标值,
其中,第一深度信息包括与包括在对象中的多个像素中的每个像素相应的深度值,
其中,获取第二深度信息的步骤包括:通过将所述深度值应用于第二学习模型,根据所述深度值与相应于所述多个像素中的每个像素的所述地面真实深度数据之间的欧几里得距离来调整所述深度值以获得第二深度信息,
其中,包括在第一学习模型中的所述深度数据是根据对象的类型被一般化的代表性深度值,
其中,包括在第二学习模型中的所述地面真实深度数据是通过利用立体相机捕获所述至少一个对象而获得的地面真实深度值,并且
其中,获取第二深度信息的步骤包括:通过调整第一深度信息的深度值以使通过使用第二学习模型获得的多个欧几里得距离的平均值最小化来获得第二深度信息,第二深度信息包括关于对象的类型的信息,关于对象的类型的信息是基于包括在第二深度信息中的深度值获得的,其中,包括在第二深度信息中的深度值比包括在第一深度信息中的深度值更精细。
6.根据权利要求5所述的方法,其中,所述二维图像是由单色相机捕获的图像。
7.根据权利要求5所述的方法,其中,第一学习模型是基于根据特定类型的对象一般化的第一深度值和第二深度值来训练的,
其中,第一深度值与所述特定类型的对象的第一区域相应,并且第二深度值与所述特定类型的对象的第二区域相应,第一深度值低于第二深度值。
8.根据权利要求7所述的方法,其中,基于对象的类型是车辆,第一深度值与车辆的前灯相应,并且第二深度值与车辆的挡风玻璃相应,第一深度值低于第二深度值。
9.一种存储计算机指令的非暂时性计算机可读介质,其中,所述计算机指令使得电子装置能够基于所述计算机指令被电子装置的处理器执行而执行操作,所述电子装置包括根据人工智能算法训练的学习模型,其中,所述操作包括:
基于包括至少一个对象的二维图像被接收,通过将所述二维图像应用于第一学习模型来获得关于所述至少一个对象的第一深度信息和关于所述至少一个对象的类型的信息,其中,第一深度信息包括与所述至少一个对象的类型相应的深度数据;
通过将所述至少一个对象的第一深度信息和地面真实深度数据应用于第二学习模型来获得关于所述至少一个对象的第二深度信息;并且
基于第二深度信息获得关于所述二维图像的三维信息,其中,所述三维信息包括与对象的距离、相对位置以及XYZ坐标值,
其中,第一深度信息包括与包括在对象中的多个像素中的每个像素相应的深度值,
其中,获取第二深度信息的步骤包括:通过将所述深度值应用于第二学习模型,根据所述深度值与相应于所述多个像素中的每个像素的所述地面真实深度数据之间的欧几里得距离来调整所述深度值以获得第二深度信息,
其中,包括在第一学习模型中的所述深度数据是根据对象的类型被一般化的代表性深度值,
其中,包括在第二学习模型中的所述地面真实深度数据是通过利用立体相机捕获所述至少一个对象而获得的地面真实深度值,并且
其中,获取第二深度信息的步骤包括:通过调整第一深度信息的深度值以使通过使用第二学习模型获得的多个欧几里得距离的平均值最小化来获得第二深度信息,第二深度信息包括关于对象的类型的信息,关于对象的类型的信息是基于包括在第二深度信息中的深度值获得的,其中,包括在第二深度信息中的深度值比包括在第一深度信息中的深度值更精细。
10.根据权利要求9所述的非暂时性计算机可读介质,其中,所述二维图像是由单色相机捕获的图像。
CN201980008878.0A 2018-02-27 2019-01-03 电子装置及其控制方法 Active CN111630568B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2018-0023986 2018-02-27
KR1020180023986A KR102595787B1 (ko) 2018-02-27 2018-02-27 전자 장치 및 그 제어 방법
PCT/KR2019/000101 WO2019168264A1 (ko) 2018-02-27 2019-01-03 전자 장치 및 그 제어 방법

Publications (2)

Publication Number Publication Date
CN111630568A CN111630568A (zh) 2020-09-04
CN111630568B true CN111630568B (zh) 2023-11-10

Family

ID=67805040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980008878.0A Active CN111630568B (zh) 2018-02-27 2019-01-03 电子装置及其控制方法

Country Status (4)

Country Link
US (1) US11657520B2 (zh)
KR (1) KR102595787B1 (zh)
CN (1) CN111630568B (zh)
WO (1) WO2019168264A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148196B (zh) * 2018-09-12 2022-03-25 腾讯大地通途(北京)科技有限公司 一种图像处理方法、装置以及相关设备
KR20200143960A (ko) * 2019-06-17 2020-12-28 현대자동차주식회사 영상을 이용한 객체 인식 장치 및 그 방법
JP7372076B2 (ja) * 2019-08-07 2023-10-31 ファナック株式会社 画像処理システム
KR20210061839A (ko) 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
US11503266B2 (en) 2020-03-06 2022-11-15 Samsung Electronics Co., Ltd. Super-resolution depth map generation for multi-camera or other environments
JP7477596B2 (ja) * 2021-04-19 2024-05-01 グーグル エルエルシー 深度推定のための方法、深度推定システム、およびコンピュータプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201520978A (zh) * 2013-11-22 2015-06-01 Univ Nat Yunlin Sci & Tech 二維影像深度值之估測方法及其系統
CN105359190A (zh) * 2013-09-05 2016-02-24 电子湾有限公司 根据单个图像估计深度
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106981098A (zh) * 2016-01-12 2017-07-25 西门子医疗有限公司 虚拟场景组分的视角表示

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130141433A1 (en) 2011-12-02 2013-06-06 Per Astrand Methods, Systems and Computer Program Products for Creating Three Dimensional Meshes from Two Dimensional Images
US11094137B2 (en) * 2012-02-24 2021-08-17 Matterport, Inc. Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications
KR101399274B1 (ko) 2012-09-27 2014-05-27 오승태 다중 패턴 빔을 이용하는 3차원 촬영 장치 및 방법
US10769453B2 (en) 2017-05-16 2020-09-08 Samsung Electronics Co., Ltd. Electronic device and method of controlling operation of vehicle
GB2532075A (en) * 2014-11-10 2016-05-11 Lego As System and method for toy recognition and detection based on convolutional neural networks
US9811756B2 (en) * 2015-02-23 2017-11-07 Mitsubishi Electric Research Laboratories, Inc. Method for labeling images of street scenes
KR20170000748A (ko) 2015-06-24 2017-01-03 삼성전자주식회사 얼굴 인식 방법 및 장치
KR101808840B1 (ko) * 2015-09-04 2017-12-13 한국전자통신연구원 학습 기반 깊이 정보 추출 방법 및 장치
US9609307B1 (en) 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
EP3179407B1 (en) * 2015-12-07 2022-07-13 Dassault Systèmes Recognition of a 3d modeled object from a 2d image
US9792821B1 (en) 2016-03-25 2017-10-17 Toyota Jidosha Kabushiki Kaisha Understanding road scene situation and semantic representation of road scene situation for reliable sharing
KR101840563B1 (ko) 2016-07-04 2018-03-20 한양대학교 에리카산학협력단 신경망을 이용한 3차원 얼굴 복원 방법 및 장치
KR102360181B1 (ko) 2017-05-16 2022-02-08 삼성전자주식회사 차량의 동작을 제어하는 전자 장치 및 방법
US10929654B2 (en) * 2018-03-12 2021-02-23 Nvidia Corporation Three-dimensional (3D) pose estimation from a monocular camera
US10861225B2 (en) * 2018-08-10 2020-12-08 Intel Corporation Neural network processing for multi-object 3D modeling
US10771763B2 (en) * 2018-11-27 2020-09-08 At&T Intellectual Property I, L.P. Volumetric video-based augmentation with user-generated content
KR102526700B1 (ko) * 2018-12-12 2023-04-28 삼성전자주식회사 전자 장치 및 그의 3d 이미지 표시 방법
US11087494B1 (en) * 2019-05-09 2021-08-10 Zoox, Inc. Image-based depth data and localization
US11657527B2 (en) * 2019-05-28 2023-05-23 X Development Llc Robotic control based on 3D bounding shape, for an object, generated using edge-depth values for the object
US11650597B2 (en) * 2019-07-09 2023-05-16 Samsung Electronics Co., Ltd. Electronic apparatus for identifying object through warped image and control method thereof
US11568650B2 (en) * 2020-12-14 2023-01-31 Woven Planet North America, Inc. Learning across 2D and 3D pipelines for improved object detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105359190A (zh) * 2013-09-05 2016-02-24 电子湾有限公司 根据单个图像估计深度
TW201520978A (zh) * 2013-11-22 2015-06-01 Univ Nat Yunlin Sci & Tech 二維影像深度值之估測方法及其系統
CN106981098A (zh) * 2016-01-12 2017-07-25 西门子医疗有限公司 虚拟场景组分的视角表示
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
陆振杰 ; 宋进 ; .单幅数字图像多尺度空间下的场景深度估计.计算机技术与发展.2013,(01),全文. *
鲍振强 ; 李艾华 ; 崔智高 ; 袁梦 ; .深度学习在视觉定位与三维结构恢复中的研究进展.激光与光电子学进展.2017,(05),全文. *

Also Published As

Publication number Publication date
US20200402251A1 (en) 2020-12-24
US11657520B2 (en) 2023-05-23
KR102595787B1 (ko) 2023-11-24
CN111630568A (zh) 2020-09-04
KR20190102906A (ko) 2019-09-04
WO2019168264A1 (ko) 2019-09-06

Similar Documents

Publication Publication Date Title
CN111630568B (zh) 电子装置及其控制方法
US11144786B2 (en) Information processing apparatus, method for controlling information processing apparatus, and storage medium
US20240013056A1 (en) Systems and methods for distributed training of deep learning models
US10573018B2 (en) Three dimensional scene reconstruction based on contextual analysis
US9536321B2 (en) Apparatus and method for foreground object segmentation
US20190213786A1 (en) Three dimensional content generating apparatus and three dimensional content generating method thereof
US10013764B2 (en) Local adaptive histogram equalization
CN107111880B (zh) 针对计算机视觉的遮挡处置
CN108701376A (zh) 三维图像的基于识别的对象分割
CN105718031B (zh) 手势辨识方法及其装置
CN106796718A (zh) 用于高效深度图像变换的方法和设备
JP2012032370A (ja) 欠陥検出方法、欠陥検出装置、学習方法、プログラム、及び記録媒体
US20170280130A1 (en) 2d video analysis for 3d modeling
US11941796B2 (en) Evaluation system, evaluation device, evaluation method, evaluation program, and recording medium
EP3621292A1 (en) Electronic device for obtaining images by controlling frame rate for external moving object through point of interest, and operating method thereof
CN106133477A (zh) 根据光覆盖区对照明装置的光源的位置估计
CN108596032B (zh) 一种视频中打架行为检测方法、装置、设备及介质
US9824462B2 (en) Method for detecting object and object detecting apparatus
CN114613006A (zh) 一种远距离手势识别方法及装置
WO2022044297A1 (ja) 情報処理方法、情報処理装置及び情報処理プログラム
US20210174134A1 (en) Methods and apparatus to match images using semantic features
KR20140095601A (ko) 자세 분류 장치 및 자세 분류 방법
CN109644236B (zh) 角度检测方法
CN110689515B (zh) 一种采用智能识别技术的计算机图像处理系统
US20240273855A1 (en) Machine learning-based image noise learning server and image noise reduction device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant