CN114830177A - 电子设备和用于控制该电子设备的方法 - Google Patents

电子设备和用于控制该电子设备的方法 Download PDF

Info

Publication number
CN114830177A
CN114830177A CN202080079361.3A CN202080079361A CN114830177A CN 114830177 A CN114830177 A CN 114830177A CN 202080079361 A CN202080079361 A CN 202080079361A CN 114830177 A CN114830177 A CN 114830177A
Authority
CN
China
Prior art keywords
feature
information
electronic device
image
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080079361.3A
Other languages
English (en)
Inventor
姜诚玟
韩兴宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN114830177A publication Critical patent/CN114830177A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种控制电子设备的方法包括:获取图像和所获取的图像的深度信息;将所获取的图像输入到神经网络模型中,其中,所述神经网络模型被训练为获取与所获取的图像中包括的对象有关的信息;获取由所述神经网络模型的中间层输出的中间特征值;基于所述中间特征值识别针对所获取的图像中包括的对象中的至少一个对象的特征区域;并且基于针对所述至少一个对象的特征区域和所述深度信息来获取所述电子设备与所述至少一个对象之间的距离信息。

Description

电子设备和用于控制该电子设备的方法
技术领域
本公开涉及一种电子设备和用于控制该电子设备的方法,并且更具体地,涉及通过使用对象识别神经网络模型的中间层的输出值来获取电子设备与对象之间的距离信息。
背景技术
人工智能系统正在各个领域中被使用。与相关领域的基于规则的智能系统不同,在人工智能系统中,机器自己学习、确定并变得更智能。人工智能系统随着它被更多地使用而表现出更高的识别率,并且变得能够更正确地理解用户偏好。为此,相关领域的基于规则的智能系统正逐渐被基于深度学习的人工智能系统替代。
人工智能技术由机器学习(例如,深度学习)和利用机器学习的元技术(elementtechnology)组成。
机器学习是指一种自己对输入数据的特征进行分类/学习的算法技术,并且元技术是指一种用于通过使用机器学习算法(诸如深度学习)来执行人脑的功能(诸如认知和确定)的技术,并且包括诸如语言理解、视觉理解、推理/预测、知识表达和操作控制的技术领域。具体地,语言理解是一种识别人类的语言/字符并应用/处理所述语言/字符的技术,并且包括自然语音处理、机器翻译、通信系统、问答、语音识别/合成等。
发明内容
技术问题
最近,正在积极寻求通过使用人工智能系统来获取对象的距离信息的尝试。然而,存在的问题是,在图像上存在除了将被识别的对象之外的另一障碍物或者多个对象在一个图像上重叠的情况下,对象的距离信息的准确度降低。
技术方案
实施例提供了一种获取准确度得到提高的对象的距离信息的电子设备。
另外的方面将部分地在下面的描述中被阐述,并且部分地将从描述显而易见,或者可通过所呈现的实施例的实践而被获知。
根据本公开的一方面,提供了一种电子装置,其中,所述电子装置包括:存储器,存储至少一个指令;以及处理器,执行存储在存储器中的至少一个指令,其中,处理器通过执行所述至少一个指令而被配置为:获取图像和所述图像的深度信息,将所获取的图像输入到被训练为获取与所述图像中包括的对象有关的信息的神经网络模型中,并获取由所述神经网络模型的中间层输出的中间特征值,基于所述中间特征值识别针对所述图像中包括的至少一个对象的特征区域,并且基于针对所述至少一个对象的特征区域和所述图像的深度信息获取所述电子设备与所述至少一个对象之间的距离信息。
处理器可被配置为:将所获取的图像输入到所述神经网络模型中,并获取由所述神经网络模型的所述最终层输出的最终特征值,基于所获取的最终特征值识别针对所述图像中包括的所述至少一个对象中的每个对象的类型信息和关于所述对象区域的信息,并且基于所述中间特征值获取包括针对所述图像中所包括的所述至少一个对象的特征区域的特征图。
处理器可被配置为:对所获取的特征图和针对所述至少一个对象中的每个对象的对象区域进行映射,并且识别与所述至少一个对象中的每个对象对应的特征区域。
所述特征图可以是通过对由多个预定义中间层获取的多个中间特征值求和而获取的。
处理器可被配置为:基于图像的深度信息中的与所述特征区域对应的特征像素来获取代表值,并且将所述代表值映射到所述特征区域并获取所述距离信息。
处理器可被配置为:生成图像,其中,所述类型信息和所述距离信息被显示在针对所述至少一个对象中的每个对象的对象区域周围。
所述电子设备可包括显示器,并且处理器可被配置为:控制显示器使得所生成的图像被输出。
处理器可被配置为:通过所述通信接口将信号发送到外部设备,使得所生成的图像通过所述外部设备而被输出。
处理器可被配置为:通过深度相机或立体相机获取所述图像的深度信息,或者通过分析所获取的图像来获取所述图像的深度信息。
所述中间层可包括与第一类型的对象对应的第一中间层,并且处理器可被配置为:基于由第一中间层输出的第一中间特征值来识别针对第一类型的对象的第一特征区域,基于所述图像的深度信息中的与第一特征区域对应的特征像素来获取第一代表值,并且将第一代表值映射到第一特征区域并获取所述第一距离信息。
根据本公开的一方面,提供了一种用于控制电子设备的方法,其中,所述方法包括以下步骤:获取图像和所述图像的深度信息,将所获取的图像输入到被训练为获取与所述图像中包括的对象有关的信息的神经网络模型中,并获取由所述神经网络模型的中间层输出的中间特征值,基于所述中间特征值识别针对所述图像中包括的至少一个对象的特征区域,并且基于针对所述至少一个对象的特征区域和所述图像的深度信息来获取所述电子设备与所述至少一个对象之间的距离信息。
有益效果
根据实施例,用户可通过电子设备获取准确度得到提高的对象的距离信息。
因此,可提高用户便利性和满意度。
附图说明
从以下结合附图的描述,本公开的特定实施例的以上和/或其他方面、特征和优点将更加显而易见,其中:
图1是示出根据实施例的电子设备的操作的示图;
图2是示出根据实施例的电子设备的配置的框图;
图3是示出根据实施例的神经网络模型的框图;
图4是示出根据实施例的神经网络模型的示图;
图5是示出根据实施例的获取对象的距离的方法的示图;
图6是示出根据实施例的获取对象的距离信息的方法的示图;
图7是示出根据实施例的获取对象的距离信息的方法的示图;
图8是示出根据实施例的获取特征图的方法的示图;
图9是示出根据实施例的获取对象的距离信息的方法的示图;
图10是示出根据实施例的获取对象的距离信息的方法的示图;
图11是示出根据实施例的输出图像的示图;以及
图12是示出根据实施例的控制方法的流程图。
具体实施方式
考虑到这里描述的功能,尽可能多地使用当前广泛使用的常用术语。然而,随着时间的推移,常用术语可根据在相关领域工作的本领域技术人员的意图、法院判决或新技术的出现而改变。此外,这里,可存在由申请人选择的术语,并且在这种情况下,所述术语的含义在下面被详细描述。因此,这里使用的术语应基于术语的含义和所描述的整体内容来定义,而不仅仅是基于术语的名称来定义。
如这里所使用的,诸如“第1”或“第一”、“第2”或“第二”等的术语可修饰对应的组件,而不管重要性或顺序如何,并且在不限制所述组件的情况下被用于将一个组件与另一组件区分开。
单数表达包括复数表达,只要它们在上下文中没有明显不同的含义。此外,诸如“包括”和“由……组成”的术语应被解释为指定存在说明书中描述的这样的特性、数字、步骤、操作、元件、组件或其组合,但不预先排除一个或更多个其他特性、数字、步骤、操作、元件、组件或其组合的存在或者添加一个或更多个其他特性、数字、步骤、操作、元件、组件或其组合的可能性。
在下文中,将参照附图描述特定实施例。然而,应注意,实施例可以以各种不同的形式实现,并且本公开不限于这里描述的实施例。在附图和整个说明书中,相似的组件由相似的参考标号指定。
图1是示出根据实施例的电子设备的操作的示图。
电子设备可获取拍摄图像10。电子设备可将拍摄图像10输入到神经网络模型310中,并获取与拍摄图像10中包括的目标对象1有关的信息。具体地,电子设备可获取神经网络模型310的最终特征值25。电子设备100可基于最终特征值25获取针对目标对象1的类型信息26。例如,类型信息26可以是针对目标对象1的分类值。
电子设备可基于最终特征值25获取针对目标对象1的对象区域信息27。对象区域信息27可包括目标对象1在拍摄图像10中的位置信息。例如,对象区域信息27可包括被设置为包括目标对象1的边界框的坐标值。
电子设备可基于中间特征值21来识别特征区域22。这里,特征区域可表示当神经网络模型310识别目标对象1时成为目标对象1的特征的区域。例如,在目标对象1是人的情况下,特征区域可以是人的面部的周围区域。然而,这仅仅是示例,并且可根据目标对象1的类型将特征区域定义为各种区域。电子设备可对中间特征值21和对象区域信息27进行映射,并且识别与目标对象1对应的特征区域22。特征区域22可存在于与对象区域信息27对应的边界框中。电子设备可从神经网络模型310中包括的多个中间层中的一个或更多个中间层提取中间特征值21。根据实施例的特征区域可指激活区域、激活图或目标区域。
电子设备可获取拍摄图像10的深度信息30。深度信息30可包括针对目标对象1的深度信息。电子设备可通过各种方法获取深度信息30。例如,电子设备可通过分析拍摄图像10来获取深度信息30。然而,这仅仅是示例,并且电子设备可基于深度相机获取的图像数据来获取深度信息30。
电子设备可基于中间特征值21和深度信息30获取针对目标对象1的距离信息并且/或者生成显示距离信息的输出图像40。电子设备可基于深度信息30中的与中间特征值21的特征区域22对应的特征像素31来获取距离信息。具体地,电子设备可将特征像素31的代表值映射到中间特征值21并获取距离信息。特征像素31的代表值可以是特征像素31的众数、中间值、平均值或最小值中的至少一个。距离信息可以是从获取拍摄图像10的相机到目标对象1的距离信息。例如,在电子设备拍摄了目标对象1的情况下,距离信息可以是从电子设备到目标对象1的距离信息。
电子设备可基于针对目标对象1的类型信息26、对象区域信息27和距离信息来生成图像。例如,电子设备可生成包括针对目标对象1的类型信息26、对象区域信息27和距离信息的图像。电子设备可通过显示器输出所生成的图像,或者将该图像发送到另一外部设备。
图2是示出根据实施例的电子设备的配置的框图。参照图2,电子设备100可包括相机110、存储器120、通信接口130、处理器140和传感器150。电子设备100不必必须被实现为包括所有上述组件,而是可仅利用所述组件中的一些组件来实现它。
相机110可获取各种图像。例如,相机110可被安装在电子设备100上,并且拍摄电子设备100的周围并获取图像。相机110可包括各种类型的相机。例如,相机110可包括基于2D的RGB相机和IR相机。相机110可包括基于3D的飞行时间(ToF)相机和立体相机。
存储器120可存储用于控制电子设备100的组件的整体操作的操作系统(OS)以及与电子设备100的组件相关的指令或数据。为此,存储器120可被实现为非易失性存储器(例如,硬盘、固态驱动(SSD)、闪存)、易失性存储器等。
存储器120可包括至少一个指令。例如,存储器120可存储指令,其中,所述指令在被执行时使得在从相机110获取图像时处理器140获取与图像中包括的对象有关的信息。存储器120可存储用于识别对象的神经网络模型(或对象识别模型等)。具体地,神经网络模型可由通用处理器(例如,中央处理器(CPU))或单独的AI专用处理器(例如,图形处理单元(GPU)、神经处理单元(NPU)等)执行。
通信接口130包括至少一个电路,并且可根据各种类型的通信方法与各种类型的外部服务器或外部设备执行通信。例如,通信接口130可包括Wi-Fi通信模块、蜂窝通信模块、第四代(4G)移动通信模块、第四代(4G)长期演进(LTE)通信模块或第五代(5G)移动通信模块中的至少一个。
电子设备100可通过通信接口130获取外部设备拍摄电子设备100的周围的图像。电子设备100可获取与从外部设备获取的图像中包括的对象有关的信息。电子设备100可通过通信接口130将所获取的与所述对象有关的信息发送到外部设备。电子设备100可以是服务器设备。
处理器140可控制电子设备100的整体操作。
例如,处理器140可获取拍摄电子设备100的周围的图像和该图像的深度信息。处理器140可通过相机110获取图像和该图像的深度信息。具体地,处理器140可获取RGB相机拍摄的图像。处理器140可通过拍摄电子设备100的周围的深度相机或立体相机来获取图像的深度信息。可选地,处理器140可分析RGB相机拍摄的图像的像素值,并获取图像中包括的对象的深度信息。
处理器140可将获取的图像输入到被训练为获取与图像中包括的对象有关的信息的神经网络模型中,并且获取由神经网络模型的中间层输出的中间特征值。处理器140可基于中间特征值识别针对图像中包括的至少一个对象的特征区域。处理器140可基于中间特征值获取包括针对图像中所包括的至少一个对象的特征区域的特征图。可通过对由多个预定义中间层获取的多个中间特征值求和来获取特征图。
处理器140可将获取的图像输入到神经网络模型中,并且基于由神经网络模型的最终层输出的最终特征值来识别针对对象的特征区域。具体地,处理器140可基于所获取的最终特征值来识别针对图像中包括的至少一个对象中的每个对象的类型信息和关于对象区域的信息。处理器140可对特征图和针对所述至少一个对象中的每个对象的对象区域进行映射,并且识别与所述至少一个对象中的每个对象对应的特征区域。
处理器140可基于针对所述至少一个对象的特征区域和图像的深度信息来获取电子设备100与所述至少一个对象之间的距离信息。例如,处理器140可将所获取的深度信息中的与针对对象的特征区域对应的像素值映射到针对对象的特征区域,并且获取电子设备100与对象之间的距离信息。处理器140可获取图像的深度信息的代表值,并且将所获取的代表值映射到对象的特征区域,并获取距离信息。所述代表值可以是构成图像的多个像素的深度值的众数、中间值、平均值或最小值中的至少一个。
处理器140可生成在针对所述至少一个对象中的每个对象的对象区域周围显示对象的类型信息和距离信息的图像。处理器140可控制包括在电子设备100中的显示器,使得所生成的图像被显示。可选地,处理器140可通过通信接口130将信号发送到外部设备,使得通过另一外部设备显示所生成的图像。因此,电子设备100可从电子设备100向用户提供图像中包括的对象之间的距离信息或图像中包括的对象的类型信息中的至少一个。
传感器150可以是用于获取针对对象的深度信息的组件。例如,传感器150可包括ToF传感器、激光(LiDAR)传感器和雷达传感器。电子设备100可基于由传感器150获取的针对对象的深度信息来获取对象的距离信息。如上所述,电子设备100可分析由相机110拍摄的图像并获取图像中包括的对象的深度信息。
图3是示出根据实施例的神经网络模型的框图。参照图3,神经网络模型310可包括输入层320、中间层330和最终层350。这里,每个层可包括多个神经网络层。
输入层320可接收输入图像301,并输出来自输入图像301的输入特征值。输入层320可将输入特征值发送到中间层330。中间层330可基于从输入层320接收到的输入特征值来提取并输出输入图像301的中间特征值340。
处理器140可基于中间特征值340获取与针对输入图像301中包括的对象的特征区域有关的信息。例如,处理器140可分析中间特征值340并提取针对输入图像301中包括的对象的特征区域。中间特征值340的分量中的与针对对象的特征区域对应的分量的大小可大于与不存在对象的区域对应的分量的大小。
中间层330可将中间特征值340发送到最终层350。最终层350可基于从中间层330接收到的中间特征值340来提取并输出针对输入图像301的最终特征值360。最终特征值360可与针对对象的各种信息相关。例如,最终特征值360可与针对对象所位于的区域的位置信息或对象的类型信息中的至少一个相关。具体地,在神经网络模型310被训练为执行对对象进行分类的操作的情况下,最终特征值360可与对象的类型信息相关。此外,在神经网络模型310被训练为执行识别对象的操作的情况下,最终特征值360可与针对对象所位于的区域的位置信息或对象的类型信息相关。
如上所述,神经网络模型310可由多个神经网络层组成。所述多个神经网络层中的每个神经网络层具有多个权重值,并且通过先前层的运算结果与所述多个权重值之间的运算来执行神经网络运算。可通过人工智能模型的学习结果来优化所述多个神经网络层具有的所述多个权重值。例如,可更新所述多个权重值,使得在学习处理期间从人工智能模型获取的损失值或代价值被减小或最小化。人工神经网络可包括深度神经网络(DNN),并且存在例如卷积神经网络(CNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)或深度Q网络等,但这是非限制性的。
图4是示出根据实施例的神经网络模型的示图。
参照图4,神经网络模型410可基于输入图像401输出最终特征值420。处理器140可获取从神经网络模型410输出的最终特征值420。处理器140可基于最终特征值420识别针对目标对象ob的类型信息421和对象区域信息422。处理器140可基于识别出的类型信息421(即,人)和对象区域信息422来生成图像。
神经网络模型410可包括多个中间层411。在多个中间层411中,可执行各种操作。例如,可执行将由多个中间层411中的每个中间层输出的中间特征值和与所述中间特征值对应的权重w1、w2、w3的相乘值相加的操作。此外,在中间层411中,可执行全局平均池化(GAP)。神经网络模型410可包括多个卷积层(CONV)。所述多个卷积层可被包括在中间层411中。
图5是示出根据实施例的获取对象的距离的方法的示图。
处理器140可获取输入图像510以及针对基于输入图像510提取的第一对象ob1的对象区域信息511。处理器140可将输入图像510输入到图4中的神经网络模型410中,并获取对象区域信息511。处理器140可获取与输入图像510对应的深度信息520。处理器140可基于对象区域信息511和深度信息520获取第一对象ob1的距离信息。具体地,例如,处理器140可通过将深度信息520中的与对象区域信息511对应的子深度信息521映射到对象区域信息511来获取第一对象ob1的距离值。具体地,处理器140可将子深度信息521的像素的代表值定义为第一对象ob1的距离值。所述代表值可以是与子深度信息521对应的像素的众数、中间值、平均值或最小值中的至少一个。也就是说,所述代表值可表示基于分别包括距离值的多个像素值计算出的代表距离值。
在将获取其距离信息的目标对象前方存在另一障碍物的情况下,电子设备可获取目标对象的距离信息。
图6是示出根据实施例的获取对象的距离信息的方法的示图。
处理器140可获取输入图像610以及针对基于输入图像610提取的第一对象ob1的对象区域信息611。处理器140可将输入图像610输入到图4中的神经网络模型410中,并获取对象区域信息611。此外,处理器140可获取与输入图像610对应的深度信息620。深度信息620可以是与输入图像610对应的深度图像。在这种情况下,处理器140可基于深度信息620定义或获取第一对象ob1的距离值。例如,处理器140可通过将深度信息620中的与对象区域信息611对应的子深度信息621映射到对象区域信息611来定义第一对象ob1的距离值。具体地,处理器140可定义子深度信息621的像素的代表值以计算第一对象ob1的距离值。
在对象区域信息611中,可能包括针对第二对象ob2的数据。也就是说,在针对作为将获取其距离信息的对象的第一对象ob1的对象区域信息611中,可能包括针对作为障碍物但不是将获取其距离信息的对象的第二对象ob2的数据。也就是说,如图6中所示,在描绘对象区域信息611的边界框中,不仅可包括第一对象ob1,而且可包括第二对象ob2。因此,在子深度信息621中,可包括不仅与第一对象ob1对应而且与第二对象ob2对应的深度信息。
因此,当处理器140计算子深度信息621的代表值时,与第一对象ob1无关的针对第二对象ob2的深度信息可能被反映。因此,第一对象ob1的距离信息的准确度可能降低。为了防止这种情况,当计算子深度信息621的代表值时,处理器140可基于与子深度信息621对应的像素中的除了与第二对象ob2对应的像素之外的剩余像素的值来计算代表值。
在实施例中,当在一个边界框中存在多个对象时,可消除由于输入图像中存在除了目标对象之外的另一障碍物或无关对象而导致目标对象的距离的准确度降低的问题。
图7是示出根据实施例的获取对象的距离信息的方法的示图。
处理器140可基于包括第一对象ob1的输入图像710来获取针对第一对象ob1的对象区域信息711。处理器140可获取与输入图像710对应的深度信息730。对象区域信息711和深度信息730可分别对应于图6中的对象区域信息611和深度信息620,因此将省略重复描述。
处理器140可基于输入图像710获取包括针对第一对象ob1的特征区域721的特征图720。特征图720可包括与针对第一对象ob1的特征区域721有关的位置信息。特征区域721可位于与对象区域信息711对应的边界框中。
处理器140可基于针对第一对象ob1的特征区域721获取或定义第一对象ob1的距离信息。例如,处理器140可基于深度信息730中的与针对第一对象ob1的特征区域721对应的子深度信息731来获取第一对象ob1的距离信息。具体地,处理器140可将与子深度信息731对应的像素的代表值映射到特征图720,并获取第一对象ob1的距离信息。
如上所述,处理器140可基于与特征区域721对应的子深度信息731而不是与整个边界框对应的深度信息来获取第一对象ob1的距离信息。因此,处理器140可防止在获取第一对象ob1的距离信息时第二对象ob2的深度信息被反映的问题。因此,根据实施例,在目标对象(即,作为第一对象的人)和障碍物对象(即,桌子)重叠的情况下,处理器140可获取针对目标对象的准确距离信息。也就是说,根据实施例,可提高第一对象ob1的距离信息的准确度。
可基于神经网络模型的中间特征值来获取特征图720。
图8是示出根据实施例的获取特征图的方法的示图。
参照图8,处理器140可通过将输入图像801输入到神经网络模型810中来获取最终特征值820。最终特征值820可包括针对第一对象ob1的类型信息821和对象区域信息822。图8中的神经网络模型810可对应于图4中的神经网络模型410,因此将省略重复描述。
神经网络模型810可包括多个中间层830。处理器140可从多个中间层830获取至少一个中间特征值。例如,处理器140可获取由多个中间层830中的全部或一些中间层输出的第一中间特征值831、第二中间特征值832和第三中间特征值833。处理器140可通过对第一中间特征值831、第二中间特征值832和第三中间特征值833求和来获取特征图834。特征图834可被计算为将权重w1、w2、w3与第一中间特征值831、第二中间特征值832和第三中间特征值833中的每一个相乘得到的值之和。
第一中间特征值831、第二中间特征值832和第三中间特征值833中的每一个可包括针对至少一个对象的特征区域的位置信息。例如,第一中间特征值831可包括针对第一对象ob1的特征区域的位置信息。
以上描述是基于在输入图像中存在将被提取距离信息的一个对象的示例。然而,这不是限制性的,并且处理器140可获取针对输入图像中包括的多个对象的距离信息。
图9是示出根据实施例的获取对象的距离信息的方法的示图。
处理器140可获取包括第一对象ob1和第二对象ob2的输入图像910以及与输入图像910对应的深度信息930。处理器140可基于输入图像910获取针对第一对象ob1和第二对象ob2中的每一个的对象区域信息。处理器140可基于通过将输入图像910输入到神经网络模型中而获取的最终特征值来获取针对第一对象ob1和第二对象ob2中的每一个的对象区域信息。
处理器140可基于输入图像910获取特征图920。特征图920可包括与针对第一对象ob1的第一特征区域921和针对第二对象ob2的第二特征区域922有关的信息。处理器140可分别识别第一特征区域921和第二特征区域922。处理器140可基于通过将输入图像910输入到神经网络模型中而获取的中间特征值来获取针对第一特征区域921和第二特征区域922中的每一个的信息。
处理器140可基于特征图920和深度信息930获取针对第一对象ob1和第二对象ob2中的每一个的距离信息。具体地,处理器140可识别深度信息930中的与第一特征区域921对应的第一特征像素931和与第二特征区域922对应的第二特征像素932。处理器140可基于第一特征像素931获取第一代表值。处理器140可基于第二特征像素932获取第二代表值。处理器140可将第一代表值和第二代表值映射到第一特征区域921和第二特征区域922中的每一个,并且获取第一对象ob1和第二对象ob2的距离信息。
如上所述,处理器140可基于特征区域获取对象的距离。因此,在第一对象ob1和第二对象ob2中的每一个的边界框如图9中那样重叠的情况下,处理器140可准确地获取针对第一对象ob1和第二对象ob2中的每一个的距离信息。然而,这不是限制性的,并且所述框不必需要重叠,并且可以仅接触或分离。
图10是示出根据实施例的获取对象的距离信息的方法的示图。
处理器140可将包括第一对象ob1和第二对象ob2的输入图像1001输入到神经网络模型1100中。神经网络模型1100可包括与具有特定类型的对象对应的至少一个中间层。例如,神经网络模型1100可包括与第一类型(即,人)的第一对象ob1对应的第一中间层1110。神经网络模型1100可包括与第二类型(即,狗)的第二对象ob2对应的第二中间层1120。第一中间层1110可输出第一中间特征值1210。处理器140可基于第一中间特征值1210获取关于与第一对象ob1对应的第一特征区域1211的信息。第二中间层1120可输出第二中间特征值1220。处理器140可基于第二中间特征值1220获取关于与第二对象ob2对应的第二特征区域1221的信息。
如上所述,神经网络模型1100中包括的中间层可对应于特定类型的对象。处理器140可在没有神经网络模型1100的最终特征值的情况下获取针对第一对象ob1和第二对象ob2的类型信息。处理器140可基于与输入图像1001对应的深度信息1300来获取针对第一对象ob1和第二对象ob2中的每一个的距离信息。具体地,处理器140可基于关于第一特征区域1211的信息来获取与第一特征区域1211对应的第一子深度信息1310。处理器140可将第一子深度信息1310映射到第一中间特征值1210,并获取针对第一对象ob1的距离信息。同样,处理器140可基于关于第二特征区域1221的信息来获取与第二特征区域1221对应的第二子深度信息1320。处理器140可将第二子深度信息1320映射到第二中间特征值1220,并获取针对第二对象ob2的距离信息。
尽管仅描述了两个对象,但是对象和对象类型的数量可大于2,例如,3、4、至10等。
例如,如上所述,在神经网络模型中包括的多个中间层中的至少一个中间层或一些中间层对应于特定类型的对象的情况下,处理器140可基于中间特征值而不是特征图来获取对象的距离信息。
处理器140可基于所获取的关于对象的信息来生成图像。
图11是示出根据实施例的输出图像的示图。
处理器140可基于对象的类型信息、距离信息和对象区域信息来生成输出图像1400。输出图像可包括对象区域的显示。例如,输出图像可包括显示在对象区域周围的边界框。此外,在输出图像中,可在边界框周围显示对象的类型信息(即,图11中的人和狗)。此外,在输出图像中,可在对象区域周围显示对象的类型信息或对象的距离信息。
处理器140可控制显示器,使得通过包括在如上所述的电子设备100中的显示器来显示生成的输出消息。可选地,处理器140可通过通信接口130将信号发送到外部设备,使得通过另一外部设备显示生成的输出图像。通过这些操作,电子设备100可向用户提供关于对象的各种信息。
图12是示出根据实施例的控制方法的流程图。
参照图12,控制方法可包括获取图像和图像的深度信息的操作S1210、将所获取的图像输入到神经网络模型中并获取中间特征值的操作S1220、识别针对图像中包括的对象的特征区域的操作S1230、以及基于特征区域和深度信息获取电子设备与对象之间的距离信息的操作S1240。
在操作S1210,处理器140可获取图像和图像的深度信息。处理器140可获取电子设备100的相机110拍摄电子设备100的周围的图像以及图像的深度信息。图像可以是相机110中包括的RGB相机拍摄的RGB图像,并且图像的深度信息可以是相机110中包括的深度相机拍摄的深度图像。处理器140可获取外部设备拍摄的图像和该图像的深度信息。
在操作S1220,处理器140可将所获取的图像输入到神经网络模型中并获取中间特征值。神经网络模型可被训练为获取关于图像中包括的对象的信息。关于对象的信息可包括对象的类型信息、距离信息和位置信息。
在操作S1230,处理器140可识别针对图像中包括的对象的特征区域。处理器140可基于从神经网络模型获取的最终特征值来识别针对对象的类型信息和关于对象区域的信息。处理器140可对基于中间特征值获取的特征图和对象区域进行映射,并识别针对对象的特征区域。处理器140可对由神经网络模型的预定义中间层获取的多个中间特征值求和并获取特征图。
此外,在操作S1240,处理器140可基于针对对象的特征区域和图像的深度信息来获取电子设备与对象之间的距离信息。处理器140可基于图像的深度信息中的与特征区域对应的特征像素来获取代表值。处理器140可将所获取的代表值映射到特征区域,并获取电子设备与对象之间的距离信息。
电子设备100可被实现为各种类型的电子设备。例如,电子设备100可被实现为清洁机器人、自动导引车(AGV)等。处理器140可基于所获取的关于对象的信息来生成电子设备100的驱动控制信号。
可通过使用可由计算机或与计算机相似的设备读取的记录介质、通过使用软件、硬件或其组合来实现上述实施例。在一些情况下,这里描述的实施例可由一个或更多个处理器实现。根据通过软件的实现,这里描述的处理和功能可由单独的软件模块实现。所述软件模块中的每个软件模块可执行这里描述的一个或更多个功能和操作。
实施例可被实现为包含存储在机器可读(例如,计算机可读)存储介质(例如,内部存储器或外部存储器)中的一个或更多个指令的软件。处理器可从存储介质调用指令并且可根据所调用的指令来操作,包括电子设备(例如,电子设备100)。当指令被处理器执行时,处理器可使用其他组件直接地或在处理器的控制下执行与指令对应的功能。指令可包含由编译器制作的代码或可由解释器执行的代码。机器可读存储介质可以以非暂时性存储介质的形式被提供。
非暂时性计算机可读介质是指半永久地存储数据且可由机器读取的介质,而不是短暂地存储数据的介质(诸如寄存器、缓存和内存)。作为非暂时性计算机可读介质的具体示例,可以存在CD、DVD、硬盘、蓝光盘、USB、存储卡、ROM等。
虽然已经参照附图具体示出和描述了特定实施例,但是实施例是出于说明的目的被提供的,并且本领域普通技术人员将理解,可从本公开进行各种修改和等同的其他实施例。因此,本公开的真实技术范围由权利要求的技术精神限定。

Claims (15)

1.一种控制电子设备的方法,所述方法包括:
获取图像和所获取的图像的深度信息;
将所获取的图像输入到神经网络模型中,其中,所述神经网络模型被训练为获取与所获取的图像中包括的对象有关的信息;
获取由所述神经网络模型的中间层输出的中间特征值;
基于所述中间特征值识别针对所获取的图像中包括的所述对象中的至少一个对象的特征区域;并且
基于针对所述至少一个对象的特征区域和所述深度信息来获取所述电子设备与所述至少一个对象之间的距离信息。
2.如权利要求1所述的方法,还包括:
将所述中间特征值输入到所述神经网络模型的最终层;
获取由所述最终层输出的最终特征值;并且
基于所述最终特征值,识别分别针对被包括在所获取的图像中的所述对象的类型信息和关于所获取的图像中的对象区域的信息,其中,所述对象分别存在于所述对象区域中,
其中,识别所述特征区域的步骤还包括:
基于所述中间特征值获取包括分别针对所述对象的特征区域的特征图,
对所述特征图和针对所述对象中的每个对象的对象区域进行映射;并且
基于所述映射来识别与所述对象中的每个对象对应的特征区域。
3.如权利要求2所述的方法,其中,获取所述特征图的步骤还包括:
通过对分别由多个中间层中的一些中间层获取的多个中间特征值求和来获取所述特征图,
其中,所述中间层包括所述多个中间层中的一些或全部中间层。
4.如权利要求2所述的方法,其中,获取所述距离信息的步骤还包括:基于所述特征区域和所述深度信息分别获取所述电子设备与所述对象之间的距离信息,并且
所述方法还包括:
至少基于所述最终特征值来生成输出图像;并且
在所述输出图像上在分别针对所述对象的所述对象区域周围显示所述类型信息和所述距离信息。
5.如权利要求1所述的方法,其中,获取所述距离信息的步骤还包括:
基于所述深度信息中存在的与所述特征区域对应的特征像素来获取代表值;
将所述代表值映射到所述特征区域;并且
基于所述映射来获取所述距离信息。
6.如权利要求1所述的方法,其中,获取所述深度信息的步骤还包括:
通过使用深度相机或立体相机来获取所述深度信息,或者通过分析所获取的图像来获取所述深度信息。
7.如权利要求1所述的方法,其中,所述中间层包括与所述对象中的第一类型的第一对象对应的第一中间层和与所述对象中的第二类型的第二对象对应的第二中间层,并且
识别步骤还包括:基于由第一中间层输出的第一中间特征值来识别针对所述对象中的具有第一类型的第一对象的第一特征区域,并基于由第二中间层输出的第二中间特征值来识别针对所述对象中的具有第二类型的第二对象的第二特征区域,并且
获取所述距离信息的步骤还包括:
将基于所述深度信息中存在的与第一特征区域对应的第一特征像素计算出的第一代表值映射到第一特征区域,并将基于所述深度信息中存在的与第二特征区域对应的第二特征像素计算出的第二代表值映射到第二特征区域,并且
基于所述映射分别获取所述电子设备与第一对象之间的距离信息和所述电子设备与第二对象之间的距离信息,
其中,所述至少一个对象是第一对象和第二对象之一。
8.如权利要求2所述的方法,还包括:
基于所述类型信息、关于所述对象区域的信息和所述距离信息生成所述电子设备的驱动控制信号。
9.一种电子设备,包括:
存储器,被配置为存储至少一个指令;以及
处理器,被配置为执行所述至少一个指令,
其中,处理器通过执行所述至少一个指令还被配置为:
获取图像和所获取的图像的深度信息,
将所获取的图像输入到神经网络模型中,其中,所述神经网络模型被训练为获取与所获取的图像中包括的对象有关的信息,
获取由所述神经网络模型的中间层输出的中间特征值,
基于所述中间特征值识别针对所获取的图像中包括的所述对象中的至少一个对象的特征区域,并且
基于针对所述至少一个对象的特征区域和所述深度信息来获取所述电子设备与所述至少一个对象之间的距离信息。
10.如权利要求9所述的电子设备,其中,处理器还被配置为:
将所述中间特征值输入到所述神经网络模型的最终层,
获取由所述最终层输出的最终特征值,
基于所述最终特征值,识别分别针对被包括在所获取的图像中的所述对象的类型信息和关于所获取的图像中的对象区域的信息,其中,所述对象分别存在于所述对象区域中,并且
基于所述中间特征值,获取包括分别针对所获取的图像中所包括的所述对象的特征区域的特征图。
11.如权利要求10所述的电子设备,其中,处理器还被配置为:
对所述特征图和针对所述对象中的每个对象的对象区域进行映射,并且
基于所述映射来识别与所述对象中的每个对象对应的特征区域。
12.如权利要求10所述的电子设备,其中,所述特征图是通过对分别由多个中间层中的一些中间层获取的多个中间特征值求和而获取的,
其中,所述中间层包括所述多个中间层中的一些或全部中间层。
13.如权利要求9所述的电子设备,其中,处理器还被配置为:
基于所述深度信息中存在的与所述特征区域对应的特征像素来获取代表值,
将所述代表值映射到所述特征区域,并且
基于所述映射来获取所述距离信息。
14.如权利要求10所述的电子设备,其中,处理器还被配置为:
基于所述特征区域和所述深度信息分别获取所述电子设备与所述对象之间的距离信息,并且
至少基于所述最终特征值来生成输出图像,使得所生成的输出图像包括分别针对所述对象的所述类型信息和所述距离信息。
15.如权利要求14所述的电子设备,还包括:
显示器,
其中,处理器还被配置为:
控制显示器显示所述输出图像,使得针对所述对象的所述类型信息和所述距离信息分别在所述对象区域周围被显示。
CN202080079361.3A 2019-11-20 2020-09-09 电子设备和用于控制该电子设备的方法 Pending CN114830177A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2019-0149859 2019-11-20
KR1020190149859A KR20210061839A (ko) 2019-11-20 2019-11-20 전자 장치 및 그 제어 방법
PCT/KR2020/012200 WO2021101045A1 (en) 2019-11-20 2020-09-09 Electronic apparatus and method for controlling thereof

Publications (1)

Publication Number Publication Date
CN114830177A true CN114830177A (zh) 2022-07-29

Family

ID=75908927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080079361.3A Pending CN114830177A (zh) 2019-11-20 2020-09-09 电子设备和用于控制该电子设备的方法

Country Status (5)

Country Link
US (1) US11417007B2 (zh)
EP (1) EP4004872A4 (zh)
KR (1) KR20210061839A (zh)
CN (1) CN114830177A (zh)
WO (1) WO2021101045A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062396B (zh) * 2019-11-29 2022-03-25 深圳云天励飞技术有限公司 车牌号码识别方法、装置、电子设备及存储介质
KR102159052B1 (ko) * 2020-05-12 2020-09-23 주식회사 폴라리스쓰리디 영상 분류 방법 및 장치
KR102610631B1 (ko) * 2021-07-09 2023-12-06 세종대학교산학협력단 Dnn을 이용한 fmcw 레이더의 해상도 향상 장치 및 방법
KR20230057867A (ko) * 2021-10-22 2023-05-02 삼성전자주식회사 실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100938195B1 (ko) 2008-07-28 2010-01-21 재단법인대구경북과학기술원 스테레오 매칭을 이용한 거리 추정 장치 및 추정 방법
US10776635B2 (en) * 2010-09-21 2020-09-15 Mobileye Vision Technologies Ltd. Monocular cued detection of three-dimensional structures from depth images
JP6245140B2 (ja) * 2014-10-27 2017-12-13 株式会社デンソー 対象物識別装置、運転支援システム、車両および対象物識別方法
US9594984B2 (en) 2015-08-07 2017-03-14 Google Inc. Business discovery from imagery
CN106548127B (zh) * 2015-09-18 2022-11-04 松下电器(美国)知识产权公司 图像识别方法
US9767381B2 (en) * 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features
KR102592076B1 (ko) 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
KR101735997B1 (ko) 2016-02-03 2017-05-16 한국기술교육대학교 산학협력단 깊이 정보 혼합을 위한 이미지 추출방법
CN107180220B (zh) * 2016-03-11 2023-10-31 松下电器(美国)知识产权公司 危险预测方法
KR20170119167A (ko) 2016-04-18 2017-10-26 한국전자통신연구원 도로 상의 객체를 검출하기 위한 객체 검출 시스템 및 방법
US10210418B2 (en) * 2016-07-25 2019-02-19 Mitsubishi Electric Research Laboratories, Inc. Object detection system and object detection method
CN106295678B (zh) * 2016-07-27 2020-03-06 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
US20180068459A1 (en) * 2016-09-08 2018-03-08 Ford Global Technologies, Llc Object Distance Estimation Using Data From A Single Camera
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
JP6912215B2 (ja) 2017-02-09 2021-08-04 国立大学法人東海国立大学機構 対象物の姿勢等を検出する検出方法、検出プログラム
JP6738296B2 (ja) * 2017-03-23 2020-08-12 株式会社日立製作所 畳込みニューラルネットワークによる処理方法、畳込みニューラルネットワークの学習方法、および畳込みニューラルネットワークを備える処理装置
US11157764B2 (en) * 2017-03-27 2021-10-26 Intel Corporation Semantic image segmentation using gated dense pyramid blocks
JP7023613B2 (ja) 2017-05-11 2022-02-22 キヤノン株式会社 画像認識装置および学習装置
CN108229479B (zh) * 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
JP6972756B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
KR102434574B1 (ko) * 2017-08-14 2022-08-22 삼성전자주식회사 이미지에 포함된 특징 포인트의 시간 또는 공간의 움직임에 기초하여 이미지에 존재하는 피사체를 인식하는 장치 및 방법
KR102463175B1 (ko) 2017-09-04 2022-11-04 삼성전자주식회사 객체 인식 방법 및 장치
CN110838124B (zh) * 2017-09-12 2021-06-18 深圳科亚医疗科技有限公司 用于分割具有稀疏分布的对象的图像的方法、系统和介质
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
US10783640B2 (en) * 2017-10-30 2020-09-22 Beijing Keya Medical Technology Co., Ltd. Systems and methods for image segmentation using a scalable and compact convolutional neural network
US10970518B1 (en) * 2017-11-14 2021-04-06 Apple Inc. Voxel-based feature learning network
US10769411B2 (en) * 2017-11-15 2020-09-08 Qualcomm Technologies, Inc. Pose estimation and model retrieval for objects in images
JP2019096006A (ja) 2017-11-21 2019-06-20 キヤノン株式会社 情報処理装置、情報処理方法
KR101921608B1 (ko) 2018-01-29 2018-11-26 한국과학기술원 깊이 정보 생성 장치 및 방법
US11164003B2 (en) * 2018-02-06 2021-11-02 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting objects in video sequences
WO2019161300A1 (en) * 2018-02-18 2019-08-22 Nvidia Corporation Detecting objects and determining confidence scores
KR102595787B1 (ko) * 2018-02-27 2023-11-24 삼성전자주식회사 전자 장치 및 그 제어 방법
CN108345890B (zh) * 2018-03-01 2022-10-28 腾讯科技(深圳)有限公司 图像处理方法、装置和相关设备
US10628686B2 (en) * 2018-03-12 2020-04-21 Waymo Llc Neural networks for object detection and characterization
CN108875904A (zh) * 2018-04-04 2018-11-23 北京迈格威科技有限公司 图像处理方法、图像处理装置和计算机可读存储介质
US11163989B2 (en) * 2018-08-06 2021-11-02 Google Llc Action localization in images and videos using relational features
CN110163197B (zh) * 2018-08-24 2023-03-10 腾讯科技(深圳)有限公司 目标检测方法、装置、计算机可读存储介质及计算机设备
EP3620978A1 (de) * 2018-09-07 2020-03-11 Ibeo Automotive Systems GmbH Verfahren und vorrichtung zur klassifizierung von objekten
WO2020051776A1 (en) * 2018-09-11 2020-03-19 Intel Corporation Method and system of deep supervision object detection for reducing resource usage
US10311338B1 (en) * 2018-09-15 2019-06-04 StradVision, Inc. Learning method, learning device for detecting lanes on the basis of CNN and testing method, testing device using the same
US10579924B1 (en) * 2018-09-17 2020-03-03 StradVision, Inc. Learning method, learning device with multi-feeding layers and testing method, testing device using the same
US11106903B1 (en) * 2018-11-02 2021-08-31 Amazon Technologies, Inc. Object detection in image data
CN109784186B (zh) * 2018-12-18 2020-12-15 深圳云天励飞技术有限公司 一种行人重识别方法、装置、电子设备及计算机可读存储介质
KR102646889B1 (ko) * 2018-12-21 2024-03-12 삼성전자주식회사 스타일 변환을 위한 영상 처리 장치 및 방법
CN109903331B (zh) 2019-01-08 2020-12-22 杭州电子科技大学 一种基于rgb-d相机的卷积神经网络目标检测方法
CN111428535A (zh) * 2019-01-09 2020-07-17 佳能株式会社 图像处理装置和方法及图像处理系统
US10551846B1 (en) * 2019-01-25 2020-02-04 StradVision, Inc. Learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi-camera system and testing method and testing device using the same
US10402977B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
US10410352B1 (en) * 2019-01-25 2019-09-10 StradVision, Inc. Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same
CN109978989B (zh) * 2019-02-26 2023-08-01 腾讯科技(深圳)有限公司 三维人脸模型生成方法、装置、计算机设备及存储介质
CN110147836B (zh) * 2019-05-13 2021-07-02 腾讯科技(深圳)有限公司 模型训练方法、装置、终端及存储介质
US11455502B2 (en) * 2019-05-31 2022-09-27 Rakuten Group, Inc. Learning device, classification device, learning method, classification method, learning program, and classification program
WO2020240808A1 (ja) * 2019-05-31 2020-12-03 楽天株式会社 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
US20200394458A1 (en) * 2019-06-17 2020-12-17 Nvidia Corporation Weakly-supervised object detection using one or more neural networks
US11010605B2 (en) * 2019-07-30 2021-05-18 Rapiscan Laboratories, Inc. Multi-model detection of objects
US11126855B2 (en) * 2019-08-08 2021-09-21 Robert Bosch Gmbh Artificial-intelligence powered ground truth generation for object detection and tracking on image sequences

Also Published As

Publication number Publication date
KR20210061839A (ko) 2021-05-28
EP4004872A1 (en) 2022-06-01
EP4004872A4 (en) 2022-11-02
WO2021101045A1 (en) 2021-05-27
US11417007B2 (en) 2022-08-16
US20210150746A1 (en) 2021-05-20

Similar Documents

Publication Publication Date Title
US11557085B2 (en) Neural network processing for multi-object 3D modeling
JP6678778B2 (ja) 画像内の物体を検出する方法及び物体検出システム
US11845194B2 (en) Robot system and workpiece picking method
US20230014874A1 (en) Obstacle detection method and apparatus, computer device, and storage medium
US11417007B2 (en) Electronic apparatus and method for controlling thereof
CN111666921B (zh) 车辆控制方法、装置、计算机设备和计算机可读存储介质
CN110622177B (zh) 实例分割
US11308639B2 (en) Tool and method for annotating a human pose in 3D point cloud data
CN111507166A (zh) 通过一起使用照相机和雷达来学习cnn的方法及装置
US20190244028A1 (en) System and Method for Detecting Objects in Video Sequences
US11748998B1 (en) Three-dimensional object estimation using two-dimensional annotations
US11669977B2 (en) Processing images to localize novel objects
CN112947419B (zh) 避障方法、装置及设备
US20210357705A1 (en) Method and apparatus for classifying image
KR102310608B1 (ko) 레이더 및 라이다를 기반으로 하는 자율주행 학습 데이터의 처리 방법 및 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102389998B1 (ko) 비식별 처리 방법 및 이를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램
US20240029303A1 (en) Three-dimensional target detection method and apparatus
EP4113370A1 (en) Method and device for updating object recognition model
CN111598065A (zh) 深度图像获取方法及活体识别方法、设备、电路和介质
EP3623991B1 (en) Learning method, learning device for detecting lanes on the basis of cnn and testing method, testing device using the same
KR102310606B1 (ko) 자율주행 데이터 수집을 위한 센서 간의 위상차 제어 방법 및 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102310602B1 (ko) 다중 센서의 오차 보정 방법 및 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
WO2021098666A1 (zh) 手部姿态检测方法和装置、及计算机存储介质
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
KR102310601B1 (ko) 레이저 프리뷰를 이용한 학습 데이터 수집 방법 및 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination