CN110945537B - 训练装置、识别装置、训练方法、识别方法和程序 - Google Patents

训练装置、识别装置、训练方法、识别方法和程序 Download PDF

Info

Publication number
CN110945537B
CN110945537B CN201780093425.3A CN201780093425A CN110945537B CN 110945537 B CN110945537 B CN 110945537B CN 201780093425 A CN201780093425 A CN 201780093425A CN 110945537 B CN110945537 B CN 110945537B
Authority
CN
China
Prior art keywords
training
training data
data
depth information
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780093425.3A
Other languages
English (en)
Other versions
CN110945537A (zh
Inventor
堀川勉
小野大地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of CN110945537A publication Critical patent/CN110945537A/zh
Application granted granted Critical
Publication of CN110945537B publication Critical patent/CN110945537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

提供了能够准确地识别与深度信息相关联的图像中表示的对象是什么的训练装置、识别装置、训练方法、识别方法和程序。对象数据获取部分(32)获取表示对象的三维数据。训练数据生成部分(34)基于三维数据生成多个训练数据,多个训练数据的每个表示对象的相互不同的部分。训练部分(36)将生成的训练数据用作对象的训练数据来训练机器学习模型(30)。

Description

训练装置、识别装置、训练方法、识别方法和程序
技术领域
本发明涉及训练装置、识别装置、训练方法、识别方法和程序。
背景技术
存在一种已知的技术,其通过使用训练模型(诸如三维卷积神经网络)在诸如体素数据的三维数据上执行识别处理,来识别三维数据中表示的对象是什么。
发明内容
[技术问题]
例如,可以想到当将基于与深度信息相关联的图像生成的三维数据输入到上述训练模型中时,基于输出识别图像中表示的对象是什么。
然而,与深度信息相关联的图像中未表示的部分不在基于图像生成的三维数据中表示。因此,以这种方式生成的三维数据不表示对象的完整三维形状。
因此,在将表示对象的完整三维形状的三维数据用作训练数据训练了用于识别的训练模型的情况下,准确地识别与深度信息相关联的图像中表示的对象是什么偶尔会导致失败。
本发明是针对上述问题做出的。本发明的目的之一是提供训练装置、识别装置、训练方法、识别方法和程序,其能够准确地识别与深度信息相关联的图像中表示的对象是什么。
[问题的解决方案]
为了解决上述问题,根据本发明的训练装置是一种用于训练机器学习模型的训练装置,机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理,并且训练装置包括:三维数据获取部分,其被配置为获取表示对象的三维数据;训练数据生成部分,其被配置为基于三维数据生成多个训练数据,多个训练数据的每个表示对象的相互不同的部分;以及训练部分,其被配置为将生成的训练数据用作对象的训练数据来训练机器学习模型。
在本发明的一个方面,训练数据生成部分被配置为为其中布置对象的虚拟空间中的多个相互不同的位置中的每一个,生成表示对象的部分的训练数据,所述部分从位置的对应一个处可见。
此外,在本发明的一个方面,训练装置被配置为训练机器学习模型,其中,将基于与深度信息相关联的图像生成的三维数据输入,作为识别目标数据;训练数据生成部分被配置为生成包括三维数据的训练数据;并且训练部分被配置为将生成的三维数据用作对象的训练数据来训练机器学习模型。
可选地,训练装置被配置为训练机器学习模型,其中,将与深度信息相关联的图像输入,作为识别目标数据;训练数据生成部分被配置为生成包括与深度信息相关联的图像的训练数据;并且训练部分被配置为将与深度信息相关联的生成图像用作对象的训练数据来训练机器学习模型。
此外,根据本发明的识别装置是一种识别装置,其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理,并且识别装置包括:训练模型,其已经将基于表示对象的三维数据生成的训练数据学习为对象的训练数据,训练数据的每个表示对象的相互不同的部分;以及识别部分,其被配置为基于将与图像相对应的识别目标数据输入训练模型时的输出,来识别与深度信息相关联的图像中表示的对象是什么。
此外,根据本发明的训练方法是一种用于训练机器学习模型的训练方法,机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理,并且训练方法包括:获取表示对象的三维数据的步骤;基于三维数据生成多个训练数据的步骤,多个训练数据的每个表示对象的相互不同的部分;以及将生成的训练数据用作对象的训练数据来训练机器学习模型的步骤。
此外,根据本发明的识别方法是一种识别方法,其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理,并且识别方法包括:将与图像相对应的识别目标数据输入到训练模型的步骤,训练模型已经将基于表示对象的三维数据生成的训练数据学习为对象的训练数据,训练数据的每个表示对象的相互不同的部分;以及基于将识别目标数据输入训练模型时的输出,来识别与深度信息相关联的图像中表示的对象是什么的步骤。
此外,根据本发明的程序是一种用于训练机器学习模型的程序,机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理,并且程序使计算机执行:获取表示对象的三维数据的步骤;基于三维数据生成多个训练数据的步骤,多个训练数据的每个表示对象的相互不同的部分;以及将生成的训练数据用作对象的训练数据来训练机器学习模型的步骤。
此外,根据本发明的另一程序是一种程序,其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理,并且程序使计算机执行:将与图像相对应的识别目标数据输入到训练模型的步骤,训练模型已经将基于表示对象的三维数据生成的训练数据学习为对象的训练数据,训练数据的每个表示对象的相互不同的部分;以及基于将识别目标数据输入训练模型时的输出,来识别与深度信息相关联的图像中表示的对象是什么的步骤。
附图说明
图1是根据本发明一个实施例的信息处理装置的配置图。
图2是示出如何在虚拟空间中布置要由机器学习模型学习的对象的示例的图。
图3A是示出第一部分的示例的图。
图3B是示出第二部分的示例的图。
图3C是示出第三部分的示例的图。
图4A是示出第一二维图像的示例的图。
图4B是示出第二二维图像的示例的图。
图4C是示出第三二维图像的示例的图。
图5是示出根据本发明一个实施例的信息处理装置中实现的功能的示例的功能框图。
图6是示出根据本发明一个实施例的信息处理装置执行的训练处理的流程的示例的流程图。
图7是示出根据本发明一个实施例的信息处理装置执行的识别处理的流程的示例的流程图。
具体实施方式
以下,将基于附图详细说明本发明的一个实施例。
图1是根据本发明一个实施例的信息处理装置10的配置图。根据本实施例的信息处理装置10是诸如游戏机或个人计算机的计算机。如图1所示,例如,根据本实施例的信息处理装置10包括处理器12、存储部分14、操作部分16和显示部分18。
处理器12例如是根据安装在信息处理装置10中的程序操作的诸如中央处理单元(CPU)的程序控制设备。
存储部分14是存储元件,诸如只读存储器(ROM)或随机存取存储器(RAM),或者是硬盘驱动器等。存储部分14存储将由处理器12执行的程序等。
操作部分16是诸如键盘、鼠标、游戏机的控制器的用户界面。操作部分16接收来自用户的操作输入并将指示操作输入什么的信号输出到处理器12。
显示部分18是诸如液晶显示器的显示设备,并且根据来自处理器12的指令显示各种类型的图像。
应当注意的是,信息处理装置10可以包括诸如网卡的通信接口、用于读取诸如数字多功能光盘(DVD-ROM)或蓝光(注册商标)盘的光盘的光盘驱动器、以及通用串行总线(USB)端口等。
根据本实施例的信息处理装置10执行识别在与深度信息相关联的图像中表示的对象是什么的处理。
这里,作为识别目标的上述图像可以是与深度图像相关联的捕获图像。捕获图像由立体相机、带有红外测距传感器的相机等捕获。
此外,例如,可以基于通过从多个方向捕获被摄体而获得的捕获图像生成与捕获所述捕获图像时相机的位置、定向和视角相对应的深度信息。
此外,在本实施例中,使用诸如二维卷积神经网络(二维CNN)或三维卷积神经网络(三维CNN)的机器学习模型来识别在上述图像中表示的对象是什么。
图2是示出如何在虚拟空间20中布置由上述机器学习模型学习的对象的示例的图。在图2中,将茶壶22示出为要由机器学习模型学习的对象的示例。茶壶22由其中位置和体素值相互对应的体素数据表示。这里,表示对象的三维数据的表示格式不限于体素数据。例如,对象可以由线框、多边形、表面、实体等表示。此外,例如,对象可以由点云(点组)表示。此外,表示对象的三维数据可以包括关于与三维空间中的位置相关联的颜色的信息,诸如各个位置处的灰度渐变值或RGB值。
此外,在本实施例中,生成训练数据。每个训练数据对应于当从图2所示的虚拟空间20中的多个相互不同的位置中的对应一个看到对象时可见的部分。例如,这里生成的训练数据分别对应于由图2所示的各个虚拟相机24捕获的对象的图像中的对应一个中表示的部分。
图2以示例的方式示出了三个虚拟相机24(24a、24b和24c)。这里,例如,虚拟相机24a可以生成表示从左侧观看的茶壶22的外观的图像。此外,例如,虚拟相机24b可以生成表示从前面观看的茶壶22的外观的图像。此外,例如,虚拟相机24c可以生成表示从后面观看的茶壶22的外观的图像。图3A示出了第一部分26a,该部分表示在由虚拟相机24a捕获的对象的图像中。图3B示出了第二部分26b,该部分表示在由虚拟相机24b捕获的对象的图像中。此外,图3C示出了第三部分26c,该部分表示在由虚拟相机24c捕获的对象的图像中。
此外,在本实施例中,将对应于第一部分26a、第二部分26b和第三部分26c中的每一个的训练数据用作对象的训练数据(例如,本文中的茶壶22)来训练机器学习模型。例如,可以将包括三维数据(诸如表示第一部分26a、第二部分26b和第三部分26c的体素数据)的训练数据用作输入数据、并且包括对象的名称(例如,“茶壶”)作为教学数据来训练机器学习模型。
这里,与表示对象的数据的表示格式一样,训练数据的表示格式不限于其中位置和体素值相互对应的体素数据。例如,训练数据可以由诸如线框、多边形、表面、实体等的三维数据来表示。此外,例如,训练数据可以由点组(点云)表示。此外,训练数据可以包括关于与三维空间中的位置相关联的颜色的信息,诸如各个位置处的灰度渐变值或RGB值。
此外,如下文所述,例如,可以将与深度信息相关联的二维图像28用作训练数据。每个二维图像28表示从虚拟相机24中的对应一个观看的对象的外观。这里,用作训练数据的每个二维图像28可以包括关于每个像素的颜色的信息,诸如灰度渐变值或RGB值。
图4A至4C分别示出了表示从虚拟相机24a观看的对象的外观的第一二维图像28a、表示从虚拟相机24b观看的对象的外观的第二二维图像28b,以及表示从虚拟相机24c观看的对象的外观的第三二维图像28c。
此外,例如,第一深度图像可以与第一二维图像28a一起生成。第一深度图像对应于第一二维图像28a中包括的每个像素,并且表示从虚拟相机24a到被摄体的距离的分布。此外,可以将与第一深度图像相关联的第一二维图像28a用作训练数据来训练机器学习模型。这里,例如,可以将包括第一二维图像28a和第一深度图像的训练数据用作输入数据、并且包括对象名称作为教学数据来训练机器学习模型。
此外,例如,第二深度图像可以与第二二维图像28b一起生成。第二深度图像对应于第二二维图像28b中包括的每个像素,并且表示从虚拟相机24b到被摄体的距离的分布。此外,可以将与第二深度图像相关联的第二二维图像28b用作训练数据来训练机器学习模型。这里,例如,可以将包括第二二维图像28b和第二深度图像的训练数据用作输入数据、并且包括对象名称作为教学数据来训练机器学习模型。
此外,例如,第三深度图像可以与第三二维图像28c一起生成。第三深度图像对应于第三二维图像28c中包括的每个像素,并且表示从虚拟相机24c到被摄体的距离的分布。此外,可以将与第三深度图像相关联的第三二维图像28c用作训练数据来训练机器学习模型。这里,例如,可以将包括第三二维图像28c和第三深度图像的训练数据用作输入数据、并且包括对象名称作为教学数据来训练机器学习模型。
此外,在本实施例中,例如,当已将识别目标数据输入以上述方式为多个对象训练的训练机器学习模型时,基于输出识别在与深度信息相关联的图像中表示的对象是什么。这里,图像可以包括关于每个像素的颜色的信息,诸如灰度渐变值或RGB值。
这里,例如,在将诸如体素数据的三维数据用作训练数据进行训练的情况下,可以将基于与深度信息相关联的图像生成的三维数据用作要输入到训练的机器学习模型中的识别目标数据。这里,用作识别目标数据的三维数据可以包括关于与三维空间中的位置相关联的颜色的信息,诸如各个位置处的灰度渐变值或RGB值。
此外,例如,在将与深度信息相关联的图像(诸如二维图像和深度图像)用作训练数据进行训练的情况下,可以将与深度信息本身相关联的图像用作要输入到训练的机器学习模型中的识别目标数据。
这里,在本实施例中,如上所述,为一个对象使用多个训练数据进行训练。这里,例如,在识别目标数据与对应于茶壶22的多个训练数据中的任何一个类似的情况下,在与深度信息相关联的图像中表示的对象可以被识别为茶壶22。
应当注意的是,尽管图3A至3C、以及图4A至4C示出了为一个对象生成三个训练数据的示例,其中可以为一个对象生成更多或更少的训练数据。此外,例如,可以生成对应于整个方向中的每一个的训练数据(例如,24个训练数据),方向不仅包括从侧面、前面和后面观看的方向,还包括从顶面和底面、以及与从各个方向观看对象时可见的各个部分相对应的方向。
此外,例如,在对称的情况下,可以省略一些训练数据的生成。具体地,在双边对称对象的情况下,例如,可以生成仅对应于从左侧观看时可见的部分或从右侧观看时可见的部分的训练数据。此外,例如,在生成多个类似训练数据的情况下,可以仅使用这些训练数据中的一个来训练机器学习模型。
与深度信息相关联的图像对应的识别目标数据中表示的形状与对象的完整三维形状之间存在大的差异。因此,例如,使用将表示图2中所示对象的完整三维形状的三维数据用作训练数据训练的机器学习模型,偶尔导致无法准确地识别在与深度信息相关联的图像中表示的对象是什么。
鉴于上述情况,在本实施例中,如上所述,使用每个表示对象的相互不同部分的训练数据训练的机器学习模型被用于识别在与深度信息相关联的图像中表示的对象是什么。以这种方式,根据本实施例,能够准确地识别在与深度信息相关联的图像中表示的对象是什么。
在下文中,将进一步描述根据本实施例的信息处理装置10的功能和由信息处理装置10执行的处理。
图5是示出根据本实施例的信息处理装置10中实现的功能的示例的功能框图。应当注意的是,根据本实施例的信息处理装置10不需要包括图5所示的所有功能,并且可以包括图5所示功能以外的功能。
如图5所示,例如,信息处理装置10在功能上包括机器学习模型30、对象数据获取部分32、训练数据生成部分34、训练部分36、图像获取部分38、识别目标数据生成部分40和识别部分42。上述组件主要由处理器12和存储部分14实现。根据本实施例的信息处理装置10具有训练机器学习模型30的训练装置、和执行识别与深度信息相关联的图像中表示的对象是什么的处理的识别装置二者的作用。机器学习模型30、对象数据获取部分32、训练数据生成部分34和训练部分36对应于训练装置的功能。机器学习模型30、图像获取部分38、识别目标数据生成部分40和识别部分42对应于识别装置的功能。
上述功能可以通过使处理器12执行包括与上述功能相对应的指令、并且安装在作为计算机的信息处理装置10中的程序来实现。例如,该程序可通过计算机可读信息存储介质(诸如光盘、磁盘、磁带、磁光盘或闪存、因特网等)提供给信息处理装置10。
在本实施例中,机器学习模型30例如是诸如二维卷积神经网络(二维CNN)或三维卷积神经网络(三维CNN)的机器学习模型。
在本实施例中,对象数据获取部分32获取例如要用作训练数据的基础、并表示如图2所示的对象的三维数据。
在本实施例中,例如,训练数据生成部分34基于由对象数据获取部分32获取的三维数据,生成多个表示对象的相互不同部分的训练数据。这里,对于对象被布置在其中的虚拟空间20中的多个相互不同的位置中的每一个,训练数据生成部分34可以生成表示对象的部分的训练数据,所述部分例如从位置中的对应一个处可见。
在本实施例中,例如,训练部分36将由训练数据生成部分34生成的训练数据用作对象的训练数据,来训练机器学习模型30。
在本实施例中,例如,图像获取部分38获取与深度信息相关联的图像。该图像是用于识别其中所表示的对象是什么的目标。
在本实施例中,例如,识别目标数据生成部分40基于由图像获取部分38获取的与深度信息相关联的图像,生成要输入到训练的机器学习模型30中的识别目标数据。
在本实施例中,例如,当将由图像获取部分38获取的与深度信息相关联的图像对应的识别目标数据输入到训练模型中时,识别部分42基于输出来识别图像中表示的对象是什么。
这里,例如,在机器学习模型30是三维CNN的情况下,训练数据生成部分34可以生成包括三维数据(诸如体素数据、点云、线框、多边形、表面或实体)的训练数据。此外,在这种情况下,训练部分36可以将生成的三维数据用作训练数据来训练三维CNN。
此外,在这种情况下,识别目标数据生成部分40可以基于由图像获取部分38获取的与深度信息相关联的图像生成诸如体素数据、线框、多边形、表面或实体的三维数据。此外,当包括三维数据的识别目标数据被输入到训练的三维CNN中时,识别部分42可以基于输出来识别由图像获取部分38获取的与深度信息相关联的图像中表示的对象是什么。
此外,例如,在机器学习模型30是二维CNN的情况下,训练数据生成部分34可以生成包括与深度信息相关联的二维图像(例如,与深度图像相关联的二维图像)的训练数据。此外,在这种情况下,训练部分36可以将生成的图像用作训练数据来训练二维CNN。
此外,在这种情况下,当将由图像获取部分38获取的与深度信息相关联的图像输入到训练的二维CNN中时,识别部分42可以基于输出来识别在由图像获取部分38获取的与深度信息相关联的图像中表示的对象是什么。在这种情况下,识别目标数据不是由识别目标数据生成部分40生成的,并且由图像获取部分38获取的与深度信息本身相关联的图像被用作与该图像相对应的识别目标数据。也就是说,在这种情况下,将与深度信息本身相关联的图像输入到训练的机器学习模型30中,作为与图像相对应的识别目标数据。
这里,将参照图6所示的流程图来描述由根据本实施例的信息处理装置10执行的训练处理的流程的示例。
首先,对象数据获取部分32获取用作训练数据的基础的三维数据(S101)。
然后,训练数据生成部分34基于在S101所示的处理中获取的三维数据,生成对应于三维数据中表示的对象的多个训练数据(S102)。这里,如上所述,多个训练数据中的每一个表示在S101所示的处理中获取的三维数据中表示的对象的相互不同的部分。
然后,训练部分36将在S102所示的处理中生成的训练数据用作在S101所示的处理中获取的三维数据中表示的对象的训练数据,来训练机器学习模型30(S103)。
这里,可以使用表示这些对象的三维数据对大量对象执行S101到S103中所示的训练。
接下来,将参照图7所示的流程图来描述由根据本实施例的信息处理装置10执行的识别处理的流程的示例。
首先,图像获取部分38获取作为识别目标的与深度信息相关联的图像(S201)。
然后,识别目标数据生成部分40基于在S201所示的处理中获取的图像生成识别目标数据(S202)。
然后,当将在S202所示的处理中生成的识别目标数据输入到训练的机器学习模型30中时,识别部分42基于输出识别在S201所示的处理中获取的图像中表示的对象(S203)。
这里,如上所述,不必执行S202中所示的处理。此外,在这种情况下,在S203所示的过程中,当将在S201所示的处理中获得的与深度信息相关联的图像输入到训练的机器学习模型30中作为与图像相对应的识别目标数据时,可以基于输出来识别图像中表示的对象。
应当注意的是,本发明不限于上述实施例。
此外,以示例的方式示出了上述具体字符串和数值、以及附图中的具体字符串和数值,并且字符串和数值不限于这些字符串和数值。

Claims (8)

1.一种用于训练机器学习模型的训练装置,所述机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理,所述训练装置包括:
三维数据获取部分,其被配置为获取表示对象的三维数据;
训练数据生成部分,其被配置为基于所述三维数据生成多个训练数据,所述多个训练数据的每个表示所述对象的相互不同的部分;以及
训练部分,其被配置为将生成的训练数据用作所述对象的所述训练数据来训练所述机器学习模型,
其中,所述训练数据生成部分被配置为:为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个,生成表示所述对象的部分的训练数据,所述部分从所述位置的对应一个处可见。
2.根据权利要求1所述的训练装置,其中,
所述训练装置被配置为训练所述机器学习模型,其中,将基于与深度信息相关联的图像生成的三维数据输入,作为识别目标数据;
所述训练数据生成部分被配置为生成包括三维数据的所述训练数据;并且
所述训练部分被配置为将所述生成的三维数据用作所述对象的所述训练数据来训练所述机器学习模型。
3.根据权利要求1所述的训练装置,其中,
所述训练装置被配置为训练所述机器学习模型,其中,将与深度信息相关联的图像输入,作为识别目标数据;
所述训练数据生成部分被配置为生成包括与深度信息相关联的图像的所述训练数据;并且
所述训练部分被配置为将与所述深度信息相关联的所述生成图像用作所述对象的所述训练数据来训练所述机器学习模型。
4.一种识别装置,其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理,所述识别装置包括:
训练模型,其已经将基于表示对象的三维数据生成的训练数据学习为所述对象的所述训练数据,所述训练数据的每个表示所述对象的相互不同的部分,其中,为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个,生成表示所述对象的部分的训练数据,所述部分从所述位置的对应一个处可见;以及
识别部分,其被配置为基于将与所述图像相对应的识别目标数据输入所述训练模型时的输出,来识别与所述深度信息相关联的所述图像中表示的所述对象是什么。
5.一种用于训练机器学习模型的训练方法,所述机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理,所述训练方法包括:
获取表示对象的三维数据的步骤;
基于所述三维数据生成多个训练数据的步骤,所述多个训练数据的每个表示所述对象的相互不同的部分,其中,为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个,生成表示所述对象的部分的训练数据,所述部分从所述位置的对应一个处可见;以及
将所述生成的训练数据用作所述对象的所述训练数据来训练所述机器学习模型的步骤。
6.一种识别方法,其用于执行识别与深度信息相关联的图像中表示的对象是什么的处理,所述识别方法包括:
将与所述图像相对应的识别目标数据输入到训练模型的步骤,所述训练模型已经将基于表示对象的三维数据生成的训练数据学习为所述对象的所述训练数据,所述训练数据的每个表示所述对象的相互不同的部分,其中,为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个,生成表示所述对象的部分的训练数据,所述部分从所述位置的对应一个处可见;以及
基于将所述识别目标数据输入所述训练模型时的输出,来识别与所述深度信息相关联的所述图像中表示的所述对象是什么的步骤。
7.一种存储用于训练机器学习模型的程序的计算机可读信息存储介质,所述机器学习模型用于识别与深度信息相关联的图像中表示的对象是什么的处理,所述程序使计算机执行:
获取表示对象的三维数据的步骤;
基于所述三维数据生成多个训练数据的步骤,所述多个训练数据的每个表示所述对象的相互不同的部分,其中,为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个,生成表示所述对象的部分的训练数据,所述部分从所述位置的对应一个处可见;以及
将所述生成的训练数据用作所述对象的所述训练数据来训练所述机器学习模型的步骤。
8.一种存储程序的计算机可读信息存储介质,所述程序用于执行识别与深度信息相关联的图像中表示的对象是什么的处理,所述程序使计算机执行:
将与所述图像相对应的识别目标数据输入到训练模型的步骤,所述训练模型已经将基于表示对象的三维数据生成的训练数据学习为所述对象的所述训练数据,所述训练数据的每个表示所述对象的相互不同的部分,其中,为其中布置所述对象的虚拟空间中的多个相互不同的位置中的每一个,生成表示所述对象的部分的训练数据,所述部分从所述位置的对应一个处可见;以及
基于将所述识别目标数据输入所述训练模型时的输出,来识别与所述深度信息相关联的所述图像中表示的所述对象是什么的步骤。
CN201780093425.3A 2017-07-28 2017-07-28 训练装置、识别装置、训练方法、识别方法和程序 Active CN110945537B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/027419 WO2019021456A1 (ja) 2017-07-28 2017-07-28 学習装置、認識装置、学習方法、認識方法及びプログラム

Publications (2)

Publication Number Publication Date
CN110945537A CN110945537A (zh) 2020-03-31
CN110945537B true CN110945537B (zh) 2023-09-22

Family

ID=65040520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780093425.3A Active CN110945537B (zh) 2017-07-28 2017-07-28 训练装置、识别装置、训练方法、识别方法和程序

Country Status (4)

Country Link
US (1) US11681910B2 (zh)
JP (1) JP6911123B2 (zh)
CN (1) CN110945537B (zh)
WO (1) WO2019021456A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7267068B2 (ja) * 2019-03-29 2023-05-01 三井情報株式会社 学習済みモデル生成装置、プログラム及び学習済みモデル生成システム
JP6719168B1 (ja) * 2019-09-03 2020-07-08 裕樹 有光 教師データとしてのデプス画像にラベルを付与するプログラム、装置及び方法
CN112613551A (zh) * 2020-12-17 2021-04-06 东风汽车有限公司 汽车零部件识别方法、存储介质及系统
CN113240637B (zh) * 2021-05-11 2023-03-24 杭州钱塘智慧城投资开发有限公司 一种基于机器学习的墙面平整度信息化检测方法和系统
WO2023286847A1 (ja) * 2021-07-15 2023-01-19 京セラ株式会社 認識モデル生成方法及び認識モデル生成装置
US20230131418A1 (en) * 2021-10-22 2023-04-27 Samsung Electronics Co., Ltd. Two-dimensional (2d) feature database generation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003346152A (ja) * 2002-05-24 2003-12-05 Sony Corp 物体認識装置及び方法並びにロボット装置
CN103890752A (zh) * 2012-01-11 2014-06-25 三星电子株式会社 对象识别设备、分类树学习设备、对象识别设备的操作方法和分类树学习设备的操作方法
CN106169082A (zh) * 2015-05-21 2016-11-30 三菱电机株式会社 训练分类器以检测目标环境图像中的对象的方法和系统
CN106228177A (zh) * 2016-06-30 2016-12-14 浙江大学 基于卷积神经网络的日常生活物体图像识别方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5249569B2 (zh) 1973-05-22 1977-12-17
DE8900142U1 (zh) * 1989-01-07 1990-05-10 Robert Bosch Gmbh, 7000 Stuttgart, De
JP2969202B2 (ja) 1991-05-08 1999-11-02 日本電信電話株式会社 ニューラルネットワークによる3次元物体の認識方法
EP2750382B1 (en) * 2011-08-26 2017-06-28 Panasonic Intellectual Property Management Co., Ltd. Driving assistance apparatus
WO2015088484A1 (en) * 2013-12-09 2015-06-18 Empire Technology Development, Llc Localized audio source extraction from video recordings
US10289962B2 (en) * 2014-06-06 2019-05-14 Google Llc Training distilled machine learning models
US10096151B2 (en) * 2015-07-07 2018-10-09 Varian Medical Systems International Ag Methods and systems for three-dimensional visualization of deviation of volumetric structures with colored surface structures
EP3179407B1 (en) * 2015-12-07 2022-07-13 Dassault Systèmes Recognition of a 3d modeled object from a 2d image
US20180136332A1 (en) * 2016-11-15 2018-05-17 Wheego Electric Cars, Inc. Method and system to annotate objects and determine distances to objects in an image
KR20180057096A (ko) * 2016-11-21 2018-05-30 삼성전자주식회사 표정 인식과 트레이닝을 수행하는 방법 및 장치
US10417781B1 (en) * 2016-12-30 2019-09-17 X Development Llc Automated data capture
US20180189228A1 (en) * 2017-01-04 2018-07-05 Qualcomm Incorporated Guided machine-learning training using a third party cloud-based system
CN117709426A (zh) * 2017-02-24 2024-03-15 渊慧科技有限公司 训练机器学习模型的方法、系统和计算机存储介质
WO2018205274A1 (zh) * 2017-05-12 2018-11-15 深圳迈瑞生物医疗电子股份有限公司 一种超声设备及其三维超声图像的显示变换方法、系统
US10169874B2 (en) * 2017-05-30 2019-01-01 International Business Machines Corporation Surface-based object identification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003346152A (ja) * 2002-05-24 2003-12-05 Sony Corp 物体認識装置及び方法並びにロボット装置
CN103890752A (zh) * 2012-01-11 2014-06-25 三星电子株式会社 对象识别设备、分类树学习设备、对象识别设备的操作方法和分类树学习设备的操作方法
CN106169082A (zh) * 2015-05-21 2016-11-30 三菱电机株式会社 训练分类器以检测目标环境图像中的对象的方法和系统
CN106228177A (zh) * 2016-06-30 2016-12-14 浙江大学 基于卷积神经网络的日常生活物体图像识别方法

Also Published As

Publication number Publication date
CN110945537A (zh) 2020-03-31
US20200193632A1 (en) 2020-06-18
JP6911123B2 (ja) 2021-07-28
WO2019021456A1 (ja) 2019-01-31
JPWO2019021456A1 (ja) 2019-12-12
US11681910B2 (en) 2023-06-20

Similar Documents

Publication Publication Date Title
CN110945537B (zh) 训练装置、识别装置、训练方法、识别方法和程序
CA3035298C (en) Predicting depth from image data using a statistical model
CN109859305B (zh) 基于多角度二维人脸的三维人脸建模、识别方法及装置
EP2182469B1 (en) System and method for sensing facial gesture
EP3644277A1 (en) Image processing system, image processing method, and program
CN108491848B (zh) 基于深度信息的图像显著性检测方法和装置
CN109117755B (zh) 一种人脸活体检测方法、系统和设备
EP3343506A1 (en) Method and device for joint segmentation and 3d reconstruction of a scene
CN108463823B (zh) 一种用户头发模型的重建方法、装置及终端
CN108734078B (zh) 图像处理方法、装置、电子设备、存储介质及程序
US20180189955A1 (en) Augumented reality (ar) method and system enhanced through efficient edge detection of image objects
US11403560B2 (en) Training apparatus, image recognition apparatus, training method, and program
CN109948441B (zh) 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
CN108377374A (zh) 用于产生与图像相关的深度信息的方法和系统
CN112633084A (zh) 人脸框确定方法、装置、终端设备及存储介质
EP3859673A1 (en) Model generation
KR101478709B1 (ko) Rgb-d 영상 특징점 추출 및 특징 기술자 생성 방법 및 장치
US11189053B2 (en) Information processing apparatus, method of controlling information processing apparatus, and non-transitory computer-readable storage medium
CN108764248B (zh) 图像特征点的提取方法和装置
JP6785181B2 (ja) 物体認識装置、物体認識システム、及び物体認識方法
CN111091031A (zh) 目标对象选取方法和人脸解锁方法
JP2012048326A (ja) 画像処理装置及びプログラム
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
CN113688737A (zh) 人脸图像处理方法、装置、电子设备、存储介质及程序
CN107451560A (zh) 用户表情识别方法、装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant