CN109284661A

CN109284661A - 学习数据生成装置、学习数据生成方法和程序

Info

Publication number: CN109284661A
Application number: CN201810756956.2A
Authority: CN
Inventors: 谷川彻; 庄田幸惠; 芋本征矢
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2017-07-21
Filing date: 2018-07-11
Publication date: 2019-01-29
Also published as: EP3432216A1; US20190026558A1; JP2019023858A

Abstract

本公开涉及学习数据生成装置、学习数据生成方法和程序，提供使得利用CG数据来进行注释处理并构建学习数据的处理简单化的技术。学习数据生成装置(100)根据包含各种模型的CG数据的场景数据，生成学习数据生成用场景数据。此时，模型设定部(101)从场景数据中删除特定物体模型以外的模型，将特定物体模型设为特定颜色。物体区域设定部(103)在渲染部(102)根据学习数据生成用场景数据而生成的学习数据用图像中，设定特定物体模型的特定物体区域。将渲染部(102)生成的场景数据用图像与特定物体区域的信息关联起来，并作为学习数据保存于第二存储部(106)。

Description

学习数据生成装置、学习数据生成方法和程序

技术领域

本公开涉及学习数据生成装置、学习数据生成方法和程序。

背景技术

在用于机器学习的学习数据的构建等中，为了识别图像数据，对图像数据赋予标签等注释(Annotation)。例如，专利文献1中公开了识别物体的形状和动作的物体识别装置。物体识别装置制作对象物的3DCG(Three-dimensional computer graphics：三维计算机图形)图像，制作将3DCG图像投影于2维平面而得到的2D图像，并将该2D图像作为对象物的形状的学习图像。

现有技术文献

专利文献1：日本特开2010-211732号公报

发明内容

发明要解决的问题

例如，在街道那样的复杂3DCG数据中，为了根据街道上包含的人、车辆等模型的配置位置以及模型间的相对位置关系来计算从某视点观察街道的各模型的观察方法，计算量会非常大。在使用这样的3DCG数据向对象物赋予注释来构建学习数据的情况下，学习数据的构建需要大量的计算。

本公开提供学习数据生成装置、学习数据生成方法和程序，其实现使用CG数据来进行注释处理并构建学习数据的处理的简单化。

用于解决问题的手段

本公开的非限定性且例示性的一个方式的学习数据生成装置，使用包含各种模型的CG数据来生成学习数据，所述学习数据生成装置具有：第一存储部，其保存所述CG数据中的场景数据，所述场景数据包含所述模型中的摄像头模型所映现的景象的信息；模型设定部，其进行所述场景数据内所包含的所述模型的设定，并根据所述场景数据来生成学习数据生成用场景数据；图像生成部，其根据所述场景数据生成场景数据用图像，根据所述学习数据生成用场景数据生成学习数据用图像；物体区域设定部，其在所述学习数据用图像中，设定所述模型中的物体模型涉及的作为特定物体模型的区域的特定物体区域；以及第二存储部，其将所述场景数据用图像和所述特定物体区域的信息关联起来，并作为学习数据进行保存，所述模型设定部在生成所述学习数据生成用场景数据时，从所述物体模型中选择所述特定物体模型，将所述特定物体模型以外的所述模型从所述场景数据中删除，将所述特定物体模型设为特定颜色。

本公开非限定性且例示性的一个方式的学习数据生成方法，根据包含各种模型的CG数据来生成学习数据，包括：取得所述CG数据中的包含所述模型中的摄像头模型所映现的景象的信息的场景数据，根据所述场景数据生成场景数据用图像，并根据所述场景数据来生成学习数据生成用场景数据，根据所述学习数据生成用场景数据生成学习数据用图像，在所述学习数据用图像中，设定所述模型中的物体模型涉及的作为特定物体模型的区域的特定物体区域，生成将所述场景数据用图像和所述特定物体区域的信息关联起来包含的学习数据，在所述学习数据生成用场景数据的生成中，从所述物体模型中选择所述特定物体模型，将所述特定物体模型以外的所述模型从所述场景数据中删除，将所述特定物体模型设为特定颜色。

本公开非限定性且例示性的一个方式的程序，其使计算机执行如下处理：在包含各种模型的CG数据中，取得包含所述模型中的摄像头模型所映现的景象的信息的场景数据，根据所述场景数据生成场景数据用图像，并根据所述场景数据来生成学习数据生成用场景数据，根据所述学习数据生成用场景数据生成学习数据用图像，在所述学习数据用图像中，设定所述模型中的物体模型涉及的作为特定物体模型的区域的特定物体区域，生成将所述场景数据用图像和所述特定物体区域的信息关联起来包含的学习数据，在所述学习数据生成用场景数据的生成中，从所述物体模型中选择所述特定物体模型，将所述特定物体模型以外的所述模型从所述场景数据中删除，将所述特定物体模型设为特定颜色。

此外，上述概括性或具体的方式可通过系统、装置、方法、集成电路、计算机程序或计算机可读取的记录盘等记录介质来实现，也可通过系统、装置、方法、集成电路、计算机程序和记录介质的任意组合来实现。计算机可读取的记录介质例如包含CD-ROM(CompactDisc-Read OnlyMemory：只读光盘)等非易失性的记录介质。

发明效果

根据本公开的学习数据生成装置等，能够简化使用CG数据来进行注释处理并构建学习数据的处理。

附图说明

图1是示出具有实施方式的学习数据生成装置的图像识别系统的概要结构的一例的框图。

图2是示出图1的学习数据生成装置和对象物识别装置的应用例子的图。

图3是示出神经网络的模型的一例的图。

图4是示出实施方式的学习数据生成装置构建识别模型的处理流程的一例的流程图。

图5是示出实施方式的学习数据生成装置生成学习数据的处理流程的一例的流程图。

图6是示出实施方式的学习数据生成装置的渲染部根据场景数据而生成的场景图像的一例的示意图。

图7A是对象模型A的注释用图像的例子。

图7B是对象模型B的注释用图像的例子。

图7C是对象模型C的注释用图像的例子。

图7D是对象模型D的注释用图像的例子。

图7E是对象模型E的注释用图像的例子。

图8A是示出对图7A的注释用图像的对象模型A设定的注释框的例子的图。

图8B是示出对图7B的注释用图像的对象模型B设定的注释框的例子的图。

图8C是示出对图7C的注释用图像的对象模型C设定的注释框的例子的图。

图8D是示出对图7D的注释用图像的对象模型D设定的注释框的例子的图。

图8E是示出对图7E的注释用图像的对象模型E设定的注释框的例子的图。

图9是对图6的场景图像重叠对象模型的注释框而得到的图。

图10是示出第二存储部中保存的注释信息的例子的图。

图11是示出实施方式的对象物识别装置从图像中识别对象物的处理流程的一例的流程图。

图12是包含多个对象模型的注释用图像的例子。

图13是将包含图12中的对象模型B～D的区域放大的图。

图14是将图13中的对象模型C放大的图。

标号说明

10 图像识别系统

100 学习数据生成装置

101 模型设定部

102 渲染部(图像生成部)

103 物体区域设定部

105 第一存储部

106 第二存储部

具体实施方式

[发明人的见解]

本公开的发明人即本发明人，为了提高在图像中识别和检测人物和物体等对象物的精度，研究了使用深度学习(Deep Learning)等用到了神经网络的技术。在深度学习中的对象物识别中，需要大量的学习用图像数据。进而，在学习用图像数据中，对象物被赋予标签，即被赋予包含对象物的内容、位置和区域等的信息来作为注释信息。赋予注释信息也被称作赋予注释。本发明人认为，今后，在图像中，不局限于对象物的识别和检测，也要求识别对象物的动作乃至预测对象物的动作。作为上述对象物的动作的例子，可举出：在汽车自动驾驶时，根据摄像头的图像识别或预测行人突然出现等周围的对象物的危险动作；在监视摄像头中，根据摄像头的图像来识别或预测盗窃等犯罪动作等。但是，这样的例子是平常并不会发生的罕见情况。

当前，学习用图像数据的构建通常使用由摄像头实际拍摄到的图像来进行。上述那样罕见情况很少包含在实际拍摄到的图像中，因此，对于这样的情况，难以收集足够的学习用图像数据，收集需要长期间。因此，本发明人对使用CG数据来生成罕见情况的学习用图像数据的情况进行了研究。

例如，在生成用于汽车自动驾驶的学习用图像数据的情况下，会用到街道的3DCG数据那样的、表示汽车行驶环境的3DCG数据。在上述3DCG数据中，以汽车的驾驶席为视点的摄像头所映现的图像被用于学习用图像数据。进而，对所生成的图像中映现的人和车辆等对象物赋予注释。关于根据对象物的配置位置和对象物间的相对位置关系来计算上述摄像头所映现的对象物的观察方法，在“背景技术”的章节中举出的专利文献1所记载的技术中并没有应对，该计算是困难的，需要非常多的计算时间。因此，本发明人为了简化使用3DCG数据来进行注释处理并构建学习数据的处理，考虑了以下所示的技术。

本公开的一个方式的学习数据生成装置使用包含多个模型的CG数据来生成学习数据，所述学习数据生成装置具有：第一存储部，其保存所述CG数据中的场景数据，所述场景数据包含与所述多个模型相关的一个以上的参数；第1图像生成部，其使用所述场景数据所包含的所述一个以上的参数，生成场景数据用图像；模型设定部，其从所述多个模型所包含的多个物体模型中选择特定物体模型，将所述特定物体模型以外的模型从所述场景数据中删除，以将所述特定物体模型设为特定颜色的方式进行所述一个以上的参数的设定，根据所述场景数据来生成学习数据生成用场景数据；图像生成部，其使用所述学习数据生成用场景数据所包含的、所设定的所述一个以上的参数，生成学习数据用图像；物体区域设定部，其在所述学习数据用图像中，设定作为所述特定物体模型的区域的特定物体区域；以及第二存储部，其将所述场景数据用图像和所述特定物体区域的信息关联起来，并作为学习数据进行保存。

根据上述方式，学习数据生成用场景数据是将特定物体模型以外的模型从场景数据中删除而生成的。生成这样的学习数据生成用场景数据的处理是简单的，能够将处理量抑制得较低。此外，学习数据生成用场景数据仅包含被设为特定颜色的特定物体模型来作为模型，故而能够将数据量抑制得较低。图像生成部根据这样的学习数据生成用场景数据来生成学习数据用图像的处理是简单的，能够将处理量抑制得较低。另外，学习数据用图像仅包含特定物体模型作为被拍摄对象。因此，物体区域设定部确定特定物体区域并进行设定的处理是简单的，能够将处理量抑制得较低。这样，根据场景数据来设定特定物体区域的一系列注释处理是简单的，且能够将处理量抑制得较低。进而，特定物体区域的信息被应用于学习数据。因此，能够使得学习数据生成装置用于使用CG数据来进行注释处理并构建学习数据的处理变得简单。

在本公开的一个方式的学习数据生成装置中，可以是，所述模型设定部选择多个所述特定物体模型，所述模型设定部对所述多个特定物体模型分别生成所述学习数据生成用场景数据。

根据上述方式，针对场景数据所包含的多个特定物体模型，分别生成学习数据生成用场景数据。即，按每个特定物体模型生成学习数据生成用场景数据。因此，即使在场景数据包含多个特定物体模型的情况下，也能够使用根据各学习数据生成用场景数据生成的学习数据用图像来设定各特定物体模型的特定物体区域。

在本公开的一个方式的学习数据生成装置中，可以是，所述模型设定部选择多个所述特定物体模型，将所述多个特定物体模型以外的所述模型从所述场景数据中删除，对不同的所述特定物体模型应用不同的特定颜色，所述图像生成部使用包含所述多个特定物体模型的所述学习数据生成用场景数据来生成所述学习数据用图像，在所述学习数据用图像中能看到在一个所述特定物体模型上重叠有另外的所述特定物体模型的情况下，所述物体区域设定部将所述一个特定物体模型中的可见区域设定为所述特定物体区域。

根据上述方式，生成包含多个特定物体模型的学习数据生成用场景数据。此外，在根据学习数据生成用场景数据生成的学习数据用图像上，确定出各特定物体模型的特定物体区域。此时，在不同的特定物体模型之间，特定物体模型的特定颜色不同，故而容易特定各特定物体区域。例如，在学习数据用图像上彼此相互重叠的特定物体模型的特定物体区域，能够基于特定颜色的不同而容易地设定。关于这样的特定物体区域，能够将特定物体模型中的未被其他特定物体模型盖住而可见的区域作为对象。即，关于特定物体区域，能够将特定物体模型的一部分区域作为对象。由此，使用了特定物体区域的学习数据可将特定物体模型的一部分图像作为对象。因此，使用这样的学习数据而构建的识别模型能够提高从图像中检测对象物的精度。

在本公开的一个方式的学习数据生成装置中，也可以是，所述物体区域设定部在所述学习数据用图像中，形成包围所述特定物体区域的注释框，将所述注释框的信息作为所述特定物体区域的信息保存于所述第二存储部。

根据上述方式，特定物体区域由注释框决定，故而容易设定特定物体区域。例如，通过决定注释框的形状、大小和位置，可决定特定物体区域。这样的注释框的信息是容易作为深度学习等机器学习的学习数据涉及的特定物体区域的输入数据来对待的数据。

在本公开的一个方式的学习数据生成装置中，也可以是，所述模型设定部变更所述场景数据所包含的所述多个模型中的至少一个模型，所述图像生成部还根据所述变更后的所述场景数据，生成与所述特定物体区域的信息关联的所述场景数据用图像。

根据上述方式，图像生成部根据场景数据而生成的场景数据用图像可包含根据场景数据和变更后的场景数据而生成的图像。由此，在学习数据中，能够增加彼此关联的场景数据用图像和特定物体区域的信息的组合。因此，学习数据的多样性增加，使用这样的学习数据而构建的识别模型能够提高从图像中检测对象物的精度。

在本公开的一个方式的学习数据生成装置中，也可以是，所述物体区域设定部在所述学习数据用图像中，形成包围所述特定物体区域的注释框，将所述注释框的信息作为所述特定物体区域的信息，所述模型设定部基于所述注释框的信息，变更所述场景数据所包含的所述多个模型中的至少一个模型。

根据上述方式，在场景数据变更时，基于注释框的信息，特定物体模型接受变更，故而针对变更后的特定物体模型的注释框的信息的再次生成变得简单或不再需要。因此，能够简化场景数据的变更处理。

在本公开的一个方式的学习数据生成装置中，也可以是，所述模型设定部变更所述场景数据的所述特定物体模型，所述图像生成部基于被变更的所述特定物体模型的所述特定物体区域的信息，生成变更后的所述特定物体模型及其周边的变更后图像，所述物体区域设定部基于所述变更后图像，设定所述变更后的特定物体模型的所述特定物体区域。

根据上述方式，随着特定物体模型的变更，会再次生成注释框的信息。由此，特定物体模型变更的自由度增加。因此，在学习数据中，特定物体模型的特定物体区域的多样性增加。

在本公开的一个方式的学习数据生成装置中，也可以是，所述模型设定部判定变更后的所述特定物体模型与其他所述物体模型有无干涉，在存在干涉的情况下，不变更所述特定物体模型。

根据上述方式，能够根据实际状况顺利地变更特定物体模型。例如，变更后的特定物体模型与其他物体模型重叠而发生干涉的情况是实现性较低的情况，学习数据中可能不包含这样的情况。因此，可提高识别模型的检测精度。

在本公开的一个方式的学习数据生成装置中，也可以是，所述模型设定部在变更后的所述特定物体模型与其他所述物体模型的干涉部分包含在未映现于所述场景数据用图像的区域中的情况下，与有无干涉无关地，变更所述特定物体模型。

根据上述方式，将在根据场景数据而生成的场景数据用图像上未出现的干涉部分从判定的对象中排除，能够简化特定物体模型的变更处理。

在本公开的一个方式的学习数据生成装置中，也可以是，所述模型设定部在变更后的所述特定物体模型比变更前大的情况下，不变更所述特定物体模型。

根据上述方式，不需要判定变更后的特定物体模型与其他物体模型有无干涉。因此，能够简化特定物体模型的变更处理。

本公开的一个方式的学习数据生成方法根据包含多个模型的CG数据，生成学习数据，所述学习数据生成方法包括：取得所述CG数据中的包含与所述多个模型相关的一个以上的参数的场景数据，使用所述场景数据所包含的所述一个以上的参数，生成场景数据用图像，从所述多个模型所包含的多个物体模型中选择特定物体模型，将所述特定物体模型以外的模型从所述场景数据中删除，以将所述特定物体模型设为特定颜色的方式进行所述一个以上的参数的设定，根据所述场景数据来生成学习数据生成用场景数据，使用所述学习数据生成用场景数据所包含的、所设定的所述一个以上的参数，生成学习数据用图像，在所述学习数据用图像中，设定作为所述特定物体模型的区域的特定物体区域，生成将所述场景数据用图像和所述特定物体区域的信息关联起来的学习数据。根据上述方式，可得到与本公开的一个方式的学习数据生成装置同样的效果。

本公开的一个方式的学习数据生成程序使计算机执行如下处理：在包含各种模型的CG数据中，取得包含所述模型中的摄像头模型所映现的景象的信息的场景数据，根据所述场景数据生成场景数据用图像，并根据所述场景数据来生成学习数据生成用场景数据，根据所述学习数据生成用场景数据生成学习数据用图像，在所述学习数据用图像中，设定所述模型中的物体模型涉及的作为特定物体模型的区域的特定物体区域，生成将所述场景数据用图像和所述特定物体区域的信息关联起来包含的学习数据，在所述学习数据生成用场景数据的生成中，从所述物体模型中选择所述特定物体模型，将所述特定物体模型以外的所述模型从所述场景数据中删除，将所述特定物体模型设为特定颜色。根据上述方式，可得到与本公开的一个方式的学习数据生成装置同样的效果。

此外，上述概括性或具体的方式可通过系统、装置、方法、集成电路、计算机程序或计算机可读取的记录盘等记录介质来实现，也可通过系统、装置、方法、集成电路、计算机程序和记录介质的任意组合来实现。计算机可读取的记录介质例如包含CD-ROM等非易失性的记录介质。

[实施方式]

以下，一边参照附图，一边对本公开的实施方式的学习数据生成装置100等进行具体说明。此外，以下说明的实施方式均表示概括性或具体的例子。以下的实施方式所示的数值、形状、构成要素、构成要素的配置位置和连接方式、步骤(工序)、步骤的顺序等只是一例，不对本公开的主旨进行限定。另外，在以下的实施方式涉及的构成要素中，表示顶层概念的独立权利要求中未记载的构成要素作为任意构成要素来说明。另外，在以下的实施方式的说明中，有时使用大致平行、大致正交那样的伴有“大致”的表达。例如，大致平行不仅表示完全平行的情况，也表示实质平行即例如包含百分之几左右的差异的情况。其他伴有“大致”的表达也同样。另外，各图为示意图，不一定严格图示。此外，在各图中，对于实质相同的构成要素，标注相同的标号，有时省略或简化重复的说明。

[1-1.学习数据生成装置的结构]

参照图1来说明实施方式的学习数据生成装置100和具有学习数据生成装置100的图像识别系统10的结构。此外，图1是示出具有实施方式的学习数据生成装置100的图像识别系统10的概要结构的一例的框图。图像识别系统10构建用于在图像中检测对象物的识别模型，并使用该识别模型来检测图像所包含的对象物。图像识别系统10具有学习数据生成装置100和对象物识别装置200。

学习数据生成装置100对由摄像装置拍摄到的图像(以下，也称作拍摄图像)内和CG图像内的对象物赋予注释，生成用于构建识别模型的学习用的数据(以下，也称作学习数据)。此外，学习数据生成装置100使用所生成的学习数据，构建用于从图像中检测对象物的识别模型。在识别模型的构建中，应用了后述的学习模型。学习数据是用于供识别模型进行学习的数据。学习数据包含拍摄图像和CG图像以及对拍摄图像和CG图像赋予的注释信息。注释信息包含图像内的对象物的类别和动作等内容、对象物的位置和区域等信息。

学习数据生成装置100使用学习数据使识别模型进行学习，由此构建提高了检测精度的识别模型。在本实施方式中，用于识别模型的学习模型是深度学习(Deep Learning)等使用了神经网络的机器学习模型，但也可以是其他学习模型。例如，学习模型也可以是使用了随机森林(Random Forest)或遗传编程(Genetic Programming)等的机器学习模型。

对象物识别装置200使用学习数据生成装置100构建的识别模型，来检测图像识别系统10取得的图像所包含的对象物。此外，对象物识别装置200输出对象物的检测结果。

以后，如图2所示，假设对象物识别装置200搭载在移动体具体是汽车1中、学习数据生成装置100搭载在远离汽车1的服务器2中，来进行说明。汽车1的对象物识别装置200和服务器2通过无线通信连接，且彼此例如通过互联网等通信网3进行无线通信。学习数据生成装置100与对象物识别装置200通过无线通信收发信息。在上述无线通信中，可以应用Wi-Fi(注册商标)(Wireless Fidelity)等无线LAN(Local Area Network：局域网)，也可以应用其他无线通信。服务器2可以是计算机等信息处理装置。服务器2可以包含一个以上的服务器，也可以构成云系统。

学习数据生成装置100可以具有通信电路等无线通信装置，也可以利用服务器2具有的无线通信装置。对象物识别装置200可以具有通信电路等无线通信装置，也可以利用汽车1具有的无线通信装置。此外，学习数据生成装置100与对象物识别装置200可不经由无线通信连接而经由有线通信连接，也可以经由非易失性存储器等记录介质来彼此收发信息。

另外，如果汽车1中搭载的计算机能够进行处理，则学习数据生成装置100也可以搭载于汽车1。在该情况下，学习数据生成装置100与对象物识别装置200可以一体化。进而，学习数据生成装置100也可以经由无线通信、有线通信或记录介质，与汽车1的外部收发信息。

此外，参照图1来说明图像识别系统10的学习数据生成装置100和对象物识别装置200的详细结构。此外，之后，对图像识别系统10为了生成学习数据而使用3DCG数据的情况进行说明。3DCG数据包含与配置在3维空间内的各种虚拟物体(以下，也将虚拟物体称作模型)相关的信息等。另外，在本实施方式中，说明3DCG数据为街道的3DCG数据的例子，但图像识别系统10中所用的3DCG数据可以是任意环境的3DCG数据。学习数据生成装置100具有模型设定部101、渲染部102、物体区域设定部103、识别模型构建部104、第一存储部105、第二存储部106和第三存储部107。此处，渲染部102是图像生成部的一例。

第一存储部105、第二存储部106和第三存储部107能够保存各种信息且能够取出所保存的信息。第一存储部105、第二存储部106和第三存储部107例如由ROM(Read-OnlyMemory：只读存储器)、RAM(RandomAccess Memory：随机存取存储器)、闪速存储器等半导体存储器、硬盘驱动器或SSD(Solid State Drive：固态驱动器)等存储装置实现。第一存储部105保存3DCG数据涉及的场景数据。场景数据包含与配置在3DCG数据所表示的街道等处的摄像头所映现的景象中包含的全部要素相关的信息。具体而言，例如，场景数据不仅包含上述景象中包含的人、车辆和建筑物等物体的模型(也称作物体模型)，还可包含摄像头的位置和方向、上述景象的光源(也称作光源模型)、上述景象的背景信息(也称作背景模型)以及上述景象的环境信息(也称作环境模型)等各种模型。也将在3DCG数据中设定了位置和方向的摄像头称作摄像头模型。模型是构成3DCG数据的3维空间的各种要素。针对模型，在该3维空间内，设定有其类别、形状、尺寸、配置、动作、作用和历时变化等各种事项。另外，第一存储部105可以保存整个3DCG数据。

例如，如本实施方式所示，在3DCG数据为街道的数据的情况下，街道整体被3D模型化。街道的3DCG数据可包含：与街道所包含的人、车辆、建筑物及其他结构物等物体模型的类别和动作等内容、形状和配置等物体模型相关的信息；太阳和照明等光源模型的信息；背景模型的信息；以及雨和雾等气候等环境模型的信息那样的构成街道的各种模型的信息。物体模型包含建筑物、道路、道路附属物、停车场、公园、植物及其他结构物等不动的物体模型以及人、动物和车辆等可移动的物体模型。3DCG数据通过在3DCG数据内任意设定摄像头模型的位置和方向，能够显示摄像头模型所映现的各种景象。例如，在摄像头模型的位置为汽车的驾驶席的情况下，3DCG数据能够显示从该汽车的驾驶席观察到的景象。根据3DCG数据而生成的场景数据可包含与摄像头模型所映现的景象所包含的各种模型相关的信息。即，场景数据是与摄像头模型对应的数据。例如，在摄像头模型与行驶的汽车一同移动的情况下，场景数据包含动画信息，该动画信息表示伴随摄像头模型移动的各模型的变化。

第二存储部106针对学习数据生成装置100根据第一存储部105内的场景数据而生成的图像，将对图像内的对象物赋予的注释信息与该图像关联起来保存。第三存储部107保存学习数据生成装置100构建的识别模型。

模型设定部101进行3DCG数据和场景数据内所包含的模型的设定。例如，模型设定部101设定3DCG数据和场景数据内的光源模型。光源模型可以是太阳，也可以是用于显示图像内的各模型的照明等光源。模型设定部101通过设定光源模型的状态，能够变更根据场景数据而生成的图像内的模型的显示方法。例如，模型设定部101也能够删除光源模型。

另外，模型设定部101还进行光源模型以外的模型的变更和配置变更等针对模型的设定变更。另外，模型设定部101还进行如下处理：在删除了光源模型的场景数据中，将作为处理对象的模型设定为对象模型，删除该对象模型以外的模型。这样的模型设定部101针对场景数据，进行仅将对象模型作为显示对象的处理。此处，对象模型是特定物体模型的一例。

另外，模型设定部101进行3DCG数据和场景数据内的纹理(texture)的设定和材质的参数设定。具体而言，模型设定部101设定3DCG数据和场景数据内的模型的纹理。另外，模型设定部101对3DCG数据和场景数据内的模型设定光学特性和材质感等表示物体材质的材质参数。另外，模型设定部101还进行在删除了对象模型以外的模型的场景数据中设定对象模型的纹理的处理。在该情况下，模型设定部101将对象模型的纹理设定为白色等特定颜色。模型设定部101可以以使对象模型发光的方式设定纹理。此外，模型设定部101还可以进行如下处理：在删除了对象模型以外的模型的场景数据中，将对象模型的材质的参数设定为特定的材质。此处，将对象模型的纹理设定为特定颜色的场景数据是学习数据生成用场景数据的一例。

渲染部102基于与图像相关的信息来生成图像。例如，渲染部102根据场景数据，生成场景数据中设定的摄像头模型所映现的景象的图像。在场景数据包含动画信息的情况下，渲染部102根据一个场景数据来生成构成动画的多个帧的图像。另外，渲染部102也进行如下处理：根据模型设定部101将对象模型的纹理设定为特定颜色的场景数据，生成包含对象模型的图像。例如，在对象模型的纹理被设定为白色的情况下，渲染部102生成对象模型的区域为白色且背景为黑色的图像。

物体区域设定部103在图像上设定作为对象的模型的区域。例如，物体区域设定部103在渲染部102根据对象模型的纹理为特定颜色的场景数据而生成的图像中，设定对象模型的区域的位置、形状和大小。此处，对象模型的区域是物体特定区域的一例。例如，物体区域设定部103将注释框设定为对象模型的区域，其中，该注释框从外侧围绕作为该图像中的对象模型的区域的白色区域。在该情况下，物体区域设定部103例如设定与对象模型的白色区域外切的矩形等多边形的注释框。此外，物体区域设定部103确定图像上的注释框的位置和大小。这样，物体区域设定部103通过确定注释框的位置、形状和大小来设定对象模型的区域。此外，物体区域设定部103也可以不使用注释框而设定对象模型的区域。

此外，物体区域设定部103将对象模型的类别和动作等内容以及该对象模型的注释框的位置、形状和大小等信息彼此关联起来，作为该对象模型的注释信息保存于第二存储部106。如上所述，物体区域设定部103对图像内的对象模型赋予注释。另外，物体区域设定部103将与用于向对象模型赋予注释的图像对应的处理前的图像与注释信息关联起来。上述处理前的图像是表示与用于向对象物赋予注释的图像相同的景象即相同摄像头模型的图像，是根据未接受由模型设定部101进行的模型删除等上述处理场景数据而生成的图像。

识别模型构建部104使用第二存储部106中保存的对象模型的注释信息和与该注释信息对应的图像作为学习数据，来构建识别模型。识别模型构建部104将实施了注释的图像作为输入数据。进而，识别模型构建部104为了使被输入该输入数据的识别模型的输出结果表示对象模型，使识别模型进行学习，即再次构建识别模型。所谓使识别模型进行学习是指，再次构建识别模型，使得针对输入数据，输出作为正解的结果。识别模型构建部104将各种对象模型的各种图像作为输入数据，为了输出作为正解的对象模型而反复进行识别模型的再次构建，由此提高识别模型的输出精度。识别模型构建部104将通过反复再次构建而学习得到的识别模型保存于第三存储部107。

在本实施方式中，识别模型构建部104对识别模型的学习模型使用神经网络。例如，参照图3，示出了神经网络的模型的一例。神经网络是以脑神经系统为模型的信息处理模型。神经网络由包含输入层和输出层的多个节点层构成。节点层包含一个以上的节点。神经网络的模型信息表示构成神经网络的节点层的数、各节点层所包含的节点数和神经网络整体或各节点层的类别。例如在神经网络由输入层、一个以上的中间层和输出层构成的情况下，神经网络针对向输入层的节点输入的信息，依次进行从输入层向中间层的输出处理、中间层中的处理、从中间层向下一中间层或输出层的输出处理、输出层中的处理等，并输出适合于输入信息的输出结果。此外，一层的各节点与下一层的各节点连接，且对节点之间的连接赋予权重。一层的节点的信息被赋予节点之间的连接权重，并被输出到下一层的节点。输入层、中间层和输出层各自的节点数可进行各种设定。

识别模型构建部104将注释框内的对象模型的图像输入到神经网络。向输入层的各节点输入从对象模型的图像提取出的特征。此外，识别模型构建部104以使来自神经网络的输出与注释信息所包含的对象模型的内容一致的方式，优化神经网络的节点间的权重。通过这样的权重调整，识别模型构建部104使神经网络学习输入图像与对象模型的内容之间的关系，并再次构建出输出精度高的神经网络。识别模型构建部104将上述那样的再次构建后的神经网络作为识别模型。

此外，识别模型构建部104也可以以使从神经网络输出的对象模型的类别和动作与注释信息所包含的对象模型的类别和动作一致的方式来优化神经网络的节点间的权重。这样构建的神经网络基于所输入的图像，不仅能够检测对象模型，还能够检测对象模型正在进行或此后进行的动作。

上述那样的由模型设定部101、渲染部102、物体区域设定部103和识别模型构建部104构成的学习数据生成装置100的构成要素，可以分别通过由CPU(Central ProcessingUnit：中央处理器)、RAM、ROM等构成的计算机系统(未图示)来构成。上述构成要素的一部分或全部功能可以通过由CPU使用RAM作为工作用存储器并执行ROM中记录的程序来达成。另外，上述构成要素的一部分或全部的功能也可通过电子电路或集成电路等专用硬件电路达成。程序可预先记录在ROM中，也可以作为应用程序而通过经由互联网等通信网的通信、基于移动通信标准的通信、其他无线网络、有线网络或广播等来提供。

另外，对象物识别装置200具有对象物检测部201和第四存储部202。对象物检测部201经由无线通信等从服务器2的学习数据生成装置100取得该第三存储部107中保存的识别模型，并保存于第四存储部202。在学习数据生成装置100更新识别模型时，对象物检测部201使用更新后的最新的识别模型，来更新第四存储部202中保存的识别模型。第四存储部202与第一存储部105等同样地，例如由ROM、RAM、闪速存储器等半导体存储器、硬盘驱动器或SSD等存储装置实现。

对象物检测部201从搭载于汽车1的摄像装置1a取得摄像装置1a拍摄到的图像。摄像装置1a例如是生成数字图像的摄像头，输出动态图像和/或静态图像。对象物检测部201在取得的图像中，使用识别模型来检测对象物。具体而言，对象物检测部201将取得的图像输入到第四存储部202中保存的识别模型，取得识别模型的输出结果。对象物检测部201从图像中提取各种特征，并将提取出的特征作为输入信息输入到识别模型。识别模型基于输入信息，输出图像所包含的对象物的类别和动作等内容和位置等。对象物检测部201将对象物的类别和动作等内容以及位置等作为检测结果来输出。对象物例如是人和车辆，也可以是道路绿化植物、道路标识、道路标示和信号等道路附属物、施工用路障等道路上的障碍物、动物等各种物体。车辆可以是汽车、大型货车、公交车、特殊车辆、二轮摩托车、自行车、其他轻型车辆等。

对象物检测部201可以将检测结果输出到搭载于汽车1的报知部1b，也可以输出到汽车1的ECU(电子控制单元：Electronic Control Unit)等控制部1c。报知部1b可以由显示器和/或扬声器构成，将取得的检测结果报知给汽车1的驾驶者。显示器可以由液晶面板、有机或无机EL(Electro Luminescence：电致发光)等显示面板构成。控制部1c在汽车1具有自动驾驶功能的情况下，基于所取得的检测结果来控制汽车1的动作。例如，在检测结果表示要横穿道路的人的情况下，控制部1c进行使汽车1停止或减速的控制。自动驾驶功能可以是防撞制动器和车道维持那样的对一部分汽车驾驶进行辅助的功能，也可以是负责整体的功能。

上述那样的对象物检测部201的结构，可以与对模型设定部101、渲染部102、物体区域设定部103和识别模型构建部104那样的学习数据生成装置100的构成要素说明的结构相同。对象物检测部201也可以包含在控制部1c中。

[1-2.学习数据生成装置的工作]

参照图1和图4，对实施方式的学习数据生成装置100的工作进行说明。此外，图4是示出实施方式的学习数据生成装置100构建识别模型的处理流程的一例的流程图。如图4所示，学习数据生成装置100在步骤S101中，为了构建用于从图像中检测对象物的识别模型，生成用于构建该识别模型的学习数据。学习数据包含图像数据和对图像数据内的对象物赋予的注释的信息。

接下来，在步骤S102中，学习数据生成装置100使用所生成的学习数据，使识别模型进行学习，由此构建识别模型。具体而言，识别模型构建部104在将图像数据内的赋予了注释的对象物的图像作为识别模型的输入数据时，调整识别模型，以输出该注释的信息所包含的对象物的类别和动作等内容、即正解的输出结果。识别模型构建部104通过使用各种对象物的各种图像来调整识别模型，由此提高识别模型的输出精度。识别模型构建部104将学习完成的识别模型保存于第三存储部107。此外，识别模型构建部104可以使第三存储部107中保存的识别模型进一步学习，来更新识别模型。

此外，参照图1和图5，对图4的步骤S101的处理、即由学习数据生成装置100进行的学习数据的生成处理的详细情况进行说明。此外，图5是示出实施方式的学习数据生成装置100生成学习数据的处理流程的一例的流程图。

首先，在步骤S201中，学习数据生成装置100的渲染部102从第一存储部105取得街道的3DCG数据的预定的场景数据。例如，场景数据包含与摄像头模型相关的参数以及与配置于行驶在3DCG的街道的道路上的汽车的驾驶席的摄像头模型所映现的前方景象相关的多个参数。此外，摄像头模型的位置可以是汽车的任意场所，也可以是汽车以外的场所。但不限于此，在本实施方式中，场景数据对应于与和汽车一同移动的摄像头模型所映现的景象相关的多个参数。此外，可由服务器2的操作者进行向第一存储部105保存的场景数据的选择、形成和保存。例如，操作者在服务器2中，操作街道的3DCG数据，选择3DCG内的摄像头模型的位置和方向。此外，操作者使该摄像头模型例如沿着道路等移动，选择在移动过程中与摄像头模型连续地映现的景象相关的参数作为场景数据并保存于第一存储部105。操作者根据各种摄像头模型的位置、方向和移动方向来制作场景数据，并保存于第一存储部105。由此，形成包含与各种视点下的景象相关的多个参数的场景数据，并保存于第一存储部105。

渲染部102从第一存储部105中保存的各种场景数据中，取得包含与服务器2和学习数据生成装置100的操作者所指定的位置和方向的摄像头模型所映现的景象相关的多个参数在内的场景数据，来作为预定的场景数据。

在下一步骤S202中，渲染部102使用预定的场景数据所包含的多个参数，生成摄像头模型所映现的景象的图像(以下，也称作场景图像)。连续变化的场景例如由n个的多个场景构成，场景数据内存在与n个场景分别对应的n个摄像头模型。因此，渲染部102根据场景数据，生成n个摄像头模型分别映现的n个帧的场景图像。渲染部102将所生成的场景图像与摄像头模型关联起来保存于第二存储部106。例如，参照图6，示意性地示出了实施方式的学习数据生成装置100的渲染部102根据场景数据而生成的场景图像的一例。此外，场景数据可以是仅包含一个摄像头模型的结构。此处，场景图像是场景数据用图像的一例。

接下来，在步骤S203中，模型设定部101将场景数据中设定的光源模型删除。例如，在根据删除了光源模型的场景数据来生成图像时，所生成的图像整体成为由黑色等单色涂覆的状态。

接下来，在步骤S204中，模型设定部101从场景数据包含的模型中，提取作为处理对象的对象模型。在本实施方式中，模型设定部101按照预先决定的规则，提取可移动的对象模型。此外，预先决定的规则是应提取的对象模型能够移动这样的规则，但不限于此。这样的模型设定部101提取人和车辆等的模型作为对象模型。例如，在包含图6所示的景象的场景数据中，模型设定部101提取对象模型A～E。对象模型A为行人，对象模型B为公交车，对象模型C为二轮摩托车，对象模型D为汽车，对象模型E为自行车。

进而，在步骤S205中，模型设定部101判定在步骤S204中提取出的、针对全部对象模型的注释是否完成。具体而言，模型设定部101判定是否对n个帧的场景图像所包含的全部对象模型完成了注释处理。上述注释处理是步骤S205～S215的处理。模型设定部101在注释处理已完成的情况下(步骤S205：是)，进入到步骤S102，在注释处理没有完成的情况下(步骤S205：否)，进入到步骤S206。

在步骤S206中，模型设定部101从未进行注释处理的对象模型中选择一个对象模型(以下，称作识别对象模型)。例如，模型设定部101将进行了注释处理的对象模型存储于未图示的存储器，并选择存储器中存储的对象模型以外的对象模型来作为识别对象模型。

在下一步骤S207中，模型设定部101判定是否针对识别对象模型，关于场景数据所包含的全部摄像头模型完成了注释处理。与各摄像头模型相关的注释处理是步骤S207～S215的处理。模型设定部101在注释处理已完成的情况下(步骤S207：是)，返回到步骤S205，在注释处理没有完成的情况下(步骤S207：否)，进入到步骤S208。

在步骤S208中，模型设定部101从场景数据所包含的摄像头模型中选择对识别对象模型设定的摄像头模型(以下，称作特定摄像头模型)。此外，模型设定部101选择尚未在注释处理中使用的摄像头模型作为特定摄像头模型。

在下一步骤S209中，模型设定部101搜索场景数据所包含的模型，判定模型是否符合识别对象模型。由此，模型设定部101从模型中提取识别对象模型。模型设定部101在模型符合的情况下(步骤S209：是)，进入到步骤S210，在模型不符合的情况下(步骤S209：否)，进入到步骤S211。

在步骤S210中，模型设定部101将提取出的识别对象模型的纹理替换为白色等特定颜色的素色纹理。模型设定部101也可以以使识别对象模型发光的方式来替换为纹理。模型设定部101在步骤S210之后，进入到步骤S212。

在步骤S211中，模型设定部101从场景数据中删除不符合的模型。此时，模型设定部101删除特定摄像头模型以外的摄像头模型。此外，模型设定部101删除识别对象模型以外的模型。例如，模型设定部101也可以将识别对象模型以外的物体模型的光反射率设为0。模型设定部101在步骤S211之后，进入到步骤S212。

在步骤S212中，模型设定部101判定是否完成与识别对象模型相关的场景数据的再次构建。上述场景数据的再次构建是指，再次构建仅包含特定摄像头模型和具有特定颜色的纹理的识别对象模型作为模型的场景数据。模型设定部101在完成了场景数据的再次构建的情况下(步骤S212：是)，进入到步骤S213，在没有完成场景数据的再次构建的情况下(步骤S212：否)，返回到步骤S209。进而，通过反复进行步骤S209～S212的处理，针对一个特定摄像头模型和一个识别对象模型的组合，构建一个场景数据。通过这样的步骤S209～S212的处理而实现的场景数据的构建是简单的，能够将处理量抑制得较低。

在步骤S213中，渲染部102根据再次构建的场景数据来生成图像(以下，也称作注释用图像)。渲染部102使用再次构建的场景数据所包含的特定摄像头模型和识别对象模型的参数，来生成特定摄像头模型所映现的识别对象模型的图像。这样的生成图像是具有白色等特定颜色的素色纹理的识别对象模型和由黑色等素色背景构成的图像。进而，生成图像可作为识别对象模型的注释用的图像来使用。这样的生成图像的例子示出在图7A～图7E中。图7A是对象模型A的注释用图像的例子。图7B是对象模型B的注释用图像的例子。图7C是对象模型C的注释用图像的例子。图7D是对象模型D的注释用图像的例子。图7E是对象模型E的注释用图像的例子。注释用图像是根据包含一个特定摄像头模型和一个识别对象模型的场景数据而生成的，故而注释用图像的生成处理是简单的，能够将处理量抑制得较低。此处，注释用图像是学习数据用图像的一例。

此外，渲染部102生成的注释用图像不限于根据一个再次构建后的场景数据而生成且包含一个识别对象模型的图像。渲染部102也可以根据与多个识别对象模型对应的多个再次构建后的场景数据来生成一个注释用图像。另外，也可以是，模型设定部101生成包含多个识别对象模型的一个再次构建后的场景数据，渲染部102根据该再次构建后的场景数据生成一个注释用图像。这样的注释图像可包含通过同一摄像头模型映现的多个识别对象模型。

接下来，在步骤S214中，物体区域设定部103根据步骤S213中生成的注释用图像来提取该注释用图像所包含的识别对象模型的注释信息。物体区域设定部103提取注释用图像涉及的识别对象模型的位置和区域的信息作为注释信息。例如，物体区域设定部103在注释用图像上，形成围绕识别对象模型且与识别对象模型外切的注释框，并将注释框的位置、形状和大小作为注释信息。注释框可以是容易确定形状的矩形等多边形，在本实施方式中为矩形。例如，参照图8A～图8E，示出了对图7A～图7E的注释用图像的对象模型A～E分别设定的矩形注释框的例子AF～EF。注释框的位置和大小使用作为对注释用图像设定的坐标系的图像坐标系来表示。

如图8A～图8E所示，例如，物体区域设定部103在设为矩形的注释用图像的左上角处设定原点О。此外，物体区域设定部103以如下方式设定x轴和y轴：相对于注释用图像，x轴从原点O朝水平右方向以正值而延伸，y轴从原点O朝垂直下方向以正值而延伸。此外，物体区域设定部103可以对注释用图像的深度方向、即与xy平面垂直的方向设定z轴。在本实施方式中，x轴和y轴上的值分别由像素坐标定义，具体而言，由从原点O起的像素数(pixelnumber)定义。z轴上的值可通过3DCG内设定的距离来定义。

另外，物体区域设定部103在识别对象模型的注释框中，在左上角处设定基准点P，使用基准点P的x和y的像素坐标值来规定注释框的平面位置。此外，物体区域设定部103可以使用基准点P的z轴上的值来规定注释框的深度方向的位置。基准点P的z轴上的值可以是由注释框围绕的识别对象模型与摄像头模型的距离。这样的距离可根据场景数据所具有的识别对象模型的位置信息或在注释用图像中设定的识别对象模型的位置信息和摄像头模型的位置信息来取得。此外，物体区域设定部103使用注释框的x轴方向的长度和y轴方向的长度来规定注释框的大小。

接下来，在步骤S215中，物体区域设定部103将注释框的基准点P的坐标、注释框的x轴和y轴方向的长度、和识别对象模型的类别等内容作为识别对象模型的注释信息保存于第二存储部106。此时，物体区域设定部103从第二存储部106中保存的场景图像中确定与包含识别对象模型的注释用图像相同的摄像头模型的场景图像，并将确定出的场景图像与注释信息进行关联。第二存储部106中保存的场景图像是在步骤S202中渲染部102生成的图像。图9示出了将注释信息所表示的注释框重叠于与该注释信息对应的场景图像而得到的图像的例子。此外，图9是在图6的场景图像上重叠对象模型的注释框而得到的图。例如，从第二存储部106取得一个场景图像和与该场景图像对应的多个注释信息，由此，能够在该场景图像上确定对象模型A～F的区域。进而，物体区域设定部103在步骤S215完成后，返回到步骤S207。

此外，参照图10，示出了第二存储部106中保存的注释信息的例子。注释信息包含注释信息的ID(Identifier)信息、对象模型即对象物的内容、注释框的基准点P的坐标、注释框的x轴方向的大小、注释框的y轴方向的大小和与注释信息对应的场景图像的ID信息等。图10的注释信息的ID分别是对象模型A～E的注释信息的例子。

通过上述，在步骤S206～S215的一系列处理中，通过反复步骤S207～S215的处理，对一个对象模型进行关于全部摄像头模型的注释处理。此外，在步骤S204～S215的一系列处理中，通过反复步骤S205～S215的处理，对全部对象模型进行注释处理。

接下来，参照图11，对实施方式的对象物识别装置200的工作进行说明。此外，图11是示出实施方式的对象物识别装置200从图像中识别对象物的处理流程的一例的流程图。如图11所示，首先，在步骤S301中，对象物识别装置200的对象物检测部201从搭载于汽车1的摄像装置1a取得摄像装置1a拍摄到的图像(以下，也称作摄像头图像)。接下来，在步骤S302中，对象物检测部201从第四存储部202取得识别模型。识别模型可以是与摄像装置1a对应的识别模型。例如，在摄像装置1a从汽车1的驾驶席拍摄前方的情况下，识别模型是与从驾驶席观察前方得到的景象相关的识别模型。

此外，在步骤S303中，对象物检测部201将所取得的摄像头图像输入到识别模型，从识别模型取得输出结果。此时，识别模型在摄像头图像中检测预定的对象物，并将检测结果输出到对象物检测部201。预定的对象物是在构建识别模型时，以使识别模型从图像进行检测的方式设定的对象物，例如包含与图4的步骤S101的处理的说明中的对象模型相符的对象物。

在步骤S304中，对象物检测部201输出所检测出的对象物的信息。对象物的信息的例子可以是对象物的类别、位置、移动方向等。例如，对象物检测部201可以向汽车1的报知部1b输出对象物的信息。进而，报知部1b可以在该显示器所显示的摄像装置1a的摄像头图像上，强调地显示对象物，来向驾驶者报知。或者，报知部1b也可以通过声音来报知对象物的信息。或者，对象物检测部201也可以向汽车1的控制部1c输出对象物的信息。控制部1c可以基于对象物的信息来控制汽车1的动作。在汽车1具有自动驾驶功能的情况下，控制部1c在判断为对象物会给汽车1的行驶带来障碍或引发危险时，可以进行使汽车1停止或减速等控制。

[1-3.效果等]

根据上述实施方式的学习数据生成装置100，作为学习数据生成用场景数据的一例的再次构建后的场景数据是从场景数据中删除识别对象模型以外的模型而生成的。再次构建这样的场景数据的处理是简单的，能够将处理量抑制得较低。此外，再次构建后的场景数据仅包含特定摄像头模型和特定颜色的识别对象模型作为模型，故而能够将数据量抑制得较低。根据这样的再次构建后的场景数据来生成注释用图像的处理是简单的，能够将处理量抑制得较低。此外，所生成的注释用图像仅包含识别对象模型作为被拍摄对象。因此，在该注释用图像中，对识别对象模型形成注释框的处理是简单的，能够将处理量抑制得较低。这样，对场景数据的识别对象模型的注释处理是简单的，且能够将处理量抑制得较低。因此，学习数据生成装置100能够使得用于使用CG数据来进行注释处理并构建学习数据的处理变得简单。

另外，在实施方式的学习数据生成装置100中，在场景数据包含多个识别对象模型的情况下，对多个识别对象模型分别再次构建场景数据。由此，再次构建后的场景数据是按每个识别对象模型生成的。因此，即使在场景数据包含多个识别对象模型的情况下，也能够使用根据再次构建后的场景数据而生成的注释用图像来确定各识别对象模型的区域。

另外，在实施方式的学习数据生成装置100中，识别对象模型的区域由注释框决定，故而容易设定该区域。例如，通过决定注释框的形状、大小和位置，可决定识别对象模型的区域。这样的注释框的信息是容易作为深度学习等机器学习的学习数据涉及的识别对象模型的区域的输入数据来对待的数据。

[变形例1]

[2-1.变形例1的学习数据生成装置的工作]

在实施方式的学习数据生成装置100中，模型设定部101生成仅包含一个对象模型的再次构建后的场景数据。进而，渲染部102根据一个再次构建后的场景数据，生成了仅包含一个对象模型的注释用图像。在实施方式的变形例1的学习数据生成装置的工作中，模型设定部101生成包含多个对象模型的再次构建后的场景数据。此外，渲染部102生成包含多个对象模型的注释用图像。进而，物体区域设定部103对注释用图像所包含的多个对象模型分别形成注释框。此时，在两个对象模型彼此局部重复地显示的情况下，物体区域设定部103在对象模型中的可见部分形成注释框。在以下中，针对变形例1，以与实施方式不同之处为中心进行说明。

具体而言，模型设定部101在图5的步骤S206中，选择多个识别对象模型。进而，模型设定部101与实施方式同样地进行图5的步骤S207～S212的处理。在本变形例中，在步骤S207～S212中，模型设定部101从场景数据中删除特定摄像头模型和多个识别对象模型以外的模型。进而，模型设定部101对场景数据内的多个识别对象模型分别使用不同的特定颜色，并替换纹理。即，模型设定部101以颜色不重复的方式对彼此不同的多个识别对象模型分别应用不同的特定颜色。由此，关于特定摄像头模型，再次构建出包含被设为彼此不同特定颜色的多个识别对象模型的场景数据。此外，模型设定部101将再次构建后的场景数据所包含的各识别对象模型和对各识别对象模型设定的特定颜色关联起来，存储于未图示的存储器等。例如，模型设定部101再次构建仅包含识别对象模型A～E的场景数据。进而，模型设定部101对识别对象模型A～E分别应用不同的特定颜色。

渲染部102与图5的步骤S213同样地，根据包含多个识别对象模型的一个再次构建后的场景数据，生成一个注释用图像。例如，渲染部102生成包含识别对象模型A～E且摄像头模型相同的图12所示的注释用图像。此外，图12是包含多个对象模型A～E的注释用图像的例子。图12中的对象模型A～E的图像对应于同一场景图像。此外，参照图13和图14，示出了将图12中的包含对象模型B～D的区域R放大的图，此外，还示出了将图13中的对象模型C放大的图。

在本变形例中，如上所述，对识别对象模型A～E设定的特定颜色可以不相同，而彼此区别。由此，能够在注释用图像上，基于特定颜色来确定和区分识别对象模型A～E。因此，物体区域设定部103在注释用图像上，基于未图示的存储器所存储的识别对象模型与特定颜色之间的关系，分别提取多个识别对象模型及其区域。此外，物体区域设定部103对提取出的识别对象模型赋予注释框等注释信息。

如图13和图14所示，在注释用图像上，有时识别对象模型B在识别对象模型C的一部分上重叠地显示。物体区域设定部103也使用这样的注释用图像来进行注释处理。此时，物体区域设定部103在注释用图像上，确定识别对象模型B和C各自的区域。例如，物体区域设定部103可以基于识别对象模型B和C各自的特定颜色来确定识别对象模型B和C各自的区域。确定出的识别对象模型C的区域是识别对象模型C的特定颜色的区域。该区域是识别对象模型C中的未被识别对象模型B盖住而可见的区域，是可见区域。此外，物体区域设定部103形成围绕识别对象模型C的可见区域的可见注释框CFa。进而，物体区域设定部103计算可见注释框CFa的基准点Pa的位置和可见注释框CFa的大小。此外，框CFb是围绕识别对象模型C整体的整体注释框，点Pb是整体注释框CFb的基准点。整体注释框CFb和基准点Pb能够如在实施方式中说明的那样，使用根据仅包含识别对象模型C的再次构建后的场景数据而生成的注释用图像来设定。

识别模型构建部104根据对象模型的注释信息和与该注释信息对应的场景图像，使用作为该对象模型可见部分的一部分图像作为学习数据，使识别模型进行学习。由此，即使根据对象物的一部分图像，也能够以检测该对象物的方式构建识别模型，能够提高对象物的检测精度。

[2-2.效果]

根据上述这样的变形例1的学习数据生成装置，再次构建包含多个对象模型的场景数据。此外，在根据再次构建后的场景数据而生成的注释用图像上，确定各对象模型的区域。此时，在不同的对象模型之间，对象模型的特定颜色不同，故而容易确定各对象模型的区域。另外，在能看到在特定的对象模型上重叠有另外的对象模型的情况下，在特定的对象模型中的未被其他对象模型盖住而可见的区域形成注释框。关于这样的注释框的区域，能够将对象模型的一部分区域作为对象。由此，能够计算实际作为图像显示的可见区域相对于对象模型所在的区域以及可见区域相对于对象模型的区域的比例。因此，通过使用可见区域的比例小于100％的学习数据，能够生成对堵塞(occlusion)稳健(robust)的识别模型。另外，可见区域的比例不是很小的学习数据很可能阻碍学习，例如通过在学习中不使用可见区域比例小于50％的学习数据，也能够生成防止过度学习的识别模型。因此，使用这样的学习数据而构建的识别模型能够提高从图像中检测对象物的精度。

[变形例2]

[3-1.变形例2的学习数据生成装置的工作]

在实施方式的学习数据生成装置100中，物体区域设定部103将对注释用图像的对象模型赋予的注释信息和渲染部102根据场景数据而生成的场景图像关联起来。实施方式的变形例2的学习数据生成装置除了变更场景数据之外，还将渲染部102根据变更后的场景数据而生成的图像(以下，也称作变更场景图像)和对象模型的注释信息关联起来。进而，识别模型构建部104将对象模型的注释信息和根据变更前和变更后的场景数据而生成的场景图像和变更场景图像关联起来，并使用它们作为学习数据来构建识别模型。以下，针对变形例2，以与实施方式和变形例1不同之处为中心进行说明。

具体而言，变形例2的学习数据生成装置，针对场景数据，在使模型的配置和摄像头模型等摄像头的景象内的结构固定的状态下，在同一体积(volume)的模型之间进行模型切换。此外，学习数据生成装置以不变更与注释框相关的信息以及对象模型的类别和动作的方式，对场景数据施加变更。即，学习数据生成装置基于注释框的信息，对场景数据的模型施加变更。

例如，学习数据生成装置的模型设定部101变更对象模型的周围。此时，模型设定部101变更对象模型周围的模型。具体而言，模型设定部101可以变更建筑物、植物等不动的物体模型的形状和纹理。另外，模型设定部101也可以变更光源模型，将景象的时间段变更为早上、夜晚、傍晚或夜间。另外，模型设定部101也可以变更背景模型，变更天空等背景，还可以变更环境模型，变更景象的气候。

另外，模型设定部101也可以变更对象模型以及对象模型以外的可动的物体模型。此时，模型设定部101可以维持对象模型和可动的物体模型的类别和动作。例如，模型设定部101在该模型的类别为人的情况下，可以变更年龄层、性别、体格、服装等与人相关的信息。另外，模型设定部101在该模型的类别为汽车的情况下，可以变更颜色、形状、车种等与汽车相关的信息。另外，模型设定部101在该模型的类别为自行车的情况下，可以变更颜色、形状、自行车类型等与自行车相关的信息。

根据上述，对象模型不接受大小等体积的变更，而对于其他信息则接受变更。因此，使用变更后的场景数据，即使在与实施方式同样地形成对象模型的注释框的情况下，在变更的前后对应的对象模型之间，注释框的位置、形状和尺寸等框信息不变化。

因此，学习数据生成装置的渲染部102通过使用变更后的各种场景数据来生成各种变更场景图像，由此生成与一个注释信息对应的多个场景图像。由此，识别模型构建部104的学习数据的多样性增加。例如，图像上的注释框的区域包含对象模型的图像和对象模型的周围的图像。因此，不仅是变更对象模型，通过变更周围的物体模型、光源模型、背景模型和环境模型，注释框内的图像的多样性也增加。识别模型构建部104使用各种多样性的对象模型的图像作为学习数据，由此构建提高了对象物的检测精度的识别模型。

[3-2.效果]

根据上述这样的变形例2的学习数据生成装置，渲染部102可根据场景数据和变更后的场景数据来生成场景图像。由此，在学习数据中，彼此关联的对象模型的注释信息和与注释信息对应的场景图像的组合增加。由此，学习数据的多样性增加，故而识别模型能够提高从图像中检测对象物的精度。

另外，根据变形例2的学习数据生成装置，在变更场景数据时，基于注释框的信息，对象模型接受变更，故而针对变更后的对象模型的注释框的信息的再次生成，会变得不再需要或简单。例如，在变更场景数据时，在以不变更注释框的信息的方式使对象模型接受变更的情况下，不再需要再次生成针对变更后的对象模型的注释框的信息。因此，能够简化场景数据的变更处理。

[变形例3]

[4-1.变形例3的学习数据生成装置的工作]

变形例2的学习数据生成装置以不变更与注释框相关的信息的方式变更了场景数据。实施方式的变形例3的学习数据生成装置随着场景数据的对象模型的大小和形状的变更，根据需要变更注释框。以下，针对变形例3，以与实施方式和变形例1和2不同之处为中心进行说明。

具体而言，变形例3的学习数据生成装置，针对场景数据，在将模型的配置和摄像头模型等摄像头的景象内的结构固定的状态下，在模型之间进行模型的切换。此外，学习数据生成装置不变更对象模型的类别和动作，而对场景数据施加变更。

例如，学习数据生成装置的模型设定部101，在场景数据中，维持类别和动作而变更对象模型。模型设定部101在对象模型的类别为人而变更与人相关的信息时，例如将儿童变更为成人，或将什么也没拿的成人变更为持伞的成人。由此，变更后的对象模型所占有的区域变大，有时在对变更前的对象模型设定的注释框中放不下。或者，例如，针对对象模型，在将成人变更为儿童或将持伞的成人变更为什么也没拿的成人的情况下，在变更前的注释框内的图像中，变更后的对象模型以外的区域变大，该区域有时会包含变更后的对象模型以外的模型。在上述两个情况中的任一情况下，注释框内的图像不适合作为变更后的对象模型的注释用的图像，故而学习数据生成装置会再次形成注释框。

具体而言，模型设定部101从第二存储部106取得与变更后的对象模型对应的变更前的对象模型的注释信息。注释信息与场景数据所包含的多个摄像头模型分别对应地存在。模型设定部101在变更后的场景数据中，将变更后的对象模型的纹理变更为特定颜色。此外，渲染部102根据变更后的场景数据，针对各摄像头模型，生成与该摄像头模型对应的注释信息所决定的注释框内及其附近的区域的图像。该区域的大小可以基于变更前后的对象模型的大小的变化率等变化量来决定。例如，在变更后的对象物变得更小的情况下，区域会设定为比注释框小，在变更后的对象物变得更大的情况下，区域会设定为比注释框大。

物体区域设定部103在所生成的图像上，提取特定颜色的素色区域，形成围绕该特定颜色的区域的注释框来作为变更后注释框。物体区域设定部103将变更后注释框的信息作为变更后的对象物的注释信息保存于第二存储部106。由物体区域设定部103进行的特定颜色区域的提取是在变更前的注释框的区域附近较小的图像内进行的，故而能够将用于处理的计算量抑制得较低。另外，渲染部102根据变更后的场景数据，针对各摄像头模型，生成与该摄像头模型对应的变更后场景图像。物体区域设定部103基于各个摄像头模型，将变更后的对象物的注释信息和变更后场景图像关联起来。

此外，模型设定部101在场景数据中将对象模型变更为更大的模型的情况下，判定变更后的对象模型是否与其他物体模型碰撞或接触即是否发生干涉，在物体模型彼此不发生碰撞和接触的情况下，可以变更对象模型。在该情况下，模型设定部101可以对变更后的对象模型的区域和其他物体模型的区域进行比较，也可以对变更后的对象模型的注释框的区域和其他物体模型或该注释框的区域进行比较。

在上述基础上或者与上述分开地，模型设定部101在场景数据中，在该场景数据的摄像头模型未映现的场所来变更对象模型的情况下，可以不判定变更后的对象模型是否与其他物体模型碰撞或接触。在该情况下，模型设定部101可以判定为能够变更对象模型。

或者，模型设定部101可以在场景数据中，禁止将对象模型变更为更大的模型。

根据上述，生成了各种注释信息以及与该注释信息对应的各种图像。进而，识别模型构建部104使用这样的各种多样性的对象模型的图像作为学习数据，由此构建提高了对象物的检测精度的识别模型。

[4-2.效果]

根据上述这样的变形例3的学习数据生成装置，随着对象模型的变更，会再次生成注释框的信息。由此，对象模型变更的自由度增加。因此，在学习数据中，注释信息成为对象的对象模型的多样性增加。另外，基于变更后的对象模型及其周边的变更后图像来设定变更后的对象模型的注释框，故而能够抑制用于设定的计算量。

另外，根据变形例3的学习数据生成装置，在变更后的对象模型与其他物体模型存在干涉的情况下，可以不变更对象模型。由此，可按照实际状况顺利地变更对象模型。例如，变更后的对象模型与其他物体模型重叠而发生干涉的情况是可实现性较低的情况，学习数据中可能不包含这样的情况。因此，可提高识别模型的检测精度。

另外，根据变形例3的学习数据生成装置，在变更后的对象模型与其他物体模型的干涉部分包含在未映现于摄像头模型即场景图像的区域中的情况下，可以与有无干涉无关地变更对象模型。由此，摄像头模型未映现的干涉部分被从有无干涉的判定对象中排除，故而能够简化对象模型的变更处理。

另外，根据变形例3的学习数据生成装置，在变更后的对象模型变得比变更前大的情况下，可以不变更对象模型。不需要判定变更后的对象模型与其他物体模型有无干涉。因此，能够简化对象模型的变更处理。

[5.其他变形例]

如上所述，作为在本申请中公开的技术示例，说明了实施方式和变形例。但是，本公开涉及的技术不限于这些，也能够应用适当地进行了变更、置换、追加、省略等而得到的实施方式的变形例或其他实施方式。另外，也可以组合实施方式和变形例中说明的各构成要素而得到新的实施方式或变形例。

具有实施方式和变形例的学习数据生成装置100和对象物识别装置200的图像识别系统10被应用于汽车。图像识别系统如果是从图像中识别对象物的系统，则可以应用于任何系统。例如，图像识别系统可以应用于监视摄像头的系统。在该情况下，可以是，对象物识别装置200搭载于监视摄像头，学习数据生成装置100搭载于监视摄像头或者搭载于服务器等远离监视摄像头的装置。另外，图像识别系统中使用的3DCG数据不限于街道的3DCG数据，可根据应用了对象物识别装置200的摄像装置所拍摄的对象而变更。例如，在将对象物识别装置200应用于车站的监视摄像头的情况下，3DCG数据可以是车站内的3DCG数据。

此外，本公开的概括性或具体的方式可由系统、装置、方法、集成电路、计算机程序或计算机可读取的记录盘等记录介质实现，也可以由系统、装置、方法、集成电路、计算机程序和记录介质的任意组合来实现。计算机可读取的记录介质例如包含CD-ROM等非易失性的记录介质。

例如，实施方式和变形例的图像识别系统所包含的各构成要素通常被实现为作为集成电路的LSI(Large Scale Integration：大规模集成电路)。它们可以单独地单芯片化，也可以以包含一部分或全部的方式单芯片化。另外，集成电路化不限于LSI，也可以由专用电路或通用处理器实现。也可以利用在LSI制造之后可编程的FPGA(Field ProgrammableGateArray：现场可编程门阵列)或能够对LSI内部电路单元的连接和/或设定进行重新配置的可重构处理器。

此外，在实施方式和变形例中，各构成要素可以通过由专用的硬件构成或执行适合于各构成要素的软件程序来实现。各构成要素可通过CPU或处理器等程序执行部读出硬盘或半导体存储器等记录介质中记录的软件程序并执行来实现。

另外，上述构成要素的一部分或全部可以由可拆装的IC(IntegratedCircuit：集成电路)卡或单体模块构成。IC卡或模块是由微处理器、ROM、RAM等构成的计算机系统。IC卡或模块可以包含上述LSI或系统LSI。微处理器按照计算机程序进行工作，由此，IC卡或模块达成其功能。这些IC卡和模块可以具有防篡改性。

另外，本公开的技术不限于学习数据生成装置，也可以通过以下记载的学习数据生成方法来实现。例如，该学习数据生成方法根据包含各种模型的CG数据来生成学习数据，在所述CG数据中，取得包含所述模型中的摄像头模型所映现的景象的信息的场景数据，根据所述场景数据生成场景数据用图像，并根据所述场景数据生成学习数据生成用场景数据，根据所述学习数据生成用场景数据生成学习数据用图像，在所述学习数据用图像中，设定所述模型中的物体模型涉及的作为特定物体模型的区域的特定物体区域，生成将所述场景数据用图像和所述特定物体区域的信息关联起来包含的学习数据，在所述学习数据生成用场景数据的生成中，从所述物体模型中选择所述特定物体模型，将所述特定物体模型以外的所述模型从所述场景数据中删除，将所述特定物体模型设为特定颜色。

此外，上述方法可以通过MPU、CPU、处理器、LSI等电路、IC卡或单体的模块等来实现。

另外，本公开的技术也可以通过由软件程序或软件程序构成的数字信号来实现，也可以是记录有程序的非瞬时性的计算机可读取的记录介质。例如，实施方式和变形例中的处理可通过如下这样的程序来实现。例如，该程序使计算机执行如下处理：在包含各种模型的CG数据中，取得包含所述模型中的摄像头模型所映现的景象的信息的场景数据，根据所述场景数据生成场景数据用图像，并根据所述场景数据生成学习数据生成用场景数据，根据所述学习数据生成用场景数据生成学习数据用图像，在所述学习数据用图像中，设定所述模型中的物体模型涉及的作为特定物体模型的区域的特定物体区域，生成将所述场景数据用图像和所述特定物体区域的信息关联起来包含的学习数据，在所述学习数据生成用场景数据的生成中，从所述物体模型中选择所述特定物体模型，将所述特定物体模型以外的所述模型从所述场景数据中删除，将所述特定物体模型设为特定颜色。

此外，上述程序和由上述程序构成的数字信号也可以记录到计算机可读取的记录介质、例如软盘、硬盘、SSD、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(注册商标)Disc)、半导体存储器等中。另外，由上述程序和上述程序构成的数字信号可以经由电子通信线路、无线或有线通信线路、以互联网为代表的网络、数据广播等进行传输。另外，上述程序和由上述程序构成的数字信号也可以记录到记录介质来进行传送或经由网络等进行传送，由此，通过独立的其他计算机系统来实施。

另外，上述说明中用到的序数、数量等数字均是为了具体说明本公开的技术而例示的，本公开不受限于所例示的数字。另外，构成要素间的连接关系是为了具体说明本公开的技术而例示的，实现本公开的功能的连接关系不限于此。

另外，框图中的功能模块分割只是一例，可以将多个功能模块实现为一个功能模块，也可以将一个功能模块分割为多个，或者将一部分功能转移到其他功能模块。另外，可以由单一硬件或软件并行或分时地处理具有相似功能的多个功能模块的功能。

产业上的可利用性

本公开能够应用于对图像赋予注释的技术。

Claims

1.一种学习数据生成装置，使用包含多个模型的CG数据来生成学习数据，所述学习数据生成装置具有：

第一存储部，其保存所述CG数据中的场景数据，所述场景数据包含与所述多个模型相关的一个以上的参数；

第1图像生成部，其使用所述场景数据所包含的所述一个以上的参数，生成场景数据用图像；

模型设定部，其从所述多个模型所包含的多个物体模型中选择特定物体模型，将所述特定物体模型以外的模型从所述场景数据中删除，以将所述特定物体模型设为特定颜色的方式进行所述一个以上的参数的设定，根据所述场景数据来生成学习数据生成用场景数据；

图像生成部，其使用所述学习数据生成用场景数据所包含的、所设定的所述一个以上的参数，生成学习数据用图像；

物体区域设定部，其在所述学习数据用图像中，设定作为所述特定物体模型的区域的特定物体区域；以及

第二存储部，其将所述场景数据用图像和所述特定物体区域的信息关联起来，并作为学习数据进行保存。

2.根据权利要求1所述的学习数据生成装置，

所述模型设定部选择多个所述特定物体模型，

所述模型设定部对所述多个特定物体模型分别生成所述学习数据生成用场景数据。

3.根据权利要求1所述的学习数据生成装置，

所述模型设定部选择多个所述特定物体模型，将所述多个特定物体模型以外的所述模型从所述场景数据中删除，对不同的所述特定物体模型应用不同的特定颜色，

所述图像生成部使用包含所述多个特定物体模型的所述学习数据生成用场景数据来生成所述学习数据用图像，

在所述学习数据用图像中能看到在一个所述特定物体模型上重叠有另外的所述特定物体模型的情况下，所述物体区域设定部将所述一个特定物体模型中的可见区域设定为所述特定物体区域。

4.根据权利要求1～3中的任一项所述的学习数据生成装置，

所述物体区域设定部在所述学习数据用图像中，形成包围所述特定物体区域的注释框，并将所述注释框的信息作为所述特定物体区域的信息保存于所述第二存储部。

5.根据权利要求1～3中的任一项所述的学习数据生成装置，

所述模型设定部变更所述场景数据所包含的所述多个模型中的至少一个模型，

所述图像生成部还根据所述变更后的所述场景数据，生成与所述特定物体区域的信息关联的所述场景数据用图像。

6.根据权利要求5所述的学习数据生成装置，

所述物体区域设定部在所述学习数据用图像中，形成包围所述特定物体区域的注释框，并将所述注释框的信息作为所述特定物体区域的信息，

所述模型设定部基于所述注释框的信息，变更所述场景数据所包含的所述多个模型中的至少一个模型。

7.根据权利要求5所述的学习数据生成装置，

所述模型设定部变更所述场景数据的所述特定物体模型，

所述图像生成部基于被变更的所述特定物体模型的所述特定物体区域的信息，生成变更后的所述特定物体模型及其周边的变更后图像，

所述物体区域设定部基于所述变更后图像，设定所述变更后的特定物体模型的所述特定物体区域。

8.根据权利要求7所述的学习数据生成装置，

所述模型设定部判定变更后的所述特定物体模型与其他的所述物体模型有无干涉，在存在干涉的情况下，不变更所述特定物体模型。

9.根据权利要求8所述的学习数据生成装置，

所述模型设定部在变更后的所述特定物体模型与其他的所述物体模型的干涉部分包含在未映现于所述场景数据用图像的区域中的情况下，与有无干涉无关地，变更所述特定物体模型。

10.根据权利要求7所述的学习数据生成装置，

所述模型设定部在变更后的所述特定物体模型比变更前大的情况下，不变更所述特定物体模型。

11.一种学习数据生成方法，根据包含多个模型的CG数据，生成学习数据，所述学习数据生成方法包括：

取得所述CG数据中的包含与所述多个模型相关的一个以上的参数的场景数据，

使用所述场景数据所包含的所述一个以上的参数，生成场景数据用图像，

从所述多个模型所包含的多个物体模型中选择特定物体模型，将所述特定物体模型以外的模型从所述场景数据中删除，以将所述特定物体模型设为特定颜色的方式进行所述一个以上的参数的设定，根据所述场景数据来生成学习数据生成用场景数据，

使用所述学习数据生成用场景数据所包含的、所设定的所述一个以上的参数，生成学习数据用图像，

在所述学习数据用图像中，设定作为所述特定物体模型的区域的特定物体区域，

生成将所述场景数据用图像和所述特定物体区域的信息关联起来的学习数据。

12.一种机器学习方法，包括：

输入通过权利要求11所述的学习数据生成方法生成的所述学习数据，

使用所述学习数据，更新识别模型，

在输入了包含所述特定物体的图像时，使用所述更新后的识别模型来识别所述特定物体，输出所述特定物体的类别和动作的内容。

13.一种程序，其使计算机执行如下处理：

在包含多个模型的CG数据中，取得包含与所述多个模型相关的一个以上的参数的场景数据，