JP2019023858A

JP2019023858A - 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム

Info

Publication number: JP2019023858A
Application number: JP2018101636A
Authority: JP
Inventors: 谷川　徹; Toru Tanigawa; 徹谷川; 幸恵庄田; Yukie Shoda; 征矢芋本; Seiya Imomoto
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2017-07-21
Filing date: 2018-05-28
Publication date: 2019-02-14
Also published as: EP3432216A1; CN109284661A; US20190026558A1

Abstract

【課題】ＣＧデータを用いてアノテーション処理し学習データを構築する処理を簡易化する技術を提供する。
【解決手段】学習データ生成装置は、複数のモデルを含むＣＧデータのシーンデータを格納する第一記憶部と、前記シーンデータを用いて、シーンデータ用画像を生成する第一画像生成部と、特定物体モデル以外のモデルを前記シーンデータから削除し、前記特定物体モデルを特定色にするよう、前記シーンデータから学習データ生成用シーンデータを生成するモデル設定部と、前記学習データ生成用シーンデータを用いて、学習データ用画像を生成する第二画像生成部と、前記学習データ用画像において、前記特定物体モデルの領域を設定する物体領域設定部と、前記シーンデータ用画像と前記領域の情報とを対応付けて、学習データとして格納する第二記憶部とを備える。
【選択図】図１

Description

本開示は、学習データ生成装置、学習データ生成方法、機械学習方法及びプログラムに関する。

機械学習のための学習データの構築等において、画像データの認識のためにラベル等のアノテーションが、画像データに付与される。例えば、特許文献１には、物体の形状及び動作を認識する物体認識装置が開示されている。物体認識装置は、対象物の３ＤＣＧ（Ｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌｃｏｍｐｕｔｅｒｇｒａｐｈｉｃｓ）画像を作成し、３ＤＣＧ画像を２次元平面に投影した２Ｄ画像を作成し、この２Ｄ画像を、対象物の形状の学習画像とする。

特開２０１０−２１１７３２号公報

例えば、街のような複雑な３ＤＣＧデータにおいて、街に含まれる人、車両等のモデルの配置位置、及びモデル間の相対位置関係から、ある視点から街を見た各モデルの見え方を算出するには、計算量が非常に多くなる。このような３ＤＣＧデータを用いて、対象物にアノテーションを付与し学習データを構築する場合、学習データの構築に多大な計算が必要となる。

本開示は、ＣＧデータを用いてアノテーション処理し学習データを構築する処理の簡易化を図る学習データ生成装置、学習データ生成方法、機械学習方法及びプログラムを提供する。

本開示の非限定的で例示的な一態様に係る学習データ生成装置は、複数のモデルを含むＣＧデータを用いて学習データを生成する学習データ生成装置であって、前記ＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを格納する第一記憶部と、前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成する第一画像生成部と、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう、前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成するモデル設定部と、前記学習データ生成用シーンデータに含まれる、設定した前記１以上のパラメータを用いて、学習データ用画像を生成する第二画像生成部と、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定する物体領域設定部と、前記シーンデータ用画像と、前記特定物体領域の情報とを対応付けて、学習データとして格納する第二記憶部とを備える。

本開示の非限定的で例示的な一態様に係る学習データ生成方法は、複数のモデルを含むＣＧデータから学習データを生成する学習データ生成方法であって、前記ＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定された前記１以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する。

本開示の非限定的で例示的な一態様に係る機械学習方法は、本開示の非限定的で例示的な一態様に係る学習データ生成方法によって生成された前記学習データを入力し、前記学習データを用いて認識モデルを更新し、前記特定物体を含む画像が入力されたとき、前記更新された認識モデルを用いて前記特定物体を認識し、前記特定物体の種別及び動作の内容を出力する。

本開示の非限定的で例示的な一態様に係るプログラムは、複数のモデルを含むＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定した前記１以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する、ことを、コンピュータに実行させる。

なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性の記録媒体を含む。本開示の一態様の付加的な恩恵及び有利な点は本明細書及び図面から明らかとなる。この恩恵及び／又は有利な点は、本明細書及び図面に開示した様々な態様及び特徴により個別に提供され得るものであり、その１以上を得るために全てが必要ではない。

本開示による学習データ生成装置等によれば、ＣＧデータを用いてアノテーション処理し学習データを構築する処理を簡易にすることができる。

図１は、実施の形態に係る学習データ生成装置を備える画像認識システムの概略的な構成の一例を示すブロック図である。図２は、図１の学習データ生成装置及び対象物認識装置の適用例を示す図である。図３は、ニューラルネットワークのモデルの一例を示す図である。図４は、実施の形態に係る学習データ生成装置が認識モデルを構築する処理の流れの一例を示すフローチャートである。図５は、実施の形態に係る学習データ生成装置が学習データを生成する処理の流れの一例を示すフローチャートである。図６は、実施の形態に係る学習データ生成装置のレンダリング部がシーンデータから生成するシーン画像の一例を示す模式的な図である。図７Ａは、対象モデルＡのアノテーション用画像の例である。図７Ｂは、対象モデルＢのアノテーション用画像の例である。図７Ｃは、対象モデルＣのアノテーション用画像の例である。図７Ｄは、対象モデルＤのアノテーション用画像の例である。図７Ｅは、対象モデルＥのアノテーション用画像の例である。図８Ａは、図７Ａのアノテーション用画像の対象モデルＡに設定されるアノテーション枠の例を示す図である。図８Ｂは、図７Ｂのアノテーション用画像の対象モデルＢに設定されるアノテーション枠の例を示す図である。図８Ｃは、図７Ｃのアノテーション用画像の対象モデルＣに設定されるアノテーション枠の例を示す図である。図８Ｄは、図７Ｄのアノテーション用画像の対象モデルＤに設定されるアノテーション枠の例を示す図である。図８Ｅは、図７Ｅのアノテーション用画像の対象モデルＥに設定されるアノテーション枠の例を示す図である。図９は、図６のシーン画像に対象モデルのアノテーション枠を重畳した図である。図１０は、第二記憶部に格納されるアノテーション情報の例を示す図である。図１１は、実施の形態に係る対象物認識装置が画像から対象物を認識する処理の流れの一例を示すフローチャートである。図１２は、複数の対象モデルを含むアノテーション用画像の例である。図１３は、図１２における対象モデルＢ〜Ｄを含む領域を拡大した図である。図１４は、図１３における対象モデルＣを拡大した図である。

［発明者による知見］
本開示に係る発明者ら、つまり本発明者らは、画像において人物及び物体等の対象物を認識及び検出する精度を向上するために、ＤｅｅｐＬｅａｒｎｉｎｇ（深層学習）等のニューラルネットワークを用いた技術を用いることを検討した。ＤｅｅｐＬｅａｒｎｉｎｇでの対象物の認識には大量の学習用の画像データが必要となる。そして、学習用の画像データでは、対象物は、ラベル付けされる、つまり、対象物の内容、位置及び領域等を含む情報を、アノテーション情報として付与される。アノテーション情報の付与は、アノテーションの付与とも呼ばれる。本発明者らは、今後、画像において、対象物の認識及び検出にとどまらず、対象物の動作の認識、さらには、対象物の動作の予測が求められるようになると考えた。上記の対象物の動作の例として、自動車の自動運転において、歩行者の飛び出しなどの周囲の対象物の危険動作をカメラの画像から認識又は予測すること、監視カメラにおいて、盗難等の犯罪動作をカメラの画像から認識又は予測すること等が、挙げられる。しかしながら、このような例は、日常的に発生しない稀なケースである。

現在、学習用の画像データの構築は、一般的に、カメラによって実際に撮影された画像を使用して行われている。上記のような稀なケースは、実際に撮影された画像に含まれることが少ないため、このようなケースに関して、十分な学習用の画像データを収集することが困難であり収集に長期間を要する。このため、本発明者らは、ＣＧデータを用いて、稀なケースの学習用の画像データを生成することを検討した。

例えば、自動車の自動運転に用いる学習用の画像データを生成する場合、街の３ＤＣＧデータのような自動車が走行する環境を表す３ＤＣＧデータが用いられ得る。上記の３ＤＣＧデータにおいて、自動車の運転席を視点とするカメラに写し出される画像が、学習用の画像データに用いられる。そして、生成された画像に写し出される人及び車両等の対象物に対して、アノテーションが付与される。対象物の配置位置、及び対象物間の相対的な位置関係から、上記カメラに写し出される対象物の見え方を算出することは、「背景技術」の欄で挙げた特許文献１に記載される技術では対応できず、困難であり、非常に多くの計算時間を要する。そこで、本発明者らは、３ＤＣＧデータを用いてアノテーション処理し学習データを構築する処理を簡易するために、以下に示す技術を考案した。

本開示の一態様に係る学習データ生成装置は、複数のモデルを含むＣＧデータを用いて学習データを生成する学習データ生成装置であって、前記ＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを格納する第一記憶部と、前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成する第一画像生成部と、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう、前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成するモデル設定部と、前記学習データ生成用シーンデータに含まれる、設定した前記１以上のパラメータを用いて、学習データ用画像を生成する第二画像生成部と、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定する物体領域設定部と、前記シーンデータ用画像と、前記特定物体領域の情報とを対応付けて、学習データとして格納する第二記憶部とを備える。

上記態様によると、学習データ生成用シーンデータは、シーンデータから、特定物体モデル以外のモデルを削除して生成される。このような学習データ生成用シーンデータを生成する処理は、簡易であり、処理量を低く抑えることができる。さらに、学習データ生成用シーンデータは、特定色にされた特定物体モデルのみをモデルとして含むため、データ量を低く抑えることができる。このような学習データ生成用シーンデータから第二画像生成部が学習データ用画像を生成する処理は、簡易であり、処理量を低く抑えることができる。また、学習データ用画像は、被写体として、特定物体モデルのみを含む。このため、物体領域設定部が特定物体領域を特定し設定する処理は、簡易であり、処理量を低く抑えることができる。このように、シーンデータから特定物体領域を設定する一連のアノテーション処理は、簡易であり、且つ処理量を低く抑えることができる。そして、特定物体領域の情報は学習データに適用される。よって、学習データ生成装置は、ＣＧデータを用いてアノテーション処理し学習データを構築するための処理を簡易にすることができる。

本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、複数の前記特定物体モデルを選択し、前記モデル設定部は、前記複数の特定物体モデルそれぞれに対して、前記学習データ生成用シーンデータを生成してもよい。

上記態様によると、シーンデータに含まれる複数の特定物体モデルそれぞれに対して、学習データ生成用シーンデータが生成される。つまり、学習データ生成用シーンデータは、特定物体モデル毎に生成される。よって、シーンデータに複数の特定物体モデルが含まれる場合でも、各学習データ生成用シーンデータから生成される学習データ用画像を用いて、各特定物体モデルの特定物体領域を設定することが可能である。

本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、複数の前記特定物体モデルを選択し、前記複数の特定物体モデル以外の前記モデルを、前記シーンデータから削除し、異なる前記特定物体モデルに異なる特定色を適用し、前記第二画像生成部は、前記複数の特定物体モデルを含む前記学習データ生成用シーンデータを用いて、前記学習データ用画像を生成し、前記物体領域設定部は、前記学習データ用画像において、１つの前記特定物体モデルの上に別の前記特定物体モデルが重なって見える場合、前記１つの特定物体モデルのうちの見える領域を、前記特定物体領域に設定してもよい。

上記態様によると、複数の特定物体モデルを含む学習データ生成用シーンデータが生成される。さらに、学習データ生成用シーンデータから生成される学習データ用画像上において、各特定物体モデルの特定物体領域が特定される。この際、異なる特定物体モデル間で、特定物体モデルの特定色が異なるため、各特定物体領域の特定が容易になる。例えば、学習データ用画像上で互いに重なり合う特定物体モデルの特定物体領域は、特定色の違いに基づき容易に設定可能である。このような特定物体領域は、特定物体モデルのうちの他の特定物体モデルによって隠されずに見える領域を対象とすることができる。つまり、特定物体領域は、特定物体モデルの一部の領域を対象とすることができる。これにより、特定物体領域を用いた学習データは、特定物体モデルの一部の画像を対象とし得る。よって、このような学習データを用いて構築される認識モデルは、画像から対象物を検出する精度を向上することができる。

本開示の一態様に係る学習データ生成装置において、前記物体領域設定部は、前記学習データ用画像において、前記特定物体領域を囲むアノテーション枠を形成し、前記アノテーション枠の情報を、前記特定物体領域の情報として前記第二記憶部に格納してもよい。

上記態様によると、特定物体領域がアノテーション枠によって定められるため、特定物体領域の設定が容易になる。例えば、アノテーション枠の形状、大きさ及び位置を決定することによって、特定物体領域が決定され得る。このようなアノテーション枠の情報は、ＤｅｅｐＬｅａｒｎｉｎｇ等の機械学習の学習データにおける特定物体領域の入力データとして、扱いやすいデータである。

本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、前記シーンデータに含まれる前記複数のモデルのうち少なくとも１つのモデルを変更し、前記第二画像生成部は、前記変更された前記シーンデータからも、前記特定物体領域の情報と対応付ける前記シーンデータ用画像を生成してもよい。

上記態様によると、第二画像生成部がシーンデータから生成するシーンデータ用画像は、シーンデータ及び変更されたシーンデータから生成された画像を含み得る。これにより、学習データにおいて、互いに対応付けられるシーンデータ用画像及び特定物体領域の情報の組み合わせを、増加することができる。よって、学習データのバリエーションが増え、このような学習データを用いて構築される認識モデルは、画像から対象物を検出する精度を向上することができる。

本開示の一態様に係る学習データ生成装置において、前記物体領域設定部は、前記学習データ用画像において、前記特定物体領域を囲むアノテーション枠を形成し、前記アノテーション枠の情報を、前記特定物体領域の情報とし、前記モデル設定部は、前記アノテーション枠の情報に基づいて、前記シーンデータに含まれる前記複数のモデルのうち少なくとも１つのモデルを変更してもよい。

上記態様によると、シーンデータの変更の際、アノテーション枠の情報に基づいて特定物体モデルが変更を受けるため、変更後の特定物体モデルに対するアノテーション枠の情報の再生成が、簡易又は不要となり得る。よって、シーンデータの変更処理の簡略化が可能になる。

本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、前記シーンデータの前記特定物体モデルを変更し、前記第二画像生成部は、変更される前記特定物体モデルの前記特定物体領域の情報に基づき、変更後の前記特定物体モデル及びその周辺の変更後画像を生成し、前記物体領域設定部は、前記変更後画像に基づき、前記変更後の特定物体モデルの前記特定物体領域を設定してもよい。

上記態様によると、特定物体モデルの変更に伴い、アノテーション枠の情報が再生成され得る。これにより、特定物体モデルの変更の自由度が増える。よって、学習データにおいて、特定物体モデルの特定物体領域のバリエーションが増える。

本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、変更後の前記特定物体モデルと他の前記物体モデルとの干渉の有無を判定し、干渉がある場合、前記特定物体モデルを変更しなくてもよい。

上記態様によると、特定物体モデルを、円滑に且つ実際の状況に即して変更することが可能になる。例えば、変更後の特定物体モデルが他の物体モデルと重なるように干渉するケースは、実現性の低いケースであり、このようなケースが学習データに含まれないようにすることが可能である。よって、認識モデルの検出精度が向上し得る。

本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、変更後の前記特定物体モデルと他の前記物体モデルとの干渉部分が前記シーンデータ用画像に写し出されない領域に含まれる場合、干渉の有無に関係なく、前記特定物体モデルを変更してもよい。

上記態様によると、シーンデータから生成されるシーンデータ用画像上に表されない干渉部分を判定の対象から除外することによって、特定物体モデルの変更処理の簡略化が可能になる。

本開示の一態様に係る学習データ生成装置において、前記モデル設定部は、変更後の前記特定物体モデルが変更前よりも大きくなる場合、前記特定物体モデルを変更しなくてもよい。

上記態様によると、変更後の特定物体モデルと他の物体モデルとの干渉の有無の判定が不要になる。よって、特定物体モデルの変更処理の簡略化が可能になる。

本開示の一態様に係る学習データ生成方法は、複数のモデルを含むＣＧデータから学習データを生成する学習データ生成方法であって、前記ＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定された前記１以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する。上記態様によると、本開示の一態様に係る学習データ生成装置と同様の効果が得られる。

本開示の一態様に係る機械学習方法は、本開示の一態様に係る学習データ生成方法によって生成された前記学習データを入力し、前記学習データを用いて認識モデルを更新し、前記特定物体を含む画像が入力されたとき、前記更新された認識モデルを用いて前記特定物体を認識し、前記特定物体の種別及び動作の内容を出力する。上記態様によると、本開示の一態様に係る学習データ生成方法と同様の効果が得られる。

本開示の一態様に係る学習データ生成プログラムは、複数のモデルを含むＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定した前記１以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成することを、コンピュータに実行させる。上記態様によると、本開示の一態様に係る学習データ生成装置と同様の効果が得られる。

なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばＣＤ−ＲＯＭ等の不揮発性の記録媒体を含む。

［実施の形態］
以下、本開示の実施の形態に係る学習データ生成装置１００等について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ（工程）、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、以下の実施の形態の説明において、略平行、略直交のような「略」を伴った表現が、用いられる場合がある。例えば、略平行とは、完全に平行であることを意味するだけでなく、実質的に平行である、すなわち、例えば数％程度の差異を含むことも意味する。他の「略」を伴った表現についても同様である。また、各図は模式図であり、必ずしも厳密に図示されたものではない。さらに、各図において、実質的に同一の構成要素に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。

［１−１．学習データ生成装置の構成］
図１を参照して、実施の形態に係る学習データ生成装置１００、及び学習データ生成装置１００を備える画像認識システム１０の構成を説明する。なお、図１は、実施の形態に係る学習データ生成装置１００を備える画像認識システム１０の概略的な構成の一例を示すブロック図である。画像認識システム１０は、画像において対象物を検出するための認識モデルを構築し、当該認識モデルを用いて、画像に含まれる対象物を検出する。画像認識システム１０は、学習データ生成装置１００と、対象物認識装置２００とを備える。

学習データ生成装置１００は、撮像装置によって撮影された画像（以下、撮影画像とも呼ぶ）内及びＣＧ画像内の対象物にアノテーションを付与し、認識モデルを構築するための学習用のデータ（以下、学習データとも呼ぶ）を生成する。さらに、学習データ生成装置１００は、生成した学習データを用いて、画像から対象物を検出するための認識モデルを構築する。認識モデルの構築には、後述する学習モデルが適用される。学習データは、認識モデルが学習するために使用するデータである。学習データは、撮影画像及びＣＧ画像と、撮影画像及びＣＧ画像に付与されたアノテーションの情報とを含む。アノテーションの情報は、画像内の対象物の種別及び動作などの内容、対象物の位置及び領域等の情報を含む。

学習データ生成装置１００は、学習データを用いて認識モデルに学習させることによって、検出精度を向上した認識モデルを構築する。本実施の形態では、認識モデルに適用される学習モデルは、ＤｅｅｐＬｅａｒｎｉｎｇ（深層学習）等のニューラルネットワークを用いた機械学習モデルであるが、他の学習モデルであってもよい。例えば、学習モデルは、ＲａｎｄｏｍＦｏｒｅｓｔ、又はＧｅｎｅｔｉｃＰｒｏｇｒａｍｍｉｎｇ等を用いた機械学習モデルであってもよい。

対象物認識装置２００は、学習データ生成装置１００が構築した認識モデルを用いて、画像認識システム１０が取得する画像に含まれる対象物を検出する。さらに、対象物認識装置２００は、対象物の検出結果を出力する。

以降において、図２に示すように、対象物認識装置２００が、移動体、具体的には、自動車１に搭載され、学習データ生成装置１００が、自動車１から離れた位置にあるサーバ２に搭載されるとして、説明する。自動車１の対象物認識装置２００と、サーバ２とは、無線通信を介して接続され、例えば、インターネット等の通信網３を介して互いに無線通信する。学習データ生成装置１００と対象物認識装置２００とは、無線通信を介して、情報を送受信する。上記無線通信には、Ｗｉ−Ｆｉ（登録商標）（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）などの無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）が適用されてもよく、その他の無線通信が適用されてもよい。サーバ２は、コンピュータ等の情報処理装置であってもよい。サーバ２は、１つ以上のサーバを含んでもよく、クラウドシステムを構成してもよい。

学習データ生成装置１００は、通信回路等の無線通信装置を備えてもよく、サーバ２が備える無線通信装置を利用してもよい。対象物認識装置２００は、通信回路等の無線通信装置を備えてもよく、自動車１が備える無線通信装置を利用してもよい。なお、学習データ生成装置１００と対象物認識装置２００とは、無線通信を介して接続されず、有線通信を介して接続されてもよく、不揮発性メモリ等の記録媒体を介して、互いに情報を授受してもよい。

また、自動車１に搭載されるコンピュータが処理可能であれば、学習データ生成装置１００が自動車１に搭載されてもよい。この場合、学習データ生成装置１００と対象物認識装置２００とは一体化されてもよい。そして、学習データ生成装置１００は、無線通信、有線通信又は記録媒体を介して、自動車１の外部と、情報を授受してもよい。

さらに、図１を参照して、画像認識システム１０の学習データ生成装置１００及び対象物認識装置２００の詳細な構成を説明する。なお、以降において、画像認識システム１０が、学習データを生成するために３ＤＣＧデータを使用するケースを説明する。３ＤＣＧデータは、３次元空間内に配置された様々な仮想的な物体（以下、仮想的な物体のことをモデルとも呼ぶ）に関する情報等を含む。また、本実施の形態では、３ＤＣＧデータが、街の３ＤＣＧデータである例を説明するが、画像認識システム１０に適用される３ＤＣＧデータは、いかなる環境の３ＤＣＧデータであってもよい。学習データ生成装置１００は、モデル設定部１０１、レンダリング部１０２、物体領域設定部１０３、認識モデル構築部１０４、第一記憶部１０５、第二記憶部１０６及び第三記憶部１０７を備える。ここで、レンダリング部１０２は、第一画像生成部及び第二画像生成部の一例である。

第一記憶部１０５、第二記憶部１０６及び第三記憶部１０７は、種々の情報を格納し、且つ格納した情報を取り出すことができる。第一記憶部１０５、第二記憶部１０６及び第三記憶部１０７は、例えば、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリなどの半導体メモリ、ハードディスクドライブ、又は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置によって実現される。第一記憶部１０５は、３ＤＣＧデータにおけるシーンデータを格納する。シーンデータは、３ＤＣＧデータが示す街等に配置されたカメラに写し出される光景に含まれる全ての要素に関する情報を含む。具体的には、例えば、シーンデータは、上記光景に含まれる人、車両及び建物等の物体のモデル（物体モデルとも呼ぶ）だけでなく、カメラの位置及び向き、上記光景の光源（光源モデルとも呼ぶ）、上記光景の背景の情報（背景モデルとも呼ぶ）、及び上記光景の環境の情報（環境モデルとも呼ぶ）等の様々なモデルも含み得る。３ＤＣＧデータにおいて位置及び向きが設定されたカメラを、カメラモデルとも呼ぶ。モデルは、３ＤＣＧデータの３次元空間を構成する様々な要素である。モデルには、当該３次元空間内において、その種別、形状、寸法、配置、動作、作用及び経時的な変化等の様々な事項が設定されている。また、第一記憶部１０５は、３ＤＣＧデータ全体を格納してもよい。

例えば、本実施の形態のように、３ＤＣＧデータが街のデータである場合、街全体が３Ｄモデル化されている。街の３ＤＣＧデータは、街に含まれる人、車両、建物及びその他の構造物等の物体モデルにおける種別及び動作などの内容、形状、並びに配置等の物体モデルに関する情報、太陽及び照明等の光源モデルの情報、背景モデルの情報、並びに、雨及び霧などの天候等の環境モデルの情報のような、街を構成する様々なモデルの情報を含み得る。物体モデルには、建物、道路、道路付属物、駐車場、公園、植物及びその他の構造物等の不動な物体モデル、並びに、人、動物及び車両等の移動可能な物体モデルが含まれる。３ＤＣＧデータは、３ＤＣＧデータ内でカメラモデルの位置及び向きを任意に設定することによって、カメラモデルが写し出す様々な光景を表示することができる。例えば、カメラモデルの位置が自動車の運転席である場合、３ＤＣＧデータは、当該自動車の運転席から見える光景を表示することができる。３ＤＣＧデータから生成されるシーンデータは、カメラモデルに写し出される光景に含まれる様々なモデルに関する情報を含み得る。つまり、シーンデータは、カメラモデルに対応したデータである。例えば、走行する自動車と共にカメラモデルが移動する場合、シーンデータは、カメラモデルの移動に伴った各モデルの変化を示すアニメーション情報を含む。

第二記憶部１０６は、学習データ生成装置１００が第一記憶部１０５内のシーンデータから生成される画像に対して、画像内の対象物に付与したアノテーションの情報と、当該画像とを対応付けて格納する。第三記憶部１０７は、学習データ生成装置１００が構築した認識モデルを格納する。

モデル設定部１０１は、３ＤＣＧデータ及びシーンデータ内に含まれるモデルの設定を行う。例えば、モデル設定部１０１は、３ＤＣＧデータ及びシーンデータ内の光源モデルを設定する。光源モデルは、太陽であっても、画像内の各モデルを表示するための照明などの光源であってもよい。モデル設定部１０１は、光源モデルの状態を設定することによって、シーンデータから生成される画像内でのモデルの表示のされ方を変更することができる。例えば、モデル設定部１０１は、光源モデルを削除することもできる。

また、モデル設定部１０１は、光源モデル以外のモデルの変更及び配置変更等のモデルに対する設定の変更も行う。また、モデル設定部１０１は、光源モデルを削除したシーンデータにおいて、処理の対象とするモデルを対象モデルに設定し、当該対象モデル以外のモデルを削除する処理も行う。このようなモデル設定部１０１は、シーンデータに対して、対象モデルのみを表示対象とする処理を行う。ここで、対象モデルは、特定物体モデルの一例である。

また、モデル設定部１０１は、３ＤＣＧデータ及びシーンデータ内のテクスチャの設定及びマテリアルのパラメータの設定をする。具体的には、モデル設定部１０１は、３ＤＣＧデータ及びシーンデータ内のモデルのテクスチャを設定する。また、モデル設定部１０１は、３ＤＣＧデータ及びシーンデータ内のモデルに対して、光学的特性及び材質感等の物体の材質を示すマテリアルのパラメータを設定する。また、モデル設定部１０１は、対象モデル以外のモデルを削除したシーンデータにおいて、対象モデルのテクスチャを設定する処理も行う。この場合、モデル設定部１０１は、対象モデルのテクスチャを白等の特定色に設定する。モデル設定部１０１は、対象モデルを発光させるようにテクスチャを設定してもよい。なお、モデル設定部１０１は、対象モデル以外のモデルを削除したシーンデータにおいて、対象モデルのマテリアルのパラメータを、特定のマテリアルに設定する処理を行ってもよい。ここで、対象モデルのテクスチャが特定色に設定されたシーンデータは、学習データ生成用シーンデータの一例である。

レンダリング部１０２は、画像に関する情報に基づいて画像を生成する。例えば、レンダリング部１０２は、シーンデータから、シーンデータに設定されたカメラモデルに写し出される光景の画像を生成する。シーンデータが、アニメーション情報を含む場合、レンダリング部１０２は、１つのシーンデータから、アニメーションを構成する複数のフレームの画像を生成する。また、レンダリング部１０２は、モデル設定部１０１が対象モデルのテクスチャを特定色に設定したシーンデータから、対象モデルを含む画像を生成する処理も行う。例えば、対象モデルのテクスチャが白に設定されている場合、レンダリング部１０２は、対象モデルの領域が白色であり且つ背景が黒色である画像を生成する。

物体領域設定部１０３は、画像上において、対象とするモデルの領域を設定する。例えば、物体領域設定部１０３は、対象モデルのテクスチャが特定色であるシーンデータからレンダリング部１０２が生成した画像において、対象モデルの領域の位置、形状及び大きさを設定する。ここで、対象モデルの領域は、物体特定領域の一例である。例えば、物体領域設定部１０３は、当該画像における対象モデルの領域である白色領域を外側から囲うアノテーション枠を、対象モデルの領域に設定する。この場合、物体領域設定部１０３は、例えば、対象モデルの白色領域に外接する矩形等の多角形のアノテーション枠を設定する。さらに、物体領域設定部１０３は、画像上におけるアノテーション枠の位置及び大きさを特定する。このように、物体領域設定部１０３は、アノテーション枠の位置、形状及び大きさを特定することによって、対象モデルの領域を設定する。なお、物体領域設定部１０３は、アノテーション枠を用いずに対象モデルの領域を設定してもよい。

さらに、物体領域設定部１０３は、対象モデルの種別及び動作等の内容、並びに、当該対象モデルのアノテーション枠の位置、形状及び大きさ等の情報を互いに関連付け、当該対象モデルのアノテーション情報として、第二記憶部１０６に格納する。上述のようにして、物体領域設定部１０３は、画像内の対象モデルにアノテーションを付与する。また、物体領域設定部１０３は、対象モデルへのアノテーションの付与に用いた画像に対応する処理前の画像と、アノテーション情報とを対応付ける。上記処理前の画像は、対象物へのアノテーションの付与に用いた画像と同じ光景を示す、つまり同じカメラモデルの画像であり、モデル設定部１０１によるモデルの削除等の上述の処理を受けていないシーンデータから生成される画像である。

認識モデル構築部１０４は、第二記憶部１０６に格納された対象モデルのアノテーション情報及び当該アノテーション情報に対応する画像を、学習データとして用いて、認識モデルを構築する。認識モデル構築部１０４は、アノテーションが実施された画像を、入力データとする。そして、認識モデル構築部１０４は、当該入力データが入力された認識モデルの出力結果が対象モデルを示すように、認識モデルに学習させる、つまり認識モデルを再構築する。認識モデルに学習させるとは、入力データに対して正解である結果が出力されるように、認識モデルを再構築することである。認識モデル構築部１０４は、様々な対象モデルの様々な画像を入力データとし、正解となる対象モデルが出力されるように、認識モデルの再構築を繰り返すことによって、認識モデルの出力精度を向上させる。認識モデル構築部１０４は、再構築を繰り返すことによって学習させた認識モデルを、第三記憶部１０７に格納する。

本実施の形態では、認識モデル構築部１０４は、認識モデルの学習モデルにニューラルネットワークを用いる。例えば、図３を参照すると、ニューラルネットワークのモデルの一例が示されている。ニューラルネットワークは、脳神経系をモデルにした情報処理モデルである。ニューラルネットワークは、入力層及び出力層を含む複数のノード層で構成されている。ノード層には、１つ以上のノードが含まれる。ニューラルネットワークのモデル情報は、ニューラルネットワークを構成するノード層の数と、各ノード層に含まれるノード数と、ニューラルネットワークの全体又は各ノード層の種別とを示す。ニューラルネットワークが、例えば、入力層、１つ以上の中間層及び出力層で構成される場合、ニューラルネットワークは、入力層のノードに入力された情報について、入力層から中間層への出力処理、中間層での処理、中間層から次の中間層又は出力層への出力処理、出力層での処理等を順次行い、入力情報に適合する出力結果を出力する。なお、１つの層の各ノードは、次の層の各ノードと接続されており、ノード間の接続には、重み付けがされている。１つの層のノードの情報は、ノード間の接続の重み付けが付与されて、次の層のノードに出力される。入力層、中間層及び出力層それぞれのノード数は、種々に設定され得る。

認識モデル構築部１０４は、アノテーション枠内の対象モデルの画像をニューラルネットワークに入力する。入力層の各ノードには、対象モデルの画像から抽出される特徴が入力される。さらに、認識モデル構築部１０４は、ニューラルネットワークからの出力が、アノテーション情報に含まれる対象モデルの内容と一致するように、ニューラルネットワークのノード間の重み付けを最適化する。このような重み付けの調整によって、認識モデル構築部１０４は、入力画像と対象モデルの内容との関係を、ニューラルネットワークに学習させ、出力精度の高いニューラルネットワークを再構築する。認識モデル構築部１０４は、上述のような再構築後のニューラルネットワークを、認識モデルとする。

なお、認識モデル構築部１０４は、ニューラルネットワークから出力される対象モデルの種別及び動作が、アノテーション情報に含まれる対象モデルの種別及び動作と一致するように、ニューラルネットワークのノード間の重み付けを最適化してもよい。このように構築されたニューラルネットワークは、入力された画像に基づき、対象モデルを検出するだけでなく、対象モデルが行っている又はこれから行う動作も検出することができる。

上述のようなモデル設定部１０１、レンダリング部１０２、物体領域設定部１０３及び認識モデル構築部１０４で構成される学習データ生成装置１００の構成要素はそれぞれ、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ、ＲＯＭなどからなるコンピュータシステム（図示せず）により構成されてもよい。上記構成要素の一部又は全部の機能は、ＣＰＵがＲＡＭを作業用のメモリとして用いてＲＯＭに記録されたプログラムを実行することによって達成されてもよい。また、上記構成要素の一部又は全部の機能は、電子回路又は集積回路等の専用のハードウェア回路によって達成されてもよい。プログラムは、ＲＯＭに予め記録されたものであってもよく、アプリケーションとして、インターネット等の通信網を介した通信、モバイル通信規格による通信、その他の無線ネットワーク、有線ネットワーク、又は放送等で提供されるものであってもよい。

また、対象物認識装置２００は、対象物検出部２０１と第四記憶部２０２とを備える。対象物検出部２０１は、サーバ２の学習データ生成装置１００から、その第三記憶部１０７に格納された認識モデルを、無線通信等を介して取得し、第四記憶部２０２に格納する。学習データ生成装置１００が認識モデルを更新すると、対象物検出部２０１は、更新後の最新の認識モデルを用いて、第四記憶部２０２に格納された認識モデルを更新する。第四記憶部２０２は、第一記憶部１０５等と同様に、例えば、ＲＯＭ、ＲＡＭ、フラッシュメモリなどの半導体メモリ、ハードディスクドライブ、又はＳＳＤ等の記憶装置によって実現される。

対象物検出部２０１は、自動車１に搭載された撮像装置１ａから、撮像装置１ａが撮影した画像を取得する。撮像装置１ａは、例えば、デジタル画像を生成するカメラであり、動画及び／又は静止画を出力する。対象物検出部２０１は、取得した画像において、認識モデルを用いて対象物を検出する。具体的には、対象物検出部２０１は、取得した画像を、第四記憶部２０２に格納された認識モデルに入力し、認識モデルの出力結果を取得する。対象物検出部２０１は、画像から種々の特徴を抽出し、抽出した特徴を入力情報として、認識モデルに入力する。認識モデルは、入力情報に基づき、画像に含まれる対象物の種別及び動作等の内容並びに位置等を出力する。対象物検出部２０１は、対象物の種別及び動作等の内容並びに位置等を検出結果として出力する。対象物は、例えば、人及び車両であるが、道路の植栽、道路標識、道路標示及び信号などの道路付属物、工事用バリケードなどの道路上の障害物、動物等の様々な物体であってもよい。車両は、自動車、大型貨物車、バス、特殊車両、自動二輪車、自転車、その他の軽車両等であってもよい。

対象物検出部２０１は、検出結果を、自動車１に搭載された報知部１ｂに出力してもよく、自動車１のＥＣＵ（電子制御ユニット、ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）等の制御部１ｃに出力してもよい。報知部１ｂは、ディスプレイ及び／又はスピーカで構成されてよく、取得した検出結果を自動車１の運転者に報知する。ディスプレイは、液晶パネル、有機又は無機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）等の表示パネルで構成されてもよい。制御部１ｃは、自動車１が自動運転機能を備える場合、取得した検出結果に基づき、自動車１の動作を制御する。例えば、検出結果が道路を横断しようとする人を示す場合、制御部１ｃは、自動車１を停止する又は減速する制御を行う。自動運転機能は、衝突回避ブレーキ及び車線維持のような自動車の運転の一部を補助する機能であってもよく、全体を担う機能であってもよい。

上述のような対象物検出部２０１の構成は、モデル設定部１０１、レンダリング部１０２、物体領域設定部１０３及び認識モデル構築部１０４のような学習データ生成装置１００の構成要素について説明した構成と同様であってもよい。対象物検出部２０１は、制御部１ｃに含まれてもよい。

［１−２．学習データ生成装置の動作］
図１及び図４を参照して、実施の形態に係る学習データ生成装置１００の動作を説明する。なお、図４は、実施の形態に係る学習データ生成装置１００が認識モデルを構築する処理の流れの一例を示すフローチャートである。図４に示すように、学習データ生成装置１００は、ステップＳ１０１において、画像から対象物を検出するための認識モデルを構築するために、当該認識モデルの構築に使用する学習データを生成する。学習データは、画像データと、画像データ内の対象物に付与されたアノテーションの情報とを含む。

次いで、ステップＳ１０２において、学習データ生成装置１００は、生成した学習データを用いて、認識モデルに学習させることによって、認識モデルを構築する。具体的には、認識モデル構築部１０４は、画像データ内におけるアノテーションが付与された対象物の画像を認識モデルの入力データとしたとき、当該アノテーションの情報に含まれる対象物の種別及び動作等の内容、つまり正解の出力結果が出力されるように、認識モデルを調整する。認識モデル構築部１０４は、様々な対象物の様々な画像を用いて、認識モデルを調整することによって、認識モデルの出力精度を向上させる。認識モデル構築部１０４は、学習済みの認識モデルを、第三記憶部１０７に格納する。なお、認識モデル構築部１０４は、第三記憶部１０７に格納された認識モデルにさらに学習させ、認識モデルを更新してもよい。

さらに、図１及び図５を参照して、図４のステップＳ１０１の処理、つまり、学習データ生成装置１００による学習データの生成処理の詳細を説明する。なお、図５は、実施の形態に係る学習データ生成装置１００が学習データを生成する処理の流れの一例を示すフローチャートである。

まず、ステップＳ２０１において、学習データ生成装置１００のレンダリング部１０２は、第一記憶部１０５から、街の３ＤＣＧデータの所定のシーンデータを取得する。例えば、シーンデータは、カメラモデルに関するパラメータ、及び、３ＤＣＧの街の道路を走る自動車の運転席に配置されたカメラモデルに写し出される前方の光景に関する複数のパラメータを含む。なお、カメラモデルの位置は、自動車のいかなる場所であってもよく、自動車以外の場所であってもよい。限定するものではないが、本実施の形態では、シーンデータは、自動車と共に移動するカメラモデルに写し出される光景に関する複数のパラメータに対応する。なお、第一記憶部１０５へ格納するシーンデータの選択、形成及び格納は、サーバ２の操作者によって行われてもよい。例えば、操作者は、サーバ２において、街の３ＤＣＧデータを操作し、３ＤＣＧ内のカメラモデルの位置及び向きを選択する。さらに、操作者は、当該カメラモデルを、例えば、道路等に沿って移動させ、移動する過程でカメラモデルに連続的に写し出される光景に関するパラメータをシーンデータとして選択し、第一記憶部１０５に格納する。操作者は、様々なカメラモデルの位置、向き及び移動方向でシーンデータを作成し、第一記憶部１０５に格納する。これにより、様々な視点での光景に関する複数のパラメータを含むシーンデータが形成され、第一記憶部１０５に格納される。

レンダリング部１０２は、第一記憶部１０５に格納された様々なシーンデータの中から、サーバ２及び学習データ生成装置１００の操作者が指定する位置及び向きのカメラモデルに写し出される光景に関する複数のパラメータを含むシーンデータを、所定のシーンデータとして取得する。

次のステップＳ２０２において、レンダリング部１０２は、所定のシーンデータに含まれる複数のパラメータを用いて、カメラモデルに写し出される光景の画像（以下、シーン画像とも呼ぶ）を生成する。連続的に変化するシーンは、例えばｎ個である複数のシーンで構成されており、ｎ個のシーンそれぞれに対応するｎ個のカメラモデルが、シーンデータ内に存在する。このため、レンダリング部１０２は、シーンデータから、ｎ個のカメラモデルそれぞれが写し出すｎ個のフレームのシーン画像を生成する。レンダリング部１０２は、生成したシーン画像をカメラモデルと対応付けて第二記憶部１０６に格納する。例えば、図６を参照すると、実施の形態に係る学習データ生成装置１００のレンダリング部１０２がシーンデータから生成するシーン画像の一例が模式的に示されている。なお、シーンデータは、１つのカメラモデルのみを含む構成であってもよい。ここで、シーン画像は、シーンデータ用画像の一例である。

次いで、ステップＳ２０３において、モデル設定部１０１は、シーンデータのパラメータの設定を行うことによって、シーンデータに設定されている光源モデルを削除する。例えば、光源モデルが削除されたシーンデータから画像を生成すると、生成された画像全体が、黒色等の単色で塗りつぶされた状態となる。

次いで、ステップＳ２０４において、モデル設定部１０１は、シーンデータに含まれる複数のモデルの中から、処理の対象とする対象モデルを抽出する。本実施の形態では、モデル設定部１０１は、予め決められた規則に従って、移動可能な対象モデルを抽出する。なお、予め決められた規則は、抽出すべき対象モデルが移動可能であるという規則であるが、これに限定されない。このようなモデル設定部１０１は、人及び車両等の物体モデルを、対象モデルとして抽出する。例えば、図６に示す光景を含むシーンデータにおいて、モデル設定部１０１は、対象モデルＡ〜Ｅを抽出する。対象モデルＡは歩行者であり、対象モデルＢはバスであり、対象モデルＣは自動二輪車であり、対象モデルＤは自動車であり、対象モデルＥは自転車である。ここで、対象モデルは、特定物体モデルの一例である。

さらに、ステップＳ２０５において、モデル設定部１０１は、ステップＳ２０４において抽出した、全ての対象モデルに対するアノテーションが完了したか否かを判定する。具体的には、モデル設定部１０１は、ｎ個のフレームのシーン画像に含まれる全ての対象モデルに対して、アノテーション処理が完了したか否かを判定する。上記アノテーション処理は、ステップＳ２０５〜Ｓ２１５の処理である。モデル設定部１０１は、アノテーション処理が完了している場合（ステップＳ２０５でＹＥＳ）、ステップＳ１０２へ進み、アノテーション処理が完了していない場合（ステップＳ２０５でＮＯ）、ステップＳ２０６へ進む。

ステップＳ２０６では、モデル設定部１０１は、アノテーション処理がされていない対象モデルの中から、１つの対象モデル（以下、認識対象モデルと呼ぶ）を選ぶ。例えば、モデル設定部１０１は、アノテーション処理された対象モデルを図示しないメモリに記憶し、メモリに記憶されている対象モデル以外の対象モデルを、認識対象モデルとして選ぶ。

次のステップＳ２０７では、モデル設定部１０１は、認識対象モデルに対して、シーンデータに含まれる全てのカメラモデルに関してアノテーション処理が完了しているか否かを判定する。各カメラモデルに関するアノテーション処理は、ステップＳ２０７〜Ｓ２１５の処理である。モデル設定部１０１は、アノテーション処理が完了している場合（ステップＳ２０７でＹＥＳ）、ステップＳ２０５へ戻り、アノテーション処理が完了していない場合（ステップＳ２０７でＮＯ）、ステップＳ２０８へ進む。

ステップＳ２０８では、モデル設定部１０１は、認識対象モデルに設定するカメラモデル（以下、特定カメラモデルと呼ぶ）を、シーンデータに含まれるカメラモデルの中から選択する。なお、モデル設定部１０１は、アノテーション処理にまだ用いられていないカメラモデルを、特定カメラモデルとして選ぶ。

次のステップＳ２０９では、モデル設定部１０１は、シーンデータに含まれるモデルを探索し、モデルが認識対象モデルに該当するか否かを判定する。これにより、モデル設定部１０１は、モデルの中から、認識対象モデルを抽出する。モデル設定部１０１は、認識対象モデルに該当する場合（ステップＳ２０９でＹＥＳ）、ステップＳ２１０へ進み、認識対象モデルに該当しない場合（ステップＳ２０９でＮＯ）、ステップＳ２１１へ進む。

ステップＳ２１０では、モデル設定部１０１は、シーンデータのパラメータの設定を行うことによって、抽出された認識対象モデルのテクスチャを白色等の特定色の無地のテクスチャに張り替える。モデル設定部１０１は、認識対象モデルを発光させるように、テクスチャに張り替えてもよい。モデル設定部１０１は、ステップＳ２１０の後、ステップＳ２１２へ進む。

ステップＳ２１１では、モデル設定部１０１は、該当しないモデルを、シーンデータから削除する。このとき、モデル設定部１０１は、シーンデータのパラメータの設定を行うことによって、特定カメラモデル以外のカメラモデルを削除する。さらに、モデル設定部１０１は、シーンデータのパラメータの設定を行うことによって、認識対象モデル以外のモデルを削除する。例えば、モデル設定部１０１は、認識対象モデル以外の物体モデルの光の反射率を０にしてもよい。モデル設定部１０１は、ステップＳ２１１の後、ステップＳ２１２へ進む。

ステップＳ２１２において、モデル設定部１０１は、認識対象モデルに関するシーンデータの再構築が完了したか否かを判定する。上記のシーンデータの再構築とは、特定カメラモデルと、特定色のテクスチャを有する認識対象モデルとのみを、モデルとして含むシーンデータが再構築されることである。モデル設定部１０１は、シーンデータの再構築が完了している場合（ステップＳ２１２でＹＥＳ）、ステップＳ２１３へ進み、シーンデータの再構築が完了していない場合（ステップＳ２１２でＮＯ）、ステップＳ２０９へ戻る。そして、ステップＳ２０９〜Ｓ２１２の処理が繰り返されることによって、１つの特定カメラモデルと１つの認識対象モデルとの組み合わせに対して、１つのシーンデータが構築される。このようなステップＳ２０９〜Ｓ２１２の処理によって実現されるシーンデータの構築は、簡易であり、処理量を低く抑え得る。

ステップＳ２１３では、レンダリング部１０２は、再構築されたシーンデータから、画像（以下、アノテーション用画像とも呼ぶ）を生成する。レンダリング部１０２は、再構築されたシーンデータに含まれる特定カメラモデル及び認識対象モデルのパラメータを用いて、特定カメラモデルが写し出す認識対象モデルの画像を生成する。このような生成画像は、白色等の特定色の無地のテクスチャを有する認識対象モデルと、黒色等の無地の背景とで構成される画像である。そして、生成画像は、認識対象モデルのアノテーション用の画像として用いることができる。このような生成画像の例が、図７Ａ〜図７Ｅに示されている。図７Ａは、対象モデルＡのアノテーション用画像の例である。図７Ｂは、対象モデルＢのアノテーション用画像の例である。図７Ｃは、対象モデルＣのアノテーション用画像の例である。図７Ｄは、対象モデルＤのアノテーション用画像の例である。図７Ｅは、対象モデルＥのアノテーション用画像の例である。アノテーション用画像は、１つの特定カメラモデルと１つの認識対象モデルとを含むシーンデータから生成されるため、アノテーション用画像の生成処理は、簡易であり、処理量を低く抑え得る。ここで、アノテーション用画像は、学習データ用画像の一例である。

なお、レンダリング部１０２が生成するアノテーション用画像は、１つの再構築後のシーンデータから生成され且つ１つの認識対象モデルを含む画像に限定されない。レンダリング部１０２は、複数の認識対象モデルに対応する複数の再構築後のシーンデータから、１つのアノテーション用画像を生成してもよい。また、モデル設定部１０１が、複数の認識対象モデルを含む１つの再構築後のシーンデータを生成し、レンダリング部１０２が、この再構築後のシーンデータから、１つのアノテーション用画像を生成してもよい。このようなアノテーション画像は、同一のカメラモデルによって写し出される複数の認識対象モデルを含み得る。

次いで、ステップＳ２１４において、物体領域設定部１０３は、ステップＳ２１３で生成されたアノテーション用画像から、当該アノテーション用画像に含まれる認識対象モデルのアノテーション情報を抽出する。物体領域設定部１０３は、アノテーション用画像における認識対象モデルの位置及び領域等の情報をアノテーション情報として抽出する。例えば、物体領域設定部１０３は、アノテーション用画像上において、認識対象モデルを囲い且つ認識対象モデルに外接するアノテーション枠を形成し、アノテーション枠の位置、形状及び大きさをアノテーション情報とする。アノテーション枠は、形状の特定が容易である矩形等の多角形であってもよく、本実施の形態では、矩形である。例えば、図８Ａ〜図８Ｅを参照すると、図７Ａ〜図７Ｅのアノテーション用画像の対象モデルＡ〜Ｅそれぞれに設定される矩形のアノテーション枠の例ＡＦ〜ＥＦが示されている。アノテーション枠の位置及び大きさは、アノテーション用画像に設定される座標系である画像座標系を用いて表される。ここで、認識対象モデルの領域は、特定物体領域の一例である。

図８Ａ〜図８Ｅに示すように、例えば、物体領域設定部１０３は、矩形をしたアノテーション用画像の左上の角に原点Оを設定する。さらに、物体領域設定部１０３は、アノテーション用画像に対して、原点Ｏから水平右方向へ正の値をとって延びるｘ軸と、原点Ｏから鉛直下方向へ正の値をとって延びるｙ軸とを設定する。さらに、物体領域設定部１０３は、アノテーション用画像の奥行き方向、つまりｘｙ平面に垂直な方向にｚ軸を設定してもよい。本実施の形態では、ｘ軸及びｙ軸上の値はそれぞれ、画素座標で定義され、具体的には、原点Ｏからの画素数、つまりピクセル数で定義される。ｚ軸上の値は、３ＤＣＧ内に設定される距離で定義されてもよい。

また、物体領域設定部１０３は、認識対象モデルのアノテーション枠において、左上の角に基準点Ｐを設定し、基準点Ｐのｘ及びｙの画素座標値を用いてアノテーション枠の平面的な位置を規定する。さらに、物体領域設定部１０３は、基準点Ｐのｚ軸上の値を用いて、アノテーション枠の奥行き方向の位置を規定してもよい。基準点Ｐのｚ軸上の値は、アノテーション枠で囲まれる認識対象モデルとカメラモデルとの距離としてもよい。このような距離は、シーンデータが有する認識対象モデルの位置情報、又は、アノテーション用画像に設定される認識対象モデルの位置情報と、カメラモデルの位置情報とから取得されてもよい。さらに、物体領域設定部１０３は、アノテーション枠のｘ軸方向の長さ及びｙ軸方向の長さを用いて、アノテーション枠の大きさを規定する。

次いで、ステップＳ２１５において、物体領域設定部１０３は、アノテーション枠の基準点Ｐの座標と、アノテーション枠のｘ軸及びｙ軸方向の長さと、認識対象モデルの種別等の内容とを、認識対象モデルのアノテーション情報として、第二記憶部１０６に格納する。この際、物体領域設定部１０３は、認識対象モデルを含むアノテーション用画像と同一のカメラモデルのシーン画像を、第二記憶部１０６に格納されるシーン画像の中から特定し、特定したシーン画像とアノテーション情報とを対応付ける。第二記憶部１０６に格納されるシーン画像は、ステップＳ２０２においてレンダリング部１０２が生成した画像である。アノテーション情報が示すアノテーション枠を、当該アノテーション情報に対応するシーン画像に重畳した画像の例が、図９に示されている。なお、図９は、図６のシーン画像に対象モデルのアノテーション枠を重畳した図である。例えば、第二記憶部１０６から、１つのシーン画像と、当該シーン画像に対応する複数のアノテーション情報とを取得することによって、当該シーン画像上において、対象モデルＡ〜Ｆの領域を特定することが可能である。そして、物体領域設定部１０３は、ステップＳ２１５の完了後、ステップＳ２０７に戻る。

なお、図１０を参照すると、第二記憶部１０６に格納されるアノテーション情報の例が示されている。アノテーション情報は、アノテーション情報のＩＤ（Ｉｄｅｎｔｉｆｉｅｒ）情報、対象モデルつまり対象物の内容、アノテーション枠の基準点Ｐの座標、アノテーション枠のｘ軸方向の大きさ、アノテーション枠のｙ軸方向の大きさ、及び、アノテーション情報に対応するシーン画像のＩＤ情報等を含む。図１０のアノテーション情報のＩＤはそれぞれ、対象モデルＡ〜Ｅのアノテーション情報の例である。

上述より、ステップＳ２０６〜Ｓ２１５の一連の処理において、ステップＳ２０７〜Ｓ２１５の処理を繰り返すことによって、１つの対象モデルに対して、全てのカメラモデルに関するアノテーション処理が行われる。さらに、ステップＳ２０４〜Ｓ２１５の一連の処理において、ステップＳ２０５〜Ｓ２１５の処理を繰り返すことによって、全ての対象モデルに対して、アノテーション処理が行われる。

次に、図１１を参照して、実施の形態に係る対象物認識装置２００の動作を説明する。なお、図１１は、実施の形態に係る対象物認識装置２００が画像から対象物を認識する処理の流れの一例を示すフローチャートである。図１１に示すように、まず、ステップＳ３０１において、対象物認識装置２００の対象物検出部２０１は、自動車１に搭載された撮像装置１ａから、撮像装置１ａが撮影した画像（以下、カメラ画像とも呼ぶ）を取得する。次いで、ステップＳ３０２において、対象物検出部２０１は、第四記憶部２０２から認識モデルを取得する。認識モデルは、撮像装置１ａに対応する認識モデルであってもよい。例えば、撮像装置１ａが自動車１の運転席から前方を撮影する場合、認識モデルは、運転席から前方に見える光景に関するものであってもよい。

さらに、ステップＳ３０３において、対象物検出部２０１は、取得したカメラ画像を認識モデルに入力し、認識モデルから出力結果を取得する。このとき、認識モデルは、カメラ画像において、所定の対象物を検出し、検出結果を対象物検出部２０１に出力する。所定の対象物は、認識モデルの構築時に、認識モデルが画像から検出するように設定された対象物であり、例えば、図４のステップＳ１０１の処理の説明における対象モデルに該当する対象物を含む。

ステップＳ３０４において、対象物検出部２０１は、検出された対象物の情報を出力する。対象物の情報の例は、対象物の種別、位置、移動方向等であってもよい。例えば、対象物検出部２０１は、自動車１の報知部１ｂに対象物の情報を出力してもよい。そして、報知部１ｂは、そのディスプレイに表示される撮像装置１ａのカメラ画像上において、対象物を強調表示し、運転者に報知してもよい。若しくは、報知部１ｂは、対象物の情報を音声で報知してもよい。又は、対象物検出部２０１は、自動車１の制御部１ｃに対象物の情報を出力してもよい。制御部１ｃは、対象物の情報に基づき、自動車１の動作を制御してもよい。自動車１が自動運転機能を有する場合、制御部１ｃは、対象物が自動車１の走行に支障をきたす又は危険を及ぼすと判断すると、自動車１を停止する又は減速する等の制御をしてもよい。

［１−３．効果等］
上述したような実施の形態に係る学習データ生成装置１００によると、学習データ生成用シーンデータの一例である再構築後のシーンデータは、シーンデータから、認識対象モデル以外のモデルを削除して生成される。このようなシーンデータを再構築する処理は、簡易であり、処理量を低く抑えることができる。さらに、再構築後のシーンデータは、特定カメラモデルと、特定色の認識対象モデルとのみをモデルとして含むため、データ量を低く抑えることができる。このような再構築後のシーンデータからアノテーション用画像を生成する処理は、簡易であり、処理量を低く抑えることができる。さらに、生成されたアノテーション用画像は、被写体として、認識対象モデルのみを含む。このため、当該アノテーション用画像において、認識対象モデルにアノテーション枠を形成する処理は、簡易であり、処理量を低く抑えることができる。このように、シーンデータの認識対象モデルへのアノテーション処理は、簡易であり、且つ処理量を低く抑えることができる。よって、学習データ生成装置１００は、ＣＧデータを用いてアノテーション処理し学習データを構築するための処理を簡易にすることができる。

また、実施の形態に係る学習データ生成装置１００において、シーンデータに複数の認識対象モデルが含まれる場合、複数の認識対象モデルそれぞれに対して、シーンデータが再構築される。これにより、再構築後のシーンデータは、認識対象モデル毎に生成される。よって、シーンデータに複数の認識対象モデルが含まれる場合でも、再構築後のシーンデータから生成されるアノテーション用画像を用いて、各認識対象モデルの領域を特定することが可能である。

また、実施の形態に係る学習データ生成装置１００において、認識対象モデルの領域が、アノテーション枠によって定められるため、当該領域の設定が容易である。例えば、アノテーション枠の形状、大きさ及び位置を決定することによって、認識対象モデルの領域が決定され得る。このようなアノテーション枠の情報は、ＤｅｅｐＬｅａｒｎｉｎｇ等の機械学習の学習データにおける認識対象モデルの領域の入力データとして、扱いやすいデータである。

［変形例１］
［２−１．変形例１に係る学習データ生成装置の動作］
実施の形態に係る学習データ生成装置１００において、モデル設定部１０１は、１つの対象モデルのみを含む再構築後のシーンデータを生成した。そして、レンダリング部１０２は、１つの再構築後のシーンデータから、１つの対象モデルのみを含むアノテーション用画像を生成した。実施の形態の変形例１に係る学習データ生成装置の動作において、モデル設定部１０１は、複数の対象モデルを含む再構築後のシーンデータを生成する。さらに、レンダリング部１０２は、複数の対象モデルを含むアノテーション用画像を生成する。そして、物体領域設定部１０３は、アノテーション用画像に含まれる複数の対象モデルそれぞれに対して、アノテーション枠を形成する。この際、２つの対象モデルが互いに部分的に重複して表示される場合、物体領域設定部１０３は、対象モデルのうちの見える部分に、アノテーション枠を形成する。以下において、変形例１について、実施の形態と異なる点を中心に説明する。

具体的には、モデル設定部１０１は、図５のステップＳ２０６において、複数の認識対象モデルを選択する。そして、モデル設定部１０１は、図５のステップＳ２０７〜Ｓ２１２の処理を、実施の形態と同様に行う。本変形例では、ステップＳ２０７〜Ｓ２１２において、モデル設定部１０１は、シーンデータから、特定カメラモデル及び複数の認識対象モデル以外のモデルを削除する。そして、モデル設定部１０１は、シーンデータ内の複数の認識対象モデルそれぞれに対して、異なる特定色を用いてテクスチャを張り替える。つまり、モデル設定部１０１は、互いに異なる複数の認識対象モデルそれぞれに、色が重複しないように、異なる特定色を適用する。これにより、特定カメラモデルに関して、互いに異なる特定色にされた複数の認識対象モデルを含むシーンデータが再構築される。さらに、モデル設定部１０１は、再構築後のシーンデータに含まれる各認識対象モデルと、各認識対象モデルに設定した特定色とを対応付けて、図示しないメモリ等に記憶させる。例えば、モデル設定部１０１は、認識対象モデルＡ〜Ｅのみを含むシーンデータを再構築する。そして、モデル設定部１０１は、認識対象モデルＡ〜Ｅそれぞれに対して、異なる特定色を適用する。

レンダリング部１０２は、図５のステップＳ２１３と同様に、複数の認識対象モデルを含む１つの再構築後のシーンデータを用いて、１つのアノテーション用画像を生成する。例えば、レンダリング部１０２は、認識対象モデルＡ〜Ｅを含み且つカメラモデルが同一である図１２に示すようなアノテーション用画像を生成する。なお、図１２は、複数の対象モデルＡ〜Ｅを含むアノテーション用画像の例である。図１２における対象モデルＡ〜Ｅの画像は、同一のシーン画像に対応する。さらに、図１３及び図１４を参照すると、図１２における対象モデルＢ〜Ｄを含む領域Ｒを拡大した図が示され、さらに、図１３における対象モデルＣを拡大した図が示されている。

本変形例では、上述したように、認識対象モデルＡ〜Ｅに設定される特定色は、同一でなく、互いに異なっている。これにより、アノテーション用画像上において、認識対象モデルＡ〜Ｅを、特定色に基づき特定及び分別することが可能である。よって、物体領域設定部１０３は、アノテーション用画像上において、図示しないメモリに記憶された認識対象モデルと特定色との関係に基づき、複数の認識対象モデルそれぞれ及びその領域を抽出する。さらに、物体領域設定部１０３は、抽出した認識対象モデルの位置及び領域等の情報を、アノテーション枠等のアノテーション情報として抽出する。

図１３及び図１４に示すように、アノテーション用画像上において、認識対象モデルＢが認識対象モデルＣの一部の上に重なって表示される場合がある。物体領域設定部１０３は、このようなアノテーション用画像を用いても、アノテーション処理を行う。このとき、物体領域設定部１０３は、アノテーション用画像上において、認識対象モデルＢ及びＣそれぞれの領域を特定する。例えば、物体領域設定部１０３は、認識対象モデルＢ及びＣそれぞれの特定色に基づき、認識対象モデルＢ及びＣそれぞれの領域を特定してもよい。特定される認識対象モデルＣの領域は、認識対象モデルＣの特定色の領域である。この領域は、認識対象モデルＣのうちの認識対象モデルＢによって隠されずに見えている領域であり、可視領域である。さらに、物体領域設定部１０３は、認識対象モデルＣの可視領域を囲む可視アノテーション枠ＣＦａを形成する。そして、物体領域設定部１０３は、可視アノテーション枠ＣＦａの基準点Ｐａの位置と、可視アノテーション枠ＣＦａの大きさとを算出する。なお、枠ＣＦｂは、認識対象モデルＣ全体を囲む全体アノテーション枠であり、点Ｐｂは、全体アノテーション枠ＣＦｂの基準点である。全体アノテーション枠ＣＦｂ及び基準点Ｐｂは、実施の形態において説明したように、認識対象モデルＣのみを含む再構築後のシーンデータから生成されるアノテーション用画像を用いて、設定可能である。

認識モデル構築部１０４は、対象モデルのアノテーション情報及び当該アノテーション情報に対応するシーン画像から、当該対象モデルの見えている部分である一部の画像を、学習データとして用いて、認識モデルに学習させる。これにより、認識モデルは、対象物の一部の画像からでも、当該対象物を検出するように構築され、対象物の検出精度を向上させ得る。

［２−２．効果］
上述したような変形例１に係る学習データ生成装置によると、複数の対象モデルを含むシーンデータが再構築される。さらに、再構築後のシーンデータから生成されるアノテーション用画像上において、各対象モデルの領域が特定される。この際、異なる対象モデル間で、対象モデルの特定色が異なるため、各対象モデルの領域の特定が容易になる。また、特定の対象モデルの上に別の対象モデルが重なって見える場合、特定の対象モデルのうちの他の対象モデルによって隠されずに見える領域に、アノテーション枠が形成される。このようなアノテーション枠の領域は、対象モデルの一部の領域を対象とすることができる。これにより、対象モデルが存在する領域に対し、実際に画像として表示される可視領域、及び、対象モデルの領域に対する可視領域の割合を算出することが可能となる。よって、可視領域の割合が１００％未満の学習データを用いることで、オクルージョンにロバストな認識モデルを生成できる。また、可視領域の割合があまりに小さい学習データは、学習の妨げになる可能性が高いため、例えば、可視領域の割合が５０％未満の学習データを、学習に使用しないことによって、過学習を防止した認識モデルを生成することもできる。よって、このような学習データを用いて構築される認識モデルは、画像から対象物を検出する精度を向上することができる。

［変形例２］
［３−１．変形例２に係る学習データ生成装置の動作］
実施の形態に係る学習データ生成装置１００において、物体領域設定部１０３は、アノテーション用画像から抽出した対象モデルのアノテーション情報と、レンダリング部１０２がシーンデータから生成したシーン画像とを対応付けた。実施の形態の変形例２に係る学習データ生成装置は、シーンデータに変更を加え、レンダリング部１０２が変更後のシーンデータから生成する画像（以下、変更シーン画像とも呼ぶ）と、対象モデルのアノテーション情報と対応付ける。そして、認識モデル構築部１０４は、対象モデルのアノテーション情報と、変更前及び変更後のシーンデータから生成されたシーン画像及び変更シーン画像とを対応付け、これらを学習データとして用いて、認識モデルを構築する。以下において、変形例２について、実施の形態及び変形例１と異なる点を中心に説明する。

具体的には、変形例２に係る学習データ生成装置は、シーンデータについて、モデルの配置及びカメラモデル等のカメラの光景内の構成を固定した状態で、同一ボリュームのモデル間でモデルの切り替えを行う。さらに、学習データ生成装置は、アノテーション枠に関する情報、並びに、対象モデルの種別及び動作を変更しないように、シーンデータに変更を加える。つまり、学習データ生成装置は、アノテーション枠の情報に基づいて、シーンデータに含まれる複数のモデルのうちの少なくとも１つのモデルに変更を加える。

例えば、学習データ生成装置のモデル設定部１０１は、対象モデルの周囲を変更する。このとき、モデル設定部１０１は、対象モデルの周囲のモデルを変更する。具体的には、モデル設定部１０１は、建物、植物等の不動な物体モデルの形状及びテクスチャを変更してもよい。また、モデル設定部１０１は、光源モデルを変更し、光景の時間帯を、朝、昼、夕方又は夜に変更してもよい。また、モデル設定部１０１は、背景モデルを変更し、空等の背景を変更してもよく、環境モデルを変更し、光景の天候を変更してもよい。

また、モデル設定部１０１は、対象モデル、及び、対象モデル以外の可動な物体モデルを変更してもよい。このとき、モデル設定部１０１は、対象モデル及び可動な物体モデルの種別及び動作を維持してもよい。例えば、モデル設定部１０１は、当該モデルの種別が人である場合、年齢層、性別、体格、服装等の人に関する情報を変更してもよい。また、モデル設定部１０１は、当該モデルの種別が自動車である場合、色、形状、車種等の自動車に関する情報を変更してもよい。また、モデル設定部１０１は、当該モデルの種別が自転車である場合、色、形状、自転車タイプ等の自転車に関する情報を変更してもよい。

上述から、対象モデルは、大きさ等のボリュームの変更を受けずに、その他の情報に関して変更を受ける。このため、変更後のシーンデータを用いて、実施の形態と同様に、対象モデルのアノテーション枠を形成する場合であっても、変更の前後で対応する対象モデル間において、アノテーション枠の位置、形状及び寸法等の枠情報は変化しない。

このため、学習データ生成装置のレンダリング部１０２が、変更後の様々なシーンデータを用いて様々な変更シーン画像を生成することによって、１つのアノテーション情報に対応する複数のシーン画像が生成される。これにより、認識モデル構築部１０４の学習データのバリエーションが増加する。例えば、画像上におけるアノテーション枠の領域は、対象モデルの画像と、対象モデルの周囲の画像とを含む。よって、対象モデルを変更することだけでなく、周囲の物体モデル、光源モデル、背景モデル及び環境モデルを変更することによっても、アノテーション枠内の画像のバリエーションが増加する。認識モデル構築部１０４は、様々なバリエーションの対象モデルの画像を、学習データとして用いることによって、対象物の検出精度を向上した認識モデルを構築する。

［３−２．効果］
上述したような変形例２に係る学習データ生成装置によると、レンダリング部１０２は、シーンデータ及び変更されたシーンデータからシーン画像を生成し得る。これにより、学習データにおいて、互いに対応付けられる対象モデルのアノテーション情報とアノテーション情報に対応するシーン画像との組み合わせが、増加する。よって、学習データのバリエーションが増えるため、認識モデルは、画像から対象物を検出する精度を向上することができる。

また、変形例２に係る学習データ生成装置によると、シーンデータの変更の際、アノテーション枠の情報に基づいて対象モデルが変更を受けるため、変更後の対象モデルに対するアノテーション枠の情報の再生成が、不要又は簡易となり得る。例えば、シーンデータの変更の際、アノテーション枠の情報を変更しないように対象モデルが変更を受ける場合、変更後の対象モデルに対するアノテーション枠の情報の再生成が不要である。よって、シーンデータの変更処理の簡略化が可能になる。

［変形例３］
［４−１．変形例３に係る学習データ生成装置の動作］
変形例２に係る学習データ生成装置は、アノテーション枠に関する情報を変更しないように、シーンデータを変更した。実施の形態の変形例３に係る学習データ生成装置は、シーンデータの対象モデルの大きさ及び形状の変更に伴い、必要応じて、アノテーション枠を変更する。以下において、変形例３について、実施の形態並びに変形例１及び２と異なる点を中心に説明する。

具体的には、変形例３に係る学習データ生成装置は、シーンデータについて、モデルの配置及びカメラモデル等のカメラの光景内の構成を固定した状態で、モデル間でモデルの切り替えを行う。さらに、学習データ生成装置は、対象モデルの種別及び動作を変更せずに、シーンデータに変更を加える。

例えば、学習データ生成装置のモデル設定部１０１は、シーンデータにおいて、種別及び動作を維持しつつ、対象モデルを変更する。モデル設定部１０１は、対象モデルの種別が人であり、人に関する情報を変更する際、例えば、子供を大人に変更する、又は、何も持たない大人を傘をさす大人に変更する。これにより、変更後の対象モデルが占める領域が大きくなり、変更前の対象モデルに設定されたアノテーション枠に収まらない場合がある。又は、例えば、対象モデルについて、大人を子供に変更する、又は、傘をさす大人を何も持たない大人に変更する場合、変更前のアノテーション枠内の画像において、変更後の対象モデル以外の領域が大きくなり、この領域に、変更後の対象モデル以外のモデルが含まれる場合がある。上述の２つのいずれの場合も、アノテーション枠内の画像が、変更後の対象モデルのアノテーション用の画像として好適でないことがあるため、学習データ生成装置は、アノテーション枠を再形成し得る。

具体的には、モデル設定部１０１は、変更後の対象モデルに対応する変更前の対象モデルのアノテーション情報を、第二記憶部１０６から取得する。アノテーション情報は、シーンデータに含まれる複数のカメラモデルそれぞれに対応して存在する。モデル設定部１０１は、変更後のシーンデータにおいて、変更後の対象モデルのテクスチャを特定色に変更する。さらに、レンダリング部１０２は、変更後のシーンデータから、各カメラモデルに関して、当該カメラモデルに対応するアノテーション情報に定められているアノテーション枠内及びその近傍の領域の画像を生成する。この領域の大きさは、変更前後での対象モデルの大きさの変化率等の変化量に基づき、決定されてもよい。例えば、領域は、変更後の対象物がより小さくなる場合、アノテーション枠よりも小さく設定され、変更後の対象物がより大きくなる場合、アノテーション枠よりも大きく設定され得る。

物体領域設定部１０３は、生成された画像上において、特定色の無地の領域を抽出し、当該特定色の領域を囲むアノテーション枠を、変更後アノテーション枠として形成する。物体領域設定部１０３は、変更後アノテーション枠の情報を、変更後の対象物のアノテーション情報として、第二記憶部１０６に格納する。物体領域設定部１０３による特定色の領域の抽出は、変更前のアノテーション枠の領域近辺の小さい画像内で行われるため、処理のための計算量を低く抑えることができる。また、レンダリング部１０２は、変更後のシーンデータから、各カメラモデルに関して、当該カメラモデルに対応する変更後シーン画像を生成する。物体領域設定部１０３は、変更後の対象物のアノテーション情報と、変更後シーン画像とを、それぞれのカメラモデルに基づき対応付ける。

なお、モデル設定部１０１は、シーンデータにおいて、対象モデルをより大きなモデルに変更する場合、変更後の対象モデルが他の物体モデルと衝突又は接触するか、つまり干渉するか否かを判定し、物体モデル同士に衝突及び接触が発生しない場合に、対象モデルを変更してもよい。この場合、モデル設定部１０１は、変更後の対象モデルの領域と他の物体モデルの領域とを比較してもよく、変更後の対象モデルのアノテーション枠の領域と、他の物体モデル又はそのアノテーション枠の領域とを比較してもよい。

上記に加えて、又は上記とは別に、モデル設定部１０１は、シーンデータにおいて、当該シーンデータのカメラモデルに写し出されない場所では、対象モデルを変更する場合に、変更後の対象モデルが他の物体モデルと衝突又は接触するか否かを判定しなくてもよい。この場合、モデル設定部１０１は、対象モデルの変更は可能であると判定してもよい。

又は、モデル設定部１０１は、シーンデータにおいて、対象モデルをより大きなモデルに変更することを禁止してもよい。

上述から、様々なアノテーション情報、及び、当該アノテーション情報に対応する様々な画像が生成される。そして、認識モデル構築部１０４は、このような様々なバリエーションの対象モデルの画像を、学習データとして用いることによって、対象物の検出精度を向上した認識モデルを構築する。

［４−２．効果］
上述したような変形例３に係る学習データ生成装置によると、対象モデルの変更に伴い、アノテーション枠の情報が再生成され得る。これにより、対象モデルの変更の自由度が増える。よって、学習データにおいて、アノテーション情報が対象とする対象モデルのバリエーションが増える。また、変更後の対象モデル及びその周辺の変更後画像に基づき、変更後の対象モデルのアノテーション枠が設定されるため、設定のための計算量を抑えることが可能になる。

また、変形例３に係る学習データ生成装置によると、変更後の対象モデルと他の物体モデルとに干渉がある場合、対象モデルが変更されなくてもよい。これにより、対象モデルが、円滑に且つ実際の状況に即して変更され得る。例えば、変更後の対象モデルが他の物体モデルと重なるように干渉するケースは、実現性の低いケースであり、このようなケースが学習データに含まれないようにすることが可能である。よって、認識モデルの検出精度が向上し得る。

また、変形例３に係る学習データ生成装置によると、変更後の対象モデルと他の物体モデルとの干渉部分が、カメラモデル、つまりシーン画像に写し出されない領域に含まれる場合、干渉の有無に関係なく、対象モデルが変更されてもよい。これにより、カメラモデルに写し出されない干渉部分が、干渉の有無の判定の対象から除外されるため、対象モデルの変更処理の簡略化が可能になる。

また、変形例３に係る学習データ生成装置によると、変更後の対象モデルが変更前よりも大きくなる場合、対象モデルが変更されなくてもよい。変更後の対象モデルと他の物体モデルとの干渉の有無の判定が不要になる。よって、対象モデルの変更処理の簡略化が可能になる。

［５．その他の変形例］
以上のように、本出願において開示する技術の例示として、実施の形態及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態の変形例又は他の実施の形態にも適用可能である。また、実施の形態及び変形例で説明する各構成要素を組み合わせて、新たな実施の形態又は変形例とすることも可能である。

実施の形態及び変形例に係る学習データ生成装置１００及び対象物認識装置２００を備える画像認識システム１０は、自動車に適用されるとした。画像認識システムは、画像から対象物を認識するシステムであれば、いかなるシステムに適用されてもよい。例えば、画像認識システムは、監視カメラのシステムに適用されてもよい。この場合、対象物認識装置２００は監視カメラに搭載され、学習データ生成装置１００は、監視カメラに搭載されてもよく、サーバ等の監視カメラから離れた装置に搭載されてもよい。また、画像認識システムに使用される３ＤＣＧデータは、街の３ＤＣＧデータに限定されず、対象物認識装置２００が適用される撮像装置が撮影する対象に合わせて、変更されてもよい。例えば、対象物認識装置２００が駅の監視カメラに適用される場合、３ＤＣＧデータは、駅構内の３ＤＣＧデータであってもよい。

なお、本開示の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばＣＤ−ＲＯＭ等の不揮発性の記録媒体を含む。

例えば、実施の形態及び変形例に係る画像認識システムに含まれる各構成要素は典型的には集積回路であるＬＳＩ（大規模集積回路、ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）として実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

なお、実施の形態及び変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、上記構成要素の一部又は全部は、脱着可能なＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード又は単体のモジュールから構成されてもよい。ＩＣカード又はモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭ等から構成されるコンピュータシステムである。ＩＣカード又はモジュールは、上記のＬＳＩ又はシステムＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ＩＣカード又はモジュールは、その機能を達成する。これらＩＣカード及びモジュールは、耐タンパ性を有するとしてもよい。

また、本開示の技術は、学習データ生成装置に限定されず、以下に記載するような学習データ生成方法によって、実現されてもよい。例えば、この学習データ生成方法は、複数のモデルを含むＣＧデータから学習データを生成する学習データ生成方法であって、前記ＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定された前記１以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する。

また、本開示の技術は、以下に記載するような機械学習方法によって、実現されてもよい。例えば、この機械学習方法は、上述のような学習データ生成方法によって生成された前記学習データを入力し、前記学習データを用いて認識モデルを更新し、前記特定物体を含む画像が入力されたとき、前記更新された認識モデルを用いて前記特定物体を認識し、前記特定物体の種別及び動作の内容を出力する。

なお、上記方法は、ＭＰＵ、ＣＰＵ、プロセッサ、ＬＳＩなどの回路、ＩＣカード又は単体のモジュール等によって、実現されてもよい。

また、本開示の技術は、ソフトウェアプログラム又はソフトウェアプログラムからなるデジタル信号によって実現されてもよく、プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。例えば、実施の形態及び変形例での処理は、次のようなプログラムによって、実現される。例えば、このプログラムは、複数のモデルを含むＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを取得し、前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成し、前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、前記学習データ生成用シーンデータに含まれる、設定した前記１以上のパラメータを用いて、学習データ用画像を生成し、前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成することを、コンピュータに実行させる。

なお、上記プログラム及び上記プログラムからなるデジタル信号は、コンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＳＳＤ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ）、半導体メモリ等に記録したものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、記録媒体に記録して移送されることにより、又はネットワーク等を経由して移送されることにより、独立した他のコンピュータシステムにより実施されてもよい。

また、上記で用いた序数、数量等の数字は、全て本開示の技術を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。また、構成要素間の接続関係は、本開示の技術を具体的に説明するために例示するものであり、本開示の機能を実現する接続関係はこれに限定されない。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを１つの機能ブロックとして実現したり、１つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

本開示は、画像にアノテーションを付与する技術に利用可能である。

１０画像認識システム
１００学習データ生成装置
１０１モデル設定部
１０２レンダリング部（第一画像生成部、第二画像生成部）
１０３物体領域設定部
１０５第一記憶部
１０６第二記憶部

Claims

複数のモデルを含むＣＧデータを用いて学習データを生成する学習データ生成装置であって、
前記ＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを格納する第一記憶部と、
前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成する第一画像生成部と、
前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう、前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成するモデル設定部と、
前記学習データ生成用シーンデータに含まれる、設定した前記１以上のパラメータを用いて、学習データ用画像を生成する第二画像生成部と、
前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定する物体領域設定部と、
前記シーンデータ用画像と、前記特定物体領域の情報とを対応付けて、学習データとして格納する第二記憶部とを備える
学習データ生成装置。
前記モデル設定部は、複数の前記特定物体モデルを選択し、
前記モデル設定部は、前記複数の特定物体モデルそれぞれに対して、前記学習データ生成用シーンデータを生成する
請求項１に記載の学習データ生成装置。
前記モデル設定部は、複数の前記特定物体モデルを選択し、前記複数の特定物体モデル以外の前記モデルを、前記シーンデータから削除し、異なる前記特定物体モデルに異なる特定色を適用し、
前記第二画像生成部は、前記複数の特定物体モデルを含む前記学習データ生成用シーンデータを用いて、前記学習データ用画像を生成し、
前記物体領域設定部は、前記学習データ用画像において、１つの前記特定物体モデルの上に別の前記特定物体モデルが重なって見える場合、前記１つの特定物体モデルのうちの見える領域を、前記特定物体領域に設定する
請求項１に記載の学習データ生成装置。
前記物体領域設定部は、前記学習データ用画像において、前記特定物体領域を囲むアノテーション枠を形成し、前記アノテーション枠の情報を、前記特定物体領域の情報として前記第二記憶部に格納する
請求項１〜３のいずれか一項に記載の学習データ生成装置。
前記モデル設定部は、前記シーンデータに含まれる前記複数のモデルのうち少なくとも１つのモデルを変更し、
前記第二画像生成部は、前記変更された前記シーンデータからも、前記特定物体領域の情報と対応付ける前記シーンデータ用画像を生成する
請求項１〜３のいずれか一項に記載の学習データ生成装置。
前記物体領域設定部は、前記学習データ用画像において、前記特定物体領域を囲むアノテーション枠を形成し、前記アノテーション枠の情報を、前記特定物体領域の情報とし、
前記モデル設定部は、前記アノテーション枠の情報に基づいて、前記シーンデータに含まれる前記複数のモデルのうち少なくとも１つのモデルを変更する
請求項５に記載の学習データ生成装置。
前記モデル設定部は、前記シーンデータの前記特定物体モデルを変更し、
前記第二画像生成部は、変更される前記特定物体モデルの前記特定物体領域の情報に基づき、変更後の前記特定物体モデル及びその周辺の変更後画像を生成し、
前記物体領域設定部は、前記変更後画像に基づき、前記変更後の特定物体モデルの前記特定物体領域を設定する
請求項５に記載の学習データ生成装置。
前記モデル設定部は、変更後の前記特定物体モデルと他の前記物体モデルとの干渉の有無を判定し、干渉がある場合、前記特定物体モデルを変更しない
請求項７に記載の学習データ生成装置。
前記モデル設定部は、変更後の前記特定物体モデルと他の前記物体モデルとの干渉部分が前記シーンデータ用画像に写し出されない領域に含まれる場合、干渉の有無に関係なく、前記特定物体モデルを変更する
請求項８に記載の学習データ生成装置。
前記モデル設定部は、変更後の前記特定物体モデルが変更前よりも大きくなる場合、前記特定物体モデルを変更しない
請求項７に記載の学習データ生成装置。
複数のモデルを含むＣＧデータから学習データを生成する学習データ生成方法であって、
前記ＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを取得し、
前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成し、
前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、
前記学習データ生成用シーンデータに含まれる、設定された前記１以上のパラメータを用いて、学習データ用画像を生成し、
前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、
前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する
学習データ生成方法。
請求項１１に記載の学習データ生成方法によって生成された前記学習データを入力し、
前記学習データを用いて認識モデルを更新し、
前記特定物体を含む画像が入力されたとき、前記更新された認識モデルを用いて前記特定物体を認識し、前記特定物体の種別及び動作の内容を出力する
機械学習方法。
複数のモデルを含むＣＧデータにおいて、前記複数のモデルに関する１以上のパラメータを含む、シーンデータを取得し、
前記シーンデータに含まれる前記１以上のパラメータを用いて、シーンデータ用画像を生成し、
前記複数のモデルに含まれる複数の物体モデルから特定物体モデルを選択し、前記特定物体モデル以外のモデルを、前記シーンデータから削除し、前記特定物体モデルを特定色にするよう前記１以上のパラメータの設定を行い、前記シーンデータから学習データ生成用シーンデータを生成し、
前記学習データ生成用シーンデータに含まれる、設定した前記１以上のパラメータを用いて、学習データ用画像を生成し、
前記学習データ用画像において、前記特定物体モデルの領域である特定物体領域を設定し、
前記シーンデータ用画像と前記特定物体領域の情報とが対応付けられた学習データを生成する
ことを、コンピュータに実行させるプログラム。