JP2021163042A - 学習システム、学習方法、および、検知装置 - Google Patents

学習システム、学習方法、および、検知装置 Download PDF

Info

Publication number
JP2021163042A
JP2021163042A JP2020062502A JP2020062502A JP2021163042A JP 2021163042 A JP2021163042 A JP 2021163042A JP 2020062502 A JP2020062502 A JP 2020062502A JP 2020062502 A JP2020062502 A JP 2020062502A JP 2021163042 A JP2021163042 A JP 2021163042A
Authority
JP
Japan
Prior art keywords
image
unit
model
detection
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020062502A
Other languages
English (en)
Inventor
優也 田中
Yuya Tanaka
尚毅 大谷
Naotake Otani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2020062502A priority Critical patent/JP2021163042A/ja
Publication of JP2021163042A publication Critical patent/JP2021163042A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成する。【解決手段】生成装置20は、目標種別のオブジェクトが映っている目標画像と同じ特徴を有する画像を生成するための生成モデルを用いて画像を生成する生成部22と更新部25とを備え、検知装置30は、生成部22が生成した画像と、目標種別を示す情報とを含む教師データを用いて、教師データに含まれている画像に映っているオブジェクトの種別を学習することで検知モデルを構築する学習部31と、検知モデルを用いて評価用画像に映っているオブジェクトを検知し、オブジェクトを示す評価情報を出力する検知部32と、評価情報と評価用画像に映っているオブジェクトを予め示す正解情報との差異を示す差異情報を算出する算出部33とを備え、更新部25は、差異情報を用いて、更新後の生成モデルを用いて算出される新たな差異情報を小さくするように生成モデルを更新する。【選択図】図3

Description

本発明は、学習システム、学習方法、および、検知装置に関する。
従来、ベクトルモデルまたは3Dモデル等のデータから機械学習の訓練用画像を生成し、生成された訓練用画像を用いて機械学習を行う技術がある(特許文献1)。機械学習により構築された認識モデルは、例えば物体を検知する検知処理に利用される検知モデルである。
国際公開第2019/176235号
しかしながら、上記技術などにより生成される訓練用画像が、その技術に固有の特徴を有する場合、その画像の生成に係る技術と異なる技術により生成された画像に対して適切な検知処理を行うことができず、検知処理の精度が低いという問題がある。
そこで、本発明は、高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成する学習システムなどを提供することを目的とする。
本発明の一態様に係る学習システムは、生成装置と検知装置とを備える学習システムであって、前記生成装置は、目標種別のオブジェクトが映っている目標画像と同じ特徴を有する画像を生成するための生成モデルを用いて、前記画像を生成する生成部と、前記生成モデルを更新する更新部とを備え、前記検知装置は、前記生成部が生成した前記画像と、前記目標種別を示す情報とを少なくとも含む教師データを用いて、前記教師データに含まれている画像に映っているオブジェクトの種別を学習することで検知モデルを構築する学習部と、前記学習部が構築した前記検知モデルを用いて、評価用画像に映っているオブジェクトを検知し、検知した前記オブジェクトを示す評価情報を出力する検知部と、前記検知部が出力した前記評価情報と、前記評価用画像に映っているオブジェクトを予め示す正解情報との差異を示す差異情報を算出する算出部とを備え、前記更新部は、前記差異情報を用いて、更新後の前記生成モデルを用いて前記生成部が生成する新たな画像に基づいて前記算出部が算出する新たな差異情報を小さくするように、前記生成モデルを更新する。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明に係る学習システムは、高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
図1は、実施の形態に係る検知装置の利用シーンの例を示す説明図である。 図2は、実施の形態に係る検知装置が検知するオブジェクトの例を示す説明図である。 図3は、実施の形態に係る学習システムの構成を示すブロック図である。 図4は、実施の形態に係る生成モデルの構築に用いられる目標画像の例を示す説明図である。 図5は、実施の形態に係る提供部が提供するノイズ画像の例を示す説明図である。 図6は、実施の形態に係る生成部が生成する画像の例を示す説明図である。 図7は、実施の形態に係る学習部による検知モデルの構築に用いられる教師データの例を示す説明図である。 図8は、実施の形態に係る学習システムが実行する学習方法を示すフロー図である。 図9は、実施の形態に係る、オブジェクトを検知する検知装置の構成を示すブロック図である。
本発明の一態様に係る学習システムは、生成装置と検知装置とを備える学習システムであって、前記生成装置は、目標種別のオブジェクトが映っている目標画像と同じ特徴を有する画像を生成するための生成モデルを用いて、前記画像を生成する生成部と、前記生成モデルを更新する更新部とを備え、前記検知装置は、前記生成部が生成した前記画像と、前記目標種別を示す情報とを少なくとも含む教師データを用いて、前記教師データに含まれている画像に映っているオブジェクトの種別を学習することで検知モデルを構築する学習部と、前記学習部が構築した前記検知モデルを用いて、評価用画像に映っているオブジェクトを検知し、検知した前記オブジェクトを示す評価情報を出力する検知部と、前記検知部が出力した前記評価情報と、前記評価用画像に映っているオブジェクトを予め示す正解情報との差異を示す差異情報を算出する算出部とを備え、前記更新部は、前記差異情報を用いて、更新後の前記生成モデルを用いて前記生成部が生成する新たな画像に基づいて前記算出部が算出する新たな差異情報を小さくするように、前記生成モデルを更新する。
上記態様によれば、更新部は、算出部が算出する差異情報を小さくするように生成モデルを更新するので、更新後に生成部が生成モデルを用いて生成する画像が、検知部によって目標種別のオブジェクトが検知される傾向が高い画像になる。そして、このように更新部が更新した後の生成モデルを用いて生成した画像を訓練用画像として用いた機械学習により、高い精度で、目標種別のオブジェクトを検知できる検知モデルを構築することができる。このように、学習システムは、高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
例えば、前記生成部は、前記更新部が更新した後の前記生成モデルを用いて前記新たな画像を生成し、前記学習システムは、前記生成部が生成した前記新たな画像を前記画像として用いて、前記学習部による前記検知モデルの構築と、前記算出部による前記差異情報の算出と、前記更新部による前記生成モデルの更新とを、繰り返し実行してもよい。
上記態様によれば、更新部が生成モデルの更新を繰り返すことによって、生成部がより高い精度で目標種別のオブジェクトが映っている画像を生成することができるようになり、その結果、検知部がより高い精度で目標種別のオブジェクトを検知できる検知モデルを構築することができるようになる。よって、学習システムは、より高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
例えば、前記目標画像は、実写画像であり、前記生成モデルは、入力されたノイズ画像に基づいて、前記目標画像と同じ特徴としての実写画像の特徴を有する画像を生成するための生成モデルであってもよい。
上記態様によれば、更新部による生成モデルの更新によって、生成部が目標種別のオブジェクトが映っている実写画像を生成することができるようになり、その結果、検知部がより高い精度で実写画像において目標種別のオブジェクトを検知できる検知モデルを構築することができるようになる。よって、学習システムは、実写画像においてより高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
例えば、前記目標画像は、目標種別のオブジェクトとしての人間が映っている画像であってもよい。
上記態様によれば、更新部による生成モデルの更新によって、生成部が目標種別のオブジェクトとしての人間が映っている画像を生成することができるようになり、その結果、検知部がより高い精度で画像において人間を検知できる検知モデルを構築することができる。よって、学習システムは、より高い精度で画像における人間を検知する検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
例えば、前記目標画像は、所定の画風の画像であり、前記生成モデルは、入力された画像に基づいて、前記目標画像としての前記所定の画風の画像と同じ特徴を有する画像を生成するための生成モデルであってもよい。
上記態様によれば、更新部による生成モデルの更新によって、生成部が目標種別のオブジェクトが映っている、所定の画風の画像を生成することができるようになり、その結果、検知部がより高い精度で所定の画風の画像において目標種別のオブジェクトを検知できる検知モデルを構築することができるようになる。よって、学習システムは、実写画像においてより高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
例えば、前記生成装置は、さらに、(a)前記生成部が生成した画像である第一学習用画像であって、非実写画像であるとのラベルが付与された第一学習用画像と、(b)実写画像であるとのラベルが付与された前記目標画像とを教師データとして学習することで構築された認識モデルを用いて、入力画像が実写画像であるか否かを示す情報を出力する認識部を備え、前記更新部は、さらに、更新後の前記生成モデルを用いて前記生成部が生成する画像である第二学習用画像が、前記認識部によって実写画像と識別されるように、前記生成モデルを更新し、入力画像が実写画像であるか否かをより適切に認識できるように、前記認識モデルを更新してもよい。
上記態様によれば、更新部は、識別モデルが実写画像であると識別するような画像を生成するように生成モデルを更新し、かつ、入力画像が実写画像であるか否かをより適切に認識できるように認識モデルを更新する。その結果、生成モデルは、実写画像であると識別される可能性が高い画像を生成するように更新される。このように、学習システムは、高い精度で実写画像において検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
また、本発明の一態様に係る学習方法は、目標種別のオブジェクトが映っている目標画像と同じ特徴を有する画像を生成するための生成モデルを用いて、前記画像を生成する生成ステップと、前記生成モデルを更新する更新ステップと、前記生成ステップで生成した前記画像と、前記目標種別を示す情報とを少なくとも含む教師データを用いて、前記教師データに含まれている画像に映っているオブジェクトの種別を学習することで検知モデルを構築する学習ステップと、前記学習ステップで構築した前記検知モデルを用いて、評価用画像に映っているオブジェクトを検知し、検知した前記オブジェクトを示す評価情報を出力する検知ステップと、前記検知ステップで出力した前記評価情報と、前記評価用画像に映っているオブジェクトを予め示す正解情報との差異を示す差異情報を算出する算出ステップとを含み、前記更新ステップでは、前記差異情報を用いて、更新後の前記生成モデルを用いて前記生成ステップで生成する新たな画像に基づいて前記算出ステップで算出する新たな差異情報を小さくするように、前記生成モデルを更新する。
上記態様によれば、上記学習システムと同様の効果を奏する。
また、本発明の一態様に係る検知装置は、上記の学習部により構築された前記検知モデルを用いて、入力された入力画像に映っているオブジェクトの種別を検知する検知部を備える。
上記態様によれば、検知装置は、高い精度で検知処理を実行できる検知モデルを有する。また、上記検知モデルを有する検知装置は、検知と異なるタスク(例えば、ポーズの推定、または、画像セグメンテーション)に利用可能となる。よって、検知装置は、検知モデルを用いて、画像に対して、高い精度で検知処理を実行できる。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態)
本実施の形態において、高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成する学習システムなどについて説明する。本実施の形態における学習システムは、実写画像に映っているオブジェクトを検知する検知装置が、その検知処理に用いる検知モデルを、機械学習によって構築するシステムである。
図1は、本実施の形態に係る検知装置4の利用シーンの例を示す説明図である。図2は、本実施の形態に係る検知装置4が検知するオブジェクトの例を示す説明図である。
図1に示されるように、検知装置4は、例えば車両2に搭載される。検知装置4は、車両2が搭載しているカメラが撮影した画像を取得し、取得した画像に映っている所定の種別のオブジェクトをコンピュータ処理によって検知する。所定の種別とは、例えば、人間、自動車、自転車およびバイクなどであり、ここでは、所定の種別が人間である場合を例として説明する。車両2に搭載されているカメラは、例えば車両2の前方を撮影する向きで設置されるが(図1参照)、これに限られず、車両2の側方、後方または上方を撮影するカメラであってもよい。
車両2が搭載しているカメラが撮影した画像の一例である画像6と、画像6に映っているオブジェクトの例とが図2に示されている。画像6には、オブジェクトとして人間6A、6B、6Cおよび6D、ならびに、自動車6Eが映っている。
検知装置4は、所定の種別のオブジェクトとしての人間が画像6に映っていることを検知すると、車両2の運転者に通知したり、ネットワークを通じて他の装置または人などに通知することが想定される。この通知は、例えば、自車両に自動車または人が近接していることを通知するものであってもよいし、所定速度以上で移動する自動車が存在することを通知するものであってもよい。
なお、検知装置4は、車両2とネットワークを介して通信可能である場所に配置されていてもよい。その場合、検知装置4は、車両2が搭載しているカメラが撮影した画像をネットワークを介して取得し、取得した画像に映っている所定の種別のオブジェクトが映っていることを検知する。
検知装置4は、上記所定の種別のオブジェクトを検知する際には、機械学習によって構築された検知モデルを用いた検知処理を実行する。
一般に、画像に映っている所定の種別のオブジェクトを検知する検知モデルを構築するためには、膨大な数(例えば数千〜数百万)の訓練用画像を用いた機械学習が必要である。検知モデルの構築に必要な訓練用画像は、実際の光景を撮影した実写画像であることが想定されるが、上記のように膨大な数の実写画像を訓練用画像として用意することは難しい。
そこで、例えば、CG(コンピュータグラフィックス)技術によって訓練用画像を生成する技術がある。このような技術を利用すれば、膨大な数の訓練用画像を得ることができる。
しかしながら、上記技術などにより生成される訓練用画像が、その技術に固有の特徴を有する場合、その画像の生成に係る技術と異なる技術により生成された画像に対して適切な検知処理を行うことができず、検知処理の精度が低いという問題がある。
具体的には、CG技術により訓練用画像を生成する場合、生成された訓練用画像は、CG技術に固有の特徴を有している。例えば、CG技術により生成された訓練用画像と、実写画像とでは、物体表面の光沢または質感の表現、反射の様子または反射の有無が異なり、つまり、CG技術により生成された訓練用画像は、CG技術に固有の特徴を有しているといえる。
そのため、このような訓練用画像を用いて機械学習によって構築された検知モデルは、CG固有の特徴を学習していることがあり得る。その場合、構築された検知モデルは、CG技術によらないで生成された画像、例えば実写画像を対象とした検知処理の精度が低いという問題が生じ得る。
そこで、高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成する学習システムなどを提供することが求められる。
本実施の形態に係る学習システム1は、高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成する。
図3は、本実施の形態に係る学習システム1の構成を示すブロック図である。
図3に示されるように、学習システム1は、生成装置20と、検知装置30とを備える。生成装置20と検知装置30とは、互いに通信可能に接続されている。例えば、生成装置20と検知装置30とは、ネットワーク(不図示)を介して接続されており、ネットワークを介して情報の授受(提供および取得)を行う。
生成装置20は、提供部21と、生成部22と、認識部23と、算出部24と、更新部25とを備える。生成装置20が備える各機能部は、生成装置20が備えるプロセッサ(不図示)がメモリ(不図示)を用いて所定のプログラムを実行することで実現され得る。
生成装置20は、適切な訓練用画像を生成できる生成モデル22M(後述)を機械学習により構築する装置である。
提供部21は、生成部22が画像の生成の元画像として用いる画像を生成し、生成した画像を生成部22に提供する機能部である。元画像の一例は、各画素をランダム値としたノイズ画像であり、この場合を例として説明するが、元画像としてどのような画像を用いてもよい。
生成部22は、生成モデル22Mを用いて画像を生成する機能部である。生成モデル22Mは、目標種別のオブジェクトが映っている目標画像と同じ特徴を有する画像を生成するための生成モデルである。生成モデル22Mは、例えば、多層構造のニューラルネットワークモデルである。
目標画像の一例は、実写画像であり、生成モデル22Mは、入力されたノイズ画像に基づいて実写画像の特徴を有する画像を生成するための生成モデルであり、この場合を例として説明するが、目標画像は実写画像に限られない。
また、目標種別のオブジェクトの一例は、人間であり、目標画像の一例は、目標種別のオブジェクトとしての人間が映っている画像である。目標種別および目標画像は、上記に限られない。
生成部22は、提供部21が提供するノイズ画像を取得し、取得したノイズ画像に基づいて生成モデル22Mを用いて画像を生成する。ここで、ノイズ画像は、生成モデル22Mにより画像を生成するためのシード(種)として機能している。生成モデル22Mは、生成された当初(初期段階)には、目標画像と同じ特徴を有する画像を生成することができないことが想定される。生成モデル22Mを用いて生成部22が生成する画像に基づいて、後述する更新部25が生成モデル22Mを繰り返し更新することで、生成モデル22Mは、目標画像と同じ特徴を有する画像を生成することができるようになる。
認識部23は、認識モデル23Mを用いて、入力画像が実写画像であるか否かを示す情報(認識結果情報ともいう)を出力する機能部である。認識モデル23Mは、(a)生成部22が生成した画像(第一学習用画像に相当)であって、非実写画像であるとのラベルが付与された第一学習用画像と、(b)実写画像であるとのラベルが付与された目標画像とを教師データとして、機械学習により構築された認識モデルである。認識部23は、第一学習用画像が実写画像であるか否かを示す認識結果情報を算出部24に提供する。認識モデル23Mは、多層構造のニューラルネットワークを用いて機械学習により作成されたモデルである。
ここで、実写画像であるとのラベルを1と表現し、非実写画像であるとのラベルを0と表現する。また、認識部23が提供する認識結果情報は、例えば、実写画像である場合に1であり、非実写画像である場合に0である情報である。なお、認識結果情報は、実写画像か非実写画像かを確率的に示す情報であってもよく、その場合、0から1までの範囲の値をとる。目標画像は、生成装置20が記憶しているものであってもよいし、生成装置20の外部の装置から取得したものであってもよい。目標画像の数は、例えば数千〜数百万程度である。
算出部24は、認識部23が出力した、第一学習用画像が実写画像であるか否かを示す認識結果情報を取得し、取得した認識結果情報と、実写画像であることを示す情報(つまり1)との差異を算出する機能部である。例えば、認識部23が、実写画像か非実写画像かを確率的に示す情報として0.7を出力した場合、0.3(=1−0.7)に相当する情報を、上記差異として算出する。
更新部25は、生成モデル22Mおよび認識モデル23Mを更新する機能部である。更新部25による生成モデル22Mおよび認識モデル23Mの更新については、後で詳しく説明する。
次に、検知装置30について説明する。
検知装置30は、学習部31と、検知部32と、算出部33とを備える。検知装置30が備える各機能部は、検知装置30が備えるプロセッサ(不図示)がメモリ(不図示)を用いて所定のプログラムを実行することで実現され得る。
学習部31は、画像に映っているオブジェクトの種別を学習することで検知モデル32Mを構築する機能部である。学習部31は、生成部22が生成した画像と、その画像の目標種別を示す情報とを少なくとも含む教師データを用いて、その教師データに含まれている画像に映っているオブジェクトの種別を学習することで検知モデル32Mを構築する。教師データには、上記の他にも、検知モデル32Mで検知することになる他の種別のオブジェクト(例えば、自動車、自転車およびバイクなど)が含まれてよい。
検知部32は、学習部31が構築した検知モデル32Mを用いて、評価用画像に映っているオブジェクトを検知し、検知したオブジェクトを示す情報を出力する機能部である。検知部32は、例えば、所定の複数のオブジェクトそれぞれが評価用画像に映っている確率を上記情報として出力する。所定の複数のオブジェクトの具体例は、人間、自動車、自転車、バイク、および、その他とすることができる。この場合、検知部32は、例えば、評価用画像に映っているオブジェクトの種別を示す情報として、「人間:80%、自動車:5%、自転車:5%、バイク:5%、その他:5%」という情報を出力する。評価用画像の数は、例えば、数千〜数百万である。検知部32による検知モデル32Mを用いた物体検知処理には、物体検知アルゴリズムであるSSD(Single Shot MultiBox Detector)またはMask−RCNN(Regions with Convolutional Neural Networks)を利用できる。
算出部33は、検知部32が出力した評価情報と、評価用画像に映っているオブジェクトを予め示す正解情報との差異を示す差異情報を算出する機能部である。評価用画像に映っているオブジェクトを示す情報が上記「人間:80%、自動車:5%、自転車:5%、バイク:5%、その他:5%」であり、かつ、評価用画像に映っているオブジェクトが人間である、つまり正解情報が「人間:100%」である場合、算出部33は、「人間:20%、自動車:−5%、自転車:−5%、バイク:−5%、その他:−5%」に相当する情報を、上記差異として算出する。算出部33は、算出した差異情報を更新部25に提供する。
生成装置20の更新部25による生成モデル22Mおよび認識モデル23Mの更新について詳しく説明する。
更新部25は、生成モデル22Mを更新するときに、(1)生成部22が生成した画像が認識部23により実写画像と認識されるように生成モデル22Mを更新し、かつ、(2)目標種別のオブジェクトが検知部32により検知されるように生成モデル22Mを更新する。更新部25は、認識モデル23Mを更新するときに、(3)入力画像が実写画像であるか、または、生成部22により生成された画像であるかをより適切に認識できるように、認識モデル23Mを更新する。
上記(1)のように生成モデル22Mを更新する際に、更新部25は、第一学習用画像が実写画像であるか否かを示す情報と、実写画像であることを示す情報(つまり1)とが一致するときに値が最小となる損失関数を用いて、算出部24が算出した差異に基づいて損失関数の値を小さくするように生成モデル22Mの係数(重み)を調整することで、生成モデル22Mを更新する。損失関数を用いた係数の調整には、例えば、Softmax−Cross Entropy誤差関数を用いる方法を利用できる。
このようにすることで、生成モデル22Mは、更新後の生成モデル22Mを用いて生成部22が生成する画像(第二学習用画像に相当)が、認識部23によって実写画像と認識されるように更新される。具体的には、認識部23が出力する認識結果情報が、入力画像が実写画像であることを示す情報(つまり1)に近づくように、つまり、上記差異が0に近づくように更新される。
そして、このような更新処理が複数回繰り返し行われることで、生成モデル22Mは、実写画像と識別される画像を生成できるモデルになる。生成モデル22Mの更新の繰り返しの回数は、例えば100万回程度である。これは、学習用画像の個数を10万とし、バッチサイズを10とし、エポック数を100とした場合に、全体の更新回数が10万÷10×100で100万と算出されることによる。なお、バッチサイズおよびエポック数は機械学習において一般的なパラメータである。バッチサイズとは、学習データセットをいくつかのサブセットに分けた際の分割サイズを意味する。エポック数とは、バッチサイズをNとしたときにN回学習を繰り返した時の単位を意味する。
また、上記(2)のように生成モデル22Mを更新する際に、更新部25は、正解情報と評価情報とが一致するときに値が最小となる損失関数を用いて、算出部33が算出した差異情報に基づいて損失関数の値を小さくするように生成モデル22Mの係数を調整することで、生成モデル22Mを更新する。
また、上記(3)のように認識モデル23Mを更新する際に、更新部25は、実写画像が入力された場合に1との差異が最小となる損失関数を用いて、認識部23が出力する認識結果情報と1との差異を小さくするように、かつ、生成部22が生成した画像が入力された場合に0との差異が最小となる損失関数を用いて、認識部23が出力する認識結果情報と0との差異を小さくするように、認識モデル23Mを更新する。
なお、上記(1)および(3)の更新は、公知のGAN(Generative Adversarial Network)技術における方法と同様である。
このようにすることで、生成モデル22Mは、更新後の生成モデル22Mを用いて生成部22が生成する画像(第二学習用画像に相当)に、検知部32によって所定の種別のオブジェクトが検出されるように更新される。具体的には、検知部32が出力する情報が、人間の種別のオブジェクトを検出したことを示す情報「人間:100%」に近づくように、つまり、人間のオブジェクトを検出する確率を上昇させ、かつ、人間以外のオブジェクトを検出する確率を低下させるように、更新される。
そして、このような更新処理が複数回繰り返し行われることで、生成モデル22Mは、検知部32によって所定の種別のオブジェクトが検出される画像を生成できるモデルになる。生成モデル22Mの更新の繰り返しの回数は、上記と同様である。
以降において、学習システム1が学習に用いる画像について詳しく説明する。
図4は、本実施の形態に係る生成モデル22Mの構築に用いられる目標画像の例を示す説明図である。図4の(a)および(b)に示される目標画像は、それぞれ、目標種別のオブジェクトとしての人間が映っている実写画像である。
例えば、図4の(a)には、紙面上の奥を向いて歩いている人間が映っている実写画像が示されている。また、図4の(b)には、紙面上の左を向いて歩いている人間が映っている実写画像が示されている。このように、目標画像には、いろいろな方向を向いて歩いている人間が映っている実写画像が含まれる。また、上記人間の体型、または、当該画像における寸法もさまざまである。
図4の(a)および(b)に示される目標画像は、認識部23の認識モデル23Mの構築のために教師データとして利用される。なお、教師データとして利用される目標画像のそれぞれは、異なる特徴(姿勢、服装および体型など)を有しているほうが適切な機械学習がなされ得る。
図5は、本実施の形態に係る提供部21が提供するノイズ画像の例を示す説明図である。図5の(a)および(b)に示されるノイズ画像は、それぞれ、各画素にランダム値が設定されることで生成されたものである。なお、上記ランダム値は、真乱数または疑似乱数から得られるものでもよいし、多少の規則性を有する値であってもよい。
ノイズ画像は、提供部21によって生成され、生成部22に提供される。生成部22は、提供されたノイズ画像に基づいて生成モデル22Mを用いて画像を生成するので、異なるノイズ画像が生成部22に入力されると異なる画像を生成することが想定される。ただし、異なるノイズ画像が生成部22に入力された場合に、必ず異なる画像を生成することまでは要しない。
図6は、本実施の形態に係る生成部22が生成する画像の例を示す説明図である。図6のに示される画像は、生成部22がノイズ画像に基づいて生成モデル22Mを用いて生成した画像の例である。なお、生成部22が生成する画像を、生成画像ともいう。
例えば、図6の(a)および(b)に示される画像は、それぞれ、図5の(a)および(b)に示されるノイズ画像それぞれが入力された場合に、入力されたノイズ画像に基づいて生成部22が生成モデル22Mを用いて生成した画像の例である。生成部22が生成した画像は、認識部23と学習部31とに提供される。
図7は、本実施の形態に係る学習部31による検知モデル32Mの構築に用いられる教師データの例を示す説明図である。
図7に示されるように、教師データには、検知部32により検知されることになる複数の所定の種別のオブジェクトが映っている画像と、その種別を示す情報であるラベルとが含まれる。
具体的には、図7の(a)は、「人間」の種別のオブジェクトが映っている画像を示している。図7の(a)の画像には、「人間」のラベルが付されている。図7の(a)に示される画像は、生成部22が生成した画像である。
図7の(b)は、「自動車」の種別のオブジェクトが映っている画像を示している。図7の(b)の画像には、「自動車」のラベルが付されている。
図7の(c)は、「自転車」の種別のオブジェクトが映っている画像を示している。図7の(c)の画像には、「自転車」のラベルが付されている。
図7の(d)は、「バイク」の種別のオブジェクトが映っている画像を示している。図7の(d)の画像には、「バイク」のラベルが付されている。
図7の(b)、(c)および(d)に示される画像およびラベルは、学習部31が予め記憶しているものであってもよいし、学習に際して検知装置30の外部の装置から取得して記憶しているものであってもよい。
なお、複数の種別それぞれについて、教師データとして数千〜数百万の画像およびラベルが用いられ得る。
学習部31は、図7に示される画像及びラベルを少なくとも含む教師データを用いて、画像に映っているオブジェクトの種別を学習することで、検知モデル32Mを構築する。
以上のように構成された学習システム1の処理について以降で説明する。
図8は、本実施の形態に係る学習システム1が実行する学習方法を示すフロー図である。
ステップS101において、提供部21は、ノイズ画像を生成し、生成したノイズ画像を生成部22に提供する。生成されるノイズ画像の個数は、例えば数千〜数百万である。
ステップS102において、生成部22は、ステップS101で提供部21から提供されたノイズ画像に基づいて生成モデル22Mを用いて画像を生成する。生成部22は、提供されたノイズ画像それぞれに基づいて画像を生成するので、提供されたノイズ画像と同数の画像が生成される。生成部22は、生成した画像を、認識部23と検知装置30の学習部31とに提供する。
ステップS103において、認識部23は、ステップS102で生成部22が生成した画像について、認識モデル23Mを用いて、実写画像であるか否かを認識する認識処理を行う。
ステップS104において、算出部24は、ステップS103で行った認識処理の結果として得られる、ステップS102で生成部22が生成した画像の評価情報と、目標種別を示す情報との差異を示す差異情報(第一差異情報ともいう)を算出する。算出部24は、算出した第一差異情報を更新部25に提供する。
ここから、検知装置30の処理の説明に移る。
ステップS121において、学習部31は、ステップS102で生成部22が生成した画像を取得する。
ステップS122において、学習部31は、ステップS121で取得した画像を少なくとも含む教師データを用いて機械学習を行い、検知モデル32Mを構築する。学習部31は、構築した検知モデル32Mを検知部32に提供する。
ステップS123において、検知部32は、ステップS122で構築された検知モデル32Mを用いて、評価用画像に対して検知処理を実行し、評価情報を取得する。
ステップS124において、算出部33は、ステップS123で取得した評価情報と、正解情報との差異を示す差異情報(第二差異情報ともいう)を算出する。
ステップS125において、算出部33は、ステップS124で算出した第二差異情報を、生成装置20の更新部25に送信することで提供する。
ここから、生成装置20の処理の説明に移る。
ステップS105において、更新部25は、ステップS125で検知装置30の算出部33が送信した第二差異情報を取得する。
ステップS106において、更新部25は、ステップS104で算出した第一差異情報と、ステップS105で取得した第二差異情報とに基づいて、損失関数を用いて、生成モデル22Mの係数を算出する。更新部25が算出する生成モデル22Mの係数は、当該係数により生成モデル22Mを更新した場合に、その更新後に生成部22が生成する新たな画像に基づいて算出部24が算出する差異つまり第一差異情報を小さくし、また、その更新後に生成部22が生成する新たな画像に基づいて算出部33が算出する差異つまり第二差異情報を小さくする係数である。
ステップS107において、更新部25は、ステップS106で算出した係数を用いて生成モデル22Mを更新する。
ステップS108において、算出部24は、目標画像を認識処理した結果と1との差異、および、生成画像を認識処理した結果と0との差異を算出する。
ステップS109において、更新部25は、ステップS108で算出した差異に基づいて、損失関数を用いて、認識モデル23Mの係数を算出する。更新部25が算出する認識モデル23Mの係数は、当該係数により認識モデル23Mを更新した場合に、その更新後に認識部23が、入力画像が実写画像であるか、または、生成部22により生成された画像であるかをより適切に認識できるようにする係数である。
ステップS110において、更新部25は、ステップS109で算出した係数を用いて認識モデル23Mを更新する。
ステップS111において、更新部25は、所定の終了条件を満たすか否かを判定する。所定の終了条件を満たすと判定した場合(ステップS108でYes)には、図8に示される一連の処理を終了し、そうでない場合(ステップS108でNo)には、ステップS101に戻って繰り返し処理を実行する。所定の終了条件とは、例えば、更新処理(つまりステップS107)を所定回数実行したこと、第一差異情報および第二差異情報の一方または両方が、所定以下の差異を示すようになったこと、などである。
図8に示される一連の処理により、学習システム1は、高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
以降において、学習システム1により生成された検知モデル32Mを用いて入力画像に映っているオブジェクトを検知する検知装置4について説明する。
図9は、本実施の形態に係る、画像に映っているオブジェクトを検知する検知装置4の構成を示すブロック図である。検知装置4は、入力される入力画像に映っているオブジェクトについて検知処理を行い、入力情報に映っているオブジェクトを示す結果情報を出力する。
図9に示されるように、検知装置4は、検知部32を備える。検知部32は、学習システム1による機械学習により構築された検知モデル32Mを有する。
検知部32は、検知装置4に入力された入力画像に対して、検知モデル32Mを用いて検知処理を実行する。そして、検知処理の結果として出力される結果情報を出力する。結果情報は、例えば、入力画像に複数の所定の種別のオブジェクトそれぞれが映っている確率を示す情報であり、例えば「人間:80%、自動車:5%、自転車:5%、バイク:5%、その他:5%」のような情報である。
検知モデル32Mが、学習システム1により、高い精度で検知処理を実行できる検知モデルであるので、検知装置4は、入力画像に対して、高い精度で検知処理を実行できる。
また、検知装置4は、検知と異なるタスク(例えば、ポーズの推定、または、画像セグメンテーション)に利用されることも可能である。
(実施の形態の変形例)
本実施の形態において、高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成する学習システムなどについて、上記実施の形態とは異なる構成を説明する。本変形例における学習システムは、特定の画風を有する画像を生成する。
本変形例に係る学習システムの構成は、上記実施の形態の学習システム1と同様であるが、生成装置20の提供部21が提供する画像と、認識部23が用いる目標画像とが、上記実施の形態における場合と異なる。本変形例について、上記実施の形態の学習システム1と異なる部分について説明する。
本変形例に係る学習システムの提供部21は、被写体が映っている画像を提供する。ここで、被写体とは、特定のオブジェクトであってもよいし、画像に表現されている風景であってもよい。また、画像は、実写画像であってもよいし、CG技術によって生成された画像であってもよい。
本変形例に係る学習システムにおける目標画像は、所定の画風を有する画像である。ここで、画風とは、画像の作風を意味し、より具体的には、画像に表現される特徴を意味している。例えば、画風とは、色の特徴、筆使いの特徴、画材の特徴、表現に用いた道具の特徴などを含む。画風とは、過去の作家の画風(ゴッホ風、モネ風など)であってもよいし、適当な画像を用いてもよい。このような目標画像を用いると、生成モデル22Mは、入力された画像に基づいて、目標画像としての所定の画風の画像と同じ特徴を有する画像を生成するための生成モデルになる。
このような提供部21と目標画像とを用いると、学習システム1は、入力画像に基づいて、目標画像の画風と同じ画風の画像を生成することで、入力画像を目標画像の画風に変換することができ、また、特定種別のオブジェクトが映っている画像に変換することができる。
以上のように、上記実施の形態および上記変形例に係る学習システムによれば、更新部は、算出部が算出する差異情報を小さくするように生成モデルを更新するので、更新後に生成部が生成モデルを用いて生成する画像が、検知部によって目標種別のオブジェクトが検知される傾向が高い画像になる。そして、このように更新部が更新した後の生成モデルを用いて生成した画像を訓練用画像として用いた機械学習により、高い精度で、目標種別のオブジェクトを検知できる検知モデルを構築することができる。このように、学習システムは、高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
また、更新部が生成モデルの更新を繰り返すことによって、生成部がより高い精度で目標種別のオブジェクトが映っている画像を生成することができるようになり、その結果、検知部がより高い精度で目標種別のオブジェクトを検知できる検知モデルを構築することができるようになる。よって、学習システムは、より高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
また、更新部による生成モデルの更新によって、生成部が目標種別のオブジェクトが映っている実写画像を生成することができるようになり、その結果、検知部がより高い精度で実写画像において目標種別のオブジェクトを検知できる検知モデルを構築することができるようになる。よって、学習システムは、実写画像においてより高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
また、更新部による生成モデルの更新によって、生成部が目標種別のオブジェクトとしての人間が映っている画像を生成することができるようになり、その結果、検知部がより高い精度で画像において人間を検知できる検知モデルを構築することができる。よって、学習システムは、より高い精度で画像における人間を検知する検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
また、更新部による生成モデルの更新によって、生成部が目標種別のオブジェクトが映っている、所定の画風の画像を生成することができるようになり、その結果、検知部がより高い精度で所定の画風の画像において目標種別のオブジェクトを検知できる検知モデルを構築することができるようになる。よって、学習システムは、実写画像においてより高い精度で検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
また、更新部は、識別モデルが実写画像であると識別するような画像を生成するように生成モデルを更新し、かつ、入力画像が実写画像であるか否かをより適切に認識できるように認識モデルを更新する。その結果、生成モデルは、実写画像であると識別される可能性が高い画像を生成するように更新される。このように、学習システムは、高い精度で実写画像において検知処理を実行できる検知モデルを構築できる訓練用画像を生成することができる。
また、検知装置は、高い精度で検知処理を実行できる検知モデルを有する。そして、上記検知モデルを有する検知装置は、検知と異なるタスク(例えば、ポーズの推定、または、画像セグメンテーション)に利用可能となる。よって、検知装置は、検知モデルを用いて、画像に対して、高い精度で検知処理を実行できる。
なお、上記実施の形態および変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態および各変形例の情報処理装置などを実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、目標種別のオブジェクトが映っている目標画像と同じ特徴を有する画像を生成するための生成モデルを用いて、前記画像を生成する生成ステップと、前記生成モデルを更新する更新ステップと、前記生成ステップで生成した前記画像と、前記目標種別を示す情報とを少なくとも含む教師データを用いて、前記教師データに含まれている画像に映っているオブジェクトの種別を学習することで検知モデルを構築する学習ステップと、前記学習ステップで構築した前記検知モデルを用いて、評価用画像に映っているオブジェクトを検知し、検知した前記オブジェクトを示す評価情報を出力する検知ステップと、前記検知ステップで出力した前記評価情報と、前記評価用画像に映っているオブジェクトを予め示す正解情報との差異を示す差異情報を算出する算出ステップとを含み、前記更新ステップでは、前記差異情報を用いて、更新後の前記生成モデルを用いて前記生成ステップで生成する新たな画像に基づいて前記算出ステップで算出する新たな差異情報を小さくするように、前記生成モデルを更新する学習方法を実行させるプログラムである。
以上、一つまたは複数の態様に係る学習システムなどについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
本発明は、検知装置が物体検知処理に用いる検知モデルを構築する学習システムに利用可能である。
1 学習システム
2 車両
4、30 検知装置
6 画像
6A、6B、6C、6D 人間
6E 自動車
20 生成装置
21 提供部
22 生成部
22M 生成モデル
23 認識部
23M 認識モデル
24、33 算出部
25 更新部
31 学習部
32 検知部
32M 検知モデル

Claims (8)

  1. 生成装置と検知装置とを備える学習システムであって、
    前記生成装置は、
    目標種別のオブジェクトが映っている目標画像と同じ特徴を有する画像を生成するための生成モデルを用いて、前記画像を生成する生成部と、
    前記生成モデルを更新する更新部とを備え、
    前記検知装置は、
    前記生成部が生成した前記画像と、前記目標種別を示す情報とを少なくとも含む教師データを用いて、前記教師データに含まれている画像に映っているオブジェクトの種別を学習することで検知モデルを構築する学習部と、
    前記学習部が構築した前記検知モデルを用いて、評価用画像に映っているオブジェクトを検知し、検知した前記オブジェクトを示す評価情報を出力する検知部と、
    前記検知部が出力した前記評価情報と、前記評価用画像に映っているオブジェクトを予め示す正解情報との差異を示す差異情報を算出する算出部とを備え、
    前記更新部は、
    前記差異情報を用いて、更新後の前記生成モデルを用いて前記生成部が生成する新たな画像に基づいて前記算出部が算出する新たな差異情報を小さくするように、前記生成モデルを更新する
    学習システム。
  2. 前記生成部は、
    前記更新部が更新した後の前記生成モデルを用いて前記新たな画像を生成し、
    前記学習システムは、
    前記生成部が生成した前記新たな画像を前記画像として用いて、前記学習部による前記検知モデルの構築と、前記算出部による前記差異情報の算出と、前記更新部による前記生成モデルの更新とを、繰り返し実行する
    請求項1に記載の学習システム。
  3. 前記目標画像は、実写画像であり、
    前記生成モデルは、入力されたノイズ画像に基づいて、前記目標画像と同じ特徴としての実写画像の特徴を有する画像を生成するための生成モデルである
    請求項1または2に記載の学習システム。
  4. 前記目標画像は、目標種別のオブジェクトとしての人間が映っている画像である
    請求項1〜3のいずれか1項に記載の学習システム。
  5. 前記目標画像は、所定の画風の画像であり、
    前記生成モデルは、入力された画像に基づいて、前記目標画像としての前記所定の画風の画像と同じ特徴を有する画像を生成するための生成モデルである
    請求項1または2に記載の学習システム。
  6. 前記生成装置は、さらに、
    (a)前記生成部が生成した画像である第一学習用画像であって、非実写画像であるとのラベルが付与された第一学習用画像と、(b)実写画像であるとのラベルが付与された前記目標画像とを教師データとして学習することで構築された認識モデルを用いて、入力画像が実写画像であるか否かを示す情報を出力する認識部を備え、
    前記更新部は、さらに、
    更新後の前記生成モデルを用いて前記生成部が生成する画像である第二学習用画像が、前記認識部によって実写画像と識別されるように、前記生成モデルを更新し、
    入力画像が実写画像であるか否かをより適切に認識できるように、前記認識モデルを更新する
    請求項1〜5のいずれか1項に記載の学習システム。
  7. 目標種別のオブジェクトが映っている目標画像と同じ特徴を有する画像を生成するための生成モデルを用いて、前記画像を生成する生成ステップと、
    前記生成モデルを更新する更新ステップと、
    前記生成ステップで生成した前記画像と、前記目標種別を示す情報とを少なくとも含む教師データを用いて、前記教師データに含まれている画像に映っているオブジェクトの種別を学習することで検知モデルを構築する学習ステップと、
    前記学習ステップで構築した前記検知モデルを用いて、評価用画像に映っているオブジェクトを検知し、検知した前記オブジェクトを示す評価情報を出力する検知ステップと、
    前記検知ステップで出力した前記評価情報と、前記評価用画像に映っているオブジェクトを予め示す正解情報との差異を示す差異情報を算出する算出ステップとを含み、
    前記更新ステップでは、
    前記差異情報を用いて、更新後の前記生成モデルを用いて前記生成ステップで生成する新たな画像に基づいて前記算出ステップで算出する新たな差異情報を小さくするように、前記生成モデルを更新する
    学習方法。
  8. 請求項1〜6のいずれか1項に記載の学習部により構築された前記検知モデルを用いて、入力された入力画像に映っているオブジェクトの種別を検知する検知部を備える
    検知装置。
JP2020062502A 2020-03-31 2020-03-31 学習システム、学習方法、および、検知装置 Pending JP2021163042A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020062502A JP2021163042A (ja) 2020-03-31 2020-03-31 学習システム、学習方法、および、検知装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020062502A JP2021163042A (ja) 2020-03-31 2020-03-31 学習システム、学習方法、および、検知装置

Publications (1)

Publication Number Publication Date
JP2021163042A true JP2021163042A (ja) 2021-10-11

Family

ID=78003395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020062502A Pending JP2021163042A (ja) 2020-03-31 2020-03-31 学習システム、学習方法、および、検知装置

Country Status (1)

Country Link
JP (1) JP2021163042A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157230A1 (ja) * 2022-02-18 2023-08-24 株式会社 東芝 学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157230A1 (ja) * 2022-02-18 2023-08-24 株式会社 東芝 学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体

Similar Documents

Publication Publication Date Title
CN110998604B (zh) 有局部外观的对象的识别与重构
CN109716362B (zh) 神经网络装置、车辆控制系统、分解处理装置以及程序
JP6393058B2 (ja) 情報処理装置、情報処理方法
CN107451524B (zh) 行为识别装置、学习装置、行为识别方法、学习方法及计算机可读的记录介质
US11042999B2 (en) Advanced driver assist systems and methods of detecting objects in the same
JP6889841B2 (ja) 学習装置、学習結果利用装置、学習方法及び学習プログラム
US11301723B2 (en) Data generation device, data generation method, and computer program product
US11478926B2 (en) Operation control device for robot, robot control system, operation control method, control device, processing device and recording medium
CN112733875A (zh) 用于在生成网络中生成合成数据的设备和方法
JP7031685B2 (ja) モデル学習装置、モデル学習方法及びコンピュータプログラム
CN110546687B (zh) 图像处理装置及二维图像生成用程序
JP2020122754A (ja) 3次元位置推定装置及びプログラム
JP6567381B2 (ja) 演算装置、方法及びプログラム
JP2021163042A (ja) 学習システム、学習方法、および、検知装置
Rövid et al. Towards raw sensor fusion in 3D object detection
JP2021051589A5 (ja)
US11443184B2 (en) Methods and systems for predicting a trajectory of a road agent based on an intermediate space
JP2021148730A (ja) 位置推定方法、位置推定装置、及び、プログラム
CN116611500A (zh) 用于训练神经网络的方法及装置
JP2016513842A (ja) 異なる精度のソフトウェアアルゴリズム及びハードウェアアルゴリズムを実施する評価層を備えた画像プロセッサ
CN115131752A (zh) 学习方法、学习装置以及程序记录介质
Devarakota et al. Occupant classification using range images
WO2018159666A1 (en) Learning apparatus, learning result using apparatus, learning method and learning program
CN111126310A (zh) 一种基于场景迁移的行人性别识别方法
JP2020042664A (ja) 学習装置、パラメータの作成方法、ニューラルネットワーク及びこれを用いた情報処理装置