本開示の一態様の概要は以下のとおりである。
本開示の一態様に係る情報処理方法は、センシングデータを取得し、前記センシングデータ上の認識対象データを合成する合成部分を決定し、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う。このとき、前記センシングデータが有する前記特徴は、前記センシングデータの要素の統計的特徴であってもよい。また、前記センシングデータが有する前記特徴は、前記センシングデータの定性的特徴であってもよい。
上記態様によれば、例えば、センシングデータが画像である場合、画像上の所望の合成部分に認識対象(例えば、物体)データを合成するため、合成部分(例えば、物体合成位置)の座標及び物体の種類等を示すアノテーションを、合成データ(ここでは、合成画像)に新たに付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、上記態様によれば、画像上の所望の位置及びサイズで物体データを合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル(以下、認識モデルとも呼ぶ)に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、上記態様によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。それにより、学習モデルの個々の訓練効率が向上する。例えば、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間で向上させることができる。また、上記態様によれば、画像が有する人の感覚器により知覚される特徴(例えば、視覚的特徴)と同一又は類似の特徴(つまり、視覚的特徴)を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された画像(以下、撮影画像)である場合は、撮影画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して機械学習により訓練された学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。なお、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体とは、例えば、画像の要素(例えば、画像パラメタ)の統計的特徴である画像の色味又はエッジなどが同一又は類似している物体であってもよく、画像の定性的特徴である雨又は雪などの気象条件、気象条件による路面の状態、及びオクルージョンなどが同一又は類似している物体であってもよい。当該物体は、上記特徴を有することにより、画像に馴染みやすいため、物体合成位置に当該物体を合成して生成される合成画像は自然な画像となる。
例えば、本開示の一態様に係る情報処理方法は、前記第1の決定では、前記合成データを前記モデルの訓練用データとして決定してもよい。
上記態様によれば、学習モデルでの認識精度が低いと判定された合成画像を訓練用データとして使用することができる。そのため、学習モデルでの認識精度が高いデータ、すなわち訓練用データとしては不要なデータを訓練用データとして蓄積することが抑制される。したがって、データを蓄積するためのコストが削減される。言い換えると、学習モデルでの認識精度が低いシーンの画像を重点的に訓練用データとして蓄積することができるため、認識精度の低いシーンに対する効率的な学習が可能となる。そのため、学習モデルの認識精度がより向上される。
例えば、本開示の一態様に係る情報処理方法は、前記第1の決定では、前記合成データが有する前記特徴と同一又は類似の前記特徴を有する対応データを前記モデルの訓練用データとして決定してもよい。このとき、前記合成データが有する前記特徴は、前記合成データの要素の統計的特徴であってもよい。また、前記合成データが有する前記特徴は、前記合成データの定性的特徴であってもよい。
上記態様によれば、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定するため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。なお、対応画像が撮影画像の場合は、合成画像を訓練用データとしたときに比べて学習効果を向上させることができる。また、視覚的特徴が合成画像の要素(例えば、画像パラメタ)の統計的特徴である場合は、統計学的な観点から訓練用データの数及びバリエーションを効率よく増やすことができる。また、視覚的特徴が合成画像の定性的特徴である場合は、定量化しづらい特徴を有する訓練用データの数及びバリエーションを効率よく増やすことができる。
例えば、本開示の一態様に係る情報処理方法では、前記センシングデータは、画像であり、前記認識対象は、物体であり、前記合成部分は、前記画像上の物体データを合成する物体合成位置であり、前記合成データは、前記物体合成位置に、前記画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して生成される合成画像であり、前記認識結果データは、前記合成画像を前記モデルに入力して取得される物体認識結果データであり、前記第1の決定は、前記合成画像に基づいて前記モデルの訓練用データを決定することであり、前記第2の決定は、少なくとも前記物体合成位置を含む正解データと前記物体認識結果データとを用いて行われてもよい。例えば、前記第1の決定は、前記合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を前記モデルの訓練用データとして決定することであり、前記合成画像が有する視覚的特徴は、前記合成画像における前記物体の態様であり、前記対応画像が有する視覚的特徴は、前記物体が有する属性と同一又は類似の属性を有する対応物体の態様であってもよい。この場合、前記態様は、前記物体の前記合成画像上における位置であってもよい。また、前記態様は、前記物体の姿勢であってもよい。
上記態様によれば、合成画像が有する視覚的特徴が合成画像における物体の態様であるため、例えば、合成画像上の物体の位置又は物体の姿勢などの物体の態様の違いにより学習モデルでの物体の認識精度が低いと判定された合成画像に基づいて訓練用データが決定される。これにより、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。このような訓練用データを用いて構築される認識モデルは、画像から物体を認識する精度が向上される。
例えば、本開示の一態様に係る情報処理方法では、合成部分は、さらに画像上に合成される物体データのサイズを含んでもよい。
上記態様によれば、当該画像にとってより違和感の少ない合成データを得ることができる。
例えば、本開示の一態様に係る情報処理方法では、前記合成データが有する前記特徴と同一又は類似の前記特徴を有するデータを、前記対応データとして、前記合成データとは異なるセンシングデータから選出又は生成してもよい。
上記態様によれば、撮影画像を訓練用データとして使用することができる。そのため、合成画像を訓練用データとして使用する場合に比べて、より高い学習効果が得られる。なお、撮影画像の選出は、画像が取得される度に所定の条件に基づいて記録するか否かを判定することであってもよく、取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、メモリ又はデータベース等に格納された撮影画像から所定の条件を満たす撮影画像を検索して抽出することであってもよい。また、上記態様によれば、対応画像を撮影画像から生成することができる。具体的には、認識モデルでの認識精度が低いシーンの画像及び当該シーンに類似する画像を撮影画像から生成することができる。これにより、撮影画像をそのまま対応画像として使用できない場合であっても対応画像を生成することができるため、訓練用データの数及びバリエーションを容易に増やすことができる。
例えば、本開示の一態様に係る情報処理方法では、GAN(Generative Adversarial Network)モデルを用いて前記合成部分に前記認識対象データを合成してもよい。
上記態様によれば、所望の位置に所望の物体を合成しつつ、撮影画像に近い、より自然な合成画像を得ることができる。このような合成画像を訓練用データとして使用することにより、学習モデルでの物体の認識精度を高めることができる。
例えば、本開示の一態様に係る情報処理方法では、さらに、前記第1の決定を行うと前記第2の決定において決定された場合、前記学習モデルのユーザに通知を行ってもよい。このとき、前記通知は、決定された前記訓練用データを用いた前記モデルの訓練の要請に関する通知であってもよい。また、本開示の一態様に係る情報処理方法では、さらに、決定された前記訓練用データを用いた前記モデルの訓練を実行し、前記通知は、前記訓練の完了に関する通知であってもよい。
上記態様によれば、合成画像に基づいて学習モデルの訓練用データが決定された場合、学習モデルのユーザに通知が行われるため、ユーザは学習モデルで物体を認識しにくいシーンがあることを把握することができる。また、上記通知が学習モデルの訓練の要請に関する通知である場合、ユーザは、学習モデルの訓練を行うタイミングを決定することができる。また、上記通知が訓練の完了に関する通知である場合、ユーザは、訓練により学習モデルが更新されたことを知ることができる。
また、本開示の一態様に係る情報処理システムは、センシングデータを取得する第1取得部と、前記センシングデータ上の認識対象データを合成する合成部分を決定する第1決定部と、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部と、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得する第2取得部と、前記合成データに基づいて前記モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第1の決定を行うと前記第2の決定において決定された場合、前記第1の決定を行う第2決定部と、を備える。
上記態様によれば、例えば、センシングデータが画像である場合、画像上の所望の合成部分に認識対象(例えば、物体)データを合成するため、合成部分(例えば、物体合成位置)の座標及び物体の種類等を示すアノテーションを、合成データ(ここでは、合成画像)に新たに付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、上記態様によれば、画像上の所望の位置及びサイズで物体データを合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル(以下、認識モデルとも呼ぶ)に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。これにより、学習モデルの個々の訓練効率が向上する。例えば、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間に効率よく向上させることができる。また、上記態様によれば、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された撮影画像である場合は、撮像画像近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して機械学習により訓練された学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。
なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD-ROM等の不揮発性の記録媒体を含む。
以下、本開示の実施の形態に係る情報処理方法及び情報処理システムについて、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ(工程)、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、以下の実施の形態の説明において、略平行、略直交のような「略」を伴った表現が、用いられる場合がある。例えば、略平行とは、完全に平行であることを意味するだけでなく、実質的に平行である、すなわち、例えば数%程度の差異を含むことも意味する。他の「略」を伴った表現についても同様である。また、以下の実施の形態の説明において、2つの要素が類似することは、例えば、2つの要素の間で半分以上の部分又は主要な部分が同じであること、あるいは、2つの要素が共通の性質を有すること等を意味する。また、各図は模式図であり、必ずしも厳密に図示されたものではない。さらに、各図において、実質的に同一の構成要素に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。
(実施の形態)
[実施の形態に係る情報処理システムの構成及び動作]
実施の形態に係る情報処理システムの構成及び動作について図1及び図2を参照して説明する。図1は、本実施の形態に係る情報処理システム100の構成の一例を示すブロック図である。図2は、本実施の形態に係る情報処理方法のフローを示すフローチャートである。
図1に示すように、情報処理システム100は、画像取得部10と、画像上の物体合成位置を決定する合成位置決定部20と、合成画像生成部30と、合成画像を学習モデル(以下、認識モデル)に入力して得られる出力データを取得する出力データ取得部40と、認識モデルの学習用データを決定する決定部50と、を備える。
なお、画像取得部10は、センシングデータを取得する第1取得部の一例である。例えば、センシングデータは、画像である。また、合成位置決定部20は、センシングデータ上の認識対象データを合成する合成部分(ここでは、物体合成位置)を決定する第1決定部の一例である。例えば、認識対象は、物体である。また、合成画像生成部30は、合成部分にセンシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部の一例である。例えば、合成部分は、画像上の物体データを合成する物体合成位置であり、合成データは、合成画像である。また、出力データ取得部40は、合成データを、認識対象を認識するように機械学習を用いて訓練されたモデル(以下、認識モデル又は学習モデルとも呼ぶ)に入力して認識結果データを取得する第2取得部の一例である。例えば、認識結果データは、合成画像を認識モデルに入力して取得される物体認識結果データである。
図1及び図2に示すように、画像取得部10は、撮影された画像を取得する(図2のS10)。取得するとは、例えば、撮像装置によって撮影された画像(以下、撮影画像とも呼ぶ)を取得することであってもよく、画像を撮像することにより撮影画像を取得することであってもよい。前者の場合、画像取得部10は、例えば、受信部であり、撮像装置によって撮影された画像を通信により受信する。また、後者の場合、画像取得部10は、例えば、カメラなどの撮像部であり、画像を撮像する。
合成位置決定部20は、画像取得部10で取得された画像上の、物体データを合成する位置である物体合成位置を決定する(図2のS20)。画像に合成される物体は、例えば、人、動物及び車両等の移動可能な物体、並びに、植物及び道路付属物等の不動な物体を含む。物体データを合成する画像上の位置は、任意に決定される。物体合成位置は、さらに、画像上に合成される物体データのサイズを含んでもよい。
合成画像生成部30は、物体合成位置に、撮影画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して合成画像を生成する(図2のS30)。撮影画像が有する視覚的特徴は、撮影画像の要素(以下、画像パラメタともいう)の統計的特徴である。画像パラメタの統計的特徴とは、例えば、画像の色調、明るさ、及びエッジ等が挙げられる。また、撮影画像が有する視覚的特徴は、撮影画像の定性的特徴である。画像の定性的特徴とは、数値化が難しい画像の特徴であり、例えば、雨又は雪などの気象条件、気象条件に伴う路面の状態(例えば、路面が雨で濡れた状態)、オクルージョン等が挙げられる。
合成画像生成部30は、例えば、GAN(Generative Adversarial Network)モデルを用いて物体合成位置に物体を合成する。これにより、得られる合成画像では、合成された物体と背景との色調及び明るさ、つまり、撮影画像上に合成された物体と当該撮影画像との画像パラメタの統計的特徴が同一又は類似になる。そのため、所望の位置に所望の物体を合成しつつ、撮影画像に近い、より自然な合成画像を得ることができる。なお、GANを用いた合成画像の生成方法については、後述する。また、GANは一例であって、合成画像の生成方法については、特に限定されない。合成画像の生成方法は、より自然な撮影画像に近い合成画像を得ることができる方法であればよい。
出力データ取得部40は、合成画像生成部30で得られた合成画像を認識モデルに入力することにより得られる物体認識結果データ(つまり、認識モデルの出力データ)を取得する(図2のS40)。
決定部50は、正解データと出力データとを用いて、第1の決定を行うか否かを決定することである第2の決定を行う。より具体的には、決定部50は、合成画像に基づいて認識モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を、少なくとも物体合成位置を含む正解データと出力データとを用いて行う(図2のS50)。正解データは、例えば、物体合成位置の領域を示す座標、物体の種類、物体の姿勢などの情報を含む。決定部50は、当該正解データと出力データとの差分の大きさに基づいて、物体合成位置に合成された物体を認識する精度(以下、物体の認識精度)を判定する。決定部50は、第1の決定を行うと第2の決定において決定された場合、第1の決定を行う(図2のS60)。より具体的には、決定部50は、認識モデルにおける物体の認識精度が所定の閾値よりも低い場合、認識モデルに入力された合成画像及び当該合成画像と同一又は類似する画像を認識モデルの訓練用データとして決定する。
以上のように、情報処理システム100は、訓練用データを用いて認識モデルに学習させることによって、物体の認識精度が向上された認識モデルを構築する。本実施の形態では、認識モデルは、Deep Learning(深層学習)等のニューラルネットワークを用いた機械学習モデルであるが、他の学習モデルであってもよい。例えば、他の学習モデルは、Support Vector Machine、 Boosting、Random Forest、又は、Genetic Programming等を用いた機械学習モデルであってもよい。
以下、図3~図5を参照して、本実施の形態に係る情報処理システム100において、撮影画像が取得されてから合成画像が生成されるまでの手順の一例を説明する。図3は、画像取得部10で取得された撮影画像を示す図である。図4は、合成位置決定部20で画像上の物体合成位置が決定された撮影画像を示す図である。図5は、合成画像生成部30で物体合成位置に物体を合成することにより生成された合成画像を示す図である。ここでは、GANモデルを用いて物体を物体合成位置に合成する例を説明する。
画像取得部10は、図3に示す撮影画像を取得する。この撮影画像は、例えば、車載カメラで撮影された画像である。
次いで、図4に示すように、合成位置決定部20は、撮影画像上に物体を合成する物体合成位置A及び物体合成位置Bを決定する。物体合成位置A及び物体合成位置Bはそれぞれ任意に決定された位置である。GANモデルでは、撮影画像上の物体合成位置A及び物体合成位置Bにノイズを発生させる。
次いで、図5に示すように、合成画像生成部30は、ノイズが発生された物体合成位置A及び物体合成位置Bのそれぞれに、異なるジェネレータを有する画像を合成する。異なるジェネレータを有する画像とは、例えば、性別、年齢、服装、及び姿勢等の異なる人物の画像、自転車等の乗り物を運転する人物の画像、並びに、乗用車等の傍に人物が立っている画像等が挙げられる。これらのジェネレータに基づいて所定の物体合成位置に所定の物体が合成される。例えば、図5に示すように、物体合成位置Aには、歩行者A1が合成され、物体合成位置Bには自転車を運転する人物B1が合成される。
なお、GANモデルでは、物体合成位置に合成された物体が人物として認識され得るかを判定し、かつ、物体合成位置に合成された物体が背景に馴染んでいるかを判定する。例えば、合成された物体が人物として認識されると判定されたとしても、当該物体が背景に馴染んでいないと判定された場合は、ジェネレータを調整し、再度、物体合成位置に物体を合成する。これにより、合成画像全体として元の撮影画像に近い自然な画像を得ることができる。
このように、本実施の形態では、撮影画像上の所望の物体合成位置に物体を合成するため、物体合成位置の座標及び物体の種類等を示すアノテーションを、合成画像に付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、本実施の形態では、撮影画像上の所望の物体合成位置に物体を合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル(認識モデルとも呼ぶ)に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。それにより、学習モデルの個々の訓練効率が向上する。例えば、学習モデルの認識精度をより短時間で向上させることができる。
また、本実施の形態では、画像が有する人の感覚器により知覚される特徴(ここでは、視覚的特徴)と同一又は類似の特徴(つまり、視覚的特徴)を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された撮影画像である場合は、撮影画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して学習を行った学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。
以上のように、情報処理システム100は、画像を取得する画像取得部10と、画像上の物体合成位置を決定する合成位置決定部20と、物体合成位置に、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成する合成画像生成部30と、合成画像を学習モデルに入力することにより得られる学習モデルの出力データを取得する出力データ取得部40と、合成画像に基づいて学習モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも物体合成位置を含む正解データと出力データとを用いて行い、第1の決定を行うと第2の決定において決定された場合、第1の決定を行う決定部50と、を備える。このとき、当該画像が有する視覚的特徴は、当該画像の画像パラメタの統計的特徴である。また、当該画像が有する視覚的特徴は、当該画像の定性的特徴である。
また、本実施の形態に係る情報処理方法は、画像を取得し(S10)、画像上の物体合成位置を決定し(S20)、物体合成位置に、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成し(S30)、合成画像を学習モデルに入力することにより得られる学習モデルの出力データを取得し(S40)、合成画像に基づいて学習モデルの訓練用データを決定することである第1の決定を行うか否かを決定することである第2の決定を少なくとも物体合成位置を含む正解データと出力データとを用いて行い(S50)、第1の決定を行うと第2の決定において決定された場合、第1の決定を行う(S60)。
これにより、画像上の所望の物体合成位置に物体が合成されるため、物体合成位置の座標などの情報を学習モデルの正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。これにより、学習モデルの個々の訓練効率が向上する。例えば、全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間に効率よく向上させることができる。また、本実施の形態では、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された画像である場合は、撮像画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して学習を行った学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。
なお、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体とは、例えば、画像の画像パラメタの統計的特徴である画像の色味又はエッジなどが同一又は類似している物体であってもよく、画像の定性的特徴である雨又は雪などの気象条件、気象条件による路面の状態、及びオクルージョンなどが同一又は類似している物体であってもよい。当該物体は、上記特徴を有することにより、画像に馴染みやすいため、物体合成位置に当該物体を合成して生成される合成画像は自然な画像となる。
(変形例1)
[変形例1に係る情報処理システムの構成]
実施の形態の変形例1に係る情報処理システムについて図6を参照して説明する。図6は、変形例1に係る情報処理システム100の構成の一例を示すブロック図である。
なお、実施の形態に係る情報処理システム100において、画像取得部10は、画像を取得する受信部及び画像を撮像する撮像部のいずれであってもよい例を説明したが、変形例1では、画像取得部10は、撮影された画像を受信する受信部である例を説明する。
変形例1に係る情報処理システム100は、撮像部210と、認識部220とを含む認識処理部200と、認識モデル更新部300と、を備える。
変形例1に係る情報処理システム100は、撮像部210によって撮影された画像(以下、撮影画像とも呼ぶ)に画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成し、当該合成画像内に合成された物体にアノテーションを付与し、認識モデルを構築するための訓練用データを決定する。さらに、情報処理システム100は、合成画像に基づいて決定した訓練用データを用いて、画像から物体を検出するための認識モデルを構築する。認識モデルの構築には、後述する学習モデルが適用される。訓練用データは、認識モデルが学習するために(言い換えると、認識モデルが機械学習を用いて訓練されるために)使用するデータである。訓練用データは、合成画像と、合成画像内の物体の種別及び動作などの内容、物体の位置及び領域等の情報とを含む。
認識処理部200は、認識モデル更新部300が訓練により構築した認識モデルを、認識部220の認識モデル受信部3で受信する。認識モデル受信部3で受信された認識モデルは、認識モデル更新部4に入力されて更新される。認識モデルが更新されると、更新情報提示部5は、認識モデルが更新された旨の通知を提示する。当該通知の提示は、音声であってもよく、画面に画像として表示されてもよい。また、認識部220は、撮像部210で撮影された画像に含まれる物体を認識する。なお、認識処理部200は、物体の認識結果を音声又は画像として出力してユーザに知らせてもよい。
以降において、認識処理部200が、移動体、具体的には、自動車等に搭載され、認識モデル更新部300が、自動車から離れた位置にあるサーバに搭載されるとして、説明する。自動車の認識処理部200と、サーバとは、無線通信を介して接続され、例えば、インターネット等の通信網を介して互いに無線通信する。認識処理部200と認識モデル更新部300とは、無線通信を介して、情報を送受信する。上記無線通信には、Wi-Fi(登録商標)(Wireless Fidelity)などの無線LAN(Local Area Network)が適用されてもよく、その他の無線通信が適用されてもよい。サーバは、コンピュータ等の情報処理装置であってもよい。サーバは、1つ以上のサーバを含んでもよく、クラウドシステムを構成してもよい。
情報処理システム100は、通信回路等の無線通信装置を備えてもよく、サーバが備える無線通信装置を利用してもよい。認識処理部200は、通信回路等の無線通信装置を備えてもよく、自動車が備える無線通信装置を利用してもよい。なお、認識処理部200と認識モデル更新部300とは、無線通信を介して接続されず、有線通信を介して接続されてもよく、不揮発性メモリ等の記録媒体を介して、互いに情報を授受してもよい。
また、自動車に搭載されるコンピュータが処理可能であれば、認識モデル更新部300が自動車に搭載されてもよい。この場合、認識モデル更新部300と認識処理部200とは一体化されてもよい。そして、認識モデル更新部300は、無線通信、有線通信又は記録媒体を介して、自動車の外部と、情報を授受してもよい。
さらに、図6を参照して、変形例1に係る情報処理システム100の認識処理部200及び認識モデル更新部300の詳細な構成を説明する。なお、以降において、認識モデル更新部300が、合成画像を生成するためにGANモデルを使用する例を説明する。
変形例1に係る情報処理システム100では、認識処理部200は、撮像部210と認識部220とを備える。
撮像部210は、例えば、カメラであり、画像撮像部1と画像送信部2とを備える。撮像部210で撮影された画像は、画像送信部2を介して認識モデル更新部300の画像取得部110に送信される。
認識部220は、例えば、撮像部210で撮影された画像に含まれる人物等の物体を認識する。認識部220は、認識モデル受信部3と認識モデル更新部4と更新情報提示部5とを備える。認識モデル受信部3は、認識モデル更新部300で更新された認識モデルを受信して認識モデル更新部4に出力する。認識モデル更新部4は、認識モデル受信部3から出力された認識モデルを格納することにより、認識モデルを更新する。更新情報提示部5は、ディスプレイ及び/又はスピーカで構成されてよく、第1の決定を行うと第2の決定において決定された場合、認識モデルのユーザに通知を行う。例えば、更新情報提示部5は、所定量の訓練用データが訓練用データ保持部160に格納された場合、決定された訓練用データを用いた認識モデルの訓練の要請に関する通知を行う。また、例えば、更新情報提示部5は、訓練部170において、決定された訓練用データを用いた認識モデルの訓練が実行された場合、訓練の完了に関する通知を行う。また、更新情報提示部5は、認識部220に保持された認識モデルが訓練済みの認識モデルに更新されたことをユーザに提示してもよい。さらに、更新情報提示部5は、例えば、更新された認識モデルと更新前の認識モデルとの違い、及び、更新されたことにより得られる効果等の更新情報をユーザに提示してもよい。なお、ディスプレイは、液晶パネル、有機又は無機EL(Electro Luminescence)などの表示パネルで構成されてもよい。
認識モデル更新部300は、画像取得部110、サンプリング部112、合成位置設定部120、画像合成部130、検知処理部140、データ利用判定部150、訓練部170、認識モデル送信部180、訓練用データ保持部160及び認識モデル保持部142を備える。
画像取得部110は、撮像部210から送信された画像を取得する。画像取得部110は、取得した画像をサンプリング部112に出力する。
サンプリング部112は、画像取得部110から出力された画像を受信し、受信した画像の中から、例えば、周期的に画像をサンプリングして、サンプリングした画像を合成位置設定部120に出力する。
合成位置設定部120は、実施の形態における合成位置決定部20(図1参照)の一例であり、サンプリング部112でサンプリングされた画像上の物体合成位置を任意に設定する。
画像合成部130は、実施の形態における合成画像生成部30(図1参照)の一例であり、合成位置設定部120で設定された物体合成位置に物体を合成する。このとき、物体の合成方法としては、GANモデルを用いる。なお、GANモデルについては、実施の形態にて説明したため、ここでの説明を省略する。
検知処理部140は、実施の形態における出力データ取得部40(図1参照)の一例であり、画像合成部130で合成された合成画像を認識モデル保持部142に出力して得られる認識モデルの出力データを取得する。より具体的には、検知処理部140は、認識モデル保持部142に保持された認識モデルに合成画像を入力することにより得られる認識モデルの出力データを取得する。検知処理部140は、取得した出力データをデータ利用判定部150に出力する。
データ利用判定部150は、実施の形態における決定部50(図1参照)の一例であり、少なくとも物体合成位置を含む正解データと出力データとを用いて、合成画像に基づいて認識モデルの訓練用データを決定することである第1の決定を行うか否かの第2の決定を行う。データ利用判定部150は、正解データと出力データとの差分により判定された認識モデルの認識精度が所定の閾値よりも高い場合、第1の決定を行わないとする第2の決定を行う。より具体的には、この場合、データ利用判定部150は、認識モデルに入力された合成画像を、認識モデルによって認識される画像であると判定し、当該合成画像に基づいて認識モデルの訓練用データを決定しないとの第2の決定を行う。データ利用判定部150は、第2の決定に応じて、当該合成画像に基づいて認識モデルの訓練用データを決定しない。
一方、データ利用判定部150は、認識モデルの認識精度が所定の閾値よりも低い場合、第1の決定を行うとする第2の決定を行う。より具体的には、データ利用判定部150は、認識モデルに入力された合成画像を、認識モデルによって物体が認識されにくい画像であると判定し、当該合成画像に基づいて認識モデルの訓練用データを決定するとの第2の決定を行う。データ利用判定部150は、第2の決定に応じて、当該合成画像を訓練用データとして決定する。また、データ利用判定部150は、当該合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定する。対応画像は、訓練用データ保持部160に格納されている画像から選出されてもよく、生成されてもよい。データ利用判定部150は、訓練用データとして決定された画像を、訓練用データ保持部160に新規訓練用データとして格納する。
ここで、合成画像が有する視覚的特徴は、当該合成画像の画像パラメタの統計的特徴である。また、合成画像が有する視覚的特徴は、当該合成画像の定性的特徴である。なお、画像パラメタの統計的特徴及び定性的特徴については、実施の形態に記載の内容と同様であるため、ここでの説明を省略する。
また、合成画像が有する視覚的特徴は、合成画像における物体の態様であり、対応画像が有する視覚的特徴は、物体が有する属性と同一又は類似の属性を有する対応物体の態様である。例えば、当該態様は、物体の合成画像上における位置である。より具体的には、物体の合成画像上の位置は、物体が占める領域の座標である。また、例えば、当該態様は、物体の姿勢である。
なお、物体が有する属性とは、物体が有する性質であり、例えば、物体の種類、形、色、材質等が挙げられる。より具体的には、物体の種類が人物である場合、性別、体格、年齢、肌の色、服装、持ち物、姿勢、年齢、表情なども物体が有する属性に含まれてもよい。また、物体の種類が自動車である場合、車種、形状、ボディの色、窓ガラスの色なども物体が有する属性に含まれてもよい。
訓練用データ保持部160は、新規訓練用データ、及び、訓練用データとして事前に保持された種々の画像を含む事前保持DB(Data Base)などを格納している。訓練用データ保持部160は、上記のデータの他に、背景の情報、物体の情報、天候などの環境の情報などを格納し、かつ、格納した情報を取り出すことができる。訓練用データ保持部160は、例えば、RAM(Random Access Memory)、フラッシュメモリなどの半導体メモリ、ハードディスクドライブ、又は、SSD(Solid State Drive)等の記憶装置によって実現される。
訓練用データ保持部160は、データ利用判定部150が学習モデルの訓練用データに決定した合成画像に対して、画像上の画像合成位置の情報と、当該合成画像とを対応付けて格納する。また、訓練用データ保持部160は、データ利用判定部150が合成画像に基づいて訓練用データに決定した対応画像に対して、合成画像上に合成された物体に対応する対応物体の対応画像上の位置の情報と、当該対応画像とを対応付けて格納する。
訓練用データ保持部160は、データ利用判定部150が訓練用データとして決定した合成画像と同一又は類似の画像を要求するコマンドをデータ利用判定部150から受信したことに応じて、訓練用データ保持部160に格納された新規訓練用データ及び事前保持DBから所望の画像をデータ利用判定部150に出力する。また、訓練用データ保持部160は、訓練用データを要求するコマンドを訓練部170から受信したことに応じて、訓練用データ保持部160に格納された新規訓練用データ及び事前保持DBから所期の画像を訓練部170に出力する。
認識モデル保持部142は、認識部220が有する認識モデルと同一の認識モデルを格納している。認識モデル保持部142は、画像合成部130で生成された合成画像を認識モデルに入力して得られた出力データを検知処理部140に出力する。認識モデル保持部142は、訓練部170で訓練された認識モデルを取得し、認識モデル保持部142に格納することにより更新する。
訓練部170は、データ利用判定部150で決定された訓練用データを用いた認識モデルの訓練を実行する。例えば、訓練部170は、訓練用データ保持部160に所定量の新規訓練用データが格納されると、訓練用データ保持部160から訓練用データを読み出し、それらの訓練用データを訓練部170に格納された認識モデルに入力して認識モデルの訓練を実行する。訓練部170は、機械学習を用いて訓練された認識モデルを認識モデル保持部142及び認識モデル送信部180に出力する。
認識モデル送信部180は、訓練部170で訓練された認識モデルを、認識処理部200の認識部220に送信する。認識部220の認識モデル受信部3は、訓練された認識モデルを受信すると、認識モデル更新部4に当該認識モデルを出力する。
[変形例1に係る情報処理システムの動作]
変形例1に係る情報処理システム100の動作について、図7を参照して説明する。図7は、変形例1に係る情報処理方法のフローを示すフローチャートである。
図7に示すように、変形例1に係る情報処理システム100では、ステップS10において、画像取得部110は、撮像部210で撮影された画像を取得する。画像取得部110は、取得した画像をサンプリング部112に出力する。
次いで、ステップS101において、サンプリング部112は、画像取得部110から出力された画像を受信し、受信した画像の中から、例えば、周期的に画像をサンプリングする。サンプリング部112は、サンプリングした画像を合成位置設定部120に出力する。
次いで、ステップS20において、合成位置設定部120は、サンプリング部112から出力された画像を受信し、受信した画像上の物体合成位置を任意に決定する。合成位置設定部120は、物体合成位置が決定された画像を画像合成部130に出力する。
次いで、ステップS30において、画像合成部130は、物体合成位置に物体を合成して合成画像を生成する。画像合成部130は、例えばGANモデルを用いて、画像上の物体合成位置に物体を合成する。画像合成部130は、生成した合成画像を検知処理部140に出力する。
次いで、ステップS40において、検知処理部140は、画像合成部130から出力された合成画像を受信し、当該合成画像を認識モデル保持部142に格納されている認識モデルに入力して出力データを取得する。検知処理部140は、取得した出力データをデータ利用判定部150に出力する。
次いで、ステップS50において、データ利用判定部150は、合成画像の正解データと、合成画像を認識モデルに入力して得られた出力データとを用いて、第1の決定を行うか否かを決定することである第2の決定を行う。なお、第1の決定は、合成画像に基づいて訓練用データを決定することである。第1の決定を行わないと第2の決定において決定された場合(ステップS501でNO)、当該合成画像に基づく訓練用データを決定する情報処理方法のフローを終了する。一方、第1の決定を行うと第2の決定において決定された場合(ステップS501でYES)、ステップS60において、データ利用判定部150は、第1の決定を行う。このとき、データ利用判定部150は、合成画像に基づいて訓練用データを決定する。データ利用判定部150は、当該合成画像を認識モデルの訓練用データとして決定する。また、データ利用判定部150は、当該合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を認識モデルの訓練用データとして決定する。次いで、ステップS601において、データ利用判定部150は、訓練用データとして決定された画像を、訓練用データとして訓練用データ保持部160に格納する。
訓練用データ保持部160に所定量の訓練用データが格納されると、ステップS70において、訓練部170は、決定された訓練用データを用いた認識モデルの訓練を実行する。
次いで、ステップS80において、訓練部170は、機械学習を用いて訓練された認識モデルを認識モデル保持部142及び認識モデル送信部180に出力する。認識モデル保持部142は、訓練部170から出力された訓練済みの認識モデルを格納することにより更新する。また、認識モデル送信部180は、訓練部170から出力された訓練済みの認識モデルを認識処理部200の認識部220に送信する。
なお、認識モデル送信部180から送信された訓練済みの認識モデルは、認識部220の認識モデル受信部3で受信され、認識モデル更新部4に出力される。認識モデル更新部4は、認識モデル受信部3から受信した訓練済みの認識モデルを格納することにより認識モデルを更新する。また、更新情報提示部5は、認識モデル受信部3において、訓練済みの認識モデルが受信された場合、ユーザに訓練の完了に関する通知を行う。
[変形例1の効果等]
上述したような変形例1に係る情報処理システム100及び情報処理方法によれば、実施の形態に記載した効果に加え、以下の効果を有する。
変形例1に係る情報処理方法は、第1の決定では、合成画像を認識モデルの訓練用データとして決定する。
これにより、学習モデルでの認識精度が低いと判定された合成画像を訓練用データとして使用することができる。そのため、学習モデルでの認識精度が高いデータ、すなわち訓練用データとしては不要なデータを訓練用データとして蓄積することが抑制される。したがって、データを蓄積するためのコストが削減される。言い換えると、学習モデルでの認識精度が低いシーンの画像を重点的に訓練用データとして蓄積することができるため、認識精度の低いシーンに対する効率的な学習が可能となる。そのため、学習モデルの認識精度がより向上される。
また、変形例1に係る情報処理方法は、第1の決定では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を認識モデルの訓練用データとして決定する。このとき、合成画像が有する視覚的特徴は、当該合成画像の画像パラメタの統計的特徴である。また、合成画像が有する視覚的特徴は、当該合成画像の定性的特徴である。
このように、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定するため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。なお、対応画像が撮影画像の場合は、合成画像を訓練用データとしたときに比べて学習効果を向上させることができる。また、視覚的特徴が合成画像の画像パラメタの統計的特徴である場合は、統計学的な観点から訓練用データの数及びバリエーションを効率よく増やすことができる。また、視覚的特徴が合成画像の定性的特徴である場合は、定量化しづらい特徴を有する訓練用データの数及びバリエーションを効率よく増やすことができる。
また、変形例1に係る情報処理方法では、合成画像が有する視覚的特徴は、当該合成画像における物体の態様であり、対応画像が有する視覚的特徴は、物体が有する属性と同一又は類似の属性を有する対応物体の態様である。この場合、当該態様は、物体の合成画像上における位置である。また、当該態様は、前記物体の姿勢である。
これにより、例えば、合成画像上の物体の位置又は物体の姿勢などの物体の態様の違いにより学習モデルでの物体の認識精度が低いと判定された場合、合成画像に基づいて訓練用データが決定される。そのため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。これにより、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。このような訓練用データを用いて構築される認識モデルは、画像から物体を認識する精度が向上される。
また、変形例1に係る情報処理方法では、さらに、第1の決定を行うと第2の決定において決定された場合、認識モデルのユーザに通知を行う。このとき、当該通知は、例えば、決定された訓練用データを用いた認識モデルの訓練の要請に関する通知である。また、変形例1に係る情報処理方法では、さらに、決定された訓練用データを用いた認識モデルの訓練を実行し、当該通知は、訓練の完了に関する通知である。
これにより、合成画像に基づいて学習モデルの訓練用データが決定された場合、学習モデルのユーザに通知が行われるため、ユーザは学習モデルで物体を認識しにくいシーンがあることを把握することができる。また、上記通知が学習モデルの訓練の要請に関する通知である場合、ユーザは、学習モデルの訓練を行うタイミングを決定することができる。また、上記通知が訓練の完了に関する通知である場合、ユーザは、訓練により学習モデルが更新されたことを知ることができる。
(変形例2)
[変形例2に係る情報処理システムの構成]
実施の形態の変形例2に係る情報処理システムについて図8を参照して説明する。図8は、変形例2に係る情報処理システム100の構成の一例を示すブロック図である。
なお、実施の形態の変形例1に係る情報処理システム100において、サンプリング部112は、画像取得部110で取得された画像の中から周期的に画像をサンプリングして合成位置設定部120に出力する例を説明した。変形例2では、サンプリング部112は、さらに、画像取得部110で取得された画像のうち、所定の条件に適合する画像をサンプリングして訓練用データとして訓練用データ保持部160に格納する例を説明する。以下、変形例2に係る情報処理システム100について、変形例1に係る情報処理システム100と異なる点を中心に説明する。
変形例2に係る情報処理システム100では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から選出してもよい。なお、撮影画像の選出は、画像取得部110で取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、訓練用データ保持部160に格納された撮影画像から所望の撮影画像を検索して抽出することであってもよい。サンプリング部112は、画像取得部110で取得された画像の中から周期的に画像をサンプリングして合成位置設定部120に出力する。さらに、サンプリング部112は、画像取得部110で取得された画像のうち、所定の条件に適合する画像をサンプリングして訓練用データとして訓練用データ保持部160に格納する。ここで、所定の条件とは、認識モデルでの物体の認識精度が低いシーンに基づく条件であり、例えば、物体の種類、物体の位置、物体の態様、照光状態、気象条件、気候、建物の配置、道路条件などから構成される。例えば、所定の条件は、データ利用判定部150が合成画像に基づいて訓練用データを決定する、つまり第1の決定を行う、と第2の決定を行った場合、当該合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように構成される。これにより、サンプリング部112は、認識モデルで物体の認識精度の低い画像と同一又は類似の画像を訓練用データとしてサンプリングするように、当該所定の条件を更新する。
データ利用判定部150は、第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように所定の条件を設定し、当該条件をサンプリング部112に出力する。
また、変形例2に係る情報処理システム100は、類似シーン検索部190を備える点で上記実施の形態及び変形例1に係る情報処理システム100と異なる。類似シーン検索部190は、例えば、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、訓練用データ保持部160に格納された撮影画像から選出する。合成画像が有する視覚的特徴と同一又は類似の視覚的特徴とは、例えば、画像上の物体合成位置、画像の背景、人物の姿勢など合成された物体の態様、画像の色味及びエッジなどの画像パラメタの統計学的特徴、及び、気象条件、路面の濡れ、及び、オクルージョンなどの定性的特徴などである。当該撮影画像は、サンプリング部112により選出されて新規訓練用データとして格納された撮影画像であってもよく、事前保持DBに含まれる撮影画像であってもよい。なお、事前保持DBは、情報処理システムがデフォルトとして保持している様々なシーンの画像を有する。様々なシーンの画像とは、例えば、気候が異なる地域で撮影された画像、天候、路面の状態、風景などの異なる画像、画像上の物体の位置、物体の種類、姿勢などの物体の態様が異なる画像などである。さらに、当該撮影画像は、例えば、画像取得部110が取得した画像を一時的に保持するための記憶部を備える場合、当該記憶部に一時的に保持される画像から選出されてもよい。
[変形例2に係る情報処理システムの動作]
変形例2に係る情報処理システム100の動作について、図9を参照して説明する。図9は、変形例2に係る情報処理方法のフローの一例を示すフローチャートである。
実施の形態の変形例1に係る情報処理システム100において、サンプリング部112は、画像取得部110が取得した画像から周期的に画像をサンプリングして、当該画像を合成位置設定部120に出力する。実施の形態の変形例2に係る情報処理システム100では、サンプリング部112は上記動作に加え、画像取得部110が取得した画像のうち、所定の条件に適合する画像をサンプリングし、当該画像を訓練用データとして訓練用データ保持部160に格納する。類似シーン検索部190は、訓練用データ保持部160に新規訓練用データとして格納されている撮影画像、及び、事前保持DBに格納されている撮影画像から、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を選出する。変形例2に係る情報処理システム100では、これらの撮影画像を含む画像群を訓練用データとして使用して、認識モデルを構築する。以下、変形例2について、実施の形態及び変形例1と異なる点を中心に説明する。
具体的には、ステップS101において、サンプリング部112は、変形例1におけるステップS101と同様の動作に加え、所定の条件に適合する画像を、ステップS10において取得された画像からサンプリングして、当該画像を訓練用データ保持部160に格納する。次いで、情報処理システム100は、ステップS20~S60までの動作を、実施の形態及び変形例1と同様に行う。図示していないが、変形例2では、データ利用判定部150は、第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように所定の条件を設定し、当該条件をサンプリング部112に出力する。当該条件をサンプリング部112が受信すると、サンプリング部112は、所定の条件をサンプリング部112に格納することにより更新する。
次いで、ステップS602において、類似シーン検索部190は、第1の決定を行うとの第2の決定が実行された場合の合成画像と同一又は類似の画像を、対応画像として、訓練用データ保持部160に格納されている撮影画像から検索し、所望の撮影画像を訓練用データとして選出する。次いで、情報処理システム100は、ステップS70及びS80の動作を、変形例1と同様に行う。
[変形例2の効果等]
上述したような変形例2に係る情報処理システム100及び情報処理方法によれば、実施の形態及び変形例1に記載の効果に加え、以下の効果を有する。
変形例2に係る情報処理方法では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から選出する。なお、撮影画像の選出は、画像取得部110で取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、訓練用データ保持部160などのメモリ及びデータベース等に格納された撮影画像から所望の撮影画像を検索して抽出することであってもよい。
これにより、撮影画像を訓練用データとして使用することができる。そのため、合成画像を訓練用データとして使用する場合に比べて、より高い学習効果が得られる。なお、撮影画像の選出は、画像が取得される度に所定の条件に基づいて記録するか否かを判定することであってもよく、取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、メモリ又はデータベース等に格納された撮影画像から所定の条件を満たす撮影画像を検索して抽出することであってもよい。
(変形例3)
[変形例3に係る情報処理システムの構成]
実施の形態の変形例3に係る情報処理システムについて図10を参照して説明する。図10は、変形例3に係る情報処理システム100の構成の一例を示すブロック図である。
なお、実施の形態の変形例2に係る情報処理システム100は、類似シーン検索部190を備える。類似シーン検索部190は、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像と同一又は類似の画像を、訓練用データ保持部160に格納されている撮影画像から検索し、所望の撮影画像を訓練用データとして選出する。変形例3に係る情報処理システム100は、類似シーン検索部190を備えず、類似シーン加工部192を備える。以下、変形例3に係る情報処理システムについて、変形例2に係る情報処理システム100と異なる点を中心に説明する。
変形例3に係る情報処理システム100では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から生成してもよい。
類似シーン加工部192は、例えば、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、訓練用データ保持部160に格納された撮影画像から生成する。
[変形例3に係る情報処理システムの動作]
変形例3に係る情報処理システム100の動作について、図11を参照して説明する。図11は、変形例3に係る情報処理方法のフローの一例を示すフローチャートである。
実施の形態の変形例2に係る情報処理システムにおいて、類似シーン検索部190は、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像、つまり、合成画像に類似する画像を、訓練用データ保持部160に格納された撮影画像から選出する。実施の形態の変形例3に係る情報処理システムにおいて、類似シーン加工部192は、データ利用判定部150が第1の決定を行うとの第2の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像、つまり、合成画像に類似する画像を、訓練用データ保持部160に格納された撮影画像から生成する。以下、変形例3について、実施の形態、並びに、変形例1及び変形例2と異なる点を中心に説明する。
具体的には、ステップS603において、類似シーンの撮影画像、つまり、第1の決定を行うとの第2の決定が実行された場合の合成画像に類似するシーンの画像を、対応画像として、当該合成画像とは異なる、訓練用データ保持部160に格納された撮影画像を加工して生成する。
[変形例3の効果等]
上述したような変形例3に係る情報処理システム100及び情報処理方法によれば、実施の形態及び変形例1に記載の効果に加え、以下の効果を有する。
変形例3に係る情報処理方法では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から生成する。
これにより、対応画像を撮影画像から生成することができる。具体的には、認識モデルでの物体の認識精度が低いシーンの画像及び当該シーンに類似する画像を撮影画像から生成することができる。これにより、撮影画像をそのまま対応画像として使用できない場合であっても対応画像を生成することができるため、訓練用データの数及びバリエーションを容易に増やすことができる。
[その他の変形例]
以上のように、本出願において開示する技術の例示として、実施の形態及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態の変形例又は他の実施の形態にも適用可能である。また、実施の形態及び変形例で説明する各構成要素を組み合わせて、新たな実施の形態又は変形例とすることも可能である。
実施の形態及び変形例に係る情報処理システム100は、自動車に適用されるとした。情報処理システムは、センシングデータから認識対象を認識するシステムであれば、いかなるシステムに適用されてもよい。例えば、情報処理システムは、住居又はオフィスなどの建物における人の行動又は状態を観測するシステムに適用されてもよい。この場合、認識処理部200はカメラ等のセンサモジュールに搭載され、認識モデル更新部300は、センサモジュールに搭載されてもよく、サーバ等のセンサモジュールと分離した装置に搭載されてもよい。
また、上記実施の形態においては処理の対象が画像である例を説明したが、処理の対象は画像以外のセンシングデータであってもよい。例えば、マイクロフォンから出力される音声データ、LiDAR等のレーダから出力される点群データ、圧力センサから出力される圧力データ、温度センサ又は湿度センサから出力される温度データ又は湿度データ、香りセンサから出力される香りデータなどの正解データが取得可能なセンシングデータであれば、処理の対象とされてよい。例えば、センシングデータが音声データである場合は、音声データの要素は、周波数及び振幅などであり、音声データの要素の統計的特徴は、周波数帯及び音圧などであり、音声データの定性的特徴は、騒音及び背景音などである。
なお、本開示の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばCD-ROM等の不揮発性の記録媒体を含む。
例えば、実施の形態及び変形例に係る情報処理システム100に含まれる各構成要素は典型的には集積回路であるLSI(大規模集積回路、Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
なお、実施の形態及び変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、上記構成要素の一部又は全部は、脱着可能なIC(Integrated Circuit)カード又は単体のモジュールから構成されてもよい。ICカード又はモジュールは、マイクロプロセッサ、ROM、RAM等から構成されるコンピュータシステムである。ICカード又はモジュールは、上記のLSI又はシステムLSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカード又はモジュールは、その機能を達成する。これらICカード及びモジュールは、耐タンパ性を有するとしてもよい。
なお、上記方法は、MPU、CPU、プロセッサ、LSIなどの回路、ICカード又は単体のモジュール等によって、実現されてもよい。
また、本開示の技術は、ソフトウェアプログラム又はソフトウェアプログラムからなるデジタル信号によって実現されてもよく、プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。
なお、上記プログラム及び上記プログラムからなるデジタル信号は、コンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、SSD、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリ等に記録したものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、記録媒体に記録して移送されることにより、又はネットワーク等を経由して移送されることにより、独立した他のコンピュータシステムにより実施されてもよい。
また、上記で用いた序数、数量等の数字は、全て本開示の技術を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。また、構成要素間の接続関係は、本開示の技術を具体的に説明するために例示するものであり、本開示の機能を実現する接続関係はこれに限定されない。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを1つの機能ブロックとして実現したり、1つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。