JP7257227B2

JP7257227B2 - 情報処理方法及び情報処理システム

Info

Publication number: JP7257227B2
Application number: JP2019075031A
Authority: JP
Inventors: 育規石井; 弘章浦部
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2018-08-29
Filing date: 2019-04-10
Publication date: 2023-04-13
Anticipated expiration: 2039-04-10
Also published as: JP2020038605A

Description

本開示は、情報処理方法及び情報処理システムに関する。

機械学習のためのデータセット（以下、訓練用データセット又は学習用データセットとも称する。）の構築等において、十分な量のデータ（以下、訓練用データ又は学習用データとも称する。）を準備する方法として、合成画像を生成する方法が提案されている。例えば、特許文献１には、複数個の異なる種類のセンサを併用し、これらのセンサから得られる情報に基づいてＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）画像を生成することによって学習のサンプル数を増加させるシミュレーションシステム等が開示されている。また、例えば、特許文献２には、背景画像と色彩及び明度の少なくともいずれかが類似した部分を有する物体を撮影した画像と背景画像との差分画像を学習用データとして用いる画像処理装置等が開示されている。

国際公開第２０１８／０６６３５１号国際公開第２０１７／１５４６３０号

上記従来技術では、生成される訓練用データが、機械学習により訓練されるモデル（以下、訓練モデル又は学習モデルとも称する。）の個々にとって有益であるとは限らない。したがって、上記従来技術では、個々のモデルの訓練効率を向上させることが難しい。

そこで、本開示は、機械学習により訓練されるモデルの個々の訓練効率を向上させることができる情報処理方法及び情報処理システムを提供する。

本開示の非限定的で例示的な一態様に係る情報処理方法は、コンピュータを用いて、センシングデータを取得し、前記センシングデータ上の認識対象データを合成する合成部分を決定し、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、前記合成データが有する前記特徴と同一又は類似の前記特徴を有する対応データを前記モデルの訓練用データとして決定することである第１の決定を行うか否かを決定することである第２の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第１の決定を行うと前記第２の決定において決定された場合、前記第１の決定を行う。

なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性の記録媒体を含む。本開示の一態様の付加的な恩恵及び有利な点は本明細書及び図面から明らかとなる。この恩恵及び／又は有利な点は、本明細書及び図面に開示した様々な態様及び特徴により個別に提供され得るものであり、その１以上を得るために全てが必要ではない。

本開示に係る情報処理方法等によれば、機械学習により訓練されるモデルの個々の訓練効率を向上させることができる。

図１は、実施の形態に係る情報処理システムの構成の一例を示すブロック図である。図２は、実施の形態に係る情報処理方法のフローの一例を示すフローチャートである。図３は、画像取得部で取得された撮影画像を示す図である。図４は、合成位置決定部で画像上の物体合成位置が決定された撮影画像を示す図である。図５は、合成画像生成部で物体合成位置に物体を合成することにより生成された合成画像を示す図である。図６は、変形例１に係る情報処理システムの構成の一例を示すブロック図である。図７は、変形例１に係る情報処理方法のフローの一例を示すフローチャートである。図８は、変形例２に係る情報処理システムの構成の一例を示すブロック図である。図９は、変形例２に係る情報処理方法のフローの一例を示すフローチャートである。図１０は、変形例３に係る情報処理システムの構成の一例を示すブロック図である。図１１は、変形例３に係る情報処理方法のフローの一例を示すフローチャートである。

本開示の一態様の概要は以下のとおりである。

本開示の一態様に係る情報処理方法は、センシングデータを取得し、前記センシングデータ上の認識対象データを合成する合成部分を決定し、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、前記合成データに基づいて前記モデルの訓練用データを決定することである第１の決定を行うか否かを決定することである第２の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第１の決定を行うと前記第２の決定において決定された場合、前記第１の決定を行う。このとき、前記センシングデータが有する前記特徴は、前記センシングデータの要素の統計的特徴であってもよい。また、前記センシングデータが有する前記特徴は、前記センシングデータの定性的特徴であってもよい。

上記態様によれば、例えば、センシングデータが画像である場合、画像上の所望の合成部分に認識対象（例えば、物体）データを合成するため、合成部分（例えば、物体合成位置）の座標及び物体の種類等を示すアノテーションを、合成データ（ここでは、合成画像）に新たに付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、上記態様によれば、画像上の所望の位置及びサイズで物体データを合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル（以下、認識モデルとも呼ぶ）に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、上記態様によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。それにより、学習モデルの個々の訓練効率が向上する。例えば、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間で向上させることができる。また、上記態様によれば、画像が有する人の感覚器により知覚される特徴（例えば、視覚的特徴）と同一又は類似の特徴（つまり、視覚的特徴）を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された画像（以下、撮影画像）である場合は、撮影画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して機械学習により訓練された学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。なお、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体とは、例えば、画像の要素（例えば、画像パラメタ）の統計的特徴である画像の色味又はエッジなどが同一又は類似している物体であってもよく、画像の定性的特徴である雨又は雪などの気象条件、気象条件による路面の状態、及びオクルージョンなどが同一又は類似している物体であってもよい。当該物体は、上記特徴を有することにより、画像に馴染みやすいため、物体合成位置に当該物体を合成して生成される合成画像は自然な画像となる。

例えば、本開示の一態様に係る情報処理方法は、前記第１の決定では、前記合成データを前記モデルの訓練用データとして決定してもよい。

上記態様によれば、学習モデルでの認識精度が低いと判定された合成画像を訓練用データとして使用することができる。そのため、学習モデルでの認識精度が高いデータ、すなわち訓練用データとしては不要なデータを訓練用データとして蓄積することが抑制される。したがって、データを蓄積するためのコストが削減される。言い換えると、学習モデルでの認識精度が低いシーンの画像を重点的に訓練用データとして蓄積することができるため、認識精度の低いシーンに対する効率的な学習が可能となる。そのため、学習モデルの認識精度がより向上される。

例えば、本開示の一態様に係る情報処理方法は、前記第１の決定では、前記合成データが有する前記特徴と同一又は類似の前記特徴を有する対応データを前記モデルの訓練用データとして決定してもよい。このとき、前記合成データが有する前記特徴は、前記合成データの要素の統計的特徴であってもよい。また、前記合成データが有する前記特徴は、前記合成データの定性的特徴であってもよい。

上記態様によれば、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定するため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。なお、対応画像が撮影画像の場合は、合成画像を訓練用データとしたときに比べて学習効果を向上させることができる。また、視覚的特徴が合成画像の要素（例えば、画像パラメタ）の統計的特徴である場合は、統計学的な観点から訓練用データの数及びバリエーションを効率よく増やすことができる。また、視覚的特徴が合成画像の定性的特徴である場合は、定量化しづらい特徴を有する訓練用データの数及びバリエーションを効率よく増やすことができる。

例えば、本開示の一態様に係る情報処理方法では、前記センシングデータは、画像であり、前記認識対象は、物体であり、前記合成部分は、前記画像上の物体データを合成する物体合成位置であり、前記合成データは、前記物体合成位置に、前記画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して生成される合成画像であり、前記認識結果データは、前記合成画像を前記モデルに入力して取得される物体認識結果データであり、前記第１の決定は、前記合成画像に基づいて前記モデルの訓練用データを決定することであり、前記第２の決定は、少なくとも前記物体合成位置を含む正解データと前記物体認識結果データとを用いて行われてもよい。例えば、前記第１の決定は、前記合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を前記モデルの訓練用データとして決定することであり、前記合成画像が有する視覚的特徴は、前記合成画像における前記物体の態様であり、前記対応画像が有する視覚的特徴は、前記物体が有する属性と同一又は類似の属性を有する対応物体の態様であってもよい。この場合、前記態様は、前記物体の前記合成画像上における位置であってもよい。また、前記態様は、前記物体の姿勢であってもよい。

上記態様によれば、合成画像が有する視覚的特徴が合成画像における物体の態様であるため、例えば、合成画像上の物体の位置又は物体の姿勢などの物体の態様の違いにより学習モデルでの物体の認識精度が低いと判定された合成画像に基づいて訓練用データが決定される。これにより、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。このような訓練用データを用いて構築される認識モデルは、画像から物体を認識する精度が向上される。

例えば、本開示の一態様に係る情報処理方法では、合成部分は、さらに画像上に合成される物体データのサイズを含んでもよい。

上記態様によれば、当該画像にとってより違和感の少ない合成データを得ることができる。

例えば、本開示の一態様に係る情報処理方法では、前記合成データが有する前記特徴と同一又は類似の前記特徴を有するデータを、前記対応データとして、前記合成データとは異なるセンシングデータから選出又は生成してもよい。

上記態様によれば、撮影画像を訓練用データとして使用することができる。そのため、合成画像を訓練用データとして使用する場合に比べて、より高い学習効果が得られる。なお、撮影画像の選出は、画像が取得される度に所定の条件に基づいて記録するか否かを判定することであってもよく、取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、メモリ又はデータベース等に格納された撮影画像から所定の条件を満たす撮影画像を検索して抽出することであってもよい。また、上記態様によれば、対応画像を撮影画像から生成することができる。具体的には、認識モデルでの認識精度が低いシーンの画像及び当該シーンに類似する画像を撮影画像から生成することができる。これにより、撮影画像をそのまま対応画像として使用できない場合であっても対応画像を生成することができるため、訓練用データの数及びバリエーションを容易に増やすことができる。

例えば、本開示の一態様に係る情報処理方法では、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）モデルを用いて前記合成部分に前記認識対象データを合成してもよい。

上記態様によれば、所望の位置に所望の物体を合成しつつ、撮影画像に近い、より自然な合成画像を得ることができる。このような合成画像を訓練用データとして使用することにより、学習モデルでの物体の認識精度を高めることができる。

例えば、本開示の一態様に係る情報処理方法では、さらに、前記第１の決定を行うと前記第２の決定において決定された場合、前記学習モデルのユーザに通知を行ってもよい。このとき、前記通知は、決定された前記訓練用データを用いた前記モデルの訓練の要請に関する通知であってもよい。また、本開示の一態様に係る情報処理方法では、さらに、決定された前記訓練用データを用いた前記モデルの訓練を実行し、前記通知は、前記訓練の完了に関する通知であってもよい。

上記態様によれば、合成画像に基づいて学習モデルの訓練用データが決定された場合、学習モデルのユーザに通知が行われるため、ユーザは学習モデルで物体を認識しにくいシーンがあることを把握することができる。また、上記通知が学習モデルの訓練の要請に関する通知である場合、ユーザは、学習モデルの訓練を行うタイミングを決定することができる。また、上記通知が訓練の完了に関する通知である場合、ユーザは、訓練により学習モデルが更新されたことを知ることができる。

また、本開示の一態様に係る情報処理システムは、センシングデータを取得する第１取得部と、前記センシングデータ上の認識対象データを合成する合成部分を決定する第１決定部と、前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部と、前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得する第２取得部と、前記合成データに基づいて前記モデルの訓練用データを決定することである第１の決定を行うか否かを決定することである第２の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第１の決定を行うと前記第２の決定において決定された場合、前記第１の決定を行う第２決定部と、を備える。

上記態様によれば、例えば、センシングデータが画像である場合、画像上の所望の合成部分に認識対象（例えば、物体）データを合成するため、合成部分（例えば、物体合成位置）の座標及び物体の種類等を示すアノテーションを、合成データ（ここでは、合成画像）に新たに付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、上記態様によれば、画像上の所望の位置及びサイズで物体データを合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル（以下、認識モデルとも呼ぶ）に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。これにより、学習モデルの個々の訓練効率が向上する。例えば、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間に効率よく向上させることができる。また、上記態様によれば、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された撮影画像である場合は、撮像画像近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して機械学習により訓練された学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。

なお、上記の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばＣＤ－ＲＯＭ等の不揮発性の記録媒体を含む。

以下、本開示の実施の形態に係る情報処理方法及び情報処理システムについて、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ（工程）、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、以下の実施の形態の説明において、略平行、略直交のような「略」を伴った表現が、用いられる場合がある。例えば、略平行とは、完全に平行であることを意味するだけでなく、実質的に平行である、すなわち、例えば数％程度の差異を含むことも意味する。他の「略」を伴った表現についても同様である。また、以下の実施の形態の説明において、２つの要素が類似することは、例えば、２つの要素の間で半分以上の部分又は主要な部分が同じであること、あるいは、２つの要素が共通の性質を有すること等を意味する。また、各図は模式図であり、必ずしも厳密に図示されたものではない。さらに、各図において、実質的に同一の構成要素に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。

（実施の形態）
［実施の形態に係る情報処理システムの構成及び動作］
実施の形態に係る情報処理システムの構成及び動作について図１及び図２を参照して説明する。図１は、本実施の形態に係る情報処理システム１００の構成の一例を示すブロック図である。図２は、本実施の形態に係る情報処理方法のフローを示すフローチャートである。

図１に示すように、情報処理システム１００は、画像取得部１０と、画像上の物体合成位置を決定する合成位置決定部２０と、合成画像生成部３０と、合成画像を学習モデル（以下、認識モデル）に入力して得られる出力データを取得する出力データ取得部４０と、認識モデルの学習用データを決定する決定部５０と、を備える。

なお、画像取得部１０は、センシングデータを取得する第１取得部の一例である。例えば、センシングデータは、画像である。また、合成位置決定部２０は、センシングデータ上の認識対象データを合成する合成部分（ここでは、物体合成位置）を決定する第１決定部の一例である。例えば、認識対象は、物体である。また、合成画像生成部３０は、合成部分にセンシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部の一例である。例えば、合成部分は、画像上の物体データを合成する物体合成位置であり、合成データは、合成画像である。また、出力データ取得部４０は、合成データを、認識対象を認識するように機械学習を用いて訓練されたモデル（以下、認識モデル又は学習モデルとも呼ぶ）に入力して認識結果データを取得する第２取得部の一例である。例えば、認識結果データは、合成画像を認識モデルに入力して取得される物体認識結果データである。

図１及び図２に示すように、画像取得部１０は、撮影された画像を取得する（図２のＳ１０）。取得するとは、例えば、撮像装置によって撮影された画像（以下、撮影画像とも呼ぶ）を取得することであってもよく、画像を撮像することにより撮影画像を取得することであってもよい。前者の場合、画像取得部１０は、例えば、受信部であり、撮像装置によって撮影された画像を通信により受信する。また、後者の場合、画像取得部１０は、例えば、カメラなどの撮像部であり、画像を撮像する。

合成位置決定部２０は、画像取得部１０で取得された画像上の、物体データを合成する位置である物体合成位置を決定する（図２のＳ２０）。画像に合成される物体は、例えば、人、動物及び車両等の移動可能な物体、並びに、植物及び道路付属物等の不動な物体を含む。物体データを合成する画像上の位置は、任意に決定される。物体合成位置は、さらに、画像上に合成される物体データのサイズを含んでもよい。

合成画像生成部３０は、物体合成位置に、撮影画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して合成画像を生成する（図２のＳ３０）。撮影画像が有する視覚的特徴は、撮影画像の要素（以下、画像パラメタともいう）の統計的特徴である。画像パラメタの統計的特徴とは、例えば、画像の色調、明るさ、及びエッジ等が挙げられる。また、撮影画像が有する視覚的特徴は、撮影画像の定性的特徴である。画像の定性的特徴とは、数値化が難しい画像の特徴であり、例えば、雨又は雪などの気象条件、気象条件に伴う路面の状態（例えば、路面が雨で濡れた状態）、オクルージョン等が挙げられる。

合成画像生成部３０は、例えば、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）モデルを用いて物体合成位置に物体を合成する。これにより、得られる合成画像では、合成された物体と背景との色調及び明るさ、つまり、撮影画像上に合成された物体と当該撮影画像との画像パラメタの統計的特徴が同一又は類似になる。そのため、所望の位置に所望の物体を合成しつつ、撮影画像に近い、より自然な合成画像を得ることができる。なお、ＧＡＮを用いた合成画像の生成方法については、後述する。また、ＧＡＮは一例であって、合成画像の生成方法については、特に限定されない。合成画像の生成方法は、より自然な撮影画像に近い合成画像を得ることができる方法であればよい。

出力データ取得部４０は、合成画像生成部３０で得られた合成画像を認識モデルに入力することにより得られる物体認識結果データ（つまり、認識モデルの出力データ）を取得する（図２のＳ４０）。

決定部５０は、正解データと出力データとを用いて、第１の決定を行うか否かを決定することである第２の決定を行う。より具体的には、決定部５０は、合成画像に基づいて認識モデルの訓練用データを決定することである第１の決定を行うか否かを決定することである第２の決定を、少なくとも物体合成位置を含む正解データと出力データとを用いて行う（図２のＳ５０）。正解データは、例えば、物体合成位置の領域を示す座標、物体の種類、物体の姿勢などの情報を含む。決定部５０は、当該正解データと出力データとの差分の大きさに基づいて、物体合成位置に合成された物体を認識する精度（以下、物体の認識精度）を判定する。決定部５０は、第１の決定を行うと第２の決定において決定された場合、第１の決定を行う（図２のＳ６０）。より具体的には、決定部５０は、認識モデルにおける物体の認識精度が所定の閾値よりも低い場合、認識モデルに入力された合成画像及び当該合成画像と同一又は類似する画像を認識モデルの訓練用データとして決定する。

以上のように、情報処理システム１００は、訓練用データを用いて認識モデルに学習させることによって、物体の認識精度が向上された認識モデルを構築する。本実施の形態では、認識モデルは、ＤｅｅｐＬｅａｒｎｉｎｇ（深層学習）等のニューラルネットワークを用いた機械学習モデルであるが、他の学習モデルであってもよい。例えば、他の学習モデルは、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、Ｂｏｏｓｔｉｎｇ、ＲａｎｄｏｍＦｏｒｅｓｔ、又は、ＧｅｎｅｔｉｃＰｒｏｇｒａｍｍｉｎｇ等を用いた機械学習モデルであってもよい。

以下、図３～図５を参照して、本実施の形態に係る情報処理システム１００において、撮影画像が取得されてから合成画像が生成されるまでの手順の一例を説明する。図３は、画像取得部１０で取得された撮影画像を示す図である。図４は、合成位置決定部２０で画像上の物体合成位置が決定された撮影画像を示す図である。図５は、合成画像生成部３０で物体合成位置に物体を合成することにより生成された合成画像を示す図である。ここでは、ＧＡＮモデルを用いて物体を物体合成位置に合成する例を説明する。

画像取得部１０は、図３に示す撮影画像を取得する。この撮影画像は、例えば、車載カメラで撮影された画像である。

次いで、図４に示すように、合成位置決定部２０は、撮影画像上に物体を合成する物体合成位置Ａ及び物体合成位置Ｂを決定する。物体合成位置Ａ及び物体合成位置Ｂはそれぞれ任意に決定された位置である。ＧＡＮモデルでは、撮影画像上の物体合成位置Ａ及び物体合成位置Ｂにノイズを発生させる。

次いで、図５に示すように、合成画像生成部３０は、ノイズが発生された物体合成位置Ａ及び物体合成位置Ｂのそれぞれに、異なるジェネレータを有する画像を合成する。異なるジェネレータを有する画像とは、例えば、性別、年齢、服装、及び姿勢等の異なる人物の画像、自転車等の乗り物を運転する人物の画像、並びに、乗用車等の傍に人物が立っている画像等が挙げられる。これらのジェネレータに基づいて所定の物体合成位置に所定の物体が合成される。例えば、図５に示すように、物体合成位置Ａには、歩行者Ａ１が合成され、物体合成位置Ｂには自転車を運転する人物Ｂ１が合成される。

なお、ＧＡＮモデルでは、物体合成位置に合成された物体が人物として認識され得るかを判定し、かつ、物体合成位置に合成された物体が背景に馴染んでいるかを判定する。例えば、合成された物体が人物として認識されると判定されたとしても、当該物体が背景に馴染んでいないと判定された場合は、ジェネレータを調整し、再度、物体合成位置に物体を合成する。これにより、合成画像全体として元の撮影画像に近い自然な画像を得ることができる。

このように、本実施の形態では、撮影画像上の所望の物体合成位置に物体を合成するため、物体合成位置の座標及び物体の種類等を示すアノテーションを、合成画像に付与する必要がない。そのため、正解データ作成のための一連の情報処理に要する時間を短くすることができる。また、本実施の形態では、撮影画像上の所望の物体合成位置に物体を合成するため、物体合成位置の座標などの情報を、合成画像を学習モデル（認識モデルとも呼ぶ）に入力した場合の正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、生成された全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。それにより、学習モデルの個々の訓練効率が向上する。例えば、学習モデルの認識精度をより短時間で向上させることができる。

また、本実施の形態では、画像が有する人の感覚器により知覚される特徴（ここでは、視覚的特徴）と同一又は類似の特徴（つまり、視覚的特徴）を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された撮影画像である場合は、撮影画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して学習を行った学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。

以上のように、情報処理システム１００は、画像を取得する画像取得部１０と、画像上の物体合成位置を決定する合成位置決定部２０と、物体合成位置に、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成する合成画像生成部３０と、合成画像を学習モデルに入力することにより得られる学習モデルの出力データを取得する出力データ取得部４０と、合成画像に基づいて学習モデルの訓練用データを決定することである第１の決定を行うか否かを決定することである第２の決定を少なくとも物体合成位置を含む正解データと出力データとを用いて行い、第１の決定を行うと第２の決定において決定された場合、第１の決定を行う決定部５０と、を備える。このとき、当該画像が有する視覚的特徴は、当該画像の画像パラメタの統計的特徴である。また、当該画像が有する視覚的特徴は、当該画像の定性的特徴である。

また、本実施の形態に係る情報処理方法は、画像を取得し（Ｓ１０）、画像上の物体合成位置を決定し（Ｓ２０）、物体合成位置に、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成し（Ｓ３０）、合成画像を学習モデルに入力することにより得られる学習モデルの出力データを取得し（Ｓ４０）、合成画像に基づいて学習モデルの訓練用データを決定することである第１の決定を行うか否かを決定することである第２の決定を少なくとも物体合成位置を含む正解データと出力データとを用いて行い（Ｓ５０）、第１の決定を行うと第２の決定において決定された場合、第１の決定を行う（Ｓ６０）。

これにより、画像上の所望の物体合成位置に物体が合成されるため、物体合成位置の座標などの情報を学習モデルの正解データとして使用することができる。そのため、物体合成位置に物体が合成された合成画像を学習モデルに入力することにより得られる出力データと正解データとを比較して、学習モデルでの認識精度が低い合成画像を特定することができる。これにより、学習モデルでの認識精度が低い合成画像に基づいて、当該合成画像又は当該合成画像に類似する画像を学習モデルの訓練用データとして使用することができる。したがって、学習モデルの個々の訓練効率を向上させることができる。言い換えると、機械学習に有益でないデータが混在していると機械学習の処理が収束しにくくなるが、本実施の形態によれば、機械学習に有益なデータが特定され訓練用データとして使用されるため、機械学習の処理が収束しやすくなる。これにより、学習モデルの個々の訓練効率が向上する。例えば、全ての合成画像を学習モデルの訓練用データとして使用する場合に比べて、学習モデルの認識精度をより短時間に効率よく向上させることができる。また、本実施の形態では、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を物体合成位置に合成するため、画像がカメラなどで実際に撮影された画像である場合は、撮像画像に近い自然な合成画像を得ることができる。そのため、当該合成画像を訓練用データとして使用して学習を行った学習モデルは、撮影画像を訓練用データとして使用した場合の認識精度により近い認識精度を得ることができる。

なお、画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体とは、例えば、画像の画像パラメタの統計的特徴である画像の色味又はエッジなどが同一又は類似している物体であってもよく、画像の定性的特徴である雨又は雪などの気象条件、気象条件による路面の状態、及びオクルージョンなどが同一又は類似している物体であってもよい。当該物体は、上記特徴を有することにより、画像に馴染みやすいため、物体合成位置に当該物体を合成して生成される合成画像は自然な画像となる。

（変形例１）
［変形例１に係る情報処理システムの構成］
実施の形態の変形例１に係る情報処理システムについて図６を参照して説明する。図６は、変形例１に係る情報処理システム１００の構成の一例を示すブロック図である。

なお、実施の形態に係る情報処理システム１００において、画像取得部１０は、画像を取得する受信部及び画像を撮像する撮像部のいずれであってもよい例を説明したが、変形例１では、画像取得部１０は、撮影された画像を受信する受信部である例を説明する。

変形例１に係る情報処理システム１００は、撮像部２１０と、認識部２２０とを含む認識処理部２００と、認識モデル更新部３００と、を備える。

変形例１に係る情報処理システム１００は、撮像部２１０によって撮影された画像（以下、撮影画像とも呼ぶ）に画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体を合成することにより合成画像を生成し、当該合成画像内に合成された物体にアノテーションを付与し、認識モデルを構築するための訓練用データを決定する。さらに、情報処理システム１００は、合成画像に基づいて決定した訓練用データを用いて、画像から物体を検出するための認識モデルを構築する。認識モデルの構築には、後述する学習モデルが適用される。訓練用データは、認識モデルが学習するために（言い換えると、認識モデルが機械学習を用いて訓練されるために）使用するデータである。訓練用データは、合成画像と、合成画像内の物体の種別及び動作などの内容、物体の位置及び領域等の情報とを含む。

認識処理部２００は、認識モデル更新部３００が訓練により構築した認識モデルを、認識部２２０の認識モデル受信部３で受信する。認識モデル受信部３で受信された認識モデルは、認識モデル更新部４に入力されて更新される。認識モデルが更新されると、更新情報提示部５は、認識モデルが更新された旨の通知を提示する。当該通知の提示は、音声であってもよく、画面に画像として表示されてもよい。また、認識部２２０は、撮像部２１０で撮影された画像に含まれる物体を認識する。なお、認識処理部２００は、物体の認識結果を音声又は画像として出力してユーザに知らせてもよい。

以降において、認識処理部２００が、移動体、具体的には、自動車等に搭載され、認識モデル更新部３００が、自動車から離れた位置にあるサーバに搭載されるとして、説明する。自動車の認識処理部２００と、サーバとは、無線通信を介して接続され、例えば、インターネット等の通信網を介して互いに無線通信する。認識処理部２００と認識モデル更新部３００とは、無線通信を介して、情報を送受信する。上記無線通信には、Ｗｉ－Ｆｉ（登録商標）（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）などの無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）が適用されてもよく、その他の無線通信が適用されてもよい。サーバは、コンピュータ等の情報処理装置であってもよい。サーバは、１つ以上のサーバを含んでもよく、クラウドシステムを構成してもよい。

情報処理システム１００は、通信回路等の無線通信装置を備えてもよく、サーバが備える無線通信装置を利用してもよい。認識処理部２００は、通信回路等の無線通信装置を備えてもよく、自動車が備える無線通信装置を利用してもよい。なお、認識処理部２００と認識モデル更新部３００とは、無線通信を介して接続されず、有線通信を介して接続されてもよく、不揮発性メモリ等の記録媒体を介して、互いに情報を授受してもよい。

また、自動車に搭載されるコンピュータが処理可能であれば、認識モデル更新部３００が自動車に搭載されてもよい。この場合、認識モデル更新部３００と認識処理部２００とは一体化されてもよい。そして、認識モデル更新部３００は、無線通信、有線通信又は記録媒体を介して、自動車の外部と、情報を授受してもよい。

さらに、図６を参照して、変形例１に係る情報処理システム１００の認識処理部２００及び認識モデル更新部３００の詳細な構成を説明する。なお、以降において、認識モデル更新部３００が、合成画像を生成するためにＧＡＮモデルを使用する例を説明する。

変形例１に係る情報処理システム１００では、認識処理部２００は、撮像部２１０と認識部２２０とを備える。

撮像部２１０は、例えば、カメラであり、画像撮像部１と画像送信部２とを備える。撮像部２１０で撮影された画像は、画像送信部２を介して認識モデル更新部３００の画像取得部１１０に送信される。

認識部２２０は、例えば、撮像部２１０で撮影された画像に含まれる人物等の物体を認識する。認識部２２０は、認識モデル受信部３と認識モデル更新部４と更新情報提示部５とを備える。認識モデル受信部３は、認識モデル更新部３００で更新された認識モデルを受信して認識モデル更新部４に出力する。認識モデル更新部４は、認識モデル受信部３から出力された認識モデルを格納することにより、認識モデルを更新する。更新情報提示部５は、ディスプレイ及び／又はスピーカで構成されてよく、第１の決定を行うと第２の決定において決定された場合、認識モデルのユーザに通知を行う。例えば、更新情報提示部５は、所定量の訓練用データが訓練用データ保持部１６０に格納された場合、決定された訓練用データを用いた認識モデルの訓練の要請に関する通知を行う。また、例えば、更新情報提示部５は、訓練部１７０において、決定された訓練用データを用いた認識モデルの訓練が実行された場合、訓練の完了に関する通知を行う。また、更新情報提示部５は、認識部２２０に保持された認識モデルが訓練済みの認識モデルに更新されたことをユーザに提示してもよい。さらに、更新情報提示部５は、例えば、更新された認識モデルと更新前の認識モデルとの違い、及び、更新されたことにより得られる効果等の更新情報をユーザに提示してもよい。なお、ディスプレイは、液晶パネル、有機又は無機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）などの表示パネルで構成されてもよい。

認識モデル更新部３００は、画像取得部１１０、サンプリング部１１２、合成位置設定部１２０、画像合成部１３０、検知処理部１４０、データ利用判定部１５０、訓練部１７０、認識モデル送信部１８０、訓練用データ保持部１６０及び認識モデル保持部１４２を備える。

画像取得部１１０は、撮像部２１０から送信された画像を取得する。画像取得部１１０は、取得した画像をサンプリング部１１２に出力する。

サンプリング部１１２は、画像取得部１１０から出力された画像を受信し、受信した画像の中から、例えば、周期的に画像をサンプリングして、サンプリングした画像を合成位置設定部１２０に出力する。

合成位置設定部１２０は、実施の形態における合成位置決定部２０（図１参照）の一例であり、サンプリング部１１２でサンプリングされた画像上の物体合成位置を任意に設定する。

画像合成部１３０は、実施の形態における合成画像生成部３０（図１参照）の一例であり、合成位置設定部１２０で設定された物体合成位置に物体を合成する。このとき、物体の合成方法としては、ＧＡＮモデルを用いる。なお、ＧＡＮモデルについては、実施の形態にて説明したため、ここでの説明を省略する。

検知処理部１４０は、実施の形態における出力データ取得部４０（図１参照）の一例であり、画像合成部１３０で合成された合成画像を認識モデル保持部１４２に出力して得られる認識モデルの出力データを取得する。より具体的には、検知処理部１４０は、認識モデル保持部１４２に保持された認識モデルに合成画像を入力することにより得られる認識モデルの出力データを取得する。検知処理部１４０は、取得した出力データをデータ利用判定部１５０に出力する。

データ利用判定部１５０は、実施の形態における決定部５０（図１参照）の一例であり、少なくとも物体合成位置を含む正解データと出力データとを用いて、合成画像に基づいて認識モデルの訓練用データを決定することである第１の決定を行うか否かの第２の決定を行う。データ利用判定部１５０は、正解データと出力データとの差分により判定された認識モデルの認識精度が所定の閾値よりも高い場合、第１の決定を行わないとする第２の決定を行う。より具体的には、この場合、データ利用判定部１５０は、認識モデルに入力された合成画像を、認識モデルによって認識される画像であると判定し、当該合成画像に基づいて認識モデルの訓練用データを決定しないとの第２の決定を行う。データ利用判定部１５０は、第２の決定に応じて、当該合成画像に基づいて認識モデルの訓練用データを決定しない。

一方、データ利用判定部１５０は、認識モデルの認識精度が所定の閾値よりも低い場合、第１の決定を行うとする第２の決定を行う。より具体的には、データ利用判定部１５０は、認識モデルに入力された合成画像を、認識モデルによって物体が認識されにくい画像であると判定し、当該合成画像に基づいて認識モデルの訓練用データを決定するとの第２の決定を行う。データ利用判定部１５０は、第２の決定に応じて、当該合成画像を訓練用データとして決定する。また、データ利用判定部１５０は、当該合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定する。対応画像は、訓練用データ保持部１６０に格納されている画像から選出されてもよく、生成されてもよい。データ利用判定部１５０は、訓練用データとして決定された画像を、訓練用データ保持部１６０に新規訓練用データとして格納する。

ここで、合成画像が有する視覚的特徴は、当該合成画像の画像パラメタの統計的特徴である。また、合成画像が有する視覚的特徴は、当該合成画像の定性的特徴である。なお、画像パラメタの統計的特徴及び定性的特徴については、実施の形態に記載の内容と同様であるため、ここでの説明を省略する。

また、合成画像が有する視覚的特徴は、合成画像における物体の態様であり、対応画像が有する視覚的特徴は、物体が有する属性と同一又は類似の属性を有する対応物体の態様である。例えば、当該態様は、物体の合成画像上における位置である。より具体的には、物体の合成画像上の位置は、物体が占める領域の座標である。また、例えば、当該態様は、物体の姿勢である。

なお、物体が有する属性とは、物体が有する性質であり、例えば、物体の種類、形、色、材質等が挙げられる。より具体的には、物体の種類が人物である場合、性別、体格、年齢、肌の色、服装、持ち物、姿勢、年齢、表情なども物体が有する属性に含まれてもよい。また、物体の種類が自動車である場合、車種、形状、ボディの色、窓ガラスの色なども物体が有する属性に含まれてもよい。

訓練用データ保持部１６０は、新規訓練用データ、及び、訓練用データとして事前に保持された種々の画像を含む事前保持ＤＢ（ＤａｔａＢａｓｅ）などを格納している。訓練用データ保持部１６０は、上記のデータの他に、背景の情報、物体の情報、天候などの環境の情報などを格納し、かつ、格納した情報を取り出すことができる。訓練用データ保持部１６０は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリなどの半導体メモリ、ハードディスクドライブ、又は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置によって実現される。

訓練用データ保持部１６０は、データ利用判定部１５０が学習モデルの訓練用データに決定した合成画像に対して、画像上の画像合成位置の情報と、当該合成画像とを対応付けて格納する。また、訓練用データ保持部１６０は、データ利用判定部１５０が合成画像に基づいて訓練用データに決定した対応画像に対して、合成画像上に合成された物体に対応する対応物体の対応画像上の位置の情報と、当該対応画像とを対応付けて格納する。

訓練用データ保持部１６０は、データ利用判定部１５０が訓練用データとして決定した合成画像と同一又は類似の画像を要求するコマンドをデータ利用判定部１５０から受信したことに応じて、訓練用データ保持部１６０に格納された新規訓練用データ及び事前保持ＤＢから所望の画像をデータ利用判定部１５０に出力する。また、訓練用データ保持部１６０は、訓練用データを要求するコマンドを訓練部１７０から受信したことに応じて、訓練用データ保持部１６０に格納された新規訓練用データ及び事前保持ＤＢから所期の画像を訓練部１７０に出力する。

認識モデル保持部１４２は、認識部２２０が有する認識モデルと同一の認識モデルを格納している。認識モデル保持部１４２は、画像合成部１３０で生成された合成画像を認識モデルに入力して得られた出力データを検知処理部１４０に出力する。認識モデル保持部１４２は、訓練部１７０で訓練された認識モデルを取得し、認識モデル保持部１４２に格納することにより更新する。

訓練部１７０は、データ利用判定部１５０で決定された訓練用データを用いた認識モデルの訓練を実行する。例えば、訓練部１７０は、訓練用データ保持部１６０に所定量の新規訓練用データが格納されると、訓練用データ保持部１６０から訓練用データを読み出し、それらの訓練用データを訓練部１７０に格納された認識モデルに入力して認識モデルの訓練を実行する。訓練部１７０は、機械学習を用いて訓練された認識モデルを認識モデル保持部１４２及び認識モデル送信部１８０に出力する。

認識モデル送信部１８０は、訓練部１７０で訓練された認識モデルを、認識処理部２００の認識部２２０に送信する。認識部２２０の認識モデル受信部３は、訓練された認識モデルを受信すると、認識モデル更新部４に当該認識モデルを出力する。

［変形例１に係る情報処理システムの動作］
変形例１に係る情報処理システム１００の動作について、図７を参照して説明する。図７は、変形例１に係る情報処理方法のフローを示すフローチャートである。

図７に示すように、変形例１に係る情報処理システム１００では、ステップＳ１０において、画像取得部１１０は、撮像部２１０で撮影された画像を取得する。画像取得部１１０は、取得した画像をサンプリング部１１２に出力する。

次いで、ステップＳ１０１において、サンプリング部１１２は、画像取得部１１０から出力された画像を受信し、受信した画像の中から、例えば、周期的に画像をサンプリングする。サンプリング部１１２は、サンプリングした画像を合成位置設定部１２０に出力する。

次いで、ステップＳ２０において、合成位置設定部１２０は、サンプリング部１１２から出力された画像を受信し、受信した画像上の物体合成位置を任意に決定する。合成位置設定部１２０は、物体合成位置が決定された画像を画像合成部１３０に出力する。

次いで、ステップＳ３０において、画像合成部１３０は、物体合成位置に物体を合成して合成画像を生成する。画像合成部１３０は、例えばＧＡＮモデルを用いて、画像上の物体合成位置に物体を合成する。画像合成部１３０は、生成した合成画像を検知処理部１４０に出力する。

次いで、ステップＳ４０において、検知処理部１４０は、画像合成部１３０から出力された合成画像を受信し、当該合成画像を認識モデル保持部１４２に格納されている認識モデルに入力して出力データを取得する。検知処理部１４０は、取得した出力データをデータ利用判定部１５０に出力する。

次いで、ステップＳ５０において、データ利用判定部１５０は、合成画像の正解データと、合成画像を認識モデルに入力して得られた出力データとを用いて、第１の決定を行うか否かを決定することである第２の決定を行う。なお、第１の決定は、合成画像に基づいて訓練用データを決定することである。第１の決定を行わないと第２の決定において決定された場合（ステップＳ５０１でＮＯ）、当該合成画像に基づく訓練用データを決定する情報処理方法のフローを終了する。一方、第１の決定を行うと第２の決定において決定された場合（ステップＳ５０１でＹＥＳ）、ステップＳ６０において、データ利用判定部１５０は、第１の決定を行う。このとき、データ利用判定部１５０は、合成画像に基づいて訓練用データを決定する。データ利用判定部１５０は、当該合成画像を認識モデルの訓練用データとして決定する。また、データ利用判定部１５０は、当該合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を認識モデルの訓練用データとして決定する。次いで、ステップＳ６０１において、データ利用判定部１５０は、訓練用データとして決定された画像を、訓練用データとして訓練用データ保持部１６０に格納する。

訓練用データ保持部１６０に所定量の訓練用データが格納されると、ステップＳ７０において、訓練部１７０は、決定された訓練用データを用いた認識モデルの訓練を実行する。

次いで、ステップＳ８０において、訓練部１７０は、機械学習を用いて訓練された認識モデルを認識モデル保持部１４２及び認識モデル送信部１８０に出力する。認識モデル保持部１４２は、訓練部１７０から出力された訓練済みの認識モデルを格納することにより更新する。また、認識モデル送信部１８０は、訓練部１７０から出力された訓練済みの認識モデルを認識処理部２００の認識部２２０に送信する。

なお、認識モデル送信部１８０から送信された訓練済みの認識モデルは、認識部２２０の認識モデル受信部３で受信され、認識モデル更新部４に出力される。認識モデル更新部４は、認識モデル受信部３から受信した訓練済みの認識モデルを格納することにより認識モデルを更新する。また、更新情報提示部５は、認識モデル受信部３において、訓練済みの認識モデルが受信された場合、ユーザに訓練の完了に関する通知を行う。

［変形例１の効果等］
上述したような変形例１に係る情報処理システム１００及び情報処理方法によれば、実施の形態に記載した効果に加え、以下の効果を有する。

変形例１に係る情報処理方法は、第１の決定では、合成画像を認識モデルの訓練用データとして決定する。

これにより、学習モデルでの認識精度が低いと判定された合成画像を訓練用データとして使用することができる。そのため、学習モデルでの認識精度が高いデータ、すなわち訓練用データとしては不要なデータを訓練用データとして蓄積することが抑制される。したがって、データを蓄積するためのコストが削減される。言い換えると、学習モデルでの認識精度が低いシーンの画像を重点的に訓練用データとして蓄積することができるため、認識精度の低いシーンに対する効率的な学習が可能となる。そのため、学習モデルの認識精度がより向上される。

また、変形例１に係る情報処理方法は、第１の決定では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を認識モデルの訓練用データとして決定する。このとき、合成画像が有する視覚的特徴は、当該合成画像の画像パラメタの統計的特徴である。また、合成画像が有する視覚的特徴は、当該合成画像の定性的特徴である。

このように、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を訓練用データとして決定するため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。そのため、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。なお、対応画像が撮影画像の場合は、合成画像を訓練用データとしたときに比べて学習効果を向上させることができる。また、視覚的特徴が合成画像の画像パラメタの統計的特徴である場合は、統計学的な観点から訓練用データの数及びバリエーションを効率よく増やすことができる。また、視覚的特徴が合成画像の定性的特徴である場合は、定量化しづらい特徴を有する訓練用データの数及びバリエーションを効率よく増やすことができる。

また、変形例１に係る情報処理方法では、合成画像が有する視覚的特徴は、当該合成画像における物体の態様であり、対応画像が有する視覚的特徴は、物体が有する属性と同一又は類似の属性を有する対応物体の態様である。この場合、当該態様は、物体の合成画像上における位置である。また、当該態様は、前記物体の姿勢である。

これにより、例えば、合成画像上の物体の位置又は物体の姿勢などの物体の態様の違いにより学習モデルでの物体の認識精度が低いと判定された場合、合成画像に基づいて訓練用データが決定される。そのため、学習モデルでの認識精度が低いシーンの画像及び当該画像に類似するシーンの画像を訓練用データとして使用することができる。これにより、認識精度が低いシーンに対する訓練用データの数及びバリエーションを効率よく増やすことができる。このような訓練用データを用いて構築される認識モデルは、画像から物体を認識する精度が向上される。

また、変形例１に係る情報処理方法では、さらに、第１の決定を行うと第２の決定において決定された場合、認識モデルのユーザに通知を行う。このとき、当該通知は、例えば、決定された訓練用データを用いた認識モデルの訓練の要請に関する通知である。また、変形例１に係る情報処理方法では、さらに、決定された訓練用データを用いた認識モデルの訓練を実行し、当該通知は、訓練の完了に関する通知である。

これにより、合成画像に基づいて学習モデルの訓練用データが決定された場合、学習モデルのユーザに通知が行われるため、ユーザは学習モデルで物体を認識しにくいシーンがあることを把握することができる。また、上記通知が学習モデルの訓練の要請に関する通知である場合、ユーザは、学習モデルの訓練を行うタイミングを決定することができる。また、上記通知が訓練の完了に関する通知である場合、ユーザは、訓練により学習モデルが更新されたことを知ることができる。

（変形例２）
［変形例２に係る情報処理システムの構成］
実施の形態の変形例２に係る情報処理システムについて図８を参照して説明する。図８は、変形例２に係る情報処理システム１００の構成の一例を示すブロック図である。

なお、実施の形態の変形例１に係る情報処理システム１００において、サンプリング部１１２は、画像取得部１１０で取得された画像の中から周期的に画像をサンプリングして合成位置設定部１２０に出力する例を説明した。変形例２では、サンプリング部１１２は、さらに、画像取得部１１０で取得された画像のうち、所定の条件に適合する画像をサンプリングして訓練用データとして訓練用データ保持部１６０に格納する例を説明する。以下、変形例２に係る情報処理システム１００について、変形例１に係る情報処理システム１００と異なる点を中心に説明する。

変形例２に係る情報処理システム１００では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から選出してもよい。なお、撮影画像の選出は、画像取得部１１０で取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、訓練用データ保持部１６０に格納された撮影画像から所望の撮影画像を検索して抽出することであってもよい。サンプリング部１１２は、画像取得部１１０で取得された画像の中から周期的に画像をサンプリングして合成位置設定部１２０に出力する。さらに、サンプリング部１１２は、画像取得部１１０で取得された画像のうち、所定の条件に適合する画像をサンプリングして訓練用データとして訓練用データ保持部１６０に格納する。ここで、所定の条件とは、認識モデルでの物体の認識精度が低いシーンに基づく条件であり、例えば、物体の種類、物体の位置、物体の態様、照光状態、気象条件、気候、建物の配置、道路条件などから構成される。例えば、所定の条件は、データ利用判定部１５０が合成画像に基づいて訓練用データを決定する、つまり第１の決定を行う、と第２の決定を行った場合、当該合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように構成される。これにより、サンプリング部１１２は、認識モデルで物体の認識精度の低い画像と同一又は類似の画像を訓練用データとしてサンプリングするように、当該所定の条件を更新する。

データ利用判定部１５０は、第１の決定を行うとの第２の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように所定の条件を設定し、当該条件をサンプリング部１１２に出力する。

また、変形例２に係る情報処理システム１００は、類似シーン検索部１９０を備える点で上記実施の形態及び変形例１に係る情報処理システム１００と異なる。類似シーン検索部１９０は、例えば、データ利用判定部１５０が第１の決定を行うとの第２の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、訓練用データ保持部１６０に格納された撮影画像から選出する。合成画像が有する視覚的特徴と同一又は類似の視覚的特徴とは、例えば、画像上の物体合成位置、画像の背景、人物の姿勢など合成された物体の態様、画像の色味及びエッジなどの画像パラメタの統計学的特徴、及び、気象条件、路面の濡れ、及び、オクルージョンなどの定性的特徴などである。当該撮影画像は、サンプリング部１１２により選出されて新規訓練用データとして格納された撮影画像であってもよく、事前保持ＤＢに含まれる撮影画像であってもよい。なお、事前保持ＤＢは、情報処理システムがデフォルトとして保持している様々なシーンの画像を有する。様々なシーンの画像とは、例えば、気候が異なる地域で撮影された画像、天候、路面の状態、風景などの異なる画像、画像上の物体の位置、物体の種類、姿勢などの物体の態様が異なる画像などである。さらに、当該撮影画像は、例えば、画像取得部１１０が取得した画像を一時的に保持するための記憶部を備える場合、当該記憶部に一時的に保持される画像から選出されてもよい。

［変形例２に係る情報処理システムの動作］
変形例２に係る情報処理システム１００の動作について、図９を参照して説明する。図９は、変形例２に係る情報処理方法のフローの一例を示すフローチャートである。

実施の形態の変形例１に係る情報処理システム１００において、サンプリング部１１２は、画像取得部１１０が取得した画像から周期的に画像をサンプリングして、当該画像を合成位置設定部１２０に出力する。実施の形態の変形例２に係る情報処理システム１００では、サンプリング部１１２は上記動作に加え、画像取得部１１０が取得した画像のうち、所定の条件に適合する画像をサンプリングし、当該画像を訓練用データとして訓練用データ保持部１６０に格納する。類似シーン検索部１９０は、訓練用データ保持部１６０に新規訓練用データとして格納されている撮影画像、及び、事前保持ＤＢに格納されている撮影画像から、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を選出する。変形例２に係る情報処理システム１００では、これらの撮影画像を含む画像群を訓練用データとして使用して、認識モデルを構築する。以下、変形例２について、実施の形態及び変形例１と異なる点を中心に説明する。

具体的には、ステップＳ１０１において、サンプリング部１１２は、変形例１におけるステップＳ１０１と同様の動作に加え、所定の条件に適合する画像を、ステップＳ１０において取得された画像からサンプリングして、当該画像を訓練用データ保持部１６０に格納する。次いで、情報処理システム１００は、ステップＳ２０～Ｓ６０までの動作を、実施の形態及び変形例１と同様に行う。図示していないが、変形例２では、データ利用判定部１５０は、第１の決定を行うとの第２の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似する画像の特徴量を含むように所定の条件を設定し、当該条件をサンプリング部１１２に出力する。当該条件をサンプリング部１１２が受信すると、サンプリング部１１２は、所定の条件をサンプリング部１１２に格納することにより更新する。

次いで、ステップＳ６０２において、類似シーン検索部１９０は、第１の決定を行うとの第２の決定が実行された場合の合成画像と同一又は類似の画像を、対応画像として、訓練用データ保持部１６０に格納されている撮影画像から検索し、所望の撮影画像を訓練用データとして選出する。次いで、情報処理システム１００は、ステップＳ７０及びＳ８０の動作を、変形例１と同様に行う。

［変形例２の効果等］
上述したような変形例２に係る情報処理システム１００及び情報処理方法によれば、実施の形態及び変形例１に記載の効果に加え、以下の効果を有する。

変形例２に係る情報処理方法では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から選出する。なお、撮影画像の選出は、画像取得部１１０で取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、訓練用データ保持部１６０などのメモリ及びデータベース等に格納された撮影画像から所望の撮影画像を検索して抽出することであってもよい。

これにより、撮影画像を訓練用データとして使用することができる。そのため、合成画像を訓練用データとして使用する場合に比べて、より高い学習効果が得られる。なお、撮影画像の選出は、画像が取得される度に所定の条件に基づいて記録するか否かを判定することであってもよく、取得された画像の中から所定の条件に基づいて画像をサンプリングすることであってもよく、メモリ又はデータベース等に格納された撮影画像から所定の条件を満たす撮影画像を検索して抽出することであってもよい。

（変形例３）
［変形例３に係る情報処理システムの構成］
実施の形態の変形例３に係る情報処理システムについて図１０を参照して説明する。図１０は、変形例３に係る情報処理システム１００の構成の一例を示すブロック図である。

なお、実施の形態の変形例２に係る情報処理システム１００は、類似シーン検索部１９０を備える。類似シーン検索部１９０は、データ利用判定部１５０が第１の決定を行うとの第２の決定を行った場合、合成画像と同一又は類似の画像を、訓練用データ保持部１６０に格納されている撮影画像から検索し、所望の撮影画像を訓練用データとして選出する。変形例３に係る情報処理システム１００は、類似シーン検索部１９０を備えず、類似シーン加工部１９２を備える。以下、変形例３に係る情報処理システムについて、変形例２に係る情報処理システム１００と異なる点を中心に説明する。

変形例３に係る情報処理システム１００では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から生成してもよい。

類似シーン加工部１９２は、例えば、データ利用判定部１５０が第１の決定を行うとの第２の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、訓練用データ保持部１６０に格納された撮影画像から生成する。

［変形例３に係る情報処理システムの動作］
変形例３に係る情報処理システム１００の動作について、図１１を参照して説明する。図１１は、変形例３に係る情報処理方法のフローの一例を示すフローチャートである。

実施の形態の変形例２に係る情報処理システムにおいて、類似シーン検索部１９０は、データ利用判定部１５０が第１の決定を行うとの第２の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像、つまり、合成画像に類似する画像を、訓練用データ保持部１６０に格納された撮影画像から選出する。実施の形態の変形例３に係る情報処理システムにおいて、類似シーン加工部１９２は、データ利用判定部１５０が第１の決定を行うとの第２の決定を行った場合、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像、つまり、合成画像に類似する画像を、訓練用データ保持部１６０に格納された撮影画像から生成する。以下、変形例３について、実施の形態、並びに、変形例１及び変形例２と異なる点を中心に説明する。

具体的には、ステップＳ６０３において、類似シーンの撮影画像、つまり、第１の決定を行うとの第２の決定が実行された場合の合成画像に類似するシーンの画像を、対応画像として、当該合成画像とは異なる、訓練用データ保持部１６０に格納された撮影画像を加工して生成する。

［変形例３の効果等］
上述したような変形例３に係る情報処理システム１００及び情報処理方法によれば、実施の形態及び変形例１に記載の効果に加え、以下の効果を有する。

変形例３に係る情報処理方法では、合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する画像を、対応画像として、当該合成画像とは異なる撮影画像から生成する。

これにより、対応画像を撮影画像から生成することができる。具体的には、認識モデルでの物体の認識精度が低いシーンの画像及び当該シーンに類似する画像を撮影画像から生成することができる。これにより、撮影画像をそのまま対応画像として使用できない場合であっても対応画像を生成することができるため、訓練用データの数及びバリエーションを容易に増やすことができる。

［その他の変形例］
以上のように、本出願において開示する技術の例示として、実施の形態及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態の変形例又は他の実施の形態にも適用可能である。また、実施の形態及び変形例で説明する各構成要素を組み合わせて、新たな実施の形態又は変形例とすることも可能である。

実施の形態及び変形例に係る情報処理システム１００は、自動車に適用されるとした。情報処理システムは、センシングデータから認識対象を認識するシステムであれば、いかなるシステムに適用されてもよい。例えば、情報処理システムは、住居又はオフィスなどの建物における人の行動又は状態を観測するシステムに適用されてもよい。この場合、認識処理部２００はカメラ等のセンサモジュールに搭載され、認識モデル更新部３００は、センサモジュールに搭載されてもよく、サーバ等のセンサモジュールと分離した装置に搭載されてもよい。

また、上記実施の形態においては処理の対象が画像である例を説明したが、処理の対象は画像以外のセンシングデータであってもよい。例えば、マイクロフォンから出力される音声データ、ＬｉＤＡＲ等のレーダから出力される点群データ、圧力センサから出力される圧力データ、温度センサ又は湿度センサから出力される温度データ又は湿度データ、香りセンサから出力される香りデータなどの正解データが取得可能なセンシングデータであれば、処理の対象とされてよい。例えば、センシングデータが音声データである場合は、音声データの要素は、周波数及び振幅などであり、音声データの要素の統計的特徴は、周波数帯及び音圧などであり、音声データの定性的特徴は、騒音及び背景音などである。

なお、本開示の包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能な記録ディスク等の記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。コンピュータ読み取り可能な記録媒体は、例えばＣＤ－ＲＯＭ等の不揮発性の記録媒体を含む。

例えば、実施の形態及び変形例に係る情報処理システム１００に含まれる各構成要素は典型的には集積回路であるＬＳＩ（大規模集積回路、ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）として実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

なお、実施の形態及び変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

また、上記構成要素の一部又は全部は、脱着可能なＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード又は単体のモジュールから構成されてもよい。ＩＣカード又はモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭ等から構成されるコンピュータシステムである。ＩＣカード又はモジュールは、上記のＬＳＩ又はシステムＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ＩＣカード又はモジュールは、その機能を達成する。これらＩＣカード及びモジュールは、耐タンパ性を有するとしてもよい。

なお、上記方法は、ＭＰＵ、ＣＰＵ、プロセッサ、ＬＳＩなどの回路、ＩＣカード又は単体のモジュール等によって、実現されてもよい。

また、本開示の技術は、ソフトウェアプログラム又はソフトウェアプログラムからなるデジタル信号によって実現されてもよく、プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。

なお、上記プログラム及び上記プログラムからなるデジタル信号は、コンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＳＳＤ、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃ）、半導体メモリ等に記録したものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものであってもよい。また、上記プログラム及び上記プログラムからなるデジタル信号は、記録媒体に記録して移送されることにより、又はネットワーク等を経由して移送されることにより、独立した他のコンピュータシステムにより実施されてもよい。

また、上記で用いた序数、数量等の数字は、全て本開示の技術を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。また、構成要素間の接続関係は、本開示の技術を具体的に説明するために例示するものであり、本開示の機能を実現する接続関係はこれに限定されない。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを１つの機能ブロックとして実現したり、１つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

本開示は、学習モデルの個々の訓練効率を向上させることができるため、例えば、自動運転システム、交通管理システム、防犯システム、及び、製造管理システム等の技術に利用可能である。

１画像撮像部
２画像送信部
３認識モデル受信部
４認識モデル更新部
５更新情報提示部
１０画像取得部
２０合成位置決定部
３０合成画像生成部
４０出力データ取得部
５０決定部
１００情報処理システム
１１０画像取得部
１１２サンプリング部
１２０合成位置設定部
１３０画像合成部
１４０検知処理部
１４２認識モデル保持部
１５０データ利用判定部
１６０訓練用データ保持部
１７０訓練部
１８０認識モデル送信部
１９０類似シーン検索部
１９２類似シーン加工部
２００認識処理部
２１０撮像部
２２０認識部
３００認識モデル更新部

Claims

コンピュータを用いて、
センシングデータを取得し、
前記センシングデータ上の認識対象データを合成する合成部分を決定し、
前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、
前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、
前記合成データが有する前記特徴と同一又は類似の前記特徴を有する対応データを前記モデルの訓練用データとして決定することである第１の決定を行うか否かを決定することである第２の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、
前記第１の決定を行うと前記第２の決定において決定された場合、前記第１の決定を行う、
情報処理方法。
前記センシングデータが有する前記特徴は、前記センシングデータの要素の統計的特徴である、
請求項１に記載の情報処理方法。
前記センシングデータが有する前記特徴は、前記センシングデータの定性的特徴である、
請求項１に記載の情報処理方法。
前記合成データが有する前記特徴は、前記合成データの要素の統計的特徴である、
請求項１に記載の情報処理方法。
前記合成データが有する前記特徴は、前記合成データの定性的特徴である、
請求項１に記載の情報処理方法。
コンピュータを用いて、
センシングデータを取得し、
前記センシングデータ上の認識対象データを合成する合成部分を決定し、
前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成し、
前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得し、
前記合成データに基づいて前記モデルの訓練用データを決定することである第１の決定を行うか否かを決定することである第２の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、
前記第１の決定を行うと前記第２の決定において決定された場合、前記第１の決定を行い、
前記センシングデータは、画像であり、
前記認識対象は、物体であり、
前記合成部分は、前記画像上の物体データを合成する物体合成位置であり、
前記合成データは、前記物体合成位置に、前記画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して生成される合成画像であり、
前記認識結果データは、前記合成画像を前記モデルに入力して取得される物体認識結果データであり、
前記第１の決定は、前記合成画像に基づいて前記モデルの訓練用データを決定することであり、
前記第２の決定は、少なくとも前記物体合成位置を含む正解データと前記物体認識結果データとを用いて行われ、
前記第１の決定は、前記合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を前記モデルの訓練用データとして決定することであり、
前記合成画像が有する視覚的特徴は、前記合成画像における前記物体の態様であり、
前記対応画像が有する視覚的特徴は、前記物体が有する属性と同一又は類似の属性を有する対応物体の態様である、
情報処理方法。
前記態様は、前記物体の前記合成画像上における位置である、
請求項６に記載の情報処理方法。
前記態様は、前記物体の姿勢である、
請求項６に記載の情報処理方法。
前記合成部分は、さらに前記画像上に合成される物体データのサイズを含む、
請求項６～８のいずれか一項に記載の情報処理方法。
前記対応データを、前記合成データとは異なるセンシングデータから選出又は生成する、
請求項１、４、５のいずれか一項に記載の情報処理方法。
ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）モデルを用いて前記合成部分に前記認識対象データを合成する、
請求項１～１０のいずれか一項に記載の情報処理方法。
さらに、前記第１の決定を行うと前記第２の決定において決定された場合、前記モデルのユーザに通知を行う、
請求項１～１１のいずれか一項に記載の情報処理方法。
さらに、決定された前記訓練用データを用いた前記モデルの訓練を実行し、
前記通知は、前記訓練の完了に関する通知である、
請求項１２に記載の情報処理方法。
前記通知は、決定された前記訓練用データを用いた前記モデルの訓練の要請に関する通知である、
請求項１２に記載の情報処理方法。
センシングデータを取得する第１取得部と、
前記センシングデータ上の認識対象データを合成する合成部分を決定する第１決定部と、
前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部と、
前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得する第２取得部と、
前記合成データが有する前記特徴と同一又は類似の前記特徴を有する対応データを前記モデルの訓練用データとして決定することである第１の決定を行うか否かを決定することである第２の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第１の決定を行うと前記第２の決定において決定された場合、前記第１の決定を行う第２決定部と、
を備える、
情報処理システム。
センシングデータを取得する第１取得部と、
前記センシングデータ上の認識対象データを合成する合成部分を決定する第１決定部と、
前記合成部分に、前記センシングデータが有する人の感覚器により知覚される特徴と同一又は類似の特徴を有する認識対象データを合成して合成データを生成する生成部と、
前記合成データを、認識対象を認識するように機械学習を用いて訓練されたモデルに入力して認識結果データを取得する第２取得部と、
前記合成データに基づいて前記モデルの訓練用データを決定することである第１の決定を行うか否かを決定することである第２の決定を少なくとも前記合成部分を含む正解データと前記認識結果データとを用いて行い、前記第１の決定を行うと前記第２の決定において決定された場合、前記第１の決定を行う第２決定部と、
を備え、
前記センシングデータは、画像であり、
前記認識対象は、物体であり、
前記合成部分は、前記画像上の物体データを合成する物体合成位置であり、
前記合成データは、前記物体合成位置に、前記画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する物体データを合成して生成される合成画像であり、
前記認識結果データは、前記合成画像を前記モデルに入力して取得される物体認識結果データであり、
前記第１の決定は、前記合成画像に基づいて前記モデルの訓練用データを決定することであり、
前記第２の決定は、少なくとも前記物体合成位置を含む正解データと前記物体認識結果データとを用いて行われ、
前記第１の決定は、前記合成画像が有する視覚的特徴と同一又は類似の視覚的特徴を有する対応画像を前記モデルの訓練用データとして決定することであり、
前記合成画像が有する視覚的特徴は、前記合成画像における前記物体の態様であり、
前記対応画像が有する視覚的特徴は、前記物体が有する属性と同一又は類似の属性を有する対応物体の態様である、
情報処理システム。