JP2020166526A

JP2020166526A - 作業支援装置、作業支援方法、プログラム、及び対象物検知モデル。

Info

Publication number: JP2020166526A
Application number: JP2019066075A
Authority: JP
Inventors: 清水秀樹; Hideki Shimizu; 田嶋亮介; Ryosuke Tajima
Original assignee: Arithmer Inc
Current assignee: Arithmer Inc
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2020-10-08
Anticipated expiration: 2039-03-29
Also published as: JP6756961B1

Abstract

【課題】対象物が写されている画像であるか否かを効率的に設定ための作業を支援するする作業支援装置、作業支援方法、プログラム及び対象物検知モデルを提供する。【解決手段】作業支援装置２０は、抽出部２４Ａ及び出力部２３を備える。抽出部２４Ａは、対象物が写された教師画像を用いて構築された対象物検知モデル２１Ｍを用いて、任意の動画像から、対象物が写されている確率が第１閾値以上である領域を含む画像を候補画像として抽出する。出力部２３は、当該候補画像に、対象物が写されている確率が第１閾値以上である領域に対応するバウンディングボックスが合成された画像を出力する。【選択図】図１

Description

本開示は、作業支援装置、作業支援方法、プログラム、及び対象物検知モデルに関する。

従来、機械学習のための教師画像を生成する方法が検討されている。例えば、特許文献１（特開２０１８−１６９６７２号公報）には、教師画像の個数が少ない不足パターンを特定し、ある教師画像を空間的に反転したり色調を変更したりすることにより、不足パターンに属する新たな教師画像を生成する技術が開示されている。

特許文献１に記載されているように、効果的な学習を行なうには、多数の教師画像を集めることが望ましい。

第１観点の作業支援装置は、抽出部と、出力部と、を備える。抽出部は、対象物が写された教師画像を用いて構築された対象物検知モデルを用いて、任意の動画像から、対象物が写されている確率が第１閾値以上である領域を含む画像を候補画像として抽出する。また、出力部は、当該候補画像に、対象物が写されている確率が第１閾値以上である領域に対応するバウンディングボックスが合成された画像を出力する。このような構成により、バウンディングボックスの表示を維持するか、又は削除することで、対象物が写されている対象物画像であるか否かを効率的に設定できる。結果として、多数の教師画像を効率的に集めることができる。

第２観点の作業支援装置は第１観点の作業支援装置であって、バウンディングボックス内に対象物が写されていること、又は、バウンディングボックス内に対象物が写されていないことの設定を受け付ける設定部をさらに備える。この設定部を介して、対象物が写されている対象物画像であるか否かを効率的に設定できる。

第３観点の作業支援装置は、第１観点又は第２観点の作業支援装置であって、対象物検知モデルが、複数の対象物を検知するものである。また、作業支援装置は、第１対象物が写されている確率が第１閾値以上である領域に対応するバウンディングボックスが合成された画像に対し、当該第１対象物に代えて第２対象物が写されていることの設定を受け付ける設定部をさらに備える。このような構成により、対象物を誤検知した場合の修正を容易に行うことができる。

第４観点の作業支援装置は、第１観点から第３観点の作業支援装置であって、対象物検知モデルが、複数の対象物を検知するものである。また、作業支援装置は、対象物検知モデルを用いて、任意の動画像から、対象物が写されている確率が第１閾値以上である領域を含む画像を候補画像として、対象物毎に区分けされたフォルダに格納する。これにより、各フォルダに蓄積された画像を連続的に表示することで、当該対象物が写されているか否かだけを確認すればよいので、作業者の負担が軽減される。

第５観点の作業支援装置は、第１観点から第４観点の作業支援装置であって、対象物が写されている確率の値を候補画像に合成して出力する。これにより、作業者が、候補画像に写された対象物が何であるかを容易に認識することができる。

第６観点の作業支援装置は、第１観点から第５観点の作業支援装置であって、抽出部が、対象物が写されている確率が第２閾値以下である領域を含む画像を候補画像として抽出する。このような構成により、対象物検知モデルの検知精度の向上に寄与する候補画像を効率的に収集できる。

第７観点の作業支援装置は、第１観点から第６観点の作業支援装置であって、抽出部が、前回抽出された候補画像からの変化量が所定量以下である場合、候補画像の抽出を停止する。結果として、対象物検知モデルの検知精度の向上に寄与する候補画像を効率的に収集することができる。

第８観点の作業支援装置は、第１観点から第７観点の作業支援装置であって、対象物が写されているか否かが設定された画像を教師画像に加えて、対象物検知モデルを更新する更新部をさらに備える。このような構成により、使用に応じて、対象物の検知精度の向上に寄与する候補画像を効率的に収集できる。

第９観点のプログラムは、コンピュータを、抽出部及び出力部として機能させるものである。抽出部は、対象物が写された教師画像を用いて構築された対象物検知モデルを用いて、任意の動画像から、対象物が写されている確率が第１閾値以上である領域を含む画像を候補画像として抽出する。出力部は、当該候補画像に、対象物が写されている確率が第１閾値以上である領域に対応するバウンディングボックスが合成された画像を出力する。このような構成により、バウンディングボックスの表示を維持するか、又は削除することで、対象物が写されている対象物画像であるか否かを効率的に設定できる。結果として、多数の教師画像を効率的に集めることができる。

第１０観点の作業支援方法は、コンピュータを用いて、画像内の領域に対象物（Ｏ）が写されているか否かを設定するための作業を支援する方法である。この作業支援方法では、対象物が写された教師画像を用いて構築された対象物検知モデルを用いて、任意の動画像から、前記対象物が写されている確率が第１閾値以上である領域を含む画像を候補画像として抽出する。また、この作業支援方法では、当該候補画像に、対象物が写されている確率が第１閾値以上である領域に対応するバウンディングボックスが合成された画像を出力する。したがって、この作業支援方法によれば、バウンディングボックスの表示を維持するか、又は削除することで、対象物が写されている対象物画像であるか否かを効率的に設定できる。結果として、多数の教師画像を効率的に集めることができる。

作業支援装置２０の構成を示す模式図である。候補画像Ｇｋの一例を示す図である。図２の一部拡大図である。処理部２４による情報処理の概念を説明するための模式図である。作業支援装置２０の動作を説明するためのフローチャートである。変形例Ａに係る作業支援装置２０の動作を説明するためのフローチャートである。変形例Ｂに係るエンドツーエンドの学習を説明するための模式図である。変形例Ｃ，Ｄに係る作業支援装置２０の表示画面の一例を示す模式図である。

（１）作業支援装置の構成
以下、本開示の一実施形態に係る作業支援装置の構成について図面を用いて説明する。
図１は本実施形態に係る作業支援装置２０の構成を示す模式図である。図２は作業支援装置２０により出力される候補画像Ｇｋの一例を示す図である。図３は図２の破線部分の一部拡大図である。図４は後述する処理部２４による情報処理の概念を説明するための模式図である。

作業支援装置２０は、対象物検知モデル２１Ｍに用いる教師画像Ｇｔを生成する作業を支援する装置である。なお、以下の説明において、複数の教師画像をまとめて説明する場合はＧｔと表記し、個々の教師画像を区別して説明する場合は添え字を付してＧｔ１のように表記する。

「対象物検知モデル２１Ｍ」は、対象物Ｏが写された教師画像Ｇｔに基づいて重みが調整されたニューラルネットワークにより構築されており、画像内における対象物Ｏの領域抽出及び当該対象物Ｏの物体認識を行なう。具体的には、対象物検知モデル２１Ｍは、画像が入力されると、当該画像に対象物Ｏが出現している確率を算出し、算出した確率が所定値以上であれば、その対象物Ｏの出現している領域を出力する。
なお、対象物検知モデル２１Ｍは、予め設定された複数の対象物を検知できるものである。

対象物Ｏの領域は、図２，３に示すように、画像Ｇｋ内に合成されるバウンディングボックスＢの４つの頂点に対応する座標情報ｂ１〜ｂ４で定義される。したがって、対象物検知モデル２１Ｍの教師画像Ｇｔは、バウンディングボックスＢの座標情報ｂ１〜ｂ４に対応する領域に、対象物Ｏが写されているものとなる。

なお、図２，３における例では、対象物Ｏとして「信号機」が示されているが、対象物Ｏはこれに限定されるものではない。対象物Ｏは任意の物体を採用できる。また、対象物Ｏは物体の種類だけでなく、状態等を区別して設定することもできる。例えば、対象物Ｏとして、単に信号機とするのではなく、赤信号を表示する信号機と、青信号を表示する信号機とを区別して設定することもできる。

作業支援装置２０は、任意のコンピュータにより実現することができ、記憶部２１、入力部２２、出力部２３、及び処理部２４を備える。なお、作業支援装置２０は、ＬＳＩ（Large Scale Integration），ＡＳＩＣ（Application Specific Integrated Circuit），ＦＰＧＡ（Field-Programmable Gate Array）などを用いてハードウェアとして実現されるものでもよい。

記憶部２１は、各種情報を記憶するものであり、メモリ及びハードディスク等の任意の記憶装置により実現される。ここでは、記憶部２１は、対象物検知モデル２１Ｍを構築するニューラルネットワークの重み等の情報を記憶する。また、記憶部２１は、複数の教師画像Ｇｔを記憶するものであり、初期状態では複数の教師画像Ｇｔ１〜Ｇｔｐ（ｐは1以外の自然数）を記憶する。また、記憶部２１は、新たな教師画像Ｇｔｑ（ｑは１〜ｐ以外の値）を生成するための動画像ＧＤを記憶する。なお、動画像ＧＤは、任意の撮像装置により撮像される。また、動画像ＧＤは、複数のフレームの静止画像Ｇｄｉ（ｉ＝１〜ｊ，ｊは自然数）から構成される。

入力部２２は、キーボード、マウス、タッチパネル等の任意の入力装置により実現され、コンピュータに各種情報を入力する。

出力部２３は、ディスプレイ、タッチパネル、スピーカー等の任意の出力装置により実現され、コンピュータから各種情報を出力する。

処理部２４は、各種情報処理を実行するものであり、ＣＰＵ又はＧＰＵ等のプロセッサ、及びメモリにより実現される。ここでは、コンピュータのＣＰＵ，ＧＰＵ等に、記憶部２１に記憶された一又は複数のプログラムが読み込まれることにより、処理部２４が、抽出部２４Ａ、生成部２４Ｂ、合成部２４Ｃ、設定部２４Ｄ、及び更新部２４Ｅとして機能する。以下、処理部２４の各機能について、図４を参照しながら説明する。

抽出部２４Ａは、対象物検知モデル２１Ｍを用いて、任意の動画像ＧＤの各フレームの画像Ｇｄ１〜Ｇｄｊから、対象物Ｏが写されている確率が第１閾値Ｐ１以上、かつ、第２閾値Ｐ２以下である領域を含む画像を候補画像Ｇｋ（図４では、Ｇｋ１〜Ｇｋ３と表記する）として抽出する。ここでは、第１閾値Ｐ１を１０％程度と設定し、第２閾値Ｐ２を６０％程度と設定する。

生成部２４Ｂは、候補画像Ｇｋにおいて、対象物Ｏが写されている確率が第１閾値Ｐ１以上である領域の座標情報を生成する。また、生成部２４Ｂは、対象物Ｏが写されている領域に対応するバウンディングボックスＢ（図４では、Ｂ１〜Ｂ３と表記する）の頂点の座標情報ｂ１〜ｂ４が記述されたファイルを生成する。
なお、座標情報ｂ１〜ｂ４は、各頂点の二次元座標で定義することができる。ただし、これに限らず、座標情報ｂ１〜ｂ４は、バウンディングボックスＢが正方形又は長方形であることを前提に、１つの頂点の二次元座標と、その頂点からの幅及び高さとで定義することもできる。前者の場合は、二次元座標上での４つの頂点に対応する８つの値が記述されたファイルが生成される。後者の場合は、二次元座標上の１つの頂点に対応する２つの値と、そこからの幅及び高さを示す２つの値との合計４つの値が記述されたファイルが生成される。

合成部２４Ｃは、候補画像ＧｋにバウンディングボックスＢを合成し、出力部２３のディスプレイに表示する。

設定部２４Ｄは、入力部２２を介して、候補画像Ｇｋに合成されたバウンディングボックスＢ内に対象物Ｏが写されているか否かを設定する。図４に示す例では、候補画像Ｇｋ１，Ｇｋ３のバウンディングボックスＢ１，Ｂ３には対象物Ｏが写されているが、候補画像Ｇｋ２のバウンディングボックスＢ２には対象物Ｏ以外の物体Ｐが写されている。このような場合、設定部２４Ｄは、入力部２２を介して、「候補画像Ｇｋ１，Ｇｋ３は対象物Ｏが写されている対象物画像である」との設定を行なう（Ｕ１，Ｕ３）。また、設定部２４Ｄは、入力部２２を介して、「候補画像Ｇｋ２は対象物Ｏが写されている対象物画像ではない」との設定を行なう（Ｕ２）。

なお、設定部２４Ｄは、座標を指定することで任意のバウンディングボックスＢを画像内に生成し、そのバウンディングボックスＢを用いて対象物Ｏが写されている対象物画像であることを設定することも可能である。

更新部２４Ｅは、対象物Ｏが写されているか否かが設定された画像を、現在の教師画像Ｇｔに加えて、ニューラルネットワークの重みを再調整し、対象物検知モデル２１Ｍを更新する。

（１−２）作業支援装置の動作
図５は本実施形態に係る作業支援装置２０の動作を説明するためのフローチャートである。
まず、任意の撮像装置により、当該撮像装置の周辺環境の動画像ＧＤが撮像される。そして、これらの動画像ＧＤが適時、作業支援装置２０の記憶部２１に記憶される（Ｓ１）。

次に、作業支援装置２０は、初期の教師画像群Ｇｔ１〜Ｇｔｐを用いて構築された対象物検知モデル２１Ｍを用いて、記憶部２１に記憶された動画像ＧＤを構成する一フレームの画像Ｇｄｉ（ｉ＝１〜ｊ，ｊは自然数）に、対象物Ｏが写されている確率が第１閾値Ｐ１以上、第２閾値Ｐ２以下である領域が含まれているか否かを判定する（Ｓ２〜Ｓ４）。

作業支援装置２０は、対象物Ｏが写されている確率が上記範囲内である場合、そのフレームの画像を「候補画像Ｇｋ」として出力する（Ｓ４−Ｙｅｓ，Ｓ５）。具体的には、図２，３に示すように、対象物Ｏが写されている領域にバウンディングボックスＢが合成された画像が出力部２３を構成するディスプレイに表示される。

続いて、作業者が、候補画像Ｇｋが対象物Ｏが写されている対象物画像であるか否かを判定する（Ｓ６）。この際、作業支援装置２０は、入力部２２及び設定部２４Ｄを介して、候補画像Ｇｋが対象物画像であるか否かの設定を受け付ける。例えば、図２，３に示すような画像が候補画像Ｇｋとして表示された場合、バウンディングボックスＢに対象物Ｏである「信号機」が写されているので、作業者に追加作業をさせることなく対象物画像であることの設定を受け付けることができる（Ｓ６−Ｙｅｓ，Ｓ７）。一方、候補画像Ｇｋに、対象物Ｏが写されていない場合には、対象物Ｏ以外の物体を「信号機」と誤認識して抽出していることになるので、その誤認識した物体のバウンディングボックスＢを削除する処理を作業者に行なわせてから、対象物画像ではないことの設定を受け付ける（Ｓ６−Ｎｏ，Ｓ８）。

この後、順次、動画像ＧＤの最後のフレームの画像Ｇｄｊに達するまで、上記処理が順次実行される（Ｓ９，Ｓ１０）。

（３）作業支援装置の特徴
（３−１）
以上説明したように、本実施形態に係る作業支援装置２０では、抽出部２４Ａが、対象物検知モデル２１Ｍを用いて、任意の動画像ＧＤから、対象物Ｏが写されている確率が第１閾値Ｐ１以上、第２閾値Ｐ２以下である領域を含む画像を候補画像Ｇｋとして抽出する。また、生成部２４Ｂが、候補画像Ｇｋにおける、対象物Ｏが写されている確率が第１閾値Ｐ１以上、第２閾値Ｐ２以下である領域の座標情報ｂ１〜ｂ４を生成する。また、合成部２４Ｃが、座標情報ｂ１〜ｂ４に対応するバウンディングボックスＢを生成して候補画像Ｇｋに合成する。そして、バウンディングボックスＢが表示された候補画像Ｇｋが出力部２３を構成するディスプレイに表示される。
また、作業支援装置２０は、設定部２４Ｄを備えている。設定部２４Ｄは、作業者による入力部２２の操作を介して、バウンディングボックスＢ内に対象物Ｏが写されていること、又は、バウンディングボックスＢ内に対象物Ｏが写されていないことの設定を受け付ける。

したがって、このような作業支援装置２０を用いることで、作業者は、動画像ＧＤの各フレームの画像Ｇｄｉ内に、対象物Ｏが写されているか否かを設定する作業を効率的に実行できるようになる。具体的に、作業者は、ある程度の出現確率で対象物Ｏが表示される候補画像Ｇｋ内のバウンディングボックスＢに対応する領域に、対象物Ｏが写されているか否かを確認するだけで済むようになる。そして、対象物Ｏが写されている画像は、新たな教師画像Ｇｔｑとして用いることができる（図４参照）。要するに、作業支援装置２０を用いることで多数の教師画像Ｇｔを効率的に集めることができるようになる。

（３−２）
特に、抽出部２４Ａは、対象物Ｏが写されている確率が第１閾値Ｐ１以上である領域を含む画像を候補画像Ｇｋとして抽出するので、対象物Ｏが写されていない画像が除外されることになる。換言すると、抽出部２４Ａは、ノイズとなる画像を候補画像Ｇｋとして抽出しないようにしている。これにより、対象物Ｏが写されている画像であるか否かの設定が効率化される。

（３−３）
また、抽出部２４Ａは、対象物Ｏが写されている確率が第２閾値Ｐ２以下である画像を候補画像Ｇｋとして抽出する。これにより、対象物検知モデル２１Ｍの検知精度の向上に寄与する新たな教師画像を効率的に収集することを実現している。

補足すると、現在の教師画像群Ｇｔ１〜Ｇｔｐを用いて高確率で検知可能な対象物画像を新たな教師画像として現在の教師画像群Ｇｔ１〜Ｇｔｐに加えて対象物検知モデル２１Ｍの重みを更新しても、現在の教師画像群Ｇｔ１〜Ｇｔｐから抽出される対象物Ｏの特徴量に対して有意な変化が生じないことが多い。すなわち、そのような教師画像は、対象物検知モデル２１Ｍの検知精度の向上に寄与しないことが多い。これに対し、現在の教師画像群Ｇｔ１〜Ｇｔｐを用いて高確率で検知可能ではない対象物画像を新たな教師画像Ｇｔｑとして現在の教師画像群Ｇｔ１〜Ｇｔｐに加えて、対象物検知モデル２１Ｍの重みを更新すると、現在の教師画像群Ｇｔ１〜Ｇｔｐから抽出される対象物Ｏの特徴量に対して有意な変化が生じ、対象物検知モデル２１Ｍの検知精度が向上することになる。
このように、本実施形態に係る作業支援装置２０は、現在の教師画像群Ｇｔ１〜Ｇｔｐでは、検知精度が上がらない画像を候補画像Ｇｋとして抽出することで、対象物検知モデル２１Ｍの検知精度の向上に寄与する新たな教師画像を効率的に収集することを実現している。

（３−４）
また、本実施形態に係る作業支援装置２０では、更新部２４Ｅをさらに備える。更新部２４Ｅは、対象物Ｏが写されているか否かが設定された画像を現在の教師画像Ｇｔに加えて、ニューラルネットワークの重みを調整し、対象物検知モデル２１Ｍを更新する。このような構成により、作業支援装置２０の使用に応じて、対象物検知モデル２１Ｍにおける対象物Ｏを検知する精度が向上する。結果として、検知精度の高い対象物検知モデルを提供できるようになる。

（３−５）
また、本実施形態に係る対象物検知モデル２１Ｍは、複数の対象物を検知することができる。さらに、設定部２４Ｄは、バウンディングボックスＢに対応する対象物の設定の変更を受け付けることもできる。具体的には、第１対象物が写されている確率が第１閾値以上であるとして出力された候補画像に対し、第１対象物ではなく第２対象物が写されていることを設定することができる。
例えば、青信号を表示する信号機が写されている確率が第１閾値以上第２閾値以下であることを示すバウンディングボックスＢが表示されているときに、実際の候補画像Ｇｋに赤信号が写されている場合、ユーザは入力部２２及び設定部２４Ｄを介して、当該候補画像Ｇｋには、赤信号を表示する信号機が写されていると設定することができる。

（４）変形例
（４−１）変形例Ａ
本実施形態に係る作業支援装置２０は、抽出部２４Ａが、前回抽出された画像の変化量が所定量以下である場合、候補画像Ｇｋの抽出を停止するものでもよい。具体的には、変形例Ａに係る抽出部２４Ａは、前回抽出された画像を基準画像Ｇｃとして記憶する。そして、抽出部２４Ａは、当該基準画像Ｇｃからの変化量が所定量以下である場合、対象物Ｏが写されている確率が第１閾値Ｐ１以上、第２閾値Ｐ２以下である領域を含む画像の抽出を停止する。換言すると、抽出部２４Ａにより候補画像Ｇｋが抽出された場合、当該候補画像が基準画像Ｇｃとして設定される。また、抽出部２４Ａは、動画像ＧＤを構成する一フレームの画像Ｇｄｉの、基準画像Ｇｃからの変化量が所定量以下である場合、当該画像を候補画像Ｇｋとして抽出することを停止する。

この変形例Ａに係る作業支援装置２０は、図６のフローチャートに示すような動作を実行する。変形例Ａに係る作業支援装置２０では、ステップＴ１〜Ｔ４，Ｔ６〜Ｔ８，Ｔ１０〜Ｔ１２が、それぞれ上述したステップＳ１〜Ｓ９と同様の処理を実行する。一方、変形例Ａに係る作業支援装置２０では、ステップＴ５，Ｔ９の処理が追加される。ステップＴ５では、基準画像Ｇｃからの変化量が所定量より大きい場合にのみ候補画像Ｇｋが抽出される。また、ステップＴ９では、新たに対象物画像であると設定された場合に、当該対象物画像が新たな基準画像Ｇｃとして設定される。

このような構成により、変形例Ａに係る作業支援装置２０では、対象物検知モデル２１Ｍの検知精度の向上に寄与しない候補画像Ｇｋが収集されないことになる。補足すると、基準画像Ｇｃからの変化量が所定量以下である画像は、基準画像Ｇｃと類似した画像であるので、このような画像を新たな教師画像として現在の教師画像群Ｇｔ１〜Ｇｔｐに加えて、対象物検知モデル２１Ｍの重みを更新しても、現在の教師画像群Ｇｔ１〜Ｇｔｐから抽出される対象物Ｏの特徴量に対して有意な変化が生じないことが多い。すなわち、そのような教師画像は、対象物検知モデル２１Ｍの検知精度の向上に寄与しないことが多い。そこで、そのような画像を無視することで、演算負荷を低減しつつ対象物検知モデル２１Ｍを迅速に構築できるようになる。
換言すると、変形例Ａに係る作業支援装置２０は、対象物検知モデル２１Ｍの検知精度の向上に寄与する候補画像Ｇｋを効率的に収集できるものとなっている。

（４−２）変形例Ｂ
また、本実施形態に係る作業支援装置２０は、対象物検知モデル２１Ｍが、対象物Ｏの領域抽出及び対象物Ｏの物体認識をエンドツーエンド（End to End）で行なうニューラルネットワークにより構築されたものでもよい。このような構成により、対象物Ｏの検知を高速化することができ、リアルタイムで対象物Ｏを検知することができる。

なお、ここでいう、エンドツーエンドとは、図７（ａ）に概念を示すように、対象物Ｏの領域抽出及び対象物Ｏの物体認識という処理に対して適切な構造を持つ一つのニューラルネットワークにより入出力関係を直接学習することをいう。例えば、このような対象物検知モデル２１Ｍは、ＹＯＬＯ（You Only Look Once）又はＳＳＤ（Single Shot MultiBox Detector）などのアルゴリズムを用いて実現することができる。

ただし、対象物検知モデル２１Ｍはこれに限らず、図７（ｂ）に概念を示すように、対象物Ｏの領域抽出及び対象物Ｏの物体認識を個別に行うアルゴリズム及びニューラルネットワークの組み合わせにより構築されるものでもよい。

（４−３）変形例Ｃ
また、本実施形態に係る作業支援装置２０は、図８に示すように、対象物の種類と対象物Ｏが写されている確率の値とを示す画像を候補画像Ｇｋに合成して出力するものでもよい。これにより、作業者は候補画像Ｇｋに写された対象物Ｏが何であるかを容易に認識することができる。例えば図８では、記号Ｍで示される領域に、バウンディングボックスＢに対応する画像が、赤信号を表示する信号機（図８ではＲｅｄ＿ｌｉｇｈｔと表記）である旨と、赤信号を表示する信号機である確率が４３．２１％であることとが示されている。なお、記号Ｍで示される領域は対応するバウンディングボックスＢの近傍に表示される。

（４−４）変形例Ｄ
また、本実施形態に係る作業支援装置２０は、対象物検知モデル２１Ｍを用いて、任意の動画像ＧＤから、対象物Ｏが写されている確率が第１閾値以上であり第２閾値以下である領域を含む画像を候補画像Ｇｋとして、対象物毎に区分けされたフォルダに格納するものでもよい。さらに、作業支援装置２０は、フォルダ毎に格納された候補画像Ｇｋを、バウンディングボックスＢとともに出力するものでもよい。

これにより、候補画像Ｇｋに対象物が写されているか否かを効率的に判断することが可能となる。補足すると、各フォルダに蓄積された画像は所定の対象物に関連付けられているので、作業者は、各フォルダに蓄積された画像を連続的に表示したときに、当該対象物が写されているか否かだけを確認すればよいことになる。

例えば、作業者は、青信号を表示する信号機が写された候補画像が複数蓄積されたフォルダを開き、当該フォルダ内の画像を連続的に出力することで、それらの候補画像に青信号を表示する信号機が写されているか否かを効率的に判断することができる。また、作業者は、当該フォルダ内の画像を連続的に確認する場合、図８の記号Ｉ２で示されるような、次に進むことを意味するアイコンをポインタＰでクリックすることで、次の画像を表示することができる。ここで、アイコンＩ２をクリックした場合には、次の画像を表示すると同時に、表示中の候補画像Ｇｋに、青信号を表示する信号機が写されていることの設定も行われる。要するに、作業者は画像を連続的に確認しながら、アイコンＩ２をクリックするだけで、対象物検知モデル２１Ｍに用いられる教師画像Ｇｔを生成するためのアノテーション作業を実行できるようになる。なお、図８の記号Ｉ１は前に戻ることを意味するアイコンであり、このアイコンＩ１がクリックされた場合には、前回表示された候補画像が表示されることになる。

なお、候補画像Ｇｋに同一種類の複数の対象物が写されている場合は、当該対象物に対応するフォルダにそのまま格納される。一方、候補画像Ｇｋに異なる種類の複数の対象物が写されている場合は、例外であることを示すフォルダに格納される。

＜他の実施形態＞
本開示は、上記各実施形態そのままに限定されるものではない。本開示は、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できるものである。また、本開示は、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の開示を形成できるものである。例えば、実施形態に示される全構成要素から幾つかの構成要素は削除してもよいものである。さらに、異なる実施形態に構成要素を適宜組み合わせてもよいものである。

２０作業支援装置
２１記憶部
２１Ｍ対象物検知モデル
２２入力部
２３出力部
２４処理部
２４Ａ抽出部
２４Ｂ生成部
２４Ｃ合成部
２４Ｄ設定部
２４Ｅ更新部
ＧＤ動画像
Ｇｄフレームの画像
Ｇｋ候補画像
Ｇｔ教師画像
Ｇｃ基準画像
Ｍ対象物が写されている確率の値が表示される領域
Ｉ１アイコン（前に戻る）
Ｉ２アイコン（次に進む）

特開２０１８−１６９６７２号公報

Claims

対象物（Ｏ）が写された教師画像（Ｇｔ）を用いて構築された対象物検知モデル（２１Ｍ）を用いて、任意の動画像（ＧＤ）から、前記対象物が写されている確率が第１閾値以上である領域を含む画像を候補画像（Ｇｋ）として抽出する抽出部（２４Ａ）と、
当該候補画像に、前記対象物が写されている確率が第１閾値以上である領域に対応するバウンディングボックス（Ｂ）が合成された画像を出力する出力部（２３）と、
を備える、作業支援装置（２０）。
前記バウンディングボックス内に前記対象物が写されていること、又は、前記バウンディングボックス内に前記対象物が写されていないことの設定を受け付ける設定部（２２，２４Ｄ）、
をさらに備える。請求項１に記載の作業支援装置。
前記対象物検知モデルは、複数の対象物を検知するものであり、
第１対象物が写されている確率が第１閾値以上である領域に対応するバウンディングボックスが合成された画像に対し、当該第１対象物に代えて第２対象物が写されていることの設定を受け付ける設定部（２２，２４Ｄ）、
をさらに備える。請求項１又は２に記載の作業支援装置。
前記対象物検知モデルは、複数の対象物を検知するものであり、
前記対象物検知モデル（２１Ｍ）を用いて、任意の動画像（ＧＤ）から、対象物が写されている確率が第１閾値以上である領域を含む画像を候補画像（Ｇｋ）として、対象物毎に区分けされたフォルダに格納する、
請求項１から３のいずれか１項に記載の作業支援装置。
前記対象物が写されている確率の値を前記候補画像に合成して出力する、
請求項１から４のいずれか1項に記載の作業支援装置。
前記抽出部は、前記対象物が写されている確率が第２閾値以下である領域を含む画像を前記候補画像として抽出する、
請求項１から５のいずれか１項に記載の作業支援装置。
前記抽出部は、前回抽出された候補画像からの変化量が所定量以下である場合、前記候補画像の抽出を停止する、
請求項１から６のいずれか１項に記載の作業支援装置。
前記対象物が
写されているか否かが設定された画像を前記教師画像に加えて、前記対象物検知モデルを更新する更新部（２４Ｅ）をさらに備える、
請求項１から７のいずれか１項に記載の作業支援装置。
コンピュータを、
対象物（Ｏ）が写された教師画像（Ｇｔ）を用いて構築された対象物検知モデル（２１Ｍ）を用いて、任意の動画像（ＧＤ）から、前記対象物が写されている確率が第１閾値以上である領域を含む画像を候補画像（Ｇｋ）として抽出する抽出部（２４Ａ）、
当該候補画像に、前記対象物が写されている確率が第１閾値以上である領域に対応するバウンディングボックス（Ｂ）が合成された画像を出力する出力部（２３）、
として機能させるプログラム。
コンピュータを用いて、画像内の領域に対象物（Ｏ）が写されているか否かを設定するための作業を支援する作業支援方法であって、
対象物（Ｏ）が写された教師画像（Ｇｔ）を用いて構築された対象物検知モデル（２１Ｍ）を用いて、任意の動画像（ＧＤ）から、前記対象物が写されている確率が第１閾値以上である領域を含む画像を候補画像（Ｇｋ）として抽出し、
当該候補画像に、前記対象物が写されている確率が第１閾値以上である領域に対応するバウンディングボックス（Ｂ）が合成された画像を出力する、
作業支援方法。