JP2020009446A

JP2020009446A - ディープネットワークを使用する自動オブジェクトアノテーションのための方法およびシステム

Info

Publication number: JP2020009446A
Application number: JP2019126832A
Authority: JP
Inventors: チャンダン・クマール・シン; Kumar Singh Chandan; アニマ・マジュムダー; Majumder Anima; スワガット・クマール; Kumar Swagat; ラクスミダー・ベヘラ; Behera Laxmidhar
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2018-07-06
Filing date: 2019-07-08
Publication date: 2020-01-16
Anticipated expiration: 2039-07-08
Also published as: US20200193222A1; CN110689037A; AU2019204878A1; US10936905B2; AU2019204878B2; EP3591582A1; CN110689037B; JP6932159B2

Abstract

【課題】自動オブジェクトアノテーションのための、ディープネットワークベースのアーキテクチャのための方法およびシステムを提供する。【解決手段】利用されるディープネットワークは、単一オブジェクトテスト画像のセットからアノテーション付き画像を生成するための２クラス分類を提供する、F-RCNNおよびRFCNを含むアノテーションモデルとしての第１の段階を有する。さらに、それから、新規なアノテーション付きテストオブジェクト画像を用いてクラッタ化画像およびそれらの対応するアノテーションを合成して生成し、ディープネットワークの第２の段階をトレーニングして、リアルタイムで自動的に入力テスト画像にアノテーションを付ける。【選択図】図２Ａ

Description

優先権の主張
本出願は、2018年7月6日に出願されたインドの暫定特許出願第201821025354号からの優先権を主張する。前述の出願の全内容は、参照により本願明細書に援用したものとする。

本明細書の開示は一般にオブジェクトアノテーションに関し、より詳しくはディープネットワークを用いる自動オブジェクトアノテーションに関する。

深層学習ベースのオブジェクト認識システムにおいては、多数のアノテーション付き画像がトレーニングのために必要とされ、各オブジェクトの手動アノテーションは課題のある作業である。数十年にわたって、研究者はLabelMe(商標)またはELAN(商標)のようなツールを用いた手動アノテーション技術にほとんど依存しており、そこでは、画像の中の各オブジェクトは矩形であるかポリゴン境界ボックスによって手動でラベル付けされる。このような手動アノテーションアプローチは、非常に退屈で時間のかかる作業である。それらは、エラーの起こりやすいものでもあり、作業を実行している間は、しばしば専門家の管理さえ必要とする。トレーニングデータ生成のこの課題は、多くの研究者を完全に自動または半自動式のデータアノテーション技術を開発するよう動機づけした。少し例を挙げれば、ブートストラッピングおよびアクティブラーニングは、半自動式のアノテーション技術の中の最高水準技術である。ブートストラッピングは、境界の近くにクラスのより良好な分類のための学習プロセスの間にハードネガティブサンプルを選択することから成る。アクティブラーニング方法は、画像のハードポジティブおよびハードネガティブにアノテーションを付けることから構成される。すべてのこれらの半自動式のアプローチは、境界ボックスが手動で引かれることができる見込みのある領域を暗示し、それはコストのいかなる重要な改善もほとんど加えることのないおびただしい手作業を再び必要とする。

ウェアハウスは、ウェアハウスタスクを自動化すると共にオブジェクトを認識するアノテーションが必要とされる1つの例示的な領域である。この方向において実行される作業は極めて少ない。Huvalらは、Pascal VOCデータセットを用いたクラスジェネリックな物体らしさ検出のためのディープニューラルネットワークを使用する。最近の研究においてMilanらは、RefineNetアーキテクチャベースの意味論的なセグメンテーション技術を利用して、オブジェクトにアノテーションを付ける。しかしながら、F値の観点からのセグメンテーション精度は、満足なものでない。さらに、既存の方法は不当にセグメント化されたオブジェクトを修正するために人間の介入を必要とし、したがって、アプローチを半自動式にする。別の既存の方法で、Hernandezらは深度カメラを使用して、ポイントクラウドに既知のオブジェクト形状を登録する。したがって、この既存の方法は、特別な深度検出カメラを必要とし、コストが増える。

本開示の実施形態は、従来システムの発明者によって認識される上述した技術的問題の1つまたは複数に対するソリューションとして、技術的改良を示す。例えば、一実施形態において、ディープネットワークを用いる自動オブジェクトアノテーションのための方法が提供される。方法は、既知のバックグラウンド上の単一のアノテーション付きオブジェクトを含む各画像を有する手動アノテーション付き画像セットを受信することを含む。さらに、方法は手動アノテーション付き画像セットからの各画像にアフィン変換およびカラー拡張を適用することによって複数の合成単一オブジェクト画像を生成することを含み、生成された複数の合成単一オブジェクト画像は対応する手動アノテーション付き画像に従って自動的にアノテーションが付けられる。さらに、方法は、合成して生成された単一オブジェクト画像および手動アノテーション付き単一オブジェクト画像を用いて2クラスオブジェクト検出および分類のためのアノテーションモデルをトレーニングして画像のオブジェクトに対応するフォアグラウンド関心領域(ROI)を検出することを含み、アノテーションモデルは、Faster Region-based Convolutional Neural Networks (F-RCNN)およびRegion-based Fully Convolutional Networks (RFCN)から構成される。さらに、方法は、トレーニングされたアノテーションモデルを用いて既知のバックグラウンドに配置されてアノテーション付き画像のセットを生成する未知オブジェクトを含む、単一オブジェクトテスト画像のセットを分析することを含む。さらに、方法は、アノテーション付き画像のセットを用いて対応するアノテーションを有する複数のクラッタ画像を合成して生成することを含む。さらに、方法は、ベースネットワークとしてRCNNおよびRFCNを用いて設計されるマルチクラスオブジェクト検出および分類モデルをトレーニングするために、複数のクラッタ画像および対応するアノテーションを利用することを含む。マルチクラスオブジェクト検出フレームワークは、入力テスト画像の1つまたは複数のオブジェクトに対応する1つまたは複数のROIおよび1つまたは複数のオブジェクトに関連するクラスラベルを識別することによって、リアルタイムで入力テスト画像にアノテーションを付け、入力テスト画像は単一オブジェクト入力画像またはクラッタ入力画像のうちの1つであり、各ROIは、xmin、ymin、xmax、ymaxを含む位置座標を有する境界ボックスによって画定される。

別の態様においては、ディープネットワークを用いる自動オブジェクトアノテーションのシステムが提供される。システムは、命令を記憶するメモリと、1つまたは複数の入出力(I/O)インタフェースと、1つまたは複数のI/Oインタフェースを介してメモリと接続されるプロセッサとを含み、プロセッサは、命令によって既知のバックグラウンド上の単一のアノテーション付きオブジェクトを含む各画像を有する手動アノテーション付き画像セットを受信するように構成される。さらに、プロセッサは、アフィン変換およびカラー拡張を手動アノテーション付き画像セットからの各画像に適用することによって複数の合成単一オブジェクト画像を生成するように構成され、生成された複数の合成単一オブジェクト画像は対応する手動アノテーション付き画像に従って自動的にアノテーションが付けられる。さらに、プロセッサは、合成して生成された単一オブジェクト画像および手動アノテーション付き単一オブジェクト画像を用いて2クラスオブジェクト検出および分類のためのアノテーションモデルをトレーニングして画像のオブジェクトに対応するフォアグラウンド関心領域(ROI)を検出するように構成され、ここで、アノテーションモデルはFaster Region-based Convolutional Neural Networks (F-RCNN)およびRegion-based Fully Convolutional Networks (RFCN)から構成される。さらに、プロセッサは、トレーニングされたアノテーションモデルを用いて既知のバックグラウンドに配置される未知オブジェクトを含む単一オブジェクトテスト画像のセットを分析して、アノテーション付き画像のセットを生成するように構成される。さらに、プロセッサは、アノテーション付き画像のセットを用いて、対応するアノテーションを有する複数のクラッタ画像を合成して生成するように構成される。さらに、プロセッサは、ベースネットワークとしてRegion-based Convolutional Neural Networks (RCNN)およびRegion-based Fully Convolutional Networks (RFCN)を用いて設計されるマルチクラスオブジェクト検出および分類モデルをトレーニングするために、複数のクラッタ画像および対応するアノテーションを利用するように構成される。マルチクラスオブジェクト検出フレームワークは、入力テスト画像の1つまたは複数のオブジェクトに対応する1つまたは複数のROIならびに1つまたは複数のオブジェクトと関連したクラスラベルを識別することによってリアルタイムで入力テスト画像にアノテーションを付け、ここで、入力テスト画像は単一オブジェクト入力画像またはクラッタ入力画像のうちの1つであり、各ROIはxmin、ymin、xmax、ymaxを含む位置座標を有する境界ボックスによって画定される。

さらに別の態様では、1つまたは複数の命令を含む1つまたは複数の非一時的機械可読情報記憶媒体が提供され、命令は、1つまたは複数のハードウェアプロセッサによって実行されると、ディープネットワークを用いる自動オブジェクトアノテーションのための方法が提供される。方法は、各画像が既知のバックグラウンド上の単一のアノテーション付きオブジェクトを含む手動アノテーション付き画像セットを受信することを含む。さらに、方法は、手動アノテーション付き画像セットからの各画像にアフィン変換およびカラー拡張を適用することによって複数の合成単一オブジェクト画像を生成することを含み、生成された複数の合成単一オブジェクト画像は対応する手動アノテーション付き画像に従って自動的にアノテーションが付けられる。さらに、方法は、合成して生成された単一オブジェクト画像および手動アノテーション付き単一オブジェクト画像を用いて2クラスオブジェクト検出および分類のためのアノテーションモデルをトレーニングして画像のオブジェクトに対応するフォアグラウンド関心領域(ROI)を検出することを含み、ここで、アノテーションモデルはFaster Region-based Convolutional Neural Networks (F-RCNN)およびRegion-based Fully Convolutional Networks (RFCN)から構成される。さらに、方法は、トレーニングされたアノテーションモデルを用いて、既知のバックグラウンドに配置される未知オブジェクトを含む単一オブジェクトテスト画像のセットを分析して、アノテーション付き画像のセットを生成することを含む。さらに、方法は、アノテーション付き画像のセットを用いて、対応するアノテーションを有する複数のクラッタ画像を合成して生成することを含む。さらに、方法は、ベースネットワークとしてRCNNおよびRFCNを用いて設計されるマルチクラスオブジェクト検出および分類モデルをトレーニングするために、複数のクラッタ画像および対応するアノテーションを利用することを含む。マルチクラスオブジェクト検出フレームワークは、入力テスト画像の1つまたは複数のオブジェクトおよび1つまたは複数のオブジェクトと関連するクラスラベルに対応する1つまたは複数のROIを識別することによって、リアルタイムで入力テスト画像にアノテーションを付け、ここで、入力テスト画像は単一オブジェクト入力画像またはクラッタ入力画像のうちの1つであり、各ROIはxmin、ymin、xmax、ymaxを含む位置座標を有する境界ボックスによって画定される。

前述の概要および以下の詳細な説明の両方が例示的および説明的なものでしかなく、請求される本発明を拘束するものではないことを理解すべきである。

本開示の中に組み込まれて本開示の一部を構成する添付図面は、例示的実施形態を説明しており、記述と共に、本開示の原理を説明する役割を果たす。

本開示のいくつかの実施形態による、ディープネットワークを使用する自動オブジェクトアノテーションのシステムの機能ブロック図である。本開示のいくつかの実施形態による、図1のシステムを用いるディープネットワークに基づく自動オブジェクトアノテーションのための方法を示す流れ図である。本開示のいくつかの実施形態による、図1のシステムを用いるディープネットワークに基づく自動オブジェクトアノテーションのための方法を示す流れ図である。本開示のいくつかの実施形態による、手動アノテーション付き画像セットからの各画像にアフィン変換およびカラー拡張を適用することによって図1のシステムにより生成される例示的合成単一オブジェクト画像を示す。本開示のいくつかの実施形態による、手動アノテーション付き画像セットからの各画像にアフィン変換およびカラー拡張を適用することによって図1のシステムにより生成される例示的合成単一オブジェクト画像を示す。本開示のいくつかの実施形態による、手動アノテーション付き画像セットからの各画像にアフィン変換およびカラー拡張を適用することによって図1のシステムにより生成される例示的合成単一オブジェクト画像を示す。本開示のいくつかの実施形態による、アノテーションモデルにとって既知のバックグラウンド上の新規な単一オブジェクトテスト画像からアノテーション付きオブジェクトを提供する、図1のシステムのトレーニングされたアノテーションモデルのいくつかの例示的出力画像を示す。本開示のいくつかの実施形態による、クラッタの度合いを変えながら図1のシステムによって合成して生成されたクラッタ画像の例を示す。本開示のいくつかの実施形態による、クラッタの度合いを変えながら図1のシステムによって合成して生成されたクラッタ画像の例を示す。本開示のいくつかの実施形態による、クラッタの度合いを変えながら図1のシステムによって合成して生成されたクラッタ画像の例を示す。本開示のいくつかの実施形態による、システムにとって既知の、また未知のオブジェクトを含むクラッタ入力画像のための、図1のシステムにより提供される例示の出力画像を示す。本開示のいくつかの実施形態による、システムにとって既知の、また未知のオブジェクトを含むクラッタ入力画像のための、図1のシステムにより提供される例示の出力画像を示す。本開示のいくつかの実施形態による、システムにとって既知の、また未知のオブジェクトを含むクラッタ入力画像のための、図1のシステムにより提供される例示の出力画像を示す。本開示のいくつかの実施形態による、システムにとって既知の、また未知のオブジェクトを含むクラッタ入力画像のための、図1のシステムにより提供される例示の出力画像を示す。本開示のいくつかの実施形態による、アノテーションモデルにとって未知の様々なバックグラウンド上の新規な単一オブジェクトテスト画像からアノテーション付きオブジェクトを提供する、図1のシステムのトレーニングされたアノテーションモデルのいくつかの例示的出力画像を示す。

例示的実施形態は、添付図面を参照して説明される。図において、参照番号の最左端の数字は、その参照番号が最初に現れる図面を特定している。適宜、同一かまたは同様のパーツを参照するために、同じ参照番号が図面の全体にわたって使われる。開示される原理の例および特徴が本明細書において記載されているが、修正、適応、および他の実装は開示される実施形態の範囲を逸脱しないで可能である。以下の詳細な説明は、例示的なものでしかなく、真の範囲が以下の請求項によって示されていることが意図されている。

本明細書における実施形態は、自動オブジェクトアノテーションのためにディープネットワークモデルをトレーニングするための、ディープネットワークベースのアーキテクチャのための方法およびシステムを提供する。利用されるディープネットワークは、アノテーションモデルおよびマルチクラスオブジェクト検出および分類モデルと呼ばれる2クラス分類モデルを含む2段階ネットワークである。第1の段階は、アノテーションモデルにとって未知の完全に新規なオブジェクトである単一オブジェクトテスト画像のセットからアノテーション付き画像を生成するための2クラス分類を提供する、Faster Region-based Fully Convolutional Networks (F-RCNN)およびRegion-based Fully Convolutional Networks (RFCN)を含むアノテーションモデルである。アノテーションモデルは、システム生成された合成単一オブジェクト画像および手動アノテーション付き単一オブジェクト画像を用いてトレーニングされる。アノテーションモデルの貢献は、よくあるバックグラウンドに置かれるいかなる新規のオブジェクトも検出する(アノテーションを付ける)その能力にある。

さらに、それから、新規なアノテーション付きテストオブジェクト画像は、クラッタ化画像およびそれらの対応するアノテーションを合成して生成するために用いる。合成して生成されたクラッタ化画像をそれらのアノテーションと一緒に用いて、ベースネットワークとしてF-RCNNおよびRFCNを用いて設計されるマルチクラスオブジェクト検出/分類モデルを含むディープネットワークの第2の段をトレーニングして、リアルタイムで自動的に入力テスト画像にアノテーションを付ける。

ここで図面を参照し、そして、より詳しくは図1〜図7を参照すると、類似の参照文字が図の全体にわたって一貫して対応する特徴を意味しており、好ましい実施形態が示されて、これらの実施形態は以下の例示的なシステムおよび/または方法の前後関係で記載されている。

図1は、本開示のいくつかの実施形態による、ディープネットワークを使用する自動オブジェクトアノテーションのシステムの機能ブロック図である。

一実施形態において、システム100は、プロセッサ104、通信インタフェースデバイスあるいは別称入出力(I/O)インタフェース106、プロセッサ104と動作上接続した1つまたは複数のデータ記憶装置またはメモリ102を含む。プロセッサ104は、1つまたは複数のハードウェアプロセッサであってもよい。一実施形態において、1つまたは複数のハードウェアプロセッサは、1つまたは複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタルシグナルプロセッサ、中央演算処理装置、ステートマシン、論理回路および/または操作指示に基づいて信号を操作するいかなるデバイスとしても実装することができる。他の能力の中でもとりわけ、プロセッサは、メモリに保存されるコンピュータ可読命令をフェッチして実行するように構成される。一実施形態において、システム100は、様々なコンピューティングシステム、例えばラップトップコンピュータ、ノートブック、携帯用デバイス、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウドなどで実装することができる。

I/Oインタフェース106は、様々なソフトウェアおよびハードウェアインタフェース、例えば、ウェブインタフェース、グラフィカルユーザインタフェースなどを含むことができて、有線ネットワーク、例えば、LAN、ケーブルなどと、WLAN、セルラまたは衛星などのワイヤレスネットワークを含む多種多様なネットワークN/Wおよびプロトコル種別の中で多地点通信を容易にすることができる。一実施形態において、I/Oインタフェースデバイスは、多くのデバイスを互いに、または、別のサーバに接続するための1つまたは複数のポートを含むことができる。I/Oインタフェース106はインタフェースを形成してマルチ解像度マルチカメラ機構110と連結し、これはバックグラウンド114全体に配置される1つまたは複数のオブジェクト112の種々の画像をキャプチャする。画像は、システム100のトレーニングフェーズおよびテストフェーズによって必要に応じてキャプチャされ得る。

メモリ102は、当技術分野で公知のいかなるコンピュータ可読媒体も含むことができ、その中には、例えば、スタティックランダムアクセスメモリ(SRAM)およびダイナミックランダムアクセスメモリ(DRAM)などの揮発性メモリ、および/または、読出し専用メモリ(ROM)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスクおよび磁気テープなどの不揮発性メモリを含む。実施形態において、メモリ102は、ディープネットワークのモデルを含み、それは例えば、2クラス分類を提供するFaster RCNNおよびRFCNを含むアノテーションモデルであって、単一オブジェクトテスト画像のセットからアノテーション付き画像を生成し、これはアノテーションモデルにとって未知の完全に新規なオブジェクトである。メモリ102は、リアルタイムで入力テスト画像に自動的にアノテーションを付ける、マルチクラスオブジェクト検出および分類モデルなどのモデルも含む。メモリ102は、入力画像セット、複数の合成単一オブジェクト画像、合成して生成された複数のクラッタ画像、自動的にアノテーションを付けられたトレーニング画像およびテスト画像などの、マルチ解像度マルチカメラ機構110によるすべてのキャプチャされた画像をさらに保存することができる。したがって、メモリ102は、システム100のプロセッサ104および本開示の方法によって実行される各ステップの入力/出力に関連する情報を含むことができる。

図2Aおよび図2Bは、本開示のいくつかの実施形態による、図1のシステムを用いるディープネットワークに基づく自動オブジェクトアノテーションのための方法を示す流れ図である。

一実施形態において、システム100は、プロセッサ104に動作上結合された1つまたは複数のデータ記憶装置またはメモリ102を含んで、プロセッサ104によって方法200のステップの実行のための命令を記憶するように構成される。本開示の方法200のステップは、現在、図1および図2にて図示されるような流れ図のステップにて図示するように、システム100のコンポーネントまたはブロックに関して説明される。プロセスステップ、方法ステップ、技術などが順序を付けて記載される場合があるが、このようなプロセス、方法および技術は別の順序で機能するように構成することができる。言い換えれば、記載され得るステップのいかなるシーケンスまたは順序も、ステップがその順序で実行されるという必要条件を必ずしも示すというわけではない。本明細書において記載されるプロセスのステップは、実際的ないかなる順序においても実行され得る。さらに、いくつかのステップは、同時に実行されてもよい。

画像取得: 画像取得は、オブジェクトの自動アノテーションのシステム100のトレーニングおよびテストフェーズのためにキャプチャされた入力画像の処理の前に、マルチ解像度マルチカメラ機構110によって実行される。一実施形態において、マルチ解像度マルチカメラ機構110は、異なるカメラを含む。例示的な機構の組合せは、種々の配向でN個の異なるオブジェクト(例えばN = 40)の画像をキャプチャするための、Foscam(商標)、Realtek (商標)およびウェブカメラを含む。多重解像度、例えば、(800×800)、(600×600)、(1320×1080)、(540×480)を有する画像が、トレーニングセットおよびテストセットにおいて使われる。トレーニングフェーズのためにキャプチャされる画像のために使われるこのマルチ解像度マルチカメラ機構110は、システム100がいかなる解像度の新規なオブジェクトも検出することを可能にする。カメラは、回転プラットフォームに載置される。バックグラウンド画像(オブジェクトが配置されることになっている場所であり、図面において表される例示ケースでは赤色のトート(tote))もまた、異なる方向でキャプチャされる。N個の異なるオブジェクトのセットは、個々にトートに置かれて、トレーニングフェーズのために使われる単一オブジェクト画像としてキャプチャされる。

手動アノテーション: キャプチャされた画像は、手動でアノテーションが付けられて、2クラスクラシファイヤ(フォアグラウンドおよびバックグラウンド)をモデル化するためのトレーニングセットを生成する。例えば、本明細書においてLabelMe(商標)は、画素ごとのセマンティックセグメンテーションで各画像にアノテーションを付ける、広く使われているソフトウェアツールである。したがって、各トレーニング画像は、マスク画像と呼ばれる画像のオブジェクトのセグメンテーション領域を含んでいる対応するアノテーション付き画像を有している。したがって、40個のオブジェクトのそれぞれからの手動アノテーション付きの2000個の画像、あるいは、手動アノテーション付き画像セット50と呼ばれるものがあり、メモリ102に記憶される。

方法200のステップを参照すると、ステップ202で、プロセッサ104は、よくあるまたは既知のバックグラウンド(例示ケースの赤色トート)上の単一のアノテーション付きオブジェクトを含む各画像を有する手動アノテーション付き画像セットを受信するように構成される。

方法200のステップを参照すると、ステップ204で、プロセッサ104は、手動アノテーション付き画像セットからの各画像にアフィン変換およびカラー拡張を適用することによって複数の合成単一オブジェクト画像を生成するように構成される。生成された複数の合成単一オブジェクト画像は、対応する手動アノテーション付き画像に従って、自動的にアノテーションが付けられる。複数の合成単一オブジェクト画像の生成は、データ拡張とも呼ばれる。

データ拡張: 画像の拡張およびクラッタの合成生成は、主に非常に短い期間以内に自動的に十分に大きいデータを生成するために行われる。大きなサイズは、いかなるディープネットワークをトレーニングするためにも主要な要件である。本方法によって開示されるデータ拡張技術の別の利点は、それがネットワークに対してオーバーフィッティングを妨げて、未知の環境においてでも新規なオブジェクトを検出するためのネットワークをより一般的にするということである。アフィン変換はまた、個々のオブジェクトの画像およびマスクが提供されるときに、非常に短い期間以内に多数のクラッタ化データを生成するのを助ける。

アフィン変換は、θを用いた回転(半時計回り)、λによるスケーリング、Txによる水平移動およびTyによる垂直移動の、10個の組合せを選択することによって行われる。それは、したがって、所与の手動アノテーション付き画像のための10個の新規な画像を生成する。したがって、変換行列(H)は、以下のように与えられる:

拡張画像のためのアノテーションは、対応する元画像のグラウンドトゥルース位置[xmin, ymin]および[xmax, ymax]のアフィン変換を用いて生成される。

カラー拡張: カラーチャネル拡張は、(マスク画像から取得される)その関心領域(ROI)周辺のあらゆるオブジェクトに適用される。拡張は、R、G、Bチャネルの複数の組合せを適用することによって行われる。この場合、6つの新規な画像は、マスク領域のR、G、Bチャネルを交換することによって、各オブジェクトインスタンスに利用できる。いくつかのカラー拡張画像が図3Aおよび3Bにおいて示される。下記のアプローチ1で示される以下の技術は、(図3Cに示すような)再現性の可能性を防止するために用いる。閾値は、経験的に見つかる。それは、大部分のケースでは100に設定される。値がより高いほど、派生画像の間の違いは大きい。
アプローチ1: 再現性のないカラー拡張技術。
カラーチャネル拡張は、R、GおよびBチャネル交替することによって行われる。
以下を要求する: 手動アノテーション付きデータセットを得ることを以下の間に行う。
データセットのオブジェクトインスタンスの数が、
あらゆる画素でのR、G、Bチャネルの間の絶対差を算出する。それぞれ_rg、_rbおよび_gbとして各画素で絶対差を得る。
すべての3つの絶対差_rg、_rbおよび_gbの平均をravg、gavgおよびbavgとして見つける。
閾値を以下のように設定する。
以下の条件、ravg>_、または、gavg>_またはbavg>_のうち1つが真である場合:
オブジェクトインスタンスに対して1つの拡張を生成する。
以下の条件、ravg>_、またはgavg>_、またはbavg>_のうち2つが満たされる場合:
オブジェクトインスタンスに対して2つの拡張画像を生成する。
その他の場合には、
オブジェクトインスタンスに対してすべての6つの拡張画像を生成する。
以上である。

個々のオブジェクトを含んでいる画像にカラー拡張およびアフィン変換を適用した後に、クラッタ生成アプローチが適用される。方法200のステップ206、208および210は、クラッタ生成アプローチを説明する。

方法200のステップを参照すると、ステップ206で、プロセッサ104は、合成して生成された単一オブジェクト画像および手動アノテーション付き単一オブジェクト画像を用いてアノテーションモデルを2クラスオブジェクト検出および分類のためにトレーニングするように構成される。アノテーションモデルは、一旦トレーニングされると、画像のオブジェクトに対応するフォアグラウンドROIを検出する。アノテーションモデルは、Faster RCNNおよびRFCNから構成される。Faster RCNNおよびR-FCNは、それぞれVGG-16およびResNet-101を微調整するために用いる。

図6に示すように、アノテーションモデルをトレーニングすることは、テスト画像の複数の境界ボックスによって画定される複数の可能なフォアグラウンドROIを提供する複数の領域提案をつくるための、第1のトレーニング段階を含む。複数の可能なフォアグラウンドROIの中の、境界ボックスによって画定されるフォアグラウンドROIを識別するための第2のトレーニング段階が続く。

方法200のステップに戻って参照すると、ステップ208で、プロセッサ104は、トレーニングされたアノテーションモデルを用いて、よくあるまたは既知のバックグラウンドに配置される未知オブジェクトを含む、単一オブジェクトテスト画像のセットを分析して、アノテーション付き画像のセットを生成するように構成される。図4は、オブジェクトの完全に新規なセットを用いて同じカラーバックグラウンド(赤色)上でテストされるときの、いくつかの画像の自動アノテーション結果を示す。これらのオブジェクトは、事前にはモデルに決して示されない。赤色バックグラウンドを有する透明ガラスおよび赤いカラーファイルのようなオブジェクトさえ正確に検出されるのを観察することができる。

方法200のステップに戻って参照すると、ステップ210で、プロセッサ104は、アノテーション付き画像のセットを用いて、対応するアノテーションを有する複数のクラッタ画像を合成して生成するように構成される。方法により用いられるクラッタ生成技術は、関心あるバックグラウンド(既知の、ここでは赤色トート画像)上の各クラッタ画像を生成することを含む。

クラッタ生成: したがって、第1のステップで、バックグラウンド画像が選択されて、複数のグリッドに分けられる。その後で、手動アノテーション付き画像セットからのオブジェクトおよび複数の合成単一オブジェクト画像は、手動で生成されたマスクを用いて切り取られる。さらに、切り取られたオブジェクトは、複数のグリッドにランダムにペーストされる。さらに、異なる二進値は、生成された各クラッタ画像のフォアグラウンドROIを明確に取得するために、異なるオブジェクトのために生成されるマスクに割り当てられる。

方法200のクラッタ作成技術を適用した後に生成される、結果として生じるクラッタの度合いを変化させたクラッタ画像のいくつかを、図5A、図5Cおよび図5Dに示す。生成されたクラッタは、すべての40個のオブジェクトの、すべての可能性があるオクルージョン、明度変化、方向、縮尺および、組合せを含む。最終的に、40個のオブジェクトから構成される合計110,000個のトレーニング画像が、2000個の手動アノテーション付き画像にアフィン変換およびカラー拡張を適用した後に生成される。40個のオブジェクトのそれぞれについて、50個の画像が、バランスの取れたデータ分布を維持するためにキャプチャされた。トレーニングデータ生成プロセスでは、クラッタの各オブジェクトのラベルは、オブジェクト画像を対応する手動アノテーション付き画像にマップすることによって、自動的に設定される。新規なオブジェクト当たり撮られる画像の数が固体数に設定されるので、ラベルは自動的にアノテーションを付けられた各オブジェクトに自動的に設定される。クラッタ化環境のオブジェクトに対してさえ、各オブジェクトについて手動でラベルを設定するための既定条件が提供される。

方法200のステップを参照すると、ステップ212で、プロセッサ104は、ベースネットワークとしてRCNNおよびRFCNを用いて設計されるマルチクラスオブジェクト検出および分類モデルをトレーニングするために複数のクラッタ画像および対応するアノテーションを利用するように構成される。マルチクラスオブジェクト検出フレームワークは、入力テスト画像の1つまたは複数のオブジェクトに対応する1つまたは複数のROIおよび1つまたは複数のオブジェクトと関連したクラスラベルを識別することによって、リアルタイムで入力テスト画像にアノテーションを付ける。入力テスト画像は、単一オブジェクト入力画像またはクラッタ入力画像のうちの1つであり得て、ここで、各々の検出されたROIはxmin、ymin、xmax、ymaxを含む位置座標を有する境界ボックスによって画定される。事前学習モデルVgg16およびRestNet-101が、それぞれFaster RCNN(F-RCNN)およびRFCNのために使われる。

図7A〜図7Dは、オブジェクトが様々な度合いのクラッタの可変量に置かれるときの、自動グラウンドトゥルース検出結果のいくつかの例示画像を表す。アノテーションモデルはROIを検出して、エンドユーザは、オブジェクトのさらなるカテゴリ化のために各々の検出されたROIにラベルに書き込む既定条件を与えられる。クラッタは、オブジェクトの既知のセットならびに未知オブジェクトの両方を含む。

提案されるネットワークはウェアハウスの環境に完全に整列配置するように設計されており、オブジェクトおよびバックグラウンドは異なる。ネットワーク性能を確認するために複数のバックグラウンド色で画像をテストした。モデルは、(トレーニングのために使われた赤以外の)異なるバックグラウンドにおいてさえ、著しく高い平均精度(mAP)で依然として首尾よくROIを検出することが可能である。それらのテスト結果のいくつかは図8に示されており、これは、オブジェクトの完全に新規なセットを用いて異なるバックグラウンド上でテストされるときのいくつかの画像の自動アノテーション結果を表す。トレーニングのために使用される手動アノテーション付き画像は、赤色バックグラウンドだけを含む。また、テストオブジェクトは、モデルに事前には決して示されない。このような検出は、バックグラウンド画像のためのカラー拡張を用いて可能になる。追加実験は、異なるバックグラウンドを有するトレーニングデータの新規なセットを拡張することによって実行される。これは、手動アノテーション付きオブジェクト画像のマスクを異なるカラーバックグラウンドにペーストすることによって行われる。TABLE 1(表1)は、実験結果の全体の概要を与える。5つの異なるセットが、提案されるアプローチのアノテーション性能を確認するために用いられている。性能は、Pascal VOCによって標準化される平均精度(mAP)に関して与えられる。提案されているResNet-101モデルの性能はFaster-RCNNベースの技術よりわずかに高いことを、観察記録が示している。しかしながら、前者のトレーニング時間は、後者のアプローチと比べて非常に長い。ユーザは、基となるネットワークのいずれも選ぶことができる。

下記のTABLE 1(表1)は、複数のバックグラウンドを有するオブジェクトの新規なセットに対するテスト結果を提供する。茶色(1)は回転プラットフォームを使用して撮られるオブジェクト画像のセットを表し、茶色(2)はラックから撮られるテストセット画像を表す。第3の列は各テストセットの中の画像の数を示し、第4の列は対応する新規なオブジェクトのカウントを与える。Faster RCNN(F-RCNN)およびRFCNベースの両方のアプローチのための平均精度(mAP)が、所与のテストセットに対して示される。トレーニングは、2つのステップで行われて、第1に、赤色バックグラウンドを有するオブジェクト画像だけを使用する。第2の部分では、拡張バックグラウンドを使用する。BGは、バックグラウンドを表す。

方法は99.19%の平均精度(mAP)をF-RCNNベースのマルチクラスオブジェクト検出器を用いて達成し、99.61%のmAPはRFCNベースのネットワークによって達成される。しかしながら、後者のアプローチのトレーニング時間は、その前のものより非常に長い。モデルをトレーニングするために、単一のGPUマシン(Quadro M5000M)が用いられる。サイズ110,000のデータセット全体をトレーニングするには、F-RCNNでは8時間前後、そしてRFCNベースのネットワークでは約13時間かかる。トレーニングデータサイズの20%に等価な新規なデータのセットでテストされるときの個々のオブジェクトの精度値が、下記のTABLE 2(表2)に示される。観察記録は、マルチクラス検出結果の性能がバイナリクラス検出作業の性能より高いことを示している。マルチクラス検出においては、場合により、同じクラスから、テストオブジェクトの異なる例を使用した。

したがって、提案されるオブジェクトアノテーションアプローチは深層学習ネットワークに基づく。事前学習モデルVGG-16を有するFaster RCNNおよびResNet-101を有するRFCNは、オブジェクトをフォアグラウンドまたはバックグラウンドに分類するために微調整される。システムは、大きいサイズのアノテーション付きデータが主要な要件である今日の深層学習ベースのオブジェクト認識技術の主要な課題の1つに対処する。アフィン変換のようなカラー拡張および他の拡張アプローチの導入は、提案されるバイナリクラス検出部をトレーニングするために必要な著しく大きなサイズ(手動アノテーション付き画像のほぼ10倍)の不偏のデータセットを生成するのを助けた。種々の実験結果による提案されるアプローチの性能が記載されており、提案される自動アノテーションアプローチが、未知の環境であってもあらゆる未知オブジェクトを検出するにあたって非常に効率的であるということが認められた。あらゆる新規なオブジェクトに対するモデルの強靭性が、完全に新規なオブジェクトセット上でテストされるときに、フォアグラウンドの検出結果によって示された。モデルは、あらゆるカメラ解像度、そして異なる照明条件の画像に対して強力であることも証明されている。本文書において使われるクラッタ生成技術は、ネットワークが高密度の環境でオブジェクトを検出することを可能にする。これは自動アノテーションに対する重要な貢献であり、なぜならそれがクラッタのオブジェクトアノテーションのための手作業を大幅に減らすことができるからである。提案されるアーキテクチャの性能は、マルチクラスオブジェクトの検出のための自動的に生成されたデータセットを用いて確認される。（下記のTABLE 2(表2)に示すような）83個の異なるクラスのオブジェクトが、この目的のために用いられる。手動アノテーション付き確認セット上の認識性能は、提案されるアノテーションアプローチの実力を示す。提案されるアプローチは、ウェアハウスアプリケーション、例えばオブジェクトカテゴリ認識およびインスタンス認識に、大きな影響を及ぼす。これらの分析は、モデルがバックグラウンドを非常に効果的に学習したので、無拘束の環境でのいかなるバックグラウンド上でもどのような異質なオブジェクト落下も高精度で自動的に検出される、という結論を下している。提案されるアノテーションアプローチは、各オブジェクトのまわりの矩形のROIを生成するように構成されるが、所与のアーキテクチャを使用して分割されたオブジェクト領域を生成することは可能とならない。オブジェクトの正確な輪郭を得るために、このシステムは、Faster-RCNN/RFCNの代わりにMask RCNNまたはPSPNetのような、画素ごとの意味論的なセグメンテーション技術を適用することによって拡張されてもよい。しかしながら、このようなアプローチは、より計算上複雑になるという影響を受ける。

既存の方法により用いられるNNモデルにとってすでに知られているオブジェクトだけにアノテーションを付けることができるいくつかの既存の自動アノテーションアプローチとは異なり、本明細書において開示される方法は、既存のシステムにとって完全に未知/初見のいかなる新規なオブジェクトにも対処することができる。さらに、既存の方法が扱うことができるクラスの数は固定されており、対照的に、本明細書において開示される方法はいかなる数のオブジェクト/クラスも扱うことができ、方法を完全自動のアノテーションアプローチとしている。

記述された説明は本明細書の主題を記載して、いかなる当業者も実施形態を製作して使用することを可能にする。主題実施形態の範囲は、請求項によって定義されて、当業者に見出される他の修正を含むことができる。このような他の修正は、それらが請求項の字義通りの言語と異ならない同様な要素を有する場合、または、それらが請求項の字義通りの言語との実質的でない違いを有する等価な要素を含む場合、請求項の範囲内であるということを意図している。

保護の範囲は、このようなプログラムに対して、そして、その中にメッセージを有するコンピュータ可読の手段に加えて、拡張されることを理解すべきであり、このようなコンピュータ可読記憶媒体手段は、方法の1つまたは複数のステップの実装のためのプログラムコード手段を含んでおり、プログラムがサーバまたはモバイルデバイスまたは任意の適切なプログラマブルデバイスで実行されるときのものである。ハードウェアデバイスは、例えばサーバまたはパーソナルコンピュータなどかそれらのあらゆる組合せのようないかなる種類のコンピュータも含む、プログラムすることができるいかなる種類のデバイスであることもできる。デバイスは例えばハードウェア手段であり得る手段を含むことができ、それは例えば、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または、ハードウェアおよびソフトウェア手段の組合せ、例えばASICおよびFPGA、または、少なくとも1つのマイクロプロセッサおよびソフトウェア処理コンポーネントを中に配置する少なくとも1つのメモリ、のようなものである。したがって、手段は、ハードウェア手段およびソフトウェア手段の両方を含むことができる。本明細書において記載されている方法実施形態は、ハードウェアおよびソフトウェアで実施することができる。デバイスは、ソフトウェア手段を含むこともできる。あるいは、実施形態は異なるハードウェアデバイスに、例えば複数のCPUを使用して実装することができる。

本明細書の実施形態は、ハードウェアおよびソフトウェア要素を含むことができる。ソフトウェアで実装される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これに限定されるものではない。本明細書において記載されている各種コンポーネントによって実行される機能は、他のコンポーネントまたは他のコンポーネントの組合せで実施することができる。この説明の目的で、コンピュータ使用可能なまたはコンピュータ可読の媒体は、命令実行システム、装置またはデバイスで用いるためか、または、それに関連して、プログラムを含むことができるか、格納することができるか、伝達することができるか、伝播することができるかまたは、移送することができるいかなる装置であることもできる。

説明されるステップは示される例示的実施形態を説明するために提示されるものであり、進行中の技術開発は特定の機能が実行される方法を変えることが予想されるべきである。これらの実施例は、説明の目的のために本明細書において示されており、限定する目的ではない。さらに、機能ビルディングブロックの境界は、説明の便宜のために本明細書において任意に定められた。特定の機能およびその関係が適切に実行される限り、他の境界を定めることができる。変形例(本明細書において記載されている等価物、拡張、変化、変更などを含む)は、本明細書に含まれる教示に基づいて、関連技術の当業者にとって明らかとなる。このような変形例は、開示される実施形態の範囲内に入る。また、用語「含む(comprising)」、「有する(having)」、「含む(containing)」および「含む(including)」、および他の類似形は、意味において等価であり、これらの語のいずれか1つに続く項目または複数項目がこのような項目または複数項目の網羅的なリストであることを意味するかまたは列挙された項目または複数項目だけに限られているわけでないという点でオープンエンドであることを意図している。本明細書において、そして、添付の特許請求の範囲において用いられる場合、単数形「1つの(a)」、「1つの(an)」および「その(the)」が、文脈が明確にそうではないと指示しない限り、複数の参照物を含むということも留意しなければならない。

さらに、1つまたは複数のコンピュータ可読記憶媒体は、本開示と整合した実施形態を実施する際に利用することができる。コンピュータ可読記憶媒体は、プロセッサによって読み込み可能な情報またはデータを記憶することができる任意のタイプの物理メモリを指す。したがって、コンピュータ可読記憶媒体は、プロセッサに本明細書において記載されている実施形態と整合したステップまたは段階を実行させるための命令を含む実行のための命令を、1つまたは複数のプロセッサによって格納することができる。「コンピュータ可読媒体」という用語は、有形の項目を含んで、搬送波および過渡信号を除外する、つまり、非一時的であると理解しなければならない。例としては、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードディスク、CD-ROM、DVD、フラッシュドライブ、ディスクおよび他のいかなる既知の物理記憶媒体も含む。

開示および実施例は例示的なものでしかなく、開示される実施形態の真の範囲については以下の請求項によって示されることが意図されている。

100 システム
102 メモリ
104 プロセッサ
106 I/Oインタフェース
108 データベース
110 マルチ解像度マルチカメラ機構
112 オブジェクト
114 バックグラウンド

本開示のいくつかの実施形態による、ディープネットワークを使用する自動オブジェクトアノテーションのシステムの機能ブロック図である。本開示のいくつかの実施形態による、図1のシステムを用いるディープネットワークに基づく自動オブジェクトアノテーションのための方法を示す流れ図である。本開示のいくつかの実施形態による、図1のシステムを用いるディープネットワークに基づく自動オブジェクトアノテーションのための方法を示す流れ図である。本開示のいくつかの実施形態による、手動アノテーション付き画像セットからの各画像にアフィン変換およびカラー拡張を適用することによって図1のシステムにより生成される例示的合成単一オブジェクト画像を示す。本開示のいくつかの実施形態による、手動アノテーション付き画像セットからの各画像にアフィン変換およびカラー拡張を適用することによって図1のシステムにより生成される例示的合成単一オブジェクト画像を示す。本開示のいくつかの実施形態による、手動アノテーション付き画像セットからの各画像にアフィン変換およびカラー拡張を適用することによって図1のシステムにより生成される例示的合成単一オブジェクト画像を示す。本開示のいくつかの実施形態による、アノテーションモデルにとって既知のバックグラウンド上の新規な単一オブジェクトテスト画像からアノテーション付きオブジェクトを提供する、図1のシステムのトレーニングされたアノテーションモデルのいくつかの例示的出力画像を示す。本開示のいくつかの実施形態による、クラッタの度合いを変えながら図1のシステムによって合成して生成されたクラッタ画像の例を示す。本開示のいくつかの実施形態による、クラッタの度合いを変えながら図1のシステムによって合成して生成されたクラッタ画像の例を示す。本開示のいくつかの実施形態による、クラッタの度合いを変えながら図1のシステムによって合成して生成されたクラッタ画像の例を示す。本開示のいくつかの実施形態による、アノテーションモデルのトレーニング段階を示す。本開示のいくつかの実施形態による、システムにとって既知の、また未知のオブジェクトを含むクラッタ入力画像のための、図1のシステムにより提供される例示の出力画像を示す。本開示のいくつかの実施形態による、システムにとって既知の、また未知のオブジェクトを含むクラッタ入力画像のための、図1のシステムにより提供される例示の出力画像を示す。本開示のいくつかの実施形態による、システムにとって既知の、また未知のオブジェクトを含むクラッタ入力画像のための、図1のシステムにより提供される例示の出力画像を示す。本開示のいくつかの実施形態による、システムにとって既知の、また未知のオブジェクトを含むクラッタ入力画像のための、図1のシステムにより提供される例示の出力画像を示す。本開示のいくつかの実施形態による、アノテーションモデルにとって未知の様々なバックグラウンド上の新規な単一オブジェクトテスト画像からアノテーション付きオブジェクトを提供する、図1のシステムのトレーニングされたアノテーションモデルのいくつかの例示的出力画像を示す。

Claims

ディープネットワークを使用する自動オブジェクトアノテーションのためのプロセッサによる実装方法であって、
既知のバックグラウンド(202)上の単一のアノテーション付きオブジェクトを含む各画像を有する手動アノテーション付き画像セットを受信するステップと、
前記手動アノテーション付き画像セット(204)からアフィン変換および各画像上のカラー拡張を適用することによって複数の合成単一オブジェクト画像を生成するステップであって、前記生成された複数の合成単一オブジェクト画像が対応する手動アノテーション付き画像に従って自動的にアノテーションが付けられる、ステップと、
前記合成して生成された単一オブジェクト画像および手動アノテーション付き単一オブジェクト画像を用いて2クラスオブジェクト検出および分類のためにアノテーションモデルをトレーニングして画像(206)の前記オブジェクトに対応するフォアグラウンド関心領域(ROI)を検出するステップであって、前記アノテーションモデルはFaster Region-based Convolutional Neural Networks (F-RCNN)およびRegion-based Fully Convolutional Networks (RFCN)から成る、ステップと、
前記トレーニングされたアノテーションモデルを用いて、前記既知のバックグラウンドに配置される未知オブジェクトを含む単一オブジェクトテスト画像のセットを分析してアノテーション付き画像(208)のセットを生成するステップと、
アノテーション付き画像(210)の前記セットを用いて、対応するアノテーションを有する複数のクラッタ画像を合成して生成するステップと、
ベースネットワーク(212)として前記RCNNおよび前記RFCNを用いて設計されるマルチクラスオブジェクト検出および分類モデルをトレーニングするために前記複数のクラッタ画像および対応するアノテーションを利用するステップであって、マルチクラスオブジェクト検出フレームワークが、
入力テスト画像の1つまたは複数のオブジェクトに対応する1つまたは複数のROIならびに前記1つまたは複数のオブジェクトと関連したクラスラベルを識別するステップであって、前記入力テスト画像は単一オブジェクト入力画像またはクラッタ入力画像のうちの1つであり、各ROIはxmin、ymin、xmax、ymaxを含む位置座標を有する境界ボックスによって画定される、ステップ
によってリアルタイムで入力テスト画像にアノテーションを付ける、ステップと
を含む、方法。
前記アノテーションモデルをトレーニングするステップが、
テスト画像の複数の境界ボックスによって画定される複数の可能なフォアグラウンドROIを提供する複数の領域提案をつくるための第1のトレーニング段階と、
前記複数の可能なフォアグラウンドROIの中の前記境界ボックスによって画定される前記フォアグラウンドROIを識別するための第2のトレーニング段階と
を含む、請求項1に記載の方法。
前記手動アノテーション付き画像セットおよび前記複数の合成単一オブジェクト画像からの複数オブジェクトを含む前記複数のクラッタ画像を生成するステップが、
生成されるクラッタ画像ごとに、
バックグラウンド画像を選択するステップと、
前記バックグラウンド画像を複数のグリッドに分けるステップと、
手動で生成されたマスクを用いて手動アノテーション付き画像セットおよび前記複数の合成単一オブジェクト画像から前記オブジェクトを切り取るステップと、
前記切り取られたオブジェクトを前記複数のグリッドにランダムにペーストするステップと、
前記生成された各クラッタ画像のフォアグラウンドROIを明確に取得するために、異なるオブジェクトのために生成されるマスクに異なる二進値を割り当てるステップと
を含む、請求項1に記載の方法。
前記方法が、
前記手動アノテーション付き画像を生成するための画像のセットと、
未知オブジェクトのテスト画像のセットと、
前記リアルタイムテストのための入力テスト画像と、
クラッタ画像を作成するためのバックグラウンド画像と
をキャプチャするための回転プラットフォームに載置される各カメラを有するマルチ解像度マルチカメラ機構を使用するステップをさらに含む、請求項1に記載の方法。
ディープネットワークを使用する自動オブジェクトアノテーションのためのシステム(100)であって、
命令を記憶するメモリ(102)と、
1つまたは複数の入出力(I/O)インタフェース(106)と、
1つまたは複数の前記I/Oインタフェース(106)を介して前記メモリ(102)に結合されるプロセッサ(104)であって、
既知のバックグラウンド上の単一のアノテーション付きオブジェクトを含む各画像を有する手動アノテーション付き画像セットを受信し、
前記手動アノテーション付き画像セットからの各画像にアフィン変換およびカラー拡張を適用することによって複数の合成単一オブジェクト画像を生成し、前記生成された複数の合成単一オブジェクト画像は対応する手動アノテーション付き画像に従って自動的にアノテーションが付けられ、
前記合成して生成された単一オブジェクト画像および手動アノテーション付き単一オブジェクト画像を用いて2クラスオブジェクト検出および分類のためにアノテーションモデルをトレーニングし、画像の前記オブジェクトに対応するフォアグラウンド関心領域(ROI)を検出し、前記アノテーションモデルはFaster Region-based Convolutional Neural Networks (F-RCNN)およびRegion-based Fully Convolutional Networks (RFCN)から構成され、
前記トレーニングされたアノテーションモデルを用いて前記既知のバックグラウンドに配置される未知オブジェクトを含む単一オブジェクトテスト画像のセットを分析してアノテーション付き画像のセットを生成し、
アノテーション付き画像の前記セットを用いて、対応するアノテーションを有する複数のクラッタ画像を合成して生成し、
ベースネットワークとして前記Region-based Fully Convolutional Networks (RCNN)および前記Region-based Fully Convolutional Networks (RFCN)を用いて設計されるマルチクラスオブジェクト検出および分類モデルをトレーニングするために、前記複数のクラッタ画像および対応するアノテーションを利用し、マルチクラスオブジェクト検出フレームワークは、
入力テスト画像の1つまたは複数のオブジェクトに対応する1つまたは複数のROIならびに前記1つまたは複数のオブジェクトと関連したクラスラベルを識別するステップであって、前記入力テスト画像は単一オブジェクト入力画像またはクラッタ入力画像のうちの1つであり、各ROIはxmin、ymin、xmax、ymaxを含む位置座標を有する境界ボックスによって画定される、ステップ
によってリアルタイムで入力テスト画像にアノテーションを付ける
命令によって構成される、プロセッサ(104)と
を含む、システム(100)。
前記プロセッサ(104)が、
テスト画像の複数の境界ボックスによって画定される複数の可能なフォアグラウンドROIを提供する複数の領域提案をつくるための第1のトレーニング段階と、
前記複数の可能なフォアグラウンドROIの中の前記境界ボックスによって画定される前記フォアグラウンドROIを識別するための第2のトレーニング段階と
に基づいて前記アノテーションモデルをトレーニングするように構成される、請求項5に記載のシステム(100)。
前記プロセッサ(104)が、
生成されるクラッタ画像ごとに、
バックグラウンド画像を選択するステップと、
前記バックグラウンド画像を複数のグリッドに分けるステップと、
手動で生成されたマスクを用いて手動アノテーション付き画像セットおよび前記複数の合成単一オブジェクト画像から前記オブジェクトを切り取るステップと、
前記切り取られたオブジェクトを前記複数のグリッドにランダムにペーストするステップと、
前記生成された各クラッタ画像のフォアグラウンドROIを明確に取得するために、異なるオブジェクトのために生成されるマスクに異なる二進値を割り当てるステップと
によって、前記手動アノテーション付き画像セットおよび前記複数の合成単一オブジェクト画像から、複数のオブジェクトを含む前記複数のクラッタ画像を生成するように構成される、請求項5に記載のシステム(100)。
前記プロセッサ(104)が、
前記手動アノテーション付き画像を生成するための画像のセットと、
未知オブジェクトのテスト画像のセットと、
前記リアルタイムテストのための入力テスト画像と、
回転プラットフォームに載置される各カメラを有するマルチ解像度マルチカメラ機構によってキャプチャされるクラッタ画像を作成するためのバックグラウンド画像と
を受信するようにさらに構成される、請求項5に記載のシステム(100)。
非一時的コンピュータ可読媒体であって、ハードウェアプロセッサによって実行されると、前記ハードウェアプロセッサに、
既知のバックグラウンド上の単一のアノテーション付きオブジェクトを含む各画像を有する手動アノテーション付き画像セットを受信するステップと、
前記手動アノテーション付き画像セットからアフィン変換および各画像上のカラー拡張を適用することによって複数の合成単一オブジェクト画像を生成するステップであって、前記生成された複数の合成単一オブジェクト画像が対応する手動アノテーション付き画像に従って自動的にアノテーションが付けられる、ステップと、
前記合成して生成された単一オブジェクト画像および手動アノテーション付き単一オブジェクト画像を用いて2クラスオブジェクト検出および分類のためにアノテーションモデルをトレーニングして画像の前記オブジェクトに対応するフォアグラウンド関心領域(ROI)を検出するステップであって、前記アノテーションモデルはFaster Region-based Convolutional Neural Networks (F-RCNN)およびRegion-based Fully Convolutional Networks (RFCN)から構成される、ステップと、
前記トレーニングされたアノテーションモデルを用いて、前記既知のバックグラウンドに配置される未知オブジェクトを含む単一オブジェクトテスト画像のセットを分析してアノテーション付き画像のセットを生成するステップと、
アノテーション付き画像の前記セットを用いて、対応するアノテーションを有する複数のクラッタ画像を合成して生成するステップと、
ベースネットワークとして前記RCNNおよび前記RFCNを用いて設計されるマルチクラスオブジェクト検出および分類モデルをトレーニングするために前記複数のクラッタ画像および対応するアノテーションを利用するステップであって、マルチクラスオブジェクト検出フレームワークが、
入力テスト画像の1つまたは複数のオブジェクトに対応する1つまたは複数のROIならびに前記1つまたは複数のオブジェクトと関連したクラスラベルを識別するステップであって、前記入力テスト画像は単一オブジェクト入力画像またはクラッタ入力画像のうちの1つであり、各ROIはxmin、ymin、xmax、ymaxを含む位置座標を有する境界ボックスによって画定される、ステップ
によってリアルタイムで入力テスト画像にアノテーションを付ける、ステップと
を含む動作を実行させる命令を記憶する、非一時的コンピュータ可読媒体。
テスト画像の複数の境界ボックスによって画定される複数の可能なフォアグラウンドROIを提供する複数の領域提案をつくるための第1のトレーニング段階と、
前記複数の可能なフォアグラウンドROIの中の前記境界ボックスによって画定される前記フォアグラウンドROIを識別するための第2のトレーニング段階と
によって、前記アノテーションモデルをトレーニングするステップをさらに含む、請求項9に記載の非一時的コンピュータ可読媒体。
生成されるクラッタ画像ごとに、
バックグラウンド画像を選択するステップと、
前記バックグラウンド画像を複数のグリッドに分けるステップと、
手動で生成されたマスクを用いて手動アノテーション付き画像セットおよび前記複数の合成単一オブジェクト画像から前記オブジェクトを切り取るステップと、
前記切り取られたオブジェクトを前記複数のグリッドにランダムにペーストするステップと、
前記生成された各クラッタ画像のフォアグラウンドROIを明確に取得するために、異なるオブジェクトのために生成されるマスクに異なる二進値を割り当てるステップと
によって、前記手動アノテーション付き画像セットおよび前記複数の合成単一オブジェクト画像から、複数のオブジェクトを含む前記複数のクラッタ画像を生成するステップをさらに含む、請求項9に記載の非一時的コンピュータ可読媒体。
前記手動アノテーション付き画像を生成するための画像のセットと、
未知オブジェクトのテスト画像のセットと、
前記リアルタイムテストのための入力テスト画像と、
クラッタ画像を作成するためのバックグラウンド画像と
をキャプチャするための回転プラットフォームに載置される各カメラを有するマルチ解像度マルチカメラ機構を使用するステップをさらに含む、請求項9に記載の非一時的コンピュータ可読媒体。