JP7128022B2

JP7128022B2 - 完全教師あり学習用のデータセットの形成

Info

Publication number: JP7128022B2
Application number: JP2018088031A
Authority: JP
Inventors: デュポン・ド・ディネシャンルイ; レジェブ・スファールスファールアスマ
Original assignee: Dassault Systemes SE
Current assignee: Dassault Systemes SE
Priority date: 2017-05-05
Filing date: 2018-05-01
Publication date: 2022-08-30
Anticipated expiration: 2038-05-01
Also published as: US20210049420A1; CN108805170A; US10929721B2; CN108805170B; EP3399465A1; US20180322371A1; JP2018200685A; US11763550B2

Description

本発明は、コンピュータプログラムおよびシステムの分野に関し、より具体的には、信号処理に関連する方法、装置、データ構造、およびプログラムに関する。

オブジェクトの設計、エンジニアリング、製造のため、多数のシステムおよびプログラムが市場に提供されている。ＣＡＤは、コンピュータ支援設計（Ｃｏｍｐｕｔｅｒ－ＡｉｄｅｄＤｅｓｉｇｎ）の略語であり、例えば、オブジェクトを設計するためのソフトウェア・ソリューションに関する。ＣＡＥは、コンピュータ支援エンジニアリング（Ｃｏｍｐｕｔｅｒ－ＡｉｄｅｄＥｎｇｉｎｅｅｒｉｎｇ）の略語であり、例えば、将来の製品の物理的挙動をシミュレーションするためのソフトウェア・ソリューションに関する。ＣＡＭは、コンピュータ支援製造（Ｃｏｍｐｕｔｅｒ－ＡｉｄｅｄＭａｎｕｆａｃｔｕｒｉｎｇ）の略語であり、例えば、製造工程および動作を定義するためのソフトウェア・ソリューションに関する。このようなコンピュータ支援設計システムにおいて、グラフィカル・ユーザ・インターフェースは、技術の効率に関して、重要な役割を果たす。これらの技術は、製品ライフサイクル管理（ＰｒｏｄｕｃｔＬｉｆｅｃｙｃｌｅＭａｎａｇｅｍｅｎｔ：ＰＬＭ）システムに組み込むことができる。ＰＬＭとは、企業が、拡張エンタープライズの概念全体にわたって、製品データを共有し、共通の工程を適用し、構想に始まり製品寿命の終わりに至る製品開発のための企業知識を活用するのを支援するビジネス戦略を指す。ダッソー・システムズが提供するＰＬＭソリューション（製品名ＣＡＴＩＡ、ＥＮＯＶＩＡ、ＤＥＬＭＩＡ）は、製品エンジニアリング知識を体系化するエンジニアリング・ハブ、製造エンジニアリング知識を管理する製造ハブ、およびエンジニアリング・ハブと製造ハブの両方に対するエンタープライズ統合と接続を可能にするエンタープライズ・ハブを提供する。全てのシステムは、製品、工程、リソースを結ぶオープンなオブジェクトモデルを提供し、最適化された製品定義、製造準備、生産およびサービスを推進する、動的な知識ベースの製品作成および意思決定支援を可能にする。

こうした背景において、シーン理解がより重要視されるようになってきている。シーン理解は、特に、複数物体検出アルゴリズムのような物体検出ソリューションに関する。例えば、画像が与えられた場合、複数物体検出アルゴリズムは、複数の物体のすべてのインスタンスの位置の特定と認識を同時に行うことを含んでいてもよい。物体検出は、自動走行車または盲目または弱視の人のための身体装着型カメラなど、多くの用途において有用であり得る。
以下の論文がこの分野に関連しており、以降で言及している。

［１］Ｙ．Ｌｅｃｕｎｅｔａｌ．"Ｂａｃｋｐｒｏｐａｇａｔｉｏｎａｐｐｌｉｅｄｔｏｈａｎｄｗｒｉｔｔｅｎｚｉｐｃｏｄｅｒｅｃｏｇｎｉｔｉｏｎ"，ＮｅｕｒａｌＣｏｍｐｕｔ，１９８９［２］Ｓ．Ｒｅｎ，ｅｔａｌ．，"ＦａｓｔｅｒＲ－ＣＮＮ：ＴｏｗａｒｄｓＲｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ"，ＮＩＰＳ２０１５［３］Ｊ．Ｄａｉｅｔａｌ．，"Ｒ－ＦＣＮ：ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｖｉａＲｅｇｉｏｎ－ｂａｓｅｄＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ"，ＮＩＰＳ２０１６［４］Ｋ．Ｋｉｍｅｔａｌ．，"ＰＶＡＮＥＴ：ＤｅｅｐｂｕｔＬｉｇｈｔｗｅｉｇｈｔＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＲｅａｌ－ｔｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ"，ＮＩＰＳ２０１６［５］Ｏ．Ｒｕｓｓａｋｏｖｙｅｔａｌ．，"ＩｍａｇｅＮｅｔＬａｒｇｅＳｃａｌｅＶｉｓｕａｌＲｅｃｏｇｎｉｔｉｏｎＣｈａｌｌｅｎｇｅ"，ＩＪＣＶ２０１５［６］ＴｈｅｐａｐｅｒｐｕｂｌｉｓｈｅｄａｔｔｈｅｆｏｌｌｏｗｉｎｇＵＲＬａｔｔｈｅｐｒｉｏｒｉｔｙｄａｔｅｏｆｔｈｅｐｒｅｓｅｎｔａｐｐｌｉｃａｔｉｏｎ：ｈｔｔｐ：／／ｈｏｓｔ．ｒｏｂｏｔｓ．ｏｘ．ａｃ．ｕｋ／ｐａｓｃａｌ／ＶＯＣ／ｖｏｃ２０１２／［７］Ｖ．Ｋａｎｔｏｒｏｖｅｔａｌ．"ＣｏｎｔｅｘｔＬｏｃＮｅｔ：Ｃｏｎｔｅｘｔ－ＡｗａｒｅＤｅｅｐＮｅｔｗｏｒｋＭｏｄｅｌｓｆｏｒＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＬｏｃａｌｉｚａｔｉｏｎ"，ＥＣＣＶ２０１６［８］Ｈ．ＢｉｌｅｎａｎｄＡ．Ｖｅｄａｌｄｉ "ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＤｅｅｐＤｅｔｅｃｔｉｏｎＮｅｔｗｏｒｋｓ"，ＣＶＰＲ２０１６［９］Ｄ．Ｌｉｅｔａｌ，"ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎｗｉｔｈＰｒｏｇｒｅｓｓｉｖｅＤｏｍａｉｎＡｄａｐｔａｔｉｏｎ"，ＣＶＰＲ２０１６［１０］ＤｉｍＰ．Ｐａｐａｄｏｐｏｕｌｏｓｅｔａｌ，"Ｗｅｄｏｎ’ｔｎｅｅｄｎｏｂｏｕｎｄｉｎｇ－ｂｏｘｅｓ：Ｔｒａｉｎｉｎｇｏｂｊｅｃｔｃｌａｓｓｄｅｔｅｃｔｏｒｓｕｓｉｎｇｏｎｌｙｈｕｍａｎｖｅｒｉｆｉｃａｔｉｏｎ"，ＣＶＰＲ２０１６［１１］Ｊ．Ｈｏｆｆｍａｎｅｔａｌ．"ＬＳＤＡ：ＬａｒｇｅＳｃａｌｅＤｅｔｅｃｔｉｏｎｔｒｏｕｇｈＡｄａｐｔａｔｉｏｎ"，ＮＩＰＳ２０１４［１２］Ｈ．Ｂｉｌｅｎｅｔａｌ．"Ｗｅａｋｌｙｓｕｐｅｒｖｉｓｅｄｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｃｏｎｖｅｘｃｌｕｓｔｅｒｉｎｇ"，ＣＶＰＲ２０１５［１３］Ｐ．Ｍ；Ｌｏｎｇｅｔａｌ．"Ｐａｃｌｅａｒｎｉｎｇａｘｉｓ－ａｌｉｇｎｅｄｒｅｃｔａｎｇｌｅｓｗｉｔｈｒｅｓｐｅｃｔｔｏｐｒｏｄｕｃｔｄｉｓｔｒｉｂｕｔｉｏｎｓｆｒｏｍｍｕｌｔｉｐｌｅ－ｉｎｓｔａｎｃｅｅｘａｍｐｌｅｓ"，ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ３０（１）１９９８［１４］Ｂ．Ｂａｂｅｎｋｏ "ＭｕｌｔｉｐｌｅＩｎｓｔａｎｃｅＬｅａｒｎｉｎｇ：ＡｌｇｏｒｉｔｈｍｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ" ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ，ＳａｎＤｉｅｇｏ２００４［１５］Ｒ．Ｇ．Ｃｉｎｂｉｓ，ｅｔａｌ．"Ｗｅａｋｌｙｓｕｐｅｒｖｉｓｅｄｏｂｊｅｃｔｌｏｃａｌｉｚａｔｉｏｎｗｉｔｈｍｕｌｔｉ－ｆｏｌｄｍｕｌｔｉｐｌｅｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇ"，ａｒＸｉｖ２０１５［１６］Ｔ．Ｄｅｓｅｌａｅｒｓｅｔａｌ．"Ｌｏｃａｌｉｚｉｎｇｏｂｊｅｃｔｓｗｈｉｌｅｌｅａｒｎｉｎｇｔｈｅｉｒａｐｐｅａｒａｎｃｅ" ＥＣＣＶ２０１０［１７］Ｒ．Ｇｉｒｓｈｉｃｋ，"ＦａｓｔＲ－ＣＮＮ"，ＩＣＣＶ２０１５［１８］Ｒ．Ｇｉｒｓｈｉｃｋｅｔａｌ．"Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ" ＣＶＰＲ２０１４［１９］ＫｏｅｎＥ．Ａ．ｖａｎｄｅＳａｎｄｅｅｔａｌ．"ＳｅｇｍｅｎｔａｔｉｏｎａｓＳｅｌｅｃｔｉｖｅＳｅａｒｃｈｆｏｒＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎ"，ＩＣＣＶ２０１１［２０］Ｒｕｍｅｌｈａｒｔｅｔａｌ．"Ｌｅａｒｎｉｎｇｉｎｔｅｒｎａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙｅｒｒｏｒｂａｃｋｐｒｏｐａｇａｔｉｏｎ"，１９８６［２１］Ｅｖｅｒｉｎｇｈａｍｅｔａｌ．"ＴｈｅＰＡＳＣＡＬＶｉｓｕａｌＯｂｊｅｃｔＣｌａｓｓｅｓ（ＶＯＣ）Ｃｈａｌｌｅｎｇｅ"

近年、シーン理解のための複数物体検出に関して、多くの研究が行われている。このような方法は、典型的には、物体を認識し、すべてのインスタンスを画像内の境界ボックスの形で局所化することを試みる。そこでは、視点および構成の異なる複数の物体が、雑然とした背景に現れる。現在の最先端の方法は、畳み込みニューラルネットワーク（ＣＮＮ）［１］に基づいて、ディープラーニングを採用している。そのようなモデルを訓練するために、異なるレベルの教師（ｓｕｐｅｒｖｉｓｉｏｎ）が考えられる。複数物体検出処理において最も一般的なものは、完全教師と、弱教師とも呼ばれる画像レベル教師である。

完全教師あり学習法［２，３，４］は、標準ベンチマーク［５，６］で最高の精度を達成するが、コストが非常に高い訓練用データセットを必要とする。実際、この場合、各訓練画像は、異なる物体位置（例えば、境界ボックス）およびカテゴリ（例えば、「人」、「自動車」、「建物」など）によりラベル付けされる。

物体検出器を学習するための事前のアノテーションにかかる時間／コストの削減のため、近年の研究では、画像レベルのラベルを用いる弱教師ありの設定でモデルを訓練することに焦点を当てている［７，８，９，１０，１１］。この場合、訓練中に利用できる唯一の情報は、画像内に存在する物体カテゴリの集合であり、局所化や発生回数についての情報はない。

ディープラーニングのパラダイムによる進歩にもかかわらず、物体検出のための画像レベルの教師は、依然として非常に困難な課題である。弱教師ありの設定の最先端のものでも、その性能は、完全教師ありのものと比較すると、かなり低い（半減する）。

いくつかの既存の弱教師あり学習法［１０，１１，１２］は、複数インスタンス学習（ＭｕｌｔｉｐｌｅＩｎｓｔａｎｃｅＬｅａｒｎｉｎｇ：ＭＩＬ）として定式化されているか、あるいはそれに密接に関連している［１３，１４］。この定式化では、画像は領域のバッグ（ｂａｇｏｆｒｅｇｉｏｎｓ）として解釈される。画像がポジティブとラベル付けされている場合、領域の１つが注目物体を密に含むものとみなされる。画像がネガティブとラベル付けされている場合、物体を含む領域は存在しない。学習は、物体の外観のモデルを推定することと、ポジティブであるバッグのどの領域が物体に対応するかを外観モデルを用いて選択することとを、交互に行う。ＭＩＬの手法は、非凸最適化問題に帰結する。実際には、ソルバは、解の品質が初期化に強く依存し、局所的な最適値に嵌まり込む傾向がある［１５，１６］。

また、ＣＮＮが分類や検出を含む多くの視覚処理において驚くほど効果的であることが判明したため、最近の最先端の弱教師ありのアプローチもまた、ＣＮＮアーキテクチャ、あるいはＣＮＮ機能に基づいている。例えば、［８］において、著者は領域ベースのＣＮＮアーキテクチャ［１７］を修正し、２つのストリーム、すなわち、認識に焦点を当てたストリームと、領域の選択と、画像レベルのラベルからのエンドツーエンドの訓練による分類とを同時に行う局所化に焦点を当てたストリームを有するＣＮＮを提案している。これらのアプローチは有望な結果を示しているが、依然としていくつかの欠点がある。典型的には、これらは外部アルゴリズムから抽出された領域候補の品質に依存する［１９］。そのような候補には通常、ノイズが多く含まれ過ぎているため、正しい物体の提案を選択するのが困難になる。一般に、数千件の提案のうち、実際の物体のインスタンスは、ほんのわずかに過ぎない。

こうした背景において、物体検出の分野における改善された解決策が依然として必要とされている。

したがって、コンピュータによって実施される信号処理の方法が提供される。本方法は、複数の画像を提供することを含む。本方法はまた、前記複数の画像のうちの少なくとも１つの部分集合のうちのそれぞれ１つについて、弱教師ありで学習された関数を適用し、弱教師ありで学習された関数の出力に基づいて、１つまたは複数のアノテーションを決定する。弱教師ありで学習された関数は、複数の組を出力する。各組は、それぞれ局所化、および１つまたは複数の信頼スコアを含む。各信頼スコアは、各局所化における物体カテゴリのインスタンス化の確率を表す。各アノテーションは、局所化とラベルを含む。ラベルは、当該局所化における物体カテゴリのインスタンス化を表す。本方法はまた、データセットを形成することを含む。データセットは複数のデータを含む。各データは、前記部分集合における画像と、各画像について決定された１つまたは複数のアノテーションのうちの少なくとも一部とを含む。

本方法は、関数の完全教師あり学習用に構成されたデータセットを形成することを可能にする。データセットが、画像内でインスタンス化された物体カテゴリに関する情報だけでなく、インスタンス化の局所化についての情報も含むことにより、完全教師あり学習が達成可能である。本方法によって決定されたアノテーションは、これらのアノテーションが従来技術の強アノテーション（ｓｔｒｏｎｇａｎｎｏｔａｔｉｏｎｓ）、すなわち、ユーザが画像内の物体を手動で局所化することによるアノテーションと同じくらい多くの情報を提供するという意味で、「擬似強アノテーション（ｐｓｅｕｄｏｓｔｒｏｎｇａｎｎｏｔａｔｉｏｎ）」と呼ばれる。このように、本方法はさらに、そのような完全教師あり学習を含んでいてもよい。

弱教師ありで学習された関数同様、完全教師ありで学習された関数は、画像に適用され、複数の組を出力する。出力された各組は、それぞれ局所化、および１つまたは複数の信頼スコアを含む。各信頼スコアは、当該局所化における物体カテゴリのインスタンス化の確率を表す。弱教師ありで学習された関数同様、完全教師ありで学習された関数は、それにより画像内の物体カテゴリのインスタンスを検出するように構成され、よって、シーンの理解を可能にする。このように、本方法は、完全教師ありで学習された関数を提供することと、１つまたは複数の画像、例えば、少なくともその一部が最初に提供された画像に含まれていない画像に、完全教師ありで学習された関数を適用することとを含み得る検出工程に対する供給を行ってもよい。

ここで、本方法は、ユーザが手動で物体の局所化に関する情報を識別する必要がある従来技術よりも簡単な方法でデータセットを形成する。実際、本方法は、弱教師ありで学習された関数を適用することを含み、これは、前段階で、複数の初期データを含む初期データセットが利用可能であることを意味する。各初期データは、それぞれの画像と、それぞれのアノテーションとを含む。この場合、アノテーションは、それぞれラベルの集合から成り、各ラベルは、それぞれの画像内における物体カテゴリのインスタンス化を表す。初期データセットの各画像と共に提供され、弱教師あり学習を実行するために必要なこのような情報は、従来技術では「弱アノテーション」と呼ばれている。初期データセットの弱アノテーションは、任意の局所化情報を除外することができ、したがって、完全教師あり学習、すなわち強アノテーションに必要な情報よりも軽く、よって、より簡単に手動で作成できる。

本方法は、完全教師あり学習用に構成されたデータセットを手動で提供するのと比較して、手動で実施されたとしても比較的簡単な、このような初期データセットを提供することを含む工程に含まれていてもよい。当該工程は、また、初期データセットに基づいて弱教師ありで学習された関数を学習することを含んでいてもよい。次いで、当該工程は、初期データセットの画像の一部または全体からなるか、あるいはそれを含み得る、かつ／あるいは、初期データセットには含まれていない画像からなるか、あるいはそれを含み得る、提供された画像に基づき、完全教師あり学習用に構成されたデータセットを形成することを含んでいてもよい。

そのようなフレームワークは、あらゆるユーザについて、少なくとも一から画像内の物体を手動で局所化する作業を排除できる。実際、本方法は、弱教師ありで学習された関数を単純に適用することと、次いで、弱教師ありで学習された関数の出力に基づいてアノテーションを決定することとを含み、ここで、局所化情報は既に利用可能であり、それに基づくことができる。したがって、局所化情報は、一から手動で示す必要がない。例において、弱教師ありで学習された関数を適用することと、アノテーションを決定することと、データセットを形成することとは、場合によりユーザが本方法を起動した後に、完全に自動的に実行されてもよい。

本方法は、以下のうちの１つまたは複数を含んでいてもよい。
・各アノテーションの局所化は、前記弱教師ありで学習された関数によって出力された１つまたは複数の局所化に対応する。
・各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記１つまたは複数の局所化における、厳密にゼロより大きい信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである。
・各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記１つまたは複数の局所化における、最も高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである。
・各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記１つまたは複数の局所化における、厳密に正の閾値より高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである。
・前記閾値は、前記複数の画像内の物体の平均数に依存する値を有する。
・前記部分集合の少なくとも一部の画像のそれぞれについて、当該画像に初期ラベルが与えられており、各初期ラベルは、それぞれの画像内の各物体カテゴリのインスタンス化を表し、当該画像のアノテーションのラベルは、その画像の初期ラベルに対応する各物体カテゴリのインスタンス化を表す。かつ／あるいは、
・各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記１つまたは複数の局所化は、クラスタ化アルゴリズムにより識別される。

さらに、本方法によって形成可能なデータセットが提供される。言い換えれば、データセットは複数のデータを含み、各データは、画像と、前記複数の画像の少なくとも一部について、局所化、および当該局所化における物体カテゴリのインスタンス化を表すラベルを含む、１つまたは複数のアノテーションとを含む。

さらには、上記の例における本方法によって学習可能な関数がさらに提供され、それは、前記形成されたデータセットに基づく完全教師あり学習を含む。言い換えれば、前記関数は、入力を出力に変換するスキームを構成し、当該スキームは、本方法によって取得可能である。前記関数は、画像内の物体を検出するための、コンピュータによって実施される工程において用いられてもよい。

さらには、前記方法、および／または、前記工程を実行するための命令を含むコンピュータプログラムが提供される。

さらには、前記データセット、前記関数、および／または、前記プログラムを含むデータ構造が提供される。

さらには、前記データ構造を記録したコンピュータ読み取り可能な記憶媒体が提供される。

さらには、前記データ構造を記録したデータ記憶媒体を備える装置が提供される。前記装置は、非一時的コンピュータ読み取り可能媒体を構成してもよい。あるいは、前記装置は、前記データ記憶媒体に接続されたプロセッサを備えていてもよい。前記装置は、そのようにシステムを構成してもよい。前記システムはさらに、前記プロセッサに接続されたグラフィカル・ユーザ・インターフェースを備えていてもよい。

以下、非限定的な例として、本発明の実施の形態を添付の図面を参照しつつ説明する。

本システムの一例を示す。本方法の例を示す。本方法の例を示す。本方法の例を示す。本方法の例を示す。本方法の例を示す。本方法の例を示す。本方法の例を示す。本方法の例を示す。本方法の例を示す。

「コンピュータにより実施される」とは、すなわち、ステップ（あるいは略全てのステップ）が少なくとも１つのコンピュータ、または類似の任意のシステムによって実行されることを意味する。よってステップは、コンピュータにより、完全に自動的に、あるいは半自動的に実行される可能性がある。例えば、少なくともいくつかのステップは、ユーザとコンピュータの対話を通じて始動されてもよい。求められるユーザとコンピュータの対話レベルは、想定される自動性のレベルに応じたものであって、ユーザの要望を実装する必要性との間でバランスをとるものとしてもよい。例えば、このレベルは、ユーザが設定し、かつ／あるいは、予め定義されていてもよい。

方法のコンピュータによる実施の典型的な例は、この目的に適したシステムを用いて本方法を実行することである。当該システムは、本方法を実行するための命令を含むコンピュータプログラムを記録したメモリに接続されたプロセッサ、および、グラフィカル・ユーザ・インターフェース（ＧＵＩ）を備えていてもよい。メモリは、データベースを記憶していてもよい。メモリは、そのような記憶に適した任意のハードウェアであり、場合により、物理的に区別可能ないくつかの部分（例えば、プログラム用に１つ、場合によりデータベース用に１つ）を含む。

図１は、本システムの一例を示すものであって、当該システムは、クライアントコンピュータシステム、例えばユーザのワークステーションである。

本例のクライアントコンピュータは、内部通信バス１０００に接続された中央演算処理装置（ＣＰＵ）１０１０、および同じくバスに接続されたランダムアクセスメモリ（ＲＡＭ）１０７０とを備える。クライアントコンピュータは、さらに、バスに接続されたビデオランダムアクセスメモリ１１００と関連付けられたグラフィックス処理装置（ＧＰＵ）１１１０を備える。ビデオＲＡＭ１１００は、当該技術分野において、フレームバッファとしても知られる。大容量記憶装置コントローラ１０２０は、ハードドライブ１０３０などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを具体的に実現するのに適した大容量メモリ装置は、例として、ＥＰＲＯＭ、ＥＥＰＲＯＭ及びフラッシュメモリ装置のような半導体メモリ装置、内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク、光磁気ディスク、およびＣＤ－ＲＯＭディスク１０４０を含む、全ての形式の不揮発性メモリを含む。前述のいずれも、特別に設計されたＡＳＩＣ（特定用途向け集積回路）によって補完されてもよいし、組み入れられてもよい。ネットワークアダプタ１０５０は、ネットワーク１０６０へのアクセスを管理する。クライアントコンピュータはまた、カーソル制御装置、キーボードなどの触覚装置１０９０を含んでいてもよい。カーソル制御装置は、ユーザがディスプレイ１０８０上の任意の所望の位置にカーソルを選択的に位置させることを可能にするために、クライアントコンピュータ内で使用される。さらに、カーソル制御装置は、ユーザが様々なコマンドを選択し、制御信号を入力することを可能にする。カーソル制御装置は、システムに制御信号を入力するための多数の信号生成装置を含む。典型的には、カーソル制御装置はマウスであってもよく、マウスのボタンは信号を生成するために使用される。あるいは、または追加的に、クライアントコンピュータシステムは、感知パッドおよび／または感知スクリーンを備えてもよい。

コンピュータプログラムは、コンピュータによって実行可能な命令を含んでいてもよく、命令は、上記システムに本方法を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってもよい。プログラムは、例えば、デジタル電子回路、またはコンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。プログラムは、例えばプログラマブルプロセッサによる実行のための機械読み取り可能な記憶装置に具体的に実現された製品のような装置として実装されてもよい。方法ステップは、プログラム可能なプロセッサが命令のプログラムを実行し、入力データを操作して出力を生成することによって方法の機能を実行することによって実行されてもよい。したがって、プロセッサは、データ記憶システム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信し、また、それらにデータおよび命令を送信するようにプログラム可能であってもよく、またそのように接続されていてもよい。アプリケーションプログラムは、高水準の手続き型またはオブジェクト指向のプログラミング言語で、または必要に応じてアセンブリ言語または機械語で実装されていてもよい。いずれの場合も、言語はコンパイラ型言語またはインタープリタ型言語であってもよい。プログラムは、フルインストールプログラムまたは更新プログラムであってもよい。いずれの場合も、プログラムをシステムに適用すると、本方法を実行するための命令が得られる。

ここで、画像における物体検出の分野においてそれ自体知られている異なる概念について議論する。
画像は、例えばシーン上の、物理的信号の空間分布を表すデータ構造である。空間分布は、任意の次元のものであってよく、例えば２Ｄあるいは３Ｄである。空間分布は、例えばグリッドを形成し、それによってピクセルを定義するなど、任意の形状であってもよく、グリッドは場合により非規則的または規則的である。物理的信号は、画像がＲＧＢ画像またはグレースケール画像または深度画像となるような、例えば色やグレーレベルや深度など、任意の信号であってもよい。画像は合成画像であってもよいし、あるいは写真のような自然画像であってもよい。提供され、かつ／あるいは、完全教師ありで学習された関数が適用される画像は、例えばすべてが矩形の２ＤのＲＧＢ画像、あるいはグレースケール画像、あるいは深度画像であるなど、すべて同じタイプであってもよい。あるいは、異なる画像タイプの集合を考えてもよい。

「物体カテゴリ」という表現は、画像内でインスタンス化および局所化が可能なエンティティ（すなわち物体）の任意のクラスを指定し、当該エンティティは、弱教師ありで学習された関数のような物体検出器により、少なくともある程度まで、同じクラスに属していると認識できる。物体カテゴリの、あるバージョン、言い換えれば、当該カテゴリの物体が、各局所化において表される場合、物体カテゴリは、画像の当該局所化でインスタンス化されていると言う。

同じ物体カテゴリの異なるインスタンス、つまり同じカテゴリの異なる物体は、異なる特性を示してもよい。例えば、同じ画像内に表される自動車の異なるモデルは、すべて同じ物体カテゴリ、例えば「自動車」のカテゴリのインスタンスとみなされてもよい。

弱教師ありで学習された関数は、画像内の物体カテゴリのインスタンスを検出するように構成されており、本方法によって企図された物体カテゴリは、例えば、弱教師ありで学習された関数によって検出可能な全てのカテゴリに対応する、物体カテゴリの所定の集合を構成してもよい。したがって、当該所定の物体の集合は、弱教師ありで学習された関数の構成または能力によって定義されていてもよい。

カテゴリ間の差別化の度合いは、当該所定の集合によって表される詳細の度合いに依存していてもよい。言い換えれば、弱教師ありで学習された関数の差別化能力に応じて、自動車とトラックは、同じ物体カテゴリ（例えば「車両」）、または異なるカテゴリ（「自動車」と「トラック」）に属するものとみなされてもよい。

「局所化」という用語は、画像に関する任意の位置情報を指す。局所化は、例えば、画像の下位部分を定義してもよい。当該下位部分は、コネックス（ｃｏｎｎｅｘ）状、かつ／あるいは、凸状であってもよい。本方法によって企図される局所化は、例えば、内部に画像の下位部分を定義する矩形である境界ボックスに限定されていてもよい。別の例において、弱教師ありで学習された関数、および／または完全教師ありで学習された関数は、入力画像の区画化によって定義される局所化、言い換えれば、各画素が区画に関連付けられ、それにより各区画が局所化されたフォーマットを出力してもよい。

画像、あるいは画像内の各局所化は、ラベル付けによって提供されてもよい。各ラベルは、各物体カテゴリのインスタンス化を表す。言い換えると、各ラベルは、画像内にそれぞれの物体カテゴリの少なくとも１つのインスタンス（すなわち、それぞれのカテゴリの物体）が存在するという事実、あるいは、その局所化において、その物体カテゴリのインスタンスが１つだけ存在するという事実を表すデータである。ラベルは画像レベルで存在してもよく、その場合、ラベルは、画像の弱アノテーションを形成し、すなわち弱教師あり学習のみを可能にするラベルであり、または局所化レベルで存在してもよく、その場合、ラベルは、さらに完全教師あり学習を可能にする。

「画像内の物体の検出」という表現は、画像内における物体カテゴリのインスタンス化の自動認識に関する任意の工程を指す。弱教師ありで学習された関数、および完全教師ありで学習された関数は、そのような検出を実行するように構成される。特に、「弱教師ありで学習された関数」と「完全教師ありで学習された関数」は、それぞれ画像を入力とし、入力画像に対して、複数の組を出力するように構成されている。出力された各組は、局所化、および１つまたは複数の信頼スコアを含むデータを構成する。各信頼スコアは、各局所化における物体カテゴリのインスタンス化の確率を表す。このような出力情報は、任意の具体的なシーン理解アプリケーション用に、任意の方法で後処理してもよい。

弱教師ありで学習された関数と完全教師ありで学習された関数とは、学習のされ方が互いに異なる。しかし、完全教師あり学習用に構成された同じデータセットに対しては（よって弱教師あり学習用に対してはなおさら）、一般に、完全教師ありで学習された関数のほうが、弱教師ありで学習された関数よりも、より高い精度で物体検出を行うという意味で、優れている。実際、弱教師あり学習には、データセットのラベルに対応する物体の位置をどのように特定するかについての学習が含まれていなければならない。なぜなら、そのような情報はアノテーション内には提供されていないからである。一方、完全教師あり学習の場合は、局所化情報が既にアノテーションによって提供され、設定されているため、物体カテゴリ自体の認識に集中することができる。本方法で企図される、弱教師ありで学習された関数、および完全教師ありで学習された関数は、それらのフォーマットの任意の関数であってもよい。例については後述する。

本方法のフレームワークは、［１８］のような従来技術の物体検出器同様、ディープラーニングのモデルに基づいていてもよい。ここで、物体検出に適用され、本方法によって実施可能な、ディープラーニングの分野で知られている異なる概念について論じる。

ディープラーニングのモデルは、手作業では値を設定することができない何百万という数のパラメータによって特徴付けられる。したがって、これらのパラメータは、学習アルゴリズムのおかげで設定されるものである。学習アルゴリズムがモデルパラメータを更新するとき、モデルは「訓練モード」にあると言われる。これは、各入力に関連付けられたアノテーションにより、各入力に対するモデルの出力に応じてモデルを連続的に「修正」することからなる。アノテーションは、モデルの出力が真か偽かを評価することを可能にする特定の入力と関連付けられたデータの集合である。例えば、猫と犬の画像を区別するように訓練された物体分類器は、猫と犬のアノテーション付き画像のデータセットに基づいて実行することができ、各アノテーションは「猫」または「犬」である。このように、その訓練モードにおいて、入力された猫の画像について物体分類器が「犬」を出力する場合、学習アルゴリズムは、そのパラメータを更新することによってモデルを修正する。このような、アノテーション付きデータセットによりモデルの訓練を監督する方法を「教師あり学習」と呼ぶ。

モデルが訓練されると、そのパラメータの更新を停止する。次いで、モデルは、新しい入力（すなわち、訓練モード中には見えない入力）を処理して検出結果を返すためにのみ用いられ、このようなモデルは「テストモード」にあると言われる。

「検出」処理は、認識（または分類）処理と局所化処理とを一緒に実行することを意味し得るため、物体検出器は、２つの異なる出力を返してもよい。

１．局所化出力：境界ボックスのおかげで物体の局所化を行うことができる。境界ボックスは、軸が画像の辺に平行な矩形のボックスである。それは４つの座標によって特徴づけられる。理想的には、物体検出器は、各物体に対して、物体を中心とする境界ボックスを適切な比率および縮尺で返すことができる。

２．分類出力：各境界ボックスの信頼スコアに関連付けられたカテゴリラベルのおかげで、物体分類を行うことができる。信頼スコアは、０と１との間の実数であってもよい。スコアが１に近ければ近いほど、物体検出器は、対応する境界ボックスに関連付けられたカテゴリラベルについて、より信頼性が高い。

そのようなモデルに対して、２つのパラダイムを区別することができる。

・完全教師あり物体検出：このパラダイムでは、アノテーションはラベル付けされた境界ボックスであってもよい。それらを「強アノテーション」と呼ぶ。このパラダイムでは、アノテーションによって前述の２つの異なる出力を個別に修正することができる。

・弱教師あり物体検出：このパラダイムでは、アノテーションは画像レベルラベルのみであってもよい。すなわち、各画像には、画像に現れた物体カテゴリのリストによってアノテーションが付される。それらを「弱アノテーション」と呼ぶ。物体の局所化に関する情報は提供されず、また場合により、物体カテゴリごとの発生数について情報も提供されない。したがって、画像レベルのラベルによって局所化出力を直接修正することはできない。しかしながら、弱教師あり物体検出器は、この種の教師によって訓練され、完全教師あり物体検出器と同じ種類の出力を返すように設計されている。

本方法は、弱教師あり物体検出のパラダイムを実施する。このパラダイムにおいて、モデルは、弱アノテーションを付された画像のデータセットで訓練される。

従来技術では、弱教師あり物体検出器は、弱アノテーション（すなわち、画像レベルのラベルのみ）で直接訓練され、各物体カテゴリの信頼スコアに関連付けられた境界ボックスの形で検出結果を返す。

本方法では、局所化情報なしの画像レベルのカテゴリラベルのみで物体検出器を訓練する可能性を提供する。このように、本方法は、完全教師あり物体検出器の高性能と弱教師あり物体検出器の安いアノテーションコストとを活用することができる、新規な弱教師あり物体検出フレームワークからなっていてもよい。

図２は本方法の一例のフローチャートを示す。
図２の本方法は、画像を提供すること（Ｓ１０）を含む。Ｓ１０で提供された各画像には、それぞれ初期ラベルが与えられている。したがって、Ｓ１０で提供されたデータは、弱教師ありで学習された任意の関数の学習のために構成されたデータセット、例えば、Ｓ２０に含まれるものを形成する。したがって、図２の方法は、Ｓ１０の後かつＳ２０の前に、そのような弱教師あり学習を含んでいてもよい。

初期ラベルはまた、Ｓ５０で、形成されたデータセットを改善する特定のフィルタリングの実行を可能にする。これは、部分集合の画像にのみそれぞれの初期ラベルが与えられている場合にも当てはまる。ここで、以下の説明は、Ｓ５０が破棄された場合（言い換えれば、Ｓ４０の出力がＳ６０に直接入力された場合）に、Ｓ１０で初期ラベルが全く与えられない場合にも当てはまり、その場合、Ｓ５０に関する説明は破棄される。

この例の方法は、Ｓ１０で提供された画像のうちの少なくとも１つの部分集合における各画像に対して、特定のスキームＳ２０～Ｓ８０を実行することを含む。処理全体における任意の時点で、Ｓ１０で提供される画像を任意の理由で破棄してもよい（例えば、画像が壊れていたり、他の画像と重複していたりして、役に立たないことが判明した場合など）。また、与えられた画像に対して、Ｓ２０～Ｓ８０のいずれかの出力が無効となってもよい。そのような場合、与えられた画像について本スキームを終了させることができる。無効な結果が後の学習（Ｓ１００）に有益な情報を構成することがあり得るため、与えられた画像はそのとき廃棄されてもよいし、Ｓ９０にそのまま提供されてもよい。このような状況は、明瞭化のために図には示されていない。上述の「部分集合」は、あらゆる場合において、Ｓ１０で提供される画像の集合の一部であり、それよりＳ２０～Ｓ８０が正常に実行される。

本スキームは、弱教師ありで学習された関数を適用すること（Ｓ２０）を含む。弱教師あり関数は、Ｓ２０に入力された各画像について同じ所定のものであってもよい。他の例では、Ｓ２０において、弱教師ありで学習された異なる関数が入力された画像に応じて適用されてもよい。

弱教師ありで学習された関数は、各画像境界ボックス、および出力された各境界ボックスについて、信頼スコアの集合を出力する。各信頼スコアは、弱教師ありで学習された関数によって検出可能なそれぞれの物体カテゴリに関連付けられ、境界ボックス内における物体カテゴリのインスタンス化の確率を（弱教師ありで学習された関数に従って）表す。言い換えれば、弱教師あり関数は、（例えば、前回の弱教師あり学習により）所定の物体カテゴリの集合を知っており、Ｓ２０で入力された各画像について、弱教師あり関数は、物体を含むと想定される境界ボックスと、物体が所定のカテゴリのそれぞれに属する確率を出力する。以下の説明は、Ｓ６０～Ｓ７０を除いて、境界ボックス以外のタイプの局所化にも当てはまる。

この時点で、図２の方法は、最終的に形成されるデータセットに関して、Ｓ２０の出力を処理するためのオプションを実施する。これらのオプションは、後の完全教師あり学習（Ｓ１００）のためにＳ２０に入力された画像について、Ｓ８０において、関連するアノテーションを形成することに関与する。Ｓ８０で形成されるアノテーションは、インスタンス（すなわち、カテゴリの物体）が境界ボックス内の画像によって表されると想定される物体カテゴリを示すラベルにそれぞれ関連付けられた境界ボックスを含む。ここで、オプションは、Ｓ８０でアノテーションに含める各境界ボックスと、Ｓ２０で出力される１つまたは複数の境界ボックスとの、対応関係を決定することを目的とする。これについてここで説明する。

本方法は、まず、Ｓ２０によって出力されたすべての境界ボックスについてループすることと、最も高い信頼スコアではない信頼スコアをすべて除外すること（Ｓ３０）とを含む。言い換えれば、本方法は、各境界ボックスについて、最も高い信頼スコアを選択し、その他すべての信頼スコアに関する情報（関連付けられた物体カテゴリを含む）を破棄する。この時点で、残りの情報は複数のデータからなり、各データは、Ｓ２０によって出力された境界ボックスのうちのそれぞれの境界ボックス、境界ボックスごとに１つのカテゴリ、および各境界ボックスにおけるそれぞれの物体カテゴリのインスタンス化の信頼スコアを含む。

本方法の残りの部分は、Ｓ８０でアノテーションに含まれるべき境界ボックスと、同一物体カテゴリに関連付けられた残りの情報内の１つまたは複数の境界ボックスとの対応関係を決定することである。したがって、上記の同一物体カテゴリは、厳密にゼロより大きいだけでなく、（対応する境界ボックスのそれぞれの）最も高い信頼スコアである信頼スコアによって表されるインスタンス化の確率を有するものである。これにより、関連するデータセットがＳ９０で最終的に形成されることを確実にするフィルタリングが可能となる。

ここで、図２の方法は、フィルタリングを改善するために他のオプションを実施する。

この例の方法は特に、厳密に正である所定の閾値より（例えば、厳密に、または厳密にではなく）低い信頼スコアに関連付けられた、Ｓ３０によって出力されたすべての境界ボックスを除外すること（Ｓ４０）を含む。これにより、（低すぎる確率により）無関係な情報の量を減らすことが可能になる。

例えば、閾値は、Ｓ２０が実行される画像内の物体の平均数に依存する値を有していてもよい（すなわち、画像ごとに任意の物体カテゴリのインスタンスの平均。そのような場合、同じカテゴリの２つのインスタンスが２回カウントされる）。そのような平均数は、任意の方法で、かつ／あるいは、事前の任意の時点で、（例えば、Ｓ２０またはＳ３０の出力に基づいて）あらかじめ提供されてもよいし、計算されてもよいし、近似されてもよい。

閾値の値は、Ｓ６０に入力される画像ごとの境界ボックスの平均数が、Ｓ２０に入力される画像ごとの物体の平均数よりも、例えば厳密に、大きくなるような値であってもよい。本方法は、例えば、後の任意のフィルタリング（この例ではＳ５０など）を考慮して、Ｓ６０に入力される画像ごとの境界ボックスの最小平均数を考えてもよく、当該最小平均数は、Ｓ２０に入力される画像ごとの物体の平均数よりも（例えば、厳密に）大きく、上記閾値は、この最小平均数に達することを確実にする、任意の値である。本方法は、そのような閾値を任意の方法で明示的に決定してもよいし、あるいは、Ｓ６０に入力された境界ボックスの数が最小平均数に達するまで、信頼スコアの、より高い値から始めて低い値まで境界ボックスのフィルタリングを繰り返し行ってもよい。

この例の本方法は、与えられた画像について、Ｓ１０で当該与えられた画像に対して提供された初期ラベル中ではなく、物体カテゴリに対応する信頼スコアに関連付けられた、Ｓ４０によって出力されたすべての境界ボックス（すなわち、前の２つのフィルタＳ３０およびＳ４０の後に残っているすべての境界ボックス）を除外すること（Ｓ５０）をさらに含む。このように除外すること（Ｓ５０）は、初期ラベルが、Ｓ１０で提供された画像内でどの物体カテゴリがインスタンス化されたかを略完全に示していると想定し、それによりＳ５０でこの想定と矛盾する結果が取り除かれる。これは、初期ラベルが、初期データセットを作成するためにユーザが画像に弱アノテーションを追加したことに由来するものである場合に特に当てはまる。

次いで、この例の本方法は、各入力画像に対して、カテゴリごとに実行されるクラスタ化アルゴリズムを実行する。各物体カテゴリについて、クラスタ化アルゴリズムは、互いに近接して局所化され、同じ物体を表すと想定される境界ボックスのグループ（またはクラスタ）を見つける。弱教師ありで学習された関数の適用（Ｓ２０）は、実際、１とは異なる信頼スコア値によって表される物体カテゴリだけでなく、単一の物体インスタンスに対応するこれら複数の境界ボックスによって表される正確な局所化そのものについても、ある程度の不確実性を含む。

任意の局所化距離に基づく任意のクラスタ化アルゴリズムを実施することができる。例において、本方法は、対応する数のクラスタを生成するために、階層的クラスタ化、すなわち、任意の所与の深さで切断することができる樹状図を出力するクラスタ化を実施する。当該所与の深さは、Ｓ２０が実行される画像内の物体の平均数に等しい数のクラスタに対応するように選択されてもよい。

次いで、この例の本方法は、各クラスタについて、当該クラスタを表す、対応する単一の境界ボックスを決定すること（Ｓ７０）を含む。これは、例えばクラスタのすべての境界ボックス座標を平均化するなど、任意の方法で実行できる。あるいは、クラスタ化（Ｓ６０）は、それ自体、本ケースにおいてはＳ７０で決定された境界ボックスでありうる境界ボックスに対応する、各クラスタの重心の座標を出力してもよい。Ｓ７０で決定されたこの境界ボックスは、クラスタに対応する物体カテゴリに関連付けられ、このような情報は、Ｓ８０で、現在の入力画像のアノテーションとなる。

最終的に、本方法は、Ｓ９０において、部分集合の画像および前記アノテーションを有するデータセットを形成し、この例の本方法はまた、当該データセットに基づいて、物体検出関数を学習すること（Ｓ１００）（または訓練すること）を含む。あるいは、データセットは、学習のために、第三者に送られる可能性がある。

本方法は、これにより、以下を含む利点を有する弱教師あり物体検出フレームワークを提供してもよい。
・現在の最先端の弱教師あり物体検出器よりも高い精度。精度は、「ｍＡＰ」（［２１］に記載）と呼ばれる指標によるテストで評価した。この指標が大きいほど、モデルの精度が高い。精度はパーセンテージで表される。本方法のテストでは、ｍＡＰが約３５％から約４０％へと改善を示した。
・本方法で提案される物体検出器は、時間がかかり正確ではない外部領域提案アルゴリズムに依存しない統合モデルを形成する。
・また、本方法のアプローチは、最先端の弱教師ありアプローチよりも高速であってもよい。

ここで、本方法の実施例について説明する。これらの実施例では、本方法は以下のコンポーネントの入力に基づいて実行される。
・モデル１：訓練されていない弱教師あり物体検出器。このような検出器は、画像レベルのラベルのみで訓練され、画像／シーンを入力とし、完全教師あり物体検出器と同じ出力、すなわち、ラベルおよび信頼スコアにそれぞれ関連付けられた境界ボックスの集合を返す。
・モデル２：訓練されていない完全教師あり物体検出器。このタイプの物体検出器は、強アノテーションを必要とし、弱教師あり物体検出器よりもはるかに効果的である。
・弱アノテーション付きの画像のデータセット。したがって、データセットの各画像は、当該画像内に現れる物体カテゴリのリストに関連付けられる。

これらの実施例では、本方法は、２つの連続した段階からなるフレームワークを提供する。
１．オフライン段階：この段階は、４つのステップでモデル２を訓練することを目的とする。この段階は、ユーザに対し透過的である。

１）まず、本方法は、図３に示すように、弱アノテーションを用いて画像のデータセットに基づきモデル１を訓練することを含んでいてもよい。訓練が行われると、本方法はこのモデルをテストモードで渡す。

２）次いで、本方法は、図４に示すように、データセットの全ての画像を処理するためにモデル１を用いることを含んでいてもよい。このとき、各画像は、弱アノテーションと、モデル１によって提供される検出結果に関連付けられている。モデル１によって提供される検出結果は、カテゴリラベルおよび信頼スコアを有する境界ボックスのリストから構成される。

３）本方法は、図５に示すように、「疑似強アノテーション」を形成するために、これらの結果をフィルタリングすることを含んでいてもよい。このフィルタリングは、２つのステップからなっていてもよい。
ｉ．第１に、本方法は、閾値を超える信頼スコアの境界ボックスを維持するために、信頼スコア閾値を固定してもよい。
ｉｉ．第２に、本方法は、各画像について、ラベルが初期弱アノテーションに現れた境界ボックスのみを維持してもよい。
このとき、データセットの画像は、擬似強アノテーションに関連付けられている。

４）本方法は、図６に示すように、ステップ３で提供されたアノテーション、すなわち、擬似強アノテーションを用いて、データセットに基づきモデル２を訓練することを含んでいてもよい。

２．オンライン段階：モデル２は、図７に示すように、任意の見えない入力画像上で物体検出を実行するために、テストモードで渡してもよい。
この弱教師ありフレームワークにより、モデル１とモデル２の間のパフォーマンスが向上する。

図８は、オフラインおよびオンライン段階のそのような技術的ワークフローを示す。
ここで、モデル１の検出結果に適用されるフィルタリングの実施の詳細の例を説明する。
モデル１が訓練されると、本方法は、データセット２の各画像について、テストモードのモデル１によって提供される検出結果を得る。このように、本方法は、各カテゴリについて境界ボックス内の画像が当該カテゴリに属する確率を示す確率ベクトルと関連付けられた、境界ボックスのリストを、各画像について得る。

境界ボックスのフィルタリングの工程は、図９に示すように、Ｓ３０～Ｓ４０、Ｓ５０、およびＳ６０～Ｓ７０の例にそれぞれ対応する３つの連続するステップに分解することができる。

第１のステップは、ラベル関連付けおよび信頼閾値に基づくフィルタリングを含む。ここで例について説明する。
本方法は、まず、各境界ボックスを単一のラベルおよび確率ベクトルにおける対応する値に関連付けてもよい。選択されたラベルは、確率ベクトルの中で最も大きい値を有するものに対応していてもよい。この値は、境界ボックスの信頼スコアと呼ばれる。次いで、信頼閾値により第１のフィルタリングを実行してもよい：信頼閾値より低い信頼スコアを有するすべての境界ボックスが除去される。この信頼閾値の値は、０と１の間の数値であり、データセット２の特性に依存してもよい。例えば、本方法は、データセット２の画像ごとの物体の平均数に基づいていてもよい。この平均数が予め知られていない場合、平均の近似値を決定してもよい。この情報が与えられると、信頼閾値の値を、クラスタ化ステップの入力における境界ボックスの画像ごとの平均数が画像ごとの物体の平均数よりも大きくなるように設定してもよい。したがって、信頼閾値は区間［０，ｂ［に属し、ここでｂは２つの平均値が等しくなるような限界値である。

第２のステップは、ラベルフィルタリングを含む。ここで例について説明する。
第１のステップの後に、データセット２に弱アノテーションが付与されている場合、すなわち、各画像が、当該画像内に現れる（および現れない）物体カテゴリのリストを示すアノテーションに関連付けられている場合、第２のフィルタリングを実行してもよい。このフィルタリングは、単に、ラベルがアノテーションに現れる境界ボックスを保持することだけからなっていてもよい。

第３のステップはクラスタ化を含む。ここで例について説明する。
直前のフィルタリングステップによって返された境界ボックスは、クラスタ化アルゴリズムによってフィルタリングされてもよい。このアルゴリズムの目的は、境界ボックスの局所化ノイズを低減することである。このアルゴリズムは、各画像について、検出された各カテゴリの境界ボックスの集合に、独立して適用される。１つの画像および少なくとも１つの検出された境界ボックスを有するカテゴリが与えられると、本方法は、４Ｄベクトルである境界ボックス座標の集合にクラスタ化アルゴリズムを適用してもよい。クラスタの数は未知であってもよい。Ｘｍｅａｎｓや階層的クラスタ化（ＸｕＲ、ＷｕｎｓｃｈＤによる論文「ＳｕｒｖｅｙｏｆＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｓ」の特に６５０～６５１頁に記載）のような、個数が未知であるクラスタについてのクラスタ化問題を解決する任意のアルゴリズムが実施されてもよい。テストで成功し検出精度が改善した実施例において、本方法は、階層的クラスタ化アルゴリズムを実施してもよい。本方法は、適切な指標とリンク基準に基づいてクラスタの階層を構築することからなっていてもよい。このアルゴリズムは、ユークリッド距離と「単一リンククラスタ化」を用いてテストしてもよい。他の指標およびリンク基準を用いてもよい。このアルゴリズムは樹状図を構築する。ある高さが与えられると、本方法は樹状図を切断し、この高さに定義されたクラスタを得ることができる。この高さは入念に選択することができる。フィルタリングの例では、この高さは、クラスタ化の出力におけるフィルタリングされた境界ボックスの平均数がデータセット２内の画像ごとの平均物体数に等しくなるように設定してもよい。

ここで、２つのモデルの実施の詳細の例について説明する。
本方法の主な目的は、局所化情報なしの画像レベルのカテゴリラベルのみで物体検出器を訓練することであってもよい。本方法は、完全教師あり物体検出器の高性能と弱教師あり物体検出器の安いアノテーションコストとを活用することができる、新規な弱教師あり物体検出フレームワークからなっていてもよい。

本方法は、ディープニューラルネットワーク（ＤＮＮ）、具体的には領域ベースのディープニューラルネットワーク（領域ベースＤＮＮ）の能力を利用することによって、この課題に対処してもよい。

ディープニューラルネットワークは、コンピュータが観測データから学習することを可能にする、生物学に着想を得たプログラミングパラダイムであるニューラルネットワーク（［２０］に記載）における学習のための強力な技術の集合である。

物体の分類において、ＤＮＮの成功は、他の画像分類法（ＳＶＭ、Ｂｏｏｓｔｉｎｇ、ＲａｎｄｏｍＦｏｒｅｓｔなど）で用いられる手作業による低レベルの特徴（ＨＯＧ、Ｂａｇ－ｏｆ－Ｗｏｒｄｓ、ＳＩＦＴなど）とは対照的に、豊かな中間レベルの２Ｄ画像表現を学習する能力を有するおかげである。より具体的には、ＤＮＮは、未処理のデータに基づくエンドツーエンドの学習に焦点を当てている。言い換えれば、図１０に示すように、未処理の特徴から始まりラベルで終わるエンドツーエンドの最適化を達成することによって、特徴量エンジニアリングから可能な限り遠く離れる。

物体の分類とは異なり、検出は、分類（すなわち認識）に加えて、画像内で（多くの場合たくさんの）物体を局所化する必要がある。領域ベースのディープニューラルネットワークは、「領域を用いた認識」のパラダイム（［１８］に記載）の範囲内で、局所化の課題を解決してもよい。大まかに言って、ネットワークはオフライン段階において領域の提案を認識することを学習してもよい。領域の提案は、外部アルゴリズムによって提供されてもよいし（例えば、［１７］）、ネットワークを訓練する間に学習されてもよい（例えば、［２］）。

本方法は、オフライン段階の間に、完全教師ありの方法または弱教師ありの方法のいずれかの任意の方法で領域ベースのディープニューラルネットワークの訓練を行ってもよい。

本方法は、２つの段階に分解される。オフライン段階として表すことができる第１の段階は、領域ベースのディープニューラルネットワークに大きく依存し、本方法が２つのモデルを訓練する可能性のある段階に対応する：
Ｉ．モデル１：弱教師ありニューラルネットワーク検出器に対応する。本方法は、例えば、最先端の領域ベースの弱教師ありニューラルネットワークであるＷＳＤＤＮ（［８］に記載）を用いてもよい。
ＩＩ．モデル２：完全教師あり物体検出器に対応する。本方法は、例えば、最先端の領域ベースの完全教師ありニューラルネットワークであるＦａｓｔｅｒＲ－ＣＮＮ（［２］に記載）を用いてもよい。

以下の表Ｉは、本方法の実施の代替案を示す。

表Ｉ－本方法で実施可能なニューラルネットワークの例
Ｒ－ＣＮＮは［１８］に記載されている。
ＦａｓｔＲ－ＣＮＮは［１７］に記載されている。
ＰＶＡＮＥＴは［４］に記載されている。
ＣｏｎｔｅｘｔＬｏｃＮｅｔは［７、８］に記載されている。

表Ｉに示すように、本方法は、真ん中の列に示される構成でテストした。ここで、得られた結果について説明する。
結果として、モデル１からモデル２へ、相対的に４８％の性能向上が観察された。物体検出器の性能は、「ｍｅａｎａｖｅｒａｇｅｐｒｅｃｉｓｉｏｎ」と呼ばれる指標（［２１］）により評価した。この指標はパーセンテージに対応し、この値が大きいほど検出器の精度が高い。モデル１の実施例のスコアは２７％ｍＡＰ、モデル２の実施例のスコアは４０％ｍＡＰであった。

Claims

複数の画像を提供するステップ（Ｓ１０）と、
前記複数の画像のうちの少なくとも１つの部分集合のうちのそれぞれ１つについて、
弱教師ありで学習された関数を適用するステップであって、前記弱教師ありで学習された関数は、各々が局所化および１つまたは複数の信頼スコアを含む、複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ（Ｓ２０）と、
前記弱教師ありで学習された関数の前記出力に基づき１つまたは複数のアノテーションを決定するステップであって、各アノテーションは、局所化、および当該局所化における物体カテゴリのインスタンス化を表すラベルを含む、ステップ（Ｓ３０～Ｓ８０）と、
複数のデータを含み、関数の完全教師ありの学習用に構成された訓練用データセットを完全に自動的に形成するステップであって、各データは、前記部分集合におけるそれぞれの画像と、各画像について決定された前記１つまたは複数のアノテーションのうちの少なくとも一部とを含み、前記完全教師ありで学習された関数は、複数の画像に適用され、各々が局所化および１つまたは複数の信頼スコアを含む複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ（Ｓ９０）と
を有することを特徴とする、コンピュータにより実施される信号処理方法。
各アノテーションの局所化は、前記弱教師ありで学習された関数によって出力された１つまたは複数の局所化に対応する
ことを特徴とする、請求項１に記載の方法。
各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記１つまたは複数の局所化における、厳密にゼロより大きい信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである
ことを特徴とする請求項２に記載の方法。
各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記１つまたは複数の局所化における、最も高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである
ことを特徴とする請求項３に記載の方法。
各アノテーションについての物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記１つまたは複数の局所化における、厳密に正の閾値より高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである
ことを特徴とする請求項３または４に記載の方法。
前記閾値は、前記複数の画像内の物体の平均数に依存する値を有する
ことを特徴とする請求項５に記載の方法。
前記部分集合の少なくとも一部の画像のそれぞれについて、
当該画像に初期ラベルが与えられており、各初期ラベルは、それぞれの画像内の各物体カテゴリのインスタンス化を表し、
当該画像のアノテーションのラベルは、その画像の初期ラベルに対応する各物体カテゴリのインスタンス化を表す、
ことを特徴とする請求項３～６のいずれか１つに記載の方法。
各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記１つまたは複数の局所化は、クラスタ化アルゴリズムにより識別される
ことを特徴とする請求項２～７のいずれか１つに記載の方法。
前記弱教師ありで学習された関数は初期データセットに基づき学習され、前記初期データセットは複数の初期データを含み、各初期データは、それぞれの画像と、それぞれのアノテーションとを含み、前記アノテーションはラベルの集合からなり、各ラベルは、その画像内における物体カテゴリのインスタンス化を表す
ことを特徴とする請求項１～８のいずれか１つに記載の方法。
前記局所化はバウンディングボックスであり、
前記方法は、同一のオブジェクトカテゴリを表す１つまたは複数の近接するバウンディングボックスをグループ化するステップを更に含む
請求項１～９のいずれか１つに記載の方法。
コンピュータに、
複数の画像を提供するステップ（Ｓ１０）と、
前記複数の画像のうちの少なくとも１つの部分集合のうちのそれぞれ１つについて、
弱教師ありで学習された関数を適用するステップであって、前記弱教師ありで学習された関数は、各々が局所化および１つまたは複数の信頼スコアを含む、複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ（Ｓ２０）と、
前記弱教師ありで学習された関数の前記出力に基づき１つまたは複数のアノテーションを決定するステップであって、各アノテーションは、局所化、および当該局所化における物体カテゴリのインスタンス化を表すラベルを含む、ステップ（Ｓ３０～Ｓ８０）と、
複数のデータを含み、関数の完全教師ありの学習用に構成された訓練用データセットを完全に自動的に形成するステップであって、各データは、前記部分集合におけるそれぞれの画像と、各画像について決定された前記１つまたは複数のアノテーションのうちの少なくとも一部とを含み、前記完全教師ありで学習された関数は、複数の画像に適用され、各々が局所化および１つまたは複数の信頼スコアを含む複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ（Ｓ９０）と
を実行させるためのプログラム。
請求項１１に記載のプログラムをコンピュータ読み取り可能に記憶した記憶媒体。
前記記憶媒体に接続されたプロセッサをさらに備える
ことを特徴とする請求項１２に記載の装置。