JP7341962B2

JP7341962B2 - 学習データ収集装置、学習装置、学習データ収集方法およびプログラム

Info

Publication number: JP7341962B2
Application number: JP2020143678A
Authority: JP
Inventors: 廣大齊藤; 智行柴田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2023-09-11
Anticipated expiration: 2040-08-27
Also published as: JP2022038941A; US20220067081A1; US11741153B2

Description

本発明の実施形態は、学習データ収集装置、学習装置、学習データ収集方法およびプログラムに関する。

機械学習に基づいて画像から物体を検出する技術が提案されている。従来、そのような機械学習に用いられる学習データは、人力で検出対象の物体を含む画像を収集し、画像内の物体の領域を手作業で教示することによって作成され、高いコストを要する。

このようなコストを低減するために、例えば、一部のデータに対して人力で教示を行って学習を行い、その学習結果のモデルで推論することにより、最終的な学習データを得る手法が考えられる。

特開２０２０－３５０９５号公報

しかしながら、従来の方法では、検出対象の物体を含む画像を事前に収集する必要があり、また依然として人力での教示を要し、認識結果を手作業で修正する必要もある。

本発明が解決しようとする課題は、物体検出モデルの学習に用いられる学習データを自動的に収集可能な技術を提供することにある。

一実施形態によれば、学習データ収集装置は、第１取得部と、第２取得部と、特定部と、学習データ出力部とを有する。第１取得部は、対象物体に関するクエリ画像およびクエリテキストを取得する。第２取得部は、上記クエリテキストを用いて上記対象物体の候補画像を取得する。特定部は、上記クエリ画像を用いて、上記候補画像からクエリ画像との類似度が閾値以上の領域を含む正例画像と、当該正例画像内の当該領域の位置とを特定する。学習データ出力部は、上記正例画像内の上記対象物体の位置を表す情報と、上記正例画像と、上記クエリテキストに基づく正解ラベルとを含む学習データを出力する。

図１は、第１の実施形態に係る学習データ収集装置の機能構成の一例を示すブロック図である。図２は、図１に示した学習データ収集装置による処理全体の概要を示すフローチャートである。図３は、図２に示した処理のうち、候補画像群の取得処理を示すフローチャートである。図４は、図２に示した処理のうち、正例画像と負例画像の特定処理の前半部分を示すフローチャートである。図５は、図２に示した処理のうち、正例画像と負例画像の特定処理の後半部分を示すフローチャートである。図６は、分類処理において候補画像から物体領域の候補が抽出されるイメージを示す図である。図７は、領域特定処理において候補画像から物体領域の候補が抽出されるイメージを示す図である。図８は、物体領域が特定されるイメージを示す図である。図９は、第２の実施形態に係る学習装置の機能構成の一例を示すブロック図である。図１０は、図９に示した学習装置による処理全体の概要を示すフローチャートである。図１１は、実施形態に係る学習データ収集装置および学習装置のハードウェア構成の一例を示すブロック図である。

以下、図面を参照しながら本実施の形態について詳細に説明する。
［第１の実施形態］
（１）構成
図１は、第１の実施形態に係る学習データ収集装置１００の構成の一例を示す。
学習データ収集装置１００は、物体検出モデルの学習に用いられる学習データを収集し出力する。学習データ収集装置１００は、例えば、パーソナルコンピュータやサーバコンピュータ等のコンピュータであるが、これに限られない。

学習データ収集装置１００は、クエリ取得部１１、候補画像取得部１２、特定部１３、学習データ出力部１４および画像データベース１５を備える。

クエリ取得部１１は、第１の取得部として、例えば学習データ収集装置１００のユーザにより入力されるデータに基づき、検出対象の物体（「対象物体」とも言う）を特定するための文字情報および画像情報を取得する。例えば対象物体が飲料メーカーの特定の商品である場合、クエリ取得部１１によって、当該商品を示すロゴの画像と、メーカー名または商品名等のキーワードとが取得される。

クエリ取得部１１は、クエリテキスト取得部１１１と、クエリ画像取得部１１２とを含み得る。クエリテキスト取得部１１１は、ユーザにより入力されるテキストデータとして、対象物体の検索クエリとなる文字情報（以下、「クエリテキスト」と言う）を取得する。クエリ画像取得部１１２は、ユーザにより入力される画像データとして、対象物体の検索クエリとなる画像情報（以下、「クエリ画像」と言う）を取得する。

クエリテキスト取得部１１１は、必ずしもテキストデータの入力を必要とするものではなく、クエリ画像取得部１１２によって取得されるクエリ画像から文字情報を抽出することによって、クエリテキストを取得してもよい。クエリテキスト取得部１１１は、例えば、クエリ画像から文字認識技術を用いて文字情報を抽出し得る。同様に、クエリテキスト取得部１１１は、ユーザにより入力された他の画像データまたは音声データから文字情報を抽出することによって、クエリテキストを取得してもよい。

画像データベース１５は、例えば、あらかじめキーワードと画像とが対応付けられた画像検索データベースである。画像データベース１５は、例えばＷＷＷ（World Wide Web）などからあらかじめ収集された画像を蓄積する。なお、ここでは、「画像」には静止画および動画の両方が含まれ得る。画像データベース１５は、学習データ収集装置１００の必須の構成ではなく、学習データ収集装置１００内に設けられてもよいし、学習データ収集装置１００からネットワークを介してアクセス可能なデータベースとして設けられてもよい。

候補画像取得部１２は、第２の取得部として、クエリテキスト取得部１１１によって取得されたクエリテキストを用いて対象物体の候補画像を取得する。例えば、候補画像取得部１２は、クエリテキストを検索クエリとして用いて、画像データベース１５から当該クエリテキストに対応する画像を検索することによって、対象物体の候補画像として第１の候補画像群を取得する。実施形態では、候補画像取得部１２は、さらに、対象物体を含まないと想定される画像の候補も取得する。一例として、候補画像取得部１２は、取得されたクエリテキスト以外の任意のクエリを用いて画像データベース１５から検索することによって、対象物体を含まないと想定される画像の候補としての第２の候補画像群を取得する。候補画像取得部１２は、第１の候補画像群と第２の候補画像群の両方を特定部１３に渡す。

特定部１３は、クエリ画像取得部１１２によって取得されたクエリ画像を用いて、候補画像群から、学習データとして用いられ得る、クエリ画像との類似度が所定の閾値以上の領域を含む正例画像を特定する。特定部１３はまた、正例画像内の上記領域の位置も特定する。実施形態では、特定部１３はさらに、候補画像群から、クエリ画像との類似度が所定の閾値以上の領域を含まない負例画像も特定する。負例画像は、正例画像と組み合わせて学習データとして用いられ得る。特定部１３は、分類部１３１と、領域特定部１３２とを含み得る。

分類部１３１は、候補画像取得部１２によって取得された候補画像群を、クエリ画像との類似度に応じて正例候補画像と負例候補画像とに分類する。上述のように、候補画像取得部１２によって取得される候補画像群は、対象物体を含む画像の候補としての第１の候補画像群と、対象物体を含まない画像の候補としての第２の候補画像群とを含む。これらの候補画像群は、画像データベース１５から画像に対応付けられたキーワードをもとに検索されたものであるので、第１の候補画像群には、対象物体を含まない候補画像が含まれる可能性もあり、第２の候補画像群には、対象物体を含む候補画像が含まれる可能性もある。そこで分類部１３１は、クエリ画像との類似度に応じて候補画像群を分類する処理を行う。

実施形態によれば、分類部１３１は、まず、候補画像ごとに、何らかの物体が映っている領域（以下、「物体領域の候補」と言う）を抽出する。次いで分類部１３１は、抽出された物体領域の候補を画像から切り出し、クエリ画像との類似度を算出する。分類部１３１は、画像内に第１の閾値以上の類似度を有する領域が１つでもあれば、その画像を正例候補画像と分類し、画像内に第１の閾値以上の類似度を有する領域がなければ、その画像を負例候補画像と分類する。分類部１３１の動作についてはさらに後述する。

領域特定部１３２は、分類部１３１によって正例候補画像と分類された候補画像から、クエリ画像との類似度が所定の閾値以上の領域（以下、「物体領域」と言う）を含む画像を特定するとともに、当該画像内の物体領域の位置を特定する。領域特定部１３２は、例えば、まず正例候補画像から物体領域の候補を検出し、検出された物体領域の候補のうち、クエリ画像との類似度が第２の閾値以上の領域を物体領域と判定する。そして、領域特定部１３２は、正例候補画像のうち物体領域を含む画像を正例画像として、物体領域の位置情報とともに出力する。第２の閾値は、上記第１の閾値と同じ値でもよいし、異なる値でもよい。領域特定部１３２はまた、分類部１３１によって負例候補画像と分類された候補画像から、同様に物体領域の候補を検出し、クエリ画像との類似度が第３の閾値以上の領域を含まない画像を特定し、特定された画像を負例画像として出力することができる。第３の閾値は、第２の閾値以下の値に設定される。

実施形態では、領域特定部１３２は、検出部１３３と、識別部１３４とを含み得る。
検出部１３３は、学習済みの検出器を用いて、候補画像ごとに物体領域の候補を抽出する機能を有する。検出器は、例えばラベル付きの大量の学習データで事前に学習されたものである。ここで、実施形態に係る学習データ収集装置１００が収集しようとする学習データの対象物体は、検出器の学習に使用された学習データには含まれないカテゴリである可能性がある。そこで、検出部１３３は、検出結果の評価値の閾値を下げるなどの調整を行って物体領域の候補を抽出するように構成される。これにより、検出対象の物体以外の物体も含む多数の領域が抽出される。

識別部１３４は、学習済みの識別器を用いて、抽出された物体領域の候補から、対象物体の領域（物体領域）を選別する機能を有する。識別部１３４は、検出部１３３により抽出された物体領域の候補を画像から切り出し、切り出した画像を学習済みの識別器に入力して得られる特徴ベクトルを用いる。識別器は、例えばラベル付きの大量の学習データで事前に学習されたものである。識別部１３４は、物体領域の候補から得られる特徴ベクトルと、クエリ画像から同様に得られる特徴ベクトルとの類似度を算出することによって、物体領域の候補が物体領域であるか否かを判定することができる。識別部１３４は、物体領域を含む画像を正例画像と特定し、正例画像内の物体領域の位置を、例えば座標情報として特定し、正例画像とともに出力する。
領域特定部１３２の動作についてもさらに後述する。

なお、分類部１３１と領域特定部１３２は、必ずしも別個の機能部として設けられる必要はない。後述するように、分類部１３１と領域特定部１３２の処理には類似の処理が含まれ得る。これは、この実施形態が、分類部１３１では多数の候補画像から処理速度を重視したアルゴリズムを用いて分類処理を行い、領域特定部１３２では分類処理によって絞り込まれた候補画像から精度を重視したアルゴリズムを用いて領域特定処理を行うという、２段階処理を採用するからである。しかし、これは単なる一例であり、分類部１３１と領域特定部１３２が同じアルゴリズムを用いて重複する処理を行ってもよいし、重複する処理のうちのいずれかを省略してもよい。

学習データ出力部１４は、特定部１３から出力される、特定された正例画像と、当該正例画像内の物体領域の位置情報とに対し、クエリテキストに基づいた正解ラベルを付与して、正例の学習データとして出力する。特定部１３によって負例画像も特定される場合、学習データ出力部１４は、負例画像に正解ラベルとは異なるラベルを付与して、負例データとして出力することができる。負例データについては位置情報は出力されない。学習データ出力部１４によって出力される学習データは、少なくとも正例データを含み、さらに負例データを含み得る。

以上、概要を述べたとおり、第１の実施形態に係る学習データ収集装置１００は、まず、少なくとも検出対象の物体（対象物体）を特定するためにユーザ等によって入力されるデータに基づき、クエリ画像およびクエリテキストを取得する。学習データ収集装置１００は、対象物体を特定するために少なくともクエリ画像の入力を受け付ける必要があるが、入力されるクエリ画像の数は、学習データ収集装置１００によって収集される学習データに比べて少数でよい。

次いで、学習データ収集装置１００は、クエリテキストを検索クエリとして用いて、あらかじめキーワードと画像とが対応付けられた画像検索データベースから候補画像を抽出する。次に学習データ収集装置１００は、クエリ画像を用いて、類似した領域を見つけることによって、候補画像から正例画像と負例画像とを特定する。ここで、正例画像については、さらに対象物体の領域を自動的に検出する。そして、学習データ収集装置１００は、対象物体の領域に関する位置情報を含む正例画像と、負例画像とをもとに、正例データと負例データを含む学習データを出力する。

（２）動作
次に、以上のように構成された学習データ収集装置１００による情報処理動作の一例を説明する。

（２－１）概要
図２は、学習データ収集装置１００の処理全体の概要を示すフローチャートである。
まずステップＳ１０において、学習データ収集装置１００は、クエリ取得部１１により、検出対象の物体を特定するためのクエリ画像およびクエリテキストを取得する。クエリ画像およびクエリテキストは、例えば学習データ収集装置１００のユーザにより入力デバイス等を介して入力される、画像データとテキストデータの組合せに基づいて取得される。ステップＳ１０では、検出対象の物体を特定するために少なくとも１つのクエリ画像が取得されればよく、複数の画像が取得されてもよい。クエリ取得部１１によって取得されるクエリ画像の数は、一般に物体検出器の学習に用いられる画像の数に比べてはるかに少数でよい。

同様に、クエリテキストとして、検出対象の物体を表す少なくとも１つの語が取得されればよく、同義語や類義語を含む複数の語が取得されてもよい。クエリテキストは、ユーザによりキーボード等を介して入力されたテキストデータに基づいて取得されてもよいし、マイク等を介して入力された音声データに基づいて取得されてもよいし、外部メモリ等を介して入力された画像データに基づいて取得されてもよい。例えば、音声データからのテキストデータの抽出には、公知の音声認識技術や言語解析技術が使用され得る。同様に、画像データからのテキストデータの抽出には、例えばＯＣＲ（Optical Character Reader）などの公知の文字認識技術や、学習済みの物体検出器が使用され得る。クエリテキストは、クエリ画像から取得されてもよい。この場合、学習データ収集装置１００は、少なくともユーザから検出対象の物体を特定するためのクエリ画像データの入力を受け付ける必要がある。

以下では、クエリ取得部１１により、クエリ画像として「デスクトップ型パーソナルコンピュータ」（以下、単に「パソコン」と言う）の画像が取得されるものとする。この場合、クエリテキストは、例えば、「パソコン」、「デスクトップＰＣ」、「コンピュータ」等であり得る。

ステップＳ２０において、学習データ収集装置１００は、候補画像取得部１２により、クエリテキストを用いて画像データベース１５から候補画像群を取得する。実施形態では、候補画像取得部１２によって取得される候補画像群は、クエリテキストを用いて検索される第１の候補画像群と、クエリテキスト以外の任意のクエリを用いて検索される第２の候補画像群とを含む。ステップＳ２０の詳細な処理についてはさらに後述する。候補画像取得部１２は、取得した第１の候補画像群と第２の候補画像群の両方を特定部１３に渡す。

ステップＳ３０において、学習データ収集装置１００は、特定部１３により、クエリ画像を用いて、候補画像取得部１２から受け取った候補画像群から正例画像と負例画像とを特定する。特定部１３が候補画像取得部１２から受け取る候補画像群は、上述したように、クエリテキストを用いて検索された第１の候補画像群と、クエリテキスト以外のクエリを用いて検索された第２の候補画像群とを含み得る。ただし、第１の候補画像群の画像は、必ずしもクエリテキストによって特定される物体を含むとは限らず、同様に、第２の候補画像群の画像は、必ずしもクエリテキストによって特定される物体を含まないとも限らない。そこで、特定部１３は、クエリ画像との類似度が所定の閾値以上の領域（物体領域）を含むか否かによって、候補画像群から正例画像と負例画像とを特定する。特定部１３はさらに、特定された正例画像については、物体領域の位置を特定し、正例画像内の当該物体領域の位置を表す情報、例えば座標情報を出力する。ステップＳ３０の詳細な処理についてもさらに後述する。

最後に、ステップＳ４０において、学習データ収集装置１００は、学習データ出力部１４により、特定された正例画像および負例画像に基づいて正例データと負例データとを含む学習データを生成し、出力する。正例データは、特定された正例画像と、当該正例画像内の物体領域の位置を表す情報と、クエリテキストに基づく正解ラベルとを含む。学習データ出力部１４は、クエリ取得部１１によって取得されたクエリテキストをそのまま正解ラベルとして使用し得る。負例データは、負例画像と、クエリテキストによって特定される物体を含まないことを示す任意のラベルとを含む。負例データに付されるラベルは、正解ラベルとは異なるものであれば任意に選択されてよい。学習データ出力部１４から出力される学習データは、例えば、図示しない記憶部に記憶され、または出力装置を介してユーザに提示され、または通信装置を介して他の装置に送信され得る。

（２－２）候補画像群の取得
図３は、図２のステップＳ２０に示した、候補画像取得部１２による候補画像群の取得処理の詳細を示すフローチャートである。

ステップＳ２０１において、候補画像取得部１２は、対象物体を含む画像の候補として、クエリテキストを用いて画像データベース１５から画像を検索する。

ステップＳ２０２において、候補画像取得部１２は、クエリテキストを用いて検索された画像群を第１の候補画像群とする。

次いでステップＳ２０３において、候補画像取得部１２は、対象物体を含まない画像の候補として、クエリテキスト以外の任意のクエリを用いて画像データベース１５から画像を検索する。候補画像取得部１２は、例えば、ランダムに作成したキーワードや既存のデータからランダムに選んだ画像をクエリとしたときの出力結果を用いることができる。

ステップＳ２０４において、候補画像取得部１２は、クエリテキスト以外のクエリを用いて検索された画像群を第２の候補画像群とする。

ステップＳ２０５において、候補画像取得部１２は、第１の候補画像群および第２の候補画像群の両方を特定部１３に出力する。第１の候補画像群と第２の候補画像群は、例えば検索に用いたキーワードなど、互いに識別可能な情報を付与されてもよい。

（２－３）正例画像と負例画像の特定
図４～図５は、図２のステップＳ３０に示した、特定部１３による正例画像と負例画像の特定処理の一例を示すフローチャートである。

一実施形態では、候補画像群からの正例画像と負例画像の特定処理は、分類部１３１による分類処理と、領域特定部１３２による領域特定処理とを含む。分類部１３１は、主に、クエリ画像との類似度に基づいて、候補画像群の画像を正例候補画像と負例候補画像に分類する処理を行う。領域特定部１３２は、正例候補画像から、クエリ画像との類似度が所定の閾値以上の領域を含む正例画像を特定し、さらに当該領域の位置情報を特定する。さらに領域特定部１３２は、負例候補画像から、クエリ画像との類似度が所定の閾値以上の領域を含まない負例画像を特定する。

以下の説明では、特定部１３が異なるアルゴリズムを用いた２段階処理を採用する結果、分類処理と領域特定処理が、いずれも、候補画像から物体領域の候補を抽出し、物体領域の候補を画像から切り出してクエリ画像との類似度を算出するという、類似のステップを含む。ただしこれは一例にすぎず、ステップＳ３０の特定処理が、必ずしも以下に示すような分類部１３１による処理と領域特定部１３２による処理とに区別される必要はない。また特定部１３が２段階処理を採用する必要もなく、単一の処理で代替されてもよい。

（２－３－１）分類処理
図４は、図２のステップＳ３０の処理のうち、分類部１３１による分類処理の一例を示すフローチャートである。

まずステップＳ３０１において、分類部１３１は、候補画像取得部１２から候補画像群を取得する。分類部１３１が処理の対象とする候補画像群は、上述したように、クエリテキストを用いて検索された第１の候補画像群と、クエリテキスト以外のクエリを用いて検索された第２の候補画像群とを含み得る。分類部１３１は、処理対象の画像が第１の候補画像群のものか第２の候補画像群のものかを問わず、以下の処理を同様に行うことができる。

ステップＳ３０２において、分類部１３１は、候補画像ごとに物体領域の候補を抽出する。物体領域の候補の抽出は、任意の方法で行われてよいが、例えば、物体らしさ（Objectness）や顕著性（Saliency）に基づく技術（例えば、B. Alexe et al., “Measuring the Objectness of Image Windows”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 34 , Issue 11 , Nov. 2012参照）を用いて実施され得る。

図６は、Objectnessに基づいて画像から物体領域の候補が抽出されるイメージを示す。図６の左側の画像ＩＭ１は、例えば、候補画像取得部１２によってクエリテキスト「パソコン」を用いて画像データベース１５から検索された、部屋の中を撮影した画像である。画像ＩＭ１は、部屋の中に置かれたパソコン、窓、および椅子を含む。図６の右側に示されるように、ステップＳ３０２では、パソコン、窓、および椅子の位置に、物体らしさの高い領域ＯＢ０１～ＯＢ０３が検出される。画像ＩＭ１は、撮影画像に限らず、イラストや絵画等であってもよい。

ステップＳ３０３において、分類部１３１は、抽出された物体領域の候補を画像から切り出し、切り出した画像領域とクエリ画像との類似度を算出する。類似度の算出は、例えば、輝度値や、あらかじめ別の学習データで学習した物体認識用の深層学習モデルの出力を特徴量として、ユークリッド距離やコサイン類似度を計算することによって実施される。

ステップＳ３０４において、分類部１３１は、候補画像から切り出された全領域についてクエリ画像との類似度の算出が終了したか否か判定する。全領域について類似度の算出が終了するまでステップＳ３０３を繰り返し、終了したらステップＳ３０５に進む。

ステップＳ３０５において、分類部１３１は、候補画像について、あらかじめ設定された第１の閾値Ｔ_Ａ以上の類似度を有する領域があるか否かを判定する。クエリ画像との類似度が第１の閾値Ｔ_Ａ以上の領域が少なくとも１つある場合（ＹＥＳ）、ステップＳ３０６に移行し、クエリ画像との類似度が第１の閾値Ｔ_Ａ以上の領域がない場合（ＮＯ）、ステップＳ３０７に移行する。

ステップＳ３０６では、分類部１３１は、当該画像を、検出対象の物体が含まれる可能性が高い正例候補画像として領域特定部１３２に出力する（Ａ）。

一方、ステップＳ３０７では、分類部１３１は、当該画像を、検出対象の物体が含まれない可能性が高い負例候補画像として領域特定部１３２に出力する（Ｂ）。

分類部１３１は、上記の分類処理を、候補画像取得部１２から受け取った全候補画像に対して行うことができる。分類部１３１は、ステップＳ３０５～Ｓ３０７に示すように、あらかじめ設定された単一の閾値Ｔ_Ａとの比較によって、クエリ画像との類似度が閾値Ｔ_Ａ以上の領域の有無に応じて正例候補画像と負例候補画像とに分類する。しかしこれは一例にすぎず、分類処理において複数の閾値が用いられてもよい。例えば、ステップＳ３０５で、第１の候補画像群については閾値Ｔ_Ａ１との比較を行い、第２の候補画像群については閾値Ｔ_Ａ２との比較を行うようにしてもよい（Ｔ_Ａ１≠Ｔ_Ａ２）。

（２－３－２）領域特定処理
図５は、正例画像と負例画像の特定処理のうち、領域特定部１３２による領域特定処理の一例を示すフローチャートである。

領域特定部１３２は、正例候補画像について、物体領域の候補を抽出し、検出対象の物体に対応する物体領域を選別し、最終的な正例画像を特定する処理を行う（ステップＳ３５１～Ｓ３５７）。領域特定部１３２は、負例候補画像についても同様に、物体領域の候補を抽出し、最終的な負例画像を特定する処理を行う（ステップＳ３６１～Ｓ３６７）。

（２－３－２－１）正例画像の特定
まずステップＳ３５１において、領域特定部１３２は、分類部１３１から正例候補画像を取得する。

ステップＳ３５２において、領域特定部１３２は、検出部１３３により、正例候補画像ごとに物体領域の候補を抽出する。これは、例えば、ラベル付きの大量の学習データで事前に学習した検出器を用いることによって実現される（例えば、上述したW. Liu et al. “SSD: Single Shot MultiBox Detector”, ECCV 2016参照）。

図７は、図６の左側に示したのと同様の画像ＩＭ１から、物体領域の候補が抽出されるイメージを示す。図７では、物体領域の候補として６つの領域ＢＢ１～ＢＢ６が抽出されている。このように、ステップＳ３５２では、検出対象であるパソコン以外の物体も含む物体領域の候補が抽出される。ここでは、検出対象の物体として、上記検出器の学習に用いられた学習データには含まれないカテゴリの物体を想定しているので、検出部１３３は、検出結果の評価値の閾値を下げることによって物体領域の候補を出力する。閾値を下げたことから検出対象以外の領域を含む多数の領域が出力されるので、領域特定部１３２は、次に、上記の物体領域の候補から、検出対象である物体の領域を選別する。

ステップＳ３５３において、領域特定部１３２は、識別部１３４により、抽出された物体領域の候補の画像を切り出して、切り出した画像の特徴ベクトルを得る。これは、例えば、ラベル付きの大量の学習データで事前に学習した識別器の出力を用いることによって実現される（例えば、上述したA. Krizhevsky et al., “ImageNet Classification with Deep Convolutional Neural Networks”, NIPS 2012参照）。

ステップＳ３５４において、領域特定部１３２は、候補画像から切り出された全領域について特徴ベクトルの算出処理を終了したか否か判定する。全領域について特徴ベクトルの算出が終了するまでステップＳ３５３を繰り返し、終了したらステップＳ３５５に進む。

ステップＳ３５５において、領域特定部１３２は、識別部１３４により、正例候補画像について、クエリ画像から同様に得られる特徴ベクトルとの類似度があらかじめ設定された第２の閾値Ｔ_Ｐ以上の領域（物体領域）があるか否かを判定する。第２の閾値Ｔ_Ｐは、分類処理で用いた第１の閾値Ｔ_Ａと同じ値であってもよいし異なる値でもよい。物体領域が少なくとも１つあれば（ＹＥＳ）、ステップＳ３５６に移行し、物体領域がなければ（ＮＯ）、ステップＳ３５７に移行する。

ステップＳ３５６において、領域特定部１３２は、当該画像を正例画像として学習データ出力部１４に出力する。このとき、領域特定部１３２は、画像内の物体領域の位置情報を算出し、位置情報も出力する。

図８は、領域特定部１３２から出力される正例画像ＩＭ１のイメージを示す。正例画像ＩＭ１は、検出対象の物体であるパソコンＴＧを含み、パソコンＴＧの位置情報が矩形領域ＢＢ１として示されている。領域特定部１３２によって、特定された正例画像とともに、正例画像内の矩形領域ＢＢ１の位置を表す情報、例えば、矩形領域ＢＢ１の各頂点の座標や、矩形領域ＢＢ１の中心座標と幅および高さの情報などが出力される。

一方、ステップＳ３５５において正例候補画像内に類似度が閾値Ｔ_Ｐ以上の領域が１つもないと判定された場合、ステップＳ３５７において、領域特定部１３２は、当該画像を学習データに適した画像ではないと判定し、破棄する。

（２－３－２－２）負例画像の特定
領域特定部１３２は、負例画像についても、正例画像の特定と同様の処理を行う。

まずステップＳ３６１において、領域特定部１３２は、分類部１３１から、検出対象の物体が含まれる可能性が低いと判定された負例候補画像を取得する。

ステップＳ３６２において、領域特定部１３２は、ステップＳ３５２と同様に、検出部１３３により、負例候補画像ごとに物体領域の候補を抽出する。物体領域の候補の抽出は、やはり、学習済みの検出器を用いて実施することができる（例えば、上述したW. Liu et al. “SSD: Single Shot MultiBox Detector”, ECCV 2016参照）。

次いでステップＳ３６３において、領域特定部１３２は、ステップＳ３５３と同様に、識別部１３４により、抽出された物体領域の候補の画像を切り出して、切り出した画像の特徴ベクトルを得る。特徴ベクトルの取得には、やはり、学習済みの識別器の出力を用いることができる（例えば、上述したA. Krizhevsky et al., “ImageNet Classification with Deep Convolutional Neural Networks”, NIPS 2012参照）。

ステップＳ３６４において、領域特定部１３２は、ステップＳ３５４と同様に、候補画像から切り出された全領域について特徴ベクトルの算出処理を終了したか否かを判定する。全領域について特徴ベクトルの算出が終了するまでステップＳ３６３を繰り返し、終了したらステップＳ３６５に進む。

ステップＳ３６５において、領域特定部１３２は、識別部１３４により、負例候補画像について、クエリ画像から同様に得られる特徴ベクトルとの類似度がすべての領域についてあらかじめ設定された第３の閾値Ｔ_Ｎ以下であるか否かを判定する。第３の閾値Ｔ_Ｎは、第２の閾値Ｔ_Ｐ以下の値である。すべての物体領域の候補についてクエリ画像との類似度が閾値Ｔ_Ｎ以下であれば（ＹＥＳ）、ステップＳ３６６に移行し、類似度が閾値Ｔ_Ｎ以下でない領域が１つでもあれば（ＮＯ）、ステップＳ３６７に移行する。

ステップＳ３６６において、領域特定部１３２は、当該画像を負例画像として学習データ出力部１４に出力する。このとき、領域特定部１３２は、負例画像については物体領域の位置情報は出力しない。

一方、ステップＳ３６５において負例候補画像内に類似度が閾値Ｔ_Ｎを超える領域が少なくとも１つあると判定された場合、ステップＳ３６７において、領域特定部１３２は、当該画像を学習データに適した画像ではないと判定し、破棄する。

上述したように、特定部１３によって特定された正例画像および負例画像は、正例画像内の物体領域の位置情報とともに、学習データ出力部１４に渡される。そして、図２のステップＳ４０において、学習データ収集装置１００は、学習データ出力部１４により、特定された正例画像および正例画像内の物体領域の位置情報と、クエリテキストに基づく正解ラベルとに基づいて、正例データを生成する。また同様に、学習データ収集装置１００は、学習データ出力部１４により、特定された負例画像と、任意のラベルとに基づいて、負例データを生成する。学習データ出力部１４は、正例データと負例データとを含む学習データを任意のタイミングで任意の出力先に出力し得る。学習データ出力部１４は、正例データのみを学習データとして出力してもよい。

（３）効果
以上詳述したように、第１の実施形態に係る学習データ収集装置１００は、検出対象の物体に関するクエリ画像およびクエリテキストを取得し、クエリテキストを用いて検出対象の物体の候補画像を取得し、取得された候補画像からクエリ画像を用いて、クエリ画像との類似度が所定の閾値以上の領域を含む正例画像を特定するとともに、正例画像内の当該領域の位置を特定し、正例画像内の当該領域の位置を表す情報と、正例画像と、クエリテキストに基づく正解ラベルとを含む学習データを出力する。

このように、学習データ収集装置１００は、ユーザ等によって検出対象の物体を特定するために入力されたクエリ画像および関連するクエリテキストをもとに、自動的に学習データを収集し出力することができる。学習データは、正例画像と、正例画像内の当該領域の位置情報と、正解ラベルとを含むので、物体検出モデルの学習に用いられることができる。これにより、学習データの収集に必要な事前の画像収集やラベル付けなどの教示作業の手間を大きく軽減することができる。

さらに、学習データ収集装置１００は、候補画像として、クエリテキストを用いて検索を行うことによって第１の候補画像を取得し、クエリテキスト以外のクエリを用いて検索を行うことによって第２の候補画像を取得することもできる。これにより、正例画像の候補だけに偏ることなく、負例画像の候補も適切に収集することができる。さらに学習データ収集装置１００は、これら第１および第２の候補画像の両方から、クエリ画像との類似度に応じて、検出対象の物体の正例画像と、検出対象の物体の負例画像とを特定し、正例画像と負例画像の両方を学習データに含めることもできる。これにより、学習データ収集装置１００は、正例データのみならず負例データも含む学習データを自動的に収集し出力することができる。

また、学習データ収集装置１００は、正例画像と負例画像との特定のために、分類処理と領域特定処理の２段階の処理を行うこともできる。例えば、分類処理にはより高速な検出アルゴリズムを用い、領域特定処理にはより高精度の識別が可能なアルゴリズムを用いることができる。これにより、処理速度と処理負荷の最適なバランスを保ちつつ、精度良く学習データの収集を行うことができる。

さらに、学習データとしては照明条件や撮影角度などの変動を有する画像を含むことが望ましいため、学習データ収集装置１００は、閾値を適切に設けることによって、このような変動を有するデータの抽出と、検出対象以外のデータが誤って含まれることのトレードオフを制御することもできる。

［第２の実施形態］
第２の実施形態は、上述した学習データ収集装置１００によって収集される学習データを用いて物体検出器（「物体検出モデル」とも言う）の学習を行う学習装置に関する。

（１）構成
図９は、第２の実施形態に係る学習装置１０００の構成の一例を示す。
学習装置１０００は、クエリ取得部１１、候補画像取得部１２、特定部１３、学習データ出力部１４、画像データベース１５および学習部１６を備える。図９に示した学習装置１０００の構成のうち、クエリ取得部１１、候補画像取得部１２、特定部１３、学習データ出力部１４、および画像データベース１５は、図１に関して説明した学習データ収集装置１００のクエリ取得部１１、候補画像取得部１２、特定部１３、学習データ出力部１４、および画像データベース１５と同じ構成を採用できるので、詳細な説明は省略する。

学習部１６は、学習データ出力部１４から出力される学習データを用いて、教師付き学習により、物体検出器を学習する。学習部１６は、例えば、学習データ出力部１４から学習データを受け取るたびに、図示しない記憶部に記憶された物体検出器を読み出し、所定の学習処理後、物体検出器の更新されたパラメータを出力することができる。

（２）動作
図１０は、図９に示した学習装置１０００の処理全体の概要を示すフローチャートである。図１０に示すステップＳ１０～Ｓ４０は、図２に示したステップＳ１０～Ｓ４０と同様の処理を採用できるので、詳細な説明は省略する。

図１０のステップＳ５０において、学習装置１０００は、学習部１６により、学習データ出力部１４によって出力される学習データを用いて、物体検出器の学習を行う。学習部１６は、例えば、画像の入力に対し、画像内の対象物体の位置情報と正解ラベルとを出力するように、検出器の学習を行うことができる。学習部１６によって学習される物体検出器は、検出部１３３によって使用される検出器の一例として説明したものを採用し得る（上述したW. Liu et al. “SSD: Single Shot MultiBox Detector”, ECCV 2016参照）。

学習部１６による学習のタイミングは、任意に設定されてよい。例えば、学習部１６は、クエリ取得部１１がユーザからのクエリの入力を受け付け、学習データ出力部１４から学習データが出力されるたびに学習を行ってもよいし、学習データ出力部１４から出力される学習データが一定量蓄積されるごとに、または一定期間ごとに学習を行ってもよい。

学習部１６による学習処理の後、学習装置１０００は、学習済みの検出器の各パラメータを、記憶部に格納し、またはディスプレイ等を通じてユーザに提示し、または通信装置等を介して他の装置に出力することができる。

（３）効果
このように、第２の実施形態に係る学習装置１０００は、クエリ取得部１１、候補画像取得部１２、特定部１３および学習データ出力部１４を備えることにより、学習データを自動的に収集できるようになることに加え、学習データ出力部１４から直接出力される学習データを使用して学習を行う学習部１６を備えるので、学習データの追加または修正や、他の検出方法との比較実験が容易になるという利点がある。

学習装置１０００のユーザが検出対象の物体を特定する少数のクエリ画像とクエリテキストを入力すれば、自動的に、当該物体の検出器を学習するための学習データの収集と学習処理とが実施されるので、ユーザの利便性が大きく向上する。

［ハードウェア構成例］
以上で説明した第１の実施形態に係る学習データ収集装置１００および第２の実施形態に係る学習装置１０００は、ハードウェアとソフトウェアであるプログラムとの協働によって実現され得る。

図１１は、学習データ収集装置１００および学習装置１０００が採用し得るハードウェア構成の一例を示す。学習データ収集装置１００および学習装置１０００は同じハードウェア構成を採用し得る。
学習データ収集装置１００または学習装置１０００は、ＣＰＵ（Central Processing Unit）１０１、ＲＡＭ（Random Access Memory）１０２、ＲＯＭ（Read Only Memory）１０３、補助記憶装置１０４、通信装置１０５、入力装置１０６、および出力装置１０７を備えており、これらがバス１１０を介して互いに接続される。

ＣＰＵ１０１は、学習データ収集装置１００または学習装置１０００の全体的な動作を制御するプロセッサである。学習データ収集装置１００の場合、ＣＰＵ１０１は、ＲＯＭ１０３または補助記憶装置１０４に記憶されたプログラムをＲＡＭ１０２に展開し、このプログラムを実行することにより、上述したクエリ取得部１１、候補画像取得部１２、特定部１３、および学習データ出力部１４として機能し得る。同様に、学習装置１０００の場合、ＣＰＵ１０１は、プログラムを実行することにより、クエリ取得部１１、候補画像取得部１２、特定部１３、学習データ出力部１４および学習部１６として機能し得る。

ＣＰＵ１０１は、複数のプロセッサを含んでもよい。ＣＰＵ１０１は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（field-programmable gate array）などの集積回路を含む、他の多様な形式で実現されてもよい。上記のクエリ取得部１１、候補画像取得部１２、特定部１３、学習データ出力部１４または学習部１６は、それぞれ専用回路を用いることで実現されてもよい。

補助記憶装置１０４は、例えば、ＨＤＤ（Hard Disk Drive）またはＳＤＤ（Solid State Drive）であり得る。補助記憶装置１０４は、ＣＰＵ１０１により実行されるプログラムや必要なデータなどを記憶する。補助記憶装置１０４は、上述した画像データベース１５を記憶し得る。

通信装置１０５は、外部装置と通信するための装置であり、例えば無線または有線ＬＡＮ（Local Area Network）通信のためのインタフェースを備える。通信装置１０５は、インターネットなどのネットワークを介して外部の装置と通信可能である。通信装置１０５はまた、ＵＳＢ（Universal Serial Bus）ポートやメモリカードスロットなど、外部装置と接続するためのインタフェースを含んでもよい。

入力装置１０６は、例えば、キーボード、マウス、タッチスクリーン、マイク、カメラ等であり、学習データ収集装置１００または学習装置１０００のユーザからのクエリテキストおよびクエリ画像の入力を受け付ける。入力装置１０６はまた、ユーザからの学習データ収集装置１００または学習装置１０００に対する操作も受け付けることができる。入力装置１０６は、入力された情報をＣＰＵ１０１に出力する。学習データ収集装置１００または学習装置１０００は、通信装置１０５を介してクエリテキストおよびクエリ画像を取得してもよい。

出力装置１０７は、例えば、ディスプレイ、スピーカ等であり、ＣＰＵ１０１から受け取った出力情報をユーザに提示する。出力装置１０７は、学習データ出力部１４から出力されるデータや、学習部１６によって出力される学習済みの物体検出器のパラメータなどを、ユーザに提示し、または他のデバイスに出力することができる。学習データ収集装置１００または学習装置１０００から出力される種々のデータは、通信装置１０５を介して他の装置に送信されてもよい。

［他の実施形態］
なお、この発明は上記実施形態に限定されるものではない。
例えば、学習データ収集装置１００または学習装置１０００において、特定部１３により候補画像から検出対象の領域（物体領域）を見出す処理には、上述したように、画像の物体らしさ（Objectness）や顕著性（Saliency）に基づく技術を用いることもできるし、あらかじめ収集された検出対象の物体に関する少数の画像をクエリ入力とするテンプレートマッチングなどを用いることもできる。

分類部１３１により用いられる閾値Ｔ_Ａと、領域特定部１３２により用いられる閾値Ｔ_Ｐおよび閾値Ｔ_Ｎは、任意に設定されてよい。閾値Ｔ_Ａの値を調整することによって、最終的に得られる学習データにおける正例データと負例データの比率を変化させることができる。また、閾値Ｔ_Ａをより大きい値に設定すれば、正例候補画像と判定される基準がより厳しくなり、正例候補画像として分類される候補画像の数が減少する。これにより、領域特定部１３２による正例画像の特定処理の負荷が軽減される。この場合、正例画像の特定に用いられる閾値Ｔ_Ｐをより大きい値に設定して、正例画像の特定精度を向上させることもでき、反対に閾値Ｔ_Ｐをより小さい値に設定して、正例画像の取りこぼしを防ぐこともできる。

また、分類部１３１は、単一の閾値Ｔ_Ａを用いて候補画像群を正例候補画像と負例候補画像の２つに分類するものとして説明したが、３以上の分類に分類してもよい。例えば、分類部１３１は、単一の閾値Ｔ_Ａの代わりに２つの閾値Ｔ_Ｂ，Ｔ_Ｃ（Ｔ_Ｂ＞Ｔ_Ｃ）を用いて候補画像を３グループに分類してもよい。一例として、図４のステップＳ３０５において、類似度がＴ_Ｂ以上の領域を１つでも含む画像は正例候補画像とし、類似度がＴ_Ｃ以上の領域を１つも含まない画像は負例候補画像とし、どちらにも当てはまらない（類似度Ｔ_Ｂ以上の領域は有しないが、類似度Ｔ_Ｃ以上の領域を有する）画像は破棄するようにしてもよい。これにより、後続の領域特定部１３２による処理負荷を軽減しつつ、判定精度を高めることができる。

あるいは、図４のステップＳ３０２において分類部１３１により画像内の物体領域の候補の位置情報が得られている場合、ステップＳ３０６において、その位置情報を正例候補画像とともに出力するようにしてもよい。この場合、さらに、領域特定部１３２の処理を省略し、ステップＳ３０６およびＳ３０７で得られる正例候補画像および負例候補画像をそのまま正例画像および負例画像として学習データ出力部１４に出力してもよい。同様に、分類部１３１の処理を省略し、候補画像取得部１２によって取得された第１の候補画像群を図５のステップＳ３５１に入力し、候補画像取得部１２によって取得された第２の候補画像群を図５のステップＳ３６１に入力して、それぞれ正例画像と負例画像の特定処理を行ってもよい。

画像データベース１５は、学習データ収集装置１００に内蔵される必要はなく、学習データ収集装置１００が通信装置１０５等を介してアクセス可能な外部のサーバに設けられてもよい。同様に、学習データ収集装置１００が備えるクエリ取得部１１、候補画像取得部１２、特定部１３、学習データ出力部１４、および学習部１６を複数の装置に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。

第２の実施形態に係る学習装置１０００が、第１の実施形態に係る学習データ収集装置１００の構成を包含するものとして説明するが、これに限定されない。第２の実施形態に係る学習装置は、第１の実施形態に係る学習データ収集装置１００とは別個の装置として実現されてもよい。

さらに、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。例えば、複数のプロセッサを用いて、図５に示したＡの正例候補画像に対する処理と、Ｂの負例候補画像に対する処理を並列に実行させてもよい。これにより、処理の高速化を図ることができる。同様に、図５のＡの処理とＢの処理を別個の装置に実行させて、処理分散を図ることも可能である。

以上で記載した手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウェア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ等）等の記録媒体（記憶媒体）に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段（実行プログラムのみならずテーブル、データ構造も含む）を計算機内に構成させる設定プログラムをも含む。上記装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…学習データ収集装置、１１…クエリ取得部、１１１…クエリテキスト取得部、１１２…クエリ画像取得部、１２…候補画像取得部、１３…特定部、１３１…分類部、１３２…領域特定部、１３３…検出部、１３４…識別部、１４…学習データ出力部、１５…画像データベース、１０００…学習装置、１６…学習部。

Claims

対象物体に関するクエリ画像およびクエリテキストを取得する第１取得部と、
前記クエリテキストを用いて前記対象物体の候補画像を取得する第２取得部と、
前記クエリ画像を用いて、前記候補画像から前記クエリ画像との類似度が閾値以上の領域を含む正例画像と、当該正例画像内の前記領域の位置とを特定する特定部と、
前記正例画像内の前記領域の位置を表す情報と、前記正例画像と、前記クエリテキストに基づく正解ラベルとを含む学習データを出力する、学習データ出力部と、
を備える学習データ収集装置。
前記候補画像は、第１の候補画像と第２の候補画像とを含み、
前記第２取得部は、画像群を蓄積するデータベースから、前記クエリテキストを用いて検索を行うことによって前記第１の候補画像を取得し、前記クエリテキスト以外のクエリを用いて検索を行うことによって前記第２の候補画像を取得する、
請求項１に記載の学習データ収集装置。
前記特定部は、前記候補画像から前記クエリ画像との類似度が閾値以上の領域を含まない負例画像をさらに特定し、
前記学習データ出力部は、前記負例画像と、前記正解ラベルとは異なるラベルとを含む負例データをさらに出力する、
請求項２に記載の学習データ収集装置。
前記特定部は、
前記候補画像を前記クエリ画像との類似度に応じて正例候補画像と負例候補画像とに分類する分類部と、
前記正例候補画像から、前記クエリ画像との類似度が閾値以上の領域を含む画像を前記正例画像として特定するとともに、当該正例画像内の前記領域の位置を特定し、前記負例候補画像から、前記クエリ画像との類似度が閾値以上の領域を含まない画像を前記負例画像として特定する、領域特定部と
を備える、請求項３に記載の学習データ収集装置。
前記第１取得部は、入力された文字、画像、音声、または前記クエリ画像のうちの少なくとも１つに基づいて前記クエリテキストを取得する、請求項１乃至４のいずれか一項に記載の学習データ収集装置。
対象物体に関するクエリ画像およびクエリテキストを取得する第１取得部と、
前記クエリテキストを用いて前記対象物体の候補画像を取得する第２取得部と、
前記クエリ画像を用いて、前記候補画像から前記クエリ画像との類似度が閾値以上の領域を含む正例画像と、当該正例画像内の前記領域の位置とを特定する特定部と、
前記正例画像内の前記領域の位置を表す情報と、前記正例画像と、前記クエリテキストに基づく正解ラベルとを含む学習データを出力する、学習データ出力部と、
前記学習データ出力部から出力される学習データを用いて、入力された画像から前記対象物体の位置を表す情報と前記正解ラベルとを出力する物体検出モデルの学習をする学習部と
を備える学習装置。
対象物体に関するクエリ画像およびクエリテキストを取得することと、
前記クエリテキストを用いて前記対象物体の候補画像を取得することと、
前記クエリ画像を用いて、前記候補画像から前記クエリ画像との類似度が閾値以上の領域を含む正例画像と、当該正例画像内の前記領域の位置とを特定することと、
前記正例画像内の前記領域の位置を表す情報と、前記正例画像と、前記クエリテキストに基づく正解ラベルとを含む学習データを出力することと、
を備える学習データ収集方法。
請求項１乃至６のいずれか一項に記載の装置の各部による処理をコンピュータに実行させるプログラム。