JP7104252B2

JP7104252B2 - 学習データセット生成装置および方法

Info

Publication number: JP7104252B2
Application number: JP2021572242A
Authority: JP
Inventors: 友輔生内
Original assignee: Hitachi Kokusai Electric Inc
Current assignee: Hitachi Kokusai Electric Inc
Priority date: 2020-01-24
Filing date: 2020-01-24
Publication date: 2022-07-20
Anticipated expiration: 2040-01-24
Also published as: JPWO2021149252A1; WO2021149252A1

Description

本発明は、学習データセット生成装置、および学習データセット生成方法に関する。

従来、学習モデルを用いて、処理対象の画像について、対象物の識別や分類や属性分析や予測や解析などの画像処理を行うことが知られている。このような学習モデルの機械学習には、機械学習用の学習データセットが使用される。

この種の学習データセットの生成には、次のような人手による作業が行われる。

（工程１）作業者は、入力画像の一つ一つについて絵柄を視認によって確認する。作業者は、画像処理において処理対象にすべき特徴的な画像領域（特定の被写体などの領域）を見つけると、その画像領域を作業画面上で領域選択し、学習対象領域とする。

（工程２）作業者は、入力した学習対象領域に対して、画像処理の処理結果として所望する正解データを「タグ情報」として属性付与する。このタグ情報は、学習対象領域を特徴付ける情報であって、機械学習における教師データなどとして使用される。

また、特許文献１には、学習データセットの作成において学習対象領域を決定する手法の一つとして、「汎用的な物体検出器を利用して物体として推定される矩形画像を検出し、それを候補矩形として推定する手法において、物体画像と背景画像との画像特徴量の差異や、画像から検知した物体の輪郭情報などをもとに候補矩形を推定する」旨の技術が開示される。

特開２０１９－７５１３０号公報

一般に、学習モデルの正解率や汎化性能は、学習データセットに含まれる学習データの数量や多様性によって決定される。そのため、学習データセットを準備する際には、学習用に収集される膨大かつ多種多様な入力画像を扱わなければならない。

例えば、前述した人手による作業では、膨大かつ多種多様な入力画像の一つ一つについて視認を繰り返しながら、学習対象領域を入力しなければならず、多大な作業工数が必要になる。

また、特許文献１の技術は、「物体画像と背景画像との画像特徴量の差異」や「画像から検知した物体の輪郭情報」に基づいて学習対象領域の領域候補を推定する点で、工数削減に有効な手法と考えられる。
しかしながら、この「物体画像と背景画像との画像特徴量の差異」に基づく手法は、室内人工照明下の定点カメラの入力画像のように、「入力画像の背景が既知かつ一定とみなせるケース」に特化して有効な技術である。
また、この「画像から検知した物体の輪郭情報」に基づく手法は、「学習対象領域に輪郭情報が集中し、それ以外に輪郭情報が少ないケース」に特化して有効な技術である。
そのため、特許文献１の技術では、膨大かつ多種多様な入力画像の事前処理に柔軟にかつ十分に対応できないおそれがある。

そこで、本発明は、学習対象領域の領域候補を検出するに際して、膨大かつ多種多様な入力画像の処理に対応するための技術を提供することを目的とする。

上記課題を解決するために、本発明の代表的な学習データセット生成装置の一つは、学習データ用に収集される入力画像の画像領域から、機械学習の学習対象としてタグ付けを行う学習対象領域の領域候補を検出する装置であって、対象外格納部、対象外選択部、および領域候補抽出部を備える。
前記対象外格納部は、前記学習対象領域を画像領域に含まない対象外画像の群を対象外データセットとして格納する。
前記対象外選択部は、前記入力画像と前記対象外データセットとの間で差異を評価し、前記差異の評価結果に基づいて、前記入力画像に適応する対象外画像を前記対象外データセットから選択する。
前記領域候補抽出部は、前記対象外選択部によって選択された前記対象外画像と前記入力画像との間の差異領域の領域分布に基づいて、前記領域候補を検出する。

本発明では、学習対象領域の領域候補を検出するに際して、膨大かつ多種多様な入力画像の処理に対応するための技術が提供される。

上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。

図１は、実施例１の学習データセット生成装置１００の構成を示す図である。図２は、対象外データセット１１２Ａの準備処理を示す流れ図である。図３は、対象外データセット１１２Ａの準備時に実施される対象外画像の抽出過程を示す説明図である。図４は、学習対象領域の領域候補の検出処理を説明する流れ図（１／２）である。図５は、学習対象領域の領域候補の検出処理を説明する流れ図（２／２）である。図６は、学習データセット生成装置１００の内部データの流れを示す説明図である。図７は、学習データセット生成装置１００による画像処理の様子を示す説明図である。図８は、インタフェース部１９０の動作を説明する流れ図である。図９は、学習データセット１１４のデータ構造の一例を示す図である。図１０は、表示画面の一例を示す図である。

以下、本発明の実施例について図面を用いて説明する。

＜実施例１の構成について＞
図１は、実施例１の学習データセット生成装置１００の構成を示す図である。
同図において、学習データセット生成装置１００は、補助記憶部１１０、対象外選択部１３０、領域候補抽出部１４０、領域候補継承部１５０、動体判別部１６０、代表画像生成部１７０、対象外生成部１８０、インタフェース部１９０、および学習モデル部２１０を備える。

補助記憶部１１０の記憶領域には、対象外候補格納部１１１、対象外格納部１１２、入力画像格納部１１３、学習データセット１１４、および学習データセット生成プログラム１１５が設けられる。

対象外候補格納部１１１には、対象外画像の候補として収集された画像群が格納される。

対象外格納部１１２には、対象外生成部１８０などによって生成される対象外画像（学習対象領域を画像領域に含まない画像）の群が、対象外データセット１１２Ａとして格納される。

入力画像格納部１１３には、学習データセットの材料として収集された入力画像の群が格納される。

学習データセット１１４には、例えば（入力画像、学習対象領域、タグ情報）を参照可能な学習セットのリストデータが格納される。

対象外選択部１３０は、入力画像格納部１１３から処理対象とする入力画像を取り込む。また、対象外選択部１３０は、対象外格納部１１２の対象外データセット１１２Ａを取り込む。対象外選択部１３０は、入力画像と対象外データセット１１２Ａとの間で差異を評価し、差異の評価結果に基づいて入力画像に適応する対象外画像を対象外データセット１１２Ａから選択する。

領域候補抽出部１４０は、対象外選択部１３０によって選択された対象外画像と、入力画像との間の差異領域の領域分布に基づいて、入力画像における学習対象領域の領域候補を検出する。

領域候補継承部１５０は、対象外画像の選択処理について信頼性を評価する。ここで、信頼性が低く評価された場合、領域候補継承部１５０は、入力画像の前（または後）の所定フレーム数以内で検出された領域候補に基づいて、入力画像の領域候補を決定する。

動体判別部１６０は、対象外候補格納部１１１から、対象外画像の候補として収集された画像の群を取り込む。動体判別部１６０は、これらの画像の群に対して動体の検知を行い、「動体を含まない画像」の群を選別する。

代表画像生成部１７０は、「動体を含まない画像」の群についてクラスタリングを行うことによって、類似する画像による冗長性を削減した代表画像の群を生成する。

対象外生成部１８０は、代表画像の群に基づいて、対象外データセット１１２Ａを追加または新規作成する。対象外生成部１８０は、対象外データセット１１２Ａを対象外格納部１１２に格納する。

インタフェース部１９０は、有線や無線のネットワークＮＷを介して、クライアント端末２００に通信接続される。例えば、クライアント端末２００は、複数の作業者が同時作業可能なように複数用意される。

インタフェース部１９０は、領域候補抽出部１４０により検出された領域候補を表示するための表示域と、領域候補の検出に使用した対象外画像を表示するための表示域とを含む表示画面を生成する。生成された表示画面は、ネットワークＮＷを介してクライアント端末２００に表示される。作業者はクライアント端末２００のブラウザプログラムなどを操作して、表示される領域候補について学習対象領域としての是非の判断や領域の訂正などの情報入力を行い、入力画像における学習対象領域を確定する。さらに、作業者は、確定された学習対象領域について、タグ情報を教師データとして入力設定する。

インタフェース部１９０は、クライアント端末２００から取得した（入力画像、学習対象領域、タグ情報）を含む学習セットを作成し、学習データセット１１４に追加する。

なお、学習データセット生成装置１００は、学習モデル部２１０を備えてもよい。この学習モデル部２１０は、少なくとも入力画像について入力する入力層２１１と、機械学習のための中間層２１２と、領域候補について出力する出力層２１３とを備える。

以上説明した学習データセット生成装置１００は、ハードウェアとしてＣＰＵ（Central Processing Unit）やメモリなどを備えたコンピュータシステムとして構成される。このハードウェアがコンピュータ可読媒体に記憶された学習データセット生成プログラム１１５を実行することにより、上述した装置としての各種機能が実現する。なお、このハードウェアの一部または全部については、専用の装置、汎用の機械学習マシン、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）、ＰＬＤ(programmable logic device）などで代替してもよい。さらに、ハードウェアやプログラムの一部または全部をネットワークＮＷ上のサーバに集中または分散してクラウドシステムを構成することにより、複数のクライアント端末２００に対して各種機能をクラウドサービスとして提供してもよい。

＜対象外データセット１１２Ａの準備処理＞
まず、学習データセット生成装置１００が実施する「対象外データセット１１２Ａの準備処理」について説明する。
図２は、対象外データセット１１２Ａの準備処理を示す流れ図である。
図３は、対象外データセット１１２Ａの準備時に実施される対象外画像の抽出過程を示す説明図である。
以下、図２および図３を用いて説明する。

ステップＳ１０１：対象外候補格納部１１１には、対象外画像の候補として収集された画像の群が格納される。これらの画像の群は、次のように収集された画像群を含んでもよい。
（対象外画像の候補１）不特定に収集される画像群
（対象外画像の候補２）学習用に収集されながら、学習対象領域を含まないと判断された不特定の画像群
（対象外画像の候補３）入力画像に近い入手元（カメラなど）や入手地域において、照明条件や日照条件（季節や撮影時刻）や撮影対象などの撮影条件を不特定に変えて収集した画像群
動体判別部１６０は、対象外候補格納部１１１から、これらの画像群を含む対象外画像の候補を取り込む。

ステップＳ１０２：動体判別部１６０は、画像の群に対して画像領域に動体を含むか否かの検知を行う。

例えば、時系列に撮影される画像の群（動画像や連写画像）については、フレーム間差が所定の閾値未満の画像を「動体を含まない画像３０２」として選別し、フレーム間差が閾値以上の画像を「動体を含む画像３０３」として選別する。

また例えば、単独の画像については、動体判別部１６０は、画像領域における被写体の輪郭幅を検知し、輪郭幅の最大値が所定の閾値未満で静止している画像を「動体を含まない画像３０２」として選別し、輪郭幅の最大値が閾値以上で輪郭がぶれている画像を「動体を含む画像３０３」として選別する。

ここで、動体判別部１６０は、「動体を含む画像３０３」を対象外画像の候補から除外することによって、「動体を含まない画像３０２」を対象外画像の候補として残す。

ステップＳ１０３：代表画像生成部１７０は、「動体を含まない画像３０２」の相互間において画像の差異（画像間距離や非類似度など）を求める。代表画像生成部１７０は、画像の差異の小さい画像をグループ単位に集めることによって、「動体を含まない画像３０２」を複数のグループ３０４に分類（クラスタリング）する。

ステップＳ１０４：代表画像生成部１７０は、グループ３０４ごとにクラスタリングの分布重心に比較的近い画像（そのような画像が複数存在する場合は、複数画像を加重加算などの合成処理した画像）をグループ３０４ごとに代表画像として抽出する。この代表画像の抽出により、類似する画像による冗長性を削減した代表画像の群が生成される。

ステップＳ１０５：対象外生成部１８０は、代表画像生成部１７０により生成される代表画像の群を、対象外格納部１１２に格納し、対象外データセット１１２Ａの新規作成または追加更新（すなわち増補）を行う。
上述した一連の動作により、学習データセット生成装置１００は、対象外データセット１１２Ａを準備することが可能になる。

＜学習対象領域の領域候補の検出＞
続いて、学習データセット生成装置１００が実施する「学習対象領域の領域候補の検出」について説明する。
図４および図５は、学習対象領域の領域候補の検出処理を説明する流れ図である。
図６は、学習データセット生成装置１００の内部データの流れを示す説明図である。
図７は、学習データセット生成装置１００による画像処理の様子を示す説明図である。
なお、図６および図７において、図１と同じ構成については同一の参照符号を付与し、ここでの重複説明を省略する。
以下、図１および図４～図７に基づいて「学習対象領域の領域候補の検出処理」を説明する。

ステップＳ２０１：対象外選択部１３０は、学習データとして処理待ちの入力画像を入力画像格納部１１３から取得する。

このような入力画像に対しては、ノイズやフリッカなどの影響を低減するための前処理として、平滑化フィルタ、輪郭強調フィルタ、濃度変換などの処理を施してもよい。また、機械学習の用途などに応じて、画像のデータ形式をRGB、YUV、モノクロなどに適宜変換してもよい。さらに、処理負荷を低減するため、画像サイズを縮小する処理を施してもよい。

ステップＳ２０２：対象外選択部１３０は、対象外データセット１１２Ａから対象外画像を一つ取得する。

このとき、入力画像を対象外画像と同様にクラスタリング（ステップＳ１０３参照）することにより、入力画像が分類されたグループを代表する対象外画像を優先的に読み出すことが好ましい。

また、対象外データセット１１２Ａに格納される対象外画像の内、前回選択された対象外画像や、選択頻度の高い対象外画像から優先的に読み出してもよい。

ステップＳ２０３：対象外選択部１３０は、入力画像と対象外画像との間の差異（図７参照）について、局所的などの有意な差異か、全域的などの無意味な差異かを、例えば次の項目について評価する。

（差異評価１）差異の絶対値和
差異の絶対値和が低い場合、入力画像と対象外画像との差異は少なく、局所的で有意な差異と評価される。

（差異評価２）差異領域の面積
差異領域の面積が狭い場合、入力画像と対象外画像との差異領域は狭く、局所的で有意な差異と評価される。

（差異評価３）差異の領域形状
差異の領域形状が特定の形状（人型、建物型、乗物型、電柱型、標識型、図形型、商品型、病巣型など）に近いほど、入力画像と対象外画像との差異は特徴的で有意な差異と評価される。ここでの特定の形状は、学習データセットの目的および用途に応じて適宜に設定される。

（差異評価４）差異の領域数
差異の領域数が少ないほど、入力画像と対象外画像との差異は集約され、局所的で有意な差異と評価される。

（差異評価５）差異の集中度
差異の画像領域内での集中度が高いほど、入力画像と対象外画像との差異は集中し、局所的で有意な差異と評価される。

なお、ここでの評価については、対象外選択部１３０は、画像領域について適当な標本数の箇所で簡略に実施してもよい。また、評価途中で低評価と判明した場合は、対象外選択部１３０は、評価の完了を待たずに低評価と判定してもよい。さらに、差異の評価を簡略化するために、差異領域に対して、サイズ調整、二値化、孤立点除去、および輪郭抽出などの前処理を併用してもよい。これらの処理によって、差異の評価に必要な処理負荷を軽減することが可能になる。

ステップＳ２０４：対象外選択部１３０は、対象外データセット１１２Ａに残りの対象外画像があるかを判定する。
残りの対象外画像がある場合、対象外選択部１３０はステップＳ２０２に動作を戻す。
一方、残りの対象外画像がない場合、対象外選択部１３０はステップＳ２０５に動作を進める。

ステップＳ２０５：対象外選択部１３０は、差異の評価結果に基づいて、入力画像に対して有意な差異を示す対象外画像が存在するか否かを判定する。
入力画像に対して有意な差異を示す対象外画像が存在する場合、対象外選択部１３０はステップＳ２０７に動作を移行する。
一方、入力画像に対して有意な差異を示す対象外画像が見つからない場合、対象外選択部１３０はステップＳ２０６に動作を進める。

ステップＳ２０６：ここでは、領域候補の抽出に適した対象外画像が見つからないため、領域候補継承部１５０は、対象外画像の選択処理について信頼できる結果が得られなかった（つまり信頼性が低い）と評価する。この場合、領域候補継承部１５０は、入力画像から所定フレーム数以内で検出された領域候補に基づいて、入力画像の領域候補を決定する。このような継承動作は、一連の入力画像において、画像領域内の領域候補の位置や範囲が継承される可能性が高いとの理由に基づく。
この動作の後、領域候補継承部１５０はステップＳ２０９に動作を移行する。

ステップＳ２０７：対象外選択部１３０は、差異の評価結果が充分に高い対象外画像を、入力画像に適応する対象外画像として一つまたは複数選択する。

ステップＳ２０８：領域候補抽出部１４０は、入力画像に適応するとして選択された対象外画像と、入力画像との間で差異領域の領域分布を求める。ここでの領域分布は、ステップＳ２０５の判定を経るため、局所的などの有意な領域分布である。領域候補抽出部１４０は、この有意な領域分布に基づいて、入力画像における学習対象領域の領域候補を検出する。

なお、領域候補抽出部１４０は、図７に示すように、差異評価の過程（ステップＳ２０３参照）で生成される差異領域の情報を利用して、入力画像における学習対象領域の領域候補を検出してもよい。

また、ステップＳ２０７において、入力画像に適応する対象外画像が複数選択された場合、領域候補抽出部１４０は、複数の対象外画像それぞれに対応して、複数の領域候補を検出する。

領域候補抽出部１４０は、（入力画像、領域候補、対象外画像）のセットをインタフェース部１９０に出力する。インタフェース部１９０の動作については後述する。

ステップＳ２０９：対象外選択部１３０は、入力画像格納部１１３に処理待ちの入力画像が残っているか否かを判定する。
処理待ちの入力画像がある場合、対象外選択部１３０はステップＳ２０１に動作を戻して、上述した動作を新たな入力画像に対して繰り返す。
一方、入力画像に対する学習対象領域の領域候補検出が全て完了した場合、対象外選択部１３０は動作を完了する。

上述した一連の動作により、膨大な入力画像に対して、学習対象領域の領域候補検出が自動的に実施される。

＜インタフェース部１９０の動作＞
続いて、インタフェース部１９０の動作について説明する。
図８は、インタフェース部１９０の動作を説明する流れ図である。
図９は、学習データセット１１４のデータ構造の一例を示す図である。なお、図９において、図１と同じ構成については同一の参照符号を付与し、ここでの重複説明を省略する。
以下、図１および図８～図９に基づいて「インタフェース部１９０の動作」を説明する。

ステップＳ３０１：インタフェース部１９０は、領域候補抽出部１４０または領域候補継承部１５０によって生成された（入力画像、領域候補、対象外画像）を含むセットを情報取得する。

ステップＳ３０２：インタフェース部１９０は、領域候補を表示するための表示域と、領域候補の検出に使用した対象外画像を表示するための表示域とを含む表示画面のデータを、ネットワークＮＷを介して、クライアント端末２００に伝達する。クライアント端末２００は、ブラウザプログラムなどを用いて、伝達される表示画面を表示する。表示画面の例については後述する。

ステップＳ３０３：学習データセット１１４の監修を行う作業者は、表示画面上の領域候補を参考にしながらクライアント端末２００を操作し、「領域候補が学習対象領域として是か非か」や「領域候補の領域訂正」などを入力する。インタフェース部１９０は、これら入力に応じて領域候補を修正ないし削除することによって、入力画像における学習対象領域を確定する。

ステップＳ３０４：作業者は、クライアント端末２００を操作し、学習対象領域に付与するタグ情報を入力する。この入力に応じて、インタフェース部１９０は、学習対象領域に付与するタグ情報を確定する。

ステップＳ３０５：インタフェース部１９０は、クライアント端末２００から取得した（入力画像、学習対象領域、タグ情報）などを学習セットとして、学習データセット１１４に追加する。

例えば、学習データセット１１４は、図９に示すデータ構造をとる。この学習データセット１１４には、入力画像ごとに対応付けて、学習対象領域およびタグ情報の情報が格納される。さらに、学習データセット１１４には、機械学習などに際して有用な属性情報が格納される。例えば、学習セットを生成した学習データセット生成装置１００の識別フラグや作業者のＩＤコードなどが、属性情報の「生成元」項目に格納される。なお、学習データセット１１４に格納されるデータは、実データに限らず、実データを参照可能な参照データでもよい。

ステップＳ３０６：インタフェース部１９０は、学習データセット生成装置１００として処理待ちの（入力画像、領域候補、対象外画像）などのセットが残っているか否かを判定する。
処理待ちのセットがある場合、インタフェース部１９０はステップＳ３０１に動作を戻して、上述した動作を繰り返す。

一方、処理待ちの（入力画像、領域候補、対象外画像）のセットが払底した場合、インタフェース部１９０は一旦動作を完了し、処理待ちの（入力画像、領域候補、対象外画像）が再び蓄積されるまで待機する。

上述した一連の動作により、学習データセット１１４の生成がなされる。

＜学習データセット生成装置１００の表示画面について＞
続いて、インタフェース部１９０が生成する表示画面について説明する。
図１０は、表示画面の一例を示す図である。
同図に示す表示画面１００１は、クライアント端末２００の画面上にタグ付けツールの操作ウィンドウとして表示される。
この表示画面１００１は、次のＧＵＩ部品によってレイアウト構成される。

・セッション選択パート１００２
セッションは、学習データセット生成の作業単位に相当する。セッションは、作業単位の情報を管理するためのデータフォルダに関連付けられる。このデータフォルダには、作業中または作業済みの入力画像やタグ情報や学習対象領域などの作業情報が格納される。作業者は、セッション選択パート１００２を操作してセッションに関連するデータフォルダを新規作成することにより、学習データセット生成の作業（セッション）を新規に開始することができる。また、作業者は、過去のセッションを選択することにより、関連するデータフォルダを開いて学習データセット生成の作業を随時に再開することができる。

・学習画像フォルダ選択パート１００３
学習画像フォルダ選択パート１００３は、入力画像の入力元フォルダ（複数選択可）を指定するためのＧＵＩ部品である。

・対象外データセット登録パート１００４
対象外データセット登録パート１００４は、領域候補の検出に使用する対象外データセット１１２Ａのフォルダを登録するためＧＵＩ部品である。

・クラス追加パート１００５、クラス入力欄パート１００６、クラス名一覧表パート１００７
図１０に示す操作ウィンドウでは、タグ情報は、例えばクラス分類として管理される。作業者は、タグ情報としてのクラス名をクラス入力欄パート１００６に入力してクラス追加パート１００５を操作することによって、任意の名前のタグ情報のクラスを新規作成することができる。作成されたタグ情報のクラスはクラス名一覧表パート１００７に表示される。作業者は、クラス名一覧表パート１００７をメニュー選択することにより、学習対象領域に付与するタグ情報のクラスを選択する。また、作業者は、過去に学習対象領域に付与されたタグ情報のクラスを一括または部分的に修正または削除することもできる。

・入力画像の表示域１００９
表示域１００９は、処理対象である入力画像を表示する。作業者は表示域１００９を選択操作し、マウスホイールや十字キーなどで処理対象の入力画像を切り替えることができる。

・領域候補の表示域１０１０
表示域１０１０は、学習対象領域の領域候補を、矩形枠または輪郭強調表示などを入力画像の表示域１００９に重畳させた形式で表示する。
作業者は、表示される領域候補をＧＵＩ操作することで、学習対象領域としての是非判断や領域訂正の入力操作を行う。このような操作によって、学習対象領域が確定される。
また、表示域１０１１に対する操作では、一つの入力画像に対して複数の学習対象領域を確定することもできる。また、入力画像の画像全域を学習対象領域に確定することもできる。
なお、上述のステップＳ２０８において複数の領域候補が検出された場合、複数の領域候補それぞれに対応する複数の表示域１０１０が、同時または順次に表示画面１００１に表示される。

・領域候補の検出に使用した対象外画像の表示域１０１１
表示域１０１１は、登録された対象外データセット１１２Ａの内で、領域候補の検出に使用した対象外画像を強調枠表示する。

・セッション保存パート１０１２
作業者がセッション保存パート１０１２を操作することにより、セッションの作業データは、セッションに関連付けられたデータフォルダに保存される。なお、セッションの保存は、入力画像のタグ付けが完了した時点で自動的に行ってもよい。また、入力画像を切り替えるたびにセッションを自動的に保存してもよい。さらに、各操作の合間にセッションを自動的に保存してもよい。

以上説明した表示画面の操作により、作業者は、領域候補を参考にしながら、学習データセットを効率良く作成できる。

＜学習モデル部２１０について＞
次に、学習モデル部２１０について説明する。

図１に示す学習モデル部２１０では、インタフェース部１９０により確定する学習対象領域を教師データとして、少なくとも入力画像の群について誤差逆伝播法などの機械学習が実施される。

この機械学習によって、入力画像と学習対象領域との間に相関関係を有する入力画像の群については、重み係数やバイアス値などの最適化が学習モデル部２１０に行われる。この機械学習の最適化の進展により、学習モデル部２１０は、新たな入力画像を入力層２１１に与えることによって、領域候補の推定結果を出力層２１３に出力するようになる。

その結果、学習データセット生成装置１００の一部または全部の機能を補完または代替する学習モデル部２１０が得られる。

＜効果について＞
以下、実施例１が奏する顕著な効果について説明する。

（１）実施例１では、学習対象領域を画像領域に含まない対象外画像の群と、入力画像との間で差異が評価される。この差異の評価結果に基づいて、入力画像において有意な差異を示す領域が求められる。この有意な差異の領域分布に基づくことにより、入力画像内の学習対象領域の領域候補を検出することが可能になる。

（２）実施例１が、特許文献１の技術と大きく異なるのは、上記（１）に述べたように入力画像の背景を特化することなく、入力画像から有意な差異を示す領域を求めている点である。したがって、学習対象領域の領域候補を検出するに際して、「背景が既知かつ一定の入力画像」に特化する必要がなく、膨大かつ多種多様な入力画像の処理に対応することが可能になる。

（３）さらに、実施例１が、特許文献１の技術と大きく異なるのは、対象外画像の群と入力画像との差異を求めることで差異以外の情報が削減されるため、「学習対象領域に輪郭情報が集中し、それ以外に輪郭情報が少ない入力画像」に特化する必要がない点である。この点からも、実施例１は、膨大かつ多種多様な入力画像の処理に対応することが可能になる。

（４）実施例１では、対象外画像の選択処理について信頼性が低い場合、入力画像から所定フレーム数以内で検出された領域候補に基づいて、入力画像の領域候補を決定する。学習データセット用に収集される入力画像は動画や連写画像のように時系列の画像として収集されるケースがある。この場合、学習対象領域の領域候補はフレーム間で連続するため、所定フレーム数以内において領域候補の継続性は高くなる。したがって、対象外画像の選択処理について信頼性が低い場合であっても、一定の信頼性で領域候補を決定することが可能になる。

（５）実施例１では、画像の群から対象外画像の群を自動的に選別する。すなわち、画像の群に対して動体の検知を行って「動体を含まない画像」を選別し、その選別結果に基づいて対象外画像の群を得る。学習対象領域が動体に該当する多くのケースでは、「動体を含まない画像」を選別することによって、学習対象領域を含まない対象外画像の群を効率的に得ることが可能になる。

（６）実施例１では、対象外画像の群をさらに絞り込む。すなわち、「動体を含まない画像」の群に対してクラスタリングを行って、類似画像による冗長性を削減した代表画像の群を得る。このような代表画像に基づく対象外画像は、「冗長性削減の度合い」に応じて類似画像が除外されるため、厳選される。したがって、対象外画像の群を利用した処理の負荷を軽減することが可能になる。

（７）実施例１では、対象外画像の群に対する「冗長性削減の度合い」に応じて、対象外画像一つ一つは類似しなくなる。そのため、これら対象外画像と入力画像との差異一つ一つも類似しなくなる。したがって、上述のステップＳ２０７において対象外画像が複数選択された場合、ステップＳ２０８において「互いに類似しない領域候補」を複数検出することが可能になる。

（８）実施例１では、決定された領域候補を情報出力し、学習対象領域としての是非判断または領域訂正の情報入力を受け付けることによって、入力画像における学習対象領域を確定することもできる。したがって、学習データセット生成装置１００は、外部（例えば、作業者）と連携することによって、領域候補を参考材料として学習対象領域の効率的な確定作業が可能になる。

（９）実施例１では、検出された領域候補を表示するための表示域と、領域候補の検出に使用した対象外画像を表示するための表示域とを含む表示画面を生成する。この領域候補の表示により、作業者にとって学習対象領域の判断が容易かつ迅速化される。また、領域候補の検出に使用した対象外画像の表示により、作業者やシステム運営者に対して領域候補の検出された経緯を確認させることが可能になる。

（１０）実施例１では、少なくとも入力画像について入力する入力層と、機械学習のための中間層と、領域候補について出力する出力層とを有する学習モデル部２１０をさらに備える。この学習モデル部２１０において、確定する学習対象領域を教師データとして、少なくとも入力画像の群について機械学習が行われる。この学習モデル部２１０によって領域候補の推定を行うことにより、学習データセット生成装置１００の機能の一部または全部を補完または代替することが可能になる。

（１１）実施例１では、上述した各効果の相乗作用によって、学習データセットを効率的に生成することが可能になる。そのため、莫大かつ多種多様な学習データセットを一段と低コストに生成することが可能になる。

＜実施形態の補足事項について＞
なお、実施形態では、学習データセット生成装置１００を複数のクライアント端末２００に接続したシステム構成について説明した。しかしながら、本発明はこの構成に限定されるものではない。例えば、本発明を、単独の装置（コンピュータなど）で実現してもよい。

また、実施形態の図１では、対象外格納部１１２を、学習データセット生成装置１００に専属する構成として説明した。しかしながら、本発明はこの構成に限定されるものではない。対象外格納部１１２に格納される対象外データセット１１２Ａは、「学習対象領域を画像領域に含まない対象外画像の群」という性質において汎用的なデータセットである。そのため、対象外格納部１１２を、（専属の構成にせずに）複数の学習データセット生成装置１００が共同利用するようにしてもよい。この場合、多数の学習データセット生成装置１００の共同利用によって急速に蓄積されるデータを使用して、対象外データセット１１２Ａのデータ量や汎用性を一段と速く高めることが可能になる。

さらに、本発明では、専門の対象外データセット１１２Ａを作成することもできる。すなわち、機械学習の目的別やテーマ別に、「目的やテーマに則した学習対象領域」を含まない対象外データセット１１２Ａを作成することができる。この場合、機械学習の目的別やテーマ別に専門の対象外データセット１１２Ａを選択使用することによって、機械学習の目的やテーマに則した学習対象領域の領域候補を決定することが可能になる。

また、実施形態では、クライアント端末２００による領域候補の確認・修正を経て、学習対象領域を確定する。しかしながら、本発明はこれに限定されない。検出された領域候補は有意な差異であることが保証されるので、領域候補を自動的（またはデフォルト設定で）学習対象領域に確定することもできる。この場合、作業者は領域候補（つまり学習対象領域）に対するタグ情報の付与に集中できるので、作業効率は一層高くなる。一般に、領域候補について慎重な確認・修正が必要か否かは、機械学習の目的別やテーマ別に定まる学習データセットの要求（設計仕様など）に応じて決定することが好ましい。

さらに、本発明で扱うデータ全般（各種の画像群や領域情報やタグ情報など）については、実データや参照データなどのいずれを使用してもよい。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されない。また、実施例の構成の一部を他の構成に置き換えることも可能である。また、実施例の構成に他の構成を加えることも可能である。

１００…学習データセット生成装置、１１０…補助記憶部、１１１…対象外候補格納部、１１２…対象外格納部、１１２Ａ…対象外データセット、１１３…入力画像格納部、１１４…学習データセット、１１５…学習データセット生成プログラム、１３０…対象外選択部、１４０…領域候補抽出部、１５０…領域候補継承部、１６０…動体判別部、１７０…代表画像生成部、１８０…対象外生成部、１９０…インタフェース部、２００…クライアント端末、２１０…学習モデル部、２１１…入力層、２１２…中間層、２１３…出力層、１００１…表示画面、１００２…セッション選択パート、１００３…学習画像フォルダ選択パート、１００４…対象外データセット登録パート、１００５…クラス追加パート、１００６…クラス入力欄パート、１００７…クラス名一覧表パート、１００９…入力画像の表示域、１０１０…領域候補の表示域、１０１１…領域候補の検出に使用した対象外画像の表示域、１０１２…セッション保存パート、ＮＷ…ネットワーク

Claims

学習データ用に収集される入力画像の画像領域から、機械学習の学習対象としてタグ付けを行う学習対象領域の領域候補を検出する学習データセット生成装置であって、
前記学習対象領域を画像領域に含まない対象外画像の群を対象外データセットとして格納する対象外格納部と、
前記入力画像と前記対象外データセットとの間で差異を評価し、前記差異の評価結果に基づいて、前記入力画像に適応する対象外画像を前記対象外データセットから選択する対象外選択部と、
前記対象外選択部によって選択された前記対象外画像と前記入力画像との間の差異領域の領域分布に基づいて、前記領域候補を検出する領域候補抽出部と
を備えることを特徴とする学習データセット生成装置。
請求項１に記載の学習データセット生成装置であって、
前記対象外画像の選択処理について信頼性を評価し、前記信頼性が低評価の場合、前記入力画像から所定フレーム数以内で検出された前記領域候補に基づいて、前記入力画像の前記領域候補を決定する領域候補継承部を備える
ことを特徴とする学習データセット生成装置。
請求項１～２のいずれか一項に記載の学習データセット生成装置であって、
画像の群に対して動体の検知を行い、「動体を含まない画像」の群を選別する動体判別部と、
前記「動体を含まない画像」の群から前記対象外データセットを生成する対象外生成部と
を備えることを特徴とする学習データセット生成装置。
請求項３に記載の学習データセット生成装置であって、
前記「動体を含まない画像」の群についてクラスタリングを行うことによって、類似する画像による冗長性を削減した代表画像の群を生成する代表画像生成部を備え、
前記対象外生成部は、前記代表画像の群に基づいて前記対象外データセットを生成する
ことを特徴とする学習データセット生成装置。
請求項１～４のいずれか一項に記載の学習データセット生成装置であって、
前記領域候補抽出部によって決定された前記領域候補を情報出力し、前記学習対象領域としての是非判断または領域訂正の情報入力を受け付けることによって、前記入力画像における前記学習対象領域を確定するインタフェース部
を備えたことを特徴とする学習データセット生成装置。
請求項５に記載の学習データセット生成装置であって、
前記インタフェース部は、前記領域候補抽出部によって検出された前記領域候補を表示するための表示域と、前記領域候補の検出に使用した前記対象外画像を表示するための表示域とを含む表示画面を生成する
ことを特徴とする学習データセット生成装置。
請求項５～６のいずれか一項に記載の学習データセット生成装置であって、
少なくとも前記入力画像について入力する入力層と、機械学習のための中間層と、前記領域候補について出力する出力層とを有する学習モデル部をさらに備え、
前記学習モデル部は、前記インタフェース部において確定する前記学習対象領域を教師データとして、少なくとも前記入力画像の群について機械学習を行う
ことを特徴とする学習データセット生成装置。
学習データ用に収集される入力画像の画像領域から、機械学習の学習対象としてタグ付けを行う学習対象領域の領域候補を検出する学習データセット生成方法であって、
前記学習対象領域を画像領域に含まない対象外画像の群を対象外データセットとして格納する対象外格納ステップと、
前記入力画像と前記対象外データセットとの間で差異を評価し、前記差異の評価結果に基づいて、前記入力画像に適応する対象外画像を前記対象外データセットから選択する対象外選択ステップと、
前記対象外選択ステップによって選択された前記対象外画像と前記入力画像との間の差異領域の領域分布に基づいて、前記領域候補を検出する領域候補抽出ステップと
を備えることを特徴とする学習データセット生成方法。