JP7104252B2 - 学習データセット生成装置および方法 - Google Patents

学習データセット生成装置および方法 Download PDF

Info

Publication number
JP7104252B2
JP7104252B2 JP2021572242A JP2021572242A JP7104252B2 JP 7104252 B2 JP7104252 B2 JP 7104252B2 JP 2021572242 A JP2021572242 A JP 2021572242A JP 2021572242 A JP2021572242 A JP 2021572242A JP 7104252 B2 JP7104252 B2 JP 7104252B2
Authority
JP
Japan
Prior art keywords
target
area
learning
data set
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021572242A
Other languages
English (en)
Other versions
JPWO2021149252A1 (ja
Inventor
友輔 生内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Kokusai Electric Inc
Original Assignee
Hitachi Kokusai Electric Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Kokusai Electric Inc filed Critical Hitachi Kokusai Electric Inc
Publication of JPWO2021149252A1 publication Critical patent/JPWO2021149252A1/ja
Application granted granted Critical
Publication of JP7104252B2 publication Critical patent/JP7104252B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、学習データセット生成装置、および学習データセット生成方法に関する。
従来、学習モデルを用いて、処理対象の画像について、対象物の識別や分類や属性分析や予測や解析などの画像処理を行うことが知られている。このような学習モデルの機械学習には、機械学習用の学習データセットが使用される。
この種の学習データセットの生成には、次のような人手による作業が行われる。
(工程1)作業者は、入力画像の一つ一つについて絵柄を視認によって確認する。作業者は、画像処理において処理対象にすべき特徴的な画像領域(特定の被写体などの領域)を見つけると、その画像領域を作業画面上で領域選択し、学習対象領域とする。
(工程2)作業者は、入力した学習対象領域に対して、画像処理の処理結果として所望する正解データを「タグ情報」として属性付与する。このタグ情報は、学習対象領域を特徴付ける情報であって、機械学習における教師データなどとして使用される。
また、特許文献1には、学習データセットの作成において学習対象領域を決定する手法の一つとして、「汎用的な物体検出器を利用して物体として推定される矩形画像を検出し、それを候補矩形として推定する手法において、物体画像と背景画像との画像特徴量の差異や、画像から検知した物体の輪郭情報などをもとに候補矩形を推定する」旨の技術が開示される。
特開2019-75130号公報
一般に、学習モデルの正解率や汎化性能は、学習データセットに含まれる学習データの数量や多様性によって決定される。そのため、学習データセットを準備する際には、学習用に収集される膨大かつ多種多様な入力画像を扱わなければならない。
例えば、前述した人手による作業では、膨大かつ多種多様な入力画像の一つ一つについて視認を繰り返しながら、学習対象領域を入力しなければならず、多大な作業工数が必要になる。
また、特許文献1の技術は、「物体画像と背景画像との画像特徴量の差異」や「画像から検知した物体の輪郭情報」に基づいて学習対象領域の領域候補を推定する点で、工数削減に有効な手法と考えられる。
しかしながら、この「物体画像と背景画像との画像特徴量の差異」に基づく手法は、室内人工照明下の定点カメラの入力画像のように、「入力画像の背景が既知かつ一定とみなせるケース」に特化して有効な技術である。
また、この「画像から検知した物体の輪郭情報」に基づく手法は、「学習対象領域に輪郭情報が集中し、それ以外に輪郭情報が少ないケース」に特化して有効な技術である。
そのため、特許文献1の技術では、膨大かつ多種多様な入力画像の事前処理に柔軟にかつ十分に対応できないおそれがある。
そこで、本発明は、学習対象領域の領域候補を検出するに際して、膨大かつ多種多様な入力画像の処理に対応するための技術を提供することを目的とする。
上記課題を解決するために、本発明の代表的な学習データセット生成装置の一つは、学習データ用に収集される入力画像の画像領域から、機械学習の学習対象としてタグ付けを行う学習対象領域の領域候補を検出する装置であって、対象外格納部、対象外選択部、および領域候補抽出部を備える。
前記対象外格納部は、前記学習対象領域を画像領域に含まない対象外画像の群を対象外データセットとして格納する。
前記対象外選択部は、前記入力画像と前記対象外データセットとの間で差異を評価し、前記差異の評価結果に基づいて、前記入力画像に適応する対象外画像を前記対象外データセットから選択する。
前記領域候補抽出部は、前記対象外選択部によって選択された前記対象外画像と前記入力画像との間の差異領域の領域分布に基づいて、前記領域候補を検出する。
本発明では、学習対象領域の領域候補を検出するに際して、膨大かつ多種多様な入力画像の処理に対応するための技術が提供される。
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
図1は、実施例1の学習データセット生成装置100の構成を示す図である。 図2は、対象外データセット112Aの準備処理を示す流れ図である。 図3は、対象外データセット112Aの準備時に実施される対象外画像の抽出過程を示す説明図である。 図4は、学習対象領域の領域候補の検出処理を説明する流れ図(1/2)である。 図5は、学習対象領域の領域候補の検出処理を説明する流れ図(2/2)である。 図6は、学習データセット生成装置100の内部データの流れを示す説明図である。 図7は、学習データセット生成装置100による画像処理の様子を示す説明図である。 図8は、インタフェース部190の動作を説明する流れ図である。 図9は、学習データセット114のデータ構造の一例を示す図である。 図10は、表示画面の一例を示す図である。
以下、本発明の実施例について図面を用いて説明する。
<実施例1の構成について>
図1は、実施例1の学習データセット生成装置100の構成を示す図である。
同図において、学習データセット生成装置100は、補助記憶部110、対象外選択部130、領域候補抽出部140、領域候補継承部150、動体判別部160、代表画像生成部170、対象外生成部180、インタフェース部190、および学習モデル部210を備える。
補助記憶部110の記憶領域には、対象外候補格納部111、対象外格納部112、入力画像格納部113、学習データセット114、および学習データセット生成プログラム115が設けられる。
対象外候補格納部111には、対象外画像の候補として収集された画像群が格納される。
対象外格納部112には、対象外生成部180などによって生成される対象外画像(学習対象領域を画像領域に含まない画像)の群が、対象外データセット112Aとして格納される。
入力画像格納部113には、学習データセットの材料として収集された入力画像の群が格納される。
学習データセット114には、例えば(入力画像、学習対象領域、タグ情報)を参照可能な学習セットのリストデータが格納される。
対象外選択部130は、入力画像格納部113から処理対象とする入力画像を取り込む。また、対象外選択部130は、対象外格納部112の対象外データセット112Aを取り込む。対象外選択部130は、入力画像と対象外データセット112Aとの間で差異を評価し、差異の評価結果に基づいて入力画像に適応する対象外画像を対象外データセット112Aから選択する。
領域候補抽出部140は、対象外選択部130によって選択された対象外画像と、入力画像との間の差異領域の領域分布に基づいて、入力画像における学習対象領域の領域候補を検出する。
領域候補継承部150は、対象外画像の選択処理について信頼性を評価する。ここで、信頼性が低く評価された場合、領域候補継承部150は、入力画像の前(または後)の所定フレーム数以内で検出された領域候補に基づいて、入力画像の領域候補を決定する。
動体判別部160は、対象外候補格納部111から、対象外画像の候補として収集された画像の群を取り込む。動体判別部160は、これらの画像の群に対して動体の検知を行い、「動体を含まない画像」の群を選別する。
代表画像生成部170は、「動体を含まない画像」の群についてクラスタリングを行うことによって、類似する画像による冗長性を削減した代表画像の群を生成する。
対象外生成部180は、代表画像の群に基づいて、対象外データセット112Aを追加または新規作成する。対象外生成部180は、対象外データセット112Aを対象外格納部112に格納する。
インタフェース部190は、有線や無線のネットワークNWを介して、クライアント端末200に通信接続される。例えば、クライアント端末200は、複数の作業者が同時作業可能なように複数用意される。
インタフェース部190は、領域候補抽出部140により検出された領域候補を表示するための表示域と、領域候補の検出に使用した対象外画像を表示するための表示域とを含む表示画面を生成する。生成された表示画面は、ネットワークNWを介してクライアント端末200に表示される。作業者はクライアント端末200のブラウザプログラムなどを操作して、表示される領域候補について学習対象領域としての是非の判断や領域の訂正などの情報入力を行い、入力画像における学習対象領域を確定する。さらに、作業者は、確定された学習対象領域について、タグ情報を教師データとして入力設定する。
インタフェース部190は、クライアント端末200から取得した(入力画像、学習対象領域、タグ情報)を含む学習セットを作成し、学習データセット114に追加する。
なお、学習データセット生成装置100は、学習モデル部210を備えてもよい。この学習モデル部210は、少なくとも入力画像について入力する入力層211と、機械学習のための中間層212と、領域候補について出力する出力層213とを備える。
以上説明した学習データセット生成装置100は、ハードウェアとしてCPU(Central Processing Unit)やメモリなどを備えたコンピュータシステムとして構成される。このハードウェアがコンピュータ可読媒体に記憶された学習データセット生成プログラム115を実行することにより、上述した装置としての各種機能が実現する。なお、このハードウェアの一部または全部については、専用の装置、汎用の機械学習マシン、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)、PLD(programmable logic device)などで代替してもよい。さらに、ハードウェアやプログラムの一部または全部をネットワークNW上のサーバに集中または分散してクラウドシステムを構成することにより、複数のクライアント端末200に対して各種機能をクラウドサービスとして提供してもよい。
<対象外データセット112Aの準備処理>
まず、学習データセット生成装置100が実施する「対象外データセット112Aの準備処理」について説明する。
図2は、対象外データセット112Aの準備処理を示す流れ図である。
図3は、対象外データセット112Aの準備時に実施される対象外画像の抽出過程を示す説明図である。
以下、図2および図3を用いて説明する。
ステップS101: 対象外候補格納部111には、対象外画像の候補として収集された画像の群が格納される。これらの画像の群は、次のように収集された画像群を含んでもよい。
(対象外画像の候補1)不特定に収集される画像群
(対象外画像の候補2)学習用に収集されながら、学習対象領域を含まないと判断された不特定の画像群
(対象外画像の候補3)入力画像に近い入手元(カメラなど)や入手地域において、照明条件や日照条件(季節や撮影時刻)や撮影対象などの撮影条件を不特定に変えて収集した画像群
動体判別部160は、対象外候補格納部111から、これらの画像群を含む対象外画像の候補を取り込む。
ステップS102: 動体判別部160は、画像の群に対して画像領域に動体を含むか否かの検知を行う。
例えば、時系列に撮影される画像の群(動画像や連写画像)については、フレーム間差が所定の閾値未満の画像を「動体を含まない画像302」として選別し、フレーム間差が閾値以上の画像を「動体を含む画像303」として選別する。
また例えば、単独の画像については、動体判別部160は、画像領域における被写体の輪郭幅を検知し、輪郭幅の最大値が所定の閾値未満で静止している画像を「動体を含まない画像302」として選別し、輪郭幅の最大値が閾値以上で輪郭がぶれている画像を「動体を含む画像303」として選別する。
ここで、動体判別部160は、「動体を含む画像303」を対象外画像の候補から除外することによって、「動体を含まない画像302」を対象外画像の候補として残す。
ステップS103: 代表画像生成部170は、「動体を含まない画像302」の相互間において画像の差異(画像間距離や非類似度など)を求める。代表画像生成部170は、画像の差異の小さい画像をグループ単位に集めることによって、「動体を含まない画像302」を複数のグループ304に分類(クラスタリング)する。
ステップS104: 代表画像生成部170は、グループ304ごとにクラスタリングの分布重心に比較的近い画像(そのような画像が複数存在する場合は、複数画像を加重加算などの合成処理した画像)をグループ304ごとに代表画像として抽出する。この代表画像の抽出により、類似する画像による冗長性を削減した代表画像の群が生成される。
ステップS105: 対象外生成部180は、代表画像生成部170により生成される代表画像の群を、対象外格納部112に格納し、対象外データセット112Aの新規作成または追加更新(すなわち増補)を行う。
上述した一連の動作により、学習データセット生成装置100は、対象外データセット112Aを準備することが可能になる。
<学習対象領域の領域候補の検出>
続いて、学習データセット生成装置100が実施する「学習対象領域の領域候補の検出」について説明する。
図4および図5は、学習対象領域の領域候補の検出処理を説明する流れ図である。
図6は、学習データセット生成装置100の内部データの流れを示す説明図である。
図7は、学習データセット生成装置100による画像処理の様子を示す説明図である。
なお、図6および図7において、図1と同じ構成については同一の参照符号を付与し、ここでの重複説明を省略する。
以下、図1および図4~図7に基づいて「学習対象領域の領域候補の検出処理」を説明する。
ステップS201: 対象外選択部130は、学習データとして処理待ちの入力画像を入力画像格納部113から取得する。
このような入力画像に対しては、ノイズやフリッカなどの影響を低減するための前処理として、平滑化フィルタ、輪郭強調フィルタ、濃度変換などの処理を施してもよい。また、機械学習の用途などに応じて、画像のデータ形式をRGB、YUV、モノクロなどに適宜変換してもよい。さらに、処理負荷を低減するため、画像サイズを縮小する処理を施してもよい。
ステップS202: 対象外選択部130は、対象外データセット112Aから対象外画像を一つ取得する。
このとき、入力画像を対象外画像と同様にクラスタリング(ステップS103参照)することにより、入力画像が分類されたグループを代表する対象外画像を優先的に読み出すことが好ましい。
また、対象外データセット112Aに格納される対象外画像の内、前回選択された対象外画像や、選択頻度の高い対象外画像から優先的に読み出してもよい。
ステップS203: 対象外選択部130は、入力画像と対象外画像との間の差異(図7参照)について、局所的などの有意な差異か、全域的などの無意味な差異かを、例えば次の項目について評価する。
(差異評価1)差異の絶対値和
差異の絶対値和が低い場合、入力画像と対象外画像との差異は少なく、局所的で有意な差異と評価される。
(差異評価2)差異領域の面積
差異領域の面積が狭い場合、入力画像と対象外画像との差異領域は狭く、局所的で有意な差異と評価される。
(差異評価3)差異の領域形状
差異の領域形状が特定の形状(人型、建物型、乗物型、電柱型、標識型、図形型、商品型、病巣型など)に近いほど、入力画像と対象外画像との差異は特徴的で有意な差異と評価される。ここでの特定の形状は、学習データセットの目的および用途に応じて適宜に設定される。
(差異評価4)差異の領域数
差異の領域数が少ないほど、入力画像と対象外画像との差異は集約され、局所的で有意な差異と評価される。
(差異評価5)差異の集中度
差異の画像領域内での集中度が高いほど、入力画像と対象外画像との差異は集中し、局所的で有意な差異と評価される。
なお、ここでの評価については、対象外選択部130は、画像領域について適当な標本数の箇所で簡略に実施してもよい。また、評価途中で低評価と判明した場合は、対象外選択部130は、評価の完了を待たずに低評価と判定してもよい。さらに、差異の評価を簡略化するために、差異領域に対して、サイズ調整、二値化、孤立点除去、および輪郭抽出などの前処理を併用してもよい。これらの処理によって、差異の評価に必要な処理負荷を軽減することが可能になる。
ステップS204: 対象外選択部130は、対象外データセット112Aに残りの対象外画像があるかを判定する。
残りの対象外画像がある場合、対象外選択部130はステップS202に動作を戻す。
一方、残りの対象外画像がない場合、対象外選択部130はステップS205に動作を進める。
ステップS205: 対象外選択部130は、差異の評価結果に基づいて、入力画像に対して有意な差異を示す対象外画像が存在するか否かを判定する。
入力画像に対して有意な差異を示す対象外画像が存在する場合、対象外選択部130はステップS207に動作を移行する。
一方、入力画像に対して有意な差異を示す対象外画像が見つからない場合、対象外選択部130はステップS206に動作を進める。
ステップS206: ここでは、領域候補の抽出に適した対象外画像が見つからないため、領域候補継承部150は、対象外画像の選択処理について信頼できる結果が得られなかった(つまり信頼性が低い)と評価する。この場合、領域候補継承部150は、入力画像から所定フレーム数以内で検出された領域候補に基づいて、入力画像の領域候補を決定する。このような継承動作は、一連の入力画像において、画像領域内の領域候補の位置や範囲が継承される可能性が高いとの理由に基づく。
この動作の後、領域候補継承部150はステップS209に動作を移行する。
ステップS207: 対象外選択部130は、差異の評価結果が充分に高い対象外画像を、入力画像に適応する対象外画像として一つまたは複数選択する。
ステップS208: 領域候補抽出部140は、入力画像に適応するとして選択された対象外画像と、入力画像との間で差異領域の領域分布を求める。ここでの領域分布は、ステップS205の判定を経るため、局所的などの有意な領域分布である。領域候補抽出部140は、この有意な領域分布に基づいて、入力画像における学習対象領域の領域候補を検出する。
なお、領域候補抽出部140は、図7に示すように、差異評価の過程(ステップS203参照)で生成される差異領域の情報を利用して、入力画像における学習対象領域の領域候補を検出してもよい。
また、ステップS207において、入力画像に適応する対象外画像が複数選択された場合、領域候補抽出部140は、複数の対象外画像それぞれに対応して、複数の領域候補を検出する。
領域候補抽出部140は、(入力画像、領域候補、対象外画像)のセットをインタフェース部190に出力する。インタフェース部190の動作については後述する。
ステップS209: 対象外選択部130は、入力画像格納部113に処理待ちの入力画像が残っているか否かを判定する。
処理待ちの入力画像がある場合、対象外選択部130はステップS201に動作を戻して、上述した動作を新たな入力画像に対して繰り返す。
一方、入力画像に対する学習対象領域の領域候補検出が全て完了した場合、対象外選択部130は動作を完了する。
上述した一連の動作により、膨大な入力画像に対して、学習対象領域の領域候補検出が自動的に実施される。
<インタフェース部190の動作>
続いて、インタフェース部190の動作について説明する。
図8は、インタフェース部190の動作を説明する流れ図である。
図9は、学習データセット114のデータ構造の一例を示す図である。なお、図9において、図1と同じ構成については同一の参照符号を付与し、ここでの重複説明を省略する。
以下、図1および図8~図9に基づいて「インタフェース部190の動作」を説明する。
ステップS301: インタフェース部190は、領域候補抽出部140または領域候補継承部150によって生成された(入力画像、領域候補、対象外画像)を含むセットを情報取得する。
ステップS302: インタフェース部190は、領域候補を表示するための表示域と、領域候補の検出に使用した対象外画像を表示するための表示域とを含む表示画面のデータを、ネットワークNWを介して、クライアント端末200に伝達する。クライアント端末200は、ブラウザプログラムなどを用いて、伝達される表示画面を表示する。表示画面の例については後述する。
ステップS303: 学習データセット114の監修を行う作業者は、表示画面上の領域候補を参考にしながらクライアント端末200を操作し、「領域候補が学習対象領域として是か非か」や「領域候補の領域訂正」などを入力する。インタフェース部190は、これら入力に応じて領域候補を修正ないし削除することによって、入力画像における学習対象領域を確定する。
ステップS304: 作業者は、クライアント端末200を操作し、学習対象領域に付与するタグ情報を入力する。この入力に応じて、インタフェース部190は、学習対象領域に付与するタグ情報を確定する。
ステップS305: インタフェース部190は、クライアント端末200から取得した(入力画像、学習対象領域、タグ情報)などを学習セットとして、学習データセット114に追加する。
例えば、学習データセット114は、図9に示すデータ構造をとる。この学習データセット114には、入力画像ごとに対応付けて、学習対象領域およびタグ情報の情報が格納される。さらに、学習データセット114には、機械学習などに際して有用な属性情報が格納される。例えば、学習セットを生成した学習データセット生成装置100の識別フラグや作業者のIDコードなどが、属性情報の「生成元」項目に格納される。なお、学習データセット114に格納されるデータは、実データに限らず、実データを参照可能な参照データでもよい。
ステップS306: インタフェース部190は、学習データセット生成装置100として処理待ちの(入力画像、領域候補、対象外画像)などのセットが残っているか否かを判定する。
処理待ちのセットがある場合、インタフェース部190はステップS301に動作を戻して、上述した動作を繰り返す。
一方、処理待ちの(入力画像、領域候補、対象外画像)のセットが払底した場合、インタフェース部190は一旦動作を完了し、処理待ちの(入力画像、領域候補、対象外画像)が再び蓄積されるまで待機する。
上述した一連の動作により、学習データセット114の生成がなされる。
<学習データセット生成装置100の表示画面について>
続いて、インタフェース部190が生成する表示画面について説明する。
図10は、表示画面の一例を示す図である。
同図に示す表示画面1001は、クライアント端末200の画面上にタグ付けツールの操作ウィンドウとして表示される。
この表示画面1001は、次のGUI部品によってレイアウト構成される。
・セッション選択パート1002
セッションは、学習データセット生成の作業単位に相当する。セッションは、作業単位の情報を管理するためのデータフォルダに関連付けられる。このデータフォルダには、作業中または作業済みの入力画像やタグ情報や学習対象領域などの作業情報が格納される。作業者は、セッション選択パート1002を操作してセッションに関連するデータフォルダを新規作成することにより、学習データセット生成の作業(セッション)を新規に開始することができる。また、作業者は、過去のセッションを選択することにより、関連するデータフォルダを開いて学習データセット生成の作業を随時に再開することができる。
・学習画像フォルダ選択パート1003
学習画像フォルダ選択パート1003は、入力画像の入力元フォルダ(複数選択可)を指定するためのGUI部品である。
・対象外データセット登録パート1004
対象外データセット登録パート1004は、領域候補の検出に使用する対象外データセット112Aのフォルダを登録するためGUI部品である。
・クラス追加パート1005、クラス入力欄パート1006、クラス名一覧表パート1007
図10に示す操作ウィンドウでは、タグ情報は、例えばクラス分類として管理される。作業者は、タグ情報としてのクラス名をクラス入力欄パート1006に入力してクラス追加パート1005を操作することによって、任意の名前のタグ情報のクラスを新規作成することができる。作成されたタグ情報のクラスはクラス名一覧表パート1007に表示される。作業者は、クラス名一覧表パート1007をメニュー選択することにより、学習対象領域に付与するタグ情報のクラスを選択する。また、作業者は、過去に学習対象領域に付与されたタグ情報のクラスを一括または部分的に修正または削除することもできる。
・入力画像の表示域1009
表示域1009は、処理対象である入力画像を表示する。作業者は表示域1009を選択操作し、マウスホイールや十字キーなどで処理対象の入力画像を切り替えることができる。
・領域候補の表示域1010
表示域1010は、学習対象領域の領域候補を、矩形枠または輪郭強調表示などを入力画像の表示域1009に重畳させた形式で表示する。
作業者は、表示される領域候補をGUI操作することで、学習対象領域としての是非判断や領域訂正の入力操作を行う。このような操作によって、学習対象領域が確定される。
また、表示域1011に対する操作では、一つの入力画像に対して複数の学習対象領域を確定することもできる。また、入力画像の画像全域を学習対象領域に確定することもできる。
なお、上述のステップS208において複数の領域候補が検出された場合、複数の領域候補それぞれに対応する複数の表示域1010が、同時または順次に表示画面1001に表示される。
・領域候補の検出に使用した対象外画像の表示域1011
表示域1011は、登録された対象外データセット112Aの内で、領域候補の検出に使用した対象外画像を強調枠表示する。
・セッション保存パート1012
作業者がセッション保存パート1012を操作することにより、セッションの作業データは、セッションに関連付けられたデータフォルダに保存される。なお、セッションの保存は、入力画像のタグ付けが完了した時点で自動的に行ってもよい。また、入力画像を切り替えるたびにセッションを自動的に保存してもよい。さらに、各操作の合間にセッションを自動的に保存してもよい。
以上説明した表示画面の操作により、作業者は、領域候補を参考にしながら、学習データセットを効率良く作成できる。
<学習モデル部210について>
次に、学習モデル部210について説明する。
図1に示す学習モデル部210では、インタフェース部190により確定する学習対象領域を教師データとして、少なくとも入力画像の群について誤差逆伝播法などの機械学習が実施される。
この機械学習によって、入力画像と学習対象領域との間に相関関係を有する入力画像の群については、重み係数やバイアス値などの最適化が学習モデル部210に行われる。この機械学習の最適化の進展により、学習モデル部210は、新たな入力画像を入力層211に与えることによって、領域候補の推定結果を出力層213に出力するようになる。
その結果、学習データセット生成装置100の一部または全部の機能を補完または代替する学習モデル部210が得られる。
<効果について>
以下、実施例1が奏する顕著な効果について説明する。
(1)実施例1では、学習対象領域を画像領域に含まない対象外画像の群と、入力画像との間で差異が評価される。この差異の評価結果に基づいて、入力画像において有意な差異を示す領域が求められる。この有意な差異の領域分布に基づくことにより、入力画像内の学習対象領域の領域候補を検出することが可能になる。
(2)実施例1が、特許文献1の技術と大きく異なるのは、上記(1)に述べたように入力画像の背景を特化することなく、入力画像から有意な差異を示す領域を求めている点である。したがって、学習対象領域の領域候補を検出するに際して、「背景が既知かつ一定の入力画像」に特化する必要がなく、膨大かつ多種多様な入力画像の処理に対応することが可能になる。
(3)さらに、実施例1が、特許文献1の技術と大きく異なるのは、対象外画像の群と入力画像との差異を求めることで差異以外の情報が削減されるため、「学習対象領域に輪郭情報が集中し、それ以外に輪郭情報が少ない入力画像」に特化する必要がない点である。この点からも、実施例1は、膨大かつ多種多様な入力画像の処理に対応することが可能になる。
(4)実施例1では、対象外画像の選択処理について信頼性が低い場合、入力画像から所定フレーム数以内で検出された領域候補に基づいて、入力画像の領域候補を決定する。学習データセット用に収集される入力画像は動画や連写画像のように時系列の画像として収集されるケースがある。この場合、学習対象領域の領域候補はフレーム間で連続するため、所定フレーム数以内において領域候補の継続性は高くなる。したがって、対象外画像の選択処理について信頼性が低い場合であっても、一定の信頼性で領域候補を決定することが可能になる。
(5)実施例1では、画像の群から対象外画像の群を自動的に選別する。すなわち、画像の群に対して動体の検知を行って「動体を含まない画像」を選別し、その選別結果に基づいて対象外画像の群を得る。学習対象領域が動体に該当する多くのケースでは、「動体を含まない画像」を選別することによって、学習対象領域を含まない対象外画像の群を効率的に得ることが可能になる。
(6)実施例1では、対象外画像の群をさらに絞り込む。すなわち、「動体を含まない画像」の群に対してクラスタリングを行って、類似画像による冗長性を削減した代表画像の群を得る。このような代表画像に基づく対象外画像は、「冗長性削減の度合い」に応じて類似画像が除外されるため、厳選される。したがって、対象外画像の群を利用した処理の負荷を軽減することが可能になる。
(7)実施例1では、対象外画像の群に対する「冗長性削減の度合い」に応じて、対象外画像一つ一つは類似しなくなる。そのため、これら対象外画像と入力画像との差異一つ一つも類似しなくなる。したがって、上述のステップS207において対象外画像が複数選択された場合、ステップS208において「互いに類似しない領域候補」を複数検出することが可能になる。
(8)実施例1では、決定された領域候補を情報出力し、学習対象領域としての是非判断または領域訂正の情報入力を受け付けることによって、入力画像における学習対象領域を確定することもできる。したがって、学習データセット生成装置100は、外部(例えば、作業者)と連携することによって、領域候補を参考材料として学習対象領域の効率的な確定作業が可能になる。
(9)実施例1では、検出された領域候補を表示するための表示域と、領域候補の検出に使用した対象外画像を表示するための表示域とを含む表示画面を生成する。この領域候補の表示により、作業者にとって学習対象領域の判断が容易かつ迅速化される。また、領域候補の検出に使用した対象外画像の表示により、作業者やシステム運営者に対して領域候補の検出された経緯を確認させることが可能になる。
(10)実施例1では、少なくとも入力画像について入力する入力層と、機械学習のための中間層と、領域候補について出力する出力層とを有する学習モデル部210をさらに備える。この学習モデル部210において、確定する学習対象領域を教師データとして、少なくとも入力画像の群について機械学習が行われる。この学習モデル部210によって領域候補の推定を行うことにより、学習データセット生成装置100の機能の一部または全部を補完または代替することが可能になる。
(11)実施例1では、上述した各効果の相乗作用によって、学習データセットを効率的に生成することが可能になる。そのため、莫大かつ多種多様な学習データセットを一段と低コストに生成することが可能になる。
<実施形態の補足事項について>
なお、実施形態では、学習データセット生成装置100を複数のクライアント端末200に接続したシステム構成について説明した。しかしながら、本発明はこの構成に限定されるものではない。例えば、本発明を、単独の装置(コンピュータなど)で実現してもよい。
また、実施形態の図1では、対象外格納部112を、学習データセット生成装置100に専属する構成として説明した。しかしながら、本発明はこの構成に限定されるものではない。対象外格納部112に格納される対象外データセット112Aは、「学習対象領域を画像領域に含まない対象外画像の群」という性質において汎用的なデータセットである。そのため、対象外格納部112を、(専属の構成にせずに)複数の学習データセット生成装置100が共同利用するようにしてもよい。この場合、多数の学習データセット生成装置100の共同利用によって急速に蓄積されるデータを使用して、対象外データセット112Aのデータ量や汎用性を一段と速く高めることが可能になる。
さらに、本発明では、専門の対象外データセット112Aを作成することもできる。すなわち、機械学習の目的別やテーマ別に、「目的やテーマに則した学習対象領域」を含まない対象外データセット112Aを作成することができる。この場合、機械学習の目的別やテーマ別に専門の対象外データセット112Aを選択使用することによって、機械学習の目的やテーマに則した学習対象領域の領域候補を決定することが可能になる。
また、実施形態では、クライアント端末200による領域候補の確認・修正を経て、学習対象領域を確定する。しかしながら、本発明はこれに限定されない。検出された領域候補は有意な差異であることが保証されるので、領域候補を自動的(またはデフォルト設定で)学習対象領域に確定することもできる。この場合、作業者は領域候補(つまり学習対象領域)に対するタグ情報の付与に集中できるので、作業効率は一層高くなる。一般に、領域候補について慎重な確認・修正が必要か否かは、機械学習の目的別やテーマ別に定まる学習データセットの要求(設計仕様など)に応じて決定することが好ましい。
さらに、本発明で扱うデータ全般(各種の画像群や領域情報やタグ情報など)については、実データや参照データなどのいずれを使用してもよい。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されない。また、実施例の構成の一部を他の構成に置き換えることも可能である。また、実施例の構成に他の構成を加えることも可能である。
100…学習データセット生成装置、110…補助記憶部、111…対象外候補格納部、112…対象外格納部、112A…対象外データセット、113…入力画像格納部、114…学習データセット、115…学習データセット生成プログラム、130…対象外選択部、140…領域候補抽出部、150…領域候補継承部、160…動体判別部、170…代表画像生成部、180…対象外生成部、190…インタフェース部、200…クライアント端末、210…学習モデル部、211…入力層、212…中間層、213…出力層、1001…表示画面、1002…セッション選択パート、1003…学習画像フォルダ選択パート、1004…対象外データセット登録パート、1005…クラス追加パート、1006…クラス入力欄パート、1007…クラス名一覧表パート、1009…入力画像の表示域、1010…領域候補の表示域、1011…領域候補の検出に使用した対象外画像の表示域、1012…セッション保存パート、NW…ネットワーク

Claims (8)

  1. 学習データ用に収集される入力画像の画像領域から、機械学習の学習対象としてタグ付けを行う学習対象領域の領域候補を検出する学習データセット生成装置であって、
    前記学習対象領域を画像領域に含まない対象外画像の群を対象外データセットとして格納する対象外格納部と、
    前記入力画像と前記対象外データセットとの間で差異を評価し、前記差異の評価結果に基づいて、前記入力画像に適応する対象外画像を前記対象外データセットから選択する対象外選択部と、
    前記対象外選択部によって選択された前記対象外画像と前記入力画像との間の差異領域の領域分布に基づいて、前記領域候補を検出する領域候補抽出部と
    を備えることを特徴とする学習データセット生成装置。
  2. 請求項1に記載の学習データセット生成装置であって、
    前記対象外画像の選択処理について信頼性を評価し、前記信頼性が低評価の場合、前記入力画像から所定フレーム数以内で検出された前記領域候補に基づいて、前記入力画像の前記領域候補を決定する領域候補継承部を備える
    ことを特徴とする学習データセット生成装置。
  3. 請求項1~2のいずれか一項に記載の学習データセット生成装置であって、
    画像の群に対して動体の検知を行い、「動体を含まない画像」の群を選別する動体判別部と、
    前記「動体を含まない画像」の群から前記対象外データセットを生成する対象外生成部と
    を備えることを特徴とする学習データセット生成装置。
  4. 請求項3に記載の学習データセット生成装置であって、
    前記「動体を含まない画像」の群についてクラスタリングを行うことによって、類似する画像による冗長性を削減した代表画像の群を生成する代表画像生成部を備え、
    前記対象外生成部は、前記代表画像の群に基づいて前記対象外データセットを生成する
    ことを特徴とする学習データセット生成装置。
  5. 請求項1~4のいずれか一項に記載の学習データセット生成装置であって、
    前記領域候補抽出部によって決定された前記領域候補を情報出力し、前記学習対象領域としての是非判断または領域訂正の情報入力を受け付けることによって、前記入力画像における前記学習対象領域を確定するインタフェース部
    を備えたことを特徴とする学習データセット生成装置。
  6. 請求項5に記載の学習データセット生成装置であって、
    前記インタフェース部は、前記領域候補抽出部によって検出された前記領域候補を表示するための表示域と、前記領域候補の検出に使用した前記対象外画像を表示するための表示域とを含む表示画面を生成する
    ことを特徴とする学習データセット生成装置。
  7. 請求項5~6のいずれか一項に記載の学習データセット生成装置であって、
    少なくとも前記入力画像について入力する入力層と、機械学習のための中間層と、前記領域候補について出力する出力層とを有する学習モデル部をさらに備え、
    前記学習モデル部は、前記インタフェース部において確定する前記学習対象領域を教師データとして、少なくとも前記入力画像の群について機械学習を行う
    ことを特徴とする学習データセット生成装置。
  8. 学習データ用に収集される入力画像の画像領域から、機械学習の学習対象としてタグ付けを行う学習対象領域の領域候補を検出する学習データセット生成方法であって、
    前記学習対象領域を画像領域に含まない対象外画像の群を対象外データセットとして格納する対象外格納ステップと、
    前記入力画像と前記対象外データセットとの間で差異を評価し、前記差異の評価結果に基づいて、前記入力画像に適応する対象外画像を前記対象外データセットから選択する対象外選択ステップと、
    前記対象外選択ステップによって選択された前記対象外画像と前記入力画像との間の差異領域の領域分布に基づいて、前記領域候補を検出する領域候補抽出ステップと
    を備えることを特徴とする学習データセット生成方法。
JP2021572242A 2020-01-24 2020-01-24 学習データセット生成装置および方法 Active JP7104252B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/002583 WO2021149252A1 (ja) 2020-01-24 2020-01-24 学習データセット生成装置および方法

Publications (2)

Publication Number Publication Date
JPWO2021149252A1 JPWO2021149252A1 (ja) 2021-07-29
JP7104252B2 true JP7104252B2 (ja) 2022-07-20

Family

ID=76991841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021572242A Active JP7104252B2 (ja) 2020-01-24 2020-01-24 学習データセット生成装置および方法

Country Status (2)

Country Link
JP (1) JP7104252B2 (ja)
WO (1) WO2021149252A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023175652A1 (ja) * 2022-03-14 2023-09-21 日本電気株式会社 動画生成装置、動画生成方法、および動画生成プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128959A (ja) 2003-10-27 2005-05-19 Sony Corp ロボット装置及びその物体学習方法
JP2019159787A (ja) 2018-03-13 2019-09-19 コニカミノルタ株式会社 人物検出方法および人物検出プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128959A (ja) 2003-10-27 2005-05-19 Sony Corp ロボット装置及びその物体学習方法
JP2019159787A (ja) 2018-03-13 2019-09-19 コニカミノルタ株式会社 人物検出方法および人物検出プログラム

Also Published As

Publication number Publication date
JPWO2021149252A1 (ja) 2021-07-29
WO2021149252A1 (ja) 2021-07-29

Similar Documents

Publication Publication Date Title
US10936911B2 (en) Logo detection
CN108229504B (zh) 图像解析方法及装置
Li et al. Automatic pavement crack recognition based on BP neural network
CN106462940A (zh) 图像中通用对象检测
JP2002099918A (ja) 画像処理方法、画像処理システムおよび記録媒体
JP2019023392A (ja) 切羽評価支援システム、切羽評価支援方法及び切羽評価支援プログラム
CN106228398A (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN111008961B (zh) 一种输电线路设备缺陷检测方法及其系统、设备、介质
CN108229418B (zh) 人体关键点检测方法和装置、电子设备、存储介质和程序
CN113032868A (zh) 预制构件管理方法、装置、电子设备及存储介质
CN113033516A (zh) 对象识别统计方法及装置、电子设备、存储介质
CN107564032A (zh) 一种基于外观网络的视频跟踪对象分割方法
CN116168351B (zh) 电力设备巡检方法及装置
CN113515655A (zh) 一种基于图像分类的故障识别方法及装置
JP7104252B2 (ja) 学習データセット生成装置および方法
CN114282607A (zh) 一种基于双筛模型的弥散轨迹分析方法及系统
CN111583417B (zh) 一种图像语义和场景几何联合约束的室内vr场景构建的方法、装置、电子设备和介质
JP6326622B2 (ja) 人物検出装置
JP2021111228A (ja) 学習装置、学習方法、及びプログラム
CN108256578B (zh) 一种灰度图像的识别方法、装置、设备及可读存储介质
CN110032933B (zh) 一种图像数据的获取方法、装置、终端及存储介质
CN111680572B (zh) 一种电网运行场景动态判定方法及系统
CN109190585B (zh) 一种佤族居住区域判别方法
CN114582012A (zh) 一种骨架人体行为识别方法、装置及设备
CN113569912A (zh) 车辆识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220601

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220707

R150 Certificate of patent or registration of utility model

Ref document number: 7104252

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150