JP2020154602A

JP2020154602A - 能動学習方法及び能動学習装置

Info

Publication number: JP2020154602A
Application number: JP2019051525A
Authority: JP
Inventors: 厚裕日比; Atsuhiro Hibi; 梅村　純; Jun Umemura; 純梅村
Original assignee: Nippon Steel Corp
Current assignee: Nippon Steel Corp
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2020-09-24
Anticipated expiration: 2039-03-19
Also published as: JP7225978B2

Abstract

【課題】ユーザの作業負担を軽減し、学習済みモデルの識別精度の向上を図ることができる能動学習方法及び能動学習装置を提供する。【解決手段】能動学習装置１では、複数ある教師無し画像の中から、学習済みモデル１７ｂの学習に寄与する教師無し画像だけを教師無し画像として選定することで、画像内の全ての画素に対してクラス分類を行うマーキング作業を減らすことができる。よって、ユーザの作業負担を軽減し、学習済みモデルの精度向上を図ることができる。【選択図】図１

Description

本発明は、能動学習方法及び能動学習装置に関する。

多くの産業分野において、機械学習手法によって学習された識別器を用いて膨大なデータから経験や知識を抽出し、自動化に繋げる動きが活発化している。特に画像認識分野では、画像内に表示されている代表対象物を識別する「画像分類（classification）」の分野において、深層学習（ディープラーニング）をはじめとするニューラルネットワークをベースとした識別器を用いることで、識別精度の飛躍的な向上が確認されている。

また、近年では、入力画像全体から識別対象物を識別する画像分類の手法を拡張し、入力画像の各画素に何が表示されているかを判定する「画像セグメンテーション（segmentation）」の分野においても、深層学習の適用が広く進んでおり（例えば、非特許文献１参照）、各画素に対して識別対象物の判定を行うことで、入力画像内における識別対象物の種類とその存在位置とを同時に把握することが可能となる。

A 2017 Guide to Semantic Segmentation with Deep Learning、[online]、インターネット（http://blog.qure.ai/notes/semantic-segmentation-deep-learning-review）

ところで、画像セグメンテーションの分野において識別器を学習させる場合には、学習対象である識別対象物が写った画像の各画素に対して識別対象物毎に予め定義されたクラスを付与するマーキング作業を行って、教師有り画像を作成する。このマーキング作業を、大量の画像に対して行うことは、多くの人手と時間を要し、ユーザの作業負担が大きいという問題がある。

また、画像セグメンテーションの分野においても、画像分類の分野と同様、学習が完了した識別器（以下、学習済みモデルとも称する）を用いて評価用画像を推論した際に、画像の各画素で正しいクラスが推論されるように学習済みモデルの更なる識別精度の向上が求められている。

そこで、本発明は、上記問題に鑑みてなされたものであり、ユーザの作業負担を軽減し、学習済みモデルの識別精度の向上を図ることができる能動学習方法及び能動学習装置を提供する。

本発明の能動学習方法は、画像に撮像された識別対象物を識別する識別器の能動学習方法において、各画素に前記識別対象物の種類に対応するクラスを付与した教師有り画像を用い、前記識別器を学習させることで学習済みモデルを取得する取得工程と、前記クラスが付与されていない教師無し画像を、前記学習済みモデルで推論することで、前記教師無し画像の中から前記学習済みモデルの学習に寄与する画像である教師付与対象画像を選定する教師付与対象画像選定工程と、前記教師付与対象画像の画素毎に、それぞれ対応するクラスを付与して新たな教師有り画像を生成する準教師有り画像生成工程と、前記新たな教師有り画像を用いて、前記学習済みモデルを再学習させる学習工程と、を備える。

また、本発明の能動学習装置は、画像に撮像された識別対象物を識別する識別器を用いた能動学習装置において、各画素に前記識別対象物の種類に対応するクラスを付与した教師有り画像を用い、前記識別器を学習させることで学習済みモデルを取得する取得部と、前記クラスが付与されていない教師無し画像を、前記学習済みモデルで推論することで、前記教師無し画像の中から前記学習済みモデルの学習に寄与する画像である教師付与対象画像を選定する教師付与対象画像選定部と、前記教師付与対象画像の画素毎に、それぞれ対応するクラスを付与して新たな教師有り画像を生成する準教師有り画像生成部と、前記新たな教師有り画像を用いて、前記学習済みモデルを再学習させる学習部と、を備える。

本発明によれば、複数ある教師無し画像の中から、学習済みモデルの学習に寄与する画像だけを教師付与対象の画像として選定することで、全ての教師無し画像に対してマーキングを行うことを回避できる。よって、マーキング作業を行う画像数を減らせる分だけ、ユーザの作業負担を軽減し、学習済みモデルの識別精度の向上を図ることができる。

能動学習装置の回路構成を示すブロック図である。図２Ａは、画像の一例を示す概略図であり、図２Ｂは、図２Ａの画像から作成した教師有り画像を示す概略図である。複数の教師有り画像を使用して学習済みモデルを作成する学習済みモデル作成モードを説明するための概略図である。学習済みモデルを用いて教師無し画像を推論することで得られる確信度マップを説明するための概略図である。図５Ａは、識別対象物が表示された教師付与対象画像の一例を示した概略図であり、図５Ｂは、識別対象物を内包する概略領域を示した概略図であり、図５Ｃは、輪郭抽出処理又は領域抽出処理により抽出された抽出領域を示した概略図である。能動学習処理手順を示したフローチャートである。

以下図面について、本発明の一実施形態を詳述する。以下の説明において、同様の要素には同一の符号を付し、重複する説明は省略する。

（１）＜能動学習装置＞
図１は、本実施形態における能動学習装置１の回路構成を示したブロック図である。能動学習装置１は、学習部２と記憶部３と推論部４と演算処理部５とを備えており、演算処理部５には、教師付与対象画像選定部７と概略領域設定部８と輪郭抽出処理部９と準教師有り画像生成部１０とが設けられている。

能動学習装置１は、図示しないキーボードやマウス等の操作部を介してユーザによる操作を受け付け、当該操作に応じて記憶部３から各種プログラムを読み出し、後述する学習済みモデル作成モード及び能動学習モードを実行する。

ここで、学習済みモデル作成モードとは、例えば、複数の教師有り画像（後述する）を学習のための画像として使用し、記憶部３に記憶した学習モデルを学習させ、学習済みモデルを作成するモードである。能動学習モードとは、学習済みモデル作成モードにより作成した学習済みモデルに対して、更に能動学習を行わせるモードである。以下、学習済みモデル作成モード及び能動学習モードについて順に説明する。

（１−１）＜学習済みモデル作成モード＞
能動学習装置１は、例えば、識別対象が撮像された複数の画像を取得し、これら画像を基にそれぞれ教師有り画像を作成して、得られた教師有り画像を記憶部３に記憶している。始めに、この教師有り画像について説明する。

図２Ａは、例えば、識別対象物として２種類の異なる物体１３ａ，１３ｂが所定位置に存在する画像１２ａを示す。能動学習装置１は、図２Ａに示すような画像１２ａを取得すると、図示しない表示装置に当該画像１２ａを表示させ、表示装置によって、ユーザに対して画像１２ａ内の物体１３ａ，１３ｂを認識させる。これにより、ユーザは、これら物体１３ａ，１３ｂの表示形態に基づいて各物体１３ａ，１３ｂの種類を特定する。

ここで、能動学習装置１では、識別対象物の種類に応じて、識別対象物の種類を識別するためのクラスが定義されている。なお、画像１２ａにおいて識別対象物がない背景等の領域については、別途のクラスを定義してもよいし、クラスを定義せず学習対象から除外してもよい。ユーザは、識別対象物の種類毎に定義された複数のクラスの中から、画像１２ａ内に写る物体１３ａ，１３ｂに対応したクラスを決定し、能動学習装置１を使用して、画像１２ａ内にある画素１つ１つに、対応するクラスを付与するマーキング作業を行い、画像１２ａ内の識別対象物が写る全ての画素に正解となるクラスを付与した教師有り画像を生成する。

図２Ｂは、図２Ａに示した画像１２ａから作成された教師有り画像１５ａの一例を示している。図２Ｂに示すように、教師有り画像１５ａでは、画像１２ａで物体１３ａが表示された領域ＥＲ１内の各画素に、例えば、物体１３ａの種類を定義したクラス「１」が付与される。また、教師有り画像１５ａでは、画像１２ａで物体１３ｂが表示された領域ＥＲ２内の各画素に、物体１３ｂの種類を定義したクラス「２」が付与される。なお、教師有り画像１５ａには、画像１２ａにて物体１３ａ，１３ｂが表示されてない背景領域ＥＲ０内の各画素に、背景であることを定義したクラス「０」を付与してもよい。

なお、このような画像１２ａ内の画素１つ１つに、対応するクラスを付与してゆくマーキング作業は、例えば、表示装置に表示された画像１２ａ内の物体１３ａなどの輪郭を、ユーザが指定して描画してゆき、描画した輪郭内にある全ての画素に対して、対応する同じクラス「１」などを一括して付与することで行うこともできる。

このようにして画像１２ａから作成された教師有り画像１５ａは、記憶部３に記憶される。そして、ユーザは、種々の画像から、各画素に対応するクラスを付与した複数の教師有り画像を作成し、これら複数の教師画像を記憶部３に記憶させる。これにより、記憶部３には、図３に示すように、作成された教師有り画像１５ａ，１５ｂ，１５ｃ，１５ｄ，…が記憶される。

なお、図３において、一例で示した教師有り画像１５ｂは、例えば、物体１３ａのみが表示された画像を基に作成されたものであり、物体１３ａが表示された領域ＥＲ１内の各画素に、対応するクラス「１」が付与されている。また、教師有り画像１５ｃは、例えば、物体１３ｂのみが表示された画像を基に作成されたものであり、物体１３ｂが表示された領域ＥＲ２の各画素に、対応するクラス「２」が付与されている。さらに、教師有り画像１５ｄは、例えば、物体１３ａ，１３ｂとは異なる種類の物体１３ｃのみが表示された画像を基に作成されたものであり、物体１３ｃが表示された領域ＥＲ３の各画素に、物体１３ｃに定義したクラス「３」が付与されている。

本実施形態における記憶部３には、学習済みモデル作成モードが開始される前に、未学習の識別器１７ａが、予め記憶されている。学習部２は、識別器１７ａと複数の教師有り画像１５ａ，１５ｂ，１５ｃ，１５ｄ，…とを記憶部３から読み出し、図３に示すように、識別器１７ａに教師有り画像１５ａ，１５ｂ，１５ｃ，１５ｄ，…を入力し、教師有り画像１５ａ，１５ｂ，１５ｃ，１５ｄ，…に含まれる識別対象物となる物体の特徴（教師有り画像内での識別対象物の形状や輝度等の特徴）を、深層学習（ディープラーニング）等の手法により学習させ、学習済みモデルを作成する。

学習部２は、複数の教師有り画像１５ａ，１５ｂ，１５ｃ，１５ｄ，…を用いて、識別対象物の特徴を学習させた学習済みモデルを、記憶部３に記憶させる。これにより、能動学習装置１は学習済みモデル作成モードを終了し、次の能動学習モードへと移行する。

なお、本実施形態においては、未学習の識別器を複数の教師有り画像を使用して学習させることで、初期の学習済みモデルを作成する学習部２を適用した場合について述べたが、本発明はこれに限らず、初期の学習済みモデルを外部から取得する取得部を設け、学習済みモデルを記憶部３に予め記憶しておき、学習済みモデル作成モードを省略するようにしてもよい。

（１−２）＜能動学習モード＞
次に能動学習モードについて説明する。能動学習モードは、教師無し画像の中から、学習済みモデルが識別対象物の特徴を学習するのに寄与する画像を、当該学習済みモデルの識別能力を反映して選定することができ、選定した画像のマーキングを要請して、教師有り画像に追加することで学習済みモデルの識別能力の向上を図るものである。

これにより、能動学習装置１は、画像内で識別対象物が写る画素全てに対してクラス分類を行うマーキング作業の対象となる画像の数を抑制することができるため、その分、ユーザに対してマーキング作業の負担を軽減させることができる。

能動学習装置１は、能動学習モードが開始されると、学習済みモデル作成モードで学習済みモデルの学習に使用していない画像である教師無し画像と、学習済みモデルとを記憶部３から読み出し、これらを推論部４に出力する。推論部４は、図４に示すように、例えば、教師無し画像１２ｅを学習済みモデル１７ｂに入力し、当該学習済みモデル１７ｂを使用して教師無し画像１２ｅを推論する。

推論部４は、学習済みモデル１７ｂにより教師無し画像１２ｅを推論することで、教師無し画像１２ｅの画素がいずれのクラスであるかを数値で表した確信度（例えば、０〜１に正規化された値）を、教師無し画像１２ｅの画素毎に算出する。

例えば、画像１２ａに表示された物体１３ａが学習済みモデル１７ｂで正しく識別できているときには、物体１３ａが表示された領域内の画素では、学習済みモデル１７ｂの推論結果として、物体１３ａの種類が定義されたクラス「１」の確信度が高く（例えば、０．９といった１に近い値）算出され、物体１３ｂの種類が定義されたクラス「２」及び背景領域に定義されたクラス「０」の確信度が低く（例えば、０．０５といった０に近い値）算出される。

一方、画像１２ａに表示された物体１３ａが学習済みモデル１７ｂで識別できていないときには、物体１３ａが表示された領域内の画素では、学習済みモデル１７ｂの推論結果として、クラス「１」、クラス「２」及びクラス「３」の確信度が略等しく（例えば「０．３３」）算出される。

推論部４は、教師無し画像１２ｅ内にある全ての画素に対して、このような確信度をクラス毎に求め、入力した画像と同サイズの２次元データ（以下、確信度マップと称する）を表示する。図４では、一例として、クラス「１」に対応するチャネルの確信度マップを１５ｅ_１とし、クラス「３」に対応するチャネルの確信度マップを１５ｅ_２とし、クラス「２」に対応するチャネルの確信度マップを１５ｅ_３として説明する。

図４では、一例として、学習済みモデル１７ｂにより教師無し画像１２ｅを推論することで、３チャンネルの確信度マップ１５ｅ_１，１５ｅ_２，１５ｅ_３が推論部４から出力された例を示している。例えば、確信度マップ１５ｅ_１は、教師無し画像１２ｅ内において物体１３ａの種類が定義されたクラス「１」に対する確信度の大小を輝度値として正規化し、画像として表示している。また、確信度マップ１５ｅ_２は、教師無し画像１２ｅ内において物体１３ｃの種類が定義されたクラス「３」に対する確信度の大小を輝度値として正規化し、画像として表示している。なお、入力された教師無し画像１２ｅには物体１３ｃが含まれないため、確信度は略ゼロとなっている。さらに、確信度マップ１５ｅ_３は、教師無し画像１２ｅ内において物体１３ｂの種類が定義されたクラス「２」に対する確信度の大小を輝度値として正規化し、画像として表示している。

推論部４は、このようにして生成した確信度マップ１５ｅ_１，１５ｅ_２，１５ｅ_３を教師付与対象画像選定部７に出力する。なお、学習済みモデル１７ｂとして深層学習モデルを用いる場合、推論部４で１つの画像から生成される確信度マップの生成数（チャンネル数とも称する）は、定義するクラスの数に一致することが望ましい。また、推論部４は、教師無し画像１２ｅの画素毎に、確信度が最も高いクラスがその画素のクラスであると決定し、教師無し画像１２ｅの全ての画素についてクラス分類を行うようにしても良い。

教師付与対象画像選定部７は、推論部４で教師無し画像１２ｅを推論した推論結果である確信度マップ１５ｅ_１，１５ｅ_２，１５ｅ_３を受け取ると、確信度マップ１５ｅ_１，１５ｅ_２，１５ｅ_３間の類似度を基に、教師無し画像１２ｅが学習済みモデル１７ｂの学習に有効な教師無し画像となるか否かを決定する。なお、学習済みモデル１７ｂの学習に有効な教師無し画像とは、現時点での学習済みモデル１７ｂが識別することが困難な画像を指す。

ところで、従来技術として、画像セグメンテーションの分野ではなく画像分類の分野では、例えば、特許第５１６９８３１号公報（以下、特許文献２と称する）に示すように、能動学習を行う際、データに１つの正解ラベルを付与する作業（以下、ラベリングとも称する）を限定するために、ラベリング済みのデータと比較して類似度が低いデータを、ラベリングされていないデータから選別する方法が提案されている。すなわち、特許文献２では、ラベリング済みのデータと比較して類似度が低いデータが、学習に有効なデータであるとして選別している。

しかしながら、このように、単にラベリング済みのデータとの類似度を使用する場合は、ラベリング済みデータが少量だと、大半のデータについてラベリング済みデータとの類似度が低くなり、ラベリング対象とするデータを十分に絞ることができない。さらに、特許文献２では、同じ識別対象物が写った画像であっても、背景が異なっている場合や対象物の撮影方向が異なっている場合や、対象物の撮影範囲や画像内に含まれるノイズ等の影響によって、低い類似度が算出されてしまい、選択され易くなる懸念があり、現状の学習済みモデルの識別能力を十分に反映した手法であるとはいえない。

そこで、本実施形態では、推論部４の推論結果である複数の確信度マップを利用し、これら確信度マップの各組み合わせでの類似度を判定し、確信度マップ全ての組み合わせで類似していると判定した教師無し画像を、学習済みモデル１７ｂの学習に有効な教師無し画像（教師付与対象画像）として選定するようにした。これにより、教師無し画像全数ではなく、その内から学習済みモデル１７ｂの学習に有効な画像だけを加えて、学習済みモデル１７ｂの再学習を行うことができるため、少ない労力で精度の向上を図ることが期待できる。即ち、精度向上に寄与する画像を現状の学習済みモデル１７ｂの識別能力を反映して選定することができる。

すなわち、学習済みモデル１７ｂで教師無し画像を推論した場合に、十分な精度で教師無し画像の各画素をそれぞれ識別できているときには、高い精度で識別することができたクラスの確信度マップでは、当該クラスに対応する識別対象物が存在する画素において、高い確信度が生じる。一方で、他クラスの確信度マップでは、（他クラスに対応する識別対象物が存在しないため）同一画素において、低い確信度が得られる。そのため、確信度マップを画像としてみたとき、クラスの異なる確信度マップ相互の類似度は低くなる。つまり、異なる２クラスの確信度マップを組み合わせて比較した場合、全クラスの組み合せの内、類似度が低い組み合せが生じる。

ここで、２つの確信度マップ間の類似度とは、２つの確信度マップの内容が互いにどれだけ似ているのかを示す指標であり、類似度が高いほど２つの確信度マップの内容が互いによく似ていることを示し、一方、類似度が低いほど２つの確信度マップの内容が互いに相違していることを示す。確信度マップ間の類似度の算出手法は、例えば、確信度マップの各画素の輝度値を正規化して、適宜画像化する等したうえで、パターンマッチング処理や、確信度マップ間の相関値、確信度マップ間のコサイン類似度など、公知の各種手法を利用することができる。

一方、学習済みモデル１７ｂで教師無し画像を推論した場合に、学習済みモデル１７ｂの識別能力が不十分で教師無し画像の各画素をそれぞれ識別できていないときには、特定のクラスの確信度マップにだけ高い確信度は得られるといったことはなく、全クラスの確信度マップで、略同等の（比較的低い）確信度が現れるため、互いに似た確信度マップとなる。そのため、異なる２クラスの確信度マップの類似度を測った場合、どの確信度マップの組み合せでも、確信度マップ間の類似度が高くなる。

ここで、学習済みモデル１７ｂで教師無し画像を推論したときに、学習済みモデル１７ｂの識別能力が不十分で各画素をそれぞれ識別できていない場合の、教師無し画像については、学習済みモデル１７ｂにて新たに学習させることで、学習済みモデル１７ｂの識別能力を向上させることに役立つ教師無し画像であると言える。

本実施形態の場合、教師付与対象画像選定部７は、例えば、推論部４から複数の確信度マップを受け取ると、これら複数の確信度マップの内から２つの確信度マップからなる任意の組み合わせを選定し、これら確信度マップ間での類似度をそれぞれ算出する。

ここで、教師付与対象画像選定部７には、２つの確信度マップが類似しているか否かを判定するための類似度の閾値が予め設定されている。なお、この閾値は、学習時の損失関数の推移や、評価データを用いた識別モデルの精度検証に基づいて最適な値を設定することができる。教師付与対象画像選定部７は、閾値に基づいて２つの確信度マップが類似しているか否かを判定する。

具体的には、教師付与対象画像選定部７は、複数の確信度マップにおいて任意に選択した２つの確信度マップ間で算出した類似度のうち、いずれかの組合わせで閾値より低いとき、確信度マップが類似していないと判定し、これら確信度マップを推論結果とした教師無し画像を、学習済みモデル１７ｂの学習に寄与しない教師無し画像とする。

一方、教師付与対象画像選定部７は、複数の確信度マップにおいて任意に選択した２つの確信度マップ間で算出した類似度のうち、全ての組合わせで閾値よりも高いとき、確信度マップが類似していると判定し、これら確信度マップを推論結果とした教師無し画像を、学習済みモデル１７ｂの学習に寄与する画像、即ち、教師付与対象画像として選定する。教師付与対象画像選定部７は、入力した教師無し画像を教師付与対象画像として選定したことを示す選定情報を概略領域設定部８に出力する。

このようにして、能動学習装置１では、複数ある教師無し画像の中から、マーキング作業の対象となる教師付与対象画像を限定できるため、教師無し画像全てに対しマーキング作業を行う必要がなくなり、ユーザによっての作業負荷を低減することができる。

ところで、本実施形態の能動学習装置１によって、教師付与対象画像を限定することができるため、明らかにユーザの負荷の低減を図ることがでるが、更に言えば、その後に行う通常のマーキング作業は、画像の各画素に表示される識別対象物をユーザが認識し、画像内において識別対象物となる物体の存在範囲を精緻に選択する必要があるため、依然としてユーザにとって高い負荷が掛る場合があった。

そこで、本実施形態では、概略領域設定部８及び輪郭抽出処理部９を設け、これら概略領域設定部８及び輪郭抽出処理部９を利用して、教師付与対象画像内から識別対象物の輪郭又は領域を自動的に抽出し、１つの教師付与対象画像に対するユーザのマーキング作業の負担軽減を図っている。ここでは、例えば、図５Ａに示すように、識別対象物として物体１３ｄが所定位置に表示された教師付与対象画像１２ｆを一例として、以下、本実施形態における概略領域設定部８及び輪郭抽出処理部９について以下説明する。

この場合、概略領域設定部８は、教師付与対象画像選定部７から選定情報を受け取ると、当該選定情報が示す教師無し画像を教師付与対象画像として記憶部３から読み出す。概略領域設定部８は、例えば、図５Ａに示す教師付与対象画像１２ｆを記憶部３から読み出すと、図示しない表示装置に教師付与対象画像１２ｆを表示させる。

概略領域設定部８は、表示装置に表示された教師付与対象画像１２ｆをユーザに視認させ、図示しないキーボードやマウス等の操作部をユーザに操作させて、図５Ｂに示すように、教師付与対象画像１２ｆ内にある物体１３ｄを内包する大まかな領域である概略領域ＥＲを教師付与対象画像１２ｆ内に設定する。図５Ｂでは、円形状の枠線で囲まれた領域を概略領域ＥＲとした例を示しており、ユーザは、教師付与対象画像１２ｆ内において、枠線の大きさや形状、位置を変えて概略領域ＥＲ内に物体１３ｄが納まるようにする。

なお、本実施形態においては、概略領域ＥＲを円形状とした場合について述べたが、本発明はこれに限らず、教師付与対象画像１２ｆ内の識別対象物を概略領域ＥＲ内に納めることができれば概略領域ＥＲの形状は、例えば、四角形状や多角形状など任意の形状であってもよい。

概略領域設定部８は、ユーザによって設定された概略領域ＥＲの教師付与対象画像１２ｆ内での設定位置（例えば、教師付与対象画像１２ｆ内での座標）を認識し、概略領域ＥＲの設定位置を表した教師付与対象画像１２ｆを輪郭抽出処理部９に出力する。

輪郭抽出処理部９は、公知の輪郭抽出や領域抽出等の抽出アルゴリズム（例えば、Watershed、GraphCut、GrabCut等）を用いて、教師付与対象画像１２ｆ内のうち概略領域ＥＲ内に対してのみ輪郭抽出処理又は領域抽出処理を行い、図５Ｃに示すように、概略領域ＥＲ内の濃淡の違いから概略領域ＥＲ内にある物体１３ｄの輪郭又は領域を抽出する。本実施形態では、このように概略領域ＥＲ以外の領域に対して抽出処理は行わず、概略領域ＥＲに対してだけ抽出処理を行うことで、教師付与対象画像１２ｆ内において概略領域ＥＲ以外にあるノイズなどが、識別対象物（物体１３ｄ）の輪郭又は領域として抽出されてしまうことを抑制できる。また、物体１３ｄの範囲を精緻に選択してマーキングする必要がなくなり、ユーザの作業量を低減することができる。

輪郭抽出処理部９は、概略領域ＥＲ内から抽出された輪郭で囲まれた領域又は領域抽出された領域（以下、抽出領域と称する）ＥＲ４を特定した教師付与対象画像１２ｆを準教師有り画像生成部１０に出力する。これにより、準教師有り画像生成部１０は、教師付与対象画像１２ｆにおいて特定した抽出領域ＥＲ４内に位置する全ての画素を特定する。

準教師有り画像生成部１０は、識別対象物の種類に応じて予め定義されたクラスの中から、教師付与対象画像１２ｆ内に表示された物体１３ｄに対応するクラスをユーザに選択させる。これにより、準教師有り画像生成部１０は、ユーザにより選択された所定のクラスを抽出領域ＥＲ４内の各画素に一括して付与することが望ましい。

かくして、準教師有り画像生成部１０は、教師付与対象画像１２ｆ内において物体１３ｄが表示される画素を推測した抽出領域ＥＲ４内の画素全てに、物体１３ｄに対応したクラスを付与した、準教師有り画像を生成することができる。以上のように、能動学習装置１では、従来のマーキング作業のように、教師付与対象画像内で識別対象物が存在する画素１つ１つをユーザ自身が精緻に選択してゆく必要がないため、その分、ユーザのマーキング作業の負荷軽減を図ることができる。

そして、準教師有り画像生成部１０は、このようにして作成した準教師有り画像を記憶部３及び学習部２に出力する。学習部２は、記憶部３から学習済みモデル１７ｂを読み出し、準教師有り画像生成部１０で生成した準教師有り画像を教師有り画像に追加し、学習済みモデル１７ｂに再学習させる。これにより学習済みモデル１７ｂは、物体１３ｄの特徴を学習し、識別能力が向上する。

（２）＜能動学習処理手順＞
次に、上述した能動学習モードの能動学習処理手順について、図６のフローチャートを用いて説明する。図６に示すように、能動学習装置１は、開始ステップからステップＳ１に移り、学習済みモデル１７ｂを取得し、次のステップＳ２に移る。

本実施形態の場合、ステップＳ１における学習済みモデル１７ｂの取得は、能動学習装置１において、未学習の識別器１７ａに複数の教師有り画像１５ａ，１５ｂ，１５ｃ，１５ｄ，…を入力し、識別対象物の特徴を未学習の識別器１７ａに学習させ、学習済みモデル１７ｂを作成する。

ステップＳ２において、推論部４は、教師無し画像（例えば、図４に示した教師無し画像１２ｅ）を学習済みモデル１７ｂで推論し、教師無し画像の画素毎に算出した確信度に基づいてクラス毎に確信度マップ（例えば、図４に示した確信度マップ１５ｅ_１，１５ｅ_２，１５ｅ_３）を生成し、次のステップＳ３に移る。

ステップＳ３において、教師付与対象画像選定部７は、確信度マップ全ての組み合わせにおいて確信度マップ間の類似度を算出し、次のステップＳ４に移る。

ステップＳ４において、教師付与対象画像選定部７は、確信度マップの各組み合わせでそれぞれ算出した全ての類似度が閾値よりも高いか否か、すなわち、確信度マップの全ての組み合わせで確信度マップ同士が類似しているか否かを判定する。

ここで、否定結果が得られると、このことは、確信度マップの各組み合わせで算出した類似度のいずれかが閾値より低いこと、すなわち、あるクラスの確信度マップでは当該クラスの画素が十分に識別できているため他の確信度マップとは明らかに異なった表示形態となっていること（類似していないこと）を表しており、このとき教師付与対象画像選定部７は次のステップＳ１１に移る。

なお、このように、あるクラスの確信度マップで当該クラスの画素が十分に識別できている教師無し画像は、学習済みモデル１７ｂで既に識別可能な教師無し画像となるため、学習済みモデル１７ｂの学習に寄与しない教師無し画像であると言える。

ステップＳ１１において、推論部４は、記憶部３に記憶されている他の教師無し画像の中から次の教師無し画像を選択し、再びステップＳ２に移り、ステップＳ４で肯定結果が得られるまで、上述したステップＳ２、ステップＳ３、ステップＳ４及びステップＳ１１を繰り返す。

これに対して、ステップＳ４で肯定結果が得られると、このことは、確信度マップの各組み合わせでそれぞれ算出した類似度の全てが閾値よりも高いこと、すなわち、確信度マップのいずれにおいてもクラスが識別できていないため、確信度マップ同士が同じような表示形態になって確信度マップ同士が類似していることを表しており、このとき教師付与対象画像選定部７は次のステップＳ５に移る。

なお、このように、複数ある確信度マップのいずれにおいてもクラスが識別できていない教師無し画像は、学習済みモデル１７ｂで識別できていない教師無し画像となるため、学習済みモデル１７ｂの学習に寄与する教師無し画像であると言える。

ステップＳ５において、教師付与対象画像選定部７は、教師無し画像を教師付与対象画像として選定し、次のステップＳ６に移る。ステップＳ６において、概略領域設定部８は、例えば教師付与対象画像１２ｆに写った識別対象物である物体１３ｄを表示装置によりユーザに視認させる。次いで、ステップＳ６において、概略領域設定部８は、教師付与対象画像１２ｆの物体１３ｄを内包する概略領域ＥＲを、ユーザによって教師付与対象画像１２ｆ内に設定させ、次のステップＳ７に移る。

ステップＳ７において、輪郭抽出処理部９は、教師付与対象画像１２ｆのうち概略領域ＥＲに対してのみ輪郭抽出処理又は領域抽出処理を行い、概略領域ＥＲ内の濃淡の違いを基に物体１３ｄと推定される部分の輪郭又は領域を概略領域ＥＲ内から抽出し、次のステップＳ８に移る。

ステップＳ８において、準教師有り画像生成部１０は、教師付与対象画像１２ｆに写る物体１３ｄに対応するクラスをユーザに選択させ、輪郭抽出処理又は領域抽出処理により抽出した抽出領域ＥＲ４内の各画素に、ユーザが選択した当該クラスを付与して、準教師有り画像を生成し、次のステップＳ９に移る。

ステップＳ９において、学習部２は、ステップＳ８で生成した準教師有り画像を既存の教師有り画像に追加して学習済みモデル１７ｂに再学習させて、学習済みモデル１７ｂの識別能力を向上させ、次のステップＳ１０に移る。

ステップＳ１０において、学習部２は、ステップＳ９で識別能力を向上させた学習済みモデル１７ｂの識別精度を評価用画像（学習のための画像とは異なるマーキング済み画像）により評価し、所望する識別精度が得られたか否かを確認する。なお、学習済みモデル１７ｂの識別精度の評価は、例えば、予め用意した評価用画像を学習済みモデル１７ｂで推論し、正しいクラスが識別されているか否かを基に判断される。

ここで、ステップＳ１０において否定結果が得られると、このことは、学習済みモデル１７ｂにおいて未だ所望する識別精度が得られていないこと、すなわち、評価用画像を学習済みモデル１７ｂで推論した結果、識別対象物を識別できていなかったことを表しており、このとき、学習部２は次のステップＳ１１に移り、ステップＳ４及びステップＳ１０で肯定結果が得られるまで、上述した処理を繰り返す。

これに対して、ステップＳ１０で肯定結果が得られると、このことは、学習済みモデル１７ｂにおいて所望する識別精度が得られたこと、すなわち、評価用画像を学習済みモデル１７ｂで推論した結果、評価用画像内の各画素について識別対象物を識別できたことを表しており、このとき、学習部２は上述した能動学習処理手順を終了する。

（３）＜作用及び効果＞
以上の構成において、能動学習装置１は、各画素をクラス分類した複数の教師有り画像を用いて学習した学習済みモデル１７ｂを取得し（取得工程）、これを記憶部３に記憶する。そして、能動学習装置１は、この学習済みモデル１７ｂで教師無し画像を推論し、推論結果に基づいて、複数の教師無し画像の中から学習済みモデル１７ｂの学習に寄与する画像を選定し、この画像を教師付与対象画像とする（教師付与対象画像選定工程）。

能動学習装置１は、このようにして選定した教師付与対象画像の画素毎に、それぞれ対応するクラスを付与して準教師有り画像を生成（準教師有り画像生成工程）し、既存の教師有り画像に追加して学習済みモデル１７ｂを再学習させる（学習工程）。

このように、能動学習装置１では、複数ある教師無し画像の中から、学習済みモデル１７ｂの学習に寄与する教師無し画像だけを教師付与対象画像として選定することで、全ての教師無し画像に対してマーキングを行うことを回避できる。よって、ユーザの作業負担を軽減し、学習済みモデルの精度向上を図ることができる。

本実施形態では、上述した教師付与対象画像選定工程では、学習済みモデル１７ｂで教師無し画像を推論し、教師無し画像の各画素のクラスを、クラス毎に教師無し画像と同じサイズの２次元データとした複数の確信度マップを生成するようにした。

そして、その後の教師付与対象画像選定工程において、推論結果として得られた複数の確信度マップの中から抜き出した２つの確信度マップの組み合わせ間の類似度を判定し、全ての組み合わせで類似していると判定した画像を、教師付与対象画像として選定するようにした。

これにより、能動学習装置１では、現状の学習済みモデル１７ｂの識別能力を反映して、教師付与対象画像を選定することができるので、現状の学習済みモデル１７ｂの識別能力向上に有効な教師無し画像に対してだけマーキング作業を行うことができる。よって、現状の学習済みモデル１７ｂの学習に寄与しない教師無し画像への不要なマーキング作業を抑制できる分、マーキング作業の負担軽減を図ることができる。

さらに、本実施形態では、準教師有り画像生成工程において、教師付与対象画像１２ｆ内の物体１３ｄを内包する概略領域ＥＲを設定させるようにした。そして、能動学習装置１は、輪郭抽出処理部９によって概略領域ＥＲに対してのみ輪郭抽出処理又は領域抽出処理を行い、概略領域ＥＲ以外の領域の輪郭は抽出せずに概略領域ＥＲ内の物体１３ｄの輪郭又は領域のみを自動的に抽出するようにした。

また、このようにして抽出した輪郭で囲まれた抽出領域ＥＲ４内の各画素に、対応するクラスを付与して準教師有り画像を生成し、準教師有り画像を既存の教師有り画像に追加して、学習済みモデル１７ｂを再学習させるようにした。

このように、能動学習装置１では、概略領域ＥＲに対してだけ輪郭抽出処理又は領域抽出処理を行うことで、教師付与対象画像１２ｆ内において概略領域ＥＲ以外にあるノイズなどを、識別対象物（物体１３ｄ）の輪郭又は領域として抽出してしまうことを抑制することができ、その分、教師付与対象画像１２ｆ内から識別対象物の輪郭又は領域を一段と正確に抽出することができる。

また、能動学習装置１では、輪郭抽出処理部９において、公知の輪郭抽出処理又は領域抽出処理を行い、教師付与対象画像１２ｆ内から物体１３ｄの輪郭又は領域を自動的に抽出するようにしたことで、識別対象物が存在する領域に含まれる全画素をユーザ自身が自ら精緻に選択してゆく必要がないため、その分、マーキング作業の手間を大幅に省くことができ、ユーザの負荷軽減を図ることができる

（４）＜他の実施形態＞
なお、上述した各実施形態においては、識別対象物として、鉄鋼製品、人の顔、人物、病理組織、食品検査など、セグメンテーションの分野において学習済みモデルに学習させることが可能な種々の識別対象物を適用することもできる。

また、上述した実施形態においては、教師付与対象画像選定部７によって確信度マップ間の類似度を基に教師付与対象画像を選定し、その後、概略領域設定部８及び輪郭抽出処理部９によって教師付与対象画像内の識別対象物の輪郭又は領域を抽出する能動学習装置１について述べたが、本発明はこれに限らない。

例えば、概略領域設定部８及び輪郭抽出処理部９を有しない能動学習装置とし、教師付与対象画像選定部７によって確信度マップ間の類似度を基に教師付与対象画像を選定した後、従来と同様に、教師無し画像内の識別対象物が存在する画素を精緻にユーザ自身でマーキングさせるようにしてもよい。

また、教師付与対象画像選定部７を有しない能動学習装置とし、推論部４における推論結果からユーザ自身が任意に教師付与対象画像を選択し、概略領域設定部８及び輪郭抽出処理部９によって教師付与対象画像内の識別対象物の輪郭又は領域を抽出させるようにしてもよい。

さらに、上述した実施形態においては、概略領域設定部８により教師付与対象画像１２ｆ内に概略領域ＥＲを設定した後に、輪郭抽出処理部９により概略領域ＥＲ内に対して輪郭抽出処理又は領域抽出処理を行う能動学習装置１について述べたが、本発明はこれに限らない。例えば、教師付与対象画像１２ｆ内に概略領域ＥＲを設定せずに、輪郭抽出処理部９により教師付与対象画像１２ｆ全体に輪郭抽出処理又は領域抽出処理を行い、教師付与対象画像１２ｆから識別対象物の輪郭又は領域を直接抽出するようにしてもよい。

なお、本実施形態において、学習済みモデル作成モードで学習済みモデルを学習させる際に用いる教師有り画像１５ａ，１５ｂ，１５ｃ，１５ｄ，…は、概略領域設定部８及び輪郭抽出処理部９を用いて教師無し画像内の識別対象物の輪郭又は領域を抽出し、抽出した輪郭又は領域内に存在する画素に対してユーザによる確認を行うことなく、対応するクラスを自動的に付与して準教師有り画像を生成してもよい。

１能動学習装置
２学習部（取得部）
３記憶部
４推論部
７教師付与対象画像選定部
８概略領域設定部
９輪郭抽出処理部
１０準教師有り画像生成部

Claims

画像に撮像された識別対象物を識別する識別器の能動学習方法において、
各画素に前記識別対象物の種類に対応するクラスを付与した教師有り画像を用い、前記識別器を学習させることで学習済みモデルを取得する取得工程と、
前記クラスが付与されていない教師無し画像を、前記学習済みモデルで推論することで、前記教師無し画像の中から前記学習済みモデルの学習に寄与する画像である教師付与対象画像を選定する教師付与対象画像選定工程と、
前記教師付与対象画像の画素毎に、それぞれ対応するクラスを付与して新たな教師有り画像を生成する準教師有り画像生成工程と、
前記新たな教師有り画像を用いて、前記学習済みモデルを再学習させる学習工程と、
を備える能動学習方法。
前記教師付与対象画像選定工程は、
前記教師無し画像を前記学習済みモデルで推論し、前記教師無し画像の各画素の前記クラスを、前記クラス毎に前記教師無し画像と同サイズの２次元データとした複数の確信度マップを生成し、
前記複数の確信度マップから抜き出した２つの確信度マップの組み合せ間の類似度を判定し、全ての組み合せで類似していると判定された画像を、前記教師付与対象画像として選定する、請求項１に記載の能動学習方法。
前記準教師有り画像生成工程は、
前記教師付与対象画像内の前記識別対象物を内包する領域を設定し、
前記識別対象物を内包する領域から、前記識別対象物が存在する領域を抽出し、
抽出した前記識別対象物が存在する領域内の各画素に、対応する前記クラスを付与して新たな教師有り画像とする、請求項１又は２に記載の能動学習方法。
画像に撮像された識別対象物を識別する識別器を用いた能動学習装置において、
各画素に前記識別対象物の種類に対応するクラスを付与した教師有り画像を用い、前記識別器を学習させることで学習済みモデルを取得する取得部と、
前記クラスが付与されていない教師無し画像を、前記学習済みモデルで推論することで、前記教師無し画像の中から前記学習済みモデルの学習に寄与する画像である教師付与対象画像を選定する教師付与対象画像選定部と、
前記教師付与対象画像の画素毎に、それぞれ対応するクラスを付与して新たな教師有り画像を生成する準教師有り画像生成部と、
前記新たな教師有り画像を用いて、前記学習済みモデルを再学習させる学習部と、
を備える能動学習装置。