JP2020095526A

JP2020095526A - 画像処理装置、方法、及びプログラム

Info

Publication number: JP2020095526A
Application number: JP2018233709A
Authority: JP
Inventors: 俊介塚谷; Shunsuke Tsukatani; 和彦村崎; Kazuhiko Murazaki; 慎吾安藤; Shingo Ando; 淳嵯峨田; Atsushi Sagata
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-06-18
Anticipated expiration: 2038-12-13
Also published as: US12039736B2; US20220058807A1; WO2020121996A1; JP7092016B2

Abstract

【課題】学習データに用いていない解像度の画像についても精度よくラベルを識別できる。【解決手段】入力画像と、前記入力画像の解像度と、画像の各画素にラベルを付与する学習済みモデルの学習に用いた学習用画像の解像度とに基づいて、入力画像と、学習用画像に対応する解像度である低解像画像との画素の対応関係に関する複数のシフト量の各々について、入力画像から低解像度画像の各々を生成し、学習済みモデルに低解像度画像の各々を入力し、低解像度画像の各々の各画素にラベルを付与した低解像度ラベル画像の各々を出力し、低解像度画像の生成に用いたシフト量の各々と、低解像度ラベル画像の各々とに基づいて、入力画像の各画素のラベルを求めたラベル画像を出力する。【選択図】図１

Description

本発明は、画像処理装置、方法、及びプログラムに係り、特に、画像のラベルを識別するための画像処理装置、方法、及びプログラムに関する。

幅広い分野において、画像からの対象領域を抽出したいという要求がある。

例えば、画像から画素単位で人物や自動車といったオブジェクトクラスのラベルを付与する、セマンティックセグメンテーションという手法が存在する（非特許文献１参照）。

非特許文献１によるセマンティックセグメンテーションの手法では、正解ラベルを持つ画像データセットを畳み込みニューラルネットワークに学習させて学習済みモデルを生成する。そして、処理を行いたい画像を学習済みモデルに入力することで、出力として画素単位でオブジェクトクラスのラベルが割り振られたラベル画像を得ることができる。

J. Long, E. Shelhamer, and T. Darrell, "Fully convolutional networks for semantic segmentation," in Proc. of IEEE CVPR, 2015.

上記の手法では次のような問題点がある。

学習済みモデルが推定するラベルの精度は、学習に用いる画像データセットに依存する。オブジェクトクラスを推定するには画像中のオブジェクトの位置や大きさといった構造情報が重要となるが、畳み込みニューラルネットワークは拡大縮小という幾何学的変形に対する不変性を持たない性質がある。よって学習に用いる画像データセットに存在しないような高い解像度の画像を入力した場合、オブジェクトクラスの推定が失敗してしまう。

上記の問題を解決するため、学習に用いる画像データセットに入力として想定される解像度を持つ画像を含めて学習する方法が考えられるが、画像データセットの構築や再学習のコストが高く、容易ではないという課題がある。

また、学習に用いる画像データセットの解像度まで入力画像の解像度を落とす方法も考えられるが、本来の入力画像が高い解像度で撮影されているのに対して認識結果の解像度が低く、低画質なものとなってしまうという課題もある。

本発明は、上記事情を鑑みて成されたものであり、学習データに用いていない解像度の画像についても精度よくラベルを識別できる画像処理装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る画像処理装置は、入力画像と、前記入力画像の解像度と、画像の各画素にラベルを付与する学習済みモデルの学習に用いた学習用画像の解像度とに基づいて、前記入力画像と、前記学習用画像に対応する解像度である低解像画像との画素の対応関係に関する複数のシフト量の各々について、前記シフト量を用いて前記入力画像から低解像度画像の各々を生成し、生成した前記低解像度画像の各々と前記低解像度画像の生成に用いた前記シフト量の各々とを出力するダウンサンプリング部と、前記学習済みモデルに前記低解像度画像の各々を入力し、前記低解像度画像の各々の各画素にラベルを付与した低解像度ラベル画像の各々を出力するセマンティックセグメンテーション処理部と、前記低解像度画像の生成に用いた前記シフト量の各々と、前記低解像度ラベル画像の各々とに基づいて、前記入力画像の各画素のラベルを求めたラベル画像を出力するアップサンプリング部と、を含んで構成されている。

また、第１の発明に係る画像処理装置において、前記アップサンプリング部は、前記低解像度ラベル画像ごとに、前記入力画像に対して、前記シフト量に応じて前記低解像度ラベル画像を割り当てた結果に基づいて、前記入力画像の各画素について、前記低解像度ラベル画像の各画素との重なりの割合に応じた各ラベルのスコアを付与した個別のラベル画像の各々を算出し、各画素について、前記個別のラベル画像の各々の前記画素について付与された各ラベルのスコアを統合して前記画素のラベルを決定することにより前記ラベル画像を出力するようにしてもよい。

第２の発明に係る画像処理方法は、ダウンサンプリング部が、入力画像と、前記入力画像の解像度と、画像の各画素にラベルを付与する学習済みモデルの学習に用いた学習用画像の解像度とに基づいて、前記入力画像と、前記学習用画像に対応する解像度である低解像画像との画素の対応関係に関する複数のシフト量の各々について、前記シフト量を用いて前記入力画像から低解像度画像の各々を生成し、生成した前記低解像度画像の各々と前記低解像度画像の生成に用いた前記シフト量の各々とを出力するステップと、セマンティックセグメンテーション処理部が、前記学習済みモデルに前記低解像度画像の各々を入力し、前記低解像度画像の各々の各画素にラベルを付与した低解像度ラベル画像の各々を出力するステップと、アップサンプリング部が、前記低解像度画像の生成に用いた前記シフト量の各々と、前記低解像度ラベル画像の各々とに基づいて、前記入力画像の各画素のラベルを求めたラベル画像を出力するステップと、を含んで実行することを特徴とする。

また、第２の発明に係る画像処理方法において、前記アップサンプリング部が処理するステップは、前記低解像度ラベル画像ごとに、前記入力画像に対して、前記シフト量に応じて前記低解像度ラベル画像を割り当てた結果に基づいて、前記入力画像の各画素について、前記低解像度ラベル画像の各画素との重なりの割合に応じた各ラベルのスコアを付与した個別のラベル画像の各々を算出し、各画素について、前記個別のラベル画像の各々の前記画素について付与された各ラベルのスコアを統合して前記画素のラベルを決定することにより前記ラベル画像を出力するようにしてもよい。

第３の発明に係るプログラムは、コンピュータを、第１の発明に記載の画像処理装置の各部として機能させるためのプログラムである。

本発明の画像処理装置、方法、及びプログラムによれば、学習データに用いていない解像度の画像についても精度よくラベルを識別できる、という効果が得られる。

本発明の実施の形態に係る画像処理装置の構成を示すブロック図である。本発明の実施の形態に係る画像処理装置における画像処理ルーチンを示すフローチャートである。ダウンサンプリングの処理の詳細を示すフローチャートである。アップサンプリングの処理の詳細を示すフローチャートである。入力画像（高解像度画像）と低解像度画像との位置合わせの一例を示す図である。低解像度ラベル画像と入力画像との位置合わせの一例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

まず、本発明の実施の形態の概要を説明する。

上記の課題を解決するため、本発明では学習済みモデルに適応しない高解像の入力画像の入力に対して、解像度を学習済みモデルに適応する解像度まで落とした低解像度画像を複数枚生成し、それぞれの低解像度画像を学習済みモデルに入力して低解像度ラベル画像を出力する。

低解像度ラベル画像ごとに、低解像度のラベルを高解像の入力画像に割り振ることで、入力画像と同じ解像度のラベル画像が得られる。

任意のセマンティックセグメンテーション手法に応用が可能であり、学習済みモデルをそのまま利用可能であることから、学習用画像データセットの再収集や再学習が不要である。

本発明の実施の形態の手法によって学習済みのセマンティックセグメンテーションモデルを用いて、想定よりも高い解像度の画像のラベルを推定することができる。これによって認識に用いるカメラの更改に応じてモデルを再学習するなどの手間を省くことができ、また多様な解像度が入力となるシーンにおいて入力解像度に応じた精細な認識結果を提示することができる。

＜本発明の実施の形態に係る画像処理装置の構成＞

次に、本発明の実施の形態に係る画像処理装置の構成について説明する。図１に示すように、本発明の実施の形態に係る画像処理装置１００は、ＣＰＵと、ＲＡＭと、後述する画像処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この画像処理装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、ラベルを付与する対象となる入力画像と、入力画像の解像度と、画像の各画素にラベルを付与する学習済みモデルの学習に用いた学習用画像の解像度とを入力として受け付ける。

演算部２０は、ダウンサンプリング部３０と、セマンティックセグメンテーション部３２と、アップサンプリング部３４とを含んで構成されている。各処理部の処理の詳細については作用の説明において後述する。

ダウンサンプリング部３０は、入力部１０で受け付けた入力画像と、入力画像の解像度と、画像の各画素にラベルを付与する学習済みモデル（図示省略）の学習に用いた学習用画像の解像度とに基づいて、複数のシフト量の各々について、シフト量を用いて入力画像から低解像度画像の各々を生成する。シフト量は、入力画像と、学習用画像に対応する解像度である低解像画像との画素の対応関係を表す。ダウンサンプリング部３０は、生成した低解像度画像の各々と低解像度画像の生成に用いたシフト量の各々とを出力する。

セマンティックセグメンテーション部３２は、学習済みモデルに低解像度画像の各々を入力し、低解像度画像の各々の各画素にラベルを付与した低解像度ラベル画像の各々を出力する。

アップサンプリング部３４は、低解像度画像の生成に用いたシフト量の各々と、低解像度ラベル画像の各々とに基づいて、入力画像の各画素のラベルを求めたラベル画像を出力部５０に出力する。

＜本発明の実施の形態に係る画像処理装置の作用＞

次に、本発明の実施の形態に係る画像処理装置１００の作用について説明する。入力部１０においてラベルを付与する対象となる入力画像と、入力画像の解像度と、画像の各画素にラベルを付与する学習済みモデルの学習に用いた学習用画像の解像度とを受け付けると、画像処理装置１００は、図２に示す画像処理ルーチンを実行する。

ステップＳ１００では、ダウンサンプリング部３０は、入力部１０で受け付けた入力画像と、入力画像の解像度と、画像の各画素にラベルを付与する学習済みモデル（図示省略）の学習に用いた学習用画像の解像度とに基づいて、複数のシフト量の各々について、シフト量を用いて入力画像から低解像度画像の各々を生成する。ダウンサンプリング部３０は、生成した低解像度画像の各々と低解像度画像の生成に用いたシフト量の各々とを出力する。

ステップＳ１０２では、セマンティックセグメンテーション部３２は、学習済みモデルに低解像度画像の各々を入力し、低解像度画像の各々の各画素にラベルを付与した低解像度ラベル画像の各々を出力する。

ステップＳ１０４では、アップサンプリング部３４は、低解像度画像の生成に用いたシフト量の各々と、低解像度ラベル画像の各々とに基づいて、入力画像の各画素のラベルを求めたラベル画像を出力部５０に出力する。

ステップＳ１００のダウンサンプリング部３０の処理の詳細を図３のフローチャートを参照して説明する。

ステップＳ１０１１では、入力画像Ｉ_ｈ、入力画像Ｉ_ｈの解像度（Ｘ_０×Ｙ_０）、及び上記ステップＳ１０２で用いる学習済みモデルのパラメータが対象とする解像度（Ｘ_１×Ｙ_１）を入力する。学習済みモデルのパラメータが対象とする解像度には、学習時に用いた画像データベースの学習用画像に用いられた画像解像度を選択する。

ステップＳ１０１２では、入力画像の解像度（Ｘ_０×Ｙ_０）と学習済みモデルのパラメータが対象とする解像度（Ｘ_１×Ｙ_１）とから、ダウンサンプリング処理で生成する低解像度画像の生成枚数を算出する。低解像度画像から入力画像の情報量を復元するためには、

枚以上の生成が必要となるため、上記の枚数を低解像度画像の生成枚数として算出する。

ステップＳ１０１３では、回数ｖをｖ＝１と設定する。

ステップＳ１０１４では、入力画像と低解像画像との画素の対応関係に関するサブピクセルオーダーでのシフト量（ｓ、ｔ）_ｌをランダムに設定する。シフトによる低解像度画像の画素値は周期的に変化するため、必要十分なシフト量となるように、シフト量の範囲は、以下のように定める。

ステップＳ１０１５では、ステップＳ１０１４で設定したシフト量に基づいて、以下（１）式により、入力画像Ｉ_ｈをサブピクセル単位でシフトした結果から、低解像度画像Ｉ_ｌの画素値ｐ_ｌ（ｉ，ｊ）を計算し、低解像度画像Ｉ_ｌを生成する。画像空間Ωにおいてｐ_ｌ（ｉ，ｊ）は入力画像Ｉ_ｈの画素値ｐ_ｈ（ｍ、ｎ）を用いて以下（１）式で表すことができる。

・・・（１）

ステップＳ１０１６では、回数ｖがステップＳ１０１２で算出した生成回数に達したかを判定する。生成回数に達していればステップＳ１０１８へ移行し、生成回数に達していなければステップＳ１０１７でｖ＝ｖ＋１とカウントアップしてステップＳ１０１４に戻って処理を繰り返す。

ステップＳ１０１８では、ステップＳ１０１５によって得られた低解像度画像Ｉ_ｌ、低解像度画像Ｉ_ｌに対応するシフト量（ｓ、ｔ）_ｌ、及び入力画像の解像度（Ｘ_０×Ｙ_０）を出力する。

図５は、上記ステップＳ１０１５におけるサブピクセル単位のシフトによって入力画像をシフトさせたときの低解像度画像との画素の対応関係の一例を示す図であり、太枠が低解像度画像の画素、点線が入力画像の画素を表す。

次に、ステップＳ１０４のアップサンプリング部３４の処理の詳細を図４のフローチャートを参照して説明する。

ステップＳ１０３１では、入力画像Ｉ_ｈの解像度（Ｘ_０×Ｙ_０）、複数枚の低解像度ラベル画像Ｌ_ｌ、及び複数枚の低解像度ラベル画像Ｌ_ｌに対応するシフト量（ｓ、ｔ）_ｌを入力する。

ステップＳ１０３２では、生成したすべての低解像度ラベル画像Ｌ_ｌと対応するシフト量（ｓ、ｔ）_ｌを用いて、低解像度ラベル画像Ｌ_ｌと入力画像Ｉ_ｈとの位置合わせをサブピクセル単位で行い、解像度（Ｘ_０×Ｙ_０）の個別のラベル画像Ｌ_ｌｈを算出する。個別のラベル画像Ｌ_ｌｈの算出では、入力画像Ｉ_ｈの画素ごとに、位置合わせの結果、当該画素と重複する低解像度ラベル画像Ｌ_ｌの各画素のラベルのスコアを、当該画素と重複する低解像度ラベル画像Ｌ_ｌの各画素が重なる割合に応じて重み付き平均したスコアを、各ラベルについて算出し、個別のラベル画像Ｌ_ｌｈの該当する画素に割り当てることで行う。

図６は、上記ステップＳ１０３２におけるサブピクセル単位の低解像度ラベル画像Ｌ_ｌと入力画像Ｉ_ｈとの位置合わせの一例を示す図であり、太枠が低解像度ラベル画像Ｌ_ｌの画素、点線が入力画像Ｉ_ｈの画素を表す。例えば、入力画像Ｉ_ｈの一つの画素に着目して低解像度ラベル画像Ｌ_ｌの画素を重ねたときにａ、ｂ、ｃ、及びｄの領域ができるとする。この場合に、画素が重なる割合とは、ａ、ｂ、ｃ、及びｄの領域におけるａの領域の割合のことである。

ステップＳ１０３３では、すべての個別のラベル画像Ｌ_ｌｈを統合し、各画素についてラベルを決定し、入力画像Ｉ_ｈに対するラベル画像Ｌ_ｈを生成する。ラベルの決定は、個別のラベル画像Ｌ_ｌｈの画素ごとに、当該画素に割り当てられたスコアが最も高いラベルを信頼度が高いラベルと判断し、当該画素のラベルとして採用することで行う。なお、スコアによる信頼度ではなく、すべての個別のラベル画像Ｌ_ｌｈで、当該画素において頻度が最も多いラベルを採用するようにしてもよい。

ステップＳ１０３４では、生成されたラベル画像Ｌ_ｈを出力部５０に出力する。

以上のようにアップサンプリング部３４は、低解像度ラベル画像Ｌ_ｌごとに、入力画像Ｉ_ｈに対して、シフト量（ｓ、ｔ）_ｌに応じて低解像度ラベル画像Ｌ_ｌを割り当てた結果に基づいて、入力画像Ｉ_ｈの各画素について、低解像度ラベル画像の各画素との重なりの割合に応じた各ラベルのスコアを付与した個別のラベル画像Ｌ_ｌｈを算出する。そして、各画素について、個別のラベル画像Ｌ_ｌｈの画素について付与された各ラベルのスコアを統合して画素のラベルを決定することによりラベル画像Ｌ_ｈを出力する。

以上説明したように、本発明の実施の形態に係る画像処理装置によれば、学習データに用いていない解像度の画像についても精度よくラベルを識別できる。

このように、学習済みのセマンティックセグメンテーションモデルが想定される解像度よりも高い解像度の入力画像のラベルを推定するために、入力画像の解像度を落として推定したラベル画像を高解像度化することで精細な認識結果を提示する。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

１０入力部
２０演算部
３０ダウンサンプリング部
３２セマンティックセグメンテーション部
３４アップサンプリング部
５０出力部
１００画像処理装置

Claims

入力画像と、前記入力画像の解像度と、画像の各画素にラベルを付与する学習済みモデルの学習に用いた学習用画像の解像度とに基づいて、前記入力画像と、前記学習用画像に対応する解像度である低解像画像との画素の対応関係に関する複数のシフト量の各々について、前記シフト量を用いて前記入力画像から低解像度画像の各々を生成し、生成した前記低解像度画像の各々と前記低解像度画像の生成に用いた前記シフト量の各々とを出力するダウンサンプリング部と、
前記学習済みモデルに前記低解像度画像の各々を入力し、前記低解像度画像の各々の各画素にラベルを付与した低解像度ラベル画像の各々を出力するセマンティックセグメンテーション処理部と、
前記低解像度画像の生成に用いた前記シフト量の各々と、前記低解像度ラベル画像の各々とに基づいて、前記入力画像の各画素のラベルを求めたラベル画像を出力するアップサンプリング部と、
を含む画像処理装置。
前記アップサンプリング部は、前記低解像度ラベル画像ごとに、前記入力画像に対して、前記シフト量に応じて前記低解像度ラベル画像を割り当てた結果に基づいて、前記入力画像の各画素について、前記低解像度ラベル画像の各画素との重なりの割合に応じた各ラベルのスコアを付与した個別のラベル画像の各々を算出し、各画素について、前記個別のラベル画像の各々の前記画素について付与された各ラベルのスコアを統合して前記画素のラベルを決定することにより前記ラベル画像を出力する請求項１に記載の画像処理装置。
ダウンサンプリング部が、入力画像と、前記入力画像の解像度と、画像の各画素にラベルを付与する学習済みモデルの学習に用いた学習用画像の解像度とに基づいて、前記入力画像と、前記学習用画像に対応する解像度である低解像画像との画素の対応関係に関する複数のシフト量の各々について、前記シフト量を用いて前記入力画像から低解像度画像の各々を生成し、生成した前記低解像度画像の各々と前記低解像度画像の生成に用いた前記シフト量の各々とを出力するステップと、
セマンティックセグメンテーション処理部が、前記学習済みモデルに前記低解像度画像の各々を入力し、前記低解像度画像の各々の各画素にラベルを付与した低解像度ラベル画像の各々を出力するステップと、
アップサンプリング部が、前記低解像度画像の生成に用いた前記シフト量の各々と、前記低解像度ラベル画像の各々とに基づいて、前記入力画像の各画素のラベルを求めたラベル画像を出力するステップと、
を含む画像処理方法。
前記アップサンプリング部が処理するステップは、前記低解像度ラベル画像ごとに、前記入力画像に対して、前記シフト量に応じて前記低解像度ラベル画像を割り当てた結果に基づいて、前記入力画像の各画素について、前記低解像度ラベル画像の各画素との重なりの割合に応じた各ラベルのスコアを付与した個別のラベル画像の各々を算出し、各画素について、前記個別のラベル画像の各々の前記画素について付与された各ラベルのスコアを統合して前記画素のラベルを決定することにより前記ラベル画像を出力する請求項３に記載の画像処理方法。
コンピュータを、請求項１又は請求項２に記載の画像処理装置の各部として機能させるためのプログラム。