JP2021149166A

JP2021149166A - 画像処理装置及びプログラム

Info

Publication number: JP2021149166A
Application number: JP2020045428A
Authority: JP
Inventors: 奏馬白壁; Soma Shirokabe
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2021-09-27

Abstract

【課題】切り出し対象を含む画像から切り出し対象を切り出す場合、切り出し対象を切り出し線により指定して予め定められたアルゴリズムにより切り出すものと比較して、容易に切り出し画像を出力することができる画像処理装置及びプログラムを提供する。【解決手段】画像処理装置は、プロセッサを備え、前記プロセッサは、切り出し対象を含む画像データ、前記切り出し対象内の指定された位置データ及び切り出し画像データを取得し、前記切り出し対象を含む画像データ及び該切り出し対象内の位置データを入力、前記切り出し画像データを出力とする学習モデルを生成する。【選択図】図２

Description

本発明は、画像処理装置及びプログラムに関する。

非特許文献1や特許文献1では、ユーザが画像内に、その画素が前景あるいは背景のいずれに属するのかを表すシードを付与し、両者の境界をエネルギー最小化問題として求めることで求める領域を切り抜く技術が開示されている。ここで、シードとは、領域を指定するために描画される線又は点である。

非特許文献２では、ユーザに前景を包括するような短形領域を指定させ、前景・背景の画素値分布を混合正規分布（ＧＭＭ）によってモデル化する技術が開示され、また、特許文献２では、ユーザに対して画像情報を表示し、受け入れた画像情報内の点から初期領域を形成する技術が開示されている。

uri Y. Boykov, Marie-Pierre Jolly, "Interactive Graph Cuts for Optimal Boundary & Region Segmentation of Objects in N-D Images", Proceedings of "International Conference on Computer Vision", Vancouver, Canada, July 2001,vol.I.p.105 特許第６０８９８８６号公報 Rother, C., Kolmogorov, V., & Blake, A. (2004). "GrabCut" − Interactive Foreground Extraction using Iterated Graph Cuts. Conference on Computer Graphics and Interactive Techniques (SIGGRAPH) 特開２０１３―２９９３０号公報

画像編集の分野において、画像を切り出し対象とそれ以外の画像領域とに分離する技術は、目的とする切り出し対象を加工・調整する際の前工程として基本的なものである。

本発明は、切り出し対象を含む画像から切り出し対象を切り出す場合、切り出し対象を切り出し線により指定して予め定められたアルゴリズムにより切り出すものと比較して、容易に切り出し画像を出力することができる画像処理装置及びプログラムを提供することを目的とする。

請求項１に係る本発明は、プロセッサを備え、前記プロセッサは、切り出し対象を含む画像データ、該切り出し対象内の指定された位置データ及び切り出し画像データを取得し、前記切り出し対象を含む画像データ及び該切り出し対象内の位置データを入力、前記切り出し画像データを出力とする学習モデルを生成する、画像処理装置である。

請求項２に係る本発明は、前記プロセッサは、該切り出し対象内の指定された複数の位置データを取得する請求項１記載の画像処理装置である。

請求項３に係る本発明は、前記プロセッサは、切り出し対象以外の領域内の指定された位置データを取得する請求項１又は２記載の画像処理装置である。

請求項４に係る本発明は、前記プロセッサは、切り出し対象の種別データをさらに取得し、前記切り出し対象を含む画像データ、該切り出し対象内の位置データ及び切り出し対象の種別データを入力、前記切り出し画像を出力と学習モデルを生成する請求項１から３いずれか記載の画像処理装置である。

請求項５に係る本発明は、プロセッサを備え、前記プロセッサは、切り出し対象を含む画像データ、該切り出し対象内の指定された位置データ及切り出し画像データを取得し、前記切り出し対象を含む画像データ及び該切り出し対象内の位置データを入力、前記切り出し画像データを出力とする学習モデルを生成し、新たに切り出し対象を含む画像データ及び該切り出し対象内の指定された位置データを取得し、前記学習モデルから切り出し画像データを出力する、画像処理装置である。

請求項６に係る本発明は、切り出し対象を含む画像データ、該切り出し対象内の指定された位置データ及切り出し画像データを取得するステップと、前記切り出し対象を含む画像データ及び該画切り出し対象内の位置データを入力、前記切り出し画像データを出力とする学習モデルを生成するステップと、をコンピュータに実行させるためのプログラムである。

請求項７に係る本発明は、切り出し対象を含む画像データ、該切り出し対象内の指定された位置データ及切り出し画像データを取得するステップと、前記切り出し対象を含む画像データ及び該切り出し対象内の位置データを入力、前記切り出し画像データを出力とする学習モデルを生成するステップと、新たに切り出し対象を含む画像データ及び該切り出し対象内の指定された位置データを取得し、前記学習モデルから切り出し画像データを出力するステップと、をコンピュータに実行させるためのプログラムである。

請求項１、５〜７に係る本発明によれば、切り出し対象画像を含む画像から切り出し対象画像を切り出す場合、切り出し対象画像を切り出し線により指定して予め定められたアルゴリズムにより切り出し対象画像を切り出すものと比較して、容易に切り出し対象画像を切り出すことができる。

請求項２に係る本発明によれば、請求項１に係る本発明の効果に加えて、１つの位置データを取得するものと比較して、正確に切り出し画像を切り出すことができる。

請求項３に係る本発明によれば、請求項１又は２に係る本発明の効果に加えて、切り出し対象のみの位置データを取得するものと比較して、正確に切り出し対象画像を切り出すことができる。

請求項４に係る発明によれば、切り出し対象の種別を問わないで学習モデルを生成するものと比較して、正確に切り出し画像を生成することができる。

請求項５に係る本発明によれば、請求項１から３いずれかに係る本発明の効果に加えて、切り出し対象の種別に関係なく学習させるものと比較して、正確に切り出し対象画像を切り出しことができる。

本発明の実施形態に係る画像処理装置のハードウエアを示すブロック図である。本発明の実施形態に係る画像処理装置のソフトウエアの構成を示すブロック図である。本発明の実施形態に係る画像処理装置において、入力画像、前景距離画像、背景距離画像及び切り出し画像の第１例を示す画面図である。本発明の実施形態に係る画像処理装置において、入力画像、前景距離画像、背景距離画像及び切り出し画像の第２例を示す画面図である。本発明の実施形態に係る画像処理装置において、入力画像、前景距離画像、背景距離画像及び切り出し画像の第３例を示す画面図である。本発明の実施形態に係る画像処理装置において、入力画像、前景距離画像、背景距離画像及び切り出し画像の第４例を示す画面図である。本発明の実施形態に係る画像処理装置において、入力画像、前景距離画像、背景距離画像及び切り出し画像の第５例を示す画面図である。本発明の実施形態に係る画像処理装置において、切り出し画像を変化させる場合の一例を示す画面図である。

次に、本発明の実施形態について図面を参照して詳細に説明する。
図１には、本発明の実施形態に係る画像処理装置１０のハードウエア構成が示されている。

画像処理装置１０は、プロセッサ１２、メモリ１４、記憶装置１６、操作表示装置インターフェイス１８、通信インターフェイス２０及び入力インターフェイス２２を有し、これらプロセッサ１２、メモリ１４、記憶装置１６、操作表示装置インターフェイス１８通信インターフェイス２０及び入力インターフェイス２２がバス２４を介して接続されている。

プロセッサ１２は、メモリ１４に格納された制御プログラムに基づいて予め定められた処理を実行する。記憶装置１６は、例えばハードディスクから構成され、必要とされるソフトウエアやデータが記憶されている。操作表示装置インターフェイス１８には、操作表示装置２６が接続されている。操作表示装置２６は、タッチパネル２８及びディスプレイ３０が設けられ、タッチパネル２８から操作データを受け付け、ディスプレイ３０に表示データを送るようになっている。

通信インターフェイス２０は、ＬＡＮ（ローカル・エリア・ネットワークのこと）３２を介して端末装置やサーバに接続されており、端末装置やサーバから画像の画像を受信し、あるいは端末装置やサーバに画像を送信したりする。ＬＡＮに限らず、インターネットを介して端末装置やサーバに接続するようにしてもよい。

入力インターフェイス２２には、マウス３４及びキーボード３６に接続されており、マウス３４及びキーボード３６からの操作信号や操作データが入力される。

図２には、画像処理装置１０の機能を実現するためのソフトウエア構成が示されている。

画像処理装置１０は、学習モデル生成部３８と実行部４０とを有する。
学習モデル生成部３８は、学習モデルを生成する。この学習モデル生成部３８は、学習データ取得部４２、学習部４４及び学習モデル記憶部４６から構成されている。

学習データ取得部４２は、図３（ａ）に示すように、切り出し対象４８（以下、前景４８という。）及びその他の領域（以下、背景５０という。）を含む入力画像５２、及びユーザが指定する位置データを取得する。また、図３（ｄ）に示すように、切り出し画像である前景マスク画像５４を取得する。位置データは、前述したタッチパネル２８、マウス３４等から入力される。この実施形態においては、○で示す前景４８に対する位置データは、例えばマウス３４の左ボタンをクリックし、×で示す背景５０に対する位置データはマウス３４の右ボタンをクリックすることにより入力される。

位置データは、図３（ｂ），（ｃ）に示すように、後述する学習部４４において扱いやすくするために前景距離画像５６と背景距離画像５８に変換される。ここでは、前景距離画像５６と背景距離画像５８は、位置データの点から放射状に画素値が大きくする距離画像とする場合を示しているが、位置データの座標情報を保持する形式として適切なものがあればいかなるものでもよい。

学習部４４は、ニューラルネットワークであり、好ましくは、深層学習である。入力画像５２、前景距離画像５６及び背景距離画像５８を入力、前景マスク画像５４を教師データである出力とする学習モデルを生成する。即ち、一枚の入力画像５２に対し、前景距離画像５６、背景距離画像５８及び前景マスク画像５４との４つを組として学習する。

図３においては、前景には１つの位置が指定されているが、図４に示すように、前景４８に対して複数の位置を指定するようにしてもよい。ここでは、図４（ａ）に示すように、足と足との間の部分を前景として指定しているので、図４（ｄ）に示すように、足と足との間が前景となる前景マスク画像５４が教師データとなる。また、図５（ａ）に示すように、足と足との間の部分を背景として指定した場合は、図５（ｄ）に示すように、足と足との間が背景となる前景マスク画像５４が教師データとなる。

また、図６に示すように、図３と同じ入力画像５２の前景４８に３つの位置データを与え、背景５０に位置データを与えないようにしてもよい。この場合は、図６（ｃ）に示すように、背景距離画像５８は、全体が「白」として扱われる。この図６の例では、図３と同じ前景マスク画像５４が教師データとなる。

人全体について、学習モデルが生成されるものではなく、例えば図７（ａ）に示すように、人の頭を前景４８と指定し、頭以外を背景５０として指定した場合は、図７（ｄ）に示すように、頭のみが前景マスク画像５４となる教師データを与えるようにしてもよい。

上記のように多数の入力データと出力データから学習モデルが生成され、生成された学習モデルが学習モデル記憶部４６に記憶される。

実行部４０は、画像データ受付部６０、ユーザ指示受付部６２、識別部６４及び出力部６６を有する。画像データ受付部６０は、ユーザにより切り出したい画像を含む画像データを受け付ける。ユーザ指示受付部１５は、画像データ受付部６０で受け付けた画像データに対してユーザが入力した前景領域の位置及び背景領域の位置のデータを受け付ける。

識別部６４は、入力された画像データ及び位置データから、学習モデル記憶部４６に記憶された学習モデルに従って、前景マスク画像５４を抽出する。

出力部６６は、識別部６４で抽出された前景マスク画像５４とユーザが入力した画像とを合成し、前景マスク画像５４によりマスクされた出力画像を表示するように出力する。

図８には、出力部６６から出力される切り出し画像の一例が示されている。図８（ａ）がユーザにより入力された入力画像である。この入力画像に対して例えば図８（ｂ）に示すように、前景の中央を位置データとして指定した場合は、人全体が切り出される。ここで、図８（ｃ）に示すように、図８（ｂ）で切り出された人の上半身を背景として指定すると、顔を含む上半身だけが切り出し画像として抽出される。さらに、図８（ｄ）に示すように、腕の部分を背景として指定すると、腕及び顔の部分が除かれた切り出し画像を得る。このように、対話形式により望むべき切り出し画像が得られる。

なお、上記実施形態においては、人を切り出し対象とする例について説明したが、本発明は、これに限らず、動物、建物、車両、船舶等、あらゆる種類の画像を切り出し対象とすることができる。この場合、切り出し対象の種類を教師データとしてもよい。即ち、切り出し対象を含む入力画像を入力とし、切り出し対象の種類及び切り出し画像を出力とする学習モデルを生成するようにしてもよい。

また、学習モデルは、切り出し対象の種類により複数生成してもよい。この場合、切り出し対象の種類により学習モデルを選択し、該学習モデル毎に切り出し画像を取得するようにしてもよい。

上記実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ：Central Processing Unit、等）や、専用のプロセッサ（例えばＧＰＵ：Graphics Processing Unit、ＡＳＩＣ：Application Specific Integrated Circuit、ＦＰＧＡ：Field Programmable Gate Array、プログラマブル論理デバイス等）を含むものである。

また上記実施形態におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

１０画像処理装置
１２プロセッサ
１４メモリ
１６記憶装置
１８操作表示装置インターフェイス
２０通信インターフェイス
２２入力インターフェイス
２４バス
２６操作表示装置
２８タッチパネル
３０ディスプレイ
３２ＬＡＮ
３４マウス
３６キーボード
３８学習モデル生成部
４０実行部
４２学習データ入力部
４４学習部
４６学習モデル記憶部
４８前景
５０背景
５２入力画像
５４切り出し対象画像
５６前景距離画像
５８背景距離画像
６０画像データ受付部
６２ユーザ指示受付部
６４識別部
６６出力部

Claims

プロセッサを備え、
前記プロセッサは、
切り出し対象を含む画像データ、前記切り出し対象内の指定された位置データ及び切り出し画像データを取得し、
前記切り出し対象を含む画像データ及び該切り出し対象内の位置データを入力、前記切り出し画像データを出力とする学習モデルを生成する、
画像処理装置。
前記プロセッサは、該切り出し対象内の指定された複数の位置データを取得する請求項１記載の画像処理装置。
前記プロセッサは、切り出し対象以外の領域内の指定された位置データを取得する請求項１又は２記載の画像処理装置。
前記プロセッサは、切り出し対象の種別データをさらに取得し、前記切り出し対象を含む画像データ、該切り出し対象内の位置データ及び切り出し対象の種別データを入力、前記切り出し画像を出力と学習モデルを生成する請求項１から３いずれか記載の画像処理装置。
プロセッサを備え、
前記プロセッサは、
切り出し対象を含む画像データ、該切り出し対象内の指定された位置データ及切り出し画像データを取得し、
前記切り出し対象を含む画像データ及び該切り出し対象内の位置データを入力、前記切り出し画像データを出力とする学習モデルを生成し、
新たに切り出し対象を含む画像データ及び該切り出し対象内の指定された位置データを取得し、前記学習モデルから切り出し画像データを出力する、
画像処理装置。
切り出し対象を含む画像データ、該切り出し対象内の指定された位置データ及切り出し画像データを取得するステップと、
前記切り出し対象を含む画像データ及び該画切り出し対象内の位置データを入力、前記切り出し画像データを出力とする学習モデルを生成するステップと、
をコンピュータに実行させるためのプログラム。
切り出し対象を含む画像データ、該切り出し対象内の指定された位置データ及切り出し画像データを取得するステップと、
前記切り出し対象を含む画像データ及び該切り出し対象内の位置データを入力、前記切り出し画像データを出力とする学習モデルを生成するステップと、
新たに切り出し対象を含む画像データ及び該画像の切り出し対象内の指定された位置データを取得し、前記学習モデルから切り出し画像データを出力するステップと、
をコンピュータに実行させるためのプログラム。