JP7238510B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7238510B2
JP7238510B2 JP2019051221A JP2019051221A JP7238510B2 JP 7238510 B2 JP7238510 B2 JP 7238510B2 JP 2019051221 A JP2019051221 A JP 2019051221A JP 2019051221 A JP2019051221 A JP 2019051221A JP 7238510 B2 JP7238510 B2 JP 7238510B2
Authority
JP
Japan
Prior art keywords
resolution
image
low
masking
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019051221A
Other languages
English (en)
Other versions
JP2020154562A (ja
Inventor
荘介 下山
実典 橋本
雄亮 村山
佳史 谷村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2019051221A priority Critical patent/JP7238510B2/ja
Publication of JP2020154562A publication Critical patent/JP2020154562A/ja
Application granted granted Critical
Publication of JP7238510B2 publication Critical patent/JP7238510B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
画像内の対象領域を切り抜き、被覆等して視認不可能にするマスキング技術がある。例えば特許文献1では、入力画像をダウンサンプリングしてマスキングの境界を特定し、特定した境界を含む局所領域のみを抽出して、抽出した局所領域の画像をアップサンプリングして更にマスキングの境界を特定することで、高速かつ高精度にマスキングの境界を特定する画像処理装置等が開示されている。
特開2015-176281号公報
しかしながら、例えば被写体を残してその他の画像領域をマスキングした切り抜き画像を生成する場合などを想定した際に、被写体には人間や物品など種々の物体が含まれ得るが、様々な種類の物体の輪郭を高精度に特定してマスキングを行うことは難しい。特許文献1に係る発明は主に人間を撮像した画像を対象としており、多様な画像それぞれに適切なマスキングを行うことができない。
一つの側面では、マスキングを高精度に行うことができる情報処理装置等を提供することを目的とする。
一つの側面に係る情報処理装置は、入力画像を取得する取得部と、前記入力画像の解像度を前記解像度より低い所定の解像度の低解像度画像に変換する第1変換部と、画像の属するカテゴリーを学習したカテゴリー分類モデルを用いて、前記低解像度画像のカテゴリーを分類する分類部と、前記所定の解像度と同等の解像度からなる低解像マスキングデータをカテゴリー毎に学習したマスキングモデルを用いて、前記分類に対応するマスキングモデルから前記低解像度画像の低解像度マスキングデータを生成する生成部と、前記低解像度マスキングデータに対応する少なくとも前記所定の解像度より高い解像度の高解像度マスキングデータを学習した超解像モデルを用いて、生成した前記低解像度マスキングデータを、高解像度マスキングデータに変換する第2変換部とを備えることを特徴とする。
一つの側面では、マスキングを高精度に行うことができる。
画像処理システムの構成例を示す模式図である。 サーバの構成例を示すブロック図である。 サーバが実行する処理の概要を示す説明図である。 マスク画像のエッジ加工処理に関する説明図である。 カテゴリー学習処理の手順の一例を示すフローチャートである。 マスキング学習処理の手順の一例を示すフローチャートである。 超解像学習処理の手順を示すフローチャートである。 マスキング処理の手順の一例を示すフローチャートである。 上述した形態のサーバの動作を示す機能ブロック図である。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、画像処理システムの構成例を示す模式図である。本実施の形態では、所定の物体を撮像した画像に対してマスキングを行う画像処理システムについて説明する。画像処理システムは、情報処理装置1及び端末2を含む。各装置はネットワークNを介して通信接続されている。
情報処理装置1は、種々の情報処理、情報の送受信が可能な情報処理装置であり、例えばサーバ装置、パーソナルコンピュータ等である。本実施の形態では情報処理装置1がサーバ装置であるものとし、簡潔のためサーバ1と読み替える。サーバ1は、所定の物体が被写体として含まれる入力画像に対し、当該物体を除く画像領域をマスキングすることで、当該物体に係る画像領域のみを切り抜いた画像を生成する。具体的には後述の如く、サーバ1は、被写体として含まれ得る各種物体の画像特徴量を機械学習により学習済みの分類モデルを用いて画像内の物体の種類を分類した後、物体の種類(カテゴリー)毎に用意されているマスキングモデルを用いて、入力された画像のマスキングを行う。画像内の物体の種類に応じて異なるマスキングモデルを用いることで、サーバ1は、マスキングを高精度に行うことができる。
また、詳しくは後述するように、サーバ1は、マスキング処理を行う場合に、入力画像を所定の解像度まで一旦ダウンサンプリングし、ダウンサンプリングした画像に対してマスキングを行った後、元の解像度に再度アップサンプリングした画像を出力する。上述の分類モデル及びマスキングモデルを用いて処理を行う場合、コンピュータ(サーバ1)のメモリの問題から、高解像度の入力画像を扱うには適さない。そこで本実施の形態では、入力画像をダウンサンプリングしてマスキングを行った後、元の高解像度の画像に戻すことで、上記の分類モデル及びマスキングモデルを用いた画像処理を行う際の負荷が軽減され、一連のマスク処理を好適に行うことができる。
端末2は、サーバ1に接続されたクライアント端末であり、例えばパーソナルコンピュータ、スマートフォン、タブレット端末等である。例えばサーバ1は、端末2から取得した画像に対しマスキングを行い、マスク処理後の画像を端末2に返信する。
図2は、サーバ1の構成例を示すブロック図である。サーバ1の構成例を示すブロック図である。サーバ1は、制御部11、主記憶部12、通信部13、及び補助記憶部14を備える。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。
補助記憶部14は、大容量メモリ、ハードディスク等の不揮発性記憶領域であり、制御部11が処理を実行するために必要なプログラムP、その他のデータを記憶している。また、補助記憶部14は、分類モデル141、マスキングモデル142、及び超解像モデル143を記憶している。分類モデル141は、機械学習により構築された学習済みモデルであり、入力画像のカテゴリーを分類するための学習済みモデルである。マスキングモデル142は、同じく機械学習により構築された学習済みモデルであり、入力画像をマスキングするためのマスク画像(マスキングデータ)を生成するための学習済みモデルである。超解像モデル143は、マスク画像をアップサンプリングした高解像度マスク画像を学習することで生成された学習済みモデルである。
なお、補助記憶部14はサーバ1に接続された外部記憶装置であってもよい。また、サーバ1は複数のコンピュータからなるマルチコンピュータであっても良く、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
また、本実施の形態においてサーバ1は上記の構成に限られず、例えば操作入力を受け付ける入力部、画像を表示する表示部等を含んでもよい。また、サーバ1は、CD(Compact Disk)-ROM、DVD(Digital Versatile Disc)-ROM等の可搬型記憶媒体P1を読み取る読取部を備え、可搬型記憶媒体P1からプログラムPを読み取って実行するようにしても良い。あるいはサーバ1は、半導体メモリP2からプログラムPを読み込んでも良い。
図3は、サーバ1が実行する処理の概要を示す説明図である。図3では、機械学習により生成された複数の学習済みモデルを用いて、入力画像に対しマスキングを行うためのマスク画像(マスキングデータ)を生成する様子を概念的に図示している。図3に基づき、本実施の形態の概要を説明する。
サーバ1は、所定の物体を撮像した画像を入力画像として端末2から取得する。入力画像に含まれる物体は、例えば衣服、人物、服飾品などであるが、特に限定されない。また、入力画像は撮像画像に限定されず、例えば所定の物体(オブジェクト)が描写されたイラストなどであってもよい。
サーバ1はまず、分類モデル141及びマスキングモデル142で入力を受け付ける画像の解像度に合わせて、端末2から取得した入力画像の解像度を、各モデル用にダウンサンプリングした低解像度画像に変換する。具体的には、サーバ1は、マスキングモデル142に入力される画像(第2の低解像度画像)よりも、分類モデル141に入力される画像(第1の低解像度画像)の方が低解像度となるように、各モデル用の低解像度画像をそれぞれ生成する。
サーバ1は、分類モデル141用に生成した低解像度画像を分類モデル141に入力し、当該画像のカテゴリーを分類する。分類モデル141で分類される画像のカテゴリーは、例えば入力画像に含まれる物体の種類である。サーバ1は分類モデル141を用いて、入力画像が何の物体を撮像した画像であるかを分類する。
分類モデル141は、深層学習により生成されたニューラルネットワークであり、例えばCNN(Convolution Neural Network)に係るニューラルネットワークである。本実施の形態でサーバ1は、ResNet(Residual Network)に係るニューラルネットワークを分類モデル141として用いる。
例えばサーバ1は、各種物体を撮像した教師用の画像群に対し、各画像に含まれる物体の種類、すなわち画像のカテゴリーを示す情報を正解値として対応付けた教師データを用いて深層学習を行い、分類モデル141を生成してある。具体的には、サーバ1は、教師用画像を分類モデル141に入力して教師用画像のカテゴリーを識別し、識別したカテゴリーを正解値と比較して、両者が近似するように、分類モデル141において各種演算に用いる重み、活性化係数等のパラメータを最適化する。これによりサーバ1は、分類モデル141を生成する。
サーバ1は、上記の分類モデル141にダウンサンプリングした入力画像を入力し、入力画像のカテゴリー、すなわち入力画像に含まれる物体の種類を分類した分類結果を出力として取得する。サーバ1は、分類モデル141から出力された分類結果に応じて、次のマスキング処理に用いるマスキングモデル142を選択する。
サーバ1は、マスキングモデル142用にダウンサンプリングした低解像度画像をマスキングモデル142に入力して、入力画像の一部を視認不可能にするためのマスク画像であって、低解像度画像と同等の解像度からなる低解像度マスク画像を生成する。低解像度マスク画像は、マスキングの対象とする領域(以下、「マスク対象領域」と呼ぶ)と、マスキングの対象としない領域(以下、「非マスク対象領域」と呼ぶ)とを規定する画像データであり、入力画像に含まれる物体以外の画像領域をマスク対象領域とし、当該物体に係る画像領域を非マスク対象領域とした画像データである。例えば低解像度マスク画像は、マスク対象領域に含まれる各画素の画素値と、非マスク対象領域に含まれる各画素の画素値とをそれぞれ「0」又は「1」の二値で表す。図3では便宜上、マスク対象領域を黒塗りで、非マスク対象領域を白抜きで図示してある。
マスキングモデル142は、分類モデル141と同様に深層学習により生成されたニューラルネットワークであり、例えばセマンティックセグメンテーションに係る処理を行うCNNである。本実施の形態でサーバ1は、PSPNet(Pyramid Scene Parsing Network)に係るニューラルネットワークをマスキングモデル142として用いる。
例えばサーバ1は、各種物体を撮像した教師用の画像群と、各画像に対応する教師用のマスク画像であって、上記の低解像度画像の解像度と同等の解像度からなる低解像度マスク画像とを教師データとして用いて深層学習を行い、マスキングモデル142を生成してある。具体的には、サーバ1は、教師用画像を所定の解像度の低解像度画像に変換してマスキングモデル142に入力し、教師用の低解像度画像をマスキングするための低解像度マスク画像を生成する。サーバ1は、生成した低解像度マスク画像のマスク対象領域及び非マスク対象領域を、教師用の低解像度マスク画像のマスク対象領域及び非マスク対象領域と比較し、演算処理に用いる重み等の各種パラメータを最適化する。これによりサーバ1は、マスキングモデル142を生成する。
ここでサーバ1は、教師用画像に係る物体の種類、すなわちカテゴリー毎にマスキングモデル142、142、142…を生成する。例えばサーバ1は、「衣服」に係るマスキングモデル142を生成する場合、「衣服」を含む教師用画像と、当該画像に対応する教師用の低解像度マスク画像とを用いて、「衣服」に係る低解像度マスク画像を生成するためのマスキングモデル142を生成する。その他のカテゴリーについても同様に、各カテゴリーに応じた教師用画像を用いてマスキングモデル142を生成しておく。
サーバ1は、分類モデル141により分類した入力画像のカテゴリーに基づいてマスキングモデル142を選択し、選択したマスキングモデル142に入力画像(低解像度画像)を入力する。そしてサーバ1は、入力画像に対応する低解像度マスク画像を出力として取得する。このように、入力画像のカテゴリー(例えば物体の種類)に応じてマスキングモデル142を使い分けることで、高精度なマスキングを行うことができる。
この場合にサーバ1は、上述の如く、マスキングモデル142用の低解像度画像であって、分類モデル141用の低解像度画像よりも高解像度の画像を入力してマスク画像を生成する。これにより、カテゴリー分類は低解像度の画像で負荷を減らして処理する一方、マスク画像の生成は、カテゴリー分類時よりも高解像度の画像で正確に処理することができる。
サーバ1は、生成したマスク画像を超解像モデル143に入力し、元の入力画像の解像度までアップサンプリングした高解像度マスク画像(高解像度マスキングデータ)に変換する。超解像モデル143は、深層学習により生成されたニューラルネットワークであり、例えばCNNに係るニューラルネットワークである。本実施の形態でサーバ1は、SRCNN(Super-Resolution Using Deep Convolution Network)に係るニューラルネットワークを超解像モデル143として用いる。
例えばサーバ1は、本実施の形態で処理対象とする入力画像(端末2から取得した画像)と同等の解像度である教師用の高解像度マスク画像を用いて深層学習を行い、超解像モデル143を生成してある。具体的には、サーバ1は教師用の高解像度マスク画像をマスキングモデル142の処理対象とする画像の解像度までダウンサンプリングして教師用の低解像度マスク画像を生成し、元の高解像度マスク画像と対応付ける。そしてサーバ1は、教師用の低解像度マスク画像を超解像モデル143に入力して高解像度マスク画像を生成し、生成した高解像度マスク画像を教師用の高解像度マスク画像と比較して各種パラメータを最適化する。これによりサーバ1は、超解像モデル143を生成する。
サーバ1は、マスキングモデル142から出力された低解像度マスク画像を超解像モデル143に入力し、元の入力画像の解像度までアップサンプリングした高解像度マスク画像を生成する。これによりサーバ1は、元の入力画像をマスキングするためのマスク画像を生成する。
なお、上記では元の入力画像と同等の解像度までアップサンプリングした高解像度マスク画像を生成するものとしたが、本実施の形態はこれに限定されるものではない。サーバ1は、超解像モデル143を用いて、少なくとも低解像度マスク画像の解像度より高解像度のマスク画像に変換可能であればよく、元の入力画像の解像度と、高解像度マスク画像の解像度とは同等でなくともよい。
また、上記で説明した各モデルのネットワーク構造はいずれも例示であって、各モデルの構成は上記に限定されない。
また、本実施の形態ではサーバ1が各モデルに係る機械学習、及び各モデルを用いた画像処理の双方を行うものとして説明したが、各モデルに係る学習処理は別個のハードウェアで実行し、生成された各モデルをサーバ1にインストールしてマスキングを行う構成であってもよい。
図4は、マスク画像のエッジ加工処理に関する説明図である。図4では、超解像モデル143から出力された高解像度マスク画像に対し、マスク対象領域と非マスク対象領域との間のエッジを加工する後処理について概念的に図示してある。
超解像モデル143の入出力の前後では、解像度が異なることから、マスク対象領域と非マスク対象領域との間の境界(エッジ)にジャギーが発生する恐れがある。そこでサーバ1は、超解像モデル143から出力された高解像度マスク画像に対し、エッジを平滑化する後処理を行う。
具体的には、サーバ1はまずエッジ検出を行ってマスク対象領域と非マスク対象領域との間の境界領域を特定し、移動平均フィルタ等を用いて境界領域の画素値を周辺画素と平滑化する。サーバ1はさらに、平滑化後のマスク画像において非マスク対象領域を縮小(図4では衣服内側の方向に縮小)した後、境界領域にぼかしを入れて平滑化する。
サーバ1は、エッジ加工後の高解像度マスク画像を元の入力画像に適用し、マスク対象領域をマスキングした出力画像を生成する。例えばサーバ1は、マスク対象領域を切り抜いた画像を生成する。サーバ1は、生成した出力画像を端末2に出力する。
以上より、本実施の形態1によれば、各カテゴリーに応じたマスキングモデル142を用いることで、マスク対象領域と非マスク対象領域との間の境界を高精度に特定してマスキングを行うことができる。また、入力画像をダウンサンプリングしてマスキングを行い、処理後にアップサンプリングすることで、マスキングのための負荷を軽減し、高品質な画像を提供することができる。
図5は、カテゴリー学習処理の手順の一例を示すフローチャートである。図5に基づき、入力画像のカテゴリーを分類するための分類モデル141を機械学習により生成する処理の内容について説明する。
サーバ1の制御部11は、分類モデル141を生成するための教師データであって、教師用の各画像に対し、各画像のカテゴリーを示す情報が正解値として対応付けられた教師データを取得する(ステップS11)。例えば制御部11は、画像内に被写体として含まれる物体の画像領域に対し、当該物体の種類を示す正解値が対応付けられた教師データを取得する。
制御部11は、教師データに含まれる各教師用画像について、所定の解像度までダウンサンプリングした低解像度画像に変換する(ステップS12)。制御部11は、ダウンサンプリングした教師用の低解像度画像を用いて、入力画像を分類するための分類モデル141を生成する(ステップS13)。例えば制御部11は、ResNetに係るニューラルネットワークを分類モデル141として生成する。制御部11は、ダウンサンプリングした教師用の低解像度画像を分類モデル141に入力し、入力した画像のカテゴリー(物体の種類)を識別した識別結果を取得する。制御部11は、識別結果を正解値と比較し、両者が近似するように分類モデル141の演算に用いる各種パラメータを最適化する。制御部11は、一連の処理を終了する。
図6は、マスキング学習処理の手順の一例を示すフローチャートである。図6に基づき、入力画像をマスキングするためのマスク画像(マスクデータ)を出力するマスキングモデル142を機械学習により生成する処理について説明する。
サーバ1の制御部11は、マスキングモデル142を生成するための教師データであって、各カテゴリーに応じた教師用の画像と、当該画像の一部を視認不可能にするための教師用の低解像度マスク画像(低解像度マスキングデータ)とを含む教師データを取得する(ステップS31)。例えば制御部11は、各種類の物体を撮像した教師用画像と、マスキングモデルに入力される低解像度画像の解像度(所定の解像度)と同等の解像度からなる低解像度マスク画像とを対応付けた教師データを取得する。
制御部11は、各教師用画像について、所定の解像度までダウンサンプリングした低解像度画像を生成する(ステップS32)。例えば制御部11は、分類モデル141に係る学習時の解像度と異なる解像度、具体的には分類モデル141の入力用画像よりも高い解像度で、かつ、元の画像よりも低い解像度の低解像度画像を生成する。
制御部11は、生成した低解像度画像を用いて、入力画像の一部を視認不可能にするための低解像度マスク画像(マスキングデータ)を出力するマスキングモデル142を生成する(ステップS33)。具体的には、制御部11は、PSPNetに係るニューラルネットワークを生成する。制御部11は、ダウンサンプリングした教師用画像をマスキングモデル142に入力して、低解像度マスク画像を出力として取得する。制御部11は、出力されたマスク画像を、教師データに含まれる教師用の低解像度マスク画像と比較し、両者が近似するように、マスキングモデル142の演算に用いる各種パラメータを最適化する。制御部11は、各カテゴリーの教師用画像を別々のマスキングモデル142に適用し、カテゴリー毎にマスキングモデル142、142、142…を生成する。制御部11は、一連の処理を終了する。
図7は、超解像学習処理の手順を示すフローチャートである。図7に基づき、低解像度画像を高解像度画像に変換するための超解像モデル143を機械学習により生成する処理の内容について説明する。
サーバ1の制御部11は、教師用の高解像度マスク画像群を取得する(ステップS51)。制御部11は、取得した各高解像度マスク画像を、所定の解像度までダウンサンプリングした低解像度マスク画像に変換する(ステップ52)。具体的には、制御部11は、マスキングモデル142で処理対象とする画像の解像度(所定の解像度)までダウンサンプリングした低解像度マスク画像に変換する。
制御部11は、ステップS51で取得した各高解像度マスク画像と、各高解像度マスク画像に対応する低解像度マスク画像とを教師データとして用いて、低解像度マスク画像を高解像度マスク画像に変換するための超解像モデル143を生成する(ステップS53)。具体的には、制御部11は、SRCNNに係るニューラルネットワークを超解像モデル143として生成する。制御部11は、低解像度マスク画像を超解像モデル143に入力し、高解像度マスク画像を出力として取得する。制御部11は、出力された高解像度マスク画像を、ステップS51で取得した教師用の高解像度マスク画像と比較し、両者が近似するように、超解像モデル143の演算に用いる各種パラメータを最適化する。制御部11は、一連の処理を終了する。
図8は、マスキング処理の手順の一例を示すフローチャートである。図8に基づき、入力画像のマスキング処理について説明する。
サーバ1の制御部11は、所定の物体を撮像した入力画像を端末2から取得する(ステップS71)。制御部11は、取得した入力画像の解像度を所定の解像度にダウンサンプリングした低解像度画像に変換する(ステップS72)。具体的には、制御部11は、分類モデル141に入力する画像(第1の低解像度画像)と、マスキングモデル142に入力する画像(第2の低解像度画像)とで解像度が異なる2種類の低解像度画像を生成する。例えば制御部11は、マスキングモデル142に入力する画像よりも分類モデル141に入力する画像が低解像度となるように低解像度画像を生成する。
制御部11は、分類モデル141の入力用に生成した低解像度画像を分類モデル141に入力し、当該画像のカテゴリーを分類する(ステップS73)。例えば制御部11は、画像内に被写体として含まれる物体の種類を分類する。
制御部11は、マスキングモデル142の入力用に生成した低解像度画像を、ステップS73で分類したカテゴリーに対応するマスキングモデル142に入力し、低解像度画像の一部を視認不可能にするための低解像度マスク画像(マスキングデータ)を生成する(ステップS74)。具体的には、制御部11は、入力画像内の物体の輪郭をマスキングの境界として、当該物体を除く画像領域(マスク対象領域)をマスキングするためのマスク画像を生成する。
制御部11は、生成した低解像度マスク画像を超解像モデル143に入力し、高解像度マスク画像(高解像度マスキングデータ)に変換する(ステップS75)。具体的には、制御部11は、入力画像の元の解像度までアップサンプリングした高解像度マスク画像に変換する。
制御部11は、高解像度マスク画像に対し、マスク対象領域と非マスク対象領域との間のエッジを平滑化する画像処理を行う(ステップS76)。具体的には、上述の如く、制御部11はエッジを平滑化し、非マスク対象領域が小さくなるようにエッジを縮小した上で、エッジ部分にぼかし(平滑化)処理を行う。制御部11は、処理後の高解像度マスク画像を入力画像に適用し、上記の物体を除く画像領域を視認不可能にした出力画像を生成して端末2に出力する(ステップS77)。制御部11は、一連の処理を終了する。
なお、上記では、入力画像をマスキングするための画像データ(マスク画像)を生成するものとしたが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、マスク対象領域の座標値データをマスキングのためのデータとして生成し、座標値データを超解像モデル143に入力してアップサンプリングし、入力画像に適用して最終的な出力画像を生成するようにしてもよい。すなわち、サーバ1は、マスキングモデル142を用いて、入力画像の一部を視認不可能にするマスキングデータを生成可能であればよく、生成するマスキングデータは画像データに限定されない。
以上より、本実施の形態1によれば、カテゴリーに応じたマスキングモデル142を用いることで高精度なマスキングを行うことができる。また、入力画像をダウンサンプリングしてカテゴリー分類及びマスキングを行うことで、処理負荷を低減することができる。
また、本実施の形態1によれば、分類モデル141用の低解像度画像と、マスキングモデル142用の低解像度画像とで解像度を異ならせることで、各モデルにおける処理を好適に行うことができる。
また、本実施の形態1によれば、分類モデル141用の低解像度画像をマスキングモデル142用の低解像度画像よりも低解像度とすることで、より好適に処理を行うことができる。
また、本実施の形態1によれば、低解像度画像から非マスク対象領域を切り抜いたマスク画像、あるいはマスク対象領域を表す座標データを生成するようにすることで、マスキングを好適に行うことができる。
また、本実施の形態1によれば、アップサンプリング後の高解像度マスク画像(マスキングデータ)のエッジ処理を行うことで、より高品質な出力画像を提供することができる。
また、本実施の形態1によれば、被写体である物体を除く画像領域を切り抜き等した出力画像を提供することができる。
(実施の形態2)
図9は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。
取得部91は、入力画像を取得する。第1変換部92は、前記入力画像の解像度を前記解像度より低い所定の解像度の低解像度画像に変換する。分類部93は、画像の属するカテゴリーを学習したカテゴリー分類モデルを用いて、前記低解像度画像のカテゴリーを分類する。生成部94は、前記所定の解像度と同等の解像度からなる低解像マスキングデータをカテゴリー毎に学習したマスキングモデルを用いて、前記分類に対応するマスキングモデルから前記低解像度画像の低解像度マスキングデータを生成する。第2変換部95は、前記低解像度マスキングデータに対応する少なくとも前記所定の解像度より高い解像度の高解像度マスキングデータを学習した超解像モデルを用いて、生成した前記低解像度マスキングデータを、高解像度マスキングデータに変換する。
本実施の形態2は以上の如きであり、その他は実施の形態1と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 サーバ(情報処理装置)
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 分類モデル
142 マスキングモデル
143 超解像モデル

Claims (8)

  1. 入力画像を取得する取得部と、
    前記入力画像の解像度を前記解像度より低い所定の解像度の低解像度画像に変換する第1変換部と、
    画像の属するカテゴリーを学習したカテゴリー分類モデルを用いて、前記低解像度画像のカテゴリーを分類する分類部と、
    前記所定の解像度と同等の解像度からなる低解像マスキングデータをカテゴリー毎に学習したマスキングモデルを用いて、前記分類に対応するマスキングモデルから前記低解像度画像の低解像度マスキングデータを生成する生成部と、
    前記低解像度マスキングデータに対応する少なくとも前記所定の解像度より高い解像度の高解像度マスキングデータを学習した超解像モデルを用いて、生成した前記低解像度マスキングデータを、高解像度マスキングデータに変換する第2変換部と
    を備えることを特徴とする情報処理装置。
  2. 前記第1変換部は、前記入力画像を、互いに解像度が異なる第1及び第2の前記低解像度画像に変換し、
    前記分類部は、前記第1の低解像度画像に基づき前記カテゴリーを分類し、
    前記生成部は、前記第2の低解像度画像に基づき前記低解像度マスキングデータを生成する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記第1の低解像度画像は、前記第2の低解像度画像よりも解像度が低い
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記低解像度マスキングデータ及び/又は高解像度マスキングデータは、画像データまたは画像の座標値データである
    ことを特徴とする請求項1~3のいずれか1項に記載の情報処理装置。
  5. 前記高解像度マスキングデータのエッジを平滑化する第2生成部を備える
    ことを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
  6. 前記超解像モデルは、前記高解像度マスキングデータをダウンサンプリングした低解像度マスキングデータを生成し対応付けて学習されたものである
    ことを特徴とする請求項1~5のいずれか1項に記載の情報処理装置。
  7. 入力画像を取得し、
    前記入力画像の解像度を前記解像度より低い所定の解像度の低解像度画像に変換し、
    画像の属するカテゴリーを学習したカテゴリー分類モデルを用いて、前記低解像度画像のカテゴリーを分類し、
    前記所定の解像度と同等の解像度からなる低解像マスキングデータをカテゴリー毎に学習したマスキングモデルを用いて、前記分類に対応するマスキングモデルから前記低解像度画像の低解像度マスキングデータを生成し、
    前記低解像度マスキングデータに対応する少なくとも前記所定の解像度より高い解像度の高解像度マスキングデータを学習した超解像モデルを用いて、生成した前記低解像度マスキングデータを、高解像度マスキングデータに変換する
    処理をコンピュータに実行させることを特徴とする情報処理方法。
  8. 入力画像を取得し、
    前記入力画像の解像度を前記解像度より低い所定の解像度の低解像度画像に変換し、
    画像の属するカテゴリーを学習したカテゴリー分類モデルを用いて、前記低解像度画像のカテゴリーを分類し、
    前記所定の解像度と同等の解像度からなる低解像マスキングデータをカテゴリー毎に学習したマスキングモデルを用いて、前記分類に対応するマスキングモデルから前記低解像度画像の低解像度マスキングデータを生成し、
    前記低解像度マスキングデータに対応する少なくとも前記所定の解像度より高い解像度の高解像度マスキングデータを学習した超解像モデルを用いて、生成した前記低解像度マスキングデータを、高解像度マスキングデータに変換する
    処理をコンピュータに実行させることを特徴とするプログラム。
JP2019051221A 2019-03-19 2019-03-19 情報処理装置、情報処理方法及びプログラム Active JP7238510B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019051221A JP7238510B2 (ja) 2019-03-19 2019-03-19 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019051221A JP7238510B2 (ja) 2019-03-19 2019-03-19 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020154562A JP2020154562A (ja) 2020-09-24
JP7238510B2 true JP7238510B2 (ja) 2023-03-14

Family

ID=72559076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019051221A Active JP7238510B2 (ja) 2019-03-19 2019-03-19 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7238510B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157439A1 (ja) * 2022-02-18 2023-08-24 富士フイルム株式会社 画像処理装置及びその作動方法、推論装置並びに学習装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009152779A (ja) 2007-12-19 2009-07-09 Nikon Corp 撮像装置及び画像効果付与プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009152779A (ja) 2007-12-19 2009-07-09 Nikon Corp 撮像装置及び画像効果付与プログラム

Also Published As

Publication number Publication date
JP2020154562A (ja) 2020-09-24

Similar Documents

Publication Publication Date Title
JP2018022484A (ja) 画像内の物体を検出する方法及び物体検出システム
CN111583097A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN111968064B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN112602088B (zh) 提高弱光图像的质量的方法、系统和计算机可读介质
US20220012612A1 (en) System, method, and program for predicting information
CN110443258B (zh) 文字检测方法、装置、电子设备及存储介质
CN111325657A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
WO2020145180A1 (ja) 物体検出認識装置、方法、及びプログラム
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN113139906B (zh) 一种生成器的训练方法、装置与存储介质
US20220076119A1 (en) Device and method of training a generative neural network
CN112101386A (zh) 文本检测方法、装置、计算机设备和存储介质
Cui et al. Exploring resolution and degradation clues as self-supervised signal for low quality object detection
WO2024179388A1 (zh) 一种复式神经网络架构的浮游生物目标检测与分类方法
CN114863431A (zh) 一种文本检测方法、装置及设备
JP7238510B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN114511702A (zh) 一种基于多尺度分权注意力的遥感图像分割方法和系统
CN116030256A (zh) 小目标分割方法、小目标分割系统、设备和介质
KR20200134813A (ko) 기계 학습을 위한 이미지 처리 장치 및 방법
CN116246064A (zh) 一种多尺度空间特征增强方法及装置
US11288534B2 (en) Apparatus and method for image processing for machine learning
US11200708B1 (en) Real-time color vector preview generation
CN115761389A (zh) 图像样本的增广方法、装置、电子设备及存储介质
JP2010182167A (ja) 画像処理装置および画像処理方法
KR102358355B1 (ko) 얼굴 영상의 점진적 디블러링 방법 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190416

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230213

R150 Certificate of patent or registration of utility model

Ref document number: 7238510

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150