以下、添付図面に従って本発明の実施形態について詳細に説明する。
本発明は様々な用途への適用が可能であるが、ここでは、人物の顔画像を取り扱うものとし、低画質の入力画像から高画質の画像を復元する場合を例に説明する。
<低画質の顔画像を高画質の顔画像に復元する射影変換の原理>
はじめに射影変換の原理を説明する。低画質の入力画像から高画質の画像を復元する処理を行うための準備段階として、事前に複数人分の顔画像のデータを学習し、変換関係を規定する関数を求めておく。このような処理を学習ステップという。そして、この学習ステップで得られた変換関数を用いて、任意の入力画像(低画質)から高画質の出力画像を得る工程を復元ステップとよぶ。
(学習画像セットについて)
まず、学習画像セットとして、複数人数分(例えば、60人分)の顔の低解像画像と高解像画像とを対(ペア)とした学習画像群を用意する。ここで用いる学習画像セットは、高解像の学習画像から一定割合で画素を間引くなど、ある条件で情報を減らすことにより低画質化したものを低解像の学習画像として用いている。この情報削減によって生成した低解像の学習画像と、これに対応する元の高解像の学習画像(同一人物の同内容の画像)とのペアの対応関係を事前に学習することで、変換関数(射影を規定するテンソル)を生成する。
対象とする画像のサイズ(画素数)や濃度を表す階調は特に限定されないが、例えば、高解像画像(以下、「H画像」と略記する場合がある。)の画素数を64×48画素、低解像画像(以下、「L画像」と略記する場合がある。)の画素数を32×24画素とし、いずれも各画素について8ビット、0〜255階調の濃度値(画素値)を有する画像データとして説明する。
なお、入力の次元と出力の次元を合わせておくことで、入力空間と出力空間について同じ空間内(座標軸)で取り扱うことができ演算上便利である。本例の学習ステップにおいて、L画像の学習データは、H画像の画素数と一致させるために、適宜の方法で拡大処理されて用いられる。こうして画素数を揃えたL画像とH画像と間で画素の対応関係(位置関係)は一対一に定まり、両者は同じ次元数となって同じ座標空間内の点(係数ベクトル)として取り扱うことができる。
学習画像セットには、多様なモダリティの画像を含めることができる。ここでは説明を簡単にするために、顔の向きは正面、顔の表情は標準的な無表情(「ノーマル」)とする。また、本例では、1つの画像を所定の画素数の領域単位(例えば、8×8画素)でマス目状に分割し、これら分割した複数のブロック(以下、「パッチ」という。)について、各パッチ毎に演算処理を行う。すなわち、1パッチあたりの画素数×パッチ数(分割数)が1枚の画像の全処理対象数となる。
ここでは、64×48画素の画像を8×8画素の単位(パッチ)で分割し、8×6の48パッチに分けるものとして説明するが、パッチサイズ、分割数、分割形態などは特に限定されない。隣接するパッチ間で所定量の画素をオーバーラップさせて分割する態様も可能であるし、パッチ分割せずに1枚の画像単位で処理を行う態様も可能である。
このような学習画像セットを用いる本実施形態におけるモダリティのバリエーションと各モダリティの次元数を次表(表1)にまとめた。
表1の例に限らず、更なる多モダリティ化も可能である。例えば、顔の向きとして「右向き〜正面〜左向き」の範囲で10段階に方向を変えた10パターン、顔の表情としてノーマル、笑顔、怒り、叫び表情の4パターン、照明の方向として「右真横〜正面〜左真横」の範囲で45度ずつ5段階に方向を変えた5パターンなど、各種モダリティを追加することが可能である(表2参照)。
もちろん、表1、表2は一例にすぎず、これ以外にも人種、性別、年齢など他のモダリティを追加したり、他のモダリティに置き換えたりしてもよい。
モダリティの種類数は、後述の射影関係を規定する核テンソルGの階数に相当し(表1の場合、階数4のテンソル)、各モダリティの次元数の積は核テンソルGの成分数となる。表1の場合、核テンソルGの成分数(サイズ)は、8×8×2×48×60となる。
表2の場合、階数7の核テンソルとなり、その成分数は、8×8×2×48×60×10×4×5となる。このように、モダリティが追加されると、テンソルの階数が増加し、テンソルの成分数はその次元数の積によって急激に増大する。したがって、メモリ増の抑制、並びに処理時間の短縮(処理負担軽減)の観点から適度に次元削減することが望まれる。本実施形態では、次元削減によるメモリ増抑制と処理時間の短縮を達成しつつ、高い復元性を達成し得る手段を提供する。
(テンソル射影の説明)
図1はテンソル射影の概念図である。ここでは図示の便宜上、3次元の空間で説明するが、任意の有限次元(N次元)に拡張することができる。テンソル射影は、ある実空間Rから固有空間(「特徴空間」ともいう。)Aへの移動を可能とするとともに、複数の固有A,B,Cの間での移動(射影)を可能とする。
図1では、実空間Rから固有空間Aへの射影関係をテンソルUで表し、固有空間AとBの間の射影関係をテンソルG1又はG1 -1により表している。同様に、固有空間BとCの間の射影関係をテンソルG2又はG2 -1により表し、固有空間CとAの間の射影関係をテンソルG3又はG3 -1により表している。このように、複数の固有空間を巡る変換経路(射影ルート)を設計することができ、様々な空間でデータのハンドリングが可能である。
このようなテンソル射影を超解像の画像変換に応用する原理を図2に示す。
図2の例は、画素実空間、画素固有空間、個人差固有(人物特徴)空間の間の射影を利用して、低解像の画像を高解像の画像に変換(復元)するプロセスを図式化したものである。
画像データは、各画素についてそれぞれ濃度を表す数値(画素値)が与えられたものであり、画素位置毎に濃度値(画素値)を表す軸を基底とする多次元の空間における係数ベクトルとして把握することができる。説明の便宜上、図2のように3次元のモデルで考えると、例えば、ある人物Aさんの低解像の顔画像データは、画素実空間上のある点PLAとしてプロットされる。すなわち、Aさんの低解像の顔画像データの係数ベクトル(x1,x2,x3)は、第1基底成分e1の軸上で0〜255のある値(x1)をとり、同様に、第2基底成分e2の軸上、第3基底成分e3の軸上でそれぞれ0〜255のある値(x2)(x3)をとるため、当該画像データは画素実空間上のある点PLAとして表される。同様に、Aさんの高解像の顔画像データは、画素実空間上のある点PHAとしてプロットされる。
ここでの変換目的は、画素実空間上のある低解像画像の点(例えば、低解像の点PLA)を変換して、高解像の点(PHA’)に移すことである。
その変換プロセスは、まず、図2(a)の画素実空間Rから局所保存射影(LPP:Locality Preserving Projection)に代表される線形射影の固有射影行列Upixelsを利用した射影関数Upixels -1により固有空間Aに射影する(図2(b))。
画素固有空間Aの軸(基底)は特徴軸(固有ベクトル)に対応しており、この射影は、画素実空間Rの軸を画素固有空間Aの軸に変換する座標系の回転として把握することができる。
更に、この画素固有空間Aから個人差固有(人物特徴)空間Bに移す(図2(c))。このときの射影関数GL -1は、低解像画像と個人差固有空間の対応関係を規定した関数を用いる。図2(c)に示したように、個人差固有空間では、同一人物に係る低解像画像の点と高解像画像の点とが略同じ位置にプロットできる。この性質を利用して、個人差固有空間から画素固有空間Aに戻す際には、高解像画像と個人差固有空間の対応関係を規定した射影関数GHを用いる。
図2(d)に示すように、GLとは別の関数であるGHによって画素固有空間Aに戻した後、これを更に固有射影行列を利用した射影関数Upixelsにより画素実空間Aに戻す(図2(e)。このように、個人差空間におけるL画像点とH画像点の略一致性を利用して、図2(c)→(d)→(e)のルートを巡ってL画像をH画像に変換することができる。
すなわち、図2(c)の個人差固有空間において、Vを個人差固有空間係数ベクトルとすると、画素実空間における高解像度画素ベクトルHは次式により求められる。
[数1]
H=UpixelsGHV
一方、画素実空間における低解像度画素ベクトルLは同様に、次式となる。
[数2]
L=UpixelsGLV
よって、画素実空間の低解像度画像(低解像度画素ベクトルL)から画素固有空間→個人差固有空間を経由して画素固有空間→画素実空間に戻し、画素実空間における高解像度画像を得る場合、次式の射影によって変換可能である。
[数3]
H=UpixelsGHV=UpixelsGH(UpixelsGL)-1L
本実施形態では、低解像画像と高解像画像のペア群からなる学習画像セットから局所性保存射影(LPP)を利用して射影関数(Upixels)を求め、これを基に個人差空間上で同一人物のL画像点とH画像点とが略一致するように射影関数GL、GHを求めている。
こうして求めた射影関数(Upixels、GL、GH)と図2に示す射影ルートの枠組みにより、低解像の画像を精度良く高解像の画像に変換することができる。
なお、本実施形態では、LPP射影を例に説明するが、本発明を実施するにあたり、LPP射影に代えて、主成分分析(PCA)など、他の射影方法を適用することが可能である。
<LPP射影の概説>
LPP射影の演算手順を概説すると、次のとおりである。
(手順1):各学習サンプル間(総当り)で、類似しているか否かを表す類似度行列:Sを求める。
(手順2):類似行列Sの各行毎のΣを求め対角行列:Dを求める。
(手順3):ラプラシアン行列:L=D−Sを求める。
(手順4):以下の一般固有値問題を解く。
X・L・XT・u=λ・X・D・XT・u
例えば、[1]Cholesky分解や[2]一般固有値問題を逆行列算出により、固有値問題に変形して解く。
(手順5):固有値λの小さい方から固有値に対応する固有ベクトルuをソートしてLPP射影行列:Uが得られる。
<処理の概要>
図3は本発明の実施形態における処理の概要を示すブロックチャートである。図示のように、本実施形態による処理は、学習ステップと復元ステップとに大別することができる。
学習ステップでは、低画質画像と高画質画像を対(ペア)とした学習画像群(入力学習画像セット)を入力し(#10)、この画像群について局所保存射影(LPP)などの射影手法を適用して、射影テンソルを生成する処理(#12)を行う。
この射影テンソル生成工程(#12)では、固有射影行列(#14)を生成するとともに、低画質画像と中間固有空間の対応関係及び高画質画像と中間固有空間の対応関係を規定した射影核テンソル(#16)を生成する。
LPP射影を例に説明すると、LPPは、元の空間(ここでは画素の実空間)における標本の局所的な値の近さ(近傍値の幾何学的距離の情報)を保存するように座標変換を行うものであり、元の空間で近傍にある標本を射影先の空間(固有空間)でも近くに埋め込むよう座標軸が決定される。
例えば、表1の学習画像セットにおいて、パッチ位置毎に、画素の実空間で60人分のH画像及びL画像をプロットし、その120点の分布についてLPPを適用することにより、その分布における近い値のもの(変化の近いもの)に注目した特徴軸が求められる。
こうして、パッチ位置の次元(表1の場合、48次元)に対応したLPP固有射影行列Uj={U1、U2、U3、…U48}が得られる。
また、このLPP固有射影行列を用い、L画像と個人差固有空間との対応関係(テンソルGLj={GL1、GL2、GL3、…GL48})並びに、H画像と個人差固有空間との対応関係(テンソルGHj={GH1、GH2、GH3、…GH48})を包含したLPP射影核テンソルGを生成する。
すなわち、画素、解像度、パッチ位置など、各モダリティの観点でそれぞれ固有射影行列Uを求め、そのUを使ってそれぞれの射影核テンソルG成分を求め、これらの集合が射影核テンソルGとして求まる。
LPPでは、固有値の小さい順に特徴軸の並び(配列)が決定されているため、影響度の高い上位の特徴軸のみを使うことで、次元削減を行い、核テンソルのサイズは大幅に削減できる。
計算の過程では、影響度の小さいものも含め全ての固有射影行列Uを計算し、実際に復元処理で使う場合には、そのうち影響度の小さいものは使わず、影響度の高いものから幾つかを使用して復元するということができる。こうして、各特徴軸について適度な次元圧縮を行うことで射影核テンソルのサイズを妥当なサイズにできる。
一方、復元ステップでは、変換元となる低画質画像の入力が行われるともに(#20)、処理対象とするパッチ位置を特定する情報並びにL画像とH画像の区別を設定する情報が与えられる(#22)。
そして、学習ステップで生成された射影核テンソルG(#16)から第1の設定としてのL設定に対応した第1のサブ核テンソル(表1の上記例においてGLj={GL1、GL2、GL3、…GL48})が生成されるとともに(#24)、第2の設定としてのH設定に対応した第2のサブ核テンソル(表1の上記例においてGHj={GH1、GH2、GH3、…GH48})が生成される(#26)。
射影核テンソル(#16)は、各モダリティに対応する全ての固有ベクトルを基に作られており、全モダリティに関する射影成分を含んだ集合体であるため、このテンソル成分の中から復元処理に利用する成分を取り出すことが必要である。例えば、図2で説明した射影ルートで経由する中間固有空間(射影ルートの折り返し点の空間)として、「個人差」の固有空間を用いるという条件を決めることにより、それに対応するサブ核テンソルGL、GHを取り出すことができる。なお、このように、実際に用いるサブ核テンソルを生成するまでの工程を「学習ステップ」に含めてもよい。
入力された低画質画像(#20)は、パッチ分割の工程(#28)により、複数の画像領域(「分割画像領域」、「分割データ領域」に相当)に分割される。本例ではマス目状に各区画(ブロック)が同じ大きさに分割され、その分割された1区画の「マス(ブロック)」を「パッチ」と呼ぶ。このパッチ単位で変換(射影)処理が行われる。
パッチ分割された低画質画像(#20)のデータに対して、注目するパッチ位置を指定しながら、固有射影行列と第1のサブ核テンソルを用いて射影を行い(#30)、中間固有空間係数ベクトルを算出する。この第1のサブテンソル射影工程(#30)は、図2の(a)→(b)→(c)で説明した経路の射影に相当している。
注目パッチ位置を変えながら、それぞれのパッチ位置について上記第1のサブテンソル射影工程(#30)が実施されることにより、各パッチ位置に対応した中間固有空間係数ベクトルが得られる。
なお、ここで計算するパッチ位置は、必ずしも全パッチ位置である必要はなく、予め定められた一部のパッチ位置について行うものであってよい。
次に、上記第1のサブテンソル射影工程(#30)で得られた中間固有空間係数ベクトル群をもとに係数ベクトルの補正を行う(#32)。
この係数ベクトル補正工程(#32)は、中間固有空間上におけるパッチ間の高い相互相関性を利用して、パッチ内における隠蔽物の有無を検出したり、各パッチから求めた係数ベクトルを修正したり、或いは、第1のサブテンソル射影工程(#30)にて係数ベクトルの算出を行っていない未変換のパッチについて係数ベクトルを予測したりする工程である。つまり、係数ベクトル補正工程(#32)にて生成される補正係数ベクトル(補正された係数ベクトル)には、未変換パッチについて予測演算された係数ベクトルも含まれる。
全パッチについて補正係数ベクトルを生成してもよいし、一部のパッチのみについて補正係数ベクトルを生成し、他のパッチについては第1のサブテンソル射影工程(#30)で得た係数ベクトルをそのまま利用してもよい。
また、隠蔽物の検出に際し、例えば、入力画像内において予め隠蔽物(メガネやマスクなど)の存在位置が想定されている場合に、当該想定位置の隠蔽候補領域に属するパッチから算出された中間固有空間係数ベクトルと、当該隠蔽候補領域以外の領域に属するパッチ群から算出された中間固有係数ベクトルを含む係数ベクトル群から求めた代表値のベクトルと比較することにより隠蔽物の有無の判定を行うことができる。
この場合、代表値のベクトルを算出するにあたり、隠蔽候補領域以外の領域に属するパッチの位置に応じた重みを付けた加重平均を計算する態様が好ましく、その重み算出用パラメータ(#33)を取得する手段を設ける態様が好ましい。
例えば、パッチ位置と重みの関係を規定したルックアップテーブルを記憶しておき、そのデータを読み込む構成を採用してもよいし、パッチ位置と重みの関係を規定した関数を記憶しておき、パッチ位置の情報を入力して当該関数から重みの値を演算によって求める構成を採用することも可能である。
次に、上記の係数ベクトル補正工程(#32)を経て生成された補正後の中間固有空間係数ベクトル(補正係数ベクトル)を第2のサブ核テンソルと固有射影行列を用いて射影し(#34)、高画質画像(#36)を得る。この第2のサブテンソル射影工程(#34)は、図2の(c)→(d)→(e)で説明した経路の射影に相当している。
上述した復元ステップにおける第1のサブテンソル射影工程(#30)及び第2のサブテンソル射影工程(#34)の処理は、パッチ位置の情報に基づいてパッチ毎に行われる。なお、これら射影工程の演算の際には、図3に示したように、射影関数が行列であるかテンソルであるかの区別を指定する情報(#25)が与えられ、当該情報に従って固有射影行列を用いた射影処理とサブ核テンソルを用いた射影処理とに切り替えられる。
図3における入力学習画像セットを入力する工程(#10)並びにそのデータを取り込む情報取得の手段が「学習画像取得手段(工程)」に相当する。また、射影テンソルを生成する工程(#12)並びにその演算手段が「固有射影行列生成手段(工程)」及び「射影核テンソル作成手段(工程)」に相当する。第1のサブ核テンソルを生成する工程(#24)並びにその演算手段が「第1のサブ核テンソル作成手段(工程)」に相当し、第2のサブ核テンソルを生成する工程(#26)並びにその演算手段が「第2のサブ核テンソル作成手段(工程)」に相当する。
固有射影行列(#14)と、射影核テンソル(#16)から生成された第1のサブ核テンソルと、第2のサブ核テンソルとを記憶しておくメモリその他の記憶手段が「記憶手段」に相当し、これら情報をその記憶手段に記憶させておく工程が「記憶工程」に相当する。
変換元となる低画質画像(#20)が「入力画像」、「入力データ」に相当し、パッチ分割の工程(#28)並びにその演算手段が「画像分割手段」、「データ分割手段」に相当する。第1のサブテンソル射影の工程(#30)並びにその演算手段が「第1のサブテンソル射影手段(工程)」に相当し、係数ベクトル補正の工程(#32)並びにその演算手段が「係数ベクトル補正手段」に相当する。また、係数ベクトル補正の工程(#32)並びにその演算手段は「隠蔽物検出手段(工程)」を内包する。
重み算出用パラメータ(#33)を入力取得する工程並びにその手段が「重み情報取得手段(工程)」に相当する。第2のサブテンソル射影の工程(#30)並びにその演算手段が「第2のサブテンソル射影手段(工程)」に相当し、第2のサブテンソル射影(#34)で得られた高画質画像(#36)が「変更画像」に相当する。
<LPP射影を利用するときの利点について>
図4は、LPP固有空間上でのモダリティ(ここでは、個人差)内の変化が線形に近い性質を持つ場合の例を示したものである。例えば、Aさん、Bさん、Cさん、Dさんの4人の学習画像についてLPPで変換すると、局所構造を維持した状態で図4のAさんからBさんまでの間の変化(個人差の変化)が当該個人差固有空間上で概ねなめらかに(連続的に)変化していく線形に近いものなる。
このように、LPP高次特異値分解(LPP_HOSVD;LPP High Order Singular Value Decomposition)(n=2,3,4・・・)の固有空間上に変換することで、当該固有空間に対応するモダリティの要素内の変化を線形に近づけることができ(図4参照)、任意の入力画像ベクトルは学習画像サンプルのベクトル群に対して高い線形性を持つ補間点として表現される。
つまり、学習画像サンプル以外の未知の入力画像について、LPP固有空間上で学習画像サンプルとのベクトル群を用いて良好に近似的に表現できる。この点がLPP射影変換系を利用する利点の一つである(利点1)。
図5(A)は低解像の画像サンプルのLPP射影分布を2次元のサブ空間に表したものであり、図5(B)は高解像の画像サンプルのLPP射影分布を2次元のサブ空間に表したものである(出典:ZHUANG Yueting, ZHANG Jian, WU Fei,“Hallucinating faces: LPH super-resolution and neighbor reconstruction for residue compensation”, Pattern Recogn, Vol.40,No.11, Page.3178-3194 (2007))。
これらの分布が示すとおり、LPP固有空間上における学習画像サンプルベクトル群の低解像分布のトポロジー(図5(A))と、高解像分布のトポロジー(図5(B))は、各々別々に固有空間を学習し、変換しても相関が高いことが知られている。
このようなLPPの性質を利用して、モダリティの両要素間(低解像と高解像)の相互射影関係を更に多重線形射影の枠組みのテンソル(GL、GH)で表現することで、変換を高精化できる(誤差を小さくできる)という新たな効果が生まれる(利点2)。
更に、上述した利点1、2の相乗的な効果により、射影関係精度を一層向上するという新たな効果を生み、従来技術と比較して、入力条件が緩和され、ロバスト(頑健)化できる(利点3)。
また、LPP_HOSVD(n=2,3,4・・・)で固有空間上に変換することで、学習画像群の分布の相関性を高めて、更に各階数(各モダリティ)の次元削減し、処理の高速化、省メモリ化が可能である(利点4)。
<具体的な実施形態の構成例>
図3で説明した処理の手順を含んで更に実用的な実施形態について以下に説明する。
図6は本発明の実施形態に係る画像処理装置100の構成を示したブロック図である。同図では、図3との対応関係を明らかにするため、学習ステップと復元ステップとに分けて、それぞれのステップの処理に寄与する処理部のブロックを処理の流れに沿って図示した。
図6に示したように、この画像処理装置100は、低解像拡大処理部102、高域通過フィルタ104、パッチ分割部106、LPP射影テンソル生成部108、学習代表数取得部110、学習セット代表値化処理部112、再射影テンソル生成部114、設定値取得部120、第1のサブ核テンソル生成部122、第2のサブ核テンソル生成部124、第1のLPP_HOSVD射影処理部130、係数ベクトル補正処理部140、第2のTLPP_HOSVD射影処理部150、加算部160、重み算出部162、汎用超解像処理部164、合成部166を含んで構成される。なお、各処理部の処理を行う手段は、専用の電子回路(ハードウェア)、又はソフトウェア、若しくはこれらの組合せによって実現される。
第1のLPP_HOSVD射影処理部130は、図2(a)→(b)→(c)で説明した射影経路の処理を実施する手段であり、図6に示すように、L画像について画素実空間から画素固有空間への射影を行う「L画素→固有空間射影部132」と、L画像について画素固有空間から個人差固有空間への射影を行う「[L画素→個人差]固有空間射影部134」とを有する。なお、L画像における画素値をL画素、H画像における画素値をH画素と呼ぶことにする。
また、第2のLPP_HOSVD射影処理部150は、図2(c)→(d)→(e)の射影経路の処理を実施する手段であり、個人差固有空間からH画像を画素固有空間に射影する[個人差→H画素]固有空間射影部152」と、画素固有空間から実空間への射影を行う「固有空間→H画素射影部154」とを有する。
以下、図6の各処理部の内容について説明する。
(低解像拡大処理部)
低解像拡大処理部102は、入力された低解像画像を所定のサイズに拡大する処理を行う。拡大法は、特に限定されず、バイキュービック、Bスプライン、バイリニア、ニアレストネイバー等、各種方法を用いることができる。
学習ステップにおいては、入力された学習画像セットの低解像画像について、高解像画像と同サイズの画素数に拡大する。また、復元ステップにおいては、入力された低解像画像を出力と同じサイズ(本例の場合、学習画像セットの高解像画像と同サイズ)の画素数に拡大する。これは既に説明したとおり、入力と出力の次元数を揃えるためである。
(高域通過フィルタ)
高域通過フィルタ104は、入力された画像に低域を抑制するフィルタをかけるものである。フィルタには、アンシャープマスク、ラプラシアン、グラジエントなどを用いることができる。顔画像における照明変動の影響の多くは低周波域に存在するため、この高域通過フィルタ104によって低域を抑圧することで照明変動の影響を取り除き、照明変動に対するロバスト性を上げることができる。
また、入力画像から低周波成分を除去し、射影変換の処理対象を周波数全域から高周波成分に限定することで、学習で使用できる固有空間全てを高周波成分に割り当てられるようになる。低解像度の入力画像から高解像度の出力画像を復元しようとする本実施形態では、主として高周波成分を復元することが重要となる。図2で説明した多重線形射影の枠組みを有するテンソル射影を高周波成分の復元に適用している本発明の実施形態において、高周波情報のみを射影処理の対象として与えることは、対象を有効に固有空間に割り当てることができる(固有空間内でダイナミックレンジを全て高周波成分の処理に使用できる)という効果と、入力画像の照明変動の影響を抑えられるという効果とを同時に両立する新たな効果が得られる。
仮に、「照明の方向」(照明変動)のモダリティを追加して、必要な学習画像群を学習すれば、図1と同じ変換原理により照明変動に対応した復元処理が可能であるが、テンソルのサイズが大きくなり、演算負担やメモリ容量の増大を招く。
この点、本実施形態のように高域通過フィルタ104を用いる構成によれば、照明変動モダリティの追加(=テンソル階数の増加)がなく、照明条件検出処理が不要であり、照明変動を踏まえた復元射影を学習するためのデータ収集、加工が不要であることから、メモリ容量の増大を回避することができるとともに、処理負荷が大幅に増加しないという利点がある。
本例における高域通過フィルタ140(ハイパスフィルタ)を用いた高周波成分抽出工程は、少なくとも照明変動要因が存在している低周波成分を抑制すればよく、高周波成分とともに中周波成分を抽出してもよい。すなわち、入力学習画像セットの高周波成分又は高周波成分及び中周波成分が抽出され、低周波成分が抑制された学習画像セットが得られる。
また、復元ステップにおいても、学習ステップにおける高周波成分抽出工程と同じ処理が施される。例えば、学習画像セットで抽出された周波数成分と同じ周波数成分を入力画像から抽出する処理が施される。すなわち、復元ステップにおける高周波成分抽出工程において、固有射影行列及び射影核テンソルの基となる学習画像セットと同一の周波数成分が抽出される。
本実施形態によれば、高域通過フィルタ104とLPP_HOSVD射影との相乗効果から、より少ない学習サンプルで高精度かつ高ロバストな復元が期待できる。
なお、先に説明したように、本例では、照明変動要因を含む低周波成分を抑制する一例として高周波成分を抽出する処理を示したが、高周波成分を抽出するとともに中周波成分を抽出してもよい。
本例では、入力画像及び出力画像における低周波成分に含まれる照明変動による復元画像の画質劣化要因を除去するための画像処理について説明したが、かかる画像処理方法は、照明変動以外にも適用することができる。
例えば、中周波数領域に含まれる画質劣化要因に対して、入力画像から中周波領域を抑制して、中周波領域についてテンソル射影とは異なる方式による高画質化処理(例えば、拡大処理)を用い、他の周波数領域についてテンソル射影方式による高画質処理を用い、これらの高画質処理によって生成された2つの画像を加算することで、所定の周波数領域に存在する画質劣化要因を出力画像から取り除くことが可能である。
(パッチ分割部)
パッチ分割部106は、図3で説明したパッチ分割の工程(#28)を担う手段であり、入力された画像を将棋盤のマス状に分割する。学習ステップ、復元ステップともに、各パッチ単位で信号処理が行われることになる。パッチ毎の処理を行うことで、処理対象を画像の局所に限定することで射影対象を低次元で扱えるようにしたため、高画質及び個人差の変化に対してロバスト化できる。したがって、本発明の実施に際し、パッチ分割の手段を具備する構成は好ましい態様である。
(LPP射影テンソル生成部)
LPP射影テンソル生成部108は、上記の低解像拡大、高域通過フィルタ、パッチ分割といった前処理の済んだ入力学習画像セット(低解像画像と高解像画像のペア群)から局所保存射影(LPP)を適用して、LPP射影テンソルを生成する。
LPPは、元の線形空間(ここでは画素の実空間)における標本の局所的な値の近さ(近傍値の幾何学的距離の情報)を保存するように、座標変換を行うものであり、元の空間で近傍にある標本を射影先の空間(固有空間)でも近くに埋め込むよう座標軸を決定する。
すなわち、前処理済みの入力学習画像セットが与えられると、これを基にLPPによってLPP固有射影行列Upixelsをまず生成し、次に、特異値分解(SVD)と同様に、LPP射影核テンソルGを生成する。
すなわち、学習画像セットの画像を表す行列Mについて、M=U1ΣU2と分解され、行列U1,U2はLPP固有射影行列として既に求められているため、行列演算からΣ(=G)が求められる。
「LPP局所保存射影」の原理は、値が類似しているサンプルが近くなるような軸(特徴軸)を求め、結果として局所の構造を保存するものであり、近傍サンプル値間の距離を利用する。近い値のサンプル(標本)同士の類似度は大きく、異なる値のサンプル同士の類似度は小さくなる類似度を導入して、類似度が大きいサンプル同士を近づけるような射影が行われる。LPPは局所的近さを保持して線形次元を削減することを目的に用いられ、局所的幾何学性を保存し、線形変換のみで簡単に射影できるという特徴がある。ただし、一般的には直交基底ではない。しかし、直交LPPも提案されており、これを用いた方が望ましい。
<直交LPPの算出について>
LPPアルゴリズムから対角行列Dとラプラシアン行列Lが求まっていることを前提にして直交LPP射影行列WOLPP={u1,…,ur}を以下の手順で求める。なお、次元数rは、元の次元数n以下の数である。
(ステップ1):まず、行列(XDXt)−1XLXtの最小固有値に対応する固有ベクトルをu1とする。
(ステップ2):次に、k番目の固有ベクトルを求める。すなわち、[数4]に示す行列M(k)の最小固有値に対応する固有ベクトルをukとする。
[数4]
M(k)={I−(XDXt)−1A(k−1)[B(k−1)]−1[A(k−1)]}(XDXt)−1(XLXt)
ここで、
A(k−1)={u1,…,uk−1},
B(k−1)=[A(k−1)]t(XDXt)−1A(k−1)
である。
k=2からrまで(次元圧縮しない場合はnまで、次元圧縮する場合はrまで)ステップ2の演算を繰り返し、各固有ベクトルを求めていく。こうして、直交LPP射影行列WOLPP={u1,…,ur}が得られる。
<主成分分析(PCA)との比較>
上述のLPPに対し、主成分分析(PCA)の原理は、大局分散の最大化であり、大域的な分布を保持して線形次元を削減することを主目的とする。PCAは、大域的な幾何学性を保存し、線形変換のみで簡単に射影するという特徴があり、直交基底である。
このような、PCAは、図7(a)に示すように、実空間ベクトルと固有(特徴)空間ベクトルの間の射影関数を提供するに留まる。一方、特異値分解(SVD)は、図7(b)に示すように、実空間ベクトルと固有(特徴)空間ベクトルの間の射影関数Uに加えて、固有空間Aのベクトルと固有空間Bのベクトルの間の射影関数Σも提供する。つまり、SVDは、PCAにおける特徴ベクトルの分解表現に相当している。
行列SVDは、任意の行列MをM=UΣV*に分解する手法である。ここで、Uは出力正規直交ベクトル、Vは入力正規直交ベクトル、Σはσiの対角出力行列であり、V*はVの随伴行列を表す。つまり、V射影固有空間とU射影固有空間がi毎にσi(>0)倍の関係で一意に線形的に関連付けられる。この行列SVDを多次元化(多モダリティ化)、すなわちテンソル化したものがテンソルSVD(TSVD)である。非特許文献1に記載の技術は、このTSVDを利用するものである。
これに対し、本実施形態におけるLPP_HOSVD(n=2,3,4・・・)は、LPPを多次元化(多モダリティ化)したものであり、LPPのテンソル版である。表1の学習画像セットを例に説明すると、パッチ位置毎に、画素実空間で60人分のH画像及びL画像をプロットし、その120点の分布についてLPPを適用することにより、その分布における近い値のもの(変化の近いもの)に注目した特徴軸が求められる。
ただし、本実施形態では、最終的に60人分のサンプルから射影関数を決定するにあたり、より適切な60人を選ぶ観点から、最初の学習段階では60人よりも多数の(例えば、200人分)の低画質画像と高画質画像のペア群を含んだ学習画像セットを用いる。
こうして、パッチ位置の次元(表1の場合、48次元)に対応した暫定的な仮LPP固有射影行列Uj={U1、U2、U3、…U48}が得られる。また、この仮LPP固有射影行列Ujを用いて、テンソル特異値分解により、L画像とH画像について画素固有空間と個人差固有空間との間の変換を規定する仮射影核テンソルGを生成する。
この仮射影核テンソルGは、低解像画像の画素(L画素)を個人差固有空間に対応付けるサブ核テンソルGLj={GL1、GL2、GL3、…GL48}と、高解像画像の画素(H画素)を個人差固有空間に対応付けるサブ核テンソルGHj={GH1、GH2、GH3、…GH48}を含む。
(学習代表数取得部)
既述のとおり、本実施形態では、射影関数の決定に際して適切なサンプルを選択するために学習画像を絞り込む。その際、最終的に使用する学習画像のペア群の数(ここでは、サンプルの人数)を「学習代表数」といい、この学習代表数の情報を外部から取得する。
図6の学習代表数取得部110は、学習代表数を外部から取り込む手段である。なお、この学習代表数の情報を取得する手段としては、ユーザーが所定の入力装置(ユーザーインターフェース)等を操作して入力するなど、装置外部から情報を取得する構成でもよいし、装置内のプログラムにしたがって自動的に生成される構成でもよい。
(学習セット代表値化処理部)
学習セット代表値化処理部112は、前処理済の入力学習画像セット(低解像度画像と高解像度画像の少なくとも一方)から個人差固有空間係数ベクトル群を求める処理を行う。この処理は、入力学習画像セットについて、復元ステップにおける第1のLPP_HOSVD射影処理部130と同じ処理、すなわち、L画素→固有空間射影(符号132による処理)と[L画素→個人差]固有空間射影(符号134による処理)までの処理を行い、個人差固有空間の係数ベクトルを求めるものである。
これは、入力学習画像セットの各画像について個人差固有空間への射影点を求めることことに相当する。これにより、個人差固有空間における各サンプル(標本)点同士の近さを把握できる。
そして、この個人差固有空間における各点の分布に基づき、学習代表数取得部110から得た学習代表数Nに従って、代表の個人差固有空間係数ベクトル(代表ベクトル)をN個求める。代表ベクトルは、k-meams法、EMアルゴリズム、変分ベイズ法、マルコフ連鎖モンテカルロ法等を用いて求める。又は、これらの複数方式を組み合わせても良い。例えば、k-meams法で初期候補求め、EMアルゴリズムで最終的に代表ベクトルを求めることで比較的短時間に高精度に求められる。
このような代表値化により、類似するサンプル点(個人差固有空間において近傍に位置する点)は代表ベクトルにまとめられる(置き換えられる)。こうして求められた個人差固有空間上の代表ベクトル群をそのまま用いても良いが、求められた代表ベクトル群の各ベクトル毎に最も近い前処理済の入力学習画像セットのN個のサンプルを採用する態様が好ましい。前者の場合、代表ベクトルはサンプル点から合成されたものであるのに対し、後者の場合は実際のサンプル点が採用されるため、代表点が合成されることによるボケを避けることができる。
このような代表値化により、類似するサンプル点(個人差固有空間において近傍に位置する点)は代表値によって代表されることとなり、学習画像セットの冗長性が削減される。
(再射影テンソル生成部)
再射影テンソル生成部114は、学習セット代表値化処理部112で得られたN個の代表学習画像セットについてLPP射影テンソル生成部108と同じ処理を行い、LPP固有射影行列とLPP射影核テンソルを生成し直す。こうして、代表学習画像セットを基に、後述の復元ステップで使用されるLPP固有射影行列(Upixels)115とLPP射影核テンソル(G)116が得られる。
なお、図6では、LPP射影テンソル生成部108と再射影テンソル生成部114とを別々のブロックで示したが、これらは同じ処理ブロックを用い、処理をループさせる構成も可能である。
図8は、学習セット代表値化の処理によって学習セットの冗長性が削除される様子を模式的に示した概念図である。ここでは、説明を簡単にするために、学習サンプル数を「5」とし、2次元空間で示した。LPP射影テンソル生成部108の処理(1回目)の結果、Aさん〜Eさんの5人の顔画像データが個人差固有空間において図8のように分布するとき、比較的近い位置関係にあるAさん、Cさん、Dさんの3人のサンプルは、Cさんによって代表値化され、Aさん、Dさんのサンプルは削除される。
こうして、Bさん、Cさん、Eさんの3人のデータを基に、再射影テンソル生成部114によってLPP固有射影行列UpixelsとLPP射影核テンソルGが再計算される。このように、学習セット代表値化の処理によって学習画像セットの冗長性が削減され、復元性能とロバスト性を維持しつつ、射影テンソルの各階数の次元削減が可能である。メモリ増の抑制と処理の高速化に寄与し得る。
次に、復元ステップに作用する処理部について説明する。
図6の学習ステップで説明した低解像拡大処理部102、高域通過フィルタ104、パッチ分割部106は、復元ステップにおいても入力画像(低画質画像)に対して同様に使用される。つまり、復元ステップにおいては、入力画像の高域通過成分について、パッチ毎に「L画素→固有空間射影」(符号132)、「[L画素→個人差]固有空間射影」(符号134)、「[個人差→H画素]固有空間射影」(符号152)、「固有空間→H画素射影」(符号154)が行われる。
(設定値取得部)
設定値取得部120は、処理対象とするパッチ位置の情報と、L、Hの設定を指定する情報を外部から取得し、その情報を「第1のサブ核テンソル生成部122」、「第2のサブ核テンソル生成部124」、「L画素→固有空間射影部132」、「固有空間→H画素射影部154」に与える手段である。
なお、これら情報を外部から取得せずに、パッチ分割後の画像のパッチ位置と、第1のサブ核テンソル生成部122、第2のサブ核テンソル生成部124に対応付けて、「第1のサブ核テンソル生成部122」、「第2のサブ核テンソル生成部124」、「L画素→固有空間射影部132」、「固有空間→H画素射影部154」に与えてもよい。
また、当該手段は、「第1のサブ核テンソル生成部122」、「第2のサブ核テンソル生成部124」とともに学習ステップで行っても良い。
(第1のサブ核テンソル生成部)
第1のサブ核テンソル生成部122は、設定値取得部120から出力されるパッチ位置とL設定の条件を与えることにより、再射影テンソル生成部114の出力に係るLPP射影核テンソル116から低解像用のサブ核テンソルGLを生成する。なお、当該手段は、学習ステップで行ってもよく、LPP射影核テンソル116を記憶保存する態様に代えて、或いは、これと併用して、学習ステップにおいてサブ核テンソルGLを生成し、記憶保存しておいてもよい。かかる態様によれば、当該サブ核テンソルを保存するメモリが必要になるが、復元ステップの処理時間が短縮できるという利点がある。
(L画素→固有空間射影部)
第1のLPP_HOSVD射影処理部130における「L画素→固有空間射影部132」は、設定値取得部120から与えられるパッチ位置を基に、LPP固有射影行列115(Upixels)を得て、パッチ分割部106からの出力の画像に対して、図2(a)→(b)で説明した画素固有空間へのUpixels −1射影の処理を行う。なお、Upixels −1は、Upixelsの逆行列を表す。
([L画素→個人差]固有空間射影部)
図6において「L画素→固有空間射影部132」に続く[L画素→個人差]固有空間射影部134は、第1のサブ核テンソル生成部122から該当する射影テンソルGLを得て、「L画素→固有空間射影部132」の出力に対して、図2(b)→(c)で説明した個人差固有空間へのGL −1射影の処理を行い、個人差固有空間係数ベクトルを求める。
(係数ベクトル補正処理部)
係数ベクトル補正処理部140は図3で説明した係数ベクトル補正の工程(#32)を担う手段であり、図6の[L画素→個人差]固有空間射影部134で求められたパッチ数分の個人差固有空間係数ベクトル群を用いて、第2のLPP_HOSVD射影処理部150の[個人差→H画素]固有空間射影部152に与える補正係数ベクトル群を生成する。
この補正演算においては、多重線形射影の枠組みを有するテンソル射影の特徴を利用する。すなわち、図2で説明したとおり、テンソル射影の特徴として、学習済のLPP固有射影行列とLPP射影核テンソルを用いると、同一人物の顔画像(例えば、Aさんの顔画像)を分割したパッチ群の画素ベクトルは個人差固有空間でほぼ1点に集まる。したがって、テンソル空間の同一階数上に変換することでパッチ間の高い相互相関が利用できるようになる。
かかる性質を利用することで、顔画像における部分隠蔽(眼鏡やマスク、自動ドアの縁や扉などにより顔の一部が隠されている状況)の有無を判別することができ、かかる部分隠蔽による復元悪化を抑えることが可能である。以下、具体的な例を幾つか説明する。
〔顔の隠蔽領域に対して隠蔽物を取り除いた顔として復元する例〕
隠蔽物が存在するパッチの画素ベクトルは、個人差固有空間において、他の隠蔽物がないパッチの画素ベクトルが集まる領域から離れた位置の点となる。このような場合に、隠蔽物のあるパッチの画素ベクトルを補正し、隠蔽物のないベクトル(補正係数ベクトル)に修正できる。
(例A-1-1):
個人差固有空間における同人物に係るパッチ群の係数ベクトル群の平均値、メジアン、最大値、最小値等の代表値を補正係数ベクトル群の値として用いることで、個人差固有空間係数ベクトル群のノイズ(眼鏡、マスク、扉等部分隠蔽物の影響)を除去する。
(例A-1-2):
個人差固有空間における同人物に係るパッチ群の係数ベクトル群のヒストグラムにおける平均値、メジアン、最大値、最小値等の代表値を中心に、例えば分散σの範囲、又は2σの範囲の個人差固有空間係数ベクトル群を対象にした平均値、メジアン、最大値、最小値等を補正係数ベクトル群の値として用いることで、更にノイズ除去してもよい。
〔隠蔽領域を検出して隠蔽物(眼鏡、マスク等)用の復元をする例〕
隠蔽物が存在する領域が検出されたときに、当該領域をそれ専用のテンソルで変換する態様も可能である。
(例A-2-1):
顔内の眼鏡(上部横長)やマスク(下部中央)の相対位置は事前に概ね把握できているため、該当領域のパッチの個人差固有空間係数ベクトル群と顔全体(又は、隠蔽候補領域を除いた顔領域)のパッチの個人差固有空間係数ベクトル群の代表値とを比較して、類似していたら(距離が近ければ)隠蔽無しの確率が高いと検出する。逆に、両者の距離が離れていたら隠蔽物が存在している確率が高いと検出される。
また、該当領域のパッチの位置境界において、図9に示すような重みや、α/x、α/x2、exp(−αx)等の関数で表されるような重み(ただし、xは隠蔽候補位置からの距離)をつけて代表値を求めても良い。
このようなパッチ位置に応じた重みを付けた代表値は、隠蔽物の大きさの不確定さを考慮したものである。例えば、メガネには様々な大きさがあるため、メガネの大きさによって隣のパッチにもメガネがかかる場合もあれば、かからない場合もある。確率的に考えて、目の中心位置に近い領域ほどメガネの影響は高く、距離が遠いほど(周辺にいくほど)メガネの影響度は小さくなるため、そのような隠蔽物の影響度合いを目の中心位置からの距離の関数として定める。重みを求める手段としては、所定の関数から演算する態様の他、予め記憶しておいたルックアップテーブル(LUT)を用いる態様がある。
隠蔽物が存在する確率の高い領域が検出された場合、当該隠蔽物領域に対して隠蔽物(眼鏡、マスク等)を対象にした本発明の方式による復元(テンソル射影を利用した復元)を行う。
(例A-2-2):
「例A-2-1」では代表値との距離に注目して隠蔽物を検出したが、係数ベクトル群の分布の広がりから検出することもできる。すなわち、例A−2−1の他の実施例として、隠蔽候補に該当する領域に対応するパッチの個人差固有空間係数ベクトル群の分布が広がっていたら隠蔽が有る確率が高いと検出する態様も可能である。隠蔽候補領域の分布が顔全体における同分布より広がっている場合、隠蔽が有る確率が高いとしても良い。
(例A-2-3):
他の実施例として、事前に正解(学習セットには含まれない画像)の個人差固有空間係数ベクトル群の分布形状を求めておく態様もある。この場合、個人差固有空間係数ベクトル群が事前の分布形状と類似していたら隠蔽無しの確率が高いと検出する。
〔隠蔽領域を検出して本発明と異なる方式の復元をする例〕
(例A-3-1):
「例A-2-1」と同様の検出を行い、隠蔽物領域に対して、バイキュービックや「汎用超解像処理部164」(図6参照)など別の変換手法による復元をする態様も可能である。
〔顔内の特定領域から特定領域以外の係数ベクトルを予測して復元する例〕
(例A-4-1):
同一人物の顔画像を分割したパッチ群の画素ベクトルについて、個人差固有空間で高い相関があることを利用して、顔内の一部(例えば、目、鼻、口の各領域)のパッチのみの個人差固有空間係数ベクトル群から、顔全体の補正係数ベクトル群を求めるようにしてもよい。
(例A-4-1-1):
例えば、顔内の一部の個人差固有空間係数ベクトル群の平均値、メジアン、最大値、最小値等の代表値を顔全体の補正係数ベクトル群の値として用いる。
(例A-4-1-2):
「例A-4-1-1」に代えて、顔内の中央部分の複数パッチについて個人差固有空間係数ベクトル群の分布を求める。次に、同分布より、外挿予測して、当該中央部分以外の補正係数ベクトル群を求める。例えば、顔内中央部分の3×3の9パッチについて係数ベクトル群の分布を求め、この分布から当該9パッチの外側位置の係数ベクトルを外挿法(補外法)によって求める。
(例A-4-1-3):
顔内の水平垂直方向に間引いたパッチに対してのみ個人差固有空間係数ベクトル群の分布を求める。次に、同分布を補間して個人差固有空間係数ベクトルを求めていないパッチの補正係数ベクトル群を求める。例えば、偶数番号のパッチ位置についてのみ係数ベクトル群の分布を求め、残りの奇数番号のパッチについては補間して求める。
上述の「例A-4-1」〜「例A-4-1-3」によれば、図6で説明した第1のサブ核テンソル生成部122から[L画素→個人差]固有空間射影部134の処理数が削減され、処理の高速化が可能である。
(例A-共通-1):
処理対象のパッチ及びその周囲のパッチの補正係数ベクトル群に対して、更に低域通過フィルタ(例えば、平均フィルタ)を掛けてもよい。かかる態様によれば、求められた補正係数ベクトル群を空間的に滑らかにし、ノイズ成分を除去する効果がある。また、平均フィルタに代えて、最大値、最小値、メジアンフィルタをかけても良い。
(第2のサブ核テンソル生成部)
第2のサブ核テンソル生成部124は、設定値取得部120の出力のパッチ位置とH設定の条件を与えることにより、LPP射影核テンソル116から上記サブ核テンソルGHを生成する。
なお、当該手段は、図6のように復元ステップで行う態様に代えて、学習ステップで行っても良い。学習ステップにおいてサブ核テンソルGHを生成しておくことにより、復元ステップの処理時間が短縮できる。ただし、同サブ核テンソルGHを保存するメモリが必要となる。
([個人差→H画素]固有空間射影部)
[個人差→H画素]固有空間射影部152は、第2のサブ核テンソル生成部124からGHを得て、係数ベクトル補正処理部140の出力の補正係数ベクトルに対して図2(c)→(d)で説明したGH射影を行う。
(固有空間→H画素射影部)
固有空間→H画素射影部154は、設定値取得部120からのパッチ位置をもとにLPP固有射影行列Upixelsを得て、[個人差→H画素]固有空間射影部152の出力の係数ベクトルに対して図2(d)→(e)で説明したUpixels射影の処理をして高解像画像を求める。
(加算部)
加算部160は、固有空間→H画素射影部154からの入力(高周波成分の復元情報)と、低解像拡大処理部102からの入力(元の低解像拡大画像)の和を出力する。また、この加算部160にて、全パッチ分を加算統合して1枚の顔画像(高解像の画像)を生成する。
本例に示す画像処理によれば、入力画像に含まれていない高周波領域の情報が復元された出力画像を得ることが可能になる。すなわち、入力画像を低解像拡大処理部102で拡大した画像のナイキスト周波数成分以上の高周波成分を復元して、これを元の低解像度拡大画像に加え、高解像画像を得る。
図10(a)に符号20を付して図示した特性は入力画像(図3の「低画質画像#20」に相当)における空間周波数(周波数)と、レスポンス(利得)との関係(入力画像の周波数特性)を図示したものである。図10(a)に示すように、入力画像はf2までの空間周波数を有しており、低周波数領域(例えばf1未満の周波数領域)に照明変動要因が含まれている。
図10(b)に符号21を付して図示した特性は、入力画像から高域通過フィルタ104によって高周波成分を抽出した低周波成分抑制画像の周波数特性である。ここでは、図10(a)に図示した周波数特性を有する入力画像に対してf1未満の周波数成分をカットする処理を施したものである。
図10(b)に符号21を付して図示した周波数特性を有する低周波成分抑制画像が生成されると、該低周波成分抑制画像に対して、第1のLPP_HOSVD射影処理部130及び第2のLPP_HOSVD射影処理部150による射影演算が行われ、当該低周波成分抑制画像(入力画像の高周波成分)には含まれていない、より高周波の成分を含んだ射影画像(高域復元画像)が得られる。
図10(c)に符号35で示した部分が上記復元された射影画像に相当する部分である。図6で説明したとおり、入力された低解像画像に対して、低解像拡大処理部102にて、所定のサイズ(画素数)に拡大する拡大処理が施された拡大画像が生成される。この拡大画像の周波数特性の一例は図10(c)に符号20’を付して図示したとおりである。
図6の加算部160では、低解像拡大処理部102から得られた拡大画像と、テンソル射影によって生成された射影画像(高域復元画像)とを加算する処理が行われ、図10(c)に示すように、符号20’と符号35を合わせた帯域の高画質化された復元画像(図3の「高画質画像#36」に相当)が生成される。
図10(c)に示すように、入力画像を拡大した拡大画像(20’)では、f1以上の周波数領域のレスポンスが低下しているが(復元性が劣化しているが)、射影画像(35)を加算することで、f2からf2’の周波数領域についても所定のレスポンス(復元性)が確保される。すなわち、本例に示す画像処理によれば、入力画像では表現されていないf2からf2’までの周波数領域について、復元された出力画像において表現することが可能となる。
図10(c)におけるf1’は、入力画像におけるしきい値f1に対応する周波数であり、サンプリング定理におけるナイキスト周波数に基づいて周波数f1’を設定する方法が挙げられる。すなわち、入力画像について、ナイキスト周波数よりやや低い周波数に対応する周波数f1をしきい値として、高周波成分抽出処理を行うことで、入力画像の低周波成分に含まれる画質劣化要因を取り除くことができ、好ましい高画質画像が復元される。
なお、入力画像(及び学習画像セット)において抽出される周波数領域は、いわゆるカットオフ周波数(レスポンスが-3dBとなる周波数)としてもよいし、入力画像や出力画像に応じて適宜設定してもよい。
また、低解像拡大処理部102による拡大画像と、テンソル射影により得られた射影画像(「固有空間→H画素射影部154」から得られる復元画像)とを加算する際に、元の低解像拡大画像に対して、所定のフィルタリング処理を施した後に、高周波成分の復元情報を加算するように構成してもよい。
また、低解像拡大処理部102による拡大画像と、テンソル射影により得られた射影画像(「固有空間→H画素射影部154」から得られる復元画像)とを加算する際に、射影画像の信頼性を指標として決められた重み係数を用いて重み付けをした後に、これらを加算する態様も好ましい。
例えば、テンソル射影による高画質化処理の復元信頼性が高い場合には、射影画像を積極的に使用し、復元信頼性が低い場合には拡大画像の採用比率を高めるように重み係数を決定するとよい。更に、該重み係数は周波数特性を考慮して決められるとより好ましい。
上記のようにして加算部160から高解像画像が得られるが、更に、係数ベクトル補正処理部140における補正処理が大きい場合に、「固有空間→H画素射影部154」から求められた高解像画像の影響が小さくなるように重み付け加算してもよい。
以下、その処理を実現するための構成例を説明する。
上述したLPP射影テンソルを利用した超解像の処理手段(図6の符号100A及び100B)以外に、これと異なる別のアルゴリズムによる超解像処理手段(図6における「汎用超解像処理部164」として記載)と、重み算出部162及び合成部166を備える。
(汎用超解像処理部)
汎用超解像処理部164は、入力された低解像画像を出力と同サイズに超解像拡大する。
拡大法は、特に限定されないが、例えば、クラスタリング方式(Atkins, C.B.; Bouman, C.A.; Allebach, J.P., “Optimal image scaling using pixelclassification”, IEEE, ImageProcessing, 2001. Proceedings. 2001International Conference on Volume3, Issue ,2001 Page(s):864 - 867 vol.3)などを用いる。
クラスタリング方式の特徴は、混合モデルを採用しているために、複数のモデルを組み合わせることで様々なバリエーションの絵柄の超解像に対応できる。
処理の手段としては、以下の混合ガウスモデルを仮定し、
[数5]
x=Σ(Ai・z+Bi)・wi(y−μi,πi)
ただし、z:低解像画像、x:高解像画像、Ai、Bi、μi、πiはそれぞれ学習時に確定され、重みとしての確率wiは、復元時、未知画素と周囲の差分の次元ベクトルyによって動的に求められる。
Ai、Bi、μi、πiは、例えば以下のように求める。
先ず、差分の次元ベクトル(クラスタベクトル)をK-meansで100クラス各々の重心を求め分類し、初期分布状態を作成する。
次に、EMアルゴリズムで繰り返し更新する。現在の条件確率で尤度関数を最大化し、次の条件確率を求める。条件確率を推測するのは、Eステップで行う。Eステップの推測値を使って尤度関数を最大化するのは、Mステップとなる。尤度関数の出力が安定するまで、Eステップ、とMステップのループ演算を続ける。例えば、100クラスで、10万画素を学習するには、10000回の学習を行う(収束条件はe-10)。
また、汎用超解像処理部164における他の拡大方法として、低解像拡大処理部102で説明した拡大方法を用いてもよい。すなわち、ここでの「汎用超解像処理」とは、入力画像である低画質画像のサイズを高画質画像と同じサイズに拡大する拡大処理など、射影テンソルを用いた超解像処理以外の画像処理を含む概念である。
(重み算出部)
重み算出部162は、入力条件の外れ程度に応じて、汎用超解像処理部164による汎用超解像方式の採用率を増減調整するよう、合成部166で用いる重みw1を求める手段である。入力条件の外れ程度が低ければ汎用超解像方式の採用率を下げ、入力条件の外れ程度が高いほど汎用超解像方式の採用率を高くするよう重みw1が決定される。
重み係数の算出方法として、例えば、学習画像群(ここでは、学習セット代表値化処理部112にて代表値化されたもの)の個人差固有空間における係数ベクトルと、入力画像について第1のLPP_HOSVD射影処理部130において生成された個人差固有空間係数ベクトルとの相関関係に基づいて重み係数を算出する方式が挙げられる。
このようにして、テンソル射影超解像処理と他の方式による超解像処理を併用し、入力条件の外れ程度が大きい場合には、他の方式による超解像処理を採用することで、入力条件の外れ程度が大きくなると復元性が悪くなるというテンソル射影超解像処理の課題を解決することが可能となり、復元性の良好な高画質画像を得ることが可能となる。
以下、重み算出部162における具体的な算出例を説明する。なお、ここでは、後述する合成部166の演算式([数7])から、重みw1の値が小さいほど汎用超解像方式の採用率(1−w1)が高いことを示している。
(例B-1-1):
既述したテンソル射影超解像の手段(図6の符号100A、100B)は、個人差固有空間上で個人差固有空間係数ベクトルが学習セットの係数ベクトルから遠いほど復元性が悪い、という特徴がある(特徴[1])。
図11(A)は、上記特徴[1]を示す概念図である。図11(A)において、テンソルの固有空間を3次元空間で表し、各学習画像ベクトルを小点SL1、SL2…SLiで表した。学習画像群の分布範囲の外縁を符号170で表し、学習画像ベクトルの重心PGを黒丸で示した。
学習画像ベクトル以外の未知の画像ベクトルIM1、IM2…は白丸で示してある。
学習画像ベクトル群に対する未知画像ベクトルの近さ、学習画像ベクトル(ニアレストネイバー、重心、周囲境界点)との距離、サンプル群(クラス)の内側外側判定など、から距離を判定する。
図11(A)中、IM1で示した未知の画像ベクトルは、学習セット(サンプル群)の内側にあり、最近隣点(ニヤレストネイバー)との距離dNN、重心PGとの距離dG、周囲境界点からの距離dARを総合的に評価して(例えば、これらの距離の線形結合による評価関数で評価値を計算して)、学習画像サンプルと入力画像の距離が比較的近いものであると判断される。
IM2についても、同様に学習画像サンプルとの距離が近いものと判断される。これらの未知画像ベクトルの復元は非常に良好なものとなる。
IM3,IM4は、サンプル群のクラスの内側に存在し、IM1,IM2に比べれば距離は少し離れており、「やや近い」レベルにあると言える。これらについても比較的良好に復元することができる。
IM5,IM6は、サンプル群の外側に存在し、学習セットとの距離が遠い。これらの未知画像ヘクトルIM5,IM6を復元した場合の復元性は低下する。このように、学習セットとの距離が近いほど良好な復元が可能であり、距離が遠いほど復元が悪くなる傾向がある。
かかる特徴[1]を利用し、重みw1を次のように求める。
まず、学習セット代表値化処理部112で得られた代表学習セットについて、復元ステップの「[L画素→個人差]固有空間射影部134」までの処理を行い、代表個人差固有空間係数ベクトル群を事前に求めておく。
そして、設定値取得部120からのパッチ位置をもとに上記代表個人差固有空間係数ベクトル群と「[L画素→個人差]固有空間射影部134」で得られた個人差固有空間係数ベクトルの最も近い距離を求め、図11(B)に示すようなLUTや、β1/x、β1/x2、exp(−β1x)等の関数によりw1を求める。
(例B-1-2):
学習セットの係数ベクトルと個人差固有空間係数ベクトルとの向きが類似しているほどw1を大きくする。
(例B-2-1):
また、既述したテンソル射影超解像の手段(図4の符号100A,100B)は、個人差固有空間上で、個人差固有空間係数ベクトルの「パッチ数を標本数とした分布」が広がっている(ばらついている)ほど復元性能が悪い、という特徴がある(特徴[2])。
この特徴[2]を利用し、代表学習セットの係数ベクトルとパッチ毎の個人差固有空間係数ベクトルとの距離又は向きのパッチ標本に対する分布の広がりが広いときには、重みw1を小さくする。例えば、分布の広がりと重みw1の対応関係を示すルックアップテーブルを予め作成しておいてもよいし、当該対応関係を規定した関数を用いて計算してもよい。
かかる態様によれば、テンソルの画素固有空間上(図2(b)の画像固有空間)と比べて、テンソルの個人差固有空間上(図2(c)の人物固有空間)で本発明による手法の信頼度を評価することにより、テンソル射影の特徴[1]を利用すると、全てのパッチが同一指標(全てのパッチがほぼ1点に集まる)で評価可能となるため、分布の広がりを信頼性尺度として評価できるようになるという新たな効果が生まれる。従って、重み算出精度が向上する。
(例B-2-2):
「例B-2-1」のパッチ標本に対する分布において、標本数の少ない(又は代表値から遠い)パッチ標本ほどw1を小さくする。すなわち、ヒストグラム上の頻度に応じて重みを変える。この場合、パッチ毎に重みが制御できるという効果がある。
(例B-3):
「例B-2-1」のパッチ標本に対する分布において、分布の形状が類似しているほど重みを大きくしても良い。例えば、学習ステップで把握されているAさんの分布と、入力画像(未知の画像)の分布の分布形状が似ているかどうかによって重みを変える。
(例B-共通-1):
上述した「例B-1-1」、「例B-1-2」、「例B-2-1」、「例B-2-2」、「例B-3」についてそれぞれ共通に、次のような構成を採用し得る。例えば、「例B-1-1」又は「例B-1-2」において、更に学習サンプルである代表個人差ベクトルの個々に対し、個人毎(例えば、Aさんの顔内)の個々のパッチの正解妥当性判断指標を考える。この判断指標としてパッチ標本に対する分布の代表値からの個々のパッチの距離を利用する。代表値から遠いほど正解には相応しくないと扱うようにする。具体的には図11、β2/x、β2/x2、exp(−β2x)等と同様な特性を持つwpを求め、w1’=w1・wpを合成部166に与えても良い。
かかる態様によれば、テンソルの画素固有空間上(図2(b)の画像固有空間)と比べて、テンソルの個人差固有空間上(図2(c)の人物固有空間)で本発明による手法の信頼度を評価することにより、テンソル射影の特徴[1]を利用すると、全てのパッチが同一指標(全てのパッチがほぼ1点に集まる)で評価可能となるため、仮正解に定義した学習サンプル自身の信頼性を含めて評価できるようになるという新たな効果が生まれる。したがって、重み算出精度が向上する。
(例B-共通-2):
また、上述した「例B-1-1」、「例B-1-2」、「例B-2-1」、「例B-2-2」、「例B-3」についてそれぞれ共通に、代表値としては平均、メジアン、最大、最小など用いてよい。
(例B-共通-3):
上述した「例B-1-1」、「例B-1-2」、「例B-2-1」、「例B-2-2」、「例B-3」についてそれぞれ共通に、分布の広がり(ばらつき)としては分散、標準偏差など用いてよい。
(例B-共通-4):
学習セットの重心、周囲境界点などの代表値と個人差固有空間係数ベクトルとの距離が近く又は向きが類似しているほどw1を大きくする。かかる態様によれば、距離や向きの算出対象を減らし、高速化が可能である。
(例B-共通-5):
上述した各例における「距離」の計算については、ユークリット距離、マハラノビス距離、KL距離など用いてよい。
(例B-共通-6):
上述した各例における「向き」の計算については、ベクトル角度、内積、外積などを用いてよい。
(例B-共通-7):
図4で説明した「学習ステップ」時に距離、向き、代表値、分布広がり、分布形状と復元誤差との関係を正解不正解セットとして定義しておく。復元誤差とは、学習画像セットから求めた射影関数で復元した画像と正解画像との差であり、例えば、正解不正解画像との平均自乗誤差やPNSR(ピーク信号対ノイズ比)で表される。
また、「距離、向き、代表値、分布広がり、分布形状」のうち少なくとも1つの要素と「復元誤差」の関係並びに「復元誤差」と「重みw1」の関係をLUTや関数等で定義しておく。
そして、「復元ステップ」のときに、「学習ステップ」と「復元ステップ」の「距離、向き、代表値、分布広がり、分布形状」のうち少なくとも1つの類似度から、上記LUTや関数を用いて「重みw1」を求める。
「距離、向き、代表値、分布広がり、分布形状」のうち少なくとも1つの類似度から、「重みw1」を求める具体的な求め方について、以下例示する。
<学習ステップでの処理>
「距離、向き、代表値、分布広がり、分布形状」のうち少なくとも1つと「復元誤差」の関係を求めておく。例えば、「距離−復元誤差の特性」として求めておく。なお、頻度に比例した信頼確率付き特性としても良い。
<復元ステップでの処理>
図6で説明した「復元ステップ」において求めた「距離、向き、代表値、分布広がり、分布形状」から、最も近い「学習ステップ」時の「距離、向き、代表値、分布広がり、分布形状」を選択し、対応する「復元誤差」を得る。
次に、この選ばれた「復元誤差」をもとに、次式([数6])の関係より「重み」を求める。なお、ここでは「復元誤差」が小さいほど「重み」を大きくするものとする。
[数6]
重みw1=b0+b1×(復元誤差)
[数6]で示す線形関数に代えて、非線形関数を定義して重みを求めても良い。
(例B-共通-8):
上記「例B-共通-7」における個人差固有空間上の正解不正解セットの「距離、向き、代表値、分布広がり、分布形状」のうち少なくとも1つと「重み」との相関を規定する関数は、(正則化)最小2乗法、重回帰分析、SVM(回帰)、AdaBoost(回帰)、ノンパラメトリックベイズ、最尤推定法、EMアルゴリズム、変分ベイズ法、マルコフ連鎖モンテカルロ法等で、[数6]の係数b0、b1を求めても良い。
(例B-共通-9):
また、上記の各例(「例B-1-1」〜「例B-共通-8」)において、更に、処理対象のパッチ及びその周囲のパッチの重みに対して低域通過(平均)フィルタを掛けてもよい。この態様によれば、求められた重みを空間的に滑らかにする効果及びノイズを除去する効果がある。また、最大値、最小値、メジアンフィルタをかけても良い。
なお、上述した「例B-共通-1〜9」方法は、先に説明した係数ベクトル補正処理部140における重み付けにも適用できる。
上述のように、学習画像セットに対する入力画像の外れの程度(入力条件の外れの程度)に応じて、別方式の画像変換手段(ここでは、汎用超解像の手段)を活用する構成において、固有空間上での係数ベクトルの位置関係を利用する際、学習画像セットの代表値を利用すると、当該別方式の活用機能を有効に機能させることができるという効果がある。
(合成部)
図6の合成部166は、加算部160から与えられる画像(入力画像1)と、汎用超解像処理部164から与えられる画像(入力画像2)とを、重み算出部162で得られた以下の重みに応じて合成、又は選択をする。
[数7]
出力高解像画像=Σ(wi・Ii)=w1・I1+w2・I2
ただし、w1は加算部160の出力I1の重みw1を表し、w2は汎用超解像処理部164の出力I2の重みw2=1−w1を表す。
上記構成からなる画像処理システムによれば、低画質の入力画像から高画質の画像を得ることができる。また、入力条件に対する許容範囲が広く、ロバストな高画質化処理を実現することができる。
なお、汎用超解像処理部164に加えて、更に、別の手法による高画質化処理部を1つ又は複数設け、これらを選択的に使用したり、或いは、適宜の重み付けによって合成したりしてもよい。
その一方、入力画像の条件によっては、超解像の復元処理の信頼性が極めて低くなる場合もあり得るため、信頼性の低い破綻した画像を出力するよりはむしろ、元の入力画像の情報を活かした画像出力を行うことが望ましいケースも考えられる。したがって、汎用超解像処理部164に代えて、又はこれと併用して、入力画像を単純に拡大するなどの処理部を設け、当該拡大処理部により拡大された画像(超解像の復元処理を施さない画像)を合成部166に与えてもよい。
<実施形態の変形例1>
図12は、他の実施形態を示すブロックである。図12中、図6の構成と同一又は類似する要素には同一の符号を付し、その説明は省略する。
図12に示した形態は、学習ステップにおいて、第1のサブ核テンソル123及び第2のサブ核テンソル125を生成し、メモリ等の記憶手段に記憶保存しておく態様である。
LPP固有射影行列Uや射影核テンソルG(更にはこれから生成される第1のサブ核テンソル123及び第2のサブ核テンソル125)は、一度作成してこれを保存しておけば、その後の処理ではこれを繰り返し使用することができるため、学習画像セット毎にこれら行列及びテンソルをパラメータ化し、復元ステップにおける入力画像の内容に応じて、適切な射影行列とテンソルを適宜再設定する態様が好ましい。
例えば、日本人の顔の学習画像セットに基づいて生成された射影行列及びテンソルのセット、欧米人の顔の学習画像セットに基づいて生成された射影行列及びテンソルのセットなどのように、国別、地域別の射影変換セットをパラメータ化しておき、必要に応じて切り替えて使用する。
或いはまた、顔画像の超解像復元の処理に限らず、処理の用途別に、射影行列及びテンソルのセットを切り替えても良い。例えば、内視鏡画像用、車両画像用など、用途に応じて学習画像セットを替えて、LPP固有射影行列U及び射影核テンソルG(更にはこれから生成される第1のサブ核テンソル123及び第2のサブ核テンソル125)を生成し、その生成した射影行列及びテンソルを不揮発性メモリ、磁気ディスク、その他の記憶手段に保存、蓄積する。そして、用途に応じて、該当する射影行列及びテンソルを読み出して設定することにより、同じアルゴリズムで様々な画像処理が可能となる。
<実施形態の変形例2>
図6、図12では、学習ステップと復元ステップとを1つの画像処理装置で実施し得る構成を示したが、学習ステップを実施する画像処理装置と、復元ステップを実施する画像処理装置とを別々の装置構成とすることも可能である。この場合、復元ステップを担う画像処理装置は、別途作成されている射影関係の情報(固有射影行列、射影テンソル)を外部から取得できる構成とすることが望ましい。このような情報取得手段としては、光ディスクその他のリムーバフル記憶媒体に対応したメディアインターフェースや通信インターフェースを適用できる。
<実施形態の変形例3>
上記実施形態では、局所関係を利用する射影として、LPPを例示したが、LPPに代えて、局所線形埋込み(LLE;locally linear embedding)、線形接空間位置合せ(LTSA;linear tangent-space alignment)Isomap、ラプラス固有マップ(LE;Laplacian Eigenmaps)、近傍保存埋込み(NPE;Neighborhood Preserving Embedding)など、各種の多様体学習の手法を適用することも可能である。
また、本発明の代表学習画像群を得る技術は、局所関係を利用した射影に限らず、テンソル特異値分解(TSVD)などにも適用することができる。
<実施形態の変形例4>
図6で説明した実施形態では、説明を簡単にするために、表1で説明した4種類のモダリティに対して、パッチと解像度のモダリティを既知の要素として条件を設定し、「画素値」と「個人差」のモダリティに注目して、画素実空間から画素固有空間と個人差固有空間を経由した射影ルートを設計したが、本発明の実施に際して射影ルートの設計は本例に限定されない。モダリティバリエーションに応じて、射影ルートの中で経由する固有空間として様々な固有空間を選択することが可能である。
<実施形態の変形例5>
復元ステップに入力される変換元の画像は、図6や図12で説明した処理の手順に入る前段階で、ある画像の中から部分的に切り出された(抽出された)画像領域であってもよい。例えば、元となる画像内から人物の顔部分を抽出する処理が行われ、この抽出した顔画像領域について、復元ステップの入力画像データとして取り扱うことができる。
また、その抽出された領域を復元後の出力高解像画像で置き換え、元の画像内にはめ込む合成処理を行う処理手段を付加してもよい。このような場合、最終的な出力画像のサイズ(或いは、合成すべき背景の大きさ)に合わせて拡大倍率が調節される。
<他の応用例>
学習画像セットを以下のように変えることで様々な「対象」、「モダリティ」、「画像処理」に適用できるため、本発明の適用範囲は、上記の実施形態に限定するものではない。
「対象」となる画像は、顔の他に、頭部又は人物の手等の人体の一部の部位、或いは人体以外の生体の少なくとも一部の部位を含む領域でもよい。なお、生体とは、生体内部の血管等のように、生体の内部に存在する特定の組織を含むものとする。また、本発明の画像処理技術を内視鏡システムに適用する場合などには、生体内部の腫瘍組織も「生体」の概念に含めてよく、「対象」となり得る。
他にも、生体に限らず、貨幣、キャッシュカード等のカード、車輌、或いは車両のナンバープレート。複写機等のスキャナ機器によりスキャニングされたドキュメントの文字、図面、表、写真などを対象とすることも可能である。
「モダリティ」は、被写体の向き、大きさ、位置や照明条件などを含めることができる。その他、被写体の種別として、人種、年齢、性別。被写体像の属性としては、撮像された人物の表情、撮像された人物のしぐさ、撮像された人物の姿勢、撮像された人物が着用している着用物などを「モダリティ」として例示することができる。着用物としては、メガネ、サングラス、マスク、帽子などが含まれる。
本発明を適用できる「画像処理」は、超解像化の他に、折り返し成分を低減した縮小の処理、多色数化、多階調数化、ノイズ低減化、ブロックノイズ及びモスキートノイズなどのアーチファクトを低減するアーチファクト低減化、ボケ低減化、シャープネス化、高フレームレート化、広ダイナミックレンジ化、色階調補正、歪み収差補正、符号化などの射影処理を含む。例えば、ノイズ低減化の場合、ノイズ画像(「低画質画像」に相当)とノイズのない画像(「高画質画像」に相当)をペアとして射影関係を学習する。
また、本発明は、静止画に限らず、動画を構成するフレーム画像(又はフィールド画像)についても同様に適用できる。
<監視システムへの適用例>
図13は、本発明の実施形態に係る画像処理システム200の一例を示す。以下に説明する画像処理システム200は、一例として監視システムとして機能することができる。
画像処理システム200は、監視対象空間202を撮像する複数の撮像装置210a−dと、これら撮像装置210a−dにより撮像された撮像画像を処理する画像処理装置220、通信ネットワーク240、画像処理装置250、画像データベース(DB)255、及び複数の表示装置260a−eを備える。画像処理装置250は、監視対象空間202とは異なる空間205(例えば、監視対象空間202から遠く離れた場所)に設置することができ、表示装置260a−eについても監視対象空間202や画像処理装置250の設置空間205とは異なる空間206に設けることができる。
撮像装置210aは、撮像部212a及び撮像画像圧縮部214aを有している。撮像部212aは、監視対象空間202を連続して撮像することによって複数の撮像画像を撮像する。撮像部212aにより得られる撮像画像は、RAW形式の撮像画像であってよい。撮像画像圧縮部214aは、撮像部212aにより撮像されたRAW形式の撮像画像を同時化して、同時化して得られた複数の撮像画像を含む動画をMPEG符号化その他の符号化方式により圧縮して動画データを生成する。撮像装置210aは当該生成した動画データを画像処理装置220に出力する。
他の撮像装置210b、210c、210dもそれぞれ撮像装置210aと同様の構成を有し、各撮像装置210a−dにより生成された動画データは画像処理装置220に送られる。なお、以下の説明において、撮像装置210a−dを撮像装置210と総称する場合がある。同様に、表示装置260a−eを表示装置260と総称する場合があり、以後の説明においては、類似する構成要素に付した符号の末尾の英文字など、数字符号に続く文字を省略することで、数字符号が指し示すものを総称することがある。
画像処理装置220は、撮像装置210から取得した動画データを復号することにより、動画を取得する。画像処理装置220は、取得した動画に含まれる複数の撮像画像のそれぞれから、人物270が撮像された領域、車輌等の移動体280が撮像された領域等のように、特徴の種類が異なる複数の特徴領域を検出する。そして、画像処理装置220は、特徴の種類に応じた強度で特徴領域の画像を圧縮するとともに、特徴領域以外の領域の画像を、それぞれの特徴領域の画像を圧縮する圧縮強度より強い強度で圧縮する。
また、画像処理装置220は、撮像画像から検出された特徴領域を特定する情報を含む特徴領域情報を生成する。特徴領域情報は、特徴領域の位置、特徴領域の大きさ、特徴領域の数、特徴領域が検出された撮像画像を識別する識別情報等を含むテキストデータ、若しくは当該テキストデータに圧縮、暗号化等の処理が施されたデータであってよい。
画像処理装置220は、当該生成した特徴領域情報を圧縮動画データに付帯して、通信ネットワーク240を通じて画像処理装置250に送信する。
画像処理装置250は、特徴領域情報が対応付けられた圧縮動画データを画像処理装置220から受信する。画像処理装置250は、圧縮動画データに対応付けられている特徴領域情報に対応付けて、当該圧縮動画データを画像DB255に記憶させる。なお、画像DB255は、ハードディスク等の不揮発性の記憶媒体に圧縮動画データを記憶してよい。このように、画像DB255は、圧縮された撮像画像を記憶する。
また、画像処理装置250は、表示装置260からの要求に応じて、画像DB255から圧縮動画データ及び特徴領域情報を読み出し、当該読み出した圧縮動画データをこれに付帯する特徴領域情報を利用して伸張して表示用動画を生成して、通信ネットワーク240を通じて表示装置260に送信する。表示装置260は、画像の検索条件などを入力し得るユーザーインターフェースを具備し、画像処理装置250に対して各種の要求を送信できるとともに、画像処理装置250から受信した表示用動画を表示する。
また、上記の動画表示に代えて、又は、これと組み合わせて、画像処理装置250は、特徴領域情報が含む特徴領域の位置、特徴領域の大きさ、特徴領域の数等に基づいて、種々の検索条件を満たす撮像画像並びにその特徴領域を特定することも可能である。そして、画像処理装置250は、この特定した撮像画像を復号して、表示装置260に提供することにより、要求にかかる検索条件に合致した画像を表示装置260に表示させてもよい。
なお、画像処理装置250は、画像処理装置220から取得した圧縮動画データを、これに対応する特徴領域情報を利用して伸張して表示用動画を生成してから画像DB255に記憶させてもよい。また、このとき画像処理装置250は、特徴領域情報を対応付けて表示用動画を画像DB255に記憶させてもよい。かかる態様によれば、画像処理装置250は、表示装置260からの要求に応じて画像DB255から表示用動画(伸張済み)を読み出して、特徴領域情報とともに表示装置260に送信し得る。
また、画像処理装置250から伸張済みの表示用動画を表示装置260に提供する態様に代えて、表示装置260内で圧縮動画データを伸張処理して表示用画像を生成してもよい。すなわち、表示装置260は、画像処理装置250又は画像処理装置220から特徴領域情報及び圧縮動画データを受信してもよい。かかる態様において、表示装置260は、受信した圧縮動画データを復号して表示装置260に表示させる場合に、復号して得られた撮像画像における特徴領域を一旦単純拡大して表示装置260に表示させてよい。
更に、表示装置260は、表示装置260における処理容量に応じて各特徴領域の画質を決定して、決定した画質で特徴領域の画像を高画質化してもよい。表示装置260は、表示装置260が表示している撮像画像における特徴領域の画像を、高画質化した特徴領域の画像で差し替えて表示装置260に表示させてもよい。この差し替え表示を行う際の高画質化の処理手段として本発明のテンソル射影を利用した超解像の手段を利用することができる。つまり、表示装置260内に本発明を適用した画像処理装置を搭載することができる。
本例の画像処理システム200によると、特徴領域を示す情報を動画に対応付けて記憶しているので、動画における所定の条件に適合する撮像画像群を高速に検索、頭出しをすることができる。また、本例の画像処理システム200によると、所定の条件に適合する撮像画像群だけ復号することができるので、再生指示に即応して速やかに所定の条件に適合する部分動画を表示することができる。
なお、図13に示した記録媒体290は、画像処理装置220、画像処理装置250、表示装置260用のプログラムを記憶している。記録媒体290が記憶しているプログラムは、本実施形態に係る画像処理装置220、画像処理装置250、表示装置260としてそれぞれ機能するコンピュータなどの電子情報処理装置に提供される。当該コンピュータが有するCPUは、当該プログラムの内容に応じて動作して、当該コンピュータの各部を制御する。CPUが実行するプログラムは、図13及び以後の図面に関連して説明される画像処理装置220、画像処理装置250、表示装置260などとして当該コンピュータを機能させる。
記録媒体290としては、CD−ROMの他に、DVD又はPD等の光学記録媒体、MO又はMDなどの光磁気記録媒体、テープ媒体又はハードディスク装置などの磁気記録媒体、半導体メモリ、磁気メモリなどを例示することができる。また、専用通信ネットワーク或いはインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置が記録媒体290として機能することもできる。
以下、本例の画像処理システム200における画像処理装置220、250、表示装置260の構成例について更に詳細に説明する。
〔画像処理装置220の説明〕
図14は、画像処理装置220のブロック構成の一例を示す。画像処理装置220は、画像取得部222、特徴領域特定部226、外部情報取得部228、圧縮制御部230、圧縮部232、対応付け処理部234、及び出力部236を備える。画像取得部222は、圧縮動画取得部223及び圧縮動画伸張部224を有する。
圧縮動画取得部223は、撮像装置210(図13参照)が生成した、符号化された動画データを取得する。圧縮動画伸張部224は、圧縮動画取得部223が取得した動画データを伸張することにより、動画に含まれる複数の撮像画像を生成する。具体的には、圧縮動画伸張部224は、圧縮動画取得部223が取得した、符号化された動画データを復号して、動画に含まれる複数の撮像画像を抽出する。なお、動画に含まれる撮像画像は、フレーム画像であってよく、フィールド画像であってもよい。
圧縮動画伸張部224によって得られた複数の撮像画像は、特徴領域特定部226及び圧縮部232に供給される。特徴領域特定部226は、複数の撮像画像を含む動画から特徴領域を検出する。具体的には、特徴領域特定部226は、複数の撮像画像のそれぞれから特徴領域を検出する。
例えば、特徴領域特定部226は、動画において画像内容が変化する画像領域を、特徴領域として検出する。具体的には、特徴領域特定部226は、動くオブジェクトを含む画像領域を、特徴領域として検出してよい。特徴領域特定部226は、複数の撮像画像のそれぞれから、特徴の種類が異なる複数の特徴領域を検出し得る。
特徴の種類とは、人物と移動体等のように、オブジェクトの種類を指標として分類される種類であってよい。また、オブジェクトの種類は、オブジェクトの形状又はオブジェクトの色の一致度に基づいて決定されてよい。このように、特徴領域特定部226は、複数の撮像画像から、含まれるオブジェクトの種類が異なる複数の特徴領域を検出してよい。
(特徴領域検出方法の例1)
例えば、特徴領域特定部226は、予め定められた形状パターンに予め定められた一致度以上の一致度で一致するオブジェクトを複数の撮像画像のそれぞれから抽出して、抽出したオブジェクトを含む撮像画像における領域を、特徴の種類が同じ特徴領域として検出してよい。なお、形状パターンは、特徴の種類毎に複数定められてよい。また、形状パターンの一例としては、人物の顔の形状パターンを例示することができる。なお、複数の人物毎に異なる顔のパターンが定められてよい。これにより、特徴領域特定部226は、異なる人物をそれぞれ含む異なる領域を、異なる特徴領域として検出することができる。
特徴領域特定部226は、上記の人物の顔の他にも、人物の頭部又は人物の手等の人体の一部の部位、或いは人体以外の生体の少なくとも一部の部位を含む領域を、特徴領域として検出することができる。
画像処理システム200と同様の構成を内視鏡システムに応用した場合など、生体内部の画像を処理する場合には、生体内部の血管等のように、生体の内部に存在する特定の組織や生体内部の腫瘍組織を対象とすることもできる。生体以外にも、特徴領域特定部226は、貨幣、キャッシュカード等のカード、車輌、或いは車両のナンバープレートが撮像された領域を特徴領域として検出してよい。
(特徴領域検出方法の例2)
また、特徴領域特定部226は、テンプレートマッチング等によるパターンマッチングの他にも、例えば、特開2007−188419号公報に記載された機械学習(例えば、アダブースト)等による学習結果に基づいて、特徴領域を検出することもできる。例えば、予め定められた被写体の画像から抽出された画像特徴量と、予め定められた被写体以外の被写体の画像から抽出された画像特徴量とを用いて、予め定められた被写体の画像から抽出された画像特徴量の特徴を学習する。そして、特徴領域特定部226は、当該学習された特徴に適合する特徴を有する画像特徴量が抽出された領域を、特徴領域として検出してよい。
上述の例1、2に限らず、様々な方法によって特徴領域を検出することが可能であり、特徴領域特定部226は、適宜の方法により、複数の動画のそれぞれに含まれる複数の撮像画像から、複数の特徴領域を検出する。そして、特徴領域特定部226は、検出した特徴領域を示す情報を、圧縮制御部230に供給する。なお、特徴領域を示す情報には、特徴領域の位置を示す特徴領域の座標情報、特徴領域の種類を示す種類情報、及び特徴領域が検出された動画を識別する情報を含めることができる。
圧縮制御部230は、特徴領域特定部226から取得した特徴領域を示す情報に基づいて、圧縮部232による動画の圧縮処理を制御する。圧縮部232は、圧縮制御部230による制御により、撮像画像における特徴領域と撮像画像における特徴領域以外の領域とで異なる強度で撮像画像を圧縮する。例えば、圧縮部232は、動画に含まれる撮像画像における特徴領域以外の領域の解像度を、特徴領域より低減することにより、撮像画像を圧縮する。このように、圧縮部232は、撮像画像における各画像領域のそれぞれを、画像領域の重要度に応じた強度で圧縮する。
なお、特徴領域特定部226が複数の特徴領域を検出した場合、圧縮部232は、撮像画像における複数の特徴領域の画像を、それぞれ特徴領域の特徴の種類に応じた強度で圧縮してよい。例えば、圧縮部232は、撮像画像における複数の特徴領域の画像の解像度を、特徴領域の特徴の種類に応じて定められた解像度に低減してよい。
対応付け処理部234は、撮像画像から検出された特徴領域を特定する情報を、撮像画像に対応付ける。具体的には、対応付け処理部234は、撮像画像から検出された特徴領域を特定する情報を、撮像画像を動画構成画像として含む圧縮動画に対応付ける。そして、出力部236は、対応付け処理部234によって特徴領域を特定する情報が対応付けされた圧縮動画データを、画像処理装置250に出力する。
外部情報取得部228は、特徴領域特定部226が特徴領域を特定する処理に用いるデータを、画像処理装置220の外部から取得する。特徴領域特定部226は、外部情報取得部228が取得したデータを用いて特徴領域を特定する。外部情報取得部228が取得するデータについては、後述の図15に示したパラメータ格納部650との関連で説明する。
(特徴領域特定部226の構成例)
図15は、特徴領域特定部226のブロック構成の一例を示す。特徴領域特定部226は、第1特徴領域特定部610、第2特徴領域特定部620、領域推定部630、高画質化領域決定部640、パラメータ格納部650、及び画像生成部660を有する。第2特徴領域特定部620は、部分領域判断部622及び特徴領域判断部624を含む。
第1特徴領域特定部610は、画像取得部222から動画に含まれる動画構成画像である撮像画像を取得し、この取得した撮像画像から特徴領域を特定する。第1特徴領域特定部610は、既述の「特徴領域検出方法の例1,例2」で例示した検出方法を用いて特徴領域を検出することにより、撮像画像から特徴領域を特定してよい。
画像生成部660は、第1特徴領域特定部610により特徴領域(「第1特徴領域」に相当)として特定されない領域のうち、特徴領域として特定される可能性がより高い領域をより高画質化した高画質画像を、撮像画像から生成する。この画像生成部660における高画質画像を生成する手段として、本発明によるテンソル射影を利用した超解像の画像処理手段を利用することができる。
第2特徴領域特定部620は、画像生成部660で生成された高画質画像から特徴領域(「第2特徴領域」に相当)を探索する。第1特徴領域特定部610及び第2特徴領域特定部620が特定した特徴領域は、いずれも特徴領域特定部226が特定した特徴領域として圧縮制御部230に供給される。
なお、第2特徴領域特定部620は、画像生成部660から得た高画質画像を基に、第1特徴領域特定部610よりも一層詳細に特徴領域を探索してよい。例えば、第2特徴領域特定部620は、第1特徴領域特定部610で特徴領域を特定する検出精度よりも高精度に特徴領域を検出する検出器が実装されてよい。すなわち、第1特徴領域特定部610として実装する検出器の検出精度よりも高精度に検出することができる検出器を第2特徴領域特定部620として実装してよい。
また、別の形態として、第2特徴領域特定部620は、第1特徴領域特定部610に入力されるものと同じ入力画像(高画質化処理をしない画像)から、第1特徴領域特定部610よりも一層詳細に特徴領域を探索してもよい。
画像生成部660は、第1特徴領域特定部610により特徴領域として特定されない領域のうち、特徴領域として特定される可能性がより高い領域をより優先的に高画質化した高画質画像を、撮像画像から生成してよい。また、画像生成部660は、撮像画像に対する画像処理により、高画質画像を生成してよい。
画像生成部660は、第1特徴領域特定部610が特徴領域を特定した後に、第1特徴領域特定部610により特徴領域として特定されなかった領域のうち、特徴領域として特定される可能性がより高い領域をより高画質化した高画質画像を、撮像画像から生成してよい。このように、「第1特徴領域特定部610により特徴領域として特定されない領域」とは、第1特徴領域特定部610が特定した段階においては、第1特徴領域特定部610により特徴領域として特定されなかった領域であってよい。この場合、第2特徴領域特定部620により、特徴領域が再度探索されることになる。
他にも、「第1特徴領域特定部610による特徴領域として特定されない領域」とは、第1特徴領域特定部610が特定していない段階においては、第1特徴領域特定部610により特定されないことが予測される領域であってよい。例えば、第1特徴領域特定部610が予め定められた条件に適合する領域を特徴領域として検出する場合において、「第1特徴領域特定部610による特徴領域として特定されない領域」とは、当該条件に適合しない領域であってよい。画像生成部660は、第1特徴領域特定部610が特徴領域を特定していない段階で、高画質画像を生成してよい。
なお、本ブロック図(図15)では、第1特徴領域特定部610及び第2特徴領域特定部620は、異なる機能ブロックで示されているが、単一の機能要素で実装され得ることは当然である。例えば、第1特徴領域特定部610及び第2特徴領域特定部620は、特徴領域検出用の電気回路などのハードウェア要素、特徴領域検出用のソフトウェアなどのソフトウェア要素などを、少なくとも一部共有することができる。
上記において、画像生成部660が入力画像を高画質化した画像を生成する場合を例に挙げて説明したが、画像生成部660は、第1特徴領域特定部610が特徴領域を特定する特徴領域特定処理の対象とした画像より高画質な画像を生成して、第2特徴領域特定部620に提供してよい。例えば、第1特徴領域特定部610が、入力画像に所定の画像処理を施して特徴領域を特定する場合に、画像生成部660は、当該画像処理より得られる画像より高画質な画像を生成して、第2特徴領域特定部620に提供してよい。
画像生成部660が生成する高画質画像は、第1特徴領域特定部610が特徴領域特定処理に用いる画像より高画質な画像であればよく、入力画像より高画質な画像と入力画像より低画質な画像のいずれをも含む。このように、画像生成部660は、第1特徴領域特定部610により特徴領域として特定されない領域を、特徴領域として特定される可能性に応じた画質に変更した高画質画像を、入力画像から生成する。また、画像生成部660は、特徴領域として特定される可能性に応じた精度の画質の高画質画像を生成してよい。
領域推定部630は、撮像画像において特徴領域として特定されるべき領域を推定する。例えば、特徴領域特定部226が、動画において動くオブジェクトの領域を特徴領域として特定すべき場合に、領域推定部630は、動画において動くオブジェクトが存在する領域を推定する。例えば、領域推定部630は、同じ動画に含まれる動画構成画像としての他の1以上の撮像画像から抽出された動くオブジェクトの位置、他の撮像画像が撮像されたタイミングなどに基づき、動くオブジェクトが存在する位置を推定する。そして、領域推定部630は、推定した位置を含む所定の大きさの領域を、動画において動くオブジェクトが存在する領域として推定してよい。
この場合、第1特徴領域特定部610は、撮像画像における領域推定部630が推定した領域から、動くオブジェクトの領域を特徴領域として特定する。そして、画像生成部660は、領域推定部630が推定した領域のうち、第1特徴領域特定部610により動くオブジェクトの領域が特定されなかった領域をより高画質にした高画質画像を生成してよい。
これにより、動くオブジェクトが存在する可能性が高い領域から、動くオブジェクトが検出できなかった場合に、再探索により動くオブジェクトを抽出することができる可能性が高まる。このように、特徴領域特定部226において特徴領域の検出もれが生じる確率を低減することができる。
部分領域判断部622は、特定の画像領域において予め定められた位置に存在する1以上の部分領域の画像が、それぞれ予め定められた条件に適合するか否かを判断する。そして、特徴領域判断部624は、部分領域判断部622による判断結果に基づき、特定の画像領域が特徴領域であるか否かを判断する。例えば、特定の画像領域が特徴領域であるか否かを判断する場合に、部分領域判断部622は、特定の画像領域上の異なる複数の部分領域のそれぞれに対して、それぞれ予め定められた条件に適合するか否かを判断する。そして、特徴領域判断部624は、否の判断結果が得られた部分領域の数が予め定められた値より小さい場合に、特定の画像領域が特徴領域であると判断する。
特定の画像領域が特徴領域であるか否かを判断する場合に、第2特徴領域特定部620が、当該特定の画像領域において予め定められた位置に存在する1以上の部分領域に対して上述の処理により判断する場合に、画像生成部660は、当該特定の画像領域を高画質化した高画質画像を生成する場合において、当該1以上の部分領域を高画質化してよい。これにより、特徴領域検出処理に有効な領域だけ高画質化することができるので、特徴領域の再検出処理にかかる演算量を低減することができる。
高画質化領域決定部640は、画像生成部660が高画質化する領域を決定する。具体的には、高画質化領域決定部640は、画像生成部660が高画質化する領域を、当該領域が特徴領域として特定される可能性がより低い場合に、より広く決定する。画像生成部660は、高画質化領域決定部640が決定した領域をより高画質にした高画質画像を生成する。これにより、再探索により動くオブジェクトを抽出することができる可能性を高めることができ、特徴領域特定部226において特徴領域の検出もれが生じる確率を低減することができる。
パラメータ格納部650は、画像から抽出された特徴量に対応付けて、当該画像を高画質化すべく用いられる画像処理パラメータを格納する。そして、画像生成部660は、高画質化の対象領域から抽出された特徴量に適合する特徴量に対応付けてパラメータ格納部650が格納している画像処理パラメータを用いて、高画質化の対象領域を高画質化した高画質画像を生成する。パラメータ格納部650は、互いに類似する特徴量が抽出された複数の画像を教師画像として用いた学習により算出された画像処理パラメータを、当該類似する特徴量を代表する特徴量に対応付けて格納してよい。
なお、画像処理パラメータとしては、高画質化対象の画像データに加算すべきより高い周波数領域の空間周波数成分を有する画像データであってよい。他にも、画像処理パラメータとしては、複数画素の画素値のデータ又は複数の特徴量成分のデータを入力データとした場合に、高画質画像を表すデータに入力データを変換するベクトル、行列、テンソル、n次元混合正規分布、n次元混合多項分布等を例示することができる。なお、ここでのnは、1以上の整数であるとする。画像処理パラメータについては、画像処理装置250の動作に関連して後述する。
図13に示した外部情報取得部228は、パラメータ格納部650(図15に記載)が格納する画像処理パラメータ及び特徴量の少なくとも一方を、外部から取得する。パラメータ格納部650は、外部情報取得部228が取得した画像処理パラメータ及び特徴量の少なくとも一方を格納する。
図16は、特徴領域特定部226における特徴領域の特定処理の一例を示す。ここでは、撮像画像700における特徴領域を特定する処理を説明する。
第1特徴領域特定部610(図15参照)は、図16のように撮像画像700の複数の画像領域に対して、予め定められた条件への適合度を算出する。そして、第1特徴領域特定部610は、撮像画像において予め定められた条件への適合度が第1閾値より大きい領域710−1及び領域710−2を、特徴領域として特定する。
また、高画質化領域決定部640(図15参照)は、撮像画像において予め定められた条件への適合度が第1閾値以下である第2閾値より大きい、領域710−3及び領域710−4を選択する(図16参照)。そして、高画質化領域決定部640は、領域710−3を含み、上記条件に対する領域710−3の画像の適合度に応じた大きさの領域710−5を、画像生成部660による高画質化の対象領域として決定する。また、高画質化領域決定部640は、領域710−4を含み、上記条件に対する領域710−4の画像の適合度に応じた大きさの領域710−6を、画像生成部660による高画質化の対象領域として決定する。
図16の例では、領域710−3よりも領域710−4に対して小さい適合度が算出されているとして、高画質化領域決定部640は、領域710−4をより大きい拡大率で拡大した領域710−6を、画像生成部660(図15参照)による高画質化の対象領域として決定する。このように、高画質化領域決定部640は、条件への適合度が予め定められた第2閾値より大きい領域を適合度に応じた拡大率で拡大して得られた領域を、画像生成部660による高画質化の対象領域として決定する。
そして、第2特徴領域特定部620(図15参照)は、高画質化された領域710−5及び領域710−6の画像から、特徴領域を探索する(図16参照)。第2特徴領域特定部620は、第1特徴領域特定部610と同様の処理により、高画質化された領域710−5及び領域710−6の画像から、上記条件に適合する領域を探索してよい。ここで、第2特徴領域特定部620が、高画質化された領域710−5の画像720において、領域722が上記条件に適合すると判断したとする。この場合、特徴領域特定部226は、第1特徴領域特定部610が特定した領域710−1及び領域710−2に加えて、画像720上の領域722に対応する領域710−7を、特徴領域として特定する。
このように、画像生成部660(図15参照)は、第1特徴領域特定部610により特徴領域として特定されない領域のうち、所定の条件への適合度がより大きい領域をより高画質にした高画質画像を、撮像画像から生成する。具体的には、画像生成部660は、第1特徴領域特定部610により特徴領域として特定されない領域のうち、上記条件への適合度が予め定められた第2閾値より大きい領域をより高画質にした高画質画像を生成する。これにより、特徴領域である可能性が高い領域から、特徴領域が抽出される可能性を高めることができ、特徴領域の検出もれが生じる確率を低減することができる。
以上説明したように、第1特徴領域特定部610により特徴領域として特定された領域及び高画質化の対象領域を除く領域は、特徴領域ではない非特徴領域と決定される。なお、第1特徴領域特定部610及び第2特徴領域特定部620による特徴領域の特定結果、事前の試験結果、又は事後の試験結果などに基づき、特徴領域ではない領域が特徴領域として特定される確率が予め定められた値より大きくなるよう第1閾値の値を設定してよい。これにより、第1特徴領域特定部610が特徴領域として特定した領域に、非特徴領域が含まれる可能性を低減することができる。非特徴領域についても第1閾値に近い適合度が算出される場合があるが、上記のように第1閾値を設定することにより、このような領域が特徴領域として誤検出されてしまう可能性を低減することができる。
また、第1特徴領域特定部610及び第2特徴領域特定部620による特徴領域の特定結果、事前の試験結果、又は事後の試験結果などに基づき、特徴領域から算出された適合度が第2閾値以上になるよう第2閾値の値を設定してよい。これにより、第2閾値以下の適合度が算出された領域に、特徴領域が含まれる可能性を低減することができる。特徴領域についても第2閾値に近い適合度が算出される場合があるが、上記のように第2閾値を設定することにより、このような領域が非特徴領域とされてしまう可能性を低減することができる。
一方、第1閾値及び第2閾値の設定により、第2閾値より大きく第1閾値以下の適合度が算出された領域に、特徴領域が含まれる可能性がある。特徴領域特定部226によると、このような領域については、高画質化されてから第2特徴領域特定部620により特徴領域が探索されるので、特徴領域と非特徴領域とを適切に切り分けることができ、特徴領域を検出し損ねてしまう確率及び非特徴領域を特徴領域として検出してしまう確率のいずれをも低減することができる。このように、特徴領域特定部226によると、感度及び特異度がともに高い特徴領域検出器を提供することができる。
なお、画像生成部660は、上記のように適合度と閾値との関係で高画質化処理の有無を決定することの他に、入力画像の少なくとも一部の画像領域を、上記条件への適合度に応じた高画質化精度で高画質化した高画質画像を生成してよい。この場合、高画質化精度は、適合度に応じた連続関数又は不連続関数で定められてよい。
図17は、特徴領域特定部226における特徴領域の特定処理の他の一例を示す。ここでは特に、動画から動くオブジェクトの領域を特徴領域として特定する場合の特徴領域特定部226の処理の一例を示す。
第1特徴領域特定部610又は第2特徴領域特定部620(図15参照)により、図17のように、撮像画像800−1及び撮像画像800−2において、それぞれ領域810−1及び領域810−2が特徴領域として特定されているものとする。ここで、領域810−1及び領域810−2には、同じ被写体が撮像されたオブジェクトが存在しているとする。
この場合、領域推定部630(図15参照)は、領域810−1及び領域810−2のそれぞれの画像上の位置、撮像画像800−1及び撮像画像800−2のそれぞれが撮像されたタイミング、並びに、撮像画像800−3が撮像されたタイミングに基づき、撮像画像800−3において、同じ被写体のオブジェクトが存在すべき領域として、領域810−3を決定する(図17)。例えば、領域推定部630は、領域810−1及び領域810−2のそれぞれの画像上の位置、撮像画像800−1及び撮像画像800−2のそれぞれが撮像されたタイミングから動くオブジェクトの画像領域上の速度を算出して、算出した速度、領域810−2の位置、及び撮像画像800−2が撮像されたタイミングと撮像画像800−3が撮像されたタイミングとの間の時間差に基づき、同じ被写体のオブジェクトが存在すべき領域として領域810−3を決定する。
第1特徴領域特定部610(図15参照)は、領域810−3から、動くオブジェクトを探索する(図17)。第1特徴領域特定部610により領域810−3から動くオブジェクトが検出されなかった場合に、画像生成部660は領域810−3を高画質化した高画質画像820−4を生成する(図17)。そして、第2特徴領域特定部620は、高画質画像820−4から動くオブジェクトを探索する。これにより、動くオブジェクトが検出される可能性が高い領域から当該オブジェクトを抽出される可能性を高めることができ、動くオブジェクトの検出もれが生じる確率を低減することができる。
なお、画像生成部660(図15参照)は、領域810−3内のより中央の領域をより高画質化した高画質画像820−4を生成してもよい。これにより、動くオブジェクトが存在する確率の低い領域については高画質化の強度を低くすることができる。このため、全体を高強度で一様に高画質化する場合に比べて、高画質化にかかる演算量を低減することができる場合がある。
図18は、図15に記載した第2特徴領域特定部620による特徴領域の判断処理の一例を示す。第2特徴領域特定部620は、特定の画像領域900が特徴領域であるか否かを判断するにあたり、画像領域900内の所定の位置関係にある部分領域910−1〜4から、特徴量を抽出する。このとき、第2特徴領域特定部620は、部分領域910のそれぞれから、画像領域900内における部分領域910のそれぞれの位置に応じて予め定められた種類の特徴量を抽出する。
第2特徴領域特定部620は、予め定められた条件に対する部分領域910の画像から抽出された特徴量の適合度を、部分領域910毎に算出する。第2特徴領域特定部620は、部分領域910毎に算出した適合度に基づき、画像領域900が特徴領域であるか否かを判断する。第2特徴領域特定部620は、適合度の重み付き合計値が予め定められた値より大きい場合に、画像領域900が特徴領域であると判断してよい。また、第2特徴領域特定部620は、予め定められた値より大きい適合度が算出された部分領域910の数が予め定められた値より大きい場合に、画像領域900が特徴領域であると判断してもよい。
上述した特徴量の抽出から適合度算出までの処理は、画像フィルタにより実装され得る。また、当該処理は、弱識別器として実装され得る。また、部分領域910の位置は、特徴領域として抽出すべきオブジェクトの種類に応じて定められてよい。例えば、人物の顔のオブジェクトを含む領域を特徴領域として検出すべき場合には、部分領域910は、人物の顔のオブジェクトに対して判別力が予め定められた値より高くなる位置に定められてよい。判別力が高いとは、人物の顔のオブジェクトに対しては判別結果が真となる確率が高く、人物の顔以外のオブジェクトに対しては判別結果が偽となる確率が高いことを意味してよい。
ここで、画像生成部660(図15参照)は、部分領域910以外の領域を高画質化せず、部分領域910だけを高画質化する。そして、上述したように、第2特徴領域特定部620は、高画質化された画像から特徴領域を抽出して、画像領域900が特徴領域であるか否かを判断する。これにより、高画質化する画像領域を限定しつつ特徴領域の検出確率を高めることができ、ひいては高速かつ高確率で特徴領域を検出することができる。なお、上記の説明では、第2特徴領域特定部620おける特徴領域の判断処理について説明したが、第1特徴領域特定部610も同じ処理により特徴領域であるか否かを判断してよい。
第1特徴領域特定部610及び第2特徴領域特定部620における処理は、複数の弱識別器により実装することができる。全N個の弱識別器を用いて実装する場合を例に挙げて以下に説明する。第1特徴領域特定部610においては、Nf個の弱識別器を用いて、特徴領域であるか否かが判別される。適合度は判別結果に基づき算出され、上述したように、適合度が第1閾値より大きい領域は特徴領域として決定され、適合度が第2閾値以下である領域は非特徴領域として決定される。
適合度が第1閾値以下であり第2閾値より大きい領域は、画像生成部660により高画質化される。第2特徴領域特定部620においては、高画質化された画像は、第1特徴領域特定部610が用いたNf個の弱識別器と、当該Nf個の弱識別器以外のNb個の弱識別器とを用いて、特徴領域であるか否かが判別される。例えば、Nf+Nb個の弱識別器の各判別結果から算出された適合度に基づき、特徴領域であるか否かが判別されてよい。
第1特徴領域特定部610により特徴領域として特定されなかった領域のうち、第1閾値より小さく第2閾値より大きい第3閾値と適合度との比較結果に応じて定まる複数の領域を、互い異なる処理で特徴領域が特定されてよい。例えば、第3閾値より大きい適合度が算出された領域については画像生成部660により高画質化せずに、第2特徴領域特定部620においてNf+Nb個の弱識別器により特徴領域であるか否かが判別されてよい。一方、第3閾値以下の適合度が算出された領域については画像生成部660により高画質化され、第2特徴領域特定部620においてNf+Nb個の弱識別器により特徴領域であるか否かが判別されてよい。
第2特徴領域特定部620の処理において用いられる弱識別器の数Nbは、適合度に応じて調整されてよい。例えば、適合度が小さいほど、第2特徴領域特定部620においてより多くの弱識別器を用いて特徴領域であるか否かが判別されてよい。
以上説明したように、第2特徴領域特定部620は、適合度が低いほどより詳細に画質変更画像から特徴領域を探索してよい。上記第1特徴領域特定部610及び第2特徴領域特定部620の少なくとも一方における弱識別器構成としては、アダブーストによる弱識別器構成を例示することができる。
第1特徴領域特定部610及び第2特徴領域特定部620は、それぞれ多重解像度表現により構成された低解像度画像群から特徴領域を検出してもよい。この場合に、画像生成部660は、第1特徴領域特定部610における多重解像度化より高精度に多重解像度化することにより低解像度画像群を生成してよい。第1特徴領域特定部610における多重解像度化処理としては、バイキュービック法による縮小処理を例示することができる。
また、第2特徴領域特定部620における多重解像度化処理としては、事前学習に基づく縮小処理を例示することができる。第2特徴領域特定部620は、原寸の画像と目標解像度の画像とを用いた学習により得られた画像処理パラメータを用いて、入力画像から低解像度画像群を生成してよい。なお、学習には、折り返し雑音がより小さい目標解像度の画像を用いることがより好ましい。例えば、異なる数の撮像素子を有する異なる撮像装置により得られた画像を学習に用いることができる。
図15から図18に関連して説明した高画質化処理として、本発明によるテンソル射影を用いた画像処理方法を適用できる。すなわち、画像生成部660は、特徴領域として特定される可能性がより高い領域をより高画質化した高画質画像を生成するにあたり、図1〜図12で例示した本発明による高画質化の画像処理技術を用いてよい。
高画質化処理は、高解像度化の処理に限らず、階調数を増加する多階調数化処理、色数を増加する多色数化処理を例示することができ、これらの処理には本発明によるテンソル射影を用いた画像処理方法を適用できる。
なお、高画質化の対象となる撮像画像が動画の動画構成画像(フレーム画像やフィールド画像)である場合、高解像度化、多色数化、多階調数化、ノイズ低減化、ブロックノイズ及びモスキートノイズなどのアーチファクトを低減するアーチファクト低減化、ボケ低減化、シャープネス化、高フレームレート化などの高画質化処理においては、他の撮像画像の画素値を用いて高画質化してもよい。例えば、撮像タイミングの違いによる動体の撮像位置のずれを利用することにより高画質化してもよい。すなわち、画像生成部660は、動画に含まれる動画構成画像である撮像画像及び当該動画に含まれる他の動画構成画像を用いて、高画質画像を生成してよい。
ノイズ低減化処理としては、複数の動画構成画像を用いた処理の他、特開2008−167949号公報、特開2008−167950号公報、特開2008−167948号公報、及び特開2008−229161号公報に記載された処理を例示することができる。例えば、画像生成部660は、ノイズ量がより多い画像とノイズ量のより少ない画像とを用いた事前学習の結果を用いて、ノイズを低減することができる。本実施形態のように可視光で撮像された画像のノイズ量を低減する場合には、特開2008−167949号公報に記載されたように少線量で撮像した画像を事前学習に用いることに代えて、より少ない光量の環境光下で撮像した画像を事前学習に用いることができる。また、シャープネス化処理において、より高精度なシャープネス化処理としては、より大きいフィルタサイズのフィルタを用いた処理、より多くの方向にシャープネス化する処理を例示することができる。
(圧縮部232の構成例)
図19は、図14に記載した圧縮部232のブロック構成の一例を示す。圧縮部232は、画像分割部242、複数の固定値化部244a−c(以下、固定値化部244と総称する場合がある。)、及び複数の圧縮処理部246a−d(以下、圧縮処理部246と総称する場合がある。)を有する。
画像分割部242は、画像取得部222から複数の撮像画像を取得する。そして、画像分割部242は、複数の撮像画像のそれぞれを、特徴領域と、特徴領域以外の背景領域とに分割する。具体的には、画像分割部242は、複数の撮像画像を、複数の特徴領域のそれぞれと、特徴領域以外の背景領域とに分割する。そして、圧縮処理部246は、特徴領域の画像である特徴領域画像と背景領域の画像である背景領域画像とを、それぞれ異なる強度で圧縮する。具体的には、圧縮処理部246は、特徴領域画像を複数含む特徴領域動画と背景領域画像を複数含む背景領域動画とを、それぞれ異なる強度で圧縮する。
より具体的には、画像分割部242は、複数の撮像画像を分割することにより、複数の特徴の種類毎に特徴領域動画を生成する。そして、固定値化部244は、特徴の種類毎に生成された複数の特徴領域動画に含まれる特徴領域画像のそれぞれについて、それぞれの特徴の種類の特徴領域以外の領域の画素値を固定値化する。
具体的には、固定値化部244は、特徴領域以外の領域の画素値を予め定められた画素値にする。そして、圧縮処理部246a−cは、特徴の種類毎に、複数の特徴領域動画をMPEGその他の符号化形式により圧縮する。
固定値化部244a−cは、それぞれ第1の特徴の種類の特徴領域動画、第2の特徴の種類の特徴領域動画、及び第3の特徴の種類の特徴領域動画を固定値化する。そして、圧縮処理部246a−cは、それぞれ固定値化部244a−cにより固定値化した第1の特徴の種類の特徴領域動画、第2の特徴の種類の特徴領域動画、及び第3の特徴の種類の特徴領域動画を圧縮する。
なお、圧縮処理部246a−cは、特徴の種類に応じて予め定められた強度で特徴領域動画を圧縮する。例えば、圧縮処理部246は、特徴領域の特徴の種類に応じて予め定められた異なる解像度の動画に特徴領域動画を変換して、変換した特徴領域動画を圧縮してよい。他にも、圧縮処理部246は、MPEG符号化により特徴領域動画を圧縮する場合に、特徴の種類に応じて予め定められた異なる量子化パラメータで特徴領域動画を圧縮してよい。
また、圧縮処理部246dは、背景領域動画を圧縮する。この圧縮処理部246dは、圧縮処理部246a−cのいずれによる圧縮強度より高い強度で、背景領域動画を圧縮してよい。圧縮処理部246によって圧縮された特徴領域動画及び背景領域動画は、対応付け処理部234(図14参照)に供給される。
図19で説明したように、特徴領域以外の領域は固定値化部244によって固定値化さるので、圧縮処理部246がMPEG符号化等によって予測符号化する場合に、特徴領域以外の領域において予測画像との間の画像の差分量を著しく低減することができる。このため、圧縮部232は、特徴領域動画をより高い圧縮率で圧縮することができる。
なお、図19の構成では、圧縮部232が有する複数の圧縮処理部246のそれぞれが複数の特徴領域の画像及び背景領域の画像をそれぞれ圧縮したが、他の形態では、圧縮部232は一の圧縮処理部246を有してよく、一の圧縮処理部246が、複数の特徴領域の画像及び背景領域の画像をそれぞれ異なる強度で圧縮してよい。例えば、複数の特徴領域の画像及び背景領域の画像が一の圧縮処理部246に時分割で順次供給され、一の圧縮処理部246が、複数の特徴領域の画像及び背景領域の画像をそれぞれ異なる強度で順次圧縮してよい。
他にも、一の圧縮処理部246は、複数の特徴領域の画像情報及び背景領域の画像情報を異なる量子化係数でそれぞれ量子化することによって、複数の特徴領域の画像及び背景領域の画像をそれぞれ異なる強度で圧縮してよい。また、複数の特徴領域の画像及び背景領域の画像がそれぞれ異なる画質の画像に変換された画像が一の圧縮処理部246に供給され、一の圧縮処理部246が、複数の特徴領域の画像及び背景領域の画像をそれぞれ圧縮してよい。また、上記のように一の圧縮処理部246が領域毎に異なる量子化係数で量子化したり、領域毎に異なる画質に変換された画像を一の圧縮処理部246が圧縮する形態では、一の圧縮処理部246は、一の画像の全体を圧縮してもよく、本図で説明したように画像分割部242によって分割された画像をそれぞれ圧縮してもよい。なお、一の圧縮処理部246が一の画像の全体を圧縮する場合には、画像分割部242による分割処理及び固定値化部244による固定値化処理はなされなくてよいので、圧縮部232は、画像分割部242及び固定値化部244を有しなくてよい。
(圧縮部232の構成例2)
図20は、図14に記載した圧縮部232のブロック構成の他の一例を示す。本構成における圧縮部232は、特徴の種類に応じた空間スケーラブルな符号化処理によって複数の撮像画像を圧縮する。
図20に示す圧縮部232は、画質変換部510、差分処理部520、及び符号化部530を有する。差分処理部520は、複数の階層間差分処理部522a−d(以下、階層間差分処理部522と総称する。)を含む。符号化部530は、複数の符号器532a−d(以下、符号器532と総称する。)を含む。
画質変換部510は、画像取得部222から複数の撮像画像を取得する。また、画質変換部510は、特徴領域特定部226が検出した特徴領域を特定する情報及び特徴領域の特徴の種類を特定する情報を取得する。そして、画質変換部510は、撮像画像を複製することにより、特徴領域の特徴の種類の数の撮像画像を生成する。そして、画質変換部510は、生成した撮像画像を、特徴の種類に応じた解像度の画像に変換する。
例えば、画質変換部510は、背景領域に応じた解像度に変換された撮像画像(以後、低解像度画像と呼ぶ。)、第1の特徴の種類に応じた第1解像度に変換された撮像画像(以後、第1解像度画像と呼ぶ。)、第2の特徴の種類に応じた第2解像度に変換された撮像画像(以後、第2解像度画像と呼ぶ。)、及び第3の特徴の種類に応じた第3解像度に変換された撮像画像(以後、第3解像度画像と呼ぶ。)を生成する。なお、ここでは、第1解像度画像は低解像度画像より解像度が高く、第2解像度画像は第1解像度画像より解像度が高く、第3解像度画像は第2解像度画像より解像度が高いとする。
そして、画質変換部510は、低解像度画像、第1解像度画像、第2解像度画像、及び第3解像度画像を、それぞれ階層間差分処理部522d、階層間差分処理部522a、階層間差分処理部522b、及び階層間差分処理部522cに供給する。なお、画質変換部510は、複数の撮像画像のそれぞれについて上記の画質変換処理することにより、階層間差分処理部522のそれぞれに動画を供給する。
なお、画質変換部510は、特徴領域の特徴の種類に応じて、階層間差分処理部522のそれぞれに供給する動画のフレームレートを変換してよい。例えば、画質変換部510は、階層間差分処理部522aに供給する動画より低いフレームレートの動画を階層間差分処理部522dに供給してよい。また、画質変換部510は、階層間差分処理部522bに供給する動画より低いフレームレートの動画を階層間差分処理部522aに供給してよく、階層間差分処理部522cに供給する動画より低いフレームレートの動画を階層間差分処理部522bに供給してよい。なお、画質変換部510は、特徴領域の特徴の種類に応じて撮像画像を間引くことによって、階層間差分処理部522に供給する動画のフレームレートを変換してよい。
階層間差分処理部522d及び符号器532dは、複数の低解像度画像を含む背景領域動画を予測符号化する。具体的には、階層間差分処理部522は、他の低解像度画像から生成された予測画像との差分画像を生成する。そして、符号器532dは、差分画像を空間周波数成分に変換して得られた変換係数を量子化して、量子化された変換係数をエントロピー符号化等により符号化する。なお、このような予測符号化処理は、低解像度画像の部分領域毎に行われてよい。
また、階層間差分処理部522aは、画質変換部510から供給された複数の第1解像度画像を含む第1特徴領域動画を予測符号化する。同様に、階層間差分処理部522b及び階層間差分処理部522cは、それぞれ複数の第2解像度画像を含む第2特徴領域動画及び複数の第3解像度画像を含む第3特徴領域動画を予測符号化する。以下に、階層間差分処理部522a及び符号器532aの具体的な動作について説明する。
階層間差分処理部522aは、符号器532dによる符号化後の第1解像度画像を復号して、復号した画像を第1解像度と同じ解像度の画像に拡大する。そして、階層間差分処理部522aは、拡大した画像と低解像度画像との間の差分画像を生成する。このとき、階層間差分処理部522aは、背景領域における差分値を0にする。そして、符号器532aは、差分画像を符号器532dと同様に符号化する。なお、階層間差分処理部522a及び符号器532aによる符号化処理は、第1解像度画像の部分領域毎に施されてよい。
階層間差分処理部522aは、第1解像度画像を符号化する場合に、低解像度画像との間の差分画像を符号化した場合に予測される符号量と、他の第1解像度画像から生成された予測画像との間の差分画像を符号化した場合に予測される符号量とを比較する。後者の符号量の方が小さい場合には、階層間差分処理部522aは、他の第1解像度画像から生成された予測画像との間の差分画像を生成する。なお、階層間差分処理部522aは、低解像度画像又は予測画像との差分をとらずに符号化した方が符号量が小さくなることが予測される場合には、低解像度画像又は予測画像との間で差分をとらなくてもよい。
また、階層間差分処理部522aは、背景領域における差分値を0にしなくてもよい。この場合、符号器532aは、特徴領域以外の領域における差分情報に対する符号化後のデータを0にしてもよい。例えば、符号器532aは、周波数成分に変換した後の変換係数を0にしてよい。なお、階層間差分処理部522dが予測符号化した場合の動きベクトル情報は、階層間差分処理部522aに供給される。階層間差分処理部522aは、階層間差分処理部522dから供給された動きベクトル情報を用いて、予測画像用の動きベクトルを算出してよい。
階層間差分処理部522b及び符号器532bの動作は、第2解像度画像を符号化するという点、及び第2解像度画像を符号化する場合に、符号器532aによる符号化後の第1解像度画像との差分をとる場合があるという点を除いて、階層間差分処理部522b及び符号器532bの動作は階層間差分処理部522a及び符号器532aの動作と略同一であるので、説明を省略する。同様に、階層間差分処理部522c及び符号器532cの動作は、第3解像度画像を符号化するという点、及び第3解像度画像を符号化する場合に、符号器532bによる符号化後の第2解像度画像との差分をとる場合があるという点を除いて、階層間差分処理部522a及び符号器532aの動作と略同一であるので、説明を省略する。
以上説明したように、画質変換部510は、複数の撮像画像のそれぞれから、画質を低画質にした低画質画像、及び少なくとも特徴領域において低画質画像より高画質な特徴領域画像を生成する。そして、差分処理部520は、特徴領域画像における特徴領域の画像と、低画質画像における特徴領域の画像との間の差分画像を示す特徴領域差分画像を生成する。そして、符号化部530は、特徴領域差分画像及び低画質画像をそれぞれ符号化する。
また、画質変換部510は、複数の撮像画像から解像度が低減された低画質画像を生成して、差分処理部520は、特徴領域画像における特徴領域の画像と、低画質画像における特徴領域の画像を拡大した画像との間の特徴領域差分画像を生成する。また、差分処理部520は、特徴領域において特徴領域画像と拡大した画像との間の差分が空間周波数領域に変換された空間周波数成分を持ち、特徴領域以外の領域において空間周波数成分のデータ量が低減された特徴領域差分画像を生成する。
以上説明したように、圧縮部232は、解像度が異なる複数の階層間の画像の差分を符号化することによって階層的に符号化する。このことからも明らかなように、本構成の圧縮部232による圧縮方式の一部は、H.264/SVCによる圧縮方式を含むことが明らかである。なお、画像処理装置250がこのような階層化された圧縮動画を伸張する場合には、各階層の動画データを復号して、階層間差分により符号化されている領域については、差分がとられた階層で復号された撮像画像との加算処理により、元の解像度の撮像画像を生成することができる。
〔画像処理装置250の説明〕
図21は、図13に示した画像処理装置250のブロック構成の一例を示す。図21に示すように、画像処理装置250は、圧縮画像取得部301、対応付け解析部302、伸張制御部310、伸張部320、外部情報取得部380、及び画像処理部330を備える。伸張部320は、複数の復号器322a−d(以下、復号器322と総称する。)を有する。
圧縮画像取得部301は、画像処理装置250により圧縮された圧縮動画を取得する。具体的には、圧縮画像取得部301は、複数の特徴領域動画及び背景領域動画を含む圧縮動画を取得する。より具体的には、圧縮画像取得部301は、特徴領域情報が付帯された圧縮動画を取得する。
対応付け解析部302は、圧縮動画を、複数の特徴領域動画及び背景領域動画と特徴領域情報とに分離して、複数の特徴領域動画及び背景領域動画を伸張部320に供給する。また、対応付け解析部302は、特徴領域情報を解析して、特徴領域の位置及び特徴の種類を伸張制御部310及び画像処理部330に供給する。
伸張制御部310は、対応付け解析部302から取得した特徴領域の位置及び特徴の種類に応じて、伸張部320による伸張処理を制御する。例えば、伸張制御部310は、特徴領域の位置及び特徴の種類に応じて圧縮部232が動画の各領域を圧縮した圧縮方式に応じて、伸張部320に圧縮動画が示す動画の各領域を伸張させる。
復号器322は、符号化された複数の特徴領域動画及び背景領域動画のいずれかを復号する。具体的には、復号器322a、復号器322b、復号器322c、及び復号器322dは、それぞれ第1特徴領域動画、第2特徴領域動画、第3特徴領域動画、及び背景領域動画を復号する。
画像処理部330は、伸張部320によって伸張された複数の特徴領域動画及び背景領域動画を合成して、一の動画を生成する。具体的には、画像処理部330は、背景領域動画に含まれる撮像画像に、複数の特徴領域動画に含まれる撮像画像上の特徴領域の画像を合成することによって、一の表示動画を生成する。なお、画像処理部330は、特徴領域を背景領域より高画質化した表示動画を生成してもよい。この高画質化の変換処理について、本発明のテンソル射影を利用した超解像の画像処理手段を利用できる。
そして、画像処理部330は、対応付け解析部302から取得した特徴領域情報及び表示動画を表示装置260又は画像DB255に出力する(図13参照)。画像DB255は、特徴領域情報が示す特徴領域の位置、特徴領域の特徴の種類、特徴領域の数を、表示動画に含まれる撮像画像を識別する情報に対応付けて、ハードディスク等の不揮発性の記録媒体に記録してよい。
外部情報取得部380は、画像処理部330における画像処理に用いるデータを、画像処理装置250の外部から取得する。画像処理部330は、外部情報取得部380が取得したデータを用いて画像処理する。外部情報取得部380が取得するデータについては、図22に関連して説明する。
(画像処理部330の構成例)
図22は、図21で説明した画像処理装置250が有する画像処理部330のブロック構成の一例を示す。図22に示すように、画像処理部330は、パラメータ格納部1010、属性特定部1020、特定オブジェクト領域検出部1030、パラメータ選択部1040、重み決定部1050、パラメータ生成部1060、及び画像生成部1070を含む。
パラメータ格納部1010は、被写体像についての複数の属性にそれぞれ対応付けて、それぞれの属性の被写体像をそれぞれ高画質化する複数の画像処理パラメータを格納している。属性特定部1020は、入力画像に含まれる被写体像の属性を特定する。ここでいう入力画像とは、伸張部320により得られたフレーム画像であってよい。パラメータ選択部1040は、属性特定部1020により特定された属性により適合する属性に対応付けてパラメータ格納部1010が格納している複数の画像処理パラメータをより優先して選択する。画像生成部1070は、パラメータ選択部1040により選択された複数の画像処理パラメータをともに用いて、入力画像に含まれる被写体像を高画質化した高画質画像を生成する。この高画質化の変換処理について、本発明のテンソル射影を利用した超解像の画像処理手段が利用される。
ここで、属性としては、被写体の向きなど、被写体の状態を例示することができる。すなわち、パラメータ格納部1010は、被写体像として撮像された被写体の状態を示す複数の属性にそれぞれ対応付けて、複数の画像処理パラメータを格納している。属性特定部1020は、入力画像に含まれる被写体像として撮像された被写体の状態を、当該被写体像から特定する。
被写体の状態としては、撮像されたときの被写体の向きを例示することができる。被写体の向きとは、例えば、被写体の一例としての人物の顔の向きであってよい。この場合、パラメータ格納部1010は、被写体像として撮像された被写体の向きを示す複数の属性にそれぞれ対応付けて、複数の画像処理パラメータを格納している。属性特定部1020は、入力画像に含まれる被写体像として撮像された被写体の向きを、当該被写体像から特定する。
その他、属性とは、被写体の種別であってもよい。被写体の種別としては、例えば、被写体としての人物の性別、人物の年齢、撮像された人物の表情、撮像された人物のしぐさ、撮像された人物の姿勢、撮像された人物の人種、撮像された人物が着用している着用物(メガネ、サングラス、マスク、帽子など)、照明状態などを例示することができる。パラメータ格納部1010は、これら各種の属性の少なくともいずれかを含む複数の属性にそれぞれ対応付けて、複数の画像処理パラメータを格納してよい。この場合、属性特定部1020は、入力画像に含まれる被写体像として撮像された人物の対応する属性を、当該被写体像から特定する。
重み決定部1050は、入力画像に含まれる被写体像を高画質化する場合における、複数の画像処理パラメータに対する重みを決定する。そして、画像生成部1070は、重み決定部1050が決定した重みに基づいて、パラメータ選択部1040により選択された複数の画像処理パラメータをともに用いて入力画像を高画質化した高画質画像を生成する。なお、重み決定部1050は、特定された属性に対する適合度がより大きい属性に対応付けられた画像処理パラメータに対する重みづけがより大きい重みを決定してよい。
パラメータ生成部1060は、パラメータ選択部1040が選択した複数の画像処理パラメータを合成した合成パラメータを生成する。そして、画像生成部1070は、パラメータ生成部1060が生成した合成パラメータを用いて入力画像に含まれる被写体像を高画質化することにより、高画質画像を生成する。
なお、上記においては、被写体の属性に応じて画像処理パラメータを生成することについて説明した。その他画像処理部330は、高画質化の強度を画像上で変化させてもよい。
パラメータ格納部1010は、特定のオブジェクトの画像を高画質化すべく用いられる画像処理パラメータである特定パラメータ、及び、オブジェクトが特定されない画像を高画質化すべく用いられる画像処理パラメータである非特定パラメータを格納する。非特定パラメータは、後に説明するように、オブジェクトによらず高画質化の効果をある程度有する汎用の画像処理パラメータであってよい。
特定オブジェクト領域検出部1030は、入力画像から特定オブジェクトの領域である特定オブジェクト領域を検出する。特定オブジェクトとは、特徴領域として検出されるべき被写体のオブジェクトであってよい。そして、重み決定部1050は、特定オブジェクト領域が検出された入力画像を高画質化する場合における、特定パラメータ及び非特定パラメータの重みを決定する。
重み決定部1050は、入力画像における特定オブジェクト領域の画像に対して、特定パラメータに対する重みづけが非特定パラメータより大きい重みを決定する。これにより、特徴領域として検出されるべき特定オブジェクトをきちんと高画質化することができる。また、重み決定部1050は、特定オブジェクト領域以外の領域である非特定オブジェクト領域の画像に対して、非特定パラメータに対する重みづけが特定パラメータより大きい重みを決定する。これにより、特定のオブジェクト専用の画像処理パラメータで高画質化することを未然に防ぐことができる。
画像生成部1070は、重み決定部1050が決定した重みに基づいて、特定パラメータ及び非特定パラメータをともに用いて入力画像を高画質化した高画質画像を生成する。
パラメータ格納部1010は、特定のオブジェクトの複数の画像を学習画像(「訓練画像」ともいう。)として用いた学習により算出された特定パラメータ、及び、特定のオブジェクトの画像ではない複数の画像を学習画像として用いた学習により算出された非特定パラメータを格納する。これにより、特定オブジェクトに特化した特定パラメータを算出することができる。また、多様なオブジェクトに対する汎用の特定パラメータを算出することができる。
なお、事前学習では、学習画像の輝度情報そのものではなく、学習画像のエッジ情報などの空間変化情報を利用した画像処理パラメータが学習されていることが望ましい。低空間周波数領域の情報を低減したエッジ情報を用いることにより、照明変動、特に、低周波の照明変化に対してロバストな高画質化処理を実現することができる。
パラメータ生成部1060は、非特定パラメータと特定パラメータとを、重み決定部1050が決定した重みで合成することにより、合成パラメータを生成してよい。画像生成部1070は、パラメータ生成部1060が生成した合成パラメータを用いて入力画像を高画質化することにより、高画質画像を生成してよい。
上記の例では、属性特定部1020が特定した被写体の属性に基づき選択された複数の画像処理パラメータを用いて、高画質画像を生成する場合の動作について説明した。その他にも、画像生成部1070は、複数の画像処理パラメータの異なる組み合わせを用いて入力画像に含まれる被写体像を高画質化してよい。例えば、画像生成部1070は、予め定められた複数の画像処理パラメータの異なる組み合わせを用いて、入力画像に含まれる被写体像を高画質化してよい。そして、画像生成部1070は、高画質化して得られた複数の画像の中から、入力画像との比較に基づいて少なくとも1つの画像を選択し、選択した画像を高画質画像としてよい。例えば、画像生成部1070は、高画質化して得られた複数の画像のうち、入力画像に画像内容がより類似する画像を、高画質画像としてより優先して選択してよい。
パラメータ選択部1040は、入力画像から特定された被写体の属性に基づいて複数の画像処理パラメータの異なる組み合わせを選択してよい。画像生成部1070は、選択された複数の画像処理パラメータを用いて、入力画像に含まれる被写体像を高画質化してよい。そして、画像生成部1070は、高画質化により得られた複数の画像の中から、入力画像との比較に基づいて少なくとも1つの画像を選択し、選択した画像を高画質画像としてもよい。
以上説明したように、画像処理装置250は、パラメータ格納部1010が限られた数の画像処理パラメータを格納していても、多様な属性の被写体の画像に対処することができる画像処理パラメータを用いて高画質化することができる。なお、高画質化としては、高解像度化、多階調数化、多色数化の他、低ノイズ化、低アーチファクト化、ボケを低減化、シャープネス化、高フレームレート化などを例示することができる。パラメータ格納部1010は、これらの各種高画質化処理用の画像処理パラメータを格納することができる。
図21に記載した外部情報取得部380は、パラメータ格納部1010(図22参照)が格納する画像処理パラメータを、外部から取得する。パラメータ格納部1010は、外部情報取得部380が取得した画像処理パラメータを格納する。具体的には、外部情報取得部380は、特定パラメータ及び非特定パラメータの少なくとも一方を、外部から取得する。パラメータ格納部1010は、外部情報取得部380が取得した特定パラメータ及び非特定パラメータの少なくとも一方を格納する。
図23は、パラメータ格納部1010が格納しているパラメータの一例をテーブル形式で示す。パラメータ格納部1010は、人物の顔用の画像処理パラメータである特定パラメータA0、A1・・・を、顔の向きに対応付けて格納している。特定パラメータA0、A1は、対応する顔の向きの画像を学習画像とした事前学習により、予め算出されている。
ここで、注目画素の周辺画素の画素値を加重加算することによる高解像度化処理を例に挙げて、事前学習による特定パラメータAの算出処理を説明する。ここでは、注目画素の画素値yが、n個の周辺画素の画素値xi(ただし、i=1〜n)の加重加算により算出されると仮定する。すなわち、y=Σ(wixi)と仮定する。ここで、Σは、iにわたる加算を示している。wiは、周辺画素の画素値xiに対する加重係数であり、加重係数wiが事前学習により算出されるべき特定パラメータAとなる。
特定の向きの顔が撮像されたm個の顔画像を学習画像として用いるとする。k番目(ただし、k=1〜m)の学習画像の注目画素の画素値をykとすると、yk=Σwixkiで表されることになる。この場合、加重係数wiは、最小二乗法などの演算処理によって算出することができる。例えば、k番目の成分ekがek=yk−Σ(wixki)で表されるベクトルの2乗を実質的に最小化するwiを、最小二乗法などの演算処理より算出することができる。上記の特定パラメータの算出処理を、複数の顔向きの顔画像について行うことで、各顔向きに対応する特定パラメータAを算出することができる。
また、パラメータ格納部1010は、人物の顔でないオブジェクトに対して、非特定パラメータBを格納している。非特定パラメータBは、多種多様な被写体の画像を学習画像とした事前学習により、予め算出されている。なお、非特定パラメータBは、特定パラメータAと同様の事前学習処理により算出することができる。例えば、特定パラメータAを算出する事前学習処理において、学習画像として顔画像ではなく人物以外の画像を用いることで、非特定パラメータBを算出することができる。
図24は、特定パラメータの重みづけの一例を示す。特徴領域として、画像1200内の太線の内部の領域1210及び領域1220が、特徴領域として検出されているとする。重み決定部1050(図22参照)は、この特徴領域のより内部の領域1210には、特定パラメータの重み係数を100%、非特定パラメータの重み係数を0%に決定する。また、特徴領域内(太線枠の内側)における領域1210の外側の非特徴領域寄りの領域1220には、特定パラメータの重み係数を80%、非特定パラメータの重み係数を20%に決定する。
また、特徴領域の外側の領域に対しては、特徴領域の近傍の領域1230には、特定パラメータの重み係数を50%、非特定パラメータの重み係数を50%に決定する。そして、更に外側の領域1250には、特定パラメータの重み係数を0%、非特定パラメータの重み係数を100%に決定する。
このように、重み決定部1050(図22参照)は、入力画像における特定オブジェクト領域のより内側の領域の画像に対して、特定パラメータに対する重みづけがより大きい重みを決定する。また、重み決定部1050は、特定オブジェクト領域以外の領域である非特定オブジェクト領域の画像に対して、特定オブジェクト領域に近いほど、特定パラメータに対する重みづけがより大きい重みを決定する。このように、重み決定部1050は、特徴領域の中心から外側に向けて、特徴領域から非特徴領域に向けて特定パラメータの重み係数が段階的に減少させる。また、重み決定部1050は、重み係数を段階的に減少させることの他に、特徴領域の中心からの距離、又は、特徴領域の周囲領域等からの距離に比例して、重み係数を連続的に減少させてもよい。例えば、重み決定部1050は、距離xに対して重み係数の値を1/x、1/x2、e−xなどの関数に従って減少させるなど、距離xに対して累乗的、又は指数関数的に減少する値の重み係数を決定してよい。
なお、重み決定部1050は、特徴領域としての検出信頼度に応じて重み係数を制御してもよい。具体的には、重み決定部1050は、特定オブジェクトの領域としての検出信頼度がより大きい特定オブジェクト領域の画像に対して、特定パラメータに対する重みづけがより大きい重みを決定する。
特徴領域として検出されなかった領域に特定オブジェクトが存在していたとすると、その領域を汎用の非特定パラメータで高画質化しても、特定オブジェクトが存在するかどうか判別できない場合がある。画像処理部330によると、特徴領域として検出されなかった領域でも、特定オブジェクト用の特定パラメータの効果を有する高画質化処理を行うので、高画質化した画像から特定オブジェクトが存在するか否かを容易に判別することができる場合がある。
なお、特定パラメータは、図23に関連して説明した複数の画像処理パラメータを合成した画像処理パラメータであってよい。例えば、検出された特徴領域内に、正面顔から15°横を向いた人物の顔の画像が含まれているとする。この場合、重み決定部1050は、特定パラメータA0に対する重み係数を25%に決定して、特定パラメータA1に対する重み係数を75%に決定する。そして、パラメータ生成部1060は、特定パラメータA0と特定パラメータA1とを、それぞれ重み係数を25%及び75%で合成した合成パラメータを生成する。そして、画像生成部1070は、パラメータ合成部が生成した合成パラメータと、非特定パラメータとを、図24に図示した割合の重みづけして得られた画像処理パラメータを用いて高画質化する。
例えば、周辺画素の加重加算により高画質化する画像処理パラメータ(特定パラメータ又は非特定パラメータ)を用いる場合、パラメータ生成部1060は、画像処理パラメータの加重係数を、重み決定部1050が決定した重み係数で重み付け加算して、得られた加重係数により表される合成パラメータを算出してよい。可加算な画像処理パラメータとしては、加重係数の他に、空間周波数領域での空間周波数成分又は画素データそのもの(例えば、高周波数成分の画像データ)を例示することができる。
他にも、高画質化処理が、特徴量ベクトルなどに対するベクトル演算、行列演算、又はテンソル演算で表される場合には、パラメータ生成部1060は、それら画像処理パラメータとしてのベクトル、行列、テンソル、n次元混合正規分布、又はn次元混合多項分布の重み付け加算又は乗算により、合成パラメータを生成してよい。なお、ここでのnは、1以上の整数であるとする。例えば、特徴ベクトル空間においてベクトル補間することにより、スカラーでは表現できないベクトル上で合成によるボケを軽減できる場合がある。例えば、0°の向きの特徴ベクトルに係数0.25を乗じた特徴ベクトルと、20°の向きの特徴ベクトルに係数0.75を乗じた特徴ベクトルとの和を、15°の向きの特徴ベクトルとする演算を、1例として示すことができる。また、既述した局所保存投影(LPP)の空間上で補間することにより、更に合成ボケを軽減することができる場合がある。なお、パラメータ生成部1060は、特定パラメータと非特定パラメータとから合成パラメータを算出することができる。また、パラメータ生成部1060は、異なる複数の特定パラメータから合成パラメータを算出することもできる。
画像生成部1070は、特定パラメータと非特定パラメータとを用いて高画質画像を生成する場合に、特定パラメータを用いて画像処理して得られた画像情報と、非特定パラメータを用いて画像処理して得られた画像情報とを、重み決定部1050が決定した重み係数で加算することにより、高画質画像を生成してよい。その他、画像生成部1070は、特定パラメータを用いて画像処理して得られた画像情報に対して、非特定パラメータを用いて画像処理することにより、高画質画像を生成してもよい。同様の処理は、複数の特定パラメータを用いた高画質化処理に適用することができる。ここでいう画像データとしては、画素値そのもの、特徴量空間における特徴量ベクトル、行列、n次元混合正規分布、n次元混合多項分布などを例示することができる。例えば、特徴ベクトル空間においてベクトル補間することにより、スカラーでは表現できないベクトル上で合成によるボケを軽減することができる場合がある。
図23及び図24にかけて説明した高画質化処理では、特徴領域内の画像から特定された人物の顔の向きに基づき、特徴領域を高画質化する場合に用いる複数の画像処理パラメータがパラメータ選択部1040により選択された。そして、画像生成部1070は、パラメータ選択部1040により選択された複数の画像処理パラメータを用いて、1つの高画質化画像を生成した。
その他にも、画像生成部1070は、画像生成部1070が格納している画像処理パラメータの複数の組み合わせのそれぞれから、特徴領域を高画質化した画像を複数生成してもよい。そして、画像生成部1070は、得られた複数の画像のうち、特徴領域内の画像に最も類似する画像を、特徴領域を高画質化した高画質画像として生成してよい。
例えば、画像生成部1070は、0°の向きに対応する特定パラメータA0と20°の向きに対応する特定パラメータA1との合成パラメータを用いて、特徴領域の画像を高画質化した画像を生成する。画像生成部1070は、更に、他の1以上の組み合わせの特定パラメータの合成パラメータを用いて、特徴領域の画像を高画質化した1以上の画像を生成する。
そして、画像生成部1070は、生成した複数の画像のそれぞれを特徴領域内の画像と比較して、画像内容の一致度を算出する。画像生成部1070は、生成した複数の画像のうち、最も高い一致度が得られた画像を、高画質画像として決定する。
なお、特徴領域の画像を高画質化した複数の画像を生成する場合に、画像生成部1070は、予め定められた特定パラメータの複数の組に基づく複数の合成パラメータのそれぞれにより特徴領域内の画像を高画質化してよい。この場合、属性特定部1020が顔の向きを特定する処理をすることなく、パラメータ選択部1040が予め定められた特定パラメータの複数の組を選択してよい。
その他にも、特徴領域内の画像から特定された人物の顔の向きに基づきパラメータ選択部1040が特定パラメータの組を複数選択してよい。例えば、パラメータ選択部1040は、特定パラメータの複数の組を特定する情報と人物の顔の向きを特定する情報とを対応付けて記憶しており、特徴領域内の画像から特定された人物の顔の向きに対応付けて記憶している特定パラメータの複数の組を選択してよい。そして、選択した複数の組に基づく複数の合成パラメータのそれぞれにより特徴領域内の画像を高画質化することで、特徴領域の画像を高画質化した画像を複数生成してもよい。
また、特徴領域の画像を高画質化した複数の画像を生成する場合に、画像生成部1070は、複数の特定パラメータのそれぞれにより特徴領域内の画像を高画質化してもよい。そして、画像生成部1070は、得られた複数の画像のうち、特徴領域内の画像に最も類似する画像を、特徴領域を高画質化した高画質画像として生成してもよい。この場合においても、属性特定部1020が顔の向きを特定する処理をすることなく、パラメータ選択部1040が予め定められた複数の特定パラメータを選択してよいし、特徴領域内の画像から特定された人物の顔の向きに基づきパラメータ選択部1040が特定パラメータを複数選択してもよい。
図23に関連して説明したように、特定の顔向きの学習画像から、特定の顔向きの顔画像を高画質化する画像処理パラメータ(特定パラメータ)を算出することができる。他の複数の顔向きについてもそれぞれ同様にして画像処理パラメータを算出することで、複数の顔向きのそれぞれに対応する画像処理パラメータを算出することができる。そして、パラメータ格納部1010は、算出されたそれぞれの画像処理パラメータを、対応する顔向きに対応付けて予め格納する。なお、顔画像を高画質化する画像処理パラメータとしては、顔全体を高画質化する画像処理パラメータであってよいが、目の画像、口の画像、鼻の画像、耳の画像など、顔画像に含まれる少なくとも一部のオブジェクトを高画質化する画像処理パラメータであってもよい。
顔向きは、被写体の向きの一例であり、他の被写体物の向きについても、顔向きと同様にして、複数の被写体の向きにそれぞれ対応する複数の画像処理パラメータを算出することができる。被写体が人物である場合には、被写体の向きとして人体の向きを例示することができ、より具体的には体部の向き、手の向きなどを人体の向きとして例示することができる。また、被写体が人物以外である場合にも、顔画像と同様にして、複数の方向の被写体が撮像された被写体像をそれぞれ高画質化する複数の画像処理パラメータを算出することができる。
被写体の向きは、被写体の状態の一例であり、被写体の状態は、更に、人物の表情により分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、それぞれ異なる特定の表情をしている顔の画像をそれぞれ高画質化する。例えば、パラメータ格納部1010が格納する複数の画像処理パラメータは、人物が喜怒哀楽のそれぞれの状態にあるときの顔、人物が緊張状態にあるときの顔などをそれぞれ高画質化する。
また、被写体の状態は、人物のしぐさにより分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、それぞれ異なる特定のしぐさをしている状態の人物の画像を高画質化する。例えば、パラメータ格納部1010が格納する複数の画像処理パラメータは、走っている状態の人物像、足早に歩いている状態の人物像、走り出そうとしている状態の人物像、物を物色している状態の人物像などをそれぞれ高画質化する。
また、被写体の状態は、人物の姿勢により分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、それぞれ異なる特定の姿勢をしている状態の人物の画像をそれぞれ高画質化する。例えば、パラメータ格納部1010が格納する複数の画像処理パラメータは、背をかがめた状態の人物像、手をポケットに入れている状態の人物像、腕組みしている状態の人物像、顔と体の向きとが一致していない状態の人物像などをそれぞれ高画質化する。
また、被写体の状態は、人物の着用物により分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、それぞれ異なる特定の着用物を着用している状態の人物の画像をそれぞれ高画質化する。例えば、パラメータ格納部1010が格納する複数の画像処理パラメータは、メガネを着用している人物像、サングラスを着用している人物像、マスクをしている人物像、帽子を着用している人物像などをそれぞれ高画質化する。
以上に説明したように、被写体の複数の状態に対応して被写体が複数の属性に分類される。他にも、被写体は、被写体の種別によって複数の属性に分類されることができる。被写体の種別としては、人物の人種を例示することができる。人物の人種としては、アジア系の人種、欧州系の人種など地域的に分類された人種、形質人類学的に分類された人種などを例示することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、それぞれ対応する人種に分類された人物の画像をそれぞれ高画質化する。
また、被写体の種別としては、男性・女性のように人物の性別で分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、男性の画像又は女性など、対応する性別の人物の画像をそれぞれ高画質化する。また、被写体の種別としては、人物の年齢層で分類することができる。この場合に、パラメータ格納部1010が格納する複数の画像処理パラメータは、十代の人物の画像、二十代の人物の画像など、対応する年代の人物の画像をそれぞれ高画質化する。
上記において例示された被写体の種別、被写体の複数の状態、又はそれらの組み合わせにより、被写体像の属性が規定される。そして、パラメータ格納部1010は、規定された属性のそれぞれに対応付けて、各属性に属する被写体像を高画質化する画像処理パラメータを予め格納する。パラメータ格納部1010により格納される画像処理パラメータは、各顔向き用の画像処理パラメータの算出方法と同様の方法により、算出することができる。例えば、表情で属性が規定されている場合には、笑っている顔が撮像された複数の画像を学習画像として事前学習することにより、笑い顔の画像を高画質化する画像処理パラメータを算出することができる。怒り顔の画像など、他の表情の画像についてもそれぞれ同様に事前学習することで、各表情の顔画像をそれぞれ高画質化する複数の画像処理パラメータを算出することができる。しぐさ、姿勢、着用物、人種、性別、年齢などにより規定される各属性についても、同様にして画像処理パラメータを算出することができる。
属性特定部1020は、例えばアダブーストなどによりブースティングにより予め算出された識別器を被写体像に適用することにより、被写体像の属性を特定することができる。例えば、特定の向きの顔が撮像された複数の顔画像を教師画像として用いて、弱識別器をブースティング処理により統合して識別器を生成する。生成された識別器に被写体像を適用した場合に得られた正誤の識別結果に応じて、特定の顔向きの顔画像であるか否かを判定することができる。例えば、正の識別結果が得られた場合には、入力された被写体像は、特定の顔向きの顔画像であると判定することができる。
他の複数の顔向きについても同様にブースティング処理により識別器を生成することにより、各顔向きにそれぞれ対応する複数の識別器を生成することができる。属性特定部1020は、これら複数の識別器を被写体像にそれぞれ適用して、各識別器から得られた正誤の識別結果に基づいて顔向きを特定することができる。顔向きの他、表情、性別などで規定される他の1以上の属性についても、それぞれブースティング処理により属性毎に生成された識別器を適用することにより特定することができる。属性特定部1020は、ブースティングによる学習の他、線形判別法、混合ガウシアンモデルなど種々の方法で属性毎に学習された識別器を被写体像に適用することで、属性を特定することができる。
〔表示装置260の構成例〕
図25は、図13中の表示装置260のブロック構成の一例を示す。図25に示すように、表示装置260は、画像取得部1300、第1画像処理部1310、特徴領域特定部1320、パラメータ決定部1330、表示制御部1340、第2画像処理部1350、外部情報取得部1380、及び表示部1390を有する。
画像取得部1300は、入力画像を取得する。ここでいう入力画像は、画像処理装置250から受け取った動画に含まれるフレーム画像であってよい。第1画像処理部1310は、予め定められた画像処理パラメータを用いて入力画像を高画質化した所定画質画像を生成する。例えば第1画像処理部1310は、高解像度化する場合には、単純補間拡大処理など、所要演算量が予め定められた値より小さい方式の画像処理パラメータを用いて、所定画質画像を生成する。
表示制御部1340は、第1画像処理部1310が生成した所定画質画像を、表示部1390に表示させる。このように、表示部1390は、所定画質画像を表示する。
特徴領域特定部1320は、入力画像における複数の特徴領域を特定する。特徴領域特定部1320は、表示部1390が所定画質画像を表示している状態で、入力画像における複数の特徴領域を特定してよい。なお、画像処理装置250は、特徴領域を特定する情報を動画に付帯情報として付帯して表示装置260に送信してよい。特徴領域特定部1320は、画像取得部1300が取得した動画の付帯情報から特徴領域を特定する情報を抽出することにより、複数の特徴領域を特定してよい。
パラメータ決定部1330は、複数の特徴領域のそれぞれの画像を更に高画質化する画像処理パラメータを、複数の特徴領域毎に決定する。例えば、パラメータ決定部1330は、複数の特徴領域のそれぞれの画像を、異なる強度で高画質化する画像処理パラメータを、複数の特徴領域毎に決定する。「異なる強度で高画質化する」とは、異なる演算量で高画質化すること、単位面積あたりに異なる演算量で高画質化すること、異なる所要演算量の高画質化方式で高画質化すること、などを意味してよい。
第2画像処理部1350は、パラメータ決定部1330が決定した画像処理パラメータを用いて、複数の特徴領域の画像をそれぞれ高画質化した複数の高画質特徴領域画像を生成する。表示制御部1340は、表示部1390が表示している所定画質画像における複数の特徴領域に、複数の特徴領域画像を表示させる。このように、表示制御部1340は、高画質画像が生成された段階で、表示部1390が既に表示している所定画質画像に代えて、高画質画像を表示させる。表示部1390は、所定画質画像を速やかに生成して表示するので、ユーザーは実質的に遅滞なく、ある程度の画質の監視映像を観察することができる。
パラメータ決定部1330は、複数の特徴領域のそれぞれの画像の重要度に基づいて、複数の特徴領域毎に画像処理パラメータを決定してよい。重要度を示す情報は、上記付帯情報に付帯されてよい。また、重要度は、特徴領域の被写体の種別に応じて予め定められていてよい。被写体の種別毎の重要度は、表示部1390を観察するユーザーにより設定されてもよい。パラメータ決定部1330は、重要度がより大きい特徴領域をより大きい強度で高画質化する画像処理パラメータを決定する。このため、ユーザーは、重要な特徴領域がより高画質な画像を観察することができる。
パラメータ決定部1330は、複数の特徴領域のそれぞれの画像の特徴の種類に基づいて、複数の特徴領域毎に画像処理パラメータを決定する。また、パラメータ決定部1330は、複数の特徴領域内に撮像されている被写体の種類に基づいて、複数の特徴領域毎に画像処理パラメータを決定してもよい。このように、パラメータ決定部1330は、被写体の種類に応じて直接的に画像処理パラメータを決定してよい。
なお、パラメータ決定部1330は、第2画像処理部1350において複数の特徴領域をそれぞれ高画質化するのに要する処理所要量に基づいて、画像処理パラメータを決定する。具体的には、パラメータ決定部1330は、処理所要量がより小さい場合に、より大きい強度で高画質化する画像処理パラメータを決定する。
例えば、パラメータ決定部1330は、複数の特徴領域の面積がより小さい場合に、より大きい強度で高解像度化する画像処理パラメータを決定してよい。そして、第2画像処理部1350は、パラメータ決定部1330が決定した画像処理パラメータを用いて、複数の特徴領域の画像をそれぞれ高解像度化した複数の高画質特徴領域画像を生成する。また、パラメータ決定部1330は、複数の特徴領域の画素数がより少ない場合に、より大きい強度で高画質化する画像処理パラメータを決定してよい。
また、パラメータ決定部1330は、第2画像処理部1350において許容された処理量である処理可能容量に基づき、画像処理パラメータを決定する。具体的には、パラメータ決定部1330は、処理可能容量がより小さい場合に、より大きい強度で高画質化する画像処理パラメータを決定してよい。
このため、第2画像処理部1350が処理可能な演算量に応じて、高画質化の程度を制御することができる。このため、表示部1390の負荷が高画質化処理により過負荷に陥って、画像の表示が遅延することを未然に防ぐことができる場合がある。表示部1390の演算量に余裕があれば、速やかに高画質画像が生成されるので、観察することができる。
上述したように、高画質化としては、高解像度化を例示することができる。具体的には、パラメータ決定部1330は、複数の特徴領域のそれぞれの画像を高解像度化する画像処理パラメータを、複数の特徴領域毎に決定する。第2画像処理部1350は、パラメータ決定部1330が決定した画像処理パラメータを用いて、複数の特徴領域の画像をそれぞれ高解像度化した複数の高画質特徴領域画像を生成する。ここで、大きい強度で高解像度化するとは、高精度に高解像度化すること、及び、より多い画素数の高画質画像を生成することを含む。
高画質化処理としては、高解像度化の他、多階調数化、多色数化処理、低ノイズ化、低アーチファクト化、ボケを低減化、シャープネス化を例示することができる。これらの各種の高画質化についても、高解像度化と同様、パラメータ決定部1330が各種の高画質化をする画像処理パラメータを複数の特徴領域毎に決定して、第2画像処理部1350が、パラメータ決定部1330が決定した画像処理パラメータを用いて、複数の特徴領域の画像をそれぞれ各種の高画質化をした複数の高画質特徴領域画像を生成することができる。
なお、上述したように、画像取得部1300は、動画に含まれる複数の動画構成画像を入力画像として取得してよい。パラメータ決定部1330は、複数の特徴領域のそれぞれを高フレームレート化する画像処理パラメータを、複数の特徴領域毎に決定する。そして、第2画像処理部1350は、パラメータ決定部1330が決定した画像処理パラメータを用いて、高フレームレート化した複数の高画質特徴領域画像を生成してよい。
パラメータ決定部1330は、動画のフレームレートに基づいて、画像処理パラメータを決定する。具体的には、パラメータ決定部1330は、動画のフレームレートがより小さい場合に、より大きい強度で高画質化する画像処理パラメータを決定してよい。第2画像処理部1350は、決定した画像処理パラメータを用いて、入力画像をそれぞれ高画質化することにより、高画質化された動画を生成してよい。なお、第2画像処理部1350による高画質化についても、画像処理装置250による高画質化と同様、高解像度化、多色数化、多階調数化、ノイズ低減化、ブロックノイズ及びモスキートノイズなどのアーチファクトを低減するアーチファクト低減化、ボケ低減化、シャープネス化の概念を含んで良く、第2画像処理部1350はこれらの処理により高画質化画像を生成することができる。
このように、表示装置260は、高画質化すべき画像のデータ量、高画質化処理に割り当てることができる演算量に応じて、高画質化の強度を決定することができる。表示装置260によると、ある程度の品質の画像を速やかにユーザーに提供することができるとともに、高画質化処理された画像の表示が極度に遅延してしまうことを未然に防ぐことができる。このため、表示装置260は、高画質化処理により過負荷になることを未然に防ぐことができ、画像処理装置250から提供された動画をスムーズに再生することができる。
なお、外部情報取得部1380は、特徴領域毎に画像処理パラメータを決定する決定条件を、表示装置260の外部から取得する。パラメータ決定部1330は、外部情報取得部1380が取得した決定条件に基づいて、複数の特徴領域毎に画像処理パラメータを決定する。決定条件としては、特徴領域の重要度、特徴領域の特徴の種類、処理所要量、特徴領域の面積、特徴領域の画素数、処理可能容量などをパラメータとした条件を例示することができる。
図26は、画像の表示エリア1400の一例を示す。表示エリア1400は、表示部1390により入力画像が表示される領域であるとする。ここでは、入力画像から3つの特徴領域が特定されているとする。これらの特徴領域の画像は、表示エリア1400のうち、特徴領域エリア1410、特徴領域エリア1420、及び特徴領域エリア1430に表示されるとする。
図25で説明した画像取得部1300が入力画像を取得した場合に、表示制御部1340は、取得した入力画像を、表示部1390の表示エリア1400にそのまま表示させる。
入力画像が表示された状態で、第2画像処理部1350は、各特徴領域の画像に、単純補間などの、所要演算量が予め定められた値より小さい所定の高解像度化処理を施して、各特徴領域の画像の所定画質画像を生成する(第1高解像度化段階)。この第1高解像度化段階では、高解像度化の強度は特徴領域の画素数、フレームレートなどの画像のデータ量、特徴領域の重要度、被写体の種類、並びに第2画像処理部1350における演算許容量になどによらず、第2画像処理部1350は所定強度の高解像度化処理を施す。なお、当該所定強度の高解像度化処理を入力画像の全域に施すのに要する演算量が、第2画像処理部1350に常時割り当てられてよい。
第1高解像度化段階が完了して、所定画質画像1412、所定画質画像1422、及び所定画質画像1432が生成されると、表示制御部1340は、所定画質画像1412、所定画質画像1422、及び所定画質画像1432をそれぞれ対応する特徴領域エリア1410、特徴領域エリア1420、及び特徴領域エリア1430に表示させる。
所定画質画像1412、所定画質画像1422、及び所定画質画像1432が表示された状態で、第2画像処理部1350は、パラメータ決定部1330が特徴領域毎に決定した強度で、高解像度化処理を行い、各特徴領域の画像の高画質画像を生成する(第2高解像度化段階)。この第2高解像度化段階では、高解像度化の強度は、パラメータ決定部1330により決定された強度であり、特徴領域の画素数及びフレームレートなどの画像のデータ量、特徴領域の重要度、被写体の種類、並びに第2画像処理部1350における演算許容量に依存する。
第2高解像度化段階が完了して、高画質画像1414、高画質画像1424、及び高画質画像1434が生成されると、表示制御部1340は、高画質画像1414、高画質画像1424、及び高画質画像1434を、それぞれ対応する特徴領域エリア1410、特徴領域エリア1420、及び特徴領域エリア1430に表示させる。
このように、第2画像処理部1350は、現在の負荷量、高画質化に要する演算量に応じた強度で高解像度化するので、提供可能な範囲内で高画質な画像を速やかにユーザーに提供することができる。
<画像処理システムの他の形態例>
図27は、他の実施形態に係る画像処理システム201の一例を示す。本実施形態における画像処理システム201の構成は、撮像装置210a−dがそれぞれ画像処理部804a−d(以下、画像処理部804と総称する。)を有する点を除いて、図13で説明した画像処理システム200の構成と同じとなっている。
画像処理部804は、図13で説明した画像処理装置220に含まれる構成要素のうち、画像取得部222を除く構成要素を有している。そして、画像処理部804に含まれる各構成要素の機能及び動作は、画像処理装置220に含まれる各構成要素が圧縮動画伸張部224による伸張処理によって得られた動画を処理することに替えて、撮像部212によって撮像された動画を処理するという点を除いて、画像処理装置220に含まれる各構成要素の機能及び動作と略同一であってよい。このような構成の画像処理システム201においても、図13から図26にかけて画像処理システム200に関連して説明した効果と同様の効果が得ることができる。
画像処理部804は、撮像部212からRAW形式で表された複数の撮像画像を含む動画を取得して、取得した動画に含まれるRAW形式で表された複数の撮像画像をRAW形式のまま圧縮してよい。なお、画像処理部804は、RAW形式で表された複数の撮像画像から1以上の特徴領域を検出してよい。また、画像処理部804は、圧縮されたRAW形式の複数の撮像画像を含む動画を圧縮してよい。なお、画像処理部804は、動画を、図13〜図18に関連して画像処理装置220の動作として説明した圧縮方法で圧縮することができる。また、画像処理装置250は、画像処理部804から取得した動画を伸張することにより、RAW形式で表された複数の撮像画像を取得することができる。画像処理装置250は、伸張することにより取得されたRAW形式で表された複数の撮像画像をそれぞれ領域毎に拡大して、領域毎に同時化処理を施す。このとき、画像処理装置250は、特徴領域以外の領域より、特徴領域においてより高精度な同時化処理を施してよい。
なお、画像処理装置250は、同時化処理によって得られた撮像画像における特徴領域の画像に、超解像処理を施してよい。画像処理装置250における超解像処理として、本発明によるテンソル射影を利用した超解像の手段を適用することができる。
また、画像処理装置250は、特徴領域に含まれるオブジェクト毎に、超解像処理を施してよい。例えば、特徴領域が人物の顔画像を含む場合に、画像処理装置250は、オブジェクトの一例としての顔部位(例えば、目、鼻、口など)毎に、超解像処理を施す。この場合、画像処理装置250は、特開2006−350498号公報に記載されたようなモデル等の学習データを、顔部位(例えば、目、鼻、口など)毎に記憶しておく。そして、画像処理装置250は、特徴領域に含まれる顔部位毎に選択した学習データを使用して、各顔部位の画像に超解像処理を施してよい。
モデル等の学習データは、複数の表情、複数の顔方向、複数の照明条件のそれぞれの組み合わせ毎に記憶されてよい。表情としては、喜怒哀楽のそれぞれの状態にあるときの顔、及び真顔を含み、顔方向としては、正面、上方、下方、右方、左方、及び後方を含む。照明条件としては、照明強度及び照明の方向についての条件を含む。画像処理装置250は、顔の表情、顔方向、照明条件の組み合わせに対応する学習データを用いて、顔画像に超解像処理を施してよい。
顔の表情及び顔の方向は、特徴領域に含まれる顔画像の画像内容に基づいて特定することができる。また、表情は、口及び/又は目の形状から特定することができ、顔の方向は、目、口、鼻、及び耳の位置関係等から特定することができる。顔への照明強度及び照明方向は、影の位置及び大きさなど、顔画像の画像内容に基づき特定することができる。顔の表情、顔方向、照明条件は画像処理部804において特定され、出力部236から画像に対応付けて、特定された顔の表情、顔方向、照明条件が送信されてよい。画像処理装置250は、出力部236から受信した顔の表情、顔方向、照明条件に対応する学習データを利用して、超解像処理を施してよい。
また、モデル等の学習データとしては、顔全体を表現するモデルの他に、顔の部位毎のモデルを用いることができる。他にも、性別及び/又は人種毎の顔のモデルを用いることができる。モデルとしては人物に限らず、車両、船舶など、監視対象となる物体の種別毎にモデルを格納することができる。
このように、画像処理装置250は、局所保存投影(LPP)を用いて特徴領域の画像を再構成することができる。なお、画像処理装置250による画像再構成手法、及び当該画像再構成用の学習法としては、局所保存投影(LPP)の他、局所線形埋め込み(Locally LinearEmbedding:LLE)など、局所性を保存する他の手法を用いることができる。
また、学習データとしては、特開2006−350498号公報に記載されたようなモデルの他に、オブジェクトの多数のサンプル画像からそれぞれ抽出された、オブジェクトの画像の低周波成分及び高周波成分を含んでよい。ここで、複数のオブジェクトの種類のそれぞれについてオブジェクトの画像の低周波成分をk-means法等によってクラスタリングすることによって、複数のオブジェクトの種類のそれぞれにおいてオブジェクトの画像の低周波成分が複数のクラスタにクラスタリングされていてよい。また、各クラスタ毎に代表的な低周波成分(例えば、重心値)が定められていてよい。
そして、画像処理装置250は、撮像画像における特徴領域に含まれるオブジェクトの画像から低周波成分を抽出する。そして、画像処理装置250は、抽出したオブジェクトの種類のオブジェクトのサンプル画像から抽出された低周波成分のクラスタのうち、抽出した低周波成分に適合する値が代表的な低周波成分として定められたクラスタを特定する。そして、画像処理装置250は、特定したクラスタに含まれる低周波成分に対応付けられている高周波成分のクラスタを特定する。このようにして、画像処理装置250は、撮像画像に含まれるオブジェクトから抽出された低周波成分に相関のある高周波成分のクラスタを特定することができる。そして、画像処理装置250は、特定した高周波成分のクラスタを代表する高周波成分を用いて、オブジェクトの画像をより高画質な高画質画像に変換してよい。例えば、画像処理装置250は、各オブジェクトの中心から顔上の処理対象位置までの距離に応じた重みでオブジェクト毎に選択された当該高周波成分をオブジェクトの画像に加算してよい。なお、当該代表する高周波成分は、閉ループ学習によって生成されてよい。このように、画像処理装置250は、各オブジェクト毎に学習することによって生成された学習データの中から、望ましい学習データをオブジェクト毎に選択して利用するので、オブジェクトの画像をより高い精度で高画質化することができる場合がある。
なお、画像処理装置250は、k-means法等によりクラスタリングせず、記憶している低周波成分及び高周波成分を用いて、入力画像を高画質化することもできる。例えば、画像処理装置250は、低解像度の学習画像内の各パッチから抽出したエッジ成分である低解像度エッジ成分と、高解像度の学習画像内の各パッチから抽出したエッジ成分である高解像度エッジ成分とのペアを記憶しておく。これらのエッジ成分は、LPPなどの固有空間上のベクトルとして記憶されてよい。
高画質化対象の入力画像を高画質化する場合、画像処理装置250は、入力画像をバイキュービックなどの所定の方法で拡大して得られた拡大画像から、エッジ成分をパッチ毎に抽出する。画像処理装置250は、入力画像内の各パッチについて、抽出されたエッジ成分と記憶しているエッジ成分との間のノルムをLPPなどの固有空間上で算出する。画像処理装置250は、予め定められた値より小さいノルムが算出された複数のパッチを、記憶しているパッチの中から選択する。そして、画像処理装置250は、注目パッチ及びその周囲パッチについて、抽出されたエッジ成分及び選択された複数のパッチの高解像度エッジ成分のマルコフ確率場を設定する。画像処理装置250は、注目パッチ毎に設定したマルコフ確率場モデルのエネルギー最小化問題を反復確率伝搬法(LBP)などを用いて解くことにより、各注目パッチ内の画像に加算すべき高解像度エッジ成分を、記憶している高解像度エッジ成分の中から注目パッチ毎に選択する。画像処理装置250は、各パッチ毎に選択した各高解像度エッジ成分を、拡大画像の各パッチの画像成分に加算することにより、高画質画像を生成する。
他にも、画像処理装置250は、複数クラスのガウシアンミスクチャモデルを用いて、入力画像を高画質化することもできる。例えば、低解像度の学習画像内の各パッチの画像ベクトルと、高解像度の学習画像内の各パッチの画像ベクトルとを学習データとする。低解像度の学習画像内の各パッチの画像ベクトルから求められたクラスタベクトルを用いて、ガウシアンミスクチャモデルにおける各クラスに対応する密度分布の平均及び分散、並びに各クラスに対する重みを、EMアルゴリズムなどにより算出する。画像処理装置250は、これらの平均、分散、及び重みを学習データとして記憶しておく。高画質化対象の入力画像を高画質化する場合、画像処理装置250は、入力画像内の各パッチの画像ベクトル、当該画像ベクトルから求められたクラスタベクトル、学習データとして記憶している平均、分散、及び重みとを用いて、高画質画像を生成する。
他にも、画像処理装置250は、入力画像から抽出された輪郭情報を用いて、入力画像だけから高画質画像を生成することもできる。例えば、画像処理装置250は、入力画像から抽出された輪郭付近の特定の画像領域を高解像度化する場合に、当該輪郭に沿う他の領域に含まれる画素の画素値を、特定の画像領域内に配置することで、特定の画像領域を高解像度化した高画質画像を生成することができる。例えば、画像処理装置250は、他の領域に含まれる画素の位置と輪郭の位置との間の位置関係に基づき、特定の画像領域内のいずれの位置に、当該画素の画素値を配置するかを決定して、決定した位置に当該画素値を配置することで、特定の画像領域を高解像度化することができる。
なお、画像処理装置250は、このような輪郭情報を用いた高解像度化処理を、入力画像においてエッジを含むエッジ領域の近傍に限定して施してよい。エッジ領域以外の画像領域については、フィルタ方式などにより高解像度化してよい。例えば、画像処理装置250は、所定量以下のエッジ量が抽出された平坦領域については、フィルタ方式を用いて高解像度化してよい。画像処理装置250は、所定量より大きいエッジ量が抽出されたテクスチャ領域については、フィルタ方式を用いて高解像度化した画像に、入力画像から生成した条件が満たされるように修正を加えることで、高解像度化してよい。
なお、以上説明したように、低周波成分及び高周波成分を用いた高画質化処理、ガウシアンミスクチャモデル、及び輪郭情報を用いた高解像度化処理は、オブジェクトが特定されない画像を高画質化する場合に利用することができる。パラメータ格納部1010は、画像処理装置250による高画質化処理に用いるパラメータ、例えば、上記低周波成分に対応する上記高周波成分のデータ、上記平坦領域を高解像度化するフィルタ、ガウシアンミクスチャモデルに関する上記学習データなどを格納することができる。オブジェクトが特定された画像を高画質化する処理として、本発明による局所保存射影テンソルを用いた高画質化処理を適用できる。
テンソルを用いた高画質化処理として、顔画像に対する高画質化処理を例に挙げて以下に説明する。解像度、パッチ位置、個人、及び画素を学習対象とする4階テンソルを学習により算出するための学習画像として、解像度、人物、及びパッチ位置が異なる顔画像が用いられる。これらの学習画像を用いて、解像度、パッチ位置、人物、及び画素値をそれぞれ対象として、固有空間における固有ベクトルを算出する。算出した固有ベクトルの積による4階テンソルは、入力画像に含まれる顔画像から中解像度の顔画像を生成する場合に用いられる。なお、固有ベクトルは、固有値分解法、局所保存投影(LPP)などによる学習により算出することができる。なお、中解像度の顔画像から高周波成分を回復するために用いる高解像度パッチが、高解像度の学習画像から得られる。画像処理装置250は、得られたテンソル及び高解像度パッチを記憶しておく。
高画質化対象の入力画像に含まれる顔画像を高画質化する場合、画像処理装置250は、記憶している4階テンソルで顔画像をパッチ単位で変換することにより、中解像度の顔画像を形成するパッチを得る。そして、画像処理装置250は、当該中解像度のパッチ及び記憶している高解像度パッチとのマルコフ確率場を設定する。マルコフ確率場モデルの全パッチのエネルギー最小化問題を、逐次改良法(ICM)などを用いて解くことにより、高周波成分が回復された高解像度の顔画像が得られる。
画像処理装置250における高画質処理化の手段として、図6で説明した画像処理装置100の構成を適応した場合、図6の加算部160(又は合成部166)の出力画像が上記の「中解像度」の顔画像に対応する。そして、この「中解像度」の画像を更にマルコフ確率場モデルのエネルギー最小化問題に入力して解くことにより、「高解像度」画像の出力を得る。
なお、画像処理装置250は、中解像度のパッチを得る前処理として、入力画像に含まれる顔画像から低解像度の顔画像を生成する処理を行ってよい。この場合、画像処理装置250は、前処理により得られた低解像度の顔画像を上記の4階テンソルで変換することにより中解像度のパッチを得る。前処理では、顔の向き、照明度合い、表情、人物、及び画素を対象として得られた5階テンソルを用いて、入力画像に含まれる顔画像を変換する処理を含むことができる。当該5階テンソルを得るための学習画像としては、顔の向き、照明度合い、表情、及び人物が異なる顔画像が用いることができる。
また、前処理として、入力画像に含まれる顔画像の位置合わせ処理を含むことが望ましい。例えば、顔画像をアフィン変換により位置合わせをしてよい。より具体的には、アフィン変換のパラメータを最適化して、アフィン変換後の顔画像と学習用の顔画像との位置を合わせる。なお、学習用の顔画像についても当然に、互いの位置が合うよう位置合わせ処理が行われることが望ましい。
また、局所保存投影(LPP)を用いた高画質化処理の一例を以下に説明する。学習段階では、学習画像としての低解像度画像及び高解像度画像のそれぞれから、局所保存投影(LPP)により固有ベクトルを算出する。LPP空間において、低解像度画像と高解像度画像とを動径基底関数によりネットワークの重みとして関連づける。また、学習画像の低解像度画像を入力として得られた中解像度画像と低解像度画像との残差画像、及び、学習画像の高解像度画像と当該中解像度画像との残差画像を算出する。画像処理装置250は、中解像度画像と低解像度画像との残差画像、及び、高解像度画像と中解像度画像との残差画像をパッチ毎に記憶しておく。
高画質化対象の入力画像を高画質化する場合、画像処理装置250は、入力画像から局所保存投影(LPP)により固有ベクトル、及び、学習段階で得られた動径基底関数から中解像度画像を生成する。画像処理装置250は、当該中解像度画像と入力顔画像との残差画像を算出する。当該残差画像から、局所線形埋め込み(LLE)及び最近傍探索により、対応する高解像度画像と中解像度画像との残差画像を、記憶している残差画像の中からパッチ毎に選択する。そして、画像処理装置250は、選択した高解像度画像と中解像度画像との残差画像を平滑化して得られた残差画像を、入力画像から生成された中解像度画像に加算することより、高画質画像を生成する。
なお、特開2006−350498号公報に記載されたような主成分分析に基づく超解像処理では、主成分ベクトル及び重みづけ係数により物体の画像が表される。これらの重みづけ係数及び主成分ベクトルのデータ量は、物体の画像そのものが有する画素データのデータ量に比べて大幅に小さい。そこで、画像処理部804は、撮像部212から取得した複数の撮像画像における特徴領域の画像を圧縮する圧縮処理において、特徴領域に含まれる物体の画像から上記重みづけ係数を算出してよい。すなわち、画像処理部804は、特徴領域に含まれる物体の画像を、主成分ベクトル及び重みづけ係数で表すことによって圧縮することができる。そして、画像処理部804は、主成分ベクトル及び重みづけ係数を画像処理装置250に送信してよい。この場合、画像処理装置250においては、画像処理部804から取得した主成分ベクトル及び重みづけ係数を用いて、特徴領域に含まれる物体の画像を再構成することができる。なお、画像処理部804は、特開2006−350498号公報に記載されたような主成分分析に基づくモデルの他に、種々の特徴パラメータで物体を表現するモデルを利用して特徴領域に含まれる物体の画像を圧縮することができることはいうまでもない。
なお、図13〜27に関連して説明した画像処理システム200の構成においても、画像処理装置250又は表示装置260は、高画質化処理として、特徴領域の画像に上述した超解像処理を施すことができる。また、画像処理システム200及び画像処理システム201において、圧縮部232は、上述した画像処理装置220と同様に、画像を主成分ベクトル及び重みづけ係数で表すことによって、撮像画像を更に圧縮することもできる。
以上、画像処理システム200、201としての動作を、監視システムを例に挙げて説明した。この発明の他の用途としては、複写機等のスキャナ機器によりスキャニングされたドキュメントに対する高画質化処理及び符号化に適用することができる。例えば、文字、図面、表、写真などの各領域を特徴領域とみなすと、それらの領域に対する高解像度化処理として、上記の超解像処理などの高画質化処理を適用することができる。また、それら特徴領域の検出、符号化に、上記の特徴領域検出処理、圧縮処理を適用することができる。同様に、内視鏡システムにおいても、体内部位の検出、高画質化、及び符号化に、上記の特徴領域検出処理、高画質化処理、圧縮処理を適用することができる。
<変形例1>
上述の画像処理システム200、201では、複数の撮像装置210a−dを備えた例を述べたが、撮像装置210の台数は特に限定されず、1台であってもよい。また、表示装置260の台数も特に限定されず、1台であってもよい。
<変形例2>
上述の画像処理システム200、201では、動画データの中の撮像画像(フレーム画像、或いはフィールド画像)から特徴領域を特定したが、動画データに限らず、静止画データについても適用可能である。
<変形例3>
上述の画像処理システム200、201では、1つの撮像画像から複数の特徴領域を検出し得る構成を説明したが、特徴領域の数は特に限定されず、1つの撮像画像につき、特徴領域は1つであってもよい。
<変形例4>
学習画像群を取得する手段について、予め高画質画像と低画質画像の対の画像群を用意しておく態様に限らず、高画質画像のみを与え、その高画質画像から低画質画像を生成することにより画像対を得てもよい。例えば、画像処理装置内に低画質化の処理を行うための処理手段(低画質化処理手段)を備え、高画質の学習画像を入力することにより、同装置内でこれを低画質化して学習画像対を取得する態様も可能である。
また、図13、図27で説明した画像処理システム200、201のような場合、学習画像は予め用意されたデータベースなどから提供される態様に限らず、システムの稼働により、実際に撮像装置210によって取り込まれた画像やその画像内から切り出された画像(部分画像)を元に学習内容を更新することもできる。システムの用途や撮像装置の設置場所に応じて、適切な学習画像を取り込み、学習ステップをやり直すことにより、変換精度の更なる向上を図ることができる。
<変形例5>
上述の実施形態では画像データを学習して高画質化の画像変換を行う例に説明したが、本発明は高画質化処理に限らず、画像認識など、他の画像変換にも適用できる。また、処理の対象とするデータは画像に限定されず、画像以外の各種データについて同様に適用できる。すなわち、画像処理装置、画像処理手段、画像処理システムとして説明した構成は、データ処理装置、データ処理手段、データ処理システムとして拡張することができる。
<画像認識への適用例>
高画質化処理以外の応用例として、画像認識に基づく個人認証の技術への適用例を説明する。この場合、図2、図3、図6等で説明した高画質化処理の中間固有空間までの処理と同様の処理を行い、中間固有空間における係数ベクトルの位置関係を利用して個人認証することができる。位置関係は「係数ベクトル補正処理部140」の求め方で距離や向き等を求めてもよい。つまり、求められた入力データの距離や向きが学習データに近ければ近いほど判断対象である可能性が高いことになる。
すなわち、中間固有空間(ここでは、個人差固有空間)における学習データと新たに入力されたデータの位置関係から特定人物との類似性(例えば「Aさん」らしさ)を判断することができる。
入力される顔の画像は、正面向き、左横向き、右横向き・・・等のように様々な条件が考えられるが、どの向きの画像が入力されても、正面向き、左横向き、右横向き・・・等の向きモダリティを経由して、中間固有空間(例えば、個人差固有空間)上で1点に集まる性質を利用することで、1以上の条件を単一の基準で精度よく扱えるようにできるという新たな効果が得られる。
「向き」のモダリティに限らず、同様に、低解像、中解像、高解像、・・・等の解像度モダリティや、前述の様々なモダリティにも対応可能である。このように、1以上の条件を有する他のモダリティに関しても同様であり、ある特定のモダリティに関して、どの条件の画像が入力されても、当該特定のモダリティを経由して、中間固有空間上で1点に集まる性質を利用することで、1以上の条件を単一の基準で精度よく扱えるようにできる。
<音声認識への適用例>
画像以外のデータを取り扱う一例として、音声認識に適用する例を説明する。画像データに代えて、音声データを対象とし、図2、図3、図6等で説明した高画質化処理の中間固有空間までの処理と同様の処理を行い、中間固有空間における係数ベクトルの位置関係を利用して音声認識することができる。位置関係は「係数ベクトル補正処理部140」の求め方で距離や向き等を求めてもよい。つまり、求められた入力データの距離や向きが学習データに近ければ近いほど判断対象である可能性が高いことになる。
この場合、例えば、画像データについて説明した画素モダリティ(低解像、高解像)に、音声データの音声サンプリング数(低解像、高解像)モダリティを当てはめる。その他、シグナルノイズ比(S/N)や、音源やマイク(センサ)の位置もモダリティとして扱える。
従来の手法では、音声認識用学習固有空間を48kHz、44.1kHz、32kHzなどのサンプリング周波数毎や16bit、8bitなどの量子化数毎に用意する必要があった。
これに対し、本発明によれば、共通の音声認識用学習固有空間(「中間固有空間」に相当)上で判断するため、1種の判断基準で、複数のサンプリング数や量子化数の場合でも共通に認識対応することができるようになる。よって、場合毎に判断基準を調整する必要が無くなるという効果がある。しかも、本発明によれば、1以上の条件を有する第1の固有空間から分割データ間の相互関係を利用して共通の第2の固有空間(中間固有空間)に射影できるため、第2の固有空間(中間固有空間)上において、1以上の条件を単一の基準で精度よく扱えるようにできるという効果が得られる。また、S/Nや音源マイク位置等のモダリティの場合でも同様な効果が得られる。
<言語処理への適用例>
画像以外のデータを取り扱う他の例として、言語処理に適用する例を説明する。画像データに代えて、言語データ(音声データでもよいし、文字データでもよい)を対象とし、図2、図3、図6等で説明した高画質化処理の中間固有空間までの処理と同様の処理を行い、中間固有空間における係数ベクトルの位置関係を利用して言語処理することができる。位置関係は「係数ベクトル補正処理部140」の求め方で距離や向き等を求めてもよい。つまり、求められた入力データの距離や向きが学習データに近ければ近いほど判断対象である可能性が高いことになる。
この場合、例えば、画像データについて説明した画素モダリティ(低解像、高解像)に、言語(日本語、英語)モダリティを当てはめる。その他、地域(方言)、用途(フォーマル(ニュース)、インフォーマル)、時代(平安、江戸、現代)、世代(高校生、年輩)もモダリティとして扱える。
従来の手法では、言語認識用学習固有空間を日本語、英語などの言語毎に用意する必要があった。
これに対し、本発明によれば、共通の言語認識用学習固有空間(「中間固有空間」に相当)上で判断するため、1種の判断基準で、複数の言語の場合でも共通に認識対応することができるようになる。よって、場合毎に判断基準を調整する必要が無くなるという効果がある。しかも、本発明によれば、1以上の条件を有する第1の固有空間から分割データ間の相互関係を利用して共通の第2の固有空間(中間固有空間)に射影できるため、第2の固有空間(中間固有空間)上において、1以上の条件を単一の基準で精度よく扱えるようにできるという効果が得られる。また、地域、用途、時代、世代等のモダリティの場合でも同様な効果が得られる。
<生体情報処理への適用例>
画像以外のデータを取り扱う他の例として、生体情報処理に適用する例を説明する。生体情報には、例えば、心拍、脈拍、血圧、呼吸、発汗の波形や周期、振幅等がある。画像データに代えて、生体情報のデータを対象とし、図2、図3、図6等で説明した高画質化処理の中間固有空間までの処理と同様の処理を行い、中間固有空間における係数ベクトルの位置関係を利用して生体情報処理することができる。位置関係は「係数ベクトル補正処理部140」の求め方で距離や向き等を求めてもよい。つまり、求められた入力データの距離や向きが学習データに近ければ近いほど判断対象である可能性が高いことになる。
この場合、例えば、画像データについて説明した画素モダリティ(低解像、高解像)に、生体情報のデータサンプリング数(低分解、高分解)モダリティを当てはめる。その他、シグナルノイズ比(S/N)や、信号源やセンサの位置もモダリティとして扱える。
従来の手法では、生体情報処理用学習固有空間をサンプリング周波数毎や量子化数毎に用意する必要があった。
これに対し、本発明によれば、共通の生体情報処理用学習固有空間(「中間固有空間」に相当)上で判断するため、1種の判断基準で、複数のサンプリング数や量子化数の場合でも共通に認識対応することができるようになる。よって、場合毎に判断基準を調整する必要が無くなるという効果がある。しかも、本発明によれば、1以上の条件を有する第1の固有空間から分割データ間の相互関係を利用して共通の第2の固有空間(中間固有空間)に射影できるため、第2の固有空間(中間固有空間)上において、1以上の条件を単一の基準で精度よく扱えるようにできるという効果が得られる。また、S/Nやセンサ位置等のモダリティの場合でも同様な効果が得られる。
<自然・物理情報処理への適用例>
画像以外のデータを取り扱う他の例として、自然・物理情報処理に適用する例を説明する。自然・物理情報には、例えば、天候、気候、地震の波形や周期、振幅等がある。画像データに代えて、自然・物理情報のデータを対象とし、図2、図3、図6等で説明した高画質化処理の中間固有空間までの処理と同様の処理を行い、中間固有空間における係数ベクトルの位置関係を利用して自然・物理情報を処理することができる。位置関係は「係数ベクトル補正処理部140」の求め方で距離や向き等を求めてもよい。つまり、求められた入力データの距離や向きが学習データに近ければ近いほど判断対象である可能性が高いことになる。
この場合、例えば、画像データについて説明した画素モダリティ(低解像、高解像)にデータサンプリング数(低分解、高分解)モダリティを当てはめる。その他、シグナルノイズ比(S/N)や、信号源やセンサの位置もモダリティとして扱える。
従来の手法では、自然・物理情報処理用学習固有空間をサンプリング周波数毎や量子化数毎に用意する必要があった。
これに対し、本発明によれば、共通の自然・物理情報処理用学習固有空間(「中間固有空間」に相当)上で判断するため、1種の判断基準で、複数のサンプリング数や量子化数の場合でも共通に認識対応することができるようになる。よって、場合毎に判断基準を調整する必要が無くなるという効果がある。しかも、本発明によれば、1以上の条件を有する第1の固有空間から分割データ間の相互関係を利用して共通の第2の固有空間(中間固有空間)に射影できるため、第2の固有空間(中間固有空間)上において、1以上の条件を単一の基準で精度よく扱えるようにできるという効果が得られる。また、S/Nやセンサ位置等のモダリティの場合でも同様な効果が得られる。