JP7142420B2 - 画像処理装置、学習方法、学習済モデル、画像処理方法 - Google Patents

画像処理装置、学習方法、学習済モデル、画像処理方法 Download PDF

Info

Publication number
JP7142420B2
JP7142420B2 JP2017134949A JP2017134949A JP7142420B2 JP 7142420 B2 JP7142420 B2 JP 7142420B2 JP 2017134949 A JP2017134949 A JP 2017134949A JP 2017134949 A JP2017134949 A JP 2017134949A JP 7142420 B2 JP7142420 B2 JP 7142420B2
Authority
JP
Japan
Prior art keywords
class
image
granularity
learning
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017134949A
Other languages
English (en)
Other versions
JP2019016298A5 (ja
JP2019016298A (ja
Inventor
雅人 青葉
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017134949A priority Critical patent/JP7142420B2/ja
Priority to US16/028,633 priority patent/US11055584B2/en
Publication of JP2019016298A publication Critical patent/JP2019016298A/ja
Publication of JP2019016298A5 publication Critical patent/JP2019016298A5/ja
Application granted granted Critical
Publication of JP7142420B2 publication Critical patent/JP7142420B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Description

本発明は、クラスの識別技術に関するものである。
画像を複数の領域に分割する研究は数多く行われてきた。近年では、画像から人物の領域、自動車の領域、道路の領域、建物の領域、空の領域などの、意味的な領域を切り出す課題が研究されている。このような課題は意味的領域分割(Semantic Segmentation)と呼ばれ、被写体の種類に対応した画像補正や、シーン解釈などに応用できると考えられている。
意味的領域分割を行うにあたり、画像の各位置に関するクラスラベルの識別を、画素単位ではなく、小領域(superpixel)単位で行う手法が多く提案されている。小領域は、主に類似した特徴を持つ小さな領域として画像から切り出されるもので、さまざまな手法が提案されている。代表的なものとして、非特許文献1のようなテクスチャベースの手法や、非特許文献2のようなクラスタリングベースの手法がある。このようにして得られたそれぞれの小領域は、その小領域の内部の特徴量、あるいはその周辺のコンテクスト特徴量も一緒に用いてクラスラベルを識別することが行われる。通常はさまざまな学習画像を用いてこのような局所ベースの領域識別器を学習させることで領域識別を行うことになる。
近年では、深層学習を利用した意味的領域分割の研究も行われてきている。非特許文献3では、CNN(Convolutional Neural Network)の中間層出力を特徴量として利用し、複数の中間層特徴による画素ごとのクラス判定結果を統合することにより、画像の意味的領域分割を行っている。非特許文献3の手法では、前述のような小領域分割結果を利用することなく、画素ごとに直接クラス判定を行っている。
特許第4155875号
"Contour Detection and Hierarchical Image Segmentation",P.Arbelaez,PAMI2010. "SLIC Superpixels",R.Achanta,A.Shaji,K.Smith,A.Lucchi,EPFL Technical Report,2010. "Fully Convolutional Networks for Semantic Segmentation",Long,Shelhamer,and Darrell,CVPR2015.
領域分割のクラスは通常、ユーザによって一意に定義され、その定義に従ってクラス識別器が学習されることとなる。例えば、領域クラスとして「空」「木」「草」「人物」「その他」という5つのクラスを定義した場合、これら5つのクラスを判別する識別器を学習する。入力画像に対する識別処理では、各領域に対してこれら5つのクラスのいずれであるかを出力することになる。定義するクラスの種類はユーザの要求によって決まるものだが、クラスの粒度が細かくなるほど画像特徴における情報量は多く必要とされる。例えば、「空」と「空以外」の領域を区別する2クラス識別器と、「空」「木」「草」「岩」「人物」「自動車」「建物」「それ以外」を区別する8クラス識別器では、後者のほうがより細かい特徴を画像から抽出する必要がある。
しかし、画像の撮影状況によっては、取得される画像の画質が不十分となり、定義されたクラスの区別が困難になる場合がある。例えば、遠くから撮影された画像では「草」と「木」の区別がつかない場合もあるし、夕暮れ時の暗い逆光画像では「岩」も「草」も黒つぶれして同じようなテクスチャとなってしまうこともある。また、焦点深度の浅いレンズで撮影することで強いボケが生じた領域に関しては、特徴が消えてしまって「木」も「岩」も「人」も区別がつかない場合もある。
このような課題に対する一つの解決方法としては、認識し易いように撮影条件を変えることが考えられる。特許文献1では、入力された画像が認識に適した画像であるか否かを判断し、適していないと判断されたときに、撮像状態の情報または撮像状態を改善する情報の少なくとも一方をユーザに対して報知する。それにより、認識しやすい撮影条件で画像を撮影するようにユーザに示唆を与える。
上記のように撮影条件を変える方法は、目の前の物体を認識することが最終タスクである場合には有効である。しかしながら、ユーザが意図して決定した撮影条件による画像に対して「領域ごとに後処理を変えて画質を向上したい」といった目的の場合、ユーザの意図しない撮影条件を強要することになる。また、すでに撮影済みの画像に対して認識処理を行いたい場合には応用が難しい。
本発明はこのような問題に鑑みてなされたものであり、画像情報に応じた粒度のクラスを学習するための技術を提供する。
本発明の一様態は、画像処理装置であって、
画像のクラス識別を行う識別器の学習を、画像特徴に基づいて行う学習手段と、
前記画像から得られる像倍率とボケ量の少なくとも何れかに予め対応づいたクラスの粒度に基づいて、前記識別器が前記画像のクラス識別において識別するクラスの粒度を決定する決定手段と
を有し、
前記学習手段は、前記決定手段により決定された粒度でのクラス識別の結果を出力するように前記識別器の学習を行うことを特徴とする。
本発明の構成によれば、画像情報に応じた粒度のクラスを学習することができる。
画像処理装置の機能構成例を示すブロック図。 学習処理、識別処理、のフローチャート。 学習画像500、学習画像500における各領域、小領域分割の例を示す図。 クラスインデックステーブルの構成例を示す図。 選択条件の構成例を示す図。 ステップS2500を説明する図。 入力画像100、クラス識別結果110を示す図。 クラスインデックステーブルの構成例を示す図。 図2(c)のステップS2300を詳細に分けたフローチャート。 識別器全体の構成を示す図。 識別対象の変形例、コンピュータ装置のハードウェア構成例、を示す図。
以下、添付図面を参照し、本発明の実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の1つである。
[第1の実施形態]
本実施形態に係る画像処理装置は、画像中の画像領域のクラスの識別(分類)に用いる領域識別器の学習を行う機能(学習機能)と、該領域識別器を用いて画像中の画像領域のクラスの識別(クラス分類)を行う機能(識別機能)と、を有する。本実施形態に係る画像処理装置の機能構成例を図1(a)に示す。
<学習機能について>
先ず、図1(a)に示した構成のうち、学習機能に係る構成について説明する。記憶部5100には、予め作成された学習データが格納されている。学習データには、複数の学習画像と、該学習画像の各画素のクラスのラベル(インデックス)を保持する領域クラスラベルデータと、該学習画像に係る各種の情報である撮影情報と、が含まれている。
取得部2100は、記憶部5100から学習データを読み出す(取得する)。抽出部2200は、取得部2100が取得した学習データに含まれているそれぞれの学習画像について、該学習画像を複数の小領域に分割して該小領域から画像特徴量を抽出する。学習部2300は、抽出部2200が学習画像から抽出した画像特徴量と、取得部2100が取得した学習データに含まれている領域クラスラベルデータと、に基づいて学習処理を行うことで、領域識別器を生成する。記憶部5300には、予め作成された確認データが格納されている。確認データには、複数の確認画像と、該確認画像の各画素のクラスのラベル(インデックス)を保持する領域クラスラベルデータと、該確認画像に係る各種の情報である撮影情報と、が含まれている。評価部2400は、記憶部5300から確認データを読み出し(取得し)、学習部2300が生成した領域識別器を、該読み出した確認データに基づいて評価する。設定部2500は、評価部2400による評価結果と、確認データに含まれている撮影情報と、に基づいて、クラス分類におけるクラスの粒度を決定(設定)する。そして設定部2500による粒度の設定後、学習部2300は、該設定された粒度に応じて領域識別器の再学習を行う。学習部2300は、学習処理により生成した領域識別器を記憶部5200に格納する。
次に、以上説明した各機能部による領域識別器の学習処理について、図2(a)のフローチャートに従って説明する。
ステップS2100では、取得部2100は、記憶部5100から学習データを読み出す(取得する)。学習データに含まれているそれぞれの学習画像は、1種類以上の画像属性の画像領域を含む画像であれば如何なる画像であっても良い。本実施形態では、学習データに含まれている複数の学習画像は、ディジタルカメラなどの撮像装置で撮像された複数の撮像画像であるものとする。以下では、学習データに含まれている学習画像の枚数をN(Nは自然数)とする。然るに学習データには、N枚の学習画像のそれぞれに対応する領域クラスラベルデータが含まれている。
ここで、領域クラスラベルデータについて説明する。図3(a)の学習画像500には、図3(b)に示す如く、服の領域501、顔の領域502、髪の領域503、花の領域504、葉の領域505、空の領域506、といった画像属性の異なる複数の領域が含まれている。領域501に属する各画素にはクラス「服」に対応するラベルが割り当てられており、領域502に属する各画素にはクラス「顔」に対応するラベルが割り当てられており、領域503に属する各画素にはクラス「髪」に対応するラベルが割り当てられている。また、領域504に属する各画素にはクラス「花」に対応するラベルが割り当てられており、領域505に属する各画素にはクラス「葉」に対応するラベルが割り当てられており、領域506に属する各画素にはクラス「空」に対応するラベルが割り当てられている。学習画像500に対応する領域クラスラベルデータは、学習画像500の各画素に割り当てられているラベルを保持するものである。つまり、図3(a)の学習画像500において領域501に属する画素の画素値をクラス「服」に対応するラベル、領域502に属する画素の画素値をクラス「顔」に対応するラベル、領域503に属する画素の画素値をクラス「髪」に対応するラベル、領域504に属する画素の画素値をクラス「花」に対応するラベル、領域505に属する画素の画素値をクラス「葉」に対応するラベル、領域506に属する画素の画素値をクラス「空」に対応するラベル、としたものが、学習画像500に対応する領域クラスラベルデータである。なお、ここでは意味的なラベルを例に上げたが、光沢面やマット面、高周波領域、といった領域の属性によるラベルが与えられていてもよい。また、空と木の枝のような、複数種類の物体が混在して写っているクラスを定義してもよい。
ここで、記憶部5200には、図4(a)に示す構成例を有するクラスインデックステーブルが格納されている。図4(a)に示すクラスインデックステーブルには、クラステーブル番号=1のクラステーブルが登録されており、後述するように、クラスインデックステーブルには必要に応じてクラステーブル番号=2,3,…に対応するクラステーブルが追加登録可能である。図4(a)に示す如く、クラステーブル番号=1のクラステーブルでは、16種類のクラス(「花」、「葉」、「木幹」、「建物」、「自動車」、「バイク」、「自転車」、「髪」、「肌」、「服」、「動物」、「草原」、「土面」、「道路」、「空」、「雲」)のそれぞれに対応するラベル(クラスインデックス)1~16が登録されている。図4(a)の例では、クラス「花」のラベルは「1」である。本実施形態では、領域クラスラベルデータには、該領域クラスラベルデータに対応する学習画像の各画素について、この16種類のクラスのそれぞれのラベル1~16のうち該画素が属するクラスのラベルが登録されている。なお、本実施形態では、クラスインデックステーブルにて管理するクラスの最大数を16とするが、最大数は16に限らない。
また、撮影情報には、学習画像を撮像した撮像装置に固有の情報(撮像装置情報)と、撮像された学習画像に固有の情報(画像情報)と、が含まれている。撮像装置情報としては、撮像装置のセンサのサイズや許容錯乱円径、光学系の明るさや焦点距離などがある。画像情報としては、絞り値、合焦距離、Bv値、RAW画像、露出時間、ゲイン(ISO感度)、ホワイトバランス係数、距離情報、GPSによる位置情報や日時などの時間情報がある。他にも、撮像時の重力センサ値、加速度、地磁気方向、温度や湿度、気圧や高度の情報などが考えられる。また、可視光以外にも赤外や紫外の情報を得ることのできる撮像系もある。撮像装置の仕様等により、撮影情報の構成はそれぞれ異なる。
また撮影情報には学習画像の画素ごとに得られる情報が含まれてもよく、撮影情報に含まれている情報の組み合わせにより得られる重要な情報もある。例えば、画素位置pにおけるレンズ面から被写体までの距離Z(p)と光学系の焦点距離fとが撮影情報に含まれている場合には、以下の式1に従って、画素位置pにおける像倍率S(p)を算出することができる。
Figure 0007142420000001
光学系のF値、焦点距離f、撮像時の合焦距離Zf、画素位置pにおける被写体までの距離Z(p)が撮影情報に含まれている場合には、以下の式2に従って、画素位置pにおけるボケ量B(p)を換算することができる。
Figure 0007142420000002
また、RAW画像の各画素位置pのR(赤)成分の画素値r(p)、G(緑)成分の画素値g(p)、B(青)成分の画素値b(p)と、露出時間T、ゲインG、絞り量Fが撮影情報に含まれている場合には、以下の式3に従って、画素位置pにおける入射光量BV(p)の絶対値を換算することができる。
Figure 0007142420000003
以下、説明を簡潔にするため、撮影情報から画素位置pにおけるボケ量B(p)と像倍率S(p)が得られるものと仮定して説明する。しかし、上記の入射光量BV(p)など他の情報を用いてもよく、撮影情報に含まれている情報の組み合わせはこれらに限定されるものではない。なお、学習データに含まれている上記の撮影情報は様々な用途に用いることができるが、本実施形態では使用することはないので、本実施形態では該撮影情報は学習データに含まれていなくても良い。
次に、ステップS2200では、抽出部2200は、ステップS2100で取得部2100が取得した学習データに含まれているそれぞれの学習画像について、該学習画像を複数の小領域に分割して該小領域から画像特徴量を抽出する。
画像を小領域に分割してから各小領域のクラスを識別する場合には、まず画像を小領域に分割する。小領域は、主に類似した画像特徴量を有する画素からなる小さな領域として画像から切り出されるもので、画像を小領域に分割する手法は従来からいくつか提案されている。代表的なものとして、前述の非特許文献1のようなテクスチャベースの手法や、非特許文献2のようなクラスタリングベースの手法がある。あるいは、単純に均一サイズの長方形に画像を分割したブロック領域を小領域として用いてもよい。図3(a)の学習画像500を小領域に分割した例が図3(c)に示されている。あるいは、非特許文献3のように画素ごとにクラスの識別を行う場合には、小領域分割を行わずに各画素を1つの小領域とみなしてそれぞれの画素から画像特徴量を抽出すればよい。
小領域から抽出される画像特徴量は、例えば、小領域における色平均値や色ヒストグラム、小領域の位置や大きさ、LBPなどのテクスチャ特徴などがあるが、その種類によって限定されるものではない。また、判定対象となる位置の周囲に関する線分や色の分布などによるコンテクスト特徴を用いてもよい。CNNによる中間層の信号出力値を羅列したベクトルを画像特徴量として用いてもよい。以下では、学習画像上の小領域の位置(小領域が複数画素からなる場合には例えば該複数画素の重心位置、小領域が1つの画素からなる場合には、該画素の位置)をrと表記し、学習画像における位置rの小領域から抽出された画像特徴量をxと表記する。
ステップS2300で学習部2300は、各学習画像におけるそれぞれの小領域からステップS2200で抽出された画像特徴量と、各学習画像に対応する領域クラスラベルデータと、に基づいて学習処理を行うことで領域識別器を生成する。
先ず学習部2300は、学習画像上の位置rに割り当てられているラベルcrを、該学習画像に対応する領域クラスラベルデータから取得し、該取得したラベルcrを用いて、位置rに対する教師ベクトルτを生成する。教師ベクトルτは以下の式4、式5で規定されるものである。
Figure 0007142420000004
Figure 0007142420000005
図4(a)の例では、例えばcr=5であれば、学習画像における位置rの小領域は自動車の領域となり、該位置rに対応する教師ベクトルτは{0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0}となる。このようにして、それぞれの学習画像上の各小領域について教師ベクトルを生成する。
学習部2300による領域識別器の学習とは、領域識別器の識別関数fに画像特徴量xを入力したときに得られる出力ベクトルと、教師ベクトルτと、の誤差を全ての位置r及び全ての学習画像について累計したものがより小さくなるように識別関数fのパラメータを調整して領域識別器を生成することである。
領域識別器は、画像特徴xを入力として、クラスのスコアベクトルf(x)を出力ベクトルとして出力する。スコアベクトルf(x)は以下の式6に示す如くM(本実施形態ではM=16)次元のベクトルである。
Figure 0007142420000006
スコアベクトルf(x)の各要素は各クラスに対するスコア(確からしさを表す尤度)であって、f(x)(c=1,…,M)は、ラベル=cのクラスに対するスコア(クラスcの確からしさを表す尤度)を表す。図4(a)の例では、例えばf(x)は、ラベル=3のクラスのスコア、つまり「木幹」のスコアを表す。
識別関数fのモデルとその学習方法にはさまざまなものが考えられ、特定のモデル、学習方法に限らない。例えばSVMや多層ニューラルネットワーク、ロジスティック回帰などを使ってもよい。
次にステップS2400では、評価部2400は、記憶部5300から確認データを読み出し(取得し)、ステップS2300において学習部2300が生成した領域識別器(学習後の領域識別器)を、該読み出した確認データに基づいて評価する。確認データに含まれているそれぞれの確認画像は、各画素のクラスが既知(上記の16種類のクラスの何れか)の画像であり、該確認画像における各画素は、様々な像倍率及びボケ量を有する。以下では、確認データに含まれている確認画像の枚数をNv(Nvは自然数)とする。然るに確認データには、Nv枚の確認画像のそれぞれに対応する領域クラスラベルデータが含まれている。確認画像に対応する領域クラスラベルデータは、学習画像に対応する領域クラスラベルデータと同様、確認画像における各画素に割り当てられているラベルを保持するものである。また確認データに含まれている撮影情報は、学習データに含まれている撮影情報と同様、確認画像を撮像した撮像装置に固有の情報と、撮像された確認画像に固有の情報と、が含まれているものとする。
先ず評価部2400は、上記のステップS2200と同様にして、確認データに含まれているそれぞれの確認画像について、該確認画像を複数の小領域に分割して該小領域から画像特徴量を抽出する。以下では、確認画像上の小領域の位置をsと表記し、確認画像における位置sの小領域から抽出された画像特徴量をxvと表記する。そして評価部2400は、それぞれの確認画像について、該確認画像における各位置sの小領域について以下のような処理を行う。
評価部2400は、確認画像における位置sの小領域の画像特徴量xvをステップS2300で学習部2300が生成した領域識別器に入力することで出力ベクトルf(xv)を求める。出力ベクトルf(xv)は以下の式7に示す構成を有する。
Figure 0007142420000007
そして評価部2400は以下の式8より、出力ベクトルf(xv)の要素f(xv)、…、f(xv)のうち最大の値を有する要素のインデックスeを、確認画像における位置sのクラス推定ラベルインデックスとして特定する。
Figure 0007142420000008
つまりステップS2400では、それぞれの確認画像について収集した該確認画像上の各位置sにおけるクラス推定ラベルインデックスを、確認データに基づく領域識別器の評価結果として取得する。
ステップS2500では、設定部2500は、評価部2400による評価結果と、撮影情報と、に基づいて、クラス分類におけるクラスの粒度を決定(設定)する。評価部2400による確認画像を用いた領域識別器の評価結果から、各クラスの撮影情報に対する識別率を、以下の文献に記載の手法を拡張した方法で算出する。
”Probablistic Outputs for Support Vector Machines and Comparisos to Regularized Likelihood Methods”,in ”Large Margi Classifiers”,J.C.Platt,MIT Press,1999.
以下に説明するステップS2500における処理は着目クラスであるクラスcについての処理であり、実際には、全てのクラスについて同様の処理を行う。先ず設定部2500は、像倍率S、ボケ量B、クラスcに関する尤度fc、によって構成される空間を複数のビンに区切る。この空間における各ビンは(S,B,fc)と表すことができる。
そして設定部2500は、確認データに含まれているそれぞれの確認画像における小領域を、クラス推定ラベルインデックス=cの小領域(ポジティブデータ)と、クラス推定ラベルインデックス≠cの小領域(ネガティブデータ)と、に分ける。そして設定部2500は、それぞれのポジティブデータの画像特徴量xvを領域識別器に入力することで得られる出力ベクトルf(xv)の要素f(xv)を、該ポジティブデータに対する尤度fc(クラスcの確からしさ)として取得する。また設定部2500は、それぞれのネガティブデータの画像特徴量xvを領域識別器に入力することで得られる出力ベクトルf(xv)の要素f(xv)を、該ネガティブデータに対する尤度fcとして取得する。
そして設定部2500は、ポジティブデータの位置sにおける像倍率及びボケ量がそれぞれS1及びB1、該ポジティブデータに対する尤度がfc1であるとすると、ビン(S1,B1,fc1)に割り当てられている第1の変数の値を1つインクリメントする。このように、ビンごとに対応するポジティブデータの頻度を第1の変数の値として収集する。
同様に設定部2500は、ネガティブデータの位置sにおける像倍率及びボケ量がそれぞれS2及びB2、該ネガティブデータに対する尤度がfc2であるとすると、ビン(S2,B2,fc2)に割り当てられている第2の変数の値を1つインクリメントする。このように、ビンごとに対応するネガティブデータの頻度を第2の変数の値として収集する。
そして設定部2500は、ビンごとに(該ビンに割り当てられている第1の変数の値/該ビンに割り当てられている第2の変数の値)を、該ビンにおける「クラスcの識別率(正解率)R」として求める。
図6(a)に、ある像倍率S及びボケ量Bにおけるポジティブデータのヒストグラム210とネガティブデータのヒストグラム220のプロット例を示す。ヒストグラム210は、それぞれの尤度fcに対するポジティブデータのヒストグラム値(頻度)を表しており、ヒストグラム220は、それぞれの尤度fcに対するネガティブデータのヒストグラム値(頻度)を表している。図6(a)において、尤度fcごとの(ヒストグラム210のヒストグラム値/ヒストグラム220のヒストグラム値)をプロットしたものを図6(b)のヒストグラム230として示す。ヒストグラム230は、それぞれの尤度fcに対するクラスcの識別率Rを表している。然るにビンごとに、(該ビンにおける第1の変数の値/該ビンにおける第2の変数の値)を該ビンに対する識別率Rとして求める。また、(像倍率S、ボケ量B、尤度fc)に対する識別率R(=R(S,B,fc))を表すグラフ240を図6(c)に示す。
ここで信頼尤度λを定義し、fc=λのときの識別率をRλとする。信頼尤度λはたとえば0.8などと設定する。そして、識別率Rλの許容閾値をθとし、たとえばθ=0.9などと設定する。そして、Rλがθ以上であれば、領域識別器によるクラスcの識別率は高いとすることができ、Rλがθ未満(閾値未満)であれば、領域識別器によるクラスcの識別率は低いとすることができる。図6(d)のハッチング部分250は、上記のグラフ240においてRλ<θとなる範囲を示す。
このようなハッチング部分250の範囲に含まれる像倍率S、ボケ量Bの画素については、画像特徴量が不足していてクラスcへの分類が困難である。そこで本実施形態では設定部2500は、上記のクラスcについて作成した空間における各ビンの識別率Rのうち1つでもR<θとなるものがあれば、クラスcを一段階粗い粒度のクラスc’に変更したクラステーブルをクラスインデックステーブルに追加登録する。更に設定部2500は、クラスcについて作成した空間における各ビンの識別率Rのうち1つでもR<θとなるものがあれば、R<θとなるビンに対応するB,Sの範囲については追加登録したクラステーブルを選択するように選択条件を作成する。
つまり判別困難となる撮影情報の範囲に関してクラスを設定すると、該設定したクラスと対応するラベルとの関係を新たなクラステーブルとしてクラスインデックステーブルに追加すると共に、それぞれのクラステーブルの撮影条件に応じた選択条件を作成する。
図4(b)は、図4(a)のクラスインデックステーブルに新しいクラステーブルが追加登録されたクラスインデックステーブルの例を示している。図5(a)は図4(b)の各クラステーブルが選択されるための撮影情報に関する条件が登録されたテーブル(選択条件)の例を示している。図4(c)は図4(b)のクラスインデックステーブルに新しいクラステーブルが追加登録されたクラスインデックステーブルの例を示している。図5(b)は図4(c)の各クラステーブルが選択されるための撮影情報に関する条件が登録されたテーブル(選択条件)の例を示している。図4,5に示した各種のテーブルは何れも、記憶部5200に格納される。
図4(b)では、図4(a)のクラスインデックステーブルに、クラステーブル番号=2のクラステーブルが追加登録されている。図4(b)では、クラステーブル番号=1のクラステーブルにおけるクラス「花」と「草」の2つのクラスについてはR<θとなるビンが存在したため、クラステーブル番号=1のクラステーブルにおけるクラス「花」と「草」の2つのクラスを粒度が一段荒いクラス「草花」に変更したクラステーブル番号=2のクラステーブルを作成してクラスインデックステーブルに追加登録している。また、クラステーブル番号=1のクラステーブルでは、「髪」と「肌」の2つのクラスについてもR<θとなるビンが存在しているため、クラステーブル番号=2のクラステーブルでは、クラステーブル番号=1のクラステーブルにおけるクラス「髪」と「肌」の2つのクラスを粒度が一段荒いクラス「顔」に変更している。なお、R<θとなるビンが存在しないクラスについては、クラステーブル番号=2のクラステーブルでは、クラステーブル番号=1のテーブルと同様に保持している。つまり、クラステーブル番号=2のクラステーブルでは、クラステーブル番号=1のクラステーブルよりも粗い粒度でクラスを規定している。これは、図4(c)のクラスインデックステーブルでも同様である。
図5(a)では、Bが3未満、Bが3以上、Sが200以上、Sが200未満、という4つの条件の組み合わせに応じて、クラステーブル番号=1のクラステーブルを使用するのか、クラステーブル番号=2のクラステーブルを使用するのかを規定している。例えば、図6(d)のハッチング部分250の範囲に相当する領域がB≧3またはS<200であるとすると、このようなB,Sの範囲に対しては、図5(a)の条件から、クラステーブル番号=2のクラステーブルを使用することになる。
以上説明したクラスcについての処理を全てのクラスについて行う(クラスcに全てのクラスを当てはめて処理を行う)と、処理はステップS2300に戻る。このときステップS2300では学習部2300は再度、領域識別器の学習処理を行うのであるが、その際に使用する教師ベクトルτは、以下の式9に従って修正される教師ベクトルである。
Figure 0007142420000009
Crは、クラスインデックステーブルに新たに追加したクラステーブルにおいて、位置rのラベルに対応するクラスに割り当てられている全てのラベルである。例えば、クラスインデックステーブルに新たに追加したクラステーブルがクラステーブル番号=2のクラステーブルであり、位置rのラベルが「2」であったとする。このとき、位置rのラベル「2」に対応するクラスは「草花」であるから、クラス「草花」に割り当てられている全てのラベルは「1」及び「2」となり、その結果、Cr={1,2}となる。
そして全てのクラスで識別率R<θとなるビンが存在しなくなった時点で学習は完了する。図4(c)及び図5(b)に示す如く、本実施形態では、クラス分類におけるクラスの粒度が異なる複数のクラステーブルを作成し、ボケ量が大きいほど若しくは像倍率が小さいほど、クラス分類におけるクラスの粒度が荒いクラステーブルを使用し、ボケ量が小さいほど若しくは像倍率が大きいほど、クラス分類におけるクラスの粒度が細かいクラステーブルを使用する。なお、クラステーブルの使用条件は図5(a)、(b)に示した条件に限らない。
学習部2300は、学習の完了後、生成した領域識別器を記憶部5200に格納する。このようにステップS2300、ステップS2400、ステップS2500の処理を繰り返し行うことにより、撮影情報によって分類困難になるクラスが特定され、そのようなクラスに対してはより粗い粒度のクラスが設定されるようになる。
<識別機能について>
次に、図1(a)に示した構成のうち、識別機能に係る構成について説明する。本実施形態に係る識別機能によるクラス識別は、未知の入力画像に対して意味的領域分割を行うことである。
取得部1100は、入力画像と、該入力画像の撮影情報と、を取得する。抽出部1300は、取得部1100が取得した入力画像を複数の小領域に分割して該小領域から画像特徴量を抽出する。識別部1400は、記憶部5200に格納されている領域識別器と、抽出部1300が入力画像上の各小領域から抽出した画像特徴量と、を用いて、入力画像上の各小領域におけるクラスを識別する。次に、以上説明した識別機能に係る各機能部によるクラス識別について、図2(b)のフローチャートに従って説明する。
ステップS1100では、取得部1100は、入力画像と、該入力画像の撮影情報と、を取得する。入力画像及び撮影情報の取得方法については特定の取得方法に限らない。例えば、ハードディスクドライブ装置やメモリカードなどのメモリ装置から入力画像とその撮影情報とを取得しても良いし、ディジタルカメラなどの撮像装置により撮像された撮像画像を入力画像として取得すると共に、該入力画像の撮影情報を該撮像装置から取得するようにしても良い。また、撮影情報は入力画像に添付されている情報として取得するようにしても構わない。本実施形態では、撮影情報は、入力画像における各画素位置kにおけるボケ量B(k)及び像倍率S(k)を含むものとする。
ステップS1300では、抽出部1300は上記のステップS2200と同様にして、ステップS1100で取得部1100が取得した入力画像を複数の小領域に分割して該小領域から画像特徴量を抽出する。以下では、入力画像において画素位置kの小領域から抽出された画像特徴量をyと表記する。
ステップS1400で識別部1400は、記憶部5200に格納されている学習済みの領域識別器と、ステップS100において抽出部1300が入力画像上の各小領域から抽出した画像特徴量と、を用いて、入力画像上の各小領域におけるクラスを識別する。
先ず識別部1400は、記憶部5200から取得した領域識別器に画像特徴量yを入力することで、該領域識別器の出力である各領域クラスのスコアベクトルf(y)を求める。各領域クラスのスコアベクトルf(y)は以下の式10に示す構成を有する。
Figure 0007142420000010
そして識別部1400は以下の式11より、スコアベクトルf(y)の要素f(y)、…、f(y)のうち最大の値を有する要素のインデックスcを、入力画像上の画素位置kにおける小領域が属するクラスのラベルとして特定する。
Figure 0007142420000011
このようにして、識別部1400は、入力画像上の各小領域について、該小領域が属するクラスのラベルcを特定する。次に識別部1400は、図5(b)のクラステーブルの使用条件において、像倍率S(k)及びボケ量B(k)の組み合わせに該当するクラステーブル番号を特定する。例えば、取得部1100が図7(a)に示す入力画像100を取得したとする。入力画像100上の画素位置101の像倍率S=10pix/m、ボケ量B=7pixであるとすると、図5(b)の使用条件により、画素位置101における像倍率S及びボケ量Bに対応するクラステーブル番号は「5」となる。つまり、画素位置101における小領域のクラス識別には、図4(c)のクラスインデックステーブルにおいてクラステーブル番号=5のクラステーブルを使用することになる。画素位置101について上記の式11によりc=2となった場合、クラステーブル番号=5のクラステーブルではクラスインデックス「2」に対応するクラスは「植物」となる。このようにして識別部1400は、入力画像上の各小領域について、該小領域の撮影条件に対応するクラステーブルにおいて該小領域のラベルに対応するクラスを該小領域に対するクラス識別結果として出力する。図7(a)の入力画像100に対して識別部1400によるクラス分類を行った結果を図7(b)に示す。クラス識別結果110では、ボケ量が少なく、像倍率の大きい領域111~115については、領域111は「草」、領域112は「花」、領域113は「服」、領域114は「肌」、領域115は「髪」、といったように詳細なクラス出力が得られている。もう少し距離が離れており、ボケの強い領域116については、「草」と「花」は区別されずに「植物」と出力され、領域117と領域118はさらにボケ量が強く、遠景であることで像倍率が小さいため、領域117は「非空」、領域118は「空」といったように識別結果が得られる。
このように、本実施形態では、撮影情報によって判別するクラスの定義の粒度を変えることにより画像上の各領域に対して識別時に無理のない認識処理を行えるように、学習することができる。
なお、本実施形態では、画像の各領域を識別する意味的領域分割を前提に説明したが、人物検出などの物体検出器、もしくは個人識別などの物体認識器を対象にしても同様な処理が可能である。例えば、図11(a)に例示した画像700において顔を表わすバウンディングボックス710,720を識別対象となる顔クラスの領域と考えれば、上記の説明がそのまま利用できる。また、認識対象は顔に限定されるものではなく、自動車や植物など、さまざまな対象に適用可能である。
[第2の実施形態]
第1の実施形態では、一つの領域識別器を用いて識別結果を計算し、異なるクラステーブルを利用することで、最終出力クラスの粒度を制御した。本実施形態では、複数の領域識別器を学習し、撮影情報によって領域識別器を切り替える。本実施形態を含め、以下の各実施形態では、第1の実施形態との差分について説明し、以下で特に触れない限りは第1の実施形態と同様であるものとする。
本実施形態に係る学習機能に係る各機能部の動作について、図(a)のフローチャートに従って説明する。本実施形態では、図(a)のフローチャートにおいてステップS2300、ステップS2400、ステップS2500における処理が第1の実施形態と異なる。然るに以下では、本実施形態に係るステップS2300、ステップS2400、ステップS2500における処理について説明する。
本実施形態に係るステップS2300では、学習部2300は先ず、最も詳細な粒度のクラス定義による領域識別器の学習を行う。ここでは例として図4(a)の状態を最も詳細なクラス定義として説明する。この場合、学習手順は第1の実施形態における第1回目のステップS2300と同様であるため、これに係る詳細な説明は省略する。この初期学習が終了した時点で、学習部2300は、初期学習済みの領域識別器を、クラステーブル番号「1」と関連づけて記憶部5200に格納する。
本実施形態に係るステップS2400で評価部2400は、記憶部5300から確認データを読み出し(取得し)、ステップS2300において学習部2300が生成した領域識別器を第1の実施形態と同様にして、該読み出した確認データに基づいて評価する。
本実施形態に係るステップS2500では、設定部2500は、像倍率S、ボケ量B、信頼尤度fcに対する正解率R(S,B,fc)を算出するところまでは第1の実施形態と同様の動作を行う。そして設定部2500は、クラスcについて作成した空間における各ビンの識別率Rのうち1つでもR<θとなるものがあれば、クラスcを一段階粗い粒度のクラスc’に変更したクラステーブルをクラスインデックステーブルに追加登録する。図8に、本実施形態に係るクラスインデックステーブルの構成例を示す。クラステーブル番号=1のクラステーブルは図4(a)のクラステーブルと同様であり、クラス数「16」と共に管理されている。クラステーブル番号=2のクラステーブルは、図4(b)のクラステーブル番号=2のクラステーブルと同様であるが、1つのクラスに1つのラベルとなっている。例えばクラス「花」とクラス「葉」は何れも同じ「草花」に統合されており、且つこの統合されたクラス「草花」に対して1つのラベルが割り当てられている。以降、クラステーブル番号=3,4,…,7のそれぞれに対応するクラステーブルについても同様に作成されてクラスインデックステーブルに登録される。
また、第1の実施形態では学習部2300は、クラスインデックステーブルにクラステーブルを追加登録する度に、同じ1つの領域識別器の再学習を行った。本実施形態では学習部2300は、クラスインデックステーブルにクラステーブルを追加登録する度に、新たな領域識別器を設け、第1の実施形態と同様に追加登録したクラステーブルから教師ベクトルτを生成して該新たな領域識別器の学習を行う。つまり、クラステーブル番号の数だけ領域識別器を生成する。そして学習部2300は、新たに設けた領域識別器の学習を行うと、該領域識別器を記憶部5200に格納する。
次に、本実施形態に係る識別機能に係る各機能部の動作について、図2(b)のフローチャートに従って説明する。本実施形態では、図2(b)のフローチャートにおいてステップS1400における処理が第1の実施形態と異なる。然るに以下では、本実施形態に係るステップS1400における処理について説明する。
ステップS1400では、識別部1400は入力画像上のそれぞれの位置kにおける小領域について次のような処理を行う。先ず識別部1400は、図5(b)のクラステーブルの使用条件において、小領域の位置kにおける像倍率S(k)及びボケ量B(k)の組み合わせに該当するクラステーブル番号を特定する。そして識別部1400は、該特定したクラステーブル番号に対応する領域識別器を記憶部5200から読み出す。そして識別部1400は、該読み出した領域識別器と、ステップS1100で抽出部1300が抽出した位置kの小領域の画像特徴量と、を用いて第1の実施形態と同様にして、位置kにおける小領域のクラスを識別する。その際、識別部1400は、図8のクラスインデックステーブルにおいて上記特定したクラステーブル番号に対応するクラステーブルを特定し、該特定したクラステーブルにおけるラベルcに対応するクラスを識別結果として出力する。
例えば、図7(b)における領域111~115は、ボケ量が少なく、像倍率の大きい領域であるため、クラステーブル番号=1の領域識別器を使って詳細なクラス分類を行う。もう少し距離が離れており、ボケの強い領域116では、クラステーブル番号=3の領域識別器を使って識別を行う。領域117と領域118はさらにボケ量が強く、遠景であるため、クラステーブル番号=6の領域識別器を使って識別を行う。これにより、各領域に対してクラス粒度の異なる認識結果を得ることになる。
[第3の実施形態]
第1,2の実施形態では、領域識別器へ入力する画像特徴量として常に同じ画像特徴量を利用する例を示した。本実施形態では、撮影情報によって抽出する画像特徴量を変化させる。
本実施形態に係る画像処理装置の機能構成例を図1(b)に示す。先ず、図1(b)に示した機能部のうち本実施形態に係る学習機能に係る機能部の動作について、図2(c)のフローチャートに従って説明する。図2(c)のフローチャートにおいて図2(a)に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。
ステップS2210では、抽出部2200は、ステップS2100で取得部2100が取得した学習データに含まれているそれぞれの学習画像について、該学習画像を複数の小領域に分割して該小領域から画像特徴量を抽出する。本実施形態では、抽出部2200として機能する特徴抽出器としてCNN(Convolutional Neural Network)を利用する。特徴抽出器としてのCNNは、AlexNetやVGGNetといったものが一般的に利用可能となっている。これらのCNNは、ILSVRC(ImageNet Large-scale Visual Recognition Challenge)の1000クラス識別問題に対して学習されたものである。その学習結果における最終段の全結合部分を除いたものを、一般的な画像認識の目的に対して特徴抽出器として利用することもできる。CNNを特徴抽出器として用いる場合、前述の小領域分割は必ずしも必要ではない。小領域分割を行わない場合には、各画素を一つの小領域とみなして、学習画像上の画素位置rを中心とした一定幅の周辺領域(受容野)を既存のCNNに入力する。これにより、その中間層出力信号を画像特徴量として羅列することで、それぞれの学習画像上の画素位置rにおける画像特徴量xを抽出する。小領域分割を行う場合には、小領域中の各画素からCNNによって得られた特徴量を平均して小領域の画像特徴量として用いる、などとしてもよい。以降の説明では小領域分割することを前提に説明するが、先に述べたように、画素を一つの小領域として扱えば、以降の説明が一般性を失うことはない。
ステップS2600では、学習部2600は、再設定されたクラスラベルを用いて新たな特徴抽出器を生成する。上記のR<θに対応するビンに対応するデータを利用して、特徴抽出器であるCNNを微調整(ファインチューニング)する。まず、図6(d)におけるハッチング部分250のデータを集めて新たにデータセットを作成する。特徴抽出器として利用していたCNNの前段部分に対して、後段に全結合層を追加する。このようにして準備したフルCNNに対して、前述したデータセットを用いてCNNを学習させる。このとき、クラス定義は前述のステップS2500においてクラスインデックステーブルに追加登録したクラステーブルで規定される粗い粒度のクラス定義に従う。過学習を防ぐための工夫として、後段の全結合層の学習係数を大きな値にし、前段の特徴抽出部分に関しては重み係数を小さな値にしておいてもよい。同様に過学習を防ぐ工夫として、前述の認識困難な撮影情報範囲におけるデータセットだけでなく、残りのデータも低い確率で学習データとして利用するようにしてもよい。このようにして学習されたCNNの前段部分を、新たな特徴抽出器として記憶部5400に格納する。
そして処理はステップS220に進み、抽出部2200は、この時点で記憶部5400に格納されているそれぞれの特徴抽出器を用いて、それぞれの学習画像から小領域の画像特徴量を抽出する。そしてその後、処理はステップS2300に進む。
得られた複数の特徴抽出器を利用した識別器全体の構成は図10のようになっている。図10の符号310は入力画像、符号320は入力画像に対応する撮影情報、符号330は特徴抽出器のひとつであり、符号340はその特徴抽出器を利用した領域識別器を示す。これら複数の領域識別器の出力を統合する統合識別器が符号350で示されている。統合識別器350の出力を全画素に関して算出することで、最終出力結果360が得られる。学習は2段階で行われる。図9に、図2(c)におけるステップS2300を詳細に分けたフローを示す。
ステップS2310では、学習部2300は、ここまで生成されてきた特徴抽出器を使った領域識別器を、それぞれ学習する。ここで領域識別器は、図10では符号340で示されている。特徴抽出器の数をNJ個とし、そのインデックスをj=1・・・NJとすると、NJ個の領域識別器を学習することになる。それぞれの領域識別器における教師ベクトルは、上記の式9と同様にして下記のように修正される。
Figure 0007142420000012
ここで、Crは位置rに割り当てられたクラスに含まれるラベルの集合である。ステップS2320では、ステップS2310にて学習されたNJ個の領域識別器を統合する統合識別器を学習する。統合識別器は図10の符号350に示されている。統合識別器の教師ベクトルは式12に示したものと同じである。統合識別器は、学習画像に対する前述のNJ個の領域識別器の出力するクラス尤度と、学習画像に対応する撮影情報を列挙したベクトルを入力ベクトルとして、学習を行う。生成された領域識別器は、記憶部5200に格納される。
次に、図1(b)に示した各機能部のうち本実施形態に係る識別機能に係る機能部の動作について、図2(b)のフローチャートに従って説明する。ステップS1100における処理は第1の実施形態と同様である。
ステップS1300では、抽出部1300は、記憶部5400に格納されているそれぞれの特徴抽出器を読み出す。そして抽出部1300は、読み出したそれぞれの特徴抽出器を用いて上記のステップS2200と同様にして、ステップS1100で取得部1100が取得した入力画像を複数の小領域に分割して該小領域から画像特徴量を抽出する。
ステップS1400では、識別部1400は、記憶部5400から、各特徴抽出器に対応する領域識別器と、それらを統合する統合識別器と、を読み出し、入力画像における各小領域のクラスを識別する。図10のようにそれぞれの特徴抽出器と領域識別器、統合識別器を組み合わせることで、入力画像の各小領域を識別する。
このようにして撮影情報によって分類困難になるクラスが特定され、そのような領域に対しては粗い粒度のクラスが設定され、かつ撮影情報によって適した特徴抽出器が得られるようになる。
[第4の実施形態]
第1の実施形態では、撮影情報として、画像上の各画素位置における像倍率及びボケ量といった、画像上の画素位置に応じて得られる情報であるものとした。しかし、撮影情報はこれに限らず、画像上の画素位置に関係なく、各画像1枚につき1つの値が得られる撮影情報を用いても良い。例えば、撮像装置の状態を表す、重力センサ値、温度情報、GPSによる位置情報、時間情報、撮影時の条件を表す絞り値、露出時間、ゲイン、撮影された画像におけるBv値、合焦距離、などを撮影情報として使用しても良い。
本実施形態では、撮影情報が、撮像装置が有する重力センサによって得られる該撮像装置の仰角(カメラ仰角)と、該撮像装置の撮影時間と、を含むケースについて説明する。確認データに含まれている確認画像をI1,I2,…,INと表した場合に、確認画像In(1≦n≦N)におけるカメラ仰角をαn、撮影時間をTnと表すこととする。
本実施形態に係る学習機能に係る各機能部の動作について、図2(a)のフローチャートに従って説明する。ステップS2100~S2400の各ステップにおける処理は第1の実施形態と同様である。ステップS2500では、設定部2500は、クラスcの識別率R(α,T,fc)を求める。識別率Rの算出手順は第1の実施形態と同様であるが、1つの確認画像Inにおけるすべての小領域に対応する仰角及び撮影時間が同じ(それぞれαn及びTn)である。つまり、小領域の位置における像倍率Sの代わりに小領域が属する画像の仰角α、小領域の位置におけるボケ量の代わりに小領域が属する画像の撮影時間Tを用いること以外は第1の実施形態と同様である。
次に、本実施形態に係る識別機能に係る各機能部の動作について、図2(b)のフローチャートに従って説明する。ステップS1100及びステップS1300における処理は第1の実施形態と同様である。ステップS1400では識別部1400は、入力画像の撮影情報から該入力画像を撮像したときの撮像装置のカメラ仰角と該入力画像の撮影時間と、を取得する。そして識別部1400は、第1の実施形態と同様にして、入力画像上の各小領域について、該小領域が属するクラスのラベルcを特定する。次に識別部1400は、図5(b)のクラステーブルの使用条件において、入力画像を撮像したときの撮像装置のカメラ仰角と該入力画像の撮影時間との組み合わせに該当するクラステーブル番号を特定する。そして識別部1400は、第1の実施形態と同様、該特定したクラステーブル番号に対応するクラステーブルおいて小領域が属するクラスのラベルcに対応するクラスを、該小領域に対するクラス識別結果として出力する。
なお、上記の各実施形態の一部若しくは全部を適宜組み合わせて使用しても良いし、選択的に使用しても良い。例えば、上記の各実施形態では、1つの画像処理装置が学習機能と識別機能の両方を有するものとして説明したが、学習機能を有する装置と、識別機能を有する装置と、に分けても良い。この場合、記憶部5200はそれぞれの装置で別個に設けても良く、学習機能を有する装置において記憶部5200に格納された情報を識別機能を有する装置の記憶部5200にコピーすればよい。これは記憶部5400についても同様である。また、図1(a)、(b)に示した構成を有する画像処理装置を2以上の装置によって構成しても良い。また、上記の各実施形態において説明上使用した数値は何れも例示的なものであり、上記の各実施形態がこれらの数値に限定されるものではない。
[第5の実施形態]
図1(a)、(b)に示した各機能部はハードウェアで実装しても良いし、記憶部5100,5200,5300,5400以外の機能部をソフトウェア(コンピュータプログラム)で実装しても良い。前者の場合、ハードウェアで実装した図1(a)、(b)に示した各機能部は、ディジタルカメラなどの撮像装置に組み込み回路として搭載することができる。後者の場合、記憶部5100,5200,5300,5400として機能する1以上のメモリを有し、且つこのソフトウェアを実行可能なコンピュータ装置は、画像処理装置に適用可能である。なお、記憶部5100,5200,5300,5400は画像処理装置に対して着脱可能なメモリであっても良い。画像処理装置に適用可能なコンピュータ装置のハードウェア構成例について、図11(b)のブロック図を用いて説明する。
CPU1101は、RAM1102やROM1103に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU1101は、コンピュータ装置全体の動作制御を行うと共に、画像処理装置が行うものとして上述した各処理を実行若しくは制御する。
RAM1102は、ROM1103や外部記憶装置1106からロードされたコンピュータプログラムやデータ、I/F(インターフェース)1107を介して外部から受信したデータを格納するためのエリアを有する。更にRAM1102は、CPU1101が各種の処理を実行する際に用いるワークエリアを有する。このようにRAM1102は、各種のエリアを適宜提供することができる。ROM1103には、書換不要のコンピュータプログラムやデータが格納されている。
操作部1104は、マウスやキーボードなどのユーザインターフェースにより構成されており、ユーザが操作することで各種の指示をCPU1101に対して入力することができる。例えば、ユーザは操作部1104を操作することで、上記の学習機能の動作開始指示や学習画像の選択指示、入力画像の入力指示や入力画像に対する識別開始指示などをCPU1101に対して入力することができる。
表示部1105は、CRTや液晶画面などにより構成されており、CPU1101による処理結果を画像や文字などでもって表示することができる。例えば、表示部1105の表示画面には、学習画像、確認画像、入力画像、識別結果、処理過程で算出される様々な数値、などを表示することができる。なお、表示部1105は、タッチパネル画面であっても良い。
外部記憶装置1106は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。外部記憶装置1106には、OS(オペレーティングシステム)や、画像処理装置が行うものとして上述した各処理をCPU1101に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。外部記憶装置1106に保存されているコンピュータプログラムには、図1(a)、(b)において記憶部5100,5200,5300,5400以外の各機能部の機能をCPU1101に実行させるためのコンピュータプログラムが含まれている。また外部記憶装置1106に保存されているデータには、上記の説明において既知の情報として説明したもの(閾値など)や、記憶部5100,5200,5300,5400に保存されているものとして上述した各種のデータが含まれている。外部記憶装置1106に保存されているコンピュータプログラムやデータは、CPU1101による制御に従って適宜RAM1102にロードされ、CPU1101による処理対象となる。なお、記憶部5100,5200,5300,5400は外部記憶装置1106やRAM1102、ROM1103などのメモリによって構成される。
I/F1107は、外部の装置との間のデータ通信を行うためのインターフェースとして機能するものである。例えば、I/F1107には撮像装置を接続することができ、該撮像装置が撮像した撮像画像を学習画像や確認画像、入力画像としてI/F1107を介して外部記憶装置1106やRAM1102に取得することができる。
上記のCPU1101、RAM1102、ROM1103、操作部1104、表示部1105、外部記憶装置1106、I/F1107は何れもバス1108に接続されている。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
2100:取得部 2200:抽出部 2300:学習部 2400:評価部 2500:設定部

Claims (16)

  1. 画像処理装置であって、
    画像のクラス識別を行う識別器の学習を、画像特徴に基づいて行う学習手段と、
    前記画像から得られる像倍率とボケ量の少なくとも何れかに予め対応づいたクラスの粒度に基づいて、前記識別器が前記画像のクラス識別において識別するクラスの粒度を決定する決定手段と
    を有し、
    前記学習手段は、前記決定手段により決定された粒度でのクラス識別の結果を出力するように前記識別器の学習を行うことを特徴とする画像処理装置。
  2. 前記学習手段は、前記決定手段により決定された粒度でのクラス識別を行うように、前記像倍率と前記ボケ量に対応する識別器の学習を新たに行うことを特徴とする請求項1に記載の画像処理装置。
  3. 前記決定手段は、クラスが既知で前記像倍率と前記ボケ量を有する画像に対して前記識別器を用いた第1の粒度でのクラス識別の正解率が閾値未満となる場合、前記第1の粒度よりも荒い第2の粒度を、前記識別器がクラス識別において識別するクラスの粒度として決定し、
    前記学習手段は、前記第2の粒度でのクラス識別を行うように、前記識別器の学習を行うことを特徴とする請求項1または2に記載の画像処理装置。
  4. 前記学習手段は、前記第2の粒度でのクラス識別を行うように、前記識別器の再学習を行うことを特徴とする請求項3に記載の画像処理装置。
  5. 前記決定手段は、第1の画像群を用いて前記第1の粒度でのクラス識別を行うために学習された前記識別器による、前記第1の画像群と異なる第2の画像群のクラス識別の正解率が前記閾値未満となる場合には、前記第2の粒度を、前記識別器がクラス識別において識別するクラスの粒度として決定することを特徴とする請求項3または4に記載の画像処理装置。
  6. 前記決定手段は、前記第2の画像群のクラス識別の正解率が前記閾値未満でない場合には、前記第1の粒度を、前記識別器がクラス識別において識別するクラスの粒度として決定することを特徴とする請求項5に記載の画像処理装置。
  7. 前記学習手段は、前記第2の画像群のうち前記正解率が閾値未満となるような何れかの画像の撮影情報と、前記第2の粒度と、を対応づけることを特徴とする請求項5または6に記載の画像処理装置。
  8. 前記識別器は、画像の領域のクラス識別を行う識別器であることを特徴とする請求項1乃至7の何れか1項に記載の画像処理装置。
  9. 更に、画像の画像特徴を抽出する特徴抽出器の学習を行う手段を有することを特徴とする請求項1乃至8の何れか1項に記載の画像処理装置。
  10. 更に、
    入力画像を取得する手段と、
    前記入力画像の画像特徴を前記学習手段による学習済みの識別器に入力することで得られるクラスを、該入力画像の像倍率とボケ量に対応づけられた粒度のクラスで識別する識別手段と
    を有することを特徴とする請求項1乃至9の何れか1項に記載の画像処理装置。
  11. 前記識別手段は、前記入力画像の画像特徴を前記学習手段による学習済みの識別器に入力することで得られるクラスを、像倍率が大きいほどより細かい粒度のクラスで識別し、像倍率が小さいほどより荒い粒度のクラスで識別することを特徴とする請求項10に記載の画像処理装置。
  12. 前記識別手段は、前記入力画像の画像特徴を前記学習手段による学習済みの識別器に入力することで得られるクラスを、ボケ量が大きいほどより荒い粒度のクラスで識別し、ボケ量が小さいほどより細かい粒度のクラスで識別することを特徴とする請求項10または11に記載の画像処理装置。
  13. 入力画像から得られる像倍率とボケ量の少なくとも何れかを取得する取得手段と、
    前記取得手段により取得された像倍率とボケ量の少なくとも何れかに予め対応づいたクラスの粒度に基づいて、前記入力画像を識別するクラスの粒度を決定する決定手段と、
    前記決定手段により決定された粒度でのクラス識別の結果を出力するように学習された識別器を用いて、前記入力画像のクラス識別を行う識別手段と、
    を有することを特徴とする画像処理装置。
  14. 学習方法であって、
    画像のクラス識別を行う識別器の学習を、画像特徴に基づいて行う学習工程と、
    前記画像から得られる像倍率とボケ量の少なくとも何れかに予め対応づいたクラスの粒度に基づいて、前記識別器が前記画像のクラス識別において識別するクラスの粒度を決定する決定工程と
    を有し、
    前記学習工程では、前記決定工程において決定された粒度でのクラス識別の結果を出力するように前記識別器の学習を行うことを特徴とする学習方法。
  15. 入力画像から得られる像倍率とボケ量の少なくとも何れかを取得する取得工程と、
    前記取得工程で取得された像倍率とボケ量の少なくとも何れかに予め対応づいたクラスの粒度に基づいて、前記入力画像を識別するクラスの粒度を決定する決定工程と、
    前記決定工程で決定された粒度でのクラス識別の結果を出力するように学習された識別器を用いて、前記入力画像のクラス識別を行う識別工程と、
    を有することを特徴とする画像処理方法。
  16. コンピュータを、請求項1乃至13の何れか1項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。
JP2017134949A 2017-07-10 2017-07-10 画像処理装置、学習方法、学習済モデル、画像処理方法 Active JP7142420B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017134949A JP7142420B2 (ja) 2017-07-10 2017-07-10 画像処理装置、学習方法、学習済モデル、画像処理方法
US16/028,633 US11055584B2 (en) 2017-07-10 2018-07-06 Image processing apparatus, image processing method, and non-transitory computer-readable storage medium that perform class identification of an input image using a discriminator that has undergone learning to perform class identification at different granularities

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017134949A JP7142420B2 (ja) 2017-07-10 2017-07-10 画像処理装置、学習方法、学習済モデル、画像処理方法

Publications (3)

Publication Number Publication Date
JP2019016298A JP2019016298A (ja) 2019-01-31
JP2019016298A5 JP2019016298A5 (ja) 2020-08-20
JP7142420B2 true JP7142420B2 (ja) 2022-09-27

Family

ID=64904255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017134949A Active JP7142420B2 (ja) 2017-07-10 2017-07-10 画像処理装置、学習方法、学習済モデル、画像処理方法

Country Status (2)

Country Link
US (1) US11055584B2 (ja)
JP (1) JP7142420B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220207863A1 (en) 2019-05-23 2022-06-30 Konica Minolta, Inc. Object detection device, object detection method, program, and recording medium
JP7424374B2 (ja) 2019-05-23 2024-01-30 コニカミノルタ株式会社 物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体
JP7441654B2 (ja) * 2020-01-21 2024-03-01 セコム株式会社 認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム
JP7441656B2 (ja) * 2020-01-23 2024-03-01 セコム株式会社 認識装置、学習装置、認識システム、認識方法、及び認識プログラム
US11379991B2 (en) * 2020-05-29 2022-07-05 National Technology & Engineering Solutions Of Sandia, Llc Uncertainty-refined image segmentation under domain shift
WO2022153474A1 (ja) * 2021-01-15 2022-07-21 日本電信電話株式会社 画像処理装置、画像処理方法、およびプログラム
JP7280993B1 (ja) 2022-03-25 2023-05-24 ソフトバンク株式会社 生成装置、生成方法および生成プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110349A (ja) 2007-10-31 2009-05-21 Toshiba Corp 物体認識装置及びその方法
JP2013250809A (ja) 2012-05-31 2013-12-12 Casio Comput Co Ltd 多クラス識別器、方法、およびプログラム
JP2016038774A (ja) 2014-08-08 2016-03-22 シャープ株式会社 人物識別装置
JP2017117025A (ja) 2015-12-22 2017-06-29 キヤノン株式会社 パターン識別方法及びその装置、そのプログラム

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774631A (en) * 1994-05-03 1998-06-30 Chiabrera; Alessandro E. 3-D reconstruction of objects by artificial intelligence: apparatus and method
US5761385A (en) * 1995-09-05 1998-06-02 Loral Defense Systems Product and method for extracting image data
US6724942B1 (en) * 1999-05-24 2004-04-20 Fuji Photo Film Co., Ltd. Image processing method and system
US7043075B2 (en) * 2001-09-27 2006-05-09 Koninklijke Philips Electronics N.V. Computer vision system and method employing hierarchical object classification scheme
JP4155875B2 (ja) 2003-06-16 2008-09-24 シャープ株式会社 画像撮像装置
US7783115B2 (en) * 2004-12-14 2010-08-24 Fujifilm Corporation Apparatus and method for setting degrees of importance, apparatus and method for representative image selection, apparatus and method for printing-recommended image selection, and programs therefor
US7756309B2 (en) * 2005-07-27 2010-07-13 Bioimagene, Inc. Method and system for storing, indexing and searching medical images using anatomical structures of interest
JP4835135B2 (ja) * 2005-12-06 2011-12-14 ソニー株式会社 画像表示装置、画像表示方法、および、プログラム
KR101341095B1 (ko) * 2007-08-23 2013-12-13 삼성전기주식회사 야경 환경에서 최적의 화질을 갖는 영상 획득 장치 및 방법
US8122024B2 (en) * 2008-12-12 2012-02-21 Research In Motion Limited Method and system for storing multiple geo-tagged media files and rendering the same
US8396287B2 (en) * 2009-05-15 2013-03-12 Google Inc. Landmarks from digital photo collections
US9355337B2 (en) * 2009-08-25 2016-05-31 Xerox Corporation Consistent hierarchical labeling of image and image regions
US8068677B2 (en) * 2009-08-25 2011-11-29 Satyam Computer Services Limited System and method for hierarchical image processing
US8532360B2 (en) * 2010-04-20 2013-09-10 Atheropoint Llc Imaging based symptomatic classification using a combination of trace transform, fuzzy technique and multitude of features
US8909563B1 (en) * 2011-06-17 2014-12-09 Google Inc. Methods, systems, and programming for annotating an image including scoring using a plurality of trained classifiers corresponding to a plurality of clustered image groups associated with a set of weighted labels
JP5963756B2 (ja) * 2011-12-13 2016-08-03 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America コンテンツ選択装置、およびコンテンツ選択方法
US9025811B1 (en) * 2013-01-02 2015-05-05 Google Inc. Performing image similarity operations using semantic classification
US9679252B2 (en) * 2013-03-15 2017-06-13 Qualcomm Incorporated Application-controlled granularity for power-efficient classification
US9466012B2 (en) * 2013-07-11 2016-10-11 Radiological Imaging Technology, Inc. Phantom image classification
WO2015054666A1 (en) * 2013-10-10 2015-04-16 Board Of Regents, The University Of Texas System Systems and methods for quantitative analysis of histopathology images using multi-classifier ensemble schemes
US10540541B2 (en) * 2014-05-27 2020-01-21 International Business Machines Corporation Cognitive image detection and recognition
US20170109615A1 (en) * 2015-10-16 2017-04-20 Google Inc. Systems and Methods for Automatically Classifying Businesses from Images
US9830534B1 (en) * 2015-12-16 2017-11-28 A9.Com, Inc. Object recognition
CN105740402B (zh) * 2016-01-28 2018-01-02 百度在线网络技术(北京)有限公司 数字图像的语义标签的获取方法及装置
US11036915B2 (en) * 2016-03-10 2021-06-15 Adobe Inc. Dynamic font similarity
EP3427192A4 (en) * 2016-03-11 2019-03-27 Magic Leap, Inc. STRUCTURAL LEARNING IN NEURAL FOLDING NETWORKS
US10210613B2 (en) * 2016-05-12 2019-02-19 Siemens Healthcare Gmbh Multiple landmark detection in medical images based on hierarchical feature learning and end-to-end training
US10440366B2 (en) * 2016-07-01 2019-10-08 Intel Corporation Method and system of video coding using content based metadata
US11379958B2 (en) * 2016-09-02 2022-07-05 Casio Computer Co., Ltd. Diagnosis assisting device, and image processing method in diagnosis assisting device
US9928448B1 (en) * 2016-09-23 2018-03-27 International Business Machines Corporation Image classification utilizing semantic relationships in a classification hierarchy
US10607118B2 (en) * 2017-12-13 2020-03-31 Microsoft Technology Licensing, Llc Ensemble model for image recognition processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110349A (ja) 2007-10-31 2009-05-21 Toshiba Corp 物体認識装置及びその方法
JP2013250809A (ja) 2012-05-31 2013-12-12 Casio Comput Co Ltd 多クラス識別器、方法、およびプログラム
JP2016038774A (ja) 2014-08-08 2016-03-22 シャープ株式会社 人物識別装置
JP2017117025A (ja) 2015-12-22 2017-06-29 キヤノン株式会社 パターン識別方法及びその装置、そのプログラム

Also Published As

Publication number Publication date
JP2019016298A (ja) 2019-01-31
US11055584B2 (en) 2021-07-06
US20190012582A1 (en) 2019-01-10

Similar Documents

Publication Publication Date Title
JP7142420B2 (ja) 画像処理装置、学習方法、学習済モデル、画像処理方法
JP7458328B2 (ja) マルチ分解能登録を介したマルチサンプル全体スライド画像処理
US11037291B2 (en) System and method for detecting plant diseases
Tong et al. Salient object detection via bootstrap learning
Xu et al. Learning-based shadow recognition and removal from monochromatic natural images
US9898686B2 (en) Object re-identification using self-dissimilarity
CN111797653B (zh) 基于高维图像的图像标注方法和装置
CN108717524B (zh) 一种基于双摄手机和人工智能系统的手势识别系统
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
KR20200078314A (ko) 시맨틱 분할에 의해 지배적 장면 분류를 제공하는 시스템 및 방법
TW201828253A (zh) 航拍影像自動物體偵測之方法及系統
JP7026456B2 (ja) 画像処理装置、学習装置、フォーカス制御装置、露出制御装置、画像処理方法、学習方法、及びプログラム
CN104504365A (zh) 视频序列中的笑脸识别系统及方法
WO2017181892A1 (zh) 前景分割方法及装置
CN107944403B (zh) 一种图像中的行人属性检测方法及装置
JP6702716B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP7350208B2 (ja) 画像処理装置、画像処理方法、及びプログラム
Gawande et al. SIRA: Scale illumination rotation affine invariant mask R-CNN for pedestrian detection
JP6547626B2 (ja) 画像の特徴量に関する処理システム、処理方法及びプログラム
CN109493371A (zh) 一种基于视觉的四旋翼无人机行人跟踪方法
CN113011416A (zh) 航拍图像自动物体侦测的方法及系统
JP2018022416A (ja) 顔方向推定装置及びそのプログラム
Nakhatovich et al. Applications of classical and deep learning techniques for polar bear detection and recognition from aero photography
Rao et al. Convolutional Neural Network Model for Traffic Sign Recognition
Gao et al. Traffic signs recognition based on PCA-SIFT

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200710

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200710

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220707

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220707

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220719

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220913

R151 Written notification of patent or utility model registration

Ref document number: 7142420

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151