JP2018092610A - 画像認識装置、画像認識方法及びプログラム - Google Patents

画像認識装置、画像認識方法及びプログラム Download PDF

Info

Publication number
JP2018092610A
JP2018092610A JP2017194887A JP2017194887A JP2018092610A JP 2018092610 A JP2018092610 A JP 2018092610A JP 2017194887 A JP2017194887 A JP 2017194887A JP 2017194887 A JP2017194887 A JP 2017194887A JP 2018092610 A JP2018092610 A JP 2018092610A
Authority
JP
Japan
Prior art keywords
image
recognition
images
recognition apparatus
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017194887A
Other languages
English (en)
Inventor
俊太 舘
Shunta Tachi
俊太 舘
優和 真継
Masakazu Matsugi
優和 真継
小森 康弘
Yasuhiro Komori
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2018092610A publication Critical patent/JP2018092610A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/676Bracketing for image capture at varying focusing conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/73Circuitry for compensating brightness variation in the scene by influencing the exposure time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】変動に対して頑健な画像認識を行えるようにする画像認識装置、画像認識方法及びプログラムを提供する。
【解決手段】画像認識装置は、画像を取得する取得手段と、取得した画像のパラメータを変更する変更手段と、パラメータが異なる画像ごとに特徴量を抽出する抽出手段と、抽出した特徴量に基づいて、パラメータの異なる画像ごとに画像の認識を行う認識手段と、認識手段による認識結果を統合する統合手段とを有する。方法は、入力画像の画像パラメータを変更して生成した複数の画像それぞれから特徴量を抽出して、それらの特徴量に基づいて、各画像に含まれる領域のカテゴリーを判定し、その結果を統合する。
【選択図】図1

Description

本発明は、入力画像中の被写体の検出、被写体ごとに領域を分割する領域分割、および画像のシーンを判別するシーン判別等の画像認識の技術に関する。
画像中の被写体を学習、認識する際、理想的には多数の撮像条件および複数の撮像機器で被写体を撮影して学習事例とすることが望ましい。少数の学習事例から学習を行うと、被写体そのものの特徴ではなく、露出値による明るさや暗さといった撮影時の撮像条件や、レンズのボケといった撮影機器の個々の特性など、被写体に無関係な要素まで特徴の一部と誤って学習してしまうことがある。
このような問題に対し、特許文献1には、画像を加工することにより学習事例のバリエーションを増やすことが開示されている。画像の加工とは、具体的には、ノイズの印加、輝度値の変更、アフィン変形の操作等である。
米国特許出願公開第2004/0015464号公報
R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, and S. Susstrunk, SLIC Superpixels Compared to State−of−the−art Superpixel Methods, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34, num. 11, p. 2274 − 2282, 2012. B. Wilburn, M. Levoy, et.al., High performance imaging using large camera arrays, pp.765−776, Proc of SIGGRAPH’05, 2005 Koen E. A. van de Sande, Jasper R. R. Uijlings, Theo Gevers, Arnold W.M. Smeulders, Segmentation As SelectiveSearch for Object Recognition, IEEE International Conference on Computer Vision, 2011 A. Krizhevsky et al., ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012
しかしながら、特許文献1の方法では、画像の加工によるバリエーションは実際の画像の変動の分布とは部分的に異なってしまう。例えば、学習事例として赤い車の画像があり、輝度値の変更および画像の変形によって学習事例を増やしたとする。しかし、ここでは車体の色についての変更を行っていないため、車の学習事例中の「赤い車」の割合が著しく増える。その結果、認識が変動に対して頑健になる一方で、赤い領域の物体があればそれは車である、といった過学習が誘発され易くなってしまう。
そこで、本発明は、変動に対して頑健な画像認識を行えるようにすることを目的とする。
上記課題を解決するために、本発明は、画像を取得する取得手段と、前記取得した画像のパラメータを変更する変更手段と、前記パラメータが異なる画像ごとに特徴量を抽出する抽出手段と、前記抽出した特徴量に基づいて、前記パラメータの異なる画像ごとに前記画像の認識を行う認識手段と、前記認識手段による認識結果を統合する統合手段と、を有することを特徴とする。
本発明によれば、変動に対して頑健な画像認識を行えるようになる。
第1の実施形態に係る画像認識装置の概略ブロック図。 第1の実施形態に係る画像認識処理のフローチャート。 第1の実施形態における画像認識処理の結果を示す図。 第1の実施形態に係る画像認識処理の効果を説明する図。 第1の実施形態に用いられる撮像装置の構成を説明する図。 第2の実施形態に係る画像認識処理のフローチャート。 第2の実施形態において画像パラメータ変更部が行う幾何的変形の例を示す図。 第2の実施形態において結果統合部の変形例を説明する図。 第3の実施形態に係る画像認識処理のフローチャート。 第3の実施形態において人体検出処理の結果を示す図。 第3の実施形態において局所領域を抽出する処理の変形例のフローチャート。 第3の実施形態において局所領域を抽出する処理の概略を説明する図。 第1の実施形態の変形例に係る画像認識処理の概要を説明する図。 第1の実施形態の変形例に係る画像認識処理のフローチャート。
[第1の実施形態]
以下、本発明の第1の実施形態の詳細について図面を参照しつつ説明する。本実施形態は、画像認識タスクが、入力画像の被写体のカテゴリーを判別し、その領域ごとに分ける意味的領域分割の例について説明する。なお、被写体のカテゴリーとしては、空、人体、草木、建物、車、道路といった一般的なC個のカテゴリーとする。
図1は、本実施形態に係る画像認識装置の機能構成を示すブロック図である。本画像認識装置は、画像認識を行う対象の画像を取得するための画像取得部101、取得された画像のパラメータを変更する画像パラメータ変更部102、画像パラメータの異なる複数の画像からそれぞれ特徴を抽出する特徴量抽出部103を有する。また、前記特徴量に基づいてそれぞれの画像について被写体が何であるかを認識する被写体認識部104、上記の複数の認識結果を統合して最終的な判別を行う認識結果統合部105、上記認識結果を出力する結果出力部106を有する。特徴量抽出部103は、入力画像から局所領域を抽出する局所領域抽出部103a、上記局所領域より特徴量を抽出する局所領域特徴量抽出部103bにより構成されている。
なお、本実施形態の画像認識装置は、CPU、ROM、RAM、HDD等のハードウェア構成を備え、CPUがROMやHD等に格納されたプログラムを実行することにより、例えば、上述の各機能構成や後述するフローチャートの処理が実現される。RAMは、CPUがプログラムを展開して実行するワークエリアとして機能する記憶領域を有する。ROMは、CPUが実行するプログラム等を格納する記憶領域を有する。HDは、CPUが処理を実行する際に要する各種のプログラムに関するデータ等を含む各種のデータを格納する記憶領域を有する。
次に、図2を用いて、本実施形態の画像認識装置による画像認識処理の詳細について説明する。まず、ステップS1で、画像取得部101が、カメラ等の撮像装置等から画像を1枚取得する。ここでの画像は、静止画像、もしくは動画像中の1フレームの画像である。
次に、ステップS2からステップS7までは、n回の繰り返し処理である。ここでは、画像のパラメータの異なるn個の画像を作成し、それぞれについて被写体の判別を行う。なお、本実施形態では、以下の手順をループとして記述するが、これらを並行に処理してもよい。
ステップS3では、画像パラメータ変更部102が画像のパラメータの変更を行う。具体的には、以下の数式1で表わされるガンマ値変換処理により画像の全体的な輝度値を変更する。
Ii(R)=(I0(R))γi
Ii(G)=(I0(G))γi
Ii(B)=(I0(B))γi ・・・(数式1)
ただし、Iiはガンマ値変換を行って作成したi番目の画像であり、これを以降バリエーション画像Iiと呼ぶ。I0は、画像取得部101が取得した静止画像である。I0(・)は、画像の各RGBチャンネルの値である。また、γiはバリエーション画像Iiのガンマ値のパラメータである。なお、画像I0の各RGBチャンネルの値は、予め画像中の最小値と最大値が0と1となるように正規化してあるものとする。
ここで、γ=1であれば、上記変換後の画素値は元画像I0と同じ値である。γ>1であれば画像は全体的に暗く、γ<1であれば全体的に明るく変換される。画像のバリエーションの数はn=5とし、γ1〜γ5の値をΓ=[1/2,1/√2,1,√2,2]とする。撮像時に露出が適切に設定されなかった画像でも、上記のように複数パターンのガンマ値の変換処理を施すことで、変換後の画像のいずれかが適正露出で撮像した画像に近くなることが期待できる。
次に、ステップS4で、特徴量抽出部103が、各領域を判別するための特徴を抽出する。ここでは、まず、局所領域抽出部103aが、バリエーション画像Iiから局所領域を抽出する。具体的には、非特許文献1等の方法を用いて、Super−pixelと呼ばれる色の類似した画素の塊に画像を分ける。
図3は、本実施形態における画像認識処理の結果を示す図であり、図3(A)が入力画像、図3(B)が局所領域抽出の処理を施した結果を示している。図3(B)では、n個あるバリエーションの画像のうちの2つについての処理の結果を示している(記号B1およびBnを付して示す)。ここでは、Super−pixelの手法として非特許文献1で開示されているSLICと呼ばれる手法を用いており、局所領域の一部にSP11〜SP16の記号を付して示している。
ステップS5では、局所領域特徴量抽出部103bが、前段で得られた局所領域から特徴量を抽出する。ここでは、色の分布のヒストグラムやLocal Binary Pattern(LBP)といった一般的な特徴量を抽出するものとする。
ステップS6で、被写体認識部104が、局所領域ごとにカテゴリー判別を行う。被写体認識部104は、サポートベクトルマシン(以下SVMと略す)の識別器からなる。SVMには、予め学習画像としてカテゴリーの教師値が与えられ、局所領域の特徴量を入力変数、正解カテゴリーを目標変数として、与えられた入力変数に対して正しいカテゴリー(目標値)が出力できるように前もって学習が行われている。なお、SVMは基本的に2クラス判別器であるため、対象カテゴリーを正事例とし、その他の全てのカテゴリーを負事例としてカテゴリーごとに学習を行い、C個のSVMを用意するものとする。このステップS6での判別処理の結果、1つの局所領域に対してC個のカテゴリーの判別スコアが得られる。
なお、ここではSVMの学習時にはガンマ値の変換は行わず、取得した元画像だけを用いて学習するとする。そして判別時には、どのバリエーション画像Iiに対しても上記で学習した判別辞書のSVMを用いることとする。このようにして局所領域ごとに画像のカテゴリーを判別した結果例を、図3(C)に記号C1およびCnを付して示す。同図では、最大のSVMスコアが得られたカテゴリーの名称を各領域に付して示している。そして、このようにしてステップS7までのn回の繰り返し処理が済んだらループを終了する。
次に、ステップS8で、認識結果統合部105がバリエーション画像I1からInまでのカテゴリー判別結果を統合して最終的な結果を生成する。この処理では、画素単位で判別と統合を行う。各画素の最終的なカテゴリーの尤度は下記の数式2を用いて計算される。
P(L(x,y)=c)=σ(ΣΣβij×Sij(x,y)+β) ・・・(数式2)
ただし、Sij(x,y)は、前段で判別したSVMの判別結果のスコアであり、バリエーション画像Iiの画素(x,y)のカテゴリーjらしさを意味する。βij,βは、学習係数である。全ての学習係数{β}は、学習データの教師値に対して出力結果の誤差が最少になるようにロジスティック回帰と呼ばれる一般的な学習手法で予め決定されている。また、σ(・)は下記の数式3で定義されるシグモイド関数である。
σ(x)=1/(1+exp−x) ・・・(数式3)
このように、ステップS8で二段階目の判別を行うことにより、画像の画素(x,y)ごとに、カテゴリーcらしいかどうかの最終的な尤度P(L(x,y)=c)が得られる。
最後に、ステップS9では、画像認識装置のCPUが、このようにして得られたカテゴリーの尤度の結果を出力して終了する。図3(D)には、その出力例として、各画素の最大の尤度のカテゴリーの名称を付して出力した例を示す。以上が、本実施形態の画像認識処理の手順の説明となる。
本実施形態では、上述の構成を備えることによって、説明した図3(A)〜(D)に示した入力から出力に至るまでの処理において、以下の3つの効果を奏することができる。
(1.画像パラメータの変更による判別精度の向上)
図3(C)の結果画像Cにおいて、車のフロントガラスの一部の領域301が空と誤って認識されている。この誤判別は、図中で車のフロントガラスが空を反射して輝いているために、特徴量が空と類似していることが原因である。このような被写体は、通常の露出値で撮像した画像では判別が難しい。ただし、ガンマ値変換で画像を暗く変更すると、ガラスと空の二つのテクスチャの違いが際立ち、判別が容易になることがある。同様の現象として、画像全体を明るく変換すると陰影の中の暗い被写体が見易くなって区別が容易になることが挙げられる。
これに対し、本実施形態では、画像パラメータの変更を行って画像を認識することにより、後に統合すると結果の精度が向上する可能性がある。本実施形態では、図3(D)に示す統合後に、これが正しく訂正される様子を示している。
(2.非系統的な誤判別の低減)
学習データが少ない場合、学習事例の輝度や色味の微妙な違いまでを被写体カテゴリーの特徴であると誤って過学習する傾向がある。そのような場合、僅かな特徴量の違いによって局所領域が正しく判別できたり、できなかったりする。その結果の例を図3(C)の領域302a〜302cとして示す。同図の画像の車の車体の色は赤であることを想定しており、僅かな輝度や色味の違いによって、部分的に夕焼けの空と誤りやすく、誤判別が起きているものである。
上記の誤りは非系統的なものであり、特徴量や位置に対して不規則に生じる。そのため本実施形態のように複数のバリエーション画像の認識を行って統合すれば、平均化の効果によって誤りが低減し、結果を安定させることができる。例として、統合後にこれが正しく訂正される様子を図3(D)に示している。
(3.画像パラメータ変更に伴う局所領域の変化)
最後に、被写体の領域の一部が欠損したり、はみ出したりする誤判別が起こることがある。この誤りの具体例を、図3(C)に記号303a〜303eを付して示す。この誤りは、前段の局所領域抽出部103aによる局所領域(Super−pixel)の抽出の失敗に起因する。例えば、図3(B)の記号SP16を付した局所領域は、人物の帽子の一部と背景にまたがった領域を抽出しているため、後段の領域判別303aの境界にも誤りが生じているものである。
一般に、Super−pixelの抽出結果は常に完全ではなく、たまたま色が類似している等の理由で異なるカテゴリー間をまたぐ局所領域が生じることがある。このような誤り(未分割)を防ぐためには、Super−pixelのサイズを小さくする必要があるが、小さすぎる局所領域は特徴量が安定せず、領域判別の精度そのものを下げてしまう(過分割)。未分割も過分割もない理想的な局所領域を得ることは領域分割と等価な困難な課題である。そのため、局所領域をベースとする領域判別手法の結果はどうしても図3(C)に示すような「欠け」や「バリ状」の判別の誤りを含みやすい。
この「欠け」や「バリ」の問題に対処するために、従来の方法では、後段で条件付き確率場(Conditional Random Field)などのスムージング処理を行うことも多かった。これに対し、本実施形態では、複数の領域判別の結果を統合することで上記問題の発生を軽減している。
ここで、重要なのは、局所領域の形状が画像のバリエーションごとに微妙に異なっていることである。図の例では、図3(B)のB1とBnの局所領域抽出の結果がそれぞれ異なっている。同図では、比較し易いように一部の局所領域に記号SP11〜SP16、及び記号SPn1〜SPn6を付して示す。本実施形態で用いたSLICのようなSuper−pixel手法は、2つの基準に基づいてSuper−pixelを生成する。(1)色の類似性が近い画素同士をなるべくまとめる。(2)領域の形状がなるべくコンパクトになるようにする。Super−pixelは、この2つの基準の微妙なバランスの元に作られる。そのため、画像全体の輝度値を変化させると、Super−pixelの形状に変化が生じ、「欠け」や「バリ」の場所も変動する。
このように形状がそれぞれ微妙に異なる複数の局所領域を被写体認識部104で認識させると、「欠け」や「バリ」のある局所領域(例えば局所領域SP16)についてはC個いずれのカテゴリーに関しても低い判別スコアが得られる傾向がある。対して、正しい輪郭が得られている局所領域(例えば局所領域SPn6)については、正しいカテゴリーについて高い判別スコアが得られる傾向がある。そのため、これらの判別スコアを統合した最終結果は、正しい結果がより優先され、図3(D)で示されるように個々の判別結果よりも境界の精度の高い結果が得られる。
(従来技術との比較)
ここで、本実施形態と従来技術の方法との差異について、図4を用いて説明する。2つの方法はいずれも、少ない学習事例からいかに画像のパラメータの変動に影響されずに認識を行うかという課題を解決するものである。目的は同じであるが、その構成、効果は以下のように相違する。
図4(A)は、特許文献1等にあるような学習データを加工して増やす従来の方法である。従来の方法では、画像のパラメータを変更して複数枚の画像を合成し、これを全て学習することで、明暗の違いといった変動に左右されないような判別辞書を得ることを目指す。同図には学習事例に変動を加えて加工し、作成したデータの特徴空間上の分布の様子を示している。同図に示すように、合成後のデータは多かれ少なかれ元のデータ(例として記号401aを付して示す)の周囲に低次元の多様態として分布し易い。この合成後のデータに基づいて学習を行うと、識別境界402aのように局所的で細かな境界が生成される。同境界は汎化性能が低いため、テストデータ403aを判別させたときの結果の信頼度が低い。また、特徴量の僅かな違いによって結果が不安定に変動し易い。
これに対して、本実施形態は、図4(B)に示すように学習データの合成を行わずに学習を行う。そのため同図の識別境界402bの形状は先ほどの識別境界402aよりも緩やかである。そして、認識時には、テストデータ403bを加工して複数の画像バリエーションを生成し、それぞれ認識させる。図4(B)の例では、複数の画像バリエーションのうち、2つの事例が正事例であると判別されており、これらの結果を統合すると最終的に正事例であるとの認識結果が得られる。この結果は複数の画像のバリエーションの結果の多数決で決めているため、特徴量の変動に対して不安定に変動することがない。
以上のように、本実施形態においては、入力画像の画像パラメータを変更して生成した複数の画像それぞれから特徴量を抽出して、各画像において特徴量に基づいて各領域のカテゴリーを判定し、その結果を統合するようにした。この構成によって、変動に対して頑健な画像認識を行えるようになる。
(変形例)
上述の第1の実施形態では、被写体認識部104としてSVMを用いたが、別の識別器を用いるようにしてもよい。その例としては、例えばロジスティック回帰、ニューラルネットワーク、ランダムフォレスト等を用いることが考えられる。
また、被写体認識部104は異なるバリエーションの画像を判別する際に、同一の判別辞書の識別器を用いたが、この判別辞書を変更するようにしてもよい。例えば、認識時と学習時で画像のパラメータを合わせるような形態でもよい。具体的には、m枚の学習データに対して、i番目のバリエーションのガンマ値のパラメータγiで画像の変換を行う。変換後に得られたm枚の画像でSVMを学習し、得られた結果をi番目のバリエーション画像を判別するSVMの判別辞書とすればよい。
ここで、図4(A)の従来の手法のように、m枚の元画像から各n枚の画像を加工し、これらを混在させたn×m枚の画像セットを学習データとして用いると過学習の危険性がある。それに対して、本実施形態は、n個の識別器それぞれはm枚の画像のみを学習に用いるため、過学習の懸念がない。
また、本実施形態では、認識結果統合部105としてロジスティック回帰を用いたが、統合の方法はこれに限るものでなく、SVMやブースティングなどその他様々な種類の識別器であってよい。また、識別器を用いるのでなく、単純にスコアを平均して最大値を出力するだけのより簡単な処理でもよい。
また、本実施形態では、認識結果統合部105は画素ごとのC個のクラスのスコアを入力変数として二段階目の学習と認識を行ったが、認識結果統合部105の形態はこれに限らない。例えば1画素のみではなく、対象画素の周辺のN×N画素の広さの領域のスコアを全て連結して入力変数として学習してもよい。また認識結果のスコア以外に、画像特徴量を併せて用いてもよい。このように、より多数の変数を考慮した学習と認識を行えば、一段階目の領域判別結果が部分的に失敗していても、その失敗の傾向を特徴として、二段階目の推定で正しい結果を出力できる可能性が高くなる。
また、本実施形態では、画像を取得した後に画像パラメータ変更部102によって画像のパラメータを変更する加工を行ったが、撮像時にこれを行うようにしてもよい。例えば、被写体が動きの少ない対象であれば露出値を変えて連続的に複数回の撮像を行い、これらを画像のバリエーションとしてもよい。また例えば、図5に示すように露出ゲインの異なる撮像素子からなるような特殊な撮像デバイスを用いて、一度の撮像で露出の異なる複数の画像を取得してもよい。なお、図5は撮像素子のベイヤ配列の一部を図示したものであり、露出のゲインの異なる画素の規則的な繰り返しにより構成されている。ここでは画素のゲインの大小に応じてゲインレベル1〜4として記号を付して示している。
また本実施形態の変形例として、バリエーション画像のパラメータを認識結果統合部105の手がかりの一つとして統合する形態について説明する。図13は本変形例に係る画像認識処理の効果を説明する図であり、図13(A)は本変形例の画像認識処理の概要を説明するための図である。本変形例では、認識結果統合部105に各バリエーション画像の認識結果1301a〜1301cが入力される。さらに各バリエーション画像に関するパラメータとして露出値1302a〜cが入力される。認識結果統合部105は多入力1出力の全結合型ニューラルネットワーク1305である。内部構成の例を図13(B)に示す。ここでは、説明の簡略化のために認識対象を正事例か負事例の2クラスのみに限定して説明する。
図14は、認識結果統合部105による処理の詳細を示すフローチャートである。統合の動作が開始されるとニューラルネットワークの第1の入力層1306にN枚のバリエーション画像の認識結果1301が入力される(ステップS1301〜S1303)。ここで認識結果1301は局所領域(x,y)が正事例かどうかを示すN個の尤度である。さらに第2の入力層1307にバリエーションの露出パラメータであるN個のパラメータ1302が入力される(ステップS1304)。
第1の入力層と第2の入力層は全結合層である中間層に結合している。入力されたデータは各層で数値変換され、最終的に出力層に局所領域(x,y)の結果が出力される(S1306)。さらに各局所領域の結果を1枚の画像にまとめて統合結果とする(S1307)。ネットワーク各層の結合重みは予め学習データを与えて正しい結果を出力できるように事例学習しておく。以上の構成により、認識結果統合部1305に与えたバリエーション画像の情報が統合に用いられる。これにより、画像のバリエーションがさまざまに変化しても、変化に追随して結果を都度適切に統合することが可能となる。
またさらに、認識結果統合部105に入力する情報に、カメラの焦点距離といった撮像条件に関するパラメータを加えることも考えられる。またさらに、画像のシーン分類のカテゴリーの値などを加えることも考えられる。シーン分類のカテゴリーは、別途シーン認識モジュールを用意し、その結果を用いればよい。これら付加的なパラメータを加えた上でニューラルネットワークで事例を学習すれば、パラメータに応じてより高精度に結果を統合することも可能である。
またさらに、各局所領域としてSuper−pixelでなくピクセルやブロックなどを用いる場合は、認識結果統合部105としてコンボリューショナル・ニューラルネットワーク(以下CNN)を用いることもできる。この形態の例を図13(C)に示す。この例では、まず3値のバリエーションのパラメータをコピーして、画像と同一サイズの3チャンネルのマップ1312を生成する。同マップ1312と認識結果1301を合わせて6チャンネルの画像としてCNNに入力する。CNNの中間層の畳み込み係数は最終的に正しい統合結果1316が得られるよう、予め学習しておく。CNNの詳細動作についてはニューラルネットワークの代表的手法であり、非特許文献4等にも開示されているため、ここではその説明は省略する。
また、さらに別の形態として、本実施形態の画像認識装置を主被写体領域の抽出に適用することも可能である。その場合、まず被写体認識部104が学習に用いる学習データとして、画像中の主被写体の領域を示した教師値のデータを別途用意する。次に、局所領域特徴量抽出部103bが抽出する特徴量を以下に変更する。1つの例としては、Super−pixelの特徴量と、その周囲に接するSuper−pixelの特徴量との類似度である。これは顕著度と呼ばれる値であり、例えば色分布のヒストグラムやLBP特徴といった特徴量を2つのSuper−pixel間で比較した際の類似距離である。ここでの特徴量同士の比較には特徴量間のKLダイバージェンスやヒストグラム交差などの値を用いる。以上の構成により、主被写体領域の抽出を行う画像認識装置を容易に構成することもできる。
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。本実施形態は、画像認識タスク、画像パラメータの変更、統合の方法等が第1の実施形態と異なる。特に、本実施形態に係る画像認識装置は、静止画像一枚を入力とし、入力画像のシーンの種別(カテゴリー)を判別することを目的とする。ここでのカテゴリーとは、山岳風景、街中の景色、人物ポートレート、などあらかじめユーザが分類しておいた所定のC個のシーンのカテゴリーである。なお、第1の実施形態について既に説明をした構成については同一の符号を付し、その説明は省略する。
図6は、本実施形態に係る画像認識処理のフローチャートである。まず、ステップS201では、第1の実施形態と同様に、画像取得部101が認識対象画像の取得を行う。次に、ステップS202からS208までを行い、所定の画像パラメータの変更を施したn個のバリエーション画像についてそれぞれシーン判別を行う。ここで、n個の画像パラメータの変更のうちのいくつかのバリエーションは幾何的変形である。図7(A)、(B)は入力画像を示し、図7(C)に画像パラメータ変更部102がステップS203で行う幾何的変形の例を示す。
画像パラメータ変更部102は、同図で示すようなアフィン変形や透視投影変換などの幾何変形を行って画像を変更する(ステップS203)。さらに、画像パラメータ変更部102は変形後の画像から矩形領域I11〜I14を抽出し、これを変換後の新たな画像とする(ステップS204)。なお、図7(C)に示すように、ここでは矩形領域I11〜I14を変形後の画像に内接する最大の矩形としているが、これに限らず外接矩形などを用いるようにしてもよい。なお、n個のバリエーションのうちの、さらに別のいくつかは画像中の部分領域の切り出しである。位置ずれやサイズなどを変えて切り出した例を図7(D)の矩形I21〜I24として示す。
これらの変形および切り出しのパラメータは、変換後の画像が不自然にならない程度の範囲内で値をパラメトリックに変えて複数個用意しておく。このように様々なバリエーションの画像を用意することで、一枚の画像のみで認識するよりも安定したシーン認識を行うことが可能となる。
次に、特徴量抽出部103は、図7(B)に示すように各バリエーション画像を所定の数の矩形領域に分割し(ステップS205)、それぞれからSIFT特徴量を抽出する(ステップS206)。さらに、特徴量抽出部103は、上記SIFT特徴量をコードブック化し、その頻度ヒストグラムを集計して、Bag Of Words特徴と呼ばれる特徴量を得る(ステップS207)。これにより、バリエーション画像1枚に対して1個の特徴ベクトルが得られる。SIFT特徴およびBag Of Words特徴は、画像認識の手法として広く公知のためここでは詳細は省く。
さらに、被写体認識部104は、上記の特徴量ベクトルを入力変数とし、SVM等の識別器を用いて各バリエーション画像のシーンを判別する。SVMは、各画像が所定のC個のシーンのカテゴリーのうちのいずれであるかのスコアを出力する(ステップS208)。これにより、一つの画像に対してC個の判別スコアが得られる。
画像のバリエーションの数をn個とすると、シーン判別の結果、n×C個のSVMのスコアが得られる。認識結果統合部105は、これらを連結して特徴量とする。認識結果統合部105は、同特徴量を入力変数とし、シーンの正解カテゴリーを出力できるようにあらかじめ学習してあるロジスティック回帰等の識別器を用いて、最終的なシーンカテゴリーの判別を行う(ステップS210)。以上が、本実施形態の画像認識処理の手順となる。
ここで、本実施形態の変形例として、用いる画像パラメータの種類は、画像の変形や切り出しに限らず、他の様々なものを併せてもよい。例えば、第1の実施形態と同様に輝度値の変換、色調補正による色味の変換、特許文献1に用いられたようなノイズの印加、画像全体あるいは画像の周辺に対するボケの印加など、画像のバリエーションを生成するためのパラメータは様々に考えられる。また、画像の幾何変形とノイズの印加を同時に行うなど、複数の加工を同時に施す形態でもよい。本実施形態は、これらのいずれかに限定されるものではない。
また別の変形例として、局所領域抽出部103aが抽出する局所領域は、ここで説明したような等間隔の矩形ではなく、第1の実施形態で用いたようなSuper−pixelを用いてもよい。
また別の変形例として、認識結果統合部105は認識結果を統合する際に、n個のシーン判別結果を一度に統合するのでなく、段階的に2段階以上で統合を行ってもよい。その処理の手順の例を図8(A)に示す。また、図8(B)にその処理の概略を表わす模式図を示す。ここでは、m個のバリエーションのグループごとに一度統合を行い(ステップS209a,ステップS209b)、その結果を再び特徴量として用いて識別器804で再度の統合を行う(ステップS209d)。このようにすると、画像のバリエーションが増えたことによる過学習を避けつつ、精度の高い学習と認識を行うことが期待できる。
また、複数段階で統合を行うための構成は図8(B)に例示したものに限られるものではなく、各バリエーション画像の認識結果を入力特徴とし、多層のニューラルネットワークを構成してもよい。また、各バリエーション画像の認識結果を弱識別器として、顔認識の技術で一般的なカスケード型のブースティング学習を行ってもよい。このように、様々な構成に適用することが可能である。
以上、本実施形態によれば、シーン判別を認識タスクとする画像認識装置においても、変動に対して頑健な画像認識を行えるようになる。
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。本実施形態に係る画像認識装置は、画像一枚を入力とし、画像中から人物検出を行うことを目的とする。本実施形態において、画像パラメータの変更は、画像の焦点位置の変更である。焦点深度が浅い画像では焦点面から外れた位置にある被写体がボケるため、焦点の合っている被写体を分離することが比較的容易である。そのため、本実施形態で述べるように複数の焦点位置の画像を用いて認識を行うと、全ての被写体に焦点が合っている画像(パンフォーカス画像)を1枚だけ用いて認識する場合よりも、人物検出の精度を向上させる効果がある。以下に本実施形態の詳細について説明を行うが、上述の第1、第2の実施形態で既に説明を行った構成については、同一の符号を付し、その説明を省略する。
図9は、本実施形態に係る画像認識処理のフローチャートである。ステップS301では、画像取得部101が画像の取得を行う。ここでは、多眼のレンズおよび複数の撮像素子からなる多眼カメラにより撮像された画像である。非特許文献2で示されるような方法に拠ると、このような構成のカメラで撮像した画像から任意の撮像面に焦点位置を置いた画像を生成することが可能である。
次に、ステップS302からステップS309までは、焦点位置をn段階の位置に変えたバリエーション画像を生成し、それぞれについて人体検出を行うステップである。それぞれの人体検出処は、一般的な人体検出の手法と同一のものである。
まずステップS303では、画像パラメータ変更部102が、所定のi番目の位置に焦点位置を設定したバリエーション画像Iiを生成する。次に、ステップS304以降では、特徴量抽出部103が矩形形状の検出窓を用意し、この検出窓を用いてバリエーション画像Ii上でパターンの走査を行う。図12は、本実施形態において局所領域を抽出する処理の概略を説明する図であり、図12(A)にこの矩形形状の検出窓の一例を示す。
手順としては、まず局所領域抽出部103aが画像Ii上の各位置で複数のサイズの矩形領域を抽出し、各領域のサイズを正規化する(ステップS305)。次に、局所領域特徴量抽出部103bが、それぞれの矩形領域からHistogram of Oriented Gradient特徴(HOG特徴)を抽出する(ステップS306)。そして、被写体認識部104がHOG特徴をSVM識別器に入力し、矩形領域中のパターンが人体であるか否かの判別スコアを得る(ステップS307)。
図10は、この人体検出の結果を示す図である。図10(B)の画像F1およびFnは、焦点位置の異なるn枚のバリエーション画像のうちの2枚を図示したものである。また図10(C)の矩形1001〜矩形1003は画像F1およびFnのうち特に人体の判別スコアの高かった検出窓の位置およびサイズを示している。
次に、ステップS310で、認識結果統合部105は前段階で得られた人体の判別スコアを入力変数とし、各画像位置(x,y)に人体があるかどうかの最終的な判別を行う。ここでの判別スコアとは、各画像位置(x,y)について、サイズが異なるm個の検出窓、および焦点位置の異なるn枚の画像の結果からなるm×n個のスコアである。認識結果統合部105は、これらを全て連結したベクトルを入力変数とする。SVM等の識別器から成る認識結果統合部105は、同入力変数を教師データに基づいて学習、認識し、人体があるかないかの判定スコアを出力する。
次に、ステップS311で、結果出力部106が前述の判定スコアのうち閾値以上の値が得られた位置(x,y)に人体があるとして結果を出力し、処理を終了する。なお、ここで検出結果の精度を上げるために、さらに非最大値抑制(Non−maximum suppression)と呼ばれる一般的な後処理を行ってもよい。最終結果の例を図10(D)の矩形窓1004として示す。
(検出窓の変形例)
上述の説明では、人体検出手法で一般的な矩形領域でパターンの走査を行った。ここで、変形例として、矩形領域以外の領域で人体の検出を行うようにしてもよい。例えば、焦点距離の変更や画像上の位置に応じて、局所領域の形状を変更することが考えられる。具体的な例を、以降で説明する。
図11は、局所領域を抽出する処理の変形例に対応するフローチャートである。図11は、図9のフローチャートにおけるステップS305を詳細化したものである。また、この派生形態の処理結果の図を図12(B),(C)に併せて示す。まず局所領域抽出部103aは画像の検出窓1201の中心を前景のシード領域1202として抽出する(ステップS305a)。同様に画像の周辺領域を背景のシード領域1203として抽出する(ステップS305b)。さらに局所領域抽出部103aはこれらのシード領域に基づいて前景・背景の分離手法として一般的なグラフカット処理を行う(ステップS305c)。次に得られた前景領域1204を人体の候補領域とする(ステップS305d)。以上がステップS305の派生形態の詳細な説明であり、上記処理は検出窓を移動させるたびに行う。なお局所領域特徴量抽出部103bがステップS306でHOG特徴の抽出を行う時には、前景領域1204内のみからHOG特徴を抽出する。
上記のようにして抽出した前景領域1204は、画像の焦点がどこにあるかによって形状が変化する。具体的には、図12(B)の人体の例で示すように焦点が人体に合っている状態であるなら、背景のボケた領域は省かれ、人体の領域のみが前景領域として抽出され易い。そのため、後段の被写体認識部104において人体の判別がより容易になる。
このような構成を用いて、画像の撮像時のパラメータの変更とその後の局所領域の抽出を併せて行うことにより、さらに人体検出の精度を上げることができる。
また、局所領域の抽出は、ここで説明した構成にのみ限定されるものではない。例えば、非特許文献3のような方法でSuper−pixelを生成し、連結することで物体の可能性の高い候補領域だけを抽出するといった構成などでもよい。また、本実施形態は、人体の検出を目的としたが、学習データの教師値を変更して検出対象を人体以外の動物や車等、特定の被写体を検出する構成に変更することも可能である。
以上、本実施形態によれば、人物検出を認識タスクとする画像認識装置においても、変動に対して頑健な画像認識を行えるようになる。また、上述の第1、第2の実施形態では、画像パラメータ変更部102が行う画像パラメータの変更が画像の合成により行われていた。しかし、本発明は、本実施形態のように、撮像時にパラメータを異ならせた複数の画像を取得する形態にも適用されるものである。
[その他の実施形態]
また、本発明は、各実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPU等)がプログラムを読出し実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
101 画像取得部
102 画像パラメータ変更部
103 特徴量抽出部
103a 局所領域抽出部
103b 局所領域特徴量抽出部
104 被写体認識部
105 認識結果統合部
106 結果出力部

Claims (12)

  1. 画像を取得する取得手段と、
    前記取得した画像のパラメータを変更する変更手段と、
    前記パラメータが異なる複数の画像それぞれから特徴量を抽出する抽出手段と、
    前記抽出した特徴量に基づいて、前記パラメータの異なる複数の画像それぞれの認識を行う認識手段と、
    前記認識手段の結果を入力とし教師値を目標値として出力されるよう予め学習された識別器により、前記認識手段による認識結果を統合する統合手段と、
    を有することを特徴とする画像認識装置。
  2. 前記認識手段は、前記画像に含まれる領域のカテゴリーを判別することを特徴とする請求項1に記載の画像認識装置。
  3. 前記認識手段は、前記画像のシーンの種別を判別することを特徴とする請求項1に記載の画像認識装置。
  4. 前記認識手段は、前記画像に含まれる特定の被写体を検出することを特徴とする請求項1に記載の画像認識装置。
  5. 前記認識手段は、前記画像に含まれる主被写体を検出することを特徴とする請求項1に記載の画像認識装置。
  6. 前記統合手段は、前記統合手段は、さらに画像に関する前記パラメータあるいは撮像時のカメラ情報あるいは画像の分類結果のいずれかを入力とし教師値を目標値として出力されるよう予め学習された識別器から成ることを特徴とする請求項1から5のいずれか1項に記載の画像認識装置。
  7. 前記統合手段は、前記パラメータが異なる複数の画像それぞれの認識の結果を段階的に統合することを特徴とする請求項1から6のいずれか1項に記載の画像認識装置。
  8. 前記変更手段によるパラメータの変更は、前記画像の露出値の変更、前記画像の輝度値の変更、前記画像の変形、前記画像の切り抜き、前記画像に対するノイズの印加、前記画像に対するボケの印加、前記画像の焦点位置の変更のいずれか1つ以上を含むことを特徴とする請求項1から7のいずれか1項に記載の画像認識装置。
  9. 前記取得手段は、撮像において前記パラメータを異ならせた複数の画像を取得することを特徴とする請求項1から8のいずれか1項に記載の画像認識装置。
  10. 前記取得手段は、撮像された画像に対して前記パラメータを異ならせることにより複数の画像を取得することを特徴とする請求項1から9のいずれか1項に記載の画像認識装置。
  11. 画像を取得するステップと、
    前記取得した画像のパラメータを変更するステップと、
    前記パラメータが異なる複数の画像それぞれから特徴量を抽出するステップと、
    前記抽出した特徴量に基づいて、前記パラメータの異なる複数の画像それぞれの認識を行うステップと、
    前記認識の結果を入力とし教師値を目標値として出力されるよう予め学習された識別器により、前記認識の結果を統合するステップと、
    を有することを特徴とする画像認識方法。
  12. コンピュータを、請求項1から10のいずれか1項に記載の画像認識装置として機能させるためのプログラム。
JP2017194887A 2016-11-28 2017-10-05 画像認識装置、画像認識方法及びプログラム Pending JP2018092610A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016229697 2016-11-28
JP2016229697 2016-11-28

Publications (1)

Publication Number Publication Date
JP2018092610A true JP2018092610A (ja) 2018-06-14

Family

ID=62190181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017194887A Pending JP2018092610A (ja) 2016-11-28 2017-10-05 画像認識装置、画像認識方法及びプログラム

Country Status (2)

Country Link
US (1) US10733477B2 (ja)
JP (1) JP2018092610A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020003450A1 (ja) * 2018-06-28 2020-01-02 オリンパス株式会社 データ処理システムおよびデータ処理方法
WO2020230636A1 (ja) * 2019-05-10 2020-11-19 ソニーセミコンダクタソリューションズ株式会社 画像認識装置および画像認識方法
JP2021047705A (ja) * 2019-09-19 2021-03-25 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6126437B2 (ja) 2013-03-29 2017-05-10 キヤノン株式会社 画像処理装置および画像処理方法
JP6942472B2 (ja) * 2017-01-13 2021-09-29 キヤノン株式会社 映像認識装置、映像認識方法及びプログラム
US11222627B1 (en) * 2017-11-22 2022-01-11 Educational Testing Service Exploring ASR-free end-to-end modeling to improve spoken language understanding in a cloud-based dialog system
CN110012210B (zh) * 2018-01-05 2020-09-22 Oppo广东移动通信有限公司 拍照方法、装置、存储介质及电子设备
CN110708469B (zh) * 2018-07-10 2021-03-19 北京地平线机器人技术研发有限公司 用于适配曝光参数的方法和装置以及相应的相机曝光系统
US10311337B1 (en) * 2018-09-04 2019-06-04 StradVision, Inc. Method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network
JP2020187409A (ja) * 2019-05-10 2020-11-19 ソニーセミコンダクタソリューションズ株式会社 画像認識装置、固体撮像装置、および画像認識方法
JP2020198470A (ja) * 2019-05-30 2020-12-10 ソニーセミコンダクタソリューションズ株式会社 画像認識装置および画像認識方法
CN110222704B (zh) * 2019-06-12 2022-04-01 北京邮电大学 一种弱监督目标检测方法及装置
US11416707B2 (en) * 2019-12-04 2022-08-16 Panasonic Intellectual Property Corporation Of America Information processing method, information processing system, and information processing apparatus
JP2021144641A (ja) * 2020-03-13 2021-09-24 株式会社リコー 画像処理装置および画像処理方法
JP2023529679A (ja) * 2020-06-12 2023-07-11 ユニバーシティ オブ ワシントン 接眼ディスプレイ内での眼追跡
CN112258522B (zh) * 2020-10-19 2021-05-04 哈尔滨体育学院 基于二次区域生长的武术竞赛区域分割方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5627908A (en) * 1994-09-20 1997-05-06 Neopath, Inc. Method for cytological system dynamic normalization
US7130776B2 (en) 2002-03-25 2006-10-31 Lockheed Martin Corporation Method and computer program product for producing a pattern recognition training set
US8682097B2 (en) * 2006-02-14 2014-03-25 DigitalOptics Corporation Europe Limited Digital image enhancement with reference images
JP4667944B2 (ja) * 2005-04-20 2011-04-13 シスメックス株式会社 画像作成装置
DE602006005079D1 (de) * 2006-08-24 2009-03-19 Harman Becker Automotive Sys Verfahren zum Abbilden der Umgebung eines Fahrzeugs und System dafür
JP2012113460A (ja) * 2010-11-24 2012-06-14 Sony Corp 情報処理装置および方法、並びにプログラム
EP2590417A1 (en) * 2011-11-01 2013-05-08 Acer Incorporated Stereoscopic image display apparatus
US9195236B1 (en) * 2012-09-05 2015-11-24 Google Inc. Road flare detection
EP2930684B1 (en) * 2012-12-06 2021-03-03 NEC Corporation Image processing device and image processing method
KR101511853B1 (ko) * 2013-10-14 2015-04-13 영남대학교 산학협력단 단일 다중 노출 카메라를 이용한 야간 전방 차량 검출 및 위치 측정 시스템 및 방법
KR20160071242A (ko) * 2014-12-11 2016-06-21 삼성전자주식회사 안구 움직임에 기반한 컴퓨터 보조 진단 장치 및 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020003450A1 (ja) * 2018-06-28 2020-01-02 オリンパス株式会社 データ処理システムおよびデータ処理方法
JPWO2020003450A1 (ja) * 2018-06-28 2021-02-18 オリンパス株式会社 データ処理システムおよびデータ処理方法
WO2020230636A1 (ja) * 2019-05-10 2020-11-19 ソニーセミコンダクタソリューションズ株式会社 画像認識装置および画像認識方法
TWI800722B (zh) * 2019-05-10 2023-05-01 日商索尼半導體解決方案公司 圖像辨識裝置及圖像辨識方法
US11710291B2 (en) 2019-05-10 2023-07-25 Sony Semiconductor Solutions Corporation Image recognition device and image recognition method
JP2021047705A (ja) * 2019-09-19 2021-03-25 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US11741665B2 (en) 2019-09-19 2023-08-29 Fujifilm Business Innovation Corp. Image processing apparatus and non-transitory computer readable medium storing image processing program
JP7423951B2 (ja) 2019-09-19 2024-01-30 富士フイルムビジネスイノベーション株式会社 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
US10733477B2 (en) 2020-08-04
US20180150725A1 (en) 2018-05-31

Similar Documents

Publication Publication Date Title
JP2018092610A (ja) 画像認識装置、画像認識方法及びプログラム
US11882357B2 (en) Image display method and device
US20220138490A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US11457138B2 (en) Method and device for image processing, method for training object detection model
US10303983B2 (en) Image recognition apparatus, image recognition method, and recording medium
US8797448B2 (en) Rapid auto-focus using classifier chains, MEMS and multiple object focusing
US8139854B2 (en) Method and apparatus for performing conversion of skin color into preference color by applying face detection and skin area detection
US9405960B2 (en) Face hallucination using convolutional neural networks
US8861806B2 (en) Real-time face tracking with reference images
US8861881B2 (en) Image processing apparatus, method thereof, program, and image capturing apparatus
US8659697B2 (en) Rapid auto-focus using classifier chains, MEMS and/or multiple object focusing
US10929978B2 (en) Image processing apparatus, training apparatus, image processing method, training method, and storage medium
KR20180065889A (ko) 타겟의 검측 방법 및 장치
JP2004348733A (ja) デジタル画像における赤目領域の検出方法及び装置
CN112836653A (zh) 人脸隐私化方法、设备、装置及计算机存储介质
Henz et al. Synthesizing camera noise using generative adversarial networks
Ahlvers et al. Model-free face detection and head tracking with morphological hole mapping
JP3962517B2 (ja) 顔面検出方法及びその装置、コンピュータ可読媒体
KR20200123501A (ko) 차량의 객체 검출 장치 및 방법
JP4789526B2 (ja) 画像処理装置、画像処理方法
Knežević et al. Blur and motion blur influence on face recognition performance
US20220188991A1 (en) Method and electronic device for managing artifacts of image
CN115116147B (zh) 图像识别、模型训练、活体检测方法及相关装置
US12002259B2 (en) Image processing apparatus, training apparatus, image processing method, training method, and storage medium