JP6582416B2 - 画像処理装置、画像処理方法及びプログラム - Google Patents
画像処理装置、画像処理方法及びプログラム Download PDFInfo
- Publication number
- JP6582416B2 JP6582416B2 JP2015006529A JP2015006529A JP6582416B2 JP 6582416 B2 JP6582416 B2 JP 6582416B2 JP 2015006529 A JP2015006529 A JP 2015006529A JP 2015006529 A JP2015006529 A JP 2015006529A JP 6582416 B2 JP6582416 B2 JP 6582416B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- processing unit
- image data
- value
- candidate value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 462
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000000034 method Methods 0.000 claims description 152
- 238000010606 normalization Methods 0.000 claims description 48
- 238000013527 convolutional neural network Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 description 125
- 230000000875 corresponding effect Effects 0.000 description 48
- 238000011176 pooling Methods 0.000 description 46
- 238000010586 diagram Methods 0.000 description 40
- 238000010411 cooking Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 12
- 230000004913 activation Effects 0.000 description 11
- 238000001914 filtration Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 11
- 230000000644 propagated effect Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 230000008878 coupling Effects 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/955—Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/69—Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/70—Circuitry for compensating brightness variation in the scene
- H04N23/73—Circuitry for compensating brightness variation in the scene by influencing the exposure time
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/95—Computational photography systems, e.g. light-field imaging systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/21—Indexing scheme for image data processing or generation, in general involving computational photography
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Processing (AREA)
Description
<画像処理装置の外観>
まず、第1の実施形態に係る画像処理装置1の外観について説明する。図1は、第1の実施形態に係る画像処理装置の外観の一例を示す図である。図1では、画像処理装置の一例としてのデジタルカメラの外観を示している。図1(a)は上面図、図1(b)は正面図、図1(c)は背面図である。なお、画像処理装置1は、デジタルカメラに限られず、携帯電話、スマートフォン、タブレット端末、ゲーム機器等、画像処理を行える機器であればよい。
次に、画像処理装置1の内部構成について説明する。図2は、第1の実施形態に係る画像処理装置の構成の一例を示す図である。図2に示すように、鏡胴ユニット7は、被写体の光学画像を取り込むズームレンズ501及びズーム駆動モータ614aからなるズーム光学系と、フォーカスレンズ502及びフォーカス駆動モータ614bからなるフォーカス光学系と、絞り503及び絞りモータ614cからなる絞りユニットと、メカシャッタ504及びメカシャッタモータ614dからなるメカシャッタユニットと、各モータを駆動するモータドライバ614とを有する。そして、モータドライバ614は、リモコン受光部6での入力情報や操作キーユニット613の操作入力に基づいて、画像処理エンジン100内にあるCPUブロック108からの駆動指令により駆動制御される。
次に、第1の実施形態に係る画像処理装置1の画像処理エンジン100の機能構成について説明する。図3は、第1の実施形態に係る画像処理装置の画像処理エンジンの機能構成の一例を示すブロック図である。なお、本実施形態においては、入力された画像データが複数のカテゴリのいずれのカテゴリに分類されるかの度合いを示す確信度を算出するための畳み込みニューラルネットワークNは、一例として、第1層〜第4層で構成されるものとする。すなわち、本実施形態に係る畳み込みニューラルネットワークNは、畳み込み処理及びプーリング処理を行う第1層〜第2層と、畳み込み処理を行う第3層と、全結合処理を行う第4層とから構成される。なお、畳み込みニューラルネットワークNの構成は、これに限られず、一般に、nを3以上の任意の自然数として、畳み込み処理及びプーリング処理を行う第1層〜第n−2層と、畳み込み処理を行う第n−1層と、全結合処理を行う第n層とから構成されていてもよい。
次に、第1の実施形態に係る画像処理装置1の処理について、図4〜図19を参照しつつ詳細について説明する。図4は、第1の実施形態に係る画像処理装置のカテゴリ識別処理の一例のフローチャートである。この処理により、本実施形態に係る画像処理装置1は、入力された画像データが、予め定められたカテゴリのいずれに属するのかを算出(識別)することができる。
(1)画像データ1100の中心56×56×3の部分に対してフィルタ3100f1をかける(すなわち、画像データ1100とフィルタf1の対応する値の乗算を行う)。これは、例えば、Rチャンネルを固定し、Rチャンネル用のフィルタ3100f1の中心を56×56の左上から5ずつ右にずらしながら行う。そして、Rチャンネル用のフィルタ3100f1の中心が画像データ1100の56×56部分の右端まで辿りついたら、フィルタ3100f1の中心を下に5ずらして、再度、左端からRチャンネル用のフィルタ3100f1を当該部分に対してかける。
(2)次に、画像データ1100のGチャンネルに対して、上記(1)と同様の方法でGチャンネル用のフィルタ3100f1をかけ、Bチャンネルに対しても同様にBチャンネル用のフィルタ3100f1をかける。
(3)フィルタ3100f2〜フィルタ3100f64についても、上記と同様に、画像データ1100のRGBの各チャンネルに対してフィルタ処理を順に行う。
(1)画像データ1200の1つの56×56の画像データについて、左上を中心として3×3の領域における画素値の最大値を得る。そして、この最大値を、画像データ1300の画素位置(1,1)の画素値とする。
(2)次に、3×3の領域を右に2ずつ移動させながら、それぞれの領域内における画素値の最大値を得て、それぞれ、画像データ1300の画素位置(1,2)〜(1,28)の画素値とする。
(3)続いて、3×3の領域の中心を下に2移動させ、左端から同様に2ずつ領域の中心を移動させながら、それぞれの領域内における画素値の最大値を得て、それぞれ、画像データ1300の画素位置(2,1)〜(2,28)の画素値とする。以降、同様に、(3,1)〜(28,28)の画素値を得る。
(4)上記の(1)〜(3)を、すべての56×56の画像データについて行う。すなわち、上記の(1)〜(3)を、64個の56×56の画像データについて行う。
(1)画像データ1300に対してフィルタ3200f1をかける(すなわち、画像データ1300とフィルタf1の対応する値の乗算を行う)。これは、例えば、1つのチャンネルを固定し、フィルタ3200f1の中心を28×28の左上から5ずつ右にずらしながら行う。そして、フィルタ3200f1の中心が画像データ1300の28×28の部分の右端まで辿りついたら、フィルタ3200f1の中心を下に5ずらして、再度、左端からフィルタ3200f1を当該部分に対してかける。
(2)次に、画像データ1300の他のチャンネルに対して、上記(1)と同様の方法でフィルタ3200f1をかける。この処理をすべてのチャンネル1〜64に対して繰り返す。
(3)フィルタ3200f2〜フィルタ3200f64についても、上記と同様に、画像データ1300のすべてのチャンネル(1〜64)に対してフィルタ処理を順に行う。
(1)画像データ1400の1つの28×28の画像データについて、左上を中心として3×3の領域における画素値の最大値を得る。そして、この最大値を、画像データ1500の画素位置(1,1)の画素値とする。
(2)次に、3×3の領域を右に2ずつ移動させながら、それぞれの領域内における画素値の最大値を得て、それぞれ、画像データ1500の画素位置(1,2)〜(1,14)の画素値とする。
(3)続いて、3×3の領域の中心を下に2移動させ、左端から同様に2ずつ領域の中心を移動させながら、それぞれの領域内における画素値の最大値を得て、それぞれ、画像データ1500の画素位置(2,1)〜(2,14)の画素値とする。以降、同様に、(3,1)〜(14,14)の画素値を得る。
(4)上記の(1)〜(3)を、すべての28×28の画像データについて行う。すなわち、上記の(1)〜(3)を、64個の28×28の画像データについて行う。
(1)画像データ1500に対してフィルタ3300f1をかける(すなわち、画像データ1500とフィルタf1の対応する値の乗算を行う)。これは、例えば、1つのチャンネルを固定し、フィルタ3300f1の中心を14×14の左上から3ずつ右にずらしながら行う。そして、フィルタ3300f1の中心が画像データ1500の14×14の部分の右端まで辿りついたら、フィルタ3200f1の中心を下に3ずらして、再度、左端からフィルタ3300f1を当該部分に対してかける。
(2)次に、画像データ1500の他のチャンネルに対して、上記(1)と同様の方法でフィルタ3300f1をかける。この処理をすべてのチャンネル1〜64に対して繰り返す。
(3)フィルタ3300f2〜フィルタ3300f64についても、上記と同様に、画像データ1500のすべてのチャンネル(1〜64)に対してフィルタ処理を順に行う。
次に、第2の実施形態に係る画像処理装置1について説明する。第2の実施形態に係る画像処理装置1では、第1の実施形態に係る画像処理装置1においてバイアス値及び重みデータの学習を行う。画像処理装置1の外観、内部構成、及びカテゴリ識別処理については、第1の実施形態と同様であるため説明を省略する。すなわち、第2の実施形態では、第1の実施形態に係る画像処理装置1の学習処理に必要な箇所を説明する。
第2の実施形態に係る画像処理装置1の画像処理エンジン100の機能構成について説明する。図20は、第2の実施形態に係る画像処理装置の画像処理エンジンの機能構成の一例を示すブロック図である。
次に、第2の実施形態に係る画像処理装置1の学習処理に説明する。図21は、第2の実施形態に係る画像処理装置の学習処理の一例を示すフローチャートである。
次に、第3の実施形態に係る画像処理装置1について説明する。画像データをカテゴリに分類する際に、一般のカテゴリ間における識別と、誤認識が発生しやすいカテゴリ間の識別とを分けて処理する方法も知られているが(例えば特開2013−250809号公報参照)、このような方法では適切な学習が行われない場合がある。例えば、カテゴリ「花」と、「花」と誤認識しやすいカテゴリ「木漏れ日」とがある場合において、「木漏れ日」の学習画像データの数が「花」の学習画像データの数に比して極端に少ない数しか用意することができない場合、適切な学習がされない場合がある。本実施形態に係る画像処理装置1では、このような場合においても画像データの適切なカテゴリ分類を行うことができるようにするものである。なお、本実施形態では、第1の実施形態と異なる箇所について主に説明を行い、第1の実施形態と同一の機能を有する箇所又は同一の処理を行う箇所については、適宜説明を省略又は簡略化する。
まず、第3の実施形態に係る画像処理装置1の画像処理エンジン100の機能構成について説明する。図22は、第3の実施形態に係る画像処理装置の画像処理エンジンの機能構成の一例を示すブロック図である。
(1)例えば、目標認識率が90%で一般カテゴリ「花」が上記の数の正例及び負例の学習画像データで学習されている場合において、仮に、学習に用いた画像データすべてが一般カテゴリ「花」に分類されると認識されたとしても、目標認識率が達成されてしまう。
(2)他方で、一般カテゴリ「花」の正例の学習画像データの数を例えば500枚に減らせば、上記(1)の問題は解決するが(すなわち、一般カテゴリ「花」と「木漏れ日」が認識される)、この場合、その他のカテゴリ(例えば、「料理」等)との間で認識率が低下する。
次に、第3の実施形態に係る画像処理装置1の処理について説明する。図23は、第3の実施形態に係る画像処理装置のカテゴリ識別処理の一例のフローチャートである。この処理により、本実施形態に係る画像処理装置1は、入力された画像データが、予め定められた一般カテゴリのいずれに分類されるのかを示す確信度を算出することができる。この算出された確信度により、入力された画像データが分類される一般カテゴリが識別される。
次に、第4の実施形態に係る画像処理装置1について説明する。第4の実施形態に係る画像処理装置1では、第3の実施形態に係る画像処理装置1においてバイアス値及び重みデータの学習を行う。画像処理装置1の外観、内部構成、及びカテゴリ識別処理については、第3の実施形態と同様であるため説明を省略する。すなわち、第4の実施形態では、第3の実施形態に係る画像処理装置1の学習処理に必要な箇所を説明する。
第4の実施形態に係る画像処理装置1の画像処理エンジン100の機能構成について説明する。図28は、第4の実施形態に係る画像処理装置の画像処理エンジンの機能構成の一例を示すブロック図である。
次に、第4の実施形態に係る画像処理装置1の学習処理に説明する。図22は、第4の実施形態に係る画像処理装置の学習処理の一例を示すフローチャートである。
次に、第5の実施形態に係る画像処理装置1について説明する。第5の実施形態は、第2の実施形態において説明した画像処理装置1の学習処理について、より詳しく説明するものである。なお、第4の実施形態において説明した学習処理についても略同様であるため、適宜、第4の実施形態に係る学習処理についても併せて説明する。
まず、本実施形態に係る画像処理装置1の学習処理の概要について説明する。図30は、第5の実施形態に係る学習処理の一例の概要を説明するための図である。本実施形態では、一例として、誤差逆伝播法を用いてバイアス値2100〜2400及び重みデータ3100〜3400を学習(更新)する場合について説明する。図30に示すように、誤差逆伝播法では、順方向処理と逆方向処理とに分けられる。順方向処理とは、畳み込みニューラルネットワークNの下位層から上位層へ向かう処理であり、他方、逆方向処理とは、畳み込みニューラルネットワークNの上位層から下位層へ向かう処理である。
次に、第5の実施形態に係る画像処理装置1の処理の詳細について説明する。図31は、第5の実施形態に係る学習処理の一例を示すフローチャートである。
以上により第1の実施形態に係る画像処理装置1は、畳み込みニューラルネットワークNを用いて、入力された画像データ1000がいずれのカテゴリに属するかの確信度を算出することができる。このとき、畳み込み処理部30及びプーリング処理部40は全カテゴリ共通とする一方で、全結合処理部50はカテゴリ毎に有する構成とすることで、カテゴリの追加・削除に柔軟に対応させることができるとともに、カテゴリの追加に伴う計算量やメモリ量の増加を抑えることができる。
20 入力部
30 畳み込み処理部
40 プーリング部
50 全結合処理部
60 正規化処理部
70 出力部
N 畳み込みニューラルネットワーク
Claims (7)
- 畳み込み処理部と、入力された画像データが分類される1以上の第1のカテゴリ毎に第1の全結合処理部と、前記1以上の第1のカテゴリそれぞれに対応する1以上の第2のカテゴリ毎に第2の全結合処理部とを有する畳み込みニューラルネットワークを用いて、前記画像データが前記1以上の第1のカテゴリのそれぞれに分類される度合いを示す確信度を算出する画像処理装置であって、
前記畳み込み処理部により予め学習された第1の係数を用いて、前記畳み込み処理部において畳み込み処理を行う畳み込み処理手段と、
前記畳み込み処理手段による処理結果について、前記第1の全結合処理部により予め学習された第2の係数と前記第2の全結合処理部により予め学習された第3の係数を用いて、前記第1の全結合処理部及び前記第2の全結合処理部においてそれぞれ全結合処理を行い、前記画像データが前記1以上の第1のカテゴリ及び前記1以上の第2のカテゴリのそれぞれに分類される度合いを示す確信度の候補値を算出する全結合処理手段と、
前記全結合処理手段により算出された前記確信度の候補値の正規化を行う正規化手段と、
前記第1のカテゴリの前記確信度の候補値が前記正規化手段により正規化された第1の候補値と、該第1のカテゴリに対応する前記第2のカテゴリの前記確信度の候補値が前記正規化手段により正規化された第2の候補値とを所定の値と比較し、前記第1の候補値及び前記第2の候補値が前記所定の値以上である場合、前記第1の候補値を、前記画像データが該第1の候補値に対応する前記第1のカテゴリに分類される度合いを示す確信度として採用すると判定する一方、前記第1の候補値又は前記第2の候補値が前記所定の値未満である場合、前記画像データは該第1の候補値に対応する前記第1のカテゴリには分類されないと判定する判定手段と、
を有し、
前記第1の係数は、前記畳み込み処理部により前記1以上の第1のカテゴリ対して共通に学習された係数である一方、前記第2の係数は前記第1の全結合処理部により、前記第3の係数は前記第2の全結合処理部により、それぞれ前記第1のカテゴリ及び前記第2のカテゴリ毎に学習された係数である、画像処理装置。 - 前記第2のカテゴリは、前記1以上の第1のカテゴリのうち誤ったカテゴリに分類される可能性が高いカテゴリの認識を行うためのカテゴリであり、
前記第2のカテゴリに対応する第3の係数は、正例と負例の数に偏りがある学習データにより予め学習された、請求項1記載の画像処理装置。 - 前記全結合処理手段により算出される確信度の候補値は、前記画像データが前記1以上の第1のカテゴリ又は前記1以上の第2のカテゴリに分類される度合いを示す分類確信度の候補値と、分類されない度合いを示す否分類確信度の候補値との組であり、
前記判定手段は、前記第1のカテゴリの前記分類確信度の候補値が前記正規化手段により正規化された第3の候補値と、該第1のカテゴリに対応する前記第2のカテゴリの前記分類確信度の候補値が前記正規化手段により正規化された第4の候補値とを所定の値と比較し、前記第3の候補値及び前記第4の候補値が前記所定の値以上である場合、前記第3の候補値を、前記画像データが該第1の候補値に対応する前記第1のカテゴリに分類される度合いを示す確信度として採用すると判定する一方、前記第3の候補値又は前記第4の候補値が前記所定の値未満である場合、前記画像データは該第3の候補値に対応する前記第1のカテゴリには分類されないと判定する、請求項1又は2記載の画像処理装置。 - 前記正規化手段は、前記分類確信度の候補値及び前記否分類確信度の候補値のそれぞれを
- 前記学習は、誤差逆伝播法により行われる請求項1ないし4のいずれか1項に記載の画像処理装置。
- 畳み込み処理部と、入力された画像データが分類される1以上の第1のカテゴリ毎に第1の全結合処理部と、前記1以上の第1のカテゴリそれぞれに対応する1以上の第2のカテゴリ毎に第2の全結合処理部とを有する畳み込みニューラルネットワークを用いて、前記画像データが前記1以上の第1のカテゴリのそれぞれに分類される度合いを示す確信度を算出する画像処理装置における画像処理方法であって、
前記畳み込み処理部により予め学習された第1の係数を用いて、前記畳み込み処理部において畳み込み処理を行う畳み込み処理手順と、
前記畳み込み処理手順による処理結果について、前記第1の全結合処理部により予め学習された第2の係数と前記第2の全結合処理部に予め学習された第3の係数を用いて、前記第1の全結合処理部及び前記第2の全結合処理部においてそれぞれ全結合処理を行い、前記画像データが前記1以上の第1のカテゴリ及び前記1以上の第2のカテゴリのそれぞれに分類される度合いを示す確信度の候補値を算出する全結合処理手順と、
前記全結合処理手順により算出された前記確信度の候補値の正規化を行う正規化手順と、
前記第1のカテゴリの前記確信度の候補値が前記正規化手順により正規化された第1の候補値と、該第1のカテゴリに対応する前記第2のカテゴリの前記確信度の候補値が前記正規化手順により正規化された第2の候補値とを所定の値と比較し、前記第1の候補値及び前記第2の候補値が前記所定の値以上である場合、前記第1の候補値を、前記画像データが該第1の候補値に対応する前記第1のカテゴリに分類される度合いを示す確信度として採用すると判定する一方、前記第1の候補値又は前記第2の候補値が前記所定の値未満である場合、前記画像データは該第1の候補値に対応する前記第1のカテゴリには分類されないと判定する判定手順と、
を有し、
前記第1の係数は、前記畳み込み処理部により前記1以上の第1のカテゴリ対して共通に学習された係数である一方、前記第2の係数は前記第1の全結合処理部により、前記第3の係数は前記第2の全結合処理部により、それぞれ前記第1のカテゴリ及び前記第2のカテゴリ毎に学習された係数である、画像処理方法。 - 畳み込み処理部と、入力された画像データが分類される1以上の第1のカテゴリ毎に第1の全結合処理部と、前記1以上の第1のカテゴリそれぞれに対応する1以上の第2のカテゴリ毎に第2の全結合処理部とを有する畳み込みニューラルネットワークを用いて、前記画像データが前記1以上の第1のカテゴリのそれぞれに分類される度合いを示す確信度を算出する画像処理装置を、
前記畳み込み処理部により予め学習された第1の係数を用いて、前記畳み込み処理部において畳み込み処理を行う畳み込み処理手段、
前記畳み込み処理手段による処理結果について、前記第1の全結合処理部により予め学習された第2の係数と前記第2の全結合処理部に予め学習された第3の係数を用いて、前記第1の全結合処理部及び前記第2の全結合処理部においてそれぞれ全結合処理を行い、前記画像データが前記1以上の第1のカテゴリ及び前記1以上の第2のカテゴリのそれぞれに分類される度合いを示す確信度の候補値を算出する全結合処理手段、
前記全結合処理手段により算出された前記確信度の候補値の正規化を行う正規化手段、
前記第1のカテゴリの前記確信度の候補値が前記正規化手段により正規化された第1の候補値と、該第1のカテゴリに対応する前記第2のカテゴリの前記確信度の候補値が前記正規化手段により正規化された第2の候補値とを所定の値と比較し、前記第1の候補値及び前記第2の候補値が前記所定の値以上である場合、前記第1の候補値を、前記画像データが該第1の候補値に対応する前記第1のカテゴリに分類される度合いを示す確信度として採用すると判定する一方、前記第1の候補値又は前記第2の候補値が前記所定の値未満である場合、前記画像データは該第1の候補値に対応する前記第1のカテゴリには分類されないと判定する判定手段、
として機能させ、
前記第1の係数は、前記畳み込み処理部により前記1以上の第1のカテゴリ対して共通に学習された係数である一方、前記第2の係数は前記第1の全結合処理部により、前記第3の係数は前記第2の全結合処理部により、それぞれ前記第1のカテゴリ及び前記第2のカテゴリ毎に学習された係数である、プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015006529A JP6582416B2 (ja) | 2014-05-15 | 2015-01-16 | 画像処理装置、画像処理方法及びプログラム |
US14/710,700 US9911067B2 (en) | 2014-05-15 | 2015-05-13 | Image processing apparatus, method of processing image, and program |
EP15167809.1A EP2945102A1 (en) | 2014-05-15 | 2015-05-15 | Image processing apparatus, method of processing image, and program |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014101450 | 2014-05-15 | ||
JP2014101450 | 2014-05-15 | ||
JP2014156488 | 2014-07-31 | ||
JP2014156488 | 2014-07-31 | ||
JP2015006529A JP6582416B2 (ja) | 2014-05-15 | 2015-01-16 | 画像処理装置、画像処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016033806A JP2016033806A (ja) | 2016-03-10 |
JP6582416B2 true JP6582416B2 (ja) | 2019-10-02 |
Family
ID=53189673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015006529A Active JP6582416B2 (ja) | 2014-05-15 | 2015-01-16 | 画像処理装置、画像処理方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9911067B2 (ja) |
EP (1) | EP2945102A1 (ja) |
JP (1) | JP6582416B2 (ja) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9524450B2 (en) * | 2015-03-04 | 2016-12-20 | Accenture Global Services Limited | Digital image processing using convolutional neural networks |
US9716852B2 (en) | 2015-04-03 | 2017-07-25 | Semiconductor Energy Laboratory Co., Ltd. | Broadcast system |
WO2017073000A1 (ja) | 2015-10-29 | 2017-05-04 | 株式会社Preferred Networks | 情報処理装置及び情報処理方法 |
JP6540886B2 (ja) * | 2016-03-30 | 2019-07-10 | 株式会社ニコン | 特徴抽出素子、特徴抽出システム、および判定装置 |
US10089717B2 (en) * | 2016-04-05 | 2018-10-02 | Flipboard, Inc. | Image scaling using a convolutional neural network |
CN105821538B (zh) * | 2016-04-20 | 2018-07-17 | 广州视源电子科技股份有限公司 | 细纱断裂的检测方法和系统 |
CN108351974B (zh) * | 2016-07-17 | 2024-06-18 | Gsi科技公司 | 在恒定的处理时间内查找k个极值 |
JP6612196B2 (ja) * | 2016-07-27 | 2019-11-27 | 日本システムウエア株式会社 | 岩盤強度判定装置、岩盤強度判定方法、及び岩盤強度判定プログラム |
CN111526267B (zh) | 2016-08-03 | 2022-09-02 | 株式会社半导体能源研究所 | 摄像装置、摄像模块、电子设备及摄像系统 |
JP6786948B2 (ja) * | 2016-08-12 | 2020-11-18 | 富士通株式会社 | 演算処理装置及び演算処理装置の制御方法 |
JP6945986B2 (ja) * | 2016-10-28 | 2021-10-06 | キヤノン株式会社 | 演算回路、その制御方法及びプログラム |
JP6183980B1 (ja) * | 2016-12-02 | 2017-08-23 | 国立大学法人東京工業大学 | ニューラルネットワーク回路装置、ニューラルネットワーク、ニューラルネットワーク処理方法およびニューラルネットワークの実行プログラム |
CN108242046B (zh) * | 2016-12-27 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 图片处理方法及相关设备 |
JP7208889B2 (ja) * | 2017-03-09 | 2023-01-19 | 株式会社半導体エネルギー研究所 | 放送システム |
JP7179718B2 (ja) * | 2017-04-11 | 2022-11-29 | 株式会社半導体エネルギー研究所 | 半導体装置、撮像装置及び表示システム |
US10984757B2 (en) | 2017-05-19 | 2021-04-20 | Semiconductor Energy Laboratory Co., Ltd. | Machine learning method, machine learning system, and display system |
JP6726641B2 (ja) * | 2017-05-26 | 2020-07-22 | 日東電工株式会社 | 画像分類プログラム、分類データ作成プログラム、及び、分類データ作成方法 |
JP6729516B2 (ja) | 2017-07-27 | 2020-07-22 | トヨタ自動車株式会社 | 識別装置 |
JP6985059B2 (ja) * | 2017-08-14 | 2021-12-22 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
JP7198900B2 (ja) * | 2017-08-14 | 2023-01-04 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
JP6572269B2 (ja) | 2017-09-06 | 2019-09-04 | 株式会社東芝 | 学習装置、学習方法、およびプログラム |
EP3457324A1 (en) * | 2017-09-15 | 2019-03-20 | Axis AB | Method for locating one or more candidate digital images being likely candidates for depicting an object |
US11227214B2 (en) * | 2017-11-14 | 2022-01-18 | Advanced Micro Devices, Inc. | Memory bandwidth reduction techniques for low power convolutional neural network inference applications |
CN110012210B (zh) | 2018-01-05 | 2020-09-22 | Oppo广东移动通信有限公司 | 拍照方法、装置、存储介质及电子设备 |
KR102068576B1 (ko) * | 2018-04-10 | 2020-01-21 | 배재대학교 산학협력단 | 합성곱 신경망 기반 이미지 처리 시스템 및 방법 |
US11948073B2 (en) | 2018-04-20 | 2024-04-02 | Advanced Micro Devices, Inc. | Machine learning inference engine scalability |
JP7240657B2 (ja) * | 2018-05-15 | 2023-03-16 | Tokyo Artisan Intelligence株式会社 | ニューラルネットワーク回路装置、ニューラルネットワーク、ニューラルネットワーク処理方法およびニューラルネットワークの実行プログラム |
CN110969217B (zh) * | 2018-09-28 | 2023-11-17 | 杭州海康威视数字技术股份有限公司 | 基于卷积神经网络进行图像处理的方法和装置 |
US11769041B2 (en) | 2018-10-31 | 2023-09-26 | Advanced Micro Devices, Inc. | Low latency long short-term memory inference with sequence interleaving |
CN111353575A (zh) | 2018-12-20 | 2020-06-30 | 超威半导体公司 | 用于卷积神经网络的图块化格式 |
CN109766810B (zh) * | 2018-12-31 | 2023-02-28 | 陕西师范大学 | 基于协同表示和池化及融合的人脸识别分类方法 |
CN111723918A (zh) | 2019-03-18 | 2020-09-29 | 超威半导体公司 | 用于卷积内核的自动生成和调谐工具 |
JP7351186B2 (ja) | 2019-11-05 | 2023-09-27 | 富士通株式会社 | 解析装置、解析プログラム及び解析方法 |
JP7278202B2 (ja) | 2019-11-27 | 2023-05-19 | 富士フイルム株式会社 | 画像学習装置、画像学習方法、ニューラルネットワーク、及び画像分類装置 |
CN111325222A (zh) * | 2020-02-27 | 2020-06-23 | 深圳市商汤科技有限公司 | 图像归一化处理方法及装置、存储介质 |
EP4123576A4 (en) | 2020-03-16 | 2023-09-13 | Sony Semiconductor Solutions Corporation | SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, PARAMETER SEARCH METHOD |
WO2022070131A1 (en) | 2020-10-01 | 2022-04-07 | Gsi Technology Inc. | Functional protein classification for pandemic research |
JP7115533B2 (ja) * | 2020-12-09 | 2022-08-09 | 株式会社ニコン | 特徴抽出素子、特徴抽出システム、および判定装置 |
CN112949454B (zh) * | 2021-02-26 | 2023-04-18 | 西安工业大学 | 一种基于小样本学习的虹膜识别方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2940933B2 (ja) | 1989-05-20 | 1999-08-25 | 株式会社リコー | パターン認識方式 |
US6038337A (en) * | 1996-03-29 | 2000-03-14 | Nec Research Institute, Inc. | Method and apparatus for object recognition |
JP4026738B2 (ja) | 1999-05-31 | 2007-12-26 | 株式会社リコー | パターン認識方法及び装置、並びに記録媒体 |
EP1262907B1 (en) | 2001-05-28 | 2007-10-03 | Honda Research Institute Europe GmbH | Pattern recognition with hierarchical networks |
JP4846924B2 (ja) * | 2001-05-31 | 2011-12-28 | キヤノン株式会社 | パターン認識装置 |
JP3948652B2 (ja) | 2002-03-15 | 2007-07-25 | 株式会社リコー | シーン選択機能を有する撮像装置 |
JP4606828B2 (ja) | 2003-09-25 | 2011-01-05 | 富士フイルム株式会社 | 特定シーンの画像を選別する装置、プログラムおよびプログラムを記録した記録媒体 |
JP4532915B2 (ja) * | 2004-01-29 | 2010-08-25 | キヤノン株式会社 | パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体 |
JP4934982B2 (ja) | 2005-03-30 | 2012-05-23 | 日本電気株式会社 | 画像処理装置、画像処理方法、画像処理装置つき携帯端末及び画像処理プログラム |
JP2008234627A (ja) | 2007-02-19 | 2008-10-02 | Seiko Epson Corp | カテゴリー識別装置、及び、カテゴリー識別方法 |
US20080199084A1 (en) | 2007-02-19 | 2008-08-21 | Seiko Epson Corporation | Category Classification Apparatus and Category Classification Method |
JP2008204092A (ja) | 2007-02-19 | 2008-09-04 | Seiko Epson Corp | カテゴリー識別装置 |
JP5256752B2 (ja) | 2008-01-28 | 2013-08-07 | 株式会社ニコン | デジタルカメラ |
US8134624B2 (en) * | 2008-07-03 | 2012-03-13 | Aptina Imaging Corporation | Method and apparatus providing multiple exposure high dynamic range sensor |
JP5772442B2 (ja) | 2011-09-22 | 2015-09-02 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP5660078B2 (ja) | 2012-05-31 | 2015-01-28 | カシオ計算機株式会社 | 多クラス識別器、方法、およびプログラム |
-
2015
- 2015-01-16 JP JP2015006529A patent/JP6582416B2/ja active Active
- 2015-05-13 US US14/710,700 patent/US9911067B2/en active Active
- 2015-05-15 EP EP15167809.1A patent/EP2945102A1/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
EP2945102A1 (en) | 2015-11-18 |
JP2016033806A (ja) | 2016-03-10 |
US9911067B2 (en) | 2018-03-06 |
US20150332126A1 (en) | 2015-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6582416B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN103108120B (zh) | 变焦控制方法和设备 | |
KR101510098B1 (ko) | 디지털 영상 처리 장치에서 영상의 배경흐림 효과 처리장치 및 방법 | |
CN105959543B (zh) | 一种去除反光的拍摄装置和方法 | |
CN105493493B (zh) | 摄像装置、摄像方法及图像处理装置 | |
KR101710626B1 (ko) | 디지털 촬영 장치 및 이의 제어 방법 | |
CN105491358B (zh) | 一种图像处理方法及装置、终端 | |
CN102833471A (zh) | 摄像装置和摄像方法 | |
CN105144684B (zh) | 摄像装置和图像处理方法 | |
CN105472246A (zh) | 拍照装置及方法 | |
CN105469357B (zh) | 图像处理方法、装置及终端 | |
US20210390658A1 (en) | Image processing apparatus and method | |
KR101396326B1 (ko) | 얼굴 검출을 위한 디지털 영상 처리 장치의 제어 방법 및이 방법을 채용한 디지털 영상 처리 장치 | |
CN103685928A (zh) | 图像处理装置以及图像处理方法 | |
KR20090064247A (ko) | 디지털 영상 촬영 방법 및 촬영 장치 | |
JP7403995B2 (ja) | 情報処理装置、制御方法およびプログラム | |
JP2009081635A (ja) | デジタルカメラ、及びデジタルカメラの個人情報保護方法 | |
CN107483809A (zh) | 一种图像拍摄方法、终端及计算机可读存储介质 | |
JPWO2014136321A1 (ja) | 復元フィルタ生成装置及び方法、画像処理装置及び方法、撮像装置、プログラム並びに記録媒体 | |
US20230222639A1 (en) | Data processing method, system, and apparatus | |
CN108156392A (zh) | 一种拍摄方法、终端和计算机可读存储介质 | |
CN106612425B (zh) | 图像调整方法及终端设备 | |
CN104144286A (zh) | 拍摄装置和拍摄方法 | |
JP7286330B2 (ja) | 画像処理装置及びその制御方法、プログラム、記憶媒体 | |
CN105100587B (zh) | 摄像装置及其控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190819 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6582416 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |