JP7405198B2 - Image processing device, image processing method, and image processing program - Google Patents
Image processing device, image processing method, and image processing program Download PDFInfo
- Publication number
- JP7405198B2 JP7405198B2 JP2022126701A JP2022126701A JP7405198B2 JP 7405198 B2 JP7405198 B2 JP 7405198B2 JP 2022126701 A JP2022126701 A JP 2022126701A JP 2022126701 A JP2022126701 A JP 2022126701A JP 7405198 B2 JP7405198 B2 JP 7405198B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- neural network
- difference
- background
- foreground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 44
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 105
- 238000000034 method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 17
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
本発明の実施形態は、画像処理装置、学習装置、画像処理方法、学習方法、画像処理プログラムおよび学習プログラムに関する。 Embodiments of the present invention relate to an image processing device, a learning device, an image processing method, a learning method, an image processing program, and a learning program.
従来、カメラで撮影された動画像から前景として映り込む動物体(以後、前景とも呼ぶ)を検出する手法として、背景差分法が知られている。背景差分法では、カメラで撮影された動画像から検出対象物体が撮影されていない背景画像(背景モデルとも呼ぶ)を検出して記憶しておく。そして、カメラで撮影された動画像から背景画像の差分を求めることで、前景に対応する画像領域を検出する。 2. Description of the Related Art Conventionally, a background subtraction method is known as a method for detecting a moving object appearing in the foreground (hereinafter also referred to as foreground) from a moving image captured by a camera. In the background subtraction method, a background image (also called a background model) in which a detection target object is not photographed is detected and stored from a moving image photographed by a camera. Then, by calculating the difference between the background images from the moving images captured by the camera, an image area corresponding to the foreground is detected.
このように、画像から背景/前景を判別する手法としては、画像センサから出力された画像情報並びに時間的に遅延させた画像情報を入力層に取り込み、その差異に応じた情報を出力層から出力するニューラル・ネットワークを用いた手法が知られている。 In this way, the method for determining background/foreground from an image is to input image information output from an image sensor and temporally delayed image information into the input layer, and output information corresponding to the difference from the output layer. A method using a neural network is known.
しかしながら、上記の従来技術では、背景と類似する類似色が前景に含まれる場合や、ノイズ等に対して頑健に背景/前景の判別を行うことが困難であるという問題がある。 However, the above-mentioned conventional technology has a problem in that it is difficult to robustly distinguish between background and foreground when the foreground includes a similar color similar to the background, and against noise and the like.
例えば、ニューラル・ネットワークにおける中間層の層数が少ない場合、エッジや色などの局所的な特徴をもとに判別することから、背景と類似する類似色が前景に含まれる場合に背景/前景の判別が困難となる。また、ノイズ等の影響を受けやすく、誤検出を生じることがある。 For example, when the number of intermediate layers in a neural network is small, discrimination is based on local features such as edges and colors, so if the foreground contains a similar color that is similar to the background, the background/foreground It becomes difficult to distinguish. In addition, it is susceptible to the effects of noise and the like, which may result in false detection.
また、ニューラル・ネットワークにおける中間層の層数を増やすと、学習に初期においては、結合重みが小さな値の乱数で初期化されているため、入力信号が層を経るごとに拡散していくことから、ニューラル・ネットワークからはほぼ0のノイズしか得られないこととなる。このため、教師データと比較しても有意味な情報が得られず、ニューラル・ネットワークの学習が進まないことから、ニューラル・ネットワークにおける中間層の層数を単純に増やすことは難しい。 Additionally, if you increase the number of intermediate layers in a neural network, the connection weights are initialized with small random numbers at the beginning of learning, so the input signal will spread as it passes through the layers. , almost zero noise will be obtained from the neural network. For this reason, it is difficult to simply increase the number of intermediate layers in a neural network because meaningful information cannot be obtained even when compared with training data, and the learning of the neural network does not progress.
1つの側面では、ノイズ等に頑健な背景/前景の判別を可能とする画像処理装置、学習装置、画像処理方法、学習方法、画像処理プログラムおよび学習プログラムを提供することを目的とする。 One aspect of the present invention is to provide an image processing device, a learning device, an image processing method, a learning method, an image processing program, and a learning program that enable background/foreground discrimination that is robust to noise and the like.
第1の案では、画像処理装置は、取得部と、差分生成部と、ニューラル・ネットワークと、出力部とを有する。取得部は、予め撮影された背景の背景画像と、判別対象となる対象画像とを取得する。差分生成部は、背景画像と対象画像との第一の差分を示す差分画像を生成する。ニューラル・ネットワークは、背景画像と対象画像とのそれぞれをニューラル・ネットワークに入力することで、対象画像から背景および前景を区別した出力対象となるマップ画像と、差分画像との第二の差分を示す残差を推定する。出力部は、差分生成部が生成した差分画像と、ニューラル・ネットワークが推定した差とに基づいて、対象画像から背景および前景を区別したマップ画像を出力する。 In the first proposal, the image processing device includes an acquisition section, a difference generation section, a neural network, and an output section. The acquisition unit acquires a background image of a background photographed in advance and a target image to be determined. The difference generation unit generates a difference image showing a first difference between the background image and the target image. By inputting each of the background image and the target image into the neural network, the neural network shows the second difference between the difference image and the output target map image, which distinguishes the background and foreground from the target image. Estimate the residuals. The output unit outputs a map image in which the background and foreground are distinguished from the target image based on the difference image generated by the difference generation unit and the difference estimated by the neural network.
本発明の1実施態様によれば、ノイズ等に頑健な背景/前景の判別を行うことができる。 According to one embodiment of the present invention, it is possible to perform background/foreground discrimination that is robust to noise and the like.
以下、図面を参照して、実施形態にかかる画像処理装置、学習装置、画像処理方法、学習方法、画像処理プログラムおよび学習プログラムを説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する画像処理装置、学習装置、画像処理方法、学習方法、画像処理プログラムおよび学習プログラムは、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。 Hereinafter, an image processing device, a learning device, an image processing method, a learning method, an image processing program, and a learning program according to embodiments will be described with reference to the drawings. In the embodiments, components having the same functions are denoted by the same reference numerals, and redundant explanations will be omitted. Note that the image processing device, learning device, image processing method, learning method, image processing program, and learning program described in the following embodiments are merely examples, and do not limit the embodiments. Furthermore, the embodiments described below may be combined as appropriate within a range that does not contradict each other.
図1は、実施形態の概要を説明する説明図である。図1に示すように、本実施形態では、背景および前景の判別対象となる対象画像G1と、事前に撮影しておいた背景の背景画像G2とを入力し、対象画像G1に含まれる背景および前景を区別する前景マップG5を得る。 FIG. 1 is an explanatory diagram illustrating an overview of the embodiment. As shown in FIG. 1, in this embodiment, a target image G1 whose background and foreground are to be determined and a background image G2 of the background photographed in advance are input, and the background and foreground included in the target image G1 are input. A foreground map G5 that distinguishes the foreground is obtained.
図2は、対象画像G1、背景画像G2および教師画像G6の一例を説明する説明図である。図2に示すように、対象画像G1は、撮影範囲にいる人物Hなどの前景と、背景との判別を行う画像データであり、例えば、不審者を検知するための監視カメラの画像データなどである。背景画像G2は、背景を事前に撮影しておいた画像データなどである。なお、背景画像G2については、幾つかの画像を重ね合わせて生成した背景モデルであってもよい。 FIG. 2 is an explanatory diagram illustrating an example of the target image G1, the background image G2, and the teacher image G6. As shown in FIG. 2, the target image G1 is image data for distinguishing between the foreground, such as a person H in the shooting range, and the background, and is, for example, image data of a surveillance camera for detecting a suspicious person. be. The background image G2 is image data of a background photographed in advance. Note that the background image G2 may be a background model generated by overlapping several images.
前景マップG5は、マップ画像の一例であり、例えば対象画像G1における背景に対応する領域を黒画素とし、前景に対応する領域を白画素とする画像データである。このようにして得られた前景マップG5に対象画像G1を掛け合わせることで、例えば対象画像G1に含まれる前景を識別することができる。例えば、対象画像G1に含まれる前景の識別結果を用いることで、自由視点映像生成技術における被写体のシルエットの抽出や、映像監視技術における不審者の抽出に応用できる。 The foreground map G5 is an example of a map image, and is image data in which, for example, an area corresponding to the background in the target image G1 is set as black pixels, and an area corresponding to the foreground is set as white pixels. By multiplying the foreground map G5 obtained in this manner by the target image G1, for example, the foreground included in the target image G1 can be identified. For example, by using the identification result of the foreground included in the target image G1, it can be applied to extraction of a silhouette of a subject in free viewpoint video generation technology, or to extraction of a suspicious person in video surveillance technology.
具体的には、前景マップG5を得るための推論フェーズでは、入力された対象画像G1と、背景画像G2との差分を生成する差分生成(S1)を行い、差分画像G3を生成する。また、入力された対象画像G1および背景画像G2により、対象画像G1から背景および前景を区別する前景マップG5と、差分画像G3との差を示す残差G4(差分画像G3では、正解とする前景マップG5に足りない情報)をニューラル・ネットワークを用いて推定する残差推定(S2)を行う。次いで、差分生成(S1)で生成された差分画像G3と、残差推定(S2)で推定された残差G4とを足し合わせることで前景マップG5を得る(S3)。 Specifically, in the inference phase for obtaining the foreground map G5, difference generation (S1) is performed to generate a difference between the input target image G1 and the background image G2, and a difference image G3 is generated. In addition, based on the input target image G1 and background image G2, a foreground map G5 that distinguishes the background and foreground from the target image G1 and a residual G4 indicating the difference between the difference image G3 (in the difference image G3, the foreground map that is the correct answer) are created. Residual estimation (S2) is performed to estimate the information missing from map G5 using a neural network. Next, a foreground map G5 is obtained by adding together the difference image G3 generated in the difference generation (S1) and the residual G4 estimated in the residual estimation (S2) (S3).
なお、残差推定(S2)を行うニューラル・ネットワークの学習を行う学習フェーズでは、前景マップG5と教師画像G6との比較により、ニューラル・ネットワークを構成する各ノードの結合重みを調整する。 In addition, in the learning phase in which the neural network that performs residual estimation (S2) is trained, the connection weight of each node constituting the neural network is adjusted by comparing the foreground map G5 and the teacher image G6.
図2に示すように、教師画像G6は、ニューラル・ネットワークの学習時において入力された対象画像G1における背景/前景についての正解を示す教師データである。一例として、教師画像G6には、対象画像G1に含まれる前景(人物H)に対応した前景領域R1を白画素、前景領域R1以外の領域(背景領域)を黒画素とする画像データなどがある。 As shown in FIG. 2, the teacher image G6 is teacher data indicating the correct answer regarding the background/foreground in the target image G1 input during learning of the neural network. As an example, the teacher image G6 includes image data in which a foreground region R1 corresponding to the foreground (person H) included in the target image G1 is a white pixel, and a region other than the foreground region R1 (background region) is a black pixel. .
この教師画像G6を用いた教師付き学習を行うことで、正解とする前景マップG5に足りない部分の残差G4を適正に推定するように残差推定部11のニューラル・ネットワークの学習が行われる。
By performing supervised learning using this teacher image G6, the neural network of the
図3は、ニューラル・ネットワークで前景マップを推定する従来手法の説明図である。図3に示すように、従来手法では、対象画像G1および背景画像G2をニューラル・ネットワーク200の入力層201に入力し、中間層202を経て出力層203から背景/前景の判別結果G4aが直接出力される。
FIG. 3 is an explanatory diagram of a conventional method of estimating a foreground map using a neural network. As shown in FIG. 3, in the conventional method, the target image G1 and the background image G2 are input to the
ニューラル・ネットワーク200における中間層202の層数が少ない場合、入力された画像からは高次の特徴が得られず、低次の特徴、すなわちエッジや色などの局所的な特徴をもとに判別することとなる。ここで、高次の特徴とは、画像上のある領域が人物なのか車なのか、その内部・外部であるかなど、セマンティック(Semantic)な情報を含む特徴である。低次の特徴とは、縦・横方向のエッジや平坦な領域なのかなど、画像の局所的な構造の特徴である。
When the number of layers in the
図4は、高次の特徴/低次の特徴による判別を説明する説明図である。図4に示すように、ケースC1では、中間層を多層とするディープ・ニューラル・ネットワーク(DNN)のニューラル・ネットワーク200aを用いて入力画像G10から人物の領域を白画素とする判別結果G11を得ている。DNNでは、対象画像G1から層を経ることで、エッジ→四角や丸(エッジの組み合わせ)→タイヤや顔(四角や丸の組み合わせ)→…のように徐々に特徴が抽象化されていき、高次の特徴を抽出できる。このような高次の特徴をもとに判別を行う場合は、ノイズ等に対して頑健に背景/前景の判別を行うができる。 FIG. 4 is an explanatory diagram illustrating discrimination based on high-order features/low-order features. As shown in FIG. 4, in case C1, a discrimination result G11 is obtained from the input image G10 in which the human area is determined to be a white pixel using a neural network 200a of a deep neural network (DNN) having multiple intermediate layers. ing. In DNN, features are gradually abstracted from the target image G1 through layers, such as edges → squares and circles (combinations of edges) → tires and faces (combinations of squares and circles) →... The following features can be extracted. When discrimination is performed based on such high-order features, background/foreground discrimination can be performed robustly against noise and the like.
これに対し、ケースC2では、3層型のニューラル・ネットワーク200bを用いて入力画像G10から判別結果G11を得ている。3層型のニューラル・ネットワーク200bでは、局所的な低次の特徴をもとに判別を行うことから、ノイズ等の影響を受けやすく、誤検出を生じる。例えば、入力画像G10は、コートのラインを跨いでプレーする人物の画像であり、ライン右側の領域ではコートの色と類似する類似色が人物に含まれている。また、ライン左側の領域では、コートの色と、人物(左足)との色は類似していない。したがって、ケースC2の判別結果G11では、背景と類似する類似色が前景に含まれる部分については前景として判別されていない(左足の一部が前景として正しく判別されている)。
On the other hand, in case C2, the three-layer
図3に戻り、ニューラル・ネットワーク200における中間層202の層数を増やす場合は、学習に初期においては、結合重みが小さな値の乱数で初期化されているため、入力層201からの入力信号(対象画像G1、背景画像G2)が層を経るごとに拡散していき、弱まることとなる。このため、出力層203から得られる判別結果G4aは、学習初期において、ほぼ0のノイズとなる。したがって、教師画像G6と比較しても有意味な情報が得られず(勾配の方向が定まらないため)、ニューラル・ネットワーク200における各ノードの結合重みを示すパラメータを調整することが困難となり、学習が進まないこととなる。
Returning to FIG. 3, when increasing the number of
これに対し、本実施形態では、図1に示すように、対象画像G1から背景および前景を区別する前景マップG5と、差分画像G3との差を示す残差G4(差分画像G3では、正解とする前景マップG5に足りない情報)をニューラル・ネットワークを用いて推定する。そして、差分画像G3と、残差G4とを足し合わせることで前景マップG5を得ている。 On the other hand, in the present embodiment, as shown in FIG. (information missing from the foreground map G5) is estimated using a neural network. Then, the foreground map G5 is obtained by adding the difference image G3 and the residual G4.
このため、例えば学習の初期に得られる残差G4が0であっても、差分画像G3が足し合わされていることから、有意味な出力(前景マップG5)が得られ、教師画像G6との比較によりニューラル・ネットワークの学習を進めることができる。したがって、DNNを用いて高次な特徴をもとに判別した残差G4による前景マップG5を得ることができ、背景類似色やノイズ等が含まれる場合においても、頑健に背景/前景を判別することができる。 Therefore, even if the residual G4 obtained at the beginning of learning is 0, a meaningful output (foreground map G5) can be obtained because the difference image G3 is added, and a comparison with the teacher image G6 can be made. This allows neural network learning to proceed. Therefore, it is possible to obtain a foreground map G5 based on the residual G4 discriminated based on high-order features using DNN, and it is possible to robustly distinguish between background and foreground even when background similar colors, noise, etc. are included. be able to.
図5は、実施形態にかかる画像処理装置の機能構成例を示すブロック図である。図5に示すように、画像処理装置1は、差分生成部10と、残差推定部11と、出力部12とを有する。
FIG. 5 is a block diagram showing an example of the functional configuration of the image processing device according to the embodiment. As shown in FIG. 5, the image processing device 1 includes a difference generation section 10, a
差分生成部10は、入力された対象画像G1と、背景画像G2との差分により差分画像G3を生成する。すなわち、差分生成部10は、生成部の一例である。例えば、差分生成部10は、対象画像G1および背景画像G2において互いに対応する画素における画素値の差分を求めることで差分画像G3を生成する。この差分については、画素値のL1ノルム(差の絶対値)や、L2ノルムなどを用いることができる。 The difference generation unit 10 generates a difference image G3 based on the difference between the input target image G1 and the background image G2. That is, the difference generation unit 10 is an example of a generation unit. For example, the difference generation unit 10 generates the difference image G3 by determining the difference in pixel values between corresponding pixels in the target image G1 and the background image G2. For this difference, the L1 norm (absolute value of difference), L2 norm, etc. of pixel values can be used.
また、差分生成部10が差分をとる対象は、互いに対応する画素における画素値に限定しない。例えば、差分生成部10は、対象画像G1および背景画像G2それぞれの各画素から計算した特徴量の差分を求め、差分画像G3を生成してもよい。 Furthermore, the targets for which the difference generation unit 10 calculates the difference are not limited to pixel values in mutually corresponding pixels. For example, the difference generation unit 10 may calculate the difference between the feature amounts calculated from each pixel of the target image G1 and the background image G2, and generate the difference image G3.
一例として、次の文献に示すように、局所特徴量を用いてもよい。
・SIFT(Scale-Invariant Feature Transform): David G.Lowe, “Distinctive image features from scale-invariant keypoints”, Int.Journal of Computer Vision,Vol.60, No.2, pp.91-110, 2004.
・SURF (Speeded-Up Robust Features): H. Bay, T. Tuytelaars, and L. Van Gool, “SURF: Speeded Up Robust. Features”, In ECCV , pp.404-417, 2006.
・BRIEF (Features from Accelerated Segment Test): M.Calonder, V.Lepetit and C.Strecha and P.Fua, “BRIEF: Binary Robust Independent Elementary Features”, In Proc. European Conference on Computer Vision, pp.778-792, 2010.
・ORB (Oriented FAST and Rotated BRIEF): E.Rublee, V.Rabaud, K.Konolige and G.Bradski “ORB: an efficient alternative to SIFT or SURF”, In Proc. International Conference on Computer Vision, 2011.
As an example, local features may be used as shown in the following document.
・SIFT (Scale-Invariant Feature Transform): David G.Lowe, “Distinctive image features from scale-invariant keypoints”, Int.Journal of Computer Vision,Vol.60, No.2, pp.91-110, 2004.
・SURF (Speeded-Up Robust Features): H. Bay, T. Tuytelaars, and L. Van Gool, “SURF: Speeded Up Robust. Features”, In ECCV , pp.404-417, 2006.
・BRIEF (Features from Accelerated Segment Test): M.Calonder, V.Lepetit and C.Strecha and P.Fua, “BRIEF: Binary Robust Independent Elementary Features”, In Proc. European Conference on Computer Vision, pp.778-792 , 2010.
・ORB (Oriented FAST and Rotated BRIEF): E.Rublee, V.Rabaud, K.Konolige and G.Bradski “ORB: an efficient alternative to SIFT or SURF”, In Proc. International Conference on Computer Vision, 2011.
また、差分生成部10は、次の文献に示すように、一般物体認識向けに学習済みのDNNの中間層の値を特徴量として用いてもよい。
・AlexNet: Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012.
・GoogLeNet: Szegedy, Christian, et al. "Going deeper with convolutions." Cvpr, 2015.
・VGG: Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).
・ResNet: He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
Further, the difference generation unit 10 may use, as the feature amount, the value of the intermediate layer of a DNN that has been trained for general object recognition, as shown in the following document.
・AlexNet: Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012.
・GoogLeNet: Szegedy, Christian, et al. "Going deeper with convolutions." Cvpr, 2015.
・VGG: Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).
・ResNet: He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
残差推定部11は、入力された対象画像G1および背景画像G2より、対象画像G1から背景および前景を区別する前景マップG5と、差分画像G3との差を示す残差G4をニューラル・ネットワークを用いて推定する。すなわち、残差推定部11は、推定部の一例である。
The
出力部12は、差分生成部10より生成された差分画像G3と、残差推定部11より推定された残差G4との基づく前景マップG5を出力する。具体的には、出力部12は、差分画像G3および残差G4において互いに対応する画素における画素値を加算して得られた前景マップG5を出力する。この加算については、重み付き加算であってもよい。この重みは、予め設計者が定めた値であってもよいし、可変のパラメータであってもよい。可変のパラメータについては、残差推定部11のニューラル・ネットワークを学習するときに一緒に最適化を行ってもよい。
The
図6は、実施形態にかかる画像処理装置1の動作例を示すフローチャートである。図6に示すように、処理が開始されると、画像処理装置1は、メモリ、ハードディスク、データベースもしくはネットワーク上のストレージ等に予め格納されている背景画像G2を取得する(S10)。同様に、画像処理装置1は、対象画像G1を取得する(S11)。 FIG. 6 is a flowchart showing an example of the operation of the image processing device 1 according to the embodiment. As shown in FIG. 6, when the process is started, the image processing device 1 acquires a background image G2 stored in advance in a memory, hard disk, database, storage on a network, etc. (S10). Similarly, the image processing device 1 acquires the target image G1 (S11).
なお、監視カメラからの画像を対象画像G1とする場合、画像処理装置1は、監視カメラと接続するインタフェースを介して監視カメラより対象画像G1を直接取得してもよい。また、画像処理装置1は、対象画像G1および背景画像G2の取得時にノイズ除去や色補正などの前処理を施してもよい。 Note that when an image from a surveillance camera is used as the target image G1, the image processing device 1 may directly acquire the target image G1 from the surveillance camera via an interface connected to the surveillance camera. Further, the image processing device 1 may perform preprocessing such as noise removal and color correction when acquiring the target image G1 and the background image G2.
次いで、画像処理装置1は、対象画像G1および背景画像G2を差分生成部10に入力する(S12、S13)。次いで、差分生成部10は、対象画像G1と背景画像G2の差分を生成し(S14)、差分画像G3を得る。 Next, the image processing device 1 inputs the target image G1 and the background image G2 to the difference generation unit 10 (S12, S13). Next, the difference generation unit 10 generates a difference between the target image G1 and the background image G2 (S14), and obtains a difference image G3.
次いで、画像処理装置1は、対象画像G1および背景画像G2を残差推定部11に入力する(S15、S16)。次いで、残差推定部11は、入力された対象画像G1および背景画像G2より、前景マップG5と差分画像G3の差を示す残差G4をニューラル・ネットワークを用いて推定する(S17)。
Next, the image processing device 1 inputs the target image G1 and the background image G2 to the residual estimation unit 11 (S15, S16). Next, the
残差推定部11のニューラル・ネットワークは、後述する学習装置による学習フェーズにより、残差G4を適正に推定するようにパラメータ調整が施されている。
The neural network of the
図7は、残差推定部11のニューラル・ネットワークを説明する説明図である。図11に示すように、ニューラル・ネットワーク11aは、脳のニューロンを模したユニットを階層的に結合したネットワーク構造を有する。脳には、多数のニューロン(神経細胞)が存在する。各ニューロンは、他のニューロンから信号を受け取り、他のニューロンへ信号を受け渡す。脳は、この信号の流れによって、様々な情報処理を行う。ニューラル・ネットワーク11aは、このような脳の機能の特性を計算機上で実現したモデルである。
FIG. 7 is an explanatory diagram illustrating the neural network of the
具体的には、ニューラル・ネットワーク11aは、対象画像G1および背景画像G2が入力される層から残差G4を出力する層までの中間層を多層とするディープ・ニューラル・ネットワークであってもよい。複数の中間層は、例えば、畳み込み層、活性化関数層、プーリング層、全結合層およびソフトマックス層を含む。各層の数及び位置は、要求されるアーキテクチャに応じて随時変更され得る。すなわち、ニューラル・ネットワーク11aの階層構造や各層の構成は、識別する対象などに応じて、設計者が予め定めることができる。
Specifically, the
また、ニューラル・ネットワーク11aにおいては、入力された画像データからの特徴抽出を可能とするように、畳み込み層と、プーリング層とを交互に積み重ねたCNN(畳み込みニューラル・ネットワーク)としての構成を有してもよい。また、ニューラル・ネットワーク11aは、CNNではなく、全結合層を多層に並べたもので構成してもよい。この場合、対象画像G1および背景画像G2については、ラスタスキャン順などの特定の方法に従って一列に並べたベクトルを入力とすればよい。
In addition, the
例えば、ニューラル・ネットワーク11aは、次の文献に示すようなネットワーク構造を用いてもよい。
・FCN(Fully Convolutional Networks):Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
・U-Net:Ronneberger, Olaf, et al. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015.
For example, the
・FCN (Fully Convolutional Networks): Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
・U-Net: Ronneberger, Olaf, et al. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015.
図7のニューラル・ネットワーク11aは、上記のU-Netを適用した場合のネットワーク構造の一例である。例えば、ニューラル・ネットワーク11aでは、対象画像G1および背景画像G2をRGB3チャンネルのカラー画像とする場合、入力はそれらを重ねた6チャンネルとなる。この入力に対して、畳み込み層、拡大畳み込み層、プーリング層、Batch normalization層、活性化関数層などを経て、1チャンネルの残差G4を出力する。
The
図6に戻り、S17に次いで、出力部12は、差分画像G3と残差G4を加算し(S18)、前景マップG5を出力する(S19)。
Returning to FIG. 6, following S17, the
画像処理装置1では、得られた前景マップG5を、自由視点映像生成技術における被写体のシルエットの抽出や、映像監視技術における不審者の抽出に適用することができる。 In the image processing device 1, the obtained foreground map G5 can be applied to extraction of a silhouette of a subject in free viewpoint video generation technology and extraction of a suspicious person in video surveillance technology.
例えば、複数視点のカメラ映像から任意の視点の映像を作り出す技術は自由視点映像生成と呼ばれる。この自由視点映像生成技術を用いることで、撮影したカメラ以外の視点での映像の生成や、現実では不可能なカメラワークの映像などを生成でき、ダイナミックで臨場感のある映像コンテンツを生成や、ユーザーが各自で好きなアングルから視聴などに応用できる。 For example, a technique for creating an arbitrary viewpoint video from camera images from multiple viewpoints is called free viewpoint video generation. By using this free-viewpoint video generation technology, it is possible to generate videos from a viewpoint other than the camera that took the picture, or to create videos with camera work that is impossible in reality, and it is possible to create dynamic and realistic video content. Users can view the video from their own preferred angles.
この自由視点映像生成技術への適用例としては、次のようなものがある。各カメラ画像に対して前景マップG5を求め、得られた前景マップG5をもとに、人物などの前景物体のシルエットを抽出する。次いで、Visual Hullという手法を用いて前景物体の3次元構造を復元し、任意に設定した視点からの映像をレンダリングする。 Examples of applications of this free-viewpoint video generation technology include the following. A foreground map G5 is obtained for each camera image, and a silhouette of a foreground object such as a person is extracted based on the obtained foreground map G5. Next, a method called Visual Hull is used to restore the three-dimensional structure of the foreground object and render the image from an arbitrarily set viewpoint.
また、映像監視技術における不審者の抽出への適用例としては、次のようなものがある。監視カメラの画像に対して前景マップG5を求め、前景領域の画素数を求める。この前景領域の画素数が所定の閾値以上であった場合、不審物を検出したものとして検出信号を出力する。 Further, examples of application of video surveillance technology to the extraction of suspicious persons include the following. A foreground map G5 is obtained for the image of the surveillance camera, and the number of pixels in the foreground region is obtained. If the number of pixels in this foreground area is equal to or greater than a predetermined threshold, a detection signal is output as a result of detecting a suspicious object.
次に、ニューラル・ネットワーク11aの学習(学習フェーズ)を行う学習装置の詳細について説明する。図8は、実施形態にかかる学習装置の機能構成例を示すブロック図である。
Next, details of the learning device that performs learning (learning phase) of the
なお、学習フェーズにおける対象画像G1、背景画像G2および教師画像G6については、学習用に予め設定された学習データセットのデータを用いるものとする。この学習データセットは、例えば、メモリ、ハードディスク、データベースもしくはネットワーク上のストレージ等に予め格納されているものを読み出して用いる。また、学習データセットについては、画像の回転やスケーリングなどの幾何学的変換やノイズを付加するなど、擬似的にデータの多様性を増やす処理(Data augumentation)を行ってもよい。また、ミニバッチ学習をする場合、対象画像G1、背景画像G2および教師画像G6については、ミニバッチ数分を取得してもよい。 Note that for the target image G1, background image G2, and teacher image G6 in the learning phase, data of a learning dataset set in advance for learning is used. This learning data set is read out and used, for example, from a memory, hard disk, database, storage on a network, or the like. Further, for the learning data set, processing (data augmentation) may be performed to artificially increase the diversity of data, such as geometric transformation such as image rotation and scaling, or adding noise. Furthermore, when performing mini-batch learning, the number of mini-batches may be acquired for the target image G1, background image G2, and teacher image G6.
図8に示すように、学習装置2は、誤差算出部20と、勾配算出部21と、更新部22とを有する。
As shown in FIG. 8, the
誤差算出部20は、画像処理装置1が出力した前景マップG5と、教師画像G6との入力を受け付ける。誤差算出部20は、入力された前景マップG5と、教師画像G6とを比較して誤差を算出する。すなわち、誤差算出部20は、算出部の一例である。 The error calculation unit 20 receives input of the foreground map G5 outputted by the image processing device 1 and the teacher image G6. The error calculation unit 20 compares the input foreground map G5 and the teacher image G6 to calculate an error. That is, the error calculation section 20 is an example of a calculation section.
例えば、誤差算出部20は、前景マップG5および教師画像G6において互いに対応する画素における画素値の二乗誤差を求めることで、誤差を算出する。この誤差については、二乗誤差に限定するものではなく、L1ノルム誤差や、ロバスト統計で用いられるHuberノルム誤差などを用いてもよい。 For example, the error calculation unit 20 calculates the error by determining the squared error of pixel values of mutually corresponding pixels in the foreground map G5 and the teacher image G6. This error is not limited to a squared error, but may be an L1 norm error, a Huber norm error used in robust statistics, or the like.
勾配算出部21は、誤差算出部20が算出した誤差をもとに、教師あり学習で一般的に使用される誤差逆伝搬法に基づいてニューラル・ネットワーク11a全体の勾配を算出する。
The gradient calculation section 21 calculates the gradient of the entire
更新部22は、勾配算出部21が算出した勾配をもとに、ニューラル・ネットワーク11aを構成する各ノードの結合重み(パラメータ)の更新量を算出する。更新部22は、算出した更新量をもとに、ニューラル・ネットワーク11aにおけるパラメータを更新する。
The updating unit 22 calculates the update amount of the connection weights (parameters) of each node configuring the
更新部22における更新量の算出には、例えば、次の文献に示すような最適化手法を用いることができる。
・Momentum付きのSGD(stocastic gradient descent): Goodfellow, Ian, et al. Deep learning. Vol. 1. Cambridge: MIT press, 2016.
・RMSProp: Geoffrey Hinton, Nitish Srivastava, Kevin Swersky. 2014. Lecture 6e: Rmsprop: Divide the gradient by a running average of its recent magnitude (CSC321 Winter 2014).
・Adam: Diederik Kingma, Jimmy Ba. 2015. Adam: a method for stochastic optimization. the 3rd International Conference for Learning Representations (ICLR 2015).
To calculate the update amount in the update unit 22, for example, an optimization method as shown in the following literature can be used.
・SGD (stochastic gradient descent) with momentum: Goodfellow, Ian, et al. Deep learning. Vol. 1. Cambridge: MIT press, 2016.
・RMSProp: Geoffrey Hinton, Nitish Srivastava, Kevin Swersky. 2014. Lecture 6e: RMSProp: Divide the gradient by a running average of its recent magnitude (CSC321 Winter 2014).
・Adam: Diederik Kingma, Jimmy Ba. 2015. Adam: a method for stochastic optimization. the 3rd International Conference for Learning Representations (ICLR 2015).
図9は、学習フローを例示するフローチャートである。図9に示すように、処理が開始されると、学習データセットから対象画像G1および背景画像G2を取得する(S20、S21)。次いで、画像処理装置1は、S12~S19と同様の処理を行い、前景マップG5を出力する(S22~S29)。画像処理装置1より出力された前景マップG5は、学習装置2の誤差算出部20に入力される。
FIG. 9 is a flowchart illustrating a learning flow. As shown in FIG. 9, when the process is started, a target image G1 and a background image G2 are acquired from the learning data set (S20, S21). Next, the image processing device 1 performs the same processing as S12 to S19, and outputs the foreground map G5 (S22 to S29). The foreground map G5 output from the image processing device 1 is input to the error calculation unit 20 of the
次いで、学習装置2の誤差算出部20は、学習データセットから教師画像G6を取得する(S30)。次いで、誤差算出部20は、画像処理装置1より出力された前景マップG5と、教師画像G6とを比較して誤差を計算する(S31)。
Next, the error calculation unit 20 of the
次いで、勾配算出部21は、誤差算出部20が計算した誤差をもとに、ニューラル・ネットワーク11a全体の勾配を算出する(S32)。次いで、更新部22は、差分生成部10のニューラル・ネットワーク11aにおける各ノードの結合重みを勾配算出部21が計算した勾配に応じて更新する(S33)。
Next, the gradient calculation unit 21 calculates the gradient of the entire
次いで、学習装置2は、学習データセットに含まれる全てのデータを用いた学習が終了したか否かなど、所定の学習終了の条件を満たすかを判定する(S34)。満たさない場合(S34:NO)、学習装置2は、S20へ処理を戻し、学習を継続する。満たす場合(S34:YES)、学習装置2は、学習を終了する。
Next, the
以上のように、画像処理装置1の差分生成部10は、背景および前景の判別対象となる対象画像G1と、背景にかかる背景画像G2との差分画像G3を生成する。画像処理装置1の残差推定部11は、入力された対象画像G1および背景画像G2より、対象画像G1から背景および前景を区別する前景マップG5と、差分画像G3との差を示す残差G4をニューラル・ネットワーク11aを用いて推定する。画像処理装置1の出力部12は、差分生成部10により生成された差分画像G3と、残差推定部11により推定された残差G4とに基づく前景マップG5を出力する。
As described above, the difference generation unit 10 of the image processing device 1 generates the difference image G3 between the target image G1, which is a target for background and foreground discrimination, and the background image G2, which is the background. From the input target image G1 and background image G2, the
これにより、画像処理装置1は、高次な特徴を判別する多層な残差推定部11を用いることができ、背景と類似する類似色が前景に含まれる場合や、ノイズ等に対して頑健に背景/前景の判別を行うことが可能となる。
As a result, the image processing device 1 can use the multilayered
また、残差推定部11のニューラル・ネットワーク11aは、中間層を多層とするディープ・ニューラル・ネットワーク(DNN)である。これにより、残差推定部11は、入力された対象画像G1および背景画像G2に含まれる高次な特徴をもとに残差G4を推定することができる。したがって、画像処理装置1は、ノイズ等に対してより頑健な背景/前景の判別を行うことが可能となる。
Further, the
また、残差推定部11のニューラル・ネットワーク11aは、畳み込みニューラル・ネットワークである。これにより、残差推定部11は、入力された対象画像G1および背景画像G2の抽象化を行い、高次の特徴を得ることができる。
Further, the
また、差分生成部10は、対象画像G1および背景画像G2それぞれの各画素に基づく特徴量の差分をもとに差分画像G3を生成する。このように差分画像G3は、対象画像G1および背景画像G2における特徴量の差分であってもよい。 Further, the difference generation unit 10 generates a difference image G3 based on the difference in feature amount based on each pixel of the target image G1 and the background image G2. In this way, the difference image G3 may be a difference in feature amounts between the target image G1 and the background image G2.
また、学習装置2の誤差算出部20は、差分生成部10により生成された差分画像G3、および、残差推定部11のニューラル・ネットワーク11aにより推定された残差G4に基づいた前景マップG5を受け付ける。学習装置2は、受け付けた前景マップG5と、教師画像G6との誤差を算出する。学習装置2の更新部22は、算出された誤差に基づいてニューラル・ネットワーク11aにかかるパラメータを更新する。これにより、学習装置2は、対象画像G1から背景および前景を区別する前景マップG5と、差分画像G3との差を示す残差G4を推定するニューラル・ネットワーク11aの学習を行うことができる。
The error calculation unit 20 of the
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Note that each component of each illustrated device does not necessarily need to be physically configured as illustrated. In other words, the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices can be functionally or physically distributed or integrated in arbitrary units depending on various loads and usage conditions. Can be integrated and configured.
画像処理装置1、学習装置2で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、画像処理装置1、学習装置2で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
The various processing functions performed by the image processing device 1 and the
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ(ハードウェア)の一例を説明する。図10は、プログラムを実行するコンピュータの一例を示す説明図である。 By the way, the various processes described in the above embodiments can be realized by executing a program prepared in advance on a computer. Therefore, an example of a computer (hardware) that executes a program having the same functions as those of the above embodiment will be described below. FIG. 10 is an explanatory diagram showing an example of a computer that executes a program.
図10に示すように、コンピュータ3は、各種演算処理を実行するCPU101と、データ入力を受け付ける入力装置102と、モニタ103と、スピーカ104とを有する。また、コンピュータ3は、記憶媒体からプログラム等を読み取る媒体読取装置105と、各種装置と接続するためのインタフェース装置106と、有線または無線により外部機器と通信接続するための通信装置107とを有する。また、コンピュータ3は、各種情報を一時記憶するRAM108と、ハードディスク装置109とを有する。また、コンピュータ3内の各部(101~109)は、バス110に接続される。
As shown in FIG. 10, the
ハードディスク装置109には、上記の実施形態で説明した差分生成部10、残差推定部11、出力部12、誤差算出部20、勾配算出部21および更新部22等の機能部における各種処理を実行するためのプログラム111が記憶される。また、ハードディスク装置109には、プログラム111が参照する各種データ112が記憶される。入力装置102は、例えば、コンピュータ3の操作者から操作情報の入力を受け付ける。モニタ103は、例えば、操作者が操作する各種画面を表示する。インタフェース装置106は、例えば印刷装置等が接続される。通信装置107は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
The
CPU101は、ハードディスク装置109に記憶されたプログラム111を読み出して、RAM108に展開して実行することで、差分生成部10、残差推定部11、出力部12、誤差算出部20、勾配算出部21および更新部22等にかかる各種の処理を行う。なお、プログラム111は、ハードディスク装置109に記憶されていなくてもよい。例えば、コンピュータ3が読み取り可能な記憶媒体に記憶されたプログラム111を、コンピュータ3が読み出して実行するようにしてもよい。コンピュータ3が読み取り可能な記憶媒体は、例えば、CD-ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にプログラム111を記憶させておき、コンピュータ3がこれらからプログラム111を読み出して実行するようにしてもよい。
The
以上の実施形態に関し、さらに以下の付記を開示する。 Regarding the above embodiments, the following additional notes are further disclosed.
(付記1)背景および前景の判別対象となる対象画像と、前記背景にかかる背景画像との差分画像を生成する生成部と、
前記対象画像から前記背景および前記前景を区別するマップ画像と、前記差分画像との差を示す残差をニューラル・ネットワークを用いて推定する推定部と、
生成された前記差分画像と、推定された前記残差とに基づくマップ画像を出力する出力部と、
を有することを特徴とする画像処理装置。
(Additional Note 1) A generation unit that generates a difference image between a target image to be determined as a background and a foreground, and a background image related to the background;
an estimation unit that uses a neural network to estimate a residual indicating a difference between a map image that distinguishes the background and the foreground from the target image and the difference image;
an output unit that outputs a map image based on the generated difference image and the estimated residual;
An image processing device comprising:
(付記2)前記ニューラル・ネットワークは、中間層を多層とするディープ・ニューラル・ネットワークである、
ことを特徴とする付記1に記載の画像処理装置。
(Additional Note 2) The neural network is a deep neural network with multiple intermediate layers,
The image processing device according to supplementary note 1.
(付記3)前記ニューラル・ネットワークは、畳み込みニューラル・ネットワークである、
ことを特徴とする付記2に記載の画像処理装置。
(Additional Note 3) The neural network is a convolutional neural network,
The image processing device according to
(付記4)前記生成部は、前記対象画像および前記背景画像それぞれの各画素に基づく特徴量の差分をもとに前記差分画像を生成する、
ことを特徴とする付記1乃至3のいずれか一に記載の画像処理装置。
(Additional Note 4) The generation unit generates the difference image based on a difference in feature amounts based on each pixel of the target image and the background image,
The image processing device according to any one of Supplementary Notes 1 to 3, characterized in that:
(付記5)背景および前景の判別対象となる対象画像と前記背景にかかる背景画像との差分画像、および、前記差分画像との差を示す残差に基づいて、ニューラル・ネットワークによって推定された、前記対象画像から前記背景および前記前景を区別するマップ画像を受け付け、当該マップ画像と、教師データとの誤差を算出する算出部と、
算出された前記誤差に基づいて前記ニューラル・ネットワークにかかるパラメータを更新する更新部と、
を有することを特徴とする学習装置。
(Additional Note 5) Estimated by a neural network based on a difference image between a target image to be determined as a background and foreground and a background image related to the background, and a residual indicating the difference between the difference image and the difference image. a calculation unit that receives a map image that distinguishes the background and the foreground from the target image, and calculates an error between the map image and the teaching data;
an updating unit that updates parameters related to the neural network based on the calculated error;
A learning device characterized by having.
(付記6)前記ニューラル・ネットワークは、中間層を多層とするディープ・ニューラル・ネットワークである、
ことを特徴とする付記5に記載の学習装置。
(Additional Note 6) The neural network is a deep neural network with multiple intermediate layers.
The learning device according to appendix 5, characterized in that:
(付記7)前記ニューラル・ネットワークは、畳み込みニューラル・ネットワークである、
ことを特徴とする付記6に記載の学習装置。
(Additional Note 7) The neural network is a convolutional neural network,
The learning device according to appendix 6, characterized in that:
(付記8)背景および前景の判別対象となる対象画像と、前記背景にかかる背景画像との差分画像を生成し、
前記対象画像から前記背景および前記前景を区別するマップ画像と、前記差分画像との差を示す残差をニューラル・ネットワークを用いて推定し、
生成された前記差分画像と、推定された前記残差とに基づくマップ画像を出力する、
処理をコンピュータが実行することを特徴とする画像処理方法。
(Additional Note 8) Generating a difference image between a target image to be determined as a background and a foreground and a background image related to the background,
estimating a residual indicating a difference between a map image that distinguishes the background and the foreground from the target image and the difference image using a neural network;
outputting a map image based on the generated difference image and the estimated residual;
An image processing method characterized in that processing is performed by a computer.
(付記9)前記ニューラル・ネットワークは、中間層を多層とするディープ・ニューラル・ネットワークである、
ことを特徴とする付記8に記載の画像処理方法。
(Additional Note 9) The neural network is a deep neural network with multiple intermediate layers,
The image processing method according to appendix 8, characterized in that:
(付記10)前記ニューラル・ネットワークは、畳み込みニューラル・ネットワークである、
ことを特徴とする付記9に記載の画像処理方法。
(Additional Note 10) The neural network is a convolutional neural network,
The image processing method according to appendix 9, characterized in that:
(付記11)前記生成する処理は、前記対象画像および前記背景画像それぞれの各画素に基づく特徴量の差分をもとに前記差分画像を生成する、
ことを特徴とする付記8乃至10のいずれか一に記載の画像処理方法。
(Additional Note 11) The generation process generates the difference image based on the difference in feature amounts based on each pixel of the target image and the background image,
The image processing method according to any one of appendices 8 to 10, characterized in that:
(付記12)背景および前景の判別対象となる対象画像と前記背景にかかる背景画像との差分画像、および、前記差分画像との差を示す残差に基づいて、ニューラル・ネットワークによって推定された、前記対象画像から前記背景および前記前景を区別するマップ画像を受け付け、当該マップ画像と、教師データとの誤差を算出し、
算出された前記誤差に基づいて前記ニューラル・ネットワークにかかるパラメータを更新する、
処理をコンピュータが実行することを特徴とする学習方法。
(Additional Note 12) Estimated by a neural network based on a difference image between a target image to be determined as a background and foreground and a background image related to the background, and a residual indicating the difference between the difference image and the difference image. Accepting a map image that distinguishes the background and the foreground from the target image, calculating an error between the map image and training data,
updating parameters related to the neural network based on the calculated error;
A learning method characterized in that processing is performed by a computer.
(付記13)前記ニューラル・ネットワークは、中間層を多層とするディープ・ニューラル・ネットワークである、
ことを特徴とする付記12に記載の学習方法。
(Additional Note 13) The neural network is a deep neural network with multiple intermediate layers,
The learning method according to
(付記14)前記ニューラル・ネットワークは、畳み込みニューラル・ネットワークである、
ことを特徴とする付記13に記載の学習方法。
(Additional Note 14) The neural network is a convolutional neural network,
The learning method according to appendix 13, characterized in that:
(付記15)背景および前景の判別対象となる対象画像と、前記背景にかかる背景画像との差分画像を生成し、
前記対象画像から前記背景および前記前景を区別するマップ画像と、前記差分画像との差を示す残差をニューラル・ネットワークを用いて推定し、
生成された前記差分画像と、推定された前記残差とに基づくマップ画像を出力する、
処理をコンピュータに実行させることを特徴とする画像処理プログラム。
(Additional Note 15) Generating a difference image between a target image to be determined as a background and a foreground and a background image related to the background,
estimating a residual indicating a difference between a map image that distinguishes the background and the foreground from the target image and the difference image using a neural network;
outputting a map image based on the generated difference image and the estimated residual;
An image processing program that causes a computer to perform processing.
(付記16)前記ニューラル・ネットワークは、中間層を多層とするディープ・ニューラル・ネットワークである、
ことを特徴とする付記15に記載の画像処理プログラム。
(Additional Note 16) The neural network is a deep neural network with multiple intermediate layers,
The image processing program according to appendix 15, characterized in that:
(付記17)前記ニューラル・ネットワークは、畳み込みニューラル・ネットワークである、
ことを特徴とする付記16に記載の画像処理プログラム。
(Additional Note 17) The neural network is a convolutional neural network,
The image processing program according to appendix 16, characterized in that:
(付記18)前記生成する処理は、前記対象画像および前記背景画像それぞれの各画素に基づく特徴量の差分をもとに前記差分画像を生成する、
ことを特徴とする付記15乃至17のいずれか一に記載の画像処理プログラム。
(Additional Note 18) The generation process generates the difference image based on the difference in feature amounts based on each pixel of the target image and the background image,
18. The image processing program according to any one of appendices 15 to 17.
(付記19)背景および前景の判別対象となる対象画像と前記背景にかかる背景画像との差分画像、および、前記差分画像との差を示す残差に基づいて、ニューラル・ネットワークによって推定された、前記対象画像から前記背景および前記前景を区別するマップ画像を受け付け、当該マップ画像と、教師データとの誤差を算出し、
算出された前記誤差に基づいて前記ニューラル・ネットワークにかかるパラメータを更新する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
(Additional Note 19) Estimated by a neural network based on a difference image between a target image to be determined as a background and foreground and a background image related to the background, and a residual indicating the difference between the difference image and the difference image. Accepting a map image that distinguishes the background and the foreground from the target image, calculating an error between the map image and training data,
updating parameters related to the neural network based on the calculated error;
A learning program that causes a computer to perform processing.
(付記20)前記ニューラル・ネットワークは、中間層を多層とするディープ・ニューラル・ネットワークである、
ことを特徴とする付記19に記載の学習プログラム。
(Additional Note 20) The neural network is a deep neural network with multiple intermediate layers,
The learning program according to appendix 19, characterized in that:
(付記21)前記ニューラル・ネットワークは、畳み込みニューラル・ネットワークである、
ことを特徴とする付記20に記載の学習プログラム。
(Additional Note 21) The neural network is a convolutional neural network,
The learning program according to appendix 20, characterized in that:
1…画像処理装置
2…学習装置
3…コンピュータ
10…差分生成部
11…残差推定部
11a、200、200a、200b…ニューラル・ネットワーク
12…出力部
20…誤差算出部
21…勾配算出部
22…更新部
101…CPU
102…入力装置
103…モニタ
104…スピーカ
105…媒体読取装置
106…インタフェース装置
107…通信装置
108…RAM
109…ハードディスク装置
110…バス
111…プログラム
112…各種データ
201…入力層
202…中間層
203…出力層
C1、C2…ケース
G1…対象画像
G2…背景画像
G3…差分画像
G4…残差
G4a…判別結果
G5…前景マップ
G6…教師画像
G10…入力画像
G11…判別結果
H…人物
R1…前景領域
1...
102...
109...Hard disk device 110...
Claims (3)
前記背景画像と前記対象画像との第一の差分を示す差分画像を生成する差分生成部と、
前記背景画像と前記対象画像とのそれぞれをニューラル・ネットワークに入力することで、前記対象画像から背景および前景を区別した出力対象となるマップ画像と、前記差分画像との第二の差分を示す残差を推定する前記ニューラル・ネットワークと、
前記差分生成部が生成した前記差分画像と、前記ニューラル・ネットワークが推定した前記残差とを足し合わせて、前記対象画像から背景および前景を区別したマップ画像を出力する出力部と、を有し、
前記ニューラル・ネットワークは、前記背景画像と前記対象画像を前記ニューラル・ネットワークに入力したときの前記ニューラル・ネットワークから出力された出力結果によるマップ画像と、当該マップ画像の正解データを示す教師データとの比較により、前記ニューラル・ネットワークのパラメータが変更される、
ことを特徴とする画像処理装置。 an acquisition unit that acquires a background image of a background photographed in advance and a target image to be determined;
a difference generation unit that generates a difference image showing a first difference between the background image and the target image;
By inputting each of the background image and the target image into a neural network, a map image to be outputted in which the background and foreground are distinguished from the target image, and a residual representing a second difference between the difference image and the difference image are generated. the neural network for estimating a difference;
an output unit that adds the difference image generated by the difference generation unit and the residual estimated by the neural network and outputs a map image in which a background and a foreground are distinguished from the target image. ,
The neural network includes a map image based on an output result output from the neural network when the background image and the target image are input to the neural network, and training data indicating correct answer data of the map image. the comparison changes parameters of the neural network;
An image processing device characterized by:
前記背景画像と前記対象画像との第一の差分を示す差分画像を生成し、
前記背景画像と前記対象画像とのそれぞれをニューラル・ネットワークに入力することで、前記対象画像から背景および前景を区別した出力対象となるマップ画像と、前記差分画像との第二の差分を示す残差を推定する前記ニューラル・ネットワークを特定し、
生成した前記差分画像と、前記ニューラル・ネットワークが推定した前記残差とを足し合わせて、前記対象画像から背景および前景を区別したマップ画像を出力する、処理をコンピュータが実行し、
前記ニューラル・ネットワークは、前記背景画像と前記対象画像を前記ニューラル・ネットワークに入力したときの前記ニューラル・ネットワークから出力された出力結果によるマップ画像と、当該マップ画像の正解データを示す教師データとの比較により、前記ニューラル・ネットワークのパラメータが変更される、
ことを特徴とする画像処理方法。 Obtain a background image taken in advance and a target image to be determined,
generating a difference image showing a first difference between the background image and the target image;
By inputting each of the background image and the target image to a neural network, a map image to be output in which the background and foreground are distinguished from the target image, and a residual representing a second difference between the difference image and the difference image are generated. identifying the neural network that estimates the difference;
A computer executes a process of adding together the generated difference image and the residual estimated by the neural network to output a map image in which a background and a foreground are distinguished from the target image ,
The neural network includes a map image based on an output result output from the neural network when the background image and the target image are input to the neural network, and training data indicating correct data for the map image. the comparison changes parameters of the neural network;
An image processing method characterized by:
前記背景画像と前記対象画像との第一の差分を示す差分画像を生成し、
前記背景画像と前記対象画像とのそれぞれをニューラル・ネットワークに入力することで、前記対象画像から背景および前景を区別した出力対象となるマップ画像と、前記差分画像との第二の差分を示す残差を推定する前記ニューラル・ネットワークを特定し、
生成した前記差分画像と、前記ニューラル・ネットワークが推定した前記残差とを足し合わせて、前記対象画像から背景および前景を区別したマップ画像を出力する、処理をコンピュータに実行させ、
前記ニューラル・ネットワークは、前記背景画像と前記対象画像を前記ニューラル・ネットワークに入力したときの前記ニューラル・ネットワークから出力された出力結果によるマップ画像と、当該マップ画像の正解データを示す教師データとの比較により、前記ニューラル・ネットワークのパラメータが変更される、
ことを特徴とする画像処理プログラム。 Obtain a background image taken in advance and a target image to be determined,
generating a difference image showing a first difference between the background image and the target image;
By inputting each of the background image and the target image into a neural network, a map image to be outputted in which the background and foreground are distinguished from the target image, and a residual representing a second difference between the difference image and the difference image are generated. identifying the neural network that estimates the difference;
causing a computer to perform a process of adding together the generated difference image and the residual estimated by the neural network to output a map image in which a background and a foreground are distinguished from the target image ;
The neural network includes a map image based on an output result output from the neural network when the background image and the target image are input to the neural network, and training data indicating correct answer data of the map image. the comparison changes parameters of the neural network;
An image processing program characterized by:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022126701A JP7405198B2 (en) | 2018-03-02 | 2022-08-08 | Image processing device, image processing method, and image processing program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018037567A JP2019153057A (en) | 2018-03-02 | 2018-03-02 | Image processing apparatus, learning apparatus, image processing method, learning method, image processing program, and learning program |
JP2022126701A JP7405198B2 (en) | 2018-03-02 | 2022-08-08 | Image processing device, image processing method, and image processing program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018037567A Division JP2019153057A (en) | 2018-03-02 | 2018-03-02 | Image processing apparatus, learning apparatus, image processing method, learning method, image processing program, and learning program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022145825A JP2022145825A (en) | 2022-10-04 |
JP7405198B2 true JP7405198B2 (en) | 2023-12-26 |
Family
ID=67946521
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018037567A Pending JP2019153057A (en) | 2018-03-02 | 2018-03-02 | Image processing apparatus, learning apparatus, image processing method, learning method, image processing program, and learning program |
JP2022126701A Active JP7405198B2 (en) | 2018-03-02 | 2022-08-08 | Image processing device, image processing method, and image processing program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018037567A Pending JP2019153057A (en) | 2018-03-02 | 2018-03-02 | Image processing apparatus, learning apparatus, image processing method, learning method, image processing program, and learning program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP2019153057A (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7434829B2 (en) * | 2019-11-21 | 2024-02-21 | オムロン株式会社 | Model generation device, estimation device, model generation method, and model generation program |
KR102600806B1 (en) * | 2020-04-17 | 2023-11-10 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | Image processing method and apparatus, electronic device and computer-readable storage medium |
JP7475959B2 (en) | 2020-05-20 | 2024-04-30 | キヤノン株式会社 | Image processing device, image processing method, and program |
JP2023064427A (en) | 2021-10-26 | 2023-05-11 | 富士通株式会社 | Inference program, learning program, inference method, and learning method |
JP2023064439A (en) | 2021-10-26 | 2023-05-11 | 富士通株式会社 | Learning program, learning method, and information processing apparatus |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165792A (en) | 2006-12-22 | 2008-07-17 | Canon Inc | Image processing method and device |
JP6276901B1 (en) | 2017-05-26 | 2018-02-07 | 楽天株式会社 | Image processing apparatus, image processing method, and image processing program |
-
2018
- 2018-03-02 JP JP2018037567A patent/JP2019153057A/en active Pending
-
2022
- 2022-08-08 JP JP2022126701A patent/JP7405198B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165792A (en) | 2006-12-22 | 2008-07-17 | Canon Inc | Image processing method and device |
JP6276901B1 (en) | 2017-05-26 | 2018-02-07 | 楽天株式会社 | Image processing apparatus, image processing method, and image processing program |
Also Published As
Publication number | Publication date |
---|---|
JP2019153057A (en) | 2019-09-12 |
JP2022145825A (en) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7405198B2 (en) | Image processing device, image processing method, and image processing program | |
Wang et al. | Detect globally, refine locally: A novel approach to saliency detection | |
CN112446270B (en) | Training method of pedestrian re-recognition network, pedestrian re-recognition method and device | |
CN113196289B (en) | Human body action recognition method, human body action recognition system and equipment | |
US11232286B2 (en) | Method and apparatus for generating face rotation image | |
CN107529650B (en) | Closed loop detection method and device and computer equipment | |
KR102338372B1 (en) | Device and method to segment object from image | |
US20200012923A1 (en) | Computer device for training a deep neural network | |
Kolesnikov et al. | PixelCNN models with auxiliary variables for natural image modeling | |
US20110221769A1 (en) | Robust object recognition by dynamic modeling in augmented reality | |
US20180157892A1 (en) | Eye detection method and apparatus | |
JP7228961B2 (en) | Neural network learning device and its control method | |
KR20160096460A (en) | Recognition system based on deep learning including a plurality of classfier and control method thereof | |
CN111860414A (en) | Method for detecting Deepfake video based on multi-feature fusion | |
CN111047543A (en) | Image enhancement method, device and storage medium | |
Lee et al. | Background subtraction using the factored 3-way restricted Boltzmann machines | |
CN113743576B (en) | Data acquisition method and device, similarity calculation method and device and storage medium | |
CN115376213A (en) | Training of living body detection network and living body detection method, device, equipment and medium | |
JP7437918B2 (en) | Information processing device, information processing method, and program | |
CN114612979A (en) | Living body detection method and device, electronic equipment and storage medium | |
WO2022076802A1 (en) | Distortion-based filtering for image classification | |
Hajare et al. | Edge detection techniques for image segmentation | |
CN111275183A (en) | Visual task processing method and device and electronic system | |
EP3401843A1 (en) | A method, an apparatus and a computer program product for modifying media content | |
JP7274071B2 (en) | learning device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7405198 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |