JP7246900B2 - Image processing device, image processing system, imaging device, image processing method, program, and storage medium - Google Patents

Image processing device, image processing system, imaging device, image processing method, program, and storage medium Download PDF

Info

Publication number
JP7246900B2
JP7246900B2 JP2018219876A JP2018219876A JP7246900B2 JP 7246900 B2 JP7246900 B2 JP 7246900B2 JP 2018219876 A JP2018219876 A JP 2018219876A JP 2018219876 A JP2018219876 A JP 2018219876A JP 7246900 B2 JP7246900 B2 JP 7246900B2
Authority
JP
Japan
Prior art keywords
image
disturbance
image processing
images
intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018219876A
Other languages
Japanese (ja)
Other versions
JP2020086891A (en
Inventor
良範 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018219876A priority Critical patent/JP7246900B2/en
Priority to US16/688,150 priority patent/US11488279B2/en
Publication of JP2020086891A publication Critical patent/JP2020086891A/en
Application granted granted Critical
Publication of JP7246900B2 publication Critical patent/JP7246900B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0007Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/001Industrial image inspection using an image reference approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30181Earth observation
    • G06T2207/30192Weather; Meteorology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、畳み込みニューラルネット(Convolutional Neural Network:CNN)を用いて、高精度に擾乱の強度を測定する画像処理装置に関する。 The present invention relates to an image processing apparatus that uses a convolutional neural network (CNN) to measure the intensity of disturbance with high accuracy.

従来、擾乱(大気ゆらぎ)による画像劣化を、画像処理により回復する方法が提案されている。非特許文献1には、擾乱による動画の各フレームの位置ずれを補正し、各フレームの場所ごとに異なるぼけを補正した後、ブラインドデコンボリューションでぼけを除去することで、擾乱による画像劣化を回復する方法が開示されている。 Conventionally, there has been proposed a method of recovering image deterioration caused by disturbance (atmospheric fluctuation) by image processing. In Non-Patent Document 1, image degradation caused by disturbance is recovered by correcting the positional deviation of each frame of a moving image due to disturbance, correcting blurring that differs depending on the location of each frame, and then removing the blurring by blind deconvolution. A method for doing so is disclosed.

Xiang Zhu、Peyman Milanfar、「Removing atmospheric turbulence via space-invariant deconvolution」、IEEE Transactions on Pattern Analysis and Machine Intelligence、vol.35、no.1、2016、pp.157-170Xiang Zhu, Peyman Milanfar, "Removing atmospheric turbulence via space-invariant deconvolution", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 1, 2016, pp. 157-170 Xia-Jiao Mao、Chunhua Shen、Yu-Bin Yang、「Image restoration using convolutional auto-encoders with symmetric skip connections」、arXiv:1606.08921、2016Xia-Jiao Mao, Chunhua Shen, Yu-Bin Yang, "Image restoration using convolutional auto-encoders with symmetric skip connections", arXiv:1606.08921, 2016 Xavier Glorot、Yoshua Bengio、「Understanding the difficulty of training deep feedforward neural networks」、Proceedings of the 13th International Conference on Artificial Intelligence and Statistics、2010、pp.249-256Xavier Glorot、Yoshua Bengio、「Understanding the difficulty of training deep feedforward neural networks」、Proceedings of the 13th International Conference on Artificial Intelligence and Statistics、2010、pp. 249-256

しかしながら、非特許文献1に開示された方法では、大気ゆらぎを除去することはできるが、大気ゆらぎに起因する画像劣化度合いである、大気ゆらぎの強度を測定することはできない。大気ゆらぎ動画からの、非剛体レジストレーションの変形ベクトルの推定を、擾乱の強度測定と考えることもできるが、動画中に移動物体がある場合には位置ずれ補正が困難であるため、高精度に変形ベクトルを推定することはできない。 However, although the method disclosed in Non-Patent Document 1 can remove atmospheric fluctuations, it is not possible to measure the intensity of atmospheric fluctuations, which is the degree of image deterioration caused by atmospheric fluctuations. Estimation of deformation vectors of non-rigid body registration from atmospheric fluctuation videos can be considered as intensity measurement of disturbances. Deformation vectors cannot be estimated.

そこで本発明は、高精度に擾乱の強度を測定可能な画像処理装置、画像処理システム、撮像装置、画像処理方法、プログラム、および、記憶媒体を提供することを目的とする。 SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide an image processing device, an image processing system, an imaging device, an image processing method, a program, and a storage medium that can measure the intensity of disturbance with high accuracy.

本発明の一側面としての画像処理装置は、擾乱により劣化した時間的に異なる複数の画像を取得する画像取得部と、既知の擾乱の強度に基づいて得られた複数の画像群を用いた学習により生成されたニューラルネットワークのネットワークパラメータを取得するパラメータ取得部と、前記複数の画像の各々から前記複数の画像の平均画像を減算することで規格化された複数の画像を生成し、前記ネットワークパラメータを有する前記ニューラルネットワークを用いて、前記規格化された複数の画像から前記擾乱の強度を測定する測定部とを有する。 An image processing apparatus as one aspect of the present invention includes an image acquisition unit that acquires a plurality of temporally different images degraded by a disturbance, and a learning process using a plurality of image groups obtained based on the known intensity of the disturbance. a parameter acquiring unit for acquiring network parameters of the neural network generated by; and generating a plurality of normalized images by subtracting an average image of the plurality of images from each of the plurality of images, the network parameters and a measurement unit that measures the intensity of the disturbance from the plurality of normalized images using the neural network having

本発明の他の側面としての画像処理システムは、前記画像処理装置と、該画像処理装置にネットワークを介して接続されているクライアント装置とを有する画像処理システムであって、前記クライアント装置は、前記擾乱により劣化した時間的に異なる複数の画像を前記画像処理装置に出力する画像出力部を有し、前記画像処理装置は、さらに前記擾乱の強度を前記クライアント装置へ出力する擾乱強度出力部を有する。 An image processing system as another aspect of the present invention is an image processing system comprising the image processing device and a client device connected to the image processing device via a network, wherein the client device comprises the An image output unit for outputting a plurality of temporally different images degraded by the disturbance to the image processing device, and the image processing device further includes a disturbance intensity output unit for outputting the intensity of the disturbance to the client device. .

本発明の他の側面としての撮像装置は、撮像素子と前記画像処理装置とを有する。 An imaging device as another aspect of the present invention has an imaging element and the image processing device.

本発明の他の側面としての画像処理方法は、擾乱により劣化した時間的に異なる複数の画像を取得する画像取得ステップと、既知の擾乱の強度に基づいて得られた複数の画像群を用いた学習により生成されたニューラルネットワークのネットワークパラメータを取得するパラメータ取得ステップと、前記複数の画像の各々から前記複数の画像の平均画像を減算することで規格化された複数の画像を生成し、前記ネットワークパラメータを有する前記ニューラルネットワークを用いて、前記規格化された複数の画像から前記擾乱の強度を測定する測定ステップとを有する。 An image processing method as another aspect of the present invention uses an image acquisition step of acquiring a plurality of temporally different images degraded by a disturbance, and a plurality of groups of images obtained based on a known intensity of the disturbance. a parameter acquisition step of acquiring network parameters of a neural network generated by learning ; and generating a plurality of normalized images by subtracting an average image of the plurality of images from each of the plurality of images, the network measuring the intensity of the disturbance from the normalized images using the neural network with parameters.

本発明の他の側面としてのプログラムは、前記画像処理方法をコンピュータに実行させる。 A program as another aspect of the present invention causes a computer to execute the image processing method.

本発明の他の側面としての記憶媒体は、前記プログラムを記憶している。 A storage medium as another aspect of the present invention stores the program.

本発明の他の目的及び特徴は、以下の実施形態において説明される。 Other objects and features of the invention are described in the following embodiments.

本発明によれば、高精度に擾乱の強度を測定可能な画像処理装置、画像処理システム、撮像装置、画像処理方法、プログラム、および、記憶媒体を提供することができる。 According to the present invention, it is possible to provide an image processing device, an image processing system, an imaging device, an image processing method, a program, and a storage medium capable of measuring the intensity of disturbance with high accuracy.

本実施形態における画像処理装置のブロック図である。1 is a block diagram of an image processing apparatus in this embodiment; FIG. 本実施形態における画像処理システムの構成図である。1 is a configuration diagram of an image processing system in this embodiment; FIG. 本実施形態における撮像装置の構成図である。1 is a configuration diagram of an imaging device according to this embodiment; FIG. 本実施形態における画像処理システムのブロック図である。1 is a block diagram of an image processing system in this embodiment; FIG. 本実施形態における画像処理方法のフローチャートである。4 is a flow chart of an image processing method according to the present embodiment; 実施例1におけるネットワーク構造を示す図である。1 is a diagram showing a network structure in Example 1; FIG. 実施例1における数値計算結果を示す図である。4 is a diagram showing numerical calculation results in Example 1. FIG. 実施例2におけるネットワーク構造を示す図である。FIG. 10 is a diagram showing a network structure in Example 2; 実施例2における数値計算結果を定性的に示す図である。FIG. 10 is a diagram qualitatively showing numerical calculation results in Example 2; 実施例2における数値計算結果を定量的に示す図である。FIG. 10 is a diagram quantitatively showing numerical calculation results in Example 2;

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

まず、擾乱について説明する。撮影画像は、撮像装置と被写体との間に存在する媒質の擾乱(turbulence)により劣化する。例えば、炎天下における撮影や遠方の被写体を撮影する場合、大気のゆらぎ(擾乱)によって撮影画像は劣化する。また、例えば水上から水底の被写体を撮影する場合、水のゆらぎ(擾乱)によって撮影画像は劣化する。 First, the disturbance will be explained. A captured image is degraded by turbulence of a medium existing between an imaging device and a subject. For example, when photographing under the scorching sun or photographing a distant subject, the photographed image deteriorates due to atmospheric fluctuations (turbulence). Further, for example, when photographing an object on the bottom of the water from above, the photographed image deteriorates due to fluctuations (turbulence) in the water.

媒質の擾乱による撮影画像の劣化は、媒質の屈折率が場所や時間ごとに変化することによる。このため、一般に得られる撮像画像は、場所ごとに劣化度合いが異なる。これは、撮像装置と被写体との間に存在する媒質の厚みや温度分布、流れなどが場所ごとに異なり、その結果、媒質の屈折率が場所ごとに異なるためである。同様の理由で、撮像画像の劣化度合いは時間ごとに異なる。 Degradation of captured images due to medium disturbance is caused by changes in the refractive index of the medium depending on location and time. For this reason, generally obtained captured images have different degrees of deterioration depending on the location. This is because the thickness, temperature distribution, flow, etc. of the medium existing between the imaging device and the subject differ from place to place, and as a result, the refractive index of the medium differs from place to place. For the same reason, the degree of deterioration of the captured image differs from time to time.

非特許文献1に開示されている擾乱(大気ゆらぎ)による動画の各フレームの位置ずれ補正(registration)は、非剛体(non-rigid)レジストレーションを用いて行われる。ここで、非剛体レジストレーションとは画像処理分野でよく用いられる、簡易的な大気ゆらぎ(補正)モデルである。簡単には、まず大気ゆらぎで劣化させる元の画像において、粗く画像の制御点(control point)を設定する。次に、各制御点において加える変形量を表したベクトル(deformation vector)を正規乱数でランダムに決定し、制御点を変形させる。簡単には、この変形ベクトルの正規乱数の分散が大きいと、得られる画像の大気ゆらぎによる劣化が大きくなる。 Positional deviation correction (registration) of each frame of a moving image due to disturbance (atmospheric fluctuation) disclosed in Non-Patent Document 1 is performed using non-rigid registration. Here, the non-rigid registration is a simple atmospheric fluctuation (correction) model often used in the field of image processing. Briefly, first, rough image control points are set in the original image to be degraded by atmospheric fluctuations. Next, a vector representing the amount of deformation to be applied at each control point (deformation vector) is randomly determined using normal random numbers to deform the control point. Simply put, when the variance of the normal random numbers of the deformation vectors is large, the deterioration of the resulting image due to atmospheric fluctuations becomes large.

次に、変形させた制御点から、元画像の各画素に加える大気ゆらぎによる変形量を、以下の式(1)に従って決定する。 Next, from the deformed control points, the amount of deformation due to atmospheric fluctuations to be applied to each pixel of the original image is determined according to the following equation (1).

Figure 0007246900000001
Figure 0007246900000001

式(1)において、Δxは元画像の各画素に加える変形量、pは制御点に加える変形量(変形ベクトル)、A(x)はpをΔxへ変換する行列、ε、εはそれぞれ制御点のx、y方向の間隔である。また、(x,y)は任意の制御点の座標、(x,y)は元画像のi番目の画素の座標である。式(1)は、簡単にいうと、変形させた制御点に沿って、元画像の各画素に滑らかな変形を加える式である。 In equation (1), Δx is the amount of deformation applied to each pixel of the original image, p is the amount of deformation applied to the control point (deformation vector), A(x) is the matrix for transforming p into Δx, and ε x and ε y are These are the distances between the control points in the x and y directions, respectively. Also, (x c , y c ) are the coordinates of an arbitrary control point, and (x i , y i ) are the coordinates of the i-th pixel of the original image. Formula (1) is simply a formula for adding smooth deformation to each pixel of the original image along the deformed control points.

最後に、変形させた各画素における画素値を、元画像から補間で決定し、大気ゆらぎ画像を生成する。なお、このモデルはB-Splineとも呼ばれる。また、このモデルは媒質の種類(大気や水)によらず、任意の擾乱による画像劣化へ適用可能である。 Finally, the pixel value of each deformed pixel is determined by interpolation from the original image to generate an atmospheric fluctuation image. This model is also called B-Spline. In addition, this model can be applied to image degradation caused by arbitrary disturbances regardless of the type of medium (air or water).

位置ずれ補正の場合、これとは逆に大気ゆらぎ画像と参照画像(reference image)から、反復計算により変形ベクトルを推定し、得られる変形ベクトルから、大気ゆらぎ画像に加わった変形を補正する。ここで、参照画像は大気ゆらぎによる画像劣化がないと見なせる基準画像であり、例えば複数枚の大気ゆらぎ画像の平均をとることで与えられる。なお、この詳細は、非特許文献1に開示されている。 In the case of positional deviation correction, on the contrary, a deformation vector is estimated by iterative calculation from an atmospheric fluctuation image and a reference image, and the deformation applied to the atmospheric fluctuation image is corrected from the obtained deformation vector. Here, the reference image is a reference image that can be regarded as having no image deterioration due to atmospheric fluctuations, and is given by, for example, averaging a plurality of atmospheric fluctuation images. The details are disclosed in Non-Patent Document 1.

大気ゆらぎ動画を作る場合、大気ゆらぎを加える元の動画の各フレームに対して、前述の大気ゆらぎを加える処理を行えばよい。この場合、各フレームに加える大気ゆらぎの間に相関がないため、得られる大気ゆらぎ動画は現実(大気ゆらぎ実動画)とは異なる。しかし、得られる大気ゆらぎ動画は、定性的には大気ゆらぎ実動画と良く似ている。また、非特許文献1に開示された方法により、大気ゆらぎによる画像劣化は、良好に回復することができる。よって、B-Splineに基づく擾乱モデルは、現実と近いと考えられるため、本発明でも後述するCNNの学習のため、擾乱により劣化した訓練動画(訓練画像群)の作成に用いる。 When creating an atmospheric fluctuation moving image, the above-described process of adding atmospheric fluctuation may be performed for each frame of the original moving image to which the atmospheric fluctuation is to be added. In this case, since there is no correlation between the atmospheric fluctuations applied to each frame, the obtained atmospheric fluctuation moving image is different from reality (atmospheric fluctuation real moving image). However, the obtained atmospheric fluctuation animation is qualitatively similar to the real atmospheric fluctuation animation. Also, the method disclosed in Non-Patent Document 1 can satisfactorily recover image deterioration due to atmospheric fluctuations. Therefore, since the B-Spline-based disturbance model is considered to be close to reality, it is also used in the present invention to create a training video (training image group) degraded by disturbance for CNN learning, which will be described later.

各フレームの場所ごとに異なるぼけの補正は、注目領域の一定時間(フレーム)において、一番鮮鋭(画素値の分散が大きい)なものを選び、これを画像全体で行い、得られた領域をつなぎ合わせることでも行われる。この処理は、ラッキーイメージング(lucky imaging)と呼ばれている。ブラインドデコンボリューションでは、大気ゆらぎによるぼけを表したPSF(Point Spread Function)と、大気ゆらぎを除去した画像の両方を、同時に推定することで行われる。 To correct the blur that differs depending on the location of each frame, select the sharpest one (with the largest pixel value variance) for a certain period of time (frame) in the region of interest, apply this to the entire image, and It is also done by joining. This process is called lucky imaging. Blind deconvolution is performed by simultaneously estimating both a PSF (Point Spread Function) representing blur due to atmospheric fluctuations and an image from which atmospheric fluctuations are removed.

次に、図1を参照して、本実施形態における画像処理装置について説明する。図1は、画像処理装置100のブロック図である。画像処理装置100は、画像取得部101、パラメータ取得部102、測定部103、および、補正部104を備えて構成されている。画像取得部101は、撮像装置により撮影された複数の画像(入力画像、動画)を取得する。撮像装置は、デジタル動画像データを取得可能であり、例えばデジタルビデオカメラやデジタルカメラである。 Next, the image processing apparatus according to this embodiment will be described with reference to FIG. FIG. 1 is a block diagram of an image processing apparatus 100. As shown in FIG. The image processing apparatus 100 includes an image acquisition section 101 , a parameter acquisition section 102 , a measurement section 103 and a correction section 104 . The image acquisition unit 101 acquires a plurality of images (input images, moving images) captured by an imaging device. The imaging device is capable of acquiring digital moving image data, and is, for example, a digital video camera or a digital camera.

動画像のフレームは一般に劣化している。例えば、デジタルカメラの場合、結像光学系(撮像光学系)や光学ローパスフィルタに起因するぼけ、撮像素子に起因するノイズ、デモザイキングのエラー、データ圧縮に起因するノイズなどが劣化要因として挙げられる。これらの動画像劣化過程は、既知であることが望ましい。これは、後述するCNNの学習において大量に必要となる訓練画像群(訓練動画)を、数値計算で生成できるためである。動画像データの形式は、計算機に読み込み可能なデジタルデータであれば限定されるものでなく、例えば、AVI(Audio Video Interleave)、MPEG(Moving Picture Experts Group)である。また本実施形態において、動画像はカラーでもモノクロでもよいが、簡単のため、以下の説明ではモノクロ動画像であるとする。 Motion picture frames are generally degraded. For example, in the case of a digital camera, deterioration factors include blur caused by the imaging optical system (imaging optical system) and optical low-pass filter, noise caused by the image sensor, demosaicing errors, and noise caused by data compression. . It is desirable that these moving image deterioration processes are known. This is because a large number of training image groups (training videos) required for learning of the CNN, which will be described later, can be generated by numerical calculation. The format of moving image data is not limited as long as it is computer-readable digital data, and examples thereof include AVI (Audio Video Interleave) and MPEG (Moving Picture Experts Group). Also, in the present embodiment, the moving image may be either color or monochrome, but for the sake of simplicity, the following description assumes a monochrome moving image.

また画像取得部101は、複数の入力画像の撮影条件として、撮影に用いられた光学系(撮像光学系)の光学条件(焦点距離や絞り値など)、撮影に用いられた撮像素子の画素ピッチ、または、フレームレートを取得する。これは、後述するCNNの学習条件と撮影条件(入力画像を取得した条件)とを合わせるためである。 In addition, the image acquisition unit 101 uses the optical conditions (focal length, aperture value, etc.) of the optical system (imaging optical system) used for photographing, the pixel pitch of the image sensor used for photographing, as the photographing conditions of the plurality of input images. , or to get the frame rate. This is to match the learning conditions of the CNN, which will be described later, with the shooting conditions (conditions for acquiring the input image).

パラメータ取得部102は、学習済みのネットワークパラメータを取得する。なお、ネットワークパラメータとは、後述するCNNのパラメータであるフィルタおよびバイアスを含む。CNNとは、簡単には、学習したパラメータを用いた演算であり、例えば、PC(Personal Computer)、ワークステーション、FPGA(Field Programmable Gate Array)、または、サーバで構成される。このためパラメータ取得部102は、例えばPCのHDD(Hard Disk Drive)などで構成される。またはパラメータ取得部102は、ネットワークパラメータを記憶した記憶媒体を、CD-ROMドライブや、USBインターフェースなどのインターフェース機器を介して取得してもよい。この場合、パラメータ取得部102は、インターフェース機器も含む形で構成される。 The parameter acquisition unit 102 acquires learned network parameters. Note that the network parameters include filters and biases, which are CNN parameters described later. A CNN is simply an operation using learned parameters, and is composed of, for example, a PC (Personal Computer), a workstation, an FPGA (Field Programmable Gate Array), or a server. Therefore, the parameter acquisition unit 102 is configured by, for example, an HDD (Hard Disk Drive) of a PC. Alternatively, the parameter acquisition unit 102 may acquire a storage medium storing network parameters via an interface device such as a CD-ROM drive or a USB interface. In this case, the parameter acquisition unit 102 is configured to include an interface device.

学習済みのネットワークパラメータとは、後述する測定部103および補正部104を構成するCNNのネットワークパラメータを、予め学習により生成したものである。また、画像取得部101から提供される入力画像を取得した条件(撮影条件)と、ネットワークパラメータの学習条件とが近いものを選択し、取得するパラメータとしてもよい。ここで学習条件とは、後述するCNNの学習に用いる訓練画像群を、数値計算的に生成(または取得)する際の撮影条件(光学系の光学条件、画素ピッチ、フレームレートなど)である。 A learned network parameter is a CNN network parameter that constitutes a measuring unit 103 and a correcting unit 104, which will be described later, and is generated in advance by learning. Alternatively, a condition (imaging condition) under which the input image provided from the image acquisition unit 101 is acquired and a network parameter learning condition that are close to each other may be selected and used as the parameter to be acquired. Here, the learning conditions are imaging conditions (optical conditions of the optical system, pixel pitch, frame rate, etc.) when numerically generating (or acquiring) a group of training images used for learning of the CNN, which will be described later.

次に、CNNについて簡単に説明する。CNNとは、学習(trainingまたはlearning)により生成したフィルタを、画像に対して畳み込んだ(convolution)後、非線形演算することを繰り返す学習型の画像処理技術である。画像に対してフィルタを畳み込んだ後、非線形演算して得られる画像は、特徴マップ(feature map)と呼ばれる。学習は、入力画像と出力画像とのペアからなる訓練画像群(training imagesまたはdata sets)を用いて行われる。簡単には、入力画像から対応する出力画像へ、高精度に変換できるフィルタの値を、訓練画像群から生成することが学習である。詳しくは後述する。 Next, CNN will be briefly described. CNN is a learning-type image processing technology that repeats non-linear operations after convolution of a filter generated by training or learning with respect to an image. After convolving the filter with respect to the image, the image obtained by non-linear operation is called a feature map. Learning is performed using training images or data sets consisting of pairs of input and output images. In simple terms, learning is the process of generating, from a set of training images, filter values that can convert an input image into a corresponding output image with high accuracy. Details will be described later.

また、画像がRGBカラーチャンネルを持つ場合や複数の画像から構成されている(動画像)場合、または、特徴マップが複数の画像から構成されている場合、畳み込みに用いるフィルタはそれに応じて複数チャンネルを持つ。すなわち、畳み込みフィルタは、画像の縦横サイズと枚数の他にチャンネル数を加えた4次元配列で表現される。また、画像(または特徴マップ)にフィルタを畳み込んだ後、非線形演算する処理は、層(layer)という単位で表現される。例えば、m層目の特徴マップやn層目のフィルタと呼ばれる。例えば、フィルタの畳み込みと非線形演算を3回繰り返すCNNは、3層構造のネットワークと呼ばれる。この処理は、以下の式(2)のように定式化できる。 Also, if the image has RGB color channels or is composed of multiple images (moving image), or if the feature map is composed of multiple images, the filter used for convolution will be multi-channel accordingly. have. That is, the convolution filter is represented by a four-dimensional array in which the number of channels is added to the vertical and horizontal size and the number of images. Further, the process of performing non-linear calculation after convolving an image (or feature map) with a filter is expressed in units of layers. For example, it is called an m-th layer feature map or an n-th layer filter. For example, a CNN that repeats filter convolution and nonlinear operation three times is called a three-layer network. This processing can be formulated as in the following equation (2).

Figure 0007246900000002
Figure 0007246900000002

式(2)において、Wはn層目のフィルタ、bはn層目のバイアス、fは非線形演算子、Xはn層目の特徴マップ、*は畳み込み演算子である。なお、右肩の(l)はl番目のフィルタまたは特徴マップであることを表している。フィルタおよびバイアスは、後述する学習により生成され、まとめてネットワークパラメータと呼ばれる。また、非線形演算としてシグモイド関数(sigmoid function)やReLU(Rectified Linear Unit)が良く用いられる。 In equation (2), Wn is the n-th layer filter, bn is the n-th layer bias, f is the non-linear operator, Xn is the n-th layer feature map, and * is the convolution operator. Note that (l) in the right shoulder represents the l-th filter or feature map. Filters and biases are generated by learning, which will be described later, and are collectively called network parameters. A sigmoid function and ReLU (Rectified Linear Unit) are often used as nonlinear operations.

次に、CNNの学習について説明する。CNNの学習は、入力訓練画像(例えば劣化画像)と対応する出力訓練画像(例えば鮮鋭な正解画像)との組からなる訓練画像(訓練画像群)に対して、一般に以下の式(3)で表される目的関数を最小化することで行われる。 Next, learning of CNN will be described. CNN learning is generally performed by the following equation (3) for training images (training image group) consisting of a set of input training images (e.g. degraded images) and corresponding output training images (e.g. sharp correct images). It is done by minimizing the objective function represented.

Figure 0007246900000003
Figure 0007246900000003

式(3)において、Lは正解とその推定との誤差を測る損失関数(loss function)である。Yはi番目の出力訓練画像、Xはi番目の入力訓練画像である。Fは、CNNの各層で行う演算(数式2)を、まとめて表した関数である。θは、ネットワークパラメータ(フィルタおよびバイアス)である。また、∥Z∥はL2ノルムであり、簡単にはベクトルZの要素の2乗和の平方根である。 In equation (3), L is a loss function that measures the error between the correct answer and its estimate. Y i is the i th output training image and X i is the i th input training image. F is a function collectively representing the operations (Formula 2) performed in each layer of the CNN. θ is the network parameters (filter and bias). Also, |Z|| 2 is the L2 norm, which is simply the square root of the sum of the squares of the elements of vector Z.

なお、訓練画像には既知の対応関係を持った入出力画像が用いられる。例えば、鮮鋭な出力画像とそれに対して光学系に起因するぼけを付加し劣化した入力画像などである。また、CNNの出力が画像でなくスカラー(値)である場合も、同様に損失関数を定義し、ネットワークパラメータを決定すればよい。その場合、訓練画像は、入力画像と対応する出力値となる。スカラーを出力するCNNは、全結合(fully connected)ニューラルネットワークと呼ばれる特殊なものであり、詳細は後述する。 Input/output images having a known correspondence relationship are used as training images. For example, there is a sharp output image and an input image that is degraded by adding blur due to an optical system. Also, when the output of the CNN is not an image but a scalar (value), the loss function should be similarly defined and the network parameters determined. In that case, the training images are the input images and the corresponding output values. A CNN that outputs a scalar is a special type called a fully connected neural network, and details of which will be described later.

式(3)において、nは学習に用いる訓練画像の全枚数であるが、一般に訓練画像の全枚数は多い(~数万枚)ため、確率的勾配降下法(Stochastic Gradient Descent;SGD)では、訓練画像の一部をランダムに選び学習に用いる。これにより、多くの訓練画像を用いた学習における、計算負荷を低減することができる。 In formula (3), n is the total number of training images used for learning, but since the total number of training images is generally large (up to tens of thousands of images), in the stochastic gradient descent method (SGD), A part of the training image is randomly selected and used for learning. This makes it possible to reduce the computational load in learning using many training images.

また、目的関数の最小化(=最適化)法として、モーメンタム(momentum)法やAdaGrad法、AdaDelta法、Adam法など、様々な方法が知られている。ただし、学習における最適化法の選択指針は現状存在しない。よって、基本的に何を用いても良いが、最適化法ごとの収束性には違いがあるため、学習時間の違いが生じることが知られている。 Also, various methods such as the momentum method, the AdaGrad method, the AdaDelta method, and the Adam method are known as methods for minimizing (=optimizing) the objective function. However, there is currently no selection guideline for optimization methods in learning. Therefore, basically any method can be used, but it is known that the learning time differs due to the difference in convergence between optimization methods.

以上の手順で学習したネットワークパラメータとCNNを用いて、例えば劣化した画像から鮮鋭な画像へ、高精度に変換する画像処理が可能になる。この画像処理は、深層学習(deep learning)とも呼ばれる。 Using the network parameters and CNN learned by the above procedure, image processing can be performed to convert, for example, a degraded image into a sharp image with high accuracy. This image processing is also called deep learning.

測定部103は、学習済みネットワークパラメータとCNNとを用いて、入力画像(複数の画像)から擾乱の強度を測定して出力する。測定部103は、前述したCNNであり、例えば、PC、ワークステーション、FPGA、サーバで構成されるが、これらに限定されるものではなく、前述したCNNの演算が実現可能な計算機であればよい。擾乱の強度とは、入力画像の擾乱の強度を表すスカラーであり、具体的には入力画像の時間的または空間的な画素値の散布度である。ここで散布度とは、分散、標準偏差を含む統計量である。例えば、擾乱モデルとして前述したB-Splineを用いた場合、擾乱の強度として、前述した変形ベクトルの分散を用いてもよい。このように、入力画像の擾乱の強度を、時間的または空間的な画素値の散布度というスカラーで表現する点が、本発明の特徴の一つである。 The measuring unit 103 measures and outputs the intensity of the disturbance from the input image (a plurality of images) using the learned network parameters and the CNN. The measurement unit 103 is the above-described CNN, and includes, for example, a PC, a workstation, an FPGA, and a server, but is not limited to these, and may be a computer capable of realizing the above-described CNN calculation. . The intensity of the disturbance is a scalar representing the intensity of the disturbance of the input image, specifically, the temporal or spatial distribution of pixel values of the input image. Here, the degree of dispersion is a statistic including variance and standard deviation. For example, when the B-Spline described above is used as the disturbance model, the variance of the deformation vector described above may be used as the strength of the disturbance. Thus, one of the features of the present invention is that the intensity of the disturbance in the input image is represented by a scalar, that is, the temporal or spatial distribution of pixel values.

前述のように、CNNの出力は画像である。このため、スカラーである擾乱の強度を出力するには、CNNの出力である画像をスカラーに変換する全結合ニューラルネットワークを出力部分に追加すればよい。全結合ニューラルネットワークは、以下の式(4)ように定式化できる。 As mentioned above, the output of a CNN is an image. Therefore, in order to output the scalar intensity of the disturbance, a fully-connected neural network that converts the image, which is the output of the CNN, to a scalar should be added to the output part. A fully-connected neural network can be formulated as in Equation (4) below.

Figure 0007246900000004
Figure 0007246900000004

式(4)において、Xはn層目の特徴マップを表したベクトル、WはXn-1の各要素に加える重みを表した行列である。これより、CNNで出力される画像を、ベクトルに変換した後、全結合ニューラルネットワークへ入力する必要がある。例えば、50×50画素の画像を、2500次元のベクトルに変換する。また、全結合ニューラルネットワークへ入力できる画像サイズは、全結合ニューラルネットワークのサイズにより規定される。このため、全結合ニューラルネットワークへ入力可能な出力画像を得ることができるように、CNNへの入力画像のサイズを調整する必要がある。 In equation (4), Xn is a vector representing the n-th layer feature map, and Wn is a matrix representing a weight to be added to each element of Xn-1 . Therefore, it is necessary to convert the image output by the CNN into a vector and then input it to the fully-connected neural network. For example, a 50×50 pixel image is transformed into a 2500-dimensional vector. Also, the image size that can be input to the fully-connected neural network is defined by the size of the fully-connected neural network. Therefore, it is necessary to adjust the size of the input image to the CNN so that an output image that can be input to the fully-connected neural network can be obtained.

なお、全結合ニューラルネットワークを追加したCNNであっても、前述した方法で学習することができる。これは、歴史的には全結合ニューラルネットワークが先に研究され、その派生としてCNNが後に研究されたためであるが、その詳細は省略する。測定部103は、正確には、CNNとその出力部分に追加された全結合ニューラルネットワークとを備えて構成されるが、単に「測定部103のCNN」などと呼ぶ。 Note that even a CNN added with a fully-connected neural network can be learned by the method described above. This is because, historically, fully-connected neural networks were first studied, and CNNs were later studied as a derivation thereof, but details thereof will be omitted. The measurement unit 103 is precisely configured with a CNN and a fully-connected neural network added to its output part, but is simply referred to as "the CNN of the measurement unit 103".

また、測定部103のCNNのネットワークパラメータの学習には、入力訓練画像とその擾乱の強度との組からなる訓練画像(訓練画像群)を用いる。ただし、一般的に、既知の擾乱の強度で劣化した入力訓練画像を得ることは難しい。このため、例えば前述した擾乱モデルB-Splineを用いて、数値計算的に生成してもよい。この場合、擾乱の強度として、前述した変形ベクトルの分散を用いることができる。例えば、ネットワークパラメータは、時間的に異なる複数の第1の画像群(第1の動画)と複数の第1の画像群に対して既知の擾乱の強度により劣化させた複数の第2の画像群(第2の動画)との組からなる訓練画像群(訓練動画)を用いた学習により生成される。「時間的に異なる」複数の画像とは、異なる時間に取得された複数の画像を含む。 In addition, training images (training image group) composed of pairs of input training images and their disturbance intensities are used for the learning of the CNN network parameters by the measuring unit 103 . However, it is generally difficult to obtain degraded input training images with known disturbance strengths. Therefore, it may be generated numerically using the disturbance model B-Spline described above, for example. In this case, the variance of the deformation vector described above can be used as the intensity of the disturbance. For example, the network parameters may be a plurality of temporally different first image groups (first moving images) and a plurality of second image groups degraded by a known disturbance strength for the first image groups. It is generated by learning using a training image group (training video) consisting of a set of (second video). Multiple images that are "temporally different" include multiple images acquired at different times.

また、移動物体を含む入力訓練画像を訓練画像として用いることで、移動物体に頑強な(高精度な)擾乱の強度の測定が可能になる。同様に、画像取得部101の動画劣化過程が既知であれば、その劣化を含む入力訓練画像を数値計算で生成して訓練画像として用いることで、劣化に頑強な(高精度な)擾乱の強度の測定が可能になる。 In addition, by using input training images including moving objects as training images, it is possible to measure the intensity of disturbances robust (highly accurate) to moving objects. Similarly, if the motion picture deterioration process of the image acquisition unit 101 is known, an input training image including the deterioration is generated by numerical calculation and used as the training image. can be measured.

(規格化)
測定部103は、入力画像または入力訓練画像に対して規格化を行う。これは、入力画像の画素値の絶対値により、測定結果が左右されないようにすることが目的である。規格化は、例えば、複数の入力画像の平均画像を生成し、複数の入力画像の各々から平均画像を減算することにより行われる。この規格化方法は、以下の式(5)のように定式化することができる。
(standardization)
The measurement unit 103 normalizes the input image or the input training image. The purpose of this is to prevent the measurement result from being influenced by the absolute value of the pixel value of the input image. Normalization is performed, for example, by generating an average image of multiple input images and subtracting the average image from each of the multiple input images. This normalization method can be formulated as the following equation (5).

Figure 0007246900000005
Figure 0007246900000005

式(5)において、Iはi番目の入力画像、mは入力画像の枚数である。また、Iの上に付されたバー(―)は、規格化されたことを表している。 In equation (5), I i is the i-th input image, and m is the number of input images. Also, a bar (-) above I i indicates normalization.

また規格化は、例えば、複数の入力画像から時間的に隣り合う2枚の画像の差分画像を生成することにより行うこともできる。この規格化方法は、以下の式(6)ように定式化することができる。 Standardization can also be performed, for example, by generating a difference image between two temporally adjacent images from a plurality of input images. This normalization method can be formulated as in Equation (6) below.

Figure 0007246900000006
Figure 0007246900000006

式(6)にて用いられる記号の意味は、前述の式(5)と同様である。規格化方法は、擾乱の強度の定義、入力画像、擾乱の強度の測定精度などに応じて適宜選択であるが、本実施形態では、基本的に式(5)で与えられる規格化方法を用いる。このように本実施形態では、好ましくは、規格化を行った入力画像を用いて擾乱の強度を測定する。これにより、測定結果が入力画像の画素値の絶対値により受ける影響を除去することができるため、高精度な測定結果を得ることが可能である。 The symbols used in formula (6) have the same meanings as in formula (5) above. The normalization method can be appropriately selected according to the definition of the intensity of the disturbance, the input image, the measurement accuracy of the intensity of the disturbance, etc. In this embodiment, basically the normalization method given by Equation (5) is used. . Thus, in this embodiment, preferably, the intensity of the disturbance is measured using the normalized input image. As a result, it is possible to eliminate the influence of the absolute values of the pixel values of the input image on the measurement results, so that highly accurate measurement results can be obtained.

(入力画像サイズ調整)
測定部103へ入力する画像の縦・横の画素数は、ネットワークの出力部分に追加された全結合ニューラルネットワークで決定される。このため、入力画像と入力訓練画像はトリミングや補間や間引きにより、各画像の縦・横の画素数を調整する必要がある。
(input image size adjustment)
The number of vertical and horizontal pixels of the image input to the measurement unit 103 is determined by a fully connected neural network added to the output part of the network. For this reason, it is necessary to adjust the number of vertical and horizontal pixels of each image by trimming, interpolating, or thinning the input image and the input training image.

また、測定部103へ入力する画像の枚数(フレーム数)は、入力訓練画像のフレーム数に応じて決定される。このため入力画像は、時間的に補間または間引いて、測定部103へ入力する必要がある。例えば、高フレームレートで入力画像を取得した場合、入力訓練画像のフレームレートと一致するように間引いた入力画像を、測定部103へ入力する。なお、これは入力画像と入力訓練画像のフレームレートの違いにより、測定結果が左右されないようにするためである。また、入力画像を取得した条件は画像取得部101から、入力訓練画像のフレーム数はパラメータ取得部102から、各々取得すればよい。 Also, the number of images (number of frames) to be input to the measurement unit 103 is determined according to the number of frames of the input training images. Therefore, the input image needs to be temporally interpolated or thinned out before being input to the measurement unit 103 . For example, when the input images are acquired at a high frame rate, the input images thinned out so as to match the frame rate of the input training images are input to the measurement unit 103 . This is to prevent the measurement result from being affected by the difference in frame rate between the input image and the input training image. Also, the condition for acquiring the input image may be acquired from the image acquisition unit 101, and the number of frames of the input training image may be acquired from the parameter acquisition unit 102, respectively.

このように本実施形態において、好ましくは、画像サイズ(特にフレームレート)を調整した入力画像を用いて擾乱の強度を測定する。これにより、測定結果が入力画像と入力訓練画像のフレームレートの違いにより受ける影響を除去することができるため、高精度な測定結果を得ることが可能である。 Thus, in this embodiment, the intensity of disturbance is preferably measured using an input image whose image size (especially frame rate) has been adjusted. As a result, it is possible to eliminate the influence of the difference in frame rate between the input image and the input training image on the measurement result, so it is possible to obtain a highly accurate measurement result.

(複数箇所測定)
測定部103は、入力画像の複数箇所の擾乱の強度を測定し、最終的な擾乱強度を決定してもよい。ここで、入力画像の複数箇所とは、入力画像の空間と時間(縦、横、フレーム)のうち、複数の箇所という意味である。より具体的には、入力画像の空間・時間方向のある箇所から前述した方法で縦・横画素数、フレーム数の画像を抽出し、それを入力画像として測定部103へ入力し、その箇所における擾乱の強度を測定する。
(measurement at multiple locations)
The measuring unit 103 may measure the intensity of the disturbance at multiple locations in the input image and determine the final intensity of the disturbance. Here, multiple locations in the input image means multiple locations in the space and time (vertical, horizontal, frame) of the input image. More specifically, an image having the number of vertical and horizontal pixels and the number of frames is extracted from a certain location in the input image in the spatial and temporal directions by the method described above, and is input to the measurement unit 103 as an input image. Measure the intensity of the disturbance.

また、入力画像の複数箇所で測定した擾乱の強度から、例えばその平均値をとって最終的な擾乱強度としてもよい。また、複数箇所で測定した擾乱の強度から中間値、最小値、最大値、または、最頻値を取得し、それを最終的な擾乱の強度としてもよい。これは、入力画像の局所的に擾乱による劣化が大きい場所により、測定結果が左右されないようにするためである。 Alternatively, the final disturbance intensity may be obtained by, for example, averaging the intensity of the disturbance measured at a plurality of locations in the input image. Alternatively, an intermediate value, minimum value, maximum value, or mode value may be obtained from the disturbance intensities measured at a plurality of locations, and used as the final disturbance intensity. This is to prevent the measurement result from being affected by the portion of the input image that is locally greatly degraded due to disturbance.

このように本実施例において、好ましくは、入力画像の複数箇所の擾乱強度を測定し、最終的な擾乱強度を決定する。これにより、入力画像の局所的に擾乱による劣化が大きい場所が存在しても、高精度な測定結果を得ることが可能である。 Thus, in this embodiment, preferably, the disturbance strength is measured at a plurality of locations in the input image to determine the final disturbance strength. As a result, highly accurate measurement results can be obtained even if there is a localized portion of the input image that is significantly deteriorated due to disturbance.

補正部104は、測定された擾乱の強度に基づいて、擾乱による入力画像の劣化を補正する。ここで、補正方法は限定されるものではないが、画像処理の精度の点から、前述したCNNを用いることが好ましい。このため、以下では例示的に補正部104はCNNであるとして説明する。補正部104は前述したCNNであり、例えば、PC、ワークステーション、FPGA、サーバで構成されるが、これらに限定されるものではなく、前述したCNNの演算が実現可能な計算機であればよい。補正部104は、パラメータ取得部102が提供する学習済みのネットワークパラメータを用いて、補正処理を行う。また、補正部104のCNNのネットワークパラメータの学習には、出力訓練画像に既知の擾乱の強度の劣化を加えた入力訓練画像との組からなる訓練画像を用いる。ただし、一般的にこのような訓練画像を得ることは難しい。このため、例えば前述した擾乱モデルB-Splineを用いて、訓練画像を数値計算的に生成してもよい。この場合、擾乱の強度として、前述した変形ベクトルの分散を用いることができる。 The correction unit 104 corrects deterioration of the input image due to the disturbance based on the measured strength of the disturbance. Here, although the correction method is not limited, it is preferable to use the above-described CNN from the viewpoint of accuracy of image processing. Therefore, the correction unit 104 is exemplified as a CNN below. The correction unit 104 is the above-described CNN and includes, for example, a PC, a workstation, an FPGA, and a server, but is not limited to these, and may be any computer capable of realizing the above-described CNN calculations. The correction unit 104 performs correction processing using learned network parameters provided by the parameter acquisition unit 102 . Also, for the learning of the network parameters of the CNN by the correcting unit 104, a training image is used that is a pair of an output training image and an input training image obtained by adding deterioration of known disturbance intensity to the output training image. However, it is generally difficult to obtain such training images. For this reason, training images may be generated numerically using, for example, the aforementioned disturbance model B-Spline. In this case, the variance of the deformation vector described above can be used as the intensity of the disturbance.

また、移動物体を含む入出力訓練画像を訓練画像として用いることにより、移動物体に頑強な擾乱の補正が可能になる。同様に、画像取得部101の動画劣化過程が既知であれば、その劣化を含む入力訓練画像を数値計算で生成して訓練画像として用いることで、劣化に頑強な擾乱の補正が可能になる。 In addition, by using input/output training images including moving objects as training images, it is possible to correct disturbances robust to moving objects. Similarly, if the moving image degradation process of the image acquisition unit 101 is known, an input training image including the degradation is generated by numerical calculation and used as the training image, thereby making it possible to correct disturbance robustly against degradation.

(ネットワークパラメータ選択)
補正部104は、測定された擾乱の強度に基づいて、パラメータ取得部102が提供する学習済みのネットワークパラメータを選択して、補正処理を行う。これは、入力画像と同じ擾乱強度の訓練画像で学習したネットワークパラメータを用いることで、高精度な擾乱補正を行うためである。例えば、測定された擾乱の強度と最も近い擾乱の強度による劣化を加えた訓練画像で学習したネットワークパラメータを選択し、補正処理に用いてもよい。このように、測定された擾乱の強度に基づいて、学習済みのネットワークパラメータを選択して補正処理を行うことで、高精度な擾乱補正を行うことができる。
(Network parameter selection)
The correction unit 104 selects the learned network parameters provided by the parameter acquisition unit 102 based on the measured intensity of the disturbance, and performs correction processing. This is because highly accurate disturbance correction is performed by using network parameters learned from training images having the same disturbance intensity as the input image. For example, network parameters learned from training images that have been degraded by the measured intensity of the disturbance and the intensity of the nearest disturbance may be selected and used in the correction process. In this manner, highly accurate disturbance correction can be performed by selecting learned network parameters and performing correction processing based on the measured disturbance intensity.

(フレーム数)
補正部104は、測定された擾乱の強度に基づいて、入力画像の枚数(フレーム数)を決定する。これは、擾乱が大きければ補正に入力画像の枚数を多く必要とし、逆に擾乱が小さければ補正に入力画像の枚数を多く必要としないからである。なお、補正部104のCNNのネットワークパラメータ学習の際には、訓練画像に加える擾乱強度に応じて、入力訓練画像の枚数を調整する。具体的には、擾乱が大きければ入力訓練画像の枚数を多くし、擾乱が小さければ入力訓練画像の枚数を少なく調整して、学習すればよい。このように、測定された擾乱強度に基づき、入力画像の枚数(フレーム数)を決定することで、補正に必要なデータを決定することができる。
(number of frames)
The correction unit 104 determines the number of input images (the number of frames) based on the measured intensity of the disturbance. This is because if the disturbance is large, a large number of input images are required for correction, and conversely, if the disturbance is small, a large number of input images are not required for correction. When the correction unit 104 performs CNN network parameter learning, the number of input training images is adjusted according to the disturbance intensity applied to the training images. Specifically, if the disturbance is large, the number of input training images is increased, and if the disturbance is small, the number of input training images is decreased for learning. Thus, by determining the number of input images (the number of frames) based on the measured disturbance intensity, it is possible to determine data necessary for correction.

補正部104で得られる画像処理結果である出力画像は、画像処理装置100の内部に設けられた不図示の記憶部に記憶することができる。また出力画像は、画像処理装置100の外部に設けられた不図示の表示部に表示してもよい。または、出力画像は、不図示のCD-ROMドライブやUSBインターフェースなどのインターフェース機器を介して、画像処理装置100の外部の不図示の記憶媒体に記憶してもよい。なお、画像取得部101、パラメータ取得部102、測定部103、および、補正部104の間で情報(データ)をやり取りするための配線や無線に関する説明については省略する。 An output image as a result of image processing obtained by the correction unit 104 can be stored in a storage unit (not shown) provided inside the image processing apparatus 100 . The output image may also be displayed on a display unit (not shown) provided outside the image processing apparatus 100 . Alternatively, the output image may be stored in an external storage medium (not shown) of the image processing apparatus 100 via an interface device such as a CD-ROM drive (not shown) or a USB interface. A description of wiring and wireless communication for exchanging information (data) among the image acquiring unit 101, the parameter acquiring unit 102, the measuring unit 103, and the correcting unit 104 will be omitted.

画像取得部101、パラメータ取得部102、測定部103、および補正部104の機能を記述したプログラムを計算機に実行させることで、画像処理装置100の機能を、計算機上で実現してもよい。同様に、測定部103および補正部104の少なくとも一方の機能を記述したプログラムをVLSIへ電子回路として実装し、画像処理装置100の一部機能を実現してもよい。 The functions of the image processing apparatus 100 may be realized on the computer by causing the computer to execute a program describing the functions of the image acquisition unit 101, the parameter acquisition unit 102, the measurement unit 103, and the correction unit 104. Similarly, a program describing the function of at least one of the measuring unit 103 and the correcting unit 104 may be implemented as an electronic circuit on VLSI to implement a part of the functions of the image processing apparatus 100 .

次に、図2を参照して、本実施形態における画像処理システムについて説明する。図2は、画像処理システム200の構成図である。画像処理システム200は、画像処理装置100aと撮像装置(デジタルカメラ)201とを備えて構成される。撮像装置201は、撮像光学系および撮像素子を有し、撮影画像を取得する。撮像装置201により取得された撮影画像は、画像処理装置100aへ出力される。画像処理装置100aは、PCとディスプレイとを有する。PCは、画像取得部101、パラメータ取得部102、測定部103、および、補正部104を有する。ディスプレイは、画像処理結果としての出力画像を表示する。 Next, referring to FIG. 2, the image processing system according to this embodiment will be described. FIG. 2 is a configuration diagram of the image processing system 200. As shown in FIG. The image processing system 200 includes an image processing device 100 a and an imaging device (digital camera) 201 . The imaging device 201 has an imaging optical system and an imaging device, and acquires a captured image. A photographed image acquired by the imaging device 201 is output to the image processing device 100a. The image processing device 100a has a PC and a display. The PC has an image acquisition section 101 , a parameter acquisition section 102 , a measurement section 103 and a correction section 104 . The display displays an output image as a result of image processing.

次に、図3を参照して本実施形態における撮像装置について説明する。図3は、撮像装置300の構成図である。撮像装置300は、カメラ本体301とレンズ装置(交換レンズ)302とを備えて構成されている。カメラ本体301は、撮像素子303、画像処理エンジン(画像処理装置)304、および、モニタ305を有する。画像処理エンジン304は、画像取得部101、パラメータ取得部102、測定部103、および、補正部104を有する。モニタ305は、画像処理結果としての出力画像を表示する。 Next, the imaging device according to this embodiment will be described with reference to FIG. FIG. 3 is a configuration diagram of the imaging device 300. As shown in FIG. The imaging device 300 is configured including a camera body 301 and a lens device (interchangeable lens) 302 . The camera body 301 has an image sensor 303 , an image processing engine (image processing device) 304 and a monitor 305 . The image processing engine 304 has an image acquisition unit 101 , a parameter acquisition unit 102 , a measurement unit 103 and a correction unit 104 . A monitor 305 displays an output image as a result of image processing.

次に、図4を参照して、本実施形態における別の画像処理システムについて説明する。図4は、画像処理システム400のブロック図である。画像処理システム400は、クライアント装置401と、クライアント装置401にネットワーク403を介して接続されているサーバ装置402とを有する。クライアント装置401は、画像出力部404を有する。画像出力部404は、擾乱により劣化した時間的に異なる複数の画像をサーバ装置402へ出力する。サーバ装置402は、パラメータ取得部405、測定部406、および、擾乱強度出力部407を有する。パラメータ取得部405は、学習済みのネットワークパラメータを取得する。測定部406は、ネットワークパラメータとニューラルネットワークとを用いて、複数の画像から擾乱の強度を測定する。擾乱強度出力部407は、擾乱の強度をクライアント装置401へ出力する。またクライアント装置401またはサーバ装置402は、擾乱の強度に基づいて複数の画像を補正する補正部(不図示)を有していてもよい。 Next, another image processing system according to this embodiment will be described with reference to FIG. FIG. 4 is a block diagram of an image processing system 400. As shown in FIG. The image processing system 400 has a client device 401 and a server device 402 connected to the client device 401 via a network 403 . The client device 401 has an image output unit 404 . The image output unit 404 outputs to the server device 402 a plurality of temporally different images degraded by the disturbance. The server device 402 has a parameter acquisition section 405 , a measurement section 406 and a disturbance intensity output section 407 . The parameter acquisition unit 405 acquires learned network parameters. A measurement unit 406 measures the intensity of disturbance from a plurality of images using network parameters and a neural network. A disturbance intensity output unit 407 outputs the intensity of the disturbance to the client device 401 . Also, the client device 401 or the server device 402 may have a correction unit (not shown) that corrects a plurality of images based on the intensity of the disturbance.

次に、図5を参照して、本実施形態における画像処理方法について説明する。図5は、画像処理方法のフローチャートであり、VLSIなどで画像処理方法を実施する場合におけるプログラムのフローを示している。図5の各ステップは、例えば、画像処理装置100の画像取得部101、パラメータ取得部102、測定部103、および、補正部104により実行される。 Next, an image processing method according to this embodiment will be described with reference to FIG. FIG. 5 is a flow chart of the image processing method, showing the program flow when the image processing method is implemented by VLSI or the like. Each step in FIG. 5 is executed by the image acquisition unit 101, the parameter acquisition unit 102, the measurement unit 103, and the correction unit 104 of the image processing apparatus 100, for example.

まずステップS501において、画像取得部101は、擾乱により劣化した時間的に異なる複数の画像(入力画像、動画)を取得する。続いてステップS502において、パラメータ取得部102は、学習済みのネットワークパラメータを取得する。続いてステップS503において、測定部103は、ネットワークパラメータとニューラルネットワークとを用いて、複数の画像から擾乱の強度を測定する。最後にステップS504において、補正部104は、擾乱の強度に基づいて複数の画像を補正する。 First, in step S501, the image acquisition unit 101 acquires a plurality of temporally different images (input images, moving images) degraded by disturbance. Subsequently, in step S502, the parameter acquisition unit 102 acquires learned network parameters. Subsequently, in step S503, the measurement unit 103 measures the intensity of disturbance from a plurality of images using network parameters and a neural network. Finally, in step S504, the correction unit 104 corrects the multiple images based on the intensity of the disturbance.

次に、各実施例について詳述する。 Next, each embodiment will be described in detail.

まず、図6および図7を参照して、本発明の実施例1について説明する。本実施例では、画像処理装置100の機能を記述したプログラムを用いて、既知の擾乱強度により劣化した入力画像の擾乱強度を測定した数値計算の結果を説明する。 First, Embodiment 1 of the present invention will be described with reference to FIGS. 6 and 7. FIG. In this embodiment, a program describing the functions of the image processing apparatus 100 is used to explain the results of numerical calculations in which the disturbance intensity of an input image degraded by a known disturbance intensity is measured.

図6は、本実施例におけるネットワーク構造(測定部103のCNN)600を示す図である。図6において、convは畳み込み層、deconvは逆(転置)畳み込み層をそれぞれ示している。また、各層の上の数字列はフィルタの縦横サイズ、チャンネル数、および、枚数を表している。例えば、図6中の「3×3×1×8」は縦横サイズ3×3、チャンネル数1、枚数8枚のフィルタで畳み込み、または逆(転置)畳み込みを行うことを表している。逆(転置)畳み込みとは、畳み込みの一種であり、簡単には畳み込みの逆処理である。詳細は、例えば非特許文献2に開示されている。また、図6中の丸中の+印は特徴マップの要素ごとの和を表している。 FIG. 6 is a diagram showing a network structure (CNN of measurement unit 103) 600 in this embodiment. In FIG. 6, conv indicates a convolutional layer, and deconv indicates an inverse (transposed) convolutional layer. Also, the number strings on each layer represent the vertical and horizontal size of the filter, the number of channels, and the number of sheets. For example, "3×3×1×8" in FIG. 6 indicates that convolution or inverse (transposition) convolution is performed using filters with a size of 3×3, 1 channel, and 8 filters. Inverse (transposed) convolution is a kind of convolution, and is simply the inverse process of convolution. Details are disclosed in Non-Patent Document 2, for example. In addition, the + mark in the circle in FIG. 6 represents the sum of each element of the feature map.

また、ネットワーク構造600における出力部のFCは、全結合ネットワークを示している。全結合ネットワークの上の数字列は、全結合ネットワークへの入力サイズと出力サイズを表している。例えば、図6中の「2500×2500」は2500次元のベクトルを入力し、2500次元のベクトルを出力することを表している。より具体的には、CNNで出力される50×50画素の画像を、2500次元のベクトルへ変換し、全結合ネットワークへ入力している。前述したように、全結合ネットワークへ入力可能な画像サイズは決まっている。それに従って入力画像サイズは決定される。本実施例では、入力画像サイズは50×50画素、11フレームである。 Also, the FC at the output of the network structure 600 indicates a fully connected network. The numbers above the fully-connected network represent the input and output sizes to the fully-connected network. For example, "2500×2500" in FIG. 6 indicates that a 2500-dimensional vector is input and a 2500-dimensional vector is output. More specifically, a 50×50 pixel image output by the CNN is converted into a 2500-dimensional vector and input to the fully-connected network. As described above, the image size that can be input to the fully-connected network is fixed. The input image size is determined accordingly. In this embodiment, the input image size is 50×50 pixels and 11 frames.

なお、図6に示されるネットワーク構造600は一例に過ぎず、本発明はこれに限定されるものではない。訓練画像は、既知の擾乱強度を有する入力訓練画像とその擾乱強度との組からなる。なお、測定部103のネットワーク構造600に合わせて、入力訓練画像サイズは50×50画素、11フレームである。また、入力訓練画像は、前述した擾乱モデルB-Splineを用いて、数値計算的に生成される。その際、擾乱強度として前述した変形ベクトルの分散を用いる。また、訓練画像として移動物体を含む入力訓練画像を用いる。これは、前述したとおり、本発明により移動物体に頑強な擾乱強度の測定が可能になることを示すためである。 It should be noted that the network structure 600 shown in FIG. 6 is only an example, and the present invention is not limited to this. The training images consist of pairs of input training images with known disturbance strengths and their disturbance strengths. Note that the input training image size is 50×50 pixels and 11 frames in accordance with the network structure 600 of the measurement unit 103 . Also, the input training images are numerically generated using the disturbance model B-Spline described above. At that time, the variance of the deformation vector described above is used as the disturbance intensity. Also, input training images containing moving objects are used as training images. This is to demonstrate that the present invention enables robust measurement of disturbance intensity for moving objects, as described above.

入力画像は、訓練入力画像と同じ条件(光学系の光学条件、イメージセンサの画素ピッチ、および、フレームレート)で取得したと見なせる画像を用いる。このため、入力画像のフレームレートに関して調整は行っていない。なお、入力画像サイズは400×400画素、40フレームである。そこから、50×50画素、11フレームを時間的および空間的にランダムに20箇所抽出し、算出した擾乱強度の平均値を、最終的な擾乱強度とする。また、入力画像として移動物体(車)を含むものを用いた。 The input image uses an image that can be considered to have been acquired under the same conditions (optical system optical conditions, image sensor pixel pitch, and frame rate) as the training input image. Therefore, the frame rate of the input image is not adjusted. The input image size is 400×400 pixels and 40 frames. From there, 11 frames of 50×50 pixels are randomly extracted temporally and spatially at 20 locations, and the average value of the calculated disturbance strength is used as the final disturbance strength. Also, an input image containing a moving object (a car) was used.

入力画像と入力訓練画像の規格化は、式(5)で与えられる方法を用いる。すなわち、複数の入力(訓練)画像の平均画像を生成し、これを複数の入力(訓練)画像の各々から減算することにより、規格化を行う。また、全ての画像はモノクロ画像であり、画素値は[0 1]の範囲になるように規格化される。 Normalization of input images and input training images uses the method given by Equation (5). That is, normalization is performed by generating an average image of multiple input (training) images and subtracting it from each of the multiple input (training) images. All images are monochrome images, and the pixel values are normalized so that they fall within the range of [0 1].

学習は、最適化法としてAdam法を用いたSGD(非特許文献2参照)である。なお、Adam法のパラメータは、α=10-4、β=0.9、β=0.999、ε=10-8である。また、SGDは訓練画像の全枚数76800枚から、ランダムに128枚選択して用いる。また学習の反復回数は、18×10回(300エポック)である。またネットワークパラメータ(フィルタおよびバイアス)の初期値は、全ての層でXavier(非特許文献3参照)を用いる。 Learning is SGD (see Non-Patent Document 2) using Adam's method as an optimization method. The parameters for Adam's method are α=10 −4 , β 1 =0.9, β 2 =0.999, and ε=10 −8 . Also, SGD is used by randomly selecting 128 images from the total number of 76,800 training images. The number of iterations of learning is 18×10 4 times (300 epochs). For the initial values of network parameters (filters and biases), Xavier (see Non-Patent Document 3) is used in all layers.

なお、測定部103へ入力する入力画像と入力訓練画像のサイズやフレーム数、規格化方法は一例であり、本発明はこれに限定されるものではない。また、測定部103から出力される擾乱強度の定義や最終的な擾乱強度の算出方法は一例であり、本発明はこれに限定されるものではない。 Note that the size, the number of frames, and the normalization method of the input image and the input training image to be input to the measurement unit 103 are examples, and the present invention is not limited thereto. Also, the definition of the disturbance intensity output from the measurement unit 103 and the final calculation method of the disturbance intensity are examples, and the present invention is not limited to this.

図6に示されるように、ネットワーク構造(ニューラルネットワーク)600は、メイン部601、入力部602、変換部603、および、出力部604を有する。メイン部601は、第1のネットワークパラメータと少なくとも2層以上の第1の畳み込みニューラルネットワーク(CNN)とを用いて、複数の画像を第1の特徴量611a、611b、611cに変換する。入力部602は、第2のネットワークパラメータと第2のCNNとを用いて、複数の画像を第2の特徴量612a、612b、612cに変換する。変換部603は、第1の特徴量と第2の特徴量とを加算して第3の特徴量613a、613b、613cを生成し、第3のネットワークパラメータと第3のCNNとを用いて第3の特徴量を第4の特徴量614に変換する。出力部604は、第4のネットワークパラメータと全結合ニューラルネットワークとを用いて、第4の特徴量から擾乱の強度を出力する。 As shown in FIG. 6, a network structure (neural network) 600 has a main section 601, an input section 602, a transform section 603, and an output section 604. FIG. The main unit 601 converts a plurality of images into first features 611a, 611b, 611c using first network parameters and a first convolutional neural network (CNN) of at least two layers. The input unit 602 converts a plurality of images into second features 612a, 612b, 612c using the second network parameters and the second CNN. The transformation unit 603 adds the first feature amount and the second feature amount to generate third feature amounts 613a, 613b, and 613c, and uses the third network parameter and the third CNN to generate the third feature amount. 3 is converted into a fourth feature quantity 614 . The output unit 604 uses the fourth network parameters and the fully-connected neural network to output the intensity of the disturbance from the fourth feature amount.

図7は、本実施例における数値計算結果(擾乱強度測定結果)を示す図である。図7において横軸は入力画像に与えた擾乱強度(真の擾乱強度)、縦軸は入力画像から測定された擾乱強度である。なお、グラフのエラーバーは、入力画像からランダムに抽出された、20箇所の測定した擾乱強度の標準偏差を表している。これより、入力画像に与えた擾乱強度と相関が高く、かつ移動物体に頑強な擾乱強度測定ができていることが分かる。 FIG. 7 is a diagram showing numerical calculation results (disturbance intensity measurement results) in this embodiment. In FIG. 7, the horizontal axis is the disturbance intensity applied to the input image (true disturbance intensity), and the vertical axis is the disturbance intensity measured from the input image. Note that the error bars in the graph represent the standard deviation of the 20 measured disturbance intensities randomly extracted from the input image. From this, it can be seen that there is a high correlation with the disturbance intensity applied to the input image, and robust disturbance intensity measurement can be performed for moving objects.

次に、図8乃至図10を参照して、本発明の実施例2について説明する。本実施例では、画像処理装置100の機能を記述したプログラムを用いて、未知の擾乱強度を有する入力画像の擾乱強度を測定した後、擾乱を補正した数値計算の結果について説明する。なお、測定部103のCNNは、実施例1と同様であるため、その説明は省略する。 Next, Embodiment 2 of the present invention will be described with reference to FIGS. 8 to 10. FIG. In this embodiment, a program describing the functions of the image processing apparatus 100 is used to measure the disturbance intensity of an input image having an unknown disturbance intensity, and then numerical calculation results for correcting the disturbance will be described. Note that the CNN of the measurement unit 103 is the same as that of the first embodiment, so the description thereof will be omitted.

図8は、本実施例におけるネットワーク構造(補正部104のCNN)800を示す図である。図8のネットワーク構造800の基本構成は、出力部分に全結合ネットワークがない以外は、実施例1にて説明した測定部103のネットワーク構造600と同様であるため、その詳細な説明は省略する。 FIG. 8 is a diagram showing a network structure (CNN of correction unit 104) 800 in this embodiment. Since the basic configuration of the network structure 800 in FIG. 8 is the same as the network structure 600 of the measurement unit 103 described in the first embodiment except that there is no fully connected network in the output portion, detailed description thereof will be omitted.

ネットワーク構造800は、メイン部801、入力部802、および、出力部803を有する。メイン部801は、学習済みの第5のネットワークパラメータと少なくとも2層以上の第5の畳み込みニューラルネットワーク(CNN)とを用いて、複数の画像を第5の特徴量811a、811b、811cに変換する。入力部802は、学習済みの第6のネットワークパラメータと第6のCNNとを用いて、複数の画像を第6の特徴量812a、812b、812cに変換する。出力部803は、第5の特徴量と第6の特徴量とを加算して第7の特徴量813a、813b、813cを生成し、学習済みの第7のネットワークパラメータと第7のCNNとを用いて第7の特徴量を出力画像へ変換する。なお、図8に示されるネットワーク構造800は一例に過ぎず、本発明はこれに限定されるものではない。 The network structure 800 has a main part 801 , an input part 802 and an output part 803 . A main unit 801 converts a plurality of images into fifth feature amounts 811a, 811b, and 811c using a learned fifth network parameter and a fifth convolutional neural network (CNN) having at least two layers. . The input unit 802 converts a plurality of images into sixth feature amounts 812a, 812b, and 812c using the sixth learned network parameter and the sixth CNN. The output unit 803 adds the fifth feature amount and the sixth feature amount to generate the seventh feature amounts 813a, 813b, and 813c, and outputs the learned seventh network parameter and the seventh CNN. is used to transform the seventh feature quantity into an output image. Note that the network structure 800 shown in FIG. 8 is only an example, and the present invention is not limited to this.

訓練画像は、出力訓練画像に対して既知の擾乱強度による劣化を加えた入力訓練画像の組からなる。なお、入力訓練画像は、前述した擾乱モデルB-Splineを用いて、出力訓練画像から数値計算的に生成される。その際、擾乱強度として前述した変形ベクトルの分散を用いる。また、ネットワーク構造800にはその出力部分に全結合ネットワークがないため、任意サイズの訓練画像を用いることができる。本実施例では、実施例1と同様に、入出力訓練画像サイズは50×50画素を用いる。また、擾乱強度に応じて入力訓練画像の枚数(フレーム数)を決定することができる。本実施例では、簡単のため、擾乱強度によらずフレーム数は11フレームである。 The training images consist of a set of input training images degraded by a known disturbance strength to the output training images. Note that the input training images are numerically generated from the output training images using the disturbance model B-Spline described above. At that time, the variance of the deformation vector described above is used as the disturbance intensity. Also, because the network structure 800 does not have a fully connected network at its output, training images of any size can be used. In this embodiment, as in the first embodiment, the input/output training image size is 50×50 pixels. Also, the number of input training images (the number of frames) can be determined according to the disturbance intensity. In this embodiment, for the sake of simplicity, the number of frames is 11 regardless of the disturbance intensity.

入力画像は、訓練入力画像と同じ条件(光学系の光学条件、イメージセンサの画素ピッチ、フレームレート)で取得したと見なせる画像を用いる。このため、フレームレートに関して調整は行っていない。なお、入力画像サイズは400×400画素、80フレームである。また出力画像サイズは、入力画像サイズと同じである。また、全ての画像はモノクロ画像であり、画素値は[0 1]の範囲になるように規格化されている。 As the input image, an image that can be regarded as having been acquired under the same conditions as the training input image (optical conditions of the optical system, pixel pitch of the image sensor, frame rate) is used. For this reason, no adjustments have been made to the frame rate. The input image size is 400×400 pixels and 80 frames. Also, the output image size is the same as the input image size. Also, all the images are monochrome images, and the pixel values are normalized so that they fall within the range of [0 1].

学習は、前述と同様に、最適化法としてAdam法を用いたSGDである。Adam法のパラメータは、α=10-4、β=0.9、β=0.999、ε=10-8である。SGDは、訓練画像全枚数76800枚から、ランダムに128枚選択して用いる。学習の反復回数は、18×10回(300エポック)である。ネットワークパラメータ(フィルタおよびバイアス)の初期値は、全ての層でXavier(非特許文献3参照)を用いる。なお、測定部103へ入力する入力画像と入力訓練画像のサイズやフレーム数は一例であり、本発明はこれに限定されるものではない。また、測定部103から出力される出力画像と出力訓練画像のサイズやフレーム数は一例であり、本発明はこれに限定されるものではない。 Learning is SGD using Adam's method as an optimization method, as described above. The parameters for Adam's method are α=10 −4 , β 1 =0.9, β 2 =0.999, ε=10 −8 . SGD is used by randomly selecting 128 training images from a total of 76,800 training images. The number of learning iterations is 18×10 4 times (300 epochs). Initial values of network parameters (filters and biases) use Xavier (see Non-Patent Document 3) in all layers. Note that the size and the number of frames of the input image and the input training image to be input to the measurement unit 103 are examples, and the present invention is not limited to this. Also, the size and the number of frames of the output image and the output training image output from the measurement unit 103 are examples, and the present invention is not limited to this.

図9は、本実施例における数値計算結果を定性的に示す図であり、擾乱補正結果を示す。図9(a)は擾乱で劣化した画像(入力画像)の1フレーム、図9(b)は擾乱を補正した(出力画像)の対応する1フレームである。なお、各図の下には、分かり易さのため、各図の一断面を時間方向に積層した図を併せて示している。これより、断面図のゆらぎが緩やかになっていることから、擾乱が適切に補正されていることが定性的に分かる。 FIG. 9 is a diagram qualitatively showing numerical calculation results in this embodiment, showing disturbance correction results. FIG. 9(a) shows one frame of an image (input image) degraded by the disturbance, and FIG. 9(b) shows one corresponding frame of the disturbance-corrected (output image). For ease of understanding, a diagram in which one cross-section of each figure is stacked in the time direction is also shown below each figure. From this, it can be qualitatively understood that the disturbance is appropriately corrected because the fluctuation of the cross-sectional view is moderate.

図10は、本実施例における数値計算結果を定量的に示す図であり、擾乱で劣化した画像(入力画像)と、擾乱を補正した画像(出力画像)の擾乱強度を、本実施例により測定した結果を示す。なお、擾乱強度の測定には、実施例1で説明した方法を用いる。入力画像よりも出力画像の擾乱強度のほうが小さくなっていることから、擾乱が適切に補正されていることが定量的に分かる。 FIG. 10 is a diagram quantitatively showing the results of numerical calculations in this embodiment, in which the disturbance intensity of an image (input image) degraded by disturbance and an image corrected for disturbance (output image) is measured according to this embodiment. The results are shown. The method described in Example 1 is used for measuring the disturbance intensity. Since the disturbance intensity of the output image is smaller than that of the input image, it can be quantitatively understood that the disturbance is appropriately corrected.

(その他の実施例)
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other examples)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in the computer of the system or apparatus reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.

各実施例によれば、高精度に擾乱の強度を測定可能な画像処理装置、画像処理システム、撮像装置、画像処理方法、プログラム、および、記憶媒体を提供することができる。 According to each embodiment, it is possible to provide an image processing device, an image processing system, an imaging device, an image processing method, a program, and a storage medium capable of measuring the intensity of disturbance with high precision.

以上、本発明の好ましい実施例について説明したが、本発明はこれらの実施例に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。 Although preferred embodiments of the present invention have been described above, the present invention is not limited to these embodiments, and various modifications and changes are possible within the scope of the gist.

100 画像処理装置
101 画像取得部
102 パラメータ取得部
103 測定部
100 image processing device 101 image acquisition unit 102 parameter acquisition unit 103 measurement unit

Claims (15)

擾乱により劣化した時間的に異なる複数の画像を取得する画像取得部と、
既知の擾乱の強度に基づいて得られた複数の画像群を用いた学習により生成されたニューラルネットワークのネットワークパラメータを取得するパラメータ取得部と、
前記複数の画像の各々から前記複数の画像の平均画像を減算することで規格化された複数の画像を生成し、前記ネットワークパラメータを有する前記ニューラルネットワークを用いて、前記規格化された複数の画像から前記擾乱の強度を測定する測定部と、を有することを特徴とする画像処理装置。
an image acquisition unit that acquires a plurality of temporally different images that are degraded by the disturbance;
A parameter acquisition unit that acquires network parameters of a neural network generated by learning using a plurality of image groups obtained based on known disturbance intensities;
generating a plurality of normalized images by subtracting an average image of the plurality of images from each of the plurality of images ; and a measurement unit that measures the intensity of the disturbance from the image of the image processing apparatus.
前記擾乱の強度は、時間的または空間的な画素値の散布度であることを特徴とする請求項1に記載の画像処理装置。 2. The image processing apparatus according to claim 1, wherein the intensity of the disturbance is temporal or spatial dispersion of pixel values. 前記複数の画像は、光学系及び撮像素子を用いた撮影によって取得された画像であり、
前記パラメータ取得部は、前記撮影における撮影条件に基づいて、取得する前記ネットワークパラメータを選択することを特徴とする請求項1または2に記載の画像処理装置。
The plurality of images are images acquired by photographing using an optical system and an imaging device,
3. The image processing apparatus according to claim 1 , wherein the parameter acquisition unit selects the network parameters to be acquired based on shooting conditions in the shooting .
前記撮影条件は、前記光学系の光学条件、前記撮像素子の画素ピッチ、または、フレームレートであることを特徴とする請求項3に記載の画像処理装置。 4. The image processing apparatus according to claim 3, wherein the photographing condition is an optical condition of the optical system, a pixel pitch of the imaging device, or a frame rate. 前記測定部は、前記フレームレートと前記ニューラルネットワークの学習条件とに基づいてサイズを調整された複数の画像を生成し、前記調整された複数の画像から前記擾乱の強度を測定することを特徴とする請求項4に記載の画像処理装置。The measurement unit generates a plurality of images whose sizes are adjusted based on the frame rate and the learning conditions of the neural network, and measures the intensity of the disturbance from the adjusted images. 5. The image processing apparatus according to claim 4. 前記ニューラルネットワークは、
第1のネットワークパラメータを有する第1の畳み込みニューラルネットワークを用いて、前記複数の画像を第1の特徴量に変換するメイン部と、
第2のネットワークパラメータを有する第2の畳み込みニューラルネットワークを用いて、前記複数の画像を第2の特徴量に変換する入力部と、
前記第1の特徴量と前記第2の特徴量とを加算することで、第3の特徴量を生成し、第3のネットワークパラメータを有する第3の畳み込みニューラルネットワークを用いて前記第3の特徴量を第4の特徴量に変換する変換部と、
第4のネットワークパラメータを有する全結合ネットワークワークを用いて、前記第4の特徴量から前記擾乱の強度を出力する出力部とをし、
前記ネットワークパラメータは、前記第1乃至第4のネットワークパラメータを含むことを特徴とする請求項1乃至のいずれか項に記載の画像処理装置。
The neural network is
a main unit that transforms the plurality of images into a first feature using a first convolutional neural network having first network parameters ;
an input unit that transforms the plurality of images into a second feature using a second convolutional neural network having second network parameters ;
A third feature is generated by adding the first feature and the second feature, and the third feature is obtained using a third convolutional neural network having a third network parameter. a conversion unit that converts the quantity into a fourth feature quantity;
an output unit that outputs the intensity of the disturbance from the fourth feature using a fully connected network having a fourth network parameter ;
6. The image processing apparatus according to claim 1, wherein said network parameters include said first to fourth network parameters .
前記測定部は、前記複数の画像における複数箇所において前記擾乱の強度を測定することを特徴とする請求項1乃至のいずれか項に記載の画像処理装置。 7. The image processing apparatus according to any one of claims 1 to 6 , wherein the measurement unit measures the intensity of the disturbance at a plurality of locations in the plurality of images. 前記既知の擾乱の強度は、画像における制御点に乱数で与える変形量の正規乱数の分散であり、B-Splineに基づく擾乱モデルを用いて生成されることを特徴とする請求項1乃至のいずれか項に記載の画像処理装置。 3. The intensity of the known disturbance is a normal random number variance of a deformation amount given by random numbers to the control points in the image , and is generated using a B-Spline-based disturbance model. 8. The image processing device according to any one of 7 . 前記擾乱の強度に基づいて前記複数の画像を補正する補正部を更に有することを特徴とする請求項1乃至のいずれか項に記載の画像処理装置。 9. The image processing apparatus according to any one of claims 1 to 8 , further comprising a correction unit that corrects the plurality of images based on the intensity of the disturbance. 前記複数の画像を補正するためのネットワークパラメータを、前記擾乱の強度に基づいて選択する補正部を更に有することを特徴とする請求項1乃至8のいずれか一項に記載の画像処理装置。9. The image processing apparatus according to any one of claims 1 to 8, further comprising a correction unit that selects network parameters for correcting the plurality of images based on the intensity of the disturbance. 請求項1乃至10のいずれか一項に記載の画像処理装置と、該画像処理装置にネットワークを介して接続されているクライアント装置とを有する画像処理システムであって、
前記クライアント装置は、前記擾乱により劣化した時間的に異なる複数の画像を前記画像処理装置に出力する画像出力部を有し、
前記画像処理装置は、さらに前記擾乱の強度を前記クライアント装置へ出力する擾乱強度出力部を有することを特徴とする画像処理システム。
An image processing system comprising the image processing device according to any one of claims 1 to 10 and a client device connected to the image processing device via a network,
The client device has an image output unit that outputs a plurality of temporally different images degraded by the disturbance to the image processing device,
The image processing system , wherein the image processing device further includes a disturbance intensity output unit that outputs the intensity of the disturbance to the client device .
撮像素子と、
請求項1乃至10のいずれか項に記載の画像処理装置と、を有することを特徴とする撮像装置。
an imaging device;
An imaging apparatus comprising the image processing apparatus according to any one of claims 1 to 10 .
擾乱により劣化した時間的に異なる複数の画像を取得する画像取得ステップと、
既知の擾乱の強度に基づいて得られた複数の画像群を用いた学習により生成されたニューラルネットワークのネットワークパラメータを取得するパラメータ取得ステップと、
前記複数の画像の各々から前記複数の画像の平均画像を減算することで規格化された複数の画像を生成し、前記ネットワークパラメータを有する前記ニューラルネットワークを用いて、前記規格化された複数の画像から前記擾乱の強度を測定する測定ステップと、を有することを特徴とする画像処理方法。
an image acquisition step of acquiring a plurality of temporally different images degraded by the disturbance;
A parameter acquisition step of acquiring network parameters of a neural network generated by learning using a plurality of image groups obtained based on known disturbance intensities;
generating a plurality of normalized images by subtracting an average image of the plurality of images from each of the plurality of images ; and a measuring step of measuring the intensity of the disturbance from the image of the image.
請求項13に記載の画像処理方法をコンピュータに実行させることを特徴とするプログラム。 A program that causes a computer to execute the image processing method according to claim 13 . 請求項14に記載のプログラムを記憶していることを特徴とする記憶媒体。 15. A storage medium storing the program according to claim 14 .
JP2018219876A 2018-11-26 2018-11-26 Image processing device, image processing system, imaging device, image processing method, program, and storage medium Active JP7246900B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018219876A JP7246900B2 (en) 2018-11-26 2018-11-26 Image processing device, image processing system, imaging device, image processing method, program, and storage medium
US16/688,150 US11488279B2 (en) 2018-11-26 2019-11-19 Image processing apparatus, image processing system, imaging apparatus, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018219876A JP7246900B2 (en) 2018-11-26 2018-11-26 Image processing device, image processing system, imaging device, image processing method, program, and storage medium

Publications (2)

Publication Number Publication Date
JP2020086891A JP2020086891A (en) 2020-06-04
JP7246900B2 true JP7246900B2 (en) 2023-03-28

Family

ID=70770838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018219876A Active JP7246900B2 (en) 2018-11-26 2018-11-26 Image processing device, image processing system, imaging device, image processing method, program, and storage medium

Country Status (2)

Country Link
US (1) US11488279B2 (en)
JP (1) JP7246900B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021051588A (en) * 2019-09-25 2021-04-01 キヤノン株式会社 Image processing system, image processing apparatus and control method therefor, and program
JP2022019374A (en) * 2020-07-17 2022-01-27 キヤノン株式会社 Image processing method, program image processing device, method of producing trained model, and image processing system
CN112285147A (en) * 2020-10-10 2021-01-29 中国科学技术大学 Method for measuring full-field strain of ultrahigh-temperature object based on digital image correlation method
CN114708622B (en) * 2022-06-07 2022-08-16 成都点泽智能科技有限公司 Scheduling method, device and system for ski field equipment

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017047494A1 (en) 2015-09-18 2017-03-23 株式会社日立国際電気 Image-processing device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447129B2 (en) * 2009-03-18 2013-05-21 Florida Institute Of Technology High-speed diversity-based imaging method for parallel atmospheric turbulence compensation
EP2666123A4 (en) * 2011-01-18 2017-03-08 RTC Vision Ltd. System and method for improved character recognition in distorted images
WO2015132826A1 (en) * 2014-03-05 2015-09-11 パナソニックIpマネジメント株式会社 Image processing apparatus, monitor camera, and image processing method
US10726244B2 (en) * 2016-12-07 2020-07-28 Samsung Electronics Co., Ltd. Method and apparatus detecting a target
US10187171B2 (en) * 2017-03-07 2019-01-22 The United States Of America, As Represented By The Secretary Of The Navy Method for free space optical communication utilizing patterned light and convolutional neural networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017047494A1 (en) 2015-09-18 2017-03-23 株式会社日立国際電気 Image-processing device

Also Published As

Publication number Publication date
US11488279B2 (en) 2022-11-01
JP2020086891A (en) 2020-06-04
US20200167885A1 (en) 2020-05-28

Similar Documents

Publication Publication Date Title
JP7246900B2 (en) Image processing device, image processing system, imaging device, image processing method, program, and storage medium
CN111539879B (en) Video blind denoising method and device based on deep learning
JP5997645B2 (en) Image processing apparatus and method, and imaging apparatus
US10354369B2 (en) Image processing method, image processing apparatus, image pickup apparatus, and storage medium
JP6957197B2 (en) Image processing device and image processing method
JP2019121252A (en) Image processing method, image processing apparatus, image processing program and storage medium
JP6910780B2 (en) Image processing method, image processing device, imaging device, image processing program, and storage medium
JP2011223477A (en) Blur correction device and blur correction method
JP2017010092A (en) Image processing apparatus, imaging device, image processing method, image processing program, and recording medium
WO2008038748A1 (en) Prediction coefficient operation device and method, image data operation device and method, program, and recording medium
CN112184549B (en) Super-resolution image reconstruction method based on space-time transformation technology
WO2021106853A1 (en) Image processing apparatus, image processing method, learning apparatus, learning method, imaging device, and program
JP7370922B2 (en) Learning method, program and image processing device
JP2017010093A (en) Image processing apparatus, imaging device, image processing method, image processing program, and recording medium
JP2019074777A (en) Image processing method, image processing apparatus, and imaging apparatus
JP6541454B2 (en) Image processing apparatus, imaging apparatus, image processing method, image processing program, and storage medium
JP6645442B2 (en) Information processing apparatus, information processing method, and program
JP2010506482A (en) Method and filter for parallax recovery of video stream
JP2019139713A (en) Image processing apparatus, imaging apparatus, image processing method, program and storage medium
JP7191588B2 (en) Image processing method, image processing device, imaging device, lens device, program, and storage medium
JP6997969B2 (en) Image synthesis system, image synthesis method, and image synthesis program recording medium
JP7414745B2 (en) Learning data production method, learning method, learning data production device, learning device, and program
JP6661491B2 (en) Image processing apparatus and image processing method
JP7309520B2 (en) Image processing method, image processing device, imaging device, program, storage medium, image processing system, and learned model manufacturing method
JP2023003763A (en) Learning apparatus, image processing apparatus, learning processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230315

R151 Written notification of patent or utility model registration

Ref document number: 7246900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151