JP2022150562A - 画像処理装置、画像処理方法およびプログラム - Google Patents

画像処理装置、画像処理方法およびプログラム Download PDF

Info

Publication number
JP2022150562A
JP2022150562A JP2021053212A JP2021053212A JP2022150562A JP 2022150562 A JP2022150562 A JP 2022150562A JP 2021053212 A JP2021053212 A JP 2021053212A JP 2021053212 A JP2021053212 A JP 2021053212A JP 2022150562 A JP2022150562 A JP 2022150562A
Authority
JP
Japan
Prior art keywords
learning
image data
image
teacher
difficult
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2021053212A
Other languages
English (en)
Inventor
敦 ▲高▼濱
Atsushi Takahama
暢 小倉
Toru Kokura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021053212A priority Critical patent/JP2022150562A/ja
Priority to US17/694,483 priority patent/US20220309612A1/en
Publication of JP2022150562A publication Critical patent/JP2022150562A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4015Image demosaicing, e.g. colour filter arrays [CFA] or Bayer patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022150562000001
【課題】 より好適なデモザイク画像を出力可能とする技術を提供する。
【解決手段】 本発明に係る画像処理装置は、教師画像データを取得する取得手段と、前記教師画像データを学習し、該学習の結果から学習が困難であった第一困難画像データを抽出する抽出手段と、前記第一困難画像データをモザイク化することによって生徒画像データを生成する生成手段と、前記第一困難画像データと前記生徒画像データとのペアを再学習して得られるネットワークパラメータを生成する学習手段と、を有し、前記学習手段は、前記第一困難画像データとは異なる第二困難画像データを複数回生成して前記再学習を繰り返すことを特徴とする。
【選択図】 図4

Description

本発明は、機械学習による画像処理技術に関する。
ベイヤ(Bayer)配列の撮像画像は、撮像素子の各画素にRGBいずれかの色に対応する画素値のみが設定されたいわゆるモザイク画像となる。カメラの現像処理部は、このモザイク画像に対して残り二色の画素値を補間するデモザイク処理などの様々な信号処理を施して、カラー画像を生成して出力する。
非特許文献1は、CNNベースのデモザイクネットワークを学習させる手法を開示している。学習に必要な画像として、まず大量のRGB画像群(一般教師画像)を取得する。次に、一般教師画像の中から、デモザイクの困難な画像(困難教師画像)を抽出し、これを用いてCNNを学習させる。学習が完了すると、学習済みモデルを用いて、モザイク画像をCNNに入力しRGB画像に変換する推論(入力データに対する回帰のタスク)を行う。
M Gharbi,G Chaurasia,S Paris,F Durand,"Deep Joint Demosaicking and Denoising",Siggraph Asia 2016,ACM Transactions on Graphics(TOG),2016年11月
上記手法では、困難教師画像の抽出方法に起因して、学習が不十分な領域で、デモザイク結果画像にモアレや偽色といった画質弊害が発生するという課題があった。
本発明に係る画像処理装置は、教師画像データを取得する取得手段と、前記教師画像データを学習し、該学習の結果から学習が困難であった第一困難画像データを抽出する抽出手段と、前記第一困難画像データをモザイク化することによって生徒画像データを生成する生成手段と、前記第一困難画像データと前記生徒画像データとのペアを再学習して得られるネットワークパラメータを生成する学習手段と、を有し、前記学習手段は、前記第一困難画像データとは異なる第二困難画像データを複数回生成して前記再学習を繰り返すことを特徴とする。
本発明は、このような問題に鑑みてなされたものであり、より好適なデモザイク画像を出力可能とする技術を提供することができる。
画像処理装置のハードウェア構成を示すブロック図。 センサのカラーフィルタ配列に基づいて、モザイク画像を生成する流れを表す図。 非特許文献1におけるデモザイク(処理)ネットワークの処理フローを説明する図。 実施例1における画像処理装置の構成を示すブロック図。 実施例1における画像変換処理のフローチャート。 実施例2における画像処理装置の構成を示すブロック図。 実施例2における画像変換処理のフローチャート。 実施例1における教師画像生成部の処理フローを説明する図。 画質弊害について説明するための図。
以下、実施形態について、図面を参照して説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明し、重複した説明は省略する。以降では、画像を表す画像データについて単に画像と呼ぶ場合もある。
[実施例1]
第1の実施例では、まず、第一の困難教師画像群で学習を行い、その後で第二の困難教師画像群を抽出して再学習を行う例を述べる。第一の困難教師画像群での学習後に、どの領域で学習が不十分であるかを判定し、その領域の画像からなる第二の教師画像群を生成する。
以下では、最初に、従来技術において画質弊害が発生する原因を説明し、それへの対策方針について述べる。その後、本実施例の画像処理装置の構成とCNNに関する説明を述べ、画像処理装置の構成例を詳述する。
(画質弊害の発生原因と対策方針)
画質弊害の発生する要因を、図9(a)を用いて説明する。画像特徴空間内において、一般教師画像が901であり、その中で画質弊害が発生しやすい画像が902であるとする。デモザイクにおいて画質弊害が発生しやすい画像とは、例えば高周波成分の多い画像、飽和画素を多く含む画像、補色同士が隣接する画像などである。このような画像はカラーフィルタ配列の特性に起因するデモザイクの困難性があり、推論を行うとモアレや偽色などの画質弊害が発生しやすい。
デモザイクの困難な画像は存在数が少なく、学習が不十分となる場合が多い。そこで、一般教師画像群の中から、デモザイクの困難な困難教師画像だけを抽出し、このデータセットで学習を行うことにより、学習効率の高い画像を集中的に学習できる。
しかし、作成した上記の困難教師画像データセット(以降、困難画像データと呼ぶ場合もある)が、デモザイクの困難なあらゆる画像を含んでいるとは限らない。例えば、補色の隣接する画像が、抽出の母集団である一般教師画像群の中にごく少数しか含まれていなかった場合は、困難教師画像群の中にも少数しか含まれないことになり、その領域の学習が不十分となる。結果として、推論時に補色の隣接する画像を入力した際、画質弊害が発生しうる。
加えて、困難教師画像の抽出を行うための最適な指標を用意することも難しく、抽出の誤検出や見逃しが発生しうる。その結果、抽出される困難教師画像群は903のようになる(903以外の困難教師画像も存在するが、大多数は903の領域内に含まれている、ということを意味する)。これにより、学習が不十分な領域904が発生し、画質弊害が増強される。
これに対し、本実施例では、学習後にテスト画像を用いて検査を行い、学習の不十分な領域が存在しているかを確認する。存在した場合には、不十分な領域ほど困難画像と判定されやすくなるように抽出の指標を更新し、第二の困難教師画像群を抽出する。これを用いて再学習を行うことにより、学習の不十分な領域を集中的に学習でき、推論時の画質弊害を低減できる。この抽出と再学習の処理を、所与の学習終了条件に到達するまで繰り返す。繰り返しのたびに、一般教師画像群に対して新たなデータを追加して拡充することにより、抽出される困難教師画像のバリエーションを向上させる。
(画像処理装置の構成)
ここで、第1の実施例の画像処理装置の構成を説明する。図1は、第1の実施例の画像処理装置の構成の一例を示す図である。画像処理装置100は、CPU101、RAM102、ROM103、二次記憶装置104、入力インターフェース105、出力インターフェース106、撮像装置111、GPU112を含む。画像処理装置100の各構成要素はシステムバス107によって相互に接続されている。また、画像処理装置100は、入力インターフェース105を介して外部記憶装置108および操作部110に接続されている。また、画像処理装置100は、出力インターフェース106を介して外部記憶装置108および表示装置109に接続されている。
CPU101は、RAM102をワークメモリとして、ROM103に格納されたプログラムを実行し、システムバス107を介して画像処理装置100の各構成要素を統括的に制御する。これにより、後述する様々な処理が実行される。GPU112は、CPU101から受け取ったデータに対して演算を行い、その結果をCPU101に出力する。また、二次記憶装置104は、画像処理装置100で取り扱われる種々のデータを記憶する記憶装置であり、本実施例ではHDDが用いられる。CPU101は、システムバス107を介して二次記憶装置104へのデータの書き込みおよび二次記憶装置104に記憶されたデータの読出しを行う。なお、二次記憶装置104にはHDDの他に、光ディスクドライブやフラッシュメモリなど、様々な記憶デバイスを用いることが可能である。
入力インターフェース105は、例えばUSBやIEEE1394等のシリアルバスインターフェースである。画像処理装置100は、入力インターフェース105を介して、外部装置からデータや命令等を入力する。本実施例では、画像処理装置100は、入力インターフェース105を介して、外部記憶装置108(例えば、ハードディスク、メモリカード、CFカード、SDカード、USBメモリなどの記憶媒体)からデータを取得する。また本実施例では、画像処理装置100は、操作部110に入力されたユーザの指示を、入力インターフェース105を介して取得する。操作部110は、マウスやキーボードなどの入力装置であり、ユーザの指示を入力する。
出力インターフェース106は、入力インターフェース105と同様にUSBやIEEE1394等のシリアルバスインターフェースである。なお、出力インターフェース106は、例えばDVIやHDMI(登録商標)等の映像出力端子であってもよい。画像処理装置100は、出力インターフェース106を介して、外部装置にデータ等を出力する。本実施例では、画像処理装置100は、出力インターフェース106を介して表示装置109(液晶ディスプレイなどの各種画像表示デバイス)に、CPU101によって処理されたデータ(例えば、画像データ)を出力する。なお、画像処理装置100の構成要素は上記以外にも存在するが、本発明の主眼ではないため、説明を省略する。
撮像装置111は、画像処理装置100で処理を行う入力画像を撮像する。
本実施例では、上記のような構成を備える画像処理装置100に於いて、CPU101からの指令に基づき、画像処理アプリケーションにベイヤデータを入力してデモザイクした画像データを出力する態様について説明するものとする。
(CNNについて)
まず、非特許文献1をはじめ、深層学習技術を応用した画像処理技術全般で用いられている畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)について説明する。CNNとは、学習(trainingまたはlearning)により生成したフィルタを画像に対して畳み込んだ(convolution)後、非線形演算することを繰り返す、学習型の画像処理技術である。フィルタは、局所受容野(Local Receptive Field:LRF)とも呼ばれる。画像に対してフィルタを畳み込んだ後、非線形演算して得られる画像は、特徴マップ(feature map)と呼ばれる。また、学習は入力画像と出力画像のペアからなる学習データ(training imagesまたはdata sets)を用いて行われる。簡単には、入力画像から対応する出力画像へ高精度に変換可能なフィルタの値を、学習データから生成することが学習である。この詳細については後述する。
画像がRGBカラーチャネルを有する場合や、特徴マップが複数枚の画像から構成されている場合、畳み込みに用いるフィルタも、それに応じて複数のチャネルを有する。すなわち、畳み込みフィルタは、縦横サイズと枚数の他に、チャネル数を加えた、4次元配列で表現される。画像(または特徴マップ)にフィルタを畳み込んだ後、非線形演算する処理は、層(layer)という単位で表現される。例えば、n層目の特徴マップやn層目のフィルタなどと呼ばれる。また、例えばフィルタの畳み込みと非線形演算を3回繰り返すようなCNNは、3層のネットワーク構造を有するという。この処理は、以下の式(1)のように定式化することができる。
Figure 2022150562000002
式(1)において、Wnはn層目のフィルタ、bはn層目のバイアス、Gは非線形演算子、Xはn層目の特徴マップ、*は畳み込み演算子である。なお、右肩の(l)はl番目のフィルタまたは特徴マップであることを表している。フィルタおよびバイアスは、後述する学習により生成され、まとめてネットワークパラメータとも呼ばれる。非線形演算としては、例えばシグモイド関数(sigmoid function)やReLU(Rectified Linear Unit)が用いられる。ReLUは、以下の式(2)で与えられる。
Figure 2022150562000003
すなわち、入力したベクトルXの要素のうち負のものはゼロ、正のものはそのままとする非線形な処理である。
次に、CNNの学習について説明する。CNNの学習は、入力学習画像(生徒画像)と対応する出力学習画像(教師画像)の組からなる学習データに対して、一般に以下の式(3)で表される目的関数を最小化することで行われる。
Figure 2022150562000004
ここで、Lは正解とその推定との誤差を測る損失関数(loss function)である。また、Yはi番目の出力学習画像、Xはi番目の入力学習画像である。また、FはCNNの各層で行う演算(式1)を、まとめて表した関数である。また、θはネットワークパラメータ(フィルタおよびバイアス)である。また、
Figure 2022150562000005

はL2ノルムであり、簡単にはベクトルZの要素の2乗和の平方根である。
また、nは学習に用いる学習データの全枚数であるが、一般に学習データの全枚数は多いため、確率的勾配降下法(Stochastic Gradient Descent:SGD)では、学習画像の一部をランダムに選び学習に用いている。これにより、多くの学習データを用いた学習における、計算負荷が低減できる。また、目的関数の最小化(=最適化)法として、モーメンタム(momentum)法やAdaGrad法、AdaDelta法、Adam法など、様々な方法が知られている。Adam法は、以下の式(4)で与えられる。
Figure 2022150562000006
式(4)において、θ は反復t回目におけるi番目のネットワークパラメータ、gはθ に関する損失関数Lの勾配である。また、m、vはモーメントベクトル、αは基本学習率(base learning rate)、β1、β2はハイパーパラメータ、εは小さい定数である。なお、学習における最適化法の選択指針は存在しないため、基本的に何を用いても良いが、方法ごとの収束性には違いがあるため、学習時間の違いが生じることが知られている。
CNNを用いたネットワークとしては、画像認識分野のResNetや超解像分野におけるその応用RED-Netが有名である。いずれもCNNを多層にして、フィルタの畳み込みを何度も行うことで、処理の高精度化を図っている。例えば、ResNetは畳み込み層をショートカットする経路を設けたネットワーク構造を特徴とし、これにより152層もの多層ネットワークを実現し、人間の認識率に迫る高精度な認識を実現している。なお、多層CNNにより処理が高精度化する理由は、簡単には非線形演算を何度も繰り返すことで、入出力間の非線形な関係を表現できるためである。
(画像処理装置の機能構成例)
本実施形態に係る画像処理装置100の機能構成例について、図4のブロック図と図5のフローチャートを用いて説明する。なお、図4に示した構成は適宜変形/変更が可能である。例えば、1つの機能部を機能別に複数の機能部に分割しても良いし、2つ以上の機能部を1つの機能部に統合しても良い。また、図4の構成は、2以上の装置によって構成しても良い。その場合、各装置は回路や有線若しくは無線のネットワークを介して接続され、互いにデータ通信を行って協調動作を行うことで、以下に画像処理装置が行うものとして後述する各処理を実現する。
以下では、図4に示す機能部を処理の主体として説明する場合があるが、実際には、該機能部に対応するコンピュータプログラムをCPU101が実行することで、該機能部の機能が実現される。なお、図2、3に示す機能部はハードウェアで実装しても良い。
ステップS501において、教師画像取得部401は、RGB形式の教師画像を取得する。この教師画像は、非特許文献1に記載の方法に従って生成する。具体的には、図8に示すように、撮像装置111でモザイク画像801を取得し、これに対して簡易デモザイクを適用してRGB画像802を生成し、最後に画像縮小を適用して教師画像803を生成する。簡易デモザイクにはbilinear補間を用いるが、他のデモザイク手法を用いても構わない。また、ここではカラーフィルタ配列としてベイヤ配列を示しているが、X-Transなどの他のカラーフィルタ配列を用いても構わない。
この教師画像は、サイズ一定の小画像(パッチ)の形式になっている。教師画像のサイズが一定でない場合や、CNNに入力できるより大きいサイズである場合には、パッチ単位に画像分割を行う。
また、非特許文献1以外の方法でRGB形式の教師画像を取得しても構わない。例えば、事前に撮像して記憶しておいた物を読み出してもよく、また撮像素子の位置をずらしながら撮像することでRGB形式の教師画像を得ても構わない。
取得された教師画像は、第一困難画像抽出部402に出力される。
ステップS502において、第一困難画像抽出部402は、受け取った教師画像群から第一の困難教師画像を抽出する。
この抽出処理には、非特許文献1に記載されている手法を用いる。具体的には、一般教師画像をモザイク化した後、そのモザイク画像に対して簡易的なデモザイク手法を適用し、デモザイク結果と元の一般教師画像との誤差を評価する。誤差の評価値が閾値t以上であった場合、その画像を困難教師画像であると判定する。上記の簡易的なデモザイクとしては、bilinear補間や、一般教師画像を用いて非特許文献1のCNNを少数エポック訓練した結果を用いる。なお、閾値をt=-∞と設定しても良く、この場合は一般教師画像群と困難教師画像群が一致する。
誤差の評価値としては、非特許文献1に基づき、人間の視覚特性に基づく知覚的差異評価値であるHDRVDPと、誤差の空間的周期性を評価するモアレスコアを採用する。いずれかの評価値が閾値tを越えている場合、その画像を困難教師画像と判定する。得られた困難教師画像群は、学習データ生成部403に出力される。
ステップS503において、学習データ生成部403は、受け取った困難教師画像からカラーフィルタ配列パターンに従ってサブサンプリングを行い、モザイク画像(生徒画像)を形成する。生徒画像は、困難教師画像をカラーフィルタ配列パターンに従ってサブサンプリングすることによって形成する。具体的には、図2に示すように、困難教師画像のR成分201・G成分202・B成分203から、カラーフィルタ配列205に基づいてサブサンプリングし、生徒画像204を得る。形成された生徒画像と困難教師画像とを画像ペアにし、デモザイク学習部405に出力する。
ステップS504において、ネットワークパラメータ取得部404は、デモザイク学習に用いるCNNのネットワークパラメータを取得する。ネットワークパラメータとは、CNNを構成する各フィルタの係数のことである。ネットワークパラメータは、Heの正規分布に従う乱数として設定する。Heの正規分布とは、平均が0で分散が下記σとなるような正規分布である。
Figure 2022150562000007
ここに、mはCNN中のそのフィルタのニューロン数である。なお、これ以外の方法でネットワークパラメータを決定しても構わない。取得されたネットワークパラメータは、デモザイク学習部405に出力される。
ステップS505において、デモザイク学習部405は、受け取ったネットワークパラメータでCNNの重みを初期化した後、受け取った画像ペアを用いてCNNを学習させる。学習には、非特許文献1に開示されているCNNを用いる。このCNNの構造と学習の流れを、図3に示す。
前記CNNは、式(1)の演算を行う複数のフィルタ302から構成されている。このCNNに対して生徒画像204を入力する際、これを3チャネルの欠損画像301に変換する。欠損画像のRチャネルには、生徒画像のR成分の画素のみが入っており、他の画素の画素値は欠損値(0)に設定されている。Gチャネル、Bチャネルについても同様に、GとBの画素値のみが記録されており、残りの画素値は0である。なお、bilinear補間等の手法により、欠損値を補間しても構わない。次に、この欠損画像に対してフィルタ302を順次適用し、特徴マップを算出する。続いて、連結層303は、算出された特徴マップと欠損画像301とをチャネル方向に連結する。特徴マップと欠損画像のチャネル数がそれぞれnとnであった場合、連結結果のチャネル数は(n+n)となる。続けて、この連結結果に対してフィルタを適用し、最終フィルタでは3チャネルの出力を行うことにより、推論結果304を得る。
得られた推論結果と困難教師画像との残差を計算し、画像全体についてその平均を取ることにより、損失関数値を算出する。算出された損失関数値から、誤差逆伝播法(Back propagation)などによってネットワークパラメータの更新を行う。以上が学習の流れである。
この学習を、全画像ペアに対して行う。画像ペア群が大量である場合、その画像ペア群を一定数ごとのバッチに分割し、バッチ単位で学習を行う。全画像ペアについて学習が一通り終わるまでの期間を1エポックと呼び、1エポックの学習を終えた後は次のエポックの学習(全画像ペアについてもう一度学習)を行う。これを所与のエポック数に到達するまで繰り返してネットワークパラメータを更新し、更新結果を学習結果記憶部406と検査部407に出力する。
ステップS506において、学習結果記憶部406は、受け取ったネットワークパラメータを記憶する。
ステップS507において、検査部407は、学習が完了したか否かの判定を行う。判定を行うために、学習には用いていない、風景写真や人物写真などの画像データ群において、高周波部または飽和部といった画質弊害が発生しやすい領域を含むモザイク画像(テストチャートと呼ぶ)を用意する。このテストチャートを、学習結果のCNNを用いてデモザイクし、次の式に従って誤差εを評価する。
Figure 2022150562000008
ここに、Xはi番目のチャート画像、Yはその正解画像であり、g(・,・)は2枚の画像の誤差を評価する関数である。誤差の指標としては2ノルムを用いるが、ステップS502で用いたHDRVDPやモアレスコアなど他の指標を定量評価値として利用しても構わず、また複数の指標の最小値・平均値などをg()の出力としても構わない。算出した誤差εが所与の閾値未満であった場合には、学習が完了したと判定する。なお、テストチャートを選定する際に、複数の候補画像から式(6)に従って誤差εを算出し、εの大きくなるような候補画像をテストチャートと定めても良い。
なお、学習完了の判定基準はこれだけには限らない。例えば、更新時のネットワークパラメータの変化量が規定値より小さいかという判定基準や、推論結果と教師画像との残差が規定値より小さいかという判定基準を用いても良い。また学習(ネットワークパラメータの更新)の反復回数が規定値に達すれば学習完了としても良い。学習が完了していない場合は、ステップS508に進む。
ステップS508において、第二困難画像抽出部408は、更新されたネットワークパラメータθ´に基づき、第二の困難教師画像を、一般教師画像群から抽出する。この抽出を行うために、前述のi番目の一般教師画像Yとそれをモザイク化した画像Xとに対して評価関数gを適用し、誤差εを以下のように算出する。
ε=g(F(X;θ´),Y (7)
この誤差が所与の閾値以上であるような画像を、第二の困難教師画像と定める。
なお、第二の困難教師画像の抽出方法は、この方法には限定されない。例えば、ステップS502において第一の困難教師画像を抽出した際に算出した誤差値を記憶しておいた上で、ステップS502で用いた閾値tより大きな閾値t´を設定し、誤差値がt´を上回る画像のみを第二の困難教師画像と判定しても良い。この場合、誤差値を新たに計算するコストを節約できる。
抽出された第二の困難教師画像群を用いて、ステップS403~407の学習処理を再度行う(再学習)。ネットワークパラメータ取得部404は式(5)に従ってランダムな初期値を取得し、デモザイク学習部405はランダム初期値から学習を開始する。なお、最初の学習で得たネットワークパラメータθ´を学習結果記憶部406から読み出し、これを初期値として学習を継続しても構わない。
検査部407は、再学習結果のネットワークパラメータを検査し、ステップS507と同様に学習完了判定を行う。学習が完了していない場合は、ステップS508に戻って再学習をやり直す。学習が完了した場合は、学習結果記憶部406に記憶した更新後のネットワークパラメータを、最終的な学習結果とする。
デモザイク学習処理は以上であるが、学習結果を用いてデモザイクの推論を行う場合には、次以降のステップに進む。その場合、学習結果記憶部406は、ネットワークパラメータをデモザイク推論部410に出力する。
ステップS509において、入力画像取得部409は、デモザイクを行う対象のモザイク画像(入力画像)を撮像装置111で撮像する。なお、この入力画像は、事前に撮像して記憶しておいた物を読み出してもよい。取得された入力画像は、デモザイク推論部410に出力される。
ステップS510において、デモザイク推論部410は、デモザイク学習部405での学習で用いたのと同じCNNを構築する。このネットワークパラメータを、学習結果記憶部406から受け取ったネットワークパラメータで初期化する。このCNNに対して、受け取った入力画像を入力し、デモザイク学習部405で行ったのと同じ方法で推論結果を得る。
以上、本実施例によれば、画質弊害を抑制するように、ネットワークパラメータを更新することができる。
[実施例2]
実施例1では、第一の困難教師画像を抽出した際の母集団である第一の一般教師画像から、第二の困難教師画像を抽出する例を述べた。しかし、図9(b)のように、学習が不十分な領域904が、一般教師画像群が被覆している901の領域外に存在する場合もある。このような場合には、901を被覆できるような第二の一般教師画像群を取得する必要がある。実施例2では、第一の一般教師画像とは異なる第二の一般教師画像群を用意し、ここから第二の困難教師画像を抽出する例を述べる。本実施例の学習の流れを、ブロック図6とフローチャート図7を用いて説明する。
ステップS701において、第二一般教師画像取得部601は、ステップS501で生成した第一の一般教師画像に基づいて、RGB形式の第二の一般教師画像を取得する。
第二の一般教師画像群には、第一の一般教師画像とは異なる特性を持った画像が含まれていることが望ましい。そこで、第一の一般教師画像に対して色相変換・輝度変換を行い、第二の一般教師画像とする。この変換を実現するために、第一の一般教師画像に対してホワイトバランス変更を適用し、得られた画像を第二の一般教師画像とする。ホワイトバランス変更は、例えばR(赤)チャネルであれば、画素値Rに対して係数wを乗算することで変更結果R´を得る、というように計算する。緑・青のチャネルに関しても同様である。
R´=wR (8)
ホワイトバランス係数の決定法としては、3色の係数の組(w,w,w)を複数候補用意しておき、その中から適切なものを選択する。選択の際には、そのホワイトバランスを適用したテストチャートまたは教師画像Yと、それをモザイク化した画像Xを用意し、モザイク画像をデモザイクした際の誤差の大きさを式(6)に従って評価する。そして、誤差が最大であった候補を選択し、これを第二の一般教師画像に適用して第二の困難教師画像を得る。得られた第二の困難教師画像群を用いてデモザイクの学習を行うことにより、学習の不十分な色相の画像を集中的に学習でき、画質弊害の発生を抑制できる。
なお、ホワイトバランス係数は、上記で選択したものに対して乱数を重畳して決定したり、候補の中からランダムに選択したり、画像ごとに異なるホワイトバランス係数を適用したりしても良い。こうして得られた変換結果と、第一の困難教師画像のうち1枚以上とを混合し、第二の困難教師画像群としても良い。
また、第一の一般教師画像に適用する変換は、ホワイトバランス変更には限定されない。例えば、画像に対するゲインの適用や、コントラストストレッチを行っても良い。また、HSV色空間上で色相をシフトするなど、一般の画像変換を適用できる。
また、第二の一般教師画像は、第一の一般教師画像からの変換によって得るだけでなく、ステップS501と同様の方法で新規に取得しても構わない。例えば、撮像装置111で新たに撮影を行ったり、web上やデータベースから画像を取得したりしても良い。他に、CGや画像生成によって第二の一般教師画像を作成しても良い。この際、学習の不十分な領域の画像を優先的に作成する。
以上、本実施例によれば、より画質弊害を抑制するように、ネットワークパラメータを更新することができる。
400 学習処理装置
401 一般教師画像取得部
402 第一困難画像抽出部
403 学習データ生成部
404 ネットワークパラメータ取得部
405 デモザイク学習部
406 学習結果記憶部
407 検査部

Claims (12)

  1. 教師画像データを取得する取得手段と、
    前記教師画像データを学習し、該学習の結果から学習が困難であった第一困難画像データを抽出する抽出手段と、
    前記第一困難画像データをモザイク化することによって生徒画像データを生成する生成手段と、
    前記第一困難画像データと前記生徒画像データとのペアを再学習して得られるネットワークパラメータを生成する学習手段と、
    を有し、
    前記学習手段は、前記第一困難画像データとは異なる第二困難画像データを複数回生成して前記再学習を繰り返すことを特徴とする画像処理装置。
  2. 前記ネットワークパラメータを検査し、前記再学習するか最終的な前記ネットワークパラメータとして生成するかを決定する検査手段を更に有し、
    前記検査手段は、前記ネットワークパラメータが更新された回数に基づいて前記決定を行うことを特徴とする請求項1に記載の画像処理装置。
  3. 前記検査手段は、前記教師画像データと、前記教師画像データをモザイク化した画像データを前記ネットワークパラメータによりデモザイク処理した結果との知覚的な差異の大きさを示す定量評価値を算出し、前記定量評価値により知覚的な差異が大きいと判定されるとき、前記再学習を行うことを特徴とする請求項2に記載の画像処理装置。
  4. 前記抽出手段は、前記教師画像データと、前記教師画像データをモザイク化した画像データをデモザイク処理ネットワークによりデモザイク処理した結果との知覚的な差異が大きいデータを抽出することを特徴とする請求項1乃至請求項3の何れか一項に記載の画像処理装置。
  5. 前記学習手段は、前記教師画像データを更新した第二の教師データを取得し、前記第二の教師データから前記第二困難画像データを生成することを特徴とする請求項1乃至4の何れか一項に記載の画像処理装置。
  6. 前記第二の教師データは、少なくとも前記教師画像データを含むことを特徴とする請求項5に記載の画像処理装置。
  7. 前記学習手段は、前記教師画像データの輝度、色相、彩度のうち少なくとも1つ以上を変更したデータを前記第二の教師データとして生成することを特徴とする請求項5に記載の画像処理装置。
  8. 前記学習手段は、前記教師画像データのホワイトバランスを変更したデータを前記第二の教師データとして生成することを特徴とする請求項5または請求項6に記載の画像処理装置。
  9. 前記学習手段は、前記定量評価値に基づいて、前記教師画像データのホワイトバランスを変更したデータを前記第二の教師データとして生成する際に適用するホワイトバランス係数を決定することを特徴とする請求項3に記載の画像処理装置。
  10. 前記学習手段は、前記再学習時に、前記ネットワークパラメータの重みを初期値として再学習することを特徴とする請求項1乃至9の何れか一項に記載の画像処理装置。
  11. 教師画像データを取得する取得工程と、
    前記教師画像データを学習し、該学習の結果から学習が困難であった第一困難画像データを抽出する抽出工程と、
    前記第一困難画像データをモザイク化することによって生徒画像データを生成する生成工程と、
    前記第一困難画像データと前記生徒画像データとのペアを再学習して得られるネットワークパラメータを生成する学習工程と、
    を有し、
    前記学習工程は、前記第一困難画像データとは異なる第二困難画像データを複数回生成して前記再学習を繰り返すことを特徴とする画像処理装置。
  12. コンピュータを、請求項1乃至10の何れか一項に記載の画像処理装置として機能させるためのプログラム。
JP2021053212A 2021-03-26 2021-03-26 画像処理装置、画像処理方法およびプログラム Withdrawn JP2022150562A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021053212A JP2022150562A (ja) 2021-03-26 2021-03-26 画像処理装置、画像処理方法およびプログラム
US17/694,483 US20220309612A1 (en) 2021-03-26 2022-03-14 Image processing apparatus, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021053212A JP2022150562A (ja) 2021-03-26 2021-03-26 画像処理装置、画像処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2022150562A true JP2022150562A (ja) 2022-10-07

Family

ID=83364768

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021053212A Withdrawn JP2022150562A (ja) 2021-03-26 2021-03-26 画像処理装置、画像処理方法およびプログラム

Country Status (2)

Country Link
US (1) US20220309612A1 (ja)
JP (1) JP2022150562A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11967040B2 (en) * 2020-05-14 2024-04-23 Canon Kabushiki Kaisha Information processing apparatus, control method thereof, imaging device, and storage medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11024009B2 (en) * 2016-09-15 2021-06-01 Twitter, Inc. Super resolution using a generative adversarial network
JP7486079B2 (ja) * 2019-06-25 2024-05-17 パナソニックIpマネジメント株式会社 情報処理方法、及び、情報処理システム
RU2764395C1 (ru) * 2020-11-23 2022-01-17 Самсунг Электроникс Ко., Лтд. Способ и устройство для совместного выполнения дебайеризации и устранения шумов изображения с помощью нейронной сети

Also Published As

Publication number Publication date
US20220309612A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
CN106920224B (zh) 一种评估拼接图像清晰度的方法
US9344690B2 (en) Image demosaicing
US20170132785A1 (en) Method and system for evaluating the quality of a surgical procedure from in-vivo video
US11967040B2 (en) Information processing apparatus, control method thereof, imaging device, and storage medium
JP7297470B2 (ja) 画像処理方法、画像処理装置、プログラム、画像処理システム、および、学習済みモデルの製造方法
CN111402146A (zh) 图像处理方法以及图像处理装置
JP7463186B2 (ja) 情報処理装置、情報処理方法及びプログラム
US11488279B2 (en) Image processing apparatus, image processing system, imaging apparatus, image processing method, and storage medium
CN112991371B (zh) 一种基于着色溢出约束的图像自动着色方法及系统
AU2020103251A4 (en) Method and system for identifying metallic minerals under microscope based on bp nueral network
WO2021106853A1 (ja) 画像処理装置、画像処理方法、学習装置、学習方法、撮像装置、及びプログラム
JP2019139713A (ja) 画像処理装置、撮像装置、画像処理方法、プログラムおよび記憶媒体
JP2019074777A (ja) 画像処理方法、画像処理装置、および撮像装置
CN110246080A (zh) 去马赛克方法及其系统
JP2022150562A (ja) 画像処理装置、画像処理方法およびプログラム
CN117576461A (zh) 一种用于变电站场景的语义理解方法、介质及系统
US20220414827A1 (en) Training apparatus, training method, and medium
JP7508265B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20220277417A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP7512150B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2022143211A (ja) 画像処理装置および学習方法
JP2004171518A (ja) 画像境界のジッパー状曖昧現象除去の方法と装置
US20220292640A1 (en) Image processing apparatus, image forming system, image processing method, and non-transitory computer-readable storage medium
US11995153B2 (en) Information processing apparatus, information processing method, and storage medium
WO2011076975A1 (en) Filter setup learning for binary sensor

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20231213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240315

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20240415