JP2022150562A

JP2022150562A - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP2022150562A
Application number: JP2021053212A
Authority: JP
Inventors: 敦 ▲高▼濱; Atsushi Takahama; 暢小倉; Toru Kokura
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-10-07
Also published as: US20220309612A1

Abstract

【課題】より好適なデモザイク画像を出力可能とする技術を提供する。
【解決手段】本発明に係る画像処理装置は、教師画像データを取得する取得手段と、前記教師画像データを学習し、該学習の結果から学習が困難であった第一困難画像データを抽出する抽出手段と、前記第一困難画像データをモザイク化することによって生徒画像データを生成する生成手段と、前記第一困難画像データと前記生徒画像データとのペアを再学習して得られるネットワークパラメータを生成する学習手段と、を有し、前記学習手段は、前記第一困難画像データとは異なる第二困難画像データを複数回生成して前記再学習を繰り返すことを特徴とする。
【選択図】図４

Description

本発明は、機械学習による画像処理技術に関する。

ベイヤ（Ｂａｙｅｒ）配列の撮像画像は、撮像素子の各画素にＲＧＢいずれかの色に対応する画素値のみが設定されたいわゆるモザイク画像となる。カメラの現像処理部は、このモザイク画像に対して残り二色の画素値を補間するデモザイク処理などの様々な信号処理を施して、カラー画像を生成して出力する。

非特許文献１は、ＣＮＮベースのデモザイクネットワークを学習させる手法を開示している。学習に必要な画像として、まず大量のＲＧＢ画像群（一般教師画像）を取得する。次に、一般教師画像の中から、デモザイクの困難な画像（困難教師画像）を抽出し、これを用いてＣＮＮを学習させる。学習が完了すると、学習済みモデルを用いて、モザイク画像をＣＮＮに入力しＲＧＢ画像に変換する推論（入力データに対する回帰のタスク）を行う。

ＭＧｈａｒｂｉ，ＧＣｈａｕｒａｓｉａ，ＳＰａｒｉｓ，ＦＤｕｒａｎｄ，"ＤｅｅｐＪｏｉｎｔＤｅｍｏｓａｉｃｋｉｎｇａｎｄＤｅｎｏｉｓｉｎｇ"，ＳｉｇｇｒａｐｈＡｓｉａ２０１６，ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ（ＴＯＧ），２０１６年１１月

上記手法では、困難教師画像の抽出方法に起因して、学習が不十分な領域で、デモザイク結果画像にモアレや偽色といった画質弊害が発生するという課題があった。

本発明に係る画像処理装置は、教師画像データを取得する取得手段と、前記教師画像データを学習し、該学習の結果から学習が困難であった第一困難画像データを抽出する抽出手段と、前記第一困難画像データをモザイク化することによって生徒画像データを生成する生成手段と、前記第一困難画像データと前記生徒画像データとのペアを再学習して得られるネットワークパラメータを生成する学習手段と、を有し、前記学習手段は、前記第一困難画像データとは異なる第二困難画像データを複数回生成して前記再学習を繰り返すことを特徴とする。

本発明は、このような問題に鑑みてなされたものであり、より好適なデモザイク画像を出力可能とする技術を提供することができる。

画像処理装置のハードウェア構成を示すブロック図。センサのカラーフィルタ配列に基づいて、モザイク画像を生成する流れを表す図。非特許文献１におけるデモザイク（処理）ネットワークの処理フローを説明する図。実施例１における画像処理装置の構成を示すブロック図。実施例１における画像変換処理のフローチャート。実施例２における画像処理装置の構成を示すブロック図。実施例２における画像変換処理のフローチャート。実施例１における教師画像生成部の処理フローを説明する図。画質弊害について説明するための図。

以下、実施形態について、図面を参照して説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明し、重複した説明は省略する。以降では、画像を表す画像データについて単に画像と呼ぶ場合もある。

［実施例１］
第１の実施例では、まず、第一の困難教師画像群で学習を行い、その後で第二の困難教師画像群を抽出して再学習を行う例を述べる。第一の困難教師画像群での学習後に、どの領域で学習が不十分であるかを判定し、その領域の画像からなる第二の教師画像群を生成する。

以下では、最初に、従来技術において画質弊害が発生する原因を説明し、それへの対策方針について述べる。その後、本実施例の画像処理装置の構成とＣＮＮに関する説明を述べ、画像処理装置の構成例を詳述する。

（画質弊害の発生原因と対策方針）
画質弊害の発生する要因を、図９（ａ）を用いて説明する。画像特徴空間内において、一般教師画像が９０１であり、その中で画質弊害が発生しやすい画像が９０２であるとする。デモザイクにおいて画質弊害が発生しやすい画像とは、例えば高周波成分の多い画像、飽和画素を多く含む画像、補色同士が隣接する画像などである。このような画像はカラーフィルタ配列の特性に起因するデモザイクの困難性があり、推論を行うとモアレや偽色などの画質弊害が発生しやすい。

デモザイクの困難な画像は存在数が少なく、学習が不十分となる場合が多い。そこで、一般教師画像群の中から、デモザイクの困難な困難教師画像だけを抽出し、このデータセットで学習を行うことにより、学習効率の高い画像を集中的に学習できる。

しかし、作成した上記の困難教師画像データセット（以降、困難画像データと呼ぶ場合もある）が、デモザイクの困難なあらゆる画像を含んでいるとは限らない。例えば、補色の隣接する画像が、抽出の母集団である一般教師画像群の中にごく少数しか含まれていなかった場合は、困難教師画像群の中にも少数しか含まれないことになり、その領域の学習が不十分となる。結果として、推論時に補色の隣接する画像を入力した際、画質弊害が発生しうる。

加えて、困難教師画像の抽出を行うための最適な指標を用意することも難しく、抽出の誤検出や見逃しが発生しうる。その結果、抽出される困難教師画像群は９０３のようになる（９０３以外の困難教師画像も存在するが、大多数は９０３の領域内に含まれている、ということを意味する）。これにより、学習が不十分な領域９０４が発生し、画質弊害が増強される。

これに対し、本実施例では、学習後にテスト画像を用いて検査を行い、学習の不十分な領域が存在しているかを確認する。存在した場合には、不十分な領域ほど困難画像と判定されやすくなるように抽出の指標を更新し、第二の困難教師画像群を抽出する。これを用いて再学習を行うことにより、学習の不十分な領域を集中的に学習でき、推論時の画質弊害を低減できる。この抽出と再学習の処理を、所与の学習終了条件に到達するまで繰り返す。繰り返しのたびに、一般教師画像群に対して新たなデータを追加して拡充することにより、抽出される困難教師画像のバリエーションを向上させる。

（画像処理装置の構成）
ここで、第１の実施例の画像処理装置の構成を説明する。図１は、第１の実施例の画像処理装置の構成の一例を示す図である。画像処理装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、二次記憶装置１０４、入力インターフェース１０５、出力インターフェース１０６、撮像装置１１１、ＧＰＵ１１２を含む。画像処理装置１００の各構成要素はシステムバス１０７によって相互に接続されている。また、画像処理装置１００は、入力インターフェース１０５を介して外部記憶装置１０８および操作部１１０に接続されている。また、画像処理装置１００は、出力インターフェース１０６を介して外部記憶装置１０８および表示装置１０９に接続されている。

ＣＰＵ１０１は、ＲＡＭ１０２をワークメモリとして、ＲＯＭ１０３に格納されたプログラムを実行し、システムバス１０７を介して画像処理装置１００の各構成要素を統括的に制御する。これにより、後述する様々な処理が実行される。ＧＰＵ１１２は、ＣＰＵ１０１から受け取ったデータに対して演算を行い、その結果をＣＰＵ１０１に出力する。また、二次記憶装置１０４は、画像処理装置１００で取り扱われる種々のデータを記憶する記憶装置であり、本実施例ではＨＤＤが用いられる。ＣＰＵ１０１は、システムバス１０７を介して二次記憶装置１０４へのデータの書き込みおよび二次記憶装置１０４に記憶されたデータの読出しを行う。なお、二次記憶装置１０４にはＨＤＤの他に、光ディスクドライブやフラッシュメモリなど、様々な記憶デバイスを用いることが可能である。

入力インターフェース１０５は、例えばＵＳＢやＩＥＥＥ１３９４等のシリアルバスインターフェースである。画像処理装置１００は、入力インターフェース１０５を介して、外部装置からデータや命令等を入力する。本実施例では、画像処理装置１００は、入力インターフェース１０５を介して、外部記憶装置１０８（例えば、ハードディスク、メモリカード、ＣＦカード、ＳＤカード、ＵＳＢメモリなどの記憶媒体）からデータを取得する。また本実施例では、画像処理装置１００は、操作部１１０に入力されたユーザの指示を、入力インターフェース１０５を介して取得する。操作部１１０は、マウスやキーボードなどの入力装置であり、ユーザの指示を入力する。

出力インターフェース１０６は、入力インターフェース１０５と同様にＵＳＢやＩＥＥＥ１３９４等のシリアルバスインターフェースである。なお、出力インターフェース１０６は、例えばＤＶＩやＨＤＭＩ（登録商標）等の映像出力端子であってもよい。画像処理装置１００は、出力インターフェース１０６を介して、外部装置にデータ等を出力する。本実施例では、画像処理装置１００は、出力インターフェース１０６を介して表示装置１０９（液晶ディスプレイなどの各種画像表示デバイス）に、ＣＰＵ１０１によって処理されたデータ（例えば、画像データ）を出力する。なお、画像処理装置１００の構成要素は上記以外にも存在するが、本発明の主眼ではないため、説明を省略する。

撮像装置１１１は、画像処理装置１００で処理を行う入力画像を撮像する。

本実施例では、上記のような構成を備える画像処理装置１００に於いて、ＣＰＵ１０１からの指令に基づき、画像処理アプリケーションにベイヤデータを入力してデモザイクした画像データを出力する態様について説明するものとする。

（ＣＮＮについて）
まず、非特許文献１をはじめ、深層学習技術を応用した画像処理技術全般で用いられている畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）について説明する。ＣＮＮとは、学習（ｔｒａｉｎｉｎｇまたはｌｅａｒｎｉｎｇ）により生成したフィルタを画像に対して畳み込んだ（ｃｏｎｖｏｌｕｔｉｏｎ）後、非線形演算することを繰り返す、学習型の画像処理技術である。フィルタは、局所受容野（ＬｏｃａｌＲｅｃｅｐｔｉｖｅＦｉｅｌｄ：ＬＲＦ）とも呼ばれる。画像に対してフィルタを畳み込んだ後、非線形演算して得られる画像は、特徴マップ（ｆｅａｔｕｒｅｍａｐ）と呼ばれる。また、学習は入力画像と出力画像のペアからなる学習データ（ｔｒａｉｎｉｎｇｉｍａｇｅｓまたはｄａｔａｓｅｔｓ）を用いて行われる。簡単には、入力画像から対応する出力画像へ高精度に変換可能なフィルタの値を、学習データから生成することが学習である。この詳細については後述する。

画像がＲＧＢカラーチャネルを有する場合や、特徴マップが複数枚の画像から構成されている場合、畳み込みに用いるフィルタも、それに応じて複数のチャネルを有する。すなわち、畳み込みフィルタは、縦横サイズと枚数の他に、チャネル数を加えた、４次元配列で表現される。画像（または特徴マップ）にフィルタを畳み込んだ後、非線形演算する処理は、層（ｌａｙｅｒ）という単位で表現される。例えば、ｎ層目の特徴マップやｎ層目のフィルタなどと呼ばれる。また、例えばフィルタの畳み込みと非線形演算を３回繰り返すようなＣＮＮは、３層のネットワーク構造を有するという。この処理は、以下の式（１）のように定式化することができる。

式（１）において、Ｗｎはｎ層目のフィルタ、ｂ_ｎはｎ層目のバイアス、Ｇは非線形演算子、Ｘ_ｎはｎ層目の特徴マップ、＊は畳み込み演算子である。なお、右肩の（ｌ）はｌ番目のフィルタまたは特徴マップであることを表している。フィルタおよびバイアスは、後述する学習により生成され、まとめてネットワークパラメータとも呼ばれる。非線形演算としては、例えばシグモイド関数（ｓｉｇｍｏｉｄｆｕｎｃｔｉｏｎ）やＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）が用いられる。ＲｅＬＵは、以下の式（２）で与えられる。

すなわち、入力したベクトルＸの要素のうち負のものはゼロ、正のものはそのままとする非線形な処理である。

次に、ＣＮＮの学習について説明する。ＣＮＮの学習は、入力学習画像（生徒画像）と対応する出力学習画像（教師画像）の組からなる学習データに対して、一般に以下の式（３）で表される目的関数を最小化することで行われる。

ここで、Ｌは正解とその推定との誤差を測る損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）である。また、Ｙ_ｉはｉ番目の出力学習画像、Ｘ_ｉはｉ番目の入力学習画像である。また、ＦはＣＮＮの各層で行う演算（式１）を、まとめて表した関数である。また、θはネットワークパラメータ（フィルタおよびバイアス）である。また、

はＬ２ノルムであり、簡単にはベクトルＺの要素の２乗和の平方根である。

また、ｎは学習に用いる学習データの全枚数であるが、一般に学習データの全枚数は多いため、確率的勾配降下法（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ：ＳＧＤ）では、学習画像の一部をランダムに選び学習に用いている。これにより、多くの学習データを用いた学習における、計算負荷が低減できる。また、目的関数の最小化（＝最適化）法として、モーメンタム（ｍｏｍｅｎｔｕｍ）法やＡｄａＧｒａｄ法、ＡｄａＤｅｌｔａ法、Ａｄａｍ法など、様々な方法が知られている。Ａｄａｍ法は、以下の式（４）で与えられる。

式（４）において、θ_ｉ ^ｔは反復ｔ回目におけるｉ番目のネットワークパラメータ、ｇはθ_ｉ ^ｔに関する損失関数Ｌの勾配である。また、ｍ、ｖはモーメントベクトル、αは基本学習率（ｂａｓｅｌｅａｒｎｉｎｇｒａｔｅ）、β１、β２はハイパーパラメータ、εは小さい定数である。なお、学習における最適化法の選択指針は存在しないため、基本的に何を用いても良いが、方法ごとの収束性には違いがあるため、学習時間の違いが生じることが知られている。

ＣＮＮを用いたネットワークとしては、画像認識分野のＲｅｓＮｅｔや超解像分野におけるその応用ＲＥＤ－Ｎｅｔが有名である。いずれもＣＮＮを多層にして、フィルタの畳み込みを何度も行うことで、処理の高精度化を図っている。例えば、ＲｅｓＮｅｔは畳み込み層をショートカットする経路を設けたネットワーク構造を特徴とし、これにより１５２層もの多層ネットワークを実現し、人間の認識率に迫る高精度な認識を実現している。なお、多層ＣＮＮにより処理が高精度化する理由は、簡単には非線形演算を何度も繰り返すことで、入出力間の非線形な関係を表現できるためである。

（画像処理装置の機能構成例）
本実施形態に係る画像処理装置１００の機能構成例について、図４のブロック図と図５のフローチャートを用いて説明する。なお、図４に示した構成は適宜変形／変更が可能である。例えば、１つの機能部を機能別に複数の機能部に分割しても良いし、２つ以上の機能部を１つの機能部に統合しても良い。また、図４の構成は、２以上の装置によって構成しても良い。その場合、各装置は回路や有線若しくは無線のネットワークを介して接続され、互いにデータ通信を行って協調動作を行うことで、以下に画像処理装置が行うものとして後述する各処理を実現する。

以下では、図４に示す機能部を処理の主体として説明する場合があるが、実際には、該機能部に対応するコンピュータプログラムをＣＰＵ１０１が実行することで、該機能部の機能が実現される。なお、図２、３に示す機能部はハードウェアで実装しても良い。

ステップＳ５０１において、教師画像取得部４０１は、ＲＧＢ形式の教師画像を取得する。この教師画像は、非特許文献１に記載の方法に従って生成する。具体的には、図８に示すように、撮像装置１１１でモザイク画像８０１を取得し、これに対して簡易デモザイクを適用してＲＧＢ画像８０２を生成し、最後に画像縮小を適用して教師画像８０３を生成する。簡易デモザイクにはｂｉｌｉｎｅａｒ補間を用いるが、他のデモザイク手法を用いても構わない。また、ここではカラーフィルタ配列としてベイヤ配列を示しているが、Ｘ－Ｔｒａｎｓなどの他のカラーフィルタ配列を用いても構わない。

この教師画像は、サイズ一定の小画像（パッチ）の形式になっている。教師画像のサイズが一定でない場合や、ＣＮＮに入力できるより大きいサイズである場合には、パッチ単位に画像分割を行う。

また、非特許文献１以外の方法でＲＧＢ形式の教師画像を取得しても構わない。例えば、事前に撮像して記憶しておいた物を読み出してもよく、また撮像素子の位置をずらしながら撮像することでＲＧＢ形式の教師画像を得ても構わない。

取得された教師画像は、第一困難画像抽出部４０２に出力される。

ステップＳ５０２において、第一困難画像抽出部４０２は、受け取った教師画像群から第一の困難教師画像を抽出する。

この抽出処理には、非特許文献１に記載されている手法を用いる。具体的には、一般教師画像をモザイク化した後、そのモザイク画像に対して簡易的なデモザイク手法を適用し、デモザイク結果と元の一般教師画像との誤差を評価する。誤差の評価値が閾値ｔ以上であった場合、その画像を困難教師画像であると判定する。上記の簡易的なデモザイクとしては、ｂｉｌｉｎｅａｒ補間や、一般教師画像を用いて非特許文献１のＣＮＮを少数エポック訓練した結果を用いる。なお、閾値をｔ＝－∞と設定しても良く、この場合は一般教師画像群と困難教師画像群が一致する。

誤差の評価値としては、非特許文献１に基づき、人間の視覚特性に基づく知覚的差異評価値であるＨＤＲＶＤＰと、誤差の空間的周期性を評価するモアレスコアを採用する。いずれかの評価値が閾値ｔを越えている場合、その画像を困難教師画像と判定する。得られた困難教師画像群は、学習データ生成部４０３に出力される。

ステップＳ５０３において、学習データ生成部４０３は、受け取った困難教師画像からカラーフィルタ配列パターンに従ってサブサンプリングを行い、モザイク画像（生徒画像）を形成する。生徒画像は、困難教師画像をカラーフィルタ配列パターンに従ってサブサンプリングすることによって形成する。具体的には、図２に示すように、困難教師画像のＲ成分２０１・Ｇ成分２０２・Ｂ成分２０３から、カラーフィルタ配列２０５に基づいてサブサンプリングし、生徒画像２０４を得る。形成された生徒画像と困難教師画像とを画像ペアにし、デモザイク学習部４０５に出力する。

ステップＳ５０４において、ネットワークパラメータ取得部４０４は、デモザイク学習に用いるＣＮＮのネットワークパラメータを取得する。ネットワークパラメータとは、ＣＮＮを構成する各フィルタの係数のことである。ネットワークパラメータは、Ｈｅの正規分布に従う乱数として設定する。Ｈｅの正規分布とは、平均が０で分散が下記σ_ｈとなるような正規分布である。

ここに、ｍ_ＮはＣＮＮ中のそのフィルタのニューロン数である。なお、これ以外の方法でネットワークパラメータを決定しても構わない。取得されたネットワークパラメータは、デモザイク学習部４０５に出力される。

ステップＳ５０５において、デモザイク学習部４０５は、受け取ったネットワークパラメータでＣＮＮの重みを初期化した後、受け取った画像ペアを用いてＣＮＮを学習させる。学習には、非特許文献１に開示されているＣＮＮを用いる。このＣＮＮの構造と学習の流れを、図３に示す。

前記ＣＮＮは、式（１）の演算を行う複数のフィルタ３０２から構成されている。このＣＮＮに対して生徒画像２０４を入力する際、これを３チャネルの欠損画像３０１に変換する。欠損画像のＲチャネルには、生徒画像のＲ成分の画素のみが入っており、他の画素の画素値は欠損値（０）に設定されている。Ｇチャネル、Ｂチャネルについても同様に、ＧとＢの画素値のみが記録されており、残りの画素値は０である。なお、ｂｉｌｉｎｅａｒ補間等の手法により、欠損値を補間しても構わない。次に、この欠損画像に対してフィルタ３０２を順次適用し、特徴マップを算出する。続いて、連結層３０３は、算出された特徴マップと欠損画像３０１とをチャネル方向に連結する。特徴マップと欠損画像のチャネル数がそれぞれｎ_１とｎ_２であった場合、連結結果のチャネル数は（ｎ_１＋ｎ_２）となる。続けて、この連結結果に対してフィルタを適用し、最終フィルタでは３チャネルの出力を行うことにより、推論結果３０４を得る。

得られた推論結果と困難教師画像との残差を計算し、画像全体についてその平均を取ることにより、損失関数値を算出する。算出された損失関数値から、誤差逆伝播法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）などによってネットワークパラメータの更新を行う。以上が学習の流れである。

この学習を、全画像ペアに対して行う。画像ペア群が大量である場合、その画像ペア群を一定数ごとのバッチに分割し、バッチ単位で学習を行う。全画像ペアについて学習が一通り終わるまでの期間を１エポックと呼び、１エポックの学習を終えた後は次のエポックの学習（全画像ペアについてもう一度学習）を行う。これを所与のエポック数に到達するまで繰り返してネットワークパラメータを更新し、更新結果を学習結果記憶部４０６と検査部４０７に出力する。

ステップＳ５０６において、学習結果記憶部４０６は、受け取ったネットワークパラメータを記憶する。

ステップＳ５０７において、検査部４０７は、学習が完了したか否かの判定を行う。判定を行うために、学習には用いていない、風景写真や人物写真などの画像データ群において、高周波部または飽和部といった画質弊害が発生しやすい領域を含むモザイク画像（テストチャートと呼ぶ）を用意する。このテストチャートを、学習結果のＣＮＮを用いてデモザイクし、次の式に従って誤差εを評価する。

ここに、Ｘ_ｉはｉ番目のチャート画像、Ｙ_ｉはその正解画像であり、ｇ（・，・）は２枚の画像の誤差を評価する関数である。誤差の指標としては２ノルムを用いるが、ステップＳ５０２で用いたＨＤＲＶＤＰやモアレスコアなど他の指標を定量評価値として利用しても構わず、また複数の指標の最小値・平均値などをｇ（）の出力としても構わない。算出した誤差εが所与の閾値未満であった場合には、学習が完了したと判定する。なお、テストチャートを選定する際に、複数の候補画像から式（６）に従って誤差εを算出し、εの大きくなるような候補画像をテストチャートと定めても良い。

なお、学習完了の判定基準はこれだけには限らない。例えば、更新時のネットワークパラメータの変化量が規定値より小さいかという判定基準や、推論結果と教師画像との残差が規定値より小さいかという判定基準を用いても良い。また学習（ネットワークパラメータの更新）の反復回数が規定値に達すれば学習完了としても良い。学習が完了していない場合は、ステップＳ５０８に進む。

ステップＳ５０８において、第二困難画像抽出部４０８は、更新されたネットワークパラメータθ´に基づき、第二の困難教師画像を、一般教師画像群から抽出する。この抽出を行うために、前述のｉ番目の一般教師画像Ｙ_ｉとそれをモザイク化した画像Ｘ_ｉとに対して評価関数ｇを適用し、誤差ε_ｉを以下のように算出する。
ε_ｉ＝ｇ（Ｆ（Ｘ_ｉ；θ´），Ｙ_ｉ（７）
この誤差が所与の閾値以上であるような画像を、第二の困難教師画像と定める。

なお、第二の困難教師画像の抽出方法は、この方法には限定されない。例えば、ステップＳ５０２において第一の困難教師画像を抽出した際に算出した誤差値を記憶しておいた上で、ステップＳ５０２で用いた閾値ｔより大きな閾値ｔ´を設定し、誤差値がｔ´を上回る画像のみを第二の困難教師画像と判定しても良い。この場合、誤差値を新たに計算するコストを節約できる。

抽出された第二の困難教師画像群を用いて、ステップＳ４０３～４０７の学習処理を再度行う（再学習）。ネットワークパラメータ取得部４０４は式（５）に従ってランダムな初期値を取得し、デモザイク学習部４０５はランダム初期値から学習を開始する。なお、最初の学習で得たネットワークパラメータθ´を学習結果記憶部４０６から読み出し、これを初期値として学習を継続しても構わない。

検査部４０７は、再学習結果のネットワークパラメータを検査し、ステップＳ５０７と同様に学習完了判定を行う。学習が完了していない場合は、ステップＳ５０８に戻って再学習をやり直す。学習が完了した場合は、学習結果記憶部４０６に記憶した更新後のネットワークパラメータを、最終的な学習結果とする。

デモザイク学習処理は以上であるが、学習結果を用いてデモザイクの推論を行う場合には、次以降のステップに進む。その場合、学習結果記憶部４０６は、ネットワークパラメータをデモザイク推論部４１０に出力する。

ステップＳ５０９において、入力画像取得部４０９は、デモザイクを行う対象のモザイク画像（入力画像）を撮像装置１１１で撮像する。なお、この入力画像は、事前に撮像して記憶しておいた物を読み出してもよい。取得された入力画像は、デモザイク推論部４１０に出力される。

ステップＳ５１０において、デモザイク推論部４１０は、デモザイク学習部４０５での学習で用いたのと同じＣＮＮを構築する。このネットワークパラメータを、学習結果記憶部４０６から受け取ったネットワークパラメータで初期化する。このＣＮＮに対して、受け取った入力画像を入力し、デモザイク学習部４０５で行ったのと同じ方法で推論結果を得る。

以上、本実施例によれば、画質弊害を抑制するように、ネットワークパラメータを更新することができる。

［実施例２］
実施例１では、第一の困難教師画像を抽出した際の母集団である第一の一般教師画像から、第二の困難教師画像を抽出する例を述べた。しかし、図９（ｂ）のように、学習が不十分な領域９０４が、一般教師画像群が被覆している９０１の領域外に存在する場合もある。このような場合には、９０１を被覆できるような第二の一般教師画像群を取得する必要がある。実施例２では、第一の一般教師画像とは異なる第二の一般教師画像群を用意し、ここから第二の困難教師画像を抽出する例を述べる。本実施例の学習の流れを、ブロック図６とフローチャート図７を用いて説明する。

ステップＳ７０１において、第二一般教師画像取得部６０１は、ステップＳ５０１で生成した第一の一般教師画像に基づいて、ＲＧＢ形式の第二の一般教師画像を取得する。

第二の一般教師画像群には、第一の一般教師画像とは異なる特性を持った画像が含まれていることが望ましい。そこで、第一の一般教師画像に対して色相変換・輝度変換を行い、第二の一般教師画像とする。この変換を実現するために、第一の一般教師画像に対してホワイトバランス変更を適用し、得られた画像を第二の一般教師画像とする。ホワイトバランス変更は、例えばＲ（赤）チャネルであれば、画素値Ｒに対して係数ｗ_Ｒを乗算することで変更結果Ｒ´を得る、というように計算する。緑・青のチャネルに関しても同様である。
Ｒ´＝ｗ_ＲＲ（８）

ホワイトバランス係数の決定法としては、３色の係数の組（ｗ_Ｒ，ｗ_Ｇ，ｗ_Ｂ）を複数候補用意しておき、その中から適切なものを選択する。選択の際には、そのホワイトバランスを適用したテストチャートまたは教師画像Ｙ_ｉと、それをモザイク化した画像Ｘ_ｉを用意し、モザイク画像をデモザイクした際の誤差の大きさを式（６）に従って評価する。そして、誤差が最大であった候補を選択し、これを第二の一般教師画像に適用して第二の困難教師画像を得る。得られた第二の困難教師画像群を用いてデモザイクの学習を行うことにより、学習の不十分な色相の画像を集中的に学習でき、画質弊害の発生を抑制できる。

なお、ホワイトバランス係数は、上記で選択したものに対して乱数を重畳して決定したり、候補の中からランダムに選択したり、画像ごとに異なるホワイトバランス係数を適用したりしても良い。こうして得られた変換結果と、第一の困難教師画像のうち１枚以上とを混合し、第二の困難教師画像群としても良い。

また、第一の一般教師画像に適用する変換は、ホワイトバランス変更には限定されない。例えば、画像に対するゲインの適用や、コントラストストレッチを行っても良い。また、ＨＳＶ色空間上で色相をシフトするなど、一般の画像変換を適用できる。

また、第二の一般教師画像は、第一の一般教師画像からの変換によって得るだけでなく、ステップＳ５０１と同様の方法で新規に取得しても構わない。例えば、撮像装置１１１で新たに撮影を行ったり、ｗｅｂ上やデータベースから画像を取得したりしても良い。他に、ＣＧや画像生成によって第二の一般教師画像を作成しても良い。この際、学習の不十分な領域の画像を優先的に作成する。

以上、本実施例によれば、より画質弊害を抑制するように、ネットワークパラメータを更新することができる。

４００学習処理装置
４０１一般教師画像取得部
４０２第一困難画像抽出部
４０３学習データ生成部
４０４ネットワークパラメータ取得部
４０５デモザイク学習部
４０６学習結果記憶部
４０７検査部

Claims

教師画像データを取得する取得手段と、
前記教師画像データを学習し、該学習の結果から学習が困難であった第一困難画像データを抽出する抽出手段と、
前記第一困難画像データをモザイク化することによって生徒画像データを生成する生成手段と、
前記第一困難画像データと前記生徒画像データとのペアを再学習して得られるネットワークパラメータを生成する学習手段と、
を有し、
前記学習手段は、前記第一困難画像データとは異なる第二困難画像データを複数回生成して前記再学習を繰り返すことを特徴とする画像処理装置。
前記ネットワークパラメータを検査し、前記再学習するか最終的な前記ネットワークパラメータとして生成するかを決定する検査手段を更に有し、
前記検査手段は、前記ネットワークパラメータが更新された回数に基づいて前記決定を行うことを特徴とする請求項１に記載の画像処理装置。
前記検査手段は、前記教師画像データと、前記教師画像データをモザイク化した画像データを前記ネットワークパラメータによりデモザイク処理した結果との知覚的な差異の大きさを示す定量評価値を算出し、前記定量評価値により知覚的な差異が大きいと判定されるとき、前記再学習を行うことを特徴とする請求項２に記載の画像処理装置。
前記抽出手段は、前記教師画像データと、前記教師画像データをモザイク化した画像データをデモザイク処理ネットワークによりデモザイク処理した結果との知覚的な差異が大きいデータを抽出することを特徴とする請求項１乃至請求項３の何れか一項に記載の画像処理装置。
前記学習手段は、前記教師画像データを更新した第二の教師データを取得し、前記第二の教師データから前記第二困難画像データを生成することを特徴とする請求項１乃至４の何れか一項に記載の画像処理装置。
前記第二の教師データは、少なくとも前記教師画像データを含むことを特徴とする請求項５に記載の画像処理装置。
前記学習手段は、前記教師画像データの輝度、色相、彩度のうち少なくとも１つ以上を変更したデータを前記第二の教師データとして生成することを特徴とする請求項５に記載の画像処理装置。
前記学習手段は、前記教師画像データのホワイトバランスを変更したデータを前記第二の教師データとして生成することを特徴とする請求項５または請求項６に記載の画像処理装置。
前記学習手段は、前記定量評価値に基づいて、前記教師画像データのホワイトバランスを変更したデータを前記第二の教師データとして生成する際に適用するホワイトバランス係数を決定することを特徴とする請求項３に記載の画像処理装置。
前記学習手段は、前記再学習時に、前記ネットワークパラメータの重みを初期値として再学習することを特徴とする請求項１乃至９の何れか一項に記載の画像処理装置。
教師画像データを取得する取得工程と、
前記教師画像データを学習し、該学習の結果から学習が困難であった第一困難画像データを抽出する抽出工程と、
前記第一困難画像データをモザイク化することによって生徒画像データを生成する生成工程と、
前記第一困難画像データと前記生徒画像データとのペアを再学習して得られるネットワークパラメータを生成する学習工程と、
を有し、
前記学習工程は、前記第一困難画像データとは異なる第二困難画像データを複数回生成して前記再学習を繰り返すことを特徴とする画像処理装置。
コンピュータを、請求項１乃至１０の何れか一項に記載の画像処理装置として機能させるためのプログラム。