JP2021189527A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2021189527A
JP2021189527A JP2020091353A JP2020091353A JP2021189527A JP 2021189527 A JP2021189527 A JP 2021189527A JP 2020091353 A JP2020091353 A JP 2020091353A JP 2020091353 A JP2020091353 A JP 2020091353A JP 2021189527 A JP2021189527 A JP 2021189527A
Authority
JP
Japan
Prior art keywords
image
teacher
information processing
image group
teacher image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020091353A
Other languages
English (en)
Other versions
JP7463186B2 (ja
JP2021189527A5 (ja
Inventor
洋佑 高田
Yosuke Takada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020091353A priority Critical patent/JP7463186B2/ja
Priority to US17/245,393 priority patent/US20210374527A1/en
Publication of JP2021189527A publication Critical patent/JP2021189527A/ja
Publication of JP2021189527A5 publication Critical patent/JP2021189527A5/ja
Application granted granted Critical
Publication of JP7463186B2 publication Critical patent/JP7463186B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4015Image demosaicing, e.g. colour filter arrays [CFA] or Bayer patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

【課題】画像信号処理系のネットワークを学習する場合において、ロバスト性の高い学習済みモデルを得る情報処理装置を提供する。【解決手段】情報処理システムにおいて、情報処理装置としてのクラウドサーバ200は、取得した教師画像群に含まれる教師画像について色の三属性のうち少なくとも1つの属性についての分布特性を解析し、解析結果に基づき、分布特性が一様な教師画像群を生成する補填画像生成部211を備える。【選択図】図2

Description

本発明は、機械学習用の学習データの生成及び学習方法に関する。
近年、画像認識、画像処理など様々な分野において機械学習技術が利用されている。機械学習の中でも、大量の教師データを必要とする深層学習(ディープラーニング)の場合、十分な教師データが存在しない場合には、その学習精度が著しく低下することになる。この点、例えば特許文献1には、少ない元データから十分な量の教師データを生成する技術が開示されている。具体的には、まず、カメラで撮影して得られた実写画像からカメラパラメータや光源パラメータといった画像固有成分を抽出する。そして、抽出した画像固有成分に変更を加え、これを用いて光源の位置や種類を変化させた加工画像(実写画像に相関のある再構成画像)を生成することで十分な量の教師画像を得る、というものである。
特開2019−28876号公報
Deep Joint Demosaicking and Denoising.ACM Transactions on Graphics,35(6):191(2016)
上記特許文献1の手法によれば、十分な量の教師画像を確保できるが、得られた教師画像群において、色の三属性(色相、彩度、輝度)の分布に偏りが生じるという問題がある。そのような教師画像群を用いて深層学習を行った場合、ロバスト性の高い学習済みモデルを生成できないことがある。例えば、非特許文献1に記載の畳み込みニューラルネットワーク(CNN)ベースのデモザイクネットワークを学習する場合において、教師画像群の色相分布に偏りがあったとする。この場合、その学習結果(学習済みモデル)を用いてRAW画像をデモザイクすると、本来存在しない偽パターンが発生することがあった。そして、この現象は、教師画像群における出現頻度の少ない色相において顕著に表れる。
そこで本開示の技術では、デモザイク、ノイズ低減、超解像などの画像信号処理系において、CNNベースのネットワークを学習する場合に、ロバスト性の高い学習済みモデルを得ることを目的とする。
本開示に係る情報処理装置は、ネットワークを用いた学習データを生成する情報処理装置であって、RGBの3チャネルから成る教師画像で構成される教師画像群を取得する取得手段と、前記取得手段が取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析手段と、前記解析の結果に基づき、分布特性が一様な教師画像群を生成する生成手段と、を備え、前記分布特性は、色の三属性のうち少なくとも1つの属性についての分布を表す、ことを特徴とする。
本開示の技術によれば、CNNベースのネットワークの学習において、ロバスト性の高い学習済みモデルを得ることができる。
情報処理システムの構成の一例を示す図 情報処理システム全体の機能ブロック図 図3は情報処理システムにおける処理の流れを示すフローチャート データセットの生成を説明する図 実施形態1に係る、補填画像生成部の内部構成を示すブロック図 実施形態1に係る、補填画像生成処理の詳細を示すフローチャート (a)〜(c)は、色相ヒストグラムの一例を示す図 色相情報ファイルの一例を示す図 (a)〜(e)は、CG画像の一例を示す図 CNNの構造と学習の流れを説明する図 実施形態2に係る、補填画像生成部の内部構成を示すブロック図 実施形態2に係る、補填画像生成処理の詳細を示すフローチャート CG画像の生成過程を説明する図
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
<CNNについて>
まず、以下の各実施形態において登場する、深層学習を応用した画像処理技術全般で用いられている畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)について説明する。CNNは、学習(“training”または“learning”)により生成したフィルタを画像データに対して畳み込んだ(convolution)後、非線形演算することを繰り返す技術である。フィルタは、局所受容野(Local Receptive Field:LPF)とも呼ばれる。画像データに対してフィルタを畳み込んだ後、非線形演算して得られる画像データは、特徴マップ(feature map)と呼ばれる。また、学習は入力画像データと出力画像データのペアからなる学習データ(“training images”または“data sets”)を用いて行われる。簡単には、入力画像データから対応する出力画像データへ高精度に変換可能なフィルタの値を、学習データから生成することが学習である。この詳細については後述する。
画像データがRGBカラーチャネルを有する場合や、特徴マップが複数枚の画像データから構成されている場合、畳み込みに用いるフィルタも、それに応じて複数のチャネルを有する。すなわち、畳み込みフィルタは、縦横サイズと枚数の他に、チャネル数を加えた、4次元配列で表現される。画像データ(または特徴マップ)にフィルタを畳み込んだ後、非線形演算する処理は、層(layer)という単位で表され、例えば、n層目の特徴マップやn層目のフィルタなどと表現される。また、例えばフィルタの畳み込みと非線形演算を3回繰り返すようなCNNは、3層のネットワーク構造を有する。このような非線形演算処理は、以下の式(1)のように定式化することができる。
Figure 2021189527
上記式(1)において、Wnはn層目のフィルタ、bnはn層目のバイアス、fは非線形演算子、Xnはn層目の特徴マップ、*は畳み込み演算子である。なお、右肩の(l)はl番目のフィルタまたは特徴マップであることを表している。フィルタおよびバイアスは、後述する学習により生成され、まとめて「ネットワークパラメータ」とも呼ばれる。非線形演算としては、例えばシグモイド関数(sigmoid function)やReLU(Rectified Linear Unit)が用いられる。ReLUの場合は、以下の式(2)で与えられる。
Figure 2021189527
上記式(2)が示すように、入力したベクトルXの要素のうち負のものはゼロ、正のものはそのままとなる。
CNNを用いたネットワークとしては、画像認識分野のResNetや超解像分野におけるその応用RED−Netが有名である。いずれもCNNを多層にして、フィルタの畳み込みを何度も行うことで、処理の高精度化を図っている。例えば、ResNetは畳み込み層をショートカットする経路を設けたネットワーク構造を特徴とし、これにより152層もの多層ネットワークを実現し、人間の認識率に迫る高精度な認識を実現している。なお、多層CNNにより処理が高精度化する理由は、簡単には非線形演算を何度も繰り返すことで、入出力間の非線形な関係を表現できるためである。
<CNNの学習>
次に、CNNの学習について説明する。CNNの学習は、入力学習画像(観測画像)データと対応する出力学習画像(正解画像)データの組からなる学習データに対して、一般に以下の式(3)で表される目的関数を最小化することで行われる。
Figure 2021189527
上記式(3)において、Lは正解とその推定との誤差を測る損失関数(Loss function)である。また、Yiはi番目の出力学習画像データ、Xiはi番目の入力学習画像データである。また、FはCNNの各層で行う演算(式1)を、まとめて表した関数である。また、θはネットワークパラメータ(フィルタおよびバイアス)である。また、||Z||2はL2ノルムであり、簡単にはベクトルZの要素の2乗和の平方根である。また、nは学習に用いる学習データの全枚数である。一般に学習データの全枚数は多いため、確率的勾配降下法(Stochastic Gradient Descent:SGD)では、学習画像データの一部をランダムに選び学習に用いている。これにより、多くの学習データを用いた学習における、計算負荷が低減できる。また、目的関数の最小化(=最適化)法として、モーメンタム(momentum)法やAdaGrad法、AdaDelta法、Adam法など、様々な方法が知られている。Adam法は、以下の式(4)で与えられる。
Figure 2021189527
上記式(4)において、θi tは反復t回目におけるi番目のネットワークパラメータ、gはθi tに関する損失関数Lの勾配である。また、m、vはモーメントベクトル、αは基本学習率(base learning rate)、β1、β2はハイパーパラメータ、εは小さい定数である。なお、学習における最適化法の選択指針は存在しないため、基本的に何を用いても良いが、方法ごとの収束性には違いがあるため、学習時間の違いが生じることが知られている。
[実施形態1]
本実施形態では、色相分布の偏りのない好適な教師画像群を生成する手法について説明する。前述のとおり、効果的な深層学習のためには、教師画像のデータ量が十分なだけでは足りず、色相分布が一様である教師画像群を用意することが重要となる。大量の教師画像を得るために、形状や色が様々な、あらゆる被写体のサンプル画像(元画像)を収集しても、通常は教師画像群の色相分布には偏りが生じる。このような教師画像群を用いた学習によって得られた学習済みモデル(デモザイクネットワーク)を用いてRAW画像をデモザイクした場合、本来は存在しないはずの偽パターンが、デモザイク後のRGB画像に発生することがある。そこで、本実施形態では、用意されたサンプル画像群において色相分布が疎な部分を特定し、当該疎な部分を埋めるようなCG画像を生成して補うことで、色相分布の一様な教師画像群を得る態様を説明する。なお、RAW画像とは、一つの画素位置に一色分のカラーフィルタが取り付けられている単板撮像素子で撮像された、リニア色空間の画像を意味する。また、偽パターンは、カラーフィルタ配列に相関を持つパターン模様のことである。
<システム構成>
図1は、本実施形態に係る情報処理システムの構成の一例を示す図である。 図1に示す情報処理システムでは、学習データの生成及びデモザイク学習を担うクラウドサーバ200とデモザイク推論を担うクライアントPC100とがインターネットを介して接続されている。
<クライアントPCのハードウェア構成>
本実施形態のクライアントPC100は、撮像装置から入力されるRAW画像(モザイク画像)に対し、クラウドサーバ200から提供される学習済みネットワークパラメータを適用してデモザイク推論を行う画像処理装置である。ユーザは、クライアントPC100にインストールされた画像処理アプリケーションを利用して、モザイク画像であるRAW画像をデモザイクしてRGBの3チャネルから成る画像(RGB画像)を得る。クライアントPC100は、CPU101、RAM102、ROM103、大容量記憶装置104、汎用インタフェース(I/F)105、ネットワークI/F106を有し、各構成要素がシステムバス107によって相互に接続されている。また、クライアントPC100は、汎用I/F105を介して、デジタルカメラ10、入力装置20、外部記憶装置30及び表示装置40にも接続されている。
CPU101は、RAM102をワークメモリとして、ROM103に格納されたプログラムを実行し、システムバス107を介してクライアントPC100の各構成要素を統括的に制御する。また、大容量記憶装置104は、例えばHDDやSSDであり、クライアントPC100で取り扱われる種々のデータを記憶する。CPU101は、システムバス107を介して大容量記憶装置104へのデータの書き込み及び大容量記憶装置104に記憶されたデータの読出しを行う。汎用I/F105は、例えばUSB、IEEE1394、HDMI(登録商標)等のシリアルバスインターフェースである。クライアントPC100は、汎用I/F105を介して、外部記憶装置30(例えば、メモリカード、CFカード、SDカード、USBメモリなどの各種記憶媒体)からデータを取得する。また、クライアントPC100は、汎用I/F105を介して、マウスやキーボードなどの入力装置20からのユーザ指示を受け付ける。また、クライアントPC100は、汎用I/F105を介して、表示装置40(例えば液晶ディスプレイなどの各種画像表示デバイス)に、CPU101によって処理された画像データ等を出力する。また、クライアントPC100は、汎用I/F105を介して、撮像装置であるデジタルカメラ10から現像処理の対象となる撮像画像(RAW画像)のデータを取得する。ネットワークI/F106は、インターネットに接続するためのインタフェースである。クライアントPC100は、インストールされたウェブブラウザによってクラウドサーバ200にアクセスして、デモザイク推論のためのネットワークパラメータを取得する。
<クラウドサーバのハードウェア構成>
本実施形態のクラウドサーバ200は、インターネット上でクラウドサービスを提供するサーバ装置である。より詳細には、学習データの生成及びデモザイク学習を行って、学習結果(学習済みモデル)としてのネットワークパラメータを、クライアントPC100からのリクエストに応じて提供する。クラウドサーバ200は、CPU201、ROM202、RAM203、大容量記憶装置204及びネットワークI/F205を有し、各構成要素がシステムバス206によって相互に接続されている。CPU201は、ROM202に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。RAM203は、CPU201の主メモリ、ワークエリア等の一時記憶領域として用いられる。大容量記憶装置204は、画像データや各種プログラムを記憶するHDDやSSD等の大容量の二次記憶装置である。ネットワークI/F205は、インターネットに接続するためのインタフェースであり、クライアントPC100のウェブブラウザからのリクエストに応じて上述のネットワークパラメータを提供する。
なお、クライアントPC100及びクラウドサーバ200の構成要素は上記以外にも存在するが、本発明の主眼ではないため、説明を省略する。また、本実施形態では、クラウドサーバ200にて学習データの生成・デモザイク学習を行い、学習結果であるネットワークパラメータをクライアントPC100にダウンロードして、現像対象となるRAW画像のデモザイク推論を行うことを想定している。しかしながら、上記システム構成は一例であって、これに限定されない。例えば、クラウドサーバ200が担う機能を細分化し、学習データの生成とデモザイク学習とを別々の装置で実行するような構成でもよい。さらには、クライアントPC100の機能とクラウドサーバ200の機能とを兼ね備えたデジタルカメラ10において、学習データの生成・デモザイク学習・デモザイク推論のすべてを行うような構成であってもよい。
<システム全体の処理の流れ>
次に、本実施形態の情報処理システムで行われる各種処理について説明する。図2は情報処理システム全体の機能ブロック図、図3は情報処理システムにおける処理の流れを示すフローチャートである。図2に示す通り、クライアントPC100は、デモザイク推論部111を有する。また、クラウドサーバ200は、補填画像生成部211、データセット生成部212及びデモザイク学習部213を有する。図2に示す各機能部は、それぞれの機能部に対応するコンピュータプログラムをCPU101/201が実行することで実現される。ただし、図2に示す機能部の全部あるいは一部をハードウェアで実装してもよい。以下、図3のフローに沿って説明する。なお、以下の説明において記号「S」はステップを意味する。
S301では、予め用意された教師画像群のデータがクラウドサーバ200に入力される。教師画像は、RGBの3チャネルから成る画像で、例えばデジタルカメラ10で撮像することにより得られる。一般的には風景や動物といった自然写真、ポートレートやスポーツシーンといった人物写真、建築や商品といった人工物写真など、様々な種類の撮像画像が該当する。また、デジタルカメラ10で撮像して得られたものをそのままアップロードしてもよいし、撮り溜めたものをHDD等に記憶しておきそれをアップロードしてもよい。クラウドサーバ200に入力された教師画像群のデータは、補填画像生成部211に送られる。
S302では、補填画像生成部211が、S301で入力された教師画像群を解析し、色相分布における疎の部分を埋める画像をCGで作成する処理を行う。ここで、疎の部分を埋める画像とは、解析によって得られた色相分布において出現頻度の少ない信号値(属性値)を持つ画素とそれ以外の信号値(属性値)を持つ画素とから成る画像を意味する。この補填画像生成処理の詳細については後述する。
S303では、データセット生成部212が、S302で生成されたCG画像を含む教師画像群に基づき、学習に用いるデータセット(教師画像と生徒画像とのペア)を生成する。図4は、データセットの生成を説明する図である。図4では、RGBの3チャネルからなる教師画像をベイヤ配列に従って画素をサブサンプリングすることにより、モザイク画像である生徒画像が生成される様子を示している。なお、ここではカラーフィルタ配列としてベイヤ配列を使用しているが、入力RAW画像の画像形式に合わせて決定すればよく、例えばX−Transなど他のカラーフィルタ配列を用いても構わない。生成したデータセットは、デモザイク学習部213に送られる。
S304では、デモザイク学習のCNNに適用する上述のネットワークパラメータがクラウドサーバ200に入力される。入力されたネットワークパラメータは、デモザイク学習部213に送られる。
S305では、デモザイク学習部213が、受け取ったネットワークパラメータを用いてCNNの重みを初期化した後、S303で生成されたデータセットを用いてCNNを学習する。デモザイク学習の詳細については後述する。
S306では、現像処理の対象となるRAW画像が入力される。このRAW画像は、例えばデジタルカメラ10で撮像したものを直接入力してもよいし、事前に撮像して大容量記憶装置104に記憶しておいたものを読み出してもよい。また、入力RAW画像を撮像した際のISO感度といった撮像パラメータも併せて入力される。入力RAW画像のデータはデモザイク推論部111に送られる。
S307では、デモザイク推論部111が、デモザイク学習部213での学習で用いられたのと同じCNNを構築して、入力RAW画像のデモザイクを行う。この際、既存のネットワークパラメータが、クラウドサーバ200から受け取った更新後のネットワークパラメータで初期化される。こうして、更新後のネットワークパラメータを適用したCNNに対して、入力RAW画像を入力し、デモザイク学習部213で行ったのと同じ方法でデモザイクを行ってRGB画像(推論結果)を得る。
以上が、本実施形態の情報処理システムで行われる処理の全体の流れである。なお、S303で生成されるデータセットには、補填後の教師画像群に含まれる各教師画像とその対になる生徒画像との画像ペアが含まれるが、生徒画像は後で生成してもよい。具体的には、S303で生成するデータセットの中身を補填後の教師画像群のデータのみとし、後続のデモザイク学習の中で(教師画像とデモザイク後の生徒画像との誤差(損失関数)を算出する処理の中で)対応する生徒画像群を生成するように構成してもよい。
<補填画像生成処理>
続いて、前述のS302における補填画像生成処理について説明する。本実施形態では、入力された教師画像群に含まれる各教師画像の色相を解析して色相ヒストグラムを求め、出現頻度の少ない色相を補うようなCG画像を作成する例を説明する。図5は、本実施形態に係る、補填画像生成部211の内部構成を示すブロック図である。図5に示す通り、補填画像生成部211は、解析部501とCG画像生成部502とを有する。さらに、CG画像生成部502は、オブジェクト選択部511、オブジェクトデータ格納部512、CG描画部513を備える。図6は、本実施形態に係る、補填画像生成処理の詳細を示すフローチャートである。以下、補填画像生成部211の動作について、図6のフローに沿って説明する。
S601では、解析部501が、入力された教師画像群の色相分布を解析する。ここで、色相分布の解析方法を、図7を参照しつつ説明する。図7(a)は、色相ヒストグラムであり、入力された教師画像群に含まれる全ての教師画像をRGB色空間からHSV色空間に変換し、色相(H)の値のみを抽出してヒストグラムにしたものである。図7(a)の色相ヒストグラムにおける横軸はスペクトル上での色相の位置を示し、0〜180度の角度により表される。また、縦軸は、各色相の出現頻度を示している。図7(a)の色相ヒストグラムの場合、125度〜180度の範囲の色相がそれ以外の範囲(0度〜125度)の色相に比べて少ないことが分かる。解析部501は、このような解析結果に基づき、出現頻度の低い色相に関する情報を、「色相情報ファイル」として記録する。色相情報ファイルには、出現頻度の少ない色相範囲に含まれる角度(色相_1)と、それ以外の色相の角度(色相_2)の2種類の角度情報が、CG画像の生成数Numの分だけ記載されることになる。ここで、CG画像の生成数Numは、入力教師画像群に含まれる教師画像の総数に対するCG画像の数の割合が一定になるような生成数を予め設定しておけばよい。図8に、上述の図7(a)に示す色相ヒストグラムから得られる色相情報ファイルの一例を示す。左端の列にはCG画像の生成数Num分だけ昇順にデータ番号が入り、真ん中の列には色相_1の角度情報が、右端の列には色相_2の角度情報が記入されている。
S602では、オブジェクト選択部511が、描画対象となる任意のオブジェクトを、オブジェクトデータ格納部512に格納された様々なオブジェクトの中から1つ選択する。オブジェクトデータ格納部512には、図形、記号、文字、繰り返しパターンといった様々な種類のオブジェクトに応じた形状情報が格納されているものとする。形状情報で特定される各オブジェクトは、略同じ画素値を持つ連結領域を少なくとも1つ以上含み、各連結領域のサイズはCNNのフィルタサイズよりも大きく、全連結領域の色相ヒストグラムの形状が双峰性であることが望ましい。また、形状情報で特定されるオブジェクトにはノイズを含んでいてもよい。なお、選択するオブジェクトは、用意されたオブジェクトデータの中からランダムに決定すればよい。
S603では、CG描画部513が、S602で選択されたオブジェクトのCG画像を生成する。この際、上述の色相情報ファイルにおいてデータ番号と紐付けて記録された色相_1と色相_2がそれぞれ前景と背景に割り当てられる。例えば、選択されたオブジェクトが記号オブジェクトである場合、前景となる記号部分には色相_1を割り当て、背景となる部分に色相_2を割り当てるといった具合である。もっとも、生成するCG画像には2種類の色相を含んでいればよく、色相_1を背景に割り当て、色相_2を前景に割り当てても構わない。図9の(a)〜(d)に、本ステップで生成されるCG画像の一例を示す。これらCG画像の生成において重要なのは、連結領域において割り当てられる2種類の色相の境界(エッジ)形状が、なるべく多くのバリエーションを持つようにすることである。なお、生成したCG画像が所定の条件を満たさない、例えばCG画像内の色相比率が極端に異なる場合には、他のCG画像と統合するなどして色相の比率を調整してもよい。図9(e)は、図9(a)〜(d)に示した4つのCG画像をN×Nのタイル状に連結して、他のCG画像と同じサイズになるように縮小して得られたCG画像を示している。統合を行うか否かは、生成したCG画像における2つの色相それぞれが占める面積の割合が、一定割合(例えば、色相_1:色相_2=9:1)を超えているかどうかなどの閾値処理を行って決めればよい。
S604では、色相情報ファイルにて規定されているデータ番号の数の分だけCG画像が生成されてか否か、すなわち、生成したCG画像の数が上述の生成数Numに達したか否かが判定される。生成したCG画像の数が生成数Numに達していればS605に進み、達していなければS602に戻って次のオブジェクトを選択し、CG画像の生成を続行する。
S605では、生成されたCG画像がS601で解析対象となった教師画像群に補填され、色相分布に偏りのない新たな教師画像群のデータとして、データセット生成部212に出力される。
以上が、本実施形態に係る、補填画像生成処理の内容である。なお、上述の実施形態では、予め設定した生成数に従ってCG画像を生成していたが、これに限定されない。例えば、CG画像を生成する度に入力教師画像群にそれを追加して色相ヒストグラムを再度求め、色相の出現頻度の偏りが解消されていればその段階でCG画像の生成をやめてもよい。この際、偏りが解消されているか否かは、例えば閾値処理によって判定できる。具体的には、新たに求めた色相ヒストグラムにおける出現頻度の標準偏差が、予め設定した閾値th以下であれば偏りがないと判定すればよい。例えば、CG画像を補填後の教師画像群から、図7(b)及び図7(c)に示すような色相ヒストグラムが得られたとする。図7(b)の場合はσb≧thであるとして偏りがあると判定し、図7(c)の場合はσc<thであるとして偏りがないと判定する。そして、偏りが未だ解消できていないと判定された場合には、新たに求めた色相ヒストグラムから頻度の少ない色相を特定して色相情報ファイルを更新し、色相分布における偏りが解消されるまでCG画像の生成を続行する。このような方法でCG画像をどれだけ生成するかを制御してもよい。
<デモザイク学習処理>
続いて、デモザイク学習部213におけるデモザイク学習について説明する。学習には、例えば非特許文献1に開示されているCNNを用いる。図10は、CNNの構造と学習の流れを説明する図である。以下、図10を参照して、デモザイク学習について詳しく説明する。
CNNは、前述の式(1)の演算を行う複数のフィルタ1002で構成されている。このCNNに対して、前述のペア画像に含まれる生徒画像1000を入力する。この際、図10に示すように、生徒画像1000を3チャネルの欠損画像1001に変換して入力する。欠損画像1001におけるRチャネル1001aには、生徒画像1000のR成分の画素のみが含まれており、他の画素には欠損値(0)が設定されている。Gチャネル、Bチャネルについても同様である。すなわち、Gチャネル1001bには、生徒画像1000のG成分の画素のみが含まれており、他の画素には欠損値(0)が設定されている。また、Bチャネル1001cには、生徒画像1000のB成分の画素のみが含まれており、他の画素には欠損値(0)が設定されている。なお、欠損値については、bilinear補間等の手法により補間して設定しても構わない。次に、この欠損画像1001に対してフィルタ1002を順次適用し、特徴マップを算出する。続いて、連結層1003によって、算出した特徴マップと欠損画像1001とをチャネル方向に連結する。特徴マップと欠損画像のチャネル数がそれぞれn1とn2であった場合、連結結果のチャネル数は(n1+n2)となる。続けて、この連結結果に対してフィルタ1002を適用し、最終フィルタではRGB3チャネルの出力を行う。これにより、RGBの3チャネルから成る画像が推論結果1004として得られる。そして、得られた推論結果1004と、ペア画像に含まれていた教師画像(不図示)との差分を求め、画像全体についてその平均を取ることにより、損失関数値を得る。そして、得られた損失関数値を用いて、誤差逆伝播法(Back propagation)などによってネットワークパラメータの更新を行う。
なお、上述のようなデモザイク学習後のCNNをさらにファインチューニングしてもよい。ファインチューニングとは学習済モデルの重みを微調整する学習方法である。具体的なやり方としては、まず、統計的に出現頻度の少ない色相の組合せを含んだチャート画像(モザイク画像)に対して学習済モデルを用いてデモザイクし、偽パターンが発生するか否かを検査する。出現頻度の少ない色相の組合せとしては、例えばグリーンとマゼンタなど補色の関係にあるものが挙げられる。デモザイク後のチャート画像において偽パターンが発生した場合、当該チャート画像における色相の組合せに類似する色相の組合せを持つ教師画像を中心にデータセットを再構成し、学習済モデルをファインチューニングする。これにより、学習済モデルのロバスト性を向上させることができる。
<変形例>
なお、本実施形態では、入力教師画像群に含まれる全ての教師画像を対象に解析を行ってその色相分布における疎の部分を埋めるCG画像を生成したが、これに限定されない。例えば、入力教師画像群に含まれる一部の教師画像のみを用いて解析を行って疎の部分を埋めるCG画像を生成してもよい。
また、本実施形態では色相分布を解析してその偏りを解消するようなCG画像を生成したが、彩度分布或いは輝度分布など他の分布特性を解析し、それぞれの分布の偏りを無くすようにCG画像を生成してもよい。
また、本実施形態では、入力教師画像群において色相分布が疎の部分にCG画像を追加・補充することで色相分布を一様にしているが、これとは逆に、色相分布が密な部分から教師画像を削除・間引くことで色相分布を一様にしてもよい。
さらに、本実施形態ではデモザイクを例に説明を行ったが、本手法により生成した教師画像群を用いることで、他の画像信号処理系(例えば、ノイズ低減、超解像など)においても深層学習のロバスト性を向上させることができる。深層学習を応用したノイズ低減や超解像には、公知であるCNNベースのネットワーク(REDNET、SRCNNなど)に、本手法により生成された教師画像群を用いることで実現可能である。
以上のとおり本実施形態によれば、教師画像群における色の三属性(色相、彩度、輝度)の分布に偏りがある場合に、その偏りが解消されるようにCG画像を生成して教師画像を補填する。これにより、ロバスト性の高いデモザイクモデルを得ることができる。
[実施形態2]
実施形態1では、オブジェクトデータに基づいて生成したCG画像を新たな教師画像として入力教師画像群に加えることで、色相分布が一様な教師画像群を得る態様を説明した。次に、入力教師画像群に含まれる教師画像を加工して得られた画像を新たな教師画像として加えることで、色相分布が一様な教師画像群を得る態様を、実施形態2として説明する。なお、情報処理システムの基本構成など実施形態1と共通する内容について説明を省略し、以下では差異点を中心に説明するものとする。
図11は、本実施形態に係る、補填画像生成部211’の内部構成を示すブロック図である。図11に示す通り、補填画像生成部211’は、解析部501と画像加工部1100とを有する。さらに、画像加工部1100は、抽出部1101、二値化部1102、色相設定部1103を備える。図12は、本実施形態に係る、補填画像生成処理の詳細を示すフローチャートである。以下、補填画像生成部211’の動作について、図12のフローに沿って説明する。
S1201では、前述の図6のフローにおけるS601と同様、解析部501が入力された教師画像群の色相分布を解析する。
S1202では、抽出部1101が、加工処理の対象となる任意の教師画像を、入力された教師画像群の中から抽出する。抽出の際には、予め設定された所定割合(例えば、教師画像群の20%など)の数の教師画像がランダムに抽出される。
S1103では、二値化部1102が、S1202で抽出した全ての教師画像のうち注目する教師画像に対して二値化処理を行って、各画素を白画素または黒画素で表現した二値画像を生成する。二値化処理には、閾値指定法やPタイル法など、公知の方法を適用すればよい。
S1204では、色相設定部1103が、S1203で生成した二値画像に対し、色相情報ファイルに基づき2種類の色相を設定して、色相分布の疎の部分を埋めるための画像を生成する。ここで生成される画像は、注目教師画像に含まれる様々な色を、設定された2種類の色相の色で表現した画像(以下、「2色画像」と呼ぶ。)である。ここで、図13を参照して、2色画像が出来るまでの過程を説明する。図13(a)は、S1201で抽出した教師画像、図13(b)はS1102に二値化処理で得られた二値画像を示している。この二値画像における黒画素に色相_1の色を割り当て、白画素に色相_2の色を割り当てて得られた画像が、図13(c)に示す2色画像である。2色画像においては、注目教師画像に含まれる様々な色が2種類の色相の色で表現されていればよく、色相_1の色を白画素に割り当て、色相_2の色を黒画素に割り当てても構わない。
S1205では、S1202で抽出したすべての教師画像を基に2色画像が生成されたか否か、すなわち、未処理の教師画像があるかどうかが判定される。未処理の教師画像があればS1103に戻って次の注目する教師画像を決定して処理を続行する。一方、抽出したすべての教師画像から2色画像が生成されていれば、S1206に進む。
S1206では、S1204で生成された複数の2色画像がS1201で解析対象となった教師画像群に補填され、色相分布に偏りのない新たな教師画像群のデータとして、データセット生成部212に出力される。
以上が、本実施形態に係る、補填画像生成処理の内容である。このように、用意された教師画像群に含まれる教師画像を加工するという方法によっても、色相分布の疎の部分を埋めることができる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

Claims (20)

  1. ネットワークを用いた学習データを生成する情報処理装置であって、
    RGBの3チャネルから成る教師画像で構成される教師画像群を取得する取得手段と、
    前記取得手段が取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析手段と、
    前記解析の結果に基づき、分布特性が一様な教師画像群を生成する生成手段と、
    を備え、
    前記分布特性は、色の三属性のうち少なくとも1つの属性についての分布を表す、
    ことを特徴とする情報処理装置。
  2. 前記解析手段は、前記分布特性として、前記取得手段が取得した前記教師画像群に含まれる各教師画像の色相分布を解析し、
    前記生成手段は、前記取得手段が取得した前記教師画像群に基づき、色相分布が一様な教師画像群を生成する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記解析手段は、前記分布特性として、前記取得手段が取得した前記教師画像群に含まれる各教師画像の輝度分布を解析し、
    前記生成手段は、前記取得手段が取得した前記教師画像群に基づき、輝度分布が一様な教師画像群を生成する、
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 前記解析手段は、前記分布特性として、前記取得手段が取得した前記教師画像群に含まれる各教師画像の彩度分布を解析し、
    前記生成手段は、前記取得手段が取得した前記教師画像群に基づき、彩度分布が一様な教師画像群を生成する、
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記生成手段は、前記取得手段が取得した前記教師画像群に対し、その分布特性における疎の部分を埋める画像を追加することで、分布特性が一様な教師画像群を生成する、
    ことを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記生成手段は、前記取得手段が取得した前記教師画像群に対し、その分布特性における密の部分に対応する教師画像を間引くことで、分布特性が一様な教師画像群を生成する、
    ことを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  7. 前記疎の部分を埋める画像は、前記解析によって得られた分布特性において出現頻度の少ない属性値を持つ画素とそれ以外の属性値を持つ画素とから成る画像であることを特徴とする請求項5に記載の情報処理装置。
  8. 前記疎の部分を埋める画像は、所定のオブジェクトを描画することで得られるCG画像であり、
    前記生成手段は、前記所定のオブジェクトに対応する形状情報に基づき前記CG画像を生成して、前記追加を行う、
    ことを特徴とする請求項7に記載の情報処理装置。
  9. 前記形状情報で特定されるオブジェクトは、略同じ画素値を持つ連結領域を少なくとも1つ以上含み、各連結領域のサイズはCNNのフィルタサイズよりも大きく、全連結領域の色相ヒストグラムの形状が双峰性である、ことを特徴とする請求項8に記載の情報処理装置。
  10. 前記所定のオブジェクトは、図形、記号、文字、繰り返しパターンのいずれか1つ以上を含むことを特徴とする請求項9に記載の情報処理装置。
  11. 前記生成手段は、生成したCG画像が所定の条件を満たさない場合、他のCG画像と統合して前記所定の条件を満たすCG画像を生成することを特徴とする請求項7乃至10のいずれか1項に記載の情報処理装置。
  12. 前記所定の条件は、生成したCG画像における異なる属性値を持つ2種類の画素それぞれが占める面積の割合が、一定割合を超えている場合であることを特徴とする請求項11に記載の情報処理装置。
  13. 前記生成手段は、前記取得手段が取得した前記教師画像群に含まれる教師画像の総数に対するCG画像の数の割合が一定になるように、CG画像を生成することを特徴とする請求項8乃至12のいずれか1項に記載の情報処理装置。
  14. 前記疎の部分を埋める画像は、前記取得手段が取得した前記教師画像群から抽出された特定の教師画像に対して所定の加工を行って得られた画像であることを特徴とする請求項7に記載の情報処理装置。
  15. 前記生成手段は、前記所定の加工として、前記特定の教師画像に対して二値化処理を行って二値画像を生成し、前記二値画像を構成する各画素について、黒画素と白画素とで異なる属性値を与える処理を行う、ことを特徴とする請求項14に記載の情報処理装置。
  16. 前記生成手段が生成した、分布特性が一様な教師画像群に基づき、教師画像と生徒画像との組で構成されるデータセットを生成する手段と、
    生成された前記データセットを用いて、前記ネットワークを用いた学習を行う手段と、
    をさらに備えたことを特徴とする請求項1乃至15のいずれか1項に記載の情報処理装置。
  17. 前記ネットワークは、畳み込みニューラルネットワークを用いたネットワークであることを特徴とする請求項16に記載の情報処理装置。
  18. 現像の対象となるRAW画像を取得する手段と、
    前記RAW画像に対して、前記学習によって得られた学習済みデモザイクネットワークを用いた推論によるデモザイクを行って、RGBの3チャネルから成るRGB画像を生成する手段と、
    をさらに備えたことを特徴とする、請求項16又は17に記載の情報処理装置。
  19. ネットワークを用いた学習データを生成する情報処理方法であって、
    RGBの3チャネルから成る教師画像で構成される教師画像群を取得する取得ステップと、
    前記取得ステップにて取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析ステップと、
    前記解析の結果に基づき、分布特性が一様な教師画像群を生成する生成ステップと、
    を含み、
    前記分布特性は、色の三属性のうち少なくとも1つの属性についての分布を表す、
    ことを特徴とする情報処理方法。
  20. コンピュータを請求項1乃至18のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
JP2020091353A 2020-05-26 2020-05-26 情報処理装置、情報処理方法及びプログラム Active JP7463186B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020091353A JP7463186B2 (ja) 2020-05-26 2020-05-26 情報処理装置、情報処理方法及びプログラム
US17/245,393 US20210374527A1 (en) 2020-05-26 2021-04-30 Information processing apparatus, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020091353A JP7463186B2 (ja) 2020-05-26 2020-05-26 情報処理装置、情報処理方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2021189527A true JP2021189527A (ja) 2021-12-13
JP2021189527A5 JP2021189527A5 (ja) 2023-05-17
JP7463186B2 JP7463186B2 (ja) 2024-04-08

Family

ID=78704683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020091353A Active JP7463186B2 (ja) 2020-05-26 2020-05-26 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
US (1) US20210374527A1 (ja)
JP (1) JP7463186B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429787A (zh) * 2021-12-30 2022-05-03 北京百度网讯科技有限公司 组学数据处理方法、装置、电子设备和存储介质
WO2023190473A1 (ja) * 2022-03-28 2023-10-05 ソニーセミコンダクタソリューションズ株式会社 画像処理装置および画像処理方法、画像変換装置および画像変換方法、aiネットワーク生成装置およびaiネットワーク生成方法、並びにプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013162347A (ja) 2012-02-06 2013-08-19 Sony Corp 画像処理装置、画像処理方法、プログラム、および装置
US9996771B2 (en) * 2016-02-15 2018-06-12 Nvidia Corporation System and method for procedurally synthesizing datasets of objects of interest for training machine-learning models
CN110008783A (zh) 2018-01-04 2019-07-12 杭州海康威视数字技术股份有限公司 基于神经网络模型的人脸活体检测方法、装置及电子设备
US10936905B2 (en) * 2018-07-06 2021-03-02 Tata Consultancy Services Limited Method and system for automatic object annotation using deep network
CN110781913B (zh) 2019-09-11 2023-05-30 西安电子科技大学 一种拉链布带缺陷检测方法
JP7353198B2 (ja) * 2020-02-06 2023-09-29 株式会社日立ハイテク 計算機、識別器の学習方法、および分析システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429787A (zh) * 2021-12-30 2022-05-03 北京百度网讯科技有限公司 组学数据处理方法、装置、电子设备和存储介质
WO2023190473A1 (ja) * 2022-03-28 2023-10-05 ソニーセミコンダクタソリューションズ株式会社 画像処理装置および画像処理方法、画像変換装置および画像変換方法、aiネットワーク生成装置およびaiネットワーク生成方法、並びにプログラム

Also Published As

Publication number Publication date
JP7463186B2 (ja) 2024-04-08
US20210374527A1 (en) 2021-12-02

Similar Documents

Publication Publication Date Title
US9697416B2 (en) Object detection using cascaded convolutional neural networks
CN111402146B (zh) 图像处理方法以及图像处理装置
US9344690B2 (en) Image demosaicing
KR20210139450A (ko) 이미지 디스플레이 방법 및 디바이스
US20110311134A1 (en) Image masks generated from local color models
US20210358081A1 (en) Information processing apparatus, control method thereof, imaging device, and storage medium
KR20050009694A (ko) 브래킷된 이미지 시퀀스로부터 고 동적 범위 이미지를생성하는 시스템 및 프로세스
JP2020191046A (ja) 画像処理装置、画像処理方法、及びプログラム
WO2023005818A1 (zh) 噪声图像生成方法、装置、电子设备及存储介质
JP7463186B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20220414827A1 (en) Training apparatus, training method, and medium
WO2019210707A1 (zh) 一种图像清晰度评测方法、装置及电子设备
Meng et al. Gia-net: Global information aware network for low-light imaging
Chen et al. Focus manipulation detection via photometric histogram analysis
CN114187515A (zh) 图像分割方法和图像分割装置
KR20200092492A (ko) 의미 인식 기반의 이미지 보정 방법 및 그를 위한 장치
CN116980549A (zh) 视频帧处理方法、装置、计算机设备和存储介质
US20220414826A1 (en) Image processing apparatus, image processing method, and medium
CN116469172A (zh) 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统
Buzzelli et al. Consensus-driven illuminant estimation with GANs
CN109242793A (zh) 图像处理方法、装置、计算机可读存储介质和电子设备
Yuan et al. Color image quality assessment with multi deep convolutional networks
US20220092357A1 (en) Information processing apparatus, information processing method, and storage medium
US11995153B2 (en) Information processing apparatus, information processing method, and storage medium
JP2022150562A (ja) 画像処理装置、画像処理方法およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230509

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240327

R150 Certificate of patent or registration of utility model

Ref document number: 7463186

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150