JP7075674B2 - 学習方法、コンピュータプログラム、分類器、生成器、及び処理システム - Google Patents

学習方法、コンピュータプログラム、分類器、生成器、及び処理システム Download PDF

Info

Publication number
JP7075674B2
JP7075674B2 JP2020025344A JP2020025344A JP7075674B2 JP 7075674 B2 JP7075674 B2 JP 7075674B2 JP 2020025344 A JP2020025344 A JP 2020025344A JP 2020025344 A JP2020025344 A JP 2020025344A JP 7075674 B2 JP7075674 B2 JP 7075674B2
Authority
JP
Japan
Prior art keywords
image data
data
machine learning
learning model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020025344A
Other languages
English (en)
Other versions
JP2020205030A (ja
Inventor
修二 奥野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Axell Corp
Original Assignee
Axell Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Axell Corp filed Critical Axell Corp
Priority to US16/902,049 priority Critical patent/US11842283B2/en
Publication of JP2020205030A publication Critical patent/JP2020205030A/ja
Application granted granted Critical
Publication of JP7075674B2 publication Critical patent/JP7075674B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本開示は、画像データに対して処理を施す機械学習モデルの学習方法、コンピュータプログラム、分類器、生成器及び処理システムに関する。
機械学習モデルを用いた画像認識、判別、画像生成方法等では、大量の教師データを必要とする。したがって、教師データの数を増やすために、同じ画像データに対して拡大縮小、回転、反転、シフト、色変換、ノイズ付加等のデータ拡張を実施することで、見掛け上異なる画像データを教師データとして大量に用意し、これらデータ拡張により得られた教師データを用いて学習することで認識性能の向上が達成できることが知られている(特許文献1)。
また、特許文献2には高次元の非構造化データ(例えば、画像)の生成モデルを学習するため、ジェネレータ(生成器)およびディスクリミネータ(分類器)を用いることが開示されている。
さらに、非特許文献1では畳み込みニューラルネットワークを用いた深層学習において、敵対的入力(Adversarial Examples:A.E.)と呼ばれるテストデータを用いると認識結果が変わってしまうという課題に対し、教師データにランダムな(=意図的ではない)ノイズがのったデータを用いて学習することで、A.E.に対抗できる学習器を構築することについて開示されている。
特開2015-095212号公報 特開2019-091440号公報
「深層学習におけるAdversarial Trainingによる副作用とその緩和/先崎佑弥、大畑幸矢、松浦幹太」コンピュータセキュリティシンポジウム2017 論文集 p.385~p.392
データ拡張は、元の画像の特徴を損なわないことが前提とされる。識別器のデータ拡張であれば識別結果(クラス)に影響がないように、画像に写っているものが何であるかの識別結果、即ち何に見えるかという見た目が相違しない程度に加工が行なわれている。
発明者は更に、画像データに含まれる、視覚に影響を及ぼさない要素に対する学習を省くことで、学習されるモデルに、人間の視覚の仕組みを取り入れることができるのではないかとの知見を得た。なお、非特許文献1にはパンダと認識される画像データと、該画像データに対しノイズ画像をマスクしてできたマスク画像データとを比較し、「人間にはほぼ変化がないように見えるが、CNNではパンダではないと認識される」という主旨の記述があるが、それは視覚特性に基づくノイズではなく、単に信号のレベルが小さいノイズであるため、画像データとしてはほぼ変化がないと言っているに過ぎない。
本開示は斯かる知見に基づいてなされたものであり、画像に対する機械学習モデルを用いた学習に、人間の視覚を考慮させた学習方法、学習モデル、分類器、生成器、及び処理システムを提供することを目的とする。
本願に係る請求項1記載の学習方法は、画像データを入力もしくは出力する機械学習モデルを視覚上判別しにくいノイズ成分を付加する処理を施した画像データ所定の割合で含む学習用データで学習させる。
本願に係る請求項2記載の学習方法では、前記請求項1記載の学習方法に加え、画像データを出力する機械学習モデルの損失関数を、前記機械学習モデルから出力される画像データまたは前記機械学習モデルへ与える画像データのうち、所定の割合の画像データ視覚上判別しにくいノイズ成分を付加する処理を施した画像データ所定の割合で含む学習データから算出する処理を実行させる。
本願に係る請求項3記載の学習方法では、画像データが入力された場合に、前記画像データの分類を出力するように定義された機械学習モデルに視覚上判別しにくいノイズ成分を付加する処理を施した画像データ所定の割合で含む分類器用学習データを与え、前記機械学習モデルを分類器として学習する処理を実行させる。
本願に係る請求項4記載の学習方法では、画像データが入力された場合に、前記画像データの分類を出力するように定義された分類用の機械学習モデルに視覚上判別しにくいノイズ成分を付加する処理を施した画像データ所定の割合で含む生成器用学習データを与え、前記分類用の機械学習モデルの出力に基づいて、任意のデータが入力された場合に特定の画像データを出力するように定義された画像生成用の機械学習モデルを生成器として学習する処理を実行させる。
本願に係る請求項5記載の学習方法では、任意のデータが入力された場合に、特定の画像データを出力するように定義された画像生成用の機械学習モデルと、前記画像生成用の機械学習モデルから出力された画像データまたは他の画像データが入力された場合に、前記画像データの分類を出力するように定義された分類用の機械学習モデルとを用い視覚上判別しにくいノイズ成分を付加する処理を施した画像データ所定の割合で含む分類器用学習データおよび/または生成器用学習データを用い、前記分類用の機械学習モデル及び/または前記画像生成用の機械学習モデルをGAN(Generative Adversarial Networks)によって学習する処理を実行させる。
本願に係る請求項6記載の学習方法では、前記請求項5記載の学習方法に加え、前記画像生成用の機械学習モデルから出力された画像データと前記他の画像データの両方、またはいずれか一方の画像データのうち、所定の割合の画像データに視覚上判別しにくいノイズ成分を付加する処理を施した画像データである分類器用学習データを前記分類器用の機械学習モデルに与えて該分類用の機械学習モデルの損失関数を算出し、前記画像生成用の機械学習モデルから出力された画像データに変更を加えない生成器用学習データを前記分類器用の機械学習モデルに与えて画像生成器用の機械学習モデルの損失関数を算出する処理を実行させる。
本願に係る請求項7記載の学習方法では、前記請求項5記載の学習方法に加え、前記画像生成用の機械学習モデルから出力された画像データと前記他の画像データの両方、またはいずれか一方の画像データのうち、所定の割合の画像データに視覚上判別しにくいノイズ成分を付加する処理を施した画像データである生成器用学習データを前記分類用の機械学習モデルに与えて生成器用の機械学習モデルの損失関数を算出し、前記画像生成用の機械学習モデルから出力された画像データに変更を加えない生成器用学習データを前記分類器用の機械学習モデルに与えて画像形成用の機械学習モデルの損失関数を算出する処理を実行させる。
本願に係る請求項8記載の学習方法では、前記請求項1ないし7のいずれかに記載の学習方法に加え視覚上判別しにくいノイズ成分を付加する処理を施した画像データは、より視覚上判別しにくいノイズ成分から優先的に付加して作成する。
本願に係る請求項9記載のコンピュータプログラムは、コンピュータに、画像データが入力された場合に、前記画像データに基づく画像の分類を出力するように定義された分類用の機械学習モデルの定義データを記憶し、前記定義データに基づく分類用の機械学習モデルに視覚上判別しにくいノイズ成分を付加する処理を施した画像データ所定の割合で含む分類器用学習用データを与え、前記分類用の機械学習モデルを分類器として学習する処理を実行させる。
本願に係る請求項10記載のコンピュータプログラムは、コンピュータに、任意のデータが入力された場合に、特定の画像データを出力するように定義された画像生成用の機械学習モデルの定義データと、前記画像生成用の機械学習モデルから出力された画像データまたは他の画像データが入力された場合に、前記画像データに基づく画像の分類を出力するように定義された分類用の機械学習モデルの定義データとを記憶し、前記生成用の機械学習モデルから出力された画像データまたは前記分類用の機械学習モデルへ与える画像データのうち、所定の割合の画像データに視覚上判別しにくいノイズ成分を付加する処理施し、前記分類用の機械学習モデル及び前記画像生成用の機械学習モデルをGANによって学習する処理を実行させる。
本願に係る請求項11記載の分類器は、画像データを入力する入力部と、前記画像データに基づく画像の分類を出力する出力部と、機械学習モデルを用いて前記画像データに対して所定の処理を実行する処理実行部と、を備え視覚上判別しにくいノイズ成分を付加する処理を施した画像データ所定の割合で含む分類器用学習データと、該分類器用学習データに含まれる画像データの分類ラベルとを含む教師データによって学習される。
本願に係る請求項12記載の生成器は、任意のデータを入力する入力部と、前記データに基づいて生成される画像の画像データを出力する出力部と、機械学習モデルを用いて前記データに対して所定の処理を実行する処理実行部と、を備え、前記出力部から出力された画像データまたは前記機械学習モデルへ与える画像データのうち、所定の割合の画像データに視覚上判別しにくいノイズ成分を付加する処理を施した画像データ含む生成器用学習データを用いて学習されされる。

本願に係る請求項13記載の処理システムは、請求項11記載の分類器または請求項12記載の生成器へ、入力データを送信し、前記分類器、または生成器から出力されたデータを受信して利用する利用装置を備える。
本願に係る請求項14記載の処理システムは、請求項13記載の処理システムにおいて、前記利用装置は、テレビジョン受信機、表示装置、撮像装置、または表示部及び通信部を備える情報処理装置である。
本開示の学習方法、コンピュータプログラム、分類器、生成器、及び処理システムにより、人間の視覚を考慮させた学習を実行させ、画像データに対して視覚の仕組みを取り込んだ分類または生成を行なうことが可能になる。
本実施の形態における画像処理装置の構成を示すブロック図である。 画像処理装置の機能ブロック図である。 分類器及び生成器の概要を示す説明図である。 学習処理手順の一例を示すフローチャートである。 学習用の画像データの数のSN比に対する分布の一例を示す図である。 分類器の学習を説明するための図である。 生成器の学習を説明するための図である。 生成器の学習を説明するための図である。 分類器、生成器の学習を説明するための図である。 DCTを利用した視覚上判別しにくいノイズ成分を付加する処理を説明するための図である。 視覚上判別しにくいノイズ成分を画像データに付加した場合の画素値やDCT値等のデータの一例を表した図である。 DWTを利用した視覚上判別しにくいノイズ成分を付加する処理を説明するための図である。 条件付き加算処理を行う際の各データを表した図である。 帯域毎に設定された量子化幅でのスケール調整を説明するための図である。 (a)、(b)、(c)はノイズ画像データのDWT処理後の各画素の値と、量子化幅でスケール調整した後の各画素の値を示した図である。
以下、本願に係る学習方法、学習モデル、分類器、生成器、及び処理システムについて、実施の形態を示す図面を参照しつつ説明する。なお本実施の形態では、学習方法、学習モデル、分類器、生成器及び処理システムにおける処理を画像に対して処理を実行する画像処理装置に適用した例を挙げて説明する。
<画像処理装置>
図1は、本実施の形態における画像処理装置1の構成を示すブロック図であり、図2は画像処理装置1の機能ブロック図である。画像処理装置1は、制御部10、画像処理部11、記憶部12、通信部13、表示部14及び操作部15を備える。なお画像処理装置1及び画像処理装置1における動作について以下では、1台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
制御部10は、CPU(Central Processing Unit )等のプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。画像処理部11は、GPU(Graphics Processing Unit)または専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行する。なお、制御部10及び画像処理部11は、一体のハードウェアであってもよい。また制御部10及び画像処理部11は、CPU、GPU等のプロセッサ、メモリ、更には記憶部12及び通信部13を集積した1つのハードウェア(SoC:System On a Chip)として構成されていてもよい。
記憶部12は、ハードディスクまたはフラッシュメモリを用いる。記憶部12には、画像処理プログラム1P、機械学習ライブラリ121L、分類器ライブラリ122L及び生成器ライブラリ123Lが記憶されている。また記憶部12には、1つの学習毎に作成される分類器112または生成器113を定義する情報、学習済みの分類器112及び生成器113におけるパラメータ情報等が記憶される。
通信部13は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部13は、ネットワークカード、無線通信デバイスまたはキャリア通信用モジュールを用いる。
表示部14は、液晶パネルまたは有機EL(Electro Luminescence)ディプレイ等を用いる。表示部14は、制御部10の指示による画像処理部11での処理によって画像を表示することが可能である。
操作部15は、キーボードまたはマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。及び表示部14に表示されるソフトウェアボタン等を用いてもよい。操作部15は、ユーザによる操作情報を制御部10へ通知する。
読取部16は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体2に記憶してある画像処理プログラム2P、機械学習ライブラリ21L、分類器ライブラリ22L及び生成器ライブラリ23Lを読み取ることが可能である。記憶部12に記憶してある画像処理プログラム1P、機械学習ライブラリ121L、分類器ライブラリ122L及び生成器ライブラリ123Lは、記録媒体2から読取部16が読み取った画像処理プログラム2P、機械学習ライブラリ21L、分類器ライブラリ22L及び生成器ライブラリ23Lを制御部10が記憶部12に複製したものであってもよい。
画像処理装置1の制御部10は、記憶部12に記憶してある画像処理プログラム1Pに基づき、学習処理実行部101、及び画像処理実行部102として機能する。また画像処理部11は、記憶部12に記憶してある機械学習ライブラリ121L、定義データ、パラメータ情報、及び分類器ライブラリ122Lに基づきメモリを用いて分類器112として機能する。同様にして画像処理部11は、記憶部12に記憶してある機械学習ライブラリ121L、定義データ、パラメータ情報、及び生成器ライブラリ123Lに基づきメモリを用いて生成器113として機能する。なお、図2においては機械学習ライブラリ121Lによって分類器112、生成器113の機能が実現されているので、記憶部12には機械学習ライブラリ121Lの記載は省略している。
機械学習ライブラリ121Lで機械学習モデルとしての機能が与えられ、分類器ライブラリ122Lや生成器ライブラリ123Lにおり、機械学習モデルにおける、例えばレイヤー構成等の定義データや各ノードの重み等のパラメータが与えられる。また機械学習ライブラリ121Lは代表的なものとしてTensorFlowやCafe等があるが、これに限らずどのような機械学習ライブラリを用いても良い。
学習処理実行部101は、記憶部12に記憶してある機械学習ライブラリ121L、及び分類器ライブラリ122Lと、後述するように与えられる教師データとに基づき、機械学習モデルを分類器112とするべく、パラメータを学習する処理を行なう。また学習処理実行部101は、記憶部12に記憶してある機械学習ライブラリ121L、及び生成器ライブラリ123Lと、後述するように与えられる教師データとに基づき、機械学習モデルを生成器113とするべく、パラメータを学習する処理を行なう。これらの機械学習モデルは、例えばニューラルネットワークで構成されていてもよく、畳み込み層を含む畳み込みニューラルネットワーク(Convolutional Neural Network)で構成されていてもよい。
画像処理実行部102は、学習済みの分類器112を用い、画像データを与えて出力される結果を取得する処理を実行する。または、画像処理実行部102は、学習済みの生成器113を用い、種となるデータ(潜在変数と呼ばれるデータ、画像データ、またはテキストデータ等の任意のデータ)を生成器113に入力して生成される画像データを取得する処理を実行する。画像処理実行部102は、生成器113から出力された画像データを画像として描画し、表示部14へ出力させてもよい。
分類器112は、入力される画像データの特徴量を取り出し、取り出した特徴量に基づき、入力される画像データを分類する。本実施の形態では分類器112は、後述するように生成器113を学習するためのGAN(Generative Adversarial Networks)を構成するので、入力された画像データを、生成器113で生成された画像データ(生成器113由来の画像データ)と、それ以外の画像データとに分類する。生成器113は、入力される種となるデータから画像データを生成して出力する。分類器112は単体で用いられるように学習されてもよい。
<分類器・生成器>
図3は、機械学習モデルとしてニューラルネットワークを用いた場合の分類器112及び生成器113の概要を示す説明図であり、図4は、学習処理手順の一例を示すフローチャートである。図3及び図4を参照して学習処理実行部101による学習処理について説明する。図3に示すように、生成器113はGANによって学習される。このため図3に示すように生成器113の出力を入力するように分類器112及び生成器113が接続されている。GANによる学習とは生成器113で生成した生成データと教師データとを分類器112に入力し、例えば、分類器112における判定誤差が最小となるよう分類器112及び生成器113の重み係数等のパラメータを設定することで行われる。
分類器112は、学習されるパラメータにより定義される複数段の畳み込み層を含んで構成される。分類器112の構成はこれに限らず、プーリング層、全結合層等を含んでもよい。生成器113は、学習されるパラメータにより定義されるネットワークにより、入力された任意のデータから画像データを出力する。生成器113は、転置畳み込み層、畳み込み層、アップサンプリング等のネットワークを適宜組み合わせて画像データを出力するように構成されている。
制御部10は学習処理実行部101により、記憶部12の機械学習ライブラリ121L、分類器ライブラリ122L及び生成器ライブラリ123Lに基づき、ネットワークを図3のように定義したデータを作成しておく。制御部10は、学習処理実行部101の機能により作成された定義データに基づいて、生成器113及び分類器112を作成する(ステップS1)。
制御部10は、生成器113由来の画像データ群として、種となるデータから未知のクラスを予測する予測メソッドによって画像データ群DGを生成器113から出力させる(ステップS2)。制御部10は、出力された画像データ群DGに生成器113で作成された画像データであることを示すラベルを付与する(ステップS3)。
制御部10は、生成器113由来でない画像データ群の教師データとして、分類器112の学習用に予め用意してある画像データTDGを用い、変更を加えた画像データと、変更を加えていない画像データとを設定情報に基づいて取得する(ステップS4)。ステップS4において制御部10は、予め用意してある画像データの内の所定の割合の画像データに対し、図3におけるフィルタを経由させるようにネットワークを定義してもよい。予め用意してある画像データは、学習の目的に応じた被写体が写っている写真画像、目的に応じたイラストが含まれている画像等である。制御部10は、教師データとして得られた画像データ(TDG、FTDG)に、生成器113由来でない画像データであることを示すラベルを付与する(ステップS5)。
<変更を加えた画像データ>
ステップS4における「変更を加えた画像データ」は、人間の視覚上判別しにくい成分を欠損させる処理を画像に行なうフィルタ、及び視覚上判別しにくいノイズ成分を付加する処理を画像に行なうフィルタの両方、またはいずれか一方のフィルタによって取得される。分類器112の学習用の画像データを作成するフィルタの一例として、デジタル画像の圧縮アルゴリズムを適用する。フィルタは例えば、JPEG(Joint Photographic Experts Group)におけるDCT(Discrete Cosine Transform ;離散コサイン変換)、またはWavelet変換とすることが可能である。
<視覚上判別しにくい成分の欠損>
離散コサイン変換やWavelet変換を用いると、人間の視覚上判別しにくい成分を限定して除去することができる。例えば、離散コサイン変換を用いた場合はデータを直交変換した結果に対し、空間周波数の高周波成分を粗く量子化すればよく、またWavelet変換を用いた場合は、データを直交変換して分割された帯域のうち高周波帯域の小さい成分をカットすればよい。このように離散コサイン変換を行った後の量子化レベルやWavelet変換を行った後の帯域フィルタを制御し、さらにこれらの変換出力を逆離散コサイン変換や逆Wavelet変換を用いて処理することで、視覚上判別しにくい成分が削減された画像データを得る。
このように離散コサイン変換やWavelet変換を用いることは、視覚上判別しにくい成分(高周波成分、高周波帯域の小さい成分)から優先的に欠損させた画像データを得ているということができる。なお、学習処理実行部101は離散コサイン変換やWavelet変換以外のフィルタを用いても良い。例えば、RGBデータをYCCデータに変換し、チャンネル毎に量子化することで情報が削減されている画像データを得ても良い。このように視覚上判別しにくい成分を欠損させた画像データを復号することでフィルタ処理が行われた画像データFTDGを得、これを分類器112に入力する。
ステップS4における「設定情報」は、学習用に用いられる画像データ群に含まれる、変更を加えた画像データFTDGの割合、または変更の度合いに対する数の分布として記憶部12に定義データとして定義されている。一例では、変更を加えた画像データFTDGの変更の度合いは一定の水準であり、変更されている画像データFTDGが分類器112に与えられる画像データの中に所定の割合含まれるように定義されている。他の例では、学習用の画像データの全てが、変更を加えられている画像データである。また、視覚上判別し易い部分の重要度を上げるようにして、チャネルまたは帯域に視覚的な重みを与えた画像データ群を用いてもよい。
図5は、フィルタ処理が行われた学習用の画像データ(教師データ)の数と画像の変更に関連するSN比に対する分布の一例を示す図である。この図においては削減する情報量が多いほど、あるいは付加するノイズが多いほどSN比が小さいものとして表示している。図5Aに示すように、SN比が低い、即ち、変更する情報量が多い画像データを少なく、変更する情報量が少ない画像データは多くなるような数の分布として定義されていてもよい。変更する情報量の多さは、量子化の荒さなどで調整すればよい。
また図5Aに示したような所定の分布を有する学習用データ以外にも、図5Bに示したように、変更した情報量が一律の画像データ群によって学習が行なわれてもよい。また、図5Cに示すように、変更する情報量の大小にかかわらず、画像データの数が一定となるような分布を有する学習用データを用いて学習が行なわれてもよい。その他、変更した情報量が一律の画像データ群を50%、変更していない画像データ群を50%含む等、適宜設定することができる。
<視覚上判別しにくい成分の付加>
次に視覚上判別しにくいノイズ成分を付加する処理について説明する。図10は視覚上判別しにくいノイズ成分を付加する処理のうち、DCT変換を利用した場合の処理を説明するための図、図11は図10に示したフローを用いて視覚上判別しにくいノイズ成分を画像データに付加した場合の画素値やDCT値等のデータの一例を表した図であり、後述するノイズ強度kは0.1としている。なお、図11には図10に対応したステップ番号を各データ欄に記載する。
まず、教師データの元となる元画像データを用意し(ステップS20)、離散コサイン変換を行って(ステップS21)、元画像のDCT係数を得る(ステップS22)。元画像の画素値は0~1の範囲で、8ビットで表現した場合には0~255の範囲となる。
前述した、人間の視覚上判別しにくい成分を欠損させる処理では元画像のDCT係数のうち、低周波成分のDCT係数を利用して逆DCT処理を行った画像データを機械学習に利用したが、本実施の形態では全てのDCT係数を利用する。なお、全てのDCT係数ではなく、一部が欠損したDCT係数を用いても良い。
一方、DCT処理を行った元画像データと同じサイズのノイズ画像を用意する(ステップS23)。ここで用いるノイズ画像は、ガウシアンノイズ、パーリンノイズ、均等分布ノイズ等、どのようなノイズ画像でも利用可能である。ノイズ画像の各画素のダイナミックレンジは-1~+1の範囲で、ダイナミックレンジの中心は0であり、かつ、ノイズ強度kを任意に調整することができる。このようなノイズ画像データに離散コサイン変換を行い(ステップS24)、ノイズ画像のDCT係数を得る(ステップS25)。
その後、ノイズ画像DCT係数を帯域フィルタ処理する(ステップS26)。帯域フィルタ処理は量子化係数乗算処理(ステップS26a)とスケール調整(ステップS26b)により行われる。より詳細には、量子化係数乗算処理はステップS25で得られたノイズ画像のDCT係数に、例えば画像データをJPEG形式に変換する際に用いる量子化テーブルと同じテーブルを用い、各量子化係数を乗算することで行われる。またステップS26bのスケール調整では、例えば、乗算処理に用いた係数の最大値近辺の数値で各係数を除することで行われる。すなわち、輝度成分については、輝度成分用の量子化テーブルの最大値が121なので、例えば128で除算する。また色差成分についても輝度成分用に用いた除数と同じ除数を用いる。このように量子化テーブルの数値を乗算し、それを各係数の最大値近辺の値で除算することで、量子化の際の数値まるめ(数値をある範囲に収める)に比例するノイズが加わり、視覚上判別しにくい成分が多いノイズ画像のDCT係数を得ることができる(ステップS27)。
次に、ステップS22で得られた元画像のDCT係数とステップS27で得られた視覚重み付きノイズ画像DCT係数とを加算し(ステップS28)、ノイズ付加されたDCT係数を得(ステップS29)、さらに逆DCT処理を行う(ステップS30)ことで、ノイズ付き画像を得る(ステップS31)。
このように生成したノイズ付き画像を教師データとして、生成器113、分類器112に加えることで、視覚上判別しにくいノイズ成分が多く付加された画像について機械学習を行うことができる。なお、上記説明ではDCT変換を利用して人間の視覚上判別しにくい成分を付加したが、DCT変換の場合にはノイズブロックが発生する可能性があるため、修正離散コサイン変換(modified discrete cosine transform ;MDCT)を用い、ブロックをオーバーラップさせてノイズ付加を行うようにしても良い。また、IDCT処理する場合、画素値を0~255の範囲でクリッピングする必要があるので、周波数成分で取り扱っている値、例えば加算処理(ステップS28)において各画素の値が規定の上限値を超える場合であってもクリッピングを行わず、そのままの値を利用しても良い。
次に、視覚上判別しにくいノイズ成分を付加する処理のうち、DWT変換を利用した場合の処理について図12~図15を用いて説明する。図12は視覚上判別しにくいノイズ成分を付加する処理のうち、DWT変換を利用した場合の処理を説明するための図である。
まず、教師データの元となる元画像データを用意し(ステップS40)、離散ウェーブレット変換(Discrete Wavelet Transform:DWT)を行って(ステップS41)、元画像の帯域データを得る(ステップS42)。元画像の画素値は0~1の範囲で、8ビットで表現した場合には0~255の範囲となる。また、DWT変換後の元画像帯域データは、低周波成分、水平方向の高周波成分、垂直方向の高周波成分、水平・垂直方向の高周波成分のサブバンドに分解される(ステップS42において、複数の元画像帯域データが記載されているのはサブバンドを表現したものである)。
一方、DWT処理を行った元画像データと同じサイズのNo.1ノイズ画像を用意する(ステップS43)。ここで用いるノイズ画像は、ガウシアンノイズ、パーリンノイズ、均等分布ノイズ等、どのようなノイズ画像でも利用可能である。ノイズ画像の各画素のダイナミックレンジは-1~+1の範囲で、ダイナミックレンジの中心は0であり、かつ、ノイズ強度kを任意に調整することができる。このようなノイズ画像データに離散ウェーブレット変換を行い(ステップS44)、No.1ノイズ画像の帯域データを得る(ステップS45)。
その後、元画像帯域データとNo.1ノイズ画像帯域データを用い、条件付き加算処理を行う。条件付き加算処理は、元画像の帯域データについて、帯域毎に設定したスレッショルド以下の帯域データの有無を判定し(ステップS46)、スレッショルド以下の元画像帯域データに対し、これと対応する位置のNo.1ノイズ画像帯域データを選択し(ステップS47)、前記スレッショルド以下の元画像帯域データに前記選択されたNo.1ノイズ画像帯域データを加算する(ステップS48)。
図13は条件付き加算処理を行う際の各データを表したものであり、説明の便宜上、8×8のブロックとして表示している。(a)は元画像をDWT処理して得られた帯域データ1HH(高周波帯域)の値を示し、(b)はノイズ強度kを0.1としたノイズ画像をDWT処理して得られた帯域データ1HH(高周波帯域)の値を示し、(c)は条件付き加算後の元画像帯域データを示している。
条件付き加算を行う際の元画像帯域データのスレッショルド値を、例えば±15に設定すると、(a)に示した数値の網掛けで表示した場所の数値がスレッショルド値以下であることがわかる。このスレッショルド値以下の数値であるか否かがステップS46で実行され、さらにスレッショルド値以下と判定された元画像帯域データに相当する位置のNo.1ノイズ画像帯域データが(b)に示すようにステップS47で選択される。その後、ステップS48で元画像帯域データのデータ値にNo.1ノイズ画像帯域データのデータ値が加算され、(c)に示すようなノイズを条件付きで加算した元画像帯域データを得る。一例として、x3・y1のデータは元画像帯域データの数値がスレッショルド値以下の-13であり、同じ場所のNo.1ノイズ画像帯域データは2であるので、加算されて-11となっている。同様にx2・y3の元画像帯域データの数値は-9で、同じ位置のNo.1ノイズ画像帯域データの数値は-7であるので-16が格納されている。これと同じ処理を帯域データ毎に行い、条件付きノイズ加算元画像帯域データを得る(ステップS49)。この条件付き加算処理はDWT処理の最終段のLLに対しては行われない。例えば、帯域分割がレベル2の場合、2LL以外の帯域データに対して条件付き加算処理が行われる。また、条件付き加算におけるスレッショルド値は高周波帯域になるにつれて値が大きくなるよう設定する。これにより視覚上影響のない帯域データについてはノイズ画像の帯域データが加算される傾向が強くなる。すなわち、各帯域データのスレッショルド値は帯域データ毎に1HL、1LH<1HHとなるよう設定するのが好ましい。また、スレッショルド値とノイズ強度kは適宜調整し、視覚上影響のないデータとすれば良い。さらに、ノイズが加算された画像データの帯域データの値が所定のスレッショルド値を超える場合は、当該スレッショルド値でクリップすれば良い。
次に、ステップS43で利用したものと異なるNo.2ノイズ画像データを準備する(ステップS50)。ここで用いるNo.2ノイズ画像も上記No.1ノイズ画像と同じくガウシアンノイズ等、どのようなノイズ画像であっても利用可能であり、ノイズ画像の各画素のダイナミックレンジは-1~+1の範囲で、ダイナミックレンジの中心は0であり、かつ、ノイズ強度kを任意に調整することができる。
No.2ノイズ画像データに離散ウェーブレット変換を行い(ステップS51)、No.2ノイズ画像の帯域データを得る(ステップS52)。なお、No.2ノイズ画像データのDWT処理結果に対し、各帯域に設定された量子化幅の範囲でスケール調整を行う。
図14は帯域毎に設定された量子化幅でのスケール調整を説明するための図である。DWT処理によりレベル3のサブバンドが生成された場合、各レベルにおける量子化幅は、例えば、倍々の関係となっている。したがって、レベル1の量子化幅の単位が1とすれば、レベル2の量子化幅の単位は1/2、レベル3の量子化幅の単位は1/4である。
図15(a)、(b)、(c)はノイズ強度kを0.1程度に設定したノイズ画像データのDWT処理後の各画素の値と、量子化幅でスケール調整した後の各画素の値を示したものであり、(a)は1HH、1HL、1LHの帯域データおよびスケール調整後の帯域データ、(b)は2HH、2HL、2LHの帯域データおよびスケール調整後の帯域データ、(c)は3HH、3HL、3LH、3LLの帯域データおよびスケール調整後の帯域データである。なお、レベル3の場合を示しているが、レベル1、レベル2やレベル4以上の帯域分割を行っても良い。
同図に示すように、ノイズ画像データをDWT処理すると、画素値は高周波側に高く、低周波になるにつれ低くなる。また、前記量子化幅によるスケール調整により、高周波側の帯域データの絶対値が大きく、低周波になるにつれてその絶対値は小さくなる。
このスケール調整したNo.2ノイズ画像帯域データを前記条件付きノイズ加算元画像帯域データに加算することで(ステップS53)、ノイズ付加帯域データを得(ステップS54)、このノイズ付加帯域データを逆DWT処理(ステップS55)することでノイズ付き画像が得られる(ステップS56)。スケール調整したNo.2ノイズ画像帯域データを条件付きノイズ加算元画像帯域データに加算する際、特に高周波帯域のノイズ画像データの画素値は基準値を上回る可能性がある。すなわち、高周波帯域のノイズ画像データの画素値は低周波帯域のノイズ画像データの画素値より高い傾向にあり、また高周波帯域の画素値はスケール調整により圧縮されにくいためである。したがって、加算後に基準値を上回る場合にはその位置のデータを最大値にクリップすれば良い。例えば、データを0~255で表現するとした場合には、「255」を基準値とすることで、最大値255にクリップすることができる。
このように生成したノイズ付き画像を教師データとして、生成器113、分類器112に加えることで、視覚上判別しにくいノイズ成分が多く付加された画像について機械学習を行うことができる。なお、上記実施形態ではNo.2ノイズ画像データをDWT処理し、No.2ノイズ画像帯域データを得、これをステップS53にて条件付きノイズ加算元画像帯域データに加算したが、No.2ノイズ画像帯域データ(S52)を逆離散ウェーブレット変換すると共に、条件付きノイズ加算元画像データも逆離散ウェーブレット変換し、それぞれ画像データを得た上で、両者の画素値を合算することでノイズ付き画像を得るようにしても前述した実施の形態と等価の結果が得られる。また、IDWT処理する場合、画素値を0~255の範囲でクリッピングする必要があるので、例えば、条件付き加算処理(ステップS48)や加算処理(ステップS53)等、周波数成分で扱っているデータについてはクリッピングを行わず、そのままの値を利用しても良い。
図3及び図4に戻り説明を続ける。
<分類器の学習>
制御部10は学習処理実行部101の機能により、ステップS3及びステップS5により得られるラベル付きの画像データ群(分類器用学習データ)を分類器112に与え(ステップS6)、分類器112の損失関数を算出して学習させる(ステップS7)。これにより分類器112は、上述したように、予め用意されている画像データについては変更を加えた画像データを所定の割合で含む学習用の画像データ群を用いて学習される。
分類器112の学習は図6Aに示すように、生成器113のパラメータを固定して生成した複数の画像データDGを分類器112に入力し、分類器112が「偽判定」、即ち、生成器由来の画像データであると判定するよう分類器112のパラメータを設定する。また図6Bに示すようにスイッチSW1を切り換え、分類器112に入力する画像データを教師データTDGとし、分類器112が「真判定」となるように分類器112のパラメータを設定する。
なお、教師データを用いて分類器112を学習させる際、スイッチSW2を切り替えることで、教師データとしての画像データTDGと、フィルタTDFを介して視覚上判別しにくい成分が変更された画像データFTDGとを分類器112に入力する。教師データとしての画像データTDG及びFTDGの混合割合は例えば図5に示したものを用いれば良い。各スイッチSWは説明の便宜上記載しているが、制御部10により入力データを切り替えることでこの機能は実現している。また、分類器112を学習する際に用いる画像データ群(DG、TDG、FTDG、FDG)は分類器用学習データとして機能する。さらに、図6A、Bでは図示を省略しているが、後述する図9に示すように、生成器113からの出力である画像データDGにフィルタ処理を施し、情報量が変更された画像データFDGを用いても良い。
<生成器の学習>
続いて制御部10は、学習処理実行部101の機能により、ステップS7の後の分類器112を含むネットワークの内の生成器113に、種となるデータを与える(ステップS8)。
制御部10は、ステップS8によって生成器113から出力される画像データ群を分類器112に入力し、分類器112の判定結果に基づいて生成器113における損失関数を算出して学習させる(ステップS9)。このとき制御部10は、分類器112の重み係数は固定とし、分類器112からの真偽判定結果である出力から、生成器113のパラメータを更新する。
図7は生成器113の学習を説明するための図である。生成器113を学習する際には種となる任意のデータを生成器113に与え、生成器113にて生成した複数の画像データDGを分類器112に供給し、分類器112が「真判定」となるよう生成器113のパラメータを設定する。
また、生成器113を学習する場合の損失関数は、分類器112のパラメータは教師データとして情報量が変更されていない画像データのみを利用して分類器112を学習した結果のパラメータセットを用いてもよく、あるいは、情報量が変更されていない画像データと情報量が変更された画像データとを用いて分類器112を学習した結果のパラメータセットを用いても良い。さらに、情報量が変更された画像データのみを用いて分類器112を学習した結果のパラメータセットを用いても良い。いずれの場合であっても、生成器113を学習する際は分類器112のパラメータを固定して行うと生成器113のパラメータを収束させ易くなる。生成器113の学習において、情報量が変更されていないデータとは画像データDG、教師データTDGであり、情報量が変更されているデータとは教師データTDGをフィルタTDFを介して得られた画像データFTDGである。これら、生成器113を学習する際に用いる画像データ群(DG、TDG、FTDG、FDG)は生成器用学習データとして機能する。
<分類器・生成器の学習の具体例>
生成器113の学習では、どのようなデータが入力されて、どのようなデータが得られるかに応じて教師データを設定する必要がある。例えば、写真データを種データとして生成器113に入力し、該生成器113では入力した写真データから漫画(カートゥーン)データを生成する場合、“写真”という特徴をもったデータと、“漫画”という特徴を持ったデータを教師データとして利用してもよい。
ここで、生成器113からの出力を漫画データに近づける為には、生成器113からの出力を教師データの漫画データと比較する必要があるが、これらのデータは二乗平均誤差などで直接比較することはできない。そのため、例えば、生成器113で生成された画像データ群について、生成器113由来の画像であることを表すラベルを付し、教師データの漫画データについては、漫画データである(真である)ことを表すラベルを付し、分類器を学習する。
そのように学習された分類器112に対して、教師データの写真データを生成器113に入力して得られたデータを、分類器112の出力が「真判定」となるよう生成器113の損失関数のパラメータを設定するようにしても良い。
一方、生成器113の入力が写真データで、出力も写真データである場合や、入力が漫画データで出力も漫画データである場合等、入出力で対となる教師データが得られる場合、生成器113からの出力と教師データとを直接比較して学習することができる。
より具体的には、生成器113において画像データの解像度を上げる処理を行う場合、予め高解像度の画像を教師データとして用意しておくと共に、該高解像度の画像の解像度を低下させた画像データを種データとして生成器113に入力し、生成器113より出力される生成された高解像度の画像データとオリジナルの高解像度データとを利用することで、生成器113の学習が可能である。
この場合、生成器113からの出力と、出力側の教師データとを分類器112に入力した場合の差分によって生成器113のパラメータを更新すれば良い。また、図8に示すように、スイッチSW1を切り替え、教師データとなるオリジナルの画像データと、生成器113から出力される画像データとを直接的に比較した差分を分類器112に入力し、その結果に基づいて生成器113を学習させてもよい。
なお、これらの場合においても、オリジナルの高解像度の教師データのみならず、フィルタTDFを介した情報量を削減した教師データを利用することができる。情報量を削減した教師データの枚数や各教師データにおける情報量の削減度合は任意に設定可能である。
さらに、分類器112の学習や生成器113の学習を行う際、図9に示したように生成器113で生成した画像データDGをフィルタDFに入力し、スイッチSW3を切り換えることで、生成された画像データから視覚上判別しにくい成分の情報量を削減した画像データFDGを分類器112に入力して学習を実行しても良い。
前述したように、分類器112の学習時は、生成器113の学習は行なわず、生成器113の学習の際には分類器112の重み等のパラメータは固定させて実行すると、分類器112及び生成器113によって定義される損失関数が収束しやすくなる。ただし、分類器112の学習と生成器113の学習とを同時に行なうように、定義データを作成して実行してもよい。
制御部10は、学習処理実行部101の機能により、分類器112の出力結果が所定基準を満たすか否かを判断する(ステップS10)。制御部10は、所定基準を満たさないと判断された場合(S10:NO)、処理をステップS2に戻し、ステップS2-S9の処理を繰り返し実行する。
ステップS10において所定基準を満たすと判断された場合(S10:YES)、学習処理を終了させる。ステップS10における「所定基準」は例えば、分類器112の精度が半分、即ち生成器113由来の画像データであることを正確に分類できなくなったか否かである。他の例では「所定基準」は学習が所定回数以上であるかである。学習が十分に進行したか否かを判断するために他の基準を用いてもよい。
視覚上、判別しにくい成分の変更が加えられているデータの使用は以下のようにしてもよい。GANにおける損失関数は、分類器112の成分と生成器113の成分とを含む。図4のフローチャートにおけるステップS7の分類器112の学習時には生成器113の成分を固定させて分類器112の成分を最適化(最大化)させ、ステップS9の生成器113の学習時には分類器112の成分を固定し、生成器113の成分のみが用いられる。
この場合、学習処理実行部101として機能する制御部10は、ステップS7における分類器112の学習時の損失関数の演算にあたって、ステップS4に代替して、学習用に予め用意してある画像データに対して情報量を削減させずに取得し、その代わりに、ステップS3で取得する生成器113から出力される画像データの内の所定の割合の画像データに変更を加え、これらを分類器112に与えてもよい。
この場合、ステップS9における生成器113の学習時の損失関数の演算を、生成器113から出力される画像データに対して変更を施さず(図3における生成器113から分類器112の間にてフィルタを経由せず)に行なう。
また学習処理実行部101として機能する制御部10は、ステップS7における分類器112の学習時の損失関数の演算にあたって、ステップS4における予め用意してある画像データに対し一律の変更を加え、更に、ステップS3で取得する生成器113から出力される画像データに対しても、所定の割合の画像データに変更を加えて、これらを分類器112に与えてもよい。
また逆に、学習処理実行部101として機能する制御部10は、生成器113を学習させる場合、ステップS9における生成器113の学習時の損失関数の演算を、出力される画像データの内の所定の割合の画像データに変更を加えて行なってもよい。
この場合ステップS7における分類器112の学習時の損失関数の演算は、予め用意されている画像データと生成器113から出力される画像データとの両者またはいずれか一方について、情報の変更を行わずに行なう。
このようにデータに変更が加えられている画像データを用いて学習することにより、生成器113によって生成される画像データは、データとしては劣化していても見た目が十分な品質を持つデータとなり得る。つまり、視覚に影響を及ぼさない要素に対する学習を省くことで、学習される機械学習モデルに、人間の視覚の仕組みを取り入れることができる。視覚に影響を及ぼさない要素を省く処理として、本実施の形態で示したようにDCTといったこれまでに視覚的に劣化を感じさせない程度にデータを削減させる実績のある処理を施すとよい。
なお本実施の形態では、分類器112は生成器113の学習のために使用され、生成器113で生成された画像と、本物の画像とを分類するものとして学習された。これにより、画像処理実行部102は学習済みの生成器113を用いて、与えられた種となるデータを用いて、視覚に影響を及ぼさない情報を省いてSN比は低くとも、見た目として遜色のない画像データを作成することができる。
これに限らず、分類器112は単体で使用するものとして学習されてもよい。この場合、分類器112の使用目的に合わせて選択された学習用データの少なくとも一部に、人間の視覚上判別しにくい成分を欠損させる処理を施した画像データ、及び視覚上判別しにくいノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を用いる。その他、機械学習モデルでの画像データに関する学習時に、視覚に影響を及ぼさない要素に対する学習を省くことで、学習される機械学習モデルに、人間の視覚の仕組みを取り入れることができる。画像処理実行部102は学習済みの分類器112を用い、情報量が変更された画像データであるか否かに関わらず、分類目的に適合する画像であるか否かを判別することができる。
また、学習済みの分類器112または生成器113から得られるデータを利用した処理システムで、種々のサービスを提供することもできる。利用してサービスを提供する装置は、テレビジョン放送を受信して表示するテレビジョン受信機、画像を表示する表示装置、カメラである撮像装置等である。また、表示部及び通信部を備えて、分類器112または生成器113と情報を送受信できる情報処理装置であり、例えば所謂スマートフォン、ゲーム機器、オーディオ機器等であってもよい。
なお、上記実施の形態では、機械学習モデルとしてGANを構成し、画像データを生成、分類する例を挙げて説明したが、これに限定されるものではなく、例えば、音声データを利用した機械学習モデルにおいては、人間の聴覚で判別しにくい情報を削減したデータを用いて学習する等の応用が可能である。
なお、上述のように開示された本実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 画像処理装置
10 制御部
101 学習処理実行部
102 画像処理実行部
11 画像処理部
112 分類器
113 生成器
12 記憶部
1P 画像処理プログラム
121L 機械学習ライブラリ
122L 分類器ライブラリ
123L 生成器ライブラリ
DG 画像データ群
TDG 教師画像データ群
FTDG フィルタ処理を施した教師画像データ群
TDF、DF フィルタ
SW スイッチ

Claims (14)

  1. 画像データを入力もしくは出力する機械学習モデルを、視覚上判別しにくい成分を欠損させる処理を施した画像データ及び視覚に合わせて重み付けされたノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を所定の割合で含む学習データで学習する、学習方法。
  2. 画像データを出力する機械学習モデルの損失関数を、前記機械学習モデルから出力される画像データまたは前記機械学習モデルへ与える画像データのうち、所定の割合の画像データに視覚上判別しにくい成分を欠損させる処理を施した画像データと、視覚に合わせて重み付けされたノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を所定の割合で含む学習データから算出する
    ことを特徴とする請求項1記載の学習方法。
  3. 画像データが入力された場合に、前記画像データの分類を出力するように定義された機械学習モデルに、
    視覚上判別しにくい成分を欠損させる処理を施した画像データと、視覚に合わせて重み付けされたノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を所定の割合で含む分類器用学習データを与え、
    前記機械学習モデルを分類器として学習する、学習方法。
  4. 画像データが入力された場合に、前記画像データの分類を出力するように定義された分類用の機械学習モデルに、視覚上判別しにくい成分を欠損させる処理を施した画像データと、視覚に合わせて重み付けされたノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を所定の割合で含む生成器用学習データを与え、
    前記分類用の機械学習モデルの出力に基づいて、任意のデータが入力された場合に特定の画像データを出力するように定義された画像生成用の機械学習モデルを生成器として学習する、学習方法。
  5. 任意のデータが入力された場合に、特定の画像データを出力するように定義された画像生成用の機械学習モデルと、
    前記画像生成用の機械学習モデルから出力された画像データまたは他の画像データが入力された場合に、前記画像データの分類を出力するように定義された分類用の機械学習モデルとを用い、
    視覚上判別しにくい成分を欠損させる処理を施した画像データと、視覚に合わせて重み付けされたノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を所定の割合で含む分類器用学習データおよび/または生成器用学習データを用い、
    前記分類用の機械学習モデル及び/または前記画像生成用の機械学習モデルをGAN(Generative Adversarial Networks)によって学習する、学習方法。
  6. 任意のデータが入力された場合に、特定の画像データを出力するように定義された画像生成用の機械学習モデルと、
    前記画像生成用の機械学習モデルから出力された画像データまたは他の画像データが入力された場合に、前記画像データの分類を出力するように定義された分類用の機械学習モデルとを用い、
    視覚上判別しにくい成分を欠損させる処理を施した画像データと、視覚上判別しにくいノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を所定の割合で含む分類器用学習データおよび/または生成器用学習データを用い、
    前記分類用の機械学習モデル及び/または前記画像生成用の機械学習モデルをGAN(Generative Adversarial Networks)によって学習する、学習方法であって、
    前記画像生成用の機械学習モデルから出力された画像データと前記他の画像データの両方、またはいずれか一方の画像データのうち、所定の割合の画像データに、視覚上判別しにくい成分を欠損させる処理を施した画像データ及び/または視覚上判別しにくいノイズ成分を付加する処理を施した画像データである分類器用学習データを前記分類の機械学習モデルに与えて該分類用の機械学習モデルの損失関数を算出し、
    前記画像生成用の機械学習モデルから出力された画像データに変更を加えない生成器用学習データを前記分類の機械学習モデルに与えて画像生成の機械学習モデルの損失関数を算出する
    ことを特徴とす学習方法。
  7. 任意のデータが入力された場合に、特定の画像データを出力するように定義された画像生成用の機械学習モデルと、
    前記画像生成用の機械学習モデルから出力された画像データまたは他の画像データが入力された場合に、前記画像データの分類を出力するように定義された分類用の機械学習モデルとを用い、
    視覚上判別しにくい成分を欠損させる処理を施した画像データと、視覚上判別しにくいノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を所定の割合で含む分類器用学習データおよび/または生成器用学習データを用い、
    前記分類用の機械学習モデル及び/または前記画像生成用の機械学習モデルをGAN(Generative Adversarial Networks)によって学習する、学習方法であって、
    前記画像生成用の機械学習モデルから出力された画像データと前記他の画像データの両方、またはいずれか一方の画像データのうち、所定の割合の画像データに、視覚上判別しにくい成分を欠損させる処理を施した画像データ及び/または視覚上判別しにくいノイズ成分を付加する処理を施した画像データである生成器用学習データを前記分類用の機械学習モデルに与えて画像生成の機械学習モデルの損失関数を算出し、
    前記画像生成用の機械学習モデルから出力された画像データに変更を加えない生成器用学習データを前記分類の機械学習モデルに与えて画像成用の機械学習モデルの損失関数を算出する
    ことを特徴とす学習方法。
  8. 画像データを入力もしくは出力する機械学習モデルを、視覚上判別しにくい成分を欠損させる処理を施した画像データ及び視覚上判別しにくいノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を所定の割合で含む学習データで学習する、学習方法であって、
    視覚上判別しにくい成分を欠損させる処理を施した画像データと、視覚上判別しにくいノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方は、より視覚上判別しにくい成分から優先的に欠損させて、または、より視覚上判別しにくいノイズ成分から優先的に付加して作成する
    ことを特徴とす学習方法。
  9. コンピュータに、
    画像データが入力された場合に、前記画像データに基づく画像の分類を出力するように定義された分類用の機械学習モデルの定義データを記憶し、
    前記定義データに基づく分類用の機械学習モデルに、視覚上判別しにくい成分を欠損させる処理を施した画像データと、視覚に合わせて重み付けされたノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を所定の割合で含む分類器用学習用データを与え、前記分類用の機械学習モデルを分類器として学習する
    処理を実行させるコンピュータプログラム。
  10. コンピュータに、
    任意のデータが入力された場合に、特定の画像データを出力するように定義された画像生成用の機械学習モデルの定義データと、
    前記画像生成用の機械学習モデルから出力された画像データまたは他の画像データが入力された場合に、前記画像データに基づく画像の分類を出力するように定義された分類用の機械学習モデルの定義データとを記憶し、
    前記生成用の機械学習モデルから出力された画像データまたは前記分類用の機械学習モデルへ与える画像データのうち、所定の割合の画像データに、視覚上判別しにくい成分を欠損させる処理と、視覚に合わせて重み付けされたノイズ成分を付加する処理の両方、またはいずれか一方を施し、前記分類用の機械学習モデル及び前記画像生成用の機械学習モデルをGANによって学習する
    処理を実行させるコンピュータプログラム。
  11. 画像データを入力する入力部と、
    前記画像データに基づく画像の分類を出力する出力部と、
    機械学習モデルを用いて前記画像データに対して所定の処理を実行する処理実行部と、
    を備え、
    視覚上判別しにくい成分を欠損させる処理を施した画像データと、視覚に合わせて重み付けされたノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を所定の割合で含む分類器用学習データと、該分類器用学習データに含まれる画像データの分類ラベルとを含む教師データによって学習され、
    コンピュータに、入力された画像データの分類を出力する分類器。
  12. 任意のデータを入力する入力部と、
    前記データに基づいて生成される画像の画像データを出力する出力部と、
    機械学習モデルを用いて前記データに対して所定の処理を実行する処理実行部と、
    を備え、
    前記出力部から出力された画像データまたは前記機械学習モデルへ与える画像データのうち、所定の割合の画像データに、視覚上判別しにくい成分を欠損させる処理を施した画像データと、視覚に合わせて重み付けされたノイズ成分を付加する処理を施した画像データの両方、またはいずれか一方を含む生成器用学習データを用いて学習され、
    コンピュータに、入力された任意のデータに基づく画像データを出力する生成器。
  13. 請求項11記載の分類器、または請求項12記載の生成器へ、入力データを送信し、前記分類器、または生成器から出力されたデータを受信して利用する利用装置を備える処理システム。
  14. 前記利用装置は、テレビジョン受信機、表示装置、撮像装置、または表示部及び通信部を備える情報処理装置である請求項13に記載の処理システム。
JP2020025344A 2019-06-17 2020-02-18 学習方法、コンピュータプログラム、分類器、生成器、及び処理システム Active JP7075674B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/902,049 US11842283B2 (en) 2019-06-17 2020-06-15 Learning method, computer program, classifier, generator, and processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019112371 2019-06-17
JP2019112371 2019-06-17

Publications (2)

Publication Number Publication Date
JP2020205030A JP2020205030A (ja) 2020-12-24
JP7075674B2 true JP7075674B2 (ja) 2022-05-26

Family

ID=73837457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020025344A Active JP7075674B2 (ja) 2019-06-17 2020-02-18 学習方法、コンピュータプログラム、分類器、生成器、及び処理システム

Country Status (1)

Country Link
JP (1) JP7075674B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023176348A (ja) * 2022-05-31 2023-12-13 浜松ホトニクス株式会社 画像処理装置および画像処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316281A1 (en) 2016-04-28 2017-11-02 Microsoft Technology Licensing, Llc Neural network image classifier
JP2018137275A (ja) 2017-02-20 2018-08-30 株式会社日立ハイテクノロジーズ 試料観察装置および試料観察方法
JP2019504659A (ja) 2015-11-29 2019-02-21 アーテリーズ インコーポレイテッド 自動化された心臓ボリュームセグメンテーション
US20190138838A1 (en) 2017-11-09 2019-05-09 Boe Technology Group Co., Ltd. Image processing method and processing device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019504659A (ja) 2015-11-29 2019-02-21 アーテリーズ インコーポレイテッド 自動化された心臓ボリュームセグメンテーション
US20170316281A1 (en) 2016-04-28 2017-11-02 Microsoft Technology Licensing, Llc Neural network image classifier
JP2018137275A (ja) 2017-02-20 2018-08-30 株式会社日立ハイテクノロジーズ 試料観察装置および試料観察方法
US20190138838A1 (en) 2017-11-09 2019-05-09 Boe Technology Group Co., Ltd. Image processing method and processing device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kaichen Yang;Jianqing Liu;Chi Zhang;Yuguang Fang,Adversarial Examples Against the Deep Learning Based Network Intrusion Detection Systems,MILCOM 2018 - 2018 IEEE Military Communications Conference (MILCOM),IEEE,2018年10月29日,559-564,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8599759
訓練画像の色量子化を用いた深層ニューラルネットワークの敵対的サンプル耐性の強化,電子情報通信学会技術研究報告 Vol.118 No.494 EMM2018-109,2019年03月13日

Also Published As

Publication number Publication date
JP2020205030A (ja) 2020-12-24

Similar Documents

Publication Publication Date Title
US11620480B2 (en) Learning method, computer program, classifier, and generator
US11257189B2 (en) Electronic apparatus and image processing method thereof
US20030053717A1 (en) Image enhancement and data loss recovery using wavelet transforms
Singla et al. A review on Single Image Super Resolution techniques using generative adversarial network
CN116664450A (zh) 基于扩散模型的图像增强方法、装置、设备及存储介质
CN114830168B (zh) 图像重建方法、电子设备和计算机可读存储介质
JP7075674B2 (ja) 学習方法、コンピュータプログラム、分類器、生成器、及び処理システム
Sheikh Image quality assessment using natural scene statistics
CN113066033A (zh) 一种彩色图像的多阶段去噪系统及方法
JP5404580B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラムを記録した記録媒体
KR101707337B1 (ko) 영상 디노이징을 위한 다중해상도 nlm 필터링 방법
Ponomarenko et al. Sharpness metric for no-reference image visual quality assessment
US11842283B2 (en) Learning method, computer program, classifier, generator, and processing system
KR101464743B1 (ko) 카메라 모듈에서 신호 의존적인 잡음 추정 장치 및 방법
CN112259086A (zh) 一种基于语谱图合成的语音转换方法
JP6347028B1 (ja) アップサンプル装置、コンピュータプログラム、コンピュータシステム、機器、及びアップサンプル方法
WO2018123202A1 (ja) 動画像処理装置、表示装置、動画像処理方法、および制御プログラム
Harine et al. Fundus image enhancement using hybrid deep learning approaches
JP2007251690A (ja) 画像処理装置および方法、学習装置および方法、並びにプログラム
JP7520479B1 (ja) 学習用データ生成装置
Deepthi et al. Improved Generative Adversarial Networks For Better Compression Quality And Structural Similarity
CN107481212B (zh) 一种基于小波的感知图像融合方法
Cloramidina et al. High Dynamic Range (HDR) Image Quality Assessment: A Survey
CN117274118A (zh) 图像处理、网络训练方法、装置、电子设备及存储介质
CN116962718A (zh) 中间帧确定方法、装置、设备、程序产品及介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220509

R150 Certificate of patent or registration of utility model

Ref document number: 7075674

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150