JP7105363B2

JP7105363B2 - 学習方法、学習システム、学習済みモデル、プログラム及び超解像画像生成装置

Info

Publication number: JP7105363B2
Application number: JP2021502251A
Authority: JP
Inventors: 彰工藤; 嘉郎北村
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2019-02-28
Filing date: 2020-02-25
Publication date: 2022-07-22
Anticipated expiration: 2040-02-25
Also published as: US12217387B2; EP3932318A4; EP3932318A1; US20210374911A1; WO2020175446A1; JPWO2020175446A1

Description

本発明は、学習方法、学習システム、学習済みモデル、プログラム及び超解像画像生成装置に係り、特に、超解像の画像生成を実現する機械学習技術及び画像処理技術に関する。

近年、多層のニューラルネットワークを用いて機械学習を行うことにより、画像を生成する技術が提案されている。特許文献１には敵対的生成ネットワーク（ＧＡＮ：Generative Adversarial Networks）を用いて生成モデルを学習し、超解像画像生成を実現する手法が記載されている。非特許文献１にはＧＡＮに関する研究が記載されている。ＧＡＮは、データを作り出すジェネレータと呼ばれる生成ネットワークと、データを識別するディスクリミネータと呼ばれる識別ネットワークとを含む。ディスクリミネータは入力されたデータが学習データからの正解のデータであるか、ジェネレータの出力に由来するデータであるかを識別する。学習の際にジェネレータとディスクリミネータとを交互に更新し、両者の精度を高めていくことにより、最終的にはジェネレータが学習データに近いデータを生成できるようにすることを目指す。

非特許文献２には、ＧＡＮを用いて入力画像と出力画像とのペアを学習する手法が記載されている。非特許文献３には、ＧＡＮにセルフアテンション機構を導入した研究が記載されている。セルフアテンション機構は、ネットワークの隠れ層から出力される特徴マップに大域的な情報を付加する仕組みである。非特許文献３に記載された方法は、ジェネレータとディスクリミネータのネットワークの双方にセルフアテンション機構を導入し、特定のサイズの入力データに対して高解像度の画像生成を可能としている。

米国特許出願公開2018/0075581号

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio "Generative Adversarial Nets", arXiv:1406.2661 Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros "Image-to-Image Translation with Conditional Adversarial Networks",CVPR2016 Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena "Self-Attention Generative Adversarial Networks", arXiv:1805.08318

しかしながら、非特許文献３に記載された方法には以下のような課題がある。

［課題１］非特許文献３に記載された方法では、ジェネレータがアテンション機構を持つため、学習時と学習後の推定時とでジェネレータに入力させるデータが同じ入力サイズである必要がある。つまり、学習済みのジェネレータに入力できるデータのサイズが固定サイズに制約され、任意の入力サイズに対応できない。

［課題２］非特許文献３に記載された方法では、ジェネレータがアテンション機構を持つため、画像生成時（推定時）にジェネレータの計算量が増加する。特に、入力画像サイズが大きくなった際に計算量が指数的に増大する。

本発明はこのような事情に鑑みてなされたもので、学習時の画像サイズに制約されることなく、任意サイズの入力データに対応でき、画像生成時の計算量を抑制することが可能な生成モデルの学習方法及び学習システム、プログラム、学習済みモデル、並びに超解像画像生成装置を提供することを目的とする。

本開示の一態様に係る学習方法は、第１画像から第１画像よりも高解像の画像情報を含む第２画像を推定する生成モデルの機械学習を行う学習方法であって、生成モデルであるジェネレータと、与えられたデータが学習用の正解画像のデータであるかジェネレータからの出力に由来するデータであるかを識別する識別モデルであるディスクリミネータと、を含む敵対的生成ネットワークを用いることと、第２画像よりも解像度が低い第１解像度情報を含む第１学習用画像と、第１学習用画像よりも解像度が高い第２解像度情報を含む第２学習用画像であって第１学習用画像に対応する正解画像となる第２学習用画像と、を学習データとして用いることと、ジェネレータの入力には、第１学習用画像及び第２学習用画像のうち第１学習用画像のみを与えることと、ジェネレータ及びディスクリミネータのうち、ディスクリミネータのネットワークに限定してセルフアテンション機構を実装することと、を含む学習方法である。

本態様によれば、セルフアテンション機構の導入によって、学習において画像の大局的な情報が考慮され、精度の高い学習が行われる。本態様によれば、ディスクリミネータに限定してセルフアテンション機構を導入したことにより、かつ、ジェネレータの計算量を増加することなく、生成画像の精度を向上することが可能になる。また、ジェネレータはセルフアテンション機構を備えていないため、任意サイズの入力データに対して高精度の画像生成を行うことができる。

本開示の他の態様に係る学習方法において、ジェネレータ及びディスクリミネータのそれぞれのネットワークは、畳み込みニューラルネットワークである構成とすることができる。

本開示の更に他の態様に係る学習方法において、第１画像は３次元断層画像であり、第２画像は少なくとも３次元断層画像のスライス厚方向の解像度が第１画像よりも高解像である構成とすることができる。

本開示の更に他の態様に係る学習方法において、第２学習用画像は、コンピュータ断層撮影装置を用いて取得された画像であり、第１学習用画像は、第２学習用画像を基に画像処理によって生成された画像である構成とすることができる。

本開示の更に他の態様に係る学習方法において、第２学習用画像から第１学習用画像を生成する画像処理は、第２学習用画像をダウンサンプルする処理を含む構成とすることができる。

本開示の更に他の態様に係る学習方法において、第２学習用画像から第１学習用画像を生成する画像処理は、ダウンサンプルの処理によって得られた画像に補間処理を施してアップサンプルする処理を含む構成とすることができる。

本開示の更に他の態様に係る学習方法において、第２学習用画像から第１学習用画像を生成する画像処理は、ガウシアンフィルタを用いる平滑化処理を含む構成とすることができる。

本開示の更に他の態様に係る学習方法において、機械学習に使用する複数種類の学習データにおける第１学習用画像及び第２学習用画像の各々は同一サイズである構成とすることができる。

本開示の更に他の態様に係る学習方法において、第２画像は、高周波成分の情報を示す高周波成分画像であり、ジェネレータは、入力された画像の解像度を高めるために必要な高周波成分を推定し、高周波成分の情報を示す高周波成分画像を出力する構成とすることができる。

本開示の更に他の態様に係る学習方法において、ジェネレータから出力された高周波成分画像と、ジェネレータに入力された画像とを加算すること、をさらに含み、加算によって得られる仮想第２画像をディスクリミネータの入力に与える構成とすることができる。

本開示の他の態様に係るプログラムは、本開示のいずれか一態様に係る学習方法をコンピュータに実行させるためのプログラムである。

本開示の他の態様に係る学習済みモデルは、本開示のいずれか一態様に係る学習方法を実施して学習された学習済みモデルであって、第１画像から第１画像よりも高解像の画像情報を含む第２画像を推定する生成モデルである。

本開示の他の態様に係る超解像画像生成装置は、本開示のいずれか一態様に係る学習方法を実施して学習された学習済みモデルである生成モデルを備え、入力される第３画像から第３画像よりも高解像の画像情報を含む第４画像を生成する超解像画像生成装置である。

本態様に係る超解像画像生成装置によれば、任意サイズの入力データに対して高精度の画像生成が可能である。

本開示の更に他の態様に係る超解像画像生成装置において、第３画像は、第１学習用画像と異なる画像サイズである構成とすることができる。

本開示の他の態様に係る超解像画像生成装置において、第３画像に補間処理を行い、補間画像を生成する第１補間処理部と、補間画像と生成モデルが生成する高周波成分とを加算する第１加算部と、を含み、補間画像が生成モデルに入力され、生成モデルが補間画像の解像度を高めるために必要な高周波成分を生成する構成とすることができる。

本開示の他の態様に係る学習システムは、第１画像から第１画像よりも高解像の画像情報を含む第２画像を推定する生成モデルの機械学習を行う学習システムであって、生成モデルであるジェネレータと、与えられたデータが学習用の正解画像のデータであるかジェネレータからの出力に由来するデータであるかを識別する識別モデルであるディスクリミネータと、を含む敵対的生成ネットワークを備え、ジェネレータ及びディスクリミネータのうち、ディスクリミネータのネットワークに限定してセルフアテンション機構が実装されており、第２画像よりも解像度が低い第１解像度情報を含む第１学習用画像と、第１学習用画像よりも解像度が高い第２解像度情報を含む第２学習用画像であって第１学習用画像に対応する正解画像となる第２学習用画像と、を学習データとして取り込み、ジェネレータの入力に、第１学習用画像及び第２学習用画像のうち第１学習用画像のみが与えられ、敵対的生成ネットワークの学習が行われる学習システムである。

本開示の他の態様に係る学習システムにおいて、学習データを生成する学習データ生成部をさらに備え、学習データ生成部は、第２解像度情報を含むオリジナルの元画像から固定サイズ領域を切り出す固定サイズ領域切出部と、固定サイズ領域切出部によって切り出された固定サイズ領域の画像をダウンサンプルするダウンサンプル処理部と、を含み、固定サイズ領域切出部によって切り出された固定サイズ領域の画像を第２学習用画像とし、第２学習用画像に対してダウンサンプルの処理を行うことによって第１学習用画像を生成する構成とすることができる。

本開示の更に他の態様に係る学習システムにおいて、学習データ生成部は、さらに、ダウンサンプルの処理によって得られた画像に補間処理を施す第２補間処理部と、ガウシアンフィルタを用いて平滑化を行う平滑化処理部と、を含む構成とすることができる。

本開示の更に他の態様に係る学習システムにおいて、ジェネレータは、入力された画像の解像度を高めるために必要な高周波成分を推定して高周波成分の情報を示す高周波成分画像を出力する構成であり、ジェネレータから出力された高周波成分画像とジェネレータに入力された画像とを加算する第２加算部をさらに備える構成とすることができる。

本開示の他の態様に係る学習システムは、第１画像から第１画像よりも高解像の画像情報を含む第２画像を推定する生成モデルの機械学習を行う学習システムであって、少なくとも１つのプロセッサを含み、プロセッサは、生成モデルであるジェネレータと、与えられたデータが学習用の正解画像のデータであるかジェネレータからの出力に由来するデータであるかを識別する識別モデルであるディスクリミネータと、を含む敵対的生成ネットワークを備え、ジェネレータ及びディスクリミネータのうち、ディスクリミネータのネットワークに限定してセルフアテンション機構が実装されており、第２画像よりも解像度が低い第１解像度情報を含む第１学習用画像と、第１学習用画像よりも解像度が高い第２解像度情報を含む第２学習用画像であって第１学習用画像に対応する正解画像となる第２学習用画像と、を学習データとして取り込み、ジェネレータの入力に、第１学習用画像及び第２学習用画像のうち第１学習用画像のみが与えられ、敵対的生成ネットワークの学習が行われる学習システムである。

本発明によれば、任意サイズの入力データに対して高解像度の画像生成が可能な生成モデルを得ることができる。また、本発明によれば、画像生成時の計算量を抑制することが可能な生成モデルを得ることができ、学習済みモデルを用いて高精度の画像生成を実現できる。

図１は、シック(Thick)スライス画像と仮想シンスライス（Virtual Thin Slice）画像のそれぞれのデータのイメージ図である。図２は、ＣＴ画像のスライス間隔及びスライス厚を説明するための図である。図３は、ＣＴ画像のスライス間隔及びスライス厚を説明するための図である。図４は、ＣＴ画像のスライス間隔及びスライス厚を説明するための図である。図５は、ＣＴ画像のスライス間隔及びスライス厚を説明するための図である。図６は、本発明の実施形態に係る超解像画像生成装置の例を示す機能ブロック図である。図７は、本発明の実施形態に係る学習システムの構成例を示すブロック図である。図８は学習データ生成部の構成例を示す機能ブロック図である。図９は、学習データを生成する際に適用されるスライス間隔と想定スライス厚に対応したガウシアンフィルタの条件の組み合わせの例を示す図表である。図１０は、学習データを生成する処理の手順の例を示すフローチャートである。図１１は、ＧＡＮを適用した学習部における処理の概念図である。図１２は、ディスクリミネータに適用される識別ネットワークの例を示す概念図である。図１３は、ジェネレータに適用される生成ネットワークの例を示す概念図である。図１４は、ジェネレータの出力に低解像度画像を加えて仮想高解像度画像を生成する動作の説明図である。図１５は、学習時におけるディスクリミネータによる識別の動作を説明するための図である。図１６は、学習部における処理の手順の例を示すフローチャートである。図１７は、実施形態の効果を示す画像の例である。図１８は、実施形態の他の効果を説明するための図である。図１９は、第２実施形態に係る学習システムによる処理の流れを概略的に示す機能ブロック図である。図２０は、第３実施形態に係る学習システムによる処理の流れを概略的に示す機能ブロック図である。図２１は、第４実施形態に係る学習システムによる処理の流れを概略的に示す機能ブロック図である。図２２は、コンピュータのハードウェア構成の例を示すブロック図である。

以下、添付図面に従って本発明の好ましい実施の形態について詳説する。

《第１実施形態》
本発明の実施形態に係る超解像画像生成装置は、低解像度の画像データから仮想的な高解像度の画像データを生成する。「生成する」とは「推定する」という用語の概念を含む。ここでは画像データの具体例として、コンピュータ断層撮影（ＣＴ：Computed Tomography）装置を用いて取得されるＣＴ画像のデータを対象とし、ＣＴ装置を用いて取得されたシックスライス（Thick slice）の画像データから仮想的なシンスライス（Thin slice）の画像データを生成する超解像画像生成装置を例示する。

シックスライスの画像データとは、スライス間隔及びスライス厚が比較的大きい低解像度のＣＴ画像データをいう。例えば、スライス間隔及びスライス厚が４ｍｍを超えるＣＴ画像データはシックスライスの画像データに該当する。シックスライスの画像データを「シックスライス画像」、「シックスライスデータ」、又は「シックデータ」と表記する場合がある。

シンスライスの画像データとは、スライス間隔及びスライス厚が小さい高解像度のＣＴ画像データである。例えば、スライス間隔及びスライス厚が１ｍｍ程度のＣＴ画像データはシンスライスの画像データに該当する。シンスライスの画像データを「シンスライス画像」、「シンスライスデータ」、又は「シンデータ」と表記する場合がある。

本実施形態において、シックスライス画像から生成される仮想的なシンスライス画像を仮想シンスライス（ＶＴＳ：Virtual Thin Slice）画像という。これに対し、ＣＴ装置を用いた撮影によって取得された本物のシンスライス画像をリアルシンスライス（ＲＴＳ：Real Thin Slice）画像と呼ぶ。

［ＣＴ画像データの説明］
図１は、シックスライス画像とＶＴＳ画像のそれぞれのデータのイメージ図である。図１の左図がシックスライス画像であり、右図がＶＴＳ画像である。ＶＴＳ画像は、シックスライス画像に比べて高品質な再構築画像を生成することが可能である。図１においてＺ軸方向は体軸方向である。

ＣＴデータは、撮影に使用したＣＴ装置の機種により、また、出力スライスの条件の設定などにより、様々なスライス間隔及びスライス厚のデータが存在し得る。

図２～図５は、ＣＴ画像のスライス間隔及びスライス厚の例を説明するための図である。スライス間隔とは、あるスライスとそれに隣接するスライスとのそれぞれの厚さの中心位置同士間の距離をいう。スライス間隔はスライス間距離と同義である。スライス厚とは、撮影領域の中心位置における１つのスライスの厚さ方向の長さをいう。スライス厚は、スライスシックネス（Slice thickness）と同義である。図２～図５において、スライス間隔をＳＤと表示し、スライス厚をＳＴと表示する。なお、スライスの厚み方向はＺ軸方向である。

図２は、スライス間隔ＳＤ＝４ｍｍ、スライス厚ＳＴ＝４ｍｍの場合のＣＴ画像ＩＭ１を模式的に示す説明図である。ここでは簡単のために３層の断層画像群を模式的に示している。

図３は、スライス間隔ＳＤ＝４ｍｍ、スライス厚ＳＴ＝６ｍｍの場合のＣＴ画像ＩＭ２を模式的に示す説明図である。図３の場合、隣り合うスライス同士でスライス厚の範囲がオーバーラップしている。

図４は、スライス間隔ＳＤ＝８ｍｍ、スライス厚ＳＴ＝４ｍｍの場合のＣＴ画像ＩＭ３を模式的に示す説明図である。図４の例の場合、スライス厚ＳＴよりもスライス間隔ＳＤの方が大きいため、隣り合う断層画像同士が離間し、層間に隙間がある。

図５は、スライス間隔ＳＤ＝１ｍｍ、スライス厚ＳＴ＝１ｍｍのＣＴ画像ＩＭ４を模式的に示す説明図である。図５に示すＣＴ画像Ｉｍ４は、図２から図４に示した他のＣＴ画像ＩＭ１～ＩＭ３よりもＺ方向の情報量が多い。すなわち、ＣＴ画像ＩＭ４は、ＣＴ画像ＩＭ１、ＩＭ２、及びＩＭ３のいずれよりもＺ方向の解像度が相対的に高い。

ＣＴ画像のスライス間隔及びスライス厚は、ＣＴ装置を使用する施設、医師等の好みなどに応じて様々な条件で設定される。ＣＴ画像は、診断のためには高解像度であることが好ましいが、スライス間隔を小さくすると、被検者に対する被ばく量が増えてしまうという問題点がある。また、高解像度のＣＴ画像はデータ量が大きく、ストレージの記憶容量を圧迫するため、容量削減のために低解像度化して保存される場合もある。例えば、古いＣＴデータは撮影スライス枚数を削減してデータベースに保存することが行われている。

しかし、シックスライス画像は、体軸と平行な面を断面とする側面方向から見た再構築画像やボリュームレンダリング画像において品質が悪く、十分な観察や解析に利用し難いという課題がある。

本実施形態に係る超解像画像生成装置は、図３～図５に示すような様々なスライス条件（スライス間隔及びスライス厚）の低解像度のＣＴ画像から、例えば、図５に示すようなスライス間隔が１ｍｍ、スライス厚が１ｍｍの高解像度のＶＴＳ画像を生成する画像生成処理を行う。

［超解像画像生成装置における画像生成アルゴリズムの例］
図６は、本発明の実施形態に係る超解像画像生成装置の例を示す機能ブロック図である。超解像画像生成装置１０は、補間処理部１２と、階層型ニューラルネットワークの学習済みモデルであるジェネレータ１４と、加算部１６と、を含む。「ニューラルネットワーク」とは、脳神経系の仕組みを模擬した情報処理の数理モデルである。ニューラルネットワークを用いた処理は、コンピュータを用いて実現することができる。ニューラルネットワークは、プログラムモジュールとして構成され得る。本明細書においてニューラルネットワークを単に「ネットワーク」と表記する場合がある。

補間処理部１２は、入力された低解像度のシックスライス画像ＴＣＫに対してスプライン補間を行い、補間画像ＩＰＴを生成する。補間処理部１２から出力される補間画像ＩＰＴは、Ｚ方向にボケた画像であり、低解像度画像の一例である。なお、補間画像ＩＰＴの画素数は、最終的に生成する仮想シンスライス画像ＶＴの画素数と一致させておくことが好ましい。

補間処理部１２から出力された補間画像ＩＰＴは、ジェネレータ１４に入力される。ジェネレータ１４は、敵対的生成ネットワーク（ＧＡＮ）を用いた機械学習によって学習された生成モデルである。ジェネレータ１４を得るための学習方法については後述する。学習済みモデルは、プログラムモジュールと言い換えてもよい。

ジェネレータ１４は、入力された画像から高解像度画像の生成に必要な高周波成分情報を生成（推定）し、高周波成分情報を出力する。

加算部１６は、ジェネレータ１４から出力された高周波成分情報のマップとジェネレータ１４の入力データである補間画像ＩＰＴそのものとを加算して、仮想シンスライス画像ＶＴを生成する。

図６では、ジェネレータ１４への入力が補間画像ＩＰＴであり、ジェネレータ１４の出力が高周波成分情報である例を示すが、ジェネレータ１４への入力がシックスライス画像ＴＣＫである形態も可能である。また、ジェネレータ１４の出力が仮想シンスライス画像ＶＴである形態も可能である。高周波成分情報は、元となる画像と加算することによって高解像度画像を生成することができる情報であるため、高周波成分情報のマップを「高周波成分画像」と呼ぶ。高周波成分画像は、高解像度の画像情報を含む画像であり、実質的に「高解像度画像」と同様のものとして理解することができる。

図６においてシックスライス画像ＴＣＫは本開示における「第３画像」の一例である。仮想シンスライス画像ＶＴは本開示における「第４画像」の一例である。ジェネレータ１４から出力される高周波成分は本開示における「前記第３画像よりも高解像の画像情報」の一例である。補間処理部１２は本開示における「第１補間処理部」の一例である。加算部１６は本開示における「第１加算部」の一例である。

［学習システムの構成例］
次に、ジェネレータ１４を生成するための学習方法について説明する。

図７は、本発明の実施形態に係る学習システム２０の構成例を示すブロック図である。学習システム２０は、画像保管部２４と、学習データ生成部３０と、学習部４０と、を含む。学習システム２０は、１台又は複数台のコンピュータを含むコンピュータシステムによって実現することができる。すなわち、画像保管部２４、学習データ生成部３０、及び学習部４０の機能は、コンピュータのハードウェアとソフトウェアの組み合わせによって実現できる。ここでは、画像保管部２４、学習データ生成部３０、及び学習部４０の各々が別々の装置として構成される例を説明するが、これらの機能は１台のコンピュータで実現してもよいし、２以上の複数台のコンピュータで処理の機能を分担して実現してもよい。例えば、画像保管部２４、学習データ生成部３０、及び学習部４０は、通信回線を介して互いに接続されていてもよい。「接続」という用語は、有線接続に限らず、無線接続の概念も含む。通信回線は、ローカルエリアネットワークであってもよいし、ワイドエリアネットワークであってもよい。

このように構成することで、学習データの生成と生成モデルの学習とを物理的にも時間的にも互いに束縛されることなく実施することができる。

画像保管部２４は、医療用Ｘ線ＣＴ装置によって撮影されたＣＴ再構成画像（ＣＴ画像）を保存する大容量ストレージ装置を含む。画像保管部２４は、例えば、ＰＡＣＳ（Picture Archiving and Communication Systems)に代表される医用画像管理システムにおけるストレージであってよい。画像保管部２４には、不図示のＣＴ装置を用いて撮影されたリアル高解像度画像である複数のシンスライス画像のデータが保管されている。

画像保管部２４に保管されるＣＴ画像は、人体（被検体）を撮影した医療画像であり、複数の断層画像を含む３次元断層画像である。ここでは、各断層画像は互いに直交するＸ方向及びＹ方向に平行な画像である。Ｘ方向及びＹ方向に直交するＺ方向は、被検体の体軸方向であり、スライス厚方向ともいう。画像保管部２４に保管されるＣＴ画像は、人体の部位毎の画像であってもよいし、全身を撮影した画像であってもよい。

学習データ生成部３０は、学習部４０が学習を行うために必要な学習データを生成する。学習データとは、機械学習に用いる訓練用のデータであり、「学習用データ」或いは「訓練データ」と同義である。本実施形態の機械学習においては、入力用の低解像度画像と、その低解像度画像に対応する正解の高解像度画像と、を紐付けした画像ペアの学習データを多数使用する。このような画像ペアは、リアル高解像度画像であるシンスライスのデータを元に、画像処理によって人工的に生成することが可能である。

学習データ生成部３０は、画像保管部２４からオリジナルのリアル高解像度画像を取得し、リアル高解像度画像にダウンサンプルの処理を実施することにより、多様な低解像度画像（擬似的なシックスライス画像）を人工的に生成する。学習データ生成部３０は、例えば、１ｍｍに等方化したオリジナルのシンスライスのデータに対して、姿勢変換を行い、無作為に固定サイズ領域を切り出した後、スライス間隔が４ｍｍの仮想的な４ｍｍスライスのデータ、及びスライス間隔が８ｍｍの仮想的な８ｍｍスライスのデータを生成する。固定サイズ領域は、Ｘ軸方向×Ｙ軸方向×Ｚ軸方向の画素数が、例えば「160×160×160」の３次元領域であってよい。学習データ生成部３０によって、学習用の固定サイズの低解像度画像ＬＱとこれに対応するリアル高解像度画像ＲＨの画像ペアが生成される。

学習部４０による学習の処理を実施するために、事前に学習データ生成部３０を用いてオリジナルのリアル高解像度画像から複数の学習データを生成しておき、学習データセットとしてストレージに保存しておくことが好ましい。

学習データ生成部３０によって生成された低解像度画像ＬＱ及びリアル高解像度画像ＲＨは、学習部４０に入力される。

学習部４０は、学習モデルとしての敵対的生成ネットワーク（ＧＡＮ）４１を含む。学習部４０のアーキテクチャは、非特許文献２に記載のアーキテクチャを２次元から３次元のデータへ拡張した構造をベースとしている。ＧＡＮ４１は、データを作り出すジェネレータ４２Ｇと呼ばれる生成ネットワークと、入力されたデータを識別するディスクリミネータ４４Ｄと呼ばれる識別ネットワークと、を含んで構成される。すなわち、ジェネレータ４２Ｇは、画像データを生成する生成モデルであり、ディスクリミネータ４４Ｄはデータを識別する識別モデルである。「ジェネレータ」という用語は「生成部」、「生成器」及び「生成モデル」などの用語と同義である。「ディスクリミネータ」という用語は「識別部」、「識別器」及び「識別モデル」などの用語と同義である。

学習部４０は、入力された学習データに基づいて、ジェネレータ４２Ｇとディスクリミネータ４４とを用いた敵対的な学習を繰り返すことにより、双方のモデルの性能を高めながらジェネレータ４２Ｇを学習する。

本例のディスクリミネータ４４Ｄには、セルフアテンション機構が実装されている。ディスクリミネータ４４Ｄのネットワークにおいてセルフアテンション機構を導入する層は、複数の畳み込み層のうちの一部であってもよいし、全部であってもよい。セルフアテンション機構を含むディスクリミネータ４４Ｄの構成及び動作、並びにＧＡＮ４１の学習方法の例について詳細は後述する。

学習部４０は、誤差演算部５０と、オプティマイザ５２と、を含む。誤差演算部５０は、損失関数を用いてディスクリミネータ４４Ｄの出力と正解との誤差を評価する。オプティマイザ５２は、誤差演算部５０の演算結果を基に、ネットワークのパラメータを更新する処理を行う。ネットワークのパラメータは、各層の処理に用いるフィルタのフィルタ係数（ノード間の結合の重み）及びノードのバイアスなどを含む。

オプティマイザ５２は、誤差演算部５０の演算結果からジェネレータ４２Ｇ及びディスクリミネータ４４Ｄのそれぞれのネットワークのパラメータの更新量を算出するパラメータ演算処理と、パラメータ演算処理の算出結果に従い、ジェネレータ４２Ｇ及びディスクリミネータ４４Ｄのそれぞれのネットワークのパラメータを更新するパラメータ更新処理と、を行う。オプティマイザ５２は、勾配降下法などのアルゴリズムに基づきパラメータの更新を行う。

［学習データの生成について］
図８は学習データ生成部３０の構成例を示す機能ブロック図である。学習データ生成部３０は、固定サイズ領域切出部３１と、ダウンサンプル処理部３２と、アップサンプル処理部３４と、学習データ記憶部３８と、を含む。

固定サイズ領域切出部３１は、入力されたオリジナルのリアル高解像度画像ＯＲＨ１から無作為に固定サイズ領域を切り出す処理を行う。固定サイズ領域切出部３１によって切り出された固定サイズ領域のリアル高解像度画像ＲＨ１は、ダウンサンプル処理部３２に送られる。

ダウンサンプル処理部３２は、リアル高解像度画像ＲＨ１をＺ軸方向にダウンサンプルして、低解像度のシックスライス画像ＬＫ１を生成する。ダウンサンプルの処理としては、例えば、単純にＺ軸方向のスライスを一定の割合で削減するように間引き処理を実施すればよい。なお、この例ではＺ軸方向のダウンサンプルのみを行い、Ｘ軸方向及びＹ軸方向についてはダウンサンプルを行わないものとするが、Ｘ軸方向及びＹ軸方向についてもダウンサンプルを実施する形態も可能である。

ダウンサンプル処理部３２によって生成されたシックスライス画像ＬＫ１は、アップサンプル処理部３４に入力される。

アップサンプル処理部３４は、シックスライス画像ＬＫ１をＺ軸方向にアップサンプルして、低品質のシンスライス画像である低解像度画像ＬＱ１を生成する。アップサンプルの処理は、例えば、スプライン補間とガウシアンフィルタ処理との組み合わせであってよい。アップサンプル処理部３４は、補間処理部３５と、ガウシアンフィルタ処理部３６と、を含む。補間処理部３５は、例えば、シックスライス画像ＬＫ１に対してスプライン補間を行う。補間処理部３５は、図６で説明した補間処理部１２と同様の処理部であってよい。ガウシアンフィルタ処理部３６は、補間処理部３５から出力された画像にガウシアンフィルタを適用して平滑化を行う。図８に示す補間処理部３５は本開示における「第２補間処理部」の一例である。ガウシアンフィルタ処理部３６は本開示における「平滑化処理部」の一例である。

アップサンプル処理部３４から出力される低解像度画像ＬＱ１は、リアル高解像度画像ＲＨ１と同じ画素数のデータとすることが好ましい。ここでは、低解像度画像ＬＱ１とリアル高解像度画像ＲＨ１は同一サイズである。低解像度画像ＬＱ１は、リアル高解像度画像ＲＨ１と比較して低品質の（つまり、低解像度の）画像である。こうして生成された低解像度画像ＬＱ１と、その生成元となったリアル高解像度画像ＲＨ１とのペアを紐付けして学習データ記憶部３８に記憶する。

オリジナルのリアル高解像度画像ＯＲＨ１は本開示における「オリジナルの元画像」の一例である。リアル高解像度画像ＲＨ１は本開示における「第２学習用画像」の一例である。低解像度画像ＬＱ１は本開示における「第１学習用画像」の一例である。低解像度画像ＬＱ１の画像情報は本開示における「第１解像度情報」の一例である。リアル高解像度画像ＲＨ１の画像情報は本開示における「第２解像度情報」の一例である。

学習データ生成部３０は、１つのオリジナルのリアル高解像度画像ＯＲＨ１から固定サイズ領域の切り出し位置を変えて、複数のリアル高解像度画像ＲＨを切り出して、それぞれのリアル高解像度画像ＲＨに対応する低解像度画像ＬＱを生成することにより、複数の画像ペアを生成することができる。

また、学習データ生成部３０は、アップサンプル処理部３４におけるスライス補間倍率と、アップサンプル処理部３４に適用するガウシアンフィルタの条件との組み合わせを変えることにより、多様なスライス条件の低解像度画像を生成することができる。なお、スライス補間倍率は、ダウンサンプル処理部３２におけるダウンサンプルの条件に対応している。

学習の際には多様なスライス条件のデータを与えることが好ましい。本実施形態では、図９に示すような、多様なスライス条件に対応する低解像度画像を用いて学習を行う。図９は、学習データを生成する際に適用されるスライス間隔と想定スライス厚に対応したガウシアンフィルタの条件の組み合わせの例を示す図表である。

本例では、低解像度画像ＬＱのスライス間隔は、４ｍｍと８ｍｍの２通りとする。つまり、学習時のスライス補間倍率は、４倍か８倍かの２パターンである。スライス厚は、スライス間隔に対応させて０ｍｍ～８ｍｍの範囲とする。ガウシアンフィルタの標準偏差σを図９に記載の数値範囲内でランダムに与えることで、擬似的に多様なスライス厚を想定した低解像度画像が生成され得る。

オリジナルのリアル高解像度画像を複数種類用いることで多様な学習データを多数用意することが可能である。

［学習データを生成する処理の手順の例］
図１０は、学習データを生成する処理の手順の例を示すフローチャートである。図１０に示すフローチャートの各ステップは、学習データ生成部３０として機能するプロセッサを含むコンピュータによって実行される。コンピュータは、ＣＰＵ（Central Processing Unit）及びメモリを備える。コンピュータは、ＧＰＵ（Graphics Processing Unit）を含んでもよい。

図１０に示すように、学習データ生成方法は、オリジナル画像取得工程（ステップＳ１）、固定サイズ領域切出工程（ステップＳ２）、ダウンサンプル工程（ステップＳ３）、アップサンプル工程（ステップＳ４）、及び学習データ記憶工程（ステップＳ５）を含む。

ステップＳ１において、学習データ生成部３０は画像保管部２４からオリジナルのリアル高解像度画像ＯＲＨを取得する。ここでは、スライス間隔が１ｍｍ、スライス厚が１ｍｍの等方化されたリアル高解像度画像ＯＲＨを取得する。

ステップＳ２において、固定サイズ領域切出部３１は、入力されたオリジナルのリアル高解像度画像ＯＲＨから固定サイズ領域を切り出す処理を行い、固定サイズ領域のリアル高解像度画像ＲＨ１を生成する。

ステップＳ３において、ダウンサンプル処理部３２はリアル高解像度画像ＲＨ１をダウンサンプルして、シックスライス画像ＬＫ１を生成する。ここでは、図９で説明したように、スライス間隔が４ｍｍ、又は８ｍｍに相当するシックスライス画像ＬＫ１が生成される。

ステップＳ４において、アップサンプル処理部３４はダウンサンプルによって得られたシックスライス画像ＬＫ１をアップサンプルして、低品質のシンスライス画像に相当する低解像度画像ＬＱ１を生成する。ここでは、図９で説明したように、スライス間隔に対応したスライス補間倍率とガウシアンフィルタの条件を適用して補間処理とガウシアンフィルタ処理とが行われる。

ステップＳ５において、学習データ生成部３０はステップＳ４にて生成された低解像度画像ＬＱ１とその生成元データであるリアル高解像度画像ＲＨとを画像ペアとして紐付けし、これらのデータを学習データとして学習データ記憶部３８に記憶する。

ステップＳ５の後、学習データ生成部３０は、図８のフローチャートを終了する。

なお、同じオリジナルのリアル高解像度画像ＯＲＨから切出領域の箇所を変えて複数の学習データを生成する場合には、ステップＳ５の後に、ステップＳ２に戻り、ステップＳ２からステップＳ５の処理を繰り返す。

また、同じ固定サイズ領域のリアル高解像度画像ＲＨから異なるスライス条件又は異なる想定スライス厚の低解像度画像を生成する場合には、ステップＳ５の後に、ステップＳ３又はステップＳ４に戻り、処理の条件を変更して、ステップＳ３又はステップＳ４からの処理を繰り返す。

学習データ生成部３０は、画像保管部２４に保管されている複数のオリジナルのリアル高解像度画像に対して、ステップＳ１からステップＳ５の処理を繰り返し実行することにより、多数の学習データを生成することができる。

［学習アーキテクチャ］
既述のとおり、本実施形態に係る超解像画像生成装置１０に搭載されるジェネレータ１４は、ＧＡＮによる学習を実施して獲られる生成モデルである。以下、学習部４０の構成と学習方法について詳述する。

図１１は、ＧＡＮを適用した学習部４０における処理の概念図である。図１１には、学習用データとして、低解像度画像ＬＱ１とリアル高解像度画像ＲＨ１のペアが学習部４０に入力された例が示されている。

ジェネレータ４２Ｇへの入力は低解像度画像ＬＱ１である。ジェネレータ４２Ｇは、入力された低解像度画像ＬＱ１から仮想高解像度画像ＶＨ１を生成して出力する。仮想高解像度画像ＶＨ１は、仮想シンスライス画像（ＶＴＳ画像）に相当する。ディスクリミネータ４４Ｄへの入力には、ジェネレータ４２Ｇによって生成された仮想高解像度画像ＶＨ１と、この仮想高解像度画像ＶＨ１の生成元となった低解像度画像ＬＱ１のペア、又は、学習データであるリアル高解像度画像ＲＨ１と低解像度画像ＬＱ１のペアが与えられる。

ディスクリミネータ４４Ｄは、入力された画像ペアがリアル高解像度画像ＲＨ１を含む本物ペア（Ｒｅａｌペア）であるか（学習データであるか）、ジェネレータ４２Ｇの出力に由来する仮想高解像度画像ＶＨ１を含む偽物ペア（Ｆａｋｅペア）であるかを識別し、識別結果を出力する。

誤差演算部５０は、損失関数を用いてディスクリミネータ４４Ｄの出力と正解との誤差を評価する。オプティマイザ５２は、誤差演算部５０の演算結果を基に、ネットワークのパラメータを自動調整する処理を行う。ネットワークのパラメータには、ノード間の結合の重みとノードのバイアスが含まれる。オプティマイザ５２は、誤差演算部５０の演算結果からジェネレータ４２Ｇ及びディスクリミネータ４４Ｄのそれぞれのネットワークのパラメータの更新量を算出するパラメータ演算処理と、パラメータ演算処理の算出結果に従い、ジェネレータ４２Ｇ及びディスクリミネータ４４Ｄのそれぞれのネットワークのパラメータを更新するパラメータ更新処理と、を行う。オプティマイザ５２は、勾配降下法などのアルゴリズムに基づきパラメータの更新を行う。誤差の評価とパラメータの更新に関する学習の基本的な仕組みの部分は非特許文献１等に記載の技術を採用してよい。

ジェネレータ４２Ｇは、ディスクリミネータ４４Ｄを欺くように、より精緻な仮想高解像度画像を生成するように学習し、ディスクリミネータ４４Ｄはより正確に真偽を識別するように学習する。

そして、最終的には、ジェネレータ４２Ｇの部分を超解像画像生成装置１０における画像生成モジュールであるジェネレータ１４として利用する。

本実施形態におけるディスクリミネータ４４Ｄに適用されるネットワークには、セルフアテンション機構が実装される。セルフアテンション機構は、画像内における大局的な部分を考慮することで計算効率を向上させる手法である。

［セルフアテンション機構を含むディスクリミネータ４４Ｄの説明］
セルフアテンション機構の内容は、非特許文献３に記載されている。ただし、非特許文献３では、ジェネレータとディスクリミネータの両方のネットワークにそれぞれセルフアテンション機構を追加しているのに対し、本実施形態ではジェネレータ４２Ｇにはセルフアテンション機構を実装せず、ディスクリミネータ４４Ｄに限定してセルフアテンション機構を実装している点で非特許文献３に記載の手法と異なる。

セルフアテンション機構について、非特許文献３の内容を参照して簡単に概説する。セルフアテンション機構は、前層の隠れ層から出力された畳み込み特徴マップＣＦＭ（ｘ）からクエリｆ（ｘ）とキーｇ（ｘ）を生成し、これらを用いて各画素について、他のどの画素に似ているかを示す値（類似度）を計算する。こうして特徴マップＣＦＭ（ｘ）の全画素に対応して計算された類似度のマップが「アテンションマップ」と呼ばれる。

アテンションマップは、画像内において特徴が似ている領域を見つけ出して強調する役割を果たす。識別ネットワークを構成する畳み込み層の畳み込み演算では、局所的な情報を重ねていくが、アテンションマップを導入することで大局的（全域的）な部分の情報を考慮することが可能になる。

このアテンションマップに重みｈ（ｘ）を掛け合わせて、セルフアテンション特徴マップＳＡＦＭ（ｏ）を得る。そして、セルフアテンション特徴マップＳＡＦＭ（ｏ）にスケールパラメータγを掛けて、元の入力特徴マップである畳み込み特徴マップＣＦＭ（ｘ）に足し合わせて次の層へ渡す。つまり、次層に渡す最終的な出力ｙは次式で与えられる。

ｙ＝γ・ｏ＋ｘ
このようなセルフアテンション機構を含むディスクリミネータ４４Ｄのネットワークにおいては、セルフアテンション機構のｆ（ｘ）、ｇ（ｘ）、及びｈ（ｘ）のパラメータも学習される。

［識別ネットワークの例］
図１２は、ディスクリミネータ４４Ｄに適用される識別ネットワークの例を示す概念図である。ディスクリミネータ４４Ｄのネットワークは、深層ニューラルネットワークに分類される階層型ニューラルネットワークであり、複数の畳み込み層を含む。ディスクリミネータ４４Ｄのネットワークは畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）によって構成される。

図１２においてＣ０１、Ｃ０２・・・Ｃ０５の符号で示す白抜き矢印は「畳み込み層」を表している。各層の入力側及び／又は出力側に示す矩形は、特徴マップのセットを表している。矩形の縦方向の長さは、特徴マップのサイズ（画素数）を表しており、矩形の横方向の幅はチャンネル数を表している。なお、本例のディスクリミネータ４４Ｄは、プーリング層が存在せず、例えば、４×４×４のサイズのフィルタの畳み込みをストライド＝２で実施することにより、特徴マップの画像サイズが小さくなっていく。例えば、ＣＮＮの処理を実施する際、畳み込み後の最小画像サイズは入力データのサイズの１／１６とすることができる。

図１２に示す例では、畳み込み層Ｃ０２から後段の各層にセルフアテンション機構が導入されている。例えば、畳み込み層Ｃ０２から出力された１２８チャンネルのＣＮＮ特徴マップの各々に対してセルフアテンション特徴マップが生成される。図１２には１２８チャンネルのＣＮＮ特徴マップの各々に対応する１２８チャンネル分のセルフアテンション特徴マップが付加されている様子が示されている。チャンネル毎にそれぞれのＣＮＮ特徴マップとセルフアテンション特徴マップが加算され、その出力が次の畳み込み層に入力される。畳み込み層Ｃ０３及びＣ０４についても同様である。

なお、セルフアテンション機構に入力させるＣＮＮ特徴マップは、入力となる画像全体を１次元の配列に直して計算する。入力チャンネル数がＣ、総ピクセル数がＮであるＣＮＮ特徴マップは、Ｃ×Ｎ個の各ピクセルの要素を１次元に配列したベクトルとしてセルフアテンション機構に入力される。

実際のＣＴ画像データは３次元データであり、多次元のデータは上記と同様に１次元の配列にして計算を行うことができる。２次元の画像データと３次元の画像データは、どちらも１次元の配列にして計算することで、同様の処理アルゴリズムを適用できる。

［生成ネットワークの例］
図１３は、ジェネレータ４２Ｇに適用される生成ネットワークの例を示す概念図である。ジェネレータ４２Ｇのネットワークも畳み込みニューラルネットワークで構成される。ジェネレータ４２Ｇは、エンコーダ部とデコーダ部とを組み合わせたエンコーダ－デコーダ構造を持つ構成が好ましい。図１３では、Ｕ－Ｎｅｔ構造と呼ばれるＵ字型のネットワークの例が示されている。「Ｕ－Ｎｅｔ」の表記における「Ｎｅｔ」は「ネットワーク（Network）」の簡易表記である。

図１３においてＣ１、Ｃ２・・・Ｃ１０の符号で示す矢印の各々は「畳み込み層」を表している。Ｕ１、Ｕ２、Ｕ３及びＵ４の符号で示す矢印は「畳み込みとアップサンプリング」を行う畳み込み層を表している。図１２で説明したディスクリミネータ４４Ｄと同様に、図１３に示すジェネレータ４２Ｇは、プーリング層が存在せず、フィルタの畳み込みをストライド＝２で実施することにより、エンコーダ部分において特徴マップの画像サイズが小さくなっていく。

ジェネレータ４２Ｇは、入力された低解像度画像ＬＱから高解像化に必要な高解像度情報としての高周波成分画像ＶＨＦＣを推定して出力する。図１４に示すように、ジェネレータ４２Ｇへの入力データである低解像度画像ＬＱと、ジェネレータ４２Ｇによって生成された高周波成分画像ＶＨＦＣとを足し合わせることにより、仮想高解像度画像ＶＨが得られる。なお、仮想高解像度画像ＶＨ１のスライス間隔及びスライス厚は、低解像度画像ＬＱ１のスライス間隔及びスライス厚と同等であるが、仮想高解像度画像ＶＨ１は、低解像度画像ＬＱ１と比較してＺ方向によりシャープな画像となる。

学習部４０は、ジェネレータ４２Ｇの入力とジェネレータ４２Ｇの出力とを足し合わせる加算部４６を備えており、加算部４６の出力をディスクリミネータ４４Ｄに入力させる構成となっている。加算部４６は本開示における「第２加算部」の一例である。なお、図７及び図１１では加算部４６の図示が省略される。ディスクリミネータ４４Ｄに入力する仮想高解像度画像ＶＨ１は本開示における「仮想第２画像」の一例である。

ジェネレータ４２Ｇの入力に与えられる低解像度画像ＬＱは本開示における「第１画像」の一例である。ジェネレータ４２Ｇから出力される高周波成分画像は本開示における「第２画像」の一例である。

図１３及び図１４ではジェネレータ４２Ｇの出力が高周波成分画像ＶＨＦＣである例を説明したが、ジェネレータ４２Ｇの出力が仮想高解像度画像ＶＨとなる形態も可能である。この場合、加算部４６は不要となる。かかる態様については第２実施形態として後述する。

［学習時におけるディスクリミネータ４４Ｄの識別動作］
図１５は、学習時におけるディスクリミネータ４４Ｄによる識別の動作を説明するための図である。図１５において加算部４６の図示は省略される。

図１５の左図に示す動作状態７０Ｐは、ディスクリミネータ４４Ｄにポジティブサンプル（正例）が入力された場合の例を示し、図１５の右図に示す動作状態７０Ｎはディスクリミネータ４４Ｄにネガティブサンプル（負例）が入力された場合の例を示す。

学習データの画像ペアであるリアル高解像度画像ＲＨ１と、これに対応する低解像度画像ＬＱ１とが入力されている場合の例である。この場合、ディスクリミネータ４４Ｄが、入力された高解像度画像をリアル高解像度画像ＲＨ１であると識別した場合は、ディスクリミネータ４４Ｄの出力（識別結果）が正解であり、仮想高解像度画像ＶＨ１であると識別した場合は不正解である。

一方、図１５の右図に示す動作状態７０Ｎの場合は、ディスクリミネータ４４Ｄに、ジェネレータ４２Ｇ由来の仮想高解像度画像ＶＨ１と、その生成元のデータである低解像度画像ＬＱ１と、の画像ペアが入力されている。この場合、ディスクリミネータ４４Ｄが、入力された高解像度画像をリアル高解像度画像ＲＨ１であると識別した場合は不正解であり、仮想高解像度画像ＶＨ１であると識別した場合は正解である。

ディスクリミネータ４４Ｄは、入力された高解像度画像が不図示のＣＴ装置によって撮影された本物のＣＴ画像であるか、又はジェネレータ４２Ｇによって生成された仮想のＣＴ画像であるか、の識別を正解するように学習される。一方、ジェネレータ４２Ｇは、不図示のＣＴ装置によって撮影されたリアルなＣＴ画像に似せた仮想のＣＴ画像を生成し、ディスクリミネータ４４Ｄの識別を不正解とするように学習される。

学習が進行すると、ディスクリミネータ４４Ｄとジェネレータ４２Ｇとが互いに精度を高め合い、ジェネレータ４２Ｇはディスクリミネータ４４Ｄに偽物（仮想高解像度画像）と識別されない、より本物のＣＴ画像に近い仮想高解像度画像ＶＨを生成できるようになる。

このような学習によって獲得された学習済みのジェネレータ４２Ｇが図６で説明した超解像画像生成装置１０のジェネレータ１４として適用される。

［学習システム２０を用いた学習方法］
図１６は、学習部４０における処理の手順の例を示すフローチャートである。図１６に示すフローチャートの各ステップは、学習部４０として機能するプロセッサを含むコンピュータによって実行される。

ステップＳ１１において、学習部４０は学習データを取得する。学習部４０は図８で説明した学習データ生成部３０から学習データを読み込む。学習部４０は複数の学習データを含むミニバッチの単位で学習データを取得することができる。

ステップＳ１２において、学習部４０はジェネレータ４２Ｇに学習データの低解像度画像を入力する。

ステップＳ１３において、ジェネレータ４２Ｇは入力された低解像度画像から仮想高解像度画像を生成する。ジェネレータ４２Ｇからの出力は仮想高解像度画像を作るために必要な高周波成分画像ＶＨＦＣであってよい。この場合、図１４で説明したとおり、高周波成分画像ＶＨＦＣと低解像度画像とが加算されて仮想高解像度画像ＶＨが生成される。

ステップＳ１４において、学習部４０はディスクリミネータ４４Ｄへのデータ入力を行う。ディスクリミネータ４４Ｄへの入力には、正解画像としてのリアル高解像度画像を含む学習データのペア（リアルペア）、又は、ジェネレータ４２Ｇ由来の仮想高解像度画像を含むフェイクペアのいずれかが選択的に与えられる。

ステップＳ１５において、ディスクリミネータ４４Ｄはデータの識別を行う。

ステップＳ１６において、誤差演算部５０は識別結果の誤差を算出し、その結果をオプティマイザ５２へ送る。

ステップＳ１７において、オプティマイザ５２は、算出された誤差を基にネットワークのパラメータの更新量を算出する。

ステップＳ１８において、オプティマイザ５２は、ステップＳ１７にて算出されたパラメータの更新量に従い、パラメータの更新処理を行う。パラメータの更新処理はミニバッチの単位で実施される。

ステップＳ１９において、学習部４０は学習を終了するか否かの判別を行う。学習終了条件は、誤差の値に基づいて定められていてもよいし、パラメータの更新回数に基づいて定められていてもよい。誤差の値に基づく方法としては、例えば、誤差が規定の範囲内に収束していることを学習終了条件としてよい。更新回数に基づく方法としては、例えば、更新回数が規定回数に到達したことを学習終了条件としてよい。

ステップＳ１９の判定結果がＮｏ判定である場合、学習部４０はステップＳ１１に戻り、学習終了条件を満たすまで、学習の処理を繰り返す。

ステップＳ１９の判定結果がＹｅｓ判定である場合、学習部は図１６のフローチャートを終了する。

こうして得られた学習済みのジェネレータ４２Ｇの部分を超解像画像生成装置１０のジェネレータ１４として適用する。

［第１実施形態による効果］
図１７は、本実施形態の効果を示す画像の例である。図１７には、セルフアテンション機構の導入の効果を示す画像例が示されている。図１７の上段中央に示す画像ＶＨＡ１は本実施形態に係る学習方法を適用した学習済みモデル（ジェネレータ１４）を用いて生成された仮想高解像度画像の例である。図１７の上段左に示す画像ＬＩ１はジェネレータ１４への入力に用いた低解像画像の例である。図１７の上段右に示す画像ＧＴ１は、入力の画像ＬＩ１に対応する正解画像（Ground truth）である。

図１７の下段中央に示す画像ＶＨＮ２は、比較例に係る学習済みモデルを用いて生成さ仮想高解像度画像の例である。比較例に係る学習済みモデルは、アテンション機構を持たないディスクリミネータを用いて学習を行ったものである。図１７の下段左に示す画像ＬＩ２は比較例に係る学習済みモデルへの入力に用いた低解像画像の例である。図１７の下段右に示す画像ＧＴ２は、入力の画像ＬＩ２に対応する正解画像（Ground truth）である。

図１７の上段中央に示す画像ＶＨＡ１は、正解の画像ＧＴ１に極めて近い画像となっている。また、画像ＶＨＡ１は、下段の比較例の画像ＶＨＮ２に比べて、局所的なノイズが低減されていることがわかる。

すなわち、本実施形態によれば、セルフアテンション機構をディスクリミネータ４４Ｄに導入した効果により、比較例においては局所的に発生していたノイズを低減することができる。

図１８は、本実施形態の他の効果を説明するための図である。図１８には、本実施形態に係る学習方法を適用した学習済みモデル（ジェネレータ１４）が入力サイズによらず画像生成の処理（超解像処理）を実行可能であることを示す画像例が示されている。

図１８の最左に示す画像ＬＩ３は、本実施形態に係る学習方法を適用した学習済みモデル（ジェネレータ１４）に入力された画像の例である。図１８の左から２番目の画像ＶＨＡ３は、画像ＬＩ３の入力からジェネレータ１４を用いて生成された仮想高解像度画像の例である。

図１８の左から３番目の画像ＬＩ４はジェネレータ１４に入力された画像の他の例である。この画像ＬＩ４は、最左に示す画像ＬＩ３よりも画像サイズが小さいものである。図１８の最右に示す画像ＶＨＡ４は、画像ＬＩ４の入力からジェネレータ１４を用いて生成された仮想高解像度画像の例である。

図１８に示すように、ジェネレータ１４は、学習時に用いた画像サイズとは異なるサイズの画像の入力に対しても推定の処理を実施することができる。ジェネレータ１４は、任意の画像サイズの入力データに対して、高精度の画像生成が可能である。すなわち、本実施形態によれば、学習時の学習データとして用いた固定サイズの画像サイズに制約されずに、任意サイズの画像に対しても画像生成処理が実施可能である。本実施形態によれば、入力データを任意サイズのメモリに分割して処理を行うことができる。

なお、ディスクリミネータ４４Ｄは学習の際に使用するだけであり、超解像画像生成装置１０に搭載する必要がないため、ディスクリミネータ４４Ｄにアテンション機構を追加しても固定サイズで学習を行うため問題はない。

《変形例》
上述した第１実施形態では、ディスクリミネータ４４Ｄへの入力としてリアル高解像度画像ＲＨと低解像度画像ＬＱ１のペア、又はジェネレータ４２Ｇに由来する仮想高解像度画像ＶＨと低解像度画像ＬＱ１のペアが与えられているが、ディスクリミネータ４４Ｄに対する低解像度画像ＬＱ１の入力は必須ではない。ディスクリミネータ４４Ｄには、少なくともリアル高解像度画像ＲＨ、又は仮想高解像度画像ＶＨが入力されればよい。

《第２実施形態》
第１実施形態では図１４のように、ジェネレータ４２Ｇから（仮想的な）高周波成分画像ＶＨＦＣを出力し、低解像度画像ＬＱと高周波成分画像ＶＨＦＣとを加算することによって仮想高解像度画像ＶＨを得ている。これに対し、第２実施形態は、ジェネレータ４２Ｇが仮想高解像度画像ＶＨを出力する形態である。

図１９は、第２実施形態に係る学習システム２０による処理の流れを概略的に示す機能ブロック図である。なお、図１９において図７、図８、図１１から図１４に示す構成と共通又は類似する部分には同一の符号を付し、その詳細な説明は省略する。

図１９において、学習データ生成部３０の内容は図８と同様である。第２実施形態における学習部４０のジェネレータ４２Ｇは、低解像度画像ＬＱ１から仮想高解像度画像ＶＨ１を生成する。

また、低解像度画像ＬＱ１は、リアル高解像度画像ＲＨ１又は仮想高解像度画像ＶＨ１とペアでディスクリミネータ４４Ｄに入力される。ディスクリミネータ４４Ｄは、入力された画像がリアル高解像度画像ＲＨ１、及び仮想高解像度画像ＶＨ１のいずれであるかを識別する。なお、ディスクリミネータ４４Ｄには、低解像度画像ＬＱ１は入力されなくてもよい。

第２実施形態によれば、低解像度画像ＬＱ１から仮想高解像度画像ＶＨ１を生成する生成モデル（ジェネレータ４２Ｇ）を得ることができる。第２実施形態によって生成されたジェネレータ４２Ｇを超解像画像生成装置１０に組み込む場合には、図６に示した加算部１６を省略することができる。

《第３実施形態》
図２０は、第３実施形態に係る学習システム２０による処理の流れを概略的に示す機能ブロック図である。図２０において、図１９に示す構成と共通又は類似する部分には同一の符号を付し、その詳細な説明は省略する。図２０に示す第３実施形態は、ジェネレータ４２Ｇへの入力がシックスライス画像ＬＫであり、ジェネレータ４２Ｇからの出力が仮想高解像度画像ＶＨである。この場合、シックスライス画像ＬＫとリアル高解像度画像ＲＨのペアが学習データとなる。図２０においてシックスライス画像ＬＫは本開示における「第１画像」及び「第１学習用画像」の一例である。

第３実施形態によれば、ジェネレータ４２Ｇはシックスライス画像ＬＫから仮想高解像度画像ＶＨ１を生成するように学習される。したがって、第３実施形態の学習を行うことにより、シックスライス画像ＬＫから仮想高解像度画像ＶＨ１を生成する生成モデル（ジェネレータ４２Ｇ）を得ることができる。

《第４実施形態》
図２１は、第４実施形態に係る学習システム２０による処理の流れを概略的に示す機能ブロック図である。図２１において、図１９に示す構成と共通又は類似する部分には同一の符号を付し、その詳細な説明は省略する。図２１に示す第４実施形態に係る学習システム２０は、ジェネレータ４２Ｇにシックスライス画像ＬＫを入力してジェネレータ４２Ｇから高周波成分画像ＶＨＦＣを出力させ、ディスクリミネータ４４Ｄに高周波成分画像を入力して識別を行う。ディスクリミネータ４４Ｄの入力に用いる学習用の高周波成分画像を作るために、学習データ生成部３０は、高周波成分抽出部３３を備えている。

高周波成分抽出部３３は、リアル高解像度画像ＲＨから高周波成分を抽出し、リアル高周波成分画像ＲＨＦＣを生成する。高周波成分の抽出は、ハイパスフィルタを用いて行われる。リアル高周波成分画像ＲＨＦＣは、リアル高解像度画像ＲＨと同様に、スライス間隔が１ｍｍ、スライス厚が１ｍｍである。

第４実施形態では、シックスライス画像ＬＫとリアル高周波成分画像ＲＨＦＣのペアが学習データとなる。図２１においてリアル高周波成分画像ＲＨＦＣは本開示における「第２学習用画像」の一例である。

高周波成分抽出部３３が生成したリアル高周波成分画像ＲＨＦＣは、学習部４０のディスクリミネータ４４Ｄに入力される。

学習部４０のジェネレータ４２Ｇは、入力されたシックスライス画像ＬＫから、リアル高周波成分画像ＲＨＦＣと同様の解像度を有する仮想高周波成分画像ＶＨＦＣを生成する。ここでは、ジェネレータ４２Ｇは、スライス間隔が１ｍｍ、スライス厚が１ｍｍの仮想高周波成分画像ＶＨＦＣを生成する。

ディスクリミネータ４４Ｄには、リアル高周波成分画像ＲＨＦＣとシックスライス画像ＬＫとのペア、又は、ジェネレータ４２Ｇの出力に由来する仮想高解像度画像ＶＨＦＣとシックスライス画像ＬＫとのペアが入力される。

ディスクリミネータ４４Ｄは、入力された高周波成分画像がリアル高周波成分画像ＲＨＦＣ、及び仮想高周波成分画像ＶＨＦＣのいずれであるかを識別する。

第４実施形態によれば、ジェネレータ４２Ｇは、低解像度の画像であるシックスライス画像ＬＫから高周波成分画像を生成するように学習される。図１４で説明したように、ジェネレータ４２Ｇが生成した高周波成分画像とジェネレータ４２Ｇの入力であるシックスライス画像ＬＫとを加算処理することで、高解像度画像を得ることができる。

《コンピュータのハードウェア構成の例》
図２２は、学習システム２０に用いられるコンピュータのハードウェア構成の例を示すブロック図である。コンピュータ５００は、パーソナルコンピュータであってもよいし、ワークステーションであってもよく、また、サーバコンピュータであってもよい。コンピュータ５００は、超解像画像生成装置１０、画像保管部２４、学習データ生成部３０、及び学習部４０のいずれか、又はこれらの複数の機能を備えた装置として用いることができる。

コンピュータ５００は、通信部５１２、ストレージ５１４、操作部５１６、ＣＰＵ（Central Processing Unit）５１８、ＧＰＵ（Graphics Processing Unit）５１９、ＲＡＭ（Random Access Memory）５２０、ＲＯＭ（Read Only Memory）５２２、及び表示部５２４を備える。なお、ＧＰＵ（Graphics Processing Unit）５１９は省略されてもよい。

通信部５１２は、有線又は無線により外部装置との通信処理を行い、外部装置との間で情報のやり取りを行うインターフェースである。

ストレージ５１４は、例えば、ハードディスク装置、光ディスク、光磁気ディスク、若しくは半導体メモリ、又はこれらの適宜の組み合わせを用いて構成される記憶装置を含んで構成される。ストレージ５１４には、学習処理及び／又は画像生成処理等の画像処理に必要な各種プログラムやデータ等が記憶される。ストレージ５１４に記憶されているプログラムがＲＡＭ５２０にロードされ、これをＣＰＵ５１８が実行することにより、コンピュータは、プログラムで規定される各種の処理を行う手段として機能する。

操作部５１６は、コンピュータ５００に対する各種の操作入力を受け付ける入力インターフェースである。操作部５１６は、例えば、キーボード、マウス、タッチパネル、操作ボタン、若しくは、音声入力装置、又はこれらの適宜の組み合わせであってよい。

ＣＰＵ５１８は、ＲＯＭ５２２又はストレージ５１４等に記憶された各種のプログラムを読み出し、各種の処理を実行する。ＲＡＭ５２０は、ＣＰＵ５１８の作業領域として使用される。また、ＲＡＭ５２０は、読み出されたプログラム及び各種のデータを一時的に記憶する記憶部として用いられる。

表示部５２４は、各種の情報が表示される出力インターフェースである。表示部５２４は、例えば、液晶ディスプレイ、有機ＥＬ（organic electro-luminescence:ＯＥＬ）ディスプレイ、若しくは、プロジェクタ、又はこれらの適宜の組み合わせであってよい。

《コンピュータを動作させるプログラムについて》
上述の各実施形態で説明した学習データ生成機能、学習機能、及び画像生成機能のうち少なくとも１つの処理機能の一部又は全部をコンピュータに実現させるプログラムを、光ディスク、磁気ディスク、若しくは、半導体メモリその他の有体物たる非一時的な情報記憶媒体であるコンピュータ可読媒体に記録し、この情報記憶媒体を通じてプログラムを提供することが可能である。

またこのような有体物たる非一時的な情報記憶媒体にプログラムを記憶させて提供する態様に代えて、インターネットなどの電気通信回線を利用してプログラム信号をダウンロードサービスとして提供することも可能である。

また、上述の各実施形態で説明した学習データ生成機能、学習機能、及び画像生成機能のうち少なくとも１つの処理機能の一部又は全部をアプリケーションサーバとして提供し、電気通信回線を通じて処理機能を提供するサービスを行うことも可能である。

学習データ生成部３０として機能するコンピュータは学習データ生成装置と理解される。学習部４０として機能するコンピュータは学習装置と理解される。

《各処理部のハードウェア構成について》
図６の補間処理部１２、ジェネレータ１４、及び加算部１６、図７の画像保管部２４、学習データ生成部３０、学習部４０、ＧＡＮ４１、ジェネレータ４２Ｇ、ディスクリミネータ４４Ｄ、誤差演算部５０、及びオプティマイザ５２、図８の固定サイズ領域切出部３１、ダウンサンプル処理部３２、アップサンプル処理部３４、補間処理部３５、及びガウシアンフィルタ処理部３６、並びに図２１の高周波成分抽出部３３などの各種の処理を実行する処理部（processing unit）のハードウェア的な構造は、例えば、次に示すような各種のプロセッサ（processor）である。

各種のプロセッサには、プログラムを実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ、画像処理に特化したプロセッサであるＧＰＵ、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサで構成されてもよい。例えば、１つの処理部は、複数のＦＰＧＡ、或いは、ＣＰＵとＦＰＧＡの組み合わせ、又はＣＰＵとＧＰＵの組み合わせによって構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第一に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第二に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

《その他》
ここではＣＴ画像の超解像の生成モデルの学習方法を説明したが、本開示による生成モデルの学習方法は、ＣＴ画像に限らず、各種の３次元断層画像に適用することができる。例えば、ＭＲＩ（Magnetic Resonance Imaging）装置により取得されるＭＲ画像、ＰＥＴ（Positron Emission Tomography）装置により取得されるＰＥＴ画像、ＯＣＴ（Optical Coherence Tomography）装置により取得されるＯＣＴ画像、３次元超音波撮影装置により取得される３次元超音波画像等であってもよい。

また、本開示による生成モデルの学習方法は、３次元断層画像に限らず、各種の２次元画像に適用することができる。例えば、Ｘ線画像であってもよい。また、医療画像に限定されず、通常のカメラ画像に適用することができる。

本発明の技術的範囲は、上記の実施形態に記載の範囲には限定されない。各実施形態における構成等は、本発明の趣旨を逸脱しない範囲で、各実施形態間で適宜組み合わせることができる。

１０超解像画像生成装置
１２補間処理部
１４ジェネレータ
１６加算部
２０学習システム
２４画像保管部
３０学習データ生成部
３１固定サイズ領域切出部
３２ダウンサンプル処理部
３３高周波成分抽出部
３４アップサンプル処理部
３５補間処理部
３６ガウシアンフィルタ処理部
３８学習データ記憶部
４０学習部
４１敵対的生成ネットワーク（ＧＡＮ）
４２Ｇジェネレータ
４４Ｄディスクリミネータ
４６加算部
５０誤差演算部
５２オプティマイザ
７０Ｎ動作状態
７０Ｐ動作状態
５００コンピュータ
５１２通信部
５１４ストレージ
５１６操作部
５１８ＣＰＵ
５１９ＧＰＵ
５２０ＲＡＭ
５２２ＲＯＭ
５２４表示部
Ｃ０１～Ｃ０５畳み込み層
Ｃ１～Ｃ１０畳み込み層
ＧＴ１画像
ＧＴ２画像
ＩＭ１～ＩＭ４ＣＴ画像
ＩＰＴ補間画像
ＬＩ１～ＬＩ４画像
ＬＫ、ＬＫ１シックスライス画像
ＬＱ、ＬＱ１低解像度画像
ＯＲＨ、ＯＲＨ１リアル高解像度画像
ＲＨ、ＲＨ１リアル高解像度画像
ＲＨＦＣリアル高周波成分画像
ＳＡＦＭセルフアテンション特徴マップ
ＳＤスライス間隔
ＳＴスライス厚
ＴＣＫシックスライス画像
ＶＨ、ＶＨ１仮想高解像度画像
ＶＨＡ１画像
ＶＨＮ２画像
ＶＨＡ３画像
ＶＨＡ４画像
ＶＨＦＣ高周波成分画像
ＶＴ仮想シンスライス画像
Ｓ１～Ｓ５学習データ生成処理のステップ
Ｓ１１～Ｓ１９学習処理のステップ

Claims

第１画像から前記第１画像よりも高解像の画像情報を含む第２画像を推定する生成モデルの機械学習を行う学習方法であって、
前記生成モデルであるジェネレータと、与えられたデータが学習用の正解画像のデータであるか前記ジェネレータからの出力に由来するデータであるかを識別する識別モデルであるディスクリミネータと、を含む敵対的生成ネットワークを用いることと、
前記第２画像よりも解像度が低い第１解像度情報を含む第１学習用画像と、前記第１学習用画像よりも解像度が高い第２解像度情報を含む第２学習用画像であって前記第１学習用画像に対応する前記正解画像となる前記第２学習用画像と、を学習データとして用いることと、
前記ジェネレータの入力には、前記第１学習用画像及び前記第２学習用画像のうち前記第１学習用画像のみを与えることと、
前記ジェネレータ及び前記ディスクリミネータのうち、前記ディスクリミネータのネットワークに限定してセルフアテンション機構を実装することと、
を含む学習方法。
前記ジェネレータ及び前記ディスクリミネータのそれぞれのネットワークは、畳み込みニューラルネットワークである、請求項１に記載の学習方法。
前記第１画像は３次元断層画像であり、
前記第２画像は少なくとも前記３次元断層画像のスライス厚方向の解像度が前記第１画像よりも高解像である、請求項１又は２に記載の学習方法。
前記第２学習用画像は、コンピュータ断層撮影装置を用いて取得された画像であり、
前記第１学習用画像は、前記第２学習用画像を基に画像処理によって生成された画像である、請求項１から３のいずれか一項に記載の学習方法。
前記第２学習用画像から前記第１学習用画像を生成する前記画像処理は、前記第２学習用画像をダウンサンプルする処理を含む、請求項４に記載の学習方法。
前記第２学習用画像から前記第１学習用画像を生成する前記画像処理は、前記ダウンサンプルの処理によって得られた画像に補間処理を施してアップサンプルする処理を含む、請求項５に記載の学習方法。
前記第２学習用画像から前記第１学習用画像を生成する前記画像処理は、ガウシアンフィルタを用いる平滑化処理を含む、請求項４から６のいずれか一項に記載の学習方法。
前記機械学習に使用する複数種類の前記学習データにおける前記第１学習用画像及び前記第２学習用画像の各々は同一サイズである、請求項１から７のいずれか一項に記載の学習方法。
前記第２画像は、高周波成分の情報を示す高周波成分画像であり、
前記ジェネレータは、入力された画像の解像度を高めるために必要な高周波成分を推定し、前記高周波成分の情報を示す高周波成分画像を出力する、請求項１から８のいずれか一項に記載の学習方法。
前記ジェネレータから出力された前記高周波成分画像と、前記ジェネレータに入力された前記画像とを加算すること、をさらに含み、
前記加算によって得られる仮想第２画像を前記ディスクリミネータの入力に与える、請求項９に記載の学習方法。
請求項１から１０のいずれか一項に記載の学習方法をコンピュータに実行させるためのプログラム。
非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項１１に記載のプログラムをコンピュータに実行させる記録媒体。
請求項１から１０のいずれか一項に記載の学習方法を実施して学習された学習済みモデルであって、前記第１画像から前記第１画像よりも高解像の画像情報を含む第２画像を推定する機能をコンピュータに実現させるための前記生成モデルである学習済みモデル。
請求項１から１０のいずれか一項に記載の学習方法を実施して学習された学習済みモデルである前記生成モデルを備え、入力される第３画像から前記第３画像よりも高解像の画像情報を含む第４画像を生成する超解像画像生成装置。
前記第３画像は、前記第１学習用画像と異なる画像サイズである、請求項１４に記載の超解像画像生成装置。
前記第３画像に補間処理を行い、補間画像を生成する第１補間処理部と、
前記補間画像と前記生成モデルが生成する高周波成分とを加算する第１加算部と、を含み、
前記補間画像が前記生成モデルに入力され、
前記生成モデルが前記補間画像の解像度を高めるために必要な前記高周波成分を生成する、請求項１４又は１５に記載の超解像画像生成装置。
第１画像から前記第１画像よりも高解像の画像情報を含む第２画像を推定する生成モデルの機械学習を行う学習システムであって、
前記生成モデルであるジェネレータと、与えられたデータが学習用の正解画像のデータであるか前記ジェネレータからの出力に由来するデータであるかを識別する識別モデルであるディスクリミネータと、を含む敵対的生成ネットワークを備え、
前記ジェネレータ及び前記ディスクリミネータのうち、前記ディスクリミネータのネットワークに限定してセルフアテンション機構が実装されており、
前記第２画像よりも解像度が低い第１解像度情報を含む第１学習用画像と、前記第１学習用画像よりも解像度が高い第２解像度情報を含む第２学習用画像であって前記第１学習用画像に対応する前記正解画像となる前記第２学習用画像と、を学習データとして取り込み、
前記ジェネレータの入力に、前記第１学習用画像及び前記第２学習用画像のうち前記第１学習用画像のみが与えられ、前記敵対的生成ネットワークの学習が行われる、
学習システム。
前記学習データを生成する学習データ生成部をさらに備え、
前記学習データ生成部は、
前記第２解像度情報を含むオリジナルの元画像から固定サイズ領域を切り出す固定サイズ領域切出部と、
前記固定サイズ領域切出部によって切り出された前記固定サイズ領域の画像をダウンサンプルするダウンサンプル処理部と、
を含み、
前記固定サイズ領域切出部によって切り出された前記固定サイズ領域の画像を前記第２学習用画像とし、
前記第２学習用画像に対して前記ダウンサンプルの処理を行うことによって前記第１学習用画像を生成する、請求項１７に記載の学習システム。
前記学習データ生成部は、さらに、
前記ダウンサンプルの処理によって得られた画像に補間処理を施す第２補間処理部と、
ガウシアンフィルタを用いて平滑化を行う平滑化処理部と、
を含む、請求項１８に記載の学習システム。
前記ジェネレータは、入力された画像の解像度を高めるために必要な高周波成分を推定して前記高周波成分の情報を示す高周波成分画像を出力する構成であり、
前記ジェネレータから出力された前記高周波成分画像と前記ジェネレータに入力された前記画像とを加算する第２加算部をさらに備える、請求項１７から１９のいずれか一項に記載の学習システム。