JP7105363B2 - 学習方法、学習システム、学習済みモデル、プログラム及び超解像画像生成装置 - Google Patents

学習方法、学習システム、学習済みモデル、プログラム及び超解像画像生成装置 Download PDF

Info

Publication number
JP7105363B2
JP7105363B2 JP2021502251A JP2021502251A JP7105363B2 JP 7105363 B2 JP7105363 B2 JP 7105363B2 JP 2021502251 A JP2021502251 A JP 2021502251A JP 2021502251 A JP2021502251 A JP 2021502251A JP 7105363 B2 JP7105363 B2 JP 7105363B2
Authority
JP
Japan
Prior art keywords
image
learning
resolution
generator
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021502251A
Other languages
English (en)
Other versions
JPWO2020175446A1 (ja
Inventor
彰 工藤
嘉郎 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JPWO2020175446A1 publication Critical patent/JPWO2020175446A1/ja
Application granted granted Critical
Publication of JP7105363B2 publication Critical patent/JP7105363B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/02Arrangements for diagnosis sequentially in different planes; Stereoscopic radiation diagnosis
    • A61B6/03Computed tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Veterinary Medicine (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Optics & Photonics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Description

本発明は、学習方法、学習システム、学習済みモデル、プログラム及び超解像画像生成装置に係り、特に、超解像の画像生成を実現する機械学習技術及び画像処理技術に関する。
近年、多層のニューラルネットワークを用いて機械学習を行うことにより、画像を生成する技術が提案されている。特許文献1には敵対的生成ネットワーク(GAN:Generative Adversarial Networks)を用いて生成モデルを学習し、超解像画像生成を実現する手法が記載されている。非特許文献1にはGANに関する研究が記載されている。GANは、データを作り出すジェネレータと呼ばれる生成ネットワークと、データを識別するディスクリミネータと呼ばれる識別ネットワークとを含む。ディスクリミネータは入力されたデータが学習データからの正解のデータであるか、ジェネレータの出力に由来するデータであるかを識別する。学習の際にジェネレータとディスクリミネータとを交互に更新し、両者の精度を高めていくことにより、最終的にはジェネレータが学習データに近いデータを生成できるようにすることを目指す。
非特許文献2には、GANを用いて入力画像と出力画像とのペアを学習する手法が記載されている。非特許文献3には、GANにセルフアテンション機構を導入した研究が記載されている。セルフアテンション機構は、ネットワークの隠れ層から出力される特徴マップに大域的な情報を付加する仕組みである。非特許文献3に記載された方法は、ジェネレータとディスクリミネータのネットワークの双方にセルフアテンション機構を導入し、特定のサイズの入力データに対して高解像度の画像生成を可能としている。
米国特許出願公開2018/0075581号
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio "Generative Adversarial Nets", arXiv:1406.2661 Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros "Image-to-Image Translation with Conditional Adversarial Networks",CVPR2016 Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena "Self-Attention Generative Adversarial Networks", arXiv:1805.08318
しかしながら、非特許文献3に記載された方法には以下のような課題がある。
[課題1]非特許文献3に記載された方法では、ジェネレータがアテンション機構を持つため、学習時と学習後の推定時とでジェネレータに入力させるデータが同じ入力サイズである必要がある。つまり、学習済みのジェネレータに入力できるデータのサイズが固定サイズに制約され、任意の入力サイズに対応できない。
[課題2]非特許文献3に記載された方法では、ジェネレータがアテンション機構を持つため、画像生成時(推定時)にジェネレータの計算量が増加する。特に、入力画像サイズが大きくなった際に計算量が指数的に増大する。
本発明はこのような事情に鑑みてなされたもので、学習時の画像サイズに制約されることなく、任意サイズの入力データに対応でき、画像生成時の計算量を抑制することが可能な生成モデルの学習方法及び学習システム、プログラム、学習済みモデル、並びに超解像画像生成装置を提供することを目的とする。
本開示の一態様に係る学習方法は、第1画像から第1画像よりも高解像の画像情報を含む第2画像を推定する生成モデルの機械学習を行う学習方法であって、生成モデルであるジェネレータと、与えられたデータが学習用の正解画像のデータであるかジェネレータからの出力に由来するデータであるかを識別する識別モデルであるディスクリミネータと、を含む敵対的生成ネットワークを用いることと、第2画像よりも解像度が低い第1解像度情報を含む第1学習用画像と、第1学習用画像よりも解像度が高い第2解像度情報を含む第2学習用画像であって第1学習用画像に対応する正解画像となる第2学習用画像と、を学習データとして用いることと、ジェネレータの入力には、第1学習用画像及び第2学習用画像のうち第1学習用画像のみを与えることと、ジェネレータ及びディスクリミネータのうち、ディスクリミネータのネットワークに限定してセルフアテンション機構を実装することと、を含む学習方法である。
本態様によれば、セルフアテンション機構の導入によって、学習において画像の大局的な情報が考慮され、精度の高い学習が行われる。本態様によれば、ディスクリミネータに限定してセルフアテンション機構を導入したことにより、かつ、ジェネレータの計算量を増加することなく、生成画像の精度を向上することが可能になる。また、ジェネレータはセルフアテンション機構を備えていないため、任意サイズの入力データに対して高精度の画像生成を行うことができる。
本開示の他の態様に係る学習方法において、ジェネレータ及びディスクリミネータのそれぞれのネットワークは、畳み込みニューラルネットワークである構成とすることができる。
本開示の更に他の態様に係る学習方法において、第1画像は3次元断層画像であり、第2画像は少なくとも3次元断層画像のスライス厚方向の解像度が第1画像よりも高解像である構成とすることができる。
本開示の更に他の態様に係る学習方法において、第2学習用画像は、コンピュータ断層撮影装置を用いて取得された画像であり、第1学習用画像は、第2学習用画像を基に画像処理によって生成された画像である構成とすることができる。
本開示の更に他の態様に係る学習方法において、第2学習用画像から第1学習用画像を生成する画像処理は、第2学習用画像をダウンサンプルする処理を含む構成とすることができる。
本開示の更に他の態様に係る学習方法において、第2学習用画像から第1学習用画像を生成する画像処理は、ダウンサンプルの処理によって得られた画像に補間処理を施してアップサンプルする処理を含む構成とすることができる。
本開示の更に他の態様に係る学習方法において、第2学習用画像から第1学習用画像を生成する画像処理は、ガウシアンフィルタを用いる平滑化処理を含む構成とすることができる。
本開示の更に他の態様に係る学習方法において、機械学習に使用する複数種類の学習データにおける第1学習用画像及び第2学習用画像の各々は同一サイズである構成とすることができる。
本開示の更に他の態様に係る学習方法において、第2画像は、高周波成分の情報を示す高周波成分画像であり、ジェネレータは、入力された画像の解像度を高めるために必要な高周波成分を推定し、高周波成分の情報を示す高周波成分画像を出力する構成とすることができる。
本開示の更に他の態様に係る学習方法において、ジェネレータから出力された高周波成分画像と、ジェネレータに入力された画像とを加算すること、をさらに含み、加算によって得られる仮想第2画像をディスクリミネータの入力に与える構成とすることができる。
本開示の他の態様に係るプログラムは、本開示のいずれか一態様に係る学習方法をコンピュータに実行させるためのプログラムである。
本開示の他の態様に係る学習済みモデルは、本開示のいずれか一態様に係る学習方法を実施して学習された学習済みモデルであって、第1画像から第1画像よりも高解像の画像情報を含む第2画像を推定する生成モデルである。
本開示の他の態様に係る超解像画像生成装置は、本開示のいずれか一態様に係る学習方法を実施して学習された学習済みモデルである生成モデルを備え、入力される第3画像から第3画像よりも高解像の画像情報を含む第4画像を生成する超解像画像生成装置である。
本態様に係る超解像画像生成装置によれば、任意サイズの入力データに対して高精度の画像生成が可能である。
本開示の更に他の態様に係る超解像画像生成装置において、第3画像は、第1学習用画像と異なる画像サイズである構成とすることができる。
本開示の他の態様に係る超解像画像生成装置において、第3画像に補間処理を行い、補間画像を生成する第1補間処理部と、補間画像と生成モデルが生成する高周波成分とを加算する第1加算部と、を含み、補間画像が生成モデルに入力され、生成モデルが補間画像の解像度を高めるために必要な高周波成分を生成する構成とすることができる。
本開示の他の態様に係る学習システムは、第1画像から第1画像よりも高解像の画像情報を含む第2画像を推定する生成モデルの機械学習を行う学習システムであって、生成モデルであるジェネレータと、与えられたデータが学習用の正解画像のデータであるかジェネレータからの出力に由来するデータであるかを識別する識別モデルであるディスクリミネータと、を含む敵対的生成ネットワークを備え、ジェネレータ及びディスクリミネータのうち、ディスクリミネータのネットワークに限定してセルフアテンション機構が実装されており、第2画像よりも解像度が低い第1解像度情報を含む第1学習用画像と、第1学習用画像よりも解像度が高い第2解像度情報を含む第2学習用画像であって第1学習用画像に対応する正解画像となる第2学習用画像と、を学習データとして取り込み、ジェネレータの入力に、第1学習用画像及び第2学習用画像のうち第1学習用画像のみが与えられ、敵対的生成ネットワークの学習が行われる学習システムである。
本開示の他の態様に係る学習システムにおいて、学習データを生成する学習データ生成部をさらに備え、学習データ生成部は、第2解像度情報を含むオリジナルの元画像から固定サイズ領域を切り出す固定サイズ領域切出部と、固定サイズ領域切出部によって切り出された固定サイズ領域の画像をダウンサンプルするダウンサンプル処理部と、を含み、固定サイズ領域切出部によって切り出された固定サイズ領域の画像を第2学習用画像とし、第2学習用画像に対してダウンサンプルの処理を行うことによって第1学習用画像を生成する構成とすることができる。
本開示の更に他の態様に係る学習システムにおいて、学習データ生成部は、さらに、ダウンサンプルの処理によって得られた画像に補間処理を施す第2補間処理部と、ガウシアンフィルタを用いて平滑化を行う平滑化処理部と、を含む構成とすることができる。
本開示の更に他の態様に係る学習システムにおいて、ジェネレータは、入力された画像の解像度を高めるために必要な高周波成分を推定して高周波成分の情報を示す高周波成分画像を出力する構成であり、ジェネレータから出力された高周波成分画像とジェネレータに入力された画像とを加算する第2加算部をさらに備える構成とすることができる。
本開示の他の態様に係る学習システムは、第1画像から第1画像よりも高解像の画像情報を含む第2画像を推定する生成モデルの機械学習を行う学習システムであって、少なくとも1つのプロセッサを含み、プロセッサは、生成モデルであるジェネレータと、与えられたデータが学習用の正解画像のデータであるかジェネレータからの出力に由来するデータであるかを識別する識別モデルであるディスクリミネータと、を含む敵対的生成ネットワークを備え、ジェネレータ及びディスクリミネータのうち、ディスクリミネータのネットワークに限定してセルフアテンション機構が実装されており、第2画像よりも解像度が低い第1解像度情報を含む第1学習用画像と、第1学習用画像よりも解像度が高い第2解像度情報を含む第2学習用画像であって第1学習用画像に対応する正解画像となる第2学習用画像と、を学習データとして取り込み、ジェネレータの入力に、第1学習用画像及び第2学習用画像のうち第1学習用画像のみが与えられ、敵対的生成ネットワークの学習が行われる学習システムである。
本発明によれば、任意サイズの入力データに対して高解像度の画像生成が可能な生成モデルを得ることができる。また、本発明によれば、画像生成時の計算量を抑制することが可能な生成モデルを得ることができ、学習済みモデルを用いて高精度の画像生成を実現できる。
図1は、シック(Thick)スライス画像と仮想シンスライス(Virtual Thin Slice)画像のそれぞれのデータのイメージ図である。 図2は、CT画像のスライス間隔及びスライス厚を説明するための図である。 図3は、CT画像のスライス間隔及びスライス厚を説明するための図である。 図4は、CT画像のスライス間隔及びスライス厚を説明するための図である。 図5は、CT画像のスライス間隔及びスライス厚を説明するための図である。 図6は、本発明の実施形態に係る超解像画像生成装置の例を示す機能ブロック図である。 図7は、本発明の実施形態に係る学習システムの構成例を示すブロック図である。 図8は学習データ生成部の構成例を示す機能ブロック図である。 図9は、学習データを生成する際に適用されるスライス間隔と想定スライス厚に対応したガウシアンフィルタの条件の組み合わせの例を示す図表である。 図10は、学習データを生成する処理の手順の例を示すフローチャートである。 図11は、GANを適用した学習部における処理の概念図である。 図12は、ディスクリミネータに適用される識別ネットワークの例を示す概念図である。 図13は、ジェネレータに適用される生成ネットワークの例を示す概念図である。 図14は、ジェネレータの出力に低解像度画像を加えて仮想高解像度画像を生成する動作の説明図である。 図15は、学習時におけるディスクリミネータによる識別の動作を説明するための図である。 図16は、学習部における処理の手順の例を示すフローチャートである。 図17は、実施形態の効果を示す画像の例である。 図18は、実施形態の他の効果を説明するための図である。 図19は、第2実施形態に係る学習システムによる処理の流れを概略的に示す機能ブロック図である。 図20は、第3実施形態に係る学習システムによる処理の流れを概略的に示す機能ブロック図である。 図21は、第4実施形態に係る学習システムによる処理の流れを概略的に示す機能ブロック図である。 図22は、コンピュータのハードウェア構成の例を示すブロック図である。
以下、添付図面に従って本発明の好ましい実施の形態について詳説する。
《第1実施形態》
本発明の実施形態に係る超解像画像生成装置は、低解像度の画像データから仮想的な高解像度の画像データを生成する。「生成する」とは「推定する」という用語の概念を含む。ここでは画像データの具体例として、コンピュータ断層撮影(CT:Computed Tomography)装置を用いて取得されるCT画像のデータを対象とし、CT装置を用いて取得されたシックスライス(Thick slice)の画像データから仮想的なシンスライス(Thin slice)の画像データを生成する超解像画像生成装置を例示する。
シックスライスの画像データとは、スライス間隔及びスライス厚が比較的大きい低解像度のCT画像データをいう。例えば、スライス間隔及びスライス厚が4mmを超えるCT画像データはシックスライスの画像データに該当する。シックスライスの画像データを「シックスライス画像」、「シックスライスデータ」、又は「シックデータ」と表記する場合がある。
シンスライスの画像データとは、スライス間隔及びスライス厚が小さい高解像度のCT画像データである。例えば、スライス間隔及びスライス厚が1mm程度のCT画像データはシンスライスの画像データに該当する。シンスライスの画像データを「シンスライス画像」、「シンスライスデータ」、又は「シンデータ」と表記する場合がある。
本実施形態において、シックスライス画像から生成される仮想的なシンスライス画像を仮想シンスライス(VTS:Virtual Thin Slice)画像という。これに対し、CT装置を用いた撮影によって取得された本物のシンスライス画像をリアルシンスライス(RTS:Real Thin Slice)画像と呼ぶ。
[CT画像データの説明]
図1は、シックスライス画像とVTS画像のそれぞれのデータのイメージ図である。図1の左図がシックスライス画像であり、右図がVTS画像である。VTS画像は、シックスライス画像に比べて高品質な再構築画像を生成することが可能である。図1においてZ軸方向は体軸方向である。
CTデータは、撮影に使用したCT装置の機種により、また、出力スライスの条件の設定などにより、様々なスライス間隔及びスライス厚のデータが存在し得る。
図2~図5は、CT画像のスライス間隔及びスライス厚の例を説明するための図である。スライス間隔とは、あるスライスとそれに隣接するスライスとのそれぞれの厚さの中心位置同士間の距離をいう。スライス間隔はスライス間距離と同義である。スライス厚とは、撮影領域の中心位置における1つのスライスの厚さ方向の長さをいう。スライス厚は、スライスシックネス(Slice thickness)と同義である。図2~図5において、スライス間隔をSDと表示し、スライス厚をSTと表示する。なお、スライスの厚み方向はZ軸方向である。
図2は、スライス間隔SD=4mm、スライス厚ST=4mmの場合のCT画像IM1を模式的に示す説明図である。ここでは簡単のために3層の断層画像群を模式的に示している。
図3は、スライス間隔SD=4mm、スライス厚ST=6mmの場合のCT画像IM2を模式的に示す説明図である。図3の場合、隣り合うスライス同士でスライス厚の範囲がオーバーラップしている。
図4は、スライス間隔SD=8mm、スライス厚ST=4mmの場合のCT画像IM3を模式的に示す説明図である。図4の例の場合、スライス厚STよりもスライス間隔SDの方が大きいため、隣り合う断層画像同士が離間し、層間に隙間がある。
図5は、スライス間隔SD=1mm、スライス厚ST=1mmのCT画像IM4を模式的に示す説明図である。図5に示すCT画像Im4は、図2から図4に示した他のCT画像IM1~IM3よりもZ方向の情報量が多い。すなわち、CT画像IM4は、CT画像IM1、IM2、及びIM3のいずれよりもZ方向の解像度が相対的に高い。
CT画像のスライス間隔及びスライス厚は、CT装置を使用する施設、医師等の好みなどに応じて様々な条件で設定される。CT画像は、診断のためには高解像度であることが好ましいが、スライス間隔を小さくすると、被検者に対する被ばく量が増えてしまうという問題点がある。また、高解像度のCT画像はデータ量が大きく、ストレージの記憶容量を圧迫するため、容量削減のために低解像度化して保存される場合もある。例えば、古いCTデータは撮影スライス枚数を削減してデータベースに保存することが行われている。
しかし、シックスライス画像は、体軸と平行な面を断面とする側面方向から見た再構築画像やボリュームレンダリング画像において品質が悪く、十分な観察や解析に利用し難いという課題がある。
本実施形態に係る超解像画像生成装置は、図3~図5に示すような様々なスライス条件(スライス間隔及びスライス厚)の低解像度のCT画像から、例えば、図5に示すようなスライス間隔が1mm、スライス厚が1mmの高解像度のVTS画像を生成する画像生成処理を行う。
[超解像画像生成装置における画像生成アルゴリズムの例]
図6は、本発明の実施形態に係る超解像画像生成装置の例を示す機能ブロック図である。超解像画像生成装置10は、補間処理部12と、階層型ニューラルネットワークの学習済みモデルであるジェネレータ14と、加算部16と、を含む。「ニューラルネットワーク」とは、脳神経系の仕組みを模擬した情報処理の数理モデルである。ニューラルネットワークを用いた処理は、コンピュータを用いて実現することができる。ニューラルネットワークは、プログラムモジュールとして構成され得る。本明細書においてニューラルネットワークを単に「ネットワーク」と表記する場合がある。
補間処理部12は、入力された低解像度のシックスライス画像TCKに対してスプライン補間を行い、補間画像IPTを生成する。補間処理部12から出力される補間画像IPTは、Z方向にボケた画像であり、低解像度画像の一例である。なお、補間画像IPTの画素数は、最終的に生成する仮想シンスライス画像VTの画素数と一致させておくことが好ましい。
補間処理部12から出力された補間画像IPTは、ジェネレータ14に入力される。ジェネレータ14は、敵対的生成ネットワーク(GAN)を用いた機械学習によって学習された生成モデルである。ジェネレータ14を得るための学習方法については後述する。学習済みモデルは、プログラムモジュールと言い換えてもよい。
ジェネレータ14は、入力された画像から高解像度画像の生成に必要な高周波成分情報を生成(推定)し、高周波成分情報を出力する。
加算部16は、ジェネレータ14から出力された高周波成分情報のマップとジェネレータ14の入力データである補間画像IPTそのものとを加算して、仮想シンスライス画像VTを生成する。
図6では、ジェネレータ14への入力が補間画像IPTであり、ジェネレータ14の出力が高周波成分情報である例を示すが、ジェネレータ14への入力がシックスライス画像TCKである形態も可能である。また、ジェネレータ14の出力が仮想シンスライス画像VTである形態も可能である。高周波成分情報は、元となる画像と加算することによって高解像度画像を生成することができる情報であるため、高周波成分情報のマップを「高周波成分画像」と呼ぶ。高周波成分画像は、高解像度の画像情報を含む画像であり、実質的に「高解像度画像」と同様のものとして理解することができる。
図6においてシックスライス画像TCKは本開示における「第3画像」の一例である。仮想シンスライス画像VTは本開示における「第4画像」の一例である。ジェネレータ14から出力される高周波成分は本開示における「前記第3画像よりも高解像の画像情報」の一例である。補間処理部12は本開示における「第1補間処理部」の一例である。加算部16は本開示における「第1加算部」の一例である。
[学習システムの構成例]
次に、ジェネレータ14を生成するための学習方法について説明する。
図7は、本発明の実施形態に係る学習システム20の構成例を示すブロック図である。学習システム20は、画像保管部24と、学習データ生成部30と、学習部40と、を含む。学習システム20は、1台又は複数台のコンピュータを含むコンピュータシステムによって実現することができる。すなわち、画像保管部24、学習データ生成部30、及び学習部40の機能は、コンピュータのハードウェアとソフトウェアの組み合わせによって実現できる。ここでは、画像保管部24、学習データ生成部30、及び学習部40の各々が別々の装置として構成される例を説明するが、これらの機能は1台のコンピュータで実現してもよいし、2以上の複数台のコンピュータで処理の機能を分担して実現してもよい。例えば、画像保管部24、学習データ生成部30、及び学習部40は、通信回線を介して互いに接続されていてもよい。「接続」という用語は、有線接続に限らず、無線接続の概念も含む。通信回線は、ローカルエリアネットワークであってもよいし、ワイドエリアネットワークであってもよい。
このように構成することで、学習データの生成と生成モデルの学習とを物理的にも時間的にも互いに束縛されることなく実施することができる。
画像保管部24は、医療用X線CT装置によって撮影されたCT再構成画像(CT画像)を保存する大容量ストレージ装置を含む。画像保管部24は、例えば、PACS(Picture Archiving and Communication Systems)に代表される医用画像管理システムにおけるストレージであってよい。画像保管部24には、不図示のCT装置を用いて撮影されたリアル高解像度画像である複数のシンスライス画像のデータが保管されている。
画像保管部24に保管されるCT画像は、人体(被検体)を撮影した医療画像であり、複数の断層画像を含む3次元断層画像である。ここでは、各断層画像は互いに直交するX方向及びY方向に平行な画像である。X方向及びY方向に直交するZ方向は、被検体の体軸方向であり、スライス厚方向ともいう。画像保管部24に保管されるCT画像は、人体の部位毎の画像であってもよいし、全身を撮影した画像であってもよい。
学習データ生成部30は、学習部40が学習を行うために必要な学習データを生成する。学習データとは、機械学習に用いる訓練用のデータであり、「学習用データ」或いは「訓練データ」と同義である。本実施形態の機械学習においては、入力用の低解像度画像と、その低解像度画像に対応する正解の高解像度画像と、を紐付けした画像ペアの学習データを多数使用する。このような画像ペアは、リアル高解像度画像であるシンスライスのデータを元に、画像処理によって人工的に生成することが可能である。
学習データ生成部30は、画像保管部24からオリジナルのリアル高解像度画像を取得し、リアル高解像度画像にダウンサンプルの処理を実施することにより、多様な低解像度画像(擬似的なシックスライス画像)を人工的に生成する。学習データ生成部30は、例えば、1mmに等方化したオリジナルのシンスライスのデータに対して、姿勢変換を行い、無作為に固定サイズ領域を切り出した後、スライス間隔が4mmの仮想的な4mmスライスのデータ、及びスライス間隔が8mmの仮想的な8mmスライスのデータを生成する。固定サイズ領域は、X軸方向×Y軸方向×Z軸方向の画素数が、例えば「160×160×160」の3次元領域であってよい。学習データ生成部30によって、学習用の固定サイズの低解像度画像LQとこれに対応するリアル高解像度画像RHの画像ペアが生成される。
学習部40による学習の処理を実施するために、事前に学習データ生成部30を用いてオリジナルのリアル高解像度画像から複数の学習データを生成しておき、学習データセットとしてストレージに保存しておくことが好ましい。
学習データ生成部30によって生成された低解像度画像LQ及びリアル高解像度画像RHは、学習部40に入力される。
学習部40は、学習モデルとしての敵対的生成ネットワーク(GAN)41を含む。学習部40のアーキテクチャは、非特許文献2に記載のアーキテクチャを2次元から3次元のデータへ拡張した構造をベースとしている。GAN41は、データを作り出すジェネレータ42Gと呼ばれる生成ネットワークと、入力されたデータを識別するディスクリミネータ44Dと呼ばれる識別ネットワークと、を含んで構成される。すなわち、ジェネレータ42Gは、画像データを生成する生成モデルであり、ディスクリミネータ44Dはデータを識別する識別モデルである。「ジェネレータ」という用語は「生成部」、「生成器」及び「生成モデル」などの用語と同義である。「ディスクリミネータ」という用語は「識別部」、「識別器」及び「識別モデル」などの用語と同義である。
学習部40は、入力された学習データに基づいて、ジェネレータ42Gとディスクリミネータ44とを用いた敵対的な学習を繰り返すことにより、双方のモデルの性能を高めながらジェネレータ42Gを学習する。
本例のディスクリミネータ44Dには、セルフアテンション機構が実装されている。ディスクリミネータ44Dのネットワークにおいてセルフアテンション機構を導入する層は、複数の畳み込み層のうちの一部であってもよいし、全部であってもよい。セルフアテンション機構を含むディスクリミネータ44Dの構成及び動作、並びにGAN41の学習方法の例について詳細は後述する。
学習部40は、誤差演算部50と、オプティマイザ52と、を含む。誤差演算部50は、損失関数を用いてディスクリミネータ44Dの出力と正解との誤差を評価する。オプティマイザ52は、誤差演算部50の演算結果を基に、ネットワークのパラメータを更新する処理を行う。ネットワークのパラメータは、各層の処理に用いるフィルタのフィルタ係数(ノード間の結合の重み)及びノードのバイアスなどを含む。
オプティマイザ52は、誤差演算部50の演算結果からジェネレータ42G及びディスクリミネータ44Dのそれぞれのネットワークのパラメータの更新量を算出するパラメータ演算処理と、パラメータ演算処理の算出結果に従い、ジェネレータ42G及びディスクリミネータ44Dのそれぞれのネットワークのパラメータを更新するパラメータ更新処理と、を行う。オプティマイザ52は、勾配降下法などのアルゴリズムに基づきパラメータの更新を行う。
[学習データの生成について]
図8は学習データ生成部30の構成例を示す機能ブロック図である。学習データ生成部30は、固定サイズ領域切出部31と、ダウンサンプル処理部32と、アップサンプル処理部34と、学習データ記憶部38と、を含む。
固定サイズ領域切出部31は、入力されたオリジナルのリアル高解像度画像ORH1から無作為に固定サイズ領域を切り出す処理を行う。固定サイズ領域切出部31によって切り出された固定サイズ領域のリアル高解像度画像RH1は、ダウンサンプル処理部32に送られる。
ダウンサンプル処理部32は、リアル高解像度画像RH1をZ軸方向にダウンサンプルして、低解像度のシックスライス画像LK1を生成する。ダウンサンプルの処理としては、例えば、単純にZ軸方向のスライスを一定の割合で削減するように間引き処理を実施すればよい。なお、この例ではZ軸方向のダウンサンプルのみを行い、X軸方向及びY軸方向についてはダウンサンプルを行わないものとするが、X軸方向及びY軸方向についてもダウンサンプルを実施する形態も可能である。
ダウンサンプル処理部32によって生成されたシックスライス画像LK1は、アップサンプル処理部34に入力される。
アップサンプル処理部34は、シックスライス画像LK1をZ軸方向にアップサンプルして、低品質のシンスライス画像である低解像度画像LQ1を生成する。アップサンプルの処理は、例えば、スプライン補間とガウシアンフィルタ処理との組み合わせであってよい。アップサンプル処理部34は、補間処理部35と、ガウシアンフィルタ処理部36と、を含む。補間処理部35は、例えば、シックスライス画像LK1に対してスプライン補間を行う。補間処理部35は、図6で説明した補間処理部12と同様の処理部であってよい。ガウシアンフィルタ処理部36は、補間処理部35から出力された画像にガウシアンフィルタを適用して平滑化を行う。図8に示す補間処理部35は本開示における「第2補間処理部」の一例である。ガウシアンフィルタ処理部36は本開示における「平滑化処理部」の一例である。
アップサンプル処理部34から出力される低解像度画像LQ1は、リアル高解像度画像RH1と同じ画素数のデータとすることが好ましい。ここでは、低解像度画像LQ1とリアル高解像度画像RH1は同一サイズである。低解像度画像LQ1は、リアル高解像度画像RH1と比較して低品質の(つまり、低解像度の)画像である。こうして生成された低解像度画像LQ1と、その生成元となったリアル高解像度画像RH1とのペアを紐付けして学習データ記憶部38に記憶する。
オリジナルのリアル高解像度画像ORH1は本開示における「オリジナルの元画像」の一例である。リアル高解像度画像RH1は本開示における「第2学習用画像」の一例である。低解像度画像LQ1は本開示における「第1学習用画像」の一例である。低解像度画像LQ1の画像情報は本開示における「第1解像度情報」の一例である。リアル高解像度画像RH1の画像情報は本開示における「第2解像度情報」の一例である。
学習データ生成部30は、1つのオリジナルのリアル高解像度画像ORH1から固定サイズ領域の切り出し位置を変えて、複数のリアル高解像度画像RHを切り出して、それぞれのリアル高解像度画像RHに対応する低解像度画像LQを生成することにより、複数の画像ペアを生成することができる。
また、学習データ生成部30は、アップサンプル処理部34におけるスライス補間倍率と、アップサンプル処理部34に適用するガウシアンフィルタの条件との組み合わせを変えることにより、多様なスライス条件の低解像度画像を生成することができる。なお、スライス補間倍率は、ダウンサンプル処理部32におけるダウンサンプルの条件に対応している。
学習の際には多様なスライス条件のデータを与えることが好ましい。本実施形態では、図9に示すような、多様なスライス条件に対応する低解像度画像を用いて学習を行う。図9は、学習データを生成する際に適用されるスライス間隔と想定スライス厚に対応したガウシアンフィルタの条件の組み合わせの例を示す図表である。
本例では、低解像度画像LQのスライス間隔は、4mmと8mmの2通りとする。つまり、学習時のスライス補間倍率は、4倍か8倍かの2パターンである。スライス厚は、スライス間隔に対応させて0mm~8mmの範囲とする。ガウシアンフィルタの標準偏差σを図9に記載の数値範囲内でランダムに与えることで、擬似的に多様なスライス厚を想定した低解像度画像が生成され得る。
オリジナルのリアル高解像度画像を複数種類用いることで多様な学習データを多数用意することが可能である。
[学習データを生成する処理の手順の例]
図10は、学習データを生成する処理の手順の例を示すフローチャートである。図10に示すフローチャートの各ステップは、学習データ生成部30として機能するプロセッサを含むコンピュータによって実行される。コンピュータは、CPU(Central Processing Unit)及びメモリを備える。コンピュータは、GPU(Graphics Processing Unit)を含んでもよい。
図10に示すように、学習データ生成方法は、オリジナル画像取得工程(ステップS1)、固定サイズ領域切出工程(ステップS2)、ダウンサンプル工程(ステップS3)、アップサンプル工程(ステップS4)、及び学習データ記憶工程(ステップS5)を含む。
ステップS1において、学習データ生成部30は画像保管部24からオリジナルのリアル高解像度画像ORHを取得する。ここでは、スライス間隔が1mm、スライス厚が1mmの等方化されたリアル高解像度画像ORHを取得する。
ステップS2において、固定サイズ領域切出部31は、入力されたオリジナルのリアル高解像度画像ORHから固定サイズ領域を切り出す処理を行い、固定サイズ領域のリアル高解像度画像RH1を生成する。
ステップS3において、ダウンサンプル処理部32はリアル高解像度画像RH1をダウンサンプルして、シックスライス画像LK1を生成する。ここでは、図9で説明したように、スライス間隔が4mm、又は8mmに相当するシックスライス画像LK1が生成される。
ステップS4において、アップサンプル処理部34はダウンサンプルによって得られたシックスライス画像LK1をアップサンプルして、低品質のシンスライス画像に相当する低解像度画像LQ1を生成する。ここでは、図9で説明したように、スライス間隔に対応したスライス補間倍率とガウシアンフィルタの条件を適用して補間処理とガウシアンフィルタ処理とが行われる。
ステップS5において、学習データ生成部30はステップS4にて生成された低解像度画像LQ1とその生成元データであるリアル高解像度画像RHとを画像ペアとして紐付けし、これらのデータを学習データとして学習データ記憶部38に記憶する。
ステップS5の後、学習データ生成部30は、図8のフローチャートを終了する。
なお、同じオリジナルのリアル高解像度画像ORHから切出領域の箇所を変えて複数の学習データを生成する場合には、ステップS5の後に、ステップS2に戻り、ステップS2からステップS5の処理を繰り返す。
また、同じ固定サイズ領域のリアル高解像度画像RHから異なるスライス条件又は異なる想定スライス厚の低解像度画像を生成する場合には、ステップS5の後に、ステップS3又はステップS4に戻り、処理の条件を変更して、ステップS3又はステップS4からの処理を繰り返す。
学習データ生成部30は、画像保管部24に保管されている複数のオリジナルのリアル高解像度画像に対して、ステップS1からステップS5の処理を繰り返し実行することにより、多数の学習データを生成することができる。
[学習アーキテクチャ]
既述のとおり、本実施形態に係る超解像画像生成装置10に搭載されるジェネレータ14は、GANによる学習を実施して獲られる生成モデルである。以下、学習部40の構成と学習方法について詳述する。
図11は、GANを適用した学習部40における処理の概念図である。図11には、学習用データとして、低解像度画像LQ1とリアル高解像度画像RH1のペアが学習部40に入力された例が示されている。
ジェネレータ42Gへの入力は低解像度画像LQ1である。ジェネレータ42Gは、入力された低解像度画像LQ1から仮想高解像度画像VH1を生成して出力する。仮想高解像度画像VH1は、仮想シンスライス画像(VTS画像)に相当する。ディスクリミネータ44Dへの入力には、ジェネレータ42Gによって生成された仮想高解像度画像VH1と、この仮想高解像度画像VH1の生成元となった低解像度画像LQ1のペア、又は、学習データであるリアル高解像度画像RH1と低解像度画像LQ1のペアが与えられる。
ディスクリミネータ44Dは、入力された画像ペアがリアル高解像度画像RH1を含む本物ペア(Realペア)であるか(学習データであるか)、ジェネレータ42Gの出力に由来する仮想高解像度画像VH1を含む偽物ペア(Fakeペア)であるかを識別し、識別結果を出力する。
誤差演算部50は、損失関数を用いてディスクリミネータ44Dの出力と正解との誤差を評価する。オプティマイザ52は、誤差演算部50の演算結果を基に、ネットワークのパラメータを自動調整する処理を行う。ネットワークのパラメータには、ノード間の結合の重みとノードのバイアスが含まれる。オプティマイザ52は、誤差演算部50の演算結果からジェネレータ42G及びディスクリミネータ44Dのそれぞれのネットワークのパラメータの更新量を算出するパラメータ演算処理と、パラメータ演算処理の算出結果に従い、ジェネレータ42G及びディスクリミネータ44Dのそれぞれのネットワークのパラメータを更新するパラメータ更新処理と、を行う。オプティマイザ52は、勾配降下法などのアルゴリズムに基づきパラメータの更新を行う。誤差の評価とパラメータの更新に関する学習の基本的な仕組みの部分は非特許文献1等に記載の技術を採用してよい。
ジェネレータ42Gは、ディスクリミネータ44Dを欺くように、より精緻な仮想高解像度画像を生成するように学習し、ディスクリミネータ44Dはより正確に真偽を識別するように学習する。
そして、最終的には、ジェネレータ42Gの部分を超解像画像生成装置10における画像生成モジュールであるジェネレータ14として利用する。
本実施形態におけるディスクリミネータ44Dに適用されるネットワークには、セルフアテンション機構が実装される。セルフアテンション機構は、画像内における大局的な部分を考慮することで計算効率を向上させる手法である。
[セルフアテンション機構を含むディスクリミネータ44Dの説明]
セルフアテンション機構の内容は、非特許文献3に記載されている。ただし、非特許文献3では、ジェネレータとディスクリミネータの両方のネットワークにそれぞれセルフアテンション機構を追加しているのに対し、本実施形態ではジェネレータ42Gにはセルフアテンション機構を実装せず、ディスクリミネータ44Dに限定してセルフアテンション機構を実装している点で非特許文献3に記載の手法と異なる。
セルフアテンション機構について、非特許文献3の内容を参照して簡単に概説する。セルフアテンション機構は、前層の隠れ層から出力された畳み込み特徴マップCFM(x)からクエリf(x)とキーg(x)を生成し、これらを用いて各画素について、他のどの画素に似ているかを示す値(類似度)を計算する。こうして特徴マップCFM(x)の全画素に対応して計算された類似度のマップが「アテンションマップ」と呼ばれる。
アテンションマップは、画像内において特徴が似ている領域を見つけ出して強調する役割を果たす。識別ネットワークを構成する畳み込み層の畳み込み演算では、局所的な情報を重ねていくが、アテンションマップを導入することで大局的(全域的)な部分の情報を考慮することが可能になる。
このアテンションマップに重みh(x)を掛け合わせて、セルフアテンション特徴マップSAFM(o)を得る。そして、セルフアテンション特徴マップSAFM(o)にスケールパラメータγを掛けて、元の入力特徴マップである畳み込み特徴マップCFM(x)に足し合わせて次の層へ渡す。つまり、次層に渡す最終的な出力yは次式で与えられる。
y=γ・o+x
このようなセルフアテンション機構を含むディスクリミネータ44Dのネットワークにおいては、セルフアテンション機構のf(x)、g(x)、及びh(x)のパラメータも学習される。
[識別ネットワークの例]
図12は、ディスクリミネータ44Dに適用される識別ネットワークの例を示す概念図である。ディスクリミネータ44Dのネットワークは、深層ニューラルネットワークに分類される階層型ニューラルネットワークであり、複数の畳み込み層を含む。ディスクリミネータ44Dのネットワークは畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)によって構成される。
図12においてC01、C02・・・C05の符号で示す白抜き矢印は「畳み込み層」を表している。各層の入力側及び/又は出力側に示す矩形は、特徴マップのセットを表している。矩形の縦方向の長さは、特徴マップのサイズ(画素数)を表しており、矩形の横方向の幅はチャンネル数を表している。なお、本例のディスクリミネータ44Dは、プーリング層が存在せず、例えば、4×4×4のサイズのフィルタの畳み込みをストライド=2で実施することにより、特徴マップの画像サイズが小さくなっていく。例えば、CNNの処理を実施する際、畳み込み後の最小画像サイズは入力データのサイズの1/16とすることができる。
図12に示す例では、畳み込み層C02から後段の各層にセルフアテンション機構が導入されている。例えば、畳み込み層C02から出力された128チャンネルのCNN特徴マップの各々に対してセルフアテンション特徴マップが生成される。図12には128チャンネルのCNN特徴マップの各々に対応する128チャンネル分のセルフアテンション特徴マップが付加されている様子が示されている。チャンネル毎にそれぞれのCNN特徴マップとセルフアテンション特徴マップが加算され、その出力が次の畳み込み層に入力される。畳み込み層C03及びC04についても同様である。
なお、セルフアテンション機構に入力させるCNN特徴マップは、入力となる画像全体を1次元の配列に直して計算する。入力チャンネル数がC、総ピクセル数がNであるCNN特徴マップは、C×N個の各ピクセルの要素を1次元に配列したベクトルとしてセルフアテンション機構に入力される。
実際のCT画像データは3次元データであり、多次元のデータは上記と同様に1次元の配列にして計算を行うことができる。2次元の画像データと3次元の画像データは、どちらも1次元の配列にして計算することで、同様の処理アルゴリズムを適用できる。
[生成ネットワークの例]
図13は、ジェネレータ42Gに適用される生成ネットワークの例を示す概念図である。ジェネレータ42Gのネットワークも畳み込みニューラルネットワークで構成される。ジェネレータ42Gは、エンコーダ部とデコーダ部とを組み合わせたエンコーダ-デコーダ構造を持つ構成が好ましい。図13では、U-Net構造と呼ばれるU字型のネットワークの例が示されている。「U-Net」の表記における「Net」は「ネットワーク(Network)」の簡易表記である。
図13においてC1、C2・・・C10の符号で示す矢印の各々は「畳み込み層」を表している。U1、U2、U3及びU4の符号で示す矢印は「畳み込みとアップサンプリング」を行う畳み込み層を表している。図12で説明したディスクリミネータ44Dと同様に、図13に示すジェネレータ42Gは、プーリング層が存在せず、フィルタの畳み込みをストライド=2で実施することにより、エンコーダ部分において特徴マップの画像サイズが小さくなっていく。
ジェネレータ42Gは、入力された低解像度画像LQから高解像化に必要な高解像度情報としての高周波成分画像VHFCを推定して出力する。図14に示すように、ジェネレータ42Gへの入力データである低解像度画像LQと、ジェネレータ42Gによって生成された高周波成分画像VHFCとを足し合わせることにより、仮想高解像度画像VHが得られる。なお、仮想高解像度画像VH1のスライス間隔及びスライス厚は、低解像度画像LQ1のスライス間隔及びスライス厚と同等であるが、仮想高解像度画像VH1は、低解像度画像LQ1と比較してZ方向によりシャープな画像となる。
学習部40は、ジェネレータ42Gの入力とジェネレータ42Gの出力とを足し合わせる加算部46を備えており、加算部46の出力をディスクリミネータ44Dに入力させる構成となっている。加算部46は本開示における「第2加算部」の一例である。なお、図7及び図11では加算部46の図示が省略される。ディスクリミネータ44Dに入力する仮想高解像度画像VH1は本開示における「仮想第2画像」の一例である。
ジェネレータ42Gの入力に与えられる低解像度画像LQは本開示における「第1画像」の一例である。ジェネレータ42Gから出力される高周波成分画像は本開示における「第2画像」の一例である。
図13及び図14ではジェネレータ42Gの出力が高周波成分画像VHFCである例を説明したが、ジェネレータ42Gの出力が仮想高解像度画像VHとなる形態も可能である。この場合、加算部46は不要となる。かかる態様については第2実施形態として後述する。
[学習時におけるディスクリミネータ44Dの識別動作]
図15は、学習時におけるディスクリミネータ44Dによる識別の動作を説明するための図である。図15において加算部46の図示は省略される。
図15の左図に示す動作状態70Pは、ディスクリミネータ44Dにポジティブサンプル(正例)が入力された場合の例を示し、図15の右図に示す動作状態70Nはディスクリミネータ44Dにネガティブサンプル(負例)が入力された場合の例を示す。
学習データの画像ペアであるリアル高解像度画像RH1と、これに対応する低解像度画像LQ1とが入力されている場合の例である。この場合、ディスクリミネータ44Dが、入力された高解像度画像をリアル高解像度画像RH1であると識別した場合は、ディスクリミネータ44Dの出力(識別結果)が正解であり、仮想高解像度画像VH1であると識別した場合は不正解である。
一方、図15の右図に示す動作状態70Nの場合は、ディスクリミネータ44Dに、ジェネレータ42G由来の仮想高解像度画像VH1と、その生成元のデータである低解像度画像LQ1と、の画像ペアが入力されている。この場合、ディスクリミネータ44Dが、入力された高解像度画像をリアル高解像度画像RH1であると識別した場合は不正解であり、仮想高解像度画像VH1であると識別した場合は正解である。
ディスクリミネータ44Dは、入力された高解像度画像が不図示のCT装置によって撮影された本物のCT画像であるか、又はジェネレータ42Gによって生成された仮想のCT画像であるか、の識別を正解するように学習される。一方、ジェネレータ42Gは、不図示のCT装置によって撮影されたリアルなCT画像に似せた仮想のCT画像を生成し、ディスクリミネータ44Dの識別を不正解とするように学習される。
学習が進行すると、ディスクリミネータ44Dとジェネレータ42Gとが互いに精度を高め合い、ジェネレータ42Gはディスクリミネータ44Dに偽物(仮想高解像度画像)と識別されない、より本物のCT画像に近い仮想高解像度画像VHを生成できるようになる。
このような学習によって獲得された学習済みのジェネレータ42Gが図6で説明した超解像画像生成装置10のジェネレータ14として適用される。
[学習システム20を用いた学習方法]
図16は、学習部40における処理の手順の例を示すフローチャートである。図16に示すフローチャートの各ステップは、学習部40として機能するプロセッサを含むコンピュータによって実行される。
ステップS11において、学習部40は学習データを取得する。学習部40は図8で説明した学習データ生成部30から学習データを読み込む。学習部40は複数の学習データを含むミニバッチの単位で学習データを取得することができる。
ステップS12において、学習部40はジェネレータ42Gに学習データの低解像度画像を入力する。
ステップS13において、ジェネレータ42Gは入力された低解像度画像から仮想高解像度画像を生成する。ジェネレータ42Gからの出力は仮想高解像度画像を作るために必要な高周波成分画像VHFCであってよい。この場合、図14で説明したとおり、高周波成分画像VHFCと低解像度画像とが加算されて仮想高解像度画像VHが生成される。
ステップS14において、学習部40はディスクリミネータ44Dへのデータ入力を行う。ディスクリミネータ44Dへの入力には、正解画像としてのリアル高解像度画像を含む学習データのペア(リアルペア)、又は、ジェネレータ42G由来の仮想高解像度画像を含むフェイクペアのいずれかが選択的に与えられる。
ステップS15において、ディスクリミネータ44Dはデータの識別を行う。
ステップS16において、誤差演算部50は識別結果の誤差を算出し、その結果をオプティマイザ52へ送る。
ステップS17において、オプティマイザ52は、算出された誤差を基にネットワークのパラメータの更新量を算出する。
ステップS18において、オプティマイザ52は、ステップS17にて算出されたパラメータの更新量に従い、パラメータの更新処理を行う。パラメータの更新処理はミニバッチの単位で実施される。
ステップS19において、学習部40は学習を終了するか否かの判別を行う。学習終了条件は、誤差の値に基づいて定められていてもよいし、パラメータの更新回数に基づいて定められていてもよい。誤差の値に基づく方法としては、例えば、誤差が規定の範囲内に収束していることを学習終了条件としてよい。更新回数に基づく方法としては、例えば、更新回数が規定回数に到達したことを学習終了条件としてよい。
ステップS19の判定結果がNo判定である場合、学習部40はステップS11に戻り、学習終了条件を満たすまで、学習の処理を繰り返す。
ステップS19の判定結果がYes判定である場合、学習部は図16のフローチャートを終了する。
こうして得られた学習済みのジェネレータ42Gの部分を超解像画像生成装置10のジェネレータ14として適用する。
[第1実施形態による効果]
図17は、本実施形態の効果を示す画像の例である。図17には、セルフアテンション機構の導入の効果を示す画像例が示されている。図17の上段中央に示す画像VHA1は本実施形態に係る学習方法を適用した学習済みモデル(ジェネレータ14)を用いて生成された仮想高解像度画像の例である。図17の上段左に示す画像LI1はジェネレータ14への入力に用いた低解像画像の例である。図17の上段右に示す画像GT1は、入力の画像LI1に対応する正解画像(Ground truth)である。
図17の下段中央に示す画像VHN2は、比較例に係る学習済みモデルを用いて生成さ仮想高解像度画像の例である。比較例に係る学習済みモデルは、アテンション機構を持たないディスクリミネータを用いて学習を行ったものである。図17の下段左に示す画像LI2は比較例に係る学習済みモデルへの入力に用いた低解像画像の例である。図17の下段右に示す画像GT2は、入力の画像LI2に対応する正解画像(Ground truth)である。
図17の上段中央に示す画像VHA1は、正解の画像GT1に極めて近い画像となっている。また、画像VHA1は、下段の比較例の画像VHN2に比べて、局所的なノイズが低減されていることがわかる。
すなわち、本実施形態によれば、セルフアテンション機構をディスクリミネータ44Dに導入した効果により、比較例においては局所的に発生していたノイズを低減することができる。
図18は、本実施形態の他の効果を説明するための図である。図18には、本実施形態に係る学習方法を適用した学習済みモデル(ジェネレータ14)が入力サイズによらず画像生成の処理(超解像処理)を実行可能であることを示す画像例が示されている。
図18の最左に示す画像LI3は、本実施形態に係る学習方法を適用した学習済みモデル(ジェネレータ14)に入力された画像の例である。図18の左から2番目の画像VHA3は、画像LI3の入力からジェネレータ14を用いて生成された仮想高解像度画像の例である。
図18の左から3番目の画像LI4はジェネレータ14に入力された画像の他の例である。この画像LI4は、最左に示す画像LI3よりも画像サイズが小さいものである。図18の最右に示す画像VHA4は、画像LI4の入力からジェネレータ14を用いて生成された仮想高解像度画像の例である。
図18に示すように、ジェネレータ14は、学習時に用いた画像サイズとは異なるサイズの画像の入力に対しても推定の処理を実施することができる。ジェネレータ14は、任意の画像サイズの入力データに対して、高精度の画像生成が可能である。すなわち、本実施形態によれば、学習時の学習データとして用いた固定サイズの画像サイズに制約されずに、任意サイズの画像に対しても画像生成処理が実施可能である。本実施形態によれば、入力データを任意サイズのメモリに分割して処理を行うことができる。
なお、ディスクリミネータ44Dは学習の際に使用するだけであり、超解像画像生成装置10に搭載する必要がないため、ディスクリミネータ44Dにアテンション機構を追加しても固定サイズで学習を行うため問題はない。
《変形例》
上述した第1実施形態では、ディスクリミネータ44Dへの入力としてリアル高解像度画像RHと低解像度画像LQ1のペア、又はジェネレータ42Gに由来する仮想高解像度画像VHと低解像度画像LQ1のペアが与えられているが、ディスクリミネータ44Dに対する低解像度画像LQ1の入力は必須ではない。ディスクリミネータ44Dには、少なくともリアル高解像度画像RH、又は仮想高解像度画像VHが入力されればよい。
《第2実施形態》
第1実施形態では図14のように、ジェネレータ42Gから(仮想的な)高周波成分画像VHFCを出力し、低解像度画像LQと高周波成分画像VHFCとを加算することによって仮想高解像度画像VHを得ている。これに対し、第2実施形態は、ジェネレータ42Gが仮想高解像度画像VHを出力する形態である。
図19は、第2実施形態に係る学習システム20による処理の流れを概略的に示す機能ブロック図である。なお、図19において図7、図8、図11から図14に示す構成と共通又は類似する部分には同一の符号を付し、その詳細な説明は省略する。
図19において、学習データ生成部30の内容は図8と同様である。第2実施形態における学習部40のジェネレータ42Gは、低解像度画像LQ1から仮想高解像度画像VH1を生成する。
また、低解像度画像LQ1は、リアル高解像度画像RH1又は仮想高解像度画像VH1とペアでディスクリミネータ44Dに入力される。ディスクリミネータ44Dは、入力された画像がリアル高解像度画像RH1、及び仮想高解像度画像VH1のいずれであるかを識別する。なお、ディスクリミネータ44Dには、低解像度画像LQ1は入力されなくてもよい。
第2実施形態によれば、低解像度画像LQ1から仮想高解像度画像VH1を生成する生成モデル(ジェネレータ42G)を得ることができる。第2実施形態によって生成されたジェネレータ42Gを超解像画像生成装置10に組み込む場合には、図6に示した加算部16を省略することができる。
《第3実施形態》
図20は、第3実施形態に係る学習システム20による処理の流れを概略的に示す機能ブロック図である。図20において、図19に示す構成と共通又は類似する部分には同一の符号を付し、その詳細な説明は省略する。図20に示す第3実施形態は、ジェネレータ42Gへの入力がシックスライス画像LKであり、ジェネレータ42Gからの出力が仮想高解像度画像VHである。この場合、シックスライス画像LKとリアル高解像度画像RHのペアが学習データとなる。図20においてシックスライス画像LKは本開示における「第1画像」及び「第1学習用画像」の一例である。
第3実施形態によれば、ジェネレータ42Gはシックスライス画像LKから仮想高解像度画像VH1を生成するように学習される。したがって、第3実施形態の学習を行うことにより、シックスライス画像LKから仮想高解像度画像VH1を生成する生成モデル(ジェネレータ42G)を得ることができる。
《第4実施形態》
図21は、第4実施形態に係る学習システム20による処理の流れを概略的に示す機能ブロック図である。図21において、図19に示す構成と共通又は類似する部分には同一の符号を付し、その詳細な説明は省略する。図21に示す第4実施形態に係る学習システム20は、ジェネレータ42Gにシックスライス画像LKを入力してジェネレータ42Gから高周波成分画像VHFCを出力させ、ディスクリミネータ44Dに高周波成分画像を入力して識別を行う。ディスクリミネータ44Dの入力に用いる学習用の高周波成分画像を作るために、学習データ生成部30は、高周波成分抽出部33を備えている。
高周波成分抽出部33は、リアル高解像度画像RHから高周波成分を抽出し、リアル高周波成分画像RHFCを生成する。高周波成分の抽出は、ハイパスフィルタを用いて行われる。リアル高周波成分画像RHFCは、リアル高解像度画像RHと同様に、スライス間隔が1mm、スライス厚が1mmである。
第4実施形態では、シックスライス画像LKとリアル高周波成分画像RHFCのペアが学習データとなる。図21においてリアル高周波成分画像RHFCは本開示における「第2学習用画像」の一例である。
高周波成分抽出部33が生成したリアル高周波成分画像RHFCは、学習部40のディスクリミネータ44Dに入力される。
学習部40のジェネレータ42Gは、入力されたシックスライス画像LKから、リアル高周波成分画像RHFCと同様の解像度を有する仮想高周波成分画像VHFCを生成する。ここでは、ジェネレータ42Gは、スライス間隔が1mm、スライス厚が1mmの仮想高周波成分画像VHFCを生成する。
ディスクリミネータ44Dには、リアル高周波成分画像RHFCとシックスライス画像LKとのペア、又は、ジェネレータ42Gの出力に由来する仮想高解像度画像VHFCとシックスライス画像LKとのペアが入力される。
ディスクリミネータ44Dは、入力された高周波成分画像がリアル高周波成分画像RHFC、及び仮想高周波成分画像VHFCのいずれであるかを識別する。
第4実施形態によれば、ジェネレータ42Gは、低解像度の画像であるシックスライス画像LKから高周波成分画像を生成するように学習される。図14で説明したように、ジェネレータ42Gが生成した高周波成分画像とジェネレータ42Gの入力であるシックスライス画像LKとを加算処理することで、高解像度画像を得ることができる。
《コンピュータのハードウェア構成の例》
図22は、学習システム20に用いられるコンピュータのハードウェア構成の例を示すブロック図である。コンピュータ500は、パーソナルコンピュータであってもよいし、ワークステーションであってもよく、また、サーバコンピュータであってもよい。コンピュータ500は、超解像画像生成装置10、画像保管部24、学習データ生成部30、及び学習部40のいずれか、又はこれらの複数の機能を備えた装置として用いることができる。
コンピュータ500は、通信部512、ストレージ514、操作部516、CPU(Central Processing Unit)518、GPU(Graphics Processing Unit)519、RAM(Random Access Memory)520、ROM(Read Only Memory)522、及び表示部524を備える。なお、GPU(Graphics Processing Unit)519は省略されてもよい。
通信部512は、有線又は無線により外部装置との通信処理を行い、外部装置との間で情報のやり取りを行うインターフェースである。
ストレージ514は、例えば、ハードディスク装置、光ディスク、光磁気ディスク、若しくは半導体メモリ、又はこれらの適宜の組み合わせを用いて構成される記憶装置を含んで構成される。ストレージ514には、学習処理及び/又は画像生成処理等の画像処理に必要な各種プログラムやデータ等が記憶される。ストレージ514に記憶されているプログラムがRAM520にロードされ、これをCPU518が実行することにより、コンピュータは、プログラムで規定される各種の処理を行う手段として機能する。
操作部516は、コンピュータ500に対する各種の操作入力を受け付ける入力インターフェースである。操作部516は、例えば、キーボード、マウス、タッチパネル、操作ボタン、若しくは、音声入力装置、又はこれらの適宜の組み合わせであってよい。
CPU518は、ROM522又はストレージ514等に記憶された各種のプログラムを読み出し、各種の処理を実行する。RAM520は、CPU518の作業領域として使用される。また、RAM520は、読み出されたプログラム及び各種のデータを一時的に記憶する記憶部として用いられる。
表示部524は、各種の情報が表示される出力インターフェースである。表示部524は、例えば、液晶ディスプレイ、有機EL(organic electro-luminescence:OEL)ディスプレイ、若しくは、プロジェクタ、又はこれらの適宜の組み合わせであってよい。
《コンピュータを動作させるプログラムについて》
上述の各実施形態で説明した学習データ生成機能、学習機能、及び画像生成機能のうち少なくとも1つの処理機能の一部又は全部をコンピュータに実現させるプログラムを、光ディスク、磁気ディスク、若しくは、半導体メモリその他の有体物たる非一時的な情報記憶媒体であるコンピュータ可読媒体に記録し、この情報記憶媒体を通じてプログラムを提供することが可能である。
またこのような有体物たる非一時的な情報記憶媒体にプログラムを記憶させて提供する態様に代えて、インターネットなどの電気通信回線を利用してプログラム信号をダウンロードサービスとして提供することも可能である。
また、上述の各実施形態で説明した学習データ生成機能、学習機能、及び画像生成機能のうち少なくとも1つの処理機能の一部又は全部をアプリケーションサーバとして提供し、電気通信回線を通じて処理機能を提供するサービスを行うことも可能である。
学習データ生成部30として機能するコンピュータは学習データ生成装置と理解される。学習部40として機能するコンピュータは学習装置と理解される。
《各処理部のハードウェア構成について》
図6の補間処理部12、ジェネレータ14、及び加算部16、図7の画像保管部24、学習データ生成部30、学習部40、GAN41、ジェネレータ42G、ディスクリミネータ44D、誤差演算部50、及びオプティマイザ52、図8の固定サイズ領域切出部31、ダウンサンプル処理部32、アップサンプル処理部34、補間処理部35、及びガウシアンフィルタ処理部36、並びに図21の高周波成分抽出部33などの各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、例えば、次に示すような各種のプロセッサ(processor)である。
各種のプロセッサには、プログラムを実行して各種の処理部として機能する汎用的なプロセッサであるCPU、画像処理に特化したプロセッサであるGPU、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサで構成されてもよい。例えば、1つの処理部は、複数のFPGA、或いは、CPUとFPGAの組み合わせ、又はCPUとGPUの組み合わせによって構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第一に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第二に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
《その他》
ここではCT画像の超解像の生成モデルの学習方法を説明したが、本開示による生成モデルの学習方法は、CT画像に限らず、各種の3次元断層画像に適用することができる。例えば、MRI(Magnetic Resonance Imaging)装置により取得されるMR画像、PET(Positron Emission Tomography)装置により取得されるPET画像、OCT(Optical Coherence Tomography)装置により取得されるOCT画像、3次元超音波撮影装置により取得される3次元超音波画像等であってもよい。
また、本開示による生成モデルの学習方法は、3次元断層画像に限らず、各種の2次元画像に適用することができる。例えば、X線画像であってもよい。また、医療画像に限定されず、通常のカメラ画像に適用することができる。
本発明の技術的範囲は、上記の実施形態に記載の範囲には限定されない。各実施形態における構成等は、本発明の趣旨を逸脱しない範囲で、各実施形態間で適宜組み合わせることができる。
10 超解像画像生成装置
12 補間処理部
14 ジェネレータ
16 加算部
20 学習システム
24 画像保管部
30 学習データ生成部
31 固定サイズ領域切出部
32 ダウンサンプル処理部
33 高周波成分抽出部
34 アップサンプル処理部
35 補間処理部
36 ガウシアンフィルタ処理部
38 学習データ記憶部
40 学習部
41 敵対的生成ネットワーク(GAN)
42G ジェネレータ
44D ディスクリミネータ
46 加算部
50 誤差演算部
52 オプティマイザ
70N 動作状態
70P 動作状態
500 コンピュータ
512 通信部
514 ストレージ
516 操作部
518 CPU
519 GPU
520 RAM
522 ROM
524 表示部
C01~C05 畳み込み層
C1~C10 畳み込み層
GT1 画像
GT2 画像
IM1~IM4 CT画像
IPT 補間画像
LI1~LI4 画像
LK、LK1 シックスライス画像
LQ、LQ1 低解像度画像
ORH、ORH1 リアル高解像度画像
RH、RH1 リアル高解像度画像
RHFC リアル高周波成分画像
SAFM セルフアテンション特徴マップ
SD スライス間隔
ST スライス厚
TCK シックスライス画像
VH、VH1 仮想高解像度画像
VHA1 画像
VHN2 画像
VHA3 画像
VHA4 画像
VHFC 高周波成分画像
VT 仮想シンスライス画像
S1~S5 学習データ生成処理のステップ
S11~S19 学習処理のステップ

Claims (20)

  1. 第1画像から前記第1画像よりも高解像の画像情報を含む第2画像を推定する生成モデルの機械学習を行う学習方法であって、
    前記生成モデルであるジェネレータと、与えられたデータが学習用の正解画像のデータであるか前記ジェネレータからの出力に由来するデータであるかを識別する識別モデルであるディスクリミネータと、を含む敵対的生成ネットワークを用いることと、
    前記第2画像よりも解像度が低い第1解像度情報を含む第1学習用画像と、前記第1学習用画像よりも解像度が高い第2解像度情報を含む第2学習用画像であって前記第1学習用画像に対応する前記正解画像となる前記第2学習用画像と、を学習データとして用いることと、
    前記ジェネレータの入力には、前記第1学習用画像及び前記第2学習用画像のうち前記第1学習用画像のみを与えることと、
    前記ジェネレータ及び前記ディスクリミネータのうち、前記ディスクリミネータのネットワークに限定してセルフアテンション機構を実装することと、
    を含む学習方法。
  2. 前記ジェネレータ及び前記ディスクリミネータのそれぞれのネットワークは、畳み込みニューラルネットワークである、請求項1に記載の学習方法。
  3. 前記第1画像は3次元断層画像であり、
    前記第2画像は少なくとも前記3次元断層画像のスライス厚方向の解像度が前記第1画像よりも高解像である、請求項1又は2に記載の学習方法。
  4. 前記第2学習用画像は、コンピュータ断層撮影装置を用いて取得された画像であり、
    前記第1学習用画像は、前記第2学習用画像を基に画像処理によって生成された画像である、請求項1から3のいずれか一項に記載の学習方法。
  5. 前記第2学習用画像から前記第1学習用画像を生成する前記画像処理は、前記第2学習用画像をダウンサンプルする処理を含む、請求項4に記載の学習方法。
  6. 前記第2学習用画像から前記第1学習用画像を生成する前記画像処理は、前記ダウンサンプルの処理によって得られた画像に補間処理を施してアップサンプルする処理を含む、請求項5に記載の学習方法。
  7. 前記第2学習用画像から前記第1学習用画像を生成する前記画像処理は、ガウシアンフィルタを用いる平滑化処理を含む、請求項4から6のいずれか一項に記載の学習方法。
  8. 前記機械学習に使用する複数種類の前記学習データにおける前記第1学習用画像及び前記第2学習用画像の各々は同一サイズである、請求項1から7のいずれか一項に記載の学習方法。
  9. 前記第2画像は、高周波成分の情報を示す高周波成分画像であり、
    前記ジェネレータは、入力された画像の解像度を高めるために必要な高周波成分を推定し、前記高周波成分の情報を示す高周波成分画像を出力する、請求項1から8のいずれか一項に記載の学習方法。
  10. 前記ジェネレータから出力された前記高周波成分画像と、前記ジェネレータに入力された前記画像とを加算すること、をさらに含み、
    前記加算によって得られる仮想第2画像を前記ディスクリミネータの入力に与える、請求項9に記載の学習方法。
  11. 請求項1から10のいずれか一項に記載の学習方法をコンピュータに実行させるためのプログラム。
  12. 非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項11に記載のプログラムをコンピュータに実行させる記録媒体。
  13. 請求項1から10のいずれか一項に記載の学習方法を実施して学習された学習済みモデルであって、前記第1画像から前記第1画像よりも高解像の画像情報を含む第2画像を推定する機能をコンピュータに実現させるための前記生成モデルである学習済みモデル。
  14. 請求項1から10のいずれか一項に記載の学習方法を実施して学習された学習済みモデルである前記生成モデルを備え、入力される第3画像から前記第3画像よりも高解像の画像情報を含む第4画像を生成する超解像画像生成装置。
  15. 前記第3画像は、前記第1学習用画像と異なる画像サイズである、請求項14に記載の超解像画像生成装置。
  16. 前記第3画像に補間処理を行い、補間画像を生成する第1補間処理部と、
    前記補間画像と前記生成モデルが生成する高周波成分とを加算する第1加算部と、を含み、
    前記補間画像が前記生成モデルに入力され、
    前記生成モデルが前記補間画像の解像度を高めるために必要な前記高周波成分を生成する、請求項14又は15に記載の超解像画像生成装置。
  17. 第1画像から前記第1画像よりも高解像の画像情報を含む第2画像を推定する生成モデルの機械学習を行う学習システムであって、
    前記生成モデルであるジェネレータと、与えられたデータが学習用の正解画像のデータであるか前記ジェネレータからの出力に由来するデータであるかを識別する識別モデルであるディスクリミネータと、を含む敵対的生成ネットワークを備え、
    前記ジェネレータ及び前記ディスクリミネータのうち、前記ディスクリミネータのネットワークに限定してセルフアテンション機構が実装されており、
    前記第2画像よりも解像度が低い第1解像度情報を含む第1学習用画像と、前記第1学習用画像よりも解像度が高い第2解像度情報を含む第2学習用画像であって前記第1学習用画像に対応する前記正解画像となる前記第2学習用画像と、を学習データとして取り込み、
    前記ジェネレータの入力に、前記第1学習用画像及び前記第2学習用画像のうち前記第1学習用画像のみが与えられ、前記敵対的生成ネットワークの学習が行われる、
    学習システム。
  18. 前記学習データを生成する学習データ生成部をさらに備え、
    前記学習データ生成部は、
    前記第2解像度情報を含むオリジナルの元画像から固定サイズ領域を切り出す固定サイズ領域切出部と、
    前記固定サイズ領域切出部によって切り出された前記固定サイズ領域の画像をダウンサンプルするダウンサンプル処理部と、
    を含み、
    前記固定サイズ領域切出部によって切り出された前記固定サイズ領域の画像を前記第2学習用画像とし、
    前記第2学習用画像に対して前記ダウンサンプルの処理を行うことによって前記第1学習用画像を生成する、請求項17に記載の学習システム。
  19. 前記学習データ生成部は、さらに、
    前記ダウンサンプルの処理によって得られた画像に補間処理を施す第2補間処理部と、
    ガウシアンフィルタを用いて平滑化を行う平滑化処理部と、
    を含む、請求項18に記載の学習システム。
  20. 前記ジェネレータは、入力された画像の解像度を高めるために必要な高周波成分を推定して前記高周波成分の情報を示す高周波成分画像を出力する構成であり、
    前記ジェネレータから出力された前記高周波成分画像と前記ジェネレータに入力された前記画像とを加算する第2加算部をさらに備える、請求項17から19のいずれか一項に記載の学習システム。
JP2021502251A 2019-02-28 2020-02-25 学習方法、学習システム、学習済みモデル、プログラム及び超解像画像生成装置 Active JP7105363B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019036374 2019-02-28
JP2019036374 2019-02-28
PCT/JP2020/007383 WO2020175446A1 (ja) 2019-02-28 2020-02-25 学習方法、学習システム、学習済みモデル、プログラム及び超解像画像生成装置

Publications (2)

Publication Number Publication Date
JPWO2020175446A1 JPWO2020175446A1 (ja) 2021-12-23
JP7105363B2 true JP7105363B2 (ja) 2022-07-22

Family

ID=72238587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021502251A Active JP7105363B2 (ja) 2019-02-28 2020-02-25 学習方法、学習システム、学習済みモデル、プログラム及び超解像画像生成装置

Country Status (4)

Country Link
US (1) US20210374911A1 (ja)
EP (1) EP3932318A4 (ja)
JP (1) JP7105363B2 (ja)
WO (1) WO2020175446A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084281B (zh) * 2019-03-31 2023-09-12 华为技术有限公司 图像生成方法、神经网络的压缩方法及相关装置、设备
US20220108478A1 (en) 2020-10-02 2022-04-07 Google Llc Processing images using self-attention based neural networks
JP2022070035A (ja) * 2020-10-26 2022-05-12 キヤノン株式会社 医用画像処理装置、医用画像処理方法及びプログラム
CN113343705B (zh) * 2021-04-26 2022-07-05 山东师范大学 一种基于文本语义的细节保持图像生成方法及系统
US11803939B2 (en) * 2021-04-28 2023-10-31 Shanghai United Imaging Intelligence Co., Ltd. Unsupervised interslice super-resolution for medical images
DE102021214741B3 (de) * 2021-12-20 2023-02-23 Siemens Healthcare Gmbh Verfahren zum Generieren von synthetischen Röntgenbildern, Steuereinheit und Computerprogramm
KR102428326B1 (ko) * 2021-12-21 2022-08-02 서울시립대학교 산학협력단 인공지능 기반의 결함 탐지 방법 및 시스템
US20230336571A1 (en) * 2022-04-19 2023-10-19 Akamai Technologies, Inc. Real-time detection and prevention of online new-account creation fraud and abuse
CN114547017B (zh) * 2022-04-27 2022-08-05 南京信息工程大学 一种基于深度学习的气象大数据融合方法
CN114693831B (zh) * 2022-05-31 2022-09-02 深圳市海清视讯科技有限公司 一种图像处理方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180075581A1 (en) 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
US20180341836A1 (en) 2017-05-24 2018-11-29 General Electric Company Neural network point cloud generation system
US20190057488A1 (en) 2017-08-17 2019-02-21 Boe Technology Group Co., Ltd. Image processing method and device

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3447721A1 (en) * 2017-08-24 2019-02-27 Agfa Nv A method of generating an enhanced tomographic image of an object

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180075581A1 (en) 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
US20180341836A1 (en) 2017-05-24 2018-11-29 General Electric Company Neural network point cloud generation system
US20190057488A1 (en) 2017-08-17 2019-02-21 Boe Technology Group Co., Ltd. Image processing method and device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEDIG, Christian et al.,Photo-Realistic Single Image Super-Resolution Using a Geneartive Adversarial Network,arXiv,arXiv: 1609.04802v5 [cs.CV],2017年
PATHAK, Harsh, Nilesh, et al.,Efficient Super Resolution for Large-Scale Images Using Attentional GAN,2018 IEEE International Conference on Big Data (Big Data),2018年,pp.1777-1786

Also Published As

Publication number Publication date
WO2020175446A1 (ja) 2020-09-03
EP3932318A1 (en) 2022-01-05
EP3932318A4 (en) 2022-04-20
US20210374911A1 (en) 2021-12-02
JPWO2020175446A1 (ja) 2021-12-23

Similar Documents

Publication Publication Date Title
JP7105363B2 (ja) 学習方法、学習システム、学習済みモデル、プログラム及び超解像画像生成装置
Shi et al. MR image super-resolution via wide residual networks with fixed skip connection
CN109978037B (zh) 图像处理方法、模型训练方法、装置、和存储介质
Ahmad et al. A new generative adversarial network for medical images super resolution
Mardani et al. Deep generative adversarial networks for compressed sensing automates MRI
US9892361B2 (en) Method and system for cross-domain synthesis of medical images using contextual deep network
Olut et al. Generative adversarial training for MRA image synthesis using multi-contrast MRI
Shi et al. LRTV: MR image super-resolution with low-rank and total variation regularizations
Kudo et al. Virtual thin slice: 3D conditional GAN-based super-resolution for CT slice interval
CN111368849B (zh) 图像处理方法、装置、电子设备及存储介质
CN111369562B (zh) 图像处理方法、装置、电子设备及存储介质
Wang et al. Patch-free 3d medical image segmentation driven by super-resolution technique and self-supervised guidance
Hermann et al. Accurate interactive visualization of large deformations and variability in biomedical image ensembles
Lin et al. Deep learning for low-field to high-field MR: image quality transfer with probabilistic decimation simulator
Zhong et al. Deep action learning enables robust 3D segmentation of body organs in various CT and MRI images
Su et al. Attention u-net with dimension-hybridized fast data density functional theory for automatic brain tumor image segmentation
Rousseau et al. A groupwise super-resolution approach: application to brain MRI
JP7106741B2 (ja) 学習方法、学習装置、生成モデル及びプログラム
WO2022163402A1 (ja) 学習済みモデルの生成方法、機械学習システム、プログラムおよび医療画像処理装置
CN116128895A (zh) 医学图像分割方法、装置和计算机可读存储介质
Von Zuben et al. A multi-step machine learning approach for short axis MR images segmentation
Mardani et al. Deep generative adversarial networks for compressed sensing (GANCS) automates MRI
US20220277457A1 (en) Segmentating a tubular feature
Patel et al. Simulating Realistic MRI variations to Improve Deep Learning model and visual explanations using GradCAM
Hirahara et al. Denoising and inpainting of sea surface temperature image with adversarial physical model loss

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210819

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220711

R150 Certificate of patent or registration of utility model

Ref document number: 7105363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150