JP2022520415A

JP2022520415A - Ｏｃｔ画像変換、眼科画像のノイズ除去のためのシステム、およびそのためのニューラルネットワーク

Info

Publication number: JP2022520415A
Application number: JP2021547257A
Authority: JP
Inventors: バッタチャリア、アリンダム; ルイス、ウォーレン; クーバッハ、ソフィー; オムラー、ラース; ダービン、メアリー
Original assignee: Carl Zeiss Meditec Inc
Current assignee: Carl Zeiss Meditec Inc
Priority date: 2019-02-14
Filing date: 2020-02-12
Publication date: 2022-03-30
Also published as: US20220058803A1; WO2020165196A1; CN113396440A; EP3924931A1

Abstract

ＯＣＴシステムは、単一のＯＣＴスキャン／画像を受信し、画像変換および／またはノイズ除去機能を提供するように訓練された機械学習（ＭＬ）モデルを含む。ＭＬモデルは、収縮パスにおける一連の符号化モジュールと、それに続く、出力畳み込みモジュールにつながる拡張パスにおける一連の復号化モジュールとを含むニューラルネットワーク（ＮＮ）アーキテクチャに基づいていてもよい。中間エラーモジュールは、例えば、訓練出力画像と少なくとも１つの符号化モジュールおよび／または復号化モジュールとの間の深層エラー測定値を決定し、出力畳み込みモジュールからのエラーは、深層エラー測定値と結合される。ＮＮは、真の平均化された画像をグラウンドトゥルースの訓練出力として使用して訓練されてもよい。代替的に、ＮＮは、ランダムに選択された個別のＯＣＴ画像／スキャンを訓練出力として使用して訓練されてもよい。

Description

本発明は、概して、光干渉断層撮影（ＯＣＴ：ｏｐｔｉｃａｌｃｏｈｅｒｅｎｃｅｔｏｍｏｇｒａｐｈｙ）の分野に関する。より具体的には、ＯＣＴスキャン／画像およびその他の眼科画像の品質を向上させることに関する。

早期診断は様々な眼疾患の治療を成功させる上で極めて重要である。光学イメージングは、網膜の非侵襲的検査に適した方法である。加齢黄斑変性症、糖尿病性網膜症、緑内障は失明の主原因であることが知られているが、診断は、ダメージ自体が発現するまで下されないことが多い。これは主に、いくつかの網膜イメージング技術の解像度が比較的低いことに起因する。従って、最新の高感度で高精度の眼科イメージングおよび診断ツールの目標は、疾患の前臨床段階で網膜微細構造の病理学的変化を解像／表示する（例えば、検出およびモニタリングのために）ことができるイメージングモダリティを提供することである。

そのような最新の眼科イメージングおよび診断ツールの１つが、光干渉断層撮影（ＯＣＴ）システムである。使用する技術に応じて、ＯＣＴは、約１μｍ～１５μｍの範囲の軸方向の解像度と、数ミクロンから数十ミクロンの範囲の横方向の解像度とを提供し得る。より高い解像度を達成するためには、一般的に広範な研究、コスト、および複雑性を必要とすることは、理解されるものと思われる。

ソフトウェアソリューションを通じて改善された画像品質を達成する試みは、成功が限定的である。例えば、当該技術分野で知られているヘシアン（Ｈｅｓｓｉａｎ）ベースの血管性フィルタは、改善された血管接続性を提供し得るが、オリジナルの（例えば、真の）スキャンでは見られない架空の（例えば、仮想的な）構造を導入することが分かっている。ヘシアンベースの血管性フィルタは、オリジナルのスキャンの真の血管構造に忠実ではないため、眼科画像の病理検査における使用は限定的である。

本発明の目的は、改善された解像度を備えたＯＣＴシステムを提供することである。
本発明の目的は、既存のＯＣＴシステムまたはＯＣＴ血管造影（ＯＣＴＡ：ＯＣＴａｎｇｉｏｇｒａｐｈｙ）システムのイメージング能力を、ＯＣＴシステムまたはＯＣＴＡシステムに対する最小限のハードウェア変更で改善するためのシステムおよび方法を提供することである。

本発明のさらなる目的は、既存のＯＣＴ画像の画像品質を向上させるためのシステムおよび方法を提供することである。

上記の目的は、光ビームを生成するための光源と、光の第１の部分を参照アームに向け、光の第２の部分をサンプルアームに向けるためのビーム分割面を有するビームスプリッタと、サンプルアームにおける光をサンプル上の１つまたは複数の場所に向けるための光学系と、サンプルアームおよび参照アームから戻る光を受信し、その光に応答して信号を生成するための検出器と、信号を第１の画像に変換して、第１の画像を画像変換モジュールに提供するためのプロセッサであって、画像変換モジュールは、第１の画像を、第１の画像と比較して、ジッターが減少していること、架空の構造の作成が最小化されていることのうちの１つまたは複数を特徴とする第２の画像に変換する、プロセッサと、第２の画像に基づく出力画像を表示するための出力ディスプレイとを有する光干渉断層撮影（ＯＣＴ）システムで達成される。画像変換モジュールは、好ましくは、訓練入力画像のセットおよび訓練出力画像のターゲットセットを使用して訓練された機械学習モジュール（例えば、深層学習、ニューラルネットワーク）を含み、訓練入力画像は、訓練出力画像とは独立して生成される。例えば、訓練入力は、既知の種類のノイズ（ガウスノイズ、ポアソンノイズ、スペックルノイズ、ソルト＆ペッパーノイズなど）が付加された訓練出力画像に基づいていない。訓練された機械学習モジュール（例えば、動作時）は、第１の画像のより高品質の表現である第２の画像を生成するように訓練出力画像は、訓練入力画像よりも高品質であり得る。例えば、個別の訓練出力画像は、訓練入力画像のセットを平均することによって構築され得る。代替的に、訓練入力画像と訓練出力画像は、異なるモダリティのＯＣＴによって生成され得る。この場合、高品質の画像を生成することができるＯＣＴモダリティを使用して訓練出力画像を生成し、低品質の画像を生成するＯＣＴモダリティを使用して入力訓練画像を生成する。例えば、補償光学ＯＣＴシステムを使用して、訓練出力画像を生成し、１つまたは複数の非補償ＯＣＴシステム（例えば、時間領域ＯＣＴ、周波数領域（ＦＤ）ＯＣＴ、スペクトル領域（ＳＤ）ＯＣＴ、および／または掃引光源（ＳＳ）ＯＣＴ）を使用して、訓練入力画像を生成し得る。このようにして、変換モジュールは、第１のモダリティのＯＣＴ画像を、第２の異なるモダリティのＯＣＴによって生成されたものに類似した画像に効果的に変換する。

典型的には、このような画像変換モジュールは、効果的な深層学習のために、多数の訓練サンプル（例えば、多数の訓練入力画像と訓練出力画像）を必要とする。これは、例えば自然のシーンの画像を撮影する場合は問題ではないかもしれないが、機械学習モデルを訓練するために眼科画像の大規模なライブラリ（特に多数のＯＣＴ画像）を収集しようとする場合は問題となる。深層学習用の眼科画像の大規模なライブラリを作成することは、経済的に困難な場合がある。本発明は、典型的なものよりも少ない訓練サンプルのライブラリで深層学習結果を提供する新たなニューラルネットワーク（ＮＮ）アーキテクチャを提供する。さらに、本ニューラルネットワークは、従来の既知の画像変換ニューラルネットワークアーキテクチャから逸脱して、より少ない学習層またはモジュールでコンパクトな形態を実現する。本ＮＮは、複数のイメージングモダリティ、例えば、眼底イメージングシステムおよびＯＣＴシステムからの画像などの異なるタイプの眼科画像に適しているが、本明細書では、ＯＣＴ画像のコンテキストで例示的に説明される。従って、本ＮＮは、ＯＣＴシステム内に組み込まれるものとして記載されているが、本ＮＮアーキテクチャは、他のタイプの眼科イメージングシステムにも組み込むことができ、他のタイプの眼科画像の処理に適用することができることが理解されるべきである。例えば、本ＮＮは、以前に生成された眼科画像の既存のライブラリ（例えば、既存のＯＣＴ画像または眼底画像のメモリストア）を処理し、その画像品質を向上させるために使用され得る。

既知のＵ－Ｎｅｔアーキテクチャは、従来、画像の分類および画像セグメンテーションに限定されていた。本ＮＮアーキテクチャはＵ－Ｎｅｔに基づいているが、その機能を画像変換に拡張している。これまでは、Ｕ－Ｎｅｔを敵対的ネットワーク（ＧＡＮ）などの別のＮＮと組み合わせて、画像変換を実施していた。この先行技術の場合、Ｕ－Ｎｅｔは画像セグメンテーションを提供し、ＧＡＮは画像変換を提供する。しかしながら、本アーキテクチャは基本的なＵ－Ｎｅｔアーキテクチャに基づいているため、画像変換を実現するためにＧＡＮまたはその他の二次的なＮＮを必要とせずに直接画像変換を提供する。本ＮＮアーキテクチャは、第１の画像（例えば、入力ＯＣＴまたは眼底画像）を受信するための入力モジュールと、入力モジュールに続く収縮パス（ｃｏｎｔｒａｃｔｉｎｇｐａｔｈ）であって、収縮パスは、複数の符号化モジュールを含み、各符号化モジュールは、畳み込みステージ（例えば、１つまたは複数の畳み込み層）、活性化関数、および最大プーリング演算を有する、収縮パスと、収縮パスに続く拡張パス（ｅｘｐａｎｄｉｎｇｐａｔｈ）であって、拡張パスは、複数の復号化モジュール（例えば、１つまたは複数の復号化層）を含み、各復号化モジュールは、その現在の値を対応する符号化モジュールの値と連結する、拡張パスと、プーリング層を除き、活性化関数を除く出力畳み込みモジュールとを含み、出力畳み込みモジュールは、拡張パスにおける最後の復号化モジュールから出力を受信する。従来のＵ－Ｎｅｔでは、拡張パス内の各復号化モジュールには、活性化関数（シグモイドなど）層が含まれていた。しかしながら、本発明では、拡張パスにおける１つまたは複数の、好ましくは全ての復号化モジュールは、いかなる活性化層も有していない。復号化モジュールにおけるこの活性化層の欠如により、本アーキテクチャは画像変換機能を実現している。従来のニューラルネットワークでは、出力畳み込みモジュールからの出力は通常、ターゲット訓練出力画像と比較されて損失エラーが決定され、この損失エラーはＮＮを介してフィードバックされて（例えば、バックプロパゲーションプロセスで）、ＮＮの重みおよびバイアスを調整して、後続の訓練サイクルでエラーの少ない出力を生成するようにしている。本発明は、このような慣行とは異なる。本ＮＮは、少なくとも１つの符号化モジュールおよび／または１つの復号化モジュールのエラー測定値を決定する少なくとも１つの中間エラーモジュールをさらに含む。この中間エラーモジュールは、少なくとも１つの符号化モジュールおよび／または１つの復号化モジュールの現在の結果を取得し、現在の結果を現在の訓練出力画像の解像度にアップスケールし、現在の訓練出力画像と比較して１つまたは複数の深層エラー測定値を定義する。次に、追加の深層エラー測定値を出力畳み込みモジュールからの損失エラーと結合して、システムに関する全損失エラーを定義し、この全損失エラーは、ＮＮを介してフィードバックされて、内部の重みおよびバイアスを調整することができる。これらの複数のエラーのソースは、例えば、直接加算、重み付け結合、および／または平均化によって結合することができる。訓練出力画像をＮＮの様々な内部ステージに導入することにより、ＮＮがターゲット出力から大きく外れるのを防止し、画像変換を実現するのにも役立つ。

本ＮＮは、眼科画像におけるノイズアーティファクトの低減などのさらなる目的のために使用され得る。しかしながら、他のＮＮアーキテクチャが同様に、本画像変換およびノイズ低減機能の一部を実施するために使用され得ることが理解されるべきである。

上記の目的はさらに、眼科画像のノイズアーティファクトを低減するため、または低減されたノイズアーティファクトの眼科画像を生成するための眼科イメージングシステムまたは方法（例えば、眼底イメージングシステムまたはＯＣＴシステム）においてさらに達成される。システムまたは方法は、第１の眼科画像を取得し、第１の眼科画像を画像修正モジュールに提供するためのプロセッサを使用すること、画像修正モジュールは、第１の画像に基づいて第１の眼科画像と比較してノイズアーティファクトが低減された第２の眼科画像を作成し、第２の画像に基づく出力画像を電子ディスプレイに表示することを含む。好ましくは、画像修正モジュールは、ニューラルネットワークを含み、ニューラルネットワークの訓練が、少なくとも１つのサンプル（例えば、眼）の複数のテスト眼科画像を収集すること、収集されたテスト眼科画像はノイズの多い画像であり、テスト眼科画像の１つを訓練出力画像としてランダムに選択すること、残りのテスト眼科画像の１つまたは複数を訓練入力画像の訓練セットとしてランダムに選択すること、各訓練入力画像をニューラルネットワークに別々に個別に提供し、訓練出力画像をニューラルネットワークのターゲット出力として提供することを含む。

本発明のその他の目的及び達成事項は、本発明のより十分な理解と共に、添付の図面と併せて解釈される以下の説明と特許請求の範囲を参照することにより明らかとなり、理解されるであろう。

本明細書で開示される実施形態は例にすぎず、本開示の範囲はそれらに限定されない。１つの請求カテゴリ、例えばシステムにおいて記載される何れの実施形態の特徴も、他の請求カテプリ、例えば方法においても特許請求できる。付属の請求項中の従属性又は後方参照は、形式的な理由のためにのみ選択されている。しかしながら、それ以前の請求項への慎重な後方参照から得られる何れの主題もまた特許請求でき、それによって請求項及びその特徴のあらゆる組合せが開示され、付属の特許請求の範囲の中で選択された従属性に関係なく、特許請求できる。

図中、同様の参照記号／文字は同様の構成要素を指す。

本発明によるニューラルネットワークアーキテクチャを示す。グラウンドトゥルース（ｇｒｏｕｎｄｔｒｕｔｈ）の真の平均化された画像を作成するプロセスを示す。本発明によるニューラルネットワークを訓練するための訓練サンプルペアのセットを定義するための方法を示す。本発明によるニューラルネットワークの訓練を示す。本発明による（例えば、畳み込み）ニューラルネットワークの訓練の別の図を提供する。訓練後のライブデータ入力または評価段階中のテストデータ入力のいずれかを使用した畳み込みニューラルネットワークの動作例を示す。図８のワークフローと同様に、複数のスキャン／画像を平均化するためのワークフローへの訓練済みニューラルネットワークの実装を示す。対応する画像パッチのペアを使用してニューラルネットワークを訓練するための本発明によるパッチ適用ベースの技法を示す。本発明によるニューラルネットワークを訓練するための対応するパッチのペアの使用を示す。本発明による画像パッチのペアで訓練されたニューラルネットワークの動作を示す。本発明によるＡＯ－ＯＣＴシステムによって生成された一連の個々のＡＯ－ＯＣＴ画像を使用してニューラルネットワークを訓練することを示す。ＡＯ－ＯＣＴの特性を有する画像／スキャンを出力するように訓練されたニューラルネットワークの動作を示す。真の平均化された画像を、本発明に従って訓練されたニューラルネットワークで生成された「予測された平均化された」（例えば、平均化されたように見える）画像と比較したものである。６ｍｍの入力画像／スキャンが訓練されたニューラルネットワークに提供されて、予測された平均化されたように見える６ｍｍの画像を生成する、本発明の別の応用例を示す。平均化された画像および／または平均化されたパッチで訓練されたＮＮＭＬモデルに入力される眼科（例えば、ｅｎｆａｃｅ）の画像の例を示す。図２１の入力画像の受信に応答して、訓練されたＮＮＭＬモデルによって生成された結果の出力画像を示す。現在訓練されているＮＮモデルが眼の血管の構造を学習することを示す。疾患のある眼の画像を本発明に従って訓練されたニューラルネットワークに入力した結果を示す。本発明によるＯＣＴスキャン／画像のノイズを除去するためのニューラルネットワークの訓練を示す。本発明による訓練されたニューラルネットワークへの例示的なライブ入力ｅｎｆａｃｅ画像、および結果として生じるノイズ除去されたｅｎｆａｃｅ画像を示す。訓練されたニューラルネットワークへのライブＢスキャン入力およびそれらの個々に出力されたノイズ除去されたＢスキャンの２つの別個の例を示す。本発明と使用するのに適した眼の３Ｄ画像データを収集するために使用される一般型周波数領域光干渉断層撮影（ＦＤ－ＯＣＴ）システムを図解する。ｅｎｆａｃｅ脈管画像の例を示す。ＡＯサブシステムおよびＯＣＴ／ＯＣＴＡサブシステムで構成される一般化型補償光学光コヒーレンス断層撮影（ＡＯ－ＯＣＴ）システムを図解する。多層パーセプトロン（ＭＬＰ）ニューラルネットワークの例を図解する。入力層、隠れ層、及び出力層からなる単純化されたニューラルネットワークを示す。例示的な畳み込みニューラルネットワークアーキテクチャを図解する。例示的なＵ－Ｎｅｔアーキテクチャを図解する。例示的なコンピュータシステム（又はコンピューティングデバイス又はコンピュータデバイス）を図解する。

眼科画像にはいくつかの異なるタイプがある。例えば、眼科画像は、眼底写真撮影、蛍光血管造影（ＦＡ：ｆｌｕｏｒｅｓｃｅｉｎａｎｇｉｏｇｒａｐｈｙ）、眼底自発蛍光（ＦＡＦ：ｆｕｎｄｕｓａｕｔｏ－ｆｌｕｏｒｅｓｃｅｎｃｅ）、光干渉断層撮影（ＯＣＴ）、ＯＣＴ血管造影（ＯＣＴＡ）、眼球超音波検査によって作成され得る。各々が眼の異なる情報（または異なる方法で収集された情報）を提供し、各々が眼の異なる特徴を強調し得る。一般的に、眼科画像は、特定の眼に関連する疾患を診断するために不可欠なものであり、その有効性は、十分な解像度、焦点、倍率、および信号対雑音比（ＳＮＲ）を備えた画像など、高品質の画像を生成する能力に依存する。眼底イメージャの例は、米国特許第８，９６７，８０６号明細書および米国特許第８，９９８，４１１号明細書において提供されており、ＯＣＴシステムの例は、米国特許第６，７４１，３５９号明細書および米国特許第９，７０６，９１５号明細書において提供されており、ＯＣＴＡイメージングシステムの例は、米国特許第９，７００，２０６号明細書および米国特許第９，７５９，５４４に見出すことができ、これらは全て、参照によりその全体が本明細書に組み込まれる。本発明は、機械学習（ＭＬ）技術（例えば、決定木学習、サポートベクターマシン、人工ニューラルネットワーク（ＡＮＮ）、深層学習など）を使用して、任意の選択されたタイプのイメージングシステムによって生成される眼科画像の品質を改善する眼科画像変換ツールおよび／またはノイズ除去ツールを提供することを探求するものである。以下の例示的な実施形態では、本発明をＯＣＴシステムに適用した場合について説明するが、本発明は、眼底イメージングなどの他の眼科イメージングモダリティにも適用可能であることを理解されたい。

さらに、本発明は、第１のＯＣＴモダリティのＯＣＴ画像を第２のＯＣＴモダリティの画像に変換することを提供する。特に、ＯＣＴ／ＯＣＴＡイメージングモダリティには、時間領域（ＴＤ）ＯＣＴ／ＯＣＴＡおよび周波数領域（ＦＤ）ＯＣＴ／ＯＣＴＡなどの様々なタイプがある。他のより具体的なＯＣＴモダリティには、スペクトル領域（ＳＤ）ＯＣＴ／ＯＣＴＡ、掃引光源（ＳＳ：ＳｗｅｐｔＳｏｕｒｃｅ）ＯＣＴ／ＯＣＴＡ、補償光学（ＡＯ：Ａｄａｐｔｉｖｅｏｐｔｉｃｓ）ＯＣＴ／ＯＣＴＡなどが含まれ、それぞれに長所および短所がある。例えば、ＡＯ－ＯＣＴは、一般的に、従来のＯＣＴシステムよりも良質な画像品質および高解像度を提供するが、従来のＯＣＴシステムよりもはるかに複雑で、高価な部品を必要とし、一般的に視野（ＦＯＶ：ｆｉｅｌｄ－ｏｆ－ｖｉｅｗ）が大幅に減少する。本発明は、別の異なるモダリティのＯＣＴ画像（例えば、模倣する、シミュレートする、または類似する）に変換されるＯＣＴ画像を選択的に生成することができる第１のモダリティのＯＣＴシステムを提供する。例えば、ＳＤ－ＯＣＴは、ＳＳ－ＯＣＴまたはＡＯ－ＯＣＴによって提供される画像と類似する画像を提供するように作製され得る。代替的に、本発明は、眼の所与のサンプル領域の単一のキャプチャされたＯＣＴ画像を、同じサンプル領域の複数のＯＣＴ画像の平均化によって生成された画像に類似する画像に変換するＯＣＴシステムを、同じサンプル領域を繰り返しスキャンする必要なしに提供し得る。

さらに、本発明は、眼科画像、例えば、ＯＣＴ画像におけるノイズを低減する（例えば、ノイズを除去する）ための改善された方法／ツールを提供する。本ノイズ除去ツールは、画像変換ツールとは別に、またはそれに加えて適用することができる。即ち、本ノイズ除去ツールは、本願の画像変換ツールとは独立して、またはそれと組み合わせて適用することができる。さらに、本ノイズ除去技術は、任意選択的に、本願の画像変換ツールの訓練と組み合わせることができる。

本眼科画像強調（ｏｐｈｔｈａｌｍｉｃｉｍａｇｅｅｎｈａｎｃｅｍｅｎｔ）ツール（単数または複数）は、眼底イメージャまたはＯＣＴシステムなどの眼科イメージング装置に組み込まれ得るか、またはネットワークアクセス可能なサービスとして提供され得る。例えば、画像強調ツール（単数または複数）は、インターネットを介してリモートホストにアクセスするコンピューティングタブレットまたはスマートフォンなどのモバイルデバイス上で実行可能なアプリケーションとして実装することができ、リモートホストは、本発明を眼科画像強調サービスとして提供する。このようにして、モバイルデバイス（またはＯＣＴシステム）からリモートホストに、より高いコンピューティング要件をオフロードすることができる。代替的に、眼科画像強調ツールは、ウェブブラウザを使用してインターネット上でアクセス可能なウェブサイトとしてインターネット上で完全に提供され得る。このようにして、医師または技術者は、インターネットにアクセスでき、かつウェブブラウザを稼動することができる任意のデバイスを使用して、どの場所からでも本眼科画像強調ツールを利用することができる。

説明のために、ＯＣＴシステムおよびＡＯ－ＯＣＴシステムを含む様々なイメージングシステムを、図２２～図２４を参照して以下に説明する。
以下の実施形態は、第１のモダリティのＯＣＴ／ＯＣＴＡ画像を、第２のモダリティの別の（好ましくはより高品質および／またはより高解像度の）ＯＣＴ画像に変換することができるＯＣＴ／ＯＣＴＡシステムを提供するためのシステムおよび方法について説明する。例えば、変換された画像は、真の平均化されたＯＣＴ／ＯＣＴＡ画像または真のＡＯ－ＯＣＴ／ＯＣＴＡ画像の生成に関連する困難さを伴うことなく、複数のＯＣＴ／ＯＣＴＡ画像を平均化することによって作成された画像（以下、平均シミュレーション画像と称する）および／またはＡＯ－ＯＣＴシステムによって作成された画像（以下、ＡＯシミュレーション画像と称する）の特性を有し得る。代替的に、または画像変換機能に加えて、本システムは、ノイズ低減ユーティリティをさらに提供することができる。いくつかの実施形態では、これらの追加された機能は、機械学習に基づくデータ処理モジュールによって提供される。本発明では、様々なタイプの機械学習技術が想定されているが（例えば、最近傍法（ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ）、単純ベイズ、決定木学習、サポートベクターマシン、人工ニューラルネットワーク（ＡＮＮ）、深層学習など）、現時点での好ましい実施形態は、ニューラルネットワーク（ＮＮ）に基づいており、特に、Ｕ－Ｎｅｔアーキテクチャ上に構築され、簡素化された訓練、ネットワークレベルの数の減少、および典型的なものよりも小さい訓練セットを提供する新たなＮＮアーキテクチャに基づいている。

多層パーセプトロン（ＭＬＰ）ニューラルネットワーク、畳み込みニューラルネットワーク（ＣＮＮ）、Ｕ－Ｎｅｔなどの様々なニューラルネットワークアーキテクチャについて、図２５～図２８を参照して以下に説明する。任意選択的に、本発明は、これらのニューラルネットワークの任意の１つまたは組み合わせを使用して実施することができるが、好ましい実施形態は、画像変換機能および／またはノイズ除去機能を実装するために、Ｕ－Ｎｅｔアーキテクチャに基づく特殊な画像変換ニューラルネットワークアーキテクチャを使用してもよい。

典型的なニューラルネットワーク（ＮＮ）は、複数の隠れ層を有し、学習可能な重みおよびバイアスを有するニューロンで構成され、各ニューロンは、入力を受信し、演算を実行し、任意選択的に、非線形性（例えば、活性化関数）を伴う。一般的に、深層学習ＮＮは、大規模な訓練セットを必要とし、かつ数ピクセルよりも大きい画像を取り扱うのには適していない。畳み込みニューラルネットワーク（ＣＮＮ）は、（深層学習）ニューラルネットワーク（ＮＮ）と同様のものであるが、ＣＮＮは、画像をより効率的に処理するように最適化することができる。ＣＮＮは、近くにあるデータは遠くにあるデータよりも関連性が高いと仮定しているため、フォワード関数をより効率的にし、パラメータの数を減少させることができる。しかしながら、ＣＮＮは、依然として大規模な訓練セットを必要とし得る。大規模な訓練セットをコンパイルするために、より多くの関連する医用画像（特に、眼科画像）を取得することは、経済的および規制上の様々な理由で問題となる可能性があることは、当業者であれば理解されると思われる。Ｕ－Ｎｅｔニューラルネットワークアーキテクチャは、従来のＮＮよりも小さい訓練セットを使用することができ、ＣＮＮと同様に、Ｕ－Ｎｅｔも画像の訓練用に最適化することができる。Ｕ－Ｎｅｔの主な用途は、従来、画像をさらに処理するための前処理ステップとしての画像セグメンテーション（例えば、画像内の前景オブジェクトの形状の識別）であった。例えば、Ｕ－Ｎｅｔは、前処理ステップとして敵対的ネットワーク（ＧＡＮ）に結合されて、画像変換を実施することができる。この場合、ＧＡＮは、Ｕ－Ｎｅｔから出力されたセグメンテーション情報を受信し、ＧＡＮは、セグメント化されたアイテムに画像変換を適用する。本発明は、画像セグメンテーションを提供する代わりに（またはそれに加えて）、本Ｕ－Ｎｅｔベースのアーキテクチャが画像変換を直接提供するように、ＧＡＮの必要性を排除するＵ－Ｎｅｔに基づくアーキテクチャを提供する。

図１を参照すると、本アーキテクチャは、典型的なＵ－Ｎｅｔアーキテクチャ（例えば、図２８を参照）に基づいて構築され、任意のサイズ（例えば、１２８ｘ１２８ピクセルのサイズ）の入力Ｕｉｎ（例えば、入力画像または画像パッチ）を受信する入力モジュール（または入力層または入力ステージ）１２を含む。説明のために、任意のステージまたは層における画像サイズは、画像を表すボックス内に示されており、例えば、ボックス１２は、入力画像Ｕｉｎが１２８ｘ１２８ピクセルで構成されていることを示すように番号「１２８×１２８」を囲んでいる。入力画像は、ＯＣＴ／ＯＣＴＡのｅｎｆａｃｅ画像またはＢスキャン画像であり得る。しかしながら、入力は任意のサイズおよびディメンションであってもよいことを理解されたい。例えば、入力画像は、図２７に示すように、ＲＧＢカラー画像であり得る。入力画像は一連の処理層を経ており、各層は例示的なサイズで示されているが、これらのサイズは、説明のみを目的としており、かつ画像のサイズ、畳み込みフィルタ、プーリングステージなどの複数の要素に依存する。本アーキテクチャは、収縮パス（ｃｏｎｔｒａｃｔｉｎｇｐａｔｈ）（本明細書では、例示的に、５個の符号化モジュール１４、１６、１８、２０、および２２からなる）と、それに続く拡張パス（ｅｘｐａｎｄｉｎｇｐａｔｈ）（同様に５個の対応する復号化モジュール２４、２６、２８、３０、および３４からなる）と、収縮パス内の１つの符号化モジュールの出力をコピーして、それを拡張パス内の対応する復号化モジュールのアップコンバートされた入力に連結する（例えば、後ろに追加する）対応するモジュール／ステージ間の５個のコピーアンドクロップリンク（例えば、スキップ接続）ＣＬ１～ＣＬ５とを含む。収縮パスは符号化器と同様のものであり、一般的に、特徴マップを使用してコンテキスト（または特徴）情報をキャプチャする。収縮パス内の各符号化モジュールは、アスタリスク記号「＊」で例示的に示される１つまたは複数の畳み込み層を含み得、その後に最大プーリング層（例えば、ダウンサンプリング層内に具体化される）が続いてもよい。例えば、入力画像Ｕｉｎは、各々が３２個の特徴マップを生成する２つの畳み込み層を経ることが例示的に示されている。各畳み込みカーネルが、特徴マップ（例えば、所与のカーネルを用いた畳み込み演算からの出力は、典型的に「特徴マップ」と呼ばれる画像である）を生成することは、理解されると思われる。例えば、入力Ｕｉｎは、３２個の畳み込みカーネル（図示せず）を適用する第１の畳み込みを経て、３２個の個々の特徴マップからなる出力３６を生成する。しかしながら、当該技術分野で知られているように、畳み込み演算によって生成される特徴マップの数は、（増加または減少に）調整することができる。例えば、特徴マップの数は、特徴マップのグループを平均化すること、いくつかの特徴マップを削除すること、または特徴マップ削減の他の既知の方法によって削減することができる。この場合、第１の畳み込みの後に第２の畳み込みが続き、その出力３８は３２個の特徴マップに制限される。特徴マップを想定する別の方法は、畳み込み層の出力を、リストされたＸＹ平面ピクセルディメンション（例えば、１２８×１２８ピクセル）によって２Ｄディメンションが与えられ、その深さが特徴マップの数（例えば、３２個の平面画像の深さ）によって与えられる３Ｄ画像として考えることである。この類推に従って、符号化モジュール１４の出力３８は、１２８×１２８×３２の画像として記述され得る。次に、第２の畳み込みからの出力３８は、プーリング演算を受け、これにより、各特徴マップの２Ｄディメンションが縮小される（例えば、ＸおよびＹディメンションがそれぞれ半分に縮小され得る）。プーリング演算は、下向き矢印４０によって示されるように、ダウンサンプリング演算内で実施することができる。最大プーリングなどのいくつかのプーリング方法が当該技術分野で既知であり、特定のプーリング方法は本発明にとって重要ではない。従って、収縮パスは、畳み込みネットワークを形成し、本明細書では５個の符号化モジュール（またはステージまたは層）１４、１６、１８、２０、および２２で示されている。畳み込みネットワークの典型的な例として（例えば、図２７および２８を参照）、各符号化モジュールは、好ましくは、少なくとも１つの畳み込みステージを提供し、続いて、図示しない活性化関数（例えば、正規化線形ユニット（ＲｅＬＵ）またはシグモイド層）および最大プーリング演算が行われる。一般に、活性化関数は、層に非線形性を導入し（これは、オーバーフィッティング問題を回避するのに役立つ）、層の結果を受け取り、出力を「活性化」するかどうかを決定する（例えば、特定のノードの値が出力を次の層／ノードに転送するための基準を満たすかどうかを判定する）。

拡張パスは復号化器と同様のものであり、とりわけ、収縮パスの結果に関するローカリゼーション情報および空間情報を提供し得る。拡張パスは、本明細書では、５個の復号化モジュール２４、２６、２８、３０、および３４を有するように示され、各復号化モジュールは、その現在のアップコンバートされた入力を対応する符号化モジュールの出力と連結する。例えば、復号化モジュール２４のアップコンバートされた入力４２は、対応する符号化モジュール２２の出力４４と連結されて示されている。より具体的には、出力４４（そのディメンションが８×８×５１２である）がアップコンバートされた入力４２（そのディメンションが８×８×１０２４である）に付加されて、そのディメンションが８×８×１５３６である連結画像が形成され得る。このようにして、（符号化モジュール２２からの）特徴情報は、（復号化モジュール２４からの）空間情報と結合される。特徴情報および空間情報のこの結合は、一連のアップコンボリューション（例えば、アップサンプリングまたは転置コンボリューションまたは逆畳み込み）および縮小パスからの高解像度特徴との（例えば、ＣＬ１～ＣＬ５を介した）連結を介して拡張パスにおいて継続される。逆畳み込み層の出力は、収縮パスからの対応する（任意選択的にトリミングされた）特徴マップと連結され、その後に、２つ（またはそれ以上）の畳み込み層が続く。収縮パスと拡張パスとの間には、典型的には、２つ以上の畳み込み層で構成され得るボトルネックモジュールＢＮＫがある。

図１の本アーキテクチャは、Ｕ－Ｎｅｔ（図２８を参照）に基づいているが、いくつかの際立った特徴を有する。第一に、本アーキテクチャにおける拡張パスは、活性化関数を欠いていてもよい。即ち、拡張パス内の１つまたは複数、好ましくは、全ての復号化モジュール２４、２６、２８、３０、および／または３４は、任意の活性化層、例えば、シグモイド層を欠いていてもよい。拡張パスにおけるこの活性化関数（単数または複数）の欠如は、本アーキテクチャが画像変換機能を実現するのに役立ち得る。第二に、本ニューラルネットワークは新たな訓練アーキテクチャを組み込んでいる。当該技術分野で知られているように、ニューラルネットワークは、訓練サイクル中に、現在のニューラルネットワーク出力（例えば、Ｕｏｕｔ）を現在の訓練出力画像Ｔｏｕｔと比較して、現在の損失エラーＥ１を決定するバックプロパゲーションによって訓練することができる。通常、この損失エラーＥ１は、後続の訓練サイクルにおいてより小さなエラーでより良好な出力を生成するように、内部の重みおよびバイアスを調整するためにニューラルネットワークを介してフィードバックされる。しかしながら、本アーキテクチャは、収縮パスおよび／または拡張パスの任意の段階からの深層エラー（ｄｅｅｐｅｒｒｏｒ）を決定するための深層監視（ｄｅｅｐｓｕｐｅｒｖｉｓｉｏｎ）リンクを組み込んで、この深層エラーを出力モジュール／層５０における損失エラーと結合して、システムに関する全損失エラーを定義する。深層監視は、少なくとも１つの符号化モジュールおよび／または少なくとも１つの復号化モジュールに関する深層エラー測定値を決定する中間エラーモジュール（例えば、ＥＭ１／ＥＭ２）の形態であり得る。任意選択的に、選択された符号化モジュール（単数または複数）および復号化モジュール（単数または複数）は、ランダムに選択され得るか、またはそれらの対応するコピーアンドクロップリンク（単数または複数）に従って互いに対応し得る。選択された符号化モジュール（単数または複数）および／または復号化モジュール（単数または複数）の現在の状態が現在の訓練出力画像と比較されて、出力が入力から過度に逸脱しないことを保証するようにする。これにより、収束が速くなり、訓練時間が短くなる。例えば、訓練中に、符号化ステージ１８からの現在の出力が、現在の訓練出力画像Ｔｏｕｔの解像度にアップコンバートされ、Ｔｏｕｔと比較されて、深層エラーＥ２を決定することができる。同様に、訓練中に、復号化ステージ２８からの現在の出力は、現在の訓練出力画像Ｔｏｕｔの解像度にアップコンバートされ、Ｔｏｕｔと比較されて、深層エラーＥ３を決定することができる。次に、深層エラーＥ２およびＥ３は、重み付き線形結合（ｗｅｉｇｈｔｅｄｌｉｎｅａｒｃｏｍｂｉｎａｔｉｏｎ）などによってエラーＥ１と結合される。任意選択的に、損失エラーＥ１を決定する前に、入力Ｕｉｎが出力Ｕｏｕｔにフィードフォワードされて（例えば、結合されて）もよい。例えば、入力Ｕｉｎを出力Ｕｏｕｔに加えて（図示しないＵｉｎからＵｏｕｔへのフィードフォワードリンクを使用するなどにより）、エラー損失Ｅ１を決定する前に、結合ネットワーク出力Ｕｉｎ＋Ｕｏｕｔ（または両方の重み付けされた結合）を定義してもよい。結合ネットワーク出力Ｕｉｎ＋Ｕｏｕｔは、図１におけるＵｏｕｔの代わりになり、現在の訓練出力画像Ｔｏｕｔと比較されて、現在の損失エラーＥ１が決定されてもよい。入力と出力を結合することにより、入力がすでに目的の出力（Ｔｏｕｔ）と一致している場合、ネットワークは、何もしないように「学習」する必要がない（例えば、恒等式「入力＝出力」を自明にする）。実際には、これによって訓練のスピードが上がり、より良好な結果を得ることができる。さらに、本アーキテクチャは、ＵｏｕｔとＴｏｕｔを比較する際に、Ｌ－１損失（例えば、絶対差の合計）およびＬ－２損失（例えば、二乗差の合計）を決定するカスタマイズされた損失関数を使用して、（例えば、加重和によって）２つの損失を結合して、Ｅ１を定義することができる。好ましくは、元の画像／スキャンの忠実な表現を保証するために、Ｅ１を定義する際に、Ｌ－１損失がＬ－２損失よりも重く重み付けされる。エラー測定値Ｅ２およびＥ３は、Ｌ－１損失、Ｌ－２損失、または両方の結合によって決定される。エラー測定値Ｅ１、Ｅ２、および／またはＥ３は、ゲイン（例えば、それぞれのα１、α２、および／またはα３）によって重み付けされ得る。例えば、全てのゲインの合計が１になり、出力モジュール（例えば、Ｅ１）の損失エラーがより重く重み付けされるように、Ｅ２はα２＝０．２のゲインで重み付けされ、Ｅ３はα３＝０．２のゲインで重み付けされ、Ｅ１（これは、Ｌ－１損失とＬ－２損失の結合であり得る）は、α１＝０．６のゲインで重み付けされ得る。結果として得られた全損失エラーは、バックプロパゲーションプロセスでニューラルネットワークを介してフィードバックされ得る。深層監視を使用することにより、出力が制限されるため、架空の構造（例えば、入力画像にない構造）が作成されない（または作成が大幅に制限される）。医用画像を扱う場合、出力画像に架空の構造を作成しないようにすることは、臨床医にとって非常に重要なことである。従って、本深層監視アーキテクチャは、従来のＵ－ｎｅｔ構造よりも高速な収束と良好な特徴表現を実現する。本深層監視アーキテクチャが本発明に従ってＭＬモデルの訓練に使用されるが、ＭＬモデルが訓練されると、様々なステージ／モジュールの重みおよびバイアスが設定される（例えば、固定される）ため、訓練されたＭＬモデルの動作段階においてアーキテクチャ中に深層監視部分を使用する必要がない場合があることを理解されたい。

図１の本ＮＮアーキテクチャは、ＭＬモデルを訓練して複数のタスクを実行するために使用することができる。第１のタスクは画像変換であり、第２のタスクはノイズ低減であり得る。説明を簡単にするために、各タスクを以下のように個別に説明する。

画像変換
個々のＯＣＴ／ＯＣＴＡスキャンは、他の問題の中でもとりわけ、ジッター、ドロップアウト、スペックルノイズなどの問題の影響を受ける。これらの問題は、それらが血管系密度の定量化に使用されるため、定性的および定量的の両方でｅｎｆａｃｅ画像の品質に影響を与える可能性がある。本発明は、訓練されたニューラルネットワークを使用することによって眼科画像の品質を改善することを探求する。以下で説明するように、これには、複数の訓練ペアセット（例えば、訓練入力画像とそれに対応するグラウンドトゥルース、ターゲット訓練出力画像とのペア）が必要である。深層学習を使用する際に問題となるのが、訓練セットで使用するためのグラウンドトゥルース出力を取得することである。真の平均化された画像（ｔｒｕｅａｖｅｒａｇｅｄｉｍａｇｅｓ）の品質（例えば、血管の連続性、ノイズレベル）は、一般に、個々のスキャンの品質よりもはるかに優れている。従って、本発明における１つの手法は、単一の眼科入力画像を、平均シミュレーション画像（例えば、真の平均化された画像の特性を有する画像）に変換することである。この手法では、真の平均化された画像が、本ニューラルネットワークの訓練においてグラウンドトゥルース画像として（例えば、訓練出力画像として）使用される。別の手法は、第１のモダリティの眼科入力画像を、典型的にはより高品質である異なるモダリティをシミュレートする出力眼科画像に変換することである。例えば、ＡＯ－ＯＣＴ画像をグラウンドトゥルース、訓練出力画像として使用して、ニューラルネットワークを訓練してＡＯシミュレーション画像を生成することができる。説明を簡単にするために、以下の説明の多くは、訓練セットにおけるグラウンドトゥルース、ターゲット出力画像としての真の平均化された画像の使用について説明しているが、特に明記しない限り、訓練セットにおけるグラウンドトゥルースターゲット出力としてＡＯ－ＯＣＴ画像（または他のより高品質の画像および／またはより高解像度の画像）を使用する場合にも同様の説明が適用されることを理解されたい。

図２は、グラウンドトゥルース、真の平均化された画像Ａｖｇ１を作成するプロセスを示している。ＯＣＴ／ＯＣＴＡシステム１３（図２２および２４に示されるような）などの眼科イメージングシステムは、サンプル（例えば、眼）の同じ領域のｎ個の個別の画像／スキャンＳ１Ｓ１～Ｓ１Ｓｎからなる画像セットＳ１をキャプチャする。例えば、画像セットＳ１の最初のスキャンにはＳ１Ｓ１というラベルが付けられ、画像セットＳ１のｎ番目のスキャンにはＳ１Ｓｎというラベルが付けられている。同様に、ｐスキャンの第２の画像セットＳ２（図示せず）が収集された場合、第２の画像セットＳ２における個々のスキャンには、Ｓ２Ｓ１～Ｓ２Ｓｐというラベルが付けられ得る。いずれにしても、画像セットの個々のスキャン（例えば、Ｓ１Ｓ１～Ｓ１Ｓｎ）は、画像セット（例えば、Ｓ１）内の前処理されたスキャンを本質的に整列させる画像登録（例えば、整列）モジュール／ブロック１７に提供される前に、画像前処理プロセッサモジュール／ブロック１５によって、画像前処理（例えば、照明補正、ぼかしおよび焦点補正、フィルタリングおよびノイズ除去、エッジ強調など）を任意選択的に受けてもよい。個々のスキャン（Ｓ１Ｓ１～Ｓ１Ｓｎ）は、各個々のスキャン内の特徴的な特徴（例えば、ポリゴン形状記述子（例えば、血管構造）、スペクトル記述子（例えば、ＳＩＦＴ、ＳＵＲＦ）など）を識別し、複数の個別のスキャン内で、一致する特徴的な特徴を識別し、それぞれ一致する特徴的な特徴を整列することによって個々のスキャンを整列することによって登録することができる。このプロセスにより、複数の画像整列設定（例えば、登録パラメータ）が生成される。次に、整列されたスキャン／画像が平均化され（例えば、画像平均化モジュール／ブロック１９によって）、真の平均化された画像Ａｖｇ１が生成される。複数の画像セットの各々の中で個々のスキャン／画像を登録して平均化することにより、各画像セットに関する個々の平均化された画像が生成され、各平均化された画像は、その対応する画像セット内の構成画像よりも高品質である。しかしながら、真の平均化された画像の生成にはかなり長い時間を要するため、その用途が制限される。本発明は、ニューラルネットワークを訓練するために、個々のスキャンの複数の画像セットと、それらに対応する平均化された画像とを使用する。

図３は、一組の訓練サンプルペアを定義する方法を示す。この例では、個々のスキャンＳ１Ｓ１～Ｓ１Ｓｎの各々が、それらに対応する真の平均化された画像Ａｖｇ１と個別にペアリングされて、ｎ個の個別の訓練ペアＴＰ１～ＴＰｎが定義される。ここで、スキャンＳ１～Ｓｎの各々は、ニューラルネットワークへの個別の訓練入力であり、それらに対応する真の平均化された画像Ａｖｇ１は、各入力に対応するターゲット訓練出力である。複数の訓練ペアセットは、図２に示されているように、眼の様々な領域の複数の画像セット（例えば、Ｓ１、Ｓ２、…、Ｓｍ）を取得し、各画像セットの複数の構成スキャンを平均して、各画像セットに関する対応する真の平均化された画像を定義することによって定義され得ることは、理解されると思われる。

図４は、本発明によるニューラルネットワーク２５（図１に示されているものなど）の訓練を示す。この例では、複数の訓練ペアセットＴＳ１～ＴＳｍが収集される。各訓練セットは、一組の構成ＯＣＴ／ＯＣＴＡスキャン２１で構成され、それらに対応する真の平均化された画像２３を定義するために使用される。各訓練セット（ＴＳ１～ＴＳｍ）は、以下に説明するように、訓練のためにニューラルネットワーク２５に提供される。任意選択的に、前処理プロセッサモジュール／ブロック１５を省略して、ニューラルネットワーク２５を、前処理された（例えば、フィルタリングされた）データの代わりに、生データ（スキャン／画像）で訓練することができる。

図５は、本発明による（畳み込み）ニューラルネットワーク２５の訓練の別の図を提供する。前と同じように、各訓練ペアＴＰ１～ＴＰｎは、訓練入力サンプルとして提供される個別の画像／スキャンＳ１Ｓ１～Ｓ１Ｓｎと、ターゲット訓練出力サンプルとして提供されるその真の平均化された画像Ａｖｇ１とで構成される。従って、訓練段階中に、畳み込みネットワーク（例えば、図１のＮＮ）２５は、訓練入力としてのシングルスキャン画像Ｓ１Ｓ１～Ｓ１Ｓｎと、対応する訓練出力としてのそれらの真の平均化された画像Ａｖｇ１とで訓練される。

図６は、訓練後のライブデータ入力または評価段階中のテストデータ入力のいずれかを用いた、本ＣＮＮ２５の動作例を示す。本ＣＮＮ２５は、入力として単一の眼科画像３１（例えば、ライブＯＣＴ／ＯＣＴＡスキャン）を受信し、対応する出力画像３３（例えば、訓練による、真の平均化された画像の特徴を有する平均シミュレーション画像、または異なるイメージングモダリティ（例えば、ＡＯシミュレーション画像）の特性を有する出力画像）を予測する。この例では、出力画像３３は平均シミュレーション画像であり、かつ真の平均化されたｅｎｆａｃｅ画像の特性を有する。換言すれば、出力画像３３は、入力画像によって撮影された領域と同様の領域の複数の仮想的な画像を用いた入力画像の平均化をシミュレートしている。入力画像３１は、訓練で使用された画像ではなく、また訓練で使用された任意の画像から派生した画像ではないことに留意されたい。即ち、ネットワーク２５によって以前に確認されなかった入力テストスキャン（例えば、３１）が、テスト／評価／処理段階のために選択され、ネットワーク２５は、入力画像が共に平均化された一組の画像の一部であったという状況に対応する、可能性のある出力を予測する。

上記で説明したように、真の平均化された画像を作成するには、共に平均化された複数の個別のスキャン／画像を登録する必要がある。個々のスキャンが十分な品質でないため、個々のスキャン間で良好な登録を確立することが困難である場合がある。その結果、結果的に得られる平均化された画像は、最適ではない場合があり、例えば、曇り（ｈａｚｉｎｅｓｓ）および／またはぼやけが見られる場合がある。従って、真の平均化された画像が複数の画像の不良な登録の結果である場合、真の平均化された画像が必ずしも個々の画像よりも高品質であるとは限らないことがある。本発明はまた、個々の画像の登録を改善して、より高品質の真の平均化された画像を定義するために使用され得る。

図７を参照すると、訓練された本ＮＮ２５は、図２のワークフローと同様に、複数のスキャン／画像を平均化するためのワークフローに組み込まれ得る。例えば、本ワークフローは、データ収集から開始され、サンプルの同じ領域の複数のＯＣＴ／ＯＣＴＡスキャンＩ－１～Ｉ－ｑが収集される。任意選択的に、複数のスキャンＩ－１～Ｉ－ｑは、ｅｎｆａｃｅ画像、Ｂスキャン、キューブスキャンなどであり得る。いずれにしても、入力スキャンＩ－１～Ｉ－ｑは、訓練されたニューラルネットワーク２５（例えば、図１および図２５～図２８のニューラルネットワークのいずれか、または組み合わせに基づく）に提供され、ニューラルネットワーク２５は、各入力画像Ｉ－１～Ｉ－ｑに対して別個のおよび対応する変換された画像Ａ－１～Ａ－ｑを生成する。変換された各画像Ａ－１～Ａ－ｑは、対応する入力画像Ｉ－１～Ｉ－ｑよりも高品質の画像であり得、これにより、画像登録ブロック１７によるそれらの登録（例えば、整列）が容易になる。画像の登録が良好となるため、平均化の結果が、図２を参照して前述したように、元のスキャンＩ－１～Ｉ－ｑを直接平均化した場合よりも良好となる。任意選択的に、ニューラルネットワーク２５からの出力画像Ａ－１～Ａ－ｑは、画像登録ブロック１７に提供される前に、画像前処理プロセッサブロック１５に提供されてもよく、このブロックは、当該技術分野で既知の複数の画像登録技術のうちの少なくとも１つを適用して、画像登録設定（例えば、登録パラメータまたは変換パラメータ）を生成する。ニューラルネットワーク２５から出力される画像Ａ－１～Ａ－ｑは、元の画像Ｉ－１～Ｉ－ｑよりも高品質であるため、画像登録ブロック１７は、より良好な登録を提供することができ、従って、画像平均化モジュール１９は、より高品質の真の平均化された画像４５を提供することができる。即ち、平均化モジュール１９は、変換された画像Ａ－１～Ａ－ｑを共に平均化し得る。代替的に、変換された画像Ａ－１～Ａ－ｑと入力画像Ｉ－１～Ｉ－ｑとの間には１対１の対応関係があるので、点線４７で示されるように、画像Ａ－１～Ａ－ｑへの登録パラメータを使用して入力画像Ｉ－１～Ｉ－ｑを登録（例えば、画像整列）するように、個々の画像Ａ－１～Ａ－ｑに対して画像登録モジュール１７によって生成された登録パラメータ／変換パラメータを、個別に対応する入力画像Ｉ－１～Ｉ－ｑに適用してもよい。このようにして、登録された（例えば、整列された）入力画像Ｉ－１～Ｉ－ｑは、画像平均化モジュール１９によって平均化されて、入力画像Ｉ－１～Ｉ－ｑの真の平均化された画像が生成され得る。任意選択的に、平均化された画像４５が登録された画像Ａ－１～Ａ－ｑの平均化の結果であるか、入力画像Ｉ－１～Ｉ－ｑの平均化の結果であるか、または両方の組み合わせであるかに関係なく、平均化された画像４５を新たな訓練サンプルペアを生成するために任意選択的に使用することができ、その訓練サンプルペアは、次に、追加の訓練を提供するためにニューラルネットワーク２５に提供されるか、または別のニューラルネットワークを訓練するために使用されるか、またはさらなる処理のために使用され得る。

上記の実施形態では、本画像変換ニューラルネットワークは、対応する入力画像と出力画像のペアで訓練される。例えば、ニューラルネットワークを訓練して平均シミュレーション画像を作成するには、眼の同じ領域の複数のＯＣＴ／ＯＣＴＡスキャンが取得され、互いに登録／整列され、共に平均化される。これにより、複数のスキャンの各々がそれに対応する真の平均化された画像とペアリングされている複数の訓練サンプルペアが作成される。従って、本ネットワークは、単一入力画像の画像スタイルを、異なる画像条件または異なるイメージングモダリティ（例えば、平均シミュレーション画像またはＡＯシミュレーション画像）の画像の画像スタイル／特性に変換するために必要な重みを学習する。真の平均化されたＯＣＴ画像（または真のＡＯ－ＯＣＴ画像）を使用することで、ネットワークは、補助的な画像特性を探求する平滑化手法またはコヒーレンスベースの手法ではなく、実際の画像特性から学習することになる。

深層学習ネットワークは、非常に大きなデータセットから恩恵を受ける。任意選択的に、訓練画像のより小さなパッチでネットワークを訓練するためにパッチ適用ベースの技法を使用することにより、訓練サンプルペアの数を増加させることができる。

図８は、対応する画像パッチのペアを使用してニューラルネットワークを訓練するための本発明によるパッチ適用ベースの技法を示す。フルサイズの単一画像Ｓ１Ｓ３と、対応するフルサイズの真の平均化された画像Ａｖｇ１が表示されている。例えば、フルサイズの画像Ｓ１Ｓ３は、上記で説明したように、真の平均化された画像Ａｖｇ１を定義するために共に平均化される一組の画像の一部であり得る。フルサイズの画像は訓練に使用され得るが、各訓練ペアにおける画像は、任意選択的に、複数の同様のサイズの対応する画像セグメント（例えば、パッチ）に分割され得る。例えば、フルサイズの画像Ｓ１Ｓ３は、２５個のパッチ（Ｓ１Ｓ３Ｐ１～Ｓ１Ｓ３Ｐ２５）の第１のパッチグループＳ１Ｓ３ＰＧに分割され得、フルサイズの真の平均化された画像Ａｖｇ１は、同様に、２５個のパッチ（Ａｖｇ１Ｐ１～Ａｖｇ１Ｐ２５）の第２のパッチグループＡｖｇ１ＰＧに分割され得る。この例では、パッチグループＳ２Ｓ３ＰＧの一番上の最初の行のパッチにＳ１Ｓ３Ｐ１からＳ１Ｓ３Ｐ５まで、最後の行のパッチに同様にＳ１Ｓ３Ｐ２１からＳ１Ｓ３Ｐ２５まで、５行においてパッチに連続して番号が付されている。フルサイズ画像Ｓ１Ｓ３およびＡｖｇ１は、６４×６４タイル／パッチまたは他の任意の数のパッチなど、任意の数の対応するパッチに分割され得ることを理解されたい。いずれにしても、パッチグループＳ１Ｓ３ＰＧにおける各パッチは、第２のグループＡｖｇ１ＰＧにおけるパッチと対応関係にあり、対応するパッチの各ペアは、個別の訓練ペアを定義することができる。説明のために、対応するパッチの３つの訓練ペア（ＴＰ１’、ＴＰ２’、およびＴＰ３’）が示されている。この例では、訓練ペアＴＰ１’は、訓練入力としてのパッチＳ１Ｓ３７と、訓練ターゲット出力としての対応するパッチＡｖｇＰ７とで構成されている。同様に、訓練ペアＴＰ２’は、訓練入力パッチＳ１Ｓ３Ｐ１７と訓練ターゲット出力パッチＡｖｇ１Ｐ１７とで構成され、訓練ペアＴＰ３’は、訓練入力パッチＳ１Ｓ３Ｐ１９と訓練出力パッチＡｖｇ１Ｐ１９とで構成されている。このようにして、ニューラルネットワークは、シングルスキャンからのパッチのペアと、真の平均化されたスキャン（または真のＡＯ－ＯＣＴスキャン）からの対応するパッチで訓練することができる。

図９は、本発明によるニューラルネットワークを訓練するための対応するパッチのペアの使用を示す。各フルサイズの単一画像／スキャンＳ１Ｓ１～Ｓ１Ｓｎは、複数のパッチ（例えば、Ｐ１～Ｐ２５）に分割され、それらの対応する真の平均化された画像Ａｖｇ１は、同様の数の同様のサイズのパッチに分割される。各単一画像／スキャンからの個別のパッチは、平均化された画像からのそれらに対応するパッチとペアリングされ、訓練パッチペアが定義される。例えば、各サンプル画像（Ｓ１Ｓ１～Ｓ１Ｓｎ）の左上のパッチ（Ｓ１Ｓ１Ｐ１～Ｓ１ＳｎＰ１）は、平均化された画像Ａｖｇ１の左上のパッチＡｖｇ１Ｐ１とペアリングされる。このようにして、ニューラルネットワーク３１は、フルサイズスキャンからのパッチの多数のペアと、フルサイズの真の平均化されたスキャンからの対応するパッチで訓練される。これにより、ネットワークの重みは、単一の画像パッチの画像スタイルを単一の平均化された画像パッチの画像スタイル／特性に移行させることを学習する。

図１０は、本発明による画像パッチのペアで訓練されたニューラルネットワークの動作を示す。処理中、または推定および／またはテスト中に、テスト入力画像（またはライブ画像）Ｌｉｖｅ＿１は、（ニューラルネットワーク３１の訓練に使用されるのと同様の数およびサイズの）入力パッチＰ＿ｉｎのグループに分解され、各個別のパッチがニューラルネットワーク３１を介して処理され、変換された出力画像パッチＰ＿ｏｕｔの対応するグループが生成される。次に、生成されたパッチのグループＰ＿ｏｕｔをシームレスに再構築（例えば、モンタージュ）して、単一の出力画像Ｏｕｔ＿１が形成され得る。

上記したように、単一の入力画像を平均シミュレーション画像に変換する本実施形態は、第１のモダリティの入力ＯＣＴ／ＯＣＴＡ画像を、第２の異なるモダリティのＯＣＴ／ＯＣＴＡ画像の特性を有する出力ＯＣＴ／ＯＣＴＡ画像に変換するように拡張することができる。これは、異なるモダリティの２つのＯＣＴ／ＯＣＴＡシステムを使用して眼の同じ領域の複数のＯＣＴ／ＯＣＴＡスキャンを取得し、スキャンを登録し、登録されたスキャンでニューラルネットワークを訓練することによって実現することができる。例えば、一方のＯＣＴ／ＯＣＴＡシステムはＳＳ－ＯＣＴであり、他方のＯＣＴ／ＯＣＴＡシステムはＡＯ－ＯＣＴであり得る。この場合、ＳＳ－ＯＣＴおよびＡＯ－ＯＣＴスキャン／画像を共に登録し、対応する画像をペアリングして、訓練セット（例えば、ＳＳ－ＯＣＴシステムからの訓練入力画像およびＡＯ－ＯＣＴ画像からの対応するターゲット訓練出力画像）を定義することができる。２つのＯＣＴ／ＯＣＴＡモダリティによって生成された画像／スキャンのサイズが異なる場合、任意選択的に、それらを同様のサイズのパッチに分割して、上記と同様の方法でパッチの訓練ペアセットを定義するようにしてもよい。

図１１は、本発明によるＡＯ－ＯＣＴシステム６５によって生成された一組の個々のＡＯ－ＯＣＴ画像６７を使用してニューラルネットワークを訓練することを示す。図示されるように、ＳＳ－ＯＣＴシステム６１は、ＡＯ－ＯＣＴシステム６５によって生成される個別の画像よりも一般的に大きいスキャン／画像６３を生成する。この例では、ＡＯ－ＯＣＴシステム６５は、ＳＳ－ＯＣＴ６１からの単一の画像／スキャン６３によってカバーされる同じ領域に及ぶようにするために、複数の画像／スキャンのセット６７をキャプチャする必要がある。この場合、ＳＳ－ＯＣＴ６１からの単一の画像６３は、ＡＯ－ＯＣＴシステム６５の画像セット６７と同様のサイズで、それに対応する画像パッチ６９のグループに分割され得る。代替的に、画像のセット６７は、さらに小さなパッチに分割され得、単一の画像／スキャン６３は、画像のセット６７から導出されたより小さなパッチに一致し、かつ対応するより小さなパッチサイズに分割され得る。いずれにしても、ＳＳ－ＯＣＴユニット６１からの各画像パッチと、それに対応するＡＯ－ＯＣＴ画像／パッチとをペアリングして、訓練サンプルペアを定義してもよく、ＳＳ－ＯＣＴ画像パッチは、訓練のためのニューラルネットワークへの入力であり、対応するＡＯ－ＯＣＴ画像／スキャンは、ニューラルネットワークを訓練するためのターゲット出力である。説明のために、対応するパッチ／画像の３つの訓練ペア（ＴＰ１”、ＴＰ２”、およびＴＰ３”）が示されている。次に、訓練ペアを使用して、以下で説明するようにニューラルネットワークを訓練することができる。

図１２は、ＡＯ－ＯＣＴの特性を有する画像／スキャンを出力するように訓練されたニューラルネットワークの動作を示す。処理段階（または評価段階／テスト段階）の間に、入力スキャン７１（ＳＳ－ＯＣＴシステムからのスキャンなど）が収集され、図１１を参照して上記で説明したように、ニューラルネットワーク３１を訓練するために使用されるパッチ／画像と好ましくは同様のサイズの画像パッチ７３のグループに分割される。訓練されたニューラルネットワーク３１は、画像パッチ７３を受信し、各パッチを、ＡＯ－ＯＣＴシステムからのスキャンの特性を有する対応する出力パッチ（例えば、それは、ＡＯ－ＯＣＴシステムを模倣する）に変換する。ニューラルネットワーク３１は、それによって、出力パッチ７５のグループを生成し、これらのパッチは、再構成モジュール７７によってモンタージュされて、ＡＯシミュレーション画像７９（例えば、ＡＯ－ＯＣＴシステムによって生成された大規模スキャンに類似する画像）を出力する。

推定／テスト／処理中に、本発明に従って訓練されたニューラルネットワークアーキテクチャは、入力として個々のスキャンを取得し、より高品質の画像の特徴を有する出力画像を予測する。例えば、出力画像は、真の平均化された画像または真のＡＯ－ＯＣＴ画像を模倣し得る。この手法を使用した実験結果は、入力として表面的なスキャン（例えば、ｅｎｆａｃｅ画像）を使用すると、真の平均化された画像に非常に近く類似した出力が生成されることを示している。本ＭＬモデルは、ドロップアウトおよび／またはジッターなどの不要な特性が減少した出力画像であって、架空の構造の作成を排除または最小限に抑えながら、血管構造の接続性および減少したノイズアーティファクトを含む画像品質が向上した出力画像を生成することができる。本質的に、本深層学習ＮＮは、従来の画像強調技術では不可能な血管の構造の暗黙の理解（ｉｍｐｌｉｃｉｔｕｎｄｅｒｓｔａｎｄｉｎｇ）を学習する。

例えば、図１３Ａおよび図１３Ｂは、真の平均化された画像８１を、本発明に従って訓練されたニューラルネットワーク９５で生成された平均シミュレーション画像９１と比較したものである。図１３Ａでは、８個の個別のスキャン８３－１～８３－８が平均化モジュール（例えば、図２のものと同様）によって平均化されて、真の平均化された画像８１が生成される。同様に、訓練されたニューラルネットワーク９５は、（画像８３－１～８３－８には含まれない）単一の入力画像９３を受信し、平均シミュレーション画像９１を予測する。図示されるように、平均シミュレーション画像９１は、血管構造の接続性を改善し、ジッターを低減し、人工的な血管構造を導入することなく、真の平均化された画像８１に非常に類似している。

図１４は、６ｍｍの入力画像／スキャン２０１が訓練されたニューラルネットワーク９５に提供されて、６ｍｍの平均シミュレーション画像２０３を生成する、本発明の別の応用例を示す。この場合も、平均シミュレーション画像２０３は、架空の神経構造を導入することなく、画像２０１のより高品質な表現を提供する。即ち、平均シミュレーション画像２０３は、入力画像２０１に見られない新たな（例えば、架空の）血管系構造を導入することなく、入力画像２０１の血管系におけるギャップを接続する。平均シミュレーション画像２０３は、さらに、入力画像２０１の対応する血管系と比較して、血管系の厚さ／サイズの一貫性を維持している。

例えば、図１５は、真の平均化された画像および／またはパッチで訓練されたＮＮＭＬモデルに入力される眼科（例えば、ｅｎｆａｃｅ）画像２０６の例を示す。円Ｃ１および円Ｃ２は、入力画像２０６におけるジッターの領域を示す。図１６は、図１５の入力画像２０８の受信に応答して、訓練されたＮＮＭＬモデルによって生成された結果の平均シミュレーション画像２０８を示す。図１６の円Ｃ１’および円Ｃ２’の領域は、図１５の円Ｃ１および円Ｃ２の領域に対応している。明らかなように、図１６の出力画像２０８は、ジッターおよびノイズを除去して血管を強調している。

図１７Ａおよび図１７Ｂは、現在訓練されているＮＮモデルが血管の構造を学習することを示す。図１７Ａは、個々の画像のグループから作成された真の平均化された画像を示しているが、そのうちの少なくとも１つは低品質であり、個々の画像の登録を妨げている。例えば、画像／スキャンの１つは、ｅｎｆａｃｅ画像であり得、このｅｎｆａｃｅ画像は、ｅｎｆａｃｅ画像が作成されたＢスキャンにおける登録エラーによる不連続性を含んでいる。このように登録が良好に行われないと、平均化に支障をきたし、真の平均化された画像がぼやけてしまう場合がある。図１７Ｂは、図１７Ａの真の平均化された画像の作成に使用された個別の画像の１つを、現在訓練されているＮＮに入力した結果を示す。図示されているように、本深層ネットワークは、血管ネットワーク構造を維持し、図１７Ａにおいて明らかなぼやけを導入することなく維持しようとしている。

従って、低品質のスキャンの場合、本ＮＮＭＬモデルは、真の平均化された画像の構築から得られる画像よりも優れた画像を作成することができる。さらに、本発明で達成可能な画像品質（例えば、血管の連続性、ノイズレベル）は、個々のスキャンの画像品質よりも優れており、より良好な視覚化を提供することができる。また、前述したように、密度計算および平均化のハイブリッド技法などの下流のタスクのためのより良好な入力を形成する。

本ＮＮは、ＮＮが訓練中にさらされた例に基づいて、血管の連続性を維持することを学習する。いくつかの病状は、異常な厚さ／サイズの血管を含む異常な血管構造をもたらし得ることが理解されると思われる。本ＮＮＭＬモデルがこのような異常を視覚化する能力を向上させるためには、訓練に様々なタイプの病変血管のスキャン／画像の例を含ませることが有益であり得る。例えば、高血圧性網膜症、微小動脈瘤、および網膜静脈閉塞症（ＲＶＯ）に起因する血管構造のスキャン／画像を、本ニューラルネットワークを訓練するために使用される訓練セットに含ませることができる。この場合、これらの例に疾患のラベルを付ける必要はなく、むしろ、正常な血管から疾患のある血管までの様々な真の血管構造でニューラルネットワークを訓練するために、それらを単に訓練セットに含ませるだけでよい。

一例として、図１８は、疾患のある眼の画像２１２を訓練されたニューラルネットワーク９５に入力した結果を示す。図示されるように、出力画像２１４は、架空の構造を導入することなく、血管の視覚化を向上させる。

ノイズ低減
図１のものを含む、本明細書で説明される様々なニューラルネットワークアーキテクチャは、他の用途に拡張され得る。例えば、本ニューラルネットワークアーキテクチャを使用して、ニューラルネットワーク（ＮＮ）機械学習（ＭＬ）モデルを訓練して、Ａ－スキャン、Ｂ－スキャン、キューブスキャン、およびｅｎｆａｃｅ画像などのＯＣＴ／ＯＣＴＡスキャン／画像のノイズを低減する（例えば、ノイズ除去する）ことができる。従来、個々のＯＣＴスキャンの改善には、テスト機器（例えば、使用されている特定のＯＣＴシステム）における信号対雑音（ＳＮＲ）比を改善すること、個々のＯＣＴスキャン（例えば、Ｂスキャン）をモーショントラッキングに使用される対応するラインスキャン型検眼鏡（ＬＳＯ）画像（通常、最近取得されたもの）に登録すること、およびスキャンを後処理して、ＯＣＴスキャンの取得と同時に実質的にキャプチャされていたＬＳＯ画像にスキャンを登録することが含まれる。ノイズを低減するためのソフトウェアベースの方法も既知である。これらの方法は、典型的に、「クリーンな」画像の存在と既知のノイズ分布を前提とする「超解像」技術に焦点を当てたものである。

ニューラルネットワークは、画像のノイズ除去にも使用されている。一般的に、画像のノイズを除去するためにニューラルネットワークを訓練する場合、元の画像（例えば、例示的なターゲット訓練出力画像）を取得し、当該技術分野で知られている様々なノイズ付加フィルタを使用して、特定のタイプのノイズ（例えば、既知のノイズ分布）を元の画像に付加して、人工的にノイズの多い訓練入力サンプルを作成する。次に、これらの人工的に作成されたノイズの多い訓練入力サンプルは、（それらが作成された）元の画像とペアリングされて訓練ペアを形成する。このように作成された、人工的にノイズの多いサンプルは、ニューラルネットワークへの訓練入力として使用され、元の画像はニューラルネットワークのターゲット訓練出力として使用される。この手法の例は、デバラエス．ケイ．（Ｄｅｖａｌｌａ、Ｓ．Ｋ．ｅｔａｌ．）他による視神経乳頭の光干渉断層撮影画像のノイズ除去のための深層学習手法（ＡＤｅｅｐＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈｔｏＤｅｎｏｉｓｅＯｐｔｉｃａｌＣｏｈｅｒｅｎｃｅＴｏｍｏｇｒａｐｈｙＩｍａｇｅｓｏｆｔｈｅＯｐｔｉｃＮｅｒｖｅＨｅａｄ）、ａｒＸｉｖ：１８０９．１０５８９［ｃｓ．ＣＶ］に記載されており、ニューラルネットワークを使用して特定の既知の種類のノイズでＯＣＴスキャンのノイズを除去することの実現可能性を検討している。デバラは、ニューラルネットワークの訓練に使用されたのと同じ人工的にノイズの多いサンプルの中から、テストサンプルとして使用されるサンプルを選択することにより、訓練されたニューラルネットワークの有効性をテストしている。これらのテストサンプルは、訓練されたニューラルネットワークに提供され、除去するように訓練された特定のタイプの人工ノイズを除去するためのニューラルネットワークの能力を決定する。

この手法とは対照的に、本ニューラルネットワークは、真の（即ち、人工的にノイズのない）画像の集合で訓練され、訓練された本ニューラルネットワークの性能を評価するために、ライブ画像（即ち、ニューラルネットワークの訓練で使用された画像ではないもの）を使用する。さらに、本ニューラルネットワークを訓練するために、元のクリーンなサンプルは必要ない。

個別のＯＣＴＡスキャンおよび関連するｅｎｆａｃｅ画像は一般的にノイズが多い。ノイズは、画像品質と血管系密度などの定量化結果に直接影響する。上記で説明したように、深層学習は、データを処理するための機械学習モデルを開発するための手法であり、画像処理の問題に関する最先端の結果を生み出してきた。本明細書で説明されるニューラルネットワークアーキテクチャのいずれかを本発明で使用することができるが、図１のＮＮアーキテクチャは、ＯＣＴスキャン／画像（例えば、Ｂスキャン、ｅｎｆａｃｅ画像など）をノイズ除去するためのカスタム深層学習フレームワークとして本明細書で例示的に使用される。これは、一般的にノイズの多い画像であるＯＣＴスキャン／画像の真の（任意選択的に、ランダムな、かつ／または生の（例えば、前処理なしの））ペアを訓練サンプルペアとして本ニューラルネットワークに提供することによって実現される。パッチ適用ベースの技法を使用して、訓練セットのサイズを増加させることもできることが理解されるものと思われる。任意選択的に、訓練画像のペアは、対象（例えば、眼）の同じ領域のものであり得るが、訓練画像のペアは、任意選択的に、異なる領域からのものであり得る。さらに、本ニューラルネットワークの訓練のためにクリーンな画像の「先行」例は使用されていない。従って、本ニューラルネットワークＭＬモデルは、追加の「先行例」、例えば、グラウンドトゥルースの例（平均化された画像またはクリーニングされた画像または高品質の画像など）または事前定義されたノイズ分布を有する画像を見ることなく、ＯＣＴスキャン／画像をノイズ除去するために学習する。これにより、ノイズの統計がデータによって完全に記述されるようにすることができる。従って、本ＮＮＭＬは、訓練ペアのサンプルの収集を簡素化しながら、未発見のノイズ特性のノイズを除去して、大幅に向上した画像品質を実現することを学習する。

図１９は、本発明によるＯＣＴスキャン／画像のノイズを除去するためのニューラルネットワークの訓練を示す。深層学習を使用してｅｎｆａｃｅ／Ｂスキャン画像を処理する上で最も難しい部分は、訓練セットで使用するためのグラウンドトゥルース（例えば、高品質で元の状態）、ターゲット出力画像（例えば、「先行例」）を取得することである。上記で説明したように、真の平均化された画像をグラウンドトゥルースの訓練の出力サンプルとして使用することも、その他の関連する「クリーンな」画像を使用することもできる。これらの「先行例」は、超解像の手段として使用することができる。別の手法は、ノイズ特性を定義し、既知のノイズ特性を有するサンプル画像を意図的に劣化させ、劣化した画像を訓練入力画像として使用し、元のサンプル画像を「クリーンな」訓練出力画像として使用するということである。現在の好ましい実施形態は、（ノイズおよびデータの両方に対して）先行例を使用する必要性を回避することによって、これらの技術を上回る重要な利点を提供する。これは、スペックルノイズの定量化が困難であるＯＣＴ画像での使用に特に有利である。本ニューラルネットワーク（任意選択的に、畳み込みニューラルネットワーク）９７は、生の入力画像のペアのみを見て、ＯＣＴＢスキャンおよび／またはｅｎｆａｃｅ画像をノイズ除去するように訓練される（例えば、同じ領域からの画像の各ペアにおける画像の一方を訓練入力サンプルとしてランダムに割り当て、ペアにおける他方の画像を訓練出力サンプルとして割り当てる）。即ち、訓練の「先行例」を定義するために、最適な画像を選択したり、生画像をクリーニング／前処理するための特別なプロセスは必要はなく、また使用されることがない。Ｂスキャンをノイズ除去するためのニューラルネットワーク９７の訓練には、Ｂスキャン９２のペアが訓練用に使用され、ｅｎｆａｃｅ画像をノイズ除去するためのニューラルネットワーク９７の訓練には、ｅｎｆａｃｅ画像のペア９４が訓練用に使用される。このように、処理において、ニューラルネットワーク９７にライブＢスキャンまたはライブｅｎｆａｃｅ画像が入力されると、ニューラルネットワーク９７は、ノイズ除去されたＢスキャン９６またはノイズ除去されたｅｎｆａｃｅ画像９８をそれぞれ生成する。例えば、訓練段階において、畳み込みニューラルネットワーク９７は、同じスキャン（例えば、血管造影画像または真の平均化された画像を定義するために使用されるのと同様の方法で同じ領域の複数のスキャン）からの画像のペア、または同じ眼の同じ領域からの登録されたｅｎｆａｃｅ画像からの画像のペアで訓練されてもよい。テスト段階または処理段階の間、ニューラルネットワーク９７によって以前に確認されなかった単一のＢスキャン（またはｅｎｆａｃｅ画像）がニューラルネットワーク９７への入力として提供されてもよく、ニューラルネットワーク９７は、ノイズ除去された出力（必要に応じて、Ｂスキャン９６またはｅｎｆａｃｅ画像９８）を予測する。

訓練のためにＢスキャンまたはｅｎｆａｃｅ画像を収集する場合、収集されたスキャン／画像の任意のものを訓練ペアにおける訓練入力サンプルまたは訓練出力サンプルとして使用することができる。例えば、訓練サンプルペア９２または９４を定義する場合、複数のＢスキャンまたはｅｎｆａｃｅ画像は、眼のランダムな領域からの生画像であり得る。しかしながら、訓練ペアは、眼の実質的に同じ領域のスキャン／画像から構築され得る。任意選択的に、訓練ペアが異なる品質の画像の混合を含むように、様々な品質のスキャン／画像を生成するようにＯＣＴシステムが構成されてもよい（例えば、ＳＮＲを低くしてもよく、および／または選択画像処理を省略してもよく、および／またはモーショントラッキングを低減または排除してもよい）。さらに、本訓練方法は、全く同じ物体構造でありながらスペックルが異なる（例えば、光の偏光または角度を変更することによる）スキャン／画像を記録することを含み得る。従って、ニューラルネットワーク９７は、生画像のみを使用し、特別な先行例を使用しないで（例えば、空間平均化なしで）画像をノイズ除去し、Ｂスキャンおよび／またはｅｎｆａｃｅ画像をノイズ除去することを学習する。

図２０は、（本発明による）訓練されたニューラルネットワーク９７に使用される例示的なライブ入力ｅｎｆａｃｅ画像２２１、および結果として生じるノイズ除去されたｅｎｆａｃｅ画像２２３を示す。図２１Ａおよび図２１Ｂは、ニューラルネットワーク９７を訓練するために使用されるライブＢスキャン入力２２５／２２７およびそれらの個々に出力されたノイズ除去されたＢスキャン２２６／２２８の２つの別個の例を示す。図２０および図２１から明らかなように、本ＮＮ機械学習モデルは、大幅なノイズ除去を提供する。

例示的な光干渉断層撮影（ＯＣＴ）システム
図２２には、本発明との使用に適した眼の３Ｄ画像データ収集用の一般型周波数領域光干渉断層撮影（ＦＤ－ＯＣＴ）システムが図解されている。ＦＤ－ＯＣＴシステム１００は、光源１０１を含む。典型的な光源には、時間コヒーレンス長が短い広帯域光源、又は掃引レーザー源が含まれるがこれらに限定されない。光源１０１からの光のビームは、典型的に光ファイバ１０５によってサンプル１１０を照明するように誘導され、典型的なサンプルは人間の眼内組織である。光源１０１は、スペクトル領域ＯＣＴ（ＳＤ－ＯＣＴ）の場合の短い時間コヒーレンス長の広帯域光源か、掃引光源ＯＣＴ（ＳＳ－ＯＣＴ）の場合の波長調整可能レーザー源の何れかとすることができる。光は、典型的には光ファイバ１０５の出力とサンプル１１０との間のスキャナ１０７でスキャンされ、それによって光のビーム（破線１０８）はサンプルの画像撮影対象領域を横方向に（ｘ及びｙに）スキャンされる。フルフィールドＯＣＴの場合、スキャナは不要であり、光は一度に所望の視野（ＦＯＶ）全体に当てられる。サンプルから散乱した光は、典型的に照明用の光を案内するために使用されるものと同じ光ファイバ１０５へと集光される。同じ源１０１から派生する参照光は別の経路に沿って移動し、この場合、これには光ファイバ１０３及び調整可能な光学遅延を有する逆反射板１０４が含まれる。透過性参照経路も使用でき、調整可能遅延はサンプル又は干渉計の参照アームの中に設置できることは、当業者であれば理解されると思われる。集光されたサンプル光は、典型的にファイバカプラ１０２において参照光と結合され、ＯＣＴ光検出器１２０内の光干渉を形成する。１つのファイバポートが検出器１２０に到達するように示されているが、干渉信号のバランス又はアンバランス検出のために様々な設計の干渉計を使用できることは、当業者であれば理解されるものと思われる。検出器１２０からの出力は、プロセッサ１２１（例えば、コンピューティングデバイス）に供給され、それが観察された干渉をサンプルの深さ情報へと変換する。深さ情報は、プロセッサ１２１に関連付けられるメモリ内に保存され、及び／又はディスプレイ１２２に表示されてよい。処理及び保存機能はＯＣＴ機器内に配置されてよく、又は機能は収集されたデータが転送される外部処理ユニット（例えば、図２９に示されるコンピュータシステム）上で実行されてもよい。このユニットは、データ処理専用とすることも、又はごく一般的で、ＯＣＴデバイス装置に専用ではないその他のタスクを実行することもできる。プロセッサ１２１は例えば、ホストプロセッサに供給される前に、又は並行してデータ処理ステップの一部又は全部を実行するフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途集積回路（ＡＳＩＣ）、グラフィクス処理ユニット（ＧＰＵ）、システムオンチップ（ＳｏＣ）、中央処理ユニット（ＣＰＵ）、汎用グラフィクス処理ユニット（ＧＰＧＰＵ）、又はそれらの組合せを含んでいてよい。

サンプルと干渉計内の参照アームは、バルク光学系、ファイバ光学系、又はハイブリッドバルク光学システムで構成でき、また、当業者の間で知られているように、マイケルソン、マッハ・ツェンダ、又は共通光路系設計等、異なるアーキテクチャを有することができる。光ビームとは、本明細書において使用されるかぎり、慎重に方向付けられるあらゆる光路と解釈されるべきである。ビームを機械的にスキャンする代わりに、光の場が網膜の１次元又は２次元エリアを照明して、ＯＣＴデータを生成できる（例えば、米国特許第９３３２９０２号明細書、ディー．ヒルマン（Ｄ．Ｈｉｌｌｍａｎｎ）他著、「ホロスコピ－ホログラフィック光干渉断層撮影（Ｈｏｌｏｓｃｏｐｙ－ｈｏｌｏｇｒａｐｈｉｃｏｐｔｉｃａｌｃｏｈｅｒｅｎｃｅｔｏｍｏｇｒａｐｈｙ）」オプティクスレターズ（ＯｐｔｉｃｓＬｅｔｔｅｒｓ）、第３６巻（１３）、ｐ．２２９０、２０１１年、ワイ．ナカムラ（Ｙ．Ｎａｋａｍｕｒａ）他著、「ラインフィールドスペクトルドメイン光干渉断層撮影法による高速３次元ヒト網膜イメージング（Ｈｉｇｈ－Ｓｐｅｅｄｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌｈｕｍａｎｒｅｔｉｎａｌｉｍａｇｉｎｇｂｙｌｉｎｅｆｉｅｌｄｓｐｅｃｔｒａｌｄｏｍａｉｎｏｐｔｉｃａｌｃｏｈｅｒｅｎｃｅｔｏｍｏｇｒａｐｈｙ）」、オプティクスエクスプレス（ＯｐｔｉｃｓＥｘｐｒｅｓｓ）、第１５巻（１２）、ｐ．７１０３、２００７年、ブラスコヴィッチ（Ｂｌａｚｋｉｅｗｉｃｚ）他著、「フルフィールドフーリエドメイン光干渉断層撮影法の信号対雑音比の研究（Ｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏｓｔｕｄｙｏｆｆｕｌｌ－ｆｉｅｌｄＦｏｕｒｉｅｒ－ｄｏｍａｉｎｏｐｔｉｃａｌｃｏｈｅｒｅｎｃｅｔｏｍｏｇｒａｐｈｙ）」、アプライド・オプティクス（ＡｐｐｌｉｅｄＯｐｔｉｃｓ）、第４４巻（３６）、ｐ．７７２２（２００５年）参照）。時間領域システムでは、参照アームは干渉を生じさせるために調整可能な光学遅延を有する必要がある。バランス検出システムは典型的にＴＤ－ＯＣＴ及びＳＳ－ＯＣＴシステムで使用され、分光計はＳＤ－ＯＣＴシステムのための検出ポートで使用される。本明細書に記載の発明は、何れの種類のＯＣＴシステムにも応用できる。本発明の様々な態様は、何れの種類のＯＣＴシステムにも、又はその他の種類の眼科診断システム及び／又は、眼底イメージングシステム、視野試験装置、及び走査型レーザー偏光計を含むがこれらに限定されない複数の眼科診断システムにも適用できる。

フーリエドメイン光干渉断層撮影法（ＦＤ－ＯＣＴ）において、各測定値は実数値スペクトル制御干渉図形（Ｓｊ（ｋ））である。実数値スペクトルデータには典型的に、背景除去、分散補正等を含む幾つかの後処理ステップが行われる。処理された干渉図形のフーリエ変換によって、複素ＯＣＴ信号出力Ａｊ（ｚ）＝｜Ａｊ｜ｅｉφが得られる。この複素ＯＣＴ信号の絶対値、｜Ａｊ｜から、異なる経路長での散乱強度、したがってサンプル内の深さ（ｚ－方向）に関する散乱のプロファイルが明らかとなる。同様に、位相φｊもまた、複素ＯＣＴ信号から抽出できる。深さに関する手散乱のプロファイルは、軸方向スキャン（Ａ－スキャン）と呼ばれる。サンプル内の隣接する位置において測定されたＡ－スキャンの集合により、サンプルの断面画像（断層画像又はＢ－スキャン）が生成される。サンプル上の横方向の異なる位置で収集されたＢスキャンの集合が、データボリューム又はキューブを構成する。特定のデータボリュームについて、速い軸とは１つのＢ－スキャンに沿ったスキャン方向を指し、遅い軸とは、それに沿って複数のＢ－スキャンが収集される軸を指す。「クラスタスキャン」という用語は、血流を識別するために使用されてよいモーションコントラストを解析するために、同じ（又は実質的に同じ）位置（又は領域）での反復的取得により生成されるデータの１つのユニット又はブロックを指してよい。クラスタスキャンは、サンプル上のほぼ同じ位置において比較的短い時間間隔で収集された複数のＡ－スキャン又はＢ－スキャンで構成できる。クラスタスキャンのスキャンは同じ領域のものであるため、静止構造はクラスタスキャン中のスキャン間で比較的変化しないままであるのに対し、所定の基準を満たすスキャン間のモーションコントラストは血液流として識別されてよい。Ｂ－スキャンを生成するための様々な方法が当業界で知られており、これには、水平又はｘ方向に沿ったもの、垂直又はｙ方向に沿ったもの、ｘ及びｙの対角線に沿ったもの、又は円形若しくは螺旋パターンのものが含まれるがこれらに限定されない。Ｂ－スキャンは、ｘ－ｚ次元内であってよいが、ｚ次元を含む何れの断面画像であってもよい。

ＯＣＴ血管造影法又は関数型ＯＣＴにおいて、解析アルゴリズムは、動き又は流れを解析するために、サンプル上の同じ、又はほぼ同じサンプル位置において異なる時間に収集された（例えば、クラスタスキャン）ＯＣＴデータに適用されてよい（例えば、米国特許出願公開第２００５／０１７１４３８号明細書、同第２０１２／０３０７０１４号明細書、同第２０１０／００２７８５７号明細書、同第２０１２／０２７７５７９号明細書、及び米国特許第６，５４９，８０１号明細書を参照されたく、これらの全ての全体を参照によって本願に援用する）。ＯＣＴシステムでは、血流を識別するために多くのＯＣＴ血管造影法処理アルゴリズム（例えば、モーションコントラストアルゴリズム）のうちの何れの１つを使用してもよい。例えば、モーションコントラストアルゴリズムは、画像データから導出される強度情報（強度に基づくアルゴリズム）、画像データからの位相情報（位相に基づくアルゴリズム）、又は複素画像データ（複素に基づくアルゴリズム）に適用できる。ｅｎｆａｃｅ画像は３ＤＯＣＴデータの２Ｄ投射である（例えば、個々のＡ－スキャンの各々の強度を平均することにより、これによって、各Ａ－スキャンが２Ｄ投射内のピクセルを画定する）。同様に、ｅｎｆａｃｅ脈管画像は、モーションコントラスト信号を表示する画像であり、その中で深さに対応するデータディメンション（例えば、Ａ－スキャンに沿ったｚ方向）は、典型的にはデータの全部又は隔離部分を加算又は集積することによって、１つの代表値（例えば、２Ｄ投射画像内のピクセル）として表示される（例えば、米国特許第７，３０１，６４４号明細書を参照されたく、その全体を参照によって本願に援用する）。血管造影機能を提供するＯＣＴシステムは、ＯＣＴ血管造影（ＯＣＴＡ）システムと呼ばれてよい。

図２３は、ｅｎｆａｃｅ脈管構造画像１３０の例を示す。データを処理し、当業界で知られるモーションコントラスト法の何れかを用いてモーションコントラストをハイライトした後に、網膜の内境界膜（ＩＬＭ：ｉｎｔｅｒｎａｌｌｉｍｉｔｉｎｇｍｅｍｂｒａｎｅ）の表面からのある組織深さに対応するピクセル範囲を加算して、その脈管構造のｅｎｆａｃｅ（例えば、正面図）画像１３０が生成されてよい。

本明細書で説明されるＯＣＴシステムは、２Ｄ（即ち、断面）画像、ｅｎｆａｃｅ画像、３Ｄ画像、健康状態に関連する測定基準（ｍｅｔｒｉｃｓ）などを提供することができる。このシステムは、他のシステムと共に使用することができる。例えば、ＯＣＴシステムは、診断または治療の目的で、外科システムまたは外科顕微鏡システムと共に使用することができる。ＯＣＴシステムは、任意のサンプルを分析するために使用することができる。例えば、ＯＣＴシステムは、あらゆる種類の生命体および無生物の分析（例えば、画像の形成）において使用することができる。生命体の例としては、動物、植物、細胞などがあり得る。

ＯＣＴおよびＯＣＴＡは非常に良好な画像を提供することができるが、それでも画像アーティファクトの影響を受けやすく、臨床医が画像を確認する際の信頼性に影響を与える可能性がある。例えば、臨床医が画像アーティファクトを実際の物理的な構造物と混同する可能性がある。従って、画像アーティファクトは、架空の構造を導入したり、実際の物理的構造を不明瞭にしたりする可能性があり、いずれも画像の診断効果を低下させ得る。従って、収集されたスキャン画像の画像品質を向上させるための方法を提供することは有益である。画像の品質を向上させ、一部の画像アーティファクトを除去する方法の１つとして、標本の同じ領域の複数（例えば、４～１０）の画像／スキャンを収集し、収集された画像における共通の特徴を識別し、識別された共通の特徴に基づいて収集された画像を共に登録（例えば、整列）し、登録された画像を平均化することが挙げられる。実際の構造物は、収集された全ての画像の同じような場所に存在する可能性があるが、同じ画像アーティファクトが全ての画像の同じ場所に存在する可能性は低いため、収集された画像を平均化することで、一部の画像アーティファクトの視認性が低下して、実際の構造物の存在を強化するという効果がある。しかしながら、この手法にはいくつかの問題がある。例えば、多数の画像（４～１０など）を収集すると、必要な画像を取得するのに必要な時間が大幅に長くなり、患者の快適性および眼球運動による潜在的なエラーの問題が発生する可能性がある。第二に、エラーの可能性が高まると、画像アーティファクトが増加し、収集された画像内の共通の特徴の識別および登録が複雑になる可能性がある。即ち、平均化のために収集する画像が多いほど、良好な平均化された画像を取得するのが困難となる。各クラスタ画像は複数の個別のスキャンで構成されているため、クラスタ画像を平均化しようとすると、これらの問題はさらに大きくなる。

例示的な補償光学光干渉断層撮影（ＡＯ－ＯＣＴ）システム
改良された画像（例えば、ＯＣＴまたはＯＣＴＡ画像）を生成するための別の手法は、補償光学を使用することである。眼の光学系とそれらの配列は完全ではないため、眼に入る（または出る）光ビームが所望の経路から逸脱することになる。これらの偏差（例えば、光学収差）は、眼科イメージングシステムによって撮影された画像をぼかす可能性がある。補償光学（ＡＯ）は、光学収差の影響を低減することにより、光学系の性能を向上させる。例えば、補償光学をＯＣＴ／ＯＣＴＡと組み合わせて、画像品質が向上したＡＯ－ＯＣＴシステムを形成することができる。

図２４は、ＡＯサブシステムおよびＯＣＴ／ＯＣＴＡサブシステムから構成される例示的なＡＯ－ＯＣＴシステム２００を示す。図２２の構成要素と同様のＯＣＴ／ＯＣＴＡサブシステムの全ての構成要素は、同様の参照番号を有しており、上記で説明されている。この例では、ＯＣＴ／ＯＣＴＡサブシステムは、ＯＣＴ光源１０１を含み、その光ビーム（破線として図示される）は、反射器（例えば、ミラー）１１１によってビームスプリッタ２０２に向かって折り返され、ビームスプリッタ２０２は、光ビームを再帰反射器１０４を含む参照アーム上に、サンプル（例えば、眼）１１０につながるスキャナ１０７を含むサンプルアーム上に分割する。このようにして、ＯＣＴ光源１０１からの光ビームは、イメージングされるべき眼１０１のターゲット領域上で横方向に（ｘおよびｙ方向）にスキャンされ得る。眼１０１から戻る収集されたサンプル光は、ビームスプリッタ２０２によって再帰反射器１０４から戻る参照光と組み合わされて、ＯＣＴ光検出器１２０において光干渉が形成され、その出力は、プロセッサ１２１によって処理され、深度情報に変換される。前と同様に、深度情報は、プロセッサ１２１に関連付けられたメモリに格納され、かつ／またはディスプレイ１２２に表示され得る。

ＡＯサブシステムは、独自のＡＯ光源２０１（例えば、レーザーまたはスーパールミネッセントダイオード、ＳＬＤ）を有し得、その光ビーム（二点鎖線として図示される）は、反射器２１１によって、ビームスプリッタ２０２に向かってＯＣＴ光源１０１の光路上に折り返される。ＡＯ光源２０１からの光は、ビームスプリッタ２０２からＯＣＴサブシステムと同じ光路をたどって眼１１０に至り、眼の光学系によって網膜上の一点に集束される。眼が完全な光学系である場合、眼から反射される波面は完全に平坦になるが、眼は完全ではないため、戻る波面は平坦ではなく、光学収差（例えば、不規則な湾曲形状）が発生する傾向にある。ＯＡサブシステムはＯＣＴ／ＯＣＴＡサブシステムと共通の光路を共有しているため、ＡＯサブシステムは、ＯＣＴ／ＯＣＴＡサブシステムが眼をスキャンする前に、共有光路における光学収差を観察して補正することができる。

眼から反射された戻りＡＯ光は、ビームスプリッタ２０２を通って、収差を補償するように構成可能な変形可能ミラーなどの波面補正器２０５に進行する。共通の光路は、反射器２０７によって導かれるように、波面補正器２０５からビームスプリッタ２０９に向かって続いている。ビームスプリッタ２０９において、ＯＣＴ／ＯＣＴＡサブシステムおよびＡＯサブシステムの光路が分岐する。ビームスプリッタ２０９は、収集されたサンプル光（眼１１０からの）および参照光（再帰反射器１０４からの）をＯＣＴ光検出器１２０に渡し、戻りＡＯ光を波面センサ２１０に折り返し、波面センサ２１０は、眼１１０からの光学収差を測定／モニタリングする。波面センサ２１０は、レンズレットアレイ２１５（例えば、微小なレンズのアレイ）およびＡＯ光検出器２１３（例えば、光検出器）から構成され得る。

レンズレットアレイ２１５は、レンズレット平面での波面形状が眼の瞳孔での波面形状と一致するように、眼の瞳孔の共役面にある。レンズレットアレイは、波面形状に応じてＡＯ光検出器２１３上にスポット画像のアレイを生成する。プロセッサ１２１、または図示されていない別のコンピューティングシステムは、ＡＯサブシステムの制御システムとして機能し、波面センサ２１０からの波面情報を検査して、波面補正器２０５の補正構成を決定することができる。完全な眼であれば、レンズレットアレイ２１５は、ＡＯ光検出器２１３上に完全に規則的なスポットのアレイを生成するが、光学収差は、これらのスポットを歪め、変位させる。観察されたスポット歪みおよび変位から、プロセッサ１２１は、眼１１０から現れる波面の形状を決定し、それによって、観察された収差を補正する（例えば、低減する）ために、波面補正器２０５の補償形状を決定することができる。即ち、眼１１０からの波面は、眼の波面収差を測定する波面センサ２１０によって受信され、プロセッサ１２１は、波面補正器２０５にその反射面を、観察された収差を補償するように計算された形状に構成するように制御信号を提供する。従って、波面補正器２０５、波面センサ２１０、およびプロセッサ１２１は、観察された光学収差が各フィードバックの反復ごとに低減される（例えば、少なくとも回折限界まで）フィードバックシステムを形成する。観察された光学収差が十分に低減されると（例えば、事前定義された閾値内に低減されると）、ＯＣＴ／ＯＣＴＡサブシステムが起動され、はるかに改善された解像度（例えば、横方向の解像度）で眼がスキャン（またはイメージング）される。

要約すると、ＡＯサブシステムは、共有光路の光学収差を識別して補正するものであり、網膜のイメージング／スキャン機能を提供するものではない。むしろ、ＡＯサブシステムが共有光路の光学収差を補正した後、ＯＣＴ／ＯＣＴＡサブシステムが網膜のイメージング／スキャン機能を提供する。ＡＯ－ＯＣＴは、ＡＯサブシステムの追加コストと複雑さの影響を受けるが、横方向の解像度の向上、スペックルサイズ（粒状アーティファクト）の低減、および弱い反射に対する感度の向上などの利益があり、その結果、網膜の微細構造の可視化および検出が向上され得る。ＡＯ－ＯＣＴシステムのもう１つの欠点は、ＡＯサブシステムの特殊な光学系により、取得可能なスキャン／画像のサイズが、上記したように、従来のＯＣＴ／ＯＣＴＡシステムで取得可能なサイズよりもはるかに小さいことである。従来のＯＣＴ／ＯＣＴＡシステムと同等のサイズのＡＯ－ＯＣＴ画像を取得するには、異なる重複する場所で複数のＡＯ－ＯＣＴスキャンをキャプチャして、共にモンタージュする必要があり、これにより、総スキャン時間が長くなる。さらに、ＡＯサブシステムが光学収差を観察して補正するために必要な時間は、個々のＯＣＴ／ＯＣＴＡスキャンシーケンスの時間の要件を増加させる。その結果、ＡＯ－ＯＣＴシステムは従来のＯＣＴ／ＯＣＴＡシステムよりも複雑で低速であり、視野も非常に限られているため、商業的に成功したＡＯ－ＯＣＴシステムの製造が困難なものとなっている。

ニューラルネットワーク
ニューラルネットワーク、又はニューラルネットは、相互接続されたニューロンの（ノードを介した）ネットワークであり、各ニューロンはネットワーク内のノードを表す。ニューロンの集合は層状に配置されてよく、１つの層の出力は多層パーセプトロン（ＭＬＰ）配置の中の次の層へと順方向に供給される。ＭＬＰは、入力データの集合を出力データの集合にマッピングするフィードフォワードニューラルネットワークと理解されてよい。

図２５は、多層パーセプトロン（ＭＬＰ）ニューラルネットワークの例を図解する。その構造は、複数の隠れ（例えば内側）層ＨＬ１～ＨＬｎを含んでいてよく、これは入力層ＩｎＬ（入力（又はベクトル入力）の集合ｉｎ＿１～ｉｎ＿３を受け取る）を出力層ＯｕｔＬにマッピングし、それが出力（又はベクトル出力）の集合、例えばｏｕｔ＿１及びｏｕｔ＿２を生成する。各層は、何れの数のノードを有していてもよく、これらはここでは説明のために各層内の円として示されている。この例では、第一の隠れ層ＨＬ１は２つのノードを有し、隠れ層ＨＬ２、ＨＬ３、及びＨＬｎは各々３つのノードを有する。一般に、ＭＬＰが深いほど（例えば、ＭＬＰ内の隠れ層の数が多いほど）、その学習容量は大きい。入力層ＩｎＬは、ベクトル入力（説明のために、ｉｎ＿１、ｉｎ＿２、及びｉｎ＿３からなる３次元ベクトルとして示されている）を受け取り、受け取ったベクトル入力を隠れ層のシーケンス内の第一の隠れ層ＨＬ１に供給してよい。出力層ＯｕｔＬは、多層モデル内の最後の隠れ層、例えばＨＬｎからの出力を受け取り、ベクトル出力結果（説明のためにｏｕｔ＿１及びｏｕｔ＿２からなる２次元ベクトルとして示されている）を生成する。

典型的に、各ニューロン（すなわちノード）は１つの出力を生成し、それがその直後の層のニューロンへと順方向に供給される。しかし、隠れ層内の各ニューロンは、入力層から、又はその直前の隠れ層内のニューロンの出力から、複数の入力を受け取るかもしれない。一般に、各ノードはその入力に関数を適用して、そのノードのための出力を生成してよい。隠れ層（例えば、学習層）内のノードは、それぞれの入力に同じ関数を適用して、それぞれの出力を生成してよい。しかしながら、幾つかのノード、例えば入力層ＩｎＬ内のノードは１つの入力しか受け取らず、受動的であってよく、これは、それらが単純にその１つの入力の値をその出力へと中継することを意味し、例えばこれらはその入力のコピーをその出力に提供し、これは説明のために入力層ＩｎＬのノード内の破線矢印によって示されている。

説明を目的として、図２６は、入力層ＩｎＬ’、隠れ層ＨＬ１’、及び出力層ＯｕｔＬ’からなる単純化されたニューラルネットワークを示す。入力層ＩｎＬ’は、２つの入力ノードｉ１及びｉ２を有するように示されており、これらはそれぞれ入力Ｉｎｐｕｔ＿１及びＩｎｐｕｔ＿２を受け取る（例えば、層ＩｎＬ’の入力ノードは、２次元の入力ベクトルを受け取る）。入力層ＩｎＬ’は、２つのノードｈ１及びｈ２を有する１つの隠れ層ＨＬ１’へと順方向に供給し、それが今度は、２つのノードｏ１及びｏ２の出力層ＯｕｔＬ’に順方向に供給する。ニューロン間の相互接続、又はリンクは（説明のために実線の矢印で示されている）は重みｗ１～ｗ８を有する。典型的に、入力層を除き、ノード（ニューロン）は入力としてその直前の層のノードの出力を受け取るかもしれない。各ノードは、その入力の各々に各入力の対応する相互接続重みを乗じ、その入力の積を加算し、その特定のノードに関連付けられるかもしれない他の重み又はバイアス（例えば、それぞれノードｈ１、ｈ２、ｏ１、及びｏ２に対応するノード重み（または、バイアス）ｗ９、ｗ１０、ｗ１１、ｗ１２）により定義される定数を加算し（又は、それを乗じ）、その後、その結果に非線形関数又は対数関数を適用することによってその出力を計算してよい。非線形関数は、活性化関数又は伝達関数と呼ばれてよい。複数の活性化関数が当業界で知られており、特定の活性化関数の選択はこの説明には重要ではない。しかしながら、留意すべき点として、ＭＬモデルの演算、ニューラルネットの挙動は重みの値に依存し、これはニューラルネットワークがある入力のための所望の出力を提供するように学習されてよい。

ニューラルネットは、訓練、又は学習段階中に、ある入力にとって望ましい出力を実現するための適当な重み値を学習する（例えば、それを特定するように訓練される）。ニューラルネットが訓練される前に、各重みは個々に初期の（例えば、ランダムな、任意選択的にゼロ以外の）値、例えば乱数シードに割り当てられてもよい。初期重みを割り当てる様々な方法が当業界で知られている。すると、重みは、ある訓練ベクトル入力について、ニューラルネットワークが所望の（所定の）訓練ベクトル出力に近い出力を生成するように訓練される（最適化される）。例えば、重みはバックプロパゲーションと呼ばれる方法によって、何千回もの繰返し（訓練）サイクルで徐々に調整されてよい。バックプロパゲーションの各サイクルで、訓練入力（例えば、ベクトル入力又は訓練入力画像／サンプル）はニューラルネットワークを通じてフォワードパスが行われて、その実際の出力（例えば、ベクトル出力）が提供される。その後、各出力ニューロン、又は出力ノードのエラー（例えば、訓練サイクルエラーまたは損失エラー）が、実際のニューロンの出力及びそのニューロンのための教師値訓練出力（例えば、現在の訓練入力画像／サンプルに対応する訓練出力画像／サンプル）に基づいて計算される。すると、それはニューラルネットワークを通じて逆方向に（出力層から入力層へと逆方向に）伝搬し、各重みが全体的エラーに対してどの程度の影響を有するかに基づいて重みが更新され、それによってニューラルネットワークの出力は所望の訓練出力に近付く。このサイクルはその後、ニューラルネットワークの実際の出力がその訓練入力のための所望の訓練出力の容認可能なエラー範囲内になるまで繰り返される。理解されるように、各訓練入力は、所望のエラー範囲を実現するまでに多くのバックプロパゲーションイテレーションを必要とするかもしれない。典型的に、エポックは全ての訓練サンプルの１つのバックプロパゲーションイテレーション（例えば、１回のフォワードパスと１回のバックワードパス）を指し、ニューラルネットワークの訓練には多くのエポックが必要かもしれない。一般に、訓練セットが大きいほど、訓練されるＭＬモデルのパフォーマンスは向上するため、各種のデータ拡張方法が、訓練セットのサイズを大きくするために使用されてよい。例えば、訓練セットが対応する訓練入力画像と訓練出力画像のペアを含む場合、訓練画像は複数の対応する画像セグメント（又はパッチ）に分割されてよい。訓練入力画像及び訓練出力画像からの対応するパッチがペアにされて、１つの入力／出力画像ペアから複数の訓練パッチペアが画定されてよく、それによって訓練セットが拡張される。しかしながら、大きい訓練セットを訓練することによって、コンピュータリソース、例えばメモリ及びデータ処理リソースへの要求が高まる。演算要求は、大きい訓練セットを複数のミニバッチに分割することによって軽減されるかもしれず、このミニバッチのサイズは１回のフォワード／バックワードパスにおける訓練サンプルの数が決まる。この場合、１つのエポックは複数のミニバッチを含んでいてよい。他の問題は、ＮＮが訓練セットを過剰適合して、訓練入力から以前に未確認のライブ入力へと一般化するＮＮの能力が減少する可能性である。過剰適合の問題は、ニューラルネットワークのアンサンブルを作るか、又は訓練中にニューラルネットワーク内のノードをランダムにドロップアウトすることによって軽減されるかもしれず、これはドロップされたリードをニューラルネットワークから有効に除去する。インバースドロップアウト等、各種のドロップアウト調整方法が当業界で知られている。

留意すべき点として、訓練済みのＮＮ機械モデルの演算は、演算／解析ステップの単純なアルゴリズムではない。実際に、訓練済みのＮＮ機械モデルが入力を受け取ると、その入力は従来の意味では解析されない。むしろ、入力の主旨や性質（例えば、ライブ画像／スキャンを画定するベクトル、又は人口構造的説明又は活動の記録等のその他何れかのエンティティを画定するベクトル）に関係なく、入力は、訓練済みニューラルネットワークの同じアーキテクチャ構築（例えば、同じノード／層配置、訓練済み重み及びバイアス値、所定の畳み込み／逆畳み込み演算、活性化関数、プーリング演算等）の対象となり、訓練済みネットワークのアーキテクチャ構築がその出力をどのように生成するかは明らかでないかもしれない。さらに、訓練された重みとバイアスの値は、決定的ではなく、そのニューラルネットワークに付与される訓練のための時間の量（例えば、訓練におけるエポック数）、訓練開始前の重みのランダムな開始値、ＮＮがそこで訓練されるマシンのコンピュータアーキテクチャ、訓練サンプルの選択、複数のミニバッチ間の訓練サンプルの分布、活性化関数の選択、重みを変更するエラー関数の選択、さらには訓練が１つのマシン（例えば、第一のコンピュータアーキテクチャを有する）で中断され、他のマシン（例えば、異なるコンピュータアーキテクチャを有する）で完了したか等、多くの要素に依存する。ポイントは、訓練済みのＭＬモデルが特定の出力になぜ到達したかの理由は明白でなく、ＭＬモデルがその出力の基礎とする要素を特定しようとする多くの研究が現在行われている、ということである。したがって、ライブデータに対するニューラルネットワークの処理は、単純なステップのアルゴリズムまで減少させることはできない。むしろ、その演算は、その訓練アーキテクチャ、訓練サンプルセット、訓練シーケンス、及びＭＬモデルの訓練における様々な状況に依存する。

概略すると、ＮＮ機械学習モデルの構成は、学習（又は訓練）ステージと分類（又は演算）ステージを含んでいてよい。学習ステージでは、ニューラルネットワークは特定の目的のために訓練されてよく、また訓練例の集合が提供されてよく、これには訓練（サンプル）入力及び訓練（サンプル）出力が含まれ、任意選択的に、訓練の進行状況を試験するためのバリデーションの例の集合が含まれる。この学習プロセス中、ニューラルネットワーク内のノード及びノード相互接続に関係付けられる各種の重みが徐々に調整されて、ニューラルネットワークの実際の出力と所望の訓練出力との間のエラーが縮小される。このようにして、多層フィードフォワードニューラルネットワークは、何れの測定可能関数を何れの所望の精度までも概算できるかもしれない。学習ステージの結果として得られるのは、学習した（例えば、訓練済みの）（ニューラルネットワーク）機械学習（ＭＬ）である。演算ステージで、試験入力（又はライブ入力）の集合が学習済み（訓練済み）ＭＬモデルに提供されてよく、それが学習したことを応用して、試験入力に基づいて出力予測を生成するかもしれない。

以前に説明したニューラルネットワークと同様に、畳み込みニューラルネットワーク（ＣＮＮ）もまた、学習可能な重みとバイアスを有するニューロンで構成される。各ニューロンは入力を受け取り、演算（例えば、ドット積）を行い、任意選択的にそれに非線形変換が続く。しかしながら、ＣＮＮは、一方の端（例えば入力端）で生の画像ピクセルを受け取り、反対の端（例えば、出力端）で分類（又はクラス）のスコアを提供する。ＣＮＮは入力として画像を予測するため、これらはボリューム（例えば、画像のピククセル高さと幅及び、画像の深さ、例えば赤、緑、及び青の３色で定義されるＲＧＢ深さ等の色深さ）を扱うように最適化される。例えば、ＣＮＮの層は、３次元で配置されるニューロンのために最適化されてよい。ＣＮＮ層内のニューロンは、完全に接続されたＮＮのニューロンの全部ではなく、その前の層の小さい領域に接続されてもよい。ＣＮＮの最終的な出力層は、フル画像を深さの次元に沿って配置される１つのベクトル（分類）に縮小するかもしれない。

図２７は、例示的な畳み込みニューラルネットワークアーキテクチャを提供する。畳み込みニューラルネットワークは、２つ又はそれ以上の層（例えば、層１～層Ｎ）の連続として定義されてよく、層は（画像）畳み込みステップ、（結果の）加重和ステップ、及び非線形関数ステップを含んでいてよい。畳み込みは入力データ（例えば、層への入力）について、例えばその入力データにわたる移動ウィンドウ上のフィルタ（又はカーネル）を適用して特徴マップを生成することによって行われてよい。各層及び層の構成要素は、異なる所定のフィルタ（フィルタバンクからのもの）、重み（又は重み付けパラメータ）、及び／又は関数パラメータを有していてよい。入力データは、あるピクセル高さと幅の画像であってよく、この画像の生のピクセル値であってもよい。この例において、入力画像は３つの色チャネルＲＧＢ（赤、緑、青）の深さを有するように描かれている。任意選択的に、入力画像には様々な前処理が行われてよく、前処理の結果が生の画像データの代わりに、又はそれに加えて入力されてもよい。画像処理の幾つかの例には、網膜血管マップセグメンテーション、色空間変換、適応型ヒストグラム均一化、接続構成要素生成等が含まれていてよい。ある層内で、ドット積がある重みとそれらが入力ボリューム内で接続された小さい領域との間で計算されてよい。ＣＮＮを構成するための多くの方法が当業界で知られているが、例として、層はゼロにおけるｍａｘ（０，ｘ）閾値等、要素ごと活性化関数を適用するために構成されてもよい。プーリング関数は、ボリュームをダウンサンプルするために（例えばｘ－ｙ方向に沿って）行われてもよい。

このアーキテクチャは、画像認識及び分類に有益であることが判明している。例えば、完全に接続されたＣＮＮ（例えば、完全に接続された層を備えるＣＮＮ）は、分類出力を特定し、入力画像内に存在するオブジェクトの特定のクラスの確率を示す重みを提供する１次元出力ベクトルを生成するために使用されてよい。しかしながら、画像セグメンテーションのためには、１次元出力ベクトルは十分ではなく、１次元出力ベクトルからの各分類出力は、入力画像を識別されたクラスに適切にセグメント化するために、当初の入力画像に（例えば、ピクセルごとに）マッピングし直す必要がある。各ＣＮＮ層は入力画像の解像度を低下させる傾向があるため、画像セグメンテーションを達成するために、画像をその当初の解像度へとアップサンプルするための追加のステージを加えてもよい。これは、転置畳み込み（又は逆畳み込み）ステージＴＣの適用によって実現されてよく、これは典型的に、何れの所定の補間方法も使用せず、その代わりに学習可能パラメータを有する。そのため、ＴＣは、訓練段階でＣＮＮの他の部分と共に学習される。

畳み込みニューラルネットワークは、コンピュータビジョンの多くの問題にうまく適用されているが、ＣＮＮは数百万もの自由パラメータを持つことが多いため、これらのネットワークの学習には、通常、大規模な（グランドトゥルース）ラベル付きデータセットが必要となる。Ｕ－ＮｅｔアーキテクチャはＣＮＮに基づいており、一般に従来のＣＮＮより小さい訓練データセットで訓練される。

図２８は、例示的なＵ－Ｎｅｔアーキテクチャを図解する。この例示的なＵ－Ｎｅｔは、入力モジュール（又は入力層若しくはステージ）を含み、これは何れかのサイズ（例えば、１２８×１２８ピクセルのサイズ）の入力Ｕ－ｉｎ（例えば、入力画像又は画像パッチ）を受け取る。入力画像は、眼底画像、ＯＣＴ／ＯＣＴＡｅｎｆａｃｅ、Ｂ－スキャン画像等であってよい。理解すべき点として、入力は何れの大きさ及び次元のものであってもよい。例えば、入力画像はＲＧＢカラー画像、モノクロ画像、体積スキャン等であってよい。入力画像は一連の処理層を経て、その各々は例示的な大きさで図解されているが、これらの大きさは説明を目的としているにすぎず、例えば画像のサイズ、畳み込みフィルタ、及び／又はプーリングステージに依存するであろう。このアーキテクチャは、収縮パス（本明細書では、４つの符号化モジュールを含むものとして示されている）とそれに続く拡張パス（本明細書では、４つの復号化モジュールを含むものとして示されている）、及び対応するモジュール／ステージ間にあり、収縮パス内の１つの符号化モジュールの出力をコピーして、それを拡張パス内の対応する復号化モジュールの入力に連結する４つのコピー・アンド・クロップリンク（例えば、ＣＣ１～ＣＣ４）からなる。その結果、特徴的なＵ字型となり、そこからこのアーキテクチャが名付られている。収縮パスはエンコーダと同様であり、その基本機能はコンパクトの特徴マップを介してコンテキストを捕捉することである。この例において、収縮パス内の各符号化モジュールは２つの畳み込みニューラルネットワーク層を含み、それに続いて１つの最大プーリング層（例えば、ダウンサンプリング層）があってよい。例えば、入力画像Ｕ－ｉｎは２つの畳み込み層を経るが、各々が３２の特徴マップを生成する。したがって、収縮パスは、各々が畳み込みステージを提供する複数の符号化モジュール（又はステージ）と、それに続く活性化関数（例えば、正規化線形ユニットＲｅＬＵ、又はシグモイド層）及び最大プーリング演算からなる畳み込みネットワークを形成する。拡張パスはデコーダと同様であり、その機能は、収縮ステージで行われたダウンサンプリング及び何れの最大プーリングにもかかわらず、局所化を提供し、空間情報を保持することである。収縮パスでは、空間情報が縮小され、特徴情報は増大される。拡張パスは、複数の復号化モジュールを含み、各復号化モジュールは、その現在の値を対応する符号化モジュールの出力と連結する。すなわち、特徴及び空間情報は拡張パスにおいてアップコンボリューション（例えば、アップサンプリング又は転置畳み込み、すなわち逆畳み込み）と収縮パスからの高解像度特徴との連結（例えば、ＣＣ１～ＣＣ４を介する）の連続を通じて組み合わされる。それゆえ、逆畳み込み層の出力は、収縮パスからの対応する（任意選択的にクロップされた）特徴マップと、それに続いて２つの畳み込み層及び活性化関数（任意選択的にバッチ正規化）に連結される。拡張パス内の最後のモジュールからの出力は、分類器ブロック等、他の処理／訓練ブロック又は層（図示せず）に供給されてよく、これはＵ－Ｎｅｔアーキテクチャと共に訓練されてもよい。

収縮パスと拡張パスとの間のモジュール／ステージ（ＢＮ）は、「ボトルネック」と呼ばれ、２つの畳み込み層（バッチ正規化と任意選択的にドロップアウトを伴う）からなっていてよい。

コンピューティングデバイス／システム
図２９は、例示的なコンピュータシステム（又はコンピューティングデバイス又はコンピュータデバイス）を図解する。幾つかの実施形態において、１つ又は複数のコンピュータシステムは本明細書において記載又は図解された機能を提供し、及び／又は本明細書において記載又は図解された１つ又は複数の方法の１つ又は複数のステップを実行してよい。コンピュータシステムは、何れの適当な物理的形態をとってもよい。例えば、コンピュータシステムは、埋込みコンピュータシステム、システムオンチップ（ＳＯＣ）、又はシングルボードコンピュータシステム（ＳＢＣ）（例えば、コンピュータ・オン・モジュール（ＣＯＭ）又はシステム・オン・モジュール（ＳＯＭ）等）、デスクトップコンピュータシステム、ラップトップ若しくはノートブックコンピュータシステム、コンピュータシステムのメッシュ、携帯電話、携帯型情報端末（ＰＤＡ）、サーバ、タブレットコンピュータシステム、拡張／仮想現実装置、又はこれらのうちの２つ以上の組合せであってよい。適当であれば、コンピュータシステムはクラウド内にあってよく、これは１つ又は複数のクラウドコンポーネントを１つ又は複数のネットワーク内に含んでいてよい。

幾つかの実施形態において、コンピュータシステムはプロセッサＣｍｐ１、メモリＣｍｐ２、ストレージＣｍｐ３、入力／出力（Ｉ／Ｏ）インタフェースＣｍｐ４、通信インタフェースＣｍｐ５、及びバスＣｍｐ６を含んでいてよい。コンピュータシステムは、任意選択的に、ディスプレイＣｍｐ７、例えばコンピュータモニタ又はスクリーンも含んでいてよい。

プロセッサＣｍｐ１は、コンピュータプログラムを構成するもの等、命令を実行するためのハードウェアを含む。例えば、プロセッサＣｍｐ１は、中央処理ユニット（ＣＰＵ）又は汎用コンピューティング・オン・グラフィクス処理ユニット（ＧＰＧＰＵ）であってもよい。プロセッサＣｍｐ１は、命令を内部レジスタ、内部キャッシュ、メモリＣｍｐ２、又はストレージＣｍｐ３から読み出し（又はフェッチし）、この命令を復号して実行し、１つ又は複数の結果を内部レジスタ、内部キャッシュ、メモリＣｍｐ２、又はストレージＣｍｐ３に書き込んでよい。特定の実施形態において、プロセッサＣｍｐ１は、データ、命令、又はアドレスのための１つ又は複数の内部キャッシュを含んでいてよい。プロセッサＣｍｐ１は、１つ又は複数の命令キャッシュ、１つ又は複数のデータキャッシュを、例えばデータテーブルを保持するために含んでいてよい。命令キャッシュ内の命令は、メモリＣｍｐ２又はストレージＣｍｐ３内の命令のコピーであってもよく、命令キャッシュはプロセッサＣｍｐ１によるこれらの命令の読出しをスピードアップするかもしれない。プロセッサＣｍｐ１は、何れの適当な数の内部レジスタを含んでいてもよく、１つ又は複数の算術論理演算ユニット（ＡＬＵ：ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔｓ）を含んでいてよい。プロセッサＣｍｐ１は、マルチコアプロセッサであるか、又は１つ若しくは複数のプロセッサＣｍｐ１を含んでいてよい。本開示は特定のプロセッサを説明し、図解しているが、本開示は何れの適当なプロセッサも想定している。

メモリＣｍｐ２は、処理を実行し、又は処理中に中間データを保持するプロセッサＣｍｐ１のための命令を保存するメインメモリを含んでいてよい。例えば、コンピュータシステムは、命令又はデータ（例えば、データテーブル）をストレージＣｍｐ３から、又は他のソース（例えば、他のコンピュータシステム）からメモリＣｍｐ２にロードしてもよい。プロセッサＣｍｐ１は、メモリＣｍｐ２からの命令とデータを１つ又は複数の内部レジスタ又は内部キャッシュにロードしてもよい。命令を実行するために、プロセッサＣｍｐ１は内部レジスタ又は内部キャッシュから命令を読み出して復号してもよい。命令の実行中又はその後に、プロセッサＣｍｐ１は１つ又は複数の結果（これは、中間結果でも最終結果でもよい）を内部レジスタ、内部キャッシュ、メモリＣｍｐ２、又はストレージＣｍｐ３に書き込んでよい。バスＣｍｐ６は、１つ又は複数のメモリバス（これは各々、アドレスバスとデータバスを含んでいてよい）を含んでいてよく、プロセッサＣｍｐ１をメモリＣｍｐ２及び／又はストレージＣｍｐ３に連結してよい。任意選択的に、１つ又は複数のメモリ管理ユニット（ＭＭＵ）は、プロセッサＣｍｐ１とメモリＣｍｐ２との間のデータ伝送を容易にする。メモリＣｍｐ２（これは、高速揮発性メモリであってもよい）には、ランダムアクセスメモリ（ＲＡＭ）、例えばダイナミックＲＡＭ（ＤＲＡＭ）又はスタティックＲＡＭ（ＳＲＡＭ）が含まれていてよい。ストレージＣｍｐ３には、データ又は命令のための長期又は大容量メストレージを含んでいてよい。ストレージＣｍｐ３はコンピュータシステムに内蔵されても外付けでもよく、ディスクドライブ（例えば、ハードディスクドライブＨＤＤ、又はソリッドステートドライブＳＳＤ）、フラッシュメモリ、ＲＯＭ、ＥＰＲＯＭ、光ディスク、磁気光ディスク、磁気テープ、ユニバーサルシリアルバス（ＵＳＢ）－アクセス可能ドライブ、又はその他の種類の不揮発性メモリのうちの１つ又は複数を含んでいてよい。

Ｉ／ＯインタフェースＣｍｐ４は、ソフトウェア、ハードウェア、又はそれら両方の組合せであってよく、Ｉ／Ｏデバイスと通信するための１つ又は複数のインタフェース（例えば、シリアル又はパラレル通信ポート）を含んでいてよく、これはヒト（例えば、ユーザ）との通信を可能にしてもよい。例えば、Ｉ／Ｏデバイスとしては、キーボード、キーパッド、マイクロフォン、モニタ、マウス、プリンタ、スキャナ、スピーカ、スチールカメラ、スタイラス、テーブル、タッチスクリーン、トラックボール、ビデオカメラ、他の適当なＩ／Ｏデバイス、又はこれら２つ以上の組合せが含まれていてよい。

通信インタフェースＣｍｐ５は、他のシステム又はネットワークと通信するためのネットワークインタフェースを提供してもよい。通信インタフェースＣｍｐ５は、Ｂｌｕｅｔｏｏｔｈ（登録商標）インタフェース又はその他の種類のパケットベース通信を含んでいてよい。例えば、通信インタフェースＣｍｐ５は、ネットワークインタフェースコントローラ（ＮＩＣ）及び／又は、無線ネットワークとの通信のための無線ＮＩＣ若しくは無線アダプタを含んでいてよい。通信インタフェースＣｍｐ５は、ＷＩ－ＦＩネットワーク、アドホックネットワーク、パーソナルエリアネットワーク（ＰＡＮ）、無線ＰＡＮ（例えば、ＢｌｕｅｔｏｏｔｈＷＰＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、携帯電話ネットワーク（例えば、汎欧州デジタル移動電話方式（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ）（ＧＳＭ（登録商標））ネットワーク等）、インターネット、又はこれらの２つ以上の組合せとの通信を提供してよい。

バスＣｍｐ６は、コンピューティングシステムの上述のコンポーネント間の通信リンクを提供してよい。例えば、バスＣｍｐ６は、アクセラレーテッド・グラフィックス・ポート（ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ）（ＡＧＰ）若しくはその他のグラフィクスバス、拡張業界標準（ＥｎｈａｎｃｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄ）アーキテクチャ（ＥＩＳＡ）バス、フロントサイドバス（ＦＳＢ）、ハイパートランスポート（ＨｙｐｅｒＴｒａｎｓｐｏｒｔ）（ＨＴ）インターコネクト、業界標準アーキテクチャ（ＩＳＡ）バス、インフィニバンド（ＩｎｆｉｎｉＢａｎｄ）バス、ｌｏｗ－ｐｉｎ－ｃｏｕｎｔ（ＬＰＣ）バス、メモリバス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、ペリフェラル・コンポーネント・インターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）（ＰＣＩ）バス、ＰＣＩ－Ｅｘｐｒｅｓｓ（ＰＣＩｅ）バス、シリアル・アドバンスト・テクノロジ・アタッチメント（ｓｅｒｉａｌａｄｖａｎｃｅｄｔｅｃｈｎｏｌｏｇｙａｔｔａｃｈｍｅｎｔ）（ＳＡＴＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション・ローカル（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ
ｌｏｃａｌ）（ＶＬＢ）バス、若しくはその他の適当なバス、又はこれらの２つ以上の組合せを含んでいてよい。

本開示は、特定の数の特定のコンポーネントを特定の配置で有する特定のコンピュータシステムを説明し、図解しているが、本開示は何れの適当な数の何れの適当なコンポーネントを何れの適当な配置で有する何れの適当なコンピュータシステムも想定している。

本明細書において、コンピュータ可読非一時的記憶媒体は、１つ又は複数の半導体ベース又はその他の集積回路（ＩＣ）（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）若しくは特定用途ＩＣ（ＡＳＩＣ））、ハードディスクドライブ（ＨＤＤ）、ハイブリッドハードドライブ（ＨＨＤ）、光ディスク、光ディスクドライブ（ＯＤＤ）、磁気光ディスク、磁気光ドライブ、フロッピディスケット、フロッピディスクドライブ（ＦＤＤ）、磁気テープ、ソリッドステートドライブ（ＳＳＤ）、ＲＡＭ－ドライブ、ＳＥＣＵＲＥＤＩＧＩＴＡＬカード若しくはドライブ、その他のあらゆる適当なコンピュータ可読非一時的記憶媒体、又は適当であればこれらの２つ以上あらゆる適当な組合せを含んでいてよい。コンピュータ可読非一時的記憶媒体は、揮発性、不揮発性、又は適当であれば揮発性と不揮発性の組合せであってよい。

本発明は幾つかの具体的な実施形態と共に説明されているが、当業者にとっては明白であるように、上記の説明を参照すれば多くのその他の代替案、改良、及び変形型が明らかである。それゆえ、本明細書に記載の発明は、付属の特許請求の範囲の主旨と範囲に含まれるかもしれないあらゆるこのような代替案、改良、応用、及び変形型の全てを包含することが意図されている。

Claims

光干渉断層撮影（ＯＣＴ）システムであって、
光ビームを生成するための光源と、
光の第１の部分を参照アームに向け、光の第２の部分をサンプルアームに向けるためのビーム分割面を有するビームスプリッタと、
前記サンプルアームにおける光をサンプル上の１つまたは複数の場所に向けるための光学系と、
前記サンプルアームおよび前記参照アームから戻る光を受信し、その光に応答して信号を生成するための検出器と、
前記信号を第１の画像に変換して、前記第１の画像を画像変換モジュールに提供するためのプロセッサであって、前記画像変換モジュールは、前記第１の画像を、前記第１の画像と比較して、ジッターが減少していること、および架空の構造の作成が最小化されていることのうちの１つまたは複数を特徴とする第２の画像に変換する、前記プロセッサと、
前記第２の画像に基づいて出力画像を表示するための出力ディスプレイと、を備え、
前記画像変換モジュールは、訓練入力画像のセットおよび訓練出力画像のターゲットセットを使用して訓練された機械学習モジュールを含み、前記訓練入力画像は、前記訓練出力画像とは独立して生成される、システム。
前記プロセッサが、現在の第２の画像を、１つまたは複数の以前に取得された第２の画像とさらに結合して、前記出力画像を生成する、請求項１に記載のシステム。
現在の第２の画像が、より重く重み付けされたより高い画像品質の第２の画像との直接平均化または重み付け平均化のうちの１つによって１つまたは複数の以前に取得された第２の画像と結合される、請求項２に記載のシステム。
前記プロセッサは、複数の第１の画像を定義し、前記複数の第１の画像を対応する複数の第２の画像を生成するように前記画像変換モジュールに提供するとともに、ＯＣＴ血管造影（ＯＣＴＡ）処理技術を使用して前記複数の第２の画像からモーションコントラスト情報を計算し、
前記出力画像には、前記モーションコントラスト情報が表示される、請求項１に記載のシステム。
前記プロセッサは、
複数の前記第１の画像を定義し、
前記複数の第１の画像を対応する複数の第２の画像を生成するように前記画像変換モジュールに提供し、
前記複数の第２の画像に画像登録技術を適用して、画像整列設定を生成し、
前記複数の第２の画像の前記画像整列設定に少なくとも部分的に基づいて、前記複数の第１の画像を整列させる、請求項１に記載のシステム。
前記第１の画像は、複数の第１の画像セグメントに分割され、
前記画像変換モジュールは、各第１の画像セグメントを対応する第２の画像セグメントに個別に変換し、複数の前記第２の画像セグメントを結合して、前記第２の画像を構築する、請求項１に記載のシステム。
前記訓練出力画像の少なくとも１つは、テストサンプルの同じ領域のＯＣＴテスト画像のセットの平均として定義され、
前記訓練入力画像の少なくとも一部は、ＯＣＴテスト画像の前記セットに含まれている、請求項１に記載のシステム。
前記第１の画像は、サンプルの第１の領域のものであり、
前記第２の画像は、前記第１の画像を用いた前記第１の領域の複数の仮想的なＯＣＴスキャンの平均として定義された特性を有する、請求項１に記載のシステム。
前記機械学習モジュールは、訓練されたニューラルネットワークであり、前記ニューラルネットワークの訓練は、
ターゲット眼領域の複数のＯＣＴテスト画像を収集すること、
前記複数のＯＣＴテスト画像を平均化して、前記ターゲット眼領域の対応する平均化された画像を定義すること、
前記ターゲット眼領域の前記ＯＣＴテスト画像を前記ニューラルネットワークへの訓練入力画像として別々に個別に入力し、それらの対応する平均化された画像をそれらの個別に対応する前記ニューラルネットワークの訓練出力画像として提供することを含む、請求項１に記載のシステム。
前記ニューラルネットワークの訓練は、さらに
各ＯＣＴテスト画像を複数のテストセグメントに分割すること、
それらの対応する平均化された画像を複数の対応するグラウンドトゥルースセグメントに分割すること、
前記テストセグメントを対応するグラウンドトゥルースセグメントに相関させること、
相関のあるテストセグメントを訓練入力画像として前記ニューラルネットワークに別々に個別に提供し、それらと相関のあるグラウンドトゥルースセグメントを前記ニューラルネットワークの訓練出力画像として提供することを含む、請求項９に記載のシステム。
現在入力されているＯＣＴテスト画像を前記ニューラルネットワークの対応する現在の出力と結合して結合されたネットワーク出力を定義すること、前記結合されたネットワーク出力を対応する訓練出力画像と比較することをさらに含む、請求項９に記載のシステム。
前記訓練入力画像および前記訓練出力画像は、健康な眼の画像と疾患のある眼の画像との混合を含む、請求項１に記載のシステム。
前記第１の画像は第１のイメージングモダリティのものであり、
前記第２の画像は、前記第１のイメージングモダリティとは異なる第２のイメージングモダリティをシミュレートする、請求項１に記載のシステム。
第１および第２のモダリティは、時間領域ＯＣＴ、スペクトル領域ＯＣＴ、掃引光源ＯＣＴ、および補償光学ＯＣＴ（ＡＯ－ＯＣＴ）のうちの１つまたは複数を含む混合である、請求項１３に記載のシステム。
前記ＯＣＴシステムは第１のモダリティのものであり、
前記機械学習モジュールは、前記第１のモダリティの第１のＯＣＴデバイスで取得された第３の画像を訓練入力画像のセットとして用い、第２のモダリティの第２のＯＣＴデバイスで取得された第４の画像を訓練出力画像のターゲットセットとして用いて訓練され、前記第２のモダリティは前記第１のモダリティとは異なり、
前記第２の画像は、前記第２のモダリティのＯＣＴシステムによって生成された画像に特有の特徴を有する、請求項１に記載のシステム。
前記第１のモダリティの前記第１のＯＣＴデバイスは、非補償光学ＯＣＴタイプのものであり、
前記第２のモダリティの前記第２のＯＣＴデバイスは、補償光学ＯＣＴタイプのものであり、
前記第１のＯＣＴデバイスによって取得された前記第３の画像は、前記第２のＯＣＴデバイスによって取得された前記第４の画像よりも大きく、前記第３の画像は、前記第４の画像と同様のサイズの第３の画像セグメントに分割され、各第３の画像セグメントは、対応する第４の画像と相関され、
相関のある第３のセグメントは、ニューラルネットワークに訓練入力画像として別々に個別に提供され、それらと対応する相関のある第４の画像は、前記ニューラルネットワークの訓練出力画像として提供される、請求項１５に記載のシステム。
前記機械学習モジュールは、ニューラルネットワークであり、前記ニューラルネットワークは、
ａ）第１の画像を受信するための入力モジュールと、
ｂ）前記入力モジュールに続く収縮パスであって、前記収縮パスは、複数の符号化モジュールを含み、各符号化モジュールは、畳み込みステージ、活性化関数、および最大プーリング演算を有する、前記収縮パスと、
ｃ）前記収縮パスに続く拡張パスであって、前記拡張パスは、複数の復号化モジュールを有し、各復号化モジュールは、現在の値を対応する符号化モジュールの値と連結する、前記拡張パスと、
ｄ）プーリング層とシグモイド層活性化関数を除く出力畳み込みモジュールであって、前記出力畳み込みモジュールは、前記拡張パスの最後の復号化モジュールからの出力を受信して、予備的な出力エラーを生成する、前記出力畳み込みモジュールと、
ｅ）少なくとも１つの符号化モジュールおよび／または１つの復号化モジュールのエラー測定値を決定する中間エラーモジュールとを含み、
前記ニューラルネットワークの訓練中に、前記出力畳み込みモジュールからの前記予備的な出力エラーが前記中間エラーモジュールからの前記エラー測定値と結合される、請求項１に記載のシステム。
前記出力畳み込みモジュールはさらに前記第１の画像を受信し、生成された予備的な出力エラーは、前記出力畳み込みモジュールによって受信された入力画像に少なくとも部分的に基づく、請求項１７に記載のシステム。
前記ニューラルネットワークの訓練中に、
前記中間エラーモジュールは、現在の訓練出力画像と、前記中間エラーモジュールの対応する符号化モジュールおよび／または復号化モジュールの現在の値との間のエラーとして前記エラー測定値を決定し、
前記出力畳み込みモジュールからの前記予備的な出力エラーは、前記現在の訓練出力画像と前記出力畳み込みモジュールの前記現在の値とに基づく、請求項１７に記載のシステム。
眼科イメージングシステムであって、
第１の画像を取得するとともに、前記第１の画像に基づいて第２の画像を定義する画像修正モジュールに前記第１の画像を提供するためのプロセッサと、
前記第２の画像に基づいて出力画像を表示するための出力ディスプレイと、を備え、
前記画像修正モジュールは、ニューラルネットワークを含み、前記ニューラルネットワークは、
ａ）入力画像を受信する入力モジュールと、
ｂ）前記入力モジュールに続く収縮パスであって、前記収縮パスは、複数の符号化モジュールを含み、各符号化モジュールは、畳み込みステージ、活性化関数、および最大プーリング演算を有する、前記収縮パスと、
ｃ）前記収縮パスに続く拡張パスであって、前記拡張パスは複数の復号化モジュールを有し、各復号化モジュールは、現在の値を対応する符号化モジュールの値と連結する、前記拡張パスと、
ｄ）プーリング層と活性化関数を除く出力畳み込みモジュールであって、前記出力畳み込みモジュールは、前記拡張パスの最後の復号化モジュールからの出力を受信して、予備的な出力エラーを生成する、前記出力畳み込みモジュールと、
ｅ）少なくとも１つの符号化モジュールおよび／または１つの復号化モジュールのエラー測定値を決定する中間エラーモジュールとを含み、
前記ニューラルネットワークの訓練中に、前記出力畳み込みモジュールの予備的な出力エラーが前記中間エラーモジュールの出力エラーと結合される、システム。
前記活性化関数が、正規化線形ユニットまたはシグモイド層である、請求項２０に記載のシステム。
前記エラー測定値は、ニューラルネットワークモジュールのターゲット出力に基づく、請求項２０に記載のシステム。
前記ターゲット出力は、前記ニューラルネットワークの訓練サイクル中の現在の訓練出力画像であり、
前記出力畳み込みモジュールの前記予備的な出力エラーは、前記現在の訓練出力画像に基づき、
現在の訓練サイクルの訓練サイクルエラーは、前記出力畳み込みモジュールおよび前記中間エラーモジュールからの結合されたエラーに基づく、請求項２２に記載のシステム。
前記出力畳み込みモジュールは、前記第１の画像を受信し、前記予備的な出力エラーは、前記出力畳み込みモジュールによって受信された前記入力画像にさらに基づく、請求項２３に記載のシステム。
前記エラー測定値は、二乗損失関数に基づく、請求項２０に記載のシステム。
前記ニューラルネットワークの訓練は、
異なるターゲット眼領域の複数の訓練画像セットを収集すること、各訓練画像セットは、同じターゲット眼領域の複数の第３の画像を含んでおり、
訓練画像セットごとに、
ａ）グラウンドトゥルースの第４の画像を、前記複数の第３の画像の平均として定義すること、
ｂ）前記ニューラルネットワークへの訓練入力画像として第３の画像を選択し、それに対応する第４の画像を前記ニューラルネットワークのターゲット訓練出力画像として提供することを含む、請求項２０に記載のシステム。
前記眼科イメージングシステムは、光干渉断層撮影（ＯＣＴ）血管造影システムであり、前記第１の画像は、血管系画像である、請求項２０に記載のシステム。
前記眼科イメージングシステムは、第１のモダリティの光干渉断層撮影（ＯＣＴ）システムであり、前記ニューラルネットワークの訓練は、
前記第１のモダリティの第１のＯＣＴシステムを使用して、異なるターゲット眼領域の１つまたは複数の第３の画像を収集すること、
前記第１のモダリティとは異なる第２のモダリティの第２のＯＣＴシステムを使用して、同じターゲット眼領域の第４の画像のうちの１つまたは複数を収集すること、
ｉ）１つまたは複数の第２の画像から１つまたは複数の訓練出力画像を定義すること、
ｉｉ）１つまたは複数の第１の画像から１つまたは複数の訓練入力画像を定義すること、各入力訓練画像は、対応する訓練出力画像を有しており、
ｉｉｉ）各第１の訓練画像を前記ニューラルネットワークに別個に提供し、それに対応する訓練出力画像を前記ニューラルネットワークのターゲット出力として提供することを含む、請求項２０に記載のシステム。
前記第１のＯＣＴシステムは、非補償光学ＯＣＴタイプであり、
前記第２のＯＣＴシステムは補償光学ＯＣＴタイプである、請求項２８に記載のシステム。
前記眼科イメージングシステムは、光干渉断層撮影（ＯＣＴ）システムまたは眼底イメージングシステムである、請求項２０に記載のシステム。
眼科イメージングシステムであって、
電子プロセッサを備え、前記電子プロセッサは、
第１の眼科画像を取得し、前記第１の眼科画像を画像修正モジュールに提供し、前記画像修正モジュールは、前記第１の眼科画像に基づいて、ノイズアーティファクトが低減された第２の眼科画像を作成し、
前記第２の眼科画像に基づく出力画像を電子ディスプレイに表示し、
ここで、前記画像修正モジュールは、ニューラルネットワークを含み、前記ニューラルネットワークの訓練が、
少なくとも１つの眼の複数のテスト眼科画像を収集すること、収集されたテスト眼科画像はノイズの多い画像であり、
前記テスト眼科画像の１つを訓練出力画像としてランダムに選択すること、
残りのテスト眼科画像の１つまたは複数を訓練入力画像の訓練セットとしてランダムに選択すること、
各訓練入力画像を前記ニューラルネットワークに別々に個別に提供し、前記訓練出力画像を前記ニューラルネットワークのターゲット出力として提供することを含む、システム。
前記テスト眼科画像が前記眼科イメージングシステムを使用して収集される、請求項３１に記載のシステム。
前記眼科イメージングシステムは、光干渉断層撮影システムまたは眼底イメージングシステムである、請求項３１に記載のシステム。
前記ニューラルネットワークの訓練は、前記訓練入力画像の訓練セットを前記訓練出力画像に登録することをさらに含む、請求項３１に記載のシステム。
前記テスト眼科画像は、少なくとも１つの眼の同じ領域のものである、請求項３１に記載のシステム。
前記ニューラルネットワークの訓練は、さらに
複数の眼からサンプル画像を収集すること、
前記サンプル画像を類似性によって複数のグループに分類する画像クラスタリングモジュールに前記サンプル画像を提供することを含み、
前記複数のテスト眼科画像は、前記複数のグループのうちの１つから選択される、請求項３１に記載のシステム。
クラスタリングモジュールは、
ａ）前記サンプル画像の中から作業画像のグループを識別し、
ｂ）前記作業画像のグループから１つのサンプル画像を参照画像としてランダムに選択し、前記作業画像のグループの残りのサンプル画像の中から対応する類似画像を識別し、識別された類似画像は、事前定義された閾値内の類似性尺度を有しており、
ｃ）前記サンプル画像から、前記参照画像およびそれに対応する類似画像を除去して、前記テスト眼科画像の集合にする、請求項３６に記載のシステム。
前記ニューラルネットワークが
ａ）第１の眼科画像を受信する入力モジュールと、
ｂ）前記入力モジュールに続く収縮パスであって、前記収縮パスは、複数の符号化モジュールを含み、各符号化モジュールは、畳み込みステージ、活性化関数、および最大プーリング演算を有する、前記収縮パスと、
ｃ）前記収縮パスに続く拡張パスであって、前記拡張パスは複数の復号化モジュールを有し、各復号化モジュールは、現在の値を対応する符号化モジュールの値と連結する、前記拡張パスと、
ｄ）プーリング層と活性化関数を除く出力畳み込みモジュールであって、前記出力畳み込みモジュールは、前記拡張パスの最後の復号化モジュールからの出力を受信して、現在の訓練出力画像から決定された予備的な出力エラーを生成する、前記出力畳み込みモジュールと、
ｅ）少なくとも１つの符号化モジュールおよび／または１つの復号化モジュールのエラー測定値を決定する中間エラーモジュールとを含み、
前記ニューラルネットワークの訓練中に、前記出力畳み込みモジュールの前記予備的な出力エラーが前記中間エラーモジュールからの前記エラー測定値と結合される、請求項３１に記載のシステム。
前記ニューラルネットワークの訓練中に、
前記中間エラーモジュールの前記エラー測定値は、前記現在の訓練出力画像に基づき、
現在の訓練サイクルの訓練サイクルエラーは、前記出力畳み込みモジュールの結合エラーと前記中間エラーモジュールの前記エラー測定値に基づく、請求項３８に記載のシステム。
前記出力畳み込みモジュールは、第１の画像を受信し、前記予備的な出力エラーは、前記出力畳み込みモジュールによって受信された入力画像からさらに決定される、請求項３８に記載のシステム。