JP2022553906A

JP2022553906A - 疾患検出モデルを開発するためのシステム、方法、プログラム

Info

Publication number: JP2022553906A
Application number: JP2022520838A
Authority: JP
Inventors: ブラマン、ナサニエル、メイソン; マーバスト、エサン、デガン; ベイマー、デイビッド、ジェイムス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-10-11
Filing date: 2020-10-08
Publication date: 2022-12-27
Also published as: WO2021070108A1; CN114503213B; US20210110532A1; CN114503213A; DE112020004049T5; US11195273B2; GB2604503B; GB2604503A

Abstract

疾患検出モデルを開発するための方法、システムであって、画像スタディ学習と、読影レポートからマイニングされた関連付けられた疾患ラベルとを使用してモデルを訓練し、画像学習は３次元画像ボリュームの複数の２次元スライスのシーケンスを含み、モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含む。モデルを訓練することは、畳み込みニューラル・ネットワーク層を使用して複数の２次元スライスのそれぞれから特徴のセットを個別に抽出し、畳み込み長短期記憶層を使用して複数の２次元スライスのそれぞれについて畳み込みニューラル・ネットワーク層によって抽出された特徴を順次処理し、疾患の確率を生成するために複数の２次元スライスのうちの順番が最後のものに関する畳み込み長短期記憶層からの出力を処理し、確率をラベルと比較することに基づいてモデルを更新する。

Description

本明細書に記載の実施形態は一般に、画像ボリューム内の疾患を検出するように、弱いが容易に入手可能なラベル（たとえば、特定の疾患のバイナリ診断結果）から効率的に学習するための深層学習フレームワークに関する。より詳細には、本明細書に記載の実施形態は、畳み込み長短期記憶（Ｃｏｎｖ－ＬＳＴＭ：ｃｏｎｖｏｌｕｔｉｏｎａｌｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ）ユニットを使用して、画像ボリュームをスキャンし、スライス上およびスライス間の疾患の識別特性（ｓｉｇｎａｔｕｒｅ）を記憶する検出モデルを提供し、この検出モデルは、アノテーションなしの画像ボリュームのセットに対する疾患のバイナリ・ラベルを使用して訓練される。

深層学習は、コンピュータ支援診断（ＣＡＤ：ｃｏｍｐｕｔｅｒａｉｄｅｄｄｉａｇｎｏｓｉｓ）などにおける医用イメージングの強化された自動分析に非常に有望であることを実証した。たとえば、十分に大きい規模の訓練データのプールが与えられると、畳み込みニューラル・ネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）は、疾患検出において並外れた結果を達成することができる。しかしながら、放射線医学における深層学習ベースのＣＡＤプラットフォームの開発への障害のひとつは、大規模なアノテーション付き医用画像データセットが必要になることである。具体的には、コンピュータ断層撮影（ＣＴ：ｃｏｍｐｕｔｅｄｔｏｍｏｇｒａｐｈｙ）などの３次元（３Ｄ：ｔｈｒｅｅ－ｄｉｍｅｎｓｉｏｎａｌ）イメージング・モダリティの場合、放射線科医が深層モデルの訓練に十分な手動のアノテーションを提供することは非常に面倒であることが多い。したがって、アノテーション付きサンプルの大規模なデータ・セットを使用して疾患検出モデルを訓練することは、実際には実行不可能であることが多く、臨床現場に存在する形での、すなわち、豊富にあるがアノテーションのないイメージング・データを使用する深層学習フレームワークへの相当な需要がある。大規模なアノテーションなしのデータ・セットを疾患検出モデルの開発に活用できることに以外に、そのようなアプローチにより、新たな施設へのファイン・チューニングを、その施設で利用可能なイメージング・データを使用して簡単に行うことが可能になる。この能力は、深層学習システムを新たな施設にうまく配備するという知られている課題を考えると重要である。

たとえば、多くの肺疾患検出アプローチは、訓練と訓練後のモデルの評価との両方に関して、画像ボリューム上で関心領域（ＲＯＩ：ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）の輪郭を手動で描くことに依存している。アノテーション付き画像セットの利用性が限られていることに関する上記の問題に対処するために、一部のアプローチは、弱くラベル付けされた（ｗｅａｋｌｙｌａｂｅｌｅｄ）イメージング・データを使用する。具体的には、一部のシステムは、ラベル付けされた疾患を含む３Ｄボリュームをランダムに選択された２次元（２Ｄ：ｔｗｏ－ｄｉｍｅｎｓｉｏｎａｌ）パッチへと自動的にサブサンプリングし、教師ありクラスタリングを実行してパッチを疾患陽性状態へとカテゴライズする。他のシステムは、マルチ・インスタンス学習（ＭＩＬ：ｍｕｌｔｉｐｌｅｉｎｓｔａｎｃｅｌｅａｒｎｉｎｇ）アプローチを使用して、陽性例の一部を含むイメージング・ボリュームからの例のグループにわたって肺疾患診断結果などの疾患診断結果を要約する。

しかしながら、これらのアプローチの大多数は、疾患を特徴付けるための、いわゆる「手作りの（ｈａｎｄ－ｃｒａｆｔｅｄ）」定量的なイメージング特徴による分類に依存している。そのようなアプローチは、分類タスク用に選ばれた事前定義されたイメージング特徴のリストによって制限され、訓練データのプールが数千に増えてもわずかにしか改善されない。さらに、パッチ・アプローチは、画像ボリュームのごく一部分（たとえば、スキャンあたり５０個の２Ｄパッチ・サブサンプル）しか使用しないので、学習に利用可能なイメージング・データが限られている。また、パッチはランダムなサンプルであり、疾患は肺などのＲＯＩ全体に存在しない場合があるので、このアプローチは、全体的な疾患陽性状況に対応する健康なパッチを不可避的に含むことになる。疾患のある患者からのそのような健康なサンプルは、訓練およびテストの両方を混乱させる可能性がある。同様に、ＭＩＬアプローチは、ボリュームからの複数のサンプルにわたって疾患状況を要約するが、それらのサンプル間の空間的関係およびそれらの相互作用に関するコンテキストがない。

したがって、当技術分野では、上述の問題に対処する必要がある。

第１の態様から見ると、本発明は、疾患検出モデルを開発するためのシステムであって、１つまたは複数の電子プロセッサを備え、１つまたは複数の電子プロセッサは、画像学習（ｉｍａｇｅｓｔｕｄｙ）と、画像学習について生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して疾患検出モデルを訓練することであって、画像学習は３次元画像ボリュームの複数の２次元スライスのシーケンスを含み、疾患検出モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含み、疾患検出モデルを訓練することは、畳み込みニューラル・ネットワーク層を使用して複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、畳み込み長短期記憶層を使用して複数の２次元スライスのそれぞれについて畳み込みニューラル・ネットワーク層によって抽出された特徴のセットを順次処理することと、疾患の確率を生成するために複数の２次元スライスのうちの順番が最後のもの（ｓｅｑｕｅｎｔｉａｌｌｙｌａｓｔ）に関する畳み込み長短期記憶層からの出力を処理することと、確率をラベルと比較することと、比較に基づいて疾患検出モデルを更新することと、を含む、訓練することと、疾患検出モデルが訓練された後に、新たな画像学習の疾患の確率を生成するために新たな画像学習に疾患検出モデルを適用することと、を行うように構成される、システムを提供する。

さらなる態様から見ると、本発明は、疾患検出モデルを開発するための方法であって、１つまたは複数の電子プロセッサを用いて、画像学習と、画像学習について生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して疾患検出モデルを訓練することであって、画像学習は３次元画像ボリュームの複数の２次元スライスのシーケンスを含み、疾患検出モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含み、疾患検出モデルを訓練することは、畳み込みニューラル・ネットワーク層を使用して複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、畳み込み長短期記憶層を使用して複数の２次元スライスのそれぞれについて畳み込みニューラル・ネットワーク層によって抽出された特徴のセットを順次処理することと、疾患の確率を生成するために複数の２次元スライスのうちの順番が最後のものに関する畳み込み長短期記憶層からの出力を処理することと、確率をラベルと比較することと、比較に基づいて疾患検出モデルを更新することと、を含む、訓練することと、疾患検出モデルが訓練された後に、新たな画像学習の疾患の確率を生成するために新たな画像学習に疾患検出モデルを適用することと、を含む、方法を提供する。

さらなる態様から見ると、本発明は、疾患検出モデルを開発するためのコンピュータ・プログラム製品であって、処理回路によって読み取り可能であり、処理回路によって実行するための、本発明のステップを実行するための方法を実行するための命令を記憶するコンピュータ可読記憶媒体を備える、コンピュータ・プログラム製品を提供する。

さらなる態様から見ると、本発明は、コンピュータ可読媒体に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、上記プログラムがコンピュータ上で実行された場合に、本発明のステップを実行するためのソフトウェア・コード部分を含む、コンピュータ・プログラムを提供する。

さらなる態様から見ると、本発明は、１つまたは複数の電子プロセッサによって実行された場合に、機能のセットを実行する命令を記憶する非一時的コンピュータ可読媒体であって、機能のセットは、画像学習と、画像学習について生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して疾患検出モデルを訓練することであって、疾患ラベルは画像学習に関連付けられた患者が疾患と診断されたか否かのバイナリ・ラベルを含み、画像学習は３次元画像ボリュームの複数の２次元スライスのシーケンスを含み、疾患検出モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含み、疾患検出モデルを訓練することは、畳み込みニューラル・ネットワーク層を使用して複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、畳み込み長短期記憶層を使用して複数の２次元スライスのそれぞれについて畳み込みニューラル・ネットワーク層によって抽出された特徴のセットを順次処理することと、疾患の確率を生成するために複数の２次元スライスのうちの順番が最後のものに関する畳み込み長短期記憶層からの出力を処理することと、確率をラベルと比較することと、比較に基づいて疾患検出モデルを更新することと、を含む、訓練することと、疾患検出モデルが訓練された後に、新たな画像学習の疾患の確率を生成するために新たな画像学習に疾患検出モデルを適用することと、を含む、非一時的コンピュータ可読媒体を提供する。

このように、既存のアプローチに関するこれらの問題および他の問題に対処するために、本明細書に記載の実施形態は、３Ｄ画像を２Ｄ画像の時系列として扱うことによって、弱いが容易に手に入るアノテーション付きボリューメトリック医用画像を使用するための解決策を提供する。本出願で証明しているように、この解決策を使用して、低線量ＣＴ画像を用いた肺癌検診において肺気腫を検出することができる。息切れおよび癌リスクの上昇を伴う肺気腫は、肺容量の一部分のみの肺胞の破裂として現れることが多い。本明細書に記載の実施形態は、畳み込み長短期記憶（ＬＳＴＭ）およびＭＩＬを利用して、専門家による疾患領域へのアノテーションを必要とせずに、画像ボリュームを肺気腫に関して「スキャン」する深層学習フレームワークを提供する。アノテーションに関して、本明細書に記載の実施形態は、容易に利用可能な読影レポートから抽出できるバイナリ・ラベル（非疾患状態または疾患状態）しか使用しない。このアプローチを使用すると、偽陽性のリスクを最小限に抑えながら、肺気腫を識別するようにモデルを訓練することができる。肺気腫以外に、本明細書に記載の実施形態は、ボリューメトリック・イメージング・データの利用性が、手動で輪郭が描かれたグラウンド・トゥルースを提供するための放射線科医の許容量を上回り、読影レポートまたは他の情報源からラベルを容易にマイニングすることができる場合、他の疾患および異常（本明細書ではまとめて「疾患」と呼ぶ）の検出問題に適用可能である。

本明細書に記載のアプローチの利点の１つは、大規模なボリューメトリック臨床イメージング・データの利用性を活用して、放射線科医による労働集約的な手動のアノテーションを必要とせずに、ＣＡＤシステムを訓練できることである。いくつかの実施形態では、これらのシステムは、放射線科医の診断結果の二次チェックとしてバックグラウンドで実行することができ（見落とされた可能性のある診断結果をシステムが検出した場合にのみ入力を必要とする）、偽陰性を２０～５０％削減することができる。本明細書に記載の実施形態は、上記の他のシステムの欠点にも対処する。具体的には、手作りの定量的なイメージング特徴を活用する上記のＣＡＤアプローチとは異なり、本明細書に記載の深層学習ベースのアプローチは、最適な画像パターンを発見して訓練セット内の疾患状態を判別するので、手動で定義されたイメージング特徴のプールによる制約を受けない。その結果、このアプローチのパフォーマンスは、訓練データのセットが大きくなるほど向上し続ける。したがって、このアプローチは、容易に手に入る、最小限にしかアノテーション付けされていないデータを使用して訓練することができ、そのデータの豊富さから利益を得る。本明細書に記載のアプローチはまた、上述のパッチング・アプローチに固有の、訓練パッチが誤ってラベル付けされるという問題を回避する。具体的には、本明細書に記載の実施形態は、健康状態と疾患状態との両方を含むサンプルを分析するが、ボリューム全体を一度に評価することにより、疾患陽性とラベル付けされた全てのサンプルが実際に疾患特徴（組織）を含むようになる。純粋なＭＩＬアプローチとは異なり、本明細書に記載の実施形態は、個々のスライスを連続したシーケンスと見なすので、スライス間の空間的関係を考慮し、イメージング・ボリュームがスキャンされたときの疾患状況の予測結果を更新する。

たとえば、いくつかの実施形態は、（１）積層された２Ｄ放射線画像からなる３Ｄイメージング・ボリュームを受け取り、（２）効率的な処理のためにボリュームを操作し、（３）ボリュームの２Ｄスライスを順次分析して疾患状態または他の異状が存在する予測確率を出力するニューラル・ネットワークアーキテクチャを通じて画像ボリュームを分析するように構成されるソフトウェアが備えられたコンピューティング・デバイスを含むシステムを提供する。このニューラル・ネットワークは、弱くしかラベル付けされていない（たとえば、ボリューム全体での１つまたは複数の疾患状態／異常のバイナリ診断ステータスしか有さない）多数のイメージング・ボリュームを使用して、そのボリューム内のその疾患の位置の指導なしで、疾患を識別するように訓練される。このニューラル・ネットワークは、（ａ）個々の２Ｄスライス上の画像パターンを学習および検出する２Ｄ畳み込み演算、（ｂ）３Ｄボリュームをスライスごとにスキャンし、３Ｄボリューム全体にわたる空間パターンおよびそれらの変動を検出する畳み込み長短期記憶（ＬＳＴＭ）ユニット、（ｃ）各スライスでの畳み込みＬＳＴＭスキャンに対応する疾患状況の０～１の予測結果を出力する分散したＤｅｎｓｅ演算（ｄｉｓｔｒｉｂｕｔｅｄｄｅｎｓｅｏｐｅｒａｔｉｏｎ）、および任意選択により、（ｄ）３Ｄボリュームを分析したときのネットワークの予測結果をボリューム全体に関する単一の予測結果へと要約するＭＩＬバッグ確率関数を含む。

たとえば、一実施形態は、疾患検出モデルを開発するためのシステムを提供する。このシステムは１つまたは複数の電子プロセッサを含む。１つまたは複数の電子プロセッサは、画像学習と、画像学習について生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して疾患検出モデルを訓練するように構成される。画像学習は３次元画像ボリュームの複数の２次元スライスのシーケンスを含み、疾患検出モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含む。疾患検出モデルを訓練することは、畳み込みニューラル・ネットワーク層を使用して複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、畳み込み長短期記憶層を使用して複数の２次元スライスのそれぞれについて畳み込みニューラル・ネットワーク層によって抽出された特徴のセットを順次処理することと、疾患の確率を生成するために複数の２次元スライスのうちの順番が最後のものに関する畳み込み長短期記憶層からの出力を処理することと、確率をラベルと比較することと、比較に基づいて疾患検出モデルを更新することと、を含む。１つまたは複数の電子プロセッサはまた、疾患検出モデルが訓練された後に、新たな画像学習の疾患の確率を生成するために新たな画像学習に疾患検出モデルを適用するように構成される。

他の実施形態は、疾患検出モデルを開発するための方法を提供する。この方法は、１つまたは複数の電子プロセッサを用いて、画像学習と、画像学習について生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して疾患検出モデルを訓練することを含む。画像学習は３次元画像ボリュームの複数の２次元スライスのシーケンスを含み、疾患検出モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含む。疾患検出モデルを訓練することは、畳み込みニューラル・ネットワーク層を使用して複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、畳み込み長短期記憶層を使用して複数の２次元スライスのそれぞれについて畳み込みニューラル・ネットワーク層によって抽出された特徴を順次処理することと、疾患の確率を生成するために複数の２次元スライスのうちの順番が最後のものに関する畳み込み長短期記憶層からの出力を処理することと、確率をラベルと比較することと、比較に基づいて疾患検出モデルを更新することと、を含む。この方法はまた、疾患検出モデルが訓練された後に、新たな画像学習の疾患の確率を生成するために新たな画像学習に疾患検出モデルを適用することを含む。

さらに他の実施形態は、１つまたは複数の電子プロセッサによって実行された場合に、機能のセットを実行する命令を記憶する非一時的コンピュータ可読媒体を提供する。機能のセットは、画像学習と、画像学習について生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して疾患検出モデルを訓練することを含む。疾患ラベルは画像学習に関連付けられた患者が疾患と診断されたか否かのバイナリ・ラベルを含み、画像学習は３次元画像ボリュームの複数の２次元スライスのシーケンスを含む。疾患検出モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含む。疾患検出モデルを訓練することは、畳み込みニューラル・ネットワーク層を使用して複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、畳み込み長短期記憶層を使用して複数の２次元スライスのそれぞれについて畳み込みニューラル・ネットワーク層によって抽出された特徴のセットを順次処理することと、疾患の確率を生成するために複数の２次元スライスのうちの順番が最後のものに関する畳み込み長短期記憶層からの出力を処理することと、確率をラベルと比較することと、比較に基づいて疾患検出モデルを更新することと、を含む。機能のセットはさらに、疾患検出モデルが訓練された後に、新たな画像学習の疾患の確率を生成するために新たな画像学習に疾患検出モデルを適用することを含む。

さらなる実施形態は、疾患検出モデルを開発するためのシステムを提供する。このシステムは１つまたは複数の電子プロセッサを備える。１つまたは複数の電子プロセッサは、画像学習と、画像学習について生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して疾患検出モデルを訓練するように構成される。画像学習は３次元画像ボリュームの複数の２次元スライスのシーケンスを含み、モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含む。疾患検出モデルを訓練することは、畳み込みニューラル・ネットワーク層を使用して複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、畳み込み長短期記憶層を使用して複数の２次元スライスのそれぞれについて畳み込みニューラル・ネットワーク層によって抽出された特徴のセットを順次処理することと、疾患の確率を生成するために複数の２次元スライスのうちのそれぞれに関する畳み込み長短期記憶層からの出力を処理することと、確率をラベルと比較することと、比較に基づいて疾患検出モデルを更新することと、を含む。１つまたは複数の電子プロセッサはまた、疾患検出モデルが訓練された後に、新たな画像学習の疾患の確率を生成するために新たな画像学習に疾患検出モデルを適用するように構成される。

追加の実施形態は、疾患検出モデルを開発するための方法を提供する。この方法は、１つまたは複数の電子プロセッサを用いて、画像学習と、画像学習について生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して疾患検出モデルを訓練することを含む。画像学習は３次元画像ボリュームの複数の２次元スライスのシーケンスを含み、疾患検出モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含む。疾患検出モデルを訓練することは、畳み込みニューラル・ネットワーク層を使用して複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、畳み込み長短期記憶層を使用して複数の２次元スライスのそれぞれについて畳み込みニューラル・ネットワーク層によって抽出された特徴のセットを順次処理することと、疾患の確率を生成するために複数の２次元スライスのうちのそれぞれに関する畳み込み長短期記憶層からの出力を処理することと、確率をラベルと比較することと、比較に基づいて疾患検出モデルを更新することと、を含む。この方法はまた、疾患検出モデルが訓練された後に、新たな画像学習の疾患の確率を生成するために新たな画像学習に疾患検出モデルを適用することを含む。

いくつかの実施形態はまた、１つまたは複数の電子プロセッサによって実行された場合に、機能のセットを実行する命令を記憶する非一時的コンピュータ可読媒体を提供する。機能のセットは、画像学習と、画像学習について生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して疾患検出モデルを訓練することを含む。疾患ラベルは画像学習に関連付けられた患者が疾患と診断されたか否かのバイナリ・ラベルを含み、画像学習は３次元画像ボリュームの複数の２次元スライスのシーケンスを含む。疾患検出モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含む。疾患検出モデルを訓練することは、畳み込みニューラル・ネットワーク層を使用して複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、畳み込み長短期記憶層を使用して複数の２次元スライスのそれぞれについて畳み込みニューラル・ネットワーク層によって抽出された特徴のセットを順次処理することと、疾患の確率を生成するために複数の２次元スライスのうちのそれぞれに関する畳み込み長短期記憶層からの出力を処理することと、確率をラベルと比較することと、比較に基づいて疾患検出モデルを更新することと、を含む。機能のセットはまた、疾患検出モデルが訓練された後に、新たな画像学習の疾患の確率を生成するために新たな画像学習に疾患検出モデルを適用することを含む。

実施形態の他の態様は、詳細な説明および添付の図面を考察することによって明らかになろう。

ここで、本発明を単なる例として、以下の図に示す好ましい実施形態を参照して説明する。

コンピュータ断層撮影（ＣＴ）画像上の様々な異常を検出するための深層学習モデルを訓練するために使用されるアノテーションの例を示す図である。弱くアノテーション付けされたボリューム内の疾患検出のための畳み込み長短期記憶（Ｃｏｎｖ－ＬＳＴＭ）ネットワークを示す図である。いくつかの実施形態による、疾患検出のための２次元（２Ｄ）畳み込みマルチ・インスタンス学習（ＭＩＬ）ネットワークを示す図である。受診者動作特性（ＲＯＣ：ｒｅｃｅｉｖｅｒｏｐｅｒａｔｉｎｇｃｈａｒａｃｔｅｒｉｓｔｉｃ）曲線を使用したテスト・セットでの肺気腫検出に関する図２のＣｏｎｖ－ＬＳＴＭネットワークおよび図３の２Ｄ畳み込みＭＩＬネットワークのパフォーマンスを示す図である。様々な訓練セット・サイズを用いた標準線量コンピュータ断層撮影（ＣＴ）への転移学習を通じた図２のＣｏｎｖ－ＬＳＴＭネットワークの肺気腫検出パフォーマンスを示す図である。手動でアノテーション付けされた肺気腫のグラウンド・トゥルースと、図２のＣｏｎｖ－ＬＳＴＭネットワークに付随する視覚的注意マップとの間の空間的整合を示す図である。いくつかの実施形態による、図２のＣｏｎｖ－ＬＳＴＭネットワークを実装するためのシステムを概略的に示す図である。いくつかの実施形態による、ＭＩＬと組み合わせられたＣｏｎｖ－ＬＳＴＭネットワークを示す図である。

以下の説明および添付の図面において、１つまたは複数の実施形態を説明および図示する。これらの実施形態は、本明細書に提供する特定の詳細に限定されず、様々な方法で変更され得る。さらに、本明細書に記載していない他の実施形態が存在し得る。また、１つの構成要素によって実行されるものとして本明細書に記載する機能は、複数の構成要素によって分散された方法で実行され得る。同じように、複数の構成要素によって実行される機能は、単一の構成要素によって統合および実行され得る。同様に、特定の機能を実行するものとして説明する構成要素は、本明細書に記載していない追加の機能も実行し得る。たとえば、特定の方法で「構成される（ｃｏｎｆｉｇｕｒｅｄ）」デバイスまたは構造は、少なくともその方法で構成されるが、リストしていない方法でも構成され得る。さらに、本明細書に記載のいくつかの実施形態は、非一時的コンピュータ可読媒体に記憶された命令を実行することによって、記載の機能を実行するように構成される１つまたは複数の電子プロセッサを含み得る。同様に、本明細書に記載の実施形態は、記載の機能を実行するために１つまたは複数の電子プロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読媒体として実装され得る。本出願で使用する場合、「非一時的コンピュータ可読媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒ－ｒｅａｄａｂｌｅｍｅｄｉｕｍ）」は、全てのコンピュータ可読媒体を含むが、一時的な伝搬信号からなるものではない。したがって、非一時的コンピュータ可読媒体には、たとえば、ハード・ディスク、ＣＤ－ＲＯＭ、光学ストレージ・デバイス、磁気ストレージ・デバイス、ＲＯＭ（読み取り専用メモリ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ランダム・アクセス・メモリ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、レジスタ・メモリ、プロセッサ・キャッシュ、またはこれらの任意の組み合わせが含まれ得る。

また、本書で使用する表現および用語は、説明を目的としたものであり、限定するものと見なされるべきではない。たとえば、本明細書における「含む（ｉｎｃｌｕｄｉｎｇ）」、「含む（ｃｏｎｔａｉｎｉｎｇ）」、「含む（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、およびそれらの変形の使用は、その後に記載した項目およびその均等物ならびに追加の項目を包含することを意味する。「接続された（ｃｏｎｎｅｃｔｅｄ）」および「結合された（ｃｏｕｐｌｅｄ）」という用語は広義に使用しており、直接的および間接的な接続および結合の両方を含む。さらに、「接続された」および「結合された」は、物理的または機械的な接続または結合に限定されず、直接または間接を問わず、電気的な接続または結合を含むことができる。また、電子通信および通知は、有線接続、無線接続、またはそれらの組み合わせを使用して実行され、様々なタイプのネットワーク、通信チャネル、および接続を介して直接的に、あるいは１つまたは複数の中間デバイス経由で伝送され得る。そのうえ、第１および第２、上および下などの関係語は、本明細書において、あるエンティティまたはアクションを他のエンティティまたはアクションから区別するためにのみ使用され、そのようなエンティティまたはアクションの間の実際のそのような関係または順序を必ずしも必要とするまたは示唆するものではない。

上述のように、放射線医学における深層学習ベースの診断は、大規模な手動でアノテーション付けされたイメージング・データセットを必要とする。しかしながら、臨床データの利用性に反して、専門家によるボリューメトリック・イメージングのアノテーションは非常に面倒である。具体的には、画像ボリューム上に手動で境界線を描くことは、放射線科医が深層モデルの訓練に必要な量を実行するには時間がかかりすぎることが多い。たとえば、図１は、コンピュータ断層撮影（ＣＴ）画像上の様々な異常を検出するための深層学習モデルを訓練するために使用されるアノテーションの例を示している。したがって、胸部ＣＴなどの多くの場合、スキャンは頻繁に実行され、容易に利用可能であり得るが、関連する読影レポートの内容以外のラベル付けを含まない場合がある。そのため、これにより、モデルを訓練するときに大規模な臨床イメージング・データのセットを使用することに対して相当な障害がもたらされる。

肺気腫は、上述の通り、肺の中の肺胞の破裂によって引き起こされる呼吸器疾患であり、息切れおよび癌リスクを伴うとされている。肺気腫は、患者の肺のＣＴ画像を通じて診断されることが多い。しかしながら、ＣＴ画像上での肺気腫の表示および位置は様々であるので（肺容積の一部分にしか現れない場合もある）、ラベルなしデータから肺気腫を検出するように深層モデルを訓練する上での課題となっている。たとえば、主に肺の外側の状態を評価するために患者が標準線量ＣＴスキャンを受けた場合、肺気腫は、肺ＣＴ上で減衰の少ない領域に見えるのだが、偶発的な診断として見逃されることがある。

これらの課題に対処するために、一部の検出システムは、肺気腫および他の肺疾患を識別するために手作りの特徴または深層学習を用いたマルチ・インスタンス学習（ＭＩＬ）アプローチを使用する。これらのＭＩＬアプローチは、精密でない大域的なラベルを有する訓練データを活用するために、弱いラベルを用いた教師あり学習戦略を使用する。ＭＩＬアプローチでは、個々のラベルは不明であるが、ラベル付きの「バッグ」へとグループ化することができるサンプルのセットに分類器が適用される。次いで、バッグ全体に対するラベルおよび予測結果に基づいて、モデルの訓練および推論が実行される。たとえば、臨床的に陽性のＣＴボリュームは、各２Ｄスライスがサンプルを形成する陽性のバッグと見なすことができる。個々のスライス上の肺気腫の存在は不明であるが、患者が疾患陽性である場合は、バッグ内の１つまたは複数のスライスに肺気腫が存在するはずである。

ＭＩＬは、モデルを訓練し、弱くアノテーション付けされた（ｗｅａｋｌｙａｎｎｏｔａｔｅｄ）多数のサンプルにわたってその予測結果を要約するのに有効であり得るが、いくつかの不利な点もある。まず、ＭＩＬはバッグ内のサンプル間の空間的なコンテキストを考慮していない。全てが肺気腫に見える一連の連続したスライスと比較して、ボリュームの至る所で孤立した陽性サンプルは、ノイズによる偽陽性を示す可能性がより高いが、この近さの意味が、ＭＩＬの構成で考慮されている。第２に、ＭＩＬは、サンプルレベルの予測結果をバッグに関する単一の予測結果へと要約するプーリング演算を必要とする。この要約は単純（ナイーブ）な方法（たとえば、サンプルの予測結果の平均または最大値）を使用して実行され、これは柔軟性がなく、ＭＩＬモデルが疾患を検出するかまたは見逃すという単純な事例に影響を及ぼし、これは基礎となる分類器が強力であるか否かによらない。

したがって、本明細書に記載の実施形態は、画像ボリューム内の疾患／異常を検出するように、弱いが容易に入手可能なラベル付きの訓練データから効率的に学習するための深層学習フレームワークを提供する。具体的には、一実施形態は、畳み込み長短期記憶実装形態（ＬＳＴＭ）（Ｃｏｎｖ－ＬＳＴＭ）を含む。長短期記憶（ＬＳＴＭ）などのリカレント・ニューラル・ネットワーク・アプローチは、相関のあるサンプル間のパターンを解釈して要約することが可能であり、Ｃｏｎｖ－ＬＳＴＭは、畳み込み演算を使用して空間パターンの変動を識別するＬＳＴＭの変形である。たとえば、Ｃｏｎｖ－ＬＳＴＭは時空間パターンの検出に秀でている。Ｃｏｎｖ－ＬＳＴＭを時系列の画像データに適用するのではなく、本明細書に記載の実施形態は、イメージング・ボリュームの一連の連続したスライスをスキャンするためにＣｏｎｖ－ＬＳＴＭを適用することによって、疾患のパターンを、その位置の手動のアノテーションなしで学習する。このアプローチにより、スライス上およびスライス間の疾患を検出し、ボリュームを通る複数の双方向のパスを通じてそのような検出結果を記憶し、全体的な疾患の存在を特徴付ける最終的な特徴のセットとして出力することが可能になる。このように、本明細書に記載の実施形態は、スライス間の空間的関係を考慮し、簡易的（ｒｅｄｕｃｔｉｖｅ）であり得るプーリング・アプローチを必要とせずに、結果（ｆｉｎｄｉｎｇｓ）を簡潔に要約することによって、他のアプローチを上回る。開示した実験データを通じて以下に説明するように、Ｃｏｎｖ－ＬＳＴＭアプローチは、疾患検出のための効果的かつ汎用的な解決策を提供し、弱くラベル付けされた画像ボリュームを訓練およびチューニングに効率的に利用することができる。

したがって、Ｃｏｎｖ－ＬＳＴＭ実装形態は、畳み込みＣｏｎｖ－ＬＳＴＭを使用して、専門家によるアノテーションなしで、イメージング・ボリュームを疾患に関して「スキャン」する。このアプローチにより、簡易的であり得るバッグ・プーリング演算なしで、２次元（２Ｄ）スライス上および２Ｄスライス間の疾患パターンを検出することが可能になる。具体的には、２Ｄ畳み込みＭＩＬ実装形態と同様に、この実装形態は、個々のスライス内のパターンを認識するための畳み込み演算を含む。しかしながら、この実装形態はまた、ネットワーク全体に複数の畳み込みＬＳＴＭユニットを含み、これらはボリュームのスライスをシーケンスと見なす。前の畳み込み層によって各スライスから個別に抽出された特徴は、１つずつ、ボリュームの中を第１の方向（たとえば、頭の先からつま先への順方向）に進む畳み込みＬＳＴＭに入力され、続いて、第２の反対の方向（たとえば、つま先から頭の先への逆方向）に進む畳み込みＬＳＴＭに入力され、その後にもう１セットの順方向－逆方向の畳み込みＬＳＴＭ処理が続く。畳み込みＬＳＴＭは、前のスライスからの疾患に関連する画像パターンを「記憶（ｒｅｍｅｍｂｅｒ）」することに加え、疾患を示すスライス間の変化を識別する機能を有する。シーケンス内のアイテムごとに、畳み込みＬＳＴＭは、画像内および自身の内部メモリ内のパターンに基づいて特徴のセットを出力する。最後の畳み込みＬＳＴＭユニットでは、分析された最後のスライスに対応する特徴のセットがＤｅｎｓｅ層に接続され、Ｄｅｎｓｅ層は、イメージング・ボリュームの複数回のスキャンにわたって蓄積された情報に基づいて疾患（肺気腫）の確率を出力する。

たとえば、図２は、一実施形態による、弱くアノテーション付けされた画像ボリューム内の疾患検出のためのＣｏｎｖ－ＬＳＴＭネットワーク１００を示している。図２に示すように、ネットワーク１００は４つのユニット１０２を含む。詳細には、図２には、１つの双方向のユニットのペア（計２つのユニット）を図示しており、ネットワーク１００はそのようなペアを２つ含む。各ユニット１０２は２つの２Ｄ畳み込み層１０４を特徴とし、これらは３Ｄボリュームの各２Ｄスライスから個別に特徴を抽出する。２Ｄ畳み込み層１０４の各ペアの後に、最大値プーリング１０６およびＣｏｎｖ－ＬＳＴＭ層１０８が続く。Ｃｏｎｖ－ＬＳＴＭ層１０８は、ボリュームをスライスごとに処理する。各２Ｄ畳み込み層１０４は、３×３のカーネル・サイズおよび正規化線形ユニット（ＲｅＬＵ：ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）活性化を有し、続いてバッチ正規化が行われる。次いで、各スライスの畳み込み層からの出力はＣｏｎｖ－ＬＳＴＭ層１０８によって順次処理され、Ｃｏｎｖ－ＬＳＴＭ層１０８は、いくつかの実施形態では、３×３のカーネル・サイズを使用するｔａｎｈ活性化およびハード・シグモイド・リカレント活性化を有する。

ユニット１０２内の各層は、同数のフィルタを共有し、ボリュームを昇順または降順で処理する。たとえば、いくつかの実施形態では、４つのユニット１０２は、以下の次元および方向を有し、すなわち、第１のユニット１０２は３２個のフィルタを画像ボリュームに昇順で適用し、第２のユニット１０２は３２個のフィルタを画像ボリュームに降順で適用し、第３のユニット１０２は６４個のフィルタを画像ボリュームに昇順で適用し、第４のユニット１０２は６４個のフィルタを画像ボリュームに降順で適用する。ネットワーク１００内の最後のＣｏｎｖ－ＬＳＴＭ層１０８は単一の特徴のセットを出力し、これは、ネットワークがイメージング・ボリュームを複数回処理した後に得た結果を表す。次いで、シグモイド活性化を用いた全結合層（シグモイド活性化型Ｄｅｎｓｅ層１１０）は、肺気腫の確率などの疾患確率を算出する。いくつかの実施形態では、ガイド付きバックプロパゲーション（ｇｕｉｄｅｄｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ）による視覚的注意（ｖｉｓｕａｌａｔｔｅｎｔｉｏｎ）を用いて、肺気腫の診断を示す領域が事後解析のためにさらに識別された。

当技術分野で知られているように、ＬＳＴＭフレームワークは、様々な時間ステップで入力を処理し、短期記憶を表す隠れ状態と、長期記憶を表すセル・トラックとを含む。各時間ステップにおいて、ＬＳＴＭは３つの動作を実行する。第１に、ＬＳＴＭは、長期記憶から情報を消去する忘却動作を実行する。第２に、ＬＳＴＭは、新たな情報を長期記憶に記憶する記憶動作を実行し、第３に、入力、隠れ状態（短期記憶）、および長期記憶を出力および新たな隠れ状態へと合成する更新および出力動作を実行する。Ｃｏｎｖ－ＬＳＴＭは、ＬＳＴＭ動作を畳み込み型にすることにより、順次的な画像データで動作するようにＬＳＴＭを拡張する。

上記のように、Ｃｏｎｖ－ＬＳＴＭ実装形態のパフォーマンスを評価するために実験を行った。実験の一環として、Ｃｏｎｖ－ＬＳＴＭ実装形態のパフォーマンスを、２Ｄ畳み込みＭＩＬ構成および３次元（３Ｄ）畳み込みニューラル・ネットワーク（ＣＮＮ）と比較した。図３は、いくつかの実施形態による２Ｄ畳み込みＭＩＬネットワークまたは構成２００を示している。この構成２００では、イメージング・ボリュームの各２Ｄスライスは個々に同一のネットワークを通過し、同一のネットワークは２Ｄ畳み込み演算を実行し、これには正規化が挿入されており（たとえば、バッチ正規化（「ＢＮ：ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ」）が各スライスに適用される）、また、モデルの次元を削減して訓練を容易にするプーリング演算を実行する。畳み込みネットワーク２００は、ボリュームのスライスごとに、多数のネストされた畳み込み演算２０２から一連の画像特徴を出力する。次いで、Ｄｅｎｓｅ層２０４は、これらの特徴を、疾患（たとえば、肺気腫）が所与のスライスに存在する０～１の確率へと要約する。このネットワーク２００を用いてボリューム全体を処理することにより、Ｎ個の疾患確率が生成され、ここで、Ｎはイメージング・ボリューム内のスライス数である。最後の層では、ＭＩＬ要約関数は、スライス・レベルの確率をボリューム全体での単一の疾患確率へと要約する。

したがって、このネットワーク２００では、画像ボリュームの各スライスは、ＭＩＬ方式におけるバッグからのサンプルであり、純粋な畳み込み２Ｄネットワークによって処理される。ボリューム全体の確率を算出する手段として、いくつかの異なるアルゴリズム的なアプローチを使用することができ、たとえば、最大の個別スライス確率、陽性の診断結果を重視した（ｗｅｉｇｈｔｅｄｔｏｗａｒｄ）スライス確率の積、スライス全体の平均確率などがある。たとえば、いくつかの実施形態では、全体の確率Ｐは、個別の肺気腫確率ｐ_ｉを有するＮ個のインスタンスから、以下の式の１つを使用して計算される。
平均プーリング：

最大値プーリング：
Ｐ＝ｍａｘ（ｐ_ｉ）
積プーリング（ＰｒｏｄｕｃｔＰｏｏｌｉｎｇ）：

図示していないが、３ＤＣＮＮは２Ｄ畳み込みＭＩＬネットワーク２００の構造に類似した構造を有するが、単一のＤｅｎｓｅ層を有し、最後の畳み込み層へのプーリング演算を有さない。

この実験では、全米肺検診試験（ＮＬＳＴ：ＮａｔｉｏｎａｌＬｕｎｃｈＳｃｒｅｅｎＴｒｉａｌ）に登録された１１，０９５人の重複しない参加者からの合計５５，６７３個の非造影かつ低線量のＣＴボリュームを使用した。３年間の調査にわたって肺気腫と診断された５，０５６人の参加者が陽性サンプルとして含まれ、肺気腫と診断されなかった６，０３９人の参加者が陰性サンプルとして含まれていた。肺気腫陽性患者および陰性患者の分布のバランスが取れた、患者の８０％をモデル訓練に使用した。モデル・パラメータを直接学習するために７，１００人の患者からの３９，３８７個のボリュームを使用し、ハイパー・パラメータを調整するために１，７７６人の患者からの９，７５５個のボリュームを使用した。残りの２，２１９人の患者（５７８人の肺気腫陽性者、１５８５人の肺気腫陰性者）は、各々が年１回のスキャンを３回受けて、合計６，５１１個のボリュームがあり、独立したテストのためにホールド・アウトした。ボリュームを９ミリメートルの平均スライス間隔に相当する１２８×１２８×３５にサイズ変更した。

この実験では、Ｃｏｎｖ－ＬＳＴＭのパフォーマンスを、弱くアノテーション付けされた画像ボリュームに適した従来の学習方式と比較することを試みた。全てのモデルを訓練するのに必要な時間およびリソースを削減するために、６，６４８人の重複しない患者からの８，７９４個の低線量ＣＴボリュームからなる削減したパイロット・コホートをこの比較に利用した。訓練および検証には、それぞれ（３，１６６人の患者からの）４，１９７個のボリュームおよび（１，３１９人の患者からの）２，４３４個のボリュームを使用した。テストには、２，１６３人の患者（５７８人の肺気腫陽性者、１５８５人の肺気腫陰性者）からの２，１６３個のボリュームを使用した。各モデルを１ｅ－３の学習率で５０エポックで訓練した。

Ｃｏｎｖ－ＬＳＴＭ実装形態は、弱くしかアノテーション付けされていないイメージング・ボリュームで訓練された場合に、肺気腫を強力に識別し、０．８３の受診者動作特性曲線下面積（ＡＵＣ：ａｎａｒｅａｕｎｄｅｒｔｈｅｒｅｃｅｉｖｅｒｏｐｅｒａｔｉｎｇｃｈａｒａｃｔｅｒｉｓｔｉｃｃｕｒｖｅ）を達成した。図４に示すように、この実装形態は全てのＭＩＬ構成および３ＤＣＮＮを、これらのアーキテクチャよりもパラメータがそれぞれ１１０，０００個および５７，０００個少なかったにも関わらず上回っていた（以下の表１参照）。

他の手法と比較して肺気腫の検出において優れたパフォーマンスを実証したので、完全なＮＬＳＴコホートを使用して合計３００エポックでＣｏｎｖ－ＬＳＴＭ実装形態を再訓練した。各エポックは、約４０，０００個の訓練ボリュームのプールからランダムに選択した、バッチ・サイズ２０の２００ステップで構成した。訓練中に、ｘ、ｙ、およびｚ軸に沿ったランダムな反転を適用してデータをさらに増やし、過剰適合を防ぐために、最後のＤｅｎｓｅ層のニューロン（ｎｅｕｔｒｏｎ）に５０％のドロップアウトを適用した。バイナリ・クロス・エントロピー損失およびＡＤＡＭオプティマイザを使用して、初期学習率１ｅ－４で、モデルを訓練した。連続した２０エポックの後に検証損失が減少しなくなった場合、学習率を半分に減らした。２つのＴｅｓｌａＰ１００ＧＰＵを使用してモデルを訓練し、訓練時間は約２７時間かかった。

完全な訓練コホートを使用して訓練した場合、Ｃｏｎｖ－ＬＳＴＭのパフォーマンスはテスト・セット（ｎ＝６，５１１）でＡＵＣ＝０．９０９まで向上した。検証コホート内で特定されたＹｏｕｄｅｎインデックスに対応する最適なカットオフでは、テストの感度は８０．９％であり、特異度は８６．３％であった（Ｆ１＝０．８３６）。

合計３，３６１人のＮＬＳＴの患者は、患者が追跡された３年間に肺気腫の診断結果が変化していたので、前述の実験ではモデルの訓練および評価から除外した。これらのうち、９２６人の患者は１年目に肺気腫の陽性診断を受けたが、２年目または３年目（両方ではない）に陰性診断を受けた。肺気腫が慢性疾患であることを考えると、これらの評価結果は診断の見落としを表している可能性が高いので、偽陰性を削減するモデルの能力を評価する機会を与える。たとえば、モデルを動作点で適用することによって、放射線科医が見落とした高難易度のケースの間でのパフォーマンスを評価することができる。

臨床的偽陰性候補の間での感度は７０．６％であり、テスト・セットで同じカットオフで観察された値（８０．９％）に近かった。このように、Ｃｏｎｖ－ＬＳＴＭモデルは、最高難易度の肺気腫の診断結果からなるコホートにおいて優れたパフォーマンスを維持した。肺気腫の存在の平均予測確率は０．６３±０．３７０であったのに対し、テスト・コホートの肺気腫陽性患者および陰性患者では０．７５４±０．３２８および０．１７１±０．２２９であった。

肺組織研究コンソーシアム（ＬＴＲＣ：ＬｕｎｇＴｉｓｓｕｅＲｅｓｅａｒｃｈＣｏｎｓｏｒｔｉｕｍ）から、１，４０５人の患者について、仰臥位で呼気中に撮影された標準線量ＣＴスキャンを入手した。訓練コホートおよび検証コホートは、それぞれ８００人および２００人の患者であった。４０５人の患者からのスキャンでモデルをテストした。肺気腫の境界線の手動のアノテーションもこのコホート内の一部の患者に関して利用可能であったが、訓練中には使用しなかった。代わりに、手動のアノテーションを、Ｃｏｎｖ－ＬＳＴＭネットワークからの視覚的顕著性（ｓａｌｉｅｎｃｙ）マップとの比較に使用した。

また、Ｃｏｎｖ－ＬＳＴＭモデルを使用して、標準線量ＣＴの限られたコホートでの転移学習を通じて、新たな施設の未知のイメージング・データ向けのファイン・チューニングを容易に実行することができる。転移学習とは一般に、データセットまたはタスクで訓練されたモデルから開始し、訓練されたモデルに少しの調整を行って、第２のタイプのデータまたはタスクの間でモデルのパフォーマンスを最適化することを指す（典型的には、モデルの最初の訓練に使用したよりもはるかに小さいデータ・プールを利用する）。転移学習により、モデルが既存の訓練済みモデルから出発するので、より少量の訓練データを使用して、未知のデータで優れた結果を達成するモデルを開発することが可能になり得る。低線量ＣＴ（たとえば、ＮＬＳＴのもの）が、肺癌（ｌｕｎｃｈｃａｎｃｅｒ）検診のアプローチとして通常使用される。一方、標準線量ＣＴは、複数の器官部位を含む、より多岐に渡る理由で指示され得る。これらの検査の主な目的は肺の評価でない場合があるので、自動化された肺気腫検出は、放射線科医が注視していない領域で疾患を偶発的に検出する大きな可能性がある。しかしながら、本明細書に記載のＣｏｎｖ－ＬＳＴＭモデルは、未経験の撮影プロトコル（標準線量ＣＴ）を用いたアノテーションなしのボリュームの限られたコホートから再訓練することができる。したがって、これらのモデルは、利用可能な臨床イメージングおよび診断情報の限られたデータセットでのシンプルな転移学習によって、施設間など、深層モデルを配備するときにこれまで遭遇したことのない変動の原因を考慮するための発展可能なメカニズムを提示する。このように、これらのモデルは、放射線科医の診断結果をチェックし、肺気腫などの疾患検出の見落としを検出するための正確で柔軟性のあるシステムとして機能し得る。

たとえば、図５は、様々なサイズの標準線量ＣＴ訓練コホートを使用した転移学習のパフォーマンスを示している。モデル（ｍｏｄｅ）を転移学習なしで標準線量ＣＴに直接適用した場合、検証ＡＵＣは０．８３６であった。８００人の訓練用患者全員を使用すると、最良の結果が得られた（検証ＡＵＣは０．９１６であった）が、わずか５００人の患者で、０．９０以上のＡＵＣの優れたパフォーマンスを同様に出すことができた。

ｎ＝８００でチューニングし、テスト・コホート（ｎ＝４０５）に適用した場合、ＡＵＣは０．９４５に向上した。検証で特定された動作点は８４．４％の感度に対応し、特異度はテストで９２．７％であった（Ｆ１＝０．８８６）。視覚的注意マップの例は、手動の肺気腫のアノテーションとの優れた一致を示しており（図６参照）、診断の位置の特定を支援するために使用され得る。

したがって、上述のように、医用イメージングにおける深層学習アプリケーションへの課題は、モデル訓練用の大規模なアノテーション付き医用イメージング・データセットが必要なことである。本明細書に記載の方法およびシステムなど、弱くて容易に手に入るラベルを有するデータから効率的に学習することが可能な深層学習方式では、この制限が回避される。たとえば、本明細書に記載の方法およびシステムを使用すると、訓練に関してバイナリ診断ラベルにしか依存しない深層コンピュータ支援診断（ＣＡＤ：ｃｏｍｐｕｔｅｒ－ａｉｄｅｄｄｉａｇｎｏｓｉｓ）プラットフォームを、大規模な臨床イメージング・データセットを使用して迅速に開発し、利用可能なデータから新たな臨床コンテキストに容易に適合させることができる（たとえば、新たな施設または撮影プロトコルへのファイン・チューニング）。

具体的には、本明細書に記載の実施形態は、弱くしかアノテーション付けされていない画像ボリュームから疾患の識別特性を学習することが可能な畳み込みリカレント・フレームワークを提供する。ＭＩＬなどの弱教師あり学習問題に対する従来のアプローチは、空間的に分散した画像サンプルの「バッグ」で動作するものであるが、サンプル間の空間的関係を考慮しておらず、制限的であり得るバッグ・プーリング演算によって阻害され得る。本明細書に記載の畳み込み長短期記憶（Ｃｏｎｖ－ＬＳＴＭ）実装形態は、スキャンされた領域の一部分における疾患の有無に関してボリュームを順次処理し、ボリューム全体での疾患の存在を特徴付ける単一の特徴セットを更新することにより、これらの欠点に対処する。上述のように、このアプローチを使用することにより、特に３ＤＣＮＮおよび様々な構成のＭＩＬ（２ＤＣＮＮと組み合わせた弱教師あり学習戦略）と比較して、肺気腫を検出するための強力なツールが提供される。具体的には、本明細書に記載の実装形態は、いくつかの実施形態では、イメージング・データの時間のかかるアノテーションも手動処理も必要とせず、これにより、弱くラベル付けされた画像ボリュームの広範な臨床データセットを使用することが可能になる。また、いくつかの実施形態では、図６に示すように、提案したネットワーク実装形態の視覚的注意マップは、モデル訓練中に手動のアノテーションを使用しなかったにも関わらず、肺気腫の存在箇所の輪郭が放射線科医によって手動で描かれた少数の標準線量ＣＴスキャンについて、グラウンド・トゥルースと大いに重なった。たとえば、図６は、手動でアノテーション付けされた肺気腫のグラウンド・トゥルース（左、赤）と、本明細書に記載のＣｏｎｖ－ＬＳＴＭモデルによって生成された視覚的注意マップ（右）との間の空間的整合を示している。このように、これらのモデルは、ボリュームレベルのバイナリ訓練ラベルのみから訓練された場合でも、いくつかの異なる肺気腫の表示にわたって疾患パターンの位置を特定することができる。

本明細書に記載の機能は、１つまたは複数のサーバなどの１つまたは複数のコンピューティング・デバイスを介して実行できることを理解されたい。たとえば、図７は、いくつかの実施形態による、本明細書に記載のＣｏｎｖ－ＬＳＴＭ実装形態を使用して弱くラベル付けされたボリューメトリック・イメージングから疾患検出モデルを訓練するためのシステム７００を示している。図７に示すように、システム７００は、サーバ７０５、画像リポジトリ７１５、およびレポート・リポジトリ７１８を含む。サーバ７０５、画像リポジトリ７１５、およびレポート・リポジトリ７１８は、１つまたは複数の有線または無線通信ネットワーク７２０を介して通信する。無線通信ネットワーク７２０の各部分は、インターネットなどのワイド・エリア・ネットワーク、Ｂｌｕｅｔｏｏｔｈ（Ｒ）ネットワークまたはＷｉ?Ｆｉ（Ｒ）などのローカル・エリア・ネットワーク、およびそれらの組み合わせまたは派生物を使用して実装され得る。システム７００はより多いまたはより少ないサーバを含み得、図７に示す単一のサーバ７０５は純粋に例示目的のものであることは理解されたい。たとえば、いくつかの実施形態では、本明細書に記載の機能は、分散環境またはクラウド・コンピューティング環境において複数のサーバを介して実行される。また、いくつかの実施形態では、サーバ７０５は、複数の画像リポジトリまたは複数のレポート・リポジトリと通信し得る。さらに、いくつかの実施形態では、画像リポジトリはレポート・リポジトリと組み合わせられ、いくつかの実施形態では、これらのリポジトリのうちの１つまたは複数は、サーバ７０５と組み合わせられ得る。また、いくつかの実施形態では、システム７００に示す構成要素は、１つまたは複数の中間デバイス（図示せず）を介して通信し得る。

いくつかの実施形態では、３次元画像ボリュームが画像リポジトリ７１５に記憶される。画像リポジトリ７１５は、たとえば、画像保存通信システム（ＰＡＣＳ：ｐｉｃｔｕｒｅａｒｃｈｉｖｉｎｇａｎｄｃｏｍｍｕｎｉｃａｔｉｏｎｓｙｓｔｅｍ）、クラウド・ストレージ環境などであり得る。画像リポジトリ７１５に記憶される３次元画像ボリュームは、Ｘ線コンピュータ断層撮影（ＣＴ）スキャナ、磁気共鳴イメージング（ＭＲＩ：ｍａｇｎｅｔｉｃｒｅｓｏｎａｎｃｅｉｍａｇｉｎｇ）スキャナなどのイメージング・モダリティ（図示せず）によって生成される。いくつかの実施形態では、画像リポジトリ７１５はまた、イメージング・モダリティの一部として含まれ得る。上記のように、画像リポジトリに記憶されるイメージング・ボリュームはアノテーション付けされていない。

レポート・リポジトリ７１８は、画像リポジトリ７１５に記憶された画像ボリュームなどの画像学習（画像ボリューム）に関する読影レポートを記憶する。たとえば、レポート・リポジトリ７１８は、放射線科情報システム（ＲＩＳ：ｒａｄｉｏｌｏｇｙｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍ）、電子医療記録（ＥＭＲ：ｅｌｅｃｔｒｏｎｉｃｍｅｄｉｃａｌｒｅｃｏｒｄ）システム、病院情報システム（ＨＩＳ：ｈｏｓｐｉｔａｌｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍ）などを含み得る。また、いくつかの実施形態では、レポート・リポジトリ７１８は、ＰＡＣＳを含み、画像リポジトリと組み合わせられ得る。

図７に示すように、サーバ７０５は、電子プロセッサ７５０、メモリ７５５、および通信インターフェース７６０を含む。電子プロセッサ７２５、メモリ７３０、および通信インターフェース７６０は、無線で、有線通信チャネルもしくはバスを介して、またはそれらの組み合わせで通信する。サーバ７０５は、様々な構成において、図７に示した以外の追加の構成要素を含み得る。たとえば、いくつかの実施形態では、サーバ７０５は、複数の電子プロセッサ、複数のメモリ・モジュール、複数の通信インターフェース、またはそれらの組み合わせを含む。また、サーバ７０５によって実行されるものとして本明細書で説明した機能は、様々な地理的位置に配置された複数のコンピュータによって分散して実行されることを理解されたい。たとえば、サーバ７０５によって実行されるものとして本明細書で説明した機能は、クラウド・コンピューティング環境に含まれる複数のコンピュータによって実行され得る。

電子プロセッサ７５０は、マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）などであり得る。電子プロセッサ７５０は一般に、本明細書に記載の機能を含む機能のセットを実行するためのソフトウェア命令を実行するように構成される。メモリ７５５は、非一時的コンピュータ可読媒体を含み、電子プロセッサ７５０によって実行可能な命令を含むデータを記憶する。通信インターフェース７６０は、たとえば、通信ネットワーク７２０、および任意選択により、１つまたは複数の追加の通信ネットワークまたは接続を介して通信するための、有線または無線の送受信器またはポートであり得る。

図７に示すように、サーバ７０５のメモリ７５５は、検出モデル７６５および訓練セット７７５を含む。いくつかの実施形態では、検出モデル７６５（またはその訓練）によって提供されるものとして本明細書で説明した機能は、様々な構成において、複数の別々のソフトウェア・アプリケーションなどを介して分散および結合されることを理解されたい。検出モデル７６５は上述のＣｏｎｖ－ＬＳＴＭモデルを含み、これは訓練セット７７５を介して訓練される。上述のように、訓練セットは、アノテーションなしの画像ボリューム（画像リポジトリ７１５から取り出しまたはアクセスされる）および関連するバイナリ・ラベル（レポート・リポジトリ７１８から取り出しまたはアクセスされる）を含む。検出モデル７６５が訓練データ７７５を用いて訓練された後、検出モデル７６５を使用して、上記の例に従って肺気腫などの疾患の予測結果を出力することができる。

いくつかの実施形態では、モデルがデータのプールを用いて訓練された後、モデルは動作するためにそのデータにアクセスする必要はない。たとえば、ネットワークを訓練する処理は基本的に、訓練データからタスクを実行するための演算のセットを学習することを含む。学習した演算のセット（ニューラル・ネットワークの「重み」と呼ばれることが多い）を記憶することにより、訓練データ自体を記憶せずに、タスクを繰り返すことができる。いくつかの実施形態では、ネットワークを使用するための２つの可能な実装形態があり、いくつかの実施形態では、これらの実装形態はいずれも、訓練セットを継続して記憶する必要がない。たとえば、１つの実装形態では、ネットワークは１つのソースによって提供される訓練セットで訓練することができる（１つまたは複数の施設からの訓練データを使用して訓練され得る）。次いで、訓練されたモデルは、同じソースまたは別のソース（たとえば、病院またはクラウド）のサーバで利用可能にすることができる。この実装形態では、患者データがサーバ上に保持される必要はない。

他の実装形態では、施設は独自の弱くラベル付けされたデータを使用して元の重みを最適化することによって、その施設に最適化されたパフォーマンスを実現し得る（上述の転移学習と呼ばれる処理）。この実装形態では、転移学習を実行するために、施設（病院など）によって訓練セットがサーバ上に提供され得る。しかしながら、転移学習を通じて新たな重みが学習された後は、訓練セットが（サーバ上の）メモリに保持される必要はない。

本明細書に記載のシステムおよび方法は、肺気腫さらには肺の疾患または異常に限定されず、専門家によるアノテーションが利用できない場合でも、バイナリ・ラベルが利用可能である（ボリューメトリック・イメージング・データおよび読影レポートの利用性が、手動のアノテーションを提供する放射線科医の許容量を上回る）場合には、様々なタイプのボリューメトリック画像データと共に使用できることも理解されたい。さらに、本明細書に記載の実装形態は、様々なスライス間隔で、さらには任意の数のスライスを有する画像ボリュームで使用することができる（使用される全てのスキャンが必ずしも同数のスライスを有する必要はない）。

また、様々な状況で、Ｃｏｎｖ－ＬＳＴＭネットワークの他の実装形態を使用することができる。たとえば、いくつかの実施形態では、Ｃｏｎｖ－ＬＳＴＭネットワークをＭＩＬと組み合わせることができる。このアプローチは、ネットワークが画像ボリュームをスキャンしたときにスライスごとに生成された予測結果に重み付けする。図８は、このＣｏｎｖ－ＬＳＴＭとＭＩＬとの組み合わせのネットワーク８００の例を示している。ネットワーク８００（ネットワーク１００を介して実装されるＣｏｎｖ－ＬＳＴＭアプローチに類似）では、イメージング・ボリュームは、一連の畳み込み演算および畳み込みＬＳＴＭ演算を通じて処理される。しかしながら、最後の畳み込みＬＳＴＭによって分析された最終シーケンスからの出力のみを取得するのではなく、各畳み込みＬＳＴＭユニットからの各スライスの出力がＭＩＬによって単一の予測結果に統合される。具体的には、同一のＤｅｎｓｅ層を畳み込みＬＳＴＭの各順次出力に接続して、Ｎ個の疾患可能性の予測結果を提供することができ、２Ｄ畳み込みＭＩＬ実装形態の場合と同様に、たとえば、スライス確率の平均を計算することによって、ボリューム全体に対して全体的な疾患の確率を算出することができる。いくつかの実施形態では、図３およびＭＩＬネットワーク２００に関して上述した式のいずれかを使用して、全体の確率を計算することができる。

Ｃｏｎｖ－ＬＳＴＭ実装形態と比較して、Ｃｏｎｖ－ＬＳＴＭＭＩＬ実装形態は、検証セットでより優れたパフォーマンスを達成したので、状況によっては、最適な構成を表し得る。具体的には、ホールド・アウトしたテスト・セットでは、Ｃｏｎｖ－ＬＳＴＭＭＩＬ実装形態は、ＡＵＣが０．８７５１であり、カットオフ１感度（５０％感度）が５３．３２％であり、カットオフ１特異度（５０％感度）が９６．０５％であり、カットオフ２感度（２０％感度）が２３．８０％であり、カットオフ２特異度（２０％感度）が９９．５２％であった。さらに、過去数年間の陽性診断にもかかわらず、肺気腫の診断が見落とされた可能性が高いスキャンのコホート（診断が特に困難であった可能性が高いスキャン）において、Ｃｏｎｖ－ＬＳＴＭＭＩＬ実装形態は、各カットオフで４２．７６％および１５．９８％の感度を達成した。また、Ｃｏｎｖ－ＬＳＴＭＭＩＬモデルを再訓練し、完全な検証セット（ｎ＝９，７７５）で評価した場合、モデルはＡＵＣが０．８４８２であり、カットオフ１特異度（５０％感度）が９６．４９％であり、カットオフ２特異度（２０％感度）が９９．５７％であった。

いくつかの実施形態では、各疾患のバイナリ・ラベルが付与された訓練セットの構築の一環として、２つ以上の疾患が検出される（たとえば、複数のラベルを検出する）ことを理解されたい。この実装形態では、検出された各疾患を使用して、上述のように個別のモデルを生成し得る。さらに、いくつかの実施形態では、ネットワークが複数の疾患に関する予測結果のセットを出力するように、上述のネットワークが変更され得る。たとえば、（複数のラベルを使用して）肺気腫、癌、および肺炎を検出するモデルを開発することができる。この実装形態では、モデルはベクトル（［ｐ＿ｅｍｐｈｙｓｅｍａ，ｐ＿ｃａｎｃｅｒ，ｐ＿ｐｎｅｕｍｏｎｉａ］）を出力することができる。したがって、この実装形態では、これら３つの疾患全てを同時に検出するようにネットワークを訓練することができる。

いくつかの実施形態の様々な特徴および利点を以下の特許請求の範囲に記載する。

Claims

疾患検出モデルを開発するためのシステムであって、
１つまたは複数の電子プロセッサ
を備え、前記１つまたは複数の電子プロセッサは、
画像スタディと、前記画像スタディについて生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して前記疾患検出モデルを訓練することであって、前記画像スタディは３次元画像ボリュームの複数の２次元スライスのシーケンスを含み、前記疾患検出モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含み、前記疾患検出モデルを訓練することは、
前記畳み込みニューラル・ネットワーク層を使用して前記複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、
前記畳み込み長短期記憶層を使用して前記複数の２次元スライスのそれぞれについて前記畳み込みニューラル・ネットワーク層によって抽出された前記特徴のセットを順次処理することと、
前記疾患の確率を生成するために前記複数の２次元スライスのうちの順番が最後のものに関する前記畳み込み長短期記憶層からの出力を処理することと、
前記確率を前記ラベルと比較することと、
前記比較に基づいて前記疾患検出モデルを更新することと、
を含む、前記訓練することと、
前記疾患検出モデルが訓練された後に、新たな画像スタディの前記疾患の確率を生成するために前記新たな画像スタディに前記疾患検出モデルを適用することと、
を行うように構成される、システム。
前記疾患ラベルは、前記画像スタディに関連付けられた患者が前記疾患と診断されたか否かのバイナリ・ラベルを含む、請求項１に記載のシステム。
前記疾患の前記確率は肺気腫の確率である、請求項１または２に記載のシステム。
前記複数の２次元スライスは、胸部を含む一連のコンピュータ断層撮影（ＣＴ）画像を含む、請求項１から３のいずれか一項に記載のシステム。
前記３次元画像ボリュームはアノテーションを含まない、請求項１から４のいずれか一項に記載のシステム。
前記畳み込み長短期記憶層を使用して前記複数の２次元スライスのそれぞれについて前記畳み込みニューラル・ネットワーク層によって抽出された前記特徴のセットを順次処理することは、前記３次元画像ボリュームにわたる空間パターンおよび変動を検出することを含む、請求項１から５のいずれか一項に記載のシステム。
前記疾患検出モデルは２つの双方向のユニットのペアを含み、各ユニットは前記畳み込み層および前記畳み込み長短期記憶層を含む、請求項１から６のいずれか一項に記載のシステム。
前記２つの双方向のユニットのペアは、前記複数の２次元スライスの昇順で前記３次元画像ボリュームに３２個のフィルタを適用する第１のユニットと、前記複数の２次元スライスの降順で前記３次元画像ボリュームに３２個のフィルタを適用する第２のユニットと、前記昇順で前記３次元画像ボリュームに６４個のフィルタを適用する第３のユニットと、前記降順で前記３次元画像ボリュームに６４個のフィルタを適用する第４のユニットと、を含む、請求項１から７のいずれか一項に記載のシステム。
前記１つまたは複数のプロセッサは、前記複数の２次元スライスのうちの前記順番が最後のものからシグモイド活性化型Ｄｅｎｓｅ層に単一の特徴のセットを出力することによって、前記疾患の確率を生成するために前記複数の２次元スライスのうちの前記順番が最後のものに関する前記畳み込み長短期記憶層からの前記出力を処理するように構成される、請求項１から８のいずれか一項に記載のシステム。
前記疾患検出モデルは、前記畳み込み長短期記憶層のための最大値プーリング層をさらに含む、請求項１から９のいずれか一項に記載のシステム。
疾患検出モデルを開発するための方法であって、
１つまたは複数の電子プロセッサを用いて、画像スタディと、前記画像スタディについて生成された読影レポートからマイニングされた関連付けられた疾患ラベルとを使用して前記疾患検出モデルを訓練することであって、前記画像スタディは３次元画像ボリュームの複数の２次元スライスのシーケンスを含み、前記疾患検出モデルは畳み込みニューラル・ネットワーク層および畳み込み長短期記憶層を含み、前記疾患検出モデルを訓練することは、
前記畳み込みニューラル・ネットワーク層を使用して前記複数の２次元スライスのそれぞれから特徴のセットを個別に抽出することと、
前記畳み込み長短期記憶層を使用して前記複数の２次元スライスのそれぞれについて前記畳み込みニューラル・ネットワーク層によって抽出された前記特徴のセットを順次処理することと、
前記疾患の確率を生成するために前記複数の２次元スライスのうちの順番が最後のものに関する前記畳み込み長短期記憶層からの出力を処理することと、
前記確率を前記ラベルと比較することと、
前記比較に基づいて前記疾患検出モデルを更新することと、
を含む、前記訓練することと、
前記疾患検出モデルが訓練された後に、新たな画像スタディの前記疾患の確率を生成するために前記新たな画像スタディに前記疾患検出モデルを適用することと、
を含む、方法。
前記疾患ラベルは、前記画像スタディに関連付けられた患者が前記疾患と診断されたか否かのバイナリ・ラベルを含む、請求項１１に記載の方法。
前記疾患の前記確率は肺気腫の確率である、請求項１１または１２に記載の方法。
前記複数の２次元スライスは、胸部を含む一連のコンピュータ断層撮影（ＣＴ）画像を含む、請求項１１から１３のいずれか一項に記載の方法。
前記３次元画像ボリュームはアノテーションを含まない、請求項１１から１４のいずれか一項に記載の方法。
前記疾患検出モデルは２つの双方向のユニットのペアを含み、各ユニットは前記畳み込み層および前記畳み込み長短期記憶層を含む、請求項１１から１５のいずれか一項に記載の方法。
前記疾患の確率を生成するために前記複数の２次元スライスのうちの前記順番が最後のものに関する前記畳み込み長短期記憶層からの前記出力を処理することは、前記複数の２次元スライスのうちの前記順番が最後のものからシグモイド活性化型Ｄｅｎｓｅ層に単一の特徴のセットを出力することを含む、請求項１１から１６のいずれか一項に記載の方法。
疾患検出モデルを開発するためのコンピュータ・プログラム製品であって、処理回路によって読み取り可能であり、前記処理回路によって実行するための、請求項１１から１７のいずれか一項に記載の方法を実行するための命令を記憶するコンピュータ可読記憶媒体を備える、コンピュータ・プログラム製品。
コンピュータ可読媒体に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行された場合に、請求項１１から１７のいずれか一項に記載の方法を実行するためのソフトウェア・コード部分を含む、コンピュータ・プログラム。