JP2019076699A

JP2019076699A - 偽陽性低減での小結節検出

Info

Publication number: JP2019076699A
Application number: JP2018165289A
Authority: JP
Inventors: フーマオジン; Maojing Fu; タンシウ−クエン; Hsiu-Khuern Tang; メータアバイ; Mehta Abhay
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-10-26
Filing date: 2018-09-04
Publication date: 2019-05-23
Anticipated expiration: 2038-09-04
Also published as: US20190130228A1; JP6623265B2; US10346728B2

Abstract

【課題】高い精度かつ短い読取時間で小結節の位置を特定する臨床支援を提供する。【解決手段】システムは、小結節検出用の偽陽性低減機械学習モデル（ＭＬＭ）をトレーニングし得る。このシステムは、陽性画像における小結節位置の表示と共に、陰性画像及び陽性画像を含むトレーニングデータ画像を受信し得る。システムは、陽性画像における小結節について楕円近似を決定してよく、かつこの楕円近似からそれぞれの二値化輪郭を決定してよい。さらにシステムは、二値化輪郭のための楕円近似空間を決定してよく、かつ陽性画像における個々の画像サンプルと楕円近似空間との間の部分空間角度を、ＭＬＭの少なくとも１つの特徴として決定してよい。その後、小結節検出中にＭＬＭを適用する際には、小結節の表示が正しいか否かを判定するために、ＭＬＭに１枚以上の画像が入力されてよく、小結節位置の表示が正しい場合には、小結節の位置の可視化が提供され得る。【選択図】図１

Description

肺癌は、癌死亡の主因である。早期に肺癌を検出することで、患者の予後を大幅に改善することができる。肺腫瘍又はその他の異常成長は、肺組織の細胞分割及び／又は異常な細胞死の異常率の結果であり得る。コンピュータ断層撮影法（ＣＴ）及び／又はその他の撮像技術を用いた肺腫瘍及びその他の異常成長（以下「小結節」という）のコンピュータ支援検出は、肺癌の検出、診断、及びモニタリングに有用であることが証明されてきた。よって、肺小結節のコンピュータ支援検出は、肺癌スクリーニングプログラムにおける有益なツールである。しかしながら、画像における自動小結節検出の既存の技術は、感度に制限があったり、偽陽性率が高かったり、異なるタイプの肺小結節に亘っての一般性に乏しかったりする場合が多い。

いくつかの実施形態は、自動小結節検出中の偽陽性を低減させるアレンジメント及び技術を含む。例えば、コンピュータシステムは、小結節検出中に使用するための偽陽性低減機械学習モデル（ＭＬＭ）をトレーニングし得る。このシステムは、陽性画像における小結節位置の表示（indication）と共に、陰性画像及び陽性画像を含むトレーニングデータ画像を受信し得る。トレーニングデータセットを作成する際に、陰性画像の情報告知済みサンプリング（informed sampling）を行うために、ボロノイ分割を使用して、かつ／又はトレーニングデータセットを作成する際に、陽性画像のうちの１つ以上についてデータ拡張（data augmentation）を行う場合もある。

いくつかの例では、上記システムは、陽性画像における小結節について楕円近似を決定してよく、かつこの楕円近似からそれぞれの二値化輪郭（binarized contours）を決定してよい。さらにシステムは、二値化輪郭のための楕円近似空間を決定してよく、かつ陽性画像における個々の画像サンプルと楕円近似空間との間の部分空間角度（subspace angle）を、ＭＬＭの少なくとも１つの特徴として決定してよい。その後、小結節検出中にＭＬＭを適用する際には、小結節位置の表示が正しいか否かを判定するために、ＭＬＭに１枚以上の患者の画像を入力してよく、小結節位置の表示が正しい場合には、小結節の位置の可視化が提供され得る。

添付の図面を参照して、詳細な説明がなされる。図面において、符号の左端の数字は、当該符号が最初に現れる図面を特定している。異なる図面での同一符号の使用は、類似する又は一致する項目又は特徴を示す。

図１は、いくつかの実施形態に従って画像処理を行うことができるシステムのアーキテクチャー例を示す。図２は、いくつかの実施形態に従う小結節検出のためのプロセス例を示す。図３は、いくつかの実施形態に従う偽陽性低減のための機械学習モデルを生成するためのプロセス例を示すフローチャートである。図４は、いくつかの実施形態に従うボロノイ分割ポリゴンの例を示す。図５は、いくつかの実施形態に従って情報告知済みサンプリングを行うためのプロセス例を示すフローチャートである。図６は、いくつかの実施形態に従ってボロノイポリゴンを決定するために入力サンプルに対してボロノイ分割を実施する例を示す。図７は、いくつかの実施形態に従ってボロノイポリゴンの正規化容量からヒストグラムを決定する例を示す。図８は、いくつかの実施形態に従うサンプル画像パッチについてのデータ拡張の例を示す。図９は、いくつかの実施形態に従って楕円近似空間に対する角度を決めるためのプロセス例９００を示すフローチャートである。図１０は、いくつかの実施形態に従って陽性サンプルについて楕円近似を計算する例を示す。図１１は、いくつかの実施形態に従って楕円近似から二値化輪郭を形成する例を示す。図１２は、いくつかの実施形態に従って楕円近似空間に対する角度を計算する例を示す。図１３は、いくつかの実施形態に従って画像パッチから抽出され得るデータ構造例要約特徴を示す。図１４は、いくつかの実施形態に従って偽陽性低減機械学習モデルにおける特徴を組み合わせるためのプロセス例を示すフローチャートである。図１５は、いくつかの実施形態に従って小結節検出のためのユーザインターフェース例を示す。

本明細書のいくつかの実施形態は、画像における自動小結節検出中に、小結節の偽陽性特定（false positive identification of nodules）を低減するための技術及びアレンジメントを対象にしている。いくつかの例は、トレーニングされた機械学習モデル（ＭＬＭ）に、アンダーサンプリング技術、データ拡張技術、及び特徴抽出技術を統合することによる、肺小結節のコンピュータ支援検出における偽陽性低減を含む。結果として得られるシステム及びＭＬＭは、偽陽性率を低減させるのみならず、肺小結節の位置を特定し、かつ特定された小結節の位置を示す可視化を提供するための堅牢な（robust）性能も提供する。よって、本明細書の実施形態は、より高い精度かつより短い読取時間で小結節の位置を特定するための臨床支援を、放射線技師又はその他の医師に提供し得る。

本明細書のいくつかの例では、ＭＬＭの構築及びトレーニングの間により良くバランスが取られた画像サンプルのデータセットを生成するため、クラスのバランスが取れていないデータセット（class-imbalanced datasets）の前処理を行うための情報告知済みアンダーサンプリング（informed undersampling）及びデータ拡張技術を適用する。対象となる画像特徴は、画像内のそれぞれの位置から等、画像パッチとしてバランスが取られた画像サンプルから特定されかつ抽出され得る。これらの画像特徴はさらに、関連画像パッチを陽性又は陰性（それぞれ真の又は偽の小結節位置に対応され得る）として分類するトレーニング済み偽陽性低減ＭＬＭを生成するために使用される。偽陽性低減ＭＬＭは、患者の画像において肺小結節位置を特定する際に医師を支援するために実際の使用に適用される前に、さらにチューニングされかつ最適化され得る。

偽陽性低減ＭＬＭのトレーニングの後、偽陽性低減ＭＬＭは画像処理アルゴリズムや小結節検出プロセスで使用され得る。一例として、本明細書の小結節検出用の画像処理アルゴリズムは一連のステップを含んでよく、当該ステップは、入力画像の前処理、初回小結節検出、偽陽性低減、及び小結節位置の表示の二次元（２Ｄ）又は三次元（３Ｄ）レンダリング等での特定された小結節についての可視化生成を含み得る。小結節検出アルゴリズム全体の速度及び精度の改良は、偽陽性低減ステップ及び／又は上記ステップのうちのその他のステップの改良の結果であり得る。

本明細書の実施形態は、従来技術よりも効率が高くかつより正確であり、かつＣＴ画像などの複数の画像を処理する際に、自動小結節検出中の偽陽性低減を改良する、偽陽性低減ＭＬＭを生成かつ適用する。本明細書における偽陽性低減技術は、偽陽性低減ステップの精度を改良するため、かつ偽陽性低減ＭＬＭの使用に要する計算時間を削減するために、情報告知済みサンプリング（informed sampling）、データ拡張、及び特徴抽出を偽陽性低減ＭＬＭに統合することによって、小結節検出システム全体の性能を改良する。

いくつかの例では、偽陽性低減ＭＬＭは、勾配ブースティングモデル又は同様のタイプの分類子モデルであり得る。偽陽性低減ＭＬＭの作成及びトレーニングの間、モデル構築プログラムは、複数のＣＴ画像を含み得るトレーニングデータのセットを受信し得る。トレーニングデータは、画像内に既に特定された小結節位置を有してよく、かつ関連注釈（associated annotations）を含んでよい。モデル構築プログラムは、座標変換を行い、かつ複数のＣＴ画像から画像パッチを抽出することによって、トレーニングデータの前処理を行い得る。モデル構築プログラムはさらに、まばらなサンプル（sparse samples）を保持する陰性サンプルの良好な分布を確保するために、ボロノイ分割を用いて、多数クラス（majority-class）（陰性）画像パッチに対して情報告知済みサンプリングを実施し得る。さらに、モデル構築プログラムは、少数クラスを増やすために追加の陽性サンプルを生成するため、少数クラス（minority-class）（陽性）画像パッチのデータ拡張を実施し得る。

モデル構築プログラムは、偽陽性低減ＭＬＭのトレーニング、検証及び検査に使用するために、受信した画像から複数のデータセットを生成するため、本明細書における情報告知済みサンプリング及びデータ拡張技術を使用し得る。さらに、モデル構築プログラムは、陽性及び陰性サンプルから特徴抽出してよく、かつ事前に定義されたメトリックが集中する（converge）まで、パラメータチューニング及びクロス検証を行ってよい。偽陽性低減ＭＬＭの生成が完了した後、小結節特定プログラムは、１つ以上の画像について出力ラベルを生成するために、トレーニング済み偽陽性低減ＭＬＭを適用してよい。陽性出力ラベルに基づいて、小結節特定プログラムは、１つ以上の画像において特定された小結節をハイライト表示する又はその他の態様で視覚的に区別するためなどで、それぞれの患者の画像について関連可視化（associated visualization）及び／又はメタデータを生成してよい。

説明の目的上、肺小結節の位置の自動特定中にＣＴ画像を処理するためのトレーニング済み機械学習モデルを生成する計算装置の環境において、いくつかの実施形態例を説明する。しかしながら、本明細書の実施形態は、提供される特定の例に制限されるものではなく、本明細書の開示に鑑みて当業者にとって明らかとなるであろうその他のタイプの画像及び撮像技術、その他のタイプの環境、その他のシステムアーキテクチャー、その他のタイプの小結節及び癌などに及び得る。いくつかの例として、本明細書の技術は、脳、甲状腺、胸、肝臓、リンパ節、胃、喉、腸、前立腺、膵臓、腎臓等の他の身体部位における小結節を特定するために使用してよい。よって、本明細書の実施形態は、特定のタイプの癌、身体部位等に制限されない。さらに、本明細書の技術は、ＣＴ画像に加えてその他多様な種類の画像及び撮像システム（ＭＲＩ画像、超音波画像等）に適用され得る。

図１は、いくつかの実施形態に係る画像処理を行うことができるシステム１００のアーキテクチャー例を示す。システム１００は、例えば１つ以上のネットワーク１０６を介して少なくとも１つのストレージ計算装置１０４と通信可能な少なくとも１つのサービス計算装置１０２を含む。さらに、ストレージ計算装置１０４及び／又はサービス計算装置１０２は、１つ以上のネットワーク１０６を介して１つ以上の撮像計算装置（imaging computing devices）１０８及び１つ以上のユーザ計算装置１１０と通信し得る。

いくつかの例では、サービス計算装置１０２、ストレージ計算装置１０４、撮像計算装置１０８、及び／又はユーザ計算装置１１０は、いくつもの態様で具現化され得る１つ以上のサーバ、パーソナルコンピュータ、又はその他のタイプの計算装置を含んでよい。例えばサーバの場合、プログラム、その他の機能部品、及び少なくともデータストレージの一部は、サーバのクラスタ、サーバファーム又はデータセンター、クラウドホストされた（cloud-hosted）計算サービス等、少なくとも１つのサーバ上で実施され得るが、その他のコンピュータアーキテクチャーも追加で又は代わりとして使用してよい。

図示されている例では、サービス計算装置１０２は、１つ以上のプロセッサ１１２、１つ以上の通信インターフェース（Ｉ／Ｆ）１１４、及び１つ以上のコンピュータ可読媒体１１６を含み、又はこれらと関連付けられ得る。各プロセッサ１１２は、１つの処理装置又は多数の処理装置でよく、かつ１つ又は多数の演算器、又は多数の処理コアを含んでよい。プロセッサ１１２は、１つ以上の中央処理装置、マイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、状態機械、論理回路、グラフィック処理装置、及び／又は操作命令に基づく信号を扱うあらゆる装置として実現可能である。例えば、プロセッサ１１２は、本明細書記載のアルゴリズム及びプロセスを実行するように特にプログラムされた又は構成されたあらゆる適したタイプの１つ以上のハードウェアプロセッサ及び／又は論理回路であり得る。プロセッサ１１２は、本明細書記載の機能を実行するようにプロセッサ１１２をプログラムすることができる、コンピュータ可読媒体１１６に記憶されたコンピュータ可読命令を取り出しかつ実行するように構成され得る。

コンピュータ可読媒体１１６は、コンピュータ可読命令、データ構造、プログラムモジュール、又はその他のデータなどの情報の記憶のためのあらゆるタイプの技術で実現される揮発性及び非揮発性メモリ、並びに／又は取外し可能及び取外し不能媒体を含み得る。例えば、コンピュータ可読媒体１１６は、RAM、ROM、EEPROM、フラッシュメモリ又はその他のメモリ技術、光記憶装置、固体記憶装置、磁気テープ、磁気ディスク記憶装置、ＲＡＩＤ記憶システム、ストレージアレイ、ネットワーク接続ストレージ（network attached storage）、ストレージエリアネットワーク、クラウドストレージ、又は望ましい情報を記憶するために使用することができ、かつ計算装置によってアクセス可能なその他あらゆる媒体を含み得るが、これらに制限されない。サービス計算装置１０２の構成に応じて、コンピュータ可読媒体１１６は、示された場合に、非一時的コンピュータ可読媒体が、例えばエネルギー、搬送波信号、電磁波、及び／又は信号自体等を除く範囲において、有形非一時的媒体であり得る。コンピュータ可読媒体１１６はサービス計算装置１０２と同じ位置にある場合もあり、他の例では、コンピュータ可読媒体１１６は、サービス計算装置１０２から部分的に遠隔であり得る。

コンピュータ可読媒体１１６は、プロセッサ１１２によって実行可能ないくつもの機能部品を記憶するために使用され得る。多くの実施形態では、これらの機能部品は、プロセッサ１１１２によって実行可能な命令又はプログラムであって、実行された際には、本明細書においてサービス計算装置１０２に帰するものとするアクションを行うために、特にプロセッサ１１２をプログラムする命令又はプログラムを含む。コンピュータ可読媒体１１６に記憶された機能部品は、小結節特定プログラム１１８と、モデル構築プログラム１２０とを含み得る。

小結節特定プログラム１１８は、プロセッサ１１２をして、複数の画像１２２を受信させ、複数の画像１２２に存在するかもしれない小結節の位置の仮特定を行うために小結節特定機械学習モデル（ＭＬＭ）１２４を使用させ、かつ小結節特定ＭＬＭ１２４の出力から偽陽性小結節の特定を減少させ又はその他の態様で取り除くために、本明細書で開示されている通りに偽陽性低減ＭＬＭ１２６を使用させるために実行可能な１つ以上のコンピュータプログラム、コンピュータ可読命令、実行可能コード、又はこれらの一部を含み得る。小結節特定プログラム１１８は、複数の画像１２２における１つ以上の小結節の特定に基づき、注釈を付された、ハイライト表示された、又はその他の態様で修正された画像、画像メタデータ等を含み得る強化画像情報（enhanced image information）１２８を生成し又はその他の態様で出力し得る。一例として、小結節特定プログラム１１８は、複数の画像１２２のうちの１つ以上の画像において特定された小結節の位置を指定するための１つ以上の境界ボックスを示す情報を提供してよく、かつストレージ計算装置１０４又はユーザ計算装置１１０のうちの少なくとも一方に送信された強化画像情報１２８と共にこの情報を含んでよい。

モデル構築プログラム１２０は、プロセッサ１１２をして偽陽性低減ＭＬＭ１２６を生成させるために実行可能な１つ以上のコンピュータプログラム、コンピュータ可読命令、実行可能コード、又はこれらの一部を含み得る。偽陽性低減ＭＬＭ１２６は、ストレージ計算装置１０４又はその他のネットワーク位置から取得し得るトレーニングデータ１３０を用いてトレーニングされてよい。例えば、トレーニングデータ１３０は、トレーニングデータ画像に存在するかもしれない小結節の位置を探して特定するために放射線技師によって手動で検査された画像のデータベースから取得してよい。

一例として、偽陽性低減ＭＬＭ１２６は勾配ブーストモデル（gradient boost model）又は同様の分類子モデルであってよい。勾配ブースティング（Gradient boosting）とは、回帰（regression）及び分類の問題のための機械学習技術である。勾配ブーストモデルは、複数のデシジョンツリー等の弱い予測モデルのアンサンブルを含む予測モデルであってよい。モデル構築プログラム１２０は、段階的な（stage-wise）態様で弱い予測モデルを構築したり、任意の微分可能損失関数の最適化を可能にすることよって、弱い予測モデルを一般化したりしてよい。偽陽性低減ＭＬＭ１２６生成の追加の詳細は以下に記載する。

小結節特定ＭＬＭ１２４は、既存の画像分析及び認識技術を用いて偽陽性低減ＭＬＭ１２６から別個に生成され得る場合もある。一例として、小結節特定ＭＬＭ１２４は、それぞれの画像における勾配を決定し、勾配に基づく高位の（high order）特徴の決定を行い、かつ小結節の疑いがある位置を仮決定するために結果をフィルタリングすることによって、小結節検出のための画像処理を行ってよい。

サービス計算装置１０２のコンピュータ可読媒体１１６の追加の機能部品は、サービス計算装置１０２の多様な機能を制御かつ管理し得るオペレーティングシステム（図１には示されていない）を含み得る。機能部品は、コンピュータ可読媒体１１６の記憶部分に記憶され、コンピュータ可読媒体１１６のローカルメモリ部分にロードされ、かつ１つ以上のプロセッサ１１２によって実行される場合もある。その他多くのソフトウェア及び／又はハードウェア構成が、本明細書の開示の恩恵を受ける当業者にとって明らかになるであろう。

さらに、コンピュータ可読媒体１１６は、本明細書に記載される機能及びサービスを実施するために使用されるデータ及びデータ構造を記憶し得る。例えば、コンピュータ可読媒体１１６は、トレーニングデータ１３０と、さらに後述する通り偽陽性低減ＭＬＭ１２６の作成中に生成されるデータ（例えば、拡張トレーニングデータ１３２、データのボロノイ分割ポリゴン表現１３４、及びデータのヒストグラム表現１３６等）を記憶し得る。

サービス計算装置１０２は、プログラムやドライバ等を含み得るその他の機能部品及びデータと、機能部品によって使用される又は生成されるその他のデータを含み又は維持してもよい。さらに、サービス計算装置１０２は、その他の多くの論理的、プログラム的、かつ物理的部品（上述のもののこれらの部品は、単に本明細書における説明に関連する例である）を含んでよい。

さらに、いくつかの例では、本明細書で説明する操作の一部は、複数のサービス計算装置１０２のうちの第１のサービス計算装置１０２によって実施され、かつ操作の別の部分は、複数のサービス計算装置１０２のうちの第２のサービス計算装置１０２によって実施されてよい。一例として、１つ以上の第１のサービス計算装置１０２は、偽陽性低減ＭＬＭ１２６を構築しかつトレーニングするためにモデル構築プログラム１２０を実行してよく、一方で、１つ以上の第２のサービス計算装置１０２は、小結節特定ＭＬＭ１２４と画像１２２を分析する偽陽性低減ＭＬＭ１２６とを適用するための小結節特定プログラム１１８を実行してよい。その他多くのバリエーションが、本明細書の開示の恩恵を受ける当業者にとって明らかになるであろう。

通信インターフェース１１４は、例えば１つ以上のネットワーク１０６を介してなど、その他の多様な装置との通信を可能にする１つ以上のインターフェース及びハードウェア部品を含み得る。よって、通信インターフェース１１４は、ストレージ計算装置１０４、撮像計算装置１０８、及び／又はユーザ計算装置１１０との通信のためのネットワーク１０６への接続を提供する１つ以上のポートを含んでよく、又は当該１つ以上のポートに接続されてよい。例えば、通信インターフェース１１４は、ＬＡＮ（ローカルエリアネットワーク）、ＷＡＮ（広域ネットワーク）、インターネット、ケーブルネットワーク、移動体通信ネットワーク、無線ネットワーク（例えば、Wi-Fi）及び有線ネットワーク（例えば、光ファイバー、イーサネット（登録商標）、ファイバーチャネル,）、直接接続、並びに近距離通信（BLUETOOTH（登録商標）等）（以下にさらに列記する通り）のうち１つ以上を介した通信を可能にし得る。

１つ以上のネットワーク１０６は、ＬＡＮ（イントラネット等）、ＷＡＮ（インターネット等）、無線ネットワーク（移動体通信ネットワーク等）、ローカル無線ネットワーク（Wi-Fi等）、近距離無線通信（BLUETOOTH（登録商標）等）、有線ネットワーク（光ファイバー、イーサネット（登録商標）、ファイバーチャネル又はその他のかかるネットワークを含む）、直接有線接続、又はこれらのあらゆる組み合わせを含む、あらゆるタイプのネットワークを含み得る。よって、１つ以上のネットワーク１０６は、有線及び／又は無線通信技術の両方を含み得る。上記通信のために使用される部品は、少なくとも部分的にはネットワークのタイプ、選択された環境、又はこれらの両方に依存し得る。上記ネットワーク上での通信のためのプロトコルは周知であり、本明細書においては詳細を説明しない。従って、サービス計算装置１０２、ストレージ計算装置１０４、撮像計算装置１０８、及びユーザ計算装置１１０は、有線又は無線接続、及びこれらの組み合わせを用いて、１つ以上のネットワーク１０６上で通信することができる。

ストレージ計算装置１０４は、１つ以上のプロセッサ１４０、１つ以上の通信インターフェース１４２、及び１つ以上のコンピュータ可読媒体１４４を含んでよい。いくつかの例では、ストレージ計算装置１０４は、上述のサービス計算装置１０２と同様のハードウェア構成を有し得る。例えば、１つ以上のプロセッサ１４０は、上述のプロセッサ１１２の例のうちのいずれかを含んでよく、１つ以上の通信インターフェース１４２は、上述の通信インターフェース１１４の例のいずれかを含んでよく、かつ１つ以上のコンピュータ可読媒体１４４は、上述のコンピュータ可読媒体１１６の例のいずれかを含んでよい。

ストレージ計算装置１０４上のコンピュータ可読媒体１４４は、ストレージ計算装置１０４によって記憶されたデータのストレージを管理するためのストレージプログラム１４６を含んでよい。さらに、コンピュータ可読媒体１４４は、画像１２２、画像メタデータ１４８、強化画像情報１２８（サービス計算装置１０２から受信し得る）、及びトレーニングデータ１３０を記憶してよい。

いくつかの例では、ストレージ計算装置１０４は、いくつかの別個のストレージステムを含んでよく、これらのストレージシステムは、病院のデータベースとストレージシステム、撮像専門家（imaging specialists）データベースとストレージシステム、リサーチ及び／又は大学データベースとストレージシステム等を含んでよく、これらは、ネットワーク・ベースのストレージシステム、記憶領域ネットワーク、オブジェクトストレージシステム、クラウドストレージシステム等を含んでよい。さらに、一例として、トレーニングデータ１３０は、肺小結節分析２０１６年（ＬＵＮＡ’１６）コンペティション（Lung Nodule Analysis 2016 (LUNA’16) Competition）から公的に入手可能なデータセットから取得してよい。例えば、トレーニングデータセットは、肺画像データベース協会（Lung Image Database Consortium）画像コレクションからのものであってよく、かつ２.５ｍｍを上回る交差面解像度（through-plane resolution）でのスキャンを取り除くために正規化されてよい。４名の熟練した放射線技師を用いた二段階注釈プロセスからの注釈も、関連陽性又は陰性画像パッチの生成を可能にするために、ＬＵＮＡ’１６データに含まれる。本明細書のいくつかの例では、注釈の参照基準（reference standard）は、４名の放射線技師のうち少なくとも３名によって受諾されたすべての小結節≧３ｍｍを含み得る。完全なＬＵＮＡ’１６データセットは、８８８セットの三次元ＣＴスキャンを含み、かつトレーニング、クロス検証、及び／又は検査目的で使用され得る１０個のサブセットに分けられ得る。ＬＵＮＡ’１６データセットに加えて又はこれの代わりとして、その他のトレーニングデータ１３０を使用してよい。さらに、図１の例では、ネットワーク１０６上でアクセス可能な別個のストレージシステムで維持されるものとして画像１２２、画像メタデータ１４８、及びトレーニングデータ１３０を示しているが、その他の例では、このデータのいずれも、１つ以上のサービス計算装置１０２によって局地的に維持されてよい。

撮像計算装置１０８は、１つ以上のプロセッサ１５０、１つ以上の通信インターフェース１５２、及び１つ以上のコンピュータ可読媒体１５４を含んでよい。いくつかの例では、撮像計算装置１０８は、上述のサービス計算装置１０２と同様のハードウェア構成を有し得る。例えば、１つ以上のプロセッサ１５０は、上述のプロセッサ１１２の例のうちのいずれかを含んでよく、１つ以上の通信インターフェース１５２は、上述の通信インターフェース１１４の例のうちのいずれかを含んでよく、かつ１つ以上のコンピュータ可読媒体１５４は、上述のコンピュータ可読媒体１１６の例のうちのいずれかを含んでよい。コンピュータ可読媒体１５４は、撮像プログラム１５６、画像１２２、及び画像メタデータ１４８を含み得る。

撮像計算装置１０８は、撮像システム１６０と一体化されるか又はその他の態様で関連付けられてよい。図示されている例では、撮像システムはＣＴスキャンシステムだが、その他の例では、撮像システム１６０はＭＲＩシステム、超音波撮像システム、又はその他のタイプの撮像システムであってよい。この例では、Ｘ線源１６２は、軸方向に可動なプラットフォーム１６６上にいる患者１６４の回りを回転し、あるいは、Ｘ線源１６２は、患者の身体に沿って軸方向に可動であってもよい。検出器１６８はＸ線を受信し、かつＲＡＷ画像データ（raw image data）１７０を撮像計算装置１０８に提供する。撮像プログラム１５６は、画像メタデータ１４８と関連して画像１２２のうちの１つ以上の画像としてＲＡＷ画像データ１７０を処理しかつ記憶してよい。画像メタデータ１４８は、患者の情報、日付、時間、画像焦点（image focus）、身体の位置等を含み得る。

ユーザ計算装置１１０は、１つ以上のプロセッサ１８０、１つ以上の通信インターフェース１８２、及び１つ以上のコンピュータ可読媒体１８４を含み得る。いくつかの例では、ユーザ計算装置１１０は、上述のサービス計算装置１０２と同様のハードウェア構成を有してよく、かつ／又はタブレット計算装置、携帯計算装置、スマートフォン、仮想現実装置、拡張現実装置等のその他のタイプの計算装置を含んでよい、１つ以上のプロセッサ１８０は、上述のプロセッサ１１２の例のうちのいずれかを含んでよく、１つ以上の通信インターフェース１８２は、上述の通信インターフェース１１４の例のうちのいずれかを含んでよく、かつ１つ以上のコンピュータ可読媒体１８４は、上述のコンピュータ可読媒体１１６の例のうちのいずれかを含んでよい。いくつかの例では、コンピュータ可読媒体１８４は、画像閲覧プログラム（image viewing program）１８６、画像１２２、及び強化画像情報１２８を含み得る。いくつかの例では、ユーザ計算装置１１０はディスプレイ１８８を含んでよく、当該ディスプレイ１８８上で、画像閲覧プログラム１８６は１つ以上の画像１２２及び強化画像情報１２８を提示し得る。

一例として、放射線技師又はその他の医療従事者等のユーザ１９０は、特定の患者の画像を閲覧するために画像１２２及び画像メタデータ１４８にアクセスし得る。例えば、画像閲覧プログラム１８６はブラウザを含んでよく、又は小結節特定プログラム１２０で１つ以上のネットワーク１０６上での通信を通して等で、遠隔で画像１２２にアクセスしたり閲覧したりするために、ブラウザ上で実行されてよい。ブラウザ・ベースの例では、画像閲覧プログラム１８６は、１つ以上のネットワーク上で小結節特定プログラム１１８にアクセスし、対象患者／画像を特定してよく、これにより小結節特定プログラム１１８をして、ストレージ計算装置１０４から対応する画像１２２を取り出させ得る。小結節特定プログラム１１８は、画像閲覧プログラム１８６として実行するブラウザを介して閲覧するために、ユーザ計算装置１１０に画像１２２を送信してよい。例えば、ユーザ１９０は、画像が小結節を含んでいるか否かを問い合わせるために、画像のうちの１つ以上を又は画像のうちの１つ以上の中の領域を選択し得る。これに応じて、図２について後述するように、小結節特定プログラム１１８はリアルタイムで図２の小結節特定プロセスを実施してよく、かつ選択された画像１２２において検出された小結節の位置を特定するために画像閲覧プログラム１８６によって提示された強化画像情報１２８を返送してよい。例えば、強化画像情報１２８は、位置情報や、ディスプレイ１８８上で検出された小結節の位置をハイライト表示するか又はその他の態様で視覚的に区別する２Ｄ画像又は３Ｄ画像等の拡張画像を画像閲覧プログラムに提示させるその他の注釈情報を含み得る。

あるいは別の例として、画像閲覧プログラム１８６は、ストレージ計算装置１０４から又はサービス計算装置１０２から画像１２０を引き出す専用画像ビューアアプリケーションであってよい。強化画像情報１２８は、小結節特定プログラム１１８によって小結節が特定された画像１２２内の１つ以上の領域をハイライト表示するか又はその他の態様で特定するために、画像閲覧プログラム１８６によって受信又は使用され得る。強化画像情報１２８はリアルタイムで生成される場合もあり、例えば、ユーザ１９０は複数の画像１２２のうちの１枚の画像又は複数の画像１２２のセットをクリックし又はその他の態様で選択し、これによって画像閲覧プログラム１８６をして、特定された画像１２２にアクセスしかつ当該画像１２２上で小結節検出を行うために、小結節特定プログラム１１８を呼び出すための通信を送信させ得る。別の代替例として、小結節特定プログラム１１８は事前に呼び出されていてもよく、かつ拡張画像データ１２８は、例えばストレージ計算装置１０４によって、又はユーザ計算装置１１０によって生成され、かつ画像メタデータ１４８及び画像１２２に関連付けて記憶されてよい。さらに別の代替例として、小結節特定プログラム１１８、小結節特定ＭＬＭ１２４、及び偽陽性低減ＭＬＭ１２６は、ユーザコンピュータ装置１１０に位置づけられかつ／又はユーザコンピュータ装置１１０上で実行されてよい。さらに、いくつかの使用事例及びソフトウェア構成が本明細書で説明されているが、本明細書の開示の恩恵を受ける当業者にとって、その他の多くのバリエーションが明らかとなるであろう。

図１の例では、より正確で、かつ従来技術よりも少ない計算時間を要する態様で、小結節の特定中の偽陽性を低減させることによって、サービス計算装置１０２がより効率的に小結節の特定を行うことができるようにする、トレーニング済み偽陽性低減ＭＬＭ１２６を生成するために、モデル構築プログラム１２０を実行し得る。例えば、本明細書の偽陽性低減ＭＬＭ１２６は従来モデルよりも正確であるため、サービス計算装置１０２は、小結節の特定段階中により効率的に実行し、かつ画像における小結節の偽陽性特定を低減させる追加のステップの使用を要さない。よって、偽陽性低減ＭＬＭは、小結節検出システム全体を改良する、改良されたソフトウェアアレンジメントを提供する。

偽陽性低減ＭＬＭ１２６を生成する際に、本明細書のいくつかの例では、二項分類問題として偽陽性低減タスクを公式化し、かつ超勾配ブースティング（extreme gradient boosting）（XGBoost）モデル又はその他の適切なモデルを通してこの問題を解決する。一例として、集合（set）Yをバイナリラベルの集合とし、数１をトレーニングデータセットとし、ここでz_i∈R^dは、１からmまでの複数の画像パッチのうちのi番目の画像パッチからの特徴を表すベクトルであり、R^dは、画像パッチ中のピクセル数に基づくd次元の実空間であり、及びy_iは、例えば小結節特定ＭＬＭ１２４から受信された画像パッチz_iに関連付けられたラベルを示す。

XGBoostモデルは、基本分類子（base classifiers）{δ_r}_r∈Rの集合からの決定δ(z_i)∈Yを出力するように構成されてよく、ここで、Rは、デシジョンツリー又はその他の分類モデル等のパラメータ化された分類モデルのクラスである。一例として、XGBoostモデルは、パラメータ化されたツリーの集合を基本分類子と用いてよく、数２となり、ここでα及びβは、ツリー分類子δのそれぞれについて設定可能なパラメータであり、かつデシジョンツリーの結果に重み付けを適用するために調整されてよい。さらに、デシジョンツリーは本明細書における基本分類子の一例だが、その他のタイプの基本分類子もまた、又は代わりとして使用してよい。

いくつかの例では、本明細書におけるモデルトレーニング技術は、経験損失の最小化、数３に類似させてよく、ここでL(・)はカスタマイズ可能な経験損失関数であり、λは正則化パラメータであり、かつR(・)は正則化関数である。よって、上記問題は凸（convex）であってよく、多様な凸最適化問題（convex optimization algorithms）によって解決され得る。本明細書での一例として、上記最適化問題は前向き段階的回帰（forward stage-wise regression）ルーチンを用いて解決してよく、これはPYTHON（登録商標）プログラミング言語用のXGBoost0.6.0パッケージから入手可能である。

トレーニングデータ１３０は、機械学習モデル１２６のトレーニングと検査の両方の間に使用され得る。上述の通り、いくつかの例では、トレーニングデータ１３０はＬＵＮＡ’１６コンペティションからの公的に入手可能なデータセットを含んでよいが、本明細書の実施形態は特定のトレーニングデータ１３０に制限されない。

さらに、ハイパーパラメータチューニングの間、グリッドサーチ及び手動サーチがおそらく最も普及している従来のアプローチである。しかしながら、グリッドサーチ又は手動サーチを適用することの一つの問題の可能性としては、XGBoostモデルの多数のパラメータの結果として生じ得る過重な演算オーバーヘッドである。従って、さらに後述するが、本明細書のいくつかの実施形態は、ランダムサーチ技術を用いてハイパーパラメータのチューニングを行うことによって、精度と計算時間のバランスを取る。本明細書におけるランダムサーチ技術は、その他の従来技術の結果に匹敵する又はこれよりも優れた結果をもたらし得るもので、大幅により短い計算時間を用いることとなる。例えば、モデルパラメータのチューニングのためにランダムサーチを使用することによって、モデル構築プログラムは、同じ時間以内により大きいサーチ空間を横断することができる。よって、本明細書における実施例は、１０倍クロス検証手順（例えば、PYTHON（登録商標）プログラミング言語用のScikit-Learn0.18.0パッケージから入手可能なルーチンの使用により）の最適化されたパラメータセットについてランダムサーチ戦略を適用してよい。

図２、図３、図９及び図１４は、いくつかの実施形態に係るプロセス例を示すフローチャートを含む。プロセスは、一連の操作を表す論理フローチャートにおけるブロックの集まりとして示され、上記操作の一部又はすべては、ハードウェア、ソフトウェア又はこれらの組み合わせによって実現され得る。ソフトウェアの観点から、ブロックは、１つ以上のコンピュータ可読媒体に記憶されたコンピュータ実行可能な命令であって、１つ以上のプロセッサによって実行された場合に、記載された操作をプロセッサに実行させるようにプログラムする命令を表し得る。一般的に、コンピュータ実行可能な命令は、特定の機能を実施し、又は特定のデータタイプを実装するルーチン、プログラム、オブジェクト、データ構造等を含む。ブロックが説明されている順番は、制限として解釈されるべきではない。説明されたいくつものブロックは、当該プロセス又は代替プロセスを実施するためにあらゆる順番でかつ／又は並行して組み合わせることができ、かつ必ずしもすべてのブロックを実行する必要はない。説明の目的上、本明細書の実施例で説明する環境、フレームワーク及びシステムに言及してプロセスを説明するが、プロセスは、その他幅広く多様な環境、フレームワーク及びシステムで実施され得る。

図２は、いくつかの実施形態に係る偽陽性低減で画像における小結節を特定するためのプロセス例２００を示すフローチャートである。いくつかの例では、プロセス２００は、サービス計算装置１０２又はその他の適切な計算装置によって実行され得る。プロセス２００は、いくつかの実施形態に従ったＣＴ画像等からの自動小結節検出のためのアルゴリズム例を定める。例えば、この例では、複数の画像２０２はそれぞれ、患者の肺２０６の断面２０４等、患者の身体部位の画像を含み得る。一連の操作は、画像２０２において小結節を特定するための計算装置によって実行され得る。

２１０では、計算装置は画像２０２を受信し得る。例えば、図１について上述した通り、放射線技師又はその他の医療従事者等のユーザは、画像において小結節位置を特定するための患者用のＣＴ画像のセットにアクセスするため、小結節特定プログラムを呼び出すために画像閲覧プログラムを使用し得る。ユーザは、画像中の小結節の可能性がある位置の仮選択又はその他の表示を行う場合もあり、その他の場合には、ユーザは処理用の画像のセットを単に指定し得る。

２１２では、計算装置は、より大きい画像を指定されたピクセル幅及び高さの画像パッチに縮小したり、コントラストを正規化したり、ノイズを減少させたり等によって、画像の前処理を行ってよい。例えば、画像パッチは、小結節を含んでいそうな画像の部分であってよい。例えば、画像が患者の肺の画像である場合、画像パッチは、肺を含む画像の部分から取ってよく、画像のその他の部分からではない。

２１４では、計算装置は、小結節を含んでいそうな画像内の位置を仮特定する小結節特定ＭＬＭに対して、画像を入力する。一例として、小結節特定ＭＬＭは、画像前処理を含んでよく、かつ画像における勾配を決定したり、勾配に基づき高位特徴決定（high order feature determination）を行ったり、かつ小結節の疑いがある位置を仮決定するために結果をフィルタリングしたりすることによって、エッジ検出を行ってよい。一例として、小結節特定ＭＬＭの出力は、小結節特定ＭＬＭに従って仮特定された小結節の位置を示す境界ボックスを含み得る。

２１６では、計算装置は、２１４にて画像内で仮特定された位置のうちのどれが実際に小結節を含んでいそうかを判定するために、本明細書に記載の偽陽性低減ＭＬＭを使用し得る。例えば、計算装置は、小結節の表示が正確であるか又はその他の態様で正しいか否かを判定するために、小結節特定ＭＬＭから受信した対応する位置情報と共に、小結節位置が特定されたことを示された１つ以上の画像を、偽陽性低減ＭＬＭに入力し得る。いくつかの例では、偽陽性低減ＭＬＭは、陽性（すなわち当該位置に小結節がある）か、又は陰性（すなわち当該位置に小結節はない）というバイナリ出力を提供し得る。偽陽性低減ＭＬＭの追加の詳細は以下に記載する。

２１８では、計算装置は、２１６の出力に基づいてユーザに提示するための可視化情報を生成し得る。例えば、図２の２２０に示される通り、可視化は、患者の身体の部分の２Ｄ又は３Ｄ画像であってよく、例えば、この例の患者の肺２０６が、検出された小結節２２４の位置をユーザに示すために、特徴２２２をハイライト表示されたか又はその他の態様で視覚的に区別したものである。例えば、３Ｄ画像は、複数の断面画像２０２から構築され、かつ異なる角度、視点、ズームレベル等で見られるように画像を操作可能であるｘｙｚ空間で提示され得る。

さらに以下に記載する通り、本明細書における偽陽性低減ＭＬＭは、偽陽性低減の精度を改良する一方で、計算時間を短縮し、かつ小結節特定プログラムが演算をより効率的に行うことができるようにもする。よって、偽陽性低減ＭＬＭは、サービス計算装置が、偽陽性小結節の特定を低減させ、その後、偽陽性低減ＭＬＭの出力に基づいて陽性小結節の特定位置の可視化を生成するために、画像を処理する態様を改良することによって、サービス計算装置それ自体のコンピュータ機能の改良を提供する。

図３は、いくつかの実施形態に従って偽陽性低減ＭＬＭを生成するためのプロセス例３００を示すフローチャートである。いくつかの例では、プロセス３００は、例えば、ＣＴ画像等からの自動小結節検出中に偽陽性低減を実施することができる機械学習モデルを生成するためにモデル構築プログラムを実行することによって、サービス計算装置１０２又はその他の適切な計算装置によって実行され得る。

３０２では、計算装置は、画像、表示済み（indicated）小結節位置、及び関連注釈を受信し得る。例えば、トレーニングデータとして、計算装置は、対象となる複数のＣＴ画像にアクセスし又はその他の態様で受信してよく、これらの複数のＣＴ画像の一部は、例えば放射線技師等によって作成された表示済み小結節位置及び関連注釈を含み得る。前述の通り、一例として、トレーニングデータは、ＬＵＮＡ’１６コンペティション又はその他の適切なソースから取得してよく、かつ２.５ｍｍを上回る交差面解像度でのスキャンを除外するために正規化されてよい。熟練した４名の放射線技師を用いた二段階注釈プロセスからの注釈も、ＬＵＮＡ’１６データに含まれ、かつ関連陽性及び陰性画像パッチを生成するために使用されてよい。

３０４では、計算装置は、受信した画像に対して前処理を実施し得る。例えば、計算装置は、座標変換を行い、かつ画像から画像パッチを抽出してよい。受信画像から決定された画像パッチは、均一のピクセル高さ及び幅であり、かつ小結節を含んでいそうな画像の部分から得られる場合がある。例えば、肺小結節検出の場合、画像パッチは、肺以外の身体部分又は患者の肺の外側の領域ではなくむしろ、少なくとも肺の一部を含み得る。

３０６では、計算装置は、多数クラス（陰性）画像パッチに対して情報告知済みサンプリング（informed sampling）を実施し得る。本明細書におけるいくつかの例では、計算装置は、以下に説明する通り、ボロノイ分割を用いて多数クラス（陰性）画像パッチに対して情報告知済みサンプリングを実施し得る。本明細書の情報告知済みサンプリングは、モデルの検証又は検査用の１つ以上の追加データセットを作成するために、十分な量の異なるデータを残しつつ、トレーニングモデルとして使用できる１つ以上のデータセットを作成するための多様な異なる画像の分布の選択（サンプリング）を可能にする。例えば、同じデータをモデルのトレーニングとモデルの検査の両方に使用するのは望ましくない。従って、受信したトレーニングデータの多数クラスは、それぞれが異なる画像を含む複数のデータセットを作成するためにサンプリングしてよい（つまり、当該多数クラスから複数の画像を選択する）。例えば、複数のデータセットのうちの１つ以上をモデルのトレーニングに使用してよく、かつ複数のデータセットのうちの１つ以上をモデルの検証及び検査に使用してよい。前述の通り、一例として、受信したトレーニングデータから１０個の異なるデータセットを作成してよい。クロス検証として、１０個の異なるデータセットの異なる組み合わせを用いて、偽陽性低減ＭＬＭのトレーニングと検査を交互に行ってよい。

従来技術は、トレーニングデータを多数のデータセットにランダムに分割することと、データをデータセットに分割するためにクラスタリング技術を使用することを含み得る。しかしながら、これらの技術は、画像コンテンツのバリエーションを含み、かつまばらなサンプルを保持するデータセットを決定するために、情報告知済みサンプリングを行う本明細書の技術ほど正確なモデルを提供しないかもしれない。従って、本明細書の情報告知済みサンプリングは、異なる画像タイプの頻度を決定するように、かつ例えば図５〜図７についてさらに以下に記載する通り、頻度を考慮することに基づいて複数のデータセットについてサンプルを選択することができるように、画像パッチにおける類似点と差異を検出するためにボロノイ分割を使用する。

３０８では、計算装置は、少数クラス（陽性）画像パッチに対してデータ拡張を実施し得る。例えば、さらに以下に記載する通り、計算装置は、少数（minority）（陽性）画像パッチを並進移動し（translating）、ズームし、回転し、反転し、かつ／又はその他の態様で改変することによって、異なる外観の追加画像パッチを生成することによって、少数クラス（陽性）画像パッチに対して拡張データを作成し得る。よって、データセットが、他の陽性サンプルとは外観が異なる陽性サンプルの数をより多く有することができるようにするために、陽性サンプルの数、分散（variance）及び基数（cardinality）を増やすことができる。

３１０では、計算装置は、トレーニング、検証、及び検査のために複数のデータセットを生成し得る。例えば、計算装置は、受信トレーニングデータ及び拡張トレーニングデータから多数のデータセットを生成するために、上述の情報告知済みサンプリング及びデータ拡張を使用し得る。一例として、複数のデータセットを作成してよく、そして１つのデータセットをトレーニングフェーズで使用する一方で、その他のデータセットを検証／検査フェーズに使用してよく、その後、データセットのうちの次の１つをトレーニングフェーズに使用しつつ、その他のデータセットを検証／検査フェーズに使用するなどしてよい。トレーニングフェーズの間、トレーニングデータセットは、入力と期待される出力とを対にすることによってモデル用のパラメータを決定するために使用される。検証／検査フェーズの間、モデルがいかに良くトレーニングされたかを判定し、かつモデルの特性（例えば、モデルが分類エラーを生じるか否か等）を判定するために、１つ以上の異なるデータセットを使用してよい。

３１２では、計算装置は、トレーニングデータセットの生成が成功したか否かを判定し得る。例えば、検査データセットがモデルに適用された際に、トレーニングデータセットが、正しい出力を生成するモデルを生み出さない場合、当該データセットはバランスが取れていないかもしれず、かつ／又は管理者又はその他のユーザによって追加の調査が必要となり得る。

３１４では、トレーニングデータセットの生成が不成功であった場合、計算装置はモデルの生成を停止してよい。いくつかの例では、トレーニングデータセットの生成が成功しなかった旨、管理者又はその他のユーザに対して通知がなされてもよい。

３１６では、トレーニングデータセットの生成が成功した場合、計算装置は、陽性及び陰性サンプルから特徴を抽出し得る。さらに以下に記載する通り、計算装置は、陽性及び陰性サンプルからの特徴抽出を行う。本明細書におけるいくつかの例では、さらに以下に記載する通り、少なくとも１つの抽出された特徴は、選択された画像についての小結節の楕円近似と、陽性画像について決定された楕円近似空間との間の部分空間角度の決定に基づいている。さらに、本明細書におけるいくつかの例では、例えば図１３及び図１４についてさらに以下に記載する通り、その他の特徴も使用してよい。

３１８では、計算装置は、パラメータチューニング及びクロス検証を実施し得る。例えば、パラメータはチューニングされてよく、かつ事前に定義されたメトリックが集中する（converge）までクロス検証を行ってよい。本明細書におけるパラメータの非制限的例は、基本デシジョンツリー分類子に関して前述したα及びβであり、これらは複数のそれぞれの基本分類子のそれぞれの出力に重み付けする。クロス検証は、モデル出力の検査のために追加データセットを使用することを含み得る。

３２０では、計算装置は、モデルが集中している（converges）か否かを判定し得る。例えばエラーの量が追加の反復の後に増加しない場合、モデルは集中していると見なされる。言い換えると、多数のサンプルを用いて検査された際にモデルが一貫した出力を生成し、かつ追加のトレーニングが結果としてパラメータの重大な変更をもたらさないであろう場合、モデルは集中していると見なされる。例えば、モデルが一部のサンプルについて正しくない出力を生成し、かつその他のサンプルについて正しい出力を生成した場合、プロセスはブロック３１８に戻り、モデルが一貫して実行する（performs consistently）まで、さらにパラメータチューニングを行う。

３２２では、計算装置は偽陽性低減を行い、かつテストサンプル用のラベルを出力し得る。例えば、モデルの性能を確保するために、追加の検査データセットを用いてモデルを検査してよい。検査の後は、例えば図１及び図２について前述したように、放射線技師又はその他の医療従事者等のユーザのために患者の画像について小結節検出を行うため、モデルを配備してよい。

さらに、３０６で前述した通り、偽陽性低減ＭＬＭの生成の間、本明細書の実施形態は多数クラス（陰性）画像パッチに対して情報告知済みサンプリングを実施し得る。例えば、単に多数の画像パッチが共に処理されるという理由により、小結節の分類において計算の複雑性が問題となり得る。例えば、全米肺検診試験（National Lung Screening Trial）（ＮＬＳＴ）データベースからのＲＡＷ胸部ＣＴ画像のセットは、陰性サンプル（以下「多数クラス」という）の約１２,０００個の画像パッチと、陽性サンプル（以下「少数クラス」という）の約１００個の画像パッチとに分割され得る。さらに、より大きいセットのＲＡＷＣＴ画像にデータ拡張が適用された場合、画像パッチの数は大幅に増加され得る。その結果、その後の機械学習モデルは高次元の画像データに晒されるかもしれず、長い計算時間がかかり、かつ適切に扱うために多量のメモリが必要になり得る。

本明細書の機械学習モデルをトレーニングするために次元を低減させるため、予備知識主導のサンプリング戦略が本明細書におけるいくつかの例に適用される。例えば、サンプリング戦略は、サンプルの基礎となる分布を考慮する（すなわち、予備知識を有すること）ために十分に「賢明」であり得る。よって、本明細書の情報告知済みサンプリングの間、サンプルの濃密なクラスターに対してスパースサンプリング（sparse sampling）を実施してよく、かつモデルのトレーニング及び検査に使用されるデータセットを生成するために、より少なく表現されるサンプルに対して濃密サンプリング（dense sampling）を実施してよい。従来は、データサンプルの予備知識はクラスタリング技術によって取得され得た。クラスタリング方法に基づくサンプリングが広く適用されてきたが、その結果として得られる方法では、より少なく表現されるが重要であるサンプルを見逃し得る主観的に定義された距離メトリックに悩まされる場合が多い。従って、本明細書の実施形態は、真に予備知識主導なサンプリング戦略を用いることによって、基礎となるサンプル分布を保持する。よって、本明細書におけるデータセットを生成する場合、本明細書におけるモデル構築プログラムは、重要だけれどもより少なく表現されているデータサンプルを保持する情報告知済みサンプリングを実施し得る。数学的に、情報告知済みサンプリングは以下の通り説明し得る。

画像１について、数４は、x_i∈R^n×mが、幅n及び高さmでlからのi番目の候補位置からサンプリングされた画像パッチであり、y_i∈Y={1,-1}が、x_iのインスタンスに対応するバイナリクラスラベルであり、かつmがSの基数であるように、定義することができる。さらに、S={S_min | S_maj}がパーティション（partition）を形成すると仮定し、ここでS_minは少数クラス（陽性）サンプルを含み、S_majは多数クラス（陰性）サンプルを含み、かつ|S_min|<<|S_maj|とする。本明細書の情報告知済みサンプリングは、S_min、S_majの基数のバランスを取ることを意図しており、以下の数５のように表現され得る。Ω{・}は、S_min及びS_majの分布についての予備知識に基づくアンダーサンプリング演算子（undersampling operator）を示す。概して、任意のアンダーサンプリング戦略はS_majの基礎となる分布をかなり修正し得るため、上記の条件を満たす適切なΩ{・}を定義することは難しいかもしれない。

上記の困難さに取り組むため、本明細書におけるモデル構築プログラムは、データセットを生成するためにトレーニングデータの情報告知済みサンプリングを実施するため、ボロノイ分割を使用するように構成され得る。ボロノイ分割は、平面（又は空間）の特定のサブセットにおける点への距離に基づく複数の領域に、平面（又は三次元空間）を分割することを含む。点（例えば、シードという）の集合が事前に指定され、かつそれぞれのシードについて、他のシードよりも当該シードにより近いすべての点から成る対応する領域がある。これらの領域を、「ボロノイポリゴン」と呼んでよい。特定の要素(x_k, y_k)∈S_majについて、例えば、ボロノイ分割のプロセスは、S_majのその他の要素よりも(x_k, y_k)に空間的に近いすべての隣接要素を取り囲むボロノイポリゴンを定義し得る。本発明におけるボロノイ分割は、S_majの各要素について実施され得る場合もある。

本発明に記載のモデル構築技術が、モデルトレーニングの効率を大幅に改良するとともに、関連ハードウェア要件を削減するため、本発明に記載の偽陽性低減ＭＬＭは、計算装置（例えば、前述の通りサーバ、クラウドプラットフォーム、又はその他のサービス計算装置）の操作を加速させる。一例として、トレーニング画像データセットを決定するために情報告知済みサンプリングが実施されるため、モデル構築プログラムはかなり低次元のデータセットを扱うものであり、この低次元のデータセットは、例えば本明細書における情報告知済みサンプリング手順を行わないＲＡＷデータの使用等に比べて、当初の受信したトレーニングデータセットの特徴を表現するためにより良くバランスが取られている。さらに、本明細書におけるモデル構築プログラムがこの低次元のデータセット上で実行された場合、モデルトレーニングのために必要メモリ及び計算時間及び／又は容量がより少なくなる。例えば、トレーニングデータセットは本質的により低次元となり、かつ処理に関して、より少ない時間及び空間の複雑さを伴うようになり、さらに、トレーニングに使用されるデータセットがより良くバランスが取れているため、より良好なモデルを得ることができる。さらに、実用的モデル配備の観点からすると、本明細書における偽陽性低減ＭＬＭは、より多くの画像データが既存のコンピューティングプラットフォーム（例えば、サーバ、クラウドコンピューティングプラットフォーム等）を用いて処理されることを可能にする。本明細書における偽陽性低減ＭＬＭは、小結節を検出するための患者の画像の処理中に利用されるハードウェア要件（例えば、計算資源、送信資源、及びストレージ資源）を削減する。

図４は、いくつかの実施形態に従ったボロノイ分割ポリゴンのマッピング例４００を示す。この例は、簡略化された二次元の場合でのボロノイ分割プロセスを示している。各黒点４０２はS_majの要素を表し、かつ２つの点４０２の間の各線４０４は、対応するボロノイポリゴン４０６の境界を表し得る。図４の例では、結果として得られるそれぞれのボロノイポリゴン４０６がカバーする容量は、Ω{・}を定義するために使用してよく、なぜならばこの容量は、関連要素(x_k, y_k)のクラスタリングレベルの単純明快な測定値（straightforward measure）となるため、すなわち、テッセレーション（tessellation）プロセスの間は濃密に分布された要素が通常、より小さいボロノイポリゴンに割り当てられ、またその逆も同様であるからである。従って、Ω{・}は、結果として得られるボロノイポリゴンの容量に反比例するアンダーサンプリング頻度に基づいて定義され得る。

図５は、いくつかの実施形態に従って情報告知済みサンプリングを行うためのプロセス例を示すフローチャートである。いくつかの例では、プロセス５００は、サービス計算装置１０２又はその他の適切な計算装置上で実行するモデル構築プログラムによって実行され得る。

５０２では、計算装置は、多数クラス（陰性）サンプル及び画像容量におけるサンプルの相対位置を受信し得る。前述の通り、多数クラスサンプルは、小結節を含まないと判定された画像サンプルに対応する。よって、計算装置は、多数クラスから画像サンプルを受信して、画像容量における相対位置を決定し得る。一例として、各点の位置は、画像容量における画像パッチのそれぞれの位置に対応し、この画像パッチの位置は、上述のトレーニングデータ例において、４名の放射線技師団の合意によって決定され得る。各画像パッチについて、関連位置は三つ組座標（coordinate triplet）（ｘ，ｙ，ｚ）として特定され、ここでｘ、ｙ、及びｚは、関連画像容量における画像パッチの空間での相対位置を示す。

５０４では、計算装置は、入力サンプルに対してボロノイ分割を実施し得る。例えば、計算装置は、多数（majority）（陰性）クラスからの事前定義された画像サンプルに対してボロノイ分割してよい。この操作の入力及び出力の図示については、図６について以下にさらに説明する。

５０６では、計算装置は、結果として得られるボロノイ集合（Voroni set）におけるボロノイポリゴンのそれぞれの容量に基づくヒストグラムを決定し得る。例えば、ヒストグラムは、各ビンの高さが、それぞれのビンに対応する容量を有するボロノイポリゴンの数量を表す、それぞれの容量範囲に対応する複数のビンを含み得る。

５０８では、計算装置は、ヒストグラムの各ビンのサンプリング頻度を決定し得る。例えば、計算装置は、ヒストグラムの各ビンの高さに基づきサンプリング頻度を計算してよい。概して、サンプリング頻度は、ヒストグラムのゼロではないビンの高さに反比例し得る。

５１０では、計算装置は、複数の異なるデータセットについてのサンプルを決定するために、決定されたサンプリング頻度に基づいて情報告知済みサンプリングを実施し得る。前述の通り、サンプリング頻度は、ヒストグラムのゼロではないビンの高さに反比例し得る。いくつかの例では、過小評価された（under-represented）サンプルを保持するために、十分により高い高さも有するビンについてサンプリングが実施され得る。従って、同様のサンプルをグループ化するためにボロノイ分割を使用することによって、かつヒストグラム中のそれぞれのビンの高さに反比例するサンプリング頻度を使用することによって、サンプルの幾何学的特徴が自動的に考慮に入れられ、かつまばらなサンプルが保持される。

図６は、いくつかの実施形態に従ってボロノイポリゴンを決定するために、入力サンプルに対してボロノイ分割を実施する例６００を示す。前述の通り、多数クラスサンプルは、小結節を含まないと決定された（陰性）画像サンプルに対応する。よって、計算装置は、多数クラスから画像サンプルを受信し、かつ各画像において相対位置を決定し得る。これらの位置は、２Ｄ又は３Ｄ画像空間６０４における点６０２として表現される。よって、各点６０２は多数クラスからのサンプルを表し得る。

６０６で示されるように、計算装置は、複数の対応するボロノイポリゴン６０８を決定するために、点６０２によって表される入力サンプルに対してボロノイ分割を実施し得る。前述の通り、２つの点６０２の間の各線６１０は、対応するボロノイポリゴン６０８の境界を表し得る。結果として得られるそれぞれのボロノイポリゴン６０８がカバーする容量は、関連要素（点６０２）のクラスタリングレベルの測定値を示し、すなわち、濃密に分布された要素はより小さいボロノイポリゴンに対応し、その逆もまた同様である。

図７は、いくつかの実施形態に従ったボロノイポリゴンの正規化容量からのヒストグラムを形成する例７００を示す。例えば、計算装置は、ボロノイ分割を用いて決定された複数のボロノイポリゴン６０８のそれぞれの正規化容量に基づいてヒストグラム７０２を形成し得る。一例として、それぞれのボロノイポリゴン６０８の容量は、Qhull.orgから入手可能なQhullというＣ＋＋ベースのライブラリを用いて、かつ部分的に論文『凸包についてのQuickhullアルゴリズム（Quickhull algorithm for convex hulls）』（ACM Trans. on Mathematical Software、２２（４）:４６９〜４８３、１９９６年１２月）（参照により本明細書に組み込まれる）に基づいて、効率的に取得され得る。

図７に示される通り、ボロノイポリゴンの容量は、入力サンプル集合（input sample set）における各ボロノイポリゴン６０８について決定され、かつ例えば０と１と間の値に正規化され得る。正規化容量及び各容量のポリゴンの数に基づいて、ヒストグラム７０２は、正規化容量に対応する複数のビンを含んで構築され、例えば、０〜０.０５は第１のビン、０.０５〜０.１は第２のビン等となり得る。各ビン７０４のサンプリング頻度は、各ビン７０４におけるポリゴンの数に対応して決定される。よって、情報告知済みサンプリングは、サンプリング頻度に基づいて実施され、このサンプリング頻度は、各ビン７０４におけるそれぞれのサンプルの数に反比例し得る。

図８は、いくつかの実施形態に従ったサンプル画像パッチについてのデータ拡張の例８００を示す。前述の通り、利用可能な少数（陽性）サンプルの数S_minは、多数（陰性）サンプルの数よりも大幅に少ないかもしれない。従って、モデル構築プログラムは、少なくとも部分的に少数クラスと多数クラスとの間の不均衡に対処するために、少数クラス（陽性）画像パッチに対してデータ拡張を実施し得る。一例として、モデル構築プログラムは、本明細書に記載のデータ拡張技術を適用することによって、S_minの分散（variance）と基数を増加し得る。数学的に、この操作は以下の数６の通り表現され得る。ここで数７は、（１）水平及び／又は垂直方向に沿った並進移動（translation）、（２）水平及び／又は垂直方向に沿った反転、（３）０.９〜１.１の間のランダムな因数（random factor）でのズーム及び／又はクロッピング、（４）０°〜３５９°の間のランダムな角度での回転、及び（５）０.９〜１.１の間のランダムな因数（random factor）でのボクセル強度のサイズ変更（rescaling）の操作のうちの１つ以上を含むデータ拡張演算子を示す。これらの操作は、S_minにおける要素の数を増加させるのみならず、要素間の適度な分散レベルを維持する。

図示されている例では、少数（陽性）データクラスにおけるサンプルの数を増やすために当初のトレーニングデータに追加された拡張データであってよい複数の新しい画像パッチ８０４を生成するために、上記の操作のうちの１つ以上を適用することによって、原画像パッチ８０２をデータ拡張のために使用し得る。よって、水平及び／又は垂直方向に沿った画像パッチ８０２の並進移動、水平及び／又は垂直方向に沿った画像パッチ８０２の反転、ランダムな因数での画像パッチ８０２のズーム及び／又はクロッピング、ランダムな角度での画像パッチ８０２の回転、及び／又はランダムな因数での画像パッチ８０２のボクセル強度のサイズ変更のうちの少なくとも１つによって、新しい画像パッチ８０４が作成される。さらに、この例では１６個の新しい画像パッチ８０４が示されているが、その他の例ではこれよりも多い又は少ない新しい画像パッチ８０４を生成してよい。一例として、少数サンプルの合計数に、拡張データにおける新しいサンプルの合計数を加えた数が、多数クラスから取得されるサンプルの合計数と等しくなるように、各少数クラスサンプルからの新しい画像パッチの数を決定し得るが、少数クラスのサイズを多数クラスのサイズと等しくなるようにすべきという要件は一切ない。

図９は、いくつかの実施形態に従って楕円近似空間に対する角度を決定するプロセス例９００を示すフローチャートである。例えば、偽陽性低減ＭＬＭを生成する場合、全体的アプローチ例は、特徴ベクトルを形成するために画像パッチから画像特徴を抽出し、その後、偽陽性小結節の特定から肺小結節を判定するために特徴ベクトルに勾配ブースティングを適用することを含み得る。

特徴抽出は、偽陽性低減のための効果的な偽陽性低減ＭＬＭの構築に重要な影響を与え得る。いくつかの例では、抽出された特徴は、真の小結節とその偽陽性対応物（counterparts）とを区別するための強い表現力（representation power）を有する一方で、形状と境界の両方において生理学的バリエーションに対する堅牢性も含み得る。図９に示される通り、楕円近似空間に対する角度の決定は、以下の通りのプロセス９００に従って実施され得る。

９０２では、計算装置は、すべてのサンプル（例えば、陽性サンプルと陰性サンプルの両方）を受信し得る。例えば、計算装置は、陽性サンプルと陰性サンプルの両方を含むトレーニングデータセットを受信してよい。トレーニングデータセットは、例えば図８について前述した通り、陽性サンプル用の拡張データを含む場合がある。

９０４では、計算装置は、トレーニングデータセットにおけるすべてのサンプルについて楕円近似を決定し得る。例えば、計算装置は、すべてのサンプルについて特定された肺小結節の楕円近似を決定し得る。楕円近似は、陽性サンプルと陰性サンプルの両方について決定できるが、抽出された部分空間は異なる。例えば、操作９０４及び９０６は陽性サンプルと陰性サンプルの両方を含むが、操作９０８、９１０、及び９１２は、以下に記載する通り、陽性サンプルのみに実施される。例えば、部分空間角度は、右経路（操作９０８、９１０、及び９１２）からの部分空間角度に対して、左経路（操作９０４及び９０６）からの各サンプル間で決定することができる。陽性サンプルは典型的により低い部分空間角度を有し得るが、陰性サンプルは大きい部分空間角度を有する傾向がある。楕円近似の決定についての追加の詳細は、図１０について後述する。

９０６では、計算装置は、すべてのサンプルについての楕円近似から二値化輪郭を形成し得る。楕円近似から肺小結節の二値化輪郭（binarized contour）を形成する。二値化輪郭の形成の追加の詳細は、図１１について後述する。

９０８では、計算装置は、陽性サンプルについての楕円近似を決定し得る。例えば、各陽性サンプルについて、計算装置は、当該サンプルについての楕円近似を決定し得る。楕円近似の決定の追加の詳細は、図１０について後述する。

９１０では、計算装置は、陽性サンプルについての楕円近似から二値化輪郭を形成し得る。楕円近似から肺小結節の二値化輪郭を形成する。二値化輪郭の形成の追加の詳細は、図１１について後述する。

９１２では、計算装置は、陽性サンプルのすべての二値化輪郭についてランクｒ部分空間を決定し得る。例えば、計算装置は、楕円近似空間Ｅを決定するために、（陽性サンプルから）二値化輪郭のランクｒ近似（rank-r approximation）を形成し得る。一例として、高速ランダム化ＳＶＤ計算（fast randomized SVD calculations）用のPYTHON（登録商標）プログラミング言語ライブラリであるRedSVDライブラリの打ち切り特異値分解（truncated singular value decomposition）ルーチンを用いて、ランクｒ近似を決定してよい。代替の技術は、本明細書の開示の恩恵を受ける当業者には明かになるであろう。

９１４では、計算装置は、各サンプルと楕円近似空間Ｅとの間の角度を決定し得る。例えば、計算装置は、各近似する（approximated）選択されたサンプルと楕円近似空間Ｅとの間の角度θ_s,Eを計算し得る。楕円近似空間Ｅに対する角度の決定の追加の詳細は、図１２について後述する。

図１０は、いくつかの実施形態に係る陽性サンプルについての楕円近似を計算する例１０００を示す。９０８で前述した通り、計算装置は、陽性サンプル１００４で特定された小結節１００２についての楕円近似を決定し得る。例えば、各陽性サンプルについて、計算装置は、特定された小結節１００２の位置及び輪郭を決定し、かつ各それぞれの小結節１００２の楕円近似１００６を決定し得る。例えば、楕円近似１００６は、小結節１００２を包囲するとともに、小結節１００２の輪郭に従ったサイズとなされた楕円を含んでよく、例えば、この楕円は、少なくとも２か所で小結節１００２の輪郭に接触し、あるいは小結節１００２の輪郭よりもわずかに大きくてよい。

図１１は、いくつかの実施形態に従って楕円近似から二値化輪郭を形成する例１１００を示す。例えば、陽性サンプル１００４について特定された各小結節１００２の楕円近似１１０６は、操作のための入力として受信され、かつその出力は二値化輪郭１１０２であってよく、例えば、対応する画像サンプル内の既知の位置を有し、かつ既知の寸法及び軸を有する楕円である。

図１２は、いくつかの実施形態に従って楕円近似空間に対する角度を決定する例１２００を示す。例えば、図９の９１２について前述した通り、モデル構築プログラムは、すべての陽性サンプルのすべての二値化輪郭についてランクｒ楕円近似空間Ｅを決定し得る。一例として、数８であり、これは肺小結節の陽性サンプルに対する楕円近似の部分空間であり、かつ数９はこの部分空間についての基底関数（basis function）を表す。

さらに、図９の９１４について前述した通り、モデル構築プログラムは、各近似するサンプルと楕円近似空間Ｅとの間の部分空間角度θ_s,Eを決定し得る。例えば、sは選択されたサンプルの楕円近似の輪郭であると仮定すると、部分空間角度θ_E,sは、sとその楕円近似空間Ｅ上の射影（projection）との間に定義され得る。部分空間角度θ_E,sは、すべての陽性サンプルの集合的幾何学的特徴に対する選択されたサンプルの類似性を測定するためのナチュラルメトリックの役目を果たす。よって、メトリックとしての部分空間角度θ_s,Eの適用は新規かつ異例であり、少なくともなぜならば、楕円近似空間Ｅが、陽性サンプルそれ自体についてではなく、陽性サンプルに対する楕円近似について定義されているものだからである。このメトリックは、部分空間角度θ_s,Eの計算におけるノイズ、コントラスト及び幾何歪みの影響を低減させ、これにより、小結節検出を行う際のシステムの演算要件を低減させかつ操作を改良する。従って、本明細書における偽陽性低減ＭＬＭは、図２について前述した小結節検出プロセスを実行する際の計算装置及びシステム全体の能力を改良するソフトウェア技術における問題に対する解決となる特定の実施形態を提供する。

図１３は、いくつかの実施形態に従って画像パッチから抽出された特徴を含むデータ構造例１３００を示す。上記の部分空間角度メトリック（楕円近似空間Ｅに対する部分空間角度θ_s,E）は、特徴として使用してよく、さらに、偽陽性低減ＭＬＭの性能及び堅牢性を改良するために、その他の抽出された画像特徴と組み合わせてよい。本明細書におけるいくつかの例では、６個のカテゴリーからの最大１６タイプの画像特徴が、高次元特徴ベクトルを形成するために再度サンプリングされた各画像パッチから決定され得る。肺小結節を高次元特徴空間における肺小結節の偽陽性対応物から区別するために、結果として得られる特徴ベクトルを用いて、勾配ブースティングモデルを適用し得る。図示されている例では、データ構造１３００は、特徴番号欄１３０２、特徴カテゴリー欄１３０４、特徴名欄１３６０、及び特徴定義欄１３０８を含む。

従って、楕円近似空間に対する角度の使用に加えて、本明細書のいくつかの実施形態は、５つの特徴カテゴリー、すなわち、（１）グレースケール分布特徴、（２）幾何学的特徴、（３）配向勾配のヒストグラム（histogram-of-oriented-gradients）特徴、（４）ヘッセ行列に基づく特徴、及び（５）ローカルバイナリーパターンに基づく（local-binary-pattern-based）特徴に対応する１５個の可能な追加特徴のうちの１つ以上の追加特徴を含み得る。図１３に示される通り、これらの特徴の詳細は以下を含む。

グレースケール分布特徴 − 特徴のうちのこのカテゴリーは、対象となる画像パッチのグレースケール値の統計に関わる。特に、グレースケール値のボクセル強度、最小、最大、モード、中央値、及び標準偏差が含まれる。

幾何学的特徴 − 特徴のうちのこのカテゴリーは、小結節の幾何形状に対する楕円近似を形成することによって得られる。特に、短軸及び長軸の長さ、小結節のコンパクト性（楕円オブジェクト内の小結節の容量の比率）、及び関連オイラ標数（associated Euler characteristic number）が含まれる。

配向勾配のヒストグラム特徴 − 特徴のうちのこのカテゴリーは、配向勾配のヒストグラムを通して画像パッチ内の部分領域（sub-regions）からのローカル形状のバリエーション（local shape variation）を表現することを目指している。本明細書のいくつかの実施形態は、４ｘ４、８ｘ８、及び１６ｘ１６のセルサイズが使用される多重解像度（multi-resolution）アプローチを適用してよく、かつ結果として得られる特徴は、特徴ベクトルを形成するために列方向に連結される（are concatenated in column-wise fashion）。

ヘッセ行列に基づく特徴 − 特徴のうちのこのカテゴリーは、ヘッセ分析を用いて画像パッチにおけるエッジ及びリッジ（ridge）特徴を把握することを目標とする。いくつかの例は、ヘッセ行列の最小及び最大固有値及び２つの固有値との間の比率に焦点を置いてよい。

ローカルバイナリーパターンに基づく特徴 − 特徴のうちのこのカテゴリーは、小結節におけるテクスチャの差異を把握するためにローカルバイナリーパターン特徴を使用し得る。ここで４ｘ４、８ｘ８、及び１６ｘ１６のセルサイズをカバーする同様の多重解像度（multi-resolution）アプローチを使用してよく、かつ結果として得られる特徴は、列ベクトルを形成するために連結されてよい。

図１４は、いくつかの実施形態に従って偽陽性低減ＭＬＭにおける多数の特徴を適用するためのプロセス例１４００を示すフローチャートである。いくつかの例では、プロセス１４００は、サービス計算装置１０２又はその他の適切な計算装置によって実行され得る。

１４０２では、計算装置は、陽性サンプルからの偽陽性低減ＭＬＭのための特徴を決定し得る。特徴の例は、図１３について前述した通りである。

１４０４では、計算装置は上記特徴に基づいて特徴ベクトルを形成し得る。例えば、特徴の値は連結されて特徴ベクトルとしてよい。

１４０６では、計算装置は、特徴ベクトルにおける特徴についてクロス検証を実施し得る。例えば、偽陽性低減ＭＬＭがいかに良好に独立データセットに及んでいるかを判定するために、クロス検証を使用してよい。一例として、本明細書におけるクロス検証は、データのサンプルを補足的サブセットに分割すること、トレーニングデータセットについてモデル予測を行うこと、及び検証データセットを用いて分析を検証することを含み得る。変動性を低減させるため、モデルの性能を見積もるために、データセットの異なるが等しいパーティションを用いて、クロス検証のｋ倍（ｋステップ）を実施してよい。

１４０８では、計算装置は、１つ以上の支配的な特徴を決定するためにジニ指標を使用し得る。例えば、ジニ指標は、最も支配的なものから最も支配的ではないものまで特徴をランク付けし得る。一例として、部分空間角度は最も支配的な特徴であり得るが、１つ以上のその他の特徴も重要であり得る。

１４１０では、計算装置は、ジニ指標によって特定された１つ以上の支配的な特徴の連結である偽陽性低減ＭＬＭについて最終特徴ベクトルを決定し得る。

本明細書にて説明したプロセス例は、説明の目的上提供されたプロセスの単なる例である。本明細書の開示に鑑みて、その他数多くのバリエーションが当業者にとって明らかとなるであろう。さらに、本明細書の開示は、プロセスを実行するための適切なフレームワーク、アーキテクチャー及び環境のいくつかの例を説明しているが、本明細書の実施形態は、示されかつ説明された特定の例に制限されない。さらに、本開示は、図面に記載されかつ図示されている通り、多様な実施形態例を提供する。しかしながら、本開示は本明細書で説明しかつ示している実施形態には制限されず、当業者が知っているであろう又は知ることになるであろうその他の実施形態にも及び得る。

図１５は、いくつかの実施形態に従って特定された小結節の位置を提示かつ可視化するためのユーザインターフェース例１５００を示す。この例では、図１について前述した通り、ユーザは画像閲覧プログラムを介して小結節特定プログラムを呼び出し得る。画像閲覧プログラムは、選択された患者の画像にアクセスするために使用され得る、かつユーザインターフェース１５００を提示し得るユーザ計算装置上のブラウザであるか、又は当該ブラウザを含む場合がある。その他の例では、画像ビューアプログラムは、ユーザ計算装置上で実行される専用画像閲覧プログラムであってよい。

図示されている例では、ユーザインターフェース１５００は、患者特定情報１５０２、画像特定情報１５０４、画像又はその他の可視化１５０６、及び対応する画像制御設定１５０８を含む。一例として、ユーザは、患者のために画像１枚又は複数の画像のセットを選択してよく、これによって、対応する画像のセットについて小結節検出を行うために小結節特定プログラムを呼び出し得る。図１及び図２について前述した通り、小結節特定プログラムは、小結節位置を仮特定するために小結節検出を行う。その後、小結節特定プログラムは、偽陽性低減を実施するために本明細書における偽陽性低減ＭＬＭを使用し、かつ位置を見つけた小結節についての位置情報を含み得る強化画像情報を返送してよい。画像閲覧プログラムは、例えば、小結節の周囲に境界ボックスを提示することによって、又は見つけた小結節１５１２の位置をユーザに対してハイライト表示するために、ユーザインターフェース１５００においてその他の視覚的に区別する特徴１５１０を提示することによって、強化画像情報を提示し得る。さらに、ユーザインターフェース例及び可視化技術が本明細書において説明されたが、その他数多くのバリエーションが、本明細書の開示の恩恵を受ける当業者にとって明らかになるであろう。

本明細書で説明した多様な命令、プロセス、及び技術は、例えばコンピュータ可読媒体上に記憶され、かつ本明細書におけるプロセッサによって実行されるプログラムのように、コンピュータ実行可能な命令という一般的な状況で考慮され得る。概して、プログラムは、特定のタスクを行うための又は特定の抽象データタイプを実現するためのコンピュータ可読命令、ルーチン、モジュール、アプリケーション、オブジェクト、成分、データ構造、実行可能コード等を含む。これらのプログラム等は、ネイティブコードとして実行され、かつ仮想マシン又はその他のＪＩＴコンパイル（just-in-time compilation）実行環境などでダウンロードされ実行され得る。典型的に、プログラムの機能性は、多様な実施形態において望ましいように組み合わされ又は分配されてよい。これらのプログラム及び技術の一実施形態は、コンピュータ記憶媒体に記憶され、又は何らかの形態の通信媒体を通して送信されてよい。

構造上の特徴及び／又は方法論的行為に特有な言葉で主題を説明してきたが、添付の請求項で定義される主題は、説明した特定の特徴又は行為に必ずしも制限されないことが理解されるべきである。むしろ、請求項を実施する形態例として、特定の特徴及び行為が開示されている。

Claims

１つ以上のプロセッサと、
実行可能な命令を維持する１つ以上の非一時的コンピュータ可読媒体と
を備えるシステムであって、
前記実行可能な命令は、前記１つ以上のプロセッサによって実行された場合、
選択された画像における楕円近似と、複数の画像サンプルについて決定された楕円近似空間との間の部分空間角度の決定に基づく、少なくとも１つの特徴を利用する、偽陽性低減機械学習モデルをトレーニングすることと、
小結節の特定を行うための複数の画像を受信することと、
前記複数の画像のうちの１つ以上の画像において小結節の仮検出を行うために、前記複数の画像を小結節検出機械学習モデルに入力することと、
前記小結節検出機械学習モデルからの前記１つ以上の画像及び小結節位置情報を、前記小結節の前記仮検出の正確さの表示を出力する前記偽陽性低減機械学習モデルに対して入力することと
前記小結節の前記仮検出が正確であることを示す前記偽陽性低減機械学習モデルに基づいて、前記１つ以上の画像における少なくとも前記小結節の位置の表示を含む強化画像情報を可視化プログラムに送信することと
を含む操作を行うように、前記１つ以上のプロセッサをプログラムする、システム。
前記偽陽性低減機械学習モデルをトレーニングする前記操作は、
トレーニングデータ画像及び小結節位置の関連表示を受信することと、
小結節位置の表示を含む前記トレーニングデータ画像の第１のセットと、小結節位置の表示を含まない前記トレーニングデータ画像の第２のセットを決定することと、
各トレーニングデータセットが、前記第１のセットからの複数の画像と、前記第２のセットからの複数の画像とを含む、複数のトレーニングデータセットを、前記トレーニングデータ画像から決定することと
をさらに含む、請求項１に記載のシステム。
前記複数のトレーニングデータセットを決定する前記操作が、
画像容量における前記第２のセットのそれぞれの画像の相対位置を決定することと、
複数のボロノイポリゴンを決定するために、前記それぞれの画像の前記それぞれの位置に対してボロノイ分割を行うことと、
前記複数のデータセットについて前記第２のセットの前記トレーニングデータ画像のサンプリングを取得するために、前記複数のボロノイポリゴンのそれぞれの容量に基づいて前記第２のセットの情報告知済みサンプリングを行うためのサンプリング頻度を決定すること
をさらに含む、請求項２に記載のシステム。
前記複数のボロノイポリゴンのそれぞれの容量に基づいて前記第２のセットの情報告知済みサンプリングを行うためのサンプリング頻度を決定する前記操作は、
前記複数のボロノイポリゴンの前記それぞれの容量に基づいて、前記それぞれの容量の異なる範囲に対応する複数のビンを含むヒストグラムを決定することと、
個々のビンについてのそれぞれのサンプリング頻度であって、当該個々のビンの高さに反比例するそれぞれのサンプリング頻度を決定することと
をさらに含む、請求項３に記載のシステム。
前記複数のトレーニングデータセットを決定する前記操作は、
水平及び／又は垂直方向に沿った前記選択された画像の並進移動と、
前記水平及び／又は垂直方向に沿って前記選択された画像を反転させることと、
前記選択された画像をズームかつ／又はクロップすることと、
前記選択された画像を、ある角度まで回転することと、かつ／又は
前記選択された画像のボクセル強度を、ある因数でサイズ変更することと、
のうちの少なくとも１つによって、前記トレーニングデータ画像の第１のセットから選択された画像を用いてデータ拡張を行うことをさらに含む、請求項２に記載のシステム。
前記偽陽性低減機械学習モデルをトレーニングする前記操作は、
前記第１のセットにおいて画像における小結節について楕円近似を決定することと、
前記楕円近似からそれぞれの二値化輪郭を決定することと、
前記第１のセットにおいて前記二値化輪郭のための楕円近似空間を決定することと、
前記第１のセットの選択された画像について決定された楕円近似と、前記楕円近似空間との間の部分空間角度を決定することと
をさらに含む、請求項１に記載のシステム。
前記偽陽性低減機械学習モデルは、
グレースケール分布特徴と、
幾何学的特徴と、
配向勾配のヒストグラムの特徴と、
ヘッセ行列に基づく特徴と、又は
ローカルバイナリーパターン特徴と
を含む少なくとも１つの追加特徴を含む、請求項１に記載のシステム。
前記操作は、
ユーザ装置上で提示されるユーザインターフェースを介して、前記小結節の特定を行うための前記複数の画像の表示を受信することと、
少なくとも部分的に、前記ユーザ装置をして、前記小結節の前記位置の視覚表示を提供するために前記ユーザインターフェース上で前記強化画像情報を提示させるように、前記ユーザ装置に対して前記強化画像情報を送信することと
をさらに含む、請求項１に記載のシステム。
前記偽陽性低減機械学習モデルは勾配ブースティングモデルを含み、前記偽陽性低減機械学習モデルをトレーニングする前記操作は、ランダムサーチ技術を用いた前記勾配ブースティングモデルのチューニングパラメータをさらに含む、請求項１に記載のシステム。
１つ以上のプロセッサによって、トレーニングデータ画像及び小結節位置の関連表示を受信することと、
前記１つ以上のプロセッサによって、小結節位置の表示を含む前記トレーニングデータ画像の第１のセットと、小結節位置の表示を含まない前記トレーニングデータ画像の第２のセットとを決定することと、
前記１つ以上のプロセッサによって、前記第１のセットにおいて画像における小結節について楕円近似を決定することと、
前記１つ以上のプロセッサによって、前記第１のセットにおいて前記楕円近似のための楕円近似空間を決定することと、
前記１つ以上のプロセッサによって、前記第１のセットの個々の画像サンプルと、前記楕円近似空間との間の部分空間角度を、機械学習モデルの少なくとも１つの特徴として決定することと、
前記１つ以上のプロセッサによって、小結節の特定を行うために１つ以上の画像を受信することと、
前記１つ以上のプロセッサによって、小結節の表示が正確であるか否かを判定するために、前記１つ以上の画像を前記機械学習モデルに入力することと、
前記小結節の前記表示が正確であることを示す前記機械学習モデルの出力に基づいて、前記１つ以上のプロセッサによって、強化画像情報を、前記小結節の位置の可視化を提供するための前記少なくとも１つの画像に関連付けることと
を含む、方法。
前記第２のセットの画像のそれぞれの画像の画像容量における相対位置を決定することと、
複数のボロノイポリゴンを決定するために、前記それぞれの画像の前記相対位置に対してボロノイ分割を行うことと、
前記複数のボロノイポリゴンのそれぞれの容量に基づいて、前記第２のセットの情報告知済みサンプリングを行うためのサンプリング頻度を決定することと
により、前記１つ以上のプロセッサによって、前記第１のセットからの画像と、前記第２のセットからの画像とを含むトレーニングデータセットを決定することをさらに含む、請求項１０に記載の方法。
前記複数のボロノイポリゴンの前記それぞれの容量に基づいて、前記それぞれの容量の異なる範囲に対応する複数のビンを含むヒストグラムを決定することと、
前記複数のビンの個々のビンについてのそれぞれのサンプリング頻度であって、当該個々のビンの高さに反比例するそれぞれのサンプリング頻度を決定することと
により、前記複数のボロノイポリゴンの前記それぞれの容量に基づいて前記第２のセットの前記情報告知済みサンプリングを行うための前記サンプリング頻度を決定することをさらに含む、請求項１１に記載の方法。
水平及び／又は垂直方向に沿った前記選択された画像の並進移動と、
前記水平及び／又は垂直方向に沿って前記選択された画像を反転させることと、
前記選択された画像をズームかつ／又はクロップすることと、
前記選択された画像を、ある角度まで回転することと、又は
前記選択された画像のボクセル強度を、ある因数でサイズ変更することと、
のうち少なくとも１つによって、前記前記トレーニングデータ画像の第１のセットのうちの選択された画像についてデータ拡張を行うことによって、前記トレーニングデータセットを決定することをさらに含む、請求項１１に記載の方法。
前記１つ以上のプロセッサによって、ユーザ装置上で提示されるユーザインターフェースを介して、前記小結節の特定を行うための前記複数の画像の表示を受信することと、
前記１つ以上のプロセッサによって、少なくとも部分的に、前記ユーザ装置をして、前記小結節の前記位置の視覚表示を提供するために前記ユーザインターフェース上で前記強化画像情報を提示させるように、前記ユーザ装置に対して前記強化画像情報を送信することと
をさらに含む、請求項１３に記載の方法。
トレーニングデータ画像及び小結節位置の関連表示を受信し、
小結節位置の表示を含む前記トレーニングデータ画像の第１のセットと、小結節位置の表示を含まない前記トレーニングデータ画像の第２のセットを決定し、
前記第２のセットの画像のそれぞれの画像の画像容量における相対位置を決定し、
複数のボロノイポリゴンを決定するために、前記それぞれの画像の前記相対位置に対してボロノイ分割を行い、かつ
前記複数のボロノイポリゴンのそれぞれの容量に基づいて決定されたサンプリング頻度に基づいて、前記第２のセットから画像を選択し、
前記第１のセットから選択された画像と、前記サンプリング頻度に基づいて前記第２のセットから選択された前記画像を、トレーニングデータセットとして用いて、機械学習モデルをトレーニングし、
小結節の特定を行うための１つ以上の画像を受信し、
小結節の表示が正確であるか否かを判定するために、前記１つ以上の画像を前記機械学習モデルに入力し、かつ
前記小結節の前記表示が正確であることを示す前記機械学習モデルの出力に基づいて、強化画像情報を、前記小結節の位置の可視化を提供するための前記少なくとも１つの画像に関連付ける
ことをコンピュータに実行させるコンピュータプログラム。
下記を実行することによって、前記複数のボロノイポリゴンの前記それぞれの容量に基づいて前記第２のセットから前記画像を選択するための前記サンプリング頻度を決定する
前記複数のボロノイポリゴンの前記それぞれの容量に基づいて、前記それぞれの容量の異なる範囲に対応する複数のビンを含むヒストグラムを決定すること、及び
前記複数のビンの個々のビンについてのそれぞれのサンプリング頻度であって、当該個々のビンの高さに反比例するそれぞれのサンプリング頻度を決定すること、
ことをさらにコンピュータに実行させる請求項１５に記載のコンピュータプログラム。
前記第１のセットにおいて画像における小結節について楕円近似を決定し、
前記第１のセットにおいて前記楕円近似のための楕円近似空間を決定し、かつ
機械学習モデルの少なくとも１つの特徴として、前記第１のセットの個々の画像サンプルと前記楕円近似空間との間の部分空間角度を決定する
ことをさらにコンピュータに実行させる請求項１５に記載のコンピュータプログラム。
グレースケール分布特徴と、
幾何学的特徴と、
配向勾配のヒストグラムの特徴と、
ヘッセ行列に基づく特徴と、又は
ローカルバイナリーパターン特徴と
を含む少なくとも１つの追加特徴を備えた前記機械学習モデルを生成する
ことをさらにコンピュータに実行させる請求項１７に記載のコンピュータプログラム。
下記のうちの少なくとも１つによって、前記トレーニングデータ画像のうちの第１画像についてデータ拡張を行うことで、前記トレーニングデータセットにおける前記画像の少なくとも１つを選択する
水平及び／又は垂直方向に沿った前記第１画像の並進移動、
前記水平及び／又は垂直方向に沿って前記第１画像を反転させること、
前記第１画像をズームかつ／又はクロップすること、
前記第１画像を、ある角度まで回転することと、
前記第１画像のボクセル強度を、ある因数でサイズ変更すること、
ことをさらにコンピュータに実行させる請求項１５に記載のコンピュータプログラム。
ユーザ装置上で提示されるユーザインターフェースを介して、前記小結節の特定を行うための前記複数の画像の表示を受信し、かつ
少なくとも部分的に、前記ユーザ装置をして、前記小結節の前記位置の視覚表示を提供するために前記ユーザインターフェース上で前記強化画像情報を提示させるように、前記ユーザ装置に対して前記強化画像情報を送信する
ことをさらにコンピュータに実行させる請求項１５に記載のコンピュータプログラム。