JP7187680B2

JP7187680B2 - 線構造抽出装置及び方法、プログラム並びに学習済みモデル

Info

Publication number: JP7187680B2
Application number: JP2021511869A
Authority: JP
Inventors: 嘉郎北村; 晶路一ノ瀬
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2019-03-29
Filing date: 2020-03-25
Publication date: 2022-12-12
Anticipated expiration: 2040-03-25
Also published as: EP3951433A4; JPWO2020203552A1; US11961276B2; US20220004797A1; EP3951433A1; WO2020203552A1

Description

本発明は、線構造抽出装置及び方法、プログラム並びに学習済みモデルに係り、特に画像内から線状の対象物を検出するための画像処理技術及び機械学習技術に関する。

深層学習を利用した物体検出のアルゴリズムとして、特許文献１及び非特許文献１には、ＦａｓｔｅｒＲ－ＣＮＮ（Region-Based Convolutional Neural Networks）と呼ばれる手法が提案されている。非特許文献２には、ＦａｓｔｅｒＲ－ＣＮＮを利用して橋梁及び建物の画像から鉄の錆、剥離、ボルトの腐食、及びコンクリートのクラックといった構造物の劣化部分を自動的に検出する方法が提案されている。

米国特許第9858496号

Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015. Gahayun Suh, Young-Jin Cha "Deep faster R-CNN-based automated detection and localization of multiple types of damage" Sensors and Smart Structures Technologies for Civil, Mechanical, and Aerospace Systems 2018

コンクリートのクラックは、線構造を有するオブジェクトの一形態である。線構造を持つオブジェクトの他の例として、医療画像における血管あるいは気管支などの管状構造物がある。特許文献１及び非特許文献１には、画像から線構造を検出するための応用方法について記載されていない。線構造を検出するために、画像セグメンテーションの手法により画像から線状のオブジェクトを検出することが考えられる。しかし、画像セグメンテーションのタスクを実現するための機械学習には、画素単位で正解のラベルを付した画像が大量に必要であり、このような正解画像の作成が困難である。

非特許文献２ではコンクリートのクラックを対象に、ＦａｓｔｅｒＲ－ＣＮＮのアルゴリズムをそのまま適用したものであり、画像中からクラックを含むバウンディングボックスを連続的に検出する。この場合、検出結果はバウンディングボックスが示す矩形領域であり、このような矩形領域群として出力される検出結果から線状のオブジェクトの領域を代表する中心線などを特定するような再構成処理が難しい。

本発明はこのような事情に鑑みてなされたもので、画像中の線構造を検出することができる線構造抽出装置及び方法、プログラム並びに学習済みモデルを提供することを目的とする。

本開示の一態様に係る線構造抽出装置は、画像から線構造を構成する要素点を抽出する線構造抽出装置であって、画像の入力を受けて画像から線構造を構成する１つ以上の要素点を予測結果として出力するよう学習された学習モデルを備え、学習モデルは、画像を受け入れて畳み込みの処理により画像の特徴量を示す特徴マップを生成する第１の処理モジュールと、特徴マップをグリッド状に既定サイズの領域を持つ複数のユニットに分割して得られるユニットごとに、ユニット中心点から最も近くにある線構造の要素点へのユニット中心点からのシフト量を計算する第２の処理モジュールと、を含む線構造抽出装置である。

本開示の他の態様に係る線構造抽出装置において、第２の処理モジュールは、ユニットの各々に対して、予め定められた形状及びサイズを持つ１つ以上の基準形状領域であるアンカーを配置し、ユニットごとにユニットの位置の特徴量を用いて畳み込みの処理を行うことにより、アンカーのアンカー中心点から最も近くにある線構造の要素点である最近点にアンカー中心点を移動させるためのシフト量と、アンカー内に線構造が存在するか否かを判別するためのスコアと、を計算する構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、基準形状領域は、画像が２次元画像である場合は矩形領域であり、画像が３次元画像である場合は直方体領域である構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、線構造は、画像内において太さを持つ領域の代表線であり、太さを持つ領域の太さに対応させて、サイズが異なる複数のアンカーが用いられる構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、線構造は、画像内において太さを持つ領域の代表線であり、第２の処理モジュールは、対象とする太さを持つ領域の太さに応じてアンカーのサイズを変更するように学習されたものである構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、線構造は、画像内において太さを持つ領域の代表線であり、第２の処理モジュールは、アンカーごとに、太さを持つ領域の最近点の周囲の太さに合わせてアンカーの少なくとも１つの辺の方向についてのアンカーの変形倍率を計算するように学習されたものである構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、太さを持つ領域は管状構造物であり、代表線は、管状構造物の経路に沿った中心線である構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、第１の処理モジュール及び第２の処理モジュールの各々はニューラルネットワークによって構成されており、第１の処理モジュールは、複数の畳み込み層を備える畳み込みニューラルネットワークによって構成され、第２の処理モジュールは、第１の処理モジュールとは異なる畳み込み層を備え、特徴マップから線構造が含まれる候補領域を予測する領域提案ネットワークによって構成される構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、第２の処理モジュールによって予測された線構造の要素点に対し、各点をクラス分類するよう学習された第３の処理モジュールをさらに備える構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、第３の処理モジュールにより分類されるクラスは、グラフ理論の木構造における根、分岐、末端、及び枝上の点のうち少なくとも１つを含む構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、線構造は、血管の経路に沿った中心線であり、第３の処理モジュールにより分類されるクラスは、血管構造における特定の解剖学的名称を含む構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、線構造は、気管の経路に沿った中心線であり、第３の処理モジュールにより分類されるクラスは、気管構造における特定の解剖学的名称を含む構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置において、第３の処理モジュールは、ニューラルネットワークによって構成されており、第３の処理モジュールは、特徴マップから、第２の処理モジュールによって予測された要素点を含むアンカーの局所画像を切り出して局所画像を固定サイズに変形する関心領域プーリング層と、固定サイズに変形された局所画像が入力される畳み込み層及び全結合層のうち少なくとも一方と、を含む構成とすることができる。

本開示のさらに他の態様に係る線構造抽出方法は、画像から線構造を構成する要素点を抽出する線構造抽出方法であって、画像の入力を受けて画像から線構造を構成する１つ以上の要素点を予測結果として出力するよう学習された学習モデルを用い、学習モデルへの画像の入力を受け付けることと、入力された画像について第１の処理モジュールにより畳み込みの処理を行い、画像の特徴量を示す特徴マップを生成することと、特徴マップをグリッド状に既定サイズの領域を持つ複数のユニットに分割し、第２の処理モジュールを用いて、ユニットごとにユニット中心点から最も近くにある線構造の要素点へのユニット中心点からのシフト量を計算することと、を含む線構造抽出方法である。

本開示のさらに他の態様に係る線構造抽出方法において、複数のユニットによって予測された複数の要素点の点群のうち、ユニットのサイズの半分を目安とする第１の間隔よりも近接している過剰な要素点の一部を削除して、第１の間隔の程度で要素点を選択して残すこと、をさらに含む構成とすることができる。

本開示のさらに他の態様に係る線構造抽出方法において、線構造は、画像内において太さを持つ領域の代表線であり、複数のユニットによって予測された複数の要素点の点群のうち、太さの半分を目安とする第２の間隔よりも近接している過剰な要素点の一部を削除して、第２の間隔の程度で要素点を選択して残すこと、をさらに含む構成とすることができる。

本開示のさらに他の態様に係る線構造抽出方法において、複数のユニットによって予測された複数の要素点の点群のうち、予め定めた閾値以内の距離に他の点が存在しない孤立点を削除すること、をさらに含む構成とすることができる。

本開示のさらに他の態様に係るプログラムは、画像から線構造を構成する要素点を抽出する機能をコンピュータに実現させるためのプログラムであって、画像の入力を受け付ける機能と、入力された画像について第１の処理モジュールを用いて畳み込みの処理を行い、画像の特徴量を示す特徴マップを生成する機能と、特徴マップをグリッド状に既定サイズの領域を持つ複数のユニットに分割し、第２の処理モジュールを用いて、ユニットごとにユニット中心点から最も近くにある線構造の要素点への、ユニット中心点からのシフト量を予測する機能と、をコンピュータに実現させるプログラムである。

本開示のさらに他の態様に係る学習済みモデルは、入力された画像から線構造を構成する１つ以上の要素点を予測結果として出力するよう学習された学習済みモデルであって、画像を受け入れて畳み込みの処理により画像の特徴量を示す特徴マップを生成する第１の処理モジュールと、特徴マップをグリッド状に既定サイズの領域を持つ複数のユニットに分割して得られるユニットごとに、ユニット中心点から最も近くにある線構造の要素点へのユニット中心点からのシフト量を計算する第２の処理モジュールと、を含む学習済みモデルである。

本開示のさらに他の態様に係る学習済みモデルにおいて、第１の処理モジュール及び第２の処理モジュールを構成しているネットワークのパラメータは、訓練画像と、訓練画像に含まれている線構造の位置情報と、を組み合わせた複数の学習データを用いた機械学習を実行することによって決定されている構成とすることができる。

本開示のさらに他の態様に係る学習済みモデルにおいて、線構造は、画像内において太さを持つ領域の代表線であり、学習データは、訓練画像に含まれている太さを持つ領域の太さ情報をさらに含む構成とすることができる。

本開示のさらに他の態様に係る線構造抽出装置は、プロセッサと、画像から線構造を構成する要素点を抽出する処理をプロセッサに実行させるための命令が記憶された非一時的なコンピュータ可読媒体と、を備え、プロセッサは、命令を実行することにより、画像の入力を受け付けることと、入力された画像について第１の処理モジュールにより畳み込みの処理を行い、画像の特徴量を示す特徴マップを生成することと、特徴マップをグリッド状に既定サイズの領域を持つ複数のユニットに分割し、第２の処理モジュールを用いて、ユニットごとにユニット中心点から最も近くにある線構造の要素点へのユニット中心点からのシフト量を計算することと、を含む処理を行う。

本発明によれば、学習モデルを用いて画像中に含まれる線構造の要素点を予測することができ、要素点の点群によって線構造を検出することができる。本発明によれば、予測された要素点の点群から線構造を容易に再構成することができる。学習モデルの学習には、訓練画像に対する正解の線構造の線上点座標を用いればよく、このような正解データの作成は比較的容易である。

図１は、心臓ＣＴ検査によって得られるボリュームレンダリング（Volume Rendering：ＶＲ）画像の例である。図２は、ノードとエッジとを用いて表現される血管経路の模式図である。図３は、冠動脈のＣＰＲ(Curved Planer Reconstruction)画像の例である。図４は、本発明の実施形態に適用されるＦａｓｔｅｒＲ－ＣＮＮの概要を示す構成図である。図５は、本発明の実施形態に係る線状構造抽出装置における処理の内容を概略的に示す説明図である。図６は、領域提案ネットワーク（Region Proposal Network：ＲＰＮ）によって処理される特徴マップの各画素と、血管中心線との位置関係の例を模式的に示す図である。図７は、中心線ＣＬｂｖの付近にあるユニットの拡大図である。図８は、アンカーの説明図である。図９は、サイズが異なる３種類のアンカーを用いる例を示す図である。図１０は、ＲＰＮの出力例を示す概念図である。図１１は、孤立点の説明図である。図１２は、木構造の構成要素のラベルが付された点群の例を示す。図１３は、線構造抽出装置に実装される学習モデルのネットワーク構造及び処理の流れを概略的に示す説明図である。図１４は、線構造抽出装置による処理内容の例を示すフローチャートである。図１５は、図１４のステップＳ５４に適用される処理内容の例を示すフローチャートである。図１６は、学習データの概念図である。図１７は、機械学習を行う学習装置の構成例を示す機能ブロック図である。図１８は、本実施形態に係る線構造抽出装置における学習モデルの学習方法の例を示すフローチャートである。図１９は、コンピュータのハードウェア構成の例を示すブロック図である。

以下、添付図面に従って本発明の好ましい実施の形態について詳説する。

《医療画像中の管状構造を検出する例》
本発明の一実施形態として医療画像から管状構造を検出する場合の例を説明する。近年、マルチスライスＣＴ（Computed Tomography）装置等の医療機器の進歩により、質の高い３次元画像が画像診断に用いられるようになってきている。しかしながら、３次元画像は多数のスライス画像から構成され、情報量が多いため、医師が所望の観察部位を見つけ診断することに時間を要する場合がある。

そこで、３次元画像から注目する臓器を抽出し、ＭＩＰ（Maximum Intensity Projection）、ＶＲ（Volume Rendering）、又はＣＰＲ（Curved Planer Reconstruction）等の表示を行うことにより、臓器全体及び／又は病変の視認性を高め診断の効率化を図ることが行われている。例えば、心臓ＣＴ画像に対する解析、特に冠動脈解析あるいは脳血管の解析を行う際に、画像中から血管経路を抽出することが求められる。

図１は、心臓ＣＴ検査によって得られるＶＲ画像の例である。図１の左図に示す画像ＨＶＲ１は心臓ＶＲ画像の例であり、右図に示す画像ＨＶＲ２は冠動脈経路Ｃａｒを重畳表示した心臓ＶＲ画像の例である。

図２は、血管経路の模式図である。血管の経路は、血管の中心線ＣＬｂｖを連続的に追跡した座標点（ノードＮｄ）の点群と、ノードＮｄ間の隣接関係を表すエッジＥｇと、を用いて表現することができる。３次元画像から血管の中心線ＣＬｂｖが検出されると、その経路に沿って展開したＣＰＲ画像を生成することにより、血管に体積したプラークを可視化したり、狭窄率を計測したりすることができ、診断に有効な情報を得ることができる。

図３は、冠動脈のＣＰＲ画像の例である。図３の下段にはストレートビューモードによるＣＰＲ画像の例が示され、図３の上段には血管ＢＶの経路に沿った位置ごとの平均径のグラフが表示されている。図３に示すＣＰＲ画像において血管ＢＶの一部が白く膨らんだ部分はプラークＰＬＱである。

《線構造抽出装置の概要》
本発明の実施形態に係る線構造抽出装置は、図１から図３で説明したような画像診断の支援に適用される管状構造物の中心線（センターライン）を抽出する処理に適用される。ここでは、具体的な適用例として、腹部３次元ＣＴ画像から肝臓の門脈及び静脈の構造を検出する場合を想定する。血管は本開示における「管状構造物」の一例であり、血管の中心線は本開示における「線構造」の一例である。本実施形態に係る線構造抽出装置は、入力画像から血管の中心線を構成する点の集まり、つまり中心線上の複数の点を予測し、かつ、各点のクラス分類のラベル付けを行う。中心線上の点群は「点列」と言い換えてもよい。

本実施形態に係る線構造抽出装置は、物体検出のアルゴリズムであるＦａｓｔｅｒＲ－ＣＮＮのフレームワークを改良して、画像中から線構造を構成する線上の点を予測する処理を行う。すなわち、本実施形態において検出対象とする物体は、血管の中心線であり、予測結果としての出力は中心線を構成する要素となる点、つまり、中心線上の点の位置情報である。線構造を構成する要素となる点を「線構造の要素点」という。以下、中心線の要素点を「中心線上点」という。

本明細書において「物体」あるいは「オブジェクト」という用語は、物理的に実在する「実体物」に限定されず、例えば、クラックあるいは隙間のような領域、あるいは大きさを持つ領域の代表線、線構造及び線構造の要素点の概念を含む。血管の中心線は、太さを持つ管状構造物の代表線の一例である。３次元画像を用いた処理の説明は複雑になるため、以下、理解を容易にするために、入力画像が２次元画像である場合に置き換えて説明する。

〔ＦａｓｔｅｒＲ－ＣＮＮの概要〕
図４は、本発明の実施形態に適用されるＦａｓｔｅｒＲ－ＣＮＮの概要を示す構成図である。ＦａｓｔｅｒＲ－ＣＮＮ４０は、入力画像ＩＭｉｐｔの画像中から物体が存在しそうな領域を見つけ出す第１のニューラルネットワーク４１と、第１のニューラルネットワーク４１の出力として得られた候補領域ＲＰの各々について、候補領域ＲＰ内の物体が何であるかを特定するクラス分類の処理を行う第２のニューラルネットワーク４２と、を含んで構成される。

第１のニューラルネットワーク４１は、深層畳み込みニューラルネットワーク（Deep Convolutional Neural Network：ＤＣＮＮ）４１１と、領域提案ネットワーク（Region Proposal Network：ＲＰＮ）４１２と、を含んで構成される。ＤＣＮＮ４１１は、入力画像ＩＭｉｐｔの特徴量を抽出するニューラルネットワークである。ＤＣＮＮ４１１の畳み込みに使用するフィルタのサイズ及びチャンネル数は適宜設計可能である。例えば、フィルタは、３×３のフィルタであってよく、隠れ層のチャンネル数は２５６あるいは５１２などであってよい。

ＤＣＮＮ４１１に入力画像ＩＭｉｐｔが入力されると、ＤＣＮＮ４１１から特徴マップＦＭが出力される。特徴マップＦＭは、多層の畳み込み演算によって得られる畳み込み特徴マップである。ＤＣＮＮ４１１は、プーリング層を含んでもよいし、プーリング層を持たずに畳み込みのフィルタのストライドを２などに設定して特徴マップＦＭのサイズを縮小してもよい。ＤＣＮＮ４１１から出力される特徴マップＦＭは、ＲＰＮ４１２に入力される。

ＲＰＮ４１２は、ＤＣＮＮ４１１から出力される特徴マップＦＭを入力とし、特徴マップＦＭから物体らしい候補領域ＲＰを予測する。ＲＰＮ４１２は、畳み込み層を含んで構成され、画像中から物体らしきものを含むバウンディングボックス（Bounding box：Ｂｂｏｘ）を生成する。ＲＰＮ４１２によって予測した候補領域ＲＰのリストは第２のニューラルネットワーク４２に送られる。すなわち、ＲＰＮ４１２は、画像中から複数の候補領域ＲＰをリストアップして、Ｒ－ＣＮＮ４２３に渡す。

第２のニューラルネットワーク４２は、Ｒ－ＣＮＮ（Region-Based Convolutional Neural Network）４２３によって構成される。Ｒ－ＣＮＮ４２３は、ＲＰＮ４１２の出力として得られた候補領域ＲＰの１つ１つについてクラス分類を行う。Ｒ－ＣＮＮ４２３は、クラス分類のタスクに加え、物体を囲む矩形を表すバウンディングボックスを出力してもよい。なお、矩形という用語は、長辺と短辺とを持つ長方形に限らず、正方形も含む。

Ｒ－ＣＮＮ４２３はＤＣＮＮ４１１と接続されており、Ｒ－ＣＮＮ４２３には、ＤＣＮＮ４１１から出力される特徴マップＦＭが入力される。また、Ｒ－ＣＮＮ４２３には、ＲＰＮ４１２によって予測された候補領域ＲＰのデータが入力される。Ｒ－ＣＮＮ４２３は、ＲＰＮ４１２が生成した候補領域ＲＰを特徴マップＦＭに投影して、演算対象とする関心領域（Region of Interest：ＲＯＩ）を切り出し、ＲＯＩごとにオブジェクトのクラス分類を行い、ラベルを決定する。Ｒ－ＣＮＮ４２３は、ＲＰＮ４１２の出力として得られた候補領域ＲＰの１つ１つについてクラス分類を行う。

さらに、Ｒ－ＣＮＮ４２３は、検出したオブジェクトを囲むバウンディングボックスを出力してもよい。特許文献１及び非特許文献１に記載の一般的な写真画像に写る被写体物を対象とする物体検出のタスクでは、Ｒ－ＣＮＮ４２３から、オブジェクトラベルの出力と、物体の外接矩形を表すバウンディングボックスの出力と、を得ている。

本実施形態の場合、線構造の要素点である「中心線上点」を囲む矩形を出力しても実用性に乏しいと考えられるため、バウンディングボックスの出力を省略してよい。あるいは、必要に応じて、中心線上点及びその周囲の血管太さ程度の領域範囲を含むバウンディングボックスを出力するよう構成されてもよい。

〔線構造抽出装置における処理の内容〕
図５は、本発明の実施形態に係る線構造抽出装置５０における処理の内容を概略的に示す説明図である。図５において、図４と共通する要素には同一の符号を付す。線構造抽出装置５０は、１台又は複数台のコンピュータを用いて構成される計算システム（コンピューティングシステム）によって実現することができる。線構造抽出装置５０は、第１の処理モジュールとしてのＤＣＮＮ４１１と、第２の処理モジュールとしてのＲＰＮ４１２と、第３の処理モジュールとしてのＲ－ＣＮＮ４２３と、を備える。「モジュール」という用語はプログラムモジュールの概念を含む。

ＤＣＮＮ４１１は、入力画像ＩＭｉｐｔを受け入れ、複数の畳み込み層４１４による畳み込み処理を行い、特徴マップＦＭを生成する。ＤＣＮＮ４１１の先頭の入力層は、入力画像ＩＭｉｐｔを受け付ける画像受付部としての役割を持つ。図５に示す６×６のグリッドは特徴マップＦＭの一部を表しており、グリッドのマス目の１区画は特徴マップＦＭの画素ｐｘｆｍに対応している。特徴マップＦＭの１つの画素ｐｘｆｍは、入力画像ＩＭｉｐｔにおけるより広い範囲の画像領域から計算された特徴量の情報を持つ。

入力画像ＩＭｉｐｔの画素を画素ｐｘと表記すると、例えば、特徴マップＦＭの１つの画素ｐｘｆｍは、入力画像ＩＭｉｐｔの画素ｐｘのグリッド配列におけるＳ×Ｓピクセルのサイズの画素領域から計算された特徴量を持つようにＤＣＮＮ４１１が構成される。Ｓは、ＤＣＮＮ４１１による画像の縮小率に応じた値である。つまり、特徴マップＦＭの各画素ｐｘｆｍは、入力画像ＩＭｉｐｔにおける対応する位置のＳ×Ｓサイズの画素領域に相当するものと理解される。

言い換えると、入力画像ＩＭｉｐｔをグリッド状にＳ×Ｓサイズの複数の領域に分割した場合のＳ×Ｓサイズの各領域が特徴マップＦＭの画素ｐｘｆｍに対応している。特徴マップＦＭの各画素ｐｘｆｍの位置は、入力画像ＩＭｉｐｔにおける画像位置を表す座標系に投影して記述することができる。

ＲＰＮ４１２はＤＣＮＮ４１１から出力された特徴マップＦＭを受け入れ、特徴マップＦＭの画素ｐｘｆｍごとに、画素ｐｘｆｍの中心点から最も近い中心線上点を予測する。画素ｐｘｆｍの中心点から最も近い中心線上点を「最近点」という。特徴マップＦＭの各画素ｐｘｆｍは、最近点へのシフト量を予測する領域の単位であり、「ユニット」と呼ばれる。すなわち、特徴マップＦＭは、グリッド状に既定サイズの領域を持つ複数のユニット（画素ｐｘｆｍ）に分割され、ＲＰＮ４１２は、特徴マップＦＭのユニットごとに、中心線の要素点の候補となる最近点を予測する。

ＲＰＮ４１２は、特徴マップＦＭのユニットごとに最近点を予測するために、特徴マップＦＭの各ユニットに対して、アスペクト比及び／又はサイズの異なる複数種の基準矩形を適用する。この基準矩形は「アンカー」と呼ばれる。図５には、それぞれサイズの異なるアンカーＡ１、アンカーＡ２、及びアンカーＡ３の３種のアンカーを用いる例を示す。ここでは３種のアンカーのアスペクト比はどれも１：１である。なお、同サイズで異なるアスペクト比を持つ複数のアンカーを用いてもよい。複数のアンカーＡ１、アンカーＡ２、及びアンカーＡ３は、それぞれの中心点をユニット（画素ｐｘｆｍ）の中心点と一致させて配置される。

ＲＰＮ４１２は、各アンカーをどれだけ移動（シフト）及び／又は変形させると正解の矩形に近づくかを計算し、かつ、アンカー内に物体があるか否かを計算する畳み込み層４１６を有する。ここでいう正解の矩形とは、正解の中心線上点を中心位置に持つ矩形であり、かつ血管太さに対応した領域サイズを有する矩形である。ＲＰＮ４１２は、ＤＣＮＮ４１１とは異なる畳み込み層を備える。例えば、ＲＰＮ４１２は、ＤＣＮＮ４１１よりも少ない層数の畳み込み層を持つ構成であってよい。ＲＰＮ４１２は、ユニットごとにユニットの位置の特徴量を用いて畳み込みの処理を行う。

ＲＰＮ４１２は、畳み込み層４１６による畳み込みを経て、アンカーを正解の矩形に近づけるためのアンカー中心点のシフト量及びアンカーの変形量の出力と、アンカー内に物体があるか否かを示す２クラス分類の確からしさを表すスコアの出力と、を行う。つまり、ＲＰＮ４１２は各アンカーについて「アンカーをどのように移動及び／又は変形したらグラウンドトゥルース（ground truth）と一致するかという回帰問題」と「アンカー内に物体があるか否かという識別問題」と、を解く。なお、アンカーの変形量とは、例えば、ｘ方向及びｙ方向のそれぞれの方向の変形倍率であってよい。アンカーのアスペクト比を変えずにサイズのみを修正する相似変形を行う場合、アンカーの変形量はｘ方向及びｙ方向に共通の変形倍率であってよい。

アンカー内に物体があるか否かを示す２クラス分類のスコアを「オブジェクトネススコア」という。一方、アンカーを正解の矩形に近づけるためのアンカーのシフト量及び変形量を示す回帰結果のデータをまとめて「Ｂｂｏｘオフセット」という。ＲＰＮ４１２は、計算されたシフト量でシフトしたアンカー内に物体があるか否かを示すオブジェクトネススコアを計算してもよいし、シフトしないアンカー内（ユニット位置に配置したアンカー内）に物体があるか否かを示すオブジェクトネススコアを計算してもよいし、又は、これらの両方のオブジェクトネススコアを計算してもよい。

Ｒ－ＣＮＮ４２３は、ＲＰＮ４１２から出力された予測結果の候補領域に基づき、特徴マップＦＭから候補領域に対応する部分を切り出した局所画像を生成し、この切り取られた局所画像であるＲＯＩ画像を基に、全結合層４２６、４２７によって、ＲＯＩ画像内に含まれる物体のクラス分類のスコアを計算し、スコアを基にクラスラベルを付与する。なお、特徴マップＦＭから切り出す局所画像のサイズは候補領域のサイズと異なるサイズであってもよい。

以下、ＲＰＮ４１２とＲ－ＣＮＮ４２３とについてさらに詳細に説明する。

〔ＲＰＮ４１２の説明〕
例えば、肝臓の血管の抽出に用いられるＲＰＮ４１２は、門脈と静脈の区別なく、血管の中心線上の候補点を提示するように訓練される。ＲＰＮ４１２の最終層から得られる特徴マップの各画素が、中心線上の候補点を予測するユニットである。それぞれのユニットは、図５で説明した特徴マップＦＭの画素ｐｘｆｍに対応している。それぞれのユニットは、ユニットの中心位置を基準とした、中心線の最近点の位置とのずれ量を予測する。

２次元画像の場合、ＲＰＮ４１２が予測するずれ量はｘ方向及びｙ方向の各方向のずれ量を示す２つの実数値Δｘ，Δｙである。３次元画像の場合、ＲＰＮ４１２が予測するずれ量は、ｘ方向、ｙ方向及びｚ方向の各方向のずれ量を示す３つの実数値Δｘ，Δｙ，Δｚである。さらに、ＲＰＮ４１２は、予測したずれ量に従ってシフトさせたアンカー内に、及び／又はシフトさせないアンカー内に対象物体があるか無いかも同時に判別する。つまり、ＲＰＮ４１２は、対象物体があるか無いかの２クラス分類を行う。

図６は、ＲＰＮ４１２によって処理される特徴マップの各画素と、血管中心線との位置関係の例を模式的に示す図である。図６に示す８×８のグリッドは、ＤＣＮＮ４１１からの特徴マップＦＭの一部を表している。例えば、図６において各ユニットｕの位置をグリッドの列番号０～７と行番号０～７を用いて「ｕ（列番号，行番号）」のように表記すると、左上のユニットはｕ（０，０）、右下のユニットはｕ（７，７）と表記される。例えば、ユニットｕ（３，４）は、ユニット中心位置の中心座標ＣＰ３４と、この中心座標ＣＰ３４から最も近い中心線ＣＬｂｖの最近点ＮＰ３４の位置とのずれ量（Δｘ，Δｙ）を予測する。

なお、座標を定義する空間は入力画像ＩＭｉｐｔにおける位置を特定するｘｙ座標系であってよい。すなわち、各ユニットの中心座標及び最近点座標は入力画像ＩＭｉｐｔの画像内の位置を特定するｘｙ座標系の数値（ｘ，ｙ）によって表される。他のユニットについても同様に、各ユニットの中心座標を基準として中心線ＣＬｂｖの最近点の位置とのずれ量（Δｘ，Δｙ）を予測する。ユニットｕの中心座標は本開示における「ユニット中心点」の一例である。予測される「ずれ量」は本開示におけるユニット中心点から最近点への「シフト量」の一例である。

図７は、中心線ＣＬｂｖのユニットの拡大図である。ここでは、４つのユニットｕが示されている。ユニットｕ内に表示された細かいグリッドのマス目は入力画像ＩＭｉｐｔの画素のサイズを模式的に表している。図７のように、各ユニットｕの中心座標ＣＰから中心線ＣＬｂｖの最近点ＮＰが予測される。

〈アンカーの説明〉
図８は、アンカーの説明図である。図８は、図６と同様に、特徴マップＦＭの一部を表しており、グリッドのマス目は特徴マップＦＭの画素、すなわちユニットを表す。それぞれのユニットは、あらかじめ定義された複数のアンカーを仮想的に有している。図７では、説明を簡単にするために、２種類のアンカーを示す。図７は、グレーで塗りつぶしたユニットｕ（４，４）に配置される第１のアンカー７１及び第２のアンカー７２を示す。第１のアンカー７１は、３×３のピクセルサイズを持つアンカーである。第２のアンカー７２は、７×７のピクセルサイズを持つアンカーである。

血管の中心線ＣＬｂｖはその線上の位置に応じて血管の太さが定義されているものとする。各ユニットに置かれる複数のアンカーのうち、対象の太さと最も近いサイズのアンカーのみが中心線上点の位置を予測する。

アンカーは、対象の太さの範囲をカバーするように複数種類用意しておく。例えば、冠動脈を対象とする場合、一辺が３ピクセル、５ピクセル、及び９ピクセルの３サイズの正方形のアンカーを用意する。なお、非特許文献１に記載の一般的な物体を対象として物体検出を行う場合には、アスペクト比の異なる複数のアンカーを用意するが、本実施形態の場合、検出の対象は様々な方向に伸びる線構造を有する管状構造物であり、縦長又は横長といった方向性について特段に顕著な傾向もないため、アンカーのアスペクト比は１：１のものだけであってよい。

図８の場合、中心線ＣＬｂｖの左下の付近、例えば、ユニットｕ（１，５）の付近は、概ね半径１ピクセルの血管太さを持つ。これに対し、中心線ＣＬｂｖの右上寄りに位置するユニットｕ（４，３）付近は、概ね半径２ピクセルの血管太さを持つ。したがって、図８の左下の部分に配置されるユニットでは、複数のアンカーのうち、３×３のピクセルサイズを持つアンカーが中心線上点の位置の予測に用いられ、図８の右上の部分に配置されるユニットでは、７×７のピクセルサイズを持つアンカーが中心線上点の位置の予測に用いられる。

図９は、サイズが異なる３種類のアンカーを用いる例を示しており、中心線上点の予測に用いるアンカーが血管太さに応じて決定されることを表している。この例では、一辺が３ピクセルのアンカー８１と、一辺が５ピクセルのアンカー８２と、１辺が７ピクセルのアンカー８３とが用意されており、血管太さに応じて適用するアンカーのサイズが変更される。なお、１つのユニットに対して予測に用いるアンカーは１つに限定する必要はなく、血管太さによっては１つのユニットに複数のアンカーをそれぞれ適用して中心線上点を予測してもよい。

学習に用いる学習データとして、訓練画像に対し正解となる中心線の位置情報が与えられ、かつ、正解の各中心線上点がどのような大きさの領域（ここでは血管太さ）を代表する点であるかの情報が与えられる。すなわち、学習データには、正解の中心線上点の各々が、どのサイズのアンカーによって抽出されるべきか、つまり、どの太さの代表点として抽出されるべきか、を示す情報（スコア）も与えられる。これにより、対象となる領域の血管太さに応じてアンカーサイズを変更するように学習させることができる。

図１０は、ＲＰＮ４１２の出力例を示す概念図である。図１０は、図９に示した各アンカーについて、予測された最近点ＮＰへの中心点座標のシフトと、予測された変形倍率による矩形サイズ修正とを実施して得られるそれぞれの候補領域ＲＰの例を示す。

〈アンカーを使った学習方法の概要〉
アンカーを使った学習方法の手順の例を以下に示す。

［ステップ１］ＲＰＮ４１２は、訓練画像の入力によってＤＣＮＮ４１１から出力される特徴マップＦＭの各ユニット（画素）に予め定義した複数のアンカーを配置する。

［ステップ２］ＲＰＮ４１２は、複数のアンカーのうち正解矩形とのオーバーラップの大きいアンカーを探す。

［ステップ３］ステップ２にて選定した選定アンカーと正解矩形との差分を計算する。この差分とは、具体的には、アンカー中心座標のシフト量Δｘ、Δｙと、アンカーの大きさを変更するための変形倍率と、であってよい。

［ステップ４］選定アンカーの物体らしさのスコア（objectness score）が「１」、バウンディングボックスの修正量（Ｂｂｏｘオフセット）がステップ３で計算した差分となるように、ネットワークを学習する。

〈アンカーを使った推論方法の概要〉
アンカーを使った推論（予測）方法の例を以下に示す。

［ステップ１０１］学習済みのＲＰＮ４１２は、推論対象とする未知画像の入力によってＤＣＮＮ４１１から出力される特徴マップＦＭの各ユニットに予め定義した複数のアンカーを配置する。

［ステップ１０２］ＲＰＮ４１２は、各アンカーのＢｂｏｘオフセットと、オブジェクトネススコアと、を計算する。

［ステップ１０３］オブジェクトネススコアが高いアンカーについて、そのアンカーのＢｂｏｘオフセットを基に、アンカーを移動及び変形する。

〈重複する候補領域の抑制：Non-Maximum Suppression（ＮＭＳ）処理〉
各ユニットが予測した中心線上点の点群は、過剰に多い場合がある。特許文献１及び非特許文献１に記載のように、ＦａｓｔｅｒＲ－ＣＮＮでは、ＲＰＮとＲ－ＣＮＮとの間に重要な候補のみを選択して残すＮＭＳ処理が挿入されている。ＮＭＳ処理は、同じ物体を示している複数の矩形のうちから１つの矩形を残して、他の矩形からの出力を抑制する処理である。

特許文献１及び非特許文献１の場合、ＲＰＮが生成する候補領域間でＩｏＵ（Intersection over Union）値を計算し、ＩｏＵ値が所定の閾値よりも大きい場合は、領域どうしの重なりが大きいと見做して、一方の領域を削除（抑制）する。逆に、ＩｏＵ値が小さければ、領域どうしの重なりが小さいため、両方の候補領域をそのまま残す。このようなアルゴリズムによって、過剰に重複する候補領域の数を減らす仕組みが提案されている。

本実施形態が対象とする中心線上の点群を検出する問題の場合、血管の太さの半分程度の間隔で「中心線上点」が検出されれば十分である。したがって、本実施形態では、上述のＮＭＳ処理に加え、又は、ＮＭＳ処理に代えて、上述のＩｏＵ値を計算せずに、血管の太さの半分程度の間隔で候補領域を間引く処理を行う。なお、学習の際に、教師データとして予め血管の太さの情報が与えられていない場合は、ユニットのピクセル間隔程度でサンプリングすればよい。

〈孤立点除去〉
図１１は、ＲＰＮ４１２によって予測された候補点の例を示しており、候補点の中に孤立点が含まれている場合の説明図である。血管の中心線のような線構造は、連続する点の配列（点列）によって表現されるため、図１１に示すように、各ユニットから予測された中心線上点が他の点列から大きく離れて孤立して存在するような場合は、その孤立点ＩＳＰは誤って予測された結果（誤検出）である可能性が高い。したがって、ＲＰＮ４１２において、予測された中心線上の候補点が孤立してある場合は誤検出と判断できる所定の閾値を設定しておき、この閾値以内の距離に他の候補点が一つも存在しない点は、その孤立点ＩＳＰを予測結果から削除（消去）する。

〔Ｒ－ＣＮＮ４２３の説明〕
Ｒ－ＣＮＮ４２３は、ＲＰＮ４１２が予測したアンカー内の特徴マップを規格化した画像を入力として、クラス判別を行う。本実施形態が扱う血管構造のように、検出の対象がグラフ理論の木構造である場合に、Ｒ－ＣＮＮ４２３は、木構造の構成要素としての「根」、「枝上の点」、「分岐点」、又は「末梢の点（末端）」の４ラベルのいずれかに分類する。

図１２は、木構造の構成要素のラベルが付された点群の例を示す。このように点ごとの特性（分類）が予めわかっていると、さらに後段で点同士を接続してグラフ構造を再構成させる際に都合がよい。例えば、根の位置から経路の探索をはじめたり、分岐点で枝の数を増やしたり、末梢の点で経路の接続を終了させることができる。

経路の接続には既存のアルゴリズム、例えば最小全域木アルゴリズム、又は最短経路（ダイクストラ）アルゴリズムを用いることができる。

〈クラス分類の他の例〉
人体中には様々な血管系があり、例えば肝臓や肺がある。肝臓の血管系であれば動脈、門脈、及び静脈がある。それぞれの血管系は接触したり、交差したりしており、解剖を把握するために、対象を分離することが重要である。そこでＲ－ＣＮＮ４２３に血管の種類を分類させる構成としてもよい。この場合、分類するクラスの項目として解剖学的名称を与え、学習データに正解となるラベルのデータを加えればよい。

［肝臓の場合］
肝臓の血管を分類する目的の場合には、ＲＰＮ４１２が検出した候補点（予測した中心線上点）に対し、Ｒ－ＣＮＮ４２３が判別するクラスを血管タイプによって、｛門脈，静脈，動脈，その他｝の４クラスとする。

さらに肝臓は、解剖学的に８区域に分けられる。８区域は、尾状葉、外側区域背側、外側区域尾側、内側区域、前区域頭側、前区域尾側、後区域後頭側、及び後区域尾側である。これらの区域は血管枝の走行によって定義されるため、８種類の血管枝のクラス分けをすることができる。

正解として与えられる中心線について、その枝ごとに解剖名が付与される。予測した中心線上の候補点のラベルをＲ－ＣＮＮ４２３が学習する正解のラベルとする。

人体中には、肝臓の他にも脳血管、肺血管や気管支、あるいは消化管のような木構造（ループがある場合は広義に「グラフ」と呼ぶ）が存在する。本開示の手法は、様々な解剖構造の認識に応用することができる。

［肺の場合］
肺の血管構造の場合、例えば、肺静脈と肺動脈のクラス分けをすることができる。あるいはまた、気管及び気管支の木構造を持つ気管構造に関して、解剖学的な気管支名及び／又は区域名によって複数のクラス分けを行うことができる。肺は、気管支枝によって複数の区域に分類される。例えば、気管、右肺の主気管支、上葉支、肺突枝（Ｂ１）、後上葉枝（Ｂ２）、前上葉枝（Ｂ３）、中間幹、中葉支、外側中葉枝（Ｂ４）、内側中葉枝（Ｂ５）、下葉支、上下葉枝（Ｂ６）、内側肺底枝（Ｂ７）、前肺底枝（Ｂ８）、外側肺底枝（Ｂ９）、後肺底枝（Ｂ１０）、底幹支、左肺の主気管支、上葉支、上区支、肺突後枝（Ｂ１＋２）、前上葉枝（Ｂ３）、舌支、上舌枝（Ｂ４）、下舌枝（Ｂ５）、下葉支、上下葉枝（Ｂ６）、内側前肺底枝（Ｂ７＋８）、外側肺底枝（Ｂ９）、後肺底枝（Ｂ１０）、及び底幹支などの各クラスに分けることができる。

《線構造抽出装置に用いられる学習モデルの例》
図１３は、線構造抽出装置５０に実装される学習モデル５２のネットワーク構造と処理の流れを概略的に示す説明図である。図１３において、図４及び図５で説明した要素と対応する要素には同一の符号を付し、その説明は省略する。学習モデル５２は、ＤＣＮＮ４１１と、ＲＰＮ４１２と、Ｒ－ＣＮＮ４２３と、を含む。

ＲＰＮ４１２の畳み込み層４１６は、ＤＣＮＮ４１１が出力する特徴マップＦＭのチャンネル数に対応するフィルタ数を持つ。畳み込み層４１６のフィルタサイズは例えば３×３であってよい。

ＲＰＮ４１２は、畳み込み層４１６の後段に２種類の１×１の畳み込み層４１７、４１８を有する。畳み込み層４１６の出力は、１×１の畳み込み層４１７、４１８の各々に入力される。一方の１×１の畳み込み層４１７は、活性化関数としてソフトマックス関数を用いるソフトマックス層を含み、各アンカーの位置において物体（中心線上点）であるか否かの確率を示すオブジェクトネススコアを出力する。他方の１×１の畳み込み層４１８は、複数のアンカーの各々についてアンカーを正解の矩形に近づけるための数値回帰を行う回帰層である。ＲＰＮ４１２は、訓練データの正解矩形との重なりが大きくなるように訓練される。

Ｒ－ＣＮＮ４２３は、ＲＯＩプーリング層４２４と、全結合層４２６、４２７と、ソフトマックス層４２８と、を含む。ＲＯＩプーリング層４２４は、ＤＣＮＮ４１１から得られる特徴マップＦＭの中から切り出される各候補領域ＲＰに対応する領域内の特徴マップをプーリングして、固定サイズの規格化した画像に変形する。固定サイズに変形された特徴マップの部分画像は全結合層４２６に入力される。最終の全結合層４２７の後段にソフトマックス層４２８が設けられる。分類するクラスの数に対応して出力層のユニットの数が決定され、各クラスである確率を示すオブジェクトスコアが計算され、最終的にオブジェクトラベルが特定される。なお、全結合層４２６、４２７の一部もしくは全部に代えて、又はこれに加えて、畳み込み層を備える構成を採用してもよい。

図１３に示すＲＯＩプーリング層４２４は本開示における「関心領域プーリング層」の一例である。学習モデル５２は本開示における「学習済みモデル」の一例である。

〈本実施形態による線構造抽出方法〉
図１４は、線構造抽出装置５０による処理内容の例を示すフローチャートである。図１４に示す処理は、線構造抽出装置５０として機能する計算システムによって実行される。計算システムは、コンピュータ可読媒体に記憶されたプログラムに従って各ステップの処理を実行する。

ステップＳ５０において、計算システムは処理の対象となる画像を受け入れる。

ステップＳ５２において、計算システムは入力された画像からＤＣＮＮ４１１によって畳み込み特徴マップを生成する。

ステップＳ５４において、計算システムはＤＣＮＮ４１１から出力された畳み込み特徴マップをＲＰＮ４１２に入力してＲＰＮ４１２により中心線上点らしき候補領域を生成する。

ステップＳ５６において、計算システムはＲＰＮ４１２によって生成された各候補領域の情報とＤＣＮＮ４１１によって生成された畳み込み特徴マップとをＲ－ＣＮＮ４２３に入力して、Ｒ－ＣＮＮ４２３により各候補領域を切り出し、各候補領域のオブジェクトの分類ラベルを生成する。

ステップＳ５８において、計算システムはＲＰＮ４１２によって予測された中心線上各点の位置と、各点の血管太さと、Ｒ－ＣＮＮ４２３によって予測された各点のラベルと、が紐付けされた予測結果のデータを記憶する。

ステップＳ５８の後、計算システムは図１４のフローチャートを終了する。

図１５は、図１４のステップＳ５４に適用される処理内容の例を示すフローチャートである。図１５のステップＳ６１において、計算システムは畳み込み特徴マップのユニットごとに複数のアンカーを生成する。

ステップＳ６２において、計算システムは各アンカーについてアンカー中心点から最も近い血管の中心線上の点（最近点）の座標を予測する。

ステップＳ６３において、計算システムは各アンカー内に中心線の点が含まれているか否かの２クラス分類のためのオブジェクトネススコアを計算する。

ステップＳ６４において、計算システムはオブジェクトネススコアが高いアンカーについて、予測した最近点の位置における血管太さに相当するアンカー倍率を予測する。

ステップＳ６５において、計算システムはＲＰＮ４１２が生成する多数の候補領域から血管太さを考慮して過剰な候補領域を抑制する。例えば、ＲＰＮ４１２によって予測された複数の候補点の点群のうち、血管の直径の半分（半径）程度を目安とする間隔（第１の間隔）よりも近接している過剰な候補点の一部を削除して、血管の半径程度の間隔で候補点を選択して残すようにサンプリングを行う。このような間引きのサンプリングにより、血管の太さが太い部分ほど大きな間隔で候補点の点列が残り、細い部分では小さな間隔で候補点が残る。

なお、予め検出対象物の太さの情報が与えられていない場合には、ＲＰＮ４１２によって予測された複数の候補点の点群のうち、ユニットｕのサイズの半分を目安とする間隔（第２の間隔）よりも近接している過剰な候補点の一部を削除して、ユニットｕの１／２サイズ程度の間隔で候補点を選択して残すようにサンプリングを行う。

ステップＳ６６において、計算システムはＲＰＮ４１２によって予測された候補点から孤立点を判別し、孤立点の候補領域を削除する。

ステップＳ６７において、計算システムは予測した中心線上の各点の位置と、各点における血管太さとが紐付けされた予測結果のデータ、すなわち候補領域のＢｂｏｘのリストを生成する。

ステップＳ６７の後、計算システムは図１５のフローチャートを終了して、図１４のフローチャートに復帰する。

《学習方法の例》
次に、本実施形態に係る線構造抽出装置５０における学習モデルの学習方法の例について説明する。

〔学習データの例〕
学習に用いる学習データとして、訓練画像と、その訓練画像に含まれる血管の中心線上の各点の位置情報と、中心線上の各点における血管太さ情報と、各点についてのクラス分類の正解ラベルと、の組み合わせを複数セット用いる。「学習データ」とは、機械学習に用いる訓練用のデータであり、「学習用データ」或いは「訓練データ」と同義である。

訓練画像は、例えば、ＣＴ装置によって撮影されたＣＴ画像であってよい。正解として与える血管の中心線上の各点の位置情報及び血管太さ情報は、例えば、ＣＴ画像から生成したＣＰＲ画像の中心線上の点の座標及び血管半径の数値を用いることができる。

各点の血管太さ（半径）が特定されることにより、例えば、その点を中心として半径の２倍の長さを１辺とする正方形の正解矩形を自動的に定めることができる。また、与えられた各点の血管太さから、その点の予測に適したアンカーサイズを定めることができる。各点のクラス分類の正解ラベルは、解剖学的な知見に基づき定めることができる。１つの訓練画像について、アンカーの種類（サイズ）ごとに、各サイズのアンカーが抽出してほしいい位置の正解データを与える。なお、血管太さによっては異なるサイズの複数のアンカーを用いて重複して予測を行うように正解データを与えてよい。

図１６は、学習データＬＤ（ｉ）の概念図である。本実施形態の機械学習においては、学習データＬＤ（ｉ）として、訓練画像と、正解中心線の各点の座標と、各点の正解太さと、各点の正解ラベルと、を与える。ｉは学習データを識別するインデックス番号である。なお、正解中心線の各点の座標は、訓練画像のピクセル単位よりも細かなサブピクセル単位の数値で与えてよい。正解矩形は、正解太さの情報から自動生成することができる。アンカーサイズは、正解太さの情報から自動生成してもよいし、オペレータが指定してもよい。

〔学習装置の構成例〕
図１７は、機械学習を行う学習装置１００の構成例を示す機能ブロック図である。学習装置１００は、１台又は複数台のコンピュータを用いて構成される計算システムによって実現することができる。学習装置１００を構成する計算システムは、線構造抽出装置５０を構成する計算システムと同じシステムであってもよいし、異なるシステムであってもよく、また一部の要素を共有するシステムであってもよい。

学習装置１００は、学習データ保管部１５０と接続される。学習データ保管部１５０は、学習装置１００が機械学習を行うために必要な学習データＬＤ（ｉ）を保管しておくストレージを含んで構成される。ここでは、学習データ保管部１５０と学習装置１００とがそれぞれ別々の装置として構成される例を説明するが、これらの機能は１台のコンピュータで実現してもよいし、２以上の複数台のコンピュータで処理の機能を分担して実現してもよい。

例えば、学習データ保管部１５０と学習装置１００とは、図示しない電気通信回線を介して互いに接続されていてもよい。「接続」という用語は、有線接続に限らず、無線接続の概念も含む。電気通信回線は、ローカルエリアネットワークであってもよいし、ワイドエリアネットワークであってもよい。

このように構成することで、学習データの生成処理と学習モデルの学習処理とを物理的にも時間的にも互いに束縛されることなく実施することができる。

学習装置１００は、学習データ保管部１５０から学習データＬＤ（ｉ）を読み込み、機械学習を実行する。学習装置１００は、複数の学習データＬＤ（ｉ）をまとめたミニバッチの単位で学習データＬＤ（ｉ）の読み込みとパラメータの更新を行うことができる。

学習装置１００は、データ取得部１０２と、学習モデル５２と、第１誤差計算部１１０と、第２誤差計算部１１２と、オプティマイザ１１４と、を含む。

データ取得部１０２は、学習データＬＤ（ｉ）を取り込むためのインターフェースである。データ取得部１０２は、外部又は装置内の他の信号処理部から学習データＬＤ（ｉ）を取り込むデータ入力端子で構成されてよい。また、データ取得部１０２には、有線又は無線の通信インターフェース部を採用してもよいし、メモリカードなどの可搬型の外部記憶媒体の読み書きを行うメディアインターフェース部を採用してもよく、若しくは、これら態様の適宜の組み合わせであってもよい。

学習モデル５２は、既に説明したとおり、ＤＣＮＮ４１１と、ＲＰＮ４１２と、Ｒ－ＣＮＮ４２３と、を含む。

第１誤差計算部１１０は、アンカーごとに、ＲＰＮ４１２から出力された予測結果と、正解データとの誤差を計算する。第１誤差計算部１１０は、損失関数を用いて誤差を評価する。第１誤差計算部１１０によって計算された第１誤差はオプティマイザ１１４に送られる。

第２誤差計算部１１２は、Ｒ－ＣＮＮ４２３から出力された予測結果と、正解ラベルとの誤差を計算する。第２誤差計算部１１２は、損失関数を用いて誤差を評価する。第２誤差計算部１１２によって計算された第２誤差はオプティマイザ１１４に送られる。

オプティマイザ１１４は、第１誤差計算部１１０及び第２誤差計算部１１２の各々の計算結果から学習モデル５２のパラメータを更新する処理を行う。オプティマイザ１１４は、誤差逆伝播法などのアルゴリズムに基づきパラメータの更新を行う。ネットワークのパラメータは、各層の処理に用いるフィルタのフィルタ係数（ノード間の結合の重み）及びノードのバイアスなどを含む。

オプティマイザ１１４は、第１誤差計算部１１０の計算結果を用いて、ＤＣＮＮ４１１とＲＰＮ４１２とが結合されてなる第１サブネットワーク４１０のパラメータの更新量を計算し、計算されたパラメータの更新量に従い、ＤＣＮＮ４１１及びＲＰＮ４１２のうち少なくともＲＰＮ４１２のネットワークのパラメータを更新するパラメータ更新処理を行う。好ましくは、ＤＣＮＮ４１１とＲＰＮ４１２のそれぞれのネットワークのパラメータを更新する。

また、オプティマイザ１１４は、第２誤差計算部１１２の計算結果を用いて、ＤＣＮＮ４１１とＲ－ＣＮＮ４２３とが結合されてなる第２サブネットワーク４２０のパラメータの更新量を計算し、計算されたパラメータの更新量に従い、ＤＣＮＮ４１１及びＲ－ＣＮＮ４２３の各ネットワークのパラメータを更新する。

また、学習装置１００は、第２サブネットワーク４２０の訓練によってファインチューンされたＤＣＮＮ４１１のパラメータを固定した状態で、第１サブネットワーク４１０のモデルについてさらなる学習を行い、ＲＰＮ４１２のパラメータを更新する。このような学習プロセスを繰り返し実行することにより、学習モデル５２のパラメータを最適化することができる。こうして、学習済みの学習モデル５２を得ることができる。

〔学習装置１００を用いた学習方法の例〕
図１８は、本実施形態に係る線構造抽出装置５０における学習モデル５２の学習方法の例を示すフローチャートである。図１８に示す処理は、学習装置１００として機能する１台又は複数台のコンピュータを用いて構成される計算システムによって実行される。計算システムは、コンピュータ可読媒体に記憶されたプログラムに従って各ステップの処理を実行する。機械学習に使用する計算システムは、線構造抽出装置５０を構成する計算システムと同じシステムであってもよいし、異なるシステムであってもよく、また一部の要素を共有するシステムであってもよい。

図１８のステップＳ２０２において、学習装置１００は学習モデル５２の初期設定を行う。ここでは、図１３に示したネットワーク構造を持つ学習モデル５２の初期設定を行う。ＤＣＮＮ４１１、ＲＰＮ４１２、及びＲ－ＣＮＮ４２３の各ネットワークのパラメータが初期の値に設定される。パラメータの一部は、事前の学習によって得られている学習済みのパラメータであってもよい。

図１８のステップＳ２０４において、学習装置１００はＤＣＮＮ４１１とＲＰＮ４１２とが結合されてなる第１サブネットワーク４１０のモデルを訓練する。ステップＳ２０４により、ＤＣＮＮ４１１及びＲＰＮ４１２のネットワークのパラメータが更新される。なお、学習装置１００は複数の学習データＬＤ（ｉ）を含むミニバッチの単位で学習データを取得することができ、オプティマイザ１１４はミニバッチの単位でパラメータの更新処理を行うことができる。

その後、ステップＳ２０６において、学習装置１００は訓練した第１サブネットワーク４１０を用いて訓練画像から候補領域を生成する。

ステップＳ２０８において、学習装置１００は訓練した第１サブネットワーク４１０により生成された候補領域をＲ－ＣＮＮ４２３に入力し、ＤＣＮＮ４１１とＲ－ＣＮＮ４２３とが結合されてなる第２サブネットワーク４２０のモデルを訓練する。ステップＳ２０８により、ＤＣＮＮ４１１及びＲ－ＣＮＮ４２３のネットワークのパラメータが更新される。

ステップＳ２１０において、学習装置１００は訓練した第２サブネットワーク４２０のＤＣＮＮ４１１を用いて第１サブネットワーク４１０のＲＰＮ４１２を再度訓練する。

ステップＳ２１０の後、学習装置１００はステップＳ２０６に戻って訓練を繰り返してもよいし、所定の学習終了条件に基づき、図１８のフローチャートを終了してもよい。

学習終了条件は、誤差の値に基づいて定められていてもよいし、パラメータの更新回数に基づいて定められていてもよい。誤差の値に基づく方法としては、例えば、誤差が規定の範囲内に収束していることを学習終了条件としてよい。更新回数に基づく方法としては、例えば、更新回数が規定回数に到達したことを学習終了条件としてよい。

《３次元画像への適用》
これまで２次元画像を例に説明したが、２次元画像について説明した事項は、３次元画像の処理に拡張して適用することができる。２次元から３次元への拡張に際しての読み替えは、例えば、次のとおりである。

「画素」は「ボクセル」に読み替えることができる。「矩形」は「直方体」に読み替えることができる。「立方体」は「直方体」の一種として理解することができる。２次元のｘｙ座標は３次元のｘｙｚ座標に読み替えることができる。矩形の「アスペクト比」については、直方体の「三辺の比」に読み替えることができる。アンカーは、予め定められた形状及びサイズを持つ基準形状領域と理解でき、３次元画像の場合は、３次元形状の直方体が用いられる。すなわち、２次元画像に対するアンカーの基準形状領域が矩形領域であるのに対し、３次元画像に対するアンカーの基準形状領域は直方体領域である。

《コンピュータのハードウェア構成の例》
図１９は、コンピュータのハードウェア構成の例を示すブロック図である。コンピュータ８００は、パーソナルコンピュータであってもよいし、ワークステーションであってもよく、また、サーバコンピュータであってもよい。コンピュータ８００は、既に説明した線構造抽出装置５０、学習装置１００、及び学習データ保管部１５０のいずれかの一部又は全部又はこれらの複数の機能を備えた装置として用いることができる。

コンピュータ８００は、ＣＰＵ（Central Processing Unit）８０２、ＲＡＭ（Random Access Memory）８０４、ＲＯＭ（Read Only Memory）８０６、ＧＰＵ（Graphics Processing Unit）８０８、ストレージ８１０、通信部８１２、入力装置８１４、表示装置８１６及びバス８１８を備える。なお、ＧＰＵ（Graphics Processing Unit）８０８は、必要に応じて設ければよい。

ＣＰＵ８０２は、ＲＯＭ８０６又はストレージ８１０等に記憶された各種のプログラムを読み出し、各種の処理を実行する。ＲＡＭ８０４は、ＣＰＵ８０２の作業領域として使用される。また、ＲＡＭ８０４は、読み出されたプログラム及び各種のデータを一時的に記憶する記憶部として用いられる。

ストレージ８１０は、例えば、ハードディスク装置、光ディスク、光磁気ディスク、若しくは半導体メモリ、又はこれらの適宜の組み合わせを用いて構成される記憶装置を含んで構成される。ストレージ８１０には、線構造抽出処理及び／又は学習処理等に必要な各種プログラムやデータ等が記憶される。ストレージ８１０に記憶されているプログラムがＲＡＭ８０４にロードされ、これをＣＰＵ８０２が実行することにより、コンピュータ８００は、プログラムで規定される各種の処理を行う手段として機能する。

通信部８１２は、有線又は無線により外部装置との通信処理を行い、外部装置との間で情報のやり取りを行うインターフェースである。通信部８１２は、画像の入力を受け付ける画像受付部の役割を担うことができる。

入力装置８１４は、コンピュータ８００に対する各種の操作入力を受け付ける入力インターフェースである。入力装置８１４は、例えば、キーボード、マウス、タッチパネル、若しくはその他のポインティングデバイス、若しくは、音声入力装置、又はこれらの適宜の組み合わせであってよい。

表示装置８１６は、各種の情報が表示される出力インターフェースである。表示装置８１６は、例えば、液晶ディスプレイ、有機ＥＬ（organic electro-luminescence:ＯＥＬ）ディスプレイ、若しくは、プロジェクタ、又はこれらの適宜の組み合わせであってよい。

《コンピュータを動作させるプログラムについて》
上述の実施形態で説明した線構造抽出機能、及び学習機能のうち少なくとも１つの処理機能の一部又は全部をコンピュータに実現させるプログラムを、光ディスク、磁気ディスク、若しくは、半導体メモリその他の有体物たる非一時的な情報記憶媒体であるコンピュータ可読媒体に記録し、この情報記憶媒体を通じてプログラムを提供することが可能である。

またこのような有体物たる非一時的な情報記憶媒体にプログラムを記憶させて提供する態様に代えて、インターネットなどの電気通信回線を利用してプログラム信号をダウンロードサービスとして提供することも可能である。

また、上述の各実施形態で説明した線構造抽出機能、及び学習機能のうち少なくとも１つの処理機能の一部又は全部をアプリケーションサーバとして提供し、電気通信回線を通じて処理機能を提供するサービスを行うことも可能である。

《各処理部のハードウェア構成について》
図４の第１のニューラルネットワーク４１、ＤＣＮＮ４１１、ＲＰＮ４１２、第２のニューラルネットワーク４２、Ｒ－ＣＮＮ４２３、図１７のデータ取得部１０２、学習モデル５２、第１誤差計算部１１０、第２誤差計算部１１２、及びオプティマイザ１１４などの各種の処理を実行する処理部（processing unit）のハードウェア的な構造は、例えば、次に示すような各種のプロセッサ（processor）である。

各種のプロセッサには、プログラムを実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ、画像処理に特化したプロセッサであるＧＰＵ、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサで構成されてもよい。例えば、１つの処理部は、複数のＦＰＧＡ、或いは、ＣＰＵとＦＰＧＡの組み合わせ、又はＣＰＵとＧＰＵの組み合わせによって構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第一に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第二に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

《実施形態による効果》
（１）本実施形態によれば、画像中から線構造を抽出することができる。

（２）本実施形態によれば、線構造の要素点を直接検出するため、グラフ構造の再構成が容易である。

（３）本実施形態によれば、各訓練画像に対する正解が中心線の位置情報を示すデータによって定義されるため、学習データの作成が容易である。

《他の応用例》
本開示による線構造抽出処理の技術は、ＣＴ画像に限らず、各種の３次元断層画像に適用することができる。例えば、ＭＲＩ（Magnetic Resonance Imaging）装置により取得されるＭＲ画像、ＰＥＴ（Positron Emission Tomography）装置により取得されるＰＥＴ画像、ＯＣＴ（Optical Coherence Tomography）装置により取得されるＯＣＴ画像、３次元超音波撮影装置により取得される３次元超音波画像等であってもよい。

また、本開示による線構造抽出処理の技術は、３次元断層画像に限らず、各種の２次元画像に適用することができる。例えば、処理の対象とする画像は、２次元のＸ線画像であってもよい。また、本開示による線構造抽出処理の技術は、医療画像に限定されず、通常のカメラ画像など、様々な画像について適用することができる。例えば、非特許文献２で扱っているような建造物等の画像からクラックを検出する場合に、本開示の技術を適用することができる。

《変形例》
［１］検出しようとする対象物の形及び／又は大きさによっては、アンカーの種類は１種類であってもよい。

［２］対象物の大きさを問題にしない場合など、ＲＰＮ４１２においてアンカーの変形倍率の計算を実施しない形態も可能である。

《その他》
上述の実施形態で説明した構成や変形例で説明した事項は、適宜組み合わせて用いることができ、また、一部の事項を置き換えることもできる。本発明は上述した実施形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。

４０ＦａｓｔｅｒＲ－ＣＮＮ
４１第１のニューラルネットワーク
４２第２のニューラルネットワーク
５０線構造抽出装置
５２学習モデル
７１第１のアンカー
７２第２のアンカー
８１、８２、８３アンカー
１００学習装置
１０２データ取得部
１１０第１誤差計算部
１１２第２誤差計算部
１１４オプティマイザ
１５０学習データ保管部
４１０第１サブネットワーク
４１１ＤＣＮＮ
４１２ＲＰＮ
４１４、４１６、４１７、４１８畳み込み層
４２０第２サブネットワーク
４２３Ｒ－ＣＮＮ
４２４ＲＯＩプーリング層
４２６、４２７全結合層
４２８ソフトマックス層
８００コンピュータ
８１０ストレージ
８１２通信部
８１４入力装置
８１６表示装置
８１８バス
Ａ１、Ａ２、Ａ３アンカー
ＢＶ血管
Ｃａｒ冠動脈経路
ＣＬｂｖ中心線
ＣＰ、ＣＰ３４中心座標
ＮＰ、ＮＰ３４最近点
Ｎｄノード
Ｅｇエッジ
ＨＶＲ１画像
ＨＶＲ２画像
ＩＭｉｐｔ入力画像
ＦＭ特徴マップ
ＲＰ候補領域
ＬＤ（ｉ）学習データ
ＰＬＱプラーク
ｐｘ画素
ｐｘｆｍ画素
ｕユニット
Ｓ５０～Ｓ５８線構造抽出処理のステップ
Ｓ６１～Ｓ６７候補領域生成処理のステップ
Ｓ２０２～Ｓ２１０学習処理のステップ

Claims

画像から線構造を構成する要素点を抽出する線構造抽出装置であって、
前記画像の入力を受けて前記画像から線構造を構成する１つ以上の要素点を予測結果として出力するよう学習された学習モデルを備え、
前記学習モデルは、
前記画像を受け入れて畳み込みの処理により前記画像の特徴量を示す特徴マップを生成する第１の処理モジュールと、
前記特徴マップをグリッド状に既定サイズの領域を持つ複数のユニットに分割して得られる前記ユニットごとに、ユニット中心点から最も近くにある前記線構造の前記要素点への前記ユニット中心点からのシフト量を計算する第２の処理モジュールと、
を含む線構造抽出装置。
前記第２の処理モジュールは、
前記ユニットの各々に対して、予め定められた形状及びサイズを持つ１つ以上の基準形状領域であるアンカーを配置し、
前記ユニットごとに前記ユニットの位置の前記特徴量を用いて畳み込みの処理を行うことにより、前記アンカーのアンカー中心点から最も近くにある前記線構造の前記要素点である最近点に前記アンカー中心点を移動させるための前記シフト量と、前記アンカー内に前記線構造が存在するか否かを判別するためのスコアと、を計算する、
請求項１に記載の線構造抽出装置。
前記基準形状領域は、前記画像が２次元画像である場合は矩形領域であり、前記画像が３次元画像である場合は直方体領域である、
請求項２に記載の線構造抽出装置。
前記線構造は、前記画像内において太さを持つ領域の代表線であり、
前記太さを持つ領域の太さに対応させて、サイズが異なる複数のアンカーが用いられる、請求項２又は３に記載の線構造抽出装置。
前記線構造は、前記画像内において太さを持つ領域の代表線であり、
前記第２の処理モジュールは、対象とする前記太さを持つ領域の太さに応じて前記アンカーのサイズを変更するように学習されたものである、
請求項２から４のいずれか一項に記載の線構造抽出装置。
前記線構造は、前記画像内において太さを持つ領域の代表線であり、
前記第２の処理モジュールは、前記アンカーごとに、前記太さを持つ領域の前記最近点の周囲の太さに合わせて前記アンカーの少なくとも１つの辺の方向についての前記アンカーの変形倍率を計算するように学習されたものである、
請求項２から５のいずれか一項に記載の線構造抽出装置。
前記太さを持つ領域は管状構造物であり、
前記代表線は、前記管状構造物の経路に沿った中心線である、
請求項４から６のいずれか一項に記載の線構造抽出装置。
前記第１の処理モジュール及び前記第２の処理モジュールの各々はニューラルネットワークによって構成されており、
前記第１の処理モジュールは、複数の畳み込み層を備える畳み込みニューラルネットワークによって構成され、
前記第２の処理モジュールは、前記第１の処理モジュールとは異なる畳み込み層を備え、
前記特徴マップから前記線構造が含まれる候補領域を予測する領域提案ネットワークによって構成される、請求項１から７のいずれか一項に記載の線構造抽出装置。
前記第２の処理モジュールによって予測された前記線構造の前記要素点に対し、各点をクラス分類するよう学習された第３の処理モジュールをさらに備える、請求項１から８のいずれか一項に記載の線構造抽出装置。
前記第３の処理モジュールにより分類されるクラスは、グラフ理論の木構造における根、分岐、末端、及び枝上の点のうち少なくとも１つを含む、
請求項９に記載の線構造抽出装置。
前記線構造は、血管の経路に沿った中心線であり、
前記第３の処理モジュールにより分類されるクラスは、血管構造における特定の解剖学的名称を含む、
請求項９に記載の線構造抽出装置。
前記線構造は、気管の経路に沿った中心線であり、
前記第３の処理モジュールにより分類されるクラスは、気管構造における特定の解剖学的名称を含む、
請求項９に記載の線構造抽出装置。
前記第３の処理モジュールは、ニューラルネットワークによって構成されており、
前記第３の処理モジュールは、
前記特徴マップから、前記第２の処理モジュールによって予測された前記要素点を含む前記アンカーの局所画像を切り出して前記局所画像を固定サイズに変形する関心領域プーリング層と、
前記固定サイズに変形された前記局所画像が入力される畳み込み層及び全結合層のうち少なくとも一方と、
を含む、請求項２を引用する請求項９から１２のいずれか一項に記載の線構造抽出装置。
画像から線構造を構成する要素点を抽出する線構造抽出方法であって、
前記画像の入力を受けて前記画像から線構造を構成する１つ以上の要素点を予測結果として出力するよう学習された学習モデルを用い、
前記学習モデルへの前記画像の入力を受け付けることと、
入力された前記画像について第１の処理モジュールにより畳み込みの処理を行い、前記画像の特徴量を示す特徴マップを生成することと、
前記特徴マップをグリッド状に既定サイズの領域を持つ複数のユニットに分割し、第２の処理モジュールを用いて、前記ユニットごとにユニット中心点から最も近くにある前記線構造の前記要素点への前記ユニット中心点からのシフト量を計算することと、
を含む線構造抽出方法。
前記複数のユニットによって予測された複数の前記要素点の点群のうち、前記ユニットのサイズの半分を目安とする第１の間隔よりも近接している過剰な前記要素点の一部を削除して、前記第１の間隔の程度で前記要素点を選択して残すこと、をさらに含む、
請求項１４に記載の線構造抽出方法。
前記線構造は、前記画像内において太さを持つ領域の代表線であり、
前記複数のユニットによって予測された複数の前記要素点の点群のうち、前記太さの半分を目安とする第２の間隔よりも近接している過剰な前記要素点の一部を削除して、前記第２の間隔の程度で前記要素点を選択して残すこと、をさらに含む、
請求項１４に記載の線構造抽出方法。
前記複数のユニットによって予測された複数の前記要素点の点群のうち、予め定めた閾値以内の距離に他の点が存在しない孤立点を削除すること、をさらに含む、
請求項１４から１６のいずれか一項に記載の線構造抽出方法。
画像から線構造を構成する要素点を抽出する機能をコンピュータに実現させるためのプログラムであって、
前記画像の入力を受け付ける機能と、
入力された前記画像について第１の処理モジュールを用いて畳み込みの処理を行い、前記画像の特徴量を示す特徴マップを生成する機能と、
前記特徴マップをグリッド状に既定サイズの領域を持つ複数のユニットに分割し、第２の処理モジュールを用いて、前記ユニットごとに前記ユニットの中心点から最も近くにある前記線構造の前記要素点への前記ユニット中心点からのシフト量を予測する機能と、
をコンピュータに実現させるプログラム。
非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項１８に記載のプログラムをコンピュータに実行させる記録媒体。
入力された画像から線構造を構成する１つ以上の要素点を予測結果として出力する機能をコンピュータに実現させる学習済みモデルであって、
前記画像を受け入れて畳み込みの処理により前記画像の特徴量を示す特徴マップを生成する第１の処理モジュールと、
前記特徴マップをグリッド状に既定サイズの領域を持つ複数のユニットに分割して得られる前記ユニットごとに、ユニット中心点から最も近くにある前記線構造の前記要素点への前記ユニット中心点からのシフト量を計算する第２の処理モジュールと、
を含む学習済みモデル。
前記第１の処理モジュール及び前記第２の処理モジュールを構成しているネットワークのパラメータは、訓練画像と、前記訓練画像に含まれている線構造の位置情報と、を組み合わせた複数の学習データを用いた機械学習を実行することによって決定されている、請求項２０に記載の学習済みモデル。
前記線構造は、前記画像内において太さを持つ領域の代表線であり、
前記学習データは、前記訓練画像に含まれている前記太さを持つ領域の太さ情報をさらに含む、請求項２１に記載の学習済みモデル。