JP2021144675A

JP2021144675A - 方法及びプログラム

Info

Publication number: JP2021144675A
Application number: JP2020153253A
Authority: JP
Inventors: チェンヂァン; Cheng Zhang; チェンフランシーン; Francine Chen; インインチェン; Yin-Ying Chen
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-03-12
Filing date: 2020-09-11
Publication date: 2021-09-24
Also published as: US11449717B2; CN113393416A; US20210287054A1

Abstract

【課題】ニューラルネットワークを使用して画像特徴を分類する方法及びプログラムを提供する。【解決手段】方法は、トリプレット損失プロセスを使用してニューラルネットワークをトレーニングすることを含む、ニューラルネットワークをトレーニングすることは、アンカー画像を取得すること、ポジティブ画像及びネガティブ画像を選択すること、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、アンカー画像の画像埋め込みに基づいてアンカー画像から抽出された画像特徴を分類すること、分類された画像特徴に関連付けられた画像ラベル位置を決定すること、決定された画像ラベル位置に関連付けられた特徴を抽出することを含み、損失の加重合計を使用して、マルチラベル損失を局所画像分類損失及びトリプレット損失と結合することを含む。【選択図】図１

Description

本開示は、方法及びプログラムに関する。

関連技術の用途では、医用画像における疾患の識別及び位置特定（localization）は、医用画像中の疾患のセグメンテーションに適用される。さらにこれは、診断書における疾患のテキスト記述を、診断書内で議論されている画像の領域に関連付けるのにも役立ち得る。関連技術の方法は、臓器の自動セグメンテーションを可能にした。画像中に何の疾患が生じているか、及び各疾患のおおよその位置を知ることによって、臓器セグメンテーション方法を、疾患セグメンテーションに応用することができる。ひいてはこれにより、医用画像における疾患サイズの測定効率が向上するであろう。

さらに、関連技術では、疾患の位置特定を実行する能力により、放射線技師又は医師の診断書に記載された疾患又は異常な状態の医用画像内での位置をリンク又は強調表示することも可能になる。これは、医師及びその患者による診断書の理解を深めるのに役立つ可能性がある。疾患の存在に注釈が付けられた医療データセットはいくつかあるが、疾患位置の注釈は非常に少ない。したがって、例えば疾患領域を示す境界ボックスなど、疾患位置の注釈があったとしても、ほとんど必要としないシステムを開発することが望ましい。

JADERBERG, M., et al., Spatial Transformer Networks, Advances in Neural Information Processing Systems, 2015, pp.2017-2015. LI, Z., et al., Thoracic Disease Identification and Localization with Limited Supervision, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp.8290-8299. MA, C-Y., et al., Learning to Generate Grounded Visual Captions without Localization Supervision, arXiv:1906.00283, 2019, 16 pgs. RAJPURKAR, P., et al., Deep Learning for Chest Radiograph Diagnosis: A Retrospective Comparison of the CheXNeXt Algorithm to Practicing Radiologists, PLoS Medicine, 15(11), 2018, 17 pgs. SCHROFF, F., et al., FaceNet: A Unified Embedding for Face Recognition and Clustering, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp.815-823. SELVARAJU, R. R., et al., Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, Proceedings of IEEE International Conference on Computer Vision, 2017, pp.618-626. WANG, X., et al., ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp.2097-2106. XIA, Y., et al., Dual Supervised Learning, Proceedings of the 34th International Conference on Machine Learning, 70, 2017, pp.3789-3798. ZHOU, B., et al., Learning Deep Features for Discriminative Localization, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp.2921-2929. GUAN, Q., et al., Diagnose like a Radiologist: Attention Guided Convolutional Neural Network for Thorax Disease Classification, arXiv:1801.09927, 2018, 10 pgs.

本開示の技術は、ニューラルネットワークを使用して画像特徴を分類する方法及びプログラムを提供することを目的とする。

本開示の第１の態様は、ニューラルネットワークを使用して画像特徴を分類する方法を含み得る。方法は、トリプレット損失プロセスを使用してニューラルネットワークをトレーニングするステップと、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップとを含み得る。ニューラルネットワークをトレーニングするステップは、ニューラルネットワークをトレーニングするために使用されるアンカー画像及びアンカー画像に関連付けられた画像ラベルを取得すること、アンカー画像と少なくとも１つの画像ラベルを共有するポジティブ画像及びポジティブ画像に関連付けられた画像ラベルを選択すること、アンカー画像と画像ラベルを共有していないネガティブ画像及びネガティブ画像に関連付けられた画像ラベルを選択すること、画像特徴埋め込みネットワークを使用して、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、ニューラルネットワークによって、アンカー画像の画像埋め込みに基づいてアンカー画像から抽出された画像特徴を分類すること、及び、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みに基づいてトリプレット損失を計算して、画像特徴の分類重み付けを決定することを含む。

上記の第１の態様において、ニューラルネットワークをトレーニングするステップが、画像埋め込みに関連付けられたアンカー画像から抽出された分類済みの画像特徴と、アンカー画像に関連付けられた画像ラベルとに基づいてマルチラベル損失を計算すること、及び、損失の加重合計を使用して、マルチラベル損失を計算されたトリプレット損失と結合することをさらに含んでいてもよい。また、ニューラルネットワークをトレーニングするステップが、空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、アンカー画像、ポジティブ画像、及びネガティブ画像の各々を変換し、共通のビューの向きを確立することをさらに含んでいてもよい。

上記の第１の態様において、ニューラルネットワークをトレーニングするステップが、分類済みの画像特徴に関連付けられた画像ラベル位置を決定すること、決定された画像ラベル位置に関連付けられた特徴を抽出すること、ニューラルネットワークを使用して、決定された画像ラベル位置に関連付けられた特徴を分類すること、決定された画像ラベル位置に関連付けられた特徴に関連付けられた局所画像分類損失を決定すること、及び、損失の加重合計を使用して、マルチラベル損失を前記局所画像分類損失及び前記トリプレット損失と結合することをさらに含んでいてもよい。また、トレーニング済みニューラルネットワークを使用して、テストデータ画像上の画像ラベル位置を特定するステップをさらに含んでいてもよい。また、ニューラルネットワークをトレーニングするステップが、決定された画像ラベル位置に関連付けられた特徴であって抽出された特徴に基づいて、アンカー画像の新しい画像埋め込みを生成すること、及び、ニューラルネットワークによって、新しい画像埋め込みに基づいて、アンカー画像から抽出された特徴を分類することをさらに含んでいてもよい。アンカー画像、ポジティブ画像、及びネガティブ画像の各々は、１又は複数の疾患に関連付けられた医療診断画像であってもよい。

本開示の第２の態様は、ニューラルネットワークを使用して画像特徴を分類する方法を含み得る。方法は、トリプレット損失プロセスを使用してニューラルネットワークをトレーニングするステップと、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップとを含み得る。ニューラルネットワークをトレーニングするステップは、ニューラルネットワークをトレーニングするために使用されるアンカー画像及びアンカー画像に関連付けられた画像ラベルを取得すること、画像特徴埋め込みネットワークを使用して、アンカー画像に関連付けられた画像埋め込みを生成すること、ニューラルネットワークによって、アンカー画像の画像埋め込みに基づいてアンカー画像から抽出された画像特徴を分類すること、分類済みの画像特徴に関連付けられた画像ラベル位置を決定すること、決定された画像ラベル位置に関連付けられた特徴を抽出すること、ニューラルネットワークを使用して、決定された画像ラベル位置に関連付けられた特徴を分類すること、及び、決定された画像ラベル位置に関連付けられた特徴に関連付けられた局所画像分類損失を決定することを含む。

上記の第２の態様において、ニューラルネットワークをトレーニングするステップが、画像埋め込みに関連付けられたアンカー画像から抽出された分類済みの画像特徴と、アンカー画像に関連付けられた画像ラベルとに基づいてマルチラベル損失を計算すること、及び、損失の加重合計を使用して、マルチラベル損失を局所画像分類損失と結合することをさらに含んでいてもよい。また、トレーニング済みニューラルネットワークを使用して、テストデータ画像上の画像ラベル位置を特定するステップをさらに含んでいてもよい。ニューラルネットワークをトレーニングするステップが、決定された画像ラベル位置に関連付けられた特徴であって抽出された特徴に基づいて、アンカー画像の新しい画像埋め込みを生成すること、及び、ニューラルネットワークによって、新しい画像埋め込みに基づいて、アンカー画像から抽出された特徴を分類することをさらに含んでいてもよい。

上記の第２の態様において、ニューラルネットワークをトレーニングするステップが、アンカー画像と少なくとも１つの画像ラベルを共有するポジティブ画像及びポジティブ画像に関連付けられた画像ラベルを選択すること、アンカー画像と画像ラベルを共有していないネガティブ画像及びネガティブ画像に関連付けられた画像ラベルを選択すること、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みに基づいてトリプレット損失を計算して、画像特徴の分類重み付けを決定すること、及び、損失の加重合計を使用して、マルチラベル損失を局所画像分類損失及びトリプレット損失と結合することをさらに含み、画像特徴埋め込みネットワークを使用して画像埋め込みを生成することが、画像特徴埋め込みネットワークを使用して、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みを生成することを含んでいてもよい。また、ニューラルネットワークをトレーニングするステップが、空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、アンカー画像、ポジティブ画像、及びネガティブ画像の各々を変換し、共通のビューの向きを確立するステップをさらに含んでいてもよい。アンカー画像、ポジティブ画像、及びネガティブ画像の各々は、１又は複数の疾患に関連付けられた医療診断画像であってもよい。

本開示の第３の態様は、コンピュータに、トリプレット損失プロセスを使用してニューラルネットワークをトレーニングするステップと、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップと、を実行させるためのプログラムを含み得る。ニューラルネットワークをトレーニングするステップは、ニューラルネットワークをトレーニングするために使用されるアンカー画像及びアンカー画像に関連付けられた画像ラベルを取得すること、アンカー画像と少なくとも１つの画像ラベルを共有するポジティブ画像及びポジティブ画像に関連付けられた画像ラベルを選択すること、アンカー画像と画像ラベルを共有していないネガティブ画像及びネガティブ画像に関連付けられた画像ラベルを選択すること、画像特徴埋め込みネットワークを使用して、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、ニューラルネットワークによって、アンカー画像の画像埋め込みに基づいてアンカー画像から抽出された画像特徴を分類すること、分類済みの画像特徴に関連付けられた画像ラベル位置を決定すること、決定された画像ラベル位置に関連付けられた特徴を抽出すること、ニューラルネットワークを使用して、決定された画像ラベル位置に関連付けられた特徴を分類すること、決定された画像ラベル位置に関連付けられた特徴に関連付けられた局所画像分類損失を決定すること、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みに基づいてトリプレット損失を計算して、画像特徴の分類重み付けを決定すること、及び、損失の加重合計を使用して、局所画像分類損失及びトリプレット損失を結合することを含む。

上記の第３の態様において、ニューラルネットワークをトレーニングするステップが、画像埋め込みに関連付けられたアンカー画像から抽出された分類済みの画像特徴と、アンカー画像に関連付けられた画像ラベルとに基づいてマルチラベル損失を計算すること、及び、損失の加重合計を使用して、マルチラベル損失を局所画像分類損失及びトリプレット損失と結合することをさらに含んでいてもよい。また、ニューラルネットワークをトレーニングするステップが、空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、アンカー画像、ポジティブ画像、及びネガティブ画像の各々を変換し、共通のビューの向きを確立するステップをさらに含んでいてもよい。

上記の第３の態様において、トレーニング済みニューラルネットワークを使用して、テストデータ画像上の画像ラベル位置を特定するステップをさらに含んでいてもよい。ニューラルネットワークをトレーニングするステップが、決定された画像ラベル位置に関連付けられた特徴であって抽出された特徴に基づいて、アンカー画像の新しい画像埋め込みを生成すること、及び、ニューラルネットワークによって、新しい画像埋め込みに基づいて、アンカー画像から抽出された特徴を分類することをさらに含んでいてもよい。アンカー画像、ポジティブ画像、及びネガティブ画像の各々は、１又は複数の疾患に関連付けられた医療診断画像であってもよい。

本開示のさらなる態様は、ニューラルネットワークを使用して画像特徴を分類するための情報処理装置を含み得る。情報処理装置は、トリプレット損失プロセスを使用してニューラルネットワークをトレーニングする手段と、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類する手段とを含み得る。ニューラルネットワークをトレーニングする手段は、ニューラルネットワークをトレーニングするために使用されるアンカー画像及びアンカー画像に関連付けられた画像ラベルを取得すること、アンカー画像と少なくとも１つの画像ラベルを共有するポジティブ画像及びポジティブ画像に関連付けられた画像ラベルを選択すること、アンカー画像と画像ラベルを共有していないネガティブ画像及びネガティブ画像に関連付けられた画像ラベルを選択すること、画像特徴埋め込みネットワークを使用して、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、ニューラルネットワークによって、アンカー画像の画像埋め込みに基づいてアンカー画像から抽出された画像特徴を分類すること、及び、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みに基づいてトリプレット損失を計算して、画像特徴の分類重み付けを決定することを実行する。

本開示の例示的な実装形態に係るトリプレット損失を用いてマルチラベル疾患分類器をトレーニングする工程の概略図である。本開示の例示的な実装形態に係る局所(localized)疾患予測を用いて画像分類器をトレーニングする工程の概略図である。本開示の別の例示的な実装形態に係る局所疾患予測を用いて画像分類器をトレーニングする工程の概略図である。本開示の例示的な実装形態に係るトレーニング済みニューラルネットワークを用いて画像を分類するプロセスのフローチャートである。本開示の例示的な実装形態の評価結果のグラフ表示である。本開示の例示的な実装形態の評価結果のグラフ表示である。本開示の例示的な実装形態を使用して、疾患の例示的なヒートマップと予測位置及び正解（ground truth）位置とを示す図である。本開示の例示的な実装形態を使用して、疾患の例示的なヒートマップと予測位置及び正解位置とを示す図である。いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置を備えた例示的なコンピューティング環境を示す図である。

以下の詳細な説明は、本出願の図面及び例示的な実装形態の詳細を提供する。図面間で重複する要素の参照符号及び説明は、明確化のために省略されている。明細書全体を通して使用される用語は、例示として提供されており、限定を意図するものではない。例えば、「自動」という用語の使用は、本出願の実装形態を実施する当業者の所望の実装形態に応じて、完全自動の実装形態、又は実装形態の特定の態様に対するユーザ又は管理者による制御を含む半自動の実装形態を含んでいてもよい。さらに、「第１」、「第２」、「第３」などのような連続する用語は、単なるラベル付け目的のために明細書及び請求項で使用される場合があり、上記アクション又はアイテムが記載された順序で起きることを指すように限定されるべきではない。アクション又はアイテムは、本開示の範囲から逸脱することなく、異なる順序で並べられてもよく、若しくは並行して又は動的に実行されてもよい。

本開示では、用語「コンピュータ可読媒体」は、ローカル記憶装置、クラウドベースの記憶装置、遠隔に配置されたサーバ、又は当業者にとって自明であり得るその他いずれかの記憶装置を含み得る。

上述のように、医用画像における疾患の識別及び位置特定は、医用画像における疾患のセグメンテーションへの応用が可能であり、診断書における疾患のテキスト記述を議論されている画像の領域に関連付けるのにも役立つ。画像内にどのような疾患が発生しているか、及び各疾患のおおよその位置が分かっている場合には、既存の臓器の自動セグメンテーション方法を使用することができる。しかしながら、疾患位置の注釈は非常に少ない。したがって、例えば疾患領域を示す境界ボックスなど、疾患位置の注釈があったとしても、ほとんど必要としないシステムを開発することが望ましい。

本開示の例示的な実装形態は、医用画像における疾患の改善された分類及び位置特定を提供し得る。本開示のいくつかの例示的な実装形態では、物体の位置特定プロセスを使用して、関連する臓器（例えば、胸部に位置する肺）を含む画像の領域を自動的に識別し、これにより、関連する臓器が位置していない領域（例えば、肩や腕）で疾患を誤って識別することによるエラーを取り除くことができる。別の例示的な実装形態では、トリプレット損失プロセスを分類モデルに適用して、異なる疾患を含む一対の画像間の距離をどれだけ増やすかを、モデルがより継続的に学習できるようにしてもよい。さらに、いくつかの例示的な実装形態では、推定された疾患領域は、医用画像において疾患サイズを保証しながら疾患の位置を特定する方法をよりよく学習するために、トレーニング中にモデルにフィードバックされ得る。いくつかの例示的な実装形態では、これらの手法のすべてが組み合わせられてもよい。

本開示の例示的な実装形態は、医用画像における疾患識別の文脈で説明される場合があるが、例示的な実装形態は、医用画像の解析に限定されるものではない。代わりに、例示的な実装形態は、当業者にとって明らかであろう別のタイプの画像解析に適用されてもよい。

図１は、本開示の例示的な実装形態に係るトリプレット損失を用いてマルチラベル疾患分類器をトレーニングする工程の概略図１００を示す。いくつかの例示的な実装形態では、医用画像は、疾患が発生する領域よりも広い領域を含むことが多い。たとえば、胸部ｘ線は、患者の肩及び腕を含むことが多い。これらの例示的な実装形態では、空間変換ネットワーク(ＳＴＮ：Spatial Transformer Network)を使用して医用画像の周囲を切り取り(crop)、疾患が発生している領域に焦点を当てることができる。このステップは、いくつかの例示的な実装形態では実行されてもよく、又はいくつかの例示的な実装形態では省略されてもよい。

さらに、図示されるように、いくつかの例示的な実装形態では、トリプレット損失手法は、マルチラベル分類システムの一部として適合され得る。具体的には、トリプレット損失を使用して、少なくとも１つの共通の疾患を有する画像を特徴空間内で互いに接近させ、共通の疾患を有していない画像を特徴空間内で離れさせることができる。トリプレット損失は、分類される画像、即ちアンカー画像１０５と、同じタイプ（例えば、同じ患者、同じ疾患、又はその他の類似の特徴）の別の画像との間の距離を最小化し得る。図１に示されるように、同じタイプの画像は、少なくとも１つの共通の疾患を含む画像（例えば、ポジティブ画像１０７）として図示されている。さらに、疾患ラベルの共通点がゼロの画像は、異なるタイプであると見なされる。これらはネガティブ画像１０９の例として機能する。トリプレット損失を用いると、各入力アンカー画像１０５について、１つのポジティブ画像１０７及び１つのネガティブ画像１０９が、同じトレーニングバッチからランダムに選択される。いくつかの例示的な実装形態では、以下により詳細に論じられるトリプレット損失手法の性能を改善するために、ハード例マイニング(hard example mining)が使用され得る。

図１に示されるように、ポジティブ画像１０７及びネガティブ画像１０９がランダムに選択されると、各画像（例えば、アンカー画像１０５、ポジティブ画像１０７、及びネガティブ画像１０９）は、各画像を変換するための空間変換ネットワークによって処理されて、画像比較を可能にする。例えば、アンカー画像１０５は、符号１１１で空間変換ネットワークによって処理される。さらに、ポジティブ画像１０７は、符号１１３で空間変換ネットワークによって処理される。さらにまた、ネガティブ画像１０９は、符号１１５で空間変換ネットワークによって処理される。

空間変換ネットワークは、入力画像（特徴マップ）に対し切り取り(cropping)、移動(translation)、回転、拡大縮小(scale)、及びスキューを適用する識別可能なモジュールであり、６つのパラメータのみを必要とする。具体的には、例示的な実装形態では、幅Ｗ及び高さＨを有する入力された胸部Ｘ線画像１０５は、ｘ＝（ｘｉ，ｘｊ）ｉ＝１，２，…，Ｗ、ｊ＝１，２，…，Ｈで表され得る。空間変換ネットワークは、符号１１１で６次元ベクトルを出力し、これはアフィン変換Ａ_θとしてパラメータ化され得る。アフィンの場合、点ごとの変換は以下の通りである。

ここで、（ｘ^t _i，ｙ^t _i）は出力特徴マップのターゲット座標であり、（ｘ^s _i，ｙ^s _i）は入力画像（特徴マップ）のソース座標である。そしてＡ_θは、元の画像に対する切り取り、移動、及び等方性の拡大縮小を可能にするアフィン変換である。トレーニング中、モデルは、ｓ（scale）とｔ_ｘ及びｔ_ｙ（translation）の値を学習する。

空間変換ネットワークが各画像（例えば、アンカー画像１０５、ポジティブ画像１０７、及びネガティブ画像１０９）を処理した後、各画像は、疾患分類に使用される画像の特徴を埋め込む画像特徴埋め込みネットワークによって処理されて、画像埋め込みを生成する。図１に示されるように、画像埋め込み１２３は、符号１１７で画像特徴埋め込みネットワークによってアンカー画像１０５から生成される。同様に、画像埋め込み１２５は、符号１１９で埋め込みネットワークによってポジティブ画像１０７から生成される。さらに、画像埋め込み１２７は、符号１２１で埋め込みネットワークによってネガティブ画像１０９から生成される。

いくつかの例示的な実装形態では、疾患ローカライザを使用して疾患位置特徴を埋め込むことによって、疾患位置情報は埋め込まれた特徴として含まれていてもよい。疾患ローカライザの使用については、図２及び図３に関して以下でより詳細に論じられる。

次に、アンカー画像１０５から作成された画像埋め込み１２３は、分類器ネットワーク１２９を通過して、トレーニングデータ内のアンカー画像１０５に割り当てられたラベルに基づいて損失係数を計算することができる。言い換えると、マルチラベル損失係数１３１は、トレーニングデータからのアンカー画像１０５に関連する割り当てられたラベルと、分類器ネットワーク１２９によるアンカー画像１０５の分類との差に基づいて計算される。

第２の損失係数であるマルチラベル損失係数１３１に加えて、トリプレット損失係数１３３が、以下に説明されるように計算され得る。次に、加重合計を使用して２つの損失が結合され、画像全体の分類損失と局所画像の分類損失とに同じ重みが与えられる。あるいは、トレーニング中に重みを学習することもできる。

いくつかの例示的な実装形態では、トリプレット制約集合Ｘは、以下のように考えることができる。

ここで、Ｐはポジティブなペアを含み、Ｎはネガティブなペアを含み、Ｍはトリプレット集合全体の濃度を示す。２つのサンプルの相似関数は、ｌ_２距離として示される。

いくつかの例示的な実装形態では、コサイン距離が代わりに使用され得る。

いくつかの例示的な実装形態では、アンカーｘ_ｉが与えられた１つのトリプレットのヒンジ損失は、以下のように定義され得る。

ここで、ｍはポジティブとネガティブのペアの間に適用されるマージンである。したがって、トレーニングセット内のすべての可能なトリプレット（３枚の画像の組）にわたって最小化されているグローバルトリプレット損失Ｌ_tripletは、以下のように計算され得る。

最後に、トリプレット学習と統合された分類のための総損失Ｌ_clsは、以下のように定式化され得る。

ここで、Ｌ_binaryはマルチラベル分類の伝統的にトレーニングされたバイナリ交差エントロピー損失(binary cross entropy loss)であり、βは係数である。

いくつかの例示的な実装形態では、疾患特定アルゴリズムを使用して、疾患分類器をトレーニングし、疾患の識別及び位置特定の性能をさらに改善することができる。例えば、CAM又はGradCAMなどの既存の画像領域特定アルゴリズムを使用して、分類器をトレーニングすることができる。いずれのアルゴリズムも、クラス又は疾患予測のためにネットワークアクティベーションから計算され、分類を裏付ける画像内の領域がより大きい値を有する「ヒートマップ」を生成する。マルチラベル分類が実行されているので、アルゴリズム（例えば、GradCAM、CAM、又はその他のアルゴリズム）は、識別されたクラスごとに個別に実行され得る。疾患識別を改善するためのこの局所化の使用については、図２及び図３に関して以下でより詳細に説明する。

図２は、本開示の例示的な実装形態に係る局所疾患予測を用いて画像分類器をトレーニングする工程の概略図２００を示す。いくつかの例示的な実装形態では、局所疾患生成を使用して、疾患の予測位置が分類器と一致するかどうかを確認することができる。このような例示的な実装形態では、画像が正しく切り取られていない場合、分類が不正確になりがちである。言い換えると、画像が切り取られて疾患領域が除外されている場合、疾患の分類は正しくない可能性がある。

図１に関して説明されたモデルと同様に、アンカー画像１０５（トレーニング目的で解析されている画像）は、画像を共通の画像スケールに変換するために、空間変換ネットワーク１１１を通過する。次に、空間変換ネットワーク１１１からの変換画像は、画像特徴埋め込みネットワーク１１７を通過して、疾患分類に使用される画像の特徴を埋め込み、画像埋め込み１２３を生成する。画像埋め込み１２３は、以下に説明するように、疾患位置情報を含む。疾患位置情報は、疾患位置特徴を埋め込むために疾患ローカライザ２０２によって使用されることになる。

図１で説明されたモデルと同様に、アンカー画像１０５から作成された画像埋め込み１２３は、次に分類器ネットワーク１２９を通過して、トレーニングデータ内のアンカー画像１０５に割り当てられたラベルに基づいて損失係数を計算することができる。言い換えると、マルチラベル損失係数１３１（全体画像分類損失とも呼ばれる）は、トレーニングデータからのアンカー画像１０５に関連する割り当てられたラベルと、分類器ネットワーク１２９によるアンカー画像１０５の分類との差に基づいて計算される。

入力画像全体における疾患の分類に基づいて分類器損失（全体画像分類損失１３１）を計算することに加えて、例示的な実装形態は、各疾患に対する予測境界ボックスを使用して、分類の前に画像を切り取ることができる。具体的には、図示されるように、ローカライザ２０２は、疾患の予測位置２０６を決定し、画像を疾患の予測位置の領域を残して切り取って、局所画像埋め込み２０４を生成する。具体的には、ローカライザ２０２は、アンカー画像１０５内の局所疾患の予測位置の境界ボックス内の領域の特徴を抽出する。境界ボックスの外側の領域の特徴値は０に設定される。修正された特徴、即ち局所画像埋め込み２０４は、境界ボックスの中の画像を表し、第２の分類器に入力される。代替のアプローチは、非疾患領域をある値、例えば０でマスクし、マスクされた画像を分類器への入力として使用することであろう。なお、予測された境界ボックス内の特徴（又は局所からの特徴）を選択することで、計算のいくつかの層がスキップされ、効率が向上することに留意されたい。

いくつかの例示的な実装形態では、CAM位置特定アルゴリズムを使用することができ、DenseNetの最後の層でのアクティベーションが抽出される。あるいは、例示的な実装形態では、GradCAM位置特定アルゴリズムが使用されてもよい。異なる例示的な実装形態では、異なる位置特定方法が使用され得る。いくつかの例示的な実装形態では、すべての特徴にわたって最大値が正規化に使用され得る。別の例示的な実装形態では、すべての特徴にわたって最大値と最小値との差が正規化に使用され得る。いずれの場合も、固定された閾値よりも大きい特徴アクティベーションの位置が識別され得る。閾値アクティベーションの周りの矩形の境界ボックスが計算され、境界ボックスの外側の特徴はゼロにされる。次に、得られた特徴マップは分類器２０５に供給され、分類器２０５は元の分類器と重みを共有する（図２参照）。あるいは、トレーニングされた分類器パラメータ（分類層のみ）で初期化された別個の分類器が、局所画像を分類するために使用され得る。別の代替の例示的な実装形態では、ローカライザ２０２によって決定された画像の局所領域は、分類器の直前に埋め込む特徴ではなく、画像特徴埋め込みネットワーク表現（DENSENET表現）の任意の層から決定されてもよい。

いくつかの実施形態では、全体画像分類からの損失１３１及び局所画像分類からの損失２０８は、以下の式７を使用して加重合計２１２として結合される。

ここで、αは、局所画像損失の効果が徐々に加えられるように、いくつかの基準時点(epoch)にわたって０から０．５まで変化する。例えば、いくつかの例示的な実装形態では、αは２０の基準時点にわたって増加し得る。その後、αは一定に保たれる。

いくつかの例示的な実装形態では、このトレーニングモデルは、トレーニング済みベースラインモデルのパラメータで初期化され得る。トレーニング済みベースラインモデルは、固定回数の反復トレーニングによって、又は検証データセットで損失が漸近するまで完全にトレーニングすることによって取得され得る。この初期化、即ち事前トレーニングを使用して、最初の反復で、推定された局所領域が正しい可能性が高くなり、局所特徴が何らかの情報を有する可能性が高くなる。初期化が実行されない場合には、最初の反復で、局所領域推定の推定値は純粋なノイズであり、このためモデルには非常にノイズの多い局所特徴が与えられ、初期のトレーニング反復中の困難さを増大させる。

いくつかの例示的な実装形態では、図２に示される予測された局所特徴モデルは、図１のトリプレット損失予測モデルと組み合わせることができる。具体的には、バイナリ分類器を事前トレーニングするのと同様に、トリプレットモデルを最初に単独でトレーニングして、事前にトレーニング済み分類モデルを提供することができる。次に、図１の分類器ネットワーク１２９を、図２に示される２つの分類器１２９、２０５及びローカライザ２０２で置き換えることができる。すると損失は、全体画像損失（マルチレベル損失１３１、局所画像損失２０８、及びトリプレット損失１３３）の組み合わせとなる。結合モデルは、複数の疾患を区別するためのより優れた特徴空間を学習することを目的としている。

しかしながら、代替の例示的な実装形態では、図２の予測された局所特徴モデルは、図１のトリプレット損失予測モデルなしで単独で使用されてもよい。さらに別の例示的な実装形態では、図１のトリプレット損失予測モデルは、図２の予測された局所特徴モデルなしで単独で使用されてもよい。

図３は、本開示の別の例示的な実装形態に係る局所疾患予測を用いて画像分類器をトレーニングする工程の概略図３００を示す。図３のモデルは図２のモデルと類似しており、類似の説明が以下に提供される。いくつかの例示的な実装形態では、局所疾患生成を使用して、疾患の予測位置が分類器と一致するかどうかを確認することができる。このような例示的な実装形態では、画像が正しく切り取られていない場合、分類が不正確になりがちである。言い換えると、画像が切り取られて疾患領域が除外されている場合、疾患の分類は正しくない可能性がある。

図１及び図２に関して論じられたモデルと同様に、アンカー画像１０５（トレーニング目的で解析されている画像）は、画像を共通の画像スケールに変換するために、空間変換ネットワーク１１１を通過する。次に、空間変換ネットワーク１１１からの変換画像は、画像特徴埋め込みネットワーク１１７を通過して、疾患分類に使用される画像の特徴を埋め込み、画像埋め込み１２３を生成する。画像埋め込み１２３は、以下に説明するように、疾患位置情報を含む。疾患位置情報は、疾患位置特徴を埋め込むために疾患ローカライザ２０２によって使用されることになる。

図１及び図２に関して説明されたモデルと同様に、アンカー画像１０５から作成された画像埋め込み１２３は、次に分類器ネットワーク１２９を通過して、トレーニングデータ内のアンカー画像１０５に割り当てられたラベルに基づいて損失係数を計算することができる。言い換えると、マルチラベル損失係数１３１（全体画像分類損失とも呼ばれる）は、トレーニングデータからのアンカー画像１０５に関連する割り当てられたラベルと、分類器ネットワーク１２９によるアンカー画像１０５の分類との差に基づいて計算される。

入力画像全体における疾患の分類に基づいて分類器損失（全体画像分類損失１３１）を計算することに加えて、例示的な実装形態は、各疾患に対する予測境界ボックスを使用して、分類の前に画像を切り取ることができる。具体的には、図示されるように、ローカライザ３０２は、疾患の予測位置３０６を決定し、画像を疾患の予測位置の領域を残して切り取って、局所画像埋め込み３０４を生成する。具体的には、ローカライザ３０２は、アンカー画像３０５の局所疾患の予測位置の境界ボックス内の領域の特徴を抽出する。境界ボックスの外側の領域の特徴値は０に設定される。修正された特徴、即ち局所画像埋め込み３０４は、境界ボックスの中の画像を表し、第２の分類器に入力される。代替のアプローチは、非疾患領域をある値、例えば０でマスクし、マスクされた画像を分類器への入力として使用することであろう。なお、予測された境界ボックス内の特徴（又は局所からの特徴）を選択することで、計算のいくつかの層がスキップされ、効率が向上することに留意されたい。

加えて、図３のモデルでは、画像埋め込み３０４は、画像特徴埋め込みネットワーク１１７にフィードバックされて、アンカー画像１０５から抽出されている特徴の画像埋め込みを改善することができる。

いくつかの例示的な実装形態では、CAM位置特定アルゴリズムを使用することができ、DenseNetの最後の層でのアクティベーションが抽出される。あるいは、例示的な実装形態では、GradCAM位置特定アルゴリズムが使用されてもよい。異なる例示的な実装形態では、異なる正規化方法が使用され得る。いくつかの例示的な実装形態では、すべての特徴にわたって最大値が正規化に使用され得る。別の例示的な実装形態では、すべての特徴にわたって最大値と最小値との差が正規化に使用され得る。いずれの場合も、固定された閾値よりも大きい特徴アクティベーションの位置が識別され得る。閾値アクティベーションの周りの矩形の境界ボックスが計算され、境界ボックスの外側の特徴はゼロにされる。次に、得られた特徴マップは分類器３０５に供給され、分類器３０５は元の分類器と重みを共有する（図３参照）。あるいは、トレーニングされた分類器パラメータ（分類層のみ）で初期化された別個の分類器が、局所画像を分類するために使用され得る。全体画像分類からの損失１３１及び局所画像分類からの損失３０８は、以下の式８を使用して加重合計３１２として結合される。

いくつかの例示的な実装形態では、図３に示される予測された局所特徴モデルは、図１のトリプレット損失予測モデルと組み合わせることができる。具体的には、バイナリ分類器を事前トレーニングするのと同様に、トリプレットモデルを最初に単独でトレーニングして、事前にトレーニング済み分類モデルを提供することができる。次に、図１の分類器ネットワーク１２９を、図３に示される２つの分類器１２９、３０５及びローカライザ３０２で置き換えることができる。すると損失は、全体画像損失（マルチレベル損失１３１、局所画像損失３０８、及びトリプレット損失１３３）の組み合わせとなる。結合モデルは、複数の疾患を区別するためのより優れた特徴空間を学習することを目的としている。

しかしながら、代替の例示的な実装形態では、図３の予測された局所特徴モデルは、図１のトリプレット損失予測モデルなしで単独で使用されてもよい。さらに別の例示的な実装形態では、図１のトリプレット損失予測モデルは、図３の予測された局所特徴モデルなしで単独で使用されてもよい。

図４は、本開示の例示的な実装形態に係るトレーニング済みニューラルネットワークを用いて画像を分類するプロセス４００のフローチャートを示す。プロセス４００は、コンピューティング環境内のコンピュータ装置によって実行され得る。例えば、図９のコンピューティング環境９００のコンピュータ装置９０５が、プロセス４００を実行してもよい。

図４に示されるように、ステップ４０５で、ニューラルネットワークは、ラベル付けされた画像サンプルを使用してトレーニングされる。トレーニングには、画像ラベルでラベル付けされた複数のラベル付けされた画像サンプルを使用することを含み得るが、画像ラベルの位置情報（例えば、画像ラベルが配置された画像内の領域を識別する情報）は使用しない。例えば、ラベル付けされた画像サンプルは、疾患ラベル又はその他の診断情報でラベル付けされた公的に入手可能な医用画像セット（例えば、NIH CHESTXRAY14データセット）からの医用画像であってもよい。

いくつかの例示的な実装形態では、ステップ４０５でのニューラルネットワークのトレーニングは、図１に示すようなトリプレット損失を用いて画像分類器をトレーニングすることを含み得る。別の例示的な実装形態では、ステップ４０５でのニューラルネットワークのトレーニングは、図２又は図３に示すような局所疾患予測を用いて画像分類器をトレーニングすることを含み得る。さらに別の例示的な実装形態では、ステップ４０５でのニューラルネットワークのトレーニングは、最初に図１に示すようなトリプレット損失を用いて画像分類器をトレーニングすることと、次に図２又は図３に示すような局所疾患予測を用いて画像分類器をトレーニングすることとを組み合わせることを含み得る。

ニューラルネットワークがトレーニングされた後に、ステップ４１０で、解析用の画像（例えば、テストデータ画像）が選択される。選択されるテストデータ画像は、トレーニング画像データ内の画像の対象とは異なり、いくつかの例示的な実装形態におけるトレーニングと同じタイプの特徴（例えば、同じ疾患）を有することが疑われる新しい対象（例えば、新しい患者）であってもよい。選択されるテストデータ画像は、トレーニングデータ内の画像の対象と同じ対象（例えば、同じ患者）であってもよい。加えて、テストデータ画像及びトレーニング画像は、三次元画像の二次元スライスであってもよい。

ステップ４１５で、トレーニング済みニューラルネットワークが選択画像に適用されて、選択画像に関連付けられた画像特徴分類が決定される。例えば、ニューラルネットワークは、選択画像を解析して、選択画像に関連付けられた疾患分類を決定することができる。いくつかの例示的な実施形態では、選択画像へのトレーニング済みニューラルネットワークの適用には、空間変換ネットワークを使用して画像を変換し、画像データのトレーニングに使用されるトレーニングデータと一致する一定の画像の向き及びスケールを有するようにすることを含み得る。

ステップ４２０で、トレーニング済みニューラルネットワークは、任意選択で、決定された画像特徴分類に関連付けられた画像ラベルの位置（例えば、画像ラベルが配置されている画像内の領域）も決定してもよい。例えば、トレーニング済みニューラルネットワークは、ステップ４１５で決定された疾患分類に関連付けられた画像の領域も検出し得る。

ステップ４２５で、決定された画像特徴分類は、ユーザに提供又はエクスポートされ得る。例えば、選択された医用画像に関連付けられた診断書に添付される疾患分類レポートが生成されてもよい。

ステップ４３０で、決定された画像ラベルの位置（例えば、画像ラベルが配置されている画像内の領域）もまた、任意選択でユーザに提供又はエクスポートされ得る。例えば、選択された医用画像の疾患領域を識別する境界ボックスが、診断書に添付されてもよい。ステップ４２５で画像特徴分類がユーザに提供された後、又はステップ４３０で決定された画像ラベルの位置が任意選択でユーザに提供又はエクスポートされた後に、プロセス４００は終了し得る。

例示的な実装形態の評価

表１：他のモデルとは異なりトレーニング時にいくつかのラベル付けされた境界ボックスを使用する本実施形態のモデル及びGoogleモデルという２つのベースラインモデルの分類及び位置特定の性能の概要。ラベル付けされた境界ボックスを使用しない最高性能モデルは太字で示されている。全モデルのうちの最高性能モデルはイタリック体の太字で示されている。

本実施形態の評価のために、NIH ChestXray14データセットを使用した。トリプレット損失実験では、第１のタスクは、データセット内の１４のラベル付けされた疾患のマルチラベル分類である。第２のタスクは、データセット内に局所特徴が存在しないGradCAMを使用した８つの疾患の位置特定である。

局所特徴を用いる実験のために、本実施形態を３つの疾患のバイナリモデルと比較した。これは、局所特徴が他の疾患からの影響を混乱させることなく各疾患について性能が向上するか否かを、より明確に示すはずである。局所特徴が役立つかどうかを調べるための局所特徴実験にバイナリモデルを使用したが、この方法は、STN＋トリプレット損失モデルに統合され得る。疾患は、心肥大、腫瘤、及び結節である。これらの疾患のための分類テストセットは、マルチラベル分類での３つの疾患のためのテストデータと同じである。位置特定テストセットは、ラベル付けされた境界ボックスを有するテストデータのサブセットである。

ＳＴＮ及びトリプレット損失の結果

２つのベースラインモデルChestX-ray14(NIHによる)及びCheXNextは、本実施形態のモデル（STN＋トリプレット）との比較に使用した。ベースラインモデルChestX-ray14は、画像表現を計算するために４つの画像解析モデル（即ち、AlexNet、GoogLeNet、VGGNet-16、及びResNet-50）を使用して比較した。CheXNextは、DenseNet121を使用すると、ChestX-ray14（NIHによる）に使用されるモデルよりも性能が優れていることを示した。どちらのベースラインモデルも、疾患分類に次いで位置特定を実行する。本実施形態のモデルをGoogleモデル[2]とも比較した。Googleモデル[2]は、位置特定モデルをトレーニングするために境界ボックスラベルの７０％を使用した。境界ボックスラベルは、医師が手動でラベル付けする必要があり、これは通常のやり方ではないので、取得するのが困難である。

表１は、２つのベースラインモデルChestX-ray14及びCheXNextと追加データを使用するGoogleモデルについての分類及び位置特定の性能を示す。トレーニングにいくつかのラベル付けされた境界ボックスを使用しないモデルのうちでは、本実施形態のモデル（STN＋トリプレット）が、分類及び位置特定の両方で全体的に最も優れた性能を発揮した。加えて、本実施形態のモデルはまた、トレーニング中により多くのラベル付けされたデータを利用するGoogleモデルの性能に近い性能を発揮した。

各疾患での４つのモデルのより詳細な性能は、図５及び図６に示されている。図５は、ベースラインモデル、本実施形態のモデル、及びトレーニング中にいくつかのラベル付けされた境界ボックスを使用したGoogleモデルの分類精度を示す。図６は、ベースラインモデル、本実施形態のモデル、及びトレーニング中にいくつかのラベル付けされた境界ボックスを使用したGoogleモデルの、ＩoＵを使用して測定した位置特定性能を示す。

局所特徴を使用したトレーニング

これらの実験では、局所特徴を使用するトレーニングの有効性を、単層疾患分類器を備えるDenseNet121で構成されたベースラインモデルと比較した。全体画像からの特徴と共に局所特徴を使用することで性能が向上するかどうかを評価するために、疾患ごとに個別のバイナリ分類器を作成した。

表２：ベースラインモデル及びアクティベーションマップを正規化する２つの異なる方法を用いて計算された局所特徴を有するモデルの分類精度。最高のテストモデル精度は太字で示されている。

上記の表２は、２つの異なる正規化方法で計算された局所特徴を使用するベースラインモデル及び２つのモデルについての、異なる疾患に対する分類精度を示す。精度評価では、３つの疾患すべてにわたって正規化方法のいずれかと共に局所特徴が使用される場合に、テスト精度の一貫した改善が認められた。対照的に、最高性能の検証精度はベースラインモデルに対するものであったが、最高の検証性能は最高のテスト性能にはならなかった。局所特徴を採用する２つのモデルの両方についての検証とテストとの性能差は、ベースラインよりも小さかった。小さな差は、局所特徴がモデルを新しいデータによりよく一般化するのに役立つことを示している可能性がある。

表３：予め定めた閾値よりも大きいＩｏＵ(Intersection over Union)を用いて評価された異なるモデルの位置特定テスト性能。最高モデル位置特定性能は太字で示されている。

表３は、表２と同じモデルの位置特定性能を比較している。ベースラインモデルは、ＩｏＵ閾値が０．１の心肥大に対してのみ、両方の局所特徴モデルよりも優れた性能を発揮した。最小アクティベーション値によって正規化するnorm1の方法は、３つのケースでベースラインよりも性能が良かった。一方、norm2の方法は、２つのケースでベースラインよりも性能が良かった。

表２及び表３の結果から、予測された局所特徴の使用が、３つのテスト疾患にわたってテスト分類精度を一貫して改善したことがわかる。さらに、局所特徴モデルはベースラインモデルよりも幾分優れていた。各々が２つの条件で最高の位置特定性能を示し、そのうち１つの条件はＩｏＵが０．５であり、より高いオーバラップを必要とするより厳しい基準であった。ベースラインモデルは、１つの条件で最高の性能を示し、この条件はＩｏＵ閾値が０．１とあまり厳しくない基準であった。

定性的な結果

図７及び図８は、マルチラベルトリプレットモデルを使用した、例示的なヒートマップと、疾患の予測位置（赤いボックス）及び疾患の正解位置（緑のボックス）とを示す。図７は、真の疾患が０．５より高い確率で予測され、正解の境界ボックスと予測された疾患の境界ボックスとの間に少なくとも０．５のＩｏＵがある場合の例を示す。図８は、不正確な予測の例を示す。最初の２列は正しい境界ボックスを有するケースを示しているが、予測された疾患の確率は０．５未満であり、これは正しくない。３番目の列は境界ボックスが正しくないケースを示しており、予測された疾患の確率は０．５より高くても高くなくてもよい。

例示的なコンピューティング環境

図９は、いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置９０５を備えた例示的なコンピューティング環境９００を示す。コンピューティング環境９００におけるコンピュータ装置９０５は、１又は複数の処理ユニット、コア、若しくはプロセッサ９１０、メモリ９１５（例えば、ＲＡＭ、ＲＯＭ、及び／又は同様のもの）、内部記憶装置９２０（例えば、磁気、光、固体記憶装置、及び／又は有機）、及び／又はＩ／Ｏインターフェース９２５を含むことができる。これらのいずれも、情報を通信するために通信機構又はバス９３０に接続されてもよく、又はコンピュータ装置９０５に内蔵されていてもよい。

コンピュータ装置９０５は、入力／ユーザインターフェース９３５及び出力装置／インターフェース９４０に通信可能に接続されていてもよい。入力／ユーザインターフェース９３５及び出力装置／インターフェース９４０の一方又は両方は、有線又は無線インターフェースとすることができ、着脱可能とすることができる。入力／ユーザインターフェース９３５は、入力を提供するために使用され得る、物理的若しくは仮想的な任意の装置、コンポーネント、センサ、又はインターフェース（例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング／カーソル制御、マイク、カメラ、点字、モーションセンサ、光学式リーダなど）を含んでいてもよい。

出力装置／インターフェース９４０は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでいてもよい。いくつかの例示的な実装形態において、入力／ユーザインターフェース９３５及び出力装置／インターフェース９４０は、コンピュータ装置９０５に内蔵されていてもよく、又はコンピュータ装置９０５に物理的に接続されていてもよい。他の例示的な実装形態では、他のコンピュータ装置は、コンピュータ装置９０５についても入力／ユーザインターフェース９３５や、出力装置／インターフェース９４０として機能してもよく、又はそれらの機能を提供してもよい。これらの要素は、ユーザがＡＲ環境とやりとりできるように、公知のＡＲハードウェア入力を含み得るが、これに限定されるものではない。

コンピュータ装置９０５の例は、これに限定されるものではないが、高度なモバイル装置（例えば、スマートフォン、車両及び他の機械に搭載された装置、人間及び動物によって携行される装置など）、モバイル装置（例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど）、及び移動用に設計されていない装置（例えば、デスクトップコンピュータ、サーバ装置、他のコンピュータ、情報キオスク、１又は複数のプロセッサが内蔵された及び／又はそれに接続されたテレビ、ラジオなど）を含んでいてもよい。

コンピュータ装置９０５は、同一又は異なる構成の１又は複数のコンピュータ装置を含む、任意の数のネットワークコンポーネント、装置、及びシステムと通信するために、外部記憶装置９４５及びネットワーク９５０に（例えば、Ｉ／Ｏインターフェース９２５を介して）通信可能に接続されていてもよい。コンピュータ装置９０５又は任意の接続されたコンピュータ装置は、サーバ、クライアント、シンサーバ、汎用マシーン、専用マシーン、又は他のラベルのサービスを提供するように機能してもよく、又はそのように呼ばれてもよい。

Ｉ／Ｏインターフェース９２５は、これに限定されるものではないが、コンピューティング環境９００内の少なくとも全ての接続されたコンポーネント、装置、及びネットワークとの間で情報を通信するために、任意の通信又はＩ／Ｏプロトコル又は標準規格（例えば、イーサネット（登録商標）、８０２．１１ｘ、ユニバーサルシステムバス、ＷｉＭａｘ、モデム、セルラーネットワークプロトコルなど）を使用する有線及び／又は無線インターフェースを含むことができる。ネットワーク９５０は、任意のネットワーク又はネットワークの組み合わせ（例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど）とすることができる。

コンピュータ装置９０５は、一時的媒体及び非一時的媒体を含むコンピュータ使用可能な媒体又はコンピュータ可読媒体を利用して、使用及び／又は通信することができる。一時的媒体は、伝送媒体（例えば、金属ケーブル、光ファイバ）、信号、搬送波などを含む。非一時的媒体は、磁気媒体（例えば、ディスク及びテープ）、光媒体（例えば、ＣＤ−ＲＯＭ、ディジタルビデオディスク、ブルーレイディスク）、固体媒体（例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、固体記憶装置）、及び他の不揮発性記憶装置又はメモリを含む。

コンピュータ装置９０５は、いくつかの例示的なコンピューティング環境において、技術、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実行するために使用されてもよい。コンピュータ実行可能命令は、一時的媒体から取得されてもよく、非一時的媒体に記憶されて非一時的媒体から取得されてもよい。実行可能命令は、プログラミング言語、スクリプト言語、及び機械語（例えば、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、ビジュアルベーシック、パイソン、パール、ＪａｖａＳｃｒｉｐｔ（登録商標）など）のうちの１又は複数から生成されてもよい。

プロセッサ９１０は、ネイティブな環境又は仮想環境において、任意のオペレーティングシステム（ＯＳ）（図示しない）の下で動作することができる。論理ユニット９５５、アプリケーションプログラミングインターフェース（ＡＰＩ）ユニット９６０、入力ユニット９６５、出力ユニット９７０、空間変換器９７５、特徴埋め込み器９８０、画像分類器９８５、ローカライザ９９０、及び異なるユニットが互いに通信すると共にＯＳや他のアプリケーション（図示しない）と通信するためのユニット間通信機構９９５を含む１又は複数のアプリケーションが展開されてもよい。

例えば、出力ユニット９７０、空間変換器９７５、特徴埋め込み器９８０、画像分類器９８５、及びローカライザ９９０は、図４に示される１又は複数のプロセスを実施してもよく、図１から図３のアーキテクチャを実装してもよい。説明されたユニット及び要素は、設計、機能、構成、又は実施において異なる可能性があり、提供された説明に限定されるものではない。

いくつかの例示的な実装形態では、情報又は実行命令がＡＰＩユニット９６０によって受信されると、これは１又は複数の別のユニット（例えば、空間変換器９７５、特徴埋め込み器９８０、画像分類器９８５、及びローカライザ９９０）に伝送されてもよい。例えば、空間変換器９７５は、画像を共通の向きに対して回転及び拡大縮小させるために、１又は複数の画像を変換し得る。特徴埋め込み器９８０は、転送された画像から画像特徴を抽出して埋め込むことができる。画像分類器９８５は、埋め込まれた画像特徴に基づいて、変換画像の特徴を分類し得る。ローカライザ９９０は、画像分類を支援するために、埋め込まれた画像特徴分類に関連付けられた画像位置を決定し得る。

いくつかの場合において、論理ユニット９５５は、上述したいくつかの例示的な実装形態において、ユニット間の情報フローを制御し、ＡＰＩユニット９６０、空間変換器９７５、特徴埋め込み器９８０、画像分類器９８５、及びローカライザ９９０によって提供されるサービスを導くように構成されてもよい。例えば、１又は複数のプロセス又は実施形態のフローは、論理ユニット９５５によって単独で、又はＡＰＩユニット９６０と連携して制御されてもよい。

いくつかの例示的な実装形態が図示され、説明されてきたが、これらの例示的な実装形態は、本明細書に記載される主題を当業者に伝えるために提供される。本明細書に記載された主題は、記載された例示的な実装形態に限定されることなく、様々な形態で実施されてもよいと理解されるべきである。本明細書に記載された主題は、具体的に定義若しくは記載された事項を使用して、又は記載されていない他の若しくは異なる要素若しくは事項を使用して実施することができる。当業者は、添付の特許請求の範囲及びその均等物で定義された本明細書に記載された主題から逸脱することなく、これらの例示的な実装形態に対して変更を行うことができることを理解するであろう。

Claims

ニューラルネットワークを使用して画像特徴を分類する方法であって、
トリプレット損失プロセスを使用して前記ニューラルネットワークをトレーニングするステップと、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップとを含み、
前記ニューラルネットワークをトレーニングするステップが、
前記ニューラルネットワークをトレーニングするために使用されるアンカー画像及び前記アンカー画像に関連付けられた画像ラベルを取得すること、
前記アンカー画像と少なくとも１つの画像ラベルを共有するポジティブ画像及び前記ポジティブ画像に関連付けられた画像ラベルを選択すること、
前記アンカー画像と画像ラベルを共有していないネガティブ画像及び前記ネガティブ画像に関連付けられた画像ラベルを選択すること、
画像特徴埋め込みネットワークを使用して、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、
前記ニューラルネットワークによって、前記アンカー画像の前記画像埋め込みに基づいて前記アンカー画像から抽出された画像特徴を分類すること、
及び、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた前記画像埋め込みに基づいてトリプレット損失を計算して、前記画像特徴の分類重み付けを決定することを含む、
方法。
前記ニューラルネットワークをトレーニングするステップが、
前記画像埋め込みに関連付けられた前記アンカー画像から抽出された分類済みの前記画像特徴と、前記アンカー画像に関連付けられた前記画像ラベルとに基づいてマルチラベル損失を計算すること、
及び、損失の加重合計を使用して、前記マルチラベル損失を計算された前記トリプレット損失と結合することをさらに含む、請求項１に記載の方法。
前記ニューラルネットワークをトレーニングするステップが、
空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々を変換し、共通のビューの向きを確立することをさらに含む、
請求項２に記載の方法。
前記ニューラルネットワークをトレーニングするステップが、
前記分類済みの前記画像特徴に関連付けられた画像ラベル位置を決定すること、
決定された前記画像ラベル位置に関連付けられた特徴を抽出すること、
前記ニューラルネットワークを使用して、決定された前記画像ラベル位置に関連付けられた前記特徴を分類すること、
決定された前記画像ラベル位置に関連付けられた前記特徴に関連付けられた局所画像分類損失を決定すること、
及び、損失の加重合計を使用して、前記マルチラベル損失を前記局所画像分類損失及び前記トリプレット損失と結合することをさらに含む、
請求項２に記載の方法。
前記トレーニング済みニューラルネットワークを使用して、前記テストデータ画像上の画像ラベル位置を特定するステップをさらに含む、請求項４に記載の方法。
前記ニューラルネットワークをトレーニングするステップが、
決定された前記画像ラベル位置に関連付けられた前記特徴であって抽出された前記特徴に基づいて、前記アンカー画像の新しい画像埋め込みを生成すること、
及び、前記ニューラルネットワークによって、前記新しい画像埋め込みに基づいて、前記アンカー画像から抽出された前記特徴を分類することをさらに含む、
請求項４に記載の方法。
前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々は、１又は複数の疾患に関連付けられた医療診断画像である、請求項４に記載の方法。
ニューラルネットワークを使用して画像特徴を分類する方法であって、
トリプレット損失プロセスを使用して前記ニューラルネットワークをトレーニングするステップと、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップとを含み、
前記ニューラルネットワークをトレーニングするステップが、
前記ニューラルネットワークをトレーニングするために使用されるアンカー画像及び前記アンカー画像に関連付けられた画像ラベルを取得すること、
画像特徴埋め込みネットワークを使用して、前記アンカー画像に関連付けられた画像埋め込みを生成すること、
前記ニューラルネットワークによって、前記アンカー画像の前記画像埋め込みに基づいて前記アンカー画像から抽出された画像特徴を分類すること、
分類済みの前記画像特徴に関連付けられた画像ラベル位置を決定すること、
決定された前記画像ラベル位置に関連付けられた特徴を抽出すること、
前記ニューラルネットワークを使用して、決定された前記画像ラベル位置に関連付けられた前記特徴を分類すること、
及び、決定された前記画像ラベル位置に関連付けられた前記特徴に関連付けられた局所画像分類損失を決定することを含む、
方法。
前記ニューラルネットワークをトレーニングするステップが、
前記画像埋め込みに関連付けられた前記アンカー画像から抽出された分類済みの前記画像特徴と、前記アンカー画像に関連付けられた前記画像ラベルとに基づいてマルチラベル損失を計算すること、
及び、損失の加重合計を使用して、前記マルチラベル損失を前記局所画像分類損失と結合することをさらに含む、
請求項８に記載の方法。
前記トレーニング済みニューラルネットワークを使用して、前記テストデータ画像上の画像ラベル位置を特定するステップをさらに含む、請求項８に記載の方法。
前記ニューラルネットワークをトレーニングするステップが、
決定された前記画像ラベル位置に関連付けられた前記特徴であって抽出された前記特徴に基づいて、前記アンカー画像の新しい画像埋め込みを生成すること、
及び、前記ニューラルネットワークによって、前記新しい画像埋め込みに基づいて、前記アンカー画像から抽出された前記特徴を分類することをさらに含む、
請求項９に記載の方法。
前記ニューラルネットワークをトレーニングするステップが、
前記アンカー画像と少なくとも１つの画像ラベルを共有するポジティブ画像及び前記ポジティブ画像に関連付けられた画像ラベルを選択すること、
前記アンカー画像と画像ラベルを共有していないネガティブ画像及び前記ネガティブ画像に関連付けられた画像ラベルを選択すること、
前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた前記画像埋め込みに基づいてトリプレット損失を計算して、前記画像特徴の分類重み付けを決定すること、
及び、損失の加重合計を使用して、前記マルチラベル損失を前記局所画像分類損失及び前記トリプレット損失と結合することをさらに含み、
前記画像特徴埋め込みネットワークを使用して前記画像埋め込みを生成することが、前記画像特徴埋め込みネットワークを使用して、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた画像埋め込みを生成することを含む、
請求項９に記載の方法。
前記ニューラルネットワークをトレーニングするステップが、
空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々を変換し、共通のビューの向きを確立するステップをさらに含む、
請求項１２に記載の方法。
前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々は、１又は複数の疾患に関連付けられた医療診断画像である、請求項１２に記載の方法。
コンピュータに、
トリプレット損失プロセスを使用してニューラルネットワークをトレーニングするステップと、
トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップと、
を実行させるためのプログラムであって、
前記ニューラルネットワークをトレーニングするステップが、
前記ニューラルネットワークをトレーニングするために使用されるアンカー画像及び前記アンカー画像に関連付けられた画像ラベルを取得すること、
前記アンカー画像と少なくとも１つの画像ラベルを共有するポジティブ画像及び前記ポジティブ画像に関連付けられた画像ラベルを選択すること、
前記アンカー画像と画像ラベルを共有していないネガティブ画像及び前記ネガティブ画像に関連付けられた画像ラベルを選択すること、
画像特徴埋め込みネットワークを使用して、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、
前記ニューラルネットワークによって、前記アンカー画像の前記画像埋め込みに基づいて前記アンカー画像から抽出された画像特徴を分類すること、
分類済みの前記画像特徴に関連付けられた画像ラベル位置を決定すること、
決定された前記画像ラベル位置に関連付けられた特徴を抽出すること、
前記ニューラルネットワークを使用して、決定された前記画像ラベル位置に関連付けられた前記特徴を分類すること、
決定された前記画像ラベル位置に関連付けられた前記特徴に関連付けられた局所画像分類損失を決定すること、
前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた前記画像埋め込みに基づいてトリプレット損失を計算して、前記画像特徴の分類重み付けを決定すること、
及び、損失の加重合計を使用して、前記局所画像分類損失及び前記トリプレット損失を結合することを含む、
プログラム。
前記ニューラルネットワークをトレーニングするステップが、
前記画像埋め込みに関連付けられた前記アンカー画像から抽出された分類済みの前記画像特徴と、前記アンカー画像に関連付けられた前記画像ラベルとに基づいてマルチラベル損失を計算すること、
及び、損失の加重合計を使用して、前記マルチラベル損失を前記局所画像分類損失及び前記トリプレット損失と結合することをさらに含む、
請求項１５に記載のプログラム。
前記ニューラルネットワークをトレーニングするステップが、
空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々を変換し、共通のビューの向きを確立するステップをさらに含む、
請求項１６に記載のプログラム。
前記トレーニング済みニューラルネットワークを使用して、前記テストデータ画像上の画像ラベル位置を特定するステップをさらに含む、請求項１６に記載のプログラム。
前記ニューラルネットワークをトレーニングするステップが、
決定された前記画像ラベル位置に関連付けられた前記特徴であって抽出された前記特徴に基づいて、前記アンカー画像の新しい画像埋め込みを生成すること、
及び、前記ニューラルネットワークによって、前記新しい画像埋め込みに基づいて、前記アンカー画像から抽出された前記特徴を分類することをさらに含む、
請求項１８に記載のプログラム。
前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々は、１又は複数の疾患に関連付けられた医療診断画像である、請求項１９に記載のプログラム。